0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

阿里讀唇AI幫助5億聽障人士

汽車玩家 ? 來(lái)源:venturebeat ? 作者:venturebeat ? 2019-12-06 16:00 ? 次閱讀

阿里又出黑科技。新的唇語(yǔ)閱讀 AI 系統(tǒng)在識(shí)別準(zhǔn)確率表現(xiàn)上不僅超越基線標(biāo)準(zhǔn),也優(yōu)于專家級(jí)人類水平,有望為全球近 5 億聽障人士帶來(lái)福音。

阿里巴巴又出黑科技,AI 看唇語(yǔ)知內(nèi)容!

實(shí)際上,能夠從視頻中讀取嘴唇的 AI 和機(jī)器學(xué)習(xí)算法并沒有什么不同。早在 2016 年,來(lái)自 Google 和牛津大學(xué)的研究人員就詳細(xì)介紹了一種系統(tǒng),該系統(tǒng)可以 46.8% 的準(zhǔn)確度注釋視頻錄像,這個(gè)表現(xiàn)明顯優(yōu)于專業(yè)唇語(yǔ)識(shí)別人士 12.4% 準(zhǔn)確度。但是,即使是最先進(jìn)的系統(tǒng),也難以克服唇語(yǔ)識(shí)別時(shí)的歧義問題,這使唇語(yǔ) AI 的性能一直難以超越音頻語(yǔ)音識(shí)別

為了追求更好的性能,浙江阿里巴巴公司和史蒂文斯理工學(xué)院的研究人員聯(lián)合設(shè)計(jì)了一種方法,稱為 LIBS,該方法利用從語(yǔ)音識(shí)別器中提取的特征作為唇語(yǔ)識(shí)別時(shí)的補(bǔ)充信息。研究人員表示,LIBS 系統(tǒng)在兩個(gè)基準(zhǔn)測(cè)試中都達(dá)到了業(yè)界領(lǐng)先的準(zhǔn)確度,在識(shí)別字符錯(cuò)誤率方面,LIBS 分別較基線性能高出 7.66% 和 2.75%。

LIBS 和其他類似的解決方案一樣,都可以幫助聽障人士觀看缺少字幕的視頻。據(jù)估計(jì),全世界有 4.66 億人患有失能性聽力障礙,約占世界人口的5%。根據(jù)世界衛(wèi)生組織的數(shù)據(jù),到 2050 年,這一數(shù)字可能會(huì)超過 9 億。

LIBS 會(huì)從說話人的視頻中以多種不同尺度提取有用的音頻信息,包括序列級(jí)、上下文級(jí)和幀級(jí)。然后,系統(tǒng)會(huì)識(shí)別這些信息之間的對(duì)應(yīng)關(guān)系,將數(shù)據(jù)與視頻數(shù)據(jù)進(jìn)行對(duì)齊(由于開頭或結(jié)尾有時(shí)會(huì)出現(xiàn)采樣率不一致、視頻和音頻序列的長(zhǎng)度不一致等情況),并利用過濾技術(shù)來(lái)優(yōu)化蒸餾功能。


LIBS 系統(tǒng)架構(gòu)示意圖

LIBS 的語(yǔ)音識(shí)別器和口語(yǔ)閱讀器組件均基于注意力的 seq2seq 體系結(jié)構(gòu),這是一種機(jī)器翻譯方法,可將序列的輸入(即音頻或視頻)映射到帶有標(biāo)簽的輸出和注意力值上。研究人員對(duì)上述內(nèi)容在 LRS2 和 CMLR 數(shù)據(jù)集上進(jìn)行了訓(xùn)練,LRS2 包含來(lái)自 BBC 的 45000 多個(gè)口語(yǔ)句子,CMLR 則是最大的中文普通話口語(yǔ)語(yǔ)料庫(kù),包括了來(lái)自中國(guó)網(wǎng)絡(luò)電視臺(tái)網(wǎng)站的 10 萬(wàn)余個(gè)自然句(包括 3000 多個(gè)漢字和 20000 多個(gè)短語(yǔ))。

不過,研究團(tuán)隊(duì)也表示,由于某些句子長(zhǎng)度太短,該模型難以在 LRS2 數(shù)據(jù)集上實(shí)現(xiàn)“合理的”結(jié)果。(解碼器從少于 14 個(gè)字符的句子中提取相關(guān)信息時(shí)會(huì)遇到困難。)但是,一旦對(duì)最大長(zhǎng)度為 16 個(gè)單詞的句子進(jìn)行了預(yù)訓(xùn)練,解碼器將可以通過對(duì)上下文級(jí)別的知識(shí)進(jìn)行設(shè)置,提高 LRS2 數(shù)據(jù)中句子結(jié)尾部分的質(zhì)量。

研究人員在描述其工作的論文中寫道:“ LIBS 減少了對(duì)無(wú)關(guān)框架的關(guān)注。” “幀級(jí)知識(shí)提煉進(jìn)一步提高了視頻幀特征的可分辨性,使注意力更加集中?!?/p>

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29806

    瀏覽量

    268106
  • 語(yǔ)音識(shí)別
    +關(guān)注

    關(guān)注

    38

    文章

    1710

    瀏覽量

    112493
  • 阿里
    +關(guān)注

    關(guān)注

    6

    文章

    433

    瀏覽量

    32792
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    阿里達(dá)成股東訴訟和解協(xié)議 阿里同意支付超30元和解

    阿里的消息總是被大家關(guān)注;我們看到在26日,阿里巴巴集團(tuán)發(fā)布了一份公告,公告中稱阿里同意支付4.335美元(換算下來(lái)約30.87元人民幣
    的頭像 發(fā)表于 10-28 16:28 ?278次閱讀

    阿里巴巴季報(bào)出爐 阿里云二季度營(yíng)收增長(zhǎng)6%

    調(diào)整EBITA利潤(rùn)達(dá)到450.35。阿里巴巴的季度經(jīng)營(yíng)業(yè)績(jī)超出市場(chǎng)預(yù)期。AI則是一個(gè)大亮點(diǎn);AI正推動(dòng)阿里云重回增長(zhǎng)。
    的頭像 發(fā)表于 08-16 16:45 ?439次閱讀

    阿里云推出首個(gè)域名AI大模型應(yīng)用

    阿里云近日宣布其域名產(chǎn)品服務(wù)已全面完成AI化升級(jí),并成功推出首個(gè)基于通義大模型的域名AI應(yīng)用。此次升級(jí)不僅引入了“.ai”等40多個(gè)熱門新域名后綴,還納入了2000萬(wàn)個(gè)全球域名資源,極
    的頭像 發(fā)表于 08-09 14:55 ?450次閱讀

    Cohere融資5美元,加速AI賽道競(jìng)爭(zhēng)步伐

    據(jù)最新金融時(shí)報(bào)報(bào)道,加拿大人工智能初創(chuàng)企業(yè)Cohere在最新一輪融資中成功籌集了高達(dá)5美元的資金,這一壯舉不僅鞏固了其在全球AI領(lǐng)域的領(lǐng)先地位,也顯著提升了其與行業(yè)巨頭如OpenAI
    的頭像 發(fā)表于 07-23 14:38 ?491次閱讀

    阿里與京東將發(fā)行可轉(zhuǎn)債,擬募集超50美元資金

    5 月 23 日消息,彭博社透露,阿里巴巴正在考慮發(fā)行可轉(zhuǎn)債籌集大約 50 美元資金,以支持股票回購(gòu)及業(yè)務(wù)增長(zhǎng)。據(jù)悉,阿里已與投行溝通發(fā)行事宜,且最早有望于本周啟動(dòng)發(fā)行程序。
    的頭像 發(fā)表于 05-23 16:13 ?573次閱讀

    阿里云 all in AI 的決心

    “第一個(gè)提出MaaS的阿里云,能否成為云廠商在AI時(shí)代變革的新范本?”如何抓住AI的機(jī)會(huì)?這是進(jìn)入大模型時(shí)代后,面對(duì)新的起點(diǎn),各大云廠商在不斷思考的問題。毋庸置疑,AI與云已經(jīng)成為緊密
    的頭像 發(fā)表于 05-17 08:04 ?323次閱讀
    <b class='flag-5'>阿里</b>云 all in <b class='flag-5'>AI</b> 的決心

    阿里宣布派發(fā)約40美元股息 財(cái)報(bào)顯示AI相關(guān)收入實(shí)現(xiàn)三位數(shù)同比增長(zhǎng)

    阿里宣布派發(fā)約40美元股息 財(cái)報(bào)顯示AI相關(guān)收入實(shí)現(xiàn)三位數(shù)同比增長(zhǎng) 日前,阿里巴巴集團(tuán)發(fā)布了2024財(cái)年Q4及全年業(yè)績(jī)數(shù)據(jù);財(cái)報(bào)顯示阿里業(yè)
    的頭像 發(fā)表于 05-15 12:13 ?737次閱讀

    虹軟PhotoStudio AI入駐阿里1688平臺(tái),加碼B2B商拍服務(wù)!

    虹軟PhotoStudio? AI(簡(jiǎn)稱PSAI)喜迎新進(jìn)展,已于5月11日正式入駐阿里1688平臺(tái),將為數(shù)千萬(wàn)網(wǎng)商提供高效、便捷的AI商拍服務(wù)。
    的頭像 發(fā)表于 05-13 11:43 ?530次閱讀
    虹軟PhotoStudio <b class='flag-5'>AI</b>入駐<b class='flag-5'>阿里</b>1688平臺(tái),加碼B2B商拍服務(wù)!

    創(chuàng)客打造智能眼鏡,助人士理解手語(yǔ)

    據(jù)悉,知名創(chuàng)客Nekhil近期將樹莓派進(jìn)行深度改裝,成功研發(fā)出一款可用于解讀手語(yǔ)的智能眼鏡,以解決人士的溝通問題。
    的頭像 發(fā)表于 04-23 15:32 ?403次閱讀

    阿里云內(nèi)部全面推行AI寫代碼

    阿里云正在內(nèi)部全面推行 AI 編程,使用通義靈碼輔助程序員寫代碼、代碼、查 BUG、優(yōu)化代碼等。
    的頭像 發(fā)表于 04-07 09:22 ?517次閱讀

    阿里大模型“通義悟”升級(jí)

    阿里旗下的強(qiáng)大模型產(chǎn)品“通義悟”近日迎來(lái)了一系列功能升級(jí),其中包括備受矚目的音視頻問答助手“小悟”的正式上線。這一新功能憑借出色的多語(yǔ)言Query處理能力、長(zhǎng)篇章文本理解能力以及指令演化框架優(yōu)化
    的頭像 發(fā)表于 03-21 11:30 ?967次閱讀

    大模型初創(chuàng)公司MiniMax估值超25美元

    近日,據(jù)業(yè)內(nèi)消息人士透露,阿里巴巴集團(tuán)已經(jīng)領(lǐng)投了中國(guó)AI初創(chuàng)公司MiniMax的新一輪融資,此次融資后,MiniMax的估值已經(jīng)飆升至超過25美元,顯示出市場(chǎng)對(duì)該公司的高度認(rèn)可與期待
    的頭像 發(fā)表于 03-07 10:39 ?1378次閱讀

    讓“聾人”看到聲音 行空板 —“AI助聽器”

    世界上有各種各樣的殘障人士,這些人或不能說話,或聽不見聲音。聾人,是聽力因先天遺傳或后天人為因素而受損的殘疾人,也叫聽力障礙者,簡(jiǎn)稱人。根據(jù)最近的全國(guó)人口普查統(tǒng)計(jì),全中國(guó)大約有2700多萬(wàn)
    的頭像 發(fā)表于 01-12 13:12 ?382次閱讀

    阿里為何拋售小鵬28股份 只是基于阿里的資本管理目標(biāo)

    3.91美元(按照匯率換算下來(lái)約27.68元人民幣)。 而截止 12月6日 淘寶中國(guó)持有小鵬大約10.2%的流通股;是第二大股東。所以第二大股東的動(dòng)作引發(fā)市場(chǎng)更多想象。但是實(shí)際上算上減持后的占比,阿里仍然是小鵬汽車的第二大股
    的頭像 發(fā)表于 12-17 18:22 ?1173次閱讀

    阿里云發(fā)布AI大模型,谷歌地?zé)犴?xiàng)目助力綠色能源轉(zhuǎn)型

    大家好,歡迎收看河套IT WALK第124期。 今天,阿里云發(fā)布了具有720參數(shù)的大型語(yǔ)言模型Qwen-72B,這一創(chuàng)新將助力多語(yǔ)言AI的發(fā)展,掀開了AI技術(shù)在全球溝通和數(shù)據(jù)處理方面
    的頭像 發(fā)表于 12-01 20:15 ?798次閱讀
    <b class='flag-5'>阿里</b>云發(fā)布<b class='flag-5'>AI</b>大模型,谷歌地?zé)犴?xiàng)目助力綠色能源轉(zhuǎn)型