10月30日消息,剛剛結(jié)束的李佳琦直播間里,剁手黨通過阿里語音機(jī)器人首次實現(xiàn)與主播的實時互動。直播過程中,數(shù)十萬用戶同時用語音回答李佳琦的提問,最終機(jī)器人在50毫秒內(nèi)就完成了語音識別和語音反饋全過程,反應(yīng)速度是傳統(tǒng)語音的20倍。
淘寶直播間觀眾用語音與李佳琦互動
今年雙11期間,淘寶直播間推出 “語音猜價格”功能,觀眾在直播間也能實現(xiàn)語音交互,例如動動嘴就可以響應(yīng)主播發(fā)出的猜產(chǎn)品價格任務(wù)。語音機(jī)器人成為決定這一互動過程能否順暢的關(guān)鍵。
據(jù)介紹,一場淘寶直播的觀眾數(shù)量可達(dá)百萬甚至千萬,并且用戶分布在全國各地,口音差異較大,目前主流的語音技術(shù)方案很難做到短時間內(nèi)快速響應(yīng)如此體量的用戶語音,例如類似Siri識別用戶語音的響應(yīng)時長就在1秒以上,無法滿足直播場景強(qiáng)互動的要求。
此次淘寶直播間采用了達(dá)摩院最新的移動端離線端到端語音識別技術(shù)。基于全新的網(wǎng)絡(luò)結(jié)構(gòu)和語音識別框架,即便在低配手機(jī)上,也能在50毫秒內(nèi)完成語音交互過程,速度是傳統(tǒng)語音識別的20倍;此外,該技術(shù)還解決了快語速、重口音等問題,高難度場景中的語音識別錯誤率降低近三成。
達(dá)摩院語音實驗室技術(shù)專家萬玉龍表示,“在實時性要求極高的場景,傳統(tǒng)的云端語音方案無法滿足需求,這套語音技術(shù)的創(chuàng)新在于同時實現(xiàn)了識別速度和準(zhǔn)確度的提升,語音AI模型部署在每個用戶的淘寶直播APP上,即便直播間有千萬級別的用戶,AI也不會漏聽慢判?!?/p>
過去幾年,阿里語音AI在基礎(chǔ)研究和應(yīng)用上取得了一系列突破。2019年,阿里語音AI入選《麻省理工評論》“全球十大突破性技術(shù)”,是唯一上榜的中國科技公司;今年7月IDC發(fā)布的《中國AI云服務(wù)市場半年度研究報告》顯示,阿里語音AI以44%的市場份額,在云上語音AI市場中位居第一。
責(zé)任編輯:PSY
-
機(jī)器人
+關(guān)注
關(guān)注
210文章
28126瀏覽量
205888 -
語音識別
+關(guān)注
關(guān)注
38文章
1712瀏覽量
112503 -
Siri
+關(guān)注
關(guān)注
4文章
205瀏覽量
36986 -
阿里
+關(guān)注
關(guān)注
6文章
433瀏覽量
32793
發(fā)布評論請先 登錄
相關(guān)推薦
評論