人工智能的熱潮驅(qū)動了整個行業(yè)的發(fā)展,智能語音作為最天然的交互手段,自然備受關注。在語音交互引起傳統(tǒng)交互變革的今天,智能車載領域成為了變革的先鋒,尤其是后裝市場,智能語音似乎已經(jīng)成為了車載場景交互的標配。
國內(nèi)專注智能語音的企業(yè)競爭越來越膠著。阿里,語音客服儼然已成為剛需;百度,強大的搜索資源庫成為了百度語音的后備力量;科大訊飛,依托政府項目,在教育、醫(yī)療、智慧城市等領域也占據(jù)著市場優(yōu)勢;樂視推出樂樂語音,改變著樂視超級電視的交互方式;愛奇藝、360、等也都在紛紛涉足語音技術。專業(yè)的語音公司更是憑借著特色的解決方案,風頭正盛。在這其中,交互方式的簡單便捷,成為幾乎所有語音交互方案追求的一大效果。
講到語音交互的簡單與便捷,思必馳于2016年10月20日升級版的AIO3.1新增的one-shot功能吸引了行業(yè)極大的關注。AIOS For Car是思必馳于2015年10月針對智能車載后裝市場推出的一款對話操作系統(tǒng),主要應用在車機、智能后視鏡、HUD,以及互聯(lián)網(wǎng)汽車等產(chǎn)品上。2016年6月,思必馳將其升級至AIOS3.0版本,新增7大功能, 10月20日,思必馳再次發(fā)力,升級至AIOS3.1版本,積淀許久的one-shot功能也終于揭開神秘面紗。
one-shot一語即達
思必馳將one-shot功能描述為“一把說”,這一描述也十分的生動形象,貼近實際。
圖1 思必馳one-shot一把說
one-shot一把說,采用“喚醒詞+語音語義識別”一體化方式,實現(xiàn)喚醒詞與語音操控之間零間隔、零延遲、無縫對接,摒棄傳統(tǒng)的一問一答的形式,極大減少用戶語音操控的步驟,實現(xiàn)信息反饋,化繁為簡,實現(xiàn)簡便操作,但這樣的簡便在設計之初卻并不簡單。
one-shot的一大特點是識別喚醒與語義理解一體化,保證語音交互的統(tǒng)一性與連貫性,完成操控。舉個簡單的例子來講,過去智能語音的交互方式為一問一答,用戶發(fā)出喚醒詞指令,需要設備反饋待機信息,然后才能開始交互,例如:
用戶:你好小馳(喚醒詞指令)
設備:有什么可以幫您?(設備反饋,表示處于信息接收狀態(tài))
用戶:我要去機場
設備:開始為您導航去機場
one-shot功能卻可以一語即中,實現(xiàn)“喚醒詞+語音語義識別”一體化,比如實現(xiàn)這樣的交互:
用戶:你好小馳,我要去機場
設備:開始為您導航去機場
相比傳統(tǒng),這樣的體驗似乎更具效率?;蛟S未來,在人機交互中,機器通過采集用戶的行為習慣數(shù)據(jù),追蹤用戶意圖,實現(xiàn)如下的對話,也并非不可能:
甲:我一直有個問題想問你
乙:愛過….
系統(tǒng)響應速度及精準度始終是用戶關心的一大問題。AIOS3.1中的one-shot功能采用本地+云端混合引擎模式。語音喚醒和常用的語音指令識別存儲在本地,系統(tǒng)接收反應靈敏,語音識別能夠準確及時的響應。與此同時,連續(xù)語音識別和語義理解進行云端處理,基于場景,收集用戶習慣數(shù)據(jù),通過深度學習,分析并追蹤用戶意圖,保證語義理解精準性。本地加云端的混合引擎處理,既保證了響應速度也確保了交互的精準,即使在沒有網(wǎng)絡的情況下,依然可以使用基本語音交互功能。
GUI圖形交互界面必然會繼續(xù)前進變革,VUI語音交互界面是一大發(fā)展趨勢。思必馳one-shot功能的發(fā)布,展示了其在VUI產(chǎn)品交互設計的深度思考。相信,通過不斷的提升語音交互體驗,VUI必然會在未來IOT行業(yè)的人機交互中引起越來越多的變革。
用技術說話:研發(fā)實力是關鍵
很多車載后裝產(chǎn)品用戶反映一個問題,就是使用車載語音時,說“我要去天安門”,系統(tǒng)可以響應,但是說“去天安門”時,系統(tǒng)無反應,這是為什么呢?實際上,這是因為一些語音方案商將“我要去”三個字固化為喚醒詞,而“去”、“我想去”這類詞與“我要去”不完全匹配,所以系統(tǒng)自然無法識別。這種交互方式,表面上被宣傳為“免喚醒”,實際上恰恰相反,系統(tǒng)通過采用大量喚醒詞來實現(xiàn),這樣做導致誤喚醒率極高、增加系統(tǒng)資源占用、可擴展性差,同時強迫用戶記憶,為用戶的安全駕駛帶來隱患。
就此問題,思必馳產(chǎn)品總監(jiān)雷雄國表示“思必馳用one-shot功能來解決這一問題,用戶想怎么說系統(tǒng)都可以理解,基于對應用場景的深度學習,系統(tǒng)能夠通過后臺用戶數(shù)據(jù)采集,分析用戶行為習慣,準確追蹤用戶意圖,克服刻板的關鍵詞識別,通過大詞匯數(shù)據(jù),實現(xiàn)場景的流暢交互”。
實然,語音技術企業(yè)的核心競爭力在語音技術研發(fā)實力、產(chǎn)品化落地及市場應用著陸,成為企業(yè)生存之道。一些企業(yè)堅持自主研發(fā),一些企業(yè)善于使用國際開源工具,比如,Google開源深度學習系統(tǒng)Tensor Flow。該系統(tǒng)支持支持CNN、RNN和LSTM算法等流行的深度神經(jīng)網(wǎng)絡模型,大大降低深度學習的應用難度,提升開發(fā)速度。但通用的開源工具有其效率和權限上的局限性,既無法滿足特定的前沿算法需求,也常常無法滿足用戶基于場景的個性化需求,不同專業(yè)領域的算法、數(shù)據(jù)、架構等都要依托實際應用進行搭建及優(yōu)化。
目前國內(nèi)智能語音行業(yè)中,深耕技術研發(fā)的企業(yè)并不多,比如在深度學習方面,百度研究院推出Deep Speech系統(tǒng),科大訊飛推出FSMNN算法模型,思必馳與上海交大聯(lián)合實驗室則獨立擁有VDCNN算法模型和PSD解碼架構。擁有獨立自主研發(fā)實力,才能結(jié)合產(chǎn)品特性、應用場景,深度定制交互方案。
圖2 思必馳one-shot一語即達
無論是新奇的one-shot功能,還是說傳統(tǒng)的語音交互,在人工智能時代,只有技術落地轉(zhuǎn)化為良好的產(chǎn)品體驗才能更好的繪出未來智能生活的景象,我們期待著更多新技術的發(fā)布,也期待著新技術給我們帶來的驚喜。
-
人工智能
+關注
關注
1789文章
46652瀏覽量
237060 -
智能車載
+關注
關注
0文章
53瀏覽量
9068 -
語音交互
+關注
關注
3文章
282瀏覽量
27963
發(fā)布評論請先 登錄
相關推薦
評論