由B12、觀數(shù)·涂子沛頻道主辦,智東西、良倉加速器、騰訊大浙網(wǎng)、創(chuàng)享基金聯(lián)合主辦的第二屆萬物互聯(lián)創(chuàng)新大會(huì)「創(chuàng)業(yè)下一潮水:大數(shù)據(jù)與智能時(shí)代」在杭州召開。本次大會(huì)邀請(qǐng)國(guó)內(nèi)外的尖端大腦,用一場(chǎng)盛大的跨界聚會(huì),帶你突破人類延伸的極限,探索人工智能的未來,創(chuàng)造腦洞大開的生產(chǎn)力。
圖1 思必馳VP雷雄國(guó)演講現(xiàn)場(chǎng)
你一定有所意識(shí),人工智能的應(yīng)用已經(jīng)逐漸滲透到生活的方方面面,并開始影響、改變?nèi)藗兊母鞣N習(xí)慣。在人工智能覆蓋的眾多應(yīng)用里,語音識(shí)別無疑是最接地氣也是落地最快的,例如,語音助手已經(jīng)成為了智能手機(jī)的標(biāo)配。
不過,語音識(shí)別的下一個(gè)戰(zhàn)場(chǎng)并不是智能手機(jī)行業(yè),國(guó)內(nèi)外企業(yè)已經(jīng)紛紛把目光投向了市場(chǎng)空間更大的物聯(lián)網(wǎng)領(lǐng)域,這是語音識(shí)別乃至人工智能領(lǐng)域的一個(gè)最新的動(dòng)向。在昨天的第二屆萬物互聯(lián)創(chuàng)新大會(huì)上,思必馳副總裁雷雄國(guó)分享了語音識(shí)別公司的下一個(gè)突破口以及面臨的挑戰(zhàn)。
語音識(shí)別將成為萬億級(jí)的物聯(lián)網(wǎng)設(shè)備的標(biāo)配
其實(shí)上午有聊到很多的例子,訊飛聽見的語音識(shí)別其實(shí)已經(jīng)達(dá)到一個(gè)很高的水平。怎么樣才能讓未來機(jī)器為人服務(wù),能夠幫人完成任務(wù)這件事情,事實(shí)上還有很長(zhǎng)的路要走。我們回頭來看互聯(lián)網(wǎng)以及交互方式的發(fā)展,能夠看到一個(gè)比較清晰的脈絡(luò)。
我們已經(jīng)完成了從PC互聯(lián)網(wǎng)到移動(dòng)互聯(lián)網(wǎng)的跨越,下一個(gè)階段將是物聯(lián)網(wǎng)(IoT),而在這個(gè)發(fā)展過程中,用戶數(shù)基數(shù)是呈倍數(shù)增長(zhǎng)的。雷雄國(guó)認(rèn)為,圍繞硬件形態(tài)以及聯(lián)網(wǎng)的形態(tài),在上述轉(zhuǎn)變過程中,交互模式也在不斷的發(fā)生變化。
傳統(tǒng)的PC端,無外乎網(wǎng)頁的搜索,文字形的。再到手機(jī)端是通過觸屏的方式,甚至有一些帶語音交互的APP,甚至包括手機(jī)自帶的一些語音服務(wù),都逐步從實(shí)驗(yàn)室走向大眾消費(fèi)者。舉個(gè)例子,蘋果早在iPhone 4s上就加入了語音工具siri,在此之后,siri在每一代iPhone中都有質(zhì)的提升。從最開始命令式的控制,到最后聊天式,再到現(xiàn)在蘋果未來大的方向,它真正能夠達(dá)到一個(gè)助理、個(gè)人秘書的產(chǎn)品發(fā)展方向。
不過,智能手機(jī)市場(chǎng)已經(jīng)遇到了天花板,語音識(shí)別公司也必須做出戰(zhàn)略上的改變。那么手機(jī)之后,還有什么設(shè)備會(huì)集成語音識(shí)別的功能呢?
雷雄國(guó)給出的答案是所有物聯(lián)網(wǎng)設(shè)備,小至智能音響,大到汽車、風(fēng)力發(fā)電機(jī),這些設(shè)備的交互方式都會(huì)因語音識(shí)別在未來得到改變。而這樣的改變也是必然趨勢(shì),“因?yàn)樗赡軟]有屏幕,或者屏幕非常小,這個(gè)時(shí)候語音的交互顯得尤為重要?!?/p>
毫無疑問,如果每一臺(tái)物聯(lián)網(wǎng)設(shè)備都植入語音識(shí)別功能,那么以萬億級(jí)出貨量的物聯(lián)網(wǎng)市場(chǎng)來算,這將會(huì)是一個(gè)巨大的市場(chǎng)空間。
挑戰(zhàn):如何從聽見到聽懂?
這和語音交互密不可分,可以說語音交互第一個(gè)入口就是語音識(shí)別,語音交互能夠得到快速的發(fā)展得益于聲學(xué)模型、語言模型以及聲學(xué)處理這三個(gè)核心技術(shù)的逐步成熟,以及移動(dòng)互聯(lián)網(wǎng)時(shí)代收集的大量數(shù)據(jù)。
不過,雷雄國(guó)也坦言,雖然語音識(shí)別已經(jīng)達(dá)到非常高的可用化程度,但要從聽見到聽懂,還有很多挑戰(zhàn)要克服。例如,對(duì)于人說話習(xí)慣的適應(yīng),以及在人使用這個(gè)設(shè)備時(shí)不同的場(chǎng)景,不同的噪音環(huán)境都會(huì)有比較大的條件。在這些深入垂直領(lǐng)域需要更多的技術(shù)人員,以及創(chuàng)業(yè)的團(tuán)隊(duì),甚至像BAT這些大公司投入比較大的力量,把這些核心技術(shù)攻關(guān)掉。
從學(xué)術(shù)角度講,有一種語義不確定性,即同一句話,它能夠代表的意思根據(jù)上下文,根據(jù)你所在的用戶使用場(chǎng)景,會(huì)是非常大的不一樣。
雷雄國(guó)表示,圍繞這個(gè)不確定性,在學(xué)術(shù)界語音識(shí)別公司要從語義,以及從多輪交互上,甚至在統(tǒng)計(jì)模型上做一些比較深入的解決方案出來,才能準(zhǔn)確的識(shí)別信息;另外,深度神經(jīng)網(wǎng)絡(luò)也將在語音識(shí)別問題上發(fā)揮重要作用。
除此之外,在機(jī)器人以及其它形態(tài)的智能硬件中,因?yàn)榻换ゾ嚯x會(huì)比手機(jī)更遠(yuǎn),所以還需要加入一些遠(yuǎn)場(chǎng)降噪的核心技術(shù),同時(shí)在應(yīng)用場(chǎng)景上需要把一些回聲對(duì)消做上去,這樣使得整個(gè)交互場(chǎng)景更加的人性化,體驗(yàn)會(huì)更好。
具體來講,從聽見到聽懂的過程就是人機(jī)對(duì)話。雷雄國(guó)表示,人機(jī)對(duì)話可以分成三類:第一類,閑聊式的,舉個(gè)例子,用戶說“我餓了”,siri會(huì)跟你說,你餓了就去吃飯唄,它的應(yīng)用場(chǎng)景非常有限;第二是問答式對(duì)話,例如,用戶問現(xiàn)在是幾點(diǎn)鐘了,語音助手就會(huì)給出確定的回答;第三類是最熱的任務(wù)式對(duì)話,它會(huì)結(jié)合你個(gè)人很多信息,然后綜合去判斷接下來怎么樣去做歸零,完成一個(gè)任務(wù)。
這是一個(gè)完全不同的場(chǎng)景,例如你還是說我餓了,任務(wù)式對(duì)話會(huì)問你要吃什么菜,什么口味,大概是什么價(jià)位,以及你能夠承受送貨的時(shí)間是多少,等等這一系列的對(duì)話,通過這種對(duì)話式交互之后,最后才幫你解決問題,這是對(duì)話式交互核心要素。
雷雄國(guó)介紹,在任務(wù)對(duì)話模式下,要完成“我餓了”到實(shí)現(xiàn)定餐的閉環(huán),有兩個(gè)核心點(diǎn):第一是語義,一定要理解“我餓了”,他并沒有說要買什么東西,一定要理解他在這個(gè)情景下需要定餐;第二,對(duì)于這個(gè)意圖的跟蹤,多輪次的交互要結(jié)合上下文,甚至在縱向緯度需要結(jié)合你的日常,例如,未來我們可能會(huì)和阿里后臺(tái)一些數(shù)據(jù)做一些對(duì)接,對(duì)于你餓了的習(xí)慣做一些多緯度的決策依據(jù),做更人性化的自然語言交互。
這和傳統(tǒng)一輪式的語音交互(語音輸入進(jìn)去,理解后給一個(gè)反饋)有很大的區(qū)別,我們需要有關(guān)于對(duì)話的管理,以及對(duì)于環(huán)境和當(dāng)前對(duì)話所在的知識(shí)理解更為系列的后臺(tái)知識(shí)庫,圍繞這些知識(shí)庫做不同的反饋。最終的效果就是,不同的人說相同的話,機(jī)器也能給出不同的反饋。
??中國(guó)為何造不出Echo??
在眾多語音識(shí)別和智能硬件的結(jié)合案例里,亞馬遜的Echo無疑是最受追捧的一個(gè)產(chǎn)品。但遺憾的是,中國(guó)有大量的智能硬件公司,也有不少優(yōu)秀的語音識(shí)別企業(yè),卻并沒有一款像Echo這樣的產(chǎn)品。
雷雄國(guó)認(rèn)為這主要有兩個(gè)原因:
其中一個(gè)很重要的原因是交互并沒有做好,我們知道亞馬遜在做Echo這件事情上面投入非常大,第一是2C產(chǎn)品本身的事情上。萬眾創(chuàng)新,雙創(chuàng)的這兩年里死了非常多的創(chuàng)業(yè)企業(yè),這里說明一件事情,要把硬件2C產(chǎn)品做好是非常難的一件事。
第二,人工智能整個(gè)語音交互,以及它背后不僅僅是語音識(shí)別,包括語義,包括你們聽懂它之后,里面的內(nèi)容和服務(wù)都是非常大的挑戰(zhàn)。我們能夠欣喜的看到國(guó)內(nèi)有出類似的產(chǎn)品,但是并沒有把這個(gè)熱潮,把這個(gè)產(chǎn)品做成一個(gè)爆款。
綜合這兩個(gè)原因,我們可以理解為語音識(shí)別的落地需要以模式創(chuàng)新和技術(shù)創(chuàng)新為基礎(chǔ),盡管要做到這兩點(diǎn)道阻且長(zhǎng),但可以確定的是,未來語音識(shí)別將無處不在,也是最有效地交互方式之一。
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2902文章
44122瀏覽量
370427 -
語音識(shí)別
+關(guān)注
關(guān)注
38文章
1713瀏覽量
112504 -
人工智能
+關(guān)注
關(guān)注
1791文章
46698瀏覽量
237196
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論