語(yǔ)音交互無(wú)論是人與人溝通,還是AI人工智能時(shí)代人與機(jī)器人互動(dòng)以及機(jī)器人與機(jī)器人之間的交互等都是最為基礎(chǔ)重要的一種方式。
對(duì)于今天AI人工智能時(shí)代基本的平臺(tái)載體--機(jī)器人來(lái)說(shuō),人機(jī)語(yǔ)音交互必須首先具有的主要功能之一。
盡管?chē)?guó)內(nèi)的科大訊飛,百度以及目前最為火爆的國(guó)外Chat GPT已經(jīng)在人機(jī)語(yǔ)音交互技術(shù)上不斷地進(jìn)行突破,特別是Chat GPT給人的體驗(yàn)感。相信人機(jī)語(yǔ)音交互近年來(lái)市場(chǎng)化的應(yīng)用會(huì)帶來(lái)較大的變革與突破。但這多年實(shí)際市場(chǎng)上幾乎人機(jī)語(yǔ)音交互仍然還停留在最為初級(jí)還不足以支撐一個(gè)基本完整場(chǎng)景下的人與人交互的效果。
我們通過(guò)2016年至今2000臺(tái)左右機(jī)器人不同產(chǎn)業(yè)領(lǐng)域場(chǎng)景實(shí)際市場(chǎng)上的反饋以及人機(jī)語(yǔ)音交互市場(chǎng)化要求的不斷探索已基本上找到并驗(yàn)證過(guò)的方法與路徑。
首先我們回歸分析日常人與人語(yǔ)言交流的場(chǎng)景狀況。其主要特點(diǎn)如下:
1交談的主要內(nèi)容話(huà)題:無(wú)論是初次見(jiàn)面還是相識(shí)后的交流,基本上都是群體(行業(yè)/公司/朋友/親戚等)內(nèi)的相關(guān)的內(nèi)容。
2內(nèi)容的屬性:大部分溝通的內(nèi)容中是不便對(duì)外界完全可公開(kāi)的。也就是說(shuō)具有一定范圍群體的私密性。
3內(nèi)容的范圍延展性: 交談的內(nèi)容有些是已發(fā)生的;有些是計(jì)劃要做的;有些是即興而說(shuō)的。
4內(nèi)容的頻次與關(guān)聯(lián)性:前后交流的內(nèi)容話(huà)題基本上關(guān)聯(lián)度比較高;前后之間交流內(nèi)容的跨度不大,內(nèi)容頻次較高。
5公共話(huà)題內(nèi)容:交流中也會(huì)涉及到與話(huà)題引發(fā)的公眾內(nèi)容,也就是可以對(duì)任何人不存在隱私的內(nèi)容。
6交互的時(shí)長(zhǎng)與內(nèi)容跨度:一般交流的時(shí)間與交談內(nèi)容的跨度不會(huì)很大。
然后我們?cè)賮?lái)分析一下人機(jī)語(yǔ)音交互內(nèi)容的主要方法:
目前主流方法就是通過(guò)對(duì)相關(guān)大數(shù)據(jù)的訓(xùn)練并賦予模型深度學(xué)習(xí)的辦法。當(dāng)然效果要好就需要有大量的相關(guān)數(shù)據(jù)資源以及技術(shù)團(tuán)隊(duì)包括資金的支撐。
最后的結(jié)論與正確的做法路徑
1 我們從上述方法與人與人溝通的主要特點(diǎn)對(duì)比不難看出:目前主流做法訓(xùn)練出的人機(jī)語(yǔ)音交互還是不能支撐替代人與人實(shí)際交流溝通場(chǎng)景的主要內(nèi)容。
2 正確的做法就是:基于訊飛/百度/Chat GPT基礎(chǔ)上+自有系統(tǒng)上的數(shù)據(jù)庫(kù)(這個(gè)才是支撐交互溝通內(nèi)容的主要部分)而且這個(gè)數(shù)據(jù)庫(kù)的內(nèi)容也必須由用戶(hù)/相關(guān)人自己隨時(shí)根據(jù)實(shí)際需要來(lái)完善增添。
3我們近2年來(lái)通過(guò)上述辦法開(kāi)發(fā)的人機(jī)語(yǔ)音交互軟件,通過(guò)實(shí)際用戶(hù)的使用體驗(yàn)以及與別家的對(duì)比;效果非常明顯;用戶(hù)體驗(yàn)感強(qiáng);愿意使用,評(píng)價(jià)較高。當(dāng)然我們會(huì)繼續(xù)按此思路不斷完善升級(jí)軟件。
-
機(jī)器人
+關(guān)注
關(guān)注
210文章
28103瀏覽量
205852 -
人機(jī)語(yǔ)音
+關(guān)注
關(guān)注
0文章
3瀏覽量
7134
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論