0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

語(yǔ)音識(shí)別技術(shù)在智能語(yǔ)音機(jī)器人中的應(yīng)用

倩倩 ? 來(lái)源:lq ? 2019-06-12 11:24 ? 次閱讀

語(yǔ)音識(shí)別技術(shù)作為當(dāng)前人工智能落地最成熟的產(chǎn)品,在AI席卷全球時(shí),圍繞語(yǔ)音交互的產(chǎn)品之爭(zhēng)正愈演愈烈,大到國(guó)內(nèi)外科技巨頭、小到個(gè)人的創(chuàng)業(yè)團(tuán)隊(duì)都在暗流涌動(dòng),各種智能解決方案層出不窮。也正是因?yàn)檫@種趨勢(shì),才造就了人工智能領(lǐng)域內(nèi)語(yǔ)音交互技術(shù)的不斷完善和成熟,在技術(shù)和深度學(xué)習(xí)下,不斷登上新的高度。

但還是有人會(huì)不斷詢問:現(xiàn)在語(yǔ)音識(shí)別真的可以我們比嗎?在我們生活中,語(yǔ)言最重要的功能是傳遞信息,讓其他人知道我們的目的。在AI的領(lǐng)域里其實(shí)也是這一個(gè)功能,只是我們要機(jī)器人知道我們要做什么,怎么做。也許這就是關(guān)注的語(yǔ)音交互的關(guān)鍵,語(yǔ)音交互之所以越來(lái)越被重視,是因?yàn)榛ヂ?lián)網(wǎng)、智能硬件的普及,改變互聯(lián)網(wǎng)的入口方式,而語(yǔ)音就是最簡(jiǎn)單的,最直接的交互方式,是通用的互聯(lián)網(wǎng)輸入模式。

AI智能語(yǔ)音技術(shù)有力地推動(dòng)了人工智能與傳統(tǒng)電銷的深度融合發(fā)展。百靈語(yǔ)音機(jī)器人作為先進(jìn)的智能外呼方案,可以自動(dòng)多路外呼,高并發(fā),效率更高,每日可完成5-10倍的工作量;另外,百靈語(yǔ)音機(jī)器人還可以幫助銷售人員進(jìn)行話術(shù)設(shè)計(jì),保障溝通的有效性,不僅增強(qiáng)了客戶的服務(wù)體驗(yàn),還提高了銷售人員的工作積極性,全身心地投身到銷售工作中。

百靈語(yǔ)音機(jī)器人每天可模仿銷售精英打1000通次以上電話,篩選、分類、標(biāo)簽意向客戶、篩選出來(lái)意向客戶、自動(dòng)添加微信,成功率更高,公司銷售人員只需要跟進(jìn)意向客戶及后續(xù)簽單維護(hù)工作,幫助用戶解決催收,客服,房地產(chǎn),貸款,保險(xiǎn),教育等行業(yè)招人難、留人難、管理難等一系類問題。

除了語(yǔ)音識(shí)別,AI在語(yǔ)音合成、對(duì)話管理,問答等方面也做了很多工作,還包括在不同端上的信號(hào)處理,例如麥克風(fēng)陣列等等都是要去實(shí)踐的。這樣才能完成語(yǔ)音交互的完整過(guò)程。百靈語(yǔ)音機(jī)器人擁有前沿技術(shù),和全方位的售后服務(wù)。在當(dāng)前技術(shù)下,百靈語(yǔ)音機(jī)器人支持支持對(duì)話打斷,多種線路對(duì)接,也可以對(duì)接到移動(dòng)端,還可以轉(zhuǎn)接人工,而隨著技術(shù)的不斷升級(jí),大數(shù)據(jù)話術(shù)庫(kù)也在不斷累積沉淀,百靈語(yǔ)音機(jī)器人也在不斷自我深度學(xué)習(xí),各種新功能將會(huì)不斷完善,更加完美。

未來(lái)語(yǔ)音交互技術(shù)可能會(huì)大規(guī)模應(yīng)用,這是發(fā)展的趨勢(shì),并不是每個(gè)人都是算法或者人工智能領(lǐng)域的資深專家,需要一個(gè)不斷學(xué)習(xí)和迭代的過(guò)程。AI技術(shù)的應(yīng)用是一個(gè)系統(tǒng)工程,要有足夠的耐心去打通產(chǎn)品和體驗(yàn)的優(yōu)化鏈路,在應(yīng)用中不斷提升效果。

語(yǔ)音識(shí)別技術(shù)在智能語(yǔ)音機(jī)器人中的應(yīng)用,一般語(yǔ)音機(jī)器人的設(shè)計(jì)開發(fā)主要著眼于“能聽會(huì)說(shuō)”,力圖利用語(yǔ)音識(shí)別和語(yǔ)音合成等技術(shù),將模擬的聽說(shuō)能力賦予機(jī)器人并生動(dòng)地展示給觀眾,主要應(yīng)用于展廳博物館等場(chǎng)景,需考慮到機(jī)器人所處環(huán)境非常嘈雜,因此對(duì)系統(tǒng)的穩(wěn)定性和抗噪性能都提出了較高的要求。此外,由于參與的觀眾來(lái)自全國(guó)各地,涉及不同性別、年齡、地域口音,所以系統(tǒng)聲學(xué)模型的分類設(shè)計(jì)、調(diào)練和自動(dòng)切換也是一個(gè)重要的設(shè)計(jì)要素。

智能語(yǔ)音機(jī)器人的總體設(shè)計(jì)

智能機(jī)器人與觀眾采用相互問答的小型對(duì)話形式進(jìn)行交流。為實(shí)現(xiàn)上方便,可把問答對(duì)話的領(lǐng)域進(jìn)行合理的限制。除迎賓和問候語(yǔ)外,可以設(shè)計(jì)4個(gè)問題域:有關(guān)時(shí)間、日期和星期的問答,有關(guān)全世界各大城市所在時(shí)區(qū)和當(dāng)?shù)貢r(shí)間的問答,100以內(nèi)的數(shù)學(xué)四則運(yùn)算題目的問答,沒有關(guān)系機(jī)器人的身世、本領(lǐng)等自身情況的問答。對(duì)于每個(gè)限定的問題域,相應(yīng)詞匯表的大小是有限的。在限定領(lǐng)域、有限詞匯的條件下,機(jī)器人基本可以與觀眾進(jìn)行自由問答,并可以在不同的問題與之間相互切換。系統(tǒng)工作流程圖如下。

語(yǔ)音識(shí)別技術(shù)在智能語(yǔ)音機(jī)器人中的應(yīng)用

系統(tǒng)啟動(dòng)并初始化后處于等待狀態(tài),如果沒有觀眾靠近,機(jī)器人就定時(shí)反復(fù)播放自我介紹。如果有觀眾參觀(由紅外探測(cè)配合),系統(tǒng)檢測(cè)到語(yǔ)音信號(hào),便會(huì)從等待狀態(tài)進(jìn)入問答狀態(tài)。在觀眾預(yù)先選定的問題域內(nèi),機(jī)器人將和觀眾進(jìn)行“自由”問答,在回答觀眾提問的同時(shí),機(jī)器人會(huì)有協(xié)調(diào)的動(dòng)作加以配合:針對(duì)不同觀眾對(duì)機(jī)器人所提問題的不同回答,機(jī)器人會(huì)有不同的相應(yīng),并以此決定下一步的動(dòng)作。在某些問題域內(nèi),機(jī)器人在對(duì)文檔話過(guò)程中還會(huì)向觀眾提出一些問題,并等待觀眾回答。如果觀眾回答正確,機(jī)器人將表示祝賀,否則機(jī)器人將給出合理的提示(如噪聲太大,講話聲音要大點(diǎn),沒有聽清楚或者你的答案不正確等)。多次回答不正確時(shí),機(jī)器人將給出正確答案,機(jī)器人與觀眾對(duì)話結(jié)束后,向觀眾道別,再次轉(zhuǎn)入等待狀態(tài)。

核心語(yǔ)音模塊及關(guān)鍵技術(shù)

語(yǔ)音模塊是智能機(jī)器人的核心構(gòu)件,它完成的功能包括:機(jī)器人從外界接收觀眾的語(yǔ)街,送入語(yǔ)音識(shí)別器進(jìn)行識(shí)別,再?gòu)淖R(shí)別結(jié)果中提取若干關(guān)鍵詞,而后通過(guò)對(duì)這些關(guān)詞的分析,將其映射為某個(gè)問題:機(jī)器人再針對(duì)此問題生成回答,最后將文本形式的答案合成為語(yǔ)音,輸出給觀眾。如果觀眾的問題超出限定的對(duì)話范圍或者識(shí)別結(jié)果可信度不高,則在答案生成階段給出錯(cuò)誤提示,并由語(yǔ)音合成器輸出。如果機(jī)器人想向觀眾提出問題,也要由語(yǔ)音合成器合成后輸出,模塊的整體框架如下圖所示。

語(yǔ)音識(shí)別技術(shù)在智能語(yǔ)音機(jī)器人中的應(yīng)用

1.問題域相關(guān)的數(shù)據(jù)組織

機(jī)器人與觀眾的問答將限定在某個(gè)問題域內(nèi)進(jìn)行,針對(duì)每個(gè)問題域,我們確定了有限大小的“詞匯表”,并通過(guò)大量的語(yǔ)料訓(xùn)練出相應(yīng)的基于詞類的統(tǒng)計(jì)“語(yǔ)言模型”“關(guān)鍵詞表”可以從“詞匯表”中提煉得到,它記錄的是對(duì)于理解問題有實(shí)質(zhì)作用的詞匯及其相關(guān)信息,此外還要在“關(guān)鍵詞表”的基礎(chǔ)上形成“關(guān)鍵詞類型組合模板庫(kù)”,其中每個(gè)模板代表問題域內(nèi)的一類具體問題。

語(yǔ)音識(shí)別技術(shù)在智能語(yǔ)音機(jī)器人中的應(yīng)用

2.識(shí)別結(jié)果的可信度度量及拒識(shí)

從以上框圖可以看到,語(yǔ)音識(shí)別器的識(shí)別結(jié)果作為“關(guān)鍵詞提取”和“問題理解等后續(xù)各個(gè)步驟的原始輸入,它的正確與否直接影響到整個(gè)系的性能。

在限定領(lǐng)域限定詞匯量的條件下,如果觀眾的提問或回答不超出限定的詞匯,識(shí)別結(jié)果的正確率可以達(dá)到95%以上。但是,一旦問題超出限定的領(lǐng)域或者出現(xiàn)了集外詞,識(shí)別器的性能就會(huì)嚴(yán)重下降。因此對(duì)識(shí)別器識(shí)別結(jié)果的可信度進(jìn)行度量就顯得非常重要,它可以降低集外詞(OOV)帶來(lái)的不利影響。

我們采取的方法是利用統(tǒng)計(jì)語(yǔ)言模型衡量識(shí)別所得到的整個(gè)句子的可信度。如果一個(gè)句子的詞誤識(shí)率比較低,構(gòu)成這個(gè)句子的眾多三元短語(yǔ)(w1w2,w3),會(huì)比較多的出現(xiàn)在統(tǒng)計(jì)語(yǔ)言模型Trigram中;反之如果出現(xiàn)較多的識(shí)別錯(cuò)誤,那么句子中大部分的詞w1和元短語(yǔ)(wl,w2)將出現(xiàn)在Unigram或Bigram中,很少有三元短語(yǔ)命中Trigram對(duì)于一個(gè)由若干詞W,W2,,Wi,…Wn構(gòu)成的句子,我們根據(jù)各個(gè)詞及它所構(gòu)成的知語(yǔ)在統(tǒng)計(jì)語(yǔ)言模型中出現(xiàn)的情況對(duì)其中每個(gè)詞打分。出現(xiàn)在Trigram中的可信度高,因而得分較高,出現(xiàn)在Bigram或Unigram中的可信度低,因而得分較低。再在各個(gè)詞得分的基礎(chǔ)上得到整個(gè)句子的可信度得分。若得分低于某個(gè)門限,則認(rèn)為句子中包含較多的識(shí)別錯(cuò)誤或者集外詞,可信度較低,應(yīng)當(dāng)被拒識(shí)。

3.關(guān)鍵詞檢測(cè)

從識(shí)別器得到的識(shí)別結(jié)果,是由一個(gè)個(gè)詞構(gòu)成的詞序列,其中某些詞對(duì)于理解整個(gè)句子有著非常重要的作用,這就是我們所說(shuō)的關(guān)鍵詞。在這步要做的就是提取出這些關(guān)鍵詞,形成一個(gè)關(guān)鍵詞串,作為下一步問題理解”的輸入,這種處理同時(shí)也是為了降低“問題理解”時(shí)的難度。針對(duì)上面提到的四個(gè)問題域,我們分別設(shè)計(jì)了關(guān)鍵詞表,預(yù)先規(guī)定了在這一問題域內(nèi)的關(guān)鍵詞。這個(gè)關(guān)鍵表是語(yǔ)音識(shí)別系統(tǒng)中相應(yīng)問題域下的詞匯表的子集,記錄了每個(gè)關(guān)鍵詞的漢字串,類標(biāo)識(shí)和詞序號(hào)等信息。在提取關(guān)鍵詞時(shí),只需要在句子中進(jìn)行搜索,檢測(cè)到出現(xiàn)在關(guān)鍵間表的關(guān)鍵詞,記錄它們出現(xiàn)的位置和次序。比如一個(gè)句子“請(qǐng)問現(xiàn)在紐約的當(dāng)?shù)貢r(shí)間是幾點(diǎn)鐘?”我們可以提取出關(guān)鍵漢字串“現(xiàn)在紐約當(dāng)?shù)貢r(shí)間幾點(diǎn)鐘”以及對(duì)應(yīng)的關(guān)鍵詞類型串NOWCITY+LOCALTIME+CCLOCK”。對(duì)于不包含關(guān)鍵詞的句子我們把它視作無(wú)效或者錯(cuò)誤的輸入,給出相應(yīng)的提示。

4.問題理解和答案生成

“關(guān)鍵詞提取”得到的關(guān)鍵詞漢字串以及類型串將用于問題理解和答案生成。

在“問題理解”時(shí),主要用到關(guān)鍵詞類型串,通過(guò)與模板組合庫(kù)中的模板對(duì)照,可以把它映射到某一類具體問題上。比如上面例子中的“NOW+CITY+LOCALTIME+OCLOCK”,就可以映射為“詢問某城市的當(dāng)?shù)貢r(shí)間這類問題。在系統(tǒng)中針對(duì)每個(gè)不同的問題域,設(shè)計(jì)了許多關(guān)鍵字類型組合的模板,每個(gè)模板對(duì)應(yīng)一類問題。如果關(guān)鍵字類型串成功映射為某類問題,即可轉(zhuǎn)入“答案生成”,否則我們認(rèn)為問題無(wú)效和錯(cuò)誤在“答案生成”時(shí),已經(jīng)明確了問題的類型,相應(yīng)回答的基本句式就已經(jīng)確定,所需要的就是給句式賦予具體的內(nèi)容。利用“關(guān)鍵詞提取”得到的關(guān)鍵字漢字串和詞序號(hào)等信息,可以唯一地確定問題的具體內(nèi)容,并由此得到問題的最終答案。

以上介紹的是系統(tǒng)的總體結(jié)構(gòu)和流程設(shè)計(jì),針對(duì)機(jī)器人將要長(zhǎng)期展出的要求,以及其展出環(huán)境比較嘈雜觀眾類型復(fù)雜、年齡跨度大等特點(diǎn),還有許多實(shí)際問題需要解決。比如,針對(duì)現(xiàn)場(chǎng)環(huán)境噪聲和不同的觀眾類型需要現(xiàn)場(chǎng)采集數(shù)據(jù),進(jìn)行聲學(xué)模型訓(xùn)練;根據(jù)說(shuō)話人的不同聲學(xué)特性,要對(duì)說(shuō)話人進(jìn)行聚類,設(shè)計(jì)分類的聲學(xué)模型,并在線選擇、切換;另外還要設(shè)計(jì)不同的問題域,并組織數(shù)據(jù)和訓(xùn)練相應(yīng)的語(yǔ)言模型。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    210

    文章

    27838

    瀏覽量

    204574
  • 語(yǔ)音識(shí)別
    +關(guān)注

    關(guān)注

    38

    文章

    1696

    瀏覽量

    112247
  • 智能語(yǔ)音
    +關(guān)注

    關(guān)注

    10

    文章

    771

    瀏覽量

    48594
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    SPCE061A語(yǔ)音識(shí)別機(jī)器人應(yīng)用方案

    為了提高廣大單片機(jī)愛好者學(xué)習(xí)單片機(jī)的興趣,凌陽(yáng)科技大學(xué)計(jì)劃教育推廣中心推出了應(yīng)用SPCE061A作為主控制器,外加電機(jī)驅(qū)動(dòng)電路制作的語(yǔ)音識(shí)別機(jī)器人。該機(jī)器人采用特定人
    發(fā)表于 03-08 17:09

    智能避障語(yǔ)音遙控機(jī)器人

    我們?cè)O(shè)計(jì)的這款智能機(jī)器人,通過(guò)語(yǔ)音識(shí)別功能對(duì)智能機(jī)器人進(jìn)行遙控,遙控的
    發(fā)表于 10-26 22:50

    會(huì)物體識(shí)別語(yǔ)音識(shí)別的nao機(jī)器人

    是nao機(jī)器人的偉大之處。面部探測(cè)與識(shí)別這是最廣為人知的一項(xiàng)互動(dòng)功能。nao機(jī)器人可探測(cè)并學(xué)習(xí)記憶不同的面部,此后,它可對(duì)其進(jìn)行識(shí)別。語(yǔ)音
    發(fā)表于 02-13 14:09

    【TL6748 DSP申請(qǐng)】基于DSP的語(yǔ)音識(shí)別技術(shù)研究及實(shí)現(xiàn)

    :項(xiàng)目目標(biāo):識(shí)別語(yǔ)音智能機(jī)器人項(xiàng)目方案:首先由AD采集計(jì)算機(jī)聲仁的語(yǔ)音,經(jīng)過(guò)轉(zhuǎn)換后送給DSP,DSP完成
    發(fā)表于 10-09 15:08

    智能語(yǔ)音機(jī)器人

    ; 4.安卓手機(jī)控制設(shè)計(jì); 5.火災(zāi)、煤氣泄漏檢測(cè)及GSM報(bào)警系統(tǒng);理論依據(jù):1.傳感器物聯(lián)網(wǎng)中的應(yīng)用; 2.短距離無(wú)線信號(hào)定位; 3.向量空間理論與機(jī)器人運(yùn)動(dòng)學(xué); 4.人工智能機(jī)器
    發(fā)表于 12-02 19:08

    【龍邱Lark7618試用申請(qǐng)】智能語(yǔ)音機(jī)器人

    本人之前曾在貴公司買過(guò)LD3320語(yǔ)音模塊制作智能語(yǔ)音機(jī)器人,但因?yàn)長(zhǎng)D3320的語(yǔ)音命令和回復(fù)為設(shè)定好的不可更改,這給我的設(shè)計(jì)帶來(lái)了很大的
    發(fā)表于 05-30 21:56

    機(jī)器人語(yǔ)音需求

    本帖最后由 NAO語(yǔ)音外包 于 2017-6-28 09:19 編輯 現(xiàn)在亞馬遜Echo音箱很火爆,根據(jù)調(diào)研結(jié)果,可以機(jī)器人上,嵌入式板上集成語(yǔ)音功能,包含了
    發(fā)表于 06-28 09:13

    請(qǐng)問電銷機(jī)器人智能語(yǔ)音識(shí)別的原理是什么?

    一個(gè)人們最為關(guān)心的問題大概就是,電銷機(jī)器人如何做到語(yǔ)音識(shí)別,通俗來(lái)講,就是電銷機(jī)器人如何“聽懂”人們說(shuō)話?其實(shí)語(yǔ)音
    發(fā)表于 06-12 14:03

    AI語(yǔ)音智能機(jī)器人開發(fā)實(shí)戰(zhàn)

    ) "AI語(yǔ)音識(shí)別機(jī)器人"網(wǎng)絡(luò)通信編碼與實(shí)現(xiàn)(7)AI語(yǔ)音識(shí)別解析的軟硬件實(shí)現(xiàn)現(xiàn)在凡報(bào)名本次直播課程,掃下方二維碼進(jìn)群,
    發(fā)表于 01-04 11:48

    【 平頭哥CB5654語(yǔ)音開發(fā)板試用連載】智能取貨機(jī)器人語(yǔ)音交互模組

    項(xiàng)目名稱:智能取貨機(jī)器人語(yǔ)音交互模組試用計(jì)劃:申請(qǐng)理由本人在機(jī)器人控制有七年多的學(xué)習(xí)和開發(fā)經(jīng)驗(yàn),曾參與設(shè)計(jì)過(guò)類似巡檢機(jī)器人,參與語(yǔ)音交互硬件開發(fā),對(duì)
    發(fā)表于 02-25 16:05

    【 平頭哥CB5654語(yǔ)音開發(fā)板試用連載】智能語(yǔ)音識(shí)別機(jī)器人

    項(xiàng)目名稱:智能語(yǔ)音識(shí)別機(jī)器人試用計(jì)劃:使用開發(fā)板完成智能機(jī)器人設(shè)計(jì),預(yù)期達(dá)到的目標(biāo)可以
    發(fā)表于 03-13 16:19

    AI智能語(yǔ)音機(jī)器人 揭秘讓企業(yè)電銷輕松拓客神器

    AI智能語(yǔ)音機(jī)器人是一款基于人工智能開發(fā)的,適用于產(chǎn)品業(yè)務(wù)或服務(wù)推廣需求的語(yǔ)音營(yíng)銷服務(wù)平臺(tái)!通過(guò)精準(zhǔn)語(yǔ)音
    發(fā)表于 07-21 22:54

    樹莓派的智能語(yǔ)音控制系統(tǒng)

    近幾年,隨著科技迅速發(fā)展,智能語(yǔ)音現(xiàn)實(shí)生活中的普及率越來(lái)越高,特別是語(yǔ)音識(shí)別、語(yǔ)音合成、
    發(fā)表于 09-07 08:55

    智能機(jī)器人語(yǔ)音識(shí)別技術(shù)

    語(yǔ)音控制的基礎(chǔ)就是語(yǔ)音識(shí)別技術(shù),可以是特定人或者非特定人的。非特定人的應(yīng)用更為廣泛,對(duì)于用戶而言不用訓(xùn)練,因此也更加方便。語(yǔ)音
    發(fā)表于 07-22 10:08 ?1.2w次閱讀
    <b class='flag-5'>智能</b><b class='flag-5'>機(jī)器人語(yǔ)音</b><b class='flag-5'>識(shí)別</b><b class='flag-5'>技術(shù)</b>

    語(yǔ)音合成技術(shù)智能機(jī)器人中的應(yīng)用

    語(yǔ)音合成技術(shù)智能機(jī)器人中的應(yīng)用!資料來(lái)源網(wǎng)絡(luò),如有侵權(quán),敬請(qǐng)?jiān)彛?/div>
    發(fā)表于 12-25 09:51 ?8次下載