Amazon Echo和Google Home中的語音用戶界面(語音UI)功能吸引了消費者的注意。語音識別系統(tǒng)的效率很大程度上取決于麥克風陣列和算法集合,這些算法允許陣列聚焦于用戶的語音并拒絕不需要的噪聲。下面解釋這些算法的基本功能。
觸發(fā)/喚醒詞
語音 UI 系統(tǒng)使用分配的觸發(fā)詞(如“Alexa”或“確定谷歌”)來激活語音 UI 設備。設備必須使用自己的算法立即進行識別,因為使用互聯(lián)網(wǎng)資源會產生太多的延遲。
觸發(fā)詞必須產生一個獨特的波形,該波形可以使算法與正常語音區(qū)分開來,否則成功識別的百分比可能低得令人無法接受。通常,使用三到五個音節(jié)的觸發(fā)詞是最好的。
小觸發(fā)詞算法占用較少的內存和處理,但犯更多的錯誤,而大的算法需要更多的資源,但犯的錯誤更少。模型也是可調的 - 它們可以更嚴格(更少的誤報,但更難觸發(fā))或更寬松(更多的誤報,但更容易觸發(fā))。大多數(shù)產品設計師選擇更嚴格的調整,因為客戶對錯誤觸發(fā)沒有同情心。
圖 1 比較了不同調諧點的三觸發(fā)模型的性能。在測試條件下,每小時實現(xiàn)少于兩個錯誤觸發(fā)器是一個合理的目標。小模型只能通過圖形最左側的兩個最嚴格的調諧來實現(xiàn)這一點。中型和大型型號在更寬的工作范圍內實現(xiàn)了這一目標。
圖 1. 每小時使用小型、中型和大型算法模型測試誤報,左側調整更嚴格,右側調整更寬松。
到達目的地(到達方向)
一旦觸發(fā)詞被識別出來,下一步就是確定用戶語音的到達方向(DOA)。一旦確定了方向,DOA算法就會告訴波束成形算法它應該聚焦在哪個方向。
DOA算法的核心功能是檢查來自陣列中不同麥克風的信號的相位關系,并使用此信息來確定哪個麥克風首先接收聲音。但是,由于來自墻壁,地板,天花板和房間內其他物體的反射,用戶的聲音也將從其他方向傳來。為此,DOA算法包括優(yōu)先邏輯,它將更響亮的初始到達與更安靜的反射分開。
DOA 算法的操作通過自動調整環(huán)境噪聲水平得到增強。該算法測量房間內的平均噪聲水平,并且僅當輸入信號至少比環(huán)境噪聲水平高出一定數(shù)量的分貝時,才會重新計算用戶嘴巴的位置。
回聲消除器
為了更好地關注用戶的聲音,語音 UI 設備必須從其麥克風拾取的聲音中減去自己的揚聲器產生的聲音。這似乎很簡單,就像將節(jié)目材料的相位反轉版本混合到來自麥克風的信號中一樣簡單。然而,該過程不足以處理揚聲器對波形的改變、數(shù)字信號處理(DSP)均衡、麥克風和聲學反射。
AEC算法中的第一步是將麥克風的輸出與原始(前DSP)輸入信號進行比較,并計算校正曲線,以從語音命令的波形中減去揚聲器的直接聲音。
第二步是減去聲學回聲。該算法必須在一定的誤差范圍內“尋找”與節(jié)目材料匹配的聲音(以補償由聲學引起的波形變化),以及對應于預期混響時間的已定義時間窗口內的聲音。由于每個麥克風接收的回聲集略有不同,并且來自揚聲器的直接聲音也不同,因此要實現(xiàn)最佳性能,需要對每個麥克風進行單獨的 AEC 處理。
AEC 查找反射的時間段稱為“回波尾部長度”?;芈曃膊块L度越長,可以消除的反射越多,算法的性能就越好。然而,較長的尾巴需要更多的內存和更多的處理。圖2顯示了回聲消除器在逐漸增加混響的房間中的表現(xiàn)。對更長的回聲尾部的需求是顯而易見的。
圖 2. 回聲消除器在四個房間中表現(xiàn),混響時間增加。較大的房間受益于使用長回聲尾部的算法。
波束成形
波束成形允許麥克風陣列聚焦于來自特定方向的聲音。它提高了信噪比(SNR),因為它有助于隔離用戶的聲音,同時抑制來自其他方向的聲音。
例如,如果用戶位于麥克風陣列的一側,而空調位于另一側,則來自空調的聲音首先到達用戶對面的麥克風,然后在幾分之一秒后到達離用戶最近的麥克風。波束成形算法使用這些時差來消除空調聲音,同時保留用戶的聲音。
具有兩個麥克風的陣列取消聲音的能力有限,但具有三個或更多麥克風的陣列可以消除來自更多方向的聲音。麥克風越少,性能就越會隨著視角(用戶的聲音與語音 UI 產品前軸之間的角度)的變化而變化。
噪
雖然麥克風陣列系統(tǒng)使用定向拾音模式來濾除噪聲,但某些噪聲可以通過識別將噪聲與所需信號分離的特性,然后消除噪聲的算法進行衰減。降噪算法可以幫助觸發(fā)單詞識別,并在所有其他算法完成其工作后提高語音UI性能。
語音命令是瞬時事件??梢?a target="_blank">檢測到始終存在或重復的任何聲音,并將其從來自麥克風陣列的信號中刪除。示例包括汽車中的道路噪聲,以及家庭中的洗碗機和HVAC系統(tǒng)噪聲。高于或低于人聲頻譜的聲音也可以從信號中濾除。
手機中使用的常見降噪算法傾向于突出顯示對人類理解最關鍵的頻譜,而不是對電子系統(tǒng)隔離和理解語音命令最關鍵的頻譜。大多數(shù)此類算法實際上會降低語音 UI 性能。簡單地說,人類聽的東西與語音UI系統(tǒng)不同。
圖3顯示了在有和沒有降噪的情況下觸發(fā)字檢測的功效。降噪算法將整體語音識別提高了2 dB -考慮到用戶的聲音通常僅比周圍噪聲大幾dB,這是一個很大的差異。
圖 3. 降噪算法對觸發(fā)字檢測的影響。
審核編輯:郭婷
-
dsp
+關注
關注
552文章
7960瀏覽量
347981 -
觸發(fā)器
+關注
關注
14文章
1995瀏覽量
61014
發(fā)布評論請先 登錄
相關推薦
評論