、熟悉 Siri、Google Now、Cortana、S-Voice 和/或 Echo 的每個人都熟悉過去十年語音識別的進步和改進。這種改進大部分來自基于云的識別器在大數(shù)據(jù)上部署“深度學(xué)習(xí)”。
盡管它經(jīng)常不在聚光燈下,但嵌入式系統(tǒng)的語音識別已經(jīng)取得了很大進展。事實上,大多數(shù)主要的語音引擎都部署了嵌入式和基于云的識別的組合。這在“Hey Siri”、“OK Google”、“Hey Cortana”、“Hi Galaxy”和“Alexa”等命令中最為明顯。所有這些基于云的識別系統(tǒng)都使用嵌入的“觸發(fā)”短語來打開云連接,為語音識別做好準(zhǔn)備。
嵌入式觸發(fā)短語允許一些基于云的方法的改進和實用性。一方面,擁有一個“永遠(yuǎn)在線”的嵌入式識別器比讓你的對話上傳到云端讓谷歌和其他人以他們想要的任何方式分析要少得多。由于它在設(shè)備上,因此在說出觸發(fā)短語之前不會進行語音錄制或傳輸,并且觸發(fā)偵聽是實時完成的,而不會發(fā)送您的語音。
嵌入式喚醒觸發(fā)器也有實際原因,其中一個主要原因是功耗。僅在云中運行需要大量數(shù)據(jù)傳輸和分析,使得電池供電或“綠色”產(chǎn)品不切實際。許多主要的 DSP 公司都為“始終開啟”的 DSP 提供解決方案,這些 DSP 以 2 mA 或更低的電流運行 Sensory 的 TrulyHandsfree 喚醒觸發(fā)選項。使用健全的活動檢測方案,平均電池消耗可以低于 1 mA,將其置于電池泄漏領(lǐng)域。
嵌入式語音識別的其他流行用途是在需要對有限命令進行快速準(zhǔn)確響應(yīng)的設(shè)備中。我最喜歡的例子之一是三星 Galaxy 智能手機,在相機模式下,用戶可以啟用語音命令來拍照。這適用于我在 20 英尺遠(yuǎn)的安靜環(huán)境或 5 英尺遠(yuǎn)的嘈雜位置。這是隨身攜帶自拍桿的絕佳替代品,每當(dāng)我向人們展示此功能時,他們都會很快獲得并喜歡它。
嵌入式揚聲器驗證也被更頻繁地部署,并且通常被合并到喚醒觸發(fā)器中,以降低其他人喚醒您的設(shè)備的可能性。對于語音識別和說話人驗證,總是需要在錯誤接受(接受錯誤的用戶)和錯誤拒絕(拒絕正確的用戶)之間進行權(quán)衡。首選的喚醒觸發(fā)設(shè)置通常是以偶爾讓正確的人進入為代價來保持極低的錯誤拒絕。在需要更復(fù)雜的揚聲器驗證以確保安全的系統(tǒng)中,可以部署不需要最低要求的更復(fù)雜的算法功耗,以增加電流消耗為代價獲得更好的精度。
隨著消費產(chǎn)品和手機使用更復(fù)雜的處理器,我預(yù)計更高比例的語音識別使用將轉(zhuǎn)移到嵌入式設(shè)備,并且會出現(xiàn)“分層”語音識別方法,從而在設(shè)備上進行快速初始分析并做出響應(yīng)如果設(shè)備對成功有很高的信心(自我認(rèn)知),但如果它不太確定自己的響應(yīng)或需要基于云的搜索,則將其傳遞給云端。
審核編輯:郭婷
-
處理器
+關(guān)注
關(guān)注
68文章
18927瀏覽量
227249 -
嵌入式
+關(guān)注
關(guān)注
5046文章
18821瀏覽量
298624 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5422瀏覽量
120593
發(fā)布評論請先 登錄
相關(guān)推薦
評論