0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

在本地與云端部署語音識別

星星科技指導(dǎo)員 ? 來源:嵌入式計算設(shè)計 ? 作者:Todd Mozer ? 2022-07-09 07:31 ? 次閱讀

、熟悉 Siri、Google Now、Cortana、S-Voice 和/或 Echo 的每個人都熟悉過去十年語音識別的進步和改進。這種改進大部分來自基于云的識別器在大數(shù)據(jù)上部署“深度學(xué)習(xí)”。

盡管它經(jīng)常不在聚光燈下,但嵌入式系統(tǒng)的語音識別已經(jīng)取得了很大進展。事實上,大多數(shù)主要的語音引擎都部署了嵌入式和基于云的識別的組合。這在“Hey Siri”、“OK Google”、“Hey Cortana”、“Hi Galaxy”和“Alexa”等命令中最為明顯。所有這些基于云的識別系統(tǒng)都使用嵌入的“觸發(fā)”短語來打開云連接,為語音識別做好準(zhǔn)備。

嵌入式觸發(fā)短語允許一些基于云的方法的改進和實用性。一方面,擁有一個“永遠(yuǎn)在線”的嵌入式識別器比讓你的對話上傳到云端讓谷歌和其他人以他們想要的任何方式分析要少得多。由于它在設(shè)備上,因此在說出觸發(fā)短語之前不會進行語音錄制或傳輸,并且觸發(fā)偵聽是實時完成的,而不會發(fā)送您的語音。

嵌入式喚醒觸發(fā)器也有實際原因,其中一個主要原因是功耗。僅在云中運行需要大量數(shù)據(jù)傳輸和分析,使得電池供電或“綠色”產(chǎn)品不切實際。許多主要的 DSP 公司都為“始終開啟”的 DSP 提供解決方案,這些 DSP 以 2 mA 或更低的電流運行 Sensory 的 TrulyHandsfree 喚醒觸發(fā)選項。使用健全的活動檢測方案,平均電池消耗可以低于 1 mA,將其置于電池泄漏領(lǐng)域。

嵌入式語音識別的其他流行用途是在需要對有限命令進行快速準(zhǔn)確響應(yīng)的設(shè)備中。我最喜歡的例子之一是三星 Galaxy 智能手機,在相機模式下,用戶可以啟用語音命令來拍照。這適用于我在 20 英尺遠(yuǎn)的安靜環(huán)境或 5 英尺遠(yuǎn)的嘈雜位置。這是隨身攜帶自拍桿的絕佳替代品,每當(dāng)我向人們展示此功能時,他們都會很快獲得并喜歡它。

嵌入式揚聲器驗證也被更頻繁地部署,并且通常被合并到喚醒觸發(fā)器中,以降低其他人喚醒您的設(shè)備的可能性。對于語音識別和說話人驗證,總是需要在錯誤接受(接受錯誤的用戶)和錯誤拒絕(拒絕正確的用戶)之間進行權(quán)衡。首選的喚醒觸發(fā)設(shè)置通常是以偶爾讓正確的人進入為代價來保持極低的錯誤拒絕。在需要更復(fù)雜的揚聲器驗證以確保安全的系統(tǒng)中,可以部署不需要最低要求的更復(fù)雜的算法功耗,以增加電流消耗為代價獲得更好的精度。

隨著消費產(chǎn)品和手機使用更復(fù)雜的處理器,我預(yù)計更高比例的語音識別使用將轉(zhuǎn)移到嵌入式設(shè)備,并且會出現(xiàn)“分層”語音識別方法,從而在設(shè)備上進行快速初始分析并做出響應(yīng)如果設(shè)備對成功有很高的信心(自我認(rèn)知),但如果它不太確定自己的響應(yīng)或需要基于云的搜索,則將其傳遞給云端。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    18927

    瀏覽量

    227249
  • 嵌入式
    +關(guān)注

    關(guān)注

    5046

    文章

    18821

    瀏覽量

    298624
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5422

    瀏覽量

    120593
收藏 人收藏

    評論

    相關(guān)推薦

    智能玩具用離線語音識別芯片有什么優(yōu)勢

    離線語音識別芯片NRK3301智能玩具中應(yīng)用廣泛,其高識別率、低成本、低功耗等特性,提升了用戶體驗和互動性,支持本地
    的頭像 發(fā)表于 09-19 10:00 ?128次閱讀
    智能玩具用離線<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片有什么優(yōu)勢

    有了云端,智能家居還有必要部署本地AI嗎?

    ? 電子發(fā)燒友網(wǎng)報道(文/黃山明)現(xiàn)如今,不少終端產(chǎn)品中都安裝了AI程序,不過這些AI程序基本上都需要通過互聯(lián)網(wǎng)訪問云端AI服務(wù),來實現(xiàn)各種智能化功能,例如語音識別、圖像識別、自然語言
    的頭像 發(fā)表于 05-10 00:19 ?2425次閱讀

    澎湃微離線語音識別應(yīng)用實例

    完全本地運行,不需要聯(lián)網(wǎng)和后臺服務(wù)器,具有明顯的低成本、低功耗優(yōu)勢。本文分享一款基于MCU平臺的離線語音方案,具有識別靈敏度高、成本低廉和應(yīng)用方便等特點,供大家參考。 廢話不多說,直
    發(fā)表于 03-15 14:11 ?295次閱讀
    澎湃微離線<b class='flag-5'>語音</b><b class='flag-5'>識別</b>應(yīng)用實例

    離線語音在燈帶上的應(yīng)用

    離線語音識別,一種無需依賴云端計算即可在本地設(shè)備上實現(xiàn)語音交互的技術(shù),正在逐漸滲透到家居照明的領(lǐng)域中。與傳統(tǒng)的在線
    的頭像 發(fā)表于 12-20 11:03 ?645次閱讀
    離線<b class='flag-5'>語音</b>在燈帶上的應(yīng)用

    離線語音識別與在線語音識別有什么不一樣?

    離線語音識別與在線語音識別有什么不一樣? 離線語音識別和在線
    的頭像 發(fā)表于 12-12 14:36 ?1020次閱讀

    離線語音識別,“自然說”為產(chǎn)品賦能

    相比于云端語音識別,離線語音識別技術(shù)具有更高的識別準(zhǔn)確率和更快的響應(yīng)速度。因為離線
    的頭像 發(fā)表于 12-11 11:20 ?363次閱讀
    離線<b class='flag-5'>語音</b><b class='flag-5'>識別</b>,“自然說”為產(chǎn)品賦能

    離線語音識別及控制是怎樣的技術(shù)?

    識別離線語音識別是指在設(shè)備本地進行語音信號的識別和轉(zhuǎn)換,而無需依賴互聯(lián)網(wǎng)連接或
    的頭像 發(fā)表于 11-24 17:44 ?935次閱讀
    離線<b class='flag-5'>語音</b><b class='flag-5'>識別</b>及控制是怎樣的技術(shù)?

    離線語音識別及控制是怎樣的技術(shù)?

    、什么是離線語音識別  離線語音識別是指在設(shè)備本地進行語音信號的
    發(fā)表于 11-24 17:41

    語音識別能夠本地實現(xiàn)嗎?

    不依靠網(wǎng)絡(luò),本地實現(xiàn)語音識別,只需要特定的控制命令就可以。
    發(fā)表于 11-10 06:49

    離線語音識別和控制的工作原理及應(yīng)用

    引言離線語音識別是指在沒有網(wǎng)絡(luò)連接的情況下,通過本地設(shè)備上進行語音信號處理和識別,實現(xiàn)
    的頭像 發(fā)表于 11-07 18:04 ?713次閱讀
    離線<b class='flag-5'>語音</b><b class='flag-5'>識別</b>和控制的工作原理及應(yīng)用

    離線語音識別和控制的工作原理及應(yīng)用

    引言   離線語音識別是指在沒有網(wǎng)絡(luò)連接的情況下,通過本地設(shè)備上進行語音信號處理和識別,實現(xiàn)
    發(fā)表于 11-07 18:01

    語音識別技術(shù)安全領(lǐng)域的應(yīng)用與挑戰(zhàn)

    隨著社會對安全需求的不斷增加,語音識別技術(shù)安全領(lǐng)域的應(yīng)用越來越廣泛。本文將探討語音識別技術(shù)
    的頭像 發(fā)表于 10-26 14:48 ?501次閱讀

    語音識別技術(shù)醫(yī)療領(lǐng)域的應(yīng)用與前景

    一、引言 隨著人工智能技術(shù)的不斷發(fā)展,語音識別技術(shù)醫(yī)療領(lǐng)域的應(yīng)用越來越廣泛。本文將探討語音識別技術(shù)
    的頭像 發(fā)表于 10-19 16:30 ?1496次閱讀

    如何本地部署大模型

    近期,openEuler A-Tune SIGopenEuler 23.09版本引入llama.cpp&chatglm-cpp兩款應(yīng)用,以支持用戶本地部署和使用免費的開源大語言模型
    的頭像 發(fā)表于 10-18 11:48 ?2292次閱讀
    如何<b class='flag-5'>本地</b><b class='flag-5'>部署</b>大模型

    深度學(xué)習(xí)語音識別中的應(yīng)用及挑戰(zhàn)

    一、引言 隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,其語音識別領(lǐng)域的應(yīng)用也日益廣泛。深度學(xué)習(xí)技術(shù)可以有效地提高語音識別的精度和效率,并且被廣泛應(yīng)用于各種
    的頭像 發(fā)表于 10-10 18:14 ?749次閱讀