0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

語音控制視為人機接口進步項 語音激活可嵌入到任何地方

CEVA ? 來源:lp ? 2019-02-27 17:26 ? 次閱讀

歷史書可能會將語音控制視為人機接口中最重要的進步。我們不再打字,不再指點,只需說出想要什么就可以了。這個領(lǐng)域的初期進展十分緩慢,直到智能揚聲器的出現(xiàn),讓我們開始意識到了解決方案?,F(xiàn)在,隨著在手機、耳機、可穿戴設(shè)備和智能家居中識別功能和應(yīng)用的改進,這場競爭已然開始。如今,最廣為人知的解決方案依賴于少數(shù)提供商控制的平臺和服務(wù),但這種情況正在發(fā)生改變。語音激活可嵌入到任何地方,不僅可以定制,還可提高抗噪性,降低功率,擴大范圍,而且在語音識別方面與大型平臺一樣有效。

消費類語音產(chǎn)品市場的歷史饒有趣味,而語音識別功能在其中起著重要作用。FutureSource 顯示,從 2008 年到 2012 年,語音體驗主要集中在智能手機上,整體市場價值下降。從 2012 年到 2014 年,市場基本持平。然后,從 2015 年到 2018 年,主要受語音激活驅(qū)動,它再次以 15% 的復(fù)合年增長率增長。展望未來,Yole Développement 預(yù)計到 2023 年,復(fù)合年增長率至少為 30%,這主要得益于語音識別。這一增長將主要集中在智能手機上,其次是耳機和可穿戴設(shè)備、個人助理和智能家居功能(電視、電器等)。同一份報告得出的結(jié)論是,我們現(xiàn)在正進入智能語音的第二階段,隨著消費者對這種控制方法越來越滿意,語音控制將變得越來越普遍。

無論部署在哪里,他們的目標(biāo)都是增強實別能力。在智能手機或任何其他電池供電的設(shè)備中,一個明顯的優(yōu)勢是支持始終在線聆聽;在發(fā)出命令之前無需按下按鈕。這就需要超低功耗的觸發(fā)命令詞檢測,眾所周知,這意味著硬件與軟件的契合,以盡量降低待機功耗。當(dāng)然,用戶都希望為自己的品牌定制個性化觸發(fā)命令詞或短語的功能,并且可以支持多種語言,以便在其所在地區(qū)甚至國際市場上獲得強大的滲透力。您仍然將后續(xù)命令傳遞給某個主要的語音識別提供商來識別請求?;蛘?,也許不必。如果您的設(shè)備只需要對有限的詞匯表提供支持,并且您的語音識別引擎可以滿足該目標(biāo),則可能無需第三方的幫助。

另一個關(guān)鍵需求是在嘈雜的環(huán)境中進行識別,也許還有身份驗證。語音識別所面臨的挑戰(zhàn)與目標(biāo)識別不同。例如,在起居室或汽車中,可能會有多個聲源:人們說話、電視和獨立的音樂/無線電、室內(nèi)外的噪音、以及房間或汽車內(nèi)部表面反射的回聲。隔離命令源、消除回聲和降低背景噪聲需要一些復(fù)雜的技術(shù),這取決于多麥克風(fēng)、波束成形和回聲消除,以及噪聲抑制。

當(dāng)然,鑒于這些需求,CEVA公司已備好滿足這些需求的可用解決方案。最近推出的 CEVA Whispro? 語音識別產(chǎn)品解決方案就采用了在 CEVA DSP 平臺上運行的,基于神經(jīng)網(wǎng)絡(luò)的軟件。Whispro 已經(jīng)支持“Alexa”和“Ok Google”作為觸發(fā)命令詞,并且可以在培訓(xùn)中進行自定義,以支持任何客戶要求的觸發(fā)命令詞。它支持多種語言,可以處理多種語音觸發(fā)。該方案在多噪聲背景下進行培訓(xùn),因此,識別具有嵌入的抗擾性,識別率大于 95%,每小時錯誤接受率小于 1 次,且無需進行云識別。

通過添加專門的語音拾取解決方案 CEVA ClearVox?,開發(fā)人員可實現(xiàn)多麥克風(fēng)支持和波束成形,以改進遠(yuǎn)場語音拾取、消除回聲和進一步降低噪音。Whispro 與 ClearVox 的組合可以在更遠(yuǎn)的距離內(nèi)(最遠(yuǎn) 7 米),尤其是在嘈雜的環(huán)境中,也能夠提供具有競爭力的觸發(fā)識別。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語音接口
    +關(guān)注

    關(guān)注

    0

    文章

    10

    瀏覽量

    9890
  • 語音控制
    +關(guān)注

    關(guān)注

    5

    文章

    474

    瀏覽量

    28179

原文標(biāo)題:語音接口的大眾化【中文版】

文章出處:【微信號:CEVA-IP,微信公眾號:CEVA】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    Transformer模型在語音識別和語音生成中的應(yīng)用優(yōu)勢

    隨著人工智能技術(shù)的飛速發(fā)展,語音識別和語音生成作為人機交互的重要組成部分,正逐漸滲透到我們生活的各個方面。而Transformer模型,自其誕生以來,憑借其獨特的自注意力機制和并行計算能力,在
    的頭像 發(fā)表于 07-03 18:24 ?731次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)在語音識別中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,語音識別技術(shù)作為人機交互的重要橋梁,受到了廣泛的關(guān)注和研究。語音識別技術(shù)旨在將人類語音信號轉(zhuǎn)換為文本信息,實現(xiàn)自然語言理解和
    的頭像 發(fā)表于 07-01 16:01 ?374次閱讀

    語音控制模塊_雷龍發(fā)展

      1,串口   uart串口控制模式,即異步傳送收發(fā)器,通過其完成語音控制。 []()   圖中,GND表示單片機系統(tǒng)電源的參考地,TXD是串行發(fā)送引腳,RXD是串行接收引腳。發(fā)送uart將來
    發(fā)表于 06-14 17:18

    MCU配對簡化了語音控制接口設(shè)計

    攜手合作,為STM32微控制器的嵌入語音識別創(chuàng)建了一個完整的軟件、硬件和許可包,并使添加語音接口變得簡單。 它還將使設(shè)計工程師能夠在沒有編
    的頭像 發(fā)表于 05-06 16:21 ?2028次閱讀

    AI加速智能家居分布式語音技術(shù)發(fā)展

    中的任何地方通過語音命令來控制智能設(shè)備,實現(xiàn)更具有體驗性的居家生活。 ? 什么是分布式語音技術(shù)? ? 分布式語音技術(shù),也稱為DSR(Dist
    的頭像 發(fā)表于 02-01 00:16 ?4965次閱讀

    語音數(shù)據(jù)集:智能語音技術(shù)的燃料與推動力

    隨著人工智能技術(shù)的不斷進步,語音技術(shù)作為人機交互的重要方式,正在逐漸滲透到我們的日常生活中。而語音數(shù)據(jù)集作為智能語音技術(shù)的“燃料”,對于推動
    的頭像 發(fā)表于 12-29 11:11 ?306次閱讀

    語音數(shù)據(jù)集:智能語音技術(shù)的基石與挑戰(zhàn)

    隨著人工智能技術(shù)的飛速發(fā)展,語音技術(shù)已成為人機交互領(lǐng)域的重要突破口。語音數(shù)據(jù)集作為支撐語音技術(shù)研發(fā)的核心資源,對于提高語音識別、合成及自然語
    的頭像 發(fā)表于 12-28 11:28 ?604次閱讀

    科大訊飛語音控制模塊怎么用

    科大訊飛語音控制模塊是一種人機交互技術(shù),它利用語音識別和語音合成技術(shù),使用戶可以通過語音指令來
    的頭像 發(fā)表于 12-25 13:58 ?1330次閱讀

    OTP語音芯片與重復(fù)擦寫(Flash型)語音芯片:特性比較與應(yīng)用差異

    嵌入語音應(yīng)用中,OTP(一次性可編程)語音芯片與重復(fù)擦寫(Flash型)語音芯片是兩種常見的存儲解決方案,它們在特性和應(yīng)用上存在明顯差
    的頭像 發(fā)表于 12-14 10:13 ?448次閱讀
    OTP<b class='flag-5'>語音</b>芯片與<b class='flag-5'>可</b>重復(fù)擦寫(Flash型)<b class='flag-5'>語音</b>芯片:特性比較與應(yīng)用差異

    什么是重復(fù)擦寫(Flash型)語音芯片?

    什么是重復(fù)擦寫(Flash型)語音芯片?重復(fù)擦寫(Flash型)語音芯片是一種嵌入語音存儲
    的頭像 發(fā)表于 12-14 10:08 ?477次閱讀
    什么是<b class='flag-5'>可</b>重復(fù)擦寫(Flash型)<b class='flag-5'>語音</b>芯片?

    語音數(shù)據(jù)集:推動AI語音技術(shù)的核心力量

    一、引言 隨著人工智能的快速發(fā)展,語音技術(shù)作為人機交互的重要手段,正發(fā)揮著越來越重要的作用。而語音數(shù)據(jù)集則是推動AI語音技術(shù)的核心力量。本文將詳細(xì)介紹
    的頭像 發(fā)表于 12-12 11:32 ?520次閱讀

    離線語音識別及控制是怎樣的技術(shù)?

    引言:  隨著人工智能的飛速發(fā)展,離線語音識別技術(shù)成為了一備受矚目的創(chuàng)新。離線語音識別技術(shù)能夠?qū)⑷说?b class='flag-5'>語音轉(zhuǎn)化為可理解的文本,無需依賴網(wǎng)絡(luò)連接,極大地提升了
    發(fā)表于 11-24 17:41

    情感語音識別技術(shù)在人機交互中的應(yīng)用與展望

    一、引言 隨著人工智能技術(shù)的不斷發(fā)展,人機交互已經(jīng)滲透到日常生活的方方面面。情感語音識別作為人機交互中的關(guān)鍵技術(shù)之一,能夠通過分析人類語音中的情感信息實現(xiàn)更加智能化和個性化的
    的頭像 發(fā)表于 11-22 10:40 ?629次閱讀

    情感語音識別技術(shù)的應(yīng)用與未來發(fā)展

    一、引言 隨著科技的飛速發(fā)展,情感語音識別技術(shù)已經(jīng)成為人機交互的重要發(fā)展方向。情感語音識別技術(shù)能夠通過分析人類語音中的情感信息,實現(xiàn)更加智能化和個性化的
    的頭像 發(fā)表于 11-12 17:30 ?597次閱讀

    情感語音識別技術(shù)在人機交互中的應(yīng)用與挑戰(zhàn)

    ?一、引言 隨著人工智能技術(shù)的不斷發(fā)展,人機交互已經(jīng)成為了研究的熱點之一。情感語音識別技術(shù)作為人機交互中的重要組成部分,能夠通過識別人的語音情感,實現(xiàn)更加智能化和個性化的交互體驗。本文
    的頭像 發(fā)表于 11-09 15:27 ?668次閱讀