語音命令接口的硬件核心由麥克風陣列和處理器組成,處理器可以接收和解釋來自麥克風的音頻信號。根據(jù)設(shè)備的類型,可能需要各種其他組件,例如用于低功耗藍牙或WiFi的無線接口,以及揚聲器,放大器,LED和顯示器以提供用戶反饋。
麥克風陣列設(shè)計
雖然可以在語音命令產(chǎn)品中使用單個麥克風,但大多數(shù)此類產(chǎn)品使用由兩到七個麥克風組成的波束成形陣列。該陣列允許音頻處理器將麥克風的拾音模式集中在用戶的聲音上,從而提高用戶語音相對于周圍環(huán)境噪聲的信噪比。DSP概念的研究表明,實現(xiàn)最佳的信噪比對于語音命令產(chǎn)品的準確性和可靠性至關(guān)重要。然而,便攜式和電池供電產(chǎn)品的外形尺寸所帶來的要求帶來了許多挑戰(zhàn),而這些挑戰(zhàn)在專為家庭使用而設(shè)計的產(chǎn)品中并不存在。
麥克風數(shù)量:DSP Concepts 白皮書“設(shè)計優(yōu)化的麥克風波束成形器”表明,增加麥克風數(shù)量可以提高語音 UI 的可靠性,五個麥克風陣列在環(huán)間距為 71 毫米之間,實現(xiàn)了性能和成本的最佳平衡。麥克風的靈敏度匹配得越緊密,波束成形器的性能就越好;實現(xiàn)這一點的最實用方法是在安裝麥克風后平衡硬件中的麥克風靈敏度,因此靈敏度調(diào)整不僅可以補償麥克風的不同增益(通常指定為±3 dB的精度),還可以補償外殼對麥克風的聲學效果。
然而,很少有便攜式產(chǎn)品,幾乎沒有可穿戴設(shè)備有這樣的陣列空間。例如,真正的無線耳機通常每個聽筒中只有兩個麥克風的空間。此外,這種陣列所需的處理能力可能超出了大多數(shù)便攜式設(shè)備中使用的相對較小的處理器的能力。因此,執(zhí)行波束成形和其他語音 UI 優(yōu)化功能的軟件算法必須能夠針對兩個或最多三個麥克風進行優(yōu)化。
麥克風選擇: 由于語音命令產(chǎn)品使用多個麥克風,因此這些產(chǎn)品選擇麥克風的兩個主要因素通常是尺寸和成本。然而,在便攜式和電池供電產(chǎn)品中,麥克風的功耗也變得很重要。MEMS麥克風已經(jīng)成為語音命令產(chǎn)品的標準,其小尺寸、低成本和低功耗使其在便攜式和電池供電產(chǎn)品中的使用更加重要。壓電MEMS麥克風的另一個優(yōu)點是它們非常穩(wěn)定,并且在回流焊,濕度或溫度變化期間靈敏度不會發(fā)生變化。
這些麥克風可以具有模擬或數(shù)字輸出,但模擬麥克風通常是超低功耗應(yīng)用的更好選擇。模擬麥克風具有內(nèi)部放大器,因此需要一些功率,但使用PDM或I2S數(shù)字輸出具有更多的內(nèi)部組件,因此消耗更多的功率。但是,模擬麥克風可能需要添加模數(shù)轉(zhuǎn)換器級,如果該功能尚未內(nèi)置于 SoC 中。
專為超低功耗應(yīng)用設(shè)計的MEMS麥克風的一個例子是Vesper VM1010,這是一款模擬輸出麥克風,在“聲音喚醒”模式下的額定功耗僅為8 μA??紤]到便攜式產(chǎn)品中的電池即使在完全斷電時通常也會消耗約50 μA的功率,因此VM1010對便攜式產(chǎn)品的電池壽命幾乎沒有影響。
VM1010中的壓電麥克風元件由一個非常低功耗的比較器電路監(jiān)控,當麥克風上的聲音超過由外部電阻器設(shè)置的特定閾值時,該電路會向系統(tǒng)的其余部分發(fā)送喚醒信號。正確選擇電阻器可設(shè)置所需的閾值,以優(yōu)化 VM1010,從而在各種噪聲環(huán)境中實現(xiàn)最佳性能。VM1010 專注于 250 Hz 至 6 kHz 之間的聲音,可更好地拾取人聲并抑制環(huán)境噪音,如機械隆隆聲和風噪。因此,VM1010 中的零功耗監(jiān)聽在系統(tǒng)中最低功率的語音活動檢測模式之前提供超低功耗模式,從而在待機狀態(tài)下節(jié)省大量功耗。這種類型的單個麥克風可用于觸發(fā)語音命令產(chǎn)品的麥克風陣列、音頻處理電路和互聯(lián)網(wǎng)連接(如果適用)。
[圖1|Vesper VM1010 MEMS 麥克風(左)及其內(nèi)部電路配置(右)]
便攜式產(chǎn)品中的語音識別麥克風也必須堅固耐用,能夠承受產(chǎn)品從腰部高處掉落到混凝土上的沖擊。它們可能還需要防水或至少防水。上面引用的VM1010是浸入式,防塵和防震的,因此它符合所有這些標準。
根據(jù)DSP Concepts進行的測試(在白皮書“設(shè)計優(yōu)化的麥克風波束成形器”中介紹),陣列中麥克風的信噪比并不重要。使用靈敏度容差更嚴格的麥克風有助于提高性能 - 本文詳細介紹了使用具有±1 dB容差的麥克風而不是更典型的±3 dB的麥克風所帶來的改進。但是,考慮到陣列中的每個麥克風可能處于不同的聲學環(huán)境中,由于外殼的物理設(shè)計,最好在處理器中而不是麥克風本身中匹配麥克風靈敏度。
另一種節(jié)省功耗的可能方法是使用加速度計喚醒設(shè)備,因此突然移動可以激活麥克風陣列和處理電路。這種設(shè)計可以消除讓麥克風始終“傾聽”的需要。它可能在遙控器和控制面板等產(chǎn)品中不實用,這些產(chǎn)品可能超出手臂的可及性,但在一些可穿戴設(shè)備中可能很實用。
音頻處理器注意事項
在任何語音命令產(chǎn)品中,音頻處理器(無論是專用 DSP 還是 SoC 中的處理內(nèi)核)都必須具有必要的計算能力,以處理來自陣列中所有麥克風的信號,并運行語音識別所需的所有算法。芯片可以容納的算法越先進,麥克風越多,信噪比就越好,語音識別就越準確。但是,在便攜式和電池供電產(chǎn)品中,處理器還必須消耗盡可能少的功率,以便在產(chǎn)品中保持足夠的電池壽命。計算和功率效率的這種微妙的平衡行為是一項極其困難的工程挑戰(zhàn)。
Ambiq Micro的阿波羅系列是專門設(shè)計用于處理具有小外形尺寸和電池功率的產(chǎn)品中的大量音頻處理任務(wù)的處理器系列。這些微控制器和 SoC 采用 Ambiq Micro 的 SPOT(亞閾值功率優(yōu)化技術(shù))平臺設(shè)計,該平臺允許它們在不到 1/10 的分辨率上運行。千典型音頻處理器的電流。該公司的第一款基于SPOT的MCU,阿波羅1,是一款基于24 MHz皮層M4F的MCU,專注于傳感器處理。處理器滿載時功耗為35uA/MHz,休眠模式下功耗低至143 nA,僅為便攜式產(chǎn)品中電池典型靜態(tài)功耗的0.003倍。
基于 Cortex M4 的下一代 Apollo2 增加了 PDM 輸入,并將內(nèi)存占用空間和處理能力提高了一倍,達到 48 MHz,專注于超低功耗、始終在線的語音命令處理。Apollo2 Blue 進一步構(gòu)建了 Apollo2 的功能,集成了低功耗藍牙控制器和藍牙 5 就緒無線電。
[圖2 |顯示Ambiq微型阿波羅2號藍色的結(jié)構(gòu)和特征的框圖]
Apollo2 和 Apollo2 Blue 處理器目前能夠使用 DSP Concepts 的語音 UI 算法(如下所述)處理來自兩個或三個麥克風陣列的信號,使其適用于超低功耗耳戴式、可穿戴設(shè)備和其他移動應(yīng)用。Ambiq Micro還計劃發(fā)布Apollo3 Blue,它將提供額外的計算帶寬來處理更多的麥克風,以及更低的活動功耗和睡眠模式,從而實現(xiàn)更嚴格的波束成形模式,更好的信噪比和更好的語音識別精度。
所有這些處理器都具有耳機等微型可穿戴產(chǎn)品所需的緊湊尺寸。它們的尺寸從2.5mm到4.5mm不等,具體取決于引腳配置。阿波羅1號的有功功耗額定為35 μA/MHz,而阿波羅2號和阿波羅2號的額定功耗低于10 μA/MHz。借助 Apollo2 Blue 的藍牙 5 無線電,它可以充當語音助手的專用藍牙低功耗語音通道。
其他組件
除了麥克風陣列和音頻處理器之外,語音命令產(chǎn)品還需要其他組件。具體的組件要求將取決于應(yīng)用和外形尺寸,但幾乎每個語音命令產(chǎn)品都會采用一些要求。與麥克風和處理器一樣,選擇這些組件不僅要考慮其功能和性能,還要考慮小尺寸和低功耗。
無線接口: 為了提供比最基本的功能更多的功能,語音命令產(chǎn)品需要訪問Internet,以便它們可以從外部服務(wù)器發(fā)送和接收數(shù)據(jù)。使用專為家庭使用的智能揚聲器,這種連接是通過WiFi與LAN建立的。對于便攜式語音命令產(chǎn)品,它通常通過藍牙連接到智能手機或平板電腦,而智能手機或平板電腦又通過蜂窩數(shù)據(jù)網(wǎng)絡(luò)或WiFi連接到互聯(lián)網(wǎng)。
用戶反饋組件:大多數(shù)語音命令產(chǎn)品都包含某種用戶反饋,以確認設(shè)備處于活動狀態(tài),正確聽到并理解用戶的命令,以及它將執(zhí)行所需的操作。這些設(shè)備可以是LED,例如亞馬遜Echo和谷歌家庭智能揚聲器頂部的閃爍燈。它們也可以是字母數(shù)字或圖形顯示,可以在許多遙控器和家庭自動化墻板上找到。
這些設(shè)備中的大多數(shù)也可能具有音頻反饋,這可能會通過警報音或語音合成來確認用戶的命令 - 這是處理器上的另一個負載。該裝置必須使用放大器和某種揚聲器來重現(xiàn)語音和/或警報音。某些產(chǎn)品可能使用具有波束成形算法的多個驅(qū)動程序,將響應(yīng)引導(dǎo)回偵聽器。
工業(yè)設(shè)計注意事項
產(chǎn)品的物理設(shè)計會對其語音識別系統(tǒng)的性能產(chǎn)生重大影響。如上文引用的 DSP 概念白皮書中所述,麥克風靈敏度的精確匹配對于可靠的波束成形器性能和準確的語音識別至關(guān)重要。
例如,如果陣列中的麥克風放置在距產(chǎn)品邊緣的不同距離處,則它們將具有不同的頻率響應(yīng),從而在不同頻率下具有不同的靈敏度。麥克風安裝的一致性也是一個問題。麥克風必須盡可能以完全相同的方式安裝,以盡量減少由于安裝不一致而可能產(chǎn)生的任何聲學差異。話筒周圍的任何密封件也必須在設(shè)計、材料和安裝上保持一致。
除了謹慎設(shè)計語音命令產(chǎn)品,使其陣列中的每個麥克風都處于相似的聲學環(huán)境中外,制造商還可以通過在工廠單獨匹配每個單元的麥克風來確保語音命令產(chǎn)品的最佳性能。這個額外的QC步驟可確保由于微小的制造不一致而導(dǎo)致的麥克風性能差異不會影響語音識別的準確性。
審核編輯:郭婷
-
處理器
+關(guān)注
關(guān)注
68文章
19112瀏覽量
228860 -
放大器
+關(guān)注
關(guān)注
143文章
13533瀏覽量
212942 -
soc
+關(guān)注
關(guān)注
38文章
4105瀏覽量
217790
發(fā)布評論請先 登錄
相關(guān)推薦
評論