音箱行業(yè)有著悠久的歷史,但是在過去十多年里,傳統(tǒng)的音箱行業(yè)面臨著極大的市場困境,例如藍(lán)牙音箱剛出現(xiàn)各個(gè)廠商便直接殺成了一片紅海。而2015年隨著智能音箱的涌現(xiàn),特別是亞馬遜的Echo、京東的叮咚、阿里的小飛,不僅對(duì)外展現(xiàn)出了智能音箱行業(yè)百花齊放的局面,也使沉悶的音箱市場看到了突破性發(fā)展的希望。但是,隨著這些巨頭們的集體涌入,這也讓在智能音箱行業(yè)摸爬滾打的創(chuàng)業(yè)者倍感艱難。
音箱特別是中高端音箱,本來就是強(qiáng)調(diào)品牌且技術(shù)門檻較高的領(lǐng)域。而智能音箱將聲學(xué)設(shè)計(jì)、無線技術(shù)、語音識(shí)別、遠(yuǎn)場拾音、語義分析等眾多技術(shù)融合在一起,不僅技術(shù)更為復(fù)雜,而且更加依賴音樂內(nèi)容平臺(tái)的支持,這些諸多因素都是創(chuàng)業(yè)者需要直面解決的難題。當(dāng)然,技術(shù)還是其中的根本
當(dāng)將語音識(shí)別算法接入到設(shè)備時(shí),務(wù)必要保證設(shè)備的音頻通路具有足夠的質(zhì)量。因此對(duì)設(shè)備進(jìn)行音頻測試,以評(píng)估能夠影響語音識(shí)別性能的音頻前端的音頻參數(shù)。如下要點(diǎn)對(duì)語音識(shí)別至關(guān)重要:
自然聲音
合適的增益
良好的信噪比
一致的響應(yīng),信號(hào)不能包括如下信息: 自動(dòng)增益控制 AGC 啟動(dòng)響應(yīng) 直流偏置過大
適當(dāng)?shù)念l響 (高低滾降,理想平滑,沒有混跌)
二、測試設(shè)備
帶有錄音軟件的被測試設(shè)備
音頻測試儀器:CD機(jī),均衡器,音箱,人工嘴和聲壓計(jì)
帶分析工具的PC機(jī)(CoolEditor、Audition、Audacity和Wavesurfer等)
三、音頻文件
正常音頻文件:用于主觀判斷音頻質(zhì)量和增益設(shè)置以及信噪比;
大增益文件:用于判定削波時(shí)的增益設(shè)置;
1K-sine增益Sweep文件0~105dB:用于評(píng)估削波,決定最大數(shù)值和判定AGC存在與否;
0~8K/16K掃頻文件:用于測試設(shè)備的頻響和混跌;
四、測試項(xiàng)目
1. 主觀聽音
用質(zhì)量好的耳機(jī)去聽設(shè)備的音質(zhì),從而發(fā)現(xiàn)一些非正常聲音;比如:雜音、諧波和共振等;
音頻路徑上過多的信號(hào)處理可能導(dǎo)致聲音畸變?yōu)槿嗽炻?,不符合正常自然聲音,?huì)對(duì)軟件識(shí)別造成很大困難。
2. 增益評(píng)估
設(shè)備在各種使用場景下,務(wù)必保持增益的設(shè)置不要使信號(hào)削波;削波會(huì)嚴(yán)重降低識(shí)別性能,必須禁止。
95dB的聲音應(yīng)該剛好填滿16bit音程;
3. 信噪比
靜默值作為底噪,聲音波形的中部作為信號(hào);尤其注意某些記錄將具有數(shù)據(jù)實(shí)際值為零的引導(dǎo)/拖尾部分,不要使用這部分作為靜默測量;麥克風(fēng)單體的信噪比,除了本身規(guī)格書之外,在實(shí)際產(chǎn)品中收到電路噪聲影響很大,尤其注意模擬麥克風(fēng)bias電源。
信號(hào)比:S/N>30對(duì)于識(shí)別是良好的比值,大于20也是可行的;如果小于20的話,則說明音頻路徑上太吵了導(dǎo)致很難識(shí)別成功。
4. 自動(dòng)增益控制AGC
AGC的存在,當(dāng)音頻信號(hào)的幅度增大時(shí),它通常表現(xiàn)為增益逐步減小。它會(huì)影響識(shí)別效果,所以得關(guān)閉此功能,類似的有自動(dòng)電平控制寄存器ALC等。
同時(shí)部分功放帶有動(dòng)態(tài)調(diào)節(jié)音量的功能,務(wù)必關(guān)閉此項(xiàng)功能,否則嚴(yán)重影響AEC效果;所有的動(dòng)態(tài)調(diào)節(jié)都務(wù)必在AEC采樣點(diǎn)之前進(jìn)行,具體如下圖示意:
5. 啟動(dòng)瞬態(tài)Startup transients
音頻系統(tǒng)經(jīng)常在錄音命令下達(dá)后,需要一段時(shí)間才能真正啟動(dòng)操作,這導(dǎo)致了啟動(dòng)瞬態(tài);如果這主要包括低頻的話,將不會(huì)對(duì)識(shí)別造成影響,因?yàn)樽R(shí)別器中有低通濾波器。
然而試圖消除瞬態(tài)的話,將信號(hào)鉗位在零電平上超過幾十毫秒的話,會(huì)嚴(yán)重影響識(shí)別。在這種情況下,最好完全跳過音頻,而不是將此錯(cuò)誤信息發(fā)送給識(shí)別器。
上圖中紅色框中125ms的啟動(dòng)瞬態(tài),應(yīng)該跳過。
6. 直流偏置過大DC offset
直流偏置可以看作是靜音信號(hào)在零信號(hào)線上高于或者低于的信號(hào);
如果偏移量為滿刻度限制的百分之幾或者更少,是沒有問題的;
但是如果超過10%則需要糾正,很大的偏移將導(dǎo)致不對(duì)稱削波。
7. 頻響曲線Response curve
為了隔絕麥克分錄音到其他雜音,麥克風(fēng)需要與喇叭足夠近,大致2.5cm處錄音。
檢查FFT大小設(shè)置為2048個(gè)采樣點(diǎn),采樣窗口設(shè)置為Blackmann Harris;
理想的頻率響應(yīng)曲線在頂端220Hz和3200~3900Hz之間的幾分貝內(nèi)是平坦的,差值一般控制在10dB以內(nèi)是可以接受的(16K采樣率的為6400Hz~7400Hz)如下圖所示:
頻響曲線是個(gè)慢慢的漸變過程,如果個(gè)別區(qū)域出現(xiàn)急劇變化,應(yīng)該重點(diǎn)關(guān)注并研究,音頻可能存在其他問題。
8. 混疊Aliasing
當(dāng)超過采樣速率的一半(奈奎斯特極限)的信號(hào)被允許進(jìn)入模數(shù)轉(zhuǎn)換器(ADC)時(shí),出現(xiàn)混疊現(xiàn)象。如下為ES7210調(diào)試初期出現(xiàn)的混疊現(xiàn)象:
混疊是影響識(shí)別的一個(gè)重大因素,必須消除混疊;
故ADC需要有抗混疊處理,例如抗混疊濾波器等。
當(dāng)錄音系統(tǒng)增加輸入信號(hào)的泛音時(shí),會(huì)出現(xiàn)諧波失真;
AEC對(duì)信號(hào)失真是非常敏感的,音頻通路的整體諧波失真需要控制在5%以內(nèi),故從麥克風(fēng)到功放到揚(yáng)聲器和音腔,均需要嚴(yán)格控制;除了單體品質(zhì)之外,尤其注意功放和揚(yáng)聲器的功率匹配、阻抗匹配和頻率匹配;
如下圖為1K-sine信號(hào)的頻譜圖,有奇次諧波、偶次諧波:
如下圖為8K-sweep信號(hào)的頻譜圖,有奇次諧波、偶次諧波:
諧波失真越小越好,一般要求最好是小于3%。
評(píng)論
查看更多