準確定位聲源是移動設備進行聽覺場景分析的首要步驟,其結果對后續(xù)混合聲源分離、聲源辨識、語音識別有直接影響。延時求和波束形成技術在進行聲源定位時已被廣泛使用,需要使用信號到達麥克風陣列中不同麥克風的時間差值(Time Difference Of Arrival,TDOA)。而相位變換廣義互相關(Generalized Cross Correlation-Phase Transform,GCC-PHAT)算法具有很短的判決時延和較好的跟蹤能力,適用于低混響環(huán)境,是常用的TDOA估計算法。
VALIN J M提出了一種使用遞歸方法計算權值的改進的GCC-PHAT算法,即連續(xù)值頻點加權GCC-PHAT算法,來提高原算法對加性噪聲的魯棒性。連續(xù)權值計算需要使用最小值控制遞歸平均(Minimum Controlled Recursive Averaging,MCRA)算法估計噪聲,但MCRA算法在噪聲變化后需要適應時間調(diào)整參數(shù),因而對于加性非平穩(wěn)間或噪聲,使用連續(xù)權值的加權方法無法消除其干擾,最終導致TDOA估計錯誤。因此本文在頻點加權GCC-PHAT算法的基礎上,利用接收信號中風噪聲與聲源信號頻點間相干性差異,提出一種頻點離散值加權GCC-PHAT算法,以消除風噪聲及背景噪聲對TDOA估計的干擾。實驗結果表明,相較原算法,新算法的結果可靠性和運算效率都明顯提高。
1互相關算法估計信號時差
1.1 場景聲學模型
設聲源信號在存在加性噪聲的混響環(huán)境中傳播,由麥克風陣列接收。加性噪聲由背景噪聲和風噪聲組成。風噪聲是一種特殊的非平穩(wěn)噪聲,由麥克風薄膜表面湍流產(chǎn)生,導致接收信號產(chǎn)生嚴重畸變。背景噪聲在聲學環(huán)境中近似為遠場聲源產(chǎn)生的彌漫性噪聲。聲源信號與風噪聲及背景噪聲等加性噪聲不相關。
設n為信號時域采樣序號,m為陣列中麥克風編號,s(n)為聲源信號,hm(n)是聲源到麥克風m之間的房間系統(tǒng)沖擊響應序列,wm(n)表示風噪聲,bm(n)為背景噪聲信號。背景噪聲不需要考慮混響,則麥克風m接收信號ym(n)表示為:
1.2 頻點加權GCC-PHAT算法
接收信號在整個時間域上非平穩(wěn)。利用接收信號短時平穩(wěn)特性,通過短時傅里葉變換,將分幀后信號變換到時頻域分析。選擇長度為N的海寧窗h(n)對接收信號分幀,減小信號幀間頻率截斷效應。設信號幀間步進長度為ΔN個采樣間隔,則接收信號第l幀表示為ym(lΔN+n),其傅里葉變換結果為:
2離散值頻點加權GCC-PHAT算法
2.1 離散頻點權值
VALIN J M等人提出的頻點連續(xù)權值計算基于先驗信噪比(Signal-to-Noise Ratio,SNR)估計。頻點k對應的連續(xù)權值為:
式中,
連續(xù)權值是關于信噪比的單調(diào)函數(shù),值域為[0,1],用soft mask表示,取值如圖1所示。
頻點連續(xù)權值計算依賴噪聲功率譜估計和信號相鄰幀間信噪值連續(xù)性。比較風噪聲和語音信號瞬時功率隨時間的變化曲線,可以看出風噪聲時域變化特性強于語音信號[6]。現(xiàn)有語音增強算法均默認噪聲變化慢于語音,故對于包含風噪聲的信號,上述方法無法得出先驗信噪比。且連續(xù)權值取值為[0,1],當聲源信號受噪聲嚴重干擾(SNR<0)時,信號頻點對應權值大于零,加權后信號仍然保留噪聲成分,導致最終TDOA估計出錯。本文在已有頻點加權方法基礎上提出一種使用頻點離散權值的風噪聲抑制算法。新權值是關于信號頻點相干值的函數(shù),不依賴噪聲估計,且只取離散值0和1,完全消除含噪頻點對TDOA估計結果的干擾。新權值
風噪聲由麥克風表面的湍流產(chǎn)生,不同麥克風間風噪聲頻點無相干性。但對于同一聲源信號,陣列中麥克風的接收信號在各頻點上都具有高相干性。引入相干譜值(Magnitude Squared Coherence,MSC),對信號各頻點間相干性大小進行量化:
式中,Pm1m2、Pm1m1、Pm2m2分別為麥克風m1、m2信號的互功率譜密度和自功率譜密度。
MSC值反映了不同信號在頻點k上的相干程度。如圖2所示,對于近場平穩(wěn)聲源的兩路信號,在信號存在頻率范圍內(nèi),MSC值在1附近,而在風噪聲存在的低頻區(qū)域,MSC值始終分布在0附近。圖3為包含風噪聲的1幀信號MSC取值。在風噪聲存在的低頻范圍,信號各頻點處0≤MSC≤1,且包含噪聲成分越多,MSC取值越小。風噪聲頻率范圍外信號各頻點MSC接近1。但背景噪聲間也具有相干性[7],其MSC取值滿足式(8),其中dm1m2為麥克風之間距離。因此使用相干差異消除風噪聲干擾前需要預先消除背景噪聲。
分析不同類型信號發(fā)現(xiàn),只有無噪聲干擾的近場平穩(wěn)聲源信號,各頻點間MSC值始終接近1。其余信號頻點MSC取值在[0,1]內(nèi)。因此可以利用信號間頻點的相干值檢測噪聲,并通過加權方式只保留信號中未受干擾頻點。上述結論數(shù)學表達如式(9)所示,其中θwind為相干值閾值。
不同于連續(xù)頻點權值計算基于單路信號,新權值計算同時基于2路信號,則式(3)可以表示為:
2.2 預增強信號
MCRA算法避免了信號活躍性檢測方法在低信噪和無聲段因高誤檢率引起的錯誤估計。但MCRA算法在固定長度時間窗內(nèi)搜索頻帶功率譜最小值,產(chǎn)生噪聲估計滯后。本文提出一種連續(xù)時域上的當前功率譜最小值搜索方法,提高估計速度。在搜索功率譜最小值前,先做如下時域遞歸平滑獲得平滑功率譜值:
由于噪聲先驗概率比為單調(diào)函數(shù),根據(jù)Bayes最小風險代價判決準則,MCRA算法使用信號功率譜與其局部最小值的比值Sr(l,k)與固定閾值δ比較,判決頻點是否包含信號分量,計算信號存在概率。但是固定閾值δ僅適用于平穩(wěn)噪聲情況,對包含非平穩(wěn)噪聲情況判決不敏感。根據(jù)信號頻率分布特性:風噪聲分布在中低頻率區(qū)域,中高頻部分為包含背景噪聲的聲源信號,新算法選擇如下分段閾值δ(k):
2.3 算法運算負載分析
移動設備計算資源有限,對算法實時性也有要求,故必須考慮算法運算量。對于包含M個麥克風的陣列,使用頻點加權GCC-PHAT算法估計TDOA,信號每幀均需要執(zhí)行M次FFT和M(M-1)/2次IFFT操作。為簡化分析,假設傅里葉正、逆變換運算量相同,則M個麥克風的陣列估計TDOA運算量記為(M2+M)/2次運算,復雜度為O(M2),故隨著陣列中麥克風個數(shù)增加,算法運算量快速上升。
3實驗結果分析與對比
3.1 實驗參數(shù)
本部分將在不同測試條件下比較不同頻點加權GCC-PHAT算法性能。表1給出算法對應參數(shù)。為確保時頻變換后獲取接收信號全部頻率成分,設置fs為48 000 Hz;接收信號每幀包含的采樣點數(shù)N對應信號時長在20 ms~30 ms,窗序列設置為相同長度;為保持平穩(wěn)信號幀間的連續(xù)性,設幀步進ΔN=N/2,即幀間50%重疊;c為20 ℃、101.1 kPa條件下聲速;ε是接近0的小數(shù),避免實際應用中式(11)結果溢出;判決閾值θwind、θD、θmin取值依據(jù)多次實驗結果確定。根據(jù)表1中參數(shù),算法引入延遲Δl·ΔN/fs=32 ms。在人機語音交互中,這種量級的時間延遲可以忽略。
基于IMAGE方法[9],計算尺寸為10 m×8 m×3.5 m的混響房間模型的沖激響應序列。選擇一段7 s的語音作為目標聲源信號,卷積沖激序列模擬信號的混響效果。目前沒有語料庫提供相應的風噪聲信號,需要通過實驗采集。信號采集使用一對匹配全指向拜亞動力MM1麥克風,模擬氣流由空氣壓縮機產(chǎn)生。以房間一角作為坐標原點建立直角坐標系,聲源及麥克風位置見表2。i、j、k為x、y、z軸單位向量。
3.2 算法性能指標
3.3 結果分析
圖5、圖6分別為混響環(huán)境(RT60=200 ms)中的含噪(SNR=5 dB)信號的語譜圖以及不同頻點加權方法權值分布。圖5(a)顯示風噪聲集中在信號低頻區(qū)域,且隨時間快速變化。MCRA算法不能準確估計風噪聲,因此圖5(b)中頻點取的連續(xù)權值在低頻區(qū)域值接近1,對含風噪聲頻點無衰減,含噪信號頻點被帶入相關值計算。圖6(a)中噪聲功率譜估計曲線顯示,對于平穩(wěn)噪聲,因頻帶上的信號功率通常衰減的最小值接近噪聲功率值,故基于最小值統(tǒng)計的算法消除平穩(wěn)背景噪聲效果好。但對于快速變化噪聲,算法設計依據(jù)決定估計值會產(chǎn)生滯后,增強的信號仍包含風噪聲。同時表明信號增強方法不能消除風噪聲干擾。本文提出算法對應權值分布如圖6(b)所示,判斷并直接去除信號低頻范圍內(nèi)受干擾頻點(權值為0),只保留強相干性頻點(權值為1)。風噪聲頻率范圍外中高頻區(qū)域的信號頻點則盡量保留,帶入相關值計算。
圖7為上述實驗條件中使用不同權值的GCC-PHAT算法估計TDOA結果統(tǒng)計。實驗結果表明,不加權和使用連續(xù)權值的GCC-PHAT算法估計值統(tǒng)計峰值均在τc(Delay=-3)處,對應位置聲源為麥克風表面湍流。只有使用wind mask權值加權的GCC-PHAT算法估計結果集中分布在τt(Delay=-18)附近,對應位置為目標聲源,滿足應用要求。
表3為不同混響、信噪比測試條件下,不同頻點加權GCC-PHAT算法估計TDOA結果可靠性(Tpq)及運算負載(Lpq)對比。實際場景中,風噪聲特殊的產(chǎn)生方式?jīng)Q定其必定對信號干擾嚴重。如在低混響(RT60=0)、低信噪(SNR=0 dB)環(huán)境中,使用wind mask加權算法估計結果對應Tpq=54.2%,優(yōu)于使用連續(xù)權值(31.2%)和不加權(20.1%)的GCC-PHAT算法。存在混響的低信噪環(huán)境(RT60=200 ms,SNR=0 dB)中,使用wind mask加權的算法結果對應Tpq下降至48.6%,仍優(yōu)于其他加權算法。盡管新的加權算法在混響情況下運算量有所增加,但均顯著低于其他已有算法。實驗證明,存在風噪聲干擾的場景中,使用本文提出算法所得結果更加可靠,運算量也更小。
4結論
通過GCC-PHAT算法估計TDOA值帶入波束成形算法是定位聲源的常用方法。本文針對已有GCC-PHAT算法無法消除風噪聲干擾問題原因進行分析,并通過對目標信號和噪聲信號時頻特性研究,提出一種基于信號間頻點相干性差異的頻點離散值加權GCC-PHAT算法。實驗表明,相較使用基于信噪比估計的連續(xù)值頻點加權算法,本文提出的方法所得結果準確可靠,運算量小,具有一定的工程實用價值。
-
麥克風
+關注
關注
15文章
630瀏覽量
54746 -
噪聲
+關注
關注
13文章
1115瀏覽量
47341 -
信號
+關注
關注
11文章
2773瀏覽量
76543
原文標題:【學術論文】抑制風噪聲的頻點離散值加權GCC-PHAT時延估計算法
文章出處:【微信號:ChinaAET,微信公眾號:電子技術應用ChinaAET】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論