風(fēng)吹麥浪,靜夜蟲鳴,人耳能聽到的聲音大約有40多萬種,頻率在20至20000赫茲之間;不僅如此,借助大腦,人類還具有分辨噪音和過濾干擾的能力。那么對于機器呢?
麥克風(fēng)陣列是什么?
麥克風(fēng)陣列(Microphone Array),從字面上,指的是麥克風(fēng)的排列。也就是說由一定數(shù)目的聲學(xué)傳感器(一般是麥克風(fēng))組成,用來對聲場的空間特性進行采樣并處理的系統(tǒng)。
早在20世紀(jì)70、80年代,麥克風(fēng)陣列已經(jīng)被應(yīng)用于語音信號處理的研究中,進入90年代以來,基于麥克風(fēng)陣列的語音信號處理算法逐漸成為一個新的研究熱點。而到了“聲控時代”,這項技術(shù)的重要性顯得尤為突出。
麥克風(fēng)陣列能干什么?
1.語音增強(Speech Enhancement)
語音增強是指當(dāng)語音信號被各種各樣的噪聲(包括語音)干擾甚至淹沒后,從含噪聲的語音信號中提取出純凈語音的過程。所以DingDong在嘈雜環(huán)境下,也能準(zhǔn)確識別語音指令。
通過麥克風(fēng)陣列波束形成進行語音增強示意圖
從20世紀(jì)60年代開始,Boll等研究者先后提出了針對使用一個麥克風(fēng)的語音增強技術(shù),稱為單通道語音增強。因為它使用的麥克風(fēng)個數(shù)最少,并且充分考慮到了語音譜和噪聲譜的特性,使得這些方法在某些場景下也具有較好的噪聲抑制效果,并因其方法簡單、易于實現(xiàn)的特點廣泛應(yīng)用于現(xiàn)有語音通信系統(tǒng)與消費電子系統(tǒng)中。
但是,在復(fù)雜的聲學(xué)環(huán)境下,噪聲總是來自于四面八方,且其與語音信號在時間和頻譜上常常是相互交疊的,再加上回波和混響的影響,利用單麥克風(fēng)捕捉相對純凈的語音是非常困難的。而麥克風(fēng)陣列融合了語音信號的空時信息,可以同時提取聲源并抑制噪聲。
目前基于線性陣列、平面陣列以及空間立體陣列的波束形成和降噪技術(shù),效果均達到業(yè)界一流水平。
2013年科大訊飛車載降噪產(chǎn)品和國際競爭對手效果對比
2.聲源定位(Source Localization)
現(xiàn)實中,聲源的位置是不斷變化的,這對于麥克風(fēng)收音來說,是個障礙。麥克風(fēng)陣列則可以進行聲源定位,聲源定位技術(shù)是指使用麥克風(fēng)陣列來計算目標(biāo)說話人的角度和距離,從而實現(xiàn)對目標(biāo)說話人的跟蹤以及后續(xù)的語音定向拾取,是人機交互、音視頻會議等領(lǐng)域非常重要的前處理技術(shù)。所以麥克風(fēng)陣列技術(shù)不限制說話人的運動,不需要移動位置以改變其接收方向,具有靈活的波束控制、較高的空間分辨率、高的信號增益與較強的抗干擾能力等特點,因而成為智能語音處理系統(tǒng)中捕捉說話人語音的重要手段。
混響產(chǎn)生原因示意圖
3.去混響(Dereverberation)
一般我們聽音樂時,希望有混響的效果,這是聽覺上的一種享受。合適的混響會使得聲音圓潤動聽、富有感染力?;祉懀≧everberation)現(xiàn)象指的是聲波在室內(nèi)傳播時,要被墻壁、天花板、地板等障礙物形成反射聲,并和直達聲形成疊加,這種現(xiàn)象稱為混響。
但是,混響現(xiàn)象對于識別就沒有什么好處了。由于混響則會使得不同步的語音相互疊加,帶來了音素的交疊掩蔽效應(yīng)(Phoneme Overlap Effect),從而嚴(yán)重影響語音識別效果。
影響語音識別的部分一般是晚期混響部分,所以去混響的主要工作重點是放在如何去除晚期混響上面,多年來,去混響技術(shù)抑制是業(yè)界研究的熱點和難點。利用麥克風(fēng)陣列去混響的主要方法有以下幾種:
(1)基于盲語音增強的方法(Blind signal enhancement approach),即將混響信號作為普通的加性噪聲信號,在這個上面應(yīng)用語音增強算法。
(2)基于波束形成的方法(Beamforming based approach),通過將多麥克風(fēng)對收集的信號進行加權(quán)相加,在目標(biāo)信號的方向形成一個拾音波束,同時衰減來自其他方向的反射聲。
(3)基于逆濾波的方法(An inverse filtering approach),通過麥克風(fēng)陣列估計房間的房間沖擊響應(yīng)(Room Impulse Response, RIR),設(shè)計重構(gòu)濾波器來補償來消除混響。
現(xiàn)在科大訊飛實現(xiàn)的基于麥克風(fēng)陣列的去混響技術(shù)能很好的對房間的混響情況進行自適應(yīng)的估計,從而很好的進行純凈信號的還原,顯著的提升了語音聽感和識別效果,在測試對比中,多種混響時間下識別效果接近手機近講水平。
混響語音信號頻譜
經(jīng)過去混響后的語音信號頻譜
4.聲源信號提?。ǚ蛛x)
家里人說話太多,DingDong聽誰的呢。這個時候就需要DingDong聰明的辨別出哪個聲音才是指令。而麥克風(fēng)陣列可以實現(xiàn)聲源信號提取,聲源信號的提取就是從多個聲音信號中提取出目標(biāo)信號,聲源信號分離技術(shù)則是將需要將多個混合聲音全部提取出來。
通過麥克風(fēng)陣列波束形成做語音提取和分離
利用麥克風(fēng)陣列做信號的提取和分離主要有以下幾種方式:
(1)基于波束形成的方法,即通過向不同方向的聲源分別形成拾音波束,并且抑制其他方向的聲音,來進行語音提取或分離;
(2)基于傳統(tǒng)的盲源信號分離(Blind Source Separation)的方法進行,主要包括主成分分析(Principal Component Analysis,PCA)和基于獨立成分分析(Independent Component Analysis,ICA)的方法。
當(dāng)下的麥克風(fēng)陣列
麥克風(fēng)陣列技術(shù)雖然已經(jīng)可以達到相當(dāng)?shù)募夹g(shù)水平,但是總體上還是存在一些問題的,比如當(dāng)麥克風(fēng)和信號源距離太遠時(比如10m、20m距離),錄制信號的信噪比會很低,算法處理難度很大;對于便攜設(shè)備來說,受設(shè)備尺寸以及功耗的限制,麥克風(fēng)的個數(shù)不能太多,陣列尺寸也不能太大。而分布式麥克風(fēng)陣列技術(shù)則是解決當(dāng)前問題的一個可能途徑。所謂分布式陣列就是將子陣元或子陣列布局到更大的范圍內(nèi),相互之間通過有線或者無線的方式進行數(shù)據(jù)的交換和共享,并在此基礎(chǔ)上進行廣義上的聲源定位、波束形成等技術(shù)實現(xiàn)信號處理。
相對于目前集中式的麥克風(fēng)陣列,分布式陣列的優(yōu)勢也是非常明顯的。首先分布式麥克風(fēng)陣列(尤其無線傳輸)的尺寸的限制就不存在了;另外,陣列的節(jié)點可以覆蓋很大的面積——總會有一個陣列的節(jié)點距離聲源很近,錄音信噪比大幅度提升,算法處理難度也會降低,總體的信號處理的效果也會有非常顯著的提升,因此分布式陣列有可能是未來智能家居和會議系統(tǒng)中的主流方案。目前科大訊飛已經(jīng)開始了相關(guān)技術(shù)研究的布局工作。
在萬物互聯(lián)的今天,麥克風(fēng)陣列技術(shù)已經(jīng)深刻的走進了我們的日常生活。在智能車載、智能家居、機器人、可穿戴設(shè)備等應(yīng)用熱潮正興起的時代,語音交互由于其便捷性,成了人機交互入口的第一選擇,麥克風(fēng)陣列自然也成為其中非常重要的前端技術(shù)。
在美國當(dāng)?shù)貢r間2016年9月13日,國際多通道語音分離和識別大賽(CHiME)組委會在美國舊金山Google公司揭曉了第四屆CHiME-4的大賽結(jié)果,在公布結(jié)果之前,我們先來看看這個CHiME是什么?CHiME(Computational Hearing in Multisource Environments)始辦于2011年,由法國計算機科學(xué)與自動化研究所、英國謝菲爾德大學(xué)、美國三菱電子研究實驗室等知名研究機構(gòu)所發(fā)起,比賽的目的是希望學(xué)術(shù)界和工業(yè)屆針對高噪聲和混響等現(xiàn)象影響下的實際場景提出全新的語音識別解決方案,以進一步提升語音識別的實用性和普適性,屬于國際語音識別評測中的高難度比賽。
今年科大訊飛首次參加該項賽事,通過和中國科學(xué)技術(shù)大學(xué)杜俊教授團隊、西北工業(yè)大學(xué)陳景東教授、佐治亞理工學(xué)院李錦輝教授等國內(nèi)外知名專家的深入合作,斬獲全部三個項目的桂冠并大幅刷新了各項目的歷史最好記錄,三個項目分別是六麥克風(fēng)、雙麥克風(fēng)和單麥克風(fēng)場景下的語音分離和英文識別任務(wù)。雖然比賽的語種是英文,但無論中文還是英文,在語音技術(shù)上是相通的。
-
麥克風(fēng)陣列
+關(guān)注
關(guān)注
4文章
23瀏覽量
14058 -
科大訊飛
+關(guān)注
關(guān)注
19文章
789瀏覽量
61147
發(fā)布評論請先 登錄
相關(guān)推薦
評論