用過智能音箱的小伙伴可能會有過這樣的經(jīng)歷,當(dāng)你和朋友同時對它講話時,它有時候同時面對兩位小主的臨幸會感覺很凌亂,不知道該聽誰的,分不清到底是誰在向它發(fā)出指令誰才是它的主人。
其實這涉及到語音識別領(lǐng)域一個重要的問題Speaker diarization(即說話人分類技術(shù)),這一技術(shù)的目的在于從音頻流中分離出不同人說話的語音,并將分離出的語音歸并到所屬的說話人上,其核心問題在于解決“who speak when”。這一技術(shù)對于理解對話、視頻標(biāo)注以及移動端語音識別具有重要的意義。
對于Speaker diarization來說,其處理過程一般分為四個步驟:
語音分割:將不同說話人的語音片段分割出來,在音頻流中標(biāo)記分割點;
音頻特征抽?。豪弥T如MFCC、說話人因子或i-vector等來從片段中抽取特征;
聚類:當(dāng)檢測到多個說話人并獲取了對應(yīng)語音片段的特征后需要利用聚類方法將相應(yīng)的片段歸類到對應(yīng)的說話人中去。
重分割:優(yōu)化聚類結(jié)果來提升說話人分類的精度。
近年來,基于神經(jīng)網(wǎng)絡(luò)的音頻處理系統(tǒng)促進(jìn)了這一領(lǐng)域的快速發(fā)展,但要訓(xùn)練一個在任意情況下能夠準(zhǔn)確快速識別分類說話人的模型并不是一件簡單的事情。與標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)分類任務(wù)不同的是,說話人分類模型需要對新出現(xiàn)的說話人有著足夠魯棒的識別和分類性能,而在訓(xùn)練的過程中卻無法囊括現(xiàn)實中各式各樣的說話人。這在很大程度上限制了語音識別系統(tǒng)特別是在線系統(tǒng)的實時能力。
雖然已有很多工作在這個領(lǐng)域進(jìn)行了努力,但目前整個Speaker diarization系統(tǒng)中依然存在著非監(jiān)督學(xué)習(xí)的部分——聚類過程。聚類的表現(xiàn)對于整個系統(tǒng)有著重要的作用,但目前大多數(shù)算法都是無監(jiān)督的方法,這使得我們無法通過語音樣本的監(jiān)督學(xué)習(xí)來改進(jìn)這些算法。此外典型的聚類方法如k均值和譜聚類等非監(jiān)督算法對于在線說話人識別時,應(yīng)對不斷輸入的音頻流很難有效聚類。
為了進(jìn)一步提高模型的表現(xiàn),谷歌的研究人員提出了一種監(jiān)督學(xué)習(xí)方法來實現(xiàn)語音特征的聚類。在最近發(fā)表的論文“Fully Supervised Speaker Diarization”中,研究人員提出了一個名為unbounded interleaved-state recurrentneural network (UIS-RNN)的聚類算法來提高了模型的性能。在語音識別數(shù)據(jù)集上達(dá)到了7.6%的錯誤率,超過了其先前基于聚類方法(8.8%)和深度網(wǎng)絡(luò)嵌入方法(9.9%)。
這一方法與通常聚類方法的主要區(qū)別在于研究人員使用了參數(shù)共享的循環(huán)神經(jīng)網(wǎng)絡(luò)為所有的說話人(embeddings)建模,并通過循環(huán)神經(jīng)網(wǎng)絡(luò)的不同狀態(tài)來識別說話人,這就能將不同的語音片段與不同的人對應(yīng)起來。
具體來看,每一個人的語音都可以看做權(quán)值共享的RNN的一個實例,由于生成的實例不受限所以可以適應(yīng)多個說話人的場景。將RNN在不同輸入下的狀態(tài)對應(yīng)到不同的說話人即可實現(xiàn)通過監(jiān)督學(xué)習(xí)來實現(xiàn)語音片段的歸并。通過完整的監(jiān)督模型,可以得到語音中說話人的數(shù)量,并可以通過RNN攜帶時變的信息,這將會對在線系統(tǒng)的性能帶來質(zhì)的提升。
這一論文的主要貢獻(xiàn)如下:
提出了無界間隔狀態(tài)(. Unbounded interleaved-state )RNN,一個可以通過監(jiān)督學(xué)習(xí)訓(xùn)練的對于時變數(shù)據(jù)分割和聚類的算法;
全監(jiān)督的說話人分類系統(tǒng);
數(shù)據(jù)集上誤差提升到7.6%;
提高線上任務(wù)表現(xiàn)。
那么它具體是怎么工作的呢?假設(shè)我們有四個人同時對著這個AI說話(這是個例子,模型其實可以處理更多的人)。那么每個人將會得到一個自己的RNN實例,擁有相同的初始狀態(tài)和參數(shù)。隨著語音片段的特征不斷被送入到網(wǎng)絡(luò)中而更新狀態(tài)。
例如下面的藍(lán)色人在實例化后,他將一直保持RNN的狀態(tài),直到黃色的語音片段進(jìn)入并開啟新的RNN實例,這時在最頂部輸出的狀態(tài)就成為了黃色了。但后面如果藍(lán)色繼續(xù)說話,藍(lán)色RNN狀態(tài)也會相應(yīng)的重新轉(zhuǎn)移到藍(lán)色上。下圖最后的虛線顯示了y7各種不同的狀態(tài)。對于新出現(xiàn)的綠色說話人來說,將重新開啟一個新的實例。
利用RNN對說話人語音進(jìn)行表示,將能夠利用RNN參數(shù)從不同的說話人和言語中學(xué)習(xí)到高層級的知識,這對于標(biāo)記豐富的數(shù)據(jù)集來說將會得到更對更好的結(jié)果。利用帶有時間戳的說話人標(biāo)簽數(shù)據(jù),可以通過隨機(jī)梯度下降法來訓(xùn)練模型,可用于新的說話人,并提高在線任務(wù)的表現(xiàn)。
在未來研究人員將會改進(jìn)這一模型用于離線解碼上下文信息的整合;同時還希望直接利用聲學(xué)特征代替d-vectors作為音頻特征,這樣就能實現(xiàn)完整的端到端模型了。
其實,谷歌先前的工作為這一方法打下了堅實的基礎(chǔ)。去年的論文“SPEAKER DIARIZATION WITH LSTM”中就提出了利用LSTM與d-vertor結(jié)合來提升模型的表現(xiàn)。
但這篇論文中使用的聚類算法依然是無監(jiān)督的方法,這也為這次新工作的提出奠定了基礎(chǔ)。
除此之外,研究人員們還嘗試了利用視覺輔助的方法來識別誰在說話,并在論文“Looking to Listen at the Cocktail Party”中提出了利用視覺信息識別混合場景下說話人的方法:
相信不久后,家里的各種小可愛智能音響將可以清楚的分辨出誰是爸爸誰是媽媽,誰才是它的主人。對于嘈雜多人環(huán)境下語音指令的準(zhǔn)確性和對話系統(tǒng)的交互表現(xiàn)有著重要的作用。同時對于音視頻分析和音頻高維語義信息的抽取學(xué)習(xí)將會有很大的促進(jìn)作用。如果可以準(zhǔn)確識別對話中每個人的對話、時長、分布,甚至可以分析出每個用戶的語言習(xí)慣、說話節(jié)奏等高級特征,與其他技術(shù)結(jié)合將能夠在行為識別、情感分析甚至語音加密等方面帶來重要的影響。
-
谷歌
+關(guān)注
關(guān)注
27文章
6128瀏覽量
104979 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4749瀏覽量
100434 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1201瀏覽量
24622
原文標(biāo)題:聽不清誰在講話?谷歌新模型助力分辨聲音的主人
文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論