0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌的研究人員提出了一種監(jiān)督學(xué)習(xí)方法來實現(xiàn)語音特征的聚類

nlfO_thejiangme ? 來源:未知 ? 作者:李倩 ? 2018-11-16 11:13 ? 次閱讀

用過智能音箱的小伙伴可能會有過這樣的經(jīng)歷,當(dāng)你和朋友同時對它講話時,它有時候同時面對兩位小主的臨幸會感覺很凌亂,不知道該聽誰的,分不清到底是誰在向它發(fā)出指令誰才是它的主人。

其實這涉及到語音識別領(lǐng)域一個重要的問題Speaker diarization(即說話人分類技術(shù)),這一技術(shù)的目的在于從音頻流中分離出不同人說話的語音,并將分離出的語音歸并到所屬的說話人上,其核心問題在于解決“who speak when”。這一技術(shù)對于理解對話、視頻標(biāo)注以及移動端語音識別具有重要的意義。

對于Speaker diarization來說,其處理過程一般分為四個步驟:

語音分割:將不同說話人的語音片段分割出來,在音頻流中標(biāo)記分割點;

音頻特征抽?。豪弥T如MFCC、說話人因子或i-vector等來從片段中抽取特征;

聚類:當(dāng)檢測到多個說話人并獲取了對應(yīng)語音片段的特征后需要利用聚類方法將相應(yīng)的片段歸類到對應(yīng)的說話人中去。

重分割:優(yōu)化聚類結(jié)果來提升說話人分類的精度。

近年來,基于神經(jīng)網(wǎng)絡(luò)的音頻處理系統(tǒng)促進(jìn)了這一領(lǐng)域的快速發(fā)展,但要訓(xùn)練一個在任意情況下能夠準(zhǔn)確快速識別分類說話人的模型并不是一件簡單的事情。與標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)分類任務(wù)不同的是,說話人分類模型需要對新出現(xiàn)的說話人有著足夠魯棒的識別和分類性能,而在訓(xùn)練的過程中卻無法囊括現(xiàn)實中各式各樣的說話人。這在很大程度上限制了語音識別系統(tǒng)特別是在線系統(tǒng)的實時能力。

雖然已有很多工作在這個領(lǐng)域進(jìn)行了努力,但目前整個Speaker diarization系統(tǒng)中依然存在著非監(jiān)督學(xué)習(xí)的部分——聚類過程。聚類的表現(xiàn)對于整個系統(tǒng)有著重要的作用,但目前大多數(shù)算法都是無監(jiān)督的方法,這使得我們無法通過語音樣本的監(jiān)督學(xué)習(xí)來改進(jìn)這些算法。此外典型的聚類方法如k均值和譜聚類等非監(jiān)督算法對于在線說話人識別時,應(yīng)對不斷輸入的音頻流很難有效聚類。

為了進(jìn)一步提高模型的表現(xiàn),谷歌的研究人員提出了一種監(jiān)督學(xué)習(xí)方法來實現(xiàn)語音特征的聚類。在最近發(fā)表的論文“Fully Supervised Speaker Diarization”中,研究人員提出了一個名為unbounded interleaved-state recurrentneural network (UIS-RNN)的聚類算法來提高了模型的性能。在語音識別數(shù)據(jù)集上達(dá)到了7.6%的錯誤率,超過了其先前基于聚類方法(8.8%)和深度網(wǎng)絡(luò)嵌入方法(9.9%)。

這一方法與通常聚類方法的主要區(qū)別在于研究人員使用了參數(shù)共享的循環(huán)神經(jīng)網(wǎng)絡(luò)為所有的說話人(embeddings)建模,并通過循環(huán)神經(jīng)網(wǎng)絡(luò)的不同狀態(tài)來識別說話人,這就能將不同的語音片段與不同的人對應(yīng)起來。

具體來看,每一個人的語音都可以看做權(quán)值共享的RNN的一個實例,由于生成的實例不受限所以可以適應(yīng)多個說話人的場景。將RNN在不同輸入下的狀態(tài)對應(yīng)到不同的說話人即可實現(xiàn)通過監(jiān)督學(xué)習(xí)來實現(xiàn)語音片段的歸并。通過完整的監(jiān)督模型,可以得到語音中說話人的數(shù)量,并可以通過RNN攜帶時變的信息,這將會對在線系統(tǒng)的性能帶來質(zhì)的提升。

這一論文的主要貢獻(xiàn)如下:

提出了無界間隔狀態(tài)(. Unbounded interleaved-state )RNN,一個可以通過監(jiān)督學(xué)習(xí)訓(xùn)練的對于時變數(shù)據(jù)分割和聚類的算法;

全監(jiān)督的說話人分類系統(tǒng);

數(shù)據(jù)集上誤差提升到7.6%;

提高線上任務(wù)表現(xiàn)。

那么它具體是怎么工作的呢?假設(shè)我們有四個人同時對著這個AI說話(這是個例子,模型其實可以處理更多的人)。那么每個人將會得到一個自己的RNN實例,擁有相同的初始狀態(tài)和參數(shù)。隨著語音片段的特征不斷被送入到網(wǎng)絡(luò)中而更新狀態(tài)。

例如下面的藍(lán)色人在實例化后,他將一直保持RNN的狀態(tài),直到黃色的語音片段進(jìn)入并開啟新的RNN實例,這時在最頂部輸出的狀態(tài)就成為了黃色了。但后面如果藍(lán)色繼續(xù)說話,藍(lán)色RNN狀態(tài)也會相應(yīng)的重新轉(zhuǎn)移到藍(lán)色上。下圖最后的虛線顯示了y7各種不同的狀態(tài)。對于新出現(xiàn)的綠色說話人來說,將重新開啟一個新的實例。

利用RNN對說話人語音進(jìn)行表示,將能夠利用RNN參數(shù)從不同的說話人和言語中學(xué)習(xí)到高層級的知識,這對于標(biāo)記豐富的數(shù)據(jù)集來說將會得到更對更好的結(jié)果。利用帶有時間戳的說話人標(biāo)簽數(shù)據(jù),可以通過隨機(jī)梯度下降法來訓(xùn)練模型,可用于新的說話人,并提高在線任務(wù)的表現(xiàn)。

在未來研究人員將會改進(jìn)這一模型用于離線解碼上下文信息的整合;同時還希望直接利用聲學(xué)特征代替d-vectors作為音頻特征,這樣就能實現(xiàn)完整的端到端模型了。

其實,谷歌先前的工作為這一方法打下了堅實的基礎(chǔ)。去年的論文“SPEAKER DIARIZATION WITH LSTM”中就提出了利用LSTM與d-vertor結(jié)合來提升模型的表現(xiàn)。

但這篇論文中使用的聚類算法依然是無監(jiān)督的方法,這也為這次新工作的提出奠定了基礎(chǔ)。

除此之外,研究人員們還嘗試了利用視覺輔助的方法來識別誰在說話,并在論文“Looking to Listen at the Cocktail Party”中提出了利用視覺信息識別混合場景下說話人的方法:

相信不久后,家里的各種小可愛智能音響將可以清楚的分辨出誰是爸爸誰是媽媽,誰才是它的主人。對于嘈雜多人環(huán)境下語音指令的準(zhǔn)確性和對話系統(tǒng)的交互表現(xiàn)有著重要的作用。同時對于音視頻分析和音頻高維語義信息的抽取學(xué)習(xí)將會有很大的促進(jìn)作用。如果可以準(zhǔn)確識別對話中每個人的對話、時長、分布,甚至可以分析出每個用戶的語言習(xí)慣、說話節(jié)奏等高級特征,與其他技術(shù)結(jié)合將能夠在行為識別、情感分析甚至語音加密等方面帶來重要的影響。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6128

    瀏覽量

    104979
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4749

    瀏覽量

    100434
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1201

    瀏覽量

    24622

原文標(biāo)題:聽不清誰在講話?谷歌新模型助力分辨聲音的主人

文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    深非監(jiān)督學(xué)習(xí)-Hierarchical clustering 層次python的實現(xiàn)

    【深度學(xué)習(xí)基礎(chǔ)-17】非監(jiān)督學(xué)習(xí)-Hierarchical clustering 層次-python實現(xiàn)
    發(fā)表于 04-28 10:07

    一種個數(shù)自適應(yīng)的方法(簡稱SKKM)

    在數(shù)據(jù)挖掘算法中,K均值算法是一種比較常見的無監(jiān)督學(xué)習(xí)方法,簇間數(shù)據(jù)對象越相異,簇內(nèi)數(shù)據(jù)對象越相似,說明該
    發(fā)表于 11-03 16:13 ?12次下載
    <b class='flag-5'>一種</b><b class='flag-5'>聚</b><b class='flag-5'>類</b>個數(shù)自適應(yīng)的<b class='flag-5'>聚</b><b class='flag-5'>類</b><b class='flag-5'>方法</b>(簡稱SKKM)

    一種改進(jìn)的BIRCH算法方法

    為解決傳統(tǒng)BIRCH算法對數(shù)據(jù)對象輸入順序敏感、結(jié)果不穩(wěn)定的問題,提出了一種改進(jìn)的BIRCH算法。該算法將雷達(dá)信號偵察數(shù)據(jù)的脈沖載頻、脈沖重復(fù)間隔和脈沖寬度分別進(jìn)行
    發(fā)表于 11-10 15:52 ?1次下載
    <b class='flag-5'>一種</b>改進(jìn)的BIRCH算法<b class='flag-5'>聚</b><b class='flag-5'>類</b><b class='flag-5'>方法</b>

    采用無監(jiān)督學(xué)習(xí)方法,用深度摘要網(wǎng)絡(luò)總結(jié)視頻

    中科院和英國倫敦大學(xué)瑪麗女王學(xué)院的研究人員就生成視頻摘要提出了一種方法,采用無監(jiān)督學(xué)習(xí)方法,
    的頭像 發(fā)表于 01-15 10:49 ?7086次閱讀
    采用無<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>的<b class='flag-5'>方法</b>,用深度摘要網(wǎng)絡(luò)總結(jié)視頻

    基于半監(jiān)督學(xué)習(xí)框架的識別算法

    問題,對半監(jiān)督學(xué)習(xí)中的協(xié)同訓(xùn)練算法進(jìn)行改進(jìn),提出了一種基于多學(xué)習(xí)器協(xié)同訓(xùn)練模型的人體行為識別方法.這是
    發(fā)表于 01-21 10:41 ?1次下載

    深度解析機(jī)器學(xué)習(xí)學(xué)習(xí)方法

    在機(jī)器學(xué)習(xí)(Machine learning)領(lǐng)域。主要有三不同的學(xué)習(xí)方法監(jiān)督學(xué)習(xí)(Supervised learning)、非監(jiān)督學(xué)習(xí)
    發(fā)表于 05-07 09:09 ?1.4w次閱讀

    Python無監(jiān)督學(xué)習(xí)的幾種算法包括K-Means,分層等詳細(xì)概述

    監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)技術(shù)中的一類,用于發(fā)現(xiàn)數(shù)據(jù)中的模式。本文介紹用Python進(jìn)行無監(jiān)督學(xué)習(xí)的幾種
    的頭像 發(fā)表于 05-27 09:59 ?3w次閱讀
    Python無<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>的幾種<b class='flag-5'>聚</b><b class='flag-5'>類</b>算法包括K-Means<b class='flag-5'>聚</b><b class='flag-5'>類</b>,分層<b class='flag-5'>聚</b><b class='flag-5'>類</b>等詳細(xì)概述

    利用機(jī)器學(xué)習(xí)捕捉內(nèi)部漏洞的工具運(yùn)用無監(jiān)督學(xué)習(xí)方法可發(fā)現(xiàn)入侵者

    Darktrace新網(wǎng)絡(luò)安全公司與劍橋大學(xué)的數(shù)學(xué)家合作,開發(fā)了一種利用機(jī)器學(xué)習(xí)捕捉內(nèi)部漏洞的工具。它運(yùn)用無監(jiān)督學(xué)習(xí)方法,查看大量未標(biāo)記的數(shù)據(jù),并找到不遵循典型模式的碎片。這些原始數(shù)據(jù)
    發(fā)表于 11-22 16:01 ?1223次閱讀

    密度峰值算法實現(xiàn)LGG的半監(jiān)督學(xué)習(xí)

      基于圖的局部與全局致性(LGC)半監(jiān)督學(xué)習(xí)方法具有較高的標(biāo)注正確率,但時間復(fù)雜度較高,難以適用于數(shù)據(jù)規(guī)模較大的實際應(yīng)用場景。從縮小圖的規(guī)模人手,提出一種全局
    發(fā)表于 03-11 11:21 ?21次下載
    密度峰值<b class='flag-5'>聚</b><b class='flag-5'>類</b>算法<b class='flag-5'>實現(xiàn)</b>LGG的半<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>

    華裔女博士提出:Facebook提出用于超參數(shù)調(diào)整的自我監(jiān)督學(xué)習(xí)框架

    【導(dǎo)讀】Facebook的研究人員近日提出了一種用于超參數(shù)調(diào)整的自我監(jiān)督學(xué)習(xí)框架。
    的頭像 發(fā)表于 04-26 09:45 ?1736次閱讀
    華裔女博士<b class='flag-5'>提出</b>:Facebook<b class='flag-5'>提出</b>用于超參數(shù)調(diào)整的自我<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>框架

    基于成對學(xué)習(xí)和圖像的肺癌亞型識別

    基因診斷是近年來提高肺癌治愈率的一種新型且有效的方法,但這種方法存在基因檢測時間長、費用高、侵入式取樣損傷大的問題。文中提出了基于成對學(xué)習(xí)
    發(fā)表于 05-10 11:20 ?4次下載

    基于特征組分層和半監(jiān)督學(xué)習(xí)的鼠標(biāo)軌跡識別方法

    傳統(tǒng)時間序列分類方法存在鼠標(biāo)軌跡特征挖掘不充分、數(shù)據(jù)不平衡與標(biāo)記樣本量少等問題,造成識別效果較差。結(jié)合特征組分層和半監(jiān)督學(xué)習(xí),提出
    發(fā)表于 05-13 15:41 ?9次下載

    融合零樣本學(xué)習(xí)和小樣本學(xué)習(xí)的弱監(jiān)督學(xué)習(xí)方法綜述

    等現(xiàn)實挑戰(zhàn),很多學(xué)者針對數(shù)據(jù)依賴小的弱監(jiān)督學(xué)習(xí)方法開展研究,出現(xiàn)了小樣本學(xué)習(xí)、零樣本學(xué)習(xí)等典型研究方向。對此,本文主要介紹了弱
    發(fā)表于 02-09 11:22 ?2212次閱讀
    融合零樣本<b class='flag-5'>學(xué)習(xí)</b>和小樣本<b class='flag-5'>學(xué)習(xí)</b>的弱<b class='flag-5'>監(jiān)督學(xué)習(xí)方法</b>綜述

    一種基于偽標(biāo)簽半監(jiān)督學(xué)習(xí)的小樣本調(diào)制識別算法

    一種基于偽標(biāo)簽半監(jiān)督學(xué)習(xí)的小樣本調(diào)制識別算法 來源:《西北工業(yè)大學(xué)學(xué)報》,作者史蘊(yùn)豪等 摘 要:針對有標(biāo)簽樣本較少條件下的通信信號調(diào)制識別問題,提出了一種基于偽標(biāo)簽半
    發(fā)表于 02-10 11:37 ?789次閱讀

    深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法綜述

    應(yīng)用中往往難以實現(xiàn)。因此,無監(jiān)督學(xué)習(xí)在深度學(xué)習(xí)中扮演著越來越重要的角色。本文旨在綜述深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法,包括自編碼器、生成對抗網(wǎng)絡(luò)、
    的頭像 發(fā)表于 07-09 10:50 ?410次閱讀