0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌和Idiap研究所的研究人員訓(xùn)練了兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)

DPVg_AI_era ? 來(lái)源:未知 ? 作者:李倩 ? 2018-10-18 10:39 ? 次閱讀

谷歌和Idiap研究所的研究人員訓(xùn)練了兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò),能夠顯著降低多說(shuō)話者信號(hào)語(yǔ)音識(shí)別詞錯(cuò)誤率。

把一個(gè)人的聲音從嘈雜的人群中分離出來(lái)是大多數(shù)人潛意識(shí)里都會(huì)做的事情——這就是所謂的雞尾酒會(huì)效應(yīng)。像谷歌Home和亞馬遜的Echo這樣的智能揚(yáng)聲器實(shí)現(xiàn)分離人群中的聲音可能還要再經(jīng)歷一段時(shí)間,但多虧了AI,它們或許有一天能夠像人類一樣過(guò)濾掉聲音。

谷歌和位于Switerzland的Idiap研究所的研究人員發(fā)表在Arxiv上的一篇論文中描述了一種新的解決方案。他們訓(xùn)練了兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)——說(shuō)話者識(shí)別網(wǎng)絡(luò)(a speaker recognition network)和聲譜掩碼網(wǎng)絡(luò)(a spectrogram masking network)——這兩個(gè)網(wǎng)絡(luò)一起“顯著”降低了多說(shuō)話者信號(hào)的語(yǔ)音識(shí)別詞錯(cuò)誤率(WER)。

他們的工作建立在麻省理工學(xué)院計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室今年早些時(shí)候發(fā)表的一篇論文的基礎(chǔ)上,該論文描述了一個(gè)名為PixelPlayer的系統(tǒng),該系統(tǒng)能夠?qū)蝹€(gè)樂(lè)器的聲音從YouTube視頻中分離出來(lái)。

論文:

VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking

論文地址:

https://arxiv.org/pdf/1810.04826.pdf

最新的論文中,研究人員寫(xiě)道:“我們的任務(wù)是將一部分感興趣的說(shuō)話者的聲音與所有其他說(shuō)話者和聲音的共性分離開(kāi)來(lái)。例如,這樣的子集可以由一個(gè)目標(biāo)揚(yáng)聲器對(duì)個(gè)人移動(dòng)設(shè)備發(fā)出語(yǔ)音查詢,或者由一個(gè)家庭成員對(duì)一個(gè)共享的家庭設(shè)備進(jìn)行交談而形成。”

研究人員的語(yǔ)音過(guò)濾系統(tǒng)分為兩部分,包括LSTM模型和卷積神經(jīng)網(wǎng)絡(luò)(只有一個(gè)LSTM層)。第一個(gè)采用預(yù)處理的語(yǔ)音采樣和輸出揚(yáng)聲器嵌入(即矢量形式的聲音表示)作為輸入,而后者預(yù)測(cè)來(lái)自嵌入的軟掩?;?a href="http://ttokpm.com/tags/濾波器/" target="_blank">濾波器以及根據(jù)噪聲音頻計(jì)算的幅度譜圖。掩模用于生成增強(qiáng)幅度譜圖,當(dāng)與噪聲音頻的相位(聲波)組合并變換時(shí),產(chǎn)生增強(qiáng)的波形。

AI系統(tǒng)被訓(xùn)練以便最大限度地減少屏蔽幅度頻譜圖與從干凈音頻計(jì)算的目標(biāo)幅度頻譜圖之間的差異。

該團(tuán)隊(duì)為訓(xùn)練樣本提供了兩個(gè)數(shù)據(jù)集:(1)來(lái)自13.8萬(wàn)名演講者的大約3400萬(wàn)個(gè)匿名語(yǔ)音查詢?nèi)罩荆?2)開(kāi)源語(yǔ)音庫(kù)LibriSpeech、VoxCeleb和VoxCeleb2的匯編。VoiceFilter網(wǎng)絡(luò)對(duì)來(lái)自CSTR VCTK數(shù)據(jù)集(由愛(ài)丁堡大學(xué)維護(hù)的一組語(yǔ)音數(shù)據(jù))和LibriSpeech的2338個(gè)貢獻(xiàn)者的語(yǔ)音樣本進(jìn)行了訓(xùn)練,并使用來(lái)自73名演講者的話語(yǔ)進(jìn)行評(píng)估。

在測(cè)試中,VoiceFilter在雙揚(yáng)聲器方案中將字錯(cuò)誤率從55.9%降低到23.4%。

研究人員寫(xiě)道:“我們已經(jīng)證明了使用經(jīng)過(guò)專門(mén)訓(xùn)練的揚(yáng)聲器編碼器來(lái)調(diào)整語(yǔ)音分離任務(wù)的有效性。這樣的系統(tǒng)更適用于真實(shí)場(chǎng)景,因?yàn)樗恍枰孪戎罁P(yáng)聲器的數(shù)量……我們的系統(tǒng)完全依賴于音頻信號(hào),可以很容易地通過(guò)使用具有高度代表性的嵌入向量來(lái)推廣到未知的揚(yáng)聲器?!?/p>

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6128

    瀏覽量

    104951
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4734

    瀏覽量

    100420
  • 語(yǔ)音識(shí)別
    +關(guān)注

    關(guān)注

    38

    文章

    1710

    瀏覽量

    112493

原文標(biāo)題:谷歌神經(jīng)網(wǎng)絡(luò)人聲分離技術(shù)再突破!詞錯(cuò)率低至23.4%

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    神經(jīng)網(wǎng)絡(luò)教程(李亞非)

      第1章 概述  1.1 人工神經(jīng)網(wǎng)絡(luò)研究與發(fā)展  1.2 生物神經(jīng)元  1.3 人工神經(jīng)網(wǎng)絡(luò)的構(gòu)成  第2章人工神經(jīng)網(wǎng)絡(luò)基本模型  2.
    發(fā)表于 03-20 11:32

    人類首創(chuàng)能生成神經(jīng)細(xì)胞的“迷你大腦”,更精確模擬神經(jīng)網(wǎng)絡(luò)!

    `近日,凱斯西儲(chǔ)大學(xué)醫(yī)學(xué)院、紐約干細(xì)胞基金會(huì)(NYSCF)研究所和喬治華盛頓大學(xué)的研究人員聯(lián)合提出了一種新方法,通過(guò)人類胚胎干細(xì)胞培育生成3D版的“迷你大腦”。這些“迷你大腦”名為“大腦類器官
    發(fā)表于 08-21 09:26

    【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

    今天學(xué)習(xí)了兩個(gè)神經(jīng)網(wǎng)絡(luò),分別是自適應(yīng)諧振(ART)神經(jīng)網(wǎng)絡(luò)與自組織映射(SOM)神經(jīng)網(wǎng)絡(luò)。整體感覺(jué)不是很難,只不過(guò)一些最基礎(chǔ)的概念容易理解不清。首先ART
    發(fā)表于 07-21 04:30

    如何移植一個(gè)CNN神經(jīng)網(wǎng)絡(luò)到FPGA中?

    訓(xùn)練個(gè)神經(jīng)網(wǎng)絡(luò)并移植到Lattice FPGA上,通常需要開(kāi)發(fā)人員既要懂軟件又要懂?dāng)?shù)字電路設(shè)計(jì),是個(gè)不容易的事。好在FPGA廠商為我們提供
    發(fā)表于 11-26 07:46

    基于BP神經(jīng)網(wǎng)絡(luò)的PID控制

    最近在學(xué)習(xí)電機(jī)的智能控制,上周學(xué)習(xí)了基于單神經(jīng)元的PID控制,這周研究基于BP神經(jīng)網(wǎng)絡(luò)的PID控制。神經(jīng)網(wǎng)絡(luò)具有任意非線性表達(dá)能力,可以通過(guò)對(duì)系統(tǒng)性能的學(xué)習(xí)來(lái)實(shí)現(xiàn)具有最佳組合的PID控
    發(fā)表于 09-07 07:43

    圖像預(yù)處理和改進(jìn)神經(jīng)網(wǎng)絡(luò)推理的簡(jiǎn)要介紹

    為提升識(shí)別準(zhǔn)確率,采用改進(jìn)神經(jīng)網(wǎng)絡(luò),通過(guò)Mnist數(shù)據(jù)集進(jìn)行訓(xùn)練。整體處理過(guò)程分為步:圖像預(yù)處理和改進(jìn)神經(jīng)網(wǎng)絡(luò)推理。圖像預(yù)處理主要根據(jù)圖像的特征,將數(shù)據(jù)處理成規(guī)范的格式,而改進(jìn)
    發(fā)表于 12-23 08:07

    卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

    network,DBN)[24], 從此拉開(kāi)了深度學(xué)習(xí)大幕。隨著深度學(xué)習(xí)理論的研究和發(fā)展,研究人員提 出了一系列卷積神經(jīng)網(wǎng)絡(luò)模型。為了比較不同模型 的質(zhì)量,收集并整理了文獻(xiàn)中模型在分類任務(wù)上的 識(shí)別率,如圖 1
    發(fā)表于 08-02 10:39

    如何進(jìn)行高效的時(shí)序圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練

    現(xiàn)有的圖數(shù)據(jù)規(guī)模極大,導(dǎo)致時(shí)序圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練需要格外長(zhǎng)的時(shí)間,因此使用多GPU進(jìn)行訓(xùn)練變得成為尤為重要,如何有效地將多GPU用于時(shí)序圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練
    發(fā)表于 09-28 10:37

    谷歌最新AI算法 遞歸神經(jīng)網(wǎng)絡(luò)繪制大腦神經(jīng)圖像

    谷歌研究人員使用了一種邊緣檢測(cè)算法,該算法可以識(shí)別神經(jīng)突(神經(jīng)元本體的分支)的邊界,以及一種復(fù)發(fā)性卷積神經(jīng)網(wǎng)絡(luò)(復(fù)發(fā)性
    發(fā)表于 07-20 09:45 ?2312次閱讀

    研究人員開(kāi)發(fā)解釋多義詞的神經(jīng)網(wǎng)絡(luò)

    艾倫人工智能研究所和華盛頓大學(xué)的研究人員正在使用可以根據(jù)上下文來(lái)確定英文單詞含義的神經(jīng)網(wǎng)絡(luò)。
    的頭像 發(fā)表于 09-12 15:52 ?2183次閱讀

    神經(jīng)網(wǎng)絡(luò)有什么天生的性質(zhì)

    谷歌大腦研究人員通過(guò)精簡(jiǎn)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在前幾代中發(fā)現(xiàn)了最小架構(gòu)的神經(jīng)網(wǎng)絡(luò)能夠控制此處所示的雙足機(jī)器人,即使它的得分不高。
    發(fā)表于 02-05 16:55 ?1191次閱讀

    邊緣計(jì)算中深度神經(jīng)網(wǎng)絡(luò)剪枝壓縮的研究

    深度神經(jīng)網(wǎng)絡(luò)與其他很多機(jī)器學(xué)習(xí)模型一樣,可分為訓(xùn)練和推理兩個(gè)階段。訓(xùn)練階段根據(jù)數(shù)據(jù)學(xué)習(xí)模型中的參數(shù)(對(duì)神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)主要是
    的頭像 發(fā)表于 03-27 15:50 ?2941次閱讀

    研究人員開(kāi)發(fā)“液態(tài)”神經(jīng)網(wǎng)絡(luò) 可適應(yīng)快速變化的訓(xùn)練環(huán)境

    設(shè)計(jì)出了一種具有重大改進(jìn)的“液態(tài)”神經(jīng)網(wǎng)絡(luò)。其特點(diǎn)是能夠在投入訓(xùn)練階段之后,極大地?cái)U(kuò)展 AI 技術(shù)的靈活性。 通常情況下,研究人員會(huì)在訓(xùn)練階段向神經(jīng)
    的頭像 發(fā)表于 01-29 10:46 ?1510次閱讀

    BP神經(jīng)網(wǎng)絡(luò)研究進(jìn)展

    通過(guò)對(duì)傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)缺點(diǎn)的分析,從參數(shù)選取、BP算法、激活函數(shù)、網(wǎng)絡(luò)結(jié)構(gòu)4個(gè)方面綜述了其改進(jìn)方法。介紹了各種方法的原理、應(yīng)用背景及其在BP神經(jīng)網(wǎng)絡(luò)中的應(yīng)用,同時(shí)分析了各種方法的優(yōu)缺點(diǎn)
    發(fā)表于 06-01 11:28 ?5次下載

    怎么對(duì)神經(jīng)網(wǎng)絡(luò)重新訓(xùn)練

    重新訓(xùn)練神經(jīng)網(wǎng)絡(luò)是一個(gè)復(fù)雜的過(guò)程,涉及到多個(gè)步驟和考慮因素。 引言 神經(jīng)網(wǎng)絡(luò)是一種強(qiáng)大的機(jī)器學(xué)習(xí)模型,廣泛應(yīng)用于圖像識(shí)別、自然語(yǔ)言處理、語(yǔ)音識(shí)別等領(lǐng)域。然而,隨著時(shí)間的推移,數(shù)據(jù)分布可
    的頭像 發(fā)表于 07-11 10:25 ?402次閱讀