0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

思必馳人工智能:10篇論文被收錄在INTERSPEECH 2020

深圳市汽車電子行業(yè)協(xié)會(huì) ? 來(lái)源:深圳市汽車電子行業(yè)協(xié)會(huì) ? 作者:深圳市汽車電子行 ? 2020-11-10 09:31 ? 次閱讀

國(guó)際頂級(jí)的語(yǔ)音技術(shù)圈會(huì)議INTERSPEECH 2020于10月25-30日在中國(guó)上海舉辦,本次會(huì)議主題為“Cognitive Intelligence for Speech Processing”。思必馳作為國(guó)內(nèi)領(lǐng)先的對(duì)話式人工智能平臺(tái)公司參加該國(guó)際頂會(huì),支持大會(huì)在這不平凡的2020年順利舉行,致力推進(jìn)產(chǎn)學(xué)研用的一體化進(jìn)程。

思必馳-上海交通大學(xué)智能人機(jī)交互聯(lián)合實(shí)驗(yàn)室

10篇論文被INTERSPEECH 2020收錄

INTERSPEECH 2020共接收有效論文總數(shù)2100余篇,實(shí)際收錄數(shù)量為1022篇。其中,思必馳-上海交通大學(xué)智能人機(jī)交互聯(lián)合實(shí)驗(yàn)室10篇論文被正式收錄,涉及說(shuō)話人識(shí)別、語(yǔ)音識(shí)別及合成、多模態(tài)語(yǔ)音分離、口語(yǔ)語(yǔ)義理解等多方面的技術(shù)創(chuàng)新研究。

10篇論文簡(jiǎn)要介紹如下:

《用于單通道多說(shuō)話人語(yǔ)音識(shí)別的上下文嵌入表示學(xué)習(xí)方法》

Learning Contextual Language Embeddings for Monaural Multi-talker Speech Recognition

端到端多說(shuō)話人語(yǔ)音識(shí)別是近年來(lái)的熱門話題。本文探討了利用上下文信息來(lái)提升多說(shuō)話人語(yǔ)音識(shí)別的性能。我們?cè)O(shè)計(jì)了嵌入表示學(xué)習(xí)模型來(lái)直接從多說(shuō)話人混合語(yǔ)音中準(zhǔn)確地提取上下文嵌入表示,同時(shí)進(jìn)一步提出了兩種高級(jí)的訓(xùn)練策略來(lái)改進(jìn)該新模型,即嵌入表示采樣和兩階段訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,我們的方法在多說(shuō)話人語(yǔ)音識(shí)別上取得了顯著改進(jìn),與端到端多說(shuō)話人語(yǔ)音識(shí)別的基線模型相比,本文提出的方法減少了相對(duì)25%的詞錯(cuò)誤率。

圖:基于上下文嵌入表示的多說(shuō)話人語(yǔ)音識(shí)別模型結(jié)構(gòu)

《在雞尾酒會(huì)中聆聽、觀察、理解:音頻-視頻-上下文的多模態(tài)語(yǔ)音分離》

Listen, Watch and Understand at the Cocktail Party: Audio-Visual-Contextual Speech Separation

多個(gè)說(shuō)話人同時(shí)說(shuō)話時(shí),人類可以通過(guò)聽混合語(yǔ)音,觀看說(shuō)話者并理解上下文信息,將注意力集中在感興趣的語(yǔ)音上。我們嘗試使用三種模態(tài)(視覺(jué)模態(tài)、語(yǔ)音模態(tài)以及上下文信息模態(tài))來(lái)解決與說(shuō)話者無(wú)關(guān)的語(yǔ)音分離問(wèn)題。與以前的應(yīng)用純音頻/音視頻模態(tài)的方法相比,我們?cè)O(shè)計(jì)了特定模型來(lái)直接從語(yǔ)音混合中提取所有目標(biāo)說(shuō)話人的上下文語(yǔ)言信息,然后將這些提取的上下文知識(shí)通過(guò)適當(dāng)?shù)淖⒁饬C(jī)制進(jìn)一步合并到基于多模態(tài)信息的語(yǔ)音分離體系結(jié)構(gòu)中。實(shí)驗(yàn)表明,在新提出的基于上下文信息的語(yǔ)音分離模型上可以觀察到性能顯著改善。

圖:基于音頻-視頻-上下文的多模態(tài)語(yǔ)音分離示意圖

《多模態(tài)作用很大: Voxceleb數(shù)據(jù)集上的性能飛躍》

Multi-modality Matters: A Performance Leap on VoxCeleb

來(lái)自不同模態(tài)的信息通常相互補(bǔ)償。我們?cè)谡f(shuō)話人嵌入特征級(jí)別探索了視聽人員驗(yàn)證系統(tǒng)的不同信息融合策略和損失函數(shù)。我們?cè)谡f(shuō)話人嵌入特征級(jí)別上使用視聽知識(shí)的最佳系統(tǒng)在VoxCeleb1的三個(gè)公開測(cè)試列表上達(dá)到了0.585%,0.427%和0.735%的EER,這是該數(shù)據(jù)集上報(bào)告的最好的結(jié)果。此外,我們基于VoxCeleb1數(shù)據(jù)集構(gòu)建了一個(gè)嘈雜的測(cè)試集。我們?cè)谡f(shuō)話人嵌入特征級(jí)別使用數(shù)據(jù)增廣策略來(lái)幫助視聽系統(tǒng)區(qū)分噪聲和干凈的嵌入。通過(guò)這種數(shù)據(jù)增廣策略,所提出的視聽人員驗(yàn)證系統(tǒng)在嘈雜的測(cè)試集上取得了更好的效果。

圖:在帶噪測(cè)試集上的性能比較

《BERT聯(lián)合編碼詞混淆網(wǎng)絡(luò)和對(duì)話上下文的口語(yǔ)語(yǔ)義理解方法》

Jointly Encoding Word Confusion Network and Dialogue Context with BERT for Spoken Language Understanding

口語(yǔ)理解可以將自動(dòng)語(yǔ)音識(shí)別得到的假設(shè)轉(zhuǎn)換為結(jié)構(gòu)化的語(yǔ)義表示,語(yǔ)音識(shí)別錯(cuò)誤會(huì)使后續(xù)口語(yǔ)理解模塊的性能嚴(yán)重下降。為了緩解口語(yǔ)理解不確定性的問(wèn)題,本文提出一種新穎的基于詞混淆網(wǎng)絡(luò)(WCN)和BERT預(yù)訓(xùn)練模型的口語(yǔ)語(yǔ)義理解模型(WCN-BERT SLU),對(duì)話上下文中的上一輪系統(tǒng)行為也被用作附加輸入。該模型對(duì)WCN和對(duì)話上下文進(jìn)行聯(lián)合編碼,在BERT架構(gòu)中集成了詞混淆網(wǎng)絡(luò)的結(jié)構(gòu)信息和語(yǔ)音識(shí)別的后驗(yàn)概率。在口語(yǔ)理解的基準(zhǔn)數(shù)據(jù)集DSTC2上進(jìn)行的實(shí)驗(yàn)表明,該方法大大優(yōu)于以前的最佳模型。

圖:與已發(fā)表結(jié)果在 DSTC2 數(shù)據(jù)集上的比較

《將部分共享神經(jīng)網(wǎng)絡(luò)應(yīng)用于基于對(duì)抗訓(xùn)練的說(shuō)話人驗(yàn)證領(lǐng)域自適應(yīng)》

Adversarial Domain Adaptation for Speaker Verification using PartiallyShared Network

我們使用領(lǐng)域?qū)褂?xùn)練來(lái)研究具有不同語(yǔ)言的數(shù)據(jù)集之間的領(lǐng)域自適應(yīng)策略。這種架構(gòu)可以幫助嵌入特征提取器學(xué)習(xí)域不變特征,同時(shí)不會(huì)犧牲說(shuō)話者辨別能力。在SRE16粵語(yǔ)和菲律賓語(yǔ)評(píng)估測(cè)試集上實(shí)現(xiàn)了約25.0%的相對(duì)平均等錯(cuò)誤率(EER)的改進(jìn)。

《基于雙重對(duì)抗領(lǐng)域自適應(yīng)的泛化重放攻擊檢測(cè)

Dual-Adversarial Domain Adaptation for Generalized Replay Attack Detection

我們提出了對(duì)偶對(duì)抗領(lǐng)域自適應(yīng)的框架,通過(guò)使用兩個(gè)領(lǐng)域鑒別器分別對(duì)欺騙數(shù)據(jù)和真實(shí)數(shù)據(jù)進(jìn)行細(xì)粒度的對(duì)齊,從而提高欺騙檢測(cè)的性能。實(shí)驗(yàn)表明:該框架對(duì)于通用的重放攻擊檢測(cè)更加地魯棒和有效。

《噪聲環(huán)境下通過(guò)半監(jiān)督音頻事件檢測(cè)模型訓(xùn)練的語(yǔ)音端點(diǎn)檢測(cè)器》

Voice activity detection in the wild via weakly supervised sound event detection

我們提出了兩種弱監(jiān)督訓(xùn)練的通用VAD模型,GPV-F和GPV-B。在真實(shí)場(chǎng)景的測(cè)試中,GPV-F模型比標(biāo)準(zhǔn)VAD模型提升很多,GPV-B模型也獲得和標(biāo)準(zhǔn)VAD模型可比的性能。

《神經(jīng)同態(tài)聲碼器》

Neural Homomorphic Vocoder

本文提出了神經(jīng)同態(tài)聲碼器(NHV),一種基于源-濾波器模型的神經(jīng)網(wǎng)絡(luò)聲碼器框架,能夠通過(guò)多分辨率 STFT 損失和對(duì)抗損失函數(shù)聯(lián)合進(jìn)行優(yōu)化,計(jì)算效率高,可控性和可解釋性好。

《基于雙編碼器多專家模型結(jié)構(gòu)的中英文語(yǔ)種混雜語(yǔ)音識(shí)別》

Bi-encoder Transformer Network for Mandarin-English Code-switching Speech Recognition using Mixture of Experts

我們研究使用一種嶄新的端到端模型來(lái)進(jìn)行中英文語(yǔ)種混雜語(yǔ)音識(shí)別。實(shí)驗(yàn)結(jié)果表明,相比于基線的Transformer模型,我們的結(jié)構(gòu)可以取得大幅度的性能提升。

思必馳擁有全鏈路的軟硬一體化端到端語(yǔ)音交互系統(tǒng)能力,近年來(lái)不斷加碼源頭技術(shù)的持續(xù)創(chuàng)新,通過(guò)思必馳-上海交通大學(xué)智能人機(jī)交互聯(lián)合實(shí)驗(yàn)室、上交大蘇州智研院合作的共同努力,在模型泛化及快速定制能力、變幀率語(yǔ)音識(shí)別解碼技術(shù)、說(shuō)話人識(shí)別技術(shù)、超高壓縮比神經(jīng)網(wǎng)絡(luò)模型壓縮技術(shù)、多模態(tài)感知及理解和表達(dá)技術(shù)等方面,均有顯著突破。圍繞對(duì)話式AI能力,思必馳會(huì)不斷夯實(shí)“全鏈路智能對(duì)話”技術(shù)以及“高自由度定制”方案能力。未來(lái)也會(huì)持續(xù)加大對(duì)基礎(chǔ)源頭技術(shù)創(chuàng)新與核心產(chǎn)品能力升級(jí)的核心投入,持續(xù)提升AI+智能終端、AI+智慧服務(wù)的快速規(guī)?;芰?,加速向更多行業(yè)場(chǎng)景縱深賦能。

思必馳xiaochi獲2020 AESR

“口音種類識(shí)別“冠軍和“口音英語(yǔ)語(yǔ)音識(shí)別”亞軍

2020 AESR,即“INTERSPEECH 2020口音英語(yǔ)語(yǔ)音識(shí)別挑戰(zhàn)賽(Interspeech2020 Accented English Speech Recognition)”,向參賽者開放八種口音英文數(shù)據(jù),設(shè)置了“Track1-口音種類識(shí)別”和“Track2-口音英語(yǔ)語(yǔ)音識(shí)別”兩個(gè)賽道。由思必馳組建的“xiaochi”隊(duì)伍表現(xiàn)優(yōu)異,分別獲得“口音種類識(shí)別”第一名(全球共30個(gè)隊(duì)伍參賽),和“口音英語(yǔ)語(yǔ)音識(shí)別”第二名(全球42個(gè)隊(duì)伍參賽)。

在“Track1-口音種類識(shí)別”技術(shù)挑戰(zhàn)賽中,參賽隊(duì)伍需要使用官方提供的各種口音英文的訓(xùn)練數(shù)據(jù),訓(xùn)練語(yǔ)種分類模型。xiaochi隊(duì)伍的準(zhǔn)確率高出第二名11個(gè)百分點(diǎn),最終摘得冠軍。

數(shù)據(jù)策略上,xiaochi對(duì)8種口音訓(xùn)練音頻進(jìn)行變語(yǔ)速數(shù)據(jù)增強(qiáng),利用kaldi工具模擬噪聲和遠(yuǎn)場(chǎng),使用8種口音訓(xùn)練數(shù)據(jù)+librispeech數(shù)據(jù)訓(xùn)練TTS合成器,并生成8種口音訓(xùn)練音頻,最后對(duì)測(cè)試音頻采用sox變語(yǔ)速后與原始音頻拼接。模型訓(xùn)練時(shí),采用了多機(jī)多卡的并行訓(xùn)練策略,有效降低了模型迭代和實(shí)驗(yàn)速度。最終我們采用深層的TDNN模型,結(jié)合AAM loss等進(jìn)行優(yōu)化,來(lái)訓(xùn)練8種口音的8分類模型。

經(jīng)過(guò)多個(gè)不同策略組合的實(shí)驗(yàn)測(cè)試,最終發(fā)現(xiàn),“利用PPG等特征,結(jié)合基于tts的數(shù)據(jù)生成,多嵌入多層聯(lián)合優(yōu)化”等方法,能夠最高效快速識(shí)別不同口音種類。這也為未來(lái)業(yè)界進(jìn)行多語(yǔ)種混合識(shí)別提供了很好的參考策略。

思必馳語(yǔ)音應(yīng)用負(fù)責(zé)人薛少飛

參與INTERSPEECH工業(yè)論壇并在線分享

今年INTERSPEECH 2020首次推出虛擬展會(huì),以直播的方式舉辦在線論壇。思必馳高級(jí)技術(shù)總監(jiān)、語(yǔ)音應(yīng)用技術(shù)負(fù)責(zé)人薛少飛,10月29日(今晚)將在線分享思必馳在語(yǔ)音識(shí)別、語(yǔ)音喚醒、音頻檢測(cè)等語(yǔ)音交互關(guān)鍵技術(shù)方面的新進(jìn)展。

責(zé)任編輯:xj

原文標(biāo)題:【會(huì)員風(fēng)采】亮劍INTERSPEECH 2020,思必馳10篇論文被收錄

文章出處:【微信公眾號(hào):深圳市汽車電子行業(yè)協(xié)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人機(jī)交互
    +關(guān)注

    關(guān)注

    12

    文章

    1199

    瀏覽量

    55273
  • 語(yǔ)音識(shí)別
    +關(guān)注

    關(guān)注

    38

    文章

    1712

    瀏覽量

    112501
  • 思必馳
    +關(guān)注

    關(guān)注

    4

    文章

    276

    瀏覽量

    14266

原文標(biāo)題:【會(huì)員風(fēng)采】亮劍INTERSPEECH 2020,思必馳10篇論文被收錄

文章出處:【微信號(hào):qidianxiehui,微信公眾號(hào):深圳市汽車電子行業(yè)協(xié)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    帶來(lái)全新辦公體驗(yàn)!發(fā)布AI辦公本Turbo

    是基于千萬(wàn)小時(shí)的會(huì)議訓(xùn)練數(shù)據(jù)進(jìn)行優(yōu)化的。它能夠?qū)崿F(xiàn)手寫輸入、圖像掃描、語(yǔ)音輸入以及歷史筆記文檔的跨模態(tài)融合,從而極大地提升了用戶在會(huì)議記錄、整理等方面的效率。 智能筆記是AI辦公
    的頭像 發(fā)表于 11-06 11:30 ?340次閱讀

    發(fā)布AI辦公本Turbo,搭載專業(yè)級(jí)跨模態(tài)會(huì)議大模型

    近日,正式發(fā)布了其最新的AI辦公本Turbo,該設(shè)備搭載了專業(yè)級(jí)的跨模態(tài)會(huì)議大模型。這一創(chuàng)新技術(shù)的引入,標(biāo)志著
    的頭像 發(fā)表于 10-31 17:03 ?297次閱讀

    AI辦公本Turbo重磅發(fā)布

    近日,AI辦公本新品發(fā)布會(huì)如約而至,IOT事業(yè)部首席產(chǎn)品官馬斌斌詳細(xì)介紹了
    的頭像 發(fā)表于 10-31 14:23 ?246次閱讀

    10月份大事件盤點(diǎn)

    日前,省科技廳黨組書記、廳長(zhǎng)徐光輝一行在進(jìn)行調(diào)研。董事長(zhǎng)、CEO高始興,副總裁李春梅
    的頭像 發(fā)表于 10-30 15:01 ?269次閱讀

    9月份大事件盤點(diǎn)

    在“人工智能+”創(chuàng)新發(fā)展試驗(yàn)區(qū)推進(jìn)大會(huì)上,發(fā)布了蘇州市制造業(yè)應(yīng)用模型——中樞大模型,圍繞人工智能在行業(yè)中的痛點(diǎn)問(wèn)題,整合多模態(tài)數(shù)據(jù),實(shí)
    的頭像 發(fā)表于 10-14 14:05 ?318次閱讀

    AI中樞大模型打造多維生態(tài)融合

    由南京經(jīng)濟(jì)技術(shù)開發(fā)區(qū)管理委員會(huì)、南京市工業(yè)和信息化局主辦,中國(guó)信息通信研究院、中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟承辦的“2024南京人工智能產(chǎn)業(yè)發(fā)展論壇”在南京漢府飯店舉行。
    的頭像 發(fā)表于 09-18 11:34 ?473次閱讀
    <b class='flag-5'>思</b><b class='flag-5'>必</b><b class='flag-5'>馳</b>AI中樞大模型打造多維生態(tài)融合

    廣西柳州的智能制造基地正式投入試運(yùn)行

    近日,隨著一臺(tái)臺(tái)智能智造設(shè)備的陸續(xù)進(jìn)廠和調(diào)試完成,位于廣西柳州的智能制造基地正式投入試運(yùn)行。
    的頭像 發(fā)表于 05-29 10:32 ?419次閱讀

    北汽研究總院與簽署戰(zhàn)略合作協(xié)議

    2月29日,北汽研究總院與科技股份有限公司(以下簡(jiǎn)稱)簽署戰(zhàn)略協(xié)議,將依托各自優(yōu)勢(shì),
    的頭像 發(fā)表于 03-11 14:59 ?582次閱讀

    入選“2023年度江蘇省創(chuàng)新聯(lián)合體建設(shè)試點(diǎn)”名單

    近日,江蘇省科技廳公布了2023年度江蘇省創(chuàng)新聯(lián)合體擬建設(shè)試點(diǎn)名單,其中,由科技股份有限公司(以下簡(jiǎn)稱:
    的頭像 發(fā)表于 01-22 13:47 ?780次閱讀

    出席大模型與智能汽車新應(yīng)用論壇

    、中國(guó)信息通信研究院、浙江大學(xué)、等各單位領(lǐng)導(dǎo)及業(yè)界專家共計(jì)80余人共同出席,分享在AI大模型領(lǐng)域取得的最新成果和經(jīng)驗(yàn),探討人工智能在實(shí)際應(yīng)用中遇到的挑戰(zhàn)和解決方案。
    的頭像 發(fā)表于 01-11 10:38 ?583次閱讀

    完成新一輪首期兩億元融資

    科技股份有限公司(以下簡(jiǎn)稱“”)完成新一輪首期兩億元融資,后續(xù)
    的頭像 發(fā)表于 01-11 10:37 ?585次閱讀

    語(yǔ)音算法與芯片的完美結(jié)合 人機(jī)交互

    TH1520芯片解決方案AISpeech深圳羲頓科技有限公司TH1520是深聰智能
    的頭像 發(fā)表于 12-29 11:43 ?884次閱讀
    <b class='flag-5'>思</b><b class='flag-5'>必</b><b class='flag-5'>馳</b>語(yǔ)音算法與芯片的完美結(jié)合 人機(jī)交互

    DFM-2大模型助力構(gòu)建產(chǎn)業(yè)新生態(tài)

    近日,DFM-2大模型通過(guò)《生成式人工智能服務(wù)管理暫行辦法》備案,成為江蘇省本土人工智能首個(gè)通過(guò)大模型備案的企業(yè),后續(xù)
    的頭像 發(fā)表于 12-20 13:35 ?807次閱讀

    探討大模型下的智能座艙新生態(tài)

    為應(yīng)對(duì)行業(yè)挑戰(zhàn),發(fā)布了定位為“針對(duì)垂域的、具有通用智能的行業(yè)語(yǔ)言大模型”DFM-2。它不僅具備通用語(yǔ)言計(jì)算大模型的所有AGI特性,包括文案創(chuàng)作、代碼生成、邏輯推理、常識(shí)問(wèn)答、多輪
    發(fā)表于 12-19 14:55 ?453次閱讀
    <b class='flag-5'>思</b><b class='flag-5'>必</b><b class='flag-5'>馳</b>探討大模型下的<b class='flag-5'>智能</b>座艙新生態(tài)

    高交會(huì) | AI賦能家居生活,智能中控解決方案“聲”動(dòng)全場(chǎng)

    人民政府聯(lián)合主辦,是目前中國(guó)規(guī)模最大、最具影響力的科技類展會(huì)。 作為國(guó)內(nèi)專業(yè)的對(duì)話式人工智能平臺(tái)型企業(yè),于深圳會(huì)展中心1號(hào)館搭建了智能
    的頭像 發(fā)表于 11-20 09:04 ?803次閱讀
    高交會(huì) | AI賦能家居生活,<b class='flag-5'>思</b><b class='flag-5'>必</b><b class='flag-5'>馳</b><b class='flag-5'>智能</b>中控解決方案“聲”動(dòng)全場(chǎng)