國(guó)際頂級(jí)的語(yǔ)音技術(shù)圈會(huì)議INTERSPEECH 2020于10月25-30日在中國(guó)上海舉辦,本次會(huì)議主題為“Cognitive Intelligence for Speech Processing”。思必馳作為國(guó)內(nèi)領(lǐng)先的對(duì)話式人工智能平臺(tái)公司參加該國(guó)際頂會(huì),支持大會(huì)在這不平凡的2020年順利舉行,致力推進(jìn)產(chǎn)學(xué)研用的一體化進(jìn)程。
思必馳-上海交通大學(xué)智能人機(jī)交互聯(lián)合實(shí)驗(yàn)室
10篇論文被INTERSPEECH 2020收錄
INTERSPEECH 2020共接收有效論文總數(shù)2100余篇,實(shí)際收錄數(shù)量為1022篇。其中,思必馳-上海交通大學(xué)智能人機(jī)交互聯(lián)合實(shí)驗(yàn)室10篇論文被正式收錄,涉及說(shuō)話人識(shí)別、語(yǔ)音識(shí)別及合成、多模態(tài)語(yǔ)音分離、口語(yǔ)語(yǔ)義理解等多方面的技術(shù)創(chuàng)新研究。
10篇論文簡(jiǎn)要介紹如下:
《用于單通道多說(shuō)話人語(yǔ)音識(shí)別的上下文嵌入表示學(xué)習(xí)方法》
Learning Contextual Language Embeddings for Monaural Multi-talker Speech Recognition
端到端多說(shuō)話人語(yǔ)音識(shí)別是近年來(lái)的熱門話題。本文探討了利用上下文信息來(lái)提升多說(shuō)話人語(yǔ)音識(shí)別的性能。我們?cè)O(shè)計(jì)了嵌入表示學(xué)習(xí)模型來(lái)直接從多說(shuō)話人混合語(yǔ)音中準(zhǔn)確地提取上下文嵌入表示,同時(shí)進(jìn)一步提出了兩種高級(jí)的訓(xùn)練策略來(lái)改進(jìn)該新模型,即嵌入表示采樣和兩階段訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,我們的方法在多說(shuō)話人語(yǔ)音識(shí)別上取得了顯著改進(jìn),與端到端多說(shuō)話人語(yǔ)音識(shí)別的基線模型相比,本文提出的方法減少了相對(duì)25%的詞錯(cuò)誤率。
圖:基于上下文嵌入表示的多說(shuō)話人語(yǔ)音識(shí)別模型結(jié)構(gòu)
《在雞尾酒會(huì)中聆聽、觀察、理解:音頻-視頻-上下文的多模態(tài)語(yǔ)音分離》
Listen, Watch and Understand at the Cocktail Party: Audio-Visual-Contextual Speech Separation
多個(gè)說(shuō)話人同時(shí)說(shuō)話時(shí),人類可以通過(guò)聽混合語(yǔ)音,觀看說(shuō)話者并理解上下文信息,將注意力集中在感興趣的語(yǔ)音上。我們嘗試使用三種模態(tài)(視覺(jué)模態(tài)、語(yǔ)音模態(tài)以及上下文信息模態(tài))來(lái)解決與說(shuō)話者無(wú)關(guān)的語(yǔ)音分離問(wèn)題。與以前的應(yīng)用純音頻/音視頻模態(tài)的方法相比,我們?cè)O(shè)計(jì)了特定模型來(lái)直接從語(yǔ)音混合中提取所有目標(biāo)說(shuō)話人的上下文語(yǔ)言信息,然后將這些提取的上下文知識(shí)通過(guò)適當(dāng)?shù)淖⒁饬C(jī)制進(jìn)一步合并到基于多模態(tài)信息的語(yǔ)音分離體系結(jié)構(gòu)中。實(shí)驗(yàn)表明,在新提出的基于上下文信息的語(yǔ)音分離模型上可以觀察到性能顯著改善。
圖:基于音頻-視頻-上下文的多模態(tài)語(yǔ)音分離示意圖
《多模態(tài)作用很大: Voxceleb數(shù)據(jù)集上的性能飛躍》
Multi-modality Matters: A Performance Leap on VoxCeleb
來(lái)自不同模態(tài)的信息通常相互補(bǔ)償。我們?cè)谡f(shuō)話人嵌入特征級(jí)別探索了視聽人員驗(yàn)證系統(tǒng)的不同信息融合策略和損失函數(shù)。我們?cè)谡f(shuō)話人嵌入特征級(jí)別上使用視聽知識(shí)的最佳系統(tǒng)在VoxCeleb1的三個(gè)公開測(cè)試列表上達(dá)到了0.585%,0.427%和0.735%的EER,這是該數(shù)據(jù)集上報(bào)告的最好的結(jié)果。此外,我們基于VoxCeleb1數(shù)據(jù)集構(gòu)建了一個(gè)嘈雜的測(cè)試集。我們?cè)谡f(shuō)話人嵌入特征級(jí)別使用數(shù)據(jù)增廣策略來(lái)幫助視聽系統(tǒng)區(qū)分噪聲和干凈的嵌入。通過(guò)這種數(shù)據(jù)增廣策略,所提出的視聽人員驗(yàn)證系統(tǒng)在嘈雜的測(cè)試集上取得了更好的效果。
圖:在帶噪測(cè)試集上的性能比較
《BERT聯(lián)合編碼詞混淆網(wǎng)絡(luò)和對(duì)話上下文的口語(yǔ)語(yǔ)義理解方法》
Jointly Encoding Word Confusion Network and Dialogue Context with BERT for Spoken Language Understanding
口語(yǔ)理解可以將自動(dòng)語(yǔ)音識(shí)別得到的假設(shè)轉(zhuǎn)換為結(jié)構(gòu)化的語(yǔ)義表示,語(yǔ)音識(shí)別錯(cuò)誤會(huì)使后續(xù)口語(yǔ)理解模塊的性能嚴(yán)重下降。為了緩解口語(yǔ)理解不確定性的問(wèn)題,本文提出一種新穎的基于詞混淆網(wǎng)絡(luò)(WCN)和BERT預(yù)訓(xùn)練模型的口語(yǔ)語(yǔ)義理解模型(WCN-BERT SLU),對(duì)話上下文中的上一輪系統(tǒng)行為也被用作附加輸入。該模型對(duì)WCN和對(duì)話上下文進(jìn)行聯(lián)合編碼,在BERT架構(gòu)中集成了詞混淆網(wǎng)絡(luò)的結(jié)構(gòu)信息和語(yǔ)音識(shí)別的后驗(yàn)概率。在口語(yǔ)理解的基準(zhǔn)數(shù)據(jù)集DSTC2上進(jìn)行的實(shí)驗(yàn)表明,該方法大大優(yōu)于以前的最佳模型。
圖:與已發(fā)表結(jié)果在 DSTC2 數(shù)據(jù)集上的比較
《將部分共享神經(jīng)網(wǎng)絡(luò)應(yīng)用于基于對(duì)抗訓(xùn)練的說(shuō)話人驗(yàn)證領(lǐng)域自適應(yīng)》
Adversarial Domain Adaptation for Speaker Verification using PartiallyShared Network
我們使用領(lǐng)域?qū)褂?xùn)練來(lái)研究具有不同語(yǔ)言的數(shù)據(jù)集之間的領(lǐng)域自適應(yīng)策略。這種架構(gòu)可以幫助嵌入特征提取器學(xué)習(xí)域不變特征,同時(shí)不會(huì)犧牲說(shuō)話者辨別能力。在SRE16粵語(yǔ)和菲律賓語(yǔ)評(píng)估測(cè)試集上實(shí)現(xiàn)了約25.0%的相對(duì)平均等錯(cuò)誤率(EER)的改進(jìn)。
《基于雙重對(duì)抗領(lǐng)域自適應(yīng)的泛化重放攻擊檢測(cè)》
Dual-Adversarial Domain Adaptation for Generalized Replay Attack Detection
我們提出了對(duì)偶對(duì)抗領(lǐng)域自適應(yīng)的框架,通過(guò)使用兩個(gè)領(lǐng)域鑒別器分別對(duì)欺騙數(shù)據(jù)和真實(shí)數(shù)據(jù)進(jìn)行細(xì)粒度的對(duì)齊,從而提高欺騙檢測(cè)的性能。實(shí)驗(yàn)表明:該框架對(duì)于通用的重放攻擊檢測(cè)更加地魯棒和有效。
《噪聲環(huán)境下通過(guò)半監(jiān)督音頻事件檢測(cè)模型訓(xùn)練的語(yǔ)音端點(diǎn)檢測(cè)器》
Voice activity detection in the wild via weakly supervised sound event detection
我們提出了兩種弱監(jiān)督訓(xùn)練的通用VAD模型,GPV-F和GPV-B。在真實(shí)場(chǎng)景的測(cè)試中,GPV-F模型比標(biāo)準(zhǔn)VAD模型提升很多,GPV-B模型也獲得和標(biāo)準(zhǔn)VAD模型可比的性能。
《神經(jīng)同態(tài)聲碼器》
Neural Homomorphic Vocoder
本文提出了神經(jīng)同態(tài)聲碼器(NHV),一種基于源-濾波器模型的神經(jīng)網(wǎng)絡(luò)聲碼器框架,能夠通過(guò)多分辨率 STFT 損失和對(duì)抗損失函數(shù)聯(lián)合進(jìn)行優(yōu)化,計(jì)算效率高,可控性和可解釋性好。
《基于雙編碼器多專家模型結(jié)構(gòu)的中英文語(yǔ)種混雜語(yǔ)音識(shí)別》
Bi-encoder Transformer Network for Mandarin-English Code-switching Speech Recognition using Mixture of Experts
我們研究使用一種嶄新的端到端模型來(lái)進(jìn)行中英文語(yǔ)種混雜語(yǔ)音識(shí)別。實(shí)驗(yàn)結(jié)果表明,相比于基線的Transformer模型,我們的結(jié)構(gòu)可以取得大幅度的性能提升。
思必馳擁有全鏈路的軟硬一體化端到端語(yǔ)音交互系統(tǒng)能力,近年來(lái)不斷加碼源頭技術(shù)的持續(xù)創(chuàng)新,通過(guò)思必馳-上海交通大學(xué)智能人機(jī)交互聯(lián)合實(shí)驗(yàn)室、上交大蘇州智研院合作的共同努力,在模型泛化及快速定制能力、變幀率語(yǔ)音識(shí)別解碼技術(shù)、說(shuō)話人識(shí)別技術(shù)、超高壓縮比神經(jīng)網(wǎng)絡(luò)模型壓縮技術(shù)、多模態(tài)感知及理解和表達(dá)技術(shù)等方面,均有顯著突破。圍繞對(duì)話式AI能力,思必馳會(huì)不斷夯實(shí)“全鏈路智能對(duì)話”技術(shù)以及“高自由度定制”方案能力。未來(lái)也會(huì)持續(xù)加大對(duì)基礎(chǔ)源頭技術(shù)創(chuàng)新與核心產(chǎn)品能力升級(jí)的核心投入,持續(xù)提升AI+智能終端、AI+智慧服務(wù)的快速規(guī)?;芰?,加速向更多行業(yè)場(chǎng)景縱深賦能。
思必馳xiaochi獲2020 AESR
“口音種類識(shí)別“冠軍和“口音英語(yǔ)語(yǔ)音識(shí)別”亞軍
2020 AESR,即“INTERSPEECH 2020口音英語(yǔ)語(yǔ)音識(shí)別挑戰(zhàn)賽(Interspeech2020 Accented English Speech Recognition)”,向參賽者開放八種口音英文數(shù)據(jù),設(shè)置了“Track1-口音種類識(shí)別”和“Track2-口音英語(yǔ)語(yǔ)音識(shí)別”兩個(gè)賽道。由思必馳組建的“xiaochi”隊(duì)伍表現(xiàn)優(yōu)異,分別獲得“口音種類識(shí)別”第一名(全球共30個(gè)隊(duì)伍參賽),和“口音英語(yǔ)語(yǔ)音識(shí)別”第二名(全球42個(gè)隊(duì)伍參賽)。
在“Track1-口音種類識(shí)別”技術(shù)挑戰(zhàn)賽中,參賽隊(duì)伍需要使用官方提供的各種口音英文的訓(xùn)練數(shù)據(jù),訓(xùn)練語(yǔ)種分類模型。xiaochi隊(duì)伍的準(zhǔn)確率高出第二名11個(gè)百分點(diǎn),最終摘得冠軍。
數(shù)據(jù)策略上,xiaochi對(duì)8種口音訓(xùn)練音頻進(jìn)行變語(yǔ)速數(shù)據(jù)增強(qiáng),利用kaldi工具模擬噪聲和遠(yuǎn)場(chǎng),使用8種口音訓(xùn)練數(shù)據(jù)+librispeech數(shù)據(jù)訓(xùn)練TTS合成器,并生成8種口音訓(xùn)練音頻,最后對(duì)測(cè)試音頻采用sox變語(yǔ)速后與原始音頻拼接。模型訓(xùn)練時(shí),采用了多機(jī)多卡的并行訓(xùn)練策略,有效降低了模型迭代和實(shí)驗(yàn)速度。最終我們采用深層的TDNN模型,結(jié)合AAM loss等進(jìn)行優(yōu)化,來(lái)訓(xùn)練8種口音的8分類模型。
經(jīng)過(guò)多個(gè)不同策略組合的實(shí)驗(yàn)測(cè)試,最終發(fā)現(xiàn),“利用PPG等特征,結(jié)合基于tts的數(shù)據(jù)生成,多嵌入多層聯(lián)合優(yōu)化”等方法,能夠最高效快速識(shí)別不同口音種類。這也為未來(lái)業(yè)界進(jìn)行多語(yǔ)種混合識(shí)別提供了很好的參考策略。
思必馳語(yǔ)音應(yīng)用負(fù)責(zé)人薛少飛
今年INTERSPEECH 2020首次推出虛擬展會(huì),以直播的方式舉辦在線論壇。思必馳高級(jí)技術(shù)總監(jiān)、語(yǔ)音應(yīng)用技術(shù)負(fù)責(zé)人薛少飛,10月29日(今晚)將在線分享思必馳在語(yǔ)音識(shí)別、語(yǔ)音喚醒、音頻檢測(cè)等語(yǔ)音交互關(guān)鍵技術(shù)方面的新進(jìn)展。
責(zé)任編輯:xj
原文標(biāo)題:【會(huì)員風(fēng)采】亮劍INTERSPEECH 2020,思必馳10篇論文被收錄
文章出處:【微信公眾號(hào):深圳市汽車電子行業(yè)協(xié)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
人機(jī)交互
+關(guān)注
關(guān)注
12文章
1199瀏覽量
55273 -
語(yǔ)音識(shí)別
+關(guān)注
關(guān)注
38文章
1712瀏覽量
112501 -
思必馳
+關(guān)注
關(guān)注
4文章
276瀏覽量
14266
原文標(biāo)題:【會(huì)員風(fēng)采】亮劍INTERSPEECH 2020,思必馳10篇論文被收錄
文章出處:【微信號(hào):qidianxiehui,微信公眾號(hào):深圳市汽車電子行業(yè)協(xié)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論