日本久久一区二区,手机在线看片欧美亚洲A片,91九色在线播放

國(guó)際頂級(jí)的語(yǔ)音技術(shù)圈會(huì)議INTERSPEECH 2020于10月25-30日在中國(guó)上海舉辦，本次會(huì)議主題為“Cognitive Intelligence for Speech Processing”。思必馳作為國(guó)內(nèi)領(lǐng)先的對(duì)話式人工智能平臺(tái)公司參加該國(guó)際頂會(huì)，支持大會(huì)在這不平凡的2020年順利舉行，致力推進(jìn)產(chǎn)學(xué)研用的一體化進(jìn)程。

思必馳-上海交通大學(xué)智能人機(jī)交互聯(lián)合實(shí)驗(yàn)室

10篇論文被INTERSPEECH 2020收錄

INTERSPEECH 2020共接收有效論文總數(shù)2100余篇，實(shí)際收錄數(shù)量為1022篇。其中，思必馳-上海交通大學(xué)智能人機(jī)交互聯(lián)合實(shí)驗(yàn)室10篇論文被正式收錄，涉及說(shuō)話人識(shí)別、語(yǔ)音識(shí)別及合成、多模態(tài)語(yǔ)音分離、口語(yǔ)語(yǔ)義理解等多方面的技術(shù)創(chuàng)新研究。

10篇論文簡(jiǎn)要介紹如下：

《用于單通道多說(shuō)話人語(yǔ)音識(shí)別的上下文嵌入表示學(xué)習(xí)方法》

Learning Contextual Language Embeddings for Monaural Multi-talker Speech Recognition

端到端多說(shuō)話人語(yǔ)音識(shí)別是近年來(lái)的熱門話題。本文探討了利用上下文信息來(lái)提升多說(shuō)話人語(yǔ)音識(shí)別的性能。我們?cè)O(shè)計(jì)了嵌入表示學(xué)習(xí)模型來(lái)直接從多說(shuō)話人混合語(yǔ)音中準(zhǔn)確地提取上下文嵌入表示，同時(shí)進(jìn)一步提出了兩種高級(jí)的訓(xùn)練策略來(lái)改進(jìn)該新模型，即嵌入表示采樣和兩階段訓(xùn)練。實(shí)驗(yàn)結(jié)果表明，我們的方法在多說(shuō)話人語(yǔ)音識(shí)別上取得了顯著改進(jìn)，與端到端多說(shuō)話人語(yǔ)音識(shí)別的基線模型相比，本文提出的方法減少了相對(duì)25％的詞錯(cuò)誤率。

圖：基于上下文嵌入表示的多說(shuō)話人語(yǔ)音識(shí)別模型結(jié)構(gòu)

《在雞尾酒會(huì)中聆聽、觀察、理解：音頻-視頻-上下文的多模態(tài)語(yǔ)音分離》

Listen, Watch and Understand at the Cocktail Party: Audio-Visual-Contextual Speech Separation

多個(gè)說(shuō)話人同時(shí)說(shuō)話時(shí)，人類可以通過(guò)聽混合語(yǔ)音，觀看說(shuō)話者并理解上下文信息，將注意力集中在感興趣的語(yǔ)音上。我們嘗試使用三種模態(tài)（視覺(jué)模態(tài)、語(yǔ)音模態(tài)以及上下文信息模態(tài)）來(lái)解決與說(shuō)話者無(wú)關(guān)的語(yǔ)音分離問(wèn)題。與以前的應(yīng)用純音頻/音視頻模態(tài)的方法相比，我們?cè)O(shè)計(jì)了特定模型來(lái)直接從語(yǔ)音混合中提取所有目標(biāo)說(shuō)話人的上下文語(yǔ)言信息，然后將這些提取的上下文知識(shí)通過(guò)適當(dāng)?shù)淖⒁饬C(jī)制進(jìn)一步合并到基于多模態(tài)信息的語(yǔ)音分離體系結(jié)構(gòu)中。實(shí)驗(yàn)表明，在新提出的基于上下文信息的語(yǔ)音分離模型上可以觀察到性能顯著改善。

圖：基于音頻-視頻-上下文的多模態(tài)語(yǔ)音分離示意圖

《多模態(tài)作用很大: Voxceleb數(shù)據(jù)集上的性能飛躍》

Multi-modality Matters: A Performance Leap on VoxCeleb

來(lái)自不同模態(tài)的信息通常相互補(bǔ)償。我們?cè)谡f(shuō)話人嵌入特征級(jí)別探索了視聽人員驗(yàn)證系統(tǒng)的不同信息融合策略和損失函數(shù)。我們?cè)谡f(shuō)話人嵌入特征級(jí)別上使用視聽知識(shí)的最佳系統(tǒng)在VoxCeleb1的三個(gè)公開測(cè)試列表上達(dá)到了0.585％，0.427％和0.735％的EER，這是該數(shù)據(jù)集上報(bào)告的最好的結(jié)果。此外，我們基于VoxCeleb1數(shù)據(jù)集構(gòu)建了一個(gè)嘈雜的測(cè)試集。我們?cè)谡f(shuō)話人嵌入特征級(jí)別使用數(shù)據(jù)增廣策略來(lái)幫助視聽系統(tǒng)區(qū)分噪聲和干凈的嵌入。通過(guò)這種數(shù)據(jù)增廣策略，所提出的視聽人員驗(yàn)證系統(tǒng)在嘈雜的測(cè)試集上取得了更好的效果。

圖：在帶噪測(cè)試集上的性能比較

《BERT聯(lián)合編碼詞混淆網(wǎng)絡(luò)和對(duì)話上下文的口語(yǔ)語(yǔ)義理解方法》

Jointly Encoding Word Confusion Network and Dialogue Context with BERT for Spoken Language Understanding

口語(yǔ)理解可以將自動(dòng)語(yǔ)音識(shí)別得到的假設(shè)轉(zhuǎn)換為結(jié)構(gòu)化的語(yǔ)義表示，語(yǔ)音識(shí)別錯(cuò)誤會(huì)使后續(xù)口語(yǔ)理解模塊的性能嚴(yán)重下降。為了緩解口語(yǔ)理解不確定性的問(wèn)題，本文提出一種新穎的基于詞混淆網(wǎng)絡(luò)（WCN）和BERT預(yù)訓(xùn)練模型的口語(yǔ)語(yǔ)義理解模型（WCN-BERT SLU），對(duì)話上下文中的上一輪系統(tǒng)行為也被用作附加輸入。該模型對(duì)WCN和對(duì)話上下文進(jìn)行聯(lián)合編碼，在BERT架構(gòu)中集成了詞混淆網(wǎng)絡(luò)的結(jié)構(gòu)信息和語(yǔ)音識(shí)別的后驗(yàn)概率。在口語(yǔ)理解的基準(zhǔn)數(shù)據(jù)集DSTC2上進(jìn)行的實(shí)驗(yàn)表明，該方法大大優(yōu)于以前的最佳模型。

圖：與已發(fā)表結(jié)果在 DSTC2 數(shù)據(jù)集上的比較

《將部分共享神經(jīng)網(wǎng)絡(luò)應(yīng)用于基于對(duì)抗訓(xùn)練的說(shuō)話人驗(yàn)證領(lǐng)域自適應(yīng)》

Adversarial Domain Adaptation for Speaker Verification using PartiallyShared Network

我們使用領(lǐng)域?qū)褂?xùn)練來(lái)研究具有不同語(yǔ)言的數(shù)據(jù)集之間的領(lǐng)域自適應(yīng)策略。這種架構(gòu)可以幫助嵌入特征提取器學(xué)習(xí)域不變特征，同時(shí)不會(huì)犧牲說(shuō)話者辨別能力。在SRE16粵語(yǔ)和菲律賓語(yǔ)評(píng)估測(cè)試集上實(shí)現(xiàn)了約25.0％的相對(duì)平均等錯(cuò)誤率（EER）的改進(jìn)。

《基于雙重對(duì)抗領(lǐng)域自適應(yīng)的泛化重放攻擊檢測(cè)》

Dual-Adversarial Domain Adaptation for Generalized Replay Attack Detection

我們提出了對(duì)偶對(duì)抗領(lǐng)域自適應(yīng)的框架，通過(guò)使用兩個(gè)領(lǐng)域鑒別器分別對(duì)欺騙數(shù)據(jù)和真實(shí)數(shù)據(jù)進(jìn)行細(xì)粒度的對(duì)齊，從而提高欺騙檢測(cè)的性能。實(shí)驗(yàn)表明：該框架對(duì)于通用的重放攻擊檢測(cè)更加地魯棒和有效。

《噪聲環(huán)境下通過(guò)半監(jiān)督音頻事件檢測(cè)模型訓(xùn)練的語(yǔ)音端點(diǎn)檢測(cè)器》

Voice activity detection in the wild via weakly supervised sound event detection

我們提出了兩種弱監(jiān)督訓(xùn)練的通用VAD模型，GPV-F和GPV-B。在真實(shí)場(chǎng)景的測(cè)試中，GPV-F模型比標(biāo)準(zhǔn)VAD模型提升很多，GPV-B模型也獲得和標(biāo)準(zhǔn)VAD模型可比的性能。

《神經(jīng)同態(tài)聲碼器》

Neural Homomorphic Vocoder

本文提出了神經(jīng)同態(tài)聲碼器（NHV），一種基于源-濾波器模型的神經(jīng)網(wǎng)絡(luò)聲碼器框架，能夠通過(guò)多分辨率 STFT 損失和對(duì)抗損失函數(shù)聯(lián)合進(jìn)行優(yōu)化，計(jì)算效率高，可控性和可解釋性好。

《基于雙編碼器多專家模型結(jié)構(gòu)的中英文語(yǔ)種混雜語(yǔ)音識(shí)別》

Bi-encoder Transformer Network for Mandarin-English Code-switching Speech Recognition using Mixture of Experts

我們研究使用一種嶄新的端到端模型來(lái)進(jìn)行中英文語(yǔ)種混雜語(yǔ)音識(shí)別。實(shí)驗(yàn)結(jié)果表明，相比于基線的Transformer模型，我們的結(jié)構(gòu)可以取得大幅度的性能提升。

思必馳擁有全鏈路的軟硬一體化端到端語(yǔ)音交互系統(tǒng)能力，近年來(lái)不斷加碼源頭技術(shù)的持續(xù)創(chuàng)新，通過(guò)思必馳-上海交通大學(xué)智能人機(jī)交互聯(lián)合實(shí)驗(yàn)室、上交大蘇州智研院合作的共同努力，在模型泛化及快速定制能力、變幀率語(yǔ)音識(shí)別解碼技術(shù)、說(shuō)話人識(shí)別技術(shù)、超高壓縮比神經(jīng)網(wǎng)絡(luò)模型壓縮技術(shù)、多模態(tài)感知及理解和表達(dá)技術(shù)等方面，均有顯著突破。圍繞對(duì)話式AI能力，思必馳會(huì)不斷夯實(shí)“全鏈路智能對(duì)話”技術(shù)以及“高自由度定制”方案能力。未來(lái)也會(huì)持續(xù)加大對(duì)基礎(chǔ)源頭技術(shù)創(chuàng)新與核心產(chǎn)品能力升級(jí)的核心投入，持續(xù)提升AI+智能終端、AI+智慧服務(wù)的快速規(guī)?；芰?，加速向更多行業(yè)場(chǎng)景縱深賦能。

思必馳xiaochi獲2020 AESR

“口音種類識(shí)別“冠軍和“口音英語(yǔ)語(yǔ)音識(shí)別”亞軍

2020 AESR，即“INTERSPEECH 2020口音英語(yǔ)語(yǔ)音識(shí)別挑戰(zhàn)賽（Interspeech2020 Accented English Speech Recognition)”，向參賽者開放八種口音英文數(shù)據(jù)，設(shè)置了“Track1-口音種類識(shí)別”和“Track2-口音英語(yǔ)語(yǔ)音識(shí)別”兩個(gè)賽道。由思必馳組建的“xiaochi”隊(duì)伍表現(xiàn)優(yōu)異，分別獲得“口音種類識(shí)別”第一名（全球共30個(gè)隊(duì)伍參賽），和“口音英語(yǔ)語(yǔ)音識(shí)別”第二名（全球42個(gè)隊(duì)伍參賽）。

在“Track1-口音種類識(shí)別”技術(shù)挑戰(zhàn)賽中，參賽隊(duì)伍需要使用官方提供的各種口音英文的訓(xùn)練數(shù)據(jù)，訓(xùn)練語(yǔ)種分類模型。xiaochi隊(duì)伍的準(zhǔn)確率高出第二名11個(gè)百分點(diǎn)，最終摘得冠軍。

數(shù)據(jù)策略上，xiaochi對(duì)8種口音訓(xùn)練音頻進(jìn)行變語(yǔ)速數(shù)據(jù)增強(qiáng)，利用kaldi工具模擬噪聲和遠(yuǎn)場(chǎng)，使用8種口音訓(xùn)練數(shù)據(jù)+librispeech數(shù)據(jù)訓(xùn)練TTS合成器，并生成8種口音訓(xùn)練音頻，最后對(duì)測(cè)試音頻采用sox變語(yǔ)速后與原始音頻拼接。模型訓(xùn)練時(shí)，采用了多機(jī)多卡的并行訓(xùn)練策略，有效降低了模型迭代和實(shí)驗(yàn)速度。最終我們采用深層的TDNN模型，結(jié)合AAM loss等進(jìn)行優(yōu)化，來(lái)訓(xùn)練8種口音的8分類模型。

經(jīng)過(guò)多個(gè)不同策略組合的實(shí)驗(yàn)測(cè)試，最終發(fā)現(xiàn)，“利用PPG等特征，結(jié)合基于tts的數(shù)據(jù)生成，多嵌入多層聯(lián)合優(yōu)化”等方法，能夠最高效快速識(shí)別不同口音種類。這也為未來(lái)業(yè)界進(jìn)行多語(yǔ)種混合識(shí)別提供了很好的參考策略。

思必馳語(yǔ)音應(yīng)用負(fù)責(zé)人薛少飛

參與INTERSPEECH工業(yè)論壇并在線分享

今年INTERSPEECH 2020首次推出虛擬展會(huì)，以直播的方式舉辦在線論壇。思必馳高級(jí)技術(shù)總監(jiān)、語(yǔ)音應(yīng)用技術(shù)負(fù)責(zé)人薛少飛，10月29日（今晚）將在線分享思必馳在語(yǔ)音識(shí)別、語(yǔ)音喚醒、音頻檢測(cè)等語(yǔ)音交互關(guān)鍵技術(shù)方面的新進(jìn)展。

責(zé)任編輯：xj

原文標(biāo)題：【會(huì)員風(fēng)采】亮劍INTERSPEECH 2020，思必馳10篇論文被收錄

文章出處：【微信公眾號(hào)：深圳市汽車電子行業(yè)協(xié)會(huì)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴