國際頂級語音會議ASRU 2023(IEEE Workshop on Automatic Speech Recognition and Understanding,簡稱ASRU)于12月16日-20日順利舉辦。傳音AI技術(shù)部在ASRU 2023 MADASR(Model ADaptation for ASR in low-resource Indian languages,簡稱MADASR)關(guān)于孟加拉語和博杰普爾語的低資源語音識別比賽中斬獲多項佳績,在受限和非受限的4個賽道、2個語種與WER、CER 2個評價指標共16個細分子賽道上獲得2個第一名、6個第二名和5個第三名。
ASRU研討會是語音與語言處理學術(shù)圈的頂級會議,由IEEE語音和語言處理技術(shù)委員會主辦,每兩年舉行一次,歷史悠久,影響廣泛。此次MADASR比賽是ASRU 2023的重要賽事,由IBM、布爾諾理工大學、微軟研究院、愛丁堡大學和印度科學研究所舉辦,旨在以孟加拉語和博杰普爾語為例,探索低資源語言的語音識別難題。比賽吸引了中科院自動化所、愛沙尼亞塔林理工大學、印度坎普爾理工學院、印度科學研究所-馬德拉斯語音實驗室、印度科學研究所-孟買數(shù)字音頻處理實驗室、印度浦那高級計算發(fā)展中心等多家國內(nèi)外知名高校和研究機構(gòu)參賽。
自動語音識別(Automatic Speech Recognition,簡稱ASR)主要用于將人類語音轉(zhuǎn)換為計算機可讀的文本或命令,實現(xiàn)人機交互和自然語言處理。近年來,得益于基于自監(jiān)督學習的聲學模型(如 wav2vec2)和大規(guī)模多語言訓(xùn)練(如 Whisper),自動語音識別性能大幅提高,然而低資源語言由于音頻和文本數(shù)據(jù)有限,仍面臨巨大的挑戰(zhàn)。
在ASRU 2023 MADASR比賽中,傳音AI技術(shù)部開發(fā)的語音識別系統(tǒng),在算法層面使用了兩種方案,一種是基于U2(Unified-2 pass)框架的編碼器和解碼器結(jié)構(gòu),使用短時連接分類(Connectionist Temporal Classification)和注意力重打分(Attention Rescore);另一種是基于Whisper的改進和微調(diào)的結(jié)構(gòu)。該系統(tǒng)顯著提升了低資源語言語音識別的準確性和效率,克服了語音數(shù)據(jù)的稀缺難題,其解決方案將為其他低資源語言提供參考。
據(jù)Ethnologue網(wǎng)站統(tǒng)計,世界上有7000多種語言,其中90%的語種使用人數(shù)少于10萬人,不同語種尤其是小語種之間的溝通交流仍面臨極大挑戰(zhàn)。傳音長期深耕新興市場,面對新興市場智能語音技術(shù)空白,不斷加強多語種數(shù)據(jù)建設(shè),開發(fā)小語種語音識別、語義理解、知識圖譜、語音合成等算法模型,除了提供多語種語音轉(zhuǎn)寫的服務(wù)能力,未來還將提供大語言模型生成式交互和跨語種翻譯能力,使不同語種之間的交流更順暢,讓更多的小語種使用群體受益。
傳音始終以新興市場的消費者為中心,重視新興市場用戶的需求。未來,傳音將繼續(xù)結(jié)合行業(yè)技術(shù)發(fā)展趨勢和本地消費者洞察,在AI技術(shù)研究和智能終端應(yīng)用領(lǐng)域發(fā)力,通過技術(shù)為用戶、為社會創(chuàng)造更多價值,讓盡可能多的人盡早享受科技和創(chuàng)新帶來的美好生活。
-
語音識別
+關(guān)注
關(guān)注
38文章
1710瀏覽量
112493 -
ai技術(shù)
+關(guān)注
關(guān)注
1文章
1250瀏覽量
24201 -
傳音
+關(guān)注
關(guān)注
0文章
54瀏覽量
6202
原文標題:傳音AI技術(shù)部在ASRU 2023 MADASR低資源語音識別比賽斬獲多項佳績
文章出處:【微信號:TranssionHoldings,微信公眾號:傳音控股】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論