0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

研究證明:商業(yè)語音識別系統(tǒng)的錯誤率非常高

如意 ? 來源:雷鋒網(wǎng) ? 作者:楊麗 ? 2020-10-26 16:34 ? 次閱讀

某些語音識別系統(tǒng)(ASR)的準確性可能要比之前假定的差很多?!边@是最近約翰·霍普金斯大學、波蘭波茲南工業(yè)大學、弗羅茨瓦夫科技大學以及初創(chuàng)公司Avaya的研究人員一項正在進行的研究主要發(fā)現(xiàn)。

這項研究對內(nèi)部創(chuàng)建的數(shù)據(jù)集上的商業(yè)語音識別模型進行了基準測試。共同作者聲稱,詞錯誤率(Word Error Rate, WER)(一種常見的語音識別性能指標)要顯著高于最佳報告結果,這可能表明自然語言處理(NLP)領域存在更多待克服的問題。

據(jù)了解,目前ASR已廣泛應用于諸多場景中,如電話會議、電子郵件、智能設備等。ASR模型的綜合基準中,標準語料庫的WER僅有2%~3%,而正是這一統(tǒng)計數(shù)據(jù)遭到了上述作者的質(zhì)疑。他們聲稱,大多數(shù)ASR的交互場景都是在“類似于聊天機器人”的背景下進行的,說話人往往因為意識到跟他們的交互對象是聊天機器人,因此通常會將命令簡化成結構緊湊的簡短詞語,而非正常的自然對話。作者基于來自1595個供應商和1261個客戶的50個呼叫中心對話數(shù)據(jù)集對幾套ASR系統(tǒng)進行了評估。其通常時間長達8.5個小時,其中2.2個小時是對話。通過測試,作者發(fā)現(xiàn)ASR系統(tǒng)的錯誤率基本在15%以下,這與基準測試中的2%相悖。

研究證明:商業(yè)語音識別系統(tǒng)的錯誤率非常高

而基于保險、通信、預定等金融行業(yè)的語料庫中,作者發(fā)現(xiàn)其WER的測試結果高達23.31%。其中,預定和通信的錯誤率最高,可能是因為對話涉及特定的日期、時間、訂單金額、地點、產(chǎn)品公司名稱等。但在所有領域的測試中,其錯誤率均高于13.73%。

研究人員將這一問題歸結為領域適應性問題——基準測試使用了單一性語料,例如Librispeech(1000小時英語有聲讀物錄音)、WSJ(新聞口述的談話)和Switchboard(電話交談),這些都可能太過簡單而無法真正挑戰(zhàn)ASR系統(tǒng)的可靠性。

而且,盡管他們試圖刻意模仿真實、自發(fā)的對話,但本質(zhì)上還是受約束的,比如需要配音演員,就某一合適主題進行腳本/半腳本對話,而且正是由于配音演員的存在,幾乎都不需要考慮因性別、母語因素而產(chǎn)生的發(fā)音問題。

作為一種補救措施,研究人員建議ASR和NLP社區(qū)收集和注釋音頻數(shù)據(jù)集,使其更好地與ASR系統(tǒng)的實際應用場景保持一致,他們還呼吁建立更具包容性的聲學模型,更廣泛的方言語料庫,這些改變將會促進音頻信號處理的技術改進。

因此,這些問題并非無法克服?!皩W界和工業(yè)界應該深思熟慮,考慮可以創(chuàng)建高質(zhì)量的測試數(shù)據(jù)集。我們認為,對ASR準確性的過于樂觀會損害NLP領域下游應用程序的開發(fā)。”研究人員最后表示。
責編AJX

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 軟件
    +關注

    關注

    69

    文章

    4570

    瀏覽量

    86704
  • 語音識別
    +關注

    關注

    38

    文章

    1696

    瀏覽量

    112250
  • ASR
    ASR
    +關注

    關注

    2

    文章

    35

    瀏覽量

    18665
收藏 人收藏

    評論

    相關推薦

    多目標智能識別系統(tǒng)

    智慧華盛恒輝多目標智能識別系統(tǒng)是一種利用現(xiàn)代計算機視覺技術和人工智能算法,從圖像或視頻中同時識別和分類多個目標物體的系統(tǒng)。這種系統(tǒng)廣泛應用于自動駕駛、智能監(jiān)控、人機交互、軍事偵察、災害
    的頭像 發(fā)表于 07-16 10:42 ?1.2w次閱讀

    車載語音識別系統(tǒng)語音數(shù)據(jù)采集標注案例

    車載語音識別系統(tǒng)是指利用機器學習算法實現(xiàn)的一種自然語言處理技術,載語音識別系統(tǒng)通過辨別聲音的語調(diào)、語速和音量,將所聽到的語音轉化成可讀取的語
    的頭像 發(fā)表于 06-19 15:52 ?241次閱讀
    車載<b class='flag-5'>語音</b><b class='flag-5'>識別系統(tǒng)</b><b class='flag-5'>語音</b>數(shù)據(jù)采集標注案例

    車載語音識別系統(tǒng)語音數(shù)據(jù)采集標注案例

    車載語音識別系統(tǒng)是指利用機器學習算法實現(xiàn)的一種自然語言處理技術,載語音識別系統(tǒng)通過辨別聲音的語調(diào)、語速和音量,將所聽到的語音轉化成可讀取的語
    的頭像 發(fā)表于 06-19 15:49 ?363次閱讀

    Achronix推出基于FPGA的加速自動語音識別解決方案

    提供超低延遲和極低錯誤率(WER)的實時流式語音轉文本解決方案,可同時運行超過1000個并發(fā)語音
    的頭像 發(fā)表于 11-29 15:18 ?576次閱讀

    影響語音芯片識別率的因素概述

    語音芯片識別率是指芯片對人類語音信號的識別能力。在實際應用中,語音芯片識別率的高低直接影響了用戶
    的頭像 發(fā)表于 11-27 10:21 ?412次閱讀

    基于DSP的車載語音識別系統(tǒng)方案設計

    電子發(fā)燒友網(wǎng)站提供《基于DSP的車載語音識別系統(tǒng)方案設計.pdf》資料免費下載
    發(fā)表于 11-08 09:14 ?2次下載
    基于DSP的車載<b class='flag-5'>語音</b><b class='flag-5'>識別系統(tǒng)</b>方案設計

    遠程RFID自動識別系統(tǒng)研究

    電子發(fā)燒友網(wǎng)站提供《遠程RFID自動識別系統(tǒng)研究.pdf》資料免費下載
    發(fā)表于 11-06 10:24 ?0次下載
    遠程RFID自動<b class='flag-5'>識別系統(tǒng)</b>的<b class='flag-5'>研究</b>

    ADSP-BF531在嵌入式語音識別系統(tǒng)中的應用

    電子發(fā)燒友網(wǎng)站提供《ADSP-BF531在嵌入式語音識別系統(tǒng)中的應用.pdf》資料免費下載
    發(fā)表于 10-23 10:45 ?2次下載
    ADSP-BF531在嵌入式<b class='flag-5'>語音</b><b class='flag-5'>識別系統(tǒng)</b>中的應用

    語音識別系統(tǒng)的單片機控制

    電子發(fā)燒友網(wǎng)站提供《語音識別系統(tǒng)的單片機控制.pdf》資料免費下載
    發(fā)表于 10-13 11:22 ?8次下載
    <b class='flag-5'>語音</b><b class='flag-5'>識別系統(tǒng)</b>的單片機控制

    DSP嵌入式識別系統(tǒng)應用研究

    電子發(fā)燒友網(wǎng)站提供《DSP嵌入式識別系統(tǒng)應用研究.pdf》資料免費下載
    發(fā)表于 10-12 10:23 ?0次下載
    DSP嵌入式<b class='flag-5'>識別系統(tǒng)</b>應用<b class='flag-5'>研究</b>

    基于DSP的指紋識別系統(tǒng)

    電子發(fā)燒友網(wǎng)站提供《基于DSP的指紋識別系統(tǒng).pdf》資料免費下載
    發(fā)表于 10-12 09:24 ?1次下載
    基于DSP的指紋<b class='flag-5'>識別系統(tǒng)</b>

    LD3320的嵌入式語音識別系統(tǒng)的應用電路原理圖

    電子發(fā)燒友網(wǎng)站提供《LD3320的嵌入式語音識別系統(tǒng)的應用電路原理圖.pdf》資料免費下載
    發(fā)表于 10-11 09:38 ?11次下載
    LD3320的嵌入式<b class='flag-5'>語音</b><b class='flag-5'>識別系統(tǒng)</b>的應用電路原理圖

    語音識別技術的挑戰(zhàn)與機遇

    1.噪音干擾:現(xiàn)實環(huán)境中的噪音是影響語音識別準確性的重要因素。許多語音識別系統(tǒng)在安靜的環(huán)境下表現(xiàn)良好,但在嘈雜環(huán)境中性能下降嚴重。為解決這個問題,
    的頭像 發(fā)表于 10-10 17:10 ?931次閱讀

    基于OMAP5912的嵌入式非特定人連續(xù)語音識別系統(tǒng)

    電子發(fā)燒友網(wǎng)站提供《基于OMAP5912的嵌入式非特定人連續(xù)語音識別系統(tǒng).pdf》資料免費下載
    發(fā)表于 10-09 15:21 ?0次下載
    基于OMAP5912的嵌入式非特定人連續(xù)<b class='flag-5'>語音</b><b class='flag-5'>識別系統(tǒng)</b>

    基于DTW算法語音識別系統(tǒng)仿真及DSP實現(xiàn)

    電子發(fā)燒友網(wǎng)站提供《基于DTW算法語音識別系統(tǒng)仿真及DSP實現(xiàn).pdf》資料免費下載
    發(fā)表于 10-08 11:52 ?1次下載
    基于DTW算法<b class='flag-5'>語音</b><b class='flag-5'>識別系統(tǒng)</b>仿真及DSP實現(xiàn)