0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解決自動語音識別部署難題

星星科技指導員 ? 來源:NVIDIA ? 作者:Sunil Kumar Jang Baha ? 2022-10-11 10:56 ? 次閱讀

成功部署自動語音識別( ASR )應用程序可能是令人沮喪的體驗。例如,考慮到存在許多不同的方言和發(fā)音, ASR 系統(tǒng)很難在保持低延遲的同時正確識別單詞。

無論您使用的是商業(yè)解決方案還是開源解決方案,在構(gòu)建 ASR 應用程序時都有許多挑戰(zhàn)需要考慮。

在這篇文章中,我強調(diào)了開發(fā)人員在向應用程序添加 ASR 功能時面臨的主要痛點。我以 NVIDIA Riva 語音 AI SDK 為例,分享如何應對和克服這些挑戰(zhàn)。

構(gòu)建 ASR 應用程序的挑戰(zhàn)

以下是創(chuàng)建任何 ASR 系統(tǒng)時存在的一些挑戰(zhàn):

高精度

低延遲

計算資源分配

靈活的部署和可擴展性

定制

監(jiān)測和跟蹤

高精度

衡量語音識別準確性的一個關(guān)鍵指標是單詞錯誤率( WER )。 WER 定義為轉(zhuǎn)錄過程中識別的不正確和缺失單詞總數(shù)與標記轉(zhuǎn)錄本中出現(xiàn)的單詞總數(shù)之比。

有幾個原因?qū)е?ASR 模型中的轉(zhuǎn)錄錯誤,導致信息的誤解:

訓練數(shù)據(jù)集的質(zhì)量

不同的方言和發(fā)音

口音和語音變化

自定義或特定領(lǐng)域的詞和首字母縮略詞

詞的語境關(guān)系

區(qū)分語音相似的句子

由于這些因素,很難建立具有低 WER 分數(shù)的穩(wěn)健 ASR 模型。

低延遲

一個對話人工智能 應用程序是由語音人工智能和自然語言處理( NLP )組成的端到端管道。

對于任何對話式人工智能應用程序,響應時間都是進行任何自然對話的關(guān)鍵因素。如果客戶在等待 1 分鐘后才收到響應,則與機器人對話是不實際的。

據(jù)觀察,任何對話 AI 應用程序都應: 提供小于 300 毫秒的延遲 因此,確保語音 AI 模型等待時間遠低于 300 毫秒限制,以集成到實時會話 AI 應用的端到端流水線中變得至關(guān)重要。

許多因素影響 ASR 模型的總體延遲:

Model size: 大型和復雜的模型具有更好的精度,但與較小的模型相比,需要大量的計算能力并增加延遲;即推斷成本高。

Hardware: 這種復雜模型的邊緣部署進一步增加了延遲要求的復雜性。

Network bandwidth: 流式傳輸音頻內(nèi)容和轉(zhuǎn)錄本需要足夠的帶寬,尤其是在基于云的部署情況下。

計算資源分配

優(yōu)化 ASR 模型及其資源利用適用于所有人工智能模型,而不僅僅是 ASR 模型。然而,這是影響運行任何人工智能應用程序的總體延遲和計算成本的關(guān)鍵因素。

優(yōu)化模型的全部目的是在計算級別和延遲級別降低推理成本。但是,對于特定架構(gòu),在線可用的所有模型都不是平等創(chuàng)建的,并且不具有相同的代碼質(zhì)量。他們在表現(xiàn)上也有巨大的差異。

此外,并非所有這些方法都以相同的方式響應知識提取、修剪、量化和其他優(yōu)化技術(shù),從而在不影響精度結(jié)果的情況下提高推理性能。

靈活的部署和可擴展性

創(chuàng)建準確高效的模型只是任何實時人工智能應用程序的一小部分。所需的周邊基礎(chǔ)設(shè)施龐大而復雜。例如,部署基礎(chǔ)設(shè)施應包括:

流式支持

資源管理處

服務基礎(chǔ)設(shè)施

分析工具支持

監(jiān)測服務

創(chuàng)建一個定制的端到端優(yōu)化部署管道,以支持任何 ASR 應用程序所需的延遲要求,這是一個挑戰(zhàn),因為它需要在每個管道階段進行優(yōu)化和加速。

根據(jù)給定實例必須支持的音頻流的數(shù)量,語音識別應用程序應該能夠自動擴展應用程序部署,以提供可接受的性能。

定制

讓模型開箱即用始終是我們的目標。然而,當前可用模型的性能取決于其訓練階段使用的數(shù)據(jù)集。模型通常適用于它們已經(jīng)暴露的用例,但一旦在不同的域應用程序中部署,同一模型的性能可能會下降。

具體來說,在 ASR 的情況下,模型的性能取決于口音或語言以及語音變化。您應該能夠根據(jù)應用程序用例定制模型。

例如,在醫(yī)療保健或金融相關(guān)應用中部署的語音識別模型需要支持特定領(lǐng)域的詞匯表。該詞匯與 ASR 模型培訓期間通常使用的詞匯不同。

為了支持 ASR 的區(qū)域語言,您需要一套完整的培訓管道,以便輕松定制模型并有效地處理不同的方言。

監(jiān)測和跟蹤

實時監(jiān)控和跟蹤有助于獲得即時洞察、警報和通知,以便您及時采取糾正措施。這有助于根據(jù)傳入流量跟蹤資源消耗,從而可以自動縮放相應的應用程序。還可以設(shè)置配額限制,以在不影響總體吞吐量的情況下最小化基礎(chǔ)設(shè)施成本。

捕獲所有這些統(tǒng)計數(shù)據(jù)需要集成多個庫,以捕獲 ASR 管道各個階段的性能。

Riva SDK 如何應對 ASR 挑戰(zhàn)的示例

高級 SDK 可用于方便地為應用程序添加語音接口。在這篇文章中,我演示了如何在構(gòu)建語音識別應用程序時使用 GPU 加速 SDK (如 Riva )來解決這些挑戰(zhàn)。

高精度和計算優(yōu)化

您可以在 NGC 中使用預訓練的 Riva 語音模型,該模型可以使用 TAO 工具包在自定義數(shù)據(jù)集上進行微調(diào),從而將特定領(lǐng)域的模型開發(fā)進一步加速 10 倍。

為 GPU 部署優(yōu)化并加速了所有 NGC 模型,以實現(xiàn)更好的識別精度。 NVIDIA TensorRT 優(yōu)化也完全支持這些模型。 Riva 的高性能推理由 TensorRT 優(yōu)化提供支持,并使用 NVIDIA Triton 推理服務器來優(yōu)化整體計算需求,進而提高服務器吞吐量

例如,以下是一些 NGC 上的 ASR 模型,它們作為 Riva 管道的一部分進一步優(yōu)化,以獲得更好的性能:

Conformer-CTC xLarge

Citrinet 512

從模型、軟件到硬件, Riva 的整個堆棧不斷優(yōu)化,實現(xiàn)了以下目標: 12 與上一代相比的增益 。

poYBAGNE23WAPTnjAACmH65qQuU096.png

圖 1.使用 NVIDIA Riva 的 ASR 性能加速

低延遲

流式和離線配置的延遲和吞吐量測量報告在 ASR 性能 Riva 文件部分。

在“流式低延遲” Riva ASR 模型部署模式中,大多數(shù)情況下的平均延遲( ms )遠小于 50 ms 。使用這樣的 ASR 模型,創(chuàng)建實時會話 AI 管道變得更容易,并且仍然達到《 300 毫秒的延遲要求。

靈活的部署和擴展

在任何平臺上輕松部署語音識別應用程序都需要全面支持。 Riva SDK 在每一步都提供了靈活性,從對特定領(lǐng)域數(shù)據(jù)集的模型進行微調(diào)到定制管道。它還可以部署在云、本地、邊緣和嵌入式設(shè)備中。

為了支持擴展, Riva 是完全容器化的,可以擴展到成百上千個并行流。 Riva 也包含在 NGC Helm 倉庫 ,這是一個設(shè)計用于自動按下按鈕的圖表 部署到 Kubernetes 集群 。

定制

pYYBAGNE23aAfHHzAAIc6i0goes988.png

Figure 2. 定制技術(shù)包括從單詞提升到微調(diào)標點和大寫模型

定制技術(shù) 當開箱即用 Riva 模型無法處理訓練數(shù)據(jù)中未出現(xiàn)的挑戰(zhàn)性場景時,這是有用的。這可能包括識別窄域術(shù)語、新口音或嘈雜環(huán)境。

類似 Riva 的 SDK 支持 定制 ,從單詞增強級別開始,并為最終用戶提供定制訓練其聲學模型。

Riva 語音技能還提供了跨多種語言的高質(zhì)量、預訓練模型。有關(guān)支持的語言的所有模型的更多信息,請參閱 語言支持 部分。

監(jiān)測和跟蹤

在 Riva,基礎(chǔ) Triton 推理服務器度量 基于自定義和儀表板創(chuàng)建,可供最終用戶使用。這些指標僅通過訪問端點可用。

NVIDIA Triton 提供普羅米修斯指標,以及指示 GPU 和請求統(tǒng)計。這有助于監(jiān)控和跟蹤生產(chǎn)部署設(shè)置。

關(guān)鍵要點

這篇文章為您提供了開發(fā)具有 ASR 功能的 AI 應用程序時出現(xiàn)的常見痛點的高級概述。了解影響 ASR 應用程序整體性能的因素有助于簡化和改進端到端開發(fā)過程。

Sunil Kumar Jang Bahadur 是 NVIDIA Inception 團隊的高級解決方案架構(gòu)師,專注于印度的人工智能初創(chuàng)企業(yè)。他在各種工業(yè)部門的軟件開發(fā)和技術(shù)解決方案方面擁有 12 年以上的經(jīng)驗。他喜歡教機器,讓它們更人性化。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4855

    瀏覽量

    102711
  • 語音識別
    +關(guān)注

    關(guān)注

    38

    文章

    1710

    瀏覽量

    112493
收藏 人收藏

    評論

    相關(guān)推薦

    語音識別技術(shù)的應用及發(fā)展

    語音識別是以語音為研究對象,通過語音信號處理和模式識別讓機器自動識別和理解人類口述的語言。
    發(fā)表于 12-16 11:11 ?2329次閱讀

    會物體識別語音識別的nao機器人

    ` nao機器人可識別大量物體和自動語音識別,并可通過Choregraphe軟件保存物體信息和語音。此后,當它再次看到已保存的物體時或需要與
    發(fā)表于 02-13 14:09

    手機語音識別應用中DSP該怎么選擇?

      隨著DSP技術(shù)的進步,計算能力更強、功耗更低和體積更小的DSP已經(jīng)出現(xiàn),使3G手機上植入更精確更復雜的自動語音識別(ASR)功能成為可能。目前,基本ASR應用可以分成三大類:1. 語音
    發(fā)表于 09-02 07:03

    語音識別】你知道什么是離線語音識別和在線語音識別嗎?

    很多都會問:我測X大訊飛的識別效果很好呀,為什么你們的不能達到這個效果呢?原因很簡單,因為你所測試的是X大訊飛在線的語音識別模塊,而我們的是離線的語音
    發(fā)表于 04-01 17:11

    自動語音識別的原理是什么?

    自動語音識別的原理是什么?如何利用WaveNet實現(xiàn)自動語音識別
    發(fā)表于 06-15 09:14

    離線語音識別及控制是怎樣的技術(shù)?

    信號轉(zhuǎn)化為文本或語義結(jié)果。  與傳統(tǒng)的云端語音識別相比,離線語音識別的工作原理是將語音識別技術(shù)算
    發(fā)表于 11-24 17:41

    語音識別技術(shù)原理簡介

    語音識別技術(shù)原理簡介         自動語音識別技術(shù)(Auto
    發(fā)表于 03-06 10:38 ?1.1w次閱讀

    語音識別技術(shù),語音識別技術(shù)是什么意思

    語音識別技術(shù),語音識別技術(shù)是什么意思  語音識別技術(shù),也被稱為
    發(fā)表于 03-06 11:16 ?2829次閱讀

    語音識別,什么是語音識別

    語音識別,什么是語音識別 語音識別  與機器進行語音
    發(fā)表于 03-06 11:19 ?2596次閱讀

    語音識別技術(shù)是什么_語音識別技術(shù)應用領(lǐng)域介紹

    語音識別技術(shù),也被稱為自動語音識別(ASR),其目標是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的
    發(fā)表于 01-02 18:36 ?1.7w次閱讀

    英偉達最新推出部署邊緣設(shè)備的語音識別技術(shù)

    英偉達近日一篇論文為語音識別技術(shù)在邊緣設(shè)備上的部署帶來了福音,其新提出的解碼器方法即使在邊緣嵌入式 GPU 上也能高效高速地執(zhí)行。
    發(fā)表于 10-28 10:54 ?717次閱讀

    自動語音識別的原理是什么,它的作用是什么

    Siri 、Alexa 等虛擬助手的出現(xiàn),讓自動語音識別系統(tǒng)得到了更廣泛的運用與發(fā)展。
    發(fā)表于 03-20 10:34 ?2118次閱讀

    語音識別系統(tǒng)的結(jié)構(gòu)

    技術(shù)中,使得語音識別的性能得到了顯著提升,也使得語音識別技術(shù)的普及成為了現(xiàn)實。 語音識別技術(shù)
    的頭像 發(fā)表于 11-09 16:19 ?6812次閱讀

    語音識別技術(shù)概述

    語音識別技術(shù),也被稱為自動語音識別AutomaTIc Speech RecogniTIon,(ASR),其目標是將人類的
    的頭像 發(fā)表于 04-11 11:28 ?2w次閱讀

    在本地與云端部署語音識別

      嵌入式揚聲器驗證也被更頻繁地部署,并且通常被合并到喚醒觸發(fā)器中,以降低其他人喚醒您的設(shè)備的可能性。對于語音識別和說話人驗證,總是需要在錯誤接受(接受錯誤的用戶)和錯誤拒絕(拒絕正確的用戶)之間進行權(quán)衡。
    的頭像 發(fā)表于 07-09 07:31 ?1188次閱讀