0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

探索自動語音識別技術的獨特應用

星星科技指導員 ? 來源:NVIDIA ? 作者:David Taubenheim ? 2022-10-11 09:55 ? 次閱讀

自動語音識別( ASR )正在成為日常生活的一部分,從與數(shù)字助理交互到聽寫文本信息。由于以下方面的最新進展, ASR 研究繼續(xù)取得進展:

ASR 為多個架構(gòu)建模以滿足需求

在特定行業(yè)的行話、語言、口音和方言方面具有定制靈活性

云、預部署或混合部署選項

這篇文章首先介紹了常見的 ASR 應用程序,然后介紹了兩個初創(chuàng)公司,他們正在探索 ASR 作為核心產(chǎn)品功能的獨特應用。

語音識別系統(tǒng)的工作原理

自動語音識別 或語音識別,是計算機系統(tǒng)從音頻中破譯口語單詞和短語并將其轉(zhuǎn)錄成書面文本的能力。開發(fā)人員也可以將 ASR 稱為語音到文本,不要與文本到語音( TTS )混淆。

ASR 系統(tǒng)的文本輸出可能是語音 AI 接口的最終產(chǎn)品,或 會話人工智能 系統(tǒng)可能會消耗文本。

常見 ASR 應用

ASR 已經(jīng)成為新型交互式產(chǎn)品和服務的網(wǎng)關。即使現(xiàn)在,您也可以考慮使用下面詳細介紹的用例的品牌系統(tǒng):

現(xiàn)場字幕和轉(zhuǎn)錄

實時字幕和轉(zhuǎn)錄是兄弟。兩者之間的主要區(qū)別是字幕產(chǎn)生字幕 根據(jù)需要,為流媒體電影等視頻節(jié)目直播。相比之下,轉(zhuǎn)錄可以在現(xiàn)場或批處理模式下進行,其中錄制的音頻片段的轉(zhuǎn)錄速度比實時快幾個數(shù)量級。

虛擬助理和聊天機器人

虛擬助手和聊天機器人與人們互動,既提供幫助,也提供娛樂。他們可以從用戶輸入的文本或 ASR 系統(tǒng)接收基于文本的輸入,因為 ASR 系統(tǒng)識別并輸出用戶的單詞。

助手和機器人需要足夠快地向用戶發(fā)出響應,因此處理延遲是不可察覺的。響應可能是純文本、合成語音或圖像。

語音命令和聽寫

語音命令和聽寫系統(tǒng)是社交媒體平臺和醫(yī)療行業(yè)使用的常見 ASR 應用。

為了提供一個社交媒體示例,在移動設備上錄制視頻之前,用戶可能會發(fā)出語音命令以激活美容過濾器:“給我紫色頭發(fā)”。該社交網(wǎng)絡應用程序涉及一個支持 ASR 的子系統(tǒng),該子系統(tǒng)以命令的形式接收用戶的話語,同時應用程序同時處理攝像機輸入并應用過濾器進行屏幕顯示。

聽寫系統(tǒng)存儲語音中的文本,擴展了 語音人工智能系統(tǒng) 超越命令。為了提供醫(yī)療保健行業(yè)的一個例子,醫(yī)生口述包含醫(yī)學術語和名稱的語音注釋。準確的文本輸出可以添加到患者電子病歷中的就診摘要中。

獨特的 ASR 應用

除了這些常見用例之外,研究人員和企業(yè)家正在探索各種獨特的 ASR 應用。以下兩個初創(chuàng)公司正在開發(fā)以新穎方式使用該技術的產(chǎn)品。

互動學習: Tarteel AI

ASR 的創(chuàng)造性應用開始出現(xiàn)在教育材料中,特別是以互動學習的形式出現(xiàn)在兒童和成人中。

挑戰(zhàn)和解決辦法

雖然應用程序現(xiàn)在運行順利,但 Tarteel 面臨著一系列艱難的初始挑戰(zhàn)。首先,古蘭經(jīng)阿拉伯語沒有合適的 ASR 模型,最初迫使塔特爾嘗試通用 ASR 模型。

Tarteel Anas-Abou Allaban 的聯(lián)合創(chuàng)始人兼首席執(zhí)行官說:“我們從設備上的語音人工智能框架開始,就像智能手機一樣,但它們的設計更多是為了命令和短句,而不是精確的背誦?!?。“它們也不是生產(chǎn)級別的工具,甚至不接近。”

為了克服這一挑戰(zhàn), Tarteel 構(gòu)建了一個自定義數(shù)據(jù)集來完善現(xiàn)有的 ASR 模型,以滿足應用程序的性能目標。然后,在他們的下一個原型中, ASR 模型確實以較低的字錯誤率( WER )運行,但仍不能滿足應用程序的實際精度和延遲要求。

阿拉班指出,他在一些電話會議記錄中看到了 10-15% 的正確率,但在古蘭經(jīng)研究中看到高正確率是另一回事。他說,應用程序中超過 300 毫秒的處理延遲“變得非常煩人”。

Tarteel 通過調(diào)整其在 NVIDIA NeMo 框架中的 ASR 模型并在使用 Riva 在 Triton 推理服務器上部署之前使用 TensorRT 進一步優(yōu)化其延遲來應對這些挑戰(zhàn)。

數(shù)字人類服務:Ex-human

創(chuàng)業(yè)公司 Ex human 正在創(chuàng)造超現(xiàn)實的數(shù)字人 與模擬人(你和我)互動。他們目前的重點是為娛樂利基開發(fā) B2B 數(shù)字人類服務,使之能夠創(chuàng)建具有獨特個性、知識和現(xiàn)實說話聲音的聊天機器人或游戲角色。

在公司 Botify AI 應用 ,人工智能實體包括名人,通過口頭和圖形交互與用戶互動,無論您是在智能手機聊天窗口中打字還是使用語音。 NVIDIA Riva 自動語音識別為數(shù)字人類的自然語言處理子系統(tǒng)提供文本輸入,作為大型語言模型( LLM )的一部分。

為了使虛擬交互可信,需要精確和快速的 ASR 。由于 LLM 是計算密集型的,并且需要大量的處理資源,因此對于交互來說,它們可能運行得太慢。

例如, Botify AI 應用最先進的 TTS 來產(chǎn)生語音音頻響應,進而使用另一種 AI 模型驅(qū)動面部動畫。該團隊觀察到,當響應的周轉(zhuǎn)時間短于約三分之一秒時,機器人與用戶的可信交互處于最佳狀態(tài)。

挑戰(zhàn)和解決辦法

雖然 Botify 人工智能正在努力彌合人工智能生成的真實視頻與真實人類之間的差距,但 Ex-human 團隊對其客戶行為數(shù)據(jù)的分析感到驚訝?!八麄冋诖蛟熳约旱男聞勇宋?,”Ex-human 的創(chuàng)始人兼首席執(zhí)行官阿泰姆·羅迪切夫( Artem Rodichev )說。

通過使用為 Botify AI 生態(tài)系統(tǒng)微調(diào)的 ASR 模型,用戶可以與自己喜愛的個性進行交流或創(chuàng)建自己的個性。在上傳自定義人臉的背景下,構(gòu)建新動畫角色的令人驚訝的模式出現(xiàn)了,通過自定義角色將對話帶入生活。 Rodichev 解釋說,他的團隊需要快速調(diào)整他們的人工智能模型,以處理例如在風格上只是一個點或一條線的嘴。

Rodichev 和他的團隊通過仔細選擇工具和 SDK 以及評估并行處理的機會,克服了 Ex-human 架構(gòu)中的許多挑戰(zhàn)。 Rodichev 警告說:“由于延遲非常重要,我們使用 NVIDIA TensorRT 優(yōu)化了 ASR 模型和其他模型,并依賴于 Triton 推理服務器?!?/p>

Botify AI 用戶是否準備好與數(shù)字人類而不是模擬人類互動?數(shù)據(jù)顯示,用戶平均每天花 40 分鐘與 Botify 人工智能數(shù)字人在一起,在這段時間內(nèi)發(fā)送他們最喜歡的數(shù)百條信息。

開始使用 ASR

您可以開始在自己的設計和項目中包括 ASR 功能,從免提語音命令到實時轉(zhuǎn)錄。 Riva 等高級 SDK 在世界級的準確性、速度、延遲和易集成性方面表現(xiàn)出高性能,所有這些都與您的新想法一致。

關于作者

David Taubenheim 是 NVIDIA Inception 項目的高級解決方案架構(gòu)師,該項目是初創(chuàng)企業(yè)的加速器。他目前的技術重點領域是加速計算和對話 AI 使能器。 David 擁有國立技術大學的電氣工程碩士學位和伊利諾伊大學香檳分校的電氣工程學士學位。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    4855

    瀏覽量

    102711
  • 語音識別
    +關注

    關注

    38

    文章

    1710

    瀏覽量

    112493
收藏 人收藏

    評論

    相關推薦

    Transformer模型在語音識別語音生成中的應用優(yōu)勢

    隨著人工智能技術的飛速發(fā)展,語音識別語音生成作為人機交互的重要組成部分,正逐漸滲透到我們生活的各個方面。而Transformer模型,自其誕生以來,憑借其
    的頭像 發(fā)表于 07-03 18:24 ?923次閱讀

    人工智能的語音識別技術詳解

    隨著科技的飛速發(fā)展,人工智能(AI)技術已經(jīng)滲透到我們生活的方方面面,其中語音識別技術作為AI領域的重要分支,更是以其獨特的魅力和廣泛的應用
    的頭像 發(fā)表于 07-01 11:39 ?972次閱讀

    車內(nèi)語音識別技術在智能駕駛中的應用與前景

    一、引言 隨著智能駕駛技術的快速發(fā)展,車內(nèi)語音識別技術逐漸成為智能駕駛領域的研究熱點。語音識別
    的頭像 發(fā)表于 02-19 11:46 ?738次閱讀

    語音數(shù)據(jù)集:探索、挑戰(zhàn)與應用

    隨著人工智能技術的飛速發(fā)展,語音識別技術已經(jīng)滲透到我們生活的方方面面,從智能手機助手到智能家居設備,再到自動駕駛汽車,都離不開這項
    的頭像 發(fā)表于 12-28 13:56 ?503次閱讀

    離線語音識別與在線語音識別有什么不一樣?

    離線語音識別與在線語音識別有什么不一樣? 離線語音識別和在線
    的頭像 發(fā)表于 12-12 14:36 ?1127次閱讀

    情感語音識別技術前沿與未來趨勢

    一、引言 情感語音識別是當前人工智能領域的前沿技術,它通過分析人類語音中的情感信息,實現(xiàn)更加智能化和個性化的人機交互。本文將探討情感語音
    的頭像 發(fā)表于 11-28 18:35 ?538次閱讀

    情感語音識別技術發(fā)展與挑戰(zhàn)

    一、引言 情感語音識別是人工智能領域的重要研究方向,它通過分析人類語音中的情感信息,實現(xiàn)人機之間的情感交互。本文將探討情感語音識別
    的頭像 發(fā)表于 11-28 18:26 ?602次閱讀

    離線語音識別及控制是怎樣的技術?

    引言:隨著人工智能的飛速發(fā)展,離線語音識別技術成為了一項備受矚目的創(chuàng)新。離線語音識別技術能夠?qū)⑷?/div>
    的頭像 發(fā)表于 11-24 17:44 ?1072次閱讀
    離線<b class='flag-5'>語音</b><b class='flag-5'>識別</b>及控制是怎樣的<b class='flag-5'>技術</b>?

    離線語音識別及控制是怎樣的技術?

    引言:  隨著人工智能的飛速發(fā)展,離線語音識別技術成為了一項備受矚目的創(chuàng)新。離線語音識別技術能夠
    發(fā)表于 11-24 17:41

    情感語音識別技術發(fā)展與未來趨勢

    技術發(fā)展 特征提取技術:特征提取是情感語音識別的關鍵步驟之一。目前,基于深度學習模型的特征提取技術已經(jīng)取得了顯著的進展。這些模型能夠
    的頭像 發(fā)表于 11-23 14:28 ?581次閱讀

    情感語音識別技術發(fā)展與跨文化應用

    一、引言 情感語音識別是人工智能領域的前沿研究領域,它通過分析人類語音中的情感信息,實現(xiàn)更加智能化和個性化的人機交互。隨著技術的不斷發(fā)展,情感語音
    的頭像 發(fā)表于 11-22 10:54 ?525次閱讀

    情感語音識別技術的挑戰(zhàn)與未來發(fā)展

    情感語音識別技術作為人工智能領域的重要分支,已經(jīng)取得了顯著的進展。然而,在實際應用中,情感語音識別技術
    的頭像 發(fā)表于 11-16 16:48 ?428次閱讀

    情感語音識別技術的現(xiàn)狀與未來

    一、引言 情感語音識別技術是近年來人工智能領域的研究熱點之一,它通過分析人類語音中的情感信息,為智能客服、心理健康監(jiān)測、娛樂產(chǎn)業(yè)等多個領域提供了重要的支持。本文將探討情感
    的頭像 發(fā)表于 11-15 16:36 ?618次閱讀

    情感語音識別的前世今生

    一、引言 情感語音識別是指通過計算機技術和人工智能算法,對人類語音中的情感信息進行自動識別和理解。這種
    的頭像 發(fā)表于 11-12 17:33 ?601次閱讀

    情感語音識別技術的應用與未來發(fā)展

    一、引言 隨著科技的飛速發(fā)展,情感語音識別技術已經(jīng)成為人機交互的重要發(fā)展方向。情感語音識別技術
    的頭像 發(fā)表于 11-12 17:30 ?752次閱讀