0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用NVIDIA NeMo進行文本規(guī)范化和反向文本規(guī)范化

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-10-11 11:41 ? 次閱讀

文本規(guī)范化( TN )將文本從書面形式轉(zhuǎn)換為口頭形式,是文本到語音( TTS )之前的一個重要預(yù)處理步驟。 TN 確保 TTS 可以處理所有輸入文本,而不會跳過未知符號。例如,“ 123 美元”轉(zhuǎn)換為“一百二十三美元”

反向文本規(guī)范化( ITN )是自動語音識別( ASR )后處理管道的一部分。 ITN 將 ASR 模型輸出轉(zhuǎn)換為書面形式,以提高文本可讀性。例如, ITN 模塊將 ASR 模型轉(zhuǎn)錄的“ 123 美元”替換為“ 123 美元?!?/p>

ITN 不僅提高了可讀性,還提高了下游任務(wù)(如神經(jīng)機器翻譯或命名實體識別)的性能,因為這些任務(wù)在訓(xùn)練期間使用書面文本。

pYYBAGNE5dmAPcpOAACvpftVosU813.png

圖 1.會話 AI 管道中的 TN 和 ITN

TN 和 ITN 任務(wù)面臨幾個挑戰(zhàn):

標(biāo)記的數(shù)據(jù)稀缺且難以收集。

由于 TN 和 ITN 錯誤會級聯(lián)到后續(xù)模型,因此對不可恢復(fù)錯誤的容忍度較低。改變輸入語義的 TN 和 ITN 錯誤稱為不可恢復(fù)。

TN 和 ITN 系統(tǒng)支持多種 semiotic classes ,即口語形式不同于書面形式的單詞或標(biāo)記,需要規(guī)范化。例如日期、小數(shù)、基數(shù)、度量等。

許多最先進的 TN systems in production 仍然使用 加權(quán)有限狀態(tài)傳感器 ( WFST )基于規(guī)則。 WFST 是 finite-state machines 的一種形式,用于繪制正則語言(或 regular expressions )之間的關(guān)系。對于這篇文章,它們可以由兩個主要屬性定義:

用于文本替換的已接受輸入和輸出表達式之間的映射

直接圖遍歷的路徑加權(quán)

如果存在歧義,則選擇權(quán)重總和最小的路徑。在圖 2 中,“二十三”被轉(zhuǎn)換為“ 23 ”而不是“ 203 ”

poYBAGNE5duAY_g6AACZe7ntwds780.jpg

圖 2.輸入“二十三”的 WFST 格子

目前, NVIDIA NeMo 為 TN 和 ITN 系統(tǒng)提供以下選項:

Context-independent WFST-based TN and ITN grammars

Context-aware WFST-based grammars + neural LM for TN

Audio-based TN for speech datasets creation

Neural TN and ITN

基于 WFST 的語法(系統(tǒng) 1 、 2 和 3 )

NeMo 文本處理包是一個 Python 框架,它依賴于 Python 包 Pynini 來編寫和編譯規(guī)范化語法。有關(guān)最新支持的語言的更多信息,請參閱 Language Support Matrix 。有關(guān)如何擴展或添加語言語法的更多信息,請參閱 語法定制 。

Pynini 是一個構(gòu)建在 OpenFst 之上的工具包,它支持將語法導(dǎo)出到 OpenFST Archive File (FAR) 中(圖 3 )。 FAR 文件可以在基于 Sparrowhawk 的 C ++生產(chǎn)框架中使用。

pYYBAGNE5d6AdgDWAADcR5Wldv8789.png

圖 3. NeMo 反向文本規(guī)范化開發(fā)和部署示意圖

我們最初版本的 TN / ITN 系統(tǒng)# 1 沒有考慮上下文,因為這會使規(guī)則更加復(fù)雜,這需要廣泛的語言知識,并降低延遲。如果輸入不明確,例如,與“ 1 / 4 個杯子”相比,“火車在 1 / 4 上出發(fā)”中的“ 1 / 4 ”,則系統(tǒng)# 1 會在不考慮上下文的情況下確定地選擇歸一化。

該系統(tǒng)擴展了系統(tǒng)# 1 ,并在規(guī)范化期間合并了上下文。在上下文不明確的情況下,系統(tǒng)輸出多個規(guī)范化選項,使用預(yù)處理語言模型使用 Masked Language Model Scoring 重新搜索(圖 4 )。

poYBAGNE5d-Aeu8KAACE1FkLtwQ378.png

圖 4.WFST + LM 淺熔管線

WFST 生成所有可能的標(biāo)準(zhǔn)化表格,并為每個選項分配權(quán)重。

修剪權(quán)重高于閾值“ 401.2 ”的標(biāo)準(zhǔn)化選項。在本例中,我們刪除了“ 1 / 4 ”。它的權(quán)重更高,因為它沒有完全歸一化。

LM 重新排序在其余選項中選擇了最佳選項。

這種方法類似于 ASR 的淺層融合,并結(jié)合了基于規(guī)則和神經(jīng)系統(tǒng)的優(yōu)點。 WFST 仍然限制了不可恢復(fù)的錯誤,而神經(jīng)語言模型在不需要大量規(guī)則或難以獲取數(shù)據(jù)的情況下解決了上下文模糊性。有關(guān)詳細信息,請參閱 Text normalization 。

表 1 比較了 WFST + LM 方法在句子準(zhǔn)確性方面與之前的系統(tǒng)# 1 ( DetWFST )和三個數(shù)據(jù)集上的純神經(jīng)系統(tǒng)( Duplex )。在本文后面,我們將提供有關(guān)系統(tǒng)# 4 的更多詳細信息。

總的來說, WFST + LM 模型是最有效的,特別是在 EngConf 上,這是一個具有模糊示例的自收集數(shù)據(jù)集。

圖 5 顯示了這三種方法對錯誤的敏感性。雖然神經(jīng)方法受不可恢復(fù)錯誤(如幻覺或遺漏)的影響最大,但 WFST + LM 受這些錯誤和類歧義的影響最小。

pYYBAGNE5d-AC4NHAAGl3a8ZE3A118.png

圖 5.上下文無關(guān)的 WFST 、 Duplex 和 WFST + LM 系統(tǒng)的錯誤模式

基于音頻的 TN (系統(tǒng) 3 )

在創(chuàng)建新的語音數(shù)據(jù)集時,文本規(guī)范化也很有用。例如,“六二七”和“六二十七”都是“ 627 ”的有效規(guī)范化選項。但是,您必須選擇最能反映相應(yīng)音頻中實際內(nèi)容的選項?;谝纛l的文本規(guī)范化提供了此類功能(圖 6 )。

poYBAGNE5eCAEQBtAAE-G9ySJZA471.png

圖 6.基于音頻的標(biāo)準(zhǔn)化分辨率示例

神經(jīng) TN 和 ITN 模型(系統(tǒng) 4 )

與基于規(guī)則的系統(tǒng)相比,神經(jīng)系統(tǒng)的一個顯著優(yōu)勢是,如果存在新語言的訓(xùn)練數(shù)據(jù),那么它們很容易擴展?;谝?guī)則的系統(tǒng)需要花費大量精力來創(chuàng)建,并且由于組合爆發(fā),可能會在某些輸入上工作緩慢。

作為 WFST 解決方案的替代方案, NeMo 為 TN / ITN 提供了 seq2seq Duplex 模型,為 ITN 提供了基于標(biāo)記器的神經(jīng)模型。

雙重 TN 和 ITN

Duplex TN and ITN 是一個基于神經(jīng)的系統(tǒng),可以同時進行 TN 和 ITN 。在較高的層次上,該系統(tǒng)由兩個組件組成:

DuplexTaggerModel: 基于 transformer 的標(biāo)記器,用于識別輸入中的符號跨度(例如,關(guān)于時間、日期或貨幣金額的跨度)。

DuplexDecoderModel :基于變壓器的 seq2seq 模型,用于將符號跨度解碼為適當(dāng)?shù)男问剑ɡ纾?TN 的口語形式和 ITN 的書面形式)。

術(shù)語“雙工”指的是這樣一個事實,即該系統(tǒng)可以訓(xùn)練為同時執(zhí)行 TN 和 ITN 。但是,您也可以專門針對其中一項任務(wù)對系統(tǒng)進行培訓(xùn)。

圖特莫斯塔格

雙工模型是一種順序到順序模型。不幸的是,這種神經(jīng)模型容易產(chǎn)生幻覺,從而導(dǎo)致無法恢復(fù)的錯誤。

Thutmose Tagger 模型將 ITN 視為一項標(biāo)記任務(wù),并緩解了幻覺問題(圖 7 和 8 )。 Thutmose 是一個單通道令牌分類器模型,它為每個輸入令牌分配一個替換片段,或?qū)⑵錁?biāo)記為刪除或復(fù)制而不做更改。

NeMo 提供了一種基于 ITN 示例粒度對齊的數(shù)據(jù)集準(zhǔn)備方法。該模型在谷歌文本規(guī)范化數(shù)據(jù)集上進行訓(xùn)練,并在英語和俄語測試集上實現(xiàn)了最先進的句子準(zhǔn)確性。

表 2 和表 3 總結(jié)了兩個指標(biāo)的評估結(jié)果:

Sentence accuracy :將每個預(yù)測與參考的多個可能變體相匹配的自動度量。所有錯誤分為兩組:數(shù)字錯誤和其他錯誤。當(dāng)至少有一個數(shù)字與最接近的參考變量不同時,會發(fā)生數(shù)字錯誤。其他錯誤意味著預(yù)測中存在非數(shù)字錯誤,例如標(biāo)點符號或字母不匹配。

Word error rate ( WER ): ASR 中常用的自動度量。

d- BERT 代表蒸餾 BERT 。
默認值是默認的 Google 文本規(guī)范化測試集。
Hard 是一個測試集,每個符號類至少有 1000 個樣本。

標(biāo)簽和輸入詞之間的一對一對應(yīng)提高了模型預(yù)測的可解釋性,簡化了調(diào)試,并支持后期處理更正。該模型比序列到序列模型更簡單,更容易在生產(chǎn)設(shè)置中進行優(yōu)化。

pYYBAGNE5eGAGMAiAAC8Zz7ko5c597.png

圖 7.ITN 作為標(biāo)記:推理示例

輸入單詞的序列由基于 BERT 的標(biāo)記分類器處理,給出輸出標(biāo)記序列。簡單的確定性后處理提供最終輸出。

poYBAGNE5emANzzBAAR_57DglUg026.png

圖 8.錯誤示例:(左) Thutmose tagger ,(右) Duplex 模型

結(jié)論

文本規(guī)范化和反向文本規(guī)范化對于會話系統(tǒng)至關(guān)重要,并極大地影響用戶體驗。本文結(jié)合 WFST 和預(yù)處理語言模型的優(yōu)點,介紹了一種處理 TN 任務(wù)的新方法,以及一種處理 ITN 任務(wù)的基于神經(jīng)標(biāo)記的新方法。

關(guān)于作者

Yang Zhang 是英偉達人工智能應(yīng)用集團的一名深度學(xué)習(xí)軟件工程師。她目前的重點是自然語言處理、對話管理和文本(去規(guī)范化)。在過去,她一直致力于大型 ASR 模型和語言模型預(yù)培訓(xùn)的可擴展培訓(xùn)。她在卡內(nèi)基梅隆大學(xué)獲得機器學(xué)習(xí)碩士學(xué)位,在德國卡爾斯魯厄理工學(xué)院獲得計算機科學(xué)學(xué)士學(xué)位。

Evelina Bakhturina 是 Nvidia 的一個深學(xué)習(xí)應(yīng)用科學(xué)家,專注于自然語言處理任務(wù)和英偉達 NeMo 框架。她畢業(yè)于紐約大學(xué),獲得數(shù)據(jù)科學(xué)碩士學(xué)位

Alexandra Antonova 是 NVIDIA Conversational AI 團隊( NeMo )的高級研究科學(xué)家,致力于 ASR 模型。她在莫斯科國立大學(xué)學(xué)習(xí)理論和應(yīng)用語言學(xué),在莫斯科物理技術(shù)學(xué)院深造。在加入 NVIDIA 之前,她曾在幾家俄羅斯科技公司工作。在空閑時間,她喜歡讀書。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 傳感器
    +關(guān)注

    關(guān)注

    2545

    文章

    50445

    瀏覽量

    751063
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4855

    瀏覽量

    102711
收藏 人收藏

    評論

    相關(guān)推薦

    如何使用 Llama 3 進行文本生成

    使用LLaMA 3(Large Language Model Family of AI Alignment)進行文本生成,可以通過以下幾種方式實現(xiàn),取決于你是否愿意在本地運行模型或者使用現(xiàn)成的API
    的頭像 發(fā)表于 10-27 14:21 ?197次閱讀

    Dell PowerScale數(shù)據(jù)湖助力醫(yī)研一體建設(shè)

    近年來,醫(yī)療影像設(shè)備不斷向更高水平和精密發(fā)展,推動醫(yī)療服務(wù)向更高更快的品質(zhì)發(fā)展?;卺t(yī)學(xué)影像多學(xué)科會診的協(xié)作、智能輔助診斷、智能質(zhì)控、智能術(shù)前規(guī)劃,將快速推進各項醫(yī)學(xué)科研成果進行規(guī)范化的臨床應(yīng)用與轉(zhuǎn)化。
    的頭像 發(fā)表于 10-16 10:13 ?264次閱讀

    NVIDIA文本嵌入模型NV-Embed的精度基準(zhǔn)

    NVIDIA 的最新嵌入模型 NV-Embed —— 以 69.32 的分數(shù)創(chuàng)下了嵌入準(zhǔn)確率的新紀錄海量文本嵌入基準(zhǔn)測試(MTEB)涵蓋 56 項嵌入任務(wù)。
    的頭像 發(fā)表于 08-23 16:54 ?1919次閱讀
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>文本</b>嵌入模型NV-Embed的精度基準(zhǔn)

    如何學(xué)習(xí)智能家居?8:Text文本實體使用方法

    內(nèi)容到設(shè)備當(dāng)中??梢岳斫獬梢粋€文本輸入框,我們可以輸入任意文字,然后發(fā)給設(shè)備。 也可以利用自動,更新文本,例如
    的頭像 發(fā)表于 07-15 14:06 ?1492次閱讀
    如何學(xué)習(xí)智能家居?8:Text<b class='flag-5'>文本</b>實體使用方法

    卷積神經(jīng)網(wǎng)絡(luò)在文本分類領(lǐng)域的應(yīng)用

    顯著成就后,也逐漸被引入到文本分類任務(wù)中。卷積神經(jīng)網(wǎng)絡(luò)通過模擬人類視覺系統(tǒng)的信息處理方式,能夠有效地提取文本中的局部特征,進而實現(xiàn)高精度的文本分類。本文將對卷積神經(jīng)網(wǎng)絡(luò)在文本分類領(lǐng)域的
    的頭像 發(fā)表于 07-01 16:25 ?575次閱讀

    羅克韋爾自動旗下Fiix發(fā)布GenAI規(guī)范性工單

    作為工業(yè)自動、信息和數(shù)字轉(zhuǎn)型領(lǐng)域的全球領(lǐng)先企業(yè)之一,羅克韋爾自動宣布將生成式人工智能 (GenAI) 規(guī)范性工單添加至 Fiix 資
    的頭像 發(fā)表于 06-28 09:20 ?395次閱讀

    訊飛星火長文本功能全新升級

    科大訊飛近日宣布,其首個長文本、長圖文、長語音大模型已完成全新升級。這一大模型不僅具備強大的學(xué)習(xí)能力,可以快速吸收海量文本、圖文資料以及會議錄音等多元信息,更能在各行業(yè)場景中提供精準(zhǔn)、專業(yè)的回答。
    的頭像 發(fā)表于 05-06 11:22 ?506次閱讀

    能源管理體系:助力實現(xiàn)碳達峰、碳中和

    通過標(biāo)準(zhǔn)、規(guī)范化的不懈努力,我們確保每一個細節(jié)、每一項操作都精益求精,為企業(yè)逐步鍛造出一個自我約束、自我優(yōu)化的能源利用與節(jié)約機制。
    的頭像 發(fā)表于 04-12 13:43 ?251次閱讀
    能源管理體系:助力實現(xiàn)碳達峰、碳中和

    軟通咨詢攜手普元電力,共繪企業(yè)規(guī)范化管理與人才發(fā)展新篇章

    在數(shù)字浪潮的變革中,企業(yè)規(guī)范化管理與人才發(fā)展日益成為行業(yè)關(guān)注的焦點問題。3月25日,普元電力召開盛大的績效項目啟動會,軟通咨詢作為普元電力績效項目的合作伙伴受邀出席。
    的頭像 發(fā)表于 03-27 09:42 ?324次閱讀

    數(shù)字電能表校準(zhǔn)規(guī)范

    電子發(fā)燒友網(wǎng)站提供《數(shù)字電能表校準(zhǔn)規(guī)范.pdf》資料免費下載
    發(fā)表于 01-15 09:09 ?0次下載

    強強聯(lián)合!國辰智企助推速捷電梯信息升級

    ,不遺余力的幫助速捷電梯信息管理在電梯設(shè)計方面提升企業(yè)管理水平,實現(xiàn)辦公管理規(guī)范化和信息規(guī)范化,降低企業(yè)運行成本,為速捷電梯的全面信息管理鋪磚引路,也充分體現(xiàn)了速捷電梯對國辰智企的
    的頭像 發(fā)表于 01-08 10:52 ?601次閱讀

    商湯牽頭制定的兩項AR國家標(biāo)準(zhǔn)下達,推動行業(yè)大規(guī)模、規(guī)范化應(yīng)用

    移動設(shè)備增強現(xiàn)實系統(tǒng)應(yīng)用接口》正式下達。 推動移動設(shè)備增強現(xiàn)實大規(guī)模、規(guī)范化應(yīng)用 商湯科技一直致力于增強現(xiàn)實標(biāo)準(zhǔn)化工作,在國家標(biāo)準(zhǔn)層面,作為增強現(xiàn)實國家標(biāo)準(zhǔn)研究組副組長單位,持續(xù)推動增強現(xiàn)實標(biāo)準(zhǔn)體系建設(shè)。 其中,《信息技
    的頭像 發(fā)表于 12-27 15:35 ?654次閱讀
    商湯牽頭制定的兩項AR國家標(biāo)準(zhǔn)下達,推動行業(yè)大規(guī)模、<b class='flag-5'>規(guī)范化</b>應(yīng)用

    醫(yī)療廢物管理系統(tǒng)提高醫(yī)廢規(guī)范化管理

    醫(yī)療廢物管理系統(tǒng)提高醫(yī)廢規(guī)范化管理 醫(yī)療廢物是引起疾病傳播或相關(guān)公共衛(wèi)生問題的重要危險性因素。我國衛(wèi)生部明確規(guī)定,醫(yī)院里的醫(yī)療廢物必須封閉存儲、定點存放、專人運輸,醫(yī)療廢物必須進行焚燒處理,以確保
    的頭像 發(fā)表于 11-22 16:29 ?325次閱讀
    醫(yī)療廢物管理系統(tǒng)提高醫(yī)廢<b class='flag-5'>規(guī)范化</b>管理

    python窗口文本框怎么限制行數(shù)

    在 Python 中,你可以使用 Tkinter 模塊來創(chuàng)建窗口和文本框。要限制文本框的行數(shù),可以使用 Text 組件的相關(guān)方法和屬性。下面是一個示例代碼,詳細說明如何限制文本框的行數(shù)
    的頭像 發(fā)表于 11-22 10:32 ?640次閱讀

    小場景電源及配套配置標(biāo)準(zhǔn)規(guī)范

    電子發(fā)燒友網(wǎng)站提供《小場景電源及配套配置標(biāo)準(zhǔn)規(guī)范.pdf》資料免費下載
    發(fā)表于 11-13 14:23 ?0次下載
    小場景電源及配套配置標(biāo)準(zhǔn)<b class='flag-5'>化</b><b class='flag-5'>規(guī)范</b>