99在线精品视频高潮喷吹,老汉色老汉首页a亚洲尤尤色

目前，谷歌的各種語音搜索應用還在使用傳統(tǒng)的自動語音識別（ASR）系統(tǒng)，它包括一個包括聲學模型（AM ）、一個發(fā)音模型（PM）和一個語言模型（LM），它們都是彼此獨立訓練的，而且需要研究人員在不同數(shù)據(jù)集上進行手動調(diào)試。例如，當聲學模型采集到一些聲波特征，它會參考上下文中的音素，有時甚至是一些無關(guān)的音素來生成一系列subword單元預測。之后，發(fā)音模型會在手工設計的詞典中為預測音素映射序列，最后再由語言模型根據(jù)序列概率分配單詞。

和聯(lián)合訓練所有組件相比，這種對各模型進行獨立訓練其實是一種次優(yōu)的選擇，它會使整個過程更復雜。在過去幾年中，端對端系統(tǒng)開發(fā)越來越受歡迎，它們的思路是把這些獨立的組件組合成一個單一系統(tǒng)共同學習，但一個不可忽視的事實是，雖然端對端模型在論文中表現(xiàn)出了一定的希望，但沒人真正確定它們比傳統(tǒng)的做法效果更優(yōu)。

為了驗證這一點，近日，谷歌推薦了一篇由Google Brain Team發(fā)表的新論文：State-of-the-art Speech Recognition With Sequence-to-Sequence Models，介紹了一種新的、在性能上超越傳統(tǒng)做法的端對端語音識別模型。論文顯示，相較于現(xiàn)在最先進的語音識別工具，谷歌新模型的字錯誤率（WER）只有5.6%，比前者的6.7％提升了16%。此外，在沒有任何預測評分的前提下，用于輸出初始字假設的端對端模型在體量上是傳統(tǒng)工具的十八分之一，因為它不包含獨立的語言模型和發(fā)音模型。

這個新模型的系統(tǒng)建立在Listen-Attend-Spell（LAS）端到端體系結(jié)構(gòu)上，該結(jié)構(gòu)由3部分組成，其中Listen組件的編碼器和標準聲學模型類似，把時頻語音信號x作為輸入，并用一組神經(jīng)網(wǎng)絡層將輸入映射為一個高水平的表征henc。Attend接收前者編碼器的輸出，并用henc來學習輸入x和預測subword單元{yn, … y0}之間的對齊。其中每個subword單元通常是字形或詞形。組合，Attend組件將輸出傳輸給Spell組件（解碼器），它類似語言模型，能產(chǎn)生一組預測字詞的概率分布。

不同于傳統(tǒng)的獨立訓練，LAS的所有組件都在一個單一的端到端神經(jīng)網(wǎng)絡中聯(lián)合訓練，這意味著它更簡單方便。此外，由于LAS是一個徹底的神經(jīng)網(wǎng)絡，所以它不需要外部增設手工組件，例如有窮狀態(tài)轉(zhuǎn)移機、lexicon或TN模型。最后，LAS不需要像傳統(tǒng)模型一樣用單獨系統(tǒng)生成的決策樹或time alignment來做Bootstrap，它可以在給定文本轉(zhuǎn)錄和相對應音頻資料的情況下直接訓練。

在論文中，谷歌大腦團隊還介紹他們在LAS中引入各類新穎的結(jié)構(gòu)對神經(jīng)網(wǎng)絡做了調(diào)整，包括改進傳遞給解碼器的attention vector，以及用更長的subword單元對網(wǎng)絡進行訓練（如wordpiece）。他們也用了大量優(yōu)化訓練方法，其中就有使用最低錯詞率進行訓練。這些創(chuàng)新都是端到端模型較傳統(tǒng)性能提升16%的原因。

這項研究另一個值得興奮的點是多方言和多語言系統(tǒng)，這可能開啟一些潛在應用，由于它是一個經(jīng)優(yōu)化的單個神經(jīng)網(wǎng)絡，模型的簡單性使它獨具吸引力。在LAS中，研究人員可以將所有方言、語言數(shù)據(jù)整合在一起進行訓練，而無需針對各個類別單獨設置AM、PM和LM。據(jù)論文介紹，經(jīng)測試，谷歌的這個模型在7種英語方言、9種印度語言上表現(xiàn)良好，并超越了對照組的單獨訓練模型。

雖然這個數(shù)據(jù)結(jié)果令人興奮，但這暫時還不是一個真正成熟的工作，因為它還不能實時處理語音，而這是它被用于語音搜索的一個重大前提。此外，這些模型生成的數(shù)據(jù)和實際數(shù)據(jù)仍存在不小的差距，它們只學習了22000個音頻文本對話，在語料庫數(shù)據(jù)積累上遠比不上傳統(tǒng)方法。當面對一些罕見的詞匯時，比如一些人工設計的專業(yè)名詞、專有名詞，端到端模型還不能正確編寫。因此，為了讓它們能更實用、適用，谷歌大腦的科學家們未來仍將面臨諸多問題。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6080

瀏覽量
104350
語音識別

語音識別

+關(guān)注

關(guān)注
38

文章
1696

瀏覽量
112247
語音搜索

語音搜索

+關(guān)注

關(guān)注
0

文章
5

瀏覽量
7807

原文標題：谷歌大腦發(fā)力語音搜索：一個用于語音識別的端到端模型

文章出處：【微信號：jqr_AI，微信公眾號：論智】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

手機語音識別應用中DSP該怎么選擇？

　　隨著DSP技術(shù)的進步，計算能力更強、功耗更低和體積更小的DSP已經(jīng)出現(xiàn)，使3G手機上植入更精確更復雜的自動語音識別(ASR)功能成為可能。目前，基本

發(fā)表于 09-02 07:03

自動語音識別的原理是什么？

自動語音識別的原理是什么？如何利用WaveNet實現(xiàn)自動語音識別？

發(fā)表于 06-15 09:14

TWEN-ASR ONE 語音識別系列教程（1）——運行第一個語音程序

文章目錄前言一、TWEN-ASR開發(fā)板介紹二、程序編寫、下載、調(diào)試三、運行測試四、總結(jié)前言????語音識別這個詞，相信大家都不陌生，現(xiàn)在流行的智能音箱基本都有語音

發(fā)表于 06-16 18:10

HarmonyOS開發(fā)-語音識別

1. 在使用語音識別API時，將實現(xiàn)ASR的相關(guān)的類添加至工程。// 提供ASR引擎執(zhí)行時所需要傳入的參數(shù)類import ohos.ai.asr

發(fā)表于 03-22 09:54

語音識別技術(shù)原理簡介

語音識別技術(shù)原理簡介自動語音識別技術(shù)(Auto

發(fā)表于 03-06 10:38 ?1.1w次閱讀

語音識別技術(shù),語音識別技術(shù)是什么意思

語音識別技術(shù),語音識別技術(shù)是什么意思　語音識別技術(shù)，也被稱為

發(fā)表于 03-06 11:16 ?2818次閱讀

語音識別技術(shù)是什么_語音識別技術(shù)應用領(lǐng)域介紹

語音識別技術(shù)，也被稱為自動語音識別（ASR），其目標是將人類的

發(fā)表于 01-02 18:36 ?1.7w次閱讀

ASR語音識別技術(shù)的介紹應用和優(yōu)勢及實際案例分析

ASR（Automatic Speech Recognition）自動語音識別技術(shù)是基于關(guān)鍵詞語列表識別的技術(shù)。每次

發(fā)表于 10-17 08:00 ?30次下載

對于語音識別技術(shù)你了解多少呢

語音識別技術(shù)（Automatic Speech Recognition，ASR）的功能是將人類語音中的詞匯內(nèi)容以按鍵、二進制編碼或字符序列轉(zhuǎn)換為計算機可讀的輸入信息。

發(fā)表于 08-29 10:32 ?1300次閱讀

ASR語音技術(shù)的原理以及未來發(fā)展趨勢分析

自動語音識別(ASR)是一種將口語轉(zhuǎn)換為文本的過程。該技術(shù)正在不斷應用于即時通訊應用程序、搜索引擎、車載系統(tǒng)和家庭

發(fā)表于 03-21 10:35 ?3991次閱讀

語音識別技術(shù)概述

語音識別技術(shù)，也被稱為自動語音識別AutomaTIc Speech RecogniTIon，(ASR

發(fā)表于 04-11 11:28 ?2w次閱讀

LU-ASR01語音識別模塊使用說明

模塊語音識別LU-ASR01智能控制聲控圖形編程零基開發(fā)板使用說明。

發(fā)表于 04-13 09:10 ?218次下載

探索自動語音識別技術(shù)的獨特應用

　　自動語音識別（ ASR ）正在成為日常生活的一部分，從與數(shù)字助理交互到聽寫文本信息。由于以下方面的最新進展， ASR 研究繼續(xù)取得進展：

發(fā)表于 10-11 09:55 ?823次閱讀

解決自動語音識別部署難題

成功部署自動語音識別（ ASR ）應用程序可能是令人沮喪的體驗。例如，考慮到存在許多不同的方言和發(fā)音， ASR

發(fā)表于 10-11 10:56 ?885次閱讀

什么是自動語音識別（ASR）？如何使用深度學習和GPU加速ASR

ASR 是自然語言中一項頗具挑戰(zhàn)性的任務，它由語音分割、聲學建模和語言建模等一系列子任務組成，根據(jù)噪聲和未分割的輸入數(shù)據(jù)形成預測（標簽序列）。

發(fā)表于 02-28 15:01 ?3672次閱讀

搜索歷史

對于谷歌應用傳統(tǒng)的自動語音識別（ASR）系統(tǒng)的解析

評論

手機語音識別應用中DSP該怎么選擇？

自動語音識別的原理是什么？

TWEN-ASR ONE 語音識別系列教程（1）——運行第一個語音程序

HarmonyOS開發(fā)-語音識別

語音識別技術(shù)原理簡介

語音識別技術(shù),語音識別技術(shù)是什么意思

語音識別技術(shù)是什么_語音識別技術(shù)應用領(lǐng)域介紹

ASR語音識別技術(shù)的介紹應用和優(yōu)勢及實際案例分析

對于語音識別技術(shù)你了解多少呢

ASR語音技術(shù)的原理以及未來發(fā)展趨勢分析

語音識別技術(shù)概述

LU-ASR01語音識別模塊使用說明

探索自動語音識別技術(shù)的獨特應用

解決自動語音識別部署難題

什么是自動語音識別（ASR）？如何使用深度學習和GPU加速ASR