91秦先生在线观看,久久久麻豆一区二区三区

在語音識別領(lǐng)域先進(jìn)的神經(jīng)網(wǎng)絡(luò)一般使用rnn來構(gòu)建聲學(xué)或者語言模型，并基于特征抽取的方式來進(jìn)行抽取梅爾濾波器特征或者倒譜系數(shù)。但在最近的研究工作中，F(xiàn)acebook的研究人員提出了完全基于卷積神經(jīng)網(wǎng)絡(luò)的全卷積語音識別模型，充分利用了在聲學(xué)模型和語言模型方面的最新進(jìn)展。這一全卷積神經(jīng)網(wǎng)絡(luò)通過端到端的訓(xùn)練可以直接從原始波形預(yù)測出語言字符，移除了特征抽取的過程。同時利用一個外部的卷積語言模型來進(jìn)行單詞解碼。這一模型在多個數(shù)據(jù)集上都取得了優(yōu)異的表現(xiàn)。

模型

整個模型由四部分組成，分別是卷積前端、聲學(xué)模型、語言模型和集束搜索的解碼器（Beam-search）組成，如下圖所示。

在可學(xué)習(xí)的前端中，原始音頻首先輸入到一個寬度為2的卷積中，用于模仿梅爾濾波器特征中的前處理步驟。隨后應(yīng)用了寬度為25ms的k復(fù)卷積濾波器。隨后利用平方取絕對值并通過低通濾波器，其寬度為25ms步長為10ms。最后利用對數(shù)壓縮，并對每個通道進(jìn)行了均方歸一化。緊隨其后的是聲學(xué)模型，包含了線性門的卷積神經(jīng)網(wǎng)絡(luò)，同時使用了dropout來實現(xiàn)正則化。這一模型的目的在于直接預(yù)測出字母。在隨后的語言模型中，研究人員利用了GCNN-14B，其中包含了14個卷積殘差模塊和逐漸增長的通道數(shù)，并利用了線性門控單元作為激活函數(shù)。語言模型的主要目的在于為備選的句子輸出打分，這一模型允許更大的上下文。最后，基于集束搜索的解碼器用于生成最合適的句子輸出。

其工作的過程在于最大化上面的表達(dá)式。

工具

這一模型的實現(xiàn)使用了Facebook最新開源的兩個工具：其中使用了wav2letter建立聲學(xué)模型，fairseq建立了語言模型。

fairseq 原理圖

同時推出的升級版深度學(xué)習(xí)自動語音識別工具框架wav2letter++，在之前wav2letter的基礎(chǔ)上進(jìn)行和很多的改進(jìn)和優(yōu)化。

wav2letter++ 工具包架構(gòu)

這一版的工具箱由C++實現(xiàn)，并利用了ArrayFire張量庫來提高了運(yùn)算效率。研究團(tuán)隊表示，在某些情況下wav2letter++在訓(xùn)練端到端的語音識別神經(jīng)網(wǎng)絡(luò)時將提速2倍。

wav2letter++ 與其他語言工具的性能比較

端到端的語音識別使得其在多語言上的大規(guī)模應(yīng)用變得可行。同時直接從原始音頻上進(jìn)行學(xué)習(xí)可以充分發(fā)揮高質(zhì)量音頻的效果。端到端的算法加上高效的工具框架，將有效促進(jìn)這一領(lǐng)域的研究，希望全卷積神經(jīng)網(wǎng)絡(luò)的語音識別和wav2letter工具為小伙伴們的研究帶來新的幫助。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4717

瀏覽量
100029
Facebook

Facebook

+關(guān)注

關(guān)注
3

文章
1429

瀏覽量
54479
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5422

瀏覽量
120598