东京热一区无码视频,亚洲w码欧洲s码免费,18HDXXXX国产在线麻豆

隨著科學技術(shù)的發(fā)展，語音作為新一代人機交互方式，成為人和智能設(shè)備、語音助手交流的重要接口，然而在真實環(huán)境中，語音信號不可避免的被各種噪聲所干擾，除了各種環(huán)境噪聲，聲波在封閉空間中的衰減和延時反射所引起的混響等都會影響語音的感知質(zhì)量，研究者將真實場景下影響語音質(zhì)量的因素總結(jié)為三個方面：環(huán)境噪聲、房間混響和其他說話人干擾，語音增強的目的就是消除上述三個方面的影響。語音增強是指利用音頻信號處理的技術(shù)以及算法提高失真語音信號的整體感知質(zhì)量或者可懂度。

語音去噪

深度學習在語音降噪中的應(yīng)用廣泛，根據(jù)處理語音的通道數(shù)不同，可以分為單通道降噪和多通道降噪，其中單通道語音的去噪由俄亥俄州立大學的汪德亮團隊提出的基于DNN-SVM算法，后來又相繼提出CRNN、DP-SARNN和Transformer等算法，Zhang等人[1]人提出了雙分支神經(jīng)網(wǎng)絡(luò)DBNet同時在時域和頻域上解決語音增強的問題。而深度學習在多通道語音增強中常常結(jié)合空間信息或者傳統(tǒng)算法例如波束形成等實現(xiàn)去噪，例如具有代表性算法的基于掩蔽的波束形成技術(shù)[2]。利用深度學習進行語音去的算法一般包括非端到端語音降噪方法和端到端語音降噪算法。其中非端到端語音降噪的算法常用的處理方式有基于掩膜的方法和基于特征映射的方法。

基于深度學習非端到端語音去噪方法框圖

基于深度學習端到端語音去噪算法框圖

基于掩膜的語音增強

基于時頻掩蔽的語音增強方法將描述純凈語音與噪聲之間相互關(guān)系的時頻掩蔽作為學習目標，該方法假設(shè)純凈語音信號與噪聲之間有一定的獨立性，理想二值掩蔽（Ideal Binary Mask，IBM）是最初被引入語音增強的時頻掩蔽方法，該掩蔽方法通過判斷某個時頻單元內(nèi)語音與噪聲主導情況將連續(xù)的時頻單元離散化為0或1兩種狀態(tài)，IBM公式如下所示：

通過IBM的公式可以看出只有0、1兩種取值，可以一定程度提高語音質(zhì)量，但這種方法對于帶噪語音的處理過于簡單粗暴，會在處理過程中引入較大的噪聲。

基于語音和噪聲獨立假設(shè)的情況下，基于比值掩蔽的方法刻畫了時頻單元內(nèi)純凈語音能量和帶噪語音能量的比值，該類掩蔽方法中常用的有理想比值掩蔽（Ideal Ratio Mask，IRM）。IRM相較于IBM從離散的狀態(tài)值變?yōu)檫B續(xù)的狀態(tài)值，相較之下可以有效的提升語音的質(zhì)量和可懂度，但是缺點是利用帶噪語音的相位信息對純凈語音進行了重構(gòu)。

除了上述兩種掩蔽方法，仍然有許多的掩蔽方法，例如基于信號能量比值的理想幅度掩蔽（Ideal Amplitude Mask，IAM），考慮相位誤差的時頻掩蔽方法的相位敏感掩蔽（Phase Sensitive Mask，PSM），廣泛應(yīng)用的復(fù)數(shù)域的復(fù)數(shù)理想比率掩蔽（Complex Ideal Ratio Mask，cIRM）以及最佳比例掩膜（Optimal Ratio Mask，ORM）等等。這些掩蔽根據(jù)語音以及噪聲的幅度譜或者功率譜計算獲得，通過網(wǎng)絡(luò)計算得到估計掩蔽后，將帶噪語音信號與時頻掩蔽相乘得到純凈語音信號，進而得到干凈語音的時域波形。

基于特征映射的方法

基于特征映射的語音增強方法是通過網(wǎng)絡(luò)完成帶噪語音特征和干凈語音特征之間的映射關(guān)系，常見的特征映射包括目標幅度譜（TMS）、短時傅里葉變換幅度譜（STFT）等，通過帶噪語音估計純凈語音特征，將得到的譜圖與帶噪語音相位結(jié)合，從而得到語音波形。另外聲學特征也可以被用作特征映射深度學習的目標，例如Chen等人[3]探索了低信噪比下已經(jīng)被用作語音分離和語音增強的一系列特征的表現(xiàn)，包括了Mel域特征中的MFCC和DSCC，線性預(yù)測特征中的PLP特征和RASTA-PLP特征，gamma域中的GF特征、GFCC特征和GFMC特征，信號自相關(guān)域中的RAS-MFCC特征、AC-MFCC特征和PAC-MFCC特征，調(diào)制域中的GFB特征和AMS特征等。Wang等人[4]提出一種單聲道和多聲道語音增強的復(fù)數(shù)頻譜映射方法，利用DNN從帶噪信號中預(yù)測純凈語音的實部和虛部，并融合波束形成算法得到在 CHiME-4語音數(shù)據(jù)集上WER較好的性能提升。

基于端到端的方法

監(jiān)督語音增強大部分是在時頻域進行的，端到端的語音增強對原始時域波形信號直接進行處理，由于不依賴于頻域表示，避免了語音相位信息的丟失以及重構(gòu)增強語音時使用帶噪語音相位可能導致的性能下降問題，使得模型流程簡化。Ritwik Giri等人[5]提出了帶有注意力機制的U-Net應(yīng)用于語音增強，在VCTK數(shù)據(jù)集上測試多信噪比情況下PESQ、SSNR等評價指標都得到了提升。

語音去混響

混響語音為信號和房間沖激響應(yīng)（Room Impulse Response，RIR）的卷積，這會使得語音信號在時域和頻域都發(fā)生畸變，導致語音可懂度的下降。利用深度學習的混響消除算法包括三類算法，直接預(yù)測、間接預(yù)測和聯(lián)合傳統(tǒng)算法。

直接預(yù)測的方法為混響語音信號直接映射到純凈語音信號，間接預(yù)測的方法例如可以通過預(yù)測后期混響信號間接性得到目標語音信號，聯(lián)合傳統(tǒng)算法為將DNN與WPE等算法進行結(jié)合，通過網(wǎng)絡(luò)預(yù)測WPE算法中間參數(shù)從而去除迭代計算的操作。Han等人[6]在2014年首先提出了基于DNN的語音去混響方法，這種方法在耳蝸圖上使用譜映射，DNN被訓練成從混響語音幀映射到干凈語音幀。Zhao等人[7]通過LSTM預(yù)測語音信號晚期混響間接得到目標語音信號，Kinoshita K[8]通過LSTM網(wǎng)絡(luò)預(yù)測WPE算法中的中間參數(shù)進而實現(xiàn)混響消除。

語音增強作為語音識別中的一項核心關(guān)鍵技術(shù)，廣泛應(yīng)用在各種場景之中，國內(nèi)外研究人員針對語音增強提出了許多算法，深度學習的廣泛應(yīng)用也為來研究領(lǐng)域帶來了新的突破，但是語音增強領(lǐng)域仍然有許多問題，例如泛化性能、相位失真問題和低信噪比下的應(yīng)用效果不理想，未來的語音增強仍然充滿挑戰(zhàn)。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人機交互

人機交互

+關(guān)注

關(guān)注
12

文章
1192

瀏覽量
55181
噪聲

噪聲

+關(guān)注

關(guān)注
13

文章
1099

瀏覽量
47280
SVM

SVM

+關(guān)注

關(guān)注
0

文章
154

瀏覽量
32337
語音增強

語音增強

+關(guān)注

關(guān)注
0

文章
12

瀏覽量
8744
深度學習

深度學習

+關(guān)注

關(guān)注
73

文章
5422

瀏覽量
120590

原文標題：深度學習在語音增強中的應(yīng)用

文章出處：【微信號：硬件設(shè)計技術(shù)，微信公眾號：硬件設(shè)計技術(shù)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

深度學習在汽車中的應(yīng)用

神經(jīng)系統(tǒng)，因此支持人工智能的概念。圖 2：簡易反向傳播示例盡管深度學習具有效力，但其在實際應(yīng)用中也遇到了一些挑戰(zhàn)。對于容易受到系統(tǒng)限制因素（如總體成本、功耗和擴展計算能力）影響的嵌入式

發(fā)表于 03-13 06:45

深度學習中的圖片如何增強

深度學習中的圖片增強

發(fā)表于 05-28 07:03

深度學習在預(yù)測和健康管理中的應(yīng)用

深度學習在預(yù)測和健康管理中的應(yīng)用綜述摘要深度學習對預(yù)測和健康管理（PHM）引起了濃厚的興趣，因為

發(fā)表于 07-12 06:46

什么是深度學習？使用FPGA進行深度學習的好處？

) 來解決更復(fù)雜的問題，深度神經(jīng)網(wǎng)絡(luò)是一種將這些問題多層連接起來的更深層網(wǎng)絡(luò)。這稱為深度學習。目前，深度學習被用于現(xiàn)實世界

發(fā)表于 02-17 16:56

基于分層編碼的深度增強學習對話生成

回答的問題。該方法結(jié)合了分層編碼和增強學習技術(shù)，利用分層編碼來對多輪對話進行建模，在標準seq2seq的基礎(chǔ)上新增了中間層來加強對歷史對話語句的記憶，而后采用了語言模型來構(gòu)建獎勵函數(shù)，進而用增

發(fā)表于 11-25 11:53 ?1次下載

蘋果Siri深度學習語音合成技術(shù)揭秘

Siri 是一個使用語音合成技術(shù)與人類進行交流的個人助手。從 iOS 10 開始，蘋果已經(jīng)在 Siri 的語音中用到了深度學習，iOS 1

發(fā)表于 05-26 07:20 ?3230次閱讀

如何使用深度學習實現(xiàn)語音聲學模型的研究

的分析識別更是研究的重中之重。近年來深 10 度學習模型的廣泛發(fā)展和計算能力的大幅提升對語音識別技術(shù)的提升起到了關(guān)鍵作用。本文立足于語音識別與深度學

發(fā)表于 05-09 08:00 ?41次下載

深度學習在軌跡數(shù)據(jù)挖掘中的應(yīng)用研究綜述

深度學習在軌跡數(shù)據(jù)挖掘中的應(yīng)用研究綜述來源：《?計算機科學與應(yīng)用》?，作者李旭娟等摘要:? 在過去十年，深度

發(fā)表于 03-08 17:24 ?1828次閱讀

AI在汽車中的應(yīng)用：實用深度學習

AI在汽車中的應(yīng)用：實用深度學習

發(fā)表于 11-01 08:26 ?0次下載

基于深度學習的語音合成技術(shù)的進展與未來趨勢

近年來，深度學習技術(shù)在語音合成領(lǐng)域取得了顯著的進展?；?b class='flag-5'>深度學習的

發(fā)表于 09-16 14:48 ?825次閱讀

深度學習在語音識別中的應(yīng)用及挑戰(zhàn)

一、引言隨著深度學習技術(shù)的快速發(fā)展，其在語音識別領(lǐng)域的應(yīng)用也日益廣泛。深度學習技術(shù)可以有效地提

發(fā)表于 10-10 18:14 ?744次閱讀

基于深度學習的情感語音識別模型優(yōu)化策略

情感語音識別技術(shù)是一種將人類語音轉(zhuǎn)化為情感信息的技術(shù)，其應(yīng)用范圍涵蓋了人機交互、智能客服、心理健康監(jiān)測等多個領(lǐng)域。隨著人工智能技術(shù)的不斷發(fā)展，深度學習

發(fā)表于 11-09 16:34 ?496次閱讀

GPU在深度學習中的應(yīng)用與優(yōu)勢

人工智能的飛速發(fā)展，深度學習作為其重要分支，正在推動著諸多領(lǐng)域的創(chuàng)新。在這個過程中，GPU扮演著不可或缺的角色。就像超級英雄電影中的主角一樣，GPU

發(fā)表于 12-06 08:27 ?1090次閱讀

深度學習在視覺檢測中的應(yīng)用

能力，還使得機器能夠模仿人類的某些智能行為，如識別文字、圖像和聲音等。深度學習的引入，極大地推動了人工智能技術(shù)的發(fā)展，特別是在圖像識別、自然語言處理、語音識別等領(lǐng)域取得了顯著成果。

發(fā)表于 07-08 10:27 ?336次閱讀

深度學習中的無監(jiān)督學習方法綜述

深度學習作為機器學習領(lǐng)域的一個重要分支，近年來在多個領(lǐng)域取得了顯著的成果，特別是在圖像識別、語音

發(fā)表于 07-09 10:50 ?216次閱讀