0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度學習在語音增強中的應(yīng)用

硬件設(shè)計技術(shù) ? 來源:21dB聲學人 ? 2023-07-11 09:39 ? 次閱讀

隨著科學技術(shù)的發(fā)展,語音作為新一代人機交互方式,成為人和智能設(shè)備、語音助手交流的重要接口,然而在真實環(huán)境中,語音信號不可避免的被各種噪聲所干擾,除了各種環(huán)境噪聲,聲波在封閉空間中的衰減和延時反射所引起的混響等都會影響語音的感知質(zhì)量,研究者將真實場景下影響語音質(zhì)量的因素總結(jié)為三個方面:環(huán)境噪聲、房間混響和其他說話人干擾,語音增強的目的就是消除上述三個方面的影響。語音增強是指利用音頻信號處理的技術(shù)以及算法提高失真語音信號的整體感知質(zhì)量或者可懂度。

語音去噪

深度學習在語音降噪中的應(yīng)用廣泛,根據(jù)處理語音的通道數(shù)不同,可以分為單通道降噪和多通道降噪,其中單通道語音的去噪由俄亥俄州立大學的汪德亮團隊提出的基于DNN-SVM算法,后來又相繼提出CRNN、DP-SARNN和Transformer等算法,Zhang等人[1]人提出了雙分支神經(jīng)網(wǎng)絡(luò)DBNet同時在時域和頻域上解決語音增強的問題。而深度學習在多通道語音增強中常常結(jié)合空間信息或者傳統(tǒng)算法例如波束形成等實現(xiàn)去噪,例如具有代表性算法的基于掩蔽的波束形成技術(shù)[2]。利用深度學習進行語音去的算法一般包括非端到端語音降噪方法和端到端語音降噪算法。其中非端到端語音降噪的算法常用的處理方式有基于掩膜的方法和基于特征映射的方法。

wKgaomSssumAdMjCAAKdnojtLxQ359.jpg

基于深度學習非端到端語音去噪方法框圖

wKgaomSssumAdmrLAAEd60Q59jg171.jpg

基于深度學習端到端語音去噪算法框圖

基于掩膜的語音增強

基于時頻掩蔽的語音增強方法將描述純凈語音與噪聲之間相互關(guān)系的時頻掩蔽作為學習目標,該方法假設(shè)純凈語音信號與噪聲之間有一定的獨立性,理想二值掩蔽(Ideal Binary Mask,IBM)是最初被引入語音增強的時頻掩蔽方法,該掩蔽方法通過判斷某個時頻單元內(nèi)語音與噪聲主導情況將連續(xù)的時頻單元離散化為0或1兩種狀態(tài),IBM公式如下所示:

wKgZomSssumAbW9UAAANXR79q2Q738.jpg

通過IBM的公式可以看出只有0、1兩種取值,可以一定程度提高語音質(zhì)量,但這種方法對于帶噪語音的處理過于簡單粗暴,會在處理過程中引入較大的噪聲。

基于語音和噪聲獨立假設(shè)的情況下,基于比值掩蔽的方法刻畫了時頻單元內(nèi)純凈語音能量和帶噪語音能量的比值,該類掩蔽方法中常用的有理想比值掩蔽(Ideal Ratio Mask,IRM)。IRM相較于IBM從離散的狀態(tài)值變?yōu)檫B續(xù)的狀態(tài)值,相較之下可以有效的提升語音的質(zhì)量和可懂度,但是缺點是利用帶噪語音的相位信息對純凈語音進行了重構(gòu)。

除了上述兩種掩蔽方法,仍然有許多的掩蔽方法,例如基于信號能量比值的理想幅度掩蔽(Ideal Amplitude Mask,IAM),考慮相位誤差的時頻掩蔽方法的相位敏感掩蔽(Phase Sensitive Mask,PSM),廣泛應(yīng)用的復(fù)數(shù)域的復(fù)數(shù)理想比率掩蔽(Complex Ideal Ratio Mask,cIRM)以及最佳比例掩膜(Optimal Ratio Mask,ORM)等等。這些掩蔽根據(jù)語音以及噪聲的幅度譜或者功率譜計算獲得,通過網(wǎng)絡(luò)計算得到估計掩蔽后,將帶噪語音信號與時頻掩蔽相乘得到純凈語音信號,進而得到干凈語音的時域波形。

基于特征映射的方法

基于特征映射的語音增強方法是通過網(wǎng)絡(luò)完成帶噪語音特征和干凈語音特征之間的映射關(guān)系,常見的特征映射包括目標幅度譜(TMS)、短時傅里葉變換幅度譜(STFT)等,通過帶噪語音估計純凈語音特征,將得到的譜圖與帶噪語音相位結(jié)合,從而得到語音波形。另外聲學特征也可以被用作特征映射深度學習的目標,例如Chen等人[3]探索了低信噪比下已經(jīng)被用作語音分離和語音增強的一系列特征的表現(xiàn),包括了Mel域特征中的MFCC和DSCC,線性預(yù)測特征中的PLP特征和RASTA-PLP特征,gamma域中的GF特征、GFCC特征和GFMC特征,信號自相關(guān)域中的RAS-MFCC特征、AC-MFCC特征和PAC-MFCC特征,調(diào)制域中的GFB特征和AMS特征等。Wang等人[4]提出一種單聲道和多聲道語音增強的復(fù)數(shù)頻譜映射方法,利用DNN從帶噪信號中預(yù)測純凈語音的實部和虛部,并融合波束形成算法得到在 CHiME-4語音數(shù)據(jù)集上WER較好的性能提升。

基于端到端的方法

監(jiān)督語音增強大部分是在時頻域進行的,端到端的語音增強對原始時域波形信號直接進行處理,由于不依賴于頻域表示,避免了語音相位信息的丟失以及重構(gòu)增強語音時使用帶噪語音相位可能導致的性能下降問題,使得模型流程簡化。Ritwik Giri等人[5]提出了帶有注意力機制的U-Net應(yīng)用于語音增強,在VCTK數(shù)據(jù)集上測試多信噪比情況下PESQ、SSNR等評價指標都得到了提升。

語音去混響

混響語音為信號和房間沖激響應(yīng)(Room Impulse Response,RIR)的卷積,這會使得語音信號在時域和頻域都發(fā)生畸變,導致語音可懂度的下降。利用深度學習的混響消除算法包括三類算法,直接預(yù)測、間接預(yù)測和聯(lián)合傳統(tǒng)算法。

wKgZomSssumAHfOVAAK7UeQgJos295.jpg

直接預(yù)測的方法為混響語音信號直接映射到純凈語音信號,間接預(yù)測的方法例如可以通過預(yù)測后期混響信號間接性得到目標語音信號,聯(lián)合傳統(tǒng)算法為將DNN與WPE等算法進行結(jié)合,通過網(wǎng)絡(luò)預(yù)測WPE算法中間參數(shù)從而去除迭代計算的操作。Han等人[6]在2014年首先提出了基于DNN的語音去混響方法,這種方法在耳蝸圖上使用譜映射,DNN被訓練成從混響語音幀映射到干凈語音幀。Zhao等人[7]通過LSTM預(yù)測語音信號晚期混響間接得到目標語音信號,Kinoshita K[8]通過LSTM網(wǎng)絡(luò)預(yù)測WPE算法中的中間參數(shù)進而實現(xiàn)混響消除。

語音增強作為語音識別中的一項核心關(guān)鍵技術(shù),廣泛應(yīng)用在各種場景之中,國內(nèi)外研究人員針對語音增強提出了許多算法,深度學習的廣泛應(yīng)用也為來研究領(lǐng)域帶來了新的突破,但是語音增強領(lǐng)域仍然有許多問題,例如泛化性能、相位失真問題和低信噪比下的應(yīng)用效果不理想,未來的語音增強仍然充滿挑戰(zhàn)。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人機交互
    +關(guān)注

    關(guān)注

    12

    文章

    1192

    瀏覽量

    55181
  • 噪聲
    +關(guān)注

    關(guān)注

    13

    文章

    1099

    瀏覽量

    47280
  • SVM
    SVM
    +關(guān)注

    關(guān)注

    0

    文章

    154

    瀏覽量

    32337
  • 語音增強
    +關(guān)注

    關(guān)注

    0

    文章

    12

    瀏覽量

    8744
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5422

    瀏覽量

    120590

原文標題:深度學習在語音增強中的應(yīng)用

文章出處:【微信號:硬件設(shè)計技術(shù),微信公眾號:硬件設(shè)計技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    深度學習汽車的應(yīng)用

    神經(jīng)系統(tǒng),因此支持人工智能的概念。圖 2:簡易反向傳播示例盡管深度學習具有效力,但其實際應(yīng)用也遇到了一些挑戰(zhàn)。對于容易受到系統(tǒng)限制因素(如總體成本、功耗和擴展計算能力)影響的嵌入式
    發(fā)表于 03-13 06:45

    深度學習的圖片如何增強

    深度學習的圖片增強
    發(fā)表于 05-28 07:03

    深度學習預(yù)測和健康管理的應(yīng)用

    深度學習預(yù)測和健康管理的應(yīng)用綜述摘要深度學習對預(yù)測和健康管理(PHM)引起了濃厚的興趣,因為
    發(fā)表于 07-12 06:46

    什么是深度學習?使用FPGA進行深度學習的好處?

    ) 來解決更復(fù)雜的問題,深度神經(jīng)網(wǎng)絡(luò)是一種將這些問題多層連接起來的更深層網(wǎng)絡(luò)。這稱為深度學習。目前,深度學習被用于現(xiàn)實世界
    發(fā)表于 02-17 16:56

    基于分層編碼的深度增強學習對話生成

    回答的問題。該方法結(jié)合了分層編碼和增強學習技術(shù),利用分層編碼來對多輪對話進行建模,標準seq2seq的基礎(chǔ)上新增了中間層來加強對歷史對話語句的記憶,而后采用了語言模型來構(gòu)建獎勵函數(shù),進而用
    發(fā)表于 11-25 11:53 ?1次下載

    蘋果Siri深度學習語音合成技術(shù)揭秘

    Siri 是一個使用語音合成技術(shù)與人類進行交流的個人助手。從 iOS 10 開始,蘋果已經(jīng) Siri 的語音中用到了深度學習,iOS 1
    發(fā)表于 05-26 07:20 ?3230次閱讀
    蘋果Siri<b class='flag-5'>深度</b><b class='flag-5'>學習語音</b>合成技術(shù)揭秘

    如何使用深度學習實現(xiàn)語音聲學模型的研究

    的分析識別更是研究的重中之重。近年來深 10 度學習模型的廣泛發(fā)展和計算能力的大幅提升對語音識別技術(shù)的提升起到了關(guān)鍵作用。本文立足于語音識別與深度
    發(fā)表于 05-09 08:00 ?41次下載
    如何使用<b class='flag-5'>深度</b><b class='flag-5'>學習</b>實現(xiàn)<b class='flag-5'>語音</b>聲學模型的研究

    深度學習軌跡數(shù)據(jù)挖掘的應(yīng)用研究綜述

    深度學習軌跡數(shù)據(jù)挖掘的應(yīng)用研究綜述 來源:《?計算機科學與應(yīng)用》?,作者 李旭娟 等 摘要:? 在過去十年,深度
    發(fā)表于 03-08 17:24 ?1828次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學習</b><b class='flag-5'>在</b>軌跡數(shù)據(jù)挖掘<b class='flag-5'>中</b>的應(yīng)用研究綜述

    AI汽車的應(yīng)用:實用深度學習

    AI汽車的應(yīng)用:實用深度學習
    發(fā)表于 11-01 08:26 ?0次下載
    AI<b class='flag-5'>在</b>汽車<b class='flag-5'>中</b>的應(yīng)用:實用<b class='flag-5'>深度</b><b class='flag-5'>學習</b>

    基于深度學習語音合成技術(shù)的進展與未來趨勢

    近年來,深度學習技術(shù)語音合成領(lǐng)域取得了顯著的進展?;?b class='flag-5'>深度學習
    的頭像 發(fā)表于 09-16 14:48 ?825次閱讀

    深度學習語音識別的應(yīng)用及挑戰(zhàn)

    一、引言 隨著深度學習技術(shù)的快速發(fā)展,其語音識別領(lǐng)域的應(yīng)用也日益廣泛。深度學習技術(shù)可以有效地提
    的頭像 發(fā)表于 10-10 18:14 ?744次閱讀

    基于深度學習的情感語音識別模型優(yōu)化策略

    情感語音識別技術(shù)是一種將人類語音轉(zhuǎn)化為情感信息的技術(shù),其應(yīng)用范圍涵蓋了人機交互、智能客服、心理健康監(jiān)測等多個領(lǐng)域。隨著人工智能技術(shù)的不斷發(fā)展,深度學習
    的頭像 發(fā)表于 11-09 16:34 ?496次閱讀

    GPU深度學習的應(yīng)用與優(yōu)勢

    人工智能的飛速發(fā)展,深度學習作為其重要分支,正在推動著諸多領(lǐng)域的創(chuàng)新。在這個過程,GPU扮演著不可或缺的角色。就像超級英雄電影的主角一樣,GPU
    的頭像 發(fā)表于 12-06 08:27 ?1090次閱讀
    GPU<b class='flag-5'>在</b><b class='flag-5'>深度</b><b class='flag-5'>學習</b><b class='flag-5'>中</b>的應(yīng)用與優(yōu)勢

    深度學習視覺檢測的應(yīng)用

    能力,還使得機器能夠模仿人類的某些智能行為,如識別文字、圖像和聲音等。深度學習的引入,極大地推動了人工智能技術(shù)的發(fā)展,特別是圖像識別、自然語言處理、語音識別等領(lǐng)域取得了顯著成果。
    的頭像 發(fā)表于 07-08 10:27 ?336次閱讀

    深度學習的無監(jiān)督學習方法綜述

    深度學習作為機器學習領(lǐng)域的一個重要分支,近年來多個領(lǐng)域取得了顯著的成果,特別是圖像識別、語音
    的頭像 發(fā)表于 07-09 10:50 ?216次閱讀