0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于語(yǔ)音增強(qiáng)技術(shù)的介紹和應(yīng)用

貿(mào)澤電子 ? 來(lái)源:djl ? 作者:貿(mào)澤電子 ? 2019-08-20 17:33 ? 次閱讀

在嘈雜的環(huán)境中,對(duì)于手機(jī)、可穿戴設(shè)備和其它智能設(shè)備來(lái)說(shuō)聲音隔離技術(shù)能夠提升語(yǔ)音增強(qiáng)和識(shí)別準(zhǔn)確度

聲音或語(yǔ)音用戶接口在手機(jī)、平板電腦、可穿戴設(shè)備和其它智能設(shè)備上變得越來(lái)越普遍和重要,因?yàn)檫@項(xiàng)技術(shù)確實(shí)讓這些設(shè)備不需要再設(shè)計(jì)鍵盤或者觸摸屏。為了能夠提供更精確的語(yǔ)音處理過(guò)程,系統(tǒng)在設(shè)計(jì)時(shí)必須要保證對(duì)語(yǔ)音正確可靠的識(shí)別,即使在復(fù)雜的噪聲環(huán)境條件中。

目前已經(jīng)有數(shù)百萬(wàn)人已經(jīng)依賴自動(dòng)語(yǔ)音識(shí)別技術(shù)來(lái)將語(yǔ)音轉(zhuǎn)換為文字來(lái)編寫文檔和生成文本。然而自動(dòng)語(yǔ)音識(shí)別的質(zhì)量主要依賴于一些最優(yōu)條件,比如假設(shè)每個(gè)人說(shuō)話的方式與聲音訓(xùn)練數(shù)據(jù)非常類似,講話處在安靜的環(huán)境中避免噪聲干擾,即使這樣也需要工作人員來(lái)修改文字錯(cuò)誤、標(biāo)點(diǎn)以及語(yǔ)法錯(cuò)誤,此外還可能存在其他類型的翻譯錯(cuò)誤。語(yǔ)音技術(shù)的持續(xù)改進(jìn)對(duì)于提升設(shè)備對(duì)人類語(yǔ)言的識(shí)別準(zhǔn)確度非常有必要,在手機(jī)、智能設(shè)備應(yīng)用以及諸如汽車這樣的噪聲環(huán)境下語(yǔ)音識(shí)別技術(shù)的效果對(duì)其能否成功至關(guān)重要。

圖1:噪聲環(huán)境下聲音隔離技術(shù)提升設(shè)備的語(yǔ)音增強(qiáng)和識(shí)別效果(來(lái)源:安森美半導(dǎo)體

語(yǔ)音增強(qiáng)是基于聲音隔離和噪聲抑制技術(shù),本篇文章主要介紹聲音隔離技術(shù),實(shí)現(xiàn)噪聲剔除和語(yǔ)音增強(qiáng),因此下面只對(duì)噪聲抑制做了簡(jiǎn)要介紹。

噪聲抑制技術(shù)能夠幫助去除不同類型的背景噪聲,防止干擾語(yǔ)音識(shí)別。噪聲的顯著特征主要體現(xiàn)在時(shí)間域和頻域,時(shí)間域的噪聲包括連續(xù)、斷續(xù)和脈沖型的噪聲,頻域噪聲包括寬頻帶和窄頻帶噪聲。辦公室和交通的聲音、操作設(shè)備的聲音和嘶嘶聲是典型的連續(xù)型噪聲,這類噪聲變化非常慢。非連續(xù)型噪聲是重復(fù)的噪聲,比如喇叭或者鈴鐺的聲音。脈沖式的噪聲通常比較生硬如點(diǎn)擊和重?fù)舻穆曇?。寬頻噪聲如嘶嘶聲可能有不同的頻率,窄頻噪聲的發(fā)生往往在一定的頻率范圍內(nèi),包括正弦波、嗡嗡聲和機(jī)器噪聲。

工程師們已經(jīng)嘗試了各種濾波技術(shù),每種技術(shù)會(huì)對(duì)不同類型的噪聲都有一定的積極作用。然而每種噪聲的特性會(huì)隨著時(shí)間有些改變,工程師可能也需要采用自適應(yīng)算法來(lái)動(dòng)態(tài)匹配噪聲的變化,一些噪聲剔除技術(shù)的例子包括頻率補(bǔ)償、脈沖過(guò)濾、自適應(yīng)寬頻濾波、自適應(yīng)逆向?yàn)V波和立體濾波等。

認(rèn)識(shí)聲音隔離技術(shù)

聲音隔離是提升語(yǔ)音識(shí)別度的一種新型方法,傳統(tǒng)的方式是屏蔽和過(guò)濾不同的噪聲,聲音隔離技術(shù)則側(cè)重于鑒別人語(yǔ)音的某種具體特征來(lái)判定和傳輸有效的語(yǔ)音,從而過(guò)濾掉背景噪聲。聲音隔離技術(shù)能夠顯著提升語(yǔ)音的清晰度和識(shí)別度,即使在噪聲環(huán)境中。為了能夠可靠的鑒別人語(yǔ)音的部分,聲音隔離系統(tǒng)需要采用聲學(xué)和語(yǔ)言模型,這里向大家介紹了兩種目前嵌入式設(shè)計(jì)中采用的建模方法。第一種是深度神經(jīng)網(wǎng)絡(luò)算法,第二種是耳蝸仿真,即模擬人聽(tīng)力系統(tǒng)從內(nèi)耳到大腦的行為。

采用深度神經(jīng)網(wǎng)絡(luò)的方法需要一個(gè)大型數(shù)據(jù)庫(kù),包含數(shù)百小時(shí)以上的噪聲和語(yǔ)音,用于訓(xùn)練算法系統(tǒng)。起初在這個(gè)數(shù)據(jù)庫(kù)對(duì)語(yǔ)音沒(méi)有概念,通過(guò)大量的訓(xùn)練開(kāi)始學(xué)習(xí)鑒別人類不同的語(yǔ)音模式,聲音隔離的質(zhì)量包括能夠判定不同聲音的來(lái)源,通過(guò)兩個(gè)或者更多的麥克風(fēng)來(lái)采集音頻數(shù)據(jù)能夠提升其效果,這個(gè)網(wǎng)絡(luò)甚至能夠訓(xùn)練識(shí)別是誰(shuí)在發(fā)聲、何時(shí)在發(fā)聲等效果。

數(shù)據(jù)庫(kù)包含的信息會(huì)被用來(lái)創(chuàng)建小型快速算法,然后移植到目標(biāo)數(shù)字信號(hào)處理器DSP)上來(lái)執(zhí)行實(shí)現(xiàn)語(yǔ)音的監(jiān)測(cè)和分類。根據(jù)數(shù)據(jù)庫(kù)中存儲(chǔ)的信息開(kāi)發(fā)出來(lái)的自適應(yīng)算法的組合就被稱為神經(jīng)網(wǎng)絡(luò)。

神經(jīng)網(wǎng)絡(luò)算法會(huì)將輸入的聲音進(jìn)行分解,對(duì)不同的聲音分段來(lái)分析來(lái)判定人不同的語(yǔ)音模式,神經(jīng)網(wǎng)絡(luò)會(huì)分析聲音段的不同特征包括頻率、諧波、“攻擊”和衰減特性,從而從環(huán)境聲音中區(qū)分出語(yǔ)音。神經(jīng)網(wǎng)絡(luò)會(huì)基于音頻采樣率來(lái)權(quán)衡性能,低采樣率需要的處理更少當(dāng)然精確度也會(huì)低,越高的采樣率越精確,當(dāng)然計(jì)算處理過(guò)程也更復(fù)雜。

不同的濾波算法用于聲波紋識(shí)別同時(shí)移除不想要的音頻部分,多通濾波器的使用會(huì)更有效的過(guò)濾同時(shí)能夠恢復(fù)任何丟失的音頻部分。在后處理階段通過(guò)設(shè)置不同的算法參數(shù),聲音能夠被一定程度的優(yōu)化適合人的聽(tīng)力系統(tǒng)或者用于語(yǔ)音識(shí)別系統(tǒng),這非常重要因?yàn)槿祟惡驼Z(yǔ)音識(shí)別系統(tǒng)采用不同的語(yǔ)音解析方式。

耳蝸仿真

這種聲音隔離方法采用DSP平臺(tái)運(yùn)行計(jì)算機(jī)聽(tīng)覺(jué)場(chǎng)景分析(CASA)算法來(lái)模擬人類聽(tīng)覺(jué)系統(tǒng)將語(yǔ)音從噪聲環(huán)境中提取出來(lái)。這種方式會(huì)對(duì)音頻信息進(jìn)行編碼從而實(shí)現(xiàn)分組和解析。目前有幾十種分組依據(jù)涉及時(shí)間和頻率相關(guān),包括音高、空間位置和起始/結(jié)束時(shí)間。

音高是一個(gè)非常重要的分組依據(jù),它根據(jù)不同的諧波模式來(lái)鑒別某種聲音的唯一特征。當(dāng)采用兩個(gè)或者多個(gè)麥克風(fēng)時(shí),聲音隔離系統(tǒng)可以根據(jù)空間位置信息來(lái)確定每個(gè)麥克風(fēng)聲音的方向和距離。CASA建模方式使得聲音隔離系統(tǒng)實(shí)現(xiàn)“雞尾酒會(huì)效應(yīng)”,讓系統(tǒng)能夠集中于某一聲音源,比如某個(gè)特定的人,并且屏蔽掉背景聲音。起始/停止時(shí)間分組指的是某一聲音成分開(kāi)始出現(xiàn)和停止的時(shí)刻,這些數(shù)據(jù)與原始的頻率數(shù)據(jù)合并時(shí)就能夠判斷是否來(lái)自同一聲音源。

圖2:各種聲音隔離方法被采用實(shí)現(xiàn)所謂的“雞尾酒會(huì)效應(yīng)”,即屏蔽掉一系列噪聲集中識(shí)別某一特定的聲音源。

具有相似屬性的聲音會(huì)形成同一音頻流,同樣的,不同的屬性的會(huì)形成各自的音頻流。這個(gè)系統(tǒng)就可以采用這些不同的音頻流來(lái)鑒別持續(xù)或者重復(fù)的聲源。一旦有了足夠的聲音分組,實(shí)際的聲音隔離處理就會(huì)從已經(jīng)鑒別過(guò)的聲源中去匹配,并且響應(yīng)真正說(shuō)話者的聲音。逆向轉(zhuǎn)換可將數(shù)據(jù)重新構(gòu)造為音頻流并傳輸供人來(lái)聽(tīng)。

注意事項(xiàng)

聲音隔離不僅適合提供高質(zhì)量的語(yǔ)音——語(yǔ)音識(shí)別系統(tǒng),還有很多其他重要應(yīng)用。比如在緊急情況下往往是比較嘈雜混亂的環(huán)境,這時(shí)快速且準(zhǔn)確的語(yǔ)音通訊對(duì)于生命安全非常關(guān)鍵,通過(guò)清晰的語(yǔ)音識(shí)別急救人員就能夠快速的定位求救人員。相比噪聲抑制方法,聲音隔離提供了一種更加高效的機(jī)制,盡管在不可控的環(huán)境條件下也能夠提升語(yǔ)音通信識(shí)別度。

專用的DSP聲音處理器能夠帶來(lái)性能的優(yōu)化同時(shí)保持較低的功耗,尤其對(duì)于一直打開(kāi)的語(yǔ)音應(yīng)用或者要求用戶手動(dòng)(比如長(zhǎng)按按鈕)初始化激活語(yǔ)音識(shí)別接口非常重要,需要一直打開(kāi)的語(yǔ)音功能不可避免的要持續(xù)造成功耗,因?yàn)橄到y(tǒng)處理器一直保持活動(dòng)狀態(tài)。與此相反,為了節(jié)省電池能量,需要一直打開(kāi)的語(yǔ)音應(yīng)用可以采用專用的語(yǔ)音處理器,這種處理器支持睡眠模式,保留一定的功能,此外還支持低功耗監(jiān)聽(tīng)模式以及全功能喚醒模式。

語(yǔ)音功能不再僅面向手持設(shè)備和智能手機(jī)了,可穿戴設(shè)備正式得益于用戶語(yǔ)音功能才不需要設(shè)計(jì)鍵盤或者觸摸屏功能了。隨著語(yǔ)音功能的成熟,用戶與設(shè)備之間的距離也會(huì)增加。舉個(gè)例子,現(xiàn)在一些智能電視支持語(yǔ)音命令,這些電視一般會(huì)放在客廳,同時(shí)需要考慮用戶隱私和安全問(wèn)題,需要重新執(zhí)行完善的方案,相信用戶語(yǔ)音功能會(huì)在更多的傳統(tǒng)電子產(chǎn)品設(shè)備中獲得應(yīng)用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    色噪聲環(huán)境中TLS-ESPRIT諧波譜重構(gòu)語(yǔ)音增強(qiáng)研究

    語(yǔ)音信號(hào)?!娟P(guān)鍵詞】:諧波譜重構(gòu);;總體最小二乘旋轉(zhuǎn)不變子空間技術(shù);;語(yǔ)音增強(qiáng);;空間譜估計(jì)【DOI】:CNKI:SUN:DSJS.0.2010-02-013【正文快照】:1引言在現(xiàn)
    發(fā)表于 04-22 11:56

    畢設(shè) 語(yǔ)音信號(hào)增強(qiáng) 急急急?。?!

    語(yǔ)音信號(hào)增強(qiáng)技術(shù)哪位大神能把維納濾波語(yǔ)音增強(qiáng)算法的 MATLAB 的源程序給我啊 重謝吶!??!
    發(fā)表于 05-17 22:29

    AR增強(qiáng)現(xiàn)實(shí)技術(shù)介紹

    AR增強(qiáng)現(xiàn)實(shí)技術(shù)解讀
    發(fā)表于 01-26 06:29

    關(guān)于MOST技術(shù)的基本介紹須知

    關(guān)于MOST技術(shù)的基本介紹須知
    發(fā)表于 05-19 06:27

    關(guān)于藍(lán)牙與WiFi共處技術(shù)介紹

    關(guān)于藍(lán)牙與WiFi共處技術(shù)介紹
    發(fā)表于 05-28 07:21

    sigmastudio有沒(méi)有語(yǔ)音增強(qiáng)的算法或組合實(shí)現(xiàn)功能?

    在ADAU1401芯片下,有沒(méi)有具體實(shí)現(xiàn)語(yǔ)音信號(hào)增強(qiáng)的算法實(shí)現(xiàn)
    發(fā)表于 11-29 07:55

    麥克風(fēng)陣列語(yǔ)音增強(qiáng)技術(shù)及其應(yīng)用

    本文簡(jiǎn)要敘述了應(yīng)用麥克風(fēng)陣列進(jìn)行語(yǔ)音增強(qiáng)的原理及方法。且由于麥克風(fēng)陣列在實(shí)際語(yǔ)音處理時(shí)具有良好的拾取語(yǔ)音能力及噪聲魯棒性,本文將介紹
    發(fā)表于 09-08 10:20 ?52次下載

    基于CRV_LMS算法的語(yǔ)音增強(qiáng)技術(shù)的研究_伍彩云

    基于CRV_LMS算法的語(yǔ)音增強(qiáng)技術(shù)的研究_伍彩云
    發(fā)表于 03-19 11:45 ?0次下載

    稀疏卷積非負(fù)矩陣分解的語(yǔ)音增強(qiáng)算法

    鑒于卷積非負(fù)矩陣分解在語(yǔ)音增強(qiáng)算法中的成功應(yīng)用,進(jìn)一步考慮語(yǔ)音信號(hào)在時(shí)頻域的稀疏性,提出了稀疏卷積非負(fù)矩陣分解( Sparse convolutive nonnegative matrix
    發(fā)表于 03-14 14:02 ?2次下載

    關(guān)于實(shí)時(shí)語(yǔ)音轉(zhuǎn)寫技術(shù)的分析和介紹

    實(shí)時(shí)語(yǔ)音轉(zhuǎn)寫基于深度全序列卷積神經(jīng)網(wǎng)絡(luò)框架,語(yǔ)音識(shí)別技術(shù)全球領(lǐng)先,在安靜環(huán)境,普通話標(biāo)準(zhǔn)下轉(zhuǎn)寫準(zhǔn)確率可達(dá)95%以上。
    的頭像 發(fā)表于 09-27 08:38 ?4231次閱讀

    計(jì)算機(jī)視覺(jué)與語(yǔ)音處理的交叉增強(qiáng)

    往往效果不佳。 近年來(lái)一種視覺(jué)輔助的語(yǔ)音增強(qiáng)技術(shù)取得了突破,通過(guò)跟蹤視頻中人物口型,可以較好的輔助過(guò)濾環(huán)境噪聲。但其
    的頭像 發(fā)表于 02-17 13:36 ?1231次閱讀

    科大訊飛多模語(yǔ)音增強(qiáng)技術(shù)打造地鐵智慧交通應(yīng)用

    多模語(yǔ)音增強(qiáng)技術(shù),作為科大訊飛新推出的解決公共場(chǎng)景下語(yǔ)音交互難題的最新技術(shù),打破以往純聲學(xué)降噪的方式,將機(jī)器視覺(jué)也融合到環(huán)境降噪
    發(fā)表于 01-16 14:15 ?573次閱讀

    深度學(xué)習(xí)在語(yǔ)音增強(qiáng)中的應(yīng)用

    引起的混響等都會(huì)影響語(yǔ)音的感知質(zhì)量,研究者將真實(shí)場(chǎng)景下影響語(yǔ)音質(zhì)量的因素總結(jié)為三個(gè)方面:環(huán)境噪聲、房間混響和其他說(shuō)話人干擾,語(yǔ)音增強(qiáng)的目的就是消除上述三個(gè)方面的影響。
    的頭像 發(fā)表于 07-11 09:39 ?1452次閱讀
    深度學(xué)習(xí)在<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>增強(qiáng)</b>中的應(yīng)用

    SmartAudio 100創(chuàng)新的聲音和語(yǔ)音增強(qiáng)技術(shù)

    電子發(fā)燒友網(wǎng)站提供《SmartAudio 100創(chuàng)新的聲音和語(yǔ)音增強(qiáng)技術(shù).pdf》資料免費(fèi)下載
    發(fā)表于 07-19 15:49 ?0次下載
    SmartAudio 100創(chuàng)新的聲音和<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>增強(qiáng)</b><b class='flag-5'>技術(shù)</b>

    SmartAudio 350創(chuàng)新的聲音和語(yǔ)音增強(qiáng)技術(shù)

    電子發(fā)燒友網(wǎng)站提供《SmartAudio 350創(chuàng)新的聲音和語(yǔ)音增強(qiáng)技術(shù).pdf》資料免費(fèi)下載
    發(fā)表于 07-20 10:19 ?0次下載
    SmartAudio 350創(chuàng)新的聲音和<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>增強(qiáng)</b><b class='flag-5'>技術(shù)</b>