您好,歡迎來電子發(fā)燒友網(wǎng)! ,新用戶?[免費(fèi)注冊(cè)]

您的位置:電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

聲紋識(shí)別技術(shù)在身份認(rèn)證方面的應(yīng)用分析

大?。?/span>2.0 MB 人氣: 2017-09-27 需要積分:1

  虛擬引擎

  時(shí)變問題

  人的整個(gè)發(fā)聲系統(tǒng)隨著時(shí)間的推移會(huì)產(chǎn)生一定的變化,這些變化直接導(dǎo)致了其語音信息中的聲紋信息的變化,如果算法或系統(tǒng)不考慮這些變化,那么一段時(shí)間后,系統(tǒng)的識(shí)別性能將有所下降。為此我們錄制了長(zhǎng)達(dá)4年的100人的時(shí)變語音庫,基于此語音庫分析,我們找到了和時(shí)變相關(guān)的一些特征信息和規(guī)律,并試用其對(duì)MFCC和PLP特征的提取過程進(jìn)行了修改。另外在工程方面,以聲密保系為例,其在架構(gòu)設(shè)計(jì)中就考慮到了模型的在線更新問題,并設(shè)計(jì)了專門的語音篩選算法,系統(tǒng)會(huì)定期的挑選用戶符合條件的最新語音進(jìn)行模型的重新訓(xùn)練。

  噪音問題

  正如軟件工程中所提的沒有銀彈的概念一樣,任何技術(shù)都有一定的局限性,不可能無限制地應(yīng)用于任何場(chǎng)景,聲紋技術(shù)在大噪音環(huán)境下并不適用。針對(duì)此我們開發(fā)了一套語音質(zhì)量檢測(cè)的庫來對(duì)環(huán)境噪音和語音的信噪比進(jìn)行檢測(cè),將不符合條件的語音排除在系統(tǒng)之外并對(duì)用戶進(jìn)行提示。此套噪音檢測(cè)系統(tǒng)采用了傳統(tǒng)的基于能量、包絡(luò)、自相關(guān)系數(shù)等特征的檢測(cè)算法和RNN/LSTM相結(jié)合方法,能準(zhǔn)確的檢測(cè)出96%以上不符合條件的場(chǎng)景。

  防錄音重放攻擊措施

  在解決這些傳統(tǒng)問題的同時(shí),為了保證用聲紋進(jìn)行遠(yuǎn)程身份認(rèn)證的安全性,我們還提出了一系列防攻擊措施,包括動(dòng)態(tài)密碼語音、用戶自定義密碼、多特征活體檢測(cè)和錄音重放等。由于篇幅有限,下面詳細(xì)介紹我們?cè)阡浺糁胤派系墓ぷ鳌?/p>

  錄音重放是一種常見的聲紋特征盜取手段,由于采用動(dòng)態(tài)密碼的方式,很難將一個(gè)人的各種發(fā)音組合全部錄制下來。但我們還是假設(shè)如果把這個(gè)人所有的文本發(fā)音(在聲密保系統(tǒng)中為0~9的數(shù)字發(fā)音)全部錄下來,然后根據(jù)系統(tǒng)提示的數(shù)字密碼進(jìn)行拼接重放,那么還是同一個(gè)人的聲音,是否能夠通過聲紋識(shí)別系統(tǒng)驗(yàn)證呢?

  我們先分析一個(gè)典型的錄音重放過程:

  正常語音信號(hào):y(t)=x(t)*a(t)

  錄音重放語音信號(hào):y’(t)=x(t)*a’(t) *d’(t)*a(t)

  圖5中錄音ADCs(模數(shù)轉(zhuǎn)換)和重放DACs(數(shù)模轉(zhuǎn)換)是對(duì)語音信號(hào)的兩次傳輸,均會(huì)對(duì)原始信號(hào)產(chǎn)生影響,且ADCs和DACs是非連續(xù)可逆的,除了ADCs和DACs外,傳輸過程還包括噪音、混響等因素,錄音重放會(huì)造成信道失配和信號(hào)強(qiáng)度衰減等現(xiàn)象。

  聲紋識(shí)別技術(shù)在身份認(rèn)證方面的應(yīng)用分析

  圖5 典型的錄音重放過程

  圖6給出了一段真實(shí)語音和其錄音重放后語音的時(shí)頻分析,可以看出在這種情況下真實(shí)語音和錄音重放語音很難被區(qū)分,錄音重放可以說是最容易實(shí)施和最難被檢測(cè)的假體攻擊方式。

  聲紋識(shí)別技術(shù)在身份認(rèn)證方面的應(yīng)用分析

  圖6 一段真語音和錄音重放語音的時(shí)頻分析

  2017年的Automatic Speaker Verification Spoofing and Countermeasures (ASVspoof) Challenge中,首次將錄音重放檢測(cè)納入到說話人識(shí)別的防闖入比賽中,一個(gè)理想的錄音重放檢測(cè)系統(tǒng)應(yīng)該在已知和未知的條件下都很魯棒,包含與訓(xùn)練數(shù)據(jù)不同的說話人、不同的錄音重放內(nèi)容和不同的錄音重放設(shè)備。ASVspoof針對(duì)錄音重放檢測(cè)進(jìn)行的比賽中,全球近100個(gè)團(tuán)隊(duì)參加,最終提交了49個(gè),我司的結(jié)果排在第5。相關(guān)的聲紋確認(rèn)防錄音論文發(fā)表在Interspeech上。

  《A Study on Replay Attack and Anti-Spoofing for Automatic Speaker Verification》論文主要分兩部分:第一部分分析了不同的說話人、文本和設(shè)備對(duì)錄音重放檢測(cè)性能的影響;第二部分給出了有效的錄音重放檢測(cè)算法實(shí)現(xiàn)。

  論文用F-ratio來分析不同因素對(duì)重放檢測(cè)性能的影響。F-ratio是一個(gè)簡(jiǎn)單的頻域加權(quán)方法,頻帶的權(quán)重可以由其對(duì)任務(wù)的判別能力決定。假設(shè)在分析語音譜時(shí)采用的濾波器個(gè)數(shù)為M,第i個(gè)濾波器的F-ratio可以定義為:

  聲紋識(shí)別技術(shù)在身份認(rèn)證方面的應(yīng)用分析

  Cg表示真實(shí)語音,Cr表示重放語音。xi表示第i個(gè)濾波器語音幀x的值,uig和uir分別是濾波器內(nèi)真實(shí)語音和重放語音所有幀的均值,Ng和Nr分別是兩類語音的語音幀數(shù)。最后用M個(gè)濾波器的F-ratio值組[F1,F(xiàn)2,…,F(xiàn)M]來分析真實(shí)語音和重放語音在不同頻帶上的區(qū)分性。

  在ASVspoof中,開發(fā)集和測(cè)試集中含有比訓(xùn)練集種類更多的錄音重放設(shè)備。在訓(xùn)練集中利用少量設(shè)備的錄音重放語音進(jìn)行模型訓(xùn)練非常容易導(dǎo)致過擬合,弱化了提取的特征和訓(xùn)練的模型的概化能力。為了提高概化能力,降低這種變化對(duì)重放檢測(cè)的影響,論文采用了頻率彎折的方法,如圖7所示,Mel方法增強(qiáng)了特征在低頻段的區(qū)分能力,IMel方法增強(qiáng)了特征在高頻段的區(qū)分能力。

  聲紋識(shí)別技術(shù)在身份認(rèn)證方面的應(yīng)用分析

  圖7 三種頻率彎折曲線

  圖8給出了在Mel和IMel兩種頻率彎折方法下,不同的說話人、文本內(nèi)容、和錄音重放設(shè)備在濾波器組上的F-ratio值,從(c)列圖中可以看出用Mel方法,不同的錄音重放設(shè)備對(duì)濾波器組的F-ratio值影響很明顯;但是IMel方法大大降低了設(shè)備間差異對(duì)F-ratio的影響,這對(duì)后面建立概化能力更強(qiáng)的模型具有非常重要的意義。

  聲紋識(shí)別技術(shù)在身份認(rèn)證方面的應(yīng)用分析

  圖8 Mel和IMel方法在不同的說話人、文本和設(shè)備情況下對(duì)F-ratio的影響

  在錄音重放檢測(cè)部分,論文使用(MFCC,LPCC和IMFCC)三種特征在訓(xùn)練集上建立了基于GMM、ivector/SVM和DNN的重放檢測(cè)系統(tǒng),并在開發(fā)集中進(jìn)行了測(cè)試。從下面結(jié)果可以看出IMFCC特征是最有效的,最簡(jiǎn)單的GMM模型取得了最好的效果,DNN模型雖然在表中也取得了不錯(cuò)的效果,但是存在不穩(wěn)定的問題,不同的初始化將導(dǎo)致不同的結(jié)果,有的差異很大。

  聲紋識(shí)別技術(shù)在身份認(rèn)證方面的應(yīng)用分析

  其實(shí)在日常生活中用手機(jī)進(jìn)行錄音重放是最方便的。相比于多樣性的錄音重放設(shè)備,手機(jī)等移動(dòng)設(shè)備上的錄音重放檢測(cè)要簡(jiǎn)單的多,我們?cè)?jīng)對(duì)60種不同型號(hào)的手機(jī)進(jìn)行了接近十萬條的錄音重放檢測(cè),結(jié)果重放的檢出率基本為100%。

  總結(jié)

  聲紋作為生物特征中的行為特征,配合語音識(shí)別技術(shù),通過互動(dòng)方式在遠(yuǎn)程身份認(rèn)證“用自己來證明自己”方面有其他生物特征難以替代的優(yōu)勢(shì)。當(dāng)然,就像前面提到的任何技術(shù)都有一定的局限性,不可能無限制的應(yīng)用于任何場(chǎng)景。只有通過結(jié)合聲紋和其他生物特征組成多因子認(rèn)證手段,才能更好地保證遠(yuǎn)程身份認(rèn)證安全。

非常好我支持^.^

(0) 0%

不好我反對(duì)

(0) 0%

      發(fā)表評(píng)論

      用戶評(píng)論
      評(píng)價(jià):好評(píng)中評(píng)差評(píng)

      發(fā)表評(píng)論,獲取積分! 請(qǐng)遵守相關(guān)規(guī)定!

      ?