人人妻人人澡人人揉人人捏人人,亚洲无线观看国产超清,污草莓樱桃丝瓜绿巨人秋葵笔趣阁

近日，百度研究者發(fā)表論文，利用兩種方法，只需少量樣本就能在幾秒鐘內(nèi)合成自然且相似度極高的語音。近些年關(guān)于高質(zhì)量的語音合成方法確實(shí)不少，但能在如此短時(shí)間內(nèi)完成的卻實(shí)屬罕見。

聲音克隆是個(gè)性化語音交互領(lǐng)域高度理想化的功能，基于神經(jīng)網(wǎng)絡(luò)的語音合成系統(tǒng)已經(jīng)可以為大量發(fā)言者生成高質(zhì)量語音了。在這篇論文中，百度的研究人員向我們介紹了一種神經(jīng)語音克隆系統(tǒng)，只需要輸入少量的語音樣本，就能合成逼真的語音。這里研究了兩種方法：說話者適應(yīng)（speaker adaptation）和說話者編碼（speaker encoding），最終結(jié)果表明兩種方法在語音的自然性和相似性方面都表現(xiàn)良好。

由于研究者要從有限且陌生的語音樣本中進(jìn)行語音克隆，這就相當(dāng)于一個(gè)“語音在特定語境下的few-shot生成建模”問題。若樣本充足，為任何目標(biāo)說話者訓(xùn)練生成模型都不在話下。不過，few-shot生成模型雖然聽起來很吸引人，但卻是個(gè)挑戰(zhàn)。生成模型需要通過少量的信息學(xué)習(xí)說話者的特征，然后還要生成全新的語音。

語音克隆

我們計(jì)劃設(shè)計(jì)一個(gè)多說話者生成模型（multi-speaker generative model）：f(ti,j,si; W,esi)，ti表示文本，si表示說話者。模型以W進(jìn)行參數(shù)化，作為編碼器和解碼器的訓(xùn)練參數(shù)。esi是對(duì)應(yīng)到si的可訓(xùn)練說話者嵌入。W和esi均通過最小化損失函數(shù)L進(jìn)行優(yōu)化，損失函數(shù)L對(duì)生成音頻和真視音頻之間的差異進(jìn)行懲罰。

這里S是一組說話者，Tsi是為si準(zhǔn)備的文字-音頻訓(xùn)練集，ai和j是ti和j的真實(shí)音頻。期望值是通過所有訓(xùn)練說話者的文本-音頻對(duì)來估計(jì)的。

在語音克隆中，實(shí)驗(yàn)的目的是從一組克隆音頻Ask中提取出sk的聲音特征，并且用該聲音生成不一樣的音頻。衡量生成結(jié)果的標(biāo)準(zhǔn)有二：

看語音是否自然；

看生成的語音與原音頻是否相似。

下圖總結(jié)了說話者適應(yīng)和說話者編碼兩種方法的語音克隆方法：

說話者適應(yīng)運(yùn)用的是梯度下降原理，利用少數(shù)音頻和對(duì)應(yīng)的文本對(duì)多語音模型進(jìn)行微調(diào)，微調(diào)可以用于說話者嵌入或整個(gè)模型。

而說話者編碼的方法是從說話者的音頻樣本中估計(jì)說話者嵌入。這種模式并不需要在語音克隆的過程中進(jìn)行微調(diào)，因此它可以用于任何未知的說話者。

說話者編碼器結(jié)構(gòu)

語音克隆評(píng)估

語音克隆的結(jié)果可以通過眾包平臺(tái)經(jīng)過人類進(jìn)行評(píng)估，但是這樣的模型開發(fā)過程是非常緩慢且昂貴的。研究人員利用判別模型提出了兩種評(píng)估方法。

1.說話者分類（Speaker Classification）

說話者分類器決定音頻樣本的來源。對(duì)于語音克隆評(píng)估，說話者分類器可以在用于克隆的語音上進(jìn)行訓(xùn)練。高質(zhì)量的語音克隆有助于提高分類器的精確度。

2.說話者驗(yàn)證（Speaker Verification）

說話者驗(yàn)證是用來檢測(cè)語音的相似性，具體來說，它利用二元分類識(shí)別測(cè)試音頻和生成音頻是否來自同一說話者。

實(shí)驗(yàn)過程

我們對(duì)比了兩種方法（說話者適應(yīng)和說話者編碼）在語音克隆上的表現(xiàn)。對(duì)說話者適應(yīng)，我們訓(xùn)練了一個(gè)生成模型，讓其通過微調(diào)達(dá)到目標(biāo)說話者的水平。對(duì)說話者編碼，我們訓(xùn)練了一個(gè)多說話者生成模型和一個(gè)說話者編碼器，將嵌入輸入到多說話者生成模型中生成目標(biāo)語音。

兩種方法訓(xùn)練的數(shù)據(jù)集是LibriSpeech，該數(shù)據(jù)集包含2484個(gè)樣本音頻，總時(shí)長(zhǎng)約820小時(shí)，16KHz。LibriSpeech是一個(gè)用于自動(dòng)語音識(shí)別的數(shù)據(jù)集，它的音頻質(zhì)量比語音合成的數(shù)據(jù)集低。語音克隆是在VCTK數(shù)據(jù)集上進(jìn)行的，其中包括了108種不同口音、以英語為母語的音頻。為了與LibriSpeech保持一致，VCTK中的音頻樣本被壓縮為16KHz。

下圖總結(jié)了不同的方法在語音克隆上的表現(xiàn)：

說話者適應(yīng)和說話者編碼在語音克隆上的不同需求。假設(shè)都在Titan X上進(jìn)行

對(duì)于說話者適應(yīng)的方法，下圖表現(xiàn)了分類精確度與迭代時(shí)間的結(jié)果：

不同克隆樣本數(shù)量和微調(diào)次數(shù)的關(guān)系圖

說話者適應(yīng)和說話者編碼在不同克隆樣本下的分類精度對(duì)比

不同克隆樣本數(shù)量下，說話者驗(yàn)證上的同等錯(cuò)誤率（EER）

下面兩個(gè)表顯示了人類評(píng)估的結(jié)果，這兩個(gè)結(jié)果都表明克隆音頻越多，說話者適應(yīng)的方法越好。

結(jié)語

研究人員通過兩種方法，證明了他們可以用較少的聲音樣本生成自然、相似的新音頻。他們相信，語音克隆在未來依然有改善的前景。隨著元學(xué)習(xí)的進(jìn)展，這一領(lǐng)域?qū)⒌玫接行У奶岣撸?，可以通過將說話者適應(yīng)或編碼這兩種方法整合到訓(xùn)練中，或者通過比說話者嵌入更靈活的方式來推斷模型權(quán)重。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

編碼器

編碼器

+關(guān)注

關(guān)注
44

文章
3529

瀏覽量
133299
音頻

音頻

+關(guān)注

關(guān)注
29

文章
2766

瀏覽量
80782

原文標(biāo)題：百度研究者利用少量樣本實(shí)現(xiàn)語音克隆

文章出處：【微信號(hào)：jqr_AI，微信公眾號(hào)：論智】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

基于序貫相似性測(cè)算法的圖像模板配準(zhǔn)算法

入的研究.在傳統(tǒng)的序貫相似性檢測(cè)算法(SSDA)基礎(chǔ)上,提出一種新的配準(zhǔn)算法.實(shí)驗(yàn)證明,該算法比傳統(tǒng)的SSDA算法在速度上有較大提高,能滿足在線煙標(biāo)檢測(cè)

發(fā)表于 04-24 10:02

基于相似性的圖像融合質(zhì)量的客觀評(píng)估方法

基于相似性的圖像融合質(zhì)量的客觀評(píng)估方法:研究圖像融合結(jié)果的質(zhì)量評(píng)估問題,提出一種新的基于相似性的圖像融合質(zhì)量客觀評(píng)估方法.這

發(fā)表于 10-31 08:57 ?16次下載

基于相似性度量的高維聚類算法的研究

針對(duì)高維數(shù)據(jù)相似度難以定義的問題，本文提出了一種新的高維數(shù)據(jù)聚類算法。該算法基于一個(gè)能夠更準(zhǔn)確表達(dá)高維數(shù)據(jù)對(duì)象之間相似性的度量函數(shù)，首先計(jì)算對(duì)象兩兩

發(fā)表于 01-27 13:31 ?5次下載

基于項(xiàng)目相似性度量方法的項(xiàng)目協(xié)同過濾推薦算法

針對(duì)傳統(tǒng)協(xié)同過濾推薦算法遇到冷啟動(dòng)情況效果不佳的問題，提出一種基于項(xiàng)目相似性度量方法（IPSS）的項(xiàng)目協(xié)同過濾推薦算法（ICF_IPSS），其核心是一種新的項(xiàng)目

發(fā)表于 12-03 09:46 ?0次下載

基于網(wǎng)絡(luò)本體語言O(shè)WL表示模型語義的相似性計(jì)算方法

為了提高三維計(jì)算機(jī)輔助設(shè)計(jì)（ CAD）模型重用效率，針對(duì)當(dāng)前三維模型檢索系統(tǒng)中語義表達(dá)不足問是提出了一種基于網(wǎng)絡(luò)本體語言（ OWL）表示模型語義的相似性計(jì)算方法。首先，將三維CAD產(chǎn)品

發(fā)表于 12-17 10:33 ?0次下載

一種基于SQL的圖相似性查詢方法

的相似性查詢是圖數(shù)據(jù)管理中的熱點(diǎn)問題之一．對(duì)圖查詢問題的研究主要包括圖的相似性查詢等．本文重點(diǎn)研究基于編輯距離（Graph Edit Distance）的圖相似性查詢處理問題，首先。通

發(fā)表于 12-19 16:17 ?0次下載

一種新的混合相似性權(quán)重的非局部均值去躁算法

針對(duì)傳統(tǒng)非局部均值（NLM）濾波在噪聲標(biāo)準(zhǔn)差較大時(shí)，加權(quán)歐氏距離不能真實(shí)反映鄰域塊相似度的問題，提出一種新的混合相似性權(quán)重的非局部均值去噪算法。首先，利用平穩(wěn)小波變換的特點(diǎn)對(duì)噪聲圖像進(jìn)

發(fā)表于 12-25 15:36 ?0次下載

基于劃分思想的文件結(jié)構(gòu)化相似性比較方法

針對(duì)傳統(tǒng)文件結(jié)構(gòu)化相似性比較法中采用基本塊（ BB） -對(duì)一映射而造成的巨大時(shí)空消耗及基本塊比較結(jié)果的絕對(duì)化問題，提出一種基于劃分思想的文件結(jié)構(gòu)化相似性比較

發(fā)表于 01-02 14:04 ?0次下載

云模型重疊度的相似性度量算法

云模型相似性是用來度量同類概念不同語言值的多個(gè)云之間關(guān)聯(lián)程度的方法，相似云及其度量分析方法的提出是對(duì)云模型理論的擴(kuò)展。針對(duì)目前相似性度量

發(fā)表于 01-07 10:54 ?1次下載

基于節(jié)點(diǎn)相似性社團(tuán)結(jié)構(gòu)劃分

針對(duì)復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)劃分過程復(fù)雜、準(zhǔn)確性差的問題，定義了節(jié)點(diǎn)全局和局部相似性衡量指標(biāo)，并構(gòu)建節(jié)點(diǎn)的相似性矩陣，提出一種基于節(jié)點(diǎn)相似性度量的社團(tuán)結(jié)

發(fā)表于 01-10 14:02 ?0次下載

一種基于程序向量樹的代碼克隆檢測(cè)方法

代碼克隆能夠加速軟件開發(fā)但是也會(huì)導(dǎo)致缺陷重復(fù)發(fā)生和軟件質(zhì)量問題。部分類型的代碼克隆在字面上相似度低，導(dǎo)致識(shí)別困難。針對(duì)這一問題，提出

發(fā)表于 04-07 14:49 ?15次下載

一種基于約束推導(dǎo)式的增強(qiáng)型相似性方法

近年來，使用軟件相似性方法挖掘軟件中的同源漏泂已經(jīng)被證眀確實(shí)有效，但現(xiàn)有的方法在準(zhǔn)確率方面還存在一

發(fā)表于 04-08 16:13 ?8次下載

一種快速計(jì)算動(dòng)態(tài)網(wǎng)絡(luò)相似性的方法

大，如何快速且準(zhǔn)確地評(píng)估動(dòng)態(tài)網(wǎng)絡(luò)之間的相似性面臨巨大的挑戰(zhàn)。基于靜態(tài)網(wǎng)絡(luò)的譜距離方法盡管取得了不錯(cuò)的效果，但對(duì)于大規(guī)模動(dòng)態(tài)網(wǎng)絡(luò)而言計(jì)算成本很髙。為了解決這一問題，提出了一種快速計(jì)算動(dòng)態(tài)

發(fā)表于 06-04 15:58 ?4次下載

PyTorch教程15.7之詞的相似性和類比

電子發(fā)燒友網(wǎng)站提供《PyTorch教程15.7之詞的相似性和類比.pdf》資料免費(fèi)下載

發(fā)表于 06-05 11:04 ?0次下載

基于結(jié)構(gòu)相似性可靠性監(jiān)測(cè)結(jié)果

電子發(fā)燒友網(wǎng)站提供《基于結(jié)構(gòu)相似性可靠性監(jiān)測(cè)結(jié)果.pdf》資料免費(fèi)下載

發(fā)表于 02-05 09:10 ?0次下載