0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

僅憑聲音,AI 就能“腦補(bǔ)”你的臉!測(cè)試結(jié)果精度可以達(dá)到 90.25%

5RJg_mcuworld ? 來(lái)源:YXQ ? 2019-04-08 10:10 ? 次閱讀

【導(dǎo)語(yǔ)】之前我們?yōu)榇蠹医榻B過(guò)一項(xiàng)非常酸爽的研究“Talking Face Generation”:給定音頻視頻后(輸入),可以讓任意一個(gè)人的面部特征與輸入的音視頻信息保持一致,也就是說(shuō)出輸入的這段話。當(dāng)時(shí)就想到了“楊超越的聲音+高曉松的臉”這樣的神仙搭配。不過(guò),近期一項(xiàng)新研究再度抓到了筆者的眼睛!在最新的研究中,研究者僅需要音頻信息就生成了人臉... ...如此鬼畜的操作,此乃頭一次見(jiàn)??!接下來(lái)就為大家介紹一下這項(xiàng)工作!

音頻和圖像是人類(lèi)最常用的兩種信號(hào)傳輸模式,圖像傳達(dá)的信息非常直觀,而語(yǔ)音包含的信息其實(shí)比我們想象的要更豐富,包括說(shuō)話人的身份,性別和情緒狀態(tài)等等。從這兩個(gè)信號(hào)中提取的特征通常是高度相關(guān)的,可以讓人僅聆聽(tīng)聲音就可以想象他的視覺(jué)外觀。WAV2PIX 的工作就是僅利用語(yǔ)音輸入,來(lái)生成說(shuō)話者的人臉圖像。其實(shí)這就是一個(gè)跨模態(tài)的視覺(jué)生成任務(wù)。

談到這項(xiàng)研究的貢獻(xiàn),主要有三點(diǎn):

提出了一個(gè)能夠直接從原始的語(yǔ)音信號(hào)生成人臉的條件GAN:WAV2PIX;

提供了一個(gè)在語(yǔ)音和人臉兩方面綜合質(zhì)量很高的一個(gè)數(shù)據(jù)集:Youtubers;

實(shí)驗(yàn)證明論文的方法可以生成真實(shí)多樣的人臉。

論文收集了大V用戶(hù)(Youtubers)上傳到 Youtube 的演講視頻,這些視頻通常具有高質(zhì)量的說(shuō)話環(huán)境、表達(dá)方式、人臉特征等。Youtubers 數(shù)據(jù)集主要由兩部分組成:一個(gè)是自動(dòng)生成的數(shù)據(jù)集和一個(gè)手動(dòng)處理后的高質(zhì)量的子集。

主要的預(yù)處理工作:

音頻最初下載的是高級(jí)音頻編碼(AAC)格式,44100 Hz,立體聲。因此轉(zhuǎn)換為 WAV 格式,并重新采樣到 16 kHz,每個(gè)樣例占 16 位并轉(zhuǎn)換為單聲道。

采用基于 Haar 特征的人臉檢測(cè)器來(lái)檢測(cè)正臉。僅采納置信度高的幀

保存檢測(cè)出來(lái)的那幀圖像及前后兩秒的語(yǔ)音幀,以及一個(gè)標(biāo)簽(identity)。

方法介紹

研究主要由三個(gè)模塊構(gòu)成:一個(gè)是語(yǔ)音編碼器,一個(gè)是圖片生成網(wǎng)絡(luò),一個(gè)是圖片判別網(wǎng)絡(luò)。

語(yǔ)音編碼器(Speech Encoder):已有的方法大多數(shù)是手工提取音頻特征,并不是針對(duì)生成網(wǎng)絡(luò)的任務(wù)進(jìn)行優(yōu)化的,而 SEGAN 提出了一種在波形上用于語(yǔ)音處理的方法。因此作者在已有的工作 SEGAN 上進(jìn)行修改。修改為具有 6 層一維網(wǎng)絡(luò),并且每層的 kernel 大小是 15x15,步長(zhǎng)為 4,然后每層卷積網(wǎng)絡(luò)后面使用 LeakyReLU 激活函數(shù),網(wǎng)絡(luò)的輸入通道是 1。輸入 16kHZ 下1 秒的語(yǔ)音片段,上述的卷積網(wǎng)絡(luò)可以得到一個(gè) 4x1024 的張量,然后采用三個(gè)全連接網(wǎng)絡(luò)將特征數(shù)量從 4x1024 降到 128。作為生成器網(wǎng)絡(luò)的輸入。

圖片生成器(Image Generator Network):輸入是語(yǔ)音編碼器的 128 向量。采用二維轉(zhuǎn)置卷積、插值、dropout 等方式將輸入轉(zhuǎn)為 64x64x3 或者 128x128x3 的張量。在 G 的損失函數(shù)中添加了一個(gè)輔助損失用于保持說(shuō)話人的標(biāo)簽(Identity)。

圖片判別器(Image Discriminator Network):判別器由幾層步長(zhǎng)為 2,kernel 大小是 4x4 的卷積網(wǎng)絡(luò)組成,并使用譜歸一化和 LeakyReLU 激活函數(shù)。當(dāng)張量為 4x4 時(shí),作者拼接了語(yǔ)音的輸入,并采用最后一層網(wǎng)絡(luò)來(lái)計(jì)算 D 網(wǎng)絡(luò)的分?jǐn)?shù)。

實(shí)驗(yàn)過(guò)程

訓(xùn)練:將手動(dòng)處理后的數(shù)據(jù)集作為訓(xùn)練集,采用數(shù)據(jù)增強(qiáng)等手動(dòng)。值得注意的是,在處理時(shí)將每張圖像復(fù)制了 5 次,并將其與 4 秒音頻里面隨機(jī)采樣的 5 個(gè)不同的1秒音頻塊進(jìn)行匹配。因此總共有 24K 左右的圖像-音頻對(duì)用于模型訓(xùn)練。其它超參數(shù)采用參考的文獻(xiàn)設(shè)置。

評(píng)估:下圖給出了可視化的結(jié)果,雖然生成的圖像都比較模糊,但基本可以觀察到人的面部特征,并且有不同的面部表情。

作者進(jìn)一步微調(diào)了一個(gè)預(yù)訓(xùn)練的 VGG-FACE Descriptor 網(wǎng)絡(luò),用于量化測(cè)試結(jié)果,在作者提供的數(shù)據(jù)集上,可以達(dá)到 76.81% 的語(yǔ)音識(shí)別準(zhǔn)確率和 50.08% 的生成圖像準(zhǔn)確率。

為了評(píng)估模型生成圖像的真實(shí)程度,作者定義了一個(gè) 68 個(gè)人臉關(guān)鍵點(diǎn)的精度檢測(cè)分?jǐn)?shù)。如下圖所示,測(cè)試結(jié)果精度可以達(dá)到 90.25%。表明在大多數(shù)情況下生成的圖像保留了基本的面部特征。

感興趣的小伙伴們可以下載閱讀研究一下~

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)音
    +關(guān)注

    關(guān)注

    3

    文章

    381

    瀏覽量

    37862
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28877

    瀏覽量

    266237

原文標(biāo)題:僅用語(yǔ)音,AI 就能“腦補(bǔ)”你的臉! | 技術(shù)頭條

文章出處:【微信號(hào):mcuworld,微信公眾號(hào):嵌入式資訊精選】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    使用LMH7322測(cè)量脈沖占空比,誤差精度達(dá)到0.1怎么改進(jìn)?

    上圖是我用 LMH7322 高速比較器 測(cè)試占空比時(shí)輸出的波形 ,測(cè)試頻率為:100HZ---5MHZ,誤差精度達(dá)到 0.1 ,未能達(dá)到
    發(fā)表于 08-30 07:44

    視覺(jué)檢測(cè)精度達(dá)到 0.01 嗎

    在現(xiàn)代工業(yè)生產(chǎn)和質(zhì)量控制領(lǐng)域,視覺(jué)檢測(cè)技術(shù)因其高效、非接觸式測(cè)量等優(yōu)勢(shì)而備受青睞。然而,對(duì)于許多對(duì)精度要求極高的應(yīng)用場(chǎng)景,一個(gè)關(guān)鍵的問(wèn)題是:視覺(jué)檢測(cè)精度能否達(dá)到 0.01級(jí)別?研訊科技旗下分公司蘇州
    的頭像 發(fā)表于 08-22 11:20 ?135次閱讀
    視覺(jué)檢測(cè)<b class='flag-5'>精度</b>能<b class='flag-5'>達(dá)到</b> 0.01 嗎

    低功耗高精度壓控溫補(bǔ)晶振應(yīng)用方案

    隨著移動(dòng)衛(wèi)星通信、無(wú)線基站、雷達(dá)、儀器儀表和工業(yè)化/自動(dòng)化等領(lǐng)域的迅速發(fā)展,市場(chǎng)對(duì)于低功耗、高精度和高穩(wěn)定性的壓控溫補(bǔ)晶振(VC-TCXO)的需求也越來(lái)越高。為滿(mǎn)足這一市場(chǎng)需求,YXC公司推出
    發(fā)表于 08-16 15:45 ?0次下載

    基于FPGA的類(lèi)計(jì)算平臺(tái) —PYNQ 集群的無(wú)監(jiān)督圖像識(shí)別類(lèi)計(jì)算系統(tǒng)

    計(jì)算的特性,搭建出基于 PYNQ 集群的通用低功耗的大規(guī)模類(lèi)計(jì)算平臺(tái),并通過(guò)皮質(zhì)層視覺(jué)仿真模型、HPC Benchmark 等進(jìn)行了結(jié)果驗(yàn)證和性能測(cè)試。 (3)本設(shè)計(jì)設(shè)計(jì)的基于 NEST 仿真器
    發(fā)表于 06-25 18:35

    STM32G474 HRTIM校準(zhǔn)精度可以達(dá)到多少?

    HRTIM提到有校準(zhǔn)功能,保證它的高精度輸出,并且按照指定的校準(zhǔn)周期會(huì)去校準(zhǔn),那么這個(gè)校準(zhǔn)精度可以達(dá)到多少?手冊(cè)中暫時(shí)未找到,請(qǐng)問(wèn)有誰(shuí)知道嗎?
    發(fā)表于 04-09 07:09

    ADN8834溫控精度達(dá)到多少?

    擬選用ADN8834做溫控芯片,需要的溫控精度為正負(fù)0.1℃,咨詢(xún)一下ADN8834溫控精度達(dá)到多少??jī)?nèi)部集成的運(yùn)放的輸入失調(diào)電壓隨溫度偏移是多少?
    發(fā)表于 12-28 06:13

    首例“AI聲音侵權(quán)案”,聲音AI化用于短視頻

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)AI技術(shù)的應(yīng)用,給我們的生活帶來(lái)了巨大改變。同時(shí),它的不當(dāng)使用也帶來(lái)了侵權(quán)、詐騙等風(fēng)險(xiǎn)。近日,北京互聯(lián)網(wǎng)法院首次組成五人合議庭,依法公開(kāi)審理全國(guó)首例“AI聲音侵權(quán)案
    的頭像 發(fā)表于 12-20 00:28 ?1568次閱讀

    AD7403可以有16位的輸出嗎?精度可以達(dá)到多少呢?

    以上的關(guān)系是如何的。還是或本器件不推薦測(cè)試10KHz以上頻率的信號(hào)。 3.如果我的應(yīng)用需要測(cè)量50KHz的電流信號(hào),這款A(yù)DC可以有16位的輸出嗎?精度可以
    發(fā)表于 12-15 06:39

    聲音被聽(tīng)到:看看你的TWS耳塞是怎么設(shè)計(jì)的

    聲音被聽(tīng)到:看看你的TWS耳塞是怎么設(shè)計(jì)的
    的頭像 發(fā)表于 12-05 17:25 ?442次閱讀
    讓<b class='flag-5'>你</b>的<b class='flag-5'>聲音</b>被聽(tīng)到:看看你的TWS耳塞是怎么設(shè)計(jì)的

    AD625的增益精度怎么能達(dá)到0.05%的精度?。?/a>

    運(yùn)放用的AD625,增益精度達(dá)到0.02%,外圍可編程的放大電路,怎么能達(dá)到0.05%的精度???算了幾天都不行,電阻目前選用的是0.1%的精度
    發(fā)表于 11-20 06:05

    面向6G+AI,鵬城云的演進(jìn)

    的算力,是專(zhuān)門(mén)面向AI訓(xùn)練而打造的。經(jīng)歷了這些年的軟硬件發(fā)展,鵬城云也已經(jīng)開(kāi)始了新的演進(jìn)迭代。 ? 鵬城云II ? 為了更好地提供科研支持,鵬城實(shí)驗(yàn)室與華為共同合作搭建了鵬城云I
    的頭像 發(fā)表于 11-02 01:08 ?1735次閱讀

    無(wú)需任何操作,通過(guò)BMI(機(jī)接口)就能像自己的手腳一樣操縱機(jī)器

    無(wú)需任何操作,通過(guò)BMI(機(jī)接口)就能像自己的手腳一樣操縱機(jī)器
    的頭像 發(fā)表于 10-16 17:45 ?523次閱讀
    無(wú)需任何操作,通過(guò)BMI(<b class='flag-5'>腦</b>機(jī)接口)<b class='flag-5'>就能</b>像自己的手腳一樣操縱機(jī)器

    DS18B20采樣溫度的精度可以達(dá)到多少?

    DS18B20采樣溫度的精度可以達(dá)到多少
    發(fā)表于 10-12 08:14

    FPC軟板補(bǔ)強(qiáng)設(shè)計(jì)

    最近在某EDA畫(huà)了一塊FPC,有專(zhuān)門(mén)的FPC補(bǔ)強(qiáng)工具,輸出的GERBER層名也有補(bǔ)強(qiáng)信息,在他們平臺(tái)下單也可以自動(dòng)識(shí)別補(bǔ)強(qiáng)信息,而且還可以
    發(fā)表于 10-08 15:00

    新氦類(lèi)智能與曦智科技共同打造以片上光網(wǎng)絡(luò)(oNOC)技術(shù)

    SNN(Spiking Neural Network)類(lèi)腦神經(jīng)網(wǎng)絡(luò)算法,可使MNIST數(shù)字識(shí)別分類(lèi)精度達(dá)到90%以上。 ? MNIST數(shù)字分類(lèi)識(shí)別 新氦類(lèi)智能總經(jīng)理梁龍飛表示:“作為一個(gè)功能型平臺(tái),新氦類(lèi)
    的頭像 發(fā)表于 09-25 10:42 ?1383次閱讀