0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

什么是Talking Face Generation任務(wù)?

電子工程師 ? 來源:lq ? 2018-12-06 10:21 ? 次閱讀

什么是 Talking Face Generation任務(wù)?

簡單來講,給定音頻視頻后,可以讓任意一個人的面部特征與輸入信息保持一致。比如在下面的 Demo 視頻中,通過輸入一段音頻,讓其他五位個人都能說出這段話。如何利用這個技術(shù)?以后大家惡搞,就不只是給奧巴馬、特朗普嫁接一段聲音了。你可以讓高曉松“燃燒我的卡路里”,也可以讓好運錦鯉楊超越每天為你講“曉說”。要油要甜,全看你的選擇~(我要吳彥祖,胡歌,新恒結(jié)衣,神仙姐姐每天給我講段子~)

其實,當人們說話時,面部區(qū)域一些細微的運動是非常復(fù)雜的,通常由講話者個人固有的面部特征和所傳遞的外部信息共同決定?,F(xiàn)有的研究中,一部分專注于前者,即對一個主體構(gòu)建特定的面部特征模型;另一部分專注于后者,即構(gòu)建唇部運動和言語信息之間的 identity-agnostic 變換的模型。

在這項工作中,作者將兩方面整合一起開展了一系列研究,并提出了一種 DAVS (Disentangled Audio-Visual System)結(jié)構(gòu)。通過學(xué)習(xí)分解的視覺和聽覺表征,實現(xiàn)對任意說話主體的臉部生成。我們假設(shè)說話人的臉部序列是主體相關(guān)信息和語音相關(guān)信息的組合,通過一種新穎的關(guān)聯(lián)-對抗訓(xùn)練過程來明確地解開這兩個空間。這種分解方法的另外一個優(yōu)點就是能將分解得到的音頻和視頻信息都可以用于語音信息的生成。大量實驗表明,作者所提出的方法可以對任意對象上生成逼真的人臉序列,并且唇部運動模式更加清晰。此外,作者還發(fā)現(xiàn),學(xué)習(xí)到的視聽表征在唇語自動解讀和音頻視頻檢索等應(yīng)用中也非常有用。

傳送門

項目主頁:

https://liuziwei7.github.io/projects/TalkingFace

論文鏈接:

https://arxiv.org/pdf/1807.07860.pdf

Github 地址:

https://github.com/Hangz-nju-cuhk/Talking-Face-Generation-DAVS

目前,作者準備把這個項目開源,大家可以在源碼公開后進行深入實踐了!

▌首先,你需要先準備:

Python2.7

PyTorch (0.2.0)

Opencv2

▌測試結(jié)果如何生成?

1.下載預(yù)訓(xùn)練的模型的 checkpoint

2.測試數(shù)據(jù)在0572_0019_0003文件夾,這是從 Voxceleb 數(shù)據(jù)集中篩選,經(jīng)預(yù)處理后的樣本數(shù)據(jù)。

3.運行測試腳本,利用視頻生成視頻

4.運行測試腳本,從語音生成視頻

▌數(shù)據(jù)樣本的生成結(jié)果

1.對人臉面部特征的影響

2.對非真是人臉面部特征的影響(只用人臉數(shù)據(jù)作為訓(xùn)練樣本)

▌創(chuàng)造更多的樣本

Demo 視頻中使用的面部檢測工具可以在 rsa 中找到。每張圖像的一行中,將返回一個帶5個關(guān)鍵點的 Matfile 輸出。這個工具在其他面部對齊方法中也同樣適用,如 dlib。在這個項目中,作者使用的面部對齊關(guān)鍵點是眼睛的中心和嘴角的平均點。使用的每個圖像的PATH和 face POINTS,大家可以在 preprocess / face_align.py文件中找到作者使用的方法。

此外,作者對音頻文件的預(yù)處理方法是相同的,調(diào)用了SyncNet 的matlab 的代碼,在將 mfcc 特征保存到 bin 文件中。

▌訓(xùn)練代碼

訓(xùn)練代碼正在整理中,后續(xù)會公布。此項目的代碼結(jié)構(gòu)參考了 pix2pix 的實現(xiàn)代碼:

https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix

后處理細節(jié)

直接生成的結(jié)果可能會受到縮放條件 (放大和縮小) 的影響,假設(shè)這是由訓(xùn)練集對齊引起的。作者在 demo 中使用 subspace video stabilization 方式來解決這種不穩(wěn)定問題。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 視頻
    +關(guān)注

    關(guān)注

    6

    文章

    1914

    瀏覽量

    72521
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1197

    瀏覽量

    24538

原文標題:楊超越的聲音+高曉松的臉~如此酸爽的技術(shù),你值得擁有!

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    怎用設(shè)置任務(wù)欄自動隱藏,并在“開始”菜單顯示小圖標

    `<p>步驟:任務(wù)欄-》右鍵-》屬性-》在任務(wù)欄選中<font face="Verdana">自動隱藏
    發(fā)表于 06-28 10:57

    report generation toolkit 怎么安裝

    我安裝完labview8.6之后想再裝個report generation toolkit ,不知道怎么裝?哪位高手能指導(dǎo)一下
    發(fā)表于 06-30 00:06

    Face ID也是無法工作。

    對此,蘋果公司也曾進行過解釋,蘋果軟件工程高級副總裁Craig Federighi曾表示,Face ID具備唯一性,僅支持“一機一臉”,用戶無法在系統(tǒng)中錄入多個人臉。不僅如此,系統(tǒng)必須是在同時捕捉
    發(fā)表于 01-06 01:28

    MaxCompute 中的Code Generation技術(shù)簡介

    ,在任務(wù)提交比較頻繁的情況下,控制集群的穩(wěn)定性會收到一定挑戰(zhàn)。因為較高的編譯時開銷,這種Code Generation的方式在處理復(fù)雜的語句加中小數(shù)據(jù)規(guī)模查詢的場景,比如service mode下
    發(fā)表于 03-27 14:29

    Next Generation Design and Ver

    This volume brings out the proceedings of the workshop “Next Generation Designand Verification
    發(fā)表于 07-17 17:11 ?0次下載
    Next <b class='flag-5'>Generation</b> Design and Ver

    Next Generation Mobile Systems

    Next Generation Mobile Systems 3G and Beyond:In Next Generation Mobile Systems the authors answer
    發(fā)表于 08-21 10:31 ?10次下載
    Next <b class='flag-5'>Generation</b> Mobile Systems

    iPod nano (4th generation) 使用手

    iPod nano (4th generation) 使用手冊(中文說明書指南)
    發(fā)表于 11-23 08:58 ?47次下載

    Spartan-3 Generation FPGAs應(yīng)用資料

    Spartan-3 Generation FPGAs應(yīng)用資料 DDR2 SDRAM Interface for Spartan-3 Generation FPGAs
    發(fā)表于 05-13 13:57 ?27次下載

    Gigabyte技嘉 主板Face Wizard工具

    Gigabyte技嘉 主板Face Wizard工具 主板Face Wizard工具
    發(fā)表于 11-11 12:04 ?23次下載

    網(wǎng)絡(luò)體系結(jié)構(gòu)白皮書

    optimize their network architecture and face the rapidly growing demand for coverage and capacity
    發(fā)表于 09-14 09:28 ?15次下載
    網(wǎng)絡(luò)體系結(jié)構(gòu)白皮書

    Face ID可能會被破解的前景令人擔(dān)憂

    根據(jù)生物安全專家的說法,自從蘋果在2017年推出iPhone X支持Face ID以來,雖然有人能復(fù)制Face ID,但沒有人發(fā)布過能夠破解Face ID的詳細信息。該公司還推出了另外三款支持
    的頭像 發(fā)表于 01-07 17:43 ?3040次閱讀

    基于知識的對話生成任務(wù)

    基于知識的對話生成任務(wù)(Knowledge-Grounded Dialogue Generation,KGD)是當前對話系統(tǒng)的研究熱點,這個任務(wù)旨在基于對話歷史和外部知識來生成的富含信息量的回復(fù)語句。
    的頭像 發(fā)表于 09-05 09:54 ?1541次閱讀

    Ravenscar Ada任務(wù)FACE安全配置文件

      需要占用空間小或必須符合行業(yè)保證標準(如 DO-178B或 DO-178C)的機載系統(tǒng)對運行時支持庫中的尺寸和復(fù)雜性成本很敏感。為了滿足這些需求,未來機載能力環(huán)境(FACE?技術(shù)標準已將 Ada
    的頭像 發(fā)表于 11-09 14:49 ?691次閱讀
    Ravenscar Ada<b class='flag-5'>任務(wù)</b>和<b class='flag-5'>FACE</b>安全配置文件

    使用Face ID的學(xué)生考勤

    電子發(fā)燒友網(wǎng)站提供《使用Face ID的學(xué)生考勤.zip》資料免費下載
    發(fā)表于 06-28 11:22 ?0次下載
    使用<b class='flag-5'>Face</b> ID的學(xué)生考勤

    Hugging Face被限制訪問

    目前尚不清楚 Hugging Face 何時出現(xiàn)訪問限制問題。雅虎的報道稱,早在今年 5 月起,就已經(jīng)有用戶在 HF 的論壇上抱怨連接問題。另外有報道稱,至少從 9 月 12 日起,Hugging Face 在中國就完全無法使用。
    的頭像 發(fā)表于 10-22 15:51 ?1532次閱讀
    Hugging <b class='flag-5'>Face</b>被限制訪問