0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

最新的研究中,研究者僅需要音頻信息就生成了人臉

電子工程師 ? 來源:lp ? 2019-04-08 14:41 ? 次閱讀

之前我們?yōu)榇蠹医榻B過一項非常酸爽的研究“Talking Face Generation”:給定音頻視頻后(輸入),可以讓任意一個人的面部特征與輸入的音視頻信息保持一致,也就是說出輸入的這段話。當時營長就想到了“楊超越的聲音+高曉松的臉”這樣的神仙搭配。不過,近期一項新研究再度抓到了營長的眼睛!在最新的研究中,研究者僅需要音頻信息就生成了人臉... ...如此鬼畜的操作,此乃頭一次見啊!接下來營長就為大家介紹一下這項工作!

音頻和圖像是人類最常用的兩種信號傳輸模式,圖像傳達的信息非常直觀,而語音包含的信息其實比我們想象的要更豐富,包括說話人的身份,性別和情緒狀態(tài)等等。從這兩個信號中提取的特征通常是高度相關(guān)的,可以讓人僅聆聽聲音就可以想象他的視覺外觀。WAV2PIX 的工作就是僅利用語音輸入,來生成說話者的人臉圖像。其實這就是一個跨模態(tài)的視覺生成任務。

談到這項研究的貢獻,主要有三點:

提出了一個能夠直接從原始的語音信號生成人臉的條件GAN:WAV2PIX;

提供了一個在語音和人臉兩方面綜合質(zhì)量很高的一個數(shù)據(jù)集:Youtubers;

實驗證明論文的方法可以生成真實多樣的人臉。

論文收集了大V用戶(Youtubers)上傳到 Youtube 的演講視頻,這些視頻通常具有高質(zhì)量的說話環(huán)境、表達方式、人臉特征等。Youtubers 數(shù)據(jù)集主要由兩部分組成:一個是自動生成的數(shù)據(jù)集和一個手動處理后的高質(zhì)量的子集。

主要的預處理工作:

音頻最初下載的是高級音頻編碼(AAC)格式,44100 Hz,立體聲。因此轉(zhuǎn)換為 WAV 格式,并重新采樣到 16 kHz,每個樣例占 16 位并轉(zhuǎn)換為單聲道。

采用基于 Haar 特征的人臉檢測器來檢測正臉。僅采納置信度高的幀

保存檢測出來的那幀圖像及前后兩秒的語音幀,以及一個標簽(identity)。

方法介紹

研究主要由三個模塊構(gòu)成:一個是語音編碼器,一個是圖片生成網(wǎng)絡,一個是圖片判別網(wǎng)絡。

語音編碼器(Speech Encoder):已有的方法大多數(shù)是手工提取音頻特征,并不是針對生成網(wǎng)絡的任務進行優(yōu)化的,而 SEGAN 提出了一種在波形上用于語音處理的方法。因此作者在已有的工作 SEGAN 上進行修改。修改為具有 6 層一維網(wǎng)絡,并且每層的 kernel 大小是 15x15,步長為 4,然后每層卷積網(wǎng)絡后面使用 LeakyReLU 激活函數(shù),網(wǎng)絡的輸入通道是 1。輸入 16kHZ 下1 秒的語音片段,上述的卷積網(wǎng)絡可以得到一個 4x1024 的張量,然后采用三個全連接網(wǎng)絡將特征數(shù)量從 4x1024 降到 128。作為生成器網(wǎng)絡的輸入。

圖片生成器(Image Generator Network):輸入是語音編碼器的 128 向量。采用二維轉(zhuǎn)置卷積、插值、dropout 等方式將輸入轉(zhuǎn)為 64x64x3 或者 128x128x3 的張量。在 G 的損失函數(shù)中添加了一個輔助損失用于保持說話人的標簽(Identity)。

圖片判別器(Image Discriminator Network):判別器由幾層步長為 2,kernel 大小是 4x4 的卷積網(wǎng)絡組成,并使用譜歸一化和 LeakyReLU 激活函數(shù)。當張量為 4x4 時,作者拼接了語音的輸入,并采用最后一層網(wǎng)絡來計算 D 網(wǎng)絡的分數(shù)。

實驗過程

訓練:將手動處理后的數(shù)據(jù)集作為訓練集,采用數(shù)據(jù)增強等手動。值得注意的是,在處理時將每張圖像復制了 5 次,并將其與 4 秒音頻里面隨機采樣的 5 個不同的1秒音頻塊進行匹配。因此總共有 24K 左右的圖像-音頻對用于模型訓練。其它超參數(shù)采用參考的文獻設(shè)置。

評估:下圖給出了可視化的結(jié)果,雖然生成的圖像都比較模糊,但基本可以觀察到人的面部特征,并且有不同的面部表情。

作者進一步微調(diào)了一個預訓練的 VGG-FACE Descriptor 網(wǎng)絡,用于量化測試結(jié)果,在作者提供的數(shù)據(jù)集上,可以達到 76.81% 的語音識別準確率和 50.08% 的生成圖像準確率。

為了評估模型生成圖像的真實程度,作者定義了一個 68 個人臉關(guān)鍵點的精度檢測分數(shù)。如下圖所示,測試結(jié)果精度可以達到 90.25%。表明在大多數(shù)情況下生成的圖像保留了基本的面部特征。

感興趣的小伙伴們可以下載閱讀研究一下~

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 傳輸模式
    +關(guān)注

    關(guān)注

    0

    文章

    9

    瀏覽量

    7001
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1197

    瀏覽量

    24538
  • 人臉圖像
    +關(guān)注

    關(guān)注

    0

    文章

    11

    瀏覽量

    8945

原文標題:僅用語音,AI就能“腦補”你的臉! | 技術(shù)頭條

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    音頻信息識別與檢索技術(shù)

    檢索是目前急需解決的一個難題。音頻信息主要包含語音、音樂、說話人、語種等內(nèi)容信息。相應的音頻識別技術(shù)主要包含以下幾類:語音識別技術(shù)、說話人識別技術(shù)、語種識別技術(shù)、音樂識別檢索技術(shù)。語
    發(fā)表于 03-05 22:53

    音頻分類與音頻分段的研究

    隨著計算機速度、容量的提高,以及互聯(lián)網(wǎng)上音頻數(shù)據(jù)的急劇膨脹,發(fā)展音頻信息的基于內(nèi)容檢索技術(shù)已經(jīng)成為迫切的需要音頻信息的基于內(nèi)容檢索系統(tǒng)包括音頻信息
    發(fā)表于 03-08 22:31

    matlab畢業(yè)論文-快速人臉特征定位

    領(lǐng)域的應用價值,開始作為一個獨立的課題受到研究者的普遍重視。下面我將對人臉檢測的相關(guān)知識做一下簡單的介紹。畢業(yè)論文:附錄:附錄可以用word打開
    發(fā)表于 03-07 10:22

    人臉識別技術(shù)最新發(fā)展與研究

    人臉識別技術(shù)最新發(fā)展與研究 2013年全國圖形圖像技術(shù)應用大會將在十一月初召開,本次大會大會將邀請國內(nèi)圖像圖形處理技術(shù)領(lǐng)域的著名專家,就圖像圖形處理技術(shù)的應用和最新動態(tài)做特邀報告。并邀請圖像圖形技術(shù)
    發(fā)表于 09-25 16:08

    基于CPLD的數(shù)字功率放大器的研究與實現(xiàn)

    數(shù)模轉(zhuǎn)換器DAC)實現(xiàn);2利用模擬功率放大器進行模擬信號放大,如A類、B類和AB類放大器。從1980年代早期,許多研究者致力于開發(fā)不同類型的數(shù)字放大器,這種放大器直接從數(shù)字語音數(shù)據(jù)實現(xiàn)功率放大而不需要進行模擬轉(zhuǎn)換
    發(fā)表于 07-01 09:37

    人臉識別的研究范圍和優(yōu)勢

    的主要目的是在輸入的整幅圖像上尋找人臉區(qū)域。2.人臉表征采取某種方式檢測人臉和數(shù)據(jù)庫人臉。3.人臉
    發(fā)表于 06-29 11:52

    人臉識別在安防系統(tǒng)的應用研究

    和事后,提供人臉抓拍、1: N動態(tài)人臉識別、人臉檢索查詢等多種人臉服務。對于人臉采集模塊,目前有2種實現(xiàn)方式,第1種,直接使用具有
    發(fā)表于 11-07 10:38

    蛋白質(zhì)組學技術(shù)與藥物作用新靶點研究進展 精選資料分享

    ,成為制約新藥開發(fā)速度的瓶頸?;蚪M學研究表明,人體全部藥靶蛋白為1萬~2萬種,而在過去100年發(fā)現(xiàn)的靶點,約有 500種。因此,自1994年Wilkins等提出蛋白質(zhì)組(pro
    發(fā)表于 07-26 07:48

    基于小波變換的音頻信息隱藏技術(shù)研究

    摘要:研究了一種基于小波變換的音頻信息隱藏的技術(shù),對算法進行了詳細的研究與分析。并根據(jù)算法利用Matlab進行仿真實驗,實現(xiàn)了基于小波的音頻信息隱藏,保證了電力系統(tǒng)
    發(fā)表于 12-27 20:32 ?35次下載

    單對象人臉識別技術(shù)研究

    單對象人臉識別技術(shù)研究 1 引 言隨著計算機網(wǎng)絡和通信技術(shù)的發(fā)展,信息安全、知識產(chǎn)權(quán)保護和身份認證等問題成了一個重要而緊迫的研究
    發(fā)表于 02-06 09:21 ?716次閱讀

    原來美國的研究者最關(guān)心的是這些

    上個月,全新版《美國機器人路線圖》發(fā)布。這份由全美150多位研究者共同完成的報告呼吁:國家應該在新技術(shù)的安全集成方面制定更好的政策框架以保證我們每日生活的安全運轉(zhuǎn)。文件發(fā)布的目的,除了希望借此確定
    發(fā)表于 11-19 22:07 ?353次閱讀

    機器學習研究者必知的八個神經(jīng)網(wǎng)絡架構(gòu)

    本文簡述了機器學習核心結(jié)構(gòu)的歷史發(fā)展,并總結(jié)了研究者需要熟知的 8 個神經(jīng)網(wǎng)絡架構(gòu)。
    發(fā)表于 02-26 18:40 ?1081次閱讀

    一種基于實用AGC算法的音頻信號處理方法與FPGA實現(xiàn)的分析研究

    隨著現(xiàn)代通信技術(shù)的廣泛使用,通信企業(yè)問的競爭不斷加劇,為提升自身的競爭優(yōu)勢,通信企業(yè)需要將其通信信號的質(zhì)量提升,并提高通信系統(tǒng)各項指標的穩(wěn)定性、安全性、高效性。在音頻信號處理方法及FPGA實現(xiàn)
    發(fā)表于 09-30 16:29 ?3112次閱讀
    一種基于實用AGC算法的<b class='flag-5'>音頻信</b>號處理方法與FPGA實現(xiàn)的分析<b class='flag-5'>研究</b>

    僅憑聲音,AI 就能“腦補”你的臉!測試結(jié)果精度可以達到 90.25%

    在最新的研究研究者需要音頻信息生成了
    的頭像 發(fā)表于 04-08 10:10 ?3618次閱讀

    70年人工智能研究,解讀研究者最大的慘痛教訓經(jīng)驗

    自1956年達特茅斯學院那場著名會議以來,人工智能研究走過了這么多年的旅途,經(jīng)歷許多高峰也走過很多低谷。前事不忘后事之師,這期間產(chǎn)生了很多經(jīng)驗教訓需要我們反復學習,而最重要的一條教訓卻是很多研究者很難接受的。
    發(fā)表于 08-14 10:21 ?457次閱讀