0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

利用語音直接畫出人臉,AI再添新能力

hl5C_deeptechch ? 來源:YXQ ? 2019-07-17 09:54 ? 次閱讀

聽聲辨人,利用聲紋進行解鎖,這種技術已廣泛應用,人類的聲音含有該個體的一定特征,從而可以進行區(qū)分。那么僅通過聲音,能否畫出人像,并且盡可能地與講話者相似呢?

近日,卡內(nèi)基梅隆大學的Yandong Wen 等人,利用生成對抗網(wǎng)絡模型(generative adversarial networks, GANs)首次對這一問題作出研究,利用講話者的語音生成一些匹配原說話者面部特征的人臉,并用交叉模態(tài)匹配(cross-modal matching task)評估了模型表現(xiàn),可謂是語音畫像領域的一大突破。

模型框架

一個人的聲音和骨骼結構、發(fā)聲部位的形狀等特征的確有關,但利用語音直接畫出人臉,如何做到?

該由聲音重建人臉的模型框架主要由四個卷積網(wǎng)絡:語音嵌入模型(voice embedding network)、生成器(Generator)、判別器(Discriminator)、分類器(classifier)組成。

語音嵌入模型(voice embedding network)將輸入的語音數(shù)據(jù),梅爾倒頻譜(log mel-spectrograms)轉(zhuǎn)換為含有該聲音特征的向量 e。該模型含有 5 層一維卷積神經(jīng)網(wǎng)絡,每一層均是經(jīng)由卷積核為 3、步長為 2、padding 為 1 得到,并且都經(jīng)過歸一化層處理和 ReLU 單元激活,最后經(jīng)過平均池化得到一個 64 維的向量。此模型是通過一個語音識別任務預先訓練得到參數(shù),并且參數(shù)在生成人臉的訓練過程中保持不變。生成器(Generator)輸入為語音嵌入模型產(chǎn)生的向量 e,輸出是人臉 RGB 圖像 f',由 6 層二維反卷積網(wǎng)絡構成,激活函數(shù)采用 ReLU。

判別器(Discriminator)判斷輸入的圖像 f(或 f')是生成器偽造的圖像還是真實的人臉,如果判斷為偽造圖會加大損失 Ld。由 6 層激活單元為 Leaky ReLU 的二維卷積網(wǎng)絡構成,最后經(jīng)過全連接層得到人臉圖像數(shù)據(jù)。

分類器(classifier)用來將人臉圖像與說話者匹配,如果匹配錯誤會加大損失 Lc。該模型由 6 層二維卷積網(wǎng)絡和一個全連接層組成。具體的結構如圖表,其中 Conv 3/2,1代表卷積核尺寸為 3,步長為 2,padding 填充為 1。

圖 | 從聲音重建人臉模型的具體結構。(來源:Yandong Wen, et al./CMU)模型通過最小化判別器與分類器的交叉熵損失 Ld 和 Lc 來訓練,以期得到圖像逼真且符合說話者特征的人臉。值得一提的是,此模型的測試集和訓練集以及驗證集相互獨立,即測試時的聲音是未聽過的,人臉也未知。

模型表現(xiàn)

不特意挑選那些人臉和真實講話者完美一致的結果,一般來講,該模型的確能輸出具有講話者特征的人臉,即使不完全一模一樣,從種族以及一些其他典型的面部特征來看,這個模型的確學習到了一些信息輸出結果和原講話者非常像,并且語音時間越長,匹配的特征越多,兩者越類似。

圖 | 從不同時長的正常錄音生成人臉的結果圖,右側(cè)Ref為真實講話者的不同臉部照片,從上到下的 4 位 Speaker 分別是 Danica McKellar, Cindy Williams, Damian Lewis, and Eva Green. (來源:Yandong Wen, et al./CMU)當然,性別及年齡特征也可以很好地被學習到,左側(cè)輸出結果的年齡和性別與右側(cè)真實人臉的年齡性別保持一致。在整個測試集上,生成圖和真實講話者性別相同的概率可以達到 96.5%。

圖 | 從性別年齡的人臉重建,(a)是從老年聲音生成的人臉;(b)是男性聲音生成的人臉;(c)是女性聲音生成的人臉。其中左側(cè)為生成圖,右側(cè)為真實講話者。(來源:Yandong Wen, et al./CMU)如果用同一個人的不同語音片段,推測產(chǎn)生的人臉會保持相同特征嗎?模型結果告訴我們,是這樣。選用同一個講話者的 7 個不同語音片段,不特意挑選完美結果,模型所推測出的大概特征是十分一致的,這也側(cè)面說明,模型的確可以從一個人的語音抽取出一些特征,映射成其臉部的某些特征。

圖 | 利用一個人的 7 段不同語音重建人臉,左圖(a)是重建的 7 張人臉圖,右圖(b)是對應的真實人臉在不同情況的照片(來源:Yandong Wen, et al./CMU)進一步來講,如果從語音中學到的特征真的可以映射成面部的特征,那么生成人臉圖必定和真實講話者的臉部是對應匹配的。換句話說,聲音中的特征可以被生成人臉中蘊含的特征替代,那么由聲音重組人臉就變成了人臉識別問題,兩張臉(生成的和真實的)匹配,那么計劃可行,這個匹配率也就成了衡量模型表現(xiàn)的指標。在整個訓練集和測試集上,該模型的匹配率分別是 96.83% 和 76.07%;將訓練集和測試集按照性別分層,排除性別這一特征的助力,也就是直接比較同一性別上,生成的人臉和講話者是否相像,匹配率在訓練集和測試集上分別是 93.98%和 59.69%,這也證明了模型所學到的信息不僅僅是性別,還有其他更詳細的面部特征。該模型表現(xiàn)不僅優(yōu)于 DIMNets-G,同時,測試集表現(xiàn)不如訓練集,說明模型還有很大提升空間。

圖 | 不同模型在性別分層以及不分層的數(shù)據(jù)集上的表現(xiàn)。(來源:Yandong Wen, et al./CMU)

展望

該模型雖然表現(xiàn)尚佳,但仍有可提升的地方,比如頭發(fā)和圖像背景等與聲音無關的特征,可以進行數(shù)據(jù)清洗將其去除,而有一些明顯與發(fā)聲有關的面部特征也可以加以利用,從而模型會更加精確。

總的來說,由音生貌,語音畫像問題的一塊空白得到了填補。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    28877

    瀏覽量

    266241
  • GaN
    GaN
    +關注

    關注

    19

    文章

    1884

    瀏覽量

    71064

原文標題:僅聽聲音就畫出人臉,GAN再添新能力

文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    如何利用AI進行提升自我呢?

    利用AI進行學習是一個高效且富有創(chuàng)新性的過程。以下是一些建議,幫助你充分利用AI進行學習: 選擇適合的AI學習工具 : 深度學習框架 :如飛
    的頭像 發(fā)表于 07-19 10:46 ?361次閱讀

    聆思CSK6視覺語音大模型AI開發(fā)板入門資源合集(硬件資料、大模型語音/多模態(tài)交互/英語評測SDK合集)

    自定義大模型應用并接入到開發(fā)套件上實現(xiàn)語音交互,由淺入深地展示如何開發(fā)自己的大模型助手。 離線AI能力示例SDK清單 序號AI 能力 1
    發(fā)表于 06-18 17:33

    主流邊緣AI算法,在安防、零售、交通等領域的應用

    邊緣AI可以應用在哪些場景實現(xiàn)哪些功能。 ? 市面上主流的邊緣AI算法應用 ? 目前市面上比較主流的邊緣AI算法應用,包括人臉及關鍵點檢測,關鍵點監(jiān)測是通過快速檢測
    的頭像 發(fā)表于 05-13 01:56 ?2614次閱讀

    李未可科技發(fā)布全新首款AI眼鏡Chat,搭載自研AI大模型

    ? ? 4月26日,李未可科技推出旗下首款AI眼鏡——Meta Lens Chat,定價699元,并于4月26日10點正式開啟預售。AI 眼鏡 Chat 主打AI語音交互
    發(fā)表于 04-26 10:45 ?1413次閱讀
    李未可科技發(fā)布全新首款<b class='flag-5'>AI</b>眼鏡Chat,搭載自研<b class='flag-5'>AI</b>大模型

    stm32f0怎么不使用語音IC做合成語音?

    我這邊板子就一個功放電路,要求不使用語音IC做語音,我聽別人說去了解MP3這一方面,但我只找到MCU軟解碼,但我怎么不了解,不清楚怎么做成自己的語音,要的是語音,不是歌曲
    發(fā)表于 04-25 06:00

    語音數(shù)據(jù)集:AI語音技術的靈魂

    提升語音識別和生成能力語音數(shù)據(jù)集為AI模型提供了豐富的語音樣本,通過訓練和學習這些數(shù)據(jù),AI
    的頭像 發(fā)表于 12-14 14:33 ?826次閱讀

    語音數(shù)據(jù)集:推動AI語音技術的核心力量

    的發(fā)展趨勢。 二、語音數(shù)據(jù)集的重要性 提高語音識別和生成能力語音數(shù)據(jù)集包含大量的語音樣本,可以為模型提供充足的訓練數(shù)據(jù),從而提高
    的頭像 發(fā)表于 12-12 11:32 ?520次閱讀

    SC23 | NVIDIA 為全球領先的 AI 計算平臺 Hopper 新動力

    新動力。 NVIDIA H200 是首款采用 HBM3e 的 GPU,其運行更快、更大的顯存容量將進一步加速生成式 AI 與大語言模型,同時推進用于 HPC 工作負載的科學計算。憑借 HBM3e
    的頭像 發(fā)表于 11-14 20:05 ?381次閱讀
    SC23 | NVIDIA 為全球領先的 <b class='flag-5'>AI</b> 計算平臺 Hopper <b class='flag-5'>再</b><b class='flag-5'>添</b>新動力

    NVIDIA 為全球領先的 AI 計算平臺 Hopper 新動力

    NVIDIA HGX? H200,為 Hopper 這一全球領先的 AI 計算平臺新動力。NVIDIA HGX H200 平臺基于 NVIDIA Hopper? 架構,搭載 NVIDIA H200
    發(fā)表于 11-14 14:30 ?191次閱讀
    NVIDIA 為全球領先的 <b class='flag-5'>AI</b> 計算平臺 Hopper <b class='flag-5'>再</b><b class='flag-5'>添</b>新動力

    語音識別技術在教育領域的應用與挑戰(zhàn)

    輔導:通過語音識別技術,可以將教師的口頭講解或?qū)W生的問題轉(zhuǎn)化為文字形式,方便學生回顧和復習。同時,結合自然語言處理技術,可以自動分析文本信息,為學生提供個性化推薦和精準輔導。 2.智能課堂管理:利用語音識別技術,教師
    的頭像 發(fā)表于 11-02 18:44 ?542次閱讀

    人臉識別依然火熱,AI技術進化帶來全新挑戰(zhàn)

    的一系列相關技術。 ? 日前,在安博會上,電子發(fā)燒友發(fā)現(xiàn)人臉識別技術仍然是大家追捧和探討的焦點,眾多企業(yè)展出人臉識別相關產(chǎn)品,包括人臉識別門禁機,用于家居、辦公、商超、交通各種場合的攝像頭/攝像機,以及后端的平
    的頭像 發(fā)表于 10-28 01:34 ?2344次閱讀
    <b class='flag-5'>人臉</b>識別依然火熱,<b class='flag-5'>AI</b>技術進化帶來全新挑戰(zhàn)

    語音識別技術的挑戰(zhàn)與機遇探討

    一、引言 隨著科技的不斷發(fā)展,語音識別技術得到了廣泛應用。然而,語音識別技術在發(fā)展過程中面臨著許多挑戰(zhàn),同時也帶來了許多機遇。本文將探討語音識別技術的挑戰(zhàn)與機遇。 二、
    的頭像 發(fā)表于 10-18 16:56 ?682次閱讀

    請問Proteus如何仿真語音芯片呢?

    我想問一下,我要在proteus中使用語音播放,但是沒有語音芯片,就很苦惱,而我只能做仿真。我的實驗內(nèi)容是LCD顯示的內(nèi)容要通過語音播放出來,但是不知道怎么辦?
    發(fā)表于 10-08 08:01

    各行各業(yè)如何使用語音 AI 滿足消費者期望

    。視頻聊天技術讓身處異地的朋友和家人之間能夠輕松聯(lián)系彼此。通過語音命令工具,AI 助手可以播放歌曲、撥打電話,或推薦附近幾公里范圍內(nèi)最棒的意大利菜。AI 算法甚至可以預測用戶可能想看的下一個節(jié)目,或者在用戶購買商品前,推送他
    的頭像 發(fā)表于 09-26 18:35 ?529次閱讀

    【KV260視覺入門套件試用體驗】五、VITis AI (人臉檢測和人體檢測)

    Vitis-AI/board_setup/vek280 $ ./host_cross_compiler_setup.sh 直接運行權限不夠,使用chmod 進行授權
    發(fā)表于 09-26 16:22