0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一張照片生成3D頭像!蘋果新模型擊敗StyleGAN2

OpenCV學(xué)堂 ? 來源:量子位 ? 2023-05-06 10:38 ? 次閱讀

隨便一張照片,就可生成3D頭像。而且光線真實,任意角度可調(diào)。

這是蘋果的最新科技生成框架FaceLit。

fd9facbe-eb53-11ed-90ce-dac502259ad0.gif

正如其名,F(xiàn)aceLit的特色就是可以將人臉“點亮”。

“自帶光環(huán)”的FaceLit在易用性上也不輸同類,甚至更勝一籌——

進行3D建模時,需要的照片素材無需專門選擇角度,數(shù)量上也只需一張。

甚至對表情、發(fā)型、眼鏡等元素進行調(diào)節(jié)時,也不需要額外素材。

而傳統(tǒng)的頭像合成工具或者需要多張圖片才能工作,或者對照片角度有刁鉆的要求。

正是憑借這一創(chuàng)新,F(xiàn)aceLit獲得了3.5的FID評分,較同類產(chǎn)品直接高出了25%。

改進式EG3D合成人像,光線信息單獨處理

下面就來看一下FaceLit具體是如何實現(xiàn)頭像合成的。

總的來說,蘋果采用了將人物本體與光線分別處理再進行疊加的策略。

早期的三維人像合成工具在轉(zhuǎn)換過程中可能產(chǎn)生形變。

而爆火的NeRF通過將場景拆分成具體因素,提高了3D圖像合成效果,改善了這一問題。

但蘋果團隊認(rèn)為,在可控性方面,NeRF仍存有不足之處。

于是,在EG3D框架的基礎(chǔ)上,蘋果創(chuàng)造了FaceLit的合成模型。

EG3D通過三平面解碼器,賦予了二維卷積神經(jīng)網(wǎng)絡(luò)生成渲染3D模型所需深度參數(shù)的能力。

蘋果團隊對標(biāo)準(zhǔn)的EG3D訓(xùn)練方式進行了擴展,并將之轉(zhuǎn)化成了FaceLit框架。

00bb8828-eb54-11ed-90ce-dac502259ad0.png

△FaceLit與傳統(tǒng)EG3D渲染流程對比圖

標(biāo)準(zhǔn)的ED3G使用相機位置p參數(shù)作為基本輸入?yún)?shù)。

在建立GAN2操作時,蘋果在EG3D的基礎(chǔ)上加入了光照參數(shù)l。

00e63d20-eb54-11ed-90ce-dac502259ad0.png

△不同p(左→右)與l(上→下)值下的初始圖像

蘋果選擇了經(jīng)過球形諧波方式簡化后的Phong反射模型作為處理光源的物理基礎(chǔ)。

光照參數(shù)l就是在這一基礎(chǔ)之上獨立處理得到的。

在自然界中,反射包括鏡面反射和漫反射兩種形式。

014e408c-eb54-11ed-90ce-dac502259ad0.png

△不同鏡面反射率條件下的效果對比

因此,蘋果在ED3G模型中加入了鏡面反射解碼器和漫反射解碼器。

它們替代了可以直接得到顏色c、密度σ數(shù)據(jù)的三平面解碼器。

017c55c6-eb54-11ed-90ce-dac502259ad0.png

△反射解碼器流程示意圖

通過對GAN2產(chǎn)生的數(shù)據(jù)進行再次解碼,可以得到鏡面反射率ks和漫反射率kd。

然后再通過兩種反射著色器得到顏色c,密度σ則由漫反射解碼器計算得出。

最終,F(xiàn)aceLit以與三平面解碼器相同的參數(shù)(c,w,σ)渲染圖像,并進行分辨率優(yōu)化。

有的放矢設(shè)計訓(xùn)練策略,數(shù)據(jù)無需人工標(biāo)注

生成框架已有,那就來到訓(xùn)練階段,其特點在于訓(xùn)練過程中無需人工標(biāo)注。

方法論層面,在訓(xùn)練時,團隊使用了FFHQ、MetFaces和CelebA-HQ數(shù)據(jù)集。

對于不同的數(shù)據(jù)集,蘋果使用了不同的訓(xùn)練方式。

FFHQ包含了7萬余條人臉數(shù)據(jù),其訓(xùn)練分為兩個階段:先在較低的分辨率下訓(xùn)練,再提高分辨率再次進行。

對于包含2萬數(shù)據(jù)量的CelebA-HQ,訓(xùn)練不需要分階段進行。

而對于更小的MetFAces,則只需要通過ADA擴容的方式,使用預(yù)訓(xùn)練的FFHQ進行優(yōu)化調(diào)整即可。

定性地看,訓(xùn)練結(jié)果在機位、光源和反射高光等方面都有出色的表現(xiàn),圖中的細節(jié)也有所增強。

01901eb2-eb54-11ed-90ce-dac502259ad0.png

△FaceLit生成的頭像(左側(cè)四列)唇齒部位的細節(jié)進行了明顯重構(gòu)

定量結(jié)果同樣表明,F(xiàn)aceLit在FID、KID等指標(biāo)上均優(yōu)于包括標(biāo)準(zhǔn)EG3D在內(nèi)的傳統(tǒng)生成方式。

在使用FFHQ作為訓(xùn)練集的條件下,各生成方式的表現(xiàn)如下表,不難看出FaceLit擁有最低的FID和KID值。

01f9d1c2-eb54-11ed-90ce-dac502259ad0.png

而相比于英偉達的StyleGAN2,F(xiàn)aceLit的表現(xiàn)依舊出色:

021608d8-eb54-11ed-90ce-dac502259ad0.png

光線準(zhǔn)確度方面,F(xiàn)aceLit在使用三種不同訓(xùn)練數(shù)據(jù)集的情況下,與人工設(shè)定的標(biāo)準(zhǔn)值平均均方誤差均低于0.01。

023169e8-eb54-11ed-90ce-dac502259ad0.png

網(wǎng)友:人們低估了蘋果AI

消息發(fā)出后,便有網(wǎng)友認(rèn)為“這是對更重磅產(chǎn)品的預(yù)熱”。

更有網(wǎng)友直接推測,F(xiàn)aceLit的出現(xiàn)標(biāo)示著人工智能將進軍AR和VR領(lǐng)域,蘋果的混合現(xiàn)實將最終實現(xiàn)商用……

0246e052-eb54-11ed-90ce-dac502259ad0.png

也有網(wǎng)友認(rèn)為,F(xiàn)aceLit不會商用,否則蘋果才不會以論文的形式發(fā)表。

0264b2e4-eb54-11ed-90ce-dac502259ad0.png

針對FaceLit本身,也有網(wǎng)友表示,除了LLM,其他都是浮云,他們(蘋果)如果不開發(fā)LLM,就沒有未來。

0288f942-eb54-11ed-90ce-dac502259ad0.png

但這位網(wǎng)友同時也說,蘋果可能已經(jīng)在做(LLM)了。

相應(yīng)的,也有網(wǎng)友稱人們“低估了蘋果在AI領(lǐng)域的深度”。

02a894fa-eb54-11ed-90ce-dac502259ad0.png

所以各位網(wǎng)友對蘋果在AI領(lǐng)域還有什么樣的期待呢?

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1129

    瀏覽量

    40641
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3121

    瀏覽量

    48663
  • 3D圖像
    +關(guān)注

    關(guān)注

    0

    文章

    38

    瀏覽量

    10714

原文標(biāo)題:一張照片生成3D頭像!蘋果新模型擊敗StyleGAN2,表情光線都能調(diào),網(wǎng)友:要用于MR?

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    中國傳動網(wǎng):全球首3D打印唱片發(fā)布 歌聲也可3D打印

    KeleOkereke宣布,他將采用Ghassaei的方法為定于下周發(fā)布的首新歌3D打印一張唱片。得知Autodesk的創(chuàng)客空間Pier9新進了套Stratasys公司頂級的
    發(fā)表于 12-17 16:36

    Labview中如何導(dǎo)入3D模型

    Labview中如何導(dǎo)入3D模型,例如3Dmax生成模型。嘗試過用.STL格式導(dǎo)入Labview。但是
    發(fā)表于 01-26 13:13

    關(guān)于利用2D圖片利用投影的方法創(chuàng)建3D模型

    例如攝影機拍攝3圖,利用第一張和第三構(gòu)建出3D結(jié)構(gòu),測試第二圖中的特征距離該
    發(fā)表于 10-08 22:21

    Altium畫好的PCB文件,怎么刪除3D模型

    一張畫好的PCB文件,元件庫自帶了3D模型,請問下,如果要把整個PCB文件的3D模型都刪除的話,要怎么刪除?
    發(fā)表于 01-16 11:02

    浩辰3D軟件入門教程:如何比較3D模型

    。浩辰3D軟件不僅提供了完備的零件、裝配、仿真、工程圖、鈑金、焊接等數(shù)十種設(shè)計模塊,還提供了「比較模型」和「比較圖紙」功能,讓這過程高效且精確。01「比較模型」在
    發(fā)表于 12-15 13:45

    AD的3D模型繪制功能介紹

    共提供了4種類型,類型1常規(guī)型,類型2時圓柱體模型,類型3是外部模型,類型4是球體模型。我們根
    發(fā)表于 01-14 16:48

    【PHYTEC開發(fā)板試用體驗】3 通過開發(fā)板拍一張照片

    還是挺全的,可以看的出來我們的攝影頭驅(qū)動已經(jīng)裝好了。3. 應(yīng)用程序3.1 簡介嗯,接下來我們就可以寫個上層應(yīng)用程序,來驗證下這個驅(qū)動是不是好的?功能很簡單,我們按照我們的想法來拍一張照片
    發(fā)表于 06-12 14:43

    視覺處理,2d照片轉(zhuǎn)3d模型

    首先,太陽高度是恒定的。 照片每像素的亮度可求。我們只需要求出太陽與眼睛到物體的夾角就能求出3d模型。 最多就是各種物質(zhì)的反射率。 英偉達的oir芯片就是做汽車視覺的,大家去取取經(jīng)。 有時,2
    發(fā)表于 05-21 17:13

    一張照片就可識別用戶身份準(zhǔn)確率達99.5%

    有研究表明利用一張照片就可以輕松識別用戶的身份和用戶使用的智能手機型號,類似于種PRNU指紋。據(jù)悉測試的準(zhǔn)確率達到了99.5%,這種識別技術(shù)將會被用于身份驗證。
    發(fā)表于 12-18 10:58 ?1.3w次閱讀

    一張照片進行AI“換臉”之后,可以突破刷臉支付的安全系統(tǒng)嗎?

    對于引起廣泛爭議的用戶個人隱私和支付安全等問題,“ZAO”運營團隊稱,“ZAO”所呈現(xiàn)的“換臉”效果,是根據(jù)用戶提交的頭像照片,通過后期技術(shù)疊加所實現(xiàn)的虛構(gòu)圖像,并沒有采集任何個人生物識別特征;刷臉支付安全門檻極高,僅通過一張照片
    的頭像 發(fā)表于 09-12 14:20 ?5205次閱讀

    一張照片揭示了即將推出的Realme X9的纖薄外形

    今天,該品牌在印度和歐洲的首席執(zhí)行官Madhav Sheth在其Twitter上分享了一張照片。它揭示了即將推出的Realme X9的纖薄外形。根據(jù)圖片,新的智能手機將厚達六信用卡,并堆疊在起。
    的頭像 發(fā)表于 01-27 15:02 ?2424次閱讀

    首個能根據(jù)單圖像生成較高分辨率3D人臉模型的系統(tǒng)

    分辨率的3D人臉模型。 AvatarMe是首個能根據(jù)單圖像生成較高分辨率3D人臉模型的系統(tǒng)。在
    的頭像 發(fā)表于 01-27 17:02 ?3581次閱讀
    首個能根據(jù)單<b class='flag-5'>一</b>圖像<b class='flag-5'>生成</b>較高分辨率<b class='flag-5'>3D</b>人臉<b class='flag-5'>模型</b>的系統(tǒng)

    一張照片定制自己的3D數(shù)字化身?

    。僅需一張圖片甚至句文字描述,RODIN 擴散模型就能秒級生成 3D 化身,讓低成本定制 3D
    的頭像 發(fā)表于 03-22 00:15 ?473次閱讀

    3D人體生成模型HumanGaussian實現(xiàn)原理

    3D 生成領(lǐng)域,根據(jù)文本提示創(chuàng)建高質(zhì)量的 3D 人體外觀和幾何形狀對虛擬試穿、沉浸式遠程呈現(xiàn)等應(yīng)用有深遠的意義。傳統(tǒng)方法需要經(jīng)歷系列人工制作的過程,如
    的頭像 發(fā)表于 12-20 16:37 ?1473次閱讀
    <b class='flag-5'>3D</b>人體<b class='flag-5'>生成</b><b class='flag-5'>模型</b>HumanGaussian實現(xiàn)原理

    歡創(chuàng)播報 騰訊元寶首發(fā)3D生成應(yīng)用

    1 騰訊元寶首發(fā)3D生成應(yīng)用 只需一張照片,便能迅速打造獨無二的3D角色。7月16日,騰訊旗下大模型
    的頭像 發(fā)表于 07-18 11:39 ?704次閱讀
    歡創(chuàng)播報 騰訊元寶首發(fā)<b class='flag-5'>3D</b><b class='flag-5'>生成</b>應(yīng)用