隨便一張照片,就可生成3D頭像。而且光線真實,任意角度可調(diào)。
正如其名,F(xiàn)aceLit的特色就是可以將人臉“點亮”。
“自帶光環(huán)”的FaceLit在易用性上也不輸同類,甚至更勝一籌——
進行3D建模時,需要的照片素材無需專門選擇角度,數(shù)量上也只需一張。
甚至對表情、發(fā)型、眼鏡等元素進行調(diào)節(jié)時,也不需要額外素材。
而傳統(tǒng)的頭像合成工具或者需要多張圖片才能工作,或者對照片角度有刁鉆的要求。
正是憑借這一創(chuàng)新,F(xiàn)aceLit獲得了3.5的FID評分,較同類產(chǎn)品直接高出了25%。
改進式EG3D合成人像,光線信息單獨處理
下面就來看一下FaceLit具體是如何實現(xiàn)頭像合成的。
總的來說,蘋果采用了將人物本體與光線分別處理再進行疊加的策略。
早期的三維人像合成工具在轉(zhuǎn)換過程中可能產(chǎn)生形變。
而爆火的NeRF通過將場景拆分成具體因素,提高了3D圖像合成效果,改善了這一問題。
但蘋果團隊認(rèn)為,在可控性方面,NeRF仍存有不足之處。
于是,在EG3D框架的基礎(chǔ)上,蘋果創(chuàng)造了FaceLit的合成模型。
EG3D通過三平面解碼器,賦予了二維卷積神經(jīng)網(wǎng)絡(luò)生成渲染3D模型所需深度參數(shù)的能力。
蘋果團隊對標(biāo)準(zhǔn)的EG3D訓(xùn)練方式進行了擴展,并將之轉(zhuǎn)化成了FaceLit框架。
△FaceLit與傳統(tǒng)EG3D渲染流程對比圖
標(biāo)準(zhǔn)的ED3G使用相機位置p參數(shù)作為基本輸入?yún)?shù)。
在建立GAN2操作時,蘋果在EG3D的基礎(chǔ)上加入了光照參數(shù)l。
△不同p(左→右)與l(上→下)值下的初始圖像
蘋果選擇了經(jīng)過球形諧波方式簡化后的Phong反射模型作為處理光源的物理基礎(chǔ)。
光照參數(shù)l就是在這一基礎(chǔ)之上獨立處理得到的。
在自然界中,反射包括鏡面反射和漫反射兩種形式。
△不同鏡面反射率條件下的效果對比
因此,蘋果在ED3G模型中加入了鏡面反射解碼器和漫反射解碼器。
它們替代了可以直接得到顏色c、密度σ數(shù)據(jù)的三平面解碼器。
△反射解碼器流程示意圖
通過對GAN2產(chǎn)生的數(shù)據(jù)進行再次解碼,可以得到鏡面反射率ks和漫反射率kd。
然后再通過兩種反射著色器得到顏色c,密度σ則由漫反射解碼器計算得出。
最終,F(xiàn)aceLit以與三平面解碼器相同的參數(shù)(c,w,σ)渲染圖像,并進行分辨率優(yōu)化。
有的放矢設(shè)計訓(xùn)練策略,數(shù)據(jù)無需人工標(biāo)注
生成框架已有,那就來到訓(xùn)練階段,其特點在于訓(xùn)練過程中無需人工標(biāo)注。
方法論層面,在訓(xùn)練時,團隊使用了FFHQ、MetFaces和CelebA-HQ數(shù)據(jù)集。
對于不同的數(shù)據(jù)集,蘋果使用了不同的訓(xùn)練方式。
FFHQ包含了7萬余條人臉數(shù)據(jù),其訓(xùn)練分為兩個階段:先在較低的分辨率下訓(xùn)練,再提高分辨率再次進行。
對于包含2萬數(shù)據(jù)量的CelebA-HQ,訓(xùn)練不需要分階段進行。
而對于更小的MetFAces,則只需要通過ADA擴容的方式,使用預(yù)訓(xùn)練的FFHQ進行優(yōu)化調(diào)整即可。
定性地看,訓(xùn)練結(jié)果在機位、光源和反射高光等方面都有出色的表現(xiàn),圖中的細節(jié)也有所增強。
△FaceLit生成的頭像(左側(cè)四列)唇齒部位的細節(jié)進行了明顯重構(gòu)
定量結(jié)果同樣表明,F(xiàn)aceLit在FID、KID等指標(biāo)上均優(yōu)于包括標(biāo)準(zhǔn)EG3D在內(nèi)的傳統(tǒng)生成方式。
在使用FFHQ作為訓(xùn)練集的條件下,各生成方式的表現(xiàn)如下表,不難看出FaceLit擁有最低的FID和KID值。
而相比于英偉達的StyleGAN2,F(xiàn)aceLit的表現(xiàn)依舊出色:
光線準(zhǔn)確度方面,F(xiàn)aceLit在使用三種不同訓(xùn)練數(shù)據(jù)集的情況下,與人工設(shè)定的標(biāo)準(zhǔn)值平均均方誤差均低于0.01。
網(wǎng)友:人們低估了蘋果AI
消息發(fā)出后,便有網(wǎng)友認(rèn)為“這是對更重磅產(chǎn)品的預(yù)熱”。
更有網(wǎng)友直接推測,F(xiàn)aceLit的出現(xiàn)標(biāo)示著人工智能將進軍AR和VR領(lǐng)域,蘋果的混合現(xiàn)實將最終實現(xiàn)商用……
也有網(wǎng)友認(rèn)為,F(xiàn)aceLit不會商用,否則蘋果才不會以論文的形式發(fā)表。
針對FaceLit本身,也有網(wǎng)友表示,除了LLM,其他都是浮云,他們(蘋果)如果不開發(fā)LLM,就沒有未來。
但這位網(wǎng)友同時也說,蘋果可能已經(jīng)在做(LLM)了。
相應(yīng)的,也有網(wǎng)友稱人們“低估了蘋果在AI領(lǐng)域的深度”。
所以各位網(wǎng)友對蘋果在AI領(lǐng)域還有什么樣的期待呢?
審核編輯 :李倩
-
解碼器
+關(guān)注
關(guān)注
9文章
1129瀏覽量
40641 -
模型
+關(guān)注
關(guān)注
1文章
3121瀏覽量
48663 -
3D圖像
+關(guān)注
關(guān)注
0文章
38瀏覽量
10714
原文標(biāo)題:一張照片生成3D頭像!蘋果新模型擊敗StyleGAN2,表情光線都能調(diào),網(wǎng)友:要用于MR?
文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論