18禁美女把腿扒开无遮挡,天堂成人在线,精品人妻人人做人人爽

近日，由微軟亞洲研究院提出的 Roll-out Diffusion Network (RODIN) 模型，首次實(shí)現(xiàn)了利用生成擴(kuò)散模型在 3D 訓(xùn)練數(shù)據(jù)上自動(dòng)生成 3D 數(shù)字化身（Avatar）的功能。僅需一張圖片甚至一句文字描述，RODIN 擴(kuò)散模型就能秒級(jí)生成 3D 化身，讓低成本定制 3D 頭像成為可能，為 3D 內(nèi)容創(chuàng)作領(lǐng)域打開了更多想象空間。相關(guān)論文“RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion”已被 CVPR 2023 接收。

創(chuàng)建個(gè)性化的用戶形象在如今的數(shù)字世界中非常普遍，很多 3D 游戲都設(shè)有這一功能。然而在創(chuàng)建個(gè)人形象的過程中，繁瑣的細(xì)節(jié)調(diào)整常常讓人又愛又恨，有時(shí)候大費(fèi)周章地選了與自己相似的眼睛、鼻子、發(fā)型、眼鏡等細(xì)節(jié)之后，卻發(fā)現(xiàn)拼接起來與自己仍大相徑庭。既然現(xiàn)在的 AI 技術(shù)已經(jīng)可以生成惟妙惟肖的 2D 圖像，那么在 3D 世界中，我們是否可以擁有一個(gè)“AI 雕塑家”，僅通過一張照片就可以幫我們量身定制自己的 3D 數(shù)字化身呢？

微軟亞洲研究院新提出的 3D 生成擴(kuò)散模型 Roll-out Diffusion Network (RODIN）可以輕松做到。讓我們先來看看 RODIN 的實(shí)力吧！

(a) 給定的照片

(b)生成的虛擬形象

圖1：給定一張照片，RODIN 模型即可生成虛擬形象

(a）輸入文字“留卷發(fā)和大胡子穿著黑色皮夾克的男性”

(b) 輸入文字“紅色衣著非洲發(fā)型的女性”

圖2：給定文本描述，RODIN 模型可直接生成虛擬形象

與傳統(tǒng) 3D 建模需要投入大量人力成本、制作過程繁瑣不同的是，RODIN 以底層思路的創(chuàng)新突破與精巧的模型設(shè)計(jì)，突破了二次元到三次元的結(jié)界，實(shí)現(xiàn)了只輸入一張圖片或一句文字就能在幾秒之內(nèi)生成定制的 3D 數(shù)字化身的能力。在此之前，AI 生成技術(shù)還僅僅圍繞 2D 圖像進(jìn)行創(chuàng)作，RODIN 模型的出現(xiàn)也將極大地推動(dòng) AI 在 3D 生成領(lǐng)域的進(jìn)步。相關(guān)論文“RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion”已被 CVPR 2023 接收。

論文鏈接：

RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion

https://arxiv.org/abs/2212.06135

項(xiàng)目頁面：

https://3d-avatar-diffusion.microsoft.com

RODIN模型首次將

擴(kuò)散模型應(yīng)用于3D訓(xùn)練數(shù)據(jù)

在 3D 生成領(lǐng)域，盡管此前有不少研究利用 GAN（生成對(duì)抗網(wǎng)絡(luò)）或 VAE（變分自動(dòng)編碼器）技術(shù)，從大量 2D 圖像訓(xùn)練數(shù)據(jù)中生成 3D 圖像，但結(jié)果卻不盡如人意，“兩面派”、“三頭哪吒”等抽象派 3D 圖像時(shí)有出現(xiàn)?？蒲腥藛T們認(rèn)為，造成這種現(xiàn)象的原因在于這些方法存在一個(gè)基礎(chǔ)的欠定（ill posed）問題，也就是說由于單視角圖片存在幾何二義性，從僅僅通過大量的 2D 數(shù)據(jù)很難學(xué)到高質(zhì)量 3D 化身的合理分布，所以才造成了各種不完美的生成結(jié)果。

對(duì)此，微軟亞洲研究院的研究員們轉(zhuǎn)變思路，首次提出 3D Diffusion Model，利用擴(kuò)散模型的表達(dá)能力來建模 3D 內(nèi)容。這種方法通過多張視角圖來訓(xùn)練 3D 模型，消除了歧義性、二義性所帶來的“四不象”結(jié)果，從而得到一個(gè)正確解，創(chuàng)建出更逼真的 3D 形象。

然而，要實(shí)現(xiàn)這種方法，還需要克服三個(gè)難題：

首先，盡管擴(kuò)散模型此前在 2D 內(nèi)容生成上取得巨大成功，將其應(yīng)用在 3D 數(shù)據(jù)上并沒有可參考的實(shí)踐方法和可遵循的前例。如何將擴(kuò)散模型用于生成 3D 模型的多視角圖，是研究員們找到的關(guān)鍵切入點(diǎn)；
其次，機(jī)器學(xué)習(xí)模型的訓(xùn)練需要海量的數(shù)據(jù)，但一個(gè)多視圖、一致且多樣、高質(zhì)量和大規(guī)模的 3D 圖像數(shù)據(jù)很難獲取，還存在隱私和版權(quán)等方面的風(fēng)險(xiǎn)。網(wǎng)絡(luò)公開的 3D 圖像又無法保證多視圖的一致性，且數(shù)據(jù)量也不足以支撐 3D 模型的訓(xùn)練；
第三，在機(jī)器上直接拓展 2D 擴(kuò)散模型至 3D 生成，所需的內(nèi)存存儲(chǔ)與計(jì)算開銷幾乎無法承受。

多項(xiàng)技術(shù)創(chuàng)新讓RODIN模型

以低成本生成高質(zhì)量的3D圖像

為了解決上述難題，微軟亞洲研究院的研究員們創(chuàng)新地提出了 RODIN 擴(kuò)散模型，并在實(shí)驗(yàn)中取得了優(yōu)異的效果，超越了現(xiàn)有模型的 SOTA 水平。

RODIN 模型采用神經(jīng)輻射場(chǎng)（NeRF）方法，并借鑒英偉達(dá)的 EG3D 工作，將 3D 空間緊湊地表達(dá)為空間三個(gè)互相垂直的特征平面（Triplane），并將這些圖展開至單個(gè) 2D 特征平面中，再執(zhí)行 3D 感知擴(kuò)散。具體而言，就是將 3D 空間在橫、縱、垂三個(gè)正交平面視圖上以二維特征展開，這樣不僅可以讓 RODIN 模型使用高效的 2D 架構(gòu)進(jìn)行 3D 感知擴(kuò)散，將三維圖像降維成二維圖像也大幅降低了計(jì)算復(fù)雜度和計(jì)算成本。

圖3：3D 感知卷積高效處理 3D 特征。（左圖) 用三平面（triplane）表達(dá) 3D 空間，此時(shí)底部特征平面的特征點(diǎn)對(duì)應(yīng)于另外兩個(gè)特征平面的兩條線。（右圖）引入 3D 感知卷積處理展開的 2D 特征平面，同時(shí)考慮到三個(gè)平面的三維固有對(duì)應(yīng)關(guān)系。

要實(shí)現(xiàn) 3D 圖像的生成需要三個(gè)關(guān)鍵要素：

3D 感知卷積，確保降維后的三個(gè)平面的內(nèi)在關(guān)聯(lián)。傳統(tǒng) 2D 擴(kuò)散中使用的 2D 卷積神經(jīng)網(wǎng)絡(luò)（CNN）并不能很好地處理 Triplane 特征圖。而 3D 感知卷積并不是簡(jiǎn)單生成三個(gè) 2D 特征平面，而是在處理這樣的 3D 表達(dá)時(shí)，考慮了其固有的三維特性，即三個(gè)視圖平面中其中一個(gè)視圖的 2D 特征本質(zhì)上是 3D 空間中一條直線的投影，因此與其他兩個(gè)平面中對(duì)應(yīng)的直線投影特征存在關(guān)聯(lián)性。為了實(shí)現(xiàn)跨平面通信，研究員們?cè)诰矸e中考慮了這樣的 3D 相關(guān)性，因此高效地用 2D 的方式合成 3D 細(xì)節(jié)。
隱空間協(xié)奏三平面 3D 表達(dá)生成。研究員們通過隱向量來協(xié)調(diào)特征生成，使其在整個(gè)三維空間中具有全局一致性，從而獲得更高質(zhì)量的化身并實(shí)現(xiàn)語義編輯，同時(shí)，還通過使用訓(xùn)練數(shù)據(jù)集中的圖像訓(xùn)練額外的圖像編碼器，該編碼器可提取語義隱向量作為擴(kuò)散模型的條件輸入。這樣，整體的生成網(wǎng)絡(luò)可視為自動(dòng)編碼器，用擴(kuò)散模型作為解碼隱空間向量。對(duì)于語義可編輯性，研究員們采用了一個(gè)凍結(jié)的 CLIP 圖像編碼器，與文本提示共享隱空間。
層級(jí)式合成，生成高保真立體細(xì)節(jié)。研究員們利用擴(kuò)散模型先生成了一個(gè)低分辨率的三視圖平面（64×64），然后再通過擴(kuò)散上采樣生成高分辨率的三平面（256×256）。這樣，基礎(chǔ)擴(kuò)散模型集中于整體 3D 結(jié)構(gòu)生成，而后續(xù)上采樣模型專注于細(xì)節(jié)生成。

圖4：RODIN 模型概述

此外，在訓(xùn)練數(shù)據(jù)集方面，研究員們借助開源的三維渲染軟件 Blender，通過隨機(jī)組合畫師手動(dòng)創(chuàng)建的虛擬 3D 人物圖像，再加上從大量頭發(fā)、衣服、表情和配飾中隨機(jī)采樣，進(jìn)而創(chuàng)建了10萬個(gè)合成個(gè)體，同時(shí)為每個(gè)個(gè)體渲染出了300個(gè)分辨率為256*256的多視圖圖像。在文本到 3D 頭像的生成上，研究員們采用了 LAION-400M數(shù)據(jù)集的人像子集訓(xùn)練從輸入模態(tài)到 3D 擴(kuò)散模型隱空間的映射，最終讓 RODIN 模型可以只使用一張 2D 圖像或一句文字描述就能創(chuàng)建出逼真的 3D 頭像。

圖5：利用文字做 3D 肖像編輯

圖6：更多隨機(jī)生成的虛擬形象（更多結(jié)果請(qǐng)點(diǎn)擊閱讀原文，移步項(xiàng)目網(wǎng)頁）

微軟亞洲研究院主管研究員張博表示，“此前，3D 領(lǐng)域的研究受限于技術(shù)或高成本，生成的 3D 結(jié)果主要是點(diǎn)云、體素、網(wǎng)格等形式的粗糙幾何體，而 RODIN 模型可創(chuàng)建出前所未有的 3D 細(xì)節(jié)，為 3D 內(nèi)容生成研究打開了新的思路。我們希望 RODIN 模型在未來可以成為 3D 內(nèi)容生成領(lǐng)域的基礎(chǔ)模型，為后續(xù)的學(xué)術(shù)研究和產(chǎn)業(yè)應(yīng)用創(chuàng)造更多可能?！?/p>

讓3D內(nèi)容生成

更個(gè)性、更普適

現(xiàn)如今，虛擬人、數(shù)字化身在電影、游戲、元宇宙、線上會(huì)議、電商等行業(yè)和場(chǎng)景中的需求日益增多，但其制作流程卻相當(dāng)復(fù)雜專業(yè)，每個(gè)高質(zhì)量的化身都必須由專業(yè)的 3D 畫師精心創(chuàng)作，尤其是在建模頭發(fā)和面部毛發(fā)時(shí)，甚至需要逐根繪制，其中的艱辛歷程外人難以想象。微軟亞洲研究院 RODIN 模型的快速生成能力，可以協(xié)助 3D 畫師減輕數(shù)字化身創(chuàng)作的工作量，提升效率，促進(jìn) 3D 內(nèi)容產(chǎn)業(yè)的發(fā)展。

目前，3D 真人化身的創(chuàng)建耗時(shí)耗力，很多項(xiàng)目背后可能都有一個(gè)上百人的團(tuán)隊(duì)在做支持，實(shí)現(xiàn)方法更多的是借助虛幻引擎、游戲引擎，再加上畫師的專業(yè)繪畫能力，才能設(shè)計(jì)出高度逼真的真人定制 3D 化身，普通大眾很難使用這些服務(wù)，通常只能得到一些現(xiàn)成的、與本人毫無關(guān)連的化身。而 RODIN 模型低成本和可定制化的 3D 建模技術(shù)，兼具普適性和個(gè)性化，讓 3D 內(nèi)容生成走向大眾成為可能。

劉潏

微軟亞洲研究院資深產(chǎn)品經(jīng)理

盡管當(dāng)前 RODIN 模型生成結(jié)果主要為半身的 3D 頭像，但是其技術(shù)能力并不僅限于 3D 頭像的生成。隨著包括花草樹木、建筑、汽車家居等更多類別和更大規(guī)模訓(xùn)練數(shù)據(jù)的學(xué)習(xí)，RODIN 模型將能生成更多樣的 3D 圖像。下一步，微軟亞洲研究院的研究員們將用 RODIN 模型探索更多 3D 場(chǎng)景創(chuàng)建的可能，向一個(gè)模型生成 3D 萬物的終極目標(biāo)不斷努力。

關(guān)注微軟科技視頻號(hào)

了解更多科技前沿資訊

? ?

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

微軟

微軟

+關(guān)注

關(guān)注
4

文章
6554

瀏覽量
103896

原文標(biāo)題：一張照片定制自己的3D數(shù)字化身？

文章出處：【微信號(hào)：mstech2014，微信公眾號(hào)：微軟科技】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

3D掃描與數(shù)字拓片：打造文化遺產(chǎn)的數(shù)字復(fù)本

拓片作為一種記錄和傳承傳統(tǒng)石刻文化的方式，承載了厚重的歷史文化信息。然而，傳統(tǒng)的拓片手段在文物保存和展示方面存在許多局限。隨著科技的進(jìn)步，通過3D掃描制作數(shù)字拓片，不僅能夠精準(zhǔn)采集石刻的每一

發(fā)表于 10-31 17:22 ?110次閱讀

3D掃描技術(shù)醫(yī)療領(lǐng)域創(chuàng)新實(shí)踐，積木易搭3D掃描儀Mole助力定制個(gè)性化手臂康復(fù)輔具

1、“3D掃描+3D打印”技術(shù)為矯形修復(fù)、醫(yī)療輔助器具定制等領(lǐng)域帶來突破性創(chuàng)新近年來，隨著AI、大數(shù)據(jù)、3D掃描、3D打印、云計(jì)算、物聯(lián)網(wǎng)

發(fā)表于 10-31 11:25 ?87次閱讀

3D打印技術(shù)應(yīng)用的未來

3D打印技術(shù)作為一種革命性的制造技術(shù)，正逐漸改變著傳統(tǒng)制造業(yè)的面貌。其通過數(shù)字化模型的逐層疊加，能夠制造出復(fù)雜形狀的物體，這種增材制造方式在多個(gè)領(lǐng)域展現(xiàn)出巨大的潛力和廣泛的應(yīng)用前景。一

發(fā)表于 10-25 09:28 ?386次閱讀

發(fā)掘3D文件格式的無限潛力：打造沉浸式虛擬世界

在當(dāng)今數(shù)字化時(shí)代，3D技術(shù)的應(yīng)用范圍日益廣泛，涵蓋電影后期制作、產(chǎn)品原型設(shè)計(jì)、虛擬現(xiàn)實(shí)（VR）、增強(qiáng)現(xiàn)實(shí)（AR）、游戲等眾多領(lǐng)域。而3D文件格式作為3D技術(shù)的核心組成部分，對(duì)于實(shí)現(xiàn)

發(fā)表于 09-26 18:14 ?1437次閱讀

物聯(lián)網(wǎng)行業(yè)中的模具定制方案_3D打印材料選型分享

3D打印材料介紹 3D打印技術(shù)是一種快速制造技術(shù)，它可以將數(shù)字模型轉(zhuǎn)化為實(shí)體物體。3D打印材料是3D

發(fā)表于 09-25 10:59 ?268次閱讀

廣東三維掃描人物雕塑還原3D建模測(cè)繪數(shù)字化逆向工程服務(wù)-CASAIM

3D數(shù)字化

中科院廣州電子
發(fā)布于 :2024年08月30日 09:47:50

廣州三維掃描石雕獅子逆向設(shè)計(jì)3D數(shù)字化建模存檔-CASAIM

3D數(shù)字化

中科院廣州電子
發(fā)布于 :2024年08月30日 09:39:39

3D 建模：塑造未來的無限可能

在當(dāng)今數(shù)字化飛速發(fā)展的時(shí)代，3D 建模正以驚人的力量改變著我們的生活和工作方式。它不僅是一項(xiàng)創(chuàng)新的技術(shù)，更是開啟未來之門的鑰匙。 3D或三維這個(gè)術(shù)語指的是三個(gè)空間維度：寬度、高度和深度

發(fā)表于 08-16 18:24 ?1511次閱讀

掃描“紅色文物”，致敬崢嶸歲月 3D數(shù)字化助力文物保護(hù)與傳播

報(bào)道了遵義會(huì)議紀(jì)念館文物數(shù)字化保護(hù)工程，思看科技有幸參與該項(xiàng)目的三維數(shù)字化采集工作，為大量館藏文物建立三維數(shù)字檔案。 3D掃描技術(shù)結(jié)合3D打

發(fā)表于 08-01 20:26 ?223次閱讀

歡創(chuàng)播報(bào) 騰訊元寶首發(fā)3D生成應(yīng)用

1 騰訊元寶首發(fā)3D生成應(yīng)用只需一張照片，便能迅速打造獨(dú)一無二的3D角色。7月16日，騰訊旗下大模型應(yīng)用“騰訊元寶”上線了“3D角色夢(mèng)工廠

發(fā)表于 07-18 11:39 ?692次閱讀

裸眼3D相框——不一樣的智能相框

在科技的快速發(fā)展下，我們的生活正在逐漸變得豐富多彩。傳統(tǒng)的2D照片已經(jīng)無法滿足我們對(duì)于美好記憶的追求，而裸眼3D技術(shù)的出現(xiàn)，讓我們有機(jī)會(huì)將回憶變得更加立體、生動(dòng)。今天，我要向大家介紹一

發(fā)表于 05-31 11:40 ?373次閱讀

2張圖2秒鐘完成3D建模！3D內(nèi)容生成工具DUSt3R爆火，國產(chǎn)廠商有哪些機(jī)會(huì)？

電子發(fā)燒友網(wǎng)報(bào)道（文/吳子鵬）近日，一款名為DUSt3R的AI新工具在GitHub上爆火。DUSt3R能夠在短短2秒鐘內(nèi)通過僅有2張圖片完成3D

發(fā)表于 03-06 00:10 ?3906次閱讀

泰來三維| 高精度工業(yè)3D掃描助力模具檢測(cè)和逆向設(shè)計(jì)“數(shù)字化”發(fā)展

相應(yīng)的，產(chǎn)品所需的模具結(jié)構(gòu)也變得愈發(fā)復(fù)雜精密，傳統(tǒng)檢測(cè)方式和測(cè)繪工具很難滿足些最新需求。高精度工業(yè)3D掃描技術(shù)的出現(xiàn)，通過獲取工件完整的三維數(shù)據(jù)，為模具檢測(cè)和逆向設(shè)計(jì)提供“數(shù)字化”破局之法。高精度

發(fā)表于 01-29 16:22 ?418次閱讀

一文了解3D視覺和2D視覺的區(qū)別

一文了解3D視覺和2D視覺的區(qū)別 3D視覺和2D視覺是兩種不同的視覺模式，其區(qū)別主要體現(xiàn)在立體感、深度感和逼真度上。本文將詳細(xì)闡述這些區(qū)別，

發(fā)表于 12-25 11:15 ?2792次閱讀

一張圖看懂“PCB設(shè)計(jì)考慮的因素”

一張圖看懂“PCB設(shè)計(jì)考慮的因素”

發(fā)表于 11-23 18:15 ?972次閱讀