丝瓜app无限观看安卓二维码,榴莲视频黄色软件下载网站

【導(dǎo)讀】給一個文本提示就能生成3D模型！

自從文本引導(dǎo)的圖像生成模型火了以后，畫家群體迅速擴(kuò)張，不會用畫筆的人也能發(fā)揮想象力進(jìn)行藝術(shù)創(chuàng)作。

但目前的模型，如DALL-E 2, Imagen等仍然停留在二維創(chuàng)作（即圖片），無法生成360度無死角的3D模型。

想要直接訓(xùn)練一個text-to-3D的模型非常困難，因為DALL-E 2等模型的訓(xùn)練需要吞噬數(shù)十億個圖像-文本對，但三維合成并不存在如此大規(guī)模的標(biāo)注數(shù)據(jù)，也沒有一個高效的模型架構(gòu)對3D數(shù)據(jù)進(jìn)行降噪。

最近Google研究員另辟蹊徑，提出一個新模型DreamFusion，先使用一個預(yù)訓(xùn)練2D擴(kuò)散模型基于文本提示生成一張二維圖像，然后引入一個基于概率密度蒸餾的損失函數(shù)，通過梯度下降法優(yōu)化一個隨機(jī)初始化的神經(jīng)輻射場NeRF模型。

論文鏈接：https://arxiv.org/abs/2209.14988

訓(xùn)練后的模型可以在任意角度、任意光照條件、任意三維環(huán)境中基于給定的文本提示生成模型，整個過程既不需要3D訓(xùn)練數(shù)據(jù)，也無需修改圖像擴(kuò)散模型，完全依賴預(yù)訓(xùn)練擴(kuò)散模型作為先驗。

從文本到3D模型

以文本為條件的生成性圖像模型現(xiàn)在支持高保真、多樣化和可控的圖像合成，高質(zhì)量來源于大量對齊的圖像-文本數(shù)據(jù)集和可擴(kuò)展的生成模型架構(gòu)，如擴(kuò)散模型。

雖然二維圖像生成的應(yīng)用場景十分廣泛，但諸如游戲、電影等數(shù)字媒體仍然需要成千上萬的詳細(xì)的三維資產(chǎn)來填充豐富的互動環(huán)境。

目前，3D資產(chǎn)的獲取方式主要由Blender和Maya3D等建模軟件手工設(shè)計，這個過程需要耗費大量的時間和專業(yè)知識。

2020年，神經(jīng)輻射場（NeRF）模型發(fā)布，其中體積光線追蹤器與從空間坐標(biāo)到顏色和體積密度的神經(jīng)映射相結(jié)合，使得NeRF已經(jīng)成為神經(jīng)逆向渲染的一個重要工具。

最初，NeRF被發(fā)現(xiàn)可以很好地用于「經(jīng)典」的三維重建任務(wù)：一個場景下的不同角度圖像提供給一個模型作為輸入，然后優(yōu)化NeRF以恢復(fù)該特定場景的幾何形狀，能夠從未觀察到的角度合成該場景的新視圖。

很多三維生成方法都是基于NeRF模型，比如2022年提出的Dream Fields使用預(yù)訓(xùn)練的CLIP模型和基于優(yōu)化的方法來訓(xùn)練NeRF，直接從文本中生成3D模型，但這種方式生成的三維物體往往缺乏真實性和準(zhǔn)確性。

DreamFusion采用了與Dream Field類似的方法，但模型中的損失函數(shù)基于概率密度蒸餾，最小化基于擴(kuò)散的前向過程的共享的高斯分布族與預(yù)訓(xùn)練的擴(kuò)散模型所學(xué)習(xí)的分?jǐn)?shù)函數(shù)之間的KL散度。

擴(kuò)散模型是一個隱變量生成模型，學(xué)習(xí)如何逐步將一個樣本從簡單的噪聲分布轉(zhuǎn)換到數(shù)據(jù)分布。

擴(kuò)散模型的包括一個前向過程（forward process），緩慢地從數(shù)據(jù)中添加噪聲并移除結(jié)構(gòu)，兩個時間步之間的過渡通常服從高斯分布，并在反向過程（reverse process）或生成式模型中在噪聲上逐漸添加結(jié)構(gòu)。

現(xiàn)有的擴(kuò)散模型采樣方法產(chǎn)生的樣本與模型訓(xùn)練的觀測數(shù)據(jù)類型和維度相同，盡管有條件的擴(kuò)散采樣能夠?qū)崿F(xiàn)相當(dāng)大的靈活性，但在像素上訓(xùn)練的擴(kuò)散模型傳統(tǒng)上只用來對像素進(jìn)行采樣。

但像素采樣并不重要，研究人員只希望創(chuàng)建的三維模型在從隨機(jī)角度渲染時，看起來像是一張好的圖像。

可微分圖像參數(shù)化（DIP）允許模型表達(dá)約束條件，在更緊湊的空間中進(jìn)行優(yōu)化（例如任意分辨率的基于坐標(biāo)的MLPs），或利用更強(qiáng)大的優(yōu)化算法來遍歷像素空間。

對于三維來說，參數(shù)θ是三維體積的參數(shù)，可微生成器g是體積渲染器，為了學(xué)習(xí)這些參數(shù)，需要一個可以應(yīng)用于擴(kuò)散模型的損失函數(shù)。

文中采用的方法是利用擴(kuò)散模型的結(jié)構(gòu)，通過優(yōu)化實現(xiàn)可操作的取樣，當(dāng)損失函數(shù)最小化時生成一個樣本，然后對參數(shù)θ進(jìn)行優(yōu)化，使x=g(θ)看起來像凍結(jié)擴(kuò)散模型的樣本。

為了進(jìn)行這種優(yōu)化，還需要一個可微的損失函數(shù)，其中可信的圖像具有較低的損失，而不可信的圖像有高的損失，與DeepDream的過程類似。

在實踐中，研究人員發(fā)現(xiàn)即使是在使用一個相同的DIP時，損失函數(shù)也無法生成現(xiàn)實的樣本。但同期的一項工作表明，這種方法可以通過精心選擇的時間步長來實現(xiàn)，但這個目標(biāo)很脆弱，其時間步長的調(diào)整也很困難。

通過觀察和分解梯度可以發(fā)現(xiàn)，U-Net Jacobian項的計算成本很高（需要通過擴(kuò)散模型U-Net進(jìn)行反向傳播），而且對于小的噪聲水平來說條件很差，因為它的訓(xùn)練目標(biāo)為近似于邊際密度的縮放Hessian

通過實驗，研究人員發(fā)現(xiàn)省略U-Net的Jacobian項可以帶來一個有效的梯度結(jié)果，能夠用于優(yōu)化帶有擴(kuò)散模型的DIPs

直觀來看，這個損失用對應(yīng)于時間步長的隨機(jī)數(shù)量的噪聲來擾動輸入數(shù)據(jù)，并估計出一個更新方向，該方向遵循擴(kuò)散模型的得分函數(shù)，以移動到一個更高密度的區(qū)域。

雖然這種用擴(kuò)散模型學(xué)習(xí)DIP的梯度可能看起來很特別，但實驗結(jié)果表明更新方向確實是從擴(kuò)散模型學(xué)到的得分函數(shù)中得到的加權(quán)概率密度蒸餾損失的梯度。

研究人員將該采樣方法命名為得分蒸餾采樣（Score Distillation Sampling, SDS），因為該過程與蒸餾有關(guān)，但使用的是得分函數(shù)而不是密度。

下一步就是通過將SDS與為該3D生成任務(wù)定制的NeRF變體相結(jié)合，DreamFusion可以為一組不同的用戶提供的文本提示生成了高保真的連貫的3D物體和場景。

文章中采用的預(yù)訓(xùn)練擴(kuò)散模型為Imagen，并且只使用分辨率為64×64的基礎(chǔ)模型，并按原樣使用這個預(yù)訓(xùn)練的模型，不做任何修改。

然后用隨機(jī)權(quán)重初始化一個類似于NeRF的模型，從隨機(jī)的相機(jī)位置和角度反復(fù)渲染該NeRF的視圖，用這些渲染結(jié)果作為環(huán)繞Imagen的分?jǐn)?shù)蒸餾損失函數(shù)的輸入。

給出一個預(yù)訓(xùn)練好的文本到圖像的擴(kuò)散模型，一個以NeRF形式存在的可w微分的圖像參數(shù)化DIP，以及一個損失函數(shù)（最小值代表好樣本），這樣無三維數(shù)據(jù)的文本到三維合成所需的所有組件就齊活了。

對于每個文本提示，都從頭開始訓(xùn)練一個隨機(jī)初始化的NeRF。

DreamFusion優(yōu)化的每次迭代都包含四步：

1、隨機(jī)采樣一個相機(jī)和燈光

在每次迭代中，相機(jī)位置在球面坐標(biāo)中被隨機(jī)采樣，仰角范圍從-10°到90°，方位角從0°到360°，與原點的距離為1到1.5

同時還在原點周圍取樣一個看（look-at）的點和一個向上（up）的矢量，并將這些與攝像機(jī)的位置結(jié)合起來，創(chuàng)建一個攝像機(jī)的姿勢矩陣。同時對焦距乘數(shù)服從U(0.7, 1.35)進(jìn)行采樣，點光位置是從以相機(jī)位置為中心的分布中采樣的。

使用廣泛的相機(jī)位置對合成連貫的三維場景至關(guān)重要，寬泛的相機(jī)距離也有助于提高學(xué)習(xí)場景的分辨率。

2、從該相機(jī)和燈光下渲染NeRF的圖像

考慮到相機(jī)的姿勢和光線的位置，以64×64的分辨率渲染陰影NeRF模型。在照明的彩色渲染、無紋理渲染和沒有任何陰影的反照率渲染之間隨機(jī)選擇。

3、計算SDS損失相對于NeRF參數(shù)的梯度

通常情況下，文本prompt描述的都是一個物體的典型視圖，在對不同的視圖進(jìn)行采樣時，這些視圖并不是最優(yōu)描述。根據(jù)隨機(jī)采樣的相機(jī)的位置，在提供的輸入文本中附加與視圖有關(guān)的文本是有益的。

對于大于60°的高仰角，在文本中添加俯視（overhead view），對于不大于60°的仰角，使用文本embedding的加權(quán)組合來添加前視圖、側(cè)視圖或后視圖，具體取決于方位角的值。

4、使用優(yōu)化器更新NeRF參數(shù)

3D場景在一臺有4個芯片的TPUv4機(jī)器上進(jìn)行了優(yōu)化，每個芯片渲染一個單獨的視圖并評估擴(kuò)散U-Net，每個設(shè)備的batch size為1。優(yōu)化了15,000次迭代，大約需要1.5小時。

實驗部分評估了DreamFusion從各種文本提示中生成連貫的3D場景的能力。

與現(xiàn)有的zero-shot文本到3D生成模型進(jìn)行比較后可以發(fā)現(xiàn)，DreamFusion模型中能夠?qū)崿F(xiàn)精確3D幾何的關(guān)鍵組件。

通過對比DreamFusion和幾個基線的R-精度，包括Dream Fields、CLIP-Mesh和一個評估MS-COCO中原始字幕圖像的oracle，可以發(fā)現(xiàn)DreamFusion在彩色圖像上的表現(xiàn)超過了這兩個基線，并接近于ground-truth圖像的性能。

雖然Dream Fields的實現(xiàn)在用無紋理渲染評估幾何圖形（Geo）時表現(xiàn)得很好，但DreamFusion在58.5%的情況里與標(biāo)準(zhǔn)一致。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

圖像

圖像

+關(guān)注

關(guān)注
2

文章
1078

瀏覽量
40375
3D模型

3D模型

+關(guān)注

關(guān)注
1

文章
71

瀏覽量
15671

原文標(biāo)題：3D版DALL-E來了！谷歌發(fā)布文本3D生成模型DreamFusion，給一個文本提示就能生成3D模型！

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

歡創(chuàng)播報騰訊元寶首發(fā)3D生成應(yīng)用

1 騰訊元寶首發(fā)3D生成應(yīng)用只需一張照片，便能迅速打造獨一無二的3D角色。7月16日，騰訊旗下大模型

發(fā)表于 07-18 11:39 ?689次閱讀

裸眼3D筆記本電腦——先進(jìn)的光場裸眼3D技術(shù)

效果的用戶，這款筆記本電腦都能滿足你的需求。一、卓越的3D模型設(shè)計能力英倫科技裸眼3D筆記本電腦采用最新的光場裸眼3D技術(shù)，使用戶無需佩

發(fā)表于 07-16 10:04 ?430次閱讀

ad19中3d模型不顯示？

封裝庫導(dǎo)入3d模型不顯示，但導(dǎo)入3d模型后的封裝庫生成pcb文件時顯示3d

發(fā)表于 04-24 13:41

包含具有多種類型信息的3D模型

、安全和高效的建筑系統(tǒng)，讓居住者能夠擁有可持續(xù)、彈性舒適且符合人體工程學(xué)的建筑。建筑信息模型（BIM）是建筑工程師在建筑物和其他結(jié)構(gòu)設(shè)計中使用的一種3D建模過程。BIM軟件提供了一

發(fā)表于 03-28 17:18

NVIDIA生成式AI研究實現(xiàn)在1秒內(nèi)生成3D形狀

NVIDIA 研究人員使 LATTE3D （一款最新文本轉(zhuǎn) 3D 生成式 AI 模型）實現(xiàn)雙倍加

發(fā)表于 03-27 10:28 ?452次閱讀

Meta發(fā)布SceneScript視覺模型，高效構(gòu)建室內(nèi)3D模型

Meta 表示，此模型具備創(chuàng)建室內(nèi) 3D 模型的高效與輕便，僅需幾KB內(nèi)存便能生成完整清晰的幾何圖形，同時，這些形狀數(shù)據(jù)具備可解釋性，便于用戶理解和編輯。

發(fā)表于 03-26 11:16 ?529次閱讀

Stability AI推出全新Stable Video 3D模型

近日，Stability AI 推出了全新的 Stable Video 3D 模型，該模型以其獨特的功能吸引了眾多關(guān)注。此模型具備從單張圖像中生成

發(fā)表于 03-22 10:30 ?752次閱讀

Stability AI推出Stable Video 3D模型，可制作多視角3D視頻

SV3D_u是Stable Video 3D的一個版本，僅需單幅圖片即可生成運(yùn)動軌跡視頻，無須進(jìn)行相機(jī)調(diào)整。擴(kuò)充版本的SV

發(fā)表于 03-21 14:57 ?922次閱讀

Adobe Substance 3D整合AI功能：基于文本生成紋理、背景

Substance 3D Stager是以Adobe Dimension為基礎(chǔ)改造而成，使用者可直觀地進(jìn)行3D場景構(gòu)建，包括模型、材質(zhì)和燈光等要素。借助其強(qiáng)大功能，能夠生成極具觀賞性的

發(fā)表于 03-20 10:28 ?645次閱讀

Adobe提出DMV3D：3D生成只需30秒！讓文本、圖像都動起來的新方法！

因此，本文研究者的目標(biāo)是實現(xiàn)快速、逼真和通用的 3D 生成。為此，他們提出了 DMV3D。DMV3D 是一種全新的單階段的全類別擴(kuò)散

發(fā)表于 01-30 16:20 ?778次閱讀

高分工作！Uni3D：3D基礎(chǔ)大模型，刷新多個SOTA！

我們主要探索了3D視覺中scale up模型參數(shù)量和統(tǒng)一模型架構(gòu)的可能性。在NLP / 2D vision領(lǐng)域，scale up大

發(fā)表于 01-30 15:56 ?754次閱讀

3D人體生成模型HumanGaussian實現(xiàn)原理

在 3D 生成領(lǐng)域，根據(jù)文本提示創(chuàng)建高質(zhì)量的 3D 人體外觀和幾何形狀對虛擬試穿、沉浸式遠(yuǎn)程呈現(xiàn)等應(yīng)用有深遠(yuǎn)的意義。傳統(tǒng)方法需要經(jīng)歷

發(fā)表于 12-20 16:37 ?1470次閱讀

CASAIM沙盤模型3D打印的優(yōu)勢和應(yīng)用

隨著3D打印技術(shù)的不斷發(fā)展，沙盤模型3D打印已經(jīng)成為建筑行業(yè)中的一項創(chuàng)新應(yīng)用。這種技術(shù)能夠?qū)⒃O(shè)計師的創(chuàng)意以實體形式呈現(xiàn)，為建筑項目的溝通和展示提供了更加直觀和便捷的方式。本文將介紹CA

發(fā)表于 12-19 16:44 ?542次閱讀

PADS VX2.7 下載安裝及3D模型導(dǎo)入的注意事項

://mentor.mr-wu.cn/ 安裝方式按照安裝包內(nèi)的指導(dǎo)完成即可。破解注意事項：1.用最新版饅頭破解 2.必須關(guān)閉殺毒軟件，否則破解后不可用！二：3D模型導(dǎo)入 1.從3D模型

發(fā)表于 11-22 17:54

HT for Web (Hightopo) 使用心得（4）- 3D 場景 Graph3dView 與 Obj 模型

這里我們通過代碼建立一個 3D 場景并添加一個 Obj 模型來介紹

發(fā)表于 11-20 11:05 ?707次閱讀