0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

上線一周就2.1k star!單張圖像直接轉(zhuǎn)為3D模型!

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-11-06 16:13 ? 次閱讀

0. 筆者個(gè)人體會(huì)

提問:給你一張2D圖像,要求獲得完整的三維模型,你會(huì)怎么做?

我第一反應(yīng)是拿SolidWorks自己畫一個(gè)~

最近就看到了這樣的一項(xiàng)開源工作Wonder3D,可以直接從2D圖像生成3D模型,感覺很神奇。讀了讀文章,發(fā)現(xiàn)這項(xiàng)工作是基于擴(kuò)散模型實(shí)現(xiàn)的,這里也不得不感嘆擴(kuò)散模型確實(shí)在AI繪畫和圖像生成領(lǐng)域有無限前景。今天筆者也將帶領(lǐng)讀者閱讀一下這項(xiàng)工作,當(dāng)然筆者水平有限,如果有理解不當(dāng)?shù)牡胤綒g迎大家一起探討,共同學(xué)習(xí)。

1. 效果展示

Wonder3D僅需2~3分鐘即可從單視圖圖像重建高細(xì)節(jié)紋理網(wǎng)格。Wonder3D首先通過跨域擴(kuò)散模型生成一致的多視法線圖與相應(yīng)的彩色圖像,然后利用一種法線融合方法來實(shí)現(xiàn)快速和高質(zhì)量的重建。這里也推薦「3D視覺工坊」新課程《徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進(jìn)》。

9a83467a-7c55-11ee-939d-92fbcf53809c.png

對(duì)不同風(fēng)格的圖像也都適用。

9ab04418-7c55-11ee-939d-92fbcf53809c.png

甚至對(duì)各種小動(dòng)物也適用:

9ad1c6c4-7c55-11ee-939d-92fbcf53809c.png

代碼已經(jīng)開源了,而且他們的官方主頁(yè)還放上了Live Demo的鏈接,感興趣的讀者可以上傳自己的圖像來嘗試,下面展示一下筆者自己的測(cè)試結(jié)果。

原始圖像:

9aff0fda-7c55-11ee-939d-92fbcf53809c.png

生成的多視角圖像:

9b1ee09e-7c55-11ee-939d-92fbcf53809c.png

2. 摘要

在這篇文章中,我們介紹了Wonder3D,一種從單視圖圖像中高效生成高保真紋理網(wǎng)格的新方法?;诜?jǐn)?shù)蒸餾采樣(SDS)的最近方法已經(jīng)顯示出從2D擴(kuò)散先驗(yàn)恢復(fù)3D幾何形狀的潛力,但是它們通常遭受每個(gè)形狀優(yōu)化的耗時(shí)和不一致的幾何形狀。相比之下,某些作品通過快速網(wǎng)絡(luò)推理直接產(chǎn)生3D信息,但其結(jié)果通常質(zhì)量較低且缺乏幾何細(xì)節(jié)。為了從整體上提高圖像到3D任務(wù)的質(zhì)量、一致性和效率,我們提出了一種跨域擴(kuò)散模型來生成多視圖法線貼圖和相應(yīng)的彩色圖像。為了確保一致性,我們采用了一種多視圖跨域關(guān)注機(jī)制,該機(jī)制有助于跨視圖和模態(tài)的信息交換。最后,我們介紹了一種幾何感知法向融合算法,從多視圖2D表示中提取高質(zhì)量的表面。我們的大量評(píng)估表明,與先前的工作相比,我們的方法實(shí)現(xiàn)了高質(zhì)量的重建結(jié)果、魯棒的泛化以及相當(dāng)好的效率。

3. 算法解析

先讓我們重新審視一下這個(gè)問題:

給定單張圖像,繪制其三維模型。

傳統(tǒng)方法會(huì)怎么做呢?

使用SLAM或SfM?單張圖像做初始化都不夠。

使用MVS方法?沒有多視角圖像就沒有視差圖。

用NeRF?最吃數(shù)據(jù)了,視角大一點(diǎn)都不行。

直接訓(xùn)模型學(xué)習(xí)?思路上可以,實(shí)操起來效果非常差。

這個(gè)任務(wù)本身就非常反人類,因?yàn)橹挥幸粋€(gè)視角,沒有先驗(yàn)信息誰也不知道完整的三維模型長(zhǎng)什么樣。

那怎么做呢?

這篇文章的思路很巧妙,沒有像NeRF那樣直接從2D圖像生成3D模型,而是先用擴(kuò)散模型生成多個(gè)視角的2D圖像和法線圖,再融合生成3D模型。

這么做有啥好處呢?

最大的好處就是可以直接利用Stable Diffusion這種經(jīng)過數(shù)十億張圖像訓(xùn)練過的2D擴(kuò)散模型,實(shí)際上相當(dāng)于引入了非常強(qiáng)的先驗(yàn)信息。而且法線圖可以表征物體的起伏和表面幾何信息,進(jìn)而計(jì)算3D模型的高保真幾何元素。

這樣,整個(gè)任務(wù)就變?yōu)榱私⒁粋€(gè)馬爾科夫鏈,然后從中采樣顏色和法線信息的過程。

9b3eb0ea-7c55-11ee-939d-92fbcf53809c.png

其中p代表高斯噪聲,n代表法線圖,x代表RGB圖,K代表圖像數(shù)量。

不太對(duì),擴(kuò)散模型只能處理一個(gè)域,怎么出來RGB和法線兩個(gè)域了?

的確是這樣,最直觀的改動(dòng)思路就是給擴(kuò)散模型添加一個(gè)頭,重新訓(xùn)練模型,直接輸出RGB和法線信息,這也是前兩年多任務(wù)網(wǎng)絡(luò)的常用做法。但是實(shí)際操作過程中會(huì)發(fā)現(xiàn)收斂很慢,而且泛化性差。

另一個(gè)思路是直接訓(xùn)練兩個(gè)擴(kuò)散模型,但這樣不光增加了計(jì)算量,還會(huì)導(dǎo)致性能下降。

Wonder3D的做法是設(shè)計(jì)了一個(gè)域轉(zhuǎn)換器(Domain Switcher),實(shí)際上是一個(gè)標(biāo)注域信息的一維向量。域轉(zhuǎn)換器先做位置編碼,聚合時(shí)間embedding信息,再把它也輸送給擴(kuò)散模型,就可以讓擴(kuò)散模型同時(shí)處理兩個(gè)域的信息。

這一點(diǎn)可以先放一個(gè)定性對(duì)比圖來觀察:

9b6268be-7c55-11ee-939d-92fbcf53809c.png

還有問題,RGB和法線是獨(dú)立生成的,多視角的RGB圖也未必就幾何一致。

在這里,Wonder3D引入了一個(gè)注意力機(jī)制,分別處理多個(gè)時(shí)間RGB幾何不一致的問題,以及RGB和法線圖的關(guān)聯(lián)問題。

9b89c260-7c55-11ee-939d-92fbcf53809c.png

到這里,Wonder3D具體的Pipeline就出來了:

輸入一幅圖像,Wonder3D取原始圖像、CLIP產(chǎn)生的文本embedding、多視角相機(jī)參數(shù),以及一個(gè)域轉(zhuǎn)換器作為條件,生成一致的多視點(diǎn)法線圖和彩色圖。隨后,Wonder3D借助法線融合算法,將2D表征重建為高質(zhì)量的3D幾何圖形,產(chǎn)生高保真的紋理網(wǎng)格。

9bacc684-7c55-11ee-939d-92fbcf53809c.png

最后再看看這個(gè)幾何融合是怎么做的:

Wonder3D是優(yōu)化神經(jīng)隱式SDF場(chǎng),來從匹配的RGB和法線圖中提取完整的三維信息。

剛才不是說NeRF需要稠密的圖像序列嗎?

如果直接做NeRF-SDF重建的話,誤差非常大,并且會(huì)一直累計(jì)下去。Wonder3D的做法是引入了一系列損失函數(shù)來約束優(yōu)化:

9bd8ef98-7c55-11ee-939d-92fbcf53809c.png

4. 實(shí)驗(yàn)

訓(xùn)練數(shù)據(jù)集是LVIS子集,batch size是512,在8塊A800上訓(xùn)練了3天(果然普通人還是玩不起)。從2D圖像生成3D模型的方法還是用的Instant NGP(論NeRF在各個(gè)領(lǐng)域的入侵haaaaa)。評(píng)估使用Google Scanned Object數(shù)據(jù)集。評(píng)估指標(biāo)方面,3D重建用Chamfer Distances (CD)和Volume IoU,生成圖像質(zhì)量用PSNR、SSIM、LPIPS這幾個(gè)常見指標(biāo)。對(duì)比的方案也都是目前的SOTA,包括Zero123、RealFusion、Magic123、One-2-3-45、Point-E、Shap-E、SyncDreamer這些。

新視點(diǎn)合成對(duì)比,Zero 123缺乏多視圖一致性,SyncDreamer對(duì)輸入圖像的仰角比較敏感,但是Wonder3D生成具有語(yǔ)義一致性和幾何一致性的圖像。這里也推薦「3D視覺工坊」新課程《徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進(jìn)》。

9bef031e-7c55-11ee-939d-92fbcf53809c.png

新視點(diǎn)合成的定量對(duì)比。

9c122376-7c55-11ee-939d-92fbcf53809c.png

3D重建質(zhì)量的對(duì)比,Shape-E的重建結(jié)果不完整且扭曲。SyncDreamer的重建結(jié)生成圖像大致對(duì)齊,但紋理質(zhì)量不好。相比之下Wonder3D實(shí)現(xiàn)幾何和紋理上最高的重建質(zhì)量。

9c29a032-7c55-11ee-939d-92fbcf53809c.png

3D重建的定量對(duì)比。

9c650bf4-7c55-11ee-939d-92fbcf53809c.png

最后3D生成模型中各項(xiàng)損失函數(shù)的消融實(shí)驗(yàn),驗(yàn)證損失函數(shù)的必要性:

9c88a91a-7c55-11ee-939d-92fbcf53809c.png

還是一個(gè)消融實(shí)驗(yàn),驗(yàn)證多視圖幾何一致性和RGB-法線對(duì)其的注意力機(jī)制的作用:

9caa1fbe-7c55-11ee-939d-92fbcf53809c.png

5. 總結(jié)

本文為各位讀者介紹了Wonder3D,可以從單張圖像直接生成完整的三維模型,整個(gè)模型的設(shè)計(jì)思路很巧妙,而且也開源。渲染速度也達(dá)到了2~3分鐘,這項(xiàng)工作的應(yīng)用也很廣泛,建圖、VR、AR、動(dòng)畫、影視等等都可以用。感覺Wonder3D還是很神奇的,有點(diǎn)長(zhǎng)見識(shí)了。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2852

    瀏覽量

    107276
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1079

    瀏覽量

    40375
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3116

    瀏覽量

    48661

原文標(biāo)題:上線一周就2.1k star!單張圖像直接轉(zhuǎn)為3D模型!

文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    歡創(chuàng)播報(bào) 騰訊元寶首發(fā)3D生成應(yīng)用

    1 騰訊元寶首發(fā)3D生成應(yīng)用 只需張照片,便能迅速打造獨(dú)無二的3D角色。7月16日,騰訊旗下大模型應(yīng)用“騰訊元寶”
    的頭像 發(fā)表于 07-18 11:39 ?697次閱讀
    歡創(chuàng)播報(bào) 騰訊元寶首發(fā)<b class='flag-5'>3D</b>生成應(yīng)用

    裸眼3D筆記本電腦——先進(jìn)的光場(chǎng)裸眼3D技術(shù)

    效果的用戶,這款筆記本電腦都能滿足你的需求。 、卓越的3D模型設(shè)計(jì)能力 英倫科技裸眼3D筆記本電腦采用最新的光場(chǎng)裸眼3D技術(shù),使用戶無需佩
    的頭像 發(fā)表于 07-16 10:04 ?432次閱讀

    烘焙vs渲染:3D模型制作中的效率與質(zhì)量之爭(zhēng)

    3D建模和渲染領(lǐng)域,模型烘焙(Baking)和模型渲染(Rendering)是兩個(gè)經(jīng)常被提及的概念。盡管它們都與最終圖像的生成有關(guān),但它們?cè)诩夹g(shù)實(shí)現(xiàn)、目的、優(yōu)勢(shì)和劣勢(shì)等方面存在顯著差
    的頭像 發(fā)表于 05-12 08:27 ?383次閱讀
    烘焙vs渲染:<b class='flag-5'>3D</b><b class='flag-5'>模型</b>制作中的效率與質(zhì)量之爭(zhēng)

    ad19中3d模型不顯示?

    封裝庫(kù)導(dǎo)入3d模型不顯示,但導(dǎo)入3d模型后的封裝庫(kù)生成pcb文件時(shí)顯示3d模型,這是什么原因?qū)е?/div>
    發(fā)表于 04-24 13:41

    包含具有多種類型信息的3D模型

    動(dòng)畫處理方式,與仿真模型對(duì)象進(jìn)行交互,能直接從項(xiàng)目模型創(chuàng)建和管理進(jìn)度表,以及外部項(xiàng)目管理軟件中導(dǎo)入成本項(xiàng)目和進(jìn)度表。 SketchUp : 是款用于設(shè)計(jì)和施工的
    發(fā)表于 03-28 17:18

    Stability AI推出全新Stable Video 3D模型

    近日,Stability AI 推出了全新的 Stable Video 3D 模型,該模型以其獨(dú)特的功能吸引了眾多關(guān)注。此模型具備從單張
    的頭像 發(fā)表于 03-22 10:30 ?753次閱讀

    Adobe提出DMV3D3D生成只需30秒!讓文本、圖像都動(dòng)起來的新方法!

    因此,本文研究者的目標(biāo)是實(shí)現(xiàn)快速、逼真和通用的 3D 生成。為此,他們提出了 DMV3D。DMV3D種全新的單階段的全類別擴(kuò)散模型,能
    的頭像 發(fā)表于 01-30 16:20 ?779次閱讀
    Adobe提出DMV<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b>生成只需30秒!讓文本、<b class='flag-5'>圖像</b>都動(dòng)起來的新方法!

    高分工作!Uni3D3D基礎(chǔ)大模型,刷新多個(gè)SOTA!

    我們主要探索了3D視覺中scale up模型參數(shù)量和統(tǒng)模型架構(gòu)的可能性。在NLP / 2D vision領(lǐng)域,scale up大
    的頭像 發(fā)表于 01-30 15:56 ?760次閱讀
    高分工作!Uni<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b>基礎(chǔ)大<b class='flag-5'>模型</b>,刷新多個(gè)SOTA!

    如何搞定自動(dòng)駕駛3D目標(biāo)檢測(cè)!

    可用于自動(dòng)駕駛場(chǎng)景下基于圖像3D目標(biāo)檢測(cè)的數(shù)據(jù)集總結(jié)。其中些數(shù)據(jù)集包括多個(gè)任務(wù),這里只報(bào)告了3D檢測(cè)基準(zhǔn)(例如KITTI 3D發(fā)布了超過
    發(fā)表于 01-05 10:43 ?541次閱讀
    如何搞定自動(dòng)駕駛<b class='flag-5'>3D</b>目標(biāo)檢測(cè)!

    基于3D點(diǎn)云的多任務(wù)模型在板端實(shí)現(xiàn)高效部署

    對(duì)于自動(dòng)駕駛應(yīng)用來說,3D 場(chǎng)景感知至關(guān)重要。3D點(diǎn)云數(shù)據(jù)就是具有3D特征的數(shù)據(jù)。方面,3D 點(diǎn)云可以
    的頭像 發(fā)表于 12-28 16:35 ?1341次閱讀
    基于<b class='flag-5'>3D</b>點(diǎn)云的多任務(wù)<b class='flag-5'>模型</b>在板端實(shí)現(xiàn)高效部署

    3D人體生成模型HumanGaussian實(shí)現(xiàn)原理

    3D 生成領(lǐng)域,根據(jù)文本提示創(chuàng)建高質(zhì)量的 3D 人體外觀和幾何形狀對(duì)虛擬試穿、沉浸式遠(yuǎn)程呈現(xiàn)等應(yīng)用有深遠(yuǎn)的意義。傳統(tǒng)方法需要經(jīng)歷系列人工制作的過程,如 3D 人體
    的頭像 發(fā)表于 12-20 16:37 ?1471次閱讀
    <b class='flag-5'>3D</b>人體生成<b class='flag-5'>模型</b>HumanGaussian實(shí)現(xiàn)原理

    CASAIM沙盤模型3D打印的優(yōu)勢(shì)和應(yīng)用

    隨著3D打印技術(shù)的不斷發(fā)展,沙盤模型3D打印已經(jīng)成為建筑行業(yè)中的項(xiàng)創(chuàng)新應(yīng)用。這種技術(shù)能夠?qū)⒃O(shè)計(jì)師的創(chuàng)意以實(shí)體形式呈現(xiàn),為建筑項(xiàng)目的溝通和展示提供了更加直觀和便捷的方式。本文將介紹CA
    的頭像 發(fā)表于 12-19 16:44 ?543次閱讀
    CASAIM沙盤<b class='flag-5'>模型</b><b class='flag-5'>3D</b>打印的優(yōu)勢(shì)和應(yīng)用

    阿迪達(dá)斯與 Covision Media 使用 AI 和 NVIDIA RTX 創(chuàng)建逼真的 3D 內(nèi)容

    Covision 的基于 AI 的 3D 技術(shù)可幫助企業(yè)掃描數(shù)千種產(chǎn)品,為網(wǎng)站和移動(dòng)應(yīng)用創(chuàng)建逼真的 3D 圖像、視頻和 AR 體驗(yàn)。 將實(shí)體產(chǎn)品掃描成 3D
    的頭像 發(fā)表于 11-28 18:45 ?604次閱讀
    阿迪達(dá)斯與 Covision Media 使用 AI 和 NVIDIA RTX 創(chuàng)建逼真的 <b class='flag-5'>3D</b> 內(nèi)容

    PADS VX2.7 下載安裝及3D模型導(dǎo)入的注意事項(xiàng)

    ://mentor.mr-wu.cn/ 安裝方式按照安裝包內(nèi)的指導(dǎo)完成即可。 破解注意事項(xiàng):1.用最新版饅頭破解 2.必須關(guān)閉殺毒軟件,否則破解后不可用! 二:3D模型導(dǎo)入 1.從3D模型
    發(fā)表于 11-22 17:54

    HT for Web (Hightopo) 使用心得(4)- 3D 場(chǎng)景 Graph3dView 與 Obj 模型

    這里我們通過代碼建立個(gè) 3D 場(chǎng)景并添加個(gè) Obj 模型來介紹下 HT for Web 在 3D
    的頭像 發(fā)表于 11-20 11:05 ?709次閱讀
    HT for Web (Hightopo) 使用心得(4)- <b class='flag-5'>3D</b> 場(chǎng)景 Graph<b class='flag-5'>3</b>dView 與 Obj <b class='flag-5'>模型</b>