0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

清華朱軍團隊提出ProlificDreamer:直接文本生成高質(zhì)量3D內(nèi)容

CVer ? 來源:機器之心 ? 2023-05-29 10:02 ? 次閱讀

清華大學(xué) TSAIL 團隊最新提出的文生 3D 新算法 ProlificDreamer,在無需任何 3D 數(shù)據(jù)的前提下能夠生成超高質(zhì)量的 3D 內(nèi)容。

ProlificDreamer 算法為文生 3D 領(lǐng)域帶來重大進展。利用 ProlificDreamer,輸入文本 “一個菠蘿”,就能生成非常逼真且高清的 3D 菠蘿:

8a709276-fd82-11ed-90ce-dac502259ad0.gif

給出稍微難一些的文本,比如 “一只米開朗琪羅風(fēng)格狗的雕塑,正在用手機讀新聞”,ProlificDreamer 的生成也不在話下:

8e5bc13a-fd82-11ed-90ce-dac502259ad0.gif

將 Imagen 生成的照片(下圖靜態(tài)圖)和 ProlificDreamer(基于 Stable-Diffusion)生成的 3D(下圖動態(tài)圖)進行對比。有網(wǎng)友感慨:短短一年時間,高質(zhì)量的生成已經(jīng)能夠從 2D 圖像領(lǐng)域擴展到 3D 領(lǐng)域了!

8f955250-fd82-11ed-90ce-dac502259ad0.gif

A blue jay standing on alarge basket of rainbow macarons 這一切都來源于清華大學(xué)計算機系朱軍教授帶領(lǐng)的 TSAIL 團隊近期公開的一篇論文《ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation》:

98c9572c-fd82-11ed-90ce-dac502259ad0.png

論文鏈接:https://arxiv.org/abs/2305.16213

項目主頁:https://ml.cs.tsinghua.edu.cn/prolificdreamer/

在數(shù)字創(chuàng)作和虛擬現(xiàn)實等領(lǐng)域,從文本到三維模型(Text-to-3D)的技術(shù)具有重要的價值和廣泛的應(yīng)用潛力。這種技術(shù)可以從簡單的文本描述中生成具體的 3D 模型,為設(shè)計師、游戲開發(fā)者和數(shù)字藝術(shù)家提供強大的工具。 然而,為了根據(jù)文本生成準(zhǔn)確的 3D 模型,傳統(tǒng)方法需要大量的標(biāo)記 3D 模型數(shù)據(jù)集。這些數(shù)據(jù)集需要包含多種不同類型和風(fēng)格的 3D 模型,并且每個模型都需要與相應(yīng)的文本描述相關(guān)聯(lián)。創(chuàng)建這樣的數(shù)據(jù)集需要大量的時間和人力資源,目前還沒有現(xiàn)成的大規(guī)模數(shù)據(jù)集可供使用。 由谷歌提出的 DreamFusion [1] 利用預(yù)訓(xùn)練的 2D 文本到圖像擴散模型,首次在無需 3D 數(shù)據(jù)的情況下完成開放域的文本到 3D 的合成。但是 DreamFusion 提出的 Score Distillation Sampling (SDS) [1] 算法生成結(jié)果面臨嚴重的過飽和、過平滑、缺少細節(jié)等問題。高質(zhì)量 3D 內(nèi)容生成目前仍然是非常困難的前沿問題之一。 ProlificDreamer 論文提出了 Variational Score Distillation(VSD)算法,從貝葉斯建模和變分推斷(variational inference)的角度重新形式化了 text-to-3D 問題。具體而言,VSD 把 3D 參數(shù)建模為一個概率分布,并優(yōu)化其渲染的二維圖片的分布和預(yù)訓(xùn)練 2D 擴散模型的分布間的距離??梢宰C明,VSD 算法中的 3D 參數(shù)近似了從 3D 分布中采樣的過程,解決了 DreamFusion 所提 SDS 算法的過飽和、過平滑、缺少多樣性等問題。此外,SDS 往往需要很大的監(jiān)督權(quán)重(CFG=100),而 VSD 是首個可以用正常 CFG(=7.5)的算法。效果展示ProlificDreamer 可以根據(jù)文本生成非常高質(zhì)量的帶紋理的三維網(wǎng)格:

98ea2da8-fd82-11ed-90ce-dac502259ad0.png

ProlificDreamer 可以根據(jù)文本生成非常高質(zhì)量的三維神經(jīng)輻射場(NeRF),包括復(fù)雜的效果。甚至 360° 的場景也能生成:

99788238-fd82-11ed-90ce-dac502259ad0.png

ProlificDreamer 還可以在給出同樣文本的情況下生成具有多樣性的 3D 內(nèi)容:

998b834c-fd82-11ed-90ce-dac502259ad0.png

傳統(tǒng)文生 3D 的優(yōu)化算法給定一個 2D 圖片上預(yù)訓(xùn)練好的擴散模型(例如 stable-diffusion),Dreamfusion [1] 提出可以在不借助任何 3D 數(shù)據(jù)的情況下實現(xiàn)開放域的文到 3D 內(nèi)容(text-to-3D)生成。具體而言,對于一個 3D 物體,文生 3D 任務(wù)的關(guān)鍵是設(shè)計一種優(yōu)化算法,使得 3D 物體在各個視角下投影出來的 2D 圖片與預(yù)訓(xùn)練的 2D 擴散模型匹配,并不斷優(yōu)化 3D 物體。其中,SDS [1] (也稱為 Score Jacobian Chaining (SJC) [3]) 是目前幾乎所有的零樣本開放域文生 3D 工作所使用的算法。該算法將 3D 物體視為一個單點(single point),并通過隨機梯度下降優(yōu)化該 3D 物體,優(yōu)化目標(biāo)是最大化該渲染的 2D 圖像在預(yù)訓(xùn)練擴散模型下的似然值。值得注意的是,該優(yōu)化問題的最優(yōu)解并不等價于從擴散模型中采樣。

99cac3c2-fd82-11ed-90ce-dac502259ad0.png

傳統(tǒng)文生 3D 的優(yōu)化算法示意圖 實驗中,所有基于 SDS/SJC 的方法目前都有一個嚴重的問題:生成的物體過于平滑、過飽和現(xiàn)象嚴重,并且多樣性不高。例如,開源庫 threestudio [4] 將目前主流的 text-to-3D 工作復(fù)現(xiàn)至與原論文可比水平,如下圖所示:

99da1390-fd82-11ed-90ce-dac502259ad0.png

由 threestuidio [4] 復(fù)現(xiàn)的文生 3D 工作 在此之前,基于 2D 擴散模型的文生 3D 仍然與實踐落地有較大差距。然而,清華大學(xué)朱軍團隊提出的 ProlificDreamer 在算法層面解決了 SDS 的上述問題,能夠生成非常逼真的 3D 內(nèi)容,極大地縮小了這一差距。ProlificDreamer 的原理與以往方法不同,ProlificDreamer 并不單純優(yōu)化單個 3D 物體,而是優(yōu)化 3D 物體對應(yīng)的概率分布。通常而言,給定一個有效的文本輸入,存在一個概率分布包含了該文本描述下所有可能的 3D 物體。

9a0f3606-fd82-11ed-90ce-dac502259ad0.png

給定文本下的 3D 物體存在一個潛在的概率分布 基于該 3D 概率分布,我們可以進一步誘導(dǎo)出一個 2D 概率分布。具體而言,只需要對每一個 3D 物體經(jīng)過相機渲染到 2D,即可得到一個 2D 圖像的概率分布。

9a3f99d6-fd82-11ed-90ce-dac502259ad0.png

由潛在 3D 分布可以誘導(dǎo)出一個 2D 圖像分布 因此,優(yōu)化 3D 分布可以被等效地轉(zhuǎn)換為優(yōu)化 2D 渲染圖片的概率分布與 2D 擴散模型定義的概率分布之間的距離(由 KL 散度定義)。這是一個經(jīng)典的變分推斷(variational inference)任務(wù),因此 ProlificDreamer 文中將該任務(wù)及對應(yīng)的算法稱為變分得分蒸餾(Variational Score Distillation,VSD)。

9a7edf60-fd82-11ed-90ce-dac502259ad0.png

優(yōu)化 3D 分布可以被等效地轉(zhuǎn)換為優(yōu)化 2D 圖片之間的概率分布 具體而言,VSD 的算法流程圖如下所示。其中,3D 物體的迭代更新需要使用兩個模型:一個是預(yù)訓(xùn)練的 2D 擴散模型(例如 Stable-Diffusion),另一個是基于該預(yù)訓(xùn)練模型的 LoRA(low-rank adaptation)。該 LoRA 估計了當(dāng)前 3D 物體誘導(dǎo)的 2D 圖片分布的得分函數(shù)(score function),并進一步用于更新 3D 物體。該算法實際上在模擬 Wasserstein 梯度流,并可以保證收斂得到的分布滿足與預(yù)訓(xùn)練的 2D 擴散模型的 KL 散度最小。

9aa4f5d8-fd82-11ed-90ce-dac502259ad0.png

VSD 的訓(xùn)練流程圖 與傳統(tǒng)的 SDS/SJC 算法相比,可以發(fā)現(xiàn) VSD 僅僅需要把原來的高斯噪聲項換成 LoRA 項即可。由于LoRA 提供了比高斯噪聲更精細的更新方向(例如,LoRA 可以利用文本 y、相機視角 c、擴散時間 t 等的先驗信息),VSD 在實踐中可以得到遠超 SDS 的精細結(jié)果。并且,論文作者提出,SDS/SJC 實際上是 VSD 使用一個單點 Dirac 分布作為變分分布的特例,而 VSD 擴展到了由 LoRA 定義的更復(fù)雜的概率分布,因此可以得到更好的結(jié)果。此外,VSD 還對監(jiān)督權(quán)重(CFG)更友好,可以使用與 2D 擴散模型一樣的監(jiān)督權(quán)重(例如 stable-diffusion 常用的 CFG=7.5),因此可以達到和 2D 擴散模型類似的采樣質(zhì)量。這一結(jié)果首次解決了 SDS/SJC 中的超大 CFG(一般為 100)的問題,也同時說明 VSD 這種基于分布優(yōu)化的思想與預(yù)訓(xùn)練的 2D 擴散模型更適配。

9ab308d0-fd82-11ed-90ce-dac502259ad0.png

SDS/SJC 與 VSD 的更新公式對比 最后,ProlificDreamer 還對 3D 表示的設(shè)計空間做了詳細的研究,提出了如下實現(xiàn)。在實踐中,VSD 可以在 512 渲染分辨率的 NeRF 下訓(xùn)練,并極大地豐富了所得到的 3D 結(jié)果的紋理細節(jié)。

9ad2242c-fd82-11ed-90ce-dac502259ad0.png

ProlificDreamer 與其它工作的實現(xiàn)細節(jié)比較

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2852

    瀏覽量

    107267
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4587

    瀏覽量

    92503
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1200

    瀏覽量

    24619

原文標(biāo)題:無需任何3D數(shù)據(jù)!清華朱軍團隊提出ProlificDreamer:直接文本生成高質(zhì)量3D內(nèi)容

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    如何設(shè)計高質(zhì)量低成本的3D眼鏡_Designing Cost-Effective 3D Technol...

    如何設(shè)計高質(zhì)量低成本的3D眼鏡_Designing Cost-Effective 3D Technology ByRobert Murphy, Cypress Semiconductor作者
    發(fā)表于 06-18 13:56

    阿里3D AI技術(shù)已成功應(yīng)用諸多場景中,可迅速批量生產(chǎn)高質(zhì)量3D模型

    阿里資深算法專家樂田表示:“3D重建是3D機器學(xué)習(xí)的核心,只有在高質(zhì)量3D數(shù)據(jù)集支持下,工業(yè)級3D AI建模才能滿足更大規(guī)模的產(chǎn)業(yè)需求?!蹦?/div>
    發(fā)表于 08-26 13:50 ?1549次閱讀

    面向社交媒體的高質(zhì)量文章內(nèi)容識別模型

    如何從海量多媒體文章中自動識別高質(zhì)量內(nèi)容是信息推薦、搜索引擎等系統(tǒng)的核心功能之一?,F(xiàn)有的方法在訓(xùn)練中依賴大量的人工標(biāo)注數(shù)據(jù)。針對其未考慮社交媒體中的社交信息和視覺內(nèi)容的問題,提出一種基
    發(fā)表于 05-11 11:09 ?11次下載

    基于視覺注意力的全卷積網(wǎng)絡(luò)3D內(nèi)容生成方法

     由于在某些特殊場景中獲取深度線索的難度較高,使得已有3D內(nèi)容生成方法的應(yīng)用受到限制。為此,以顯著圖代替深度圖進行2D-3D轉(zhuǎn)換,提出一種
    發(fā)表于 05-13 16:13 ?11次下載

    文本生成任務(wù)中引入編輯方法的文本生成

    4. FELIX FELIX是Google Research在“FELIX: Flexible Text Editing Through Tagging and Insertion”一文中提出文本生成
    的頭像 發(fā)表于 07-23 16:56 ?1692次閱讀
    <b class='flag-5'>文本生成</b>任務(wù)中引入編輯方法的<b class='flag-5'>文本生成</b>

    NVIDIA提出Magic3D:高分辨率文本3D內(nèi)容創(chuàng)建

    Magic3D 還可以執(zhí)行基于提示的 3D 網(wǎng)格編輯:給定低分辨率 3D 模型和基本提示,可以更改文本從而修改生成的模型
    的頭像 發(fā)表于 11-25 11:33 ?1098次閱讀

    Meta提出Make-A-Video3D:一行文本,生成3D動態(tài)場景!

    具體而言,該方法運用 4D 動態(tài)神經(jīng)輻射場(NeRF),通過查詢基于文本到視頻(T2V)擴散的模型,優(yōu)化場景外觀、密度和運動的一致性。任意機位或角度都可以觀看到提供的文本生成的動態(tài)視頻輸出,并可以
    的頭像 發(fā)表于 03-24 10:47 ?977次閱讀

    面向結(jié)構(gòu)化數(shù)據(jù)的文本生成技術(shù)研究

    今天我們要講的文本生成是現(xiàn)在最流行的研究領(lǐng)域之一。文本生成的目標(biāo)是讓計算機像人類一樣學(xué)會表達,目前看基本上接近實現(xiàn)。這些突然的技術(shù)涌現(xiàn),使得計算機能夠撰寫出高質(zhì)量的自然文本,滿足特定的
    的頭像 發(fā)表于 06-26 14:39 ?555次閱讀
    面向結(jié)構(gòu)化數(shù)據(jù)的<b class='flag-5'>文本生成</b>技術(shù)研究

    生成高質(zhì)量 3D 網(wǎng)格,從重建到生成式 AI

    有很多優(yōu)點,包括支持現(xiàn)有的軟件包、高級硬件加速,以及支持物理模擬。然而,并非所有網(wǎng)格都是相同的,只有高質(zhì)量的網(wǎng)格才能實現(xiàn)這些優(yōu)點。 NVIDIA Research 提出了一種名為“FlexiCubes”的新方法,它可以在 3D
    的頭像 發(fā)表于 08-17 19:15 ?691次閱讀
    <b class='flag-5'>生成</b><b class='flag-5'>高質(zhì)量</b> <b class='flag-5'>3D</b> 網(wǎng)格,從重建到<b class='flag-5'>生成</b>式 AI

    3D人體生成模型HumanGaussian實現(xiàn)原理

    3D 生成領(lǐng)域,根據(jù)文本提示創(chuàng)建高質(zhì)量3D 人體外觀和幾何形狀對虛擬試穿、沉浸式遠程呈現(xiàn)等應(yīng)用有深遠的意義。傳統(tǒng)方法需要經(jīng)歷一系列人
    的頭像 發(fā)表于 12-20 16:37 ?1470次閱讀
    <b class='flag-5'>3D</b>人體<b class='flag-5'>生成</b>模型HumanGaussian實現(xiàn)原理

    4DGen:基于動態(tài)3D高斯的可控4D生成新工作

    盡管3D和視頻生成取得了飛速的發(fā)展,由于缺少高質(zhì)量的4D數(shù)據(jù)集,4D生成始終面臨著巨大的挑戰(zhàn)。
    的頭像 發(fā)表于 01-04 15:57 ?814次閱讀
    4DGen:基于動態(tài)<b class='flag-5'>3D</b>高斯的可控4<b class='flag-5'>D</b><b class='flag-5'>生成</b>新工作

    Adobe提出DMV3D3D生成只需30秒!讓文本、圖像都動起來的新方法!

    因此,本文研究者的目標(biāo)是實現(xiàn)快速、逼真和通用的 3D 生成。為此,他們提出了 DMV3D。DMV3D 是一種全新的單階段的全類別擴散模型,能
    的頭像 發(fā)表于 01-30 16:20 ?779次閱讀
    Adobe<b class='flag-5'>提出</b>DMV<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b><b class='flag-5'>生成</b>只需30秒!讓<b class='flag-5'>文本</b>、圖像都動起來的新方法!

    奧比中光3D相機打造高質(zhì)量、低成本的3D動作捕捉與3D動畫內(nèi)容生成方案

    高質(zhì)量、低成本的3D動作捕捉與3D動畫內(nèi)容生成方案。 Moverse公司總部位于希臘塞薩洛尼基,是三維動畫相關(guān)媒體和娛樂行業(yè)的一家科技創(chuàng)業(yè)公
    的頭像 發(fā)表于 06-25 16:37 ?996次閱讀

    Meta推出革命性3D Gen AI模型:1分鐘內(nèi)生成高質(zhì)量3D內(nèi)容

    在科技日新月異的今天,Meta再次引領(lǐng)創(chuàng)新潮流,宣布了一項令人矚目的技術(shù)突破——3D Gen AI模型的誕生。這款先進的模型以其前所未有的高效性與卓越品質(zhì),重新定義了3D內(nèi)容創(chuàng)作的邊界,標(biāo)志著數(shù)字藝術(shù)創(chuàng)作進入了一個全新的快速響應(yīng)
    的頭像 發(fā)表于 07-04 18:12 ?967次閱讀

    如何使用 Llama 3 進行文本生成

    使用LLaMA 3(Large Language Model Family of AI Alignment)進行文本生成,可以通過以下幾種方式實現(xiàn),取決于你是否愿意在本地運行模型或者使用現(xiàn)成的API
    的頭像 發(fā)表于 10-27 14:21 ?197次閱讀