0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟新AI框架可在2D圖像上生成3D圖像

汽車玩家 ? 來源:雷鋒網(wǎng) ? 作者:雷鋒網(wǎng) ? 2020-03-07 14:23 ? 次閱讀

已經(jīng)有不少機(jī)構(gòu)在將 2D 圖像轉(zhuǎn)換為 3D 形式的方面進(jìn)行了嘗試,包括 Facebook、Nvidia 等公司AI 研究實(shí)驗(yàn)室,或是類似 Threedy.AI 這樣的初創(chuàng)公司。近日,來自微軟的研究團(tuán)隊(duì)也發(fā)表了一篇預(yù)印論文,展示了其在非結(jié)構(gòu)化 2D 圖像的基礎(chǔ)上生成 3D 形狀圖像的能力。


雷鋒網(wǎng)注:上圖為微軟模型生成的 3D沙發(fā),椅子和浴缸圖像

通常來說,訓(xùn)練這樣的框架需要通過柵格化處理來進(jìn)行微分步驟渲染,因此,過去研究人員在該領(lǐng)域的努力都專注于開發(fā)定制渲染模型。然而,通過此類模型處理的圖像會(huì)顯得不夠真實(shí)自然,也不適合用于生成游戲以及圖形產(chǎn)業(yè)的工業(yè)效果圖。

微軟的研究人員這一次做了新的突破——他們?cè)谡撐闹性敿?xì)介紹了一個(gè)框架,該框架采用的“可縮放”訓(xùn)練技術(shù)是第一次被用于這一領(lǐng)域。研究人員提到,在使用 2D 圖像進(jìn)行訓(xùn)練時(shí),該框架始終可以比現(xiàn)有的模型生成效果更好的 3D 形狀,這對(duì)于視頻游戲開發(fā)人員、電子商務(wù)公司,以及缺乏創(chuàng)建 3D 模型經(jīng)驗(yàn)的動(dòng)畫公司來說,稱得上是“福音”。

具體來說,研究人員試圖利用功能齊全的工業(yè)渲染器,該渲染器可以根據(jù)顯示數(shù)據(jù)來生成圖像。為此,研究人員訓(xùn)練了 3D 形狀的生成模型,以便渲染形狀并生成與 2D 數(shù)據(jù)集分布相匹配的圖像。生成器模型采用隨機(jī)輸入向量(代表數(shù)據(jù)集特征的值)并生成 3D 對(duì)象的連續(xù)體素表示(3D 空間中網(wǎng)格上的值),然后將體素輸入到不可微分的渲染過程中,并在使用現(xiàn)有渲染器進(jìn)行渲染之前將其閾值降低為離散值。

也就是說,這是一種新穎的代理神經(jīng)渲染器直接渲染由 3D 形狀生成模型生成的連續(xù)體素網(wǎng)格的方式。正如研究人員所解釋的那樣,在給定 3D 網(wǎng)格輸入的情況下,需要對(duì)其進(jìn)行訓(xùn)練以匹配現(xiàn)成渲染器的渲染輸出。

生成式對(duì)抗網(wǎng)絡(luò)(GANS)在產(chǎn)生 2D 圖像數(shù)據(jù)方面的成果令人印象深刻,許多視覺應(yīng)用,比如游戲,都需要 3D 模型作為輸入,而不僅僅是圖像。但是,直接將現(xiàn)有的 GAN 模型擴(kuò)展到 3D,需要獲取 3D 訓(xùn)練數(shù)據(jù)。

雷鋒網(wǎng)注:上圖為微軟模型生成的 3D 蘑菇圖像

在實(shí)驗(yàn)過程中,研究團(tuán)隊(duì)為上述生成器采用了 3D 卷積 GAN 架構(gòu)(GAN 是一個(gè)由兩部分組成的 AI 模型,其中包括生成器,這些生成器使用分布式采樣從隨機(jī)噪聲中生成合成示例,并將這些示例與訓(xùn)練數(shù)據(jù)集中的真實(shí)示例一起饋入鑒別器中,以嘗試區(qū)分兩者)?;?3D 模型生成的數(shù)據(jù)集和真實(shí)的數(shù)據(jù)集可以合成來自不同對(duì)象類別的圖像,并在整個(gè)訓(xùn)練過程中從不同角度進(jìn)行渲染。

研究人員還表示,他們的框架還會(huì)從圖像中提取照明和陰影信息,使其能夠從每個(gè)訓(xùn)練樣本中提取更多有意義的數(shù)據(jù),并在此基礎(chǔ)上產(chǎn)生更好的結(jié)果。在對(duì)自然圖像的數(shù)據(jù)集進(jìn)行訓(xùn)練之后,該框架可以生成逼真的樣本。此外,該框架還可以利用表面之間的曝光差異來成功檢測出凹形物體的內(nèi)部結(jié)構(gòu),從而使準(zhǔn)確地捕獲凹形程度和中空空間。

將顏色,材料和照明等信息合并到系統(tǒng)中,未來,這些信息就可以與更多“常規(guī)”實(shí)際數(shù)據(jù)集一起使用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6516

    瀏覽量

    103616
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28882

    瀏覽量

    266259
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    NVIDIA Instant NeRF將多組靜態(tài)圖像變?yōu)?b class='flag-5'>3D數(shù)字場景

    想象一幅風(fēng)光旖旎的畫面,比如水畔的懸崖峭壁。即便只是 2D 圖像,如此美景依舊令人心馳神往。如果同一畫面能以 3D 效果展現(xiàn),那么無需跋涉就能身臨其境。
    的頭像 發(fā)表于 05-07 09:15 ?310次閱讀

    通過2D/3D異質(zhì)結(jié)構(gòu)精確控制鐵電材料弛豫時(shí)間

    受經(jīng)典德拜弛豫啟發(fā)的米勒模型提供了通過操縱弛豫時(shí)間來控制自發(fā)極化的理論框架。作者通過使用層轉(zhuǎn)移技術(shù)形成的2D/C-3D/2D異質(zhì)結(jié)構(gòu)克服了傳統(tǒng)異質(zhì)結(jié)存在的鐵電性惡化和能量損失的問題。
    的頭像 發(fā)表于 04-29 10:27 ?405次閱讀
    通過<b class='flag-5'>2D</b>/<b class='flag-5'>3D</b>異質(zhì)結(jié)構(gòu)精確控制鐵電材料弛豫時(shí)間

    NVIDIA生成AI研究實(shí)現(xiàn)在1秒內(nèi)生成3D形狀

    NVIDIA 研究人員使 LATTE3D (一款最新文本轉(zhuǎn) 3D 生成AI 模型)實(shí)現(xiàn)雙倍加速。
    的頭像 發(fā)表于 03-27 10:28 ?366次閱讀
    NVIDIA<b class='flag-5'>生成</b>式<b class='flag-5'>AI</b>研究實(shí)現(xiàn)在1秒內(nèi)<b class='flag-5'>生成</b><b class='flag-5'>3D</b>形狀

    Stability AI推出全新Stable Video 3D模型

    近日,Stability AI 推出了全新的 Stable Video 3D 模型,該模型以其獨(dú)特的功能吸引了眾多關(guān)注。此模型具備從單張圖像生成多視圖
    的頭像 發(fā)表于 03-22 10:30 ?651次閱讀

    有了2D NAND,為什么要升級(jí)到3D呢?

    2D NAND和3D NAND都是非易失性存儲(chǔ)技術(shù)(NVM Non-VolatileMemory),屬于Memory(存儲(chǔ)器)的一種。
    的頭像 發(fā)表于 03-17 15:31 ?760次閱讀
    有了<b class='flag-5'>2D</b> NAND,為什么要升級(jí)到<b class='flag-5'>3D</b>呢?

    Adobe提出DMV3D3D生成只需30秒!讓文本、圖像都動(dòng)起來的新方法!

    因此,本文研究者的目標(biāo)是實(shí)現(xiàn)快速、逼真和通用的 3D 生成。為此,他們提出了 DMV3D。DMV3D 是一種全新的單階段的全類別擴(kuò)散模型,能直接根據(jù)模型文字或單張圖片的輸入,
    的頭像 發(fā)表于 01-30 16:20 ?683次閱讀
    Adobe提出DMV<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b><b class='flag-5'>生成</b>只需30秒!讓文本、<b class='flag-5'>圖像</b>都動(dòng)起來的新方法!

    介紹一種使用2D材料進(jìn)行3D集成的新方法

    美國賓夕法尼亞州立大學(xué)的研究人員展示了一種使用2D材料進(jìn)行3D集成的新穎方法。
    的頭像 發(fā)表于 01-13 11:37 ?899次閱讀

    一種用于2D/3D圖像處理算法的指令集架構(gòu)以及對(duì)應(yīng)的算法部署方法

    二維(2D)和三維(3D)雙模視覺信息在自動(dòng)駕駛、工業(yè)機(jī)器人、人機(jī)交互等前沿領(lǐng)域具有廣泛的應(yīng)用前景。
    的頭像 發(fā)表于 01-05 10:35 ?358次閱讀
    一種用于<b class='flag-5'>2D</b>/<b class='flag-5'>3D</b><b class='flag-5'>圖像</b>處理算法的指令集架構(gòu)以及對(duì)應(yīng)的算法部署方法

    一文了解3D視覺和2D視覺的區(qū)別

    一文了解3D視覺和2D視覺的區(qū)別 3D視覺和2D視覺是兩種不同的視覺模式,其區(qū)別主要體現(xiàn)在立體感、深度感和逼真度上。本文將詳細(xì)闡述這些區(qū)別,并解釋為什么
    的頭像 發(fā)表于 12-25 11:15 ?2355次閱讀

    2D3D視覺技術(shù)的比較

    作為一個(gè)多年經(jīng)驗(yàn)的機(jī)器視覺工程師,我將詳細(xì)介紹2D3D視覺技術(shù)的不同特點(diǎn)、應(yīng)用場景以及它們能夠解決的問題。在這個(gè)領(lǐng)域內(nèi),2D3D視覺技術(shù)是實(shí)現(xiàn)自動(dòng)化和智能制造的關(guān)鍵技術(shù),它們?cè)诠I(yè)
    的頭像 發(fā)表于 12-21 09:19 ?909次閱讀

    使用Python從2D圖像進(jìn)行3D重建過程詳解

    有許多不同的方法和算法可用于從2D圖像執(zhí)行3D重建。選擇的方法取決于諸如輸入圖像的質(zhì)量、攝像機(jī)校準(zhǔn)信息的可用性以及重建的期望準(zhǔn)確性和速度等因素。
    的頭像 發(fā)表于 12-05 14:07 ?2132次閱讀
    使用Python從<b class='flag-5'>2D</b><b class='flag-5'>圖像</b>進(jìn)行<b class='flag-5'>3D</b>重建過程詳解

    3D結(jié)構(gòu)光工藝及構(gòu)成拆解方案

    圖像處理芯片,將普通鏡頭模組拍攝的2D彩色圖片和IR接收模組獲取的3D信息集合,通過復(fù)雜的算法將IR接收端采集的空間信息和鏡頭成像端采集的色彩信息相結(jié)合,生成具備空間信息的三維
    發(fā)表于 11-13 10:45 ?1267次閱讀
    <b class='flag-5'>3D</b>結(jié)構(gòu)光工藝及構(gòu)成拆解方案

    基于深度學(xué)習(xí)的3D點(diǎn)云實(shí)例分割方法

    3D實(shí)例分割(3DIS)是3D領(lǐng)域深度學(xué)習(xí)的核心問題。給定由點(diǎn)云表示的 3D 場景,我們尋求為每個(gè)點(diǎn)分配語義類和唯一的實(shí)例標(biāo)簽。 3DIS
    發(fā)表于 11-13 10:34 ?1638次閱讀
    基于深度學(xué)習(xí)的<b class='flag-5'>3D</b>點(diǎn)云實(shí)例分割方法

    上線一周就2.1k star!單張圖像直接轉(zhuǎn)為3D模型!

    最大的好處就是可以直接利用Stable Diffusion這種經(jīng)過數(shù)十億張圖像訓(xùn)練過的2D擴(kuò)散模型,實(shí)際上相當(dāng)于引入了非常強(qiáng)的先驗(yàn)信息。而且法線圖可以表征物體的起伏和表面幾何信息,進(jìn)而計(jì)算3D模型的高保真幾何元素。
    的頭像 發(fā)表于 11-06 16:13 ?920次閱讀
    上線一周就2.1k star!單張<b class='flag-5'>圖像</b>直接轉(zhuǎn)為<b class='flag-5'>3D</b>模型!

    如何利用CLIP 的2D 圖像-文本預(yù)習(xí)知識(shí)進(jìn)行3D場景理解

    自我監(jiān)督學(xué)習(xí)的目的是獲得有利于下游任務(wù)的良好表現(xiàn)。主流的方法是使用對(duì)比學(xué)習(xí)來與訓(xùn)練網(wǎng)絡(luò)。受CLIP成功的啟發(fā),利用CLIP的預(yù)訓(xùn)練模型來完成下游任務(wù)引起了廣泛的關(guān)注。本文利用圖像文本預(yù)先訓(xùn)練的CLIP知識(shí)來幫助理解3D場景。
    的頭像 發(fā)表于 10-29 16:54 ?1174次閱讀
    如何利用CLIP 的<b class='flag-5'>2D</b> <b class='flag-5'>圖像</b>-文本預(yù)習(xí)知識(shí)進(jìn)行<b class='flag-5'>3D</b>場景理解