0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌發(fā)明的由2D圖像生成3D圖像技術(shù)解析

我快閉嘴 ? 來源:愛集微 ? 作者:嘉德IPR ? 2020-12-24 12:55 ? 次閱讀

谷歌發(fā)明的由2D圖像生成3D圖像的技術(shù),利用3D估計(jì)神經(jīng)網(wǎng)絡(luò)圖像信息的補(bǔ)全以及預(yù)測(cè),融合了拍攝角度、光照等信息,讓生成的3D圖像看起來更加逼真,這種技術(shù)對(duì)于三維建模以及工業(yè)應(yīng)用都具有極大的指導(dǎo)意義。

谷歌研究人員制作的一個(gè)AI工具,可以把涂鴉變成奇怪的怪物。這款工具名為Chimera Painter,使用機(jī)器學(xué)習(xí)來根據(jù)用戶的粗略草圖生成圖像。

Chimera Painter背后的團(tuán)隊(duì)在一篇博客文章中解釋了他們的方法和動(dòng)機(jī),稱他們的想法是創(chuàng)造一種 “畫筆,它的行為不像工具,而更像助手”。Chimera Painter只是一個(gè)原型,但如果這樣的軟件變得普遍,它可以減少創(chuàng)造高質(zhì)量藝術(shù)所需的時(shí)間。

這種圖像生成技術(shù),其實(shí)在三維渲染方面有著非常廣泛的應(yīng)用,其中最具有代表性的工作之一,就是由2D圖像生成3D圖像。我們知道,3D圖像相比于2D圖像多了深度信息這一個(gè)維度,但也就是這一個(gè)差別,導(dǎo)致了3D圖像相比于2D圖像所多出的信息不是一星半點(diǎn)。因此,倘若想要從2D圖像生成3D圖像,其難度之大可想而知。

為此,谷歌在18年10月18日申請(qǐng)了一項(xiàng)名為“通過渲染許多3D視圖來學(xué)習(xí)重構(gòu)3D形狀”的發(fā)明專利(申請(qǐng)?zhí)枺?01880030823.5),申請(qǐng)人為谷歌有限責(zé)任公司

根據(jù)該專利目前公開的資料,讓我們一起來看看這項(xiàng)從2D圖像到3D圖像的生成方法吧。

谷歌發(fā)明的由2D圖像生成3D圖像技術(shù)解析

該技術(shù)中,主要使用了3D估計(jì)器神經(jīng)網(wǎng)絡(luò),如上圖,為使用3D估計(jì)器神經(jīng)網(wǎng)絡(luò)來估計(jì)圖像中描繪的面部的3D形狀和紋理,并基于估計(jì)的3D形狀和紋理生成替身的系統(tǒng)示意圖。用戶通過上傳面部圖像105,系統(tǒng)100可以對(duì)照片進(jìn)行處理后生成替身115,這里所說的替身也就是用戶的3D畫像。

在具體的過程中,照片首先由面部識(shí)別引擎110進(jìn)行處理,從而生成用戶的面部圖像特征112,該特征在3D估計(jì)神經(jīng)網(wǎng)絡(luò)中被處理,基于圖像特征估計(jì)照片中描繪的用戶面部的3D形狀和紋理,從而生成形狀紋理數(shù)據(jù)122。

最后,數(shù)據(jù)122被發(fā)送到3D渲染引擎130中,基于用戶獨(dú)特的面部形狀、紋理特征來生成用戶的3D畫像,并且為了做到更加真實(shí),渲染引擎可以給出特定的視圖,視圖中融合了相機(jī)角度、光照以及視場(chǎng)的估計(jì)信息,可以讓生成的圖像質(zhì)量更加逼真。

谷歌發(fā)明的由2D圖像生成3D圖像技術(shù)解析

如上圖,為用于用戶3D渲染圖像生成的3D估計(jì)器神經(jīng)網(wǎng)絡(luò)220的系統(tǒng)框圖,整個(gè)系統(tǒng)的結(jié)構(gòu)還是相當(dāng)復(fù)雜的,從圖中我們可以看到這種神經(jīng)網(wǎng)絡(luò)是如何工作的。根據(jù)目前的技術(shù)來看,訓(xùn)練3D估計(jì)器神經(jīng)網(wǎng)絡(luò)通常有兩個(gè)困難:第一,由3D對(duì)象的圖像和那些3D對(duì)象的3D形狀和紋理組成的訓(xùn)練對(duì)通常是有限的并且難以獲得;第二,訓(xùn)練3D估計(jì)器神經(jīng)網(wǎng)絡(luò)可能經(jīng)常導(dǎo)致3D估計(jì)器神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)欺騙。

因此,該專利發(fā)明的整個(gè)網(wǎng)絡(luò)分為了監(jiān)督訓(xùn)練回路以及無監(jiān)督訓(xùn)練回路,通過二者相結(jié)合的方式,在完全訓(xùn)練階段期間,僅利用無監(jiān)督訓(xùn)練回路,從而允許估計(jì)神經(jīng)網(wǎng)絡(luò)輸出更快地收斂。

因?yàn)闊o監(jiān)督訓(xùn)練回路可以在預(yù)訓(xùn)練階段和完全訓(xùn)練階段兩者期間使用,所以從無監(jiān)督訓(xùn)練回路開始,在預(yù)訓(xùn)練之后,完全訓(xùn)練可以對(duì)大量迭代和大量樣本單獨(dú)利用無監(jiān)督訓(xùn)練回路,來改進(jìn)3D估計(jì)神經(jīng)網(wǎng)絡(luò)估計(jì)圖像中的對(duì)象的3D形狀和紋理的能力。

谷歌發(fā)明的由2D圖像生成3D圖像技術(shù)解析

最后,是這種無監(jiān)督訓(xùn)練回路訓(xùn)練的流程圖,系統(tǒng)首先需要獲取對(duì)象圖像的第一圖像特征,該特征就是上述所說用戶面部信息的原始數(shù)據(jù),其次,將這種第一圖像特征提供給3D估計(jì)器神經(jīng)網(wǎng)絡(luò)并獲取3D形狀和紋理。

根據(jù)這些形狀和紋理進(jìn)行3D渲染,并從多個(gè)3D視圖中導(dǎo)出第二圖像特征,基于圖像特征的損失函數(shù)計(jì)算損失,以知道神經(jīng)網(wǎng)絡(luò)進(jìn)行反向傳播以得到更加良好的效果以及減少圖像生成的損失。

以上就是谷歌發(fā)明的利用2D圖像生成3D圖像的專利技術(shù),從2D到3D圖像的轉(zhuǎn)換過程中,由于2D圖像缺少了很多信息,因此該技術(shù)利用3D估計(jì)神經(jīng)網(wǎng)絡(luò)進(jìn)行信息的補(bǔ)全以及預(yù)測(cè),并融合了拍攝角度、光照等信息,讓生成的3D圖像看起來更加逼真,這種技術(shù)對(duì)于三維建模以及工業(yè)應(yīng)用都具有極大的指導(dǎo)意義。

關(guān)于嘉德

深圳市嘉德知識(shí)產(chǎn)權(quán)服務(wù)有限公司由曾在華為等世界500強(qiáng)企業(yè)工作多年的知識(shí)產(chǎn)權(quán)專家、律師、專利代理人組成,熟悉中歐美知識(shí)產(chǎn)權(quán)法律理論和實(shí)務(wù),在全球知識(shí)產(chǎn)權(quán)申請(qǐng)、布局、訴訟、許可談判、交易、運(yùn)營(yíng)、標(biāo)準(zhǔn)專利協(xié)同創(chuàng)造、專利池建設(shè)、展會(huì)知識(shí)產(chǎn)權(quán)、跨境電商知識(shí)產(chǎn)權(quán)、知識(shí)產(chǎn)權(quán)海關(guān)保護(hù)等方面擁有豐富的經(jīng)驗(yàn)。
責(zé)任編輯:tzh

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2836

    瀏覽量

    107016
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6080

    瀏覽量

    104378
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4717

    瀏覽量

    100018
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    NVIDIA Instant NeRF將多組靜態(tài)圖像變?yōu)?b class='flag-5'>3D數(shù)字場(chǎng)景

    想象一幅風(fēng)光旖旎的畫面,比如水畔的懸崖峭壁。即便只是 2D 圖像,如此美景依舊令人心馳神往。如果同一畫面能以 3D 效果展現(xiàn),那么無需跋涉就能身臨其境。
    的頭像 發(fā)表于 05-07 09:15 ?310次閱讀

    通過2D/3D異質(zhì)結(jié)構(gòu)精確控制鐵電材料弛豫時(shí)間

    受經(jīng)典德拜弛豫啟發(fā)的米勒模型提供了通過操縱弛豫時(shí)間來控制自發(fā)極化的理論框架。作者通過使用層轉(zhuǎn)移技術(shù)形成的2D/C-3D/2D異質(zhì)結(jié)構(gòu)克服了傳統(tǒng)異質(zhì)結(jié)存在的鐵電性惡化和能量損失的問題。
    的頭像 發(fā)表于 04-29 10:27 ?405次閱讀
    通過<b class='flag-5'>2D</b>/<b class='flag-5'>3D</b>異質(zhì)結(jié)構(gòu)精確控制鐵電材料弛豫時(shí)間

    有了2D NAND,為什么要升級(jí)到3D呢?

    2D NAND和3D NAND都是非易失性存儲(chǔ)技術(shù)(NVM Non-VolatileMemory),屬于Memory(存儲(chǔ)器)的一種。
    的頭像 發(fā)表于 03-17 15:31 ?758次閱讀
    有了<b class='flag-5'>2D</b> NAND,為什么要升級(jí)到<b class='flag-5'>3D</b>呢?

    將MLX75027 3D圖像傳感器與CX3 RDK MIPI開發(fā)板連接后報(bào)錯(cuò)如何解決?

    我們打算將MLX75027 3D圖像傳感器與CX3 RDK MIPI開發(fā)板連接,但EZ-USB-suite軟件中配置MIPI塊參數(shù)中針對(duì)的是2D圖像
    發(fā)表于 02-28 07:41

    Adobe提出DMV3D3D生成只需30秒!讓文本、圖像都動(dòng)起來的新方法!

    因此,本文研究者的目標(biāo)是實(shí)現(xiàn)快速、逼真和通用的 3D 生成。為此,他們提出了 DMV3D。DMV3D 是一種全新的單階段的全類別擴(kuò)散模型,能直接根據(jù)模型文字或單張圖片的輸入,
    的頭像 發(fā)表于 01-30 16:20 ?683次閱讀
    Adobe提出DMV<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b><b class='flag-5'>生成</b>只需30秒!讓文本、<b class='flag-5'>圖像</b>都動(dòng)起來的新方法!

    介紹一種使用2D材料進(jìn)行3D集成的新方法

    美國(guó)賓夕法尼亞州立大學(xué)的研究人員展示了一種使用2D材料進(jìn)行3D集成的新穎方法。
    的頭像 發(fā)表于 01-13 11:37 ?899次閱讀

    一種用于2D/3D圖像處理算法的指令集架構(gòu)以及對(duì)應(yīng)的算法部署方法

    二維(2D)和三維(3D)雙模視覺信息在自動(dòng)駕駛、工業(yè)機(jī)器人、人機(jī)交互等前沿領(lǐng)域具有廣泛的應(yīng)用前景。
    的頭像 發(fā)表于 01-05 10:35 ?358次閱讀
    一種用于<b class='flag-5'>2D</b>/<b class='flag-5'>3D</b><b class='flag-5'>圖像</b>處理算法的指令集架構(gòu)以及對(duì)應(yīng)的算法部署方法

    一文了解3D視覺和2D視覺的區(qū)別

    一文了解3D視覺和2D視覺的區(qū)別 3D視覺和2D視覺是兩種不同的視覺模式,其區(qū)別主要體現(xiàn)在立體感、深度感和逼真度上。本文將詳細(xì)闡述這些區(qū)別,并解釋為什么
    的頭像 發(fā)表于 12-25 11:15 ?2355次閱讀

    2D圖像和LiDAR的3D點(diǎn)云之間的配準(zhǔn)方法

    建立2D-3D的對(duì)應(yīng)關(guān)系首先通過交叉區(qū)域檢測(cè),在兩個(gè)模態(tài)中去除離群區(qū)域,然后利用交叉模態(tài)潛在空間的最近鄰原則進(jìn)行2D-3D特征匹配。
    發(fā)表于 12-22 11:29 ?1459次閱讀
    <b class='flag-5'>2D</b><b class='flag-5'>圖像</b>和LiDAR的<b class='flag-5'>3D</b>點(diǎn)云之間的配準(zhǔn)方法

    2D3D視覺技術(shù)的比較

    作為一個(gè)多年經(jīng)驗(yàn)的機(jī)器視覺工程師,我將詳細(xì)介紹2D3D視覺技術(shù)的不同特點(diǎn)、應(yīng)用場(chǎng)景以及它們能夠解決的問題。在這個(gè)領(lǐng)域內(nèi),2D3D視覺
    的頭像 發(fā)表于 12-21 09:19 ?909次閱讀

    使用Python從2D圖像進(jìn)行3D重建過程詳解

    有許多不同的方法和算法可用于從2D圖像執(zhí)行3D重建。選擇的方法取決于諸如輸入圖像的質(zhì)量、攝像機(jī)校準(zhǔn)信息的可用性以及重建的期望準(zhǔn)確性和速度等因素。
    的頭像 發(fā)表于 12-05 14:07 ?2127次閱讀
    使用Python從<b class='flag-5'>2D</b><b class='flag-5'>圖像</b>進(jìn)行<b class='flag-5'>3D</b>重建過程詳解

    3D結(jié)構(gòu)光工藝及構(gòu)成拆解方案

    圖像處理芯片,將普通鏡頭模組拍攝的2D彩色圖片和IR接收模組獲取的3D信息集合,通過復(fù)雜的算法將IR接收端采集的空間信息和鏡頭成像端采集的色彩信息相結(jié)合,生成具備空間信息的三維
    發(fā)表于 11-13 10:45 ?1267次閱讀
    <b class='flag-5'>3D</b>結(jié)構(gòu)光工藝及構(gòu)成拆解方案

    基于深度學(xué)習(xí)的3D點(diǎn)云實(shí)例分割方法

    3D實(shí)例分割(3DIS)是3D領(lǐng)域深度學(xué)習(xí)的核心問題。給定點(diǎn)云表示的 3D 場(chǎng)景,我們尋求為每個(gè)點(diǎn)分配語義類和唯一的實(shí)例標(biāo)簽。
    發(fā)表于 11-13 10:34 ?1637次閱讀
    基于深度學(xué)習(xí)的<b class='flag-5'>3D</b>點(diǎn)云實(shí)例分割方法

    上線一周就2.1k star!單張圖像直接轉(zhuǎn)為3D模型!

    最大的好處就是可以直接利用Stable Diffusion這種經(jīng)過數(shù)十億張圖像訓(xùn)練過的2D擴(kuò)散模型,實(shí)際上相當(dāng)于引入了非常強(qiáng)的先驗(yàn)信息。而且法線圖可以表征物體的起伏和表面幾何信息,進(jìn)而計(jì)算3D模型的高保真幾何元素。
    的頭像 發(fā)表于 11-06 16:13 ?920次閱讀
    上線一周就2.1k star!單張<b class='flag-5'>圖像</b>直接轉(zhuǎn)為<b class='flag-5'>3D</b>模型!

    如何利用CLIP 的2D 圖像-文本預(yù)習(xí)知識(shí)進(jìn)行3D場(chǎng)景理解

    自我監(jiān)督學(xué)習(xí)的目的是獲得有利于下游任務(wù)的良好表現(xiàn)。主流的方法是使用對(duì)比學(xué)習(xí)來與訓(xùn)練網(wǎng)絡(luò)。受CLIP成功的啟發(fā),利用CLIP的預(yù)訓(xùn)練模型來完成下游任務(wù)引起了廣泛的關(guān)注。本文利用圖像文本預(yù)先訓(xùn)練的CLIP知識(shí)來幫助理解3D場(chǎng)景。
    的頭像 發(fā)表于 10-29 16:54 ?1174次閱讀
    如何利用CLIP 的<b class='flag-5'>2D</b> <b class='flag-5'>圖像</b>-文本預(yù)習(xí)知識(shí)進(jìn)行<b class='flag-5'>3D</b>場(chǎng)景理解