0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌TensorFlow Graphics:為3D圖像任務(wù)打造的深度學(xué)習(xí)利器

電子工程師 ? 來源:YXQ ? 2019-05-14 08:35 ? 次閱讀

TensorFlow重磅推出一個全新的圖形工具TensorFlow Graphics,結(jié)合計算機圖形學(xué)和計算機視覺技術(shù),以無監(jiān)督的方式解決復(fù)雜3D視覺任務(wù)。

近年來,可插入到神經(jīng)網(wǎng)絡(luò)架構(gòu)中的一種新型可微圖形層(differentiable graphics layers)開始興起。

從空間變換器(spatial transformers)到可微圖形渲染器,這些新型的神經(jīng)網(wǎng)絡(luò)層利用計算機視覺、圖形學(xué)研究獲得的知識來構(gòu)建新的、更高效的網(wǎng)絡(luò)架構(gòu)。它們將幾何先驗和約束顯式地建模到神經(jīng)網(wǎng)絡(luò)中,為能夠以自監(jiān)督的方式進行穩(wěn)健、高效訓(xùn)練的神經(jīng)網(wǎng)絡(luò)架構(gòu)打開了大門。

從高級層面來說,計算機圖形學(xué)的pipeline需要3D物體及其在場景中的絕對位置、構(gòu)成它們的材質(zhì)的描述、光、以及攝像頭。然后,渲染器對這個場景描述進行解釋,生成一個合成渲染。

相比之下,計算機視覺系統(tǒng)是從圖像開始的,并試圖推斷出場景的相關(guān)參數(shù)。也就是說,計算機視覺系統(tǒng)可以預(yù)測場景中有哪些物體,它們由什么材料構(gòu)成,以及它們的3D位置和方向。

訓(xùn)練一個能夠解決這些復(fù)雜的3D視覺任務(wù)的機器學(xué)習(xí)系統(tǒng)通常需要大量的數(shù)據(jù)。由于給數(shù)據(jù)打標(biāo)簽是一個成本高昂而且復(fù)雜的過程,因此設(shè)計能夠理解三維世界、而且無需太多監(jiān)督的機器學(xué)習(xí)模型的機制非常重要。

將計算機視覺和計算機圖形學(xué)技術(shù)結(jié)合起來,我們得以利用大量現(xiàn)成的無標(biāo)記數(shù)據(jù)。

如下圖所示,這個過程可以通過合成分析來實現(xiàn),其中視覺系統(tǒng)提取場景參數(shù),圖形系統(tǒng)根據(jù)這些參數(shù)返回圖像。如果渲染結(jié)果與原始圖像匹配,則說明視覺系統(tǒng)已經(jīng)準(zhǔn)確地提取出場景參數(shù)了。

在這種設(shè)置中,計算機視覺和計算機圖形學(xué)相輔相成,形成了一個類似于自動編碼器的機器學(xué)習(xí)系統(tǒng),能夠以一種自監(jiān)督的方式進行訓(xùn)練。

可微圖形層

接下來,我們將探討TensorFlow Graphics的一些功能。更多信息可以訪問GitHub:

變換(Transformations)

物體變換(Object transformations)功能能夠控制物體在空間中的位置。

如下圖所示,利用軸角度可以將立方體旋轉(zhuǎn)起來。旋轉(zhuǎn)軸指向上方,角度為正,則使立方體逆時針旋轉(zhuǎn)。

在下面的Colab示例中,我們展示了如何在一個神經(jīng)網(wǎng)絡(luò)中訓(xùn)練旋轉(zhuǎn)形式,該神經(jīng)網(wǎng)絡(luò)被訓(xùn)練來預(yù)測物體的旋轉(zhuǎn)和平移。

https://colab.sandbox.google.com/github/tensorflow/graphics/blob/master/tensorflow_graphics/notebooks/6dof_alignment.ipynb

這項任務(wù)是許多應(yīng)用程序的核心,比如專注于與環(huán)境交互的機器人。機器人要用機械臂抓取物體,需要精確地估計物體相對于機械臂的位置。

建模相機(Modelling cameras)

相機模型(Camera models)在計算機視覺中有著至關(guān)重要的作用,因為相機會極大地影響投影到圖像平面上的3D物體的外觀。

如下圖所示,立方體看起來是上下縮放的,而實際上發(fā)生這種變化只是由于相機焦距發(fā)生了變化。

下面的Colab示例提供了更多關(guān)于相機模型的細(xì)節(jié),以及如何在TensorFlow中使用它們的具體示例。

材料

材料模型(Material models)定義了光和物體交互的方式,賦予它們獨特的外觀。

例如,有些材料,如石膏,能均勻地向所有方向反射光線,而有些材料,如鏡子,則純粹是鏡面反射。

準(zhǔn)確地預(yù)測材料屬性是許多視覺任務(wù)的基礎(chǔ)。例如,可以讓用戶將虛擬家具放置在環(huán)境中,家具的照片可以與室內(nèi)環(huán)境逼真地融合在一起,從而讓用戶對這些家具的外觀形成準(zhǔn)確的感知。

在下面的Colab筆記本,可以學(xué)習(xí)如何使用Tensorflow Graphics生成如下的渲染。你也可以試驗不同的材料和光的參數(shù),了解它們?nèi)绾蜗嗷プ饔谩?/p>

幾何——3D卷積和池化

近年來,從智能手機的深度傳感器自動駕駛汽車激光雷達(dá),以點云或網(wǎng)格的形式輸出3D數(shù)據(jù)的傳感器越來越常用。由于這類數(shù)據(jù)有著不規(guī)則的結(jié)構(gòu),與提供規(guī)則網(wǎng)格結(jié)構(gòu)的圖像相比,在這些表示上執(zhí)行卷積更難實現(xiàn)。

TensorFlow Graphics提供兩個3D卷積層和一個3D池化層,例如,允許網(wǎng)絡(luò)在網(wǎng)格上執(zhí)行語義部分分類(如下圖所示):

TensorBoard 3d

可視化debug是評估實驗是否朝著正確方向進行的一種很好的方法。為此,TensorFlow Graphics提供了一個TensorBoard插件,可以交互式地對3D網(wǎng)格和點云進行可視化。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6128

    瀏覽量

    104987
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5472

    瀏覽量

    120909

原文標(biāo)題:谷歌重磅推出TensorFlow Graphics:為3D圖像任務(wù)打造的深度學(xué)習(xí)利器

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    裸眼3D筆記本電腦——先進的光場裸眼3D技術(shù)

    效果的用戶,這款筆記本電腦都能滿足你的需求。 一、卓越的3D模型設(shè)計能力 英倫科技裸眼3D筆記本電腦采用最新的光場裸眼3D技術(shù),使用戶無需佩戴3D眼鏡就能看到立體的
    的頭像 發(fā)表于 07-16 10:04 ?438次閱讀

    TensorFlow是什么?TensorFlow怎么用?

    TensorFlow是由Google開發(fā)的一個開源深度學(xué)習(xí)框架,它允許開發(fā)者方便地構(gòu)建、訓(xùn)練和部署各種復(fù)雜的機器學(xué)習(xí)模型。TensorFlow
    的頭像 發(fā)表于 07-12 16:38 ?538次閱讀

    TensorFlow的定義和使用方法

    TensorFlow是一個由谷歌人工智能團隊谷歌大腦(Google Brain)開發(fā)和維護的開源機器學(xué)習(xí)庫。它基于數(shù)據(jù)流編程(dataflow programming)的概念,將復(fù)雜的
    的頭像 發(fā)表于 07-02 14:14 ?651次閱讀

    TensorFlow與PyTorch深度學(xué)習(xí)框架的比較與選擇

    深度學(xué)習(xí)作為人工智能領(lǐng)域的一個重要分支,在過去十年中取得了顯著的進展。在構(gòu)建和訓(xùn)練深度學(xué)習(xí)模型的過程中,深度
    的頭像 發(fā)表于 07-02 14:04 ?861次閱讀

    奧比中光3D相機打造高質(zhì)量、低成本的3D動作捕捉與3D動畫內(nèi)容生成方案

    ? 在過去幾十年里,動作捕捉(MoCap)技術(shù)經(jīng)歷了顯著的發(fā)展,廣泛被應(yīng)用于電影、游戲、虛擬現(xiàn)實、醫(yī)療等多個領(lǐng)域。近期,奧比中光合作客戶Moverse使用Orbbec Femto系列3D相機,打造
    的頭像 發(fā)表于 06-25 16:37 ?1006次閱讀

    無監(jiān)督深度學(xué)習(xí)實現(xiàn)單次非相干全息3D成像

    論文信息 背景引入 數(shù)字全息術(shù)因其能夠從單一視點對3D場景進行成像而備受關(guān)注。與直接成像相比,數(shù)字全息是一種間接的多步驟成像過程,包括光學(xué)記錄全息圖和數(shù)值計算重建,包括深度學(xué)習(xí)在內(nèi)的
    的頭像 發(fā)表于 05-13 17:38 ?372次閱讀
    無監(jiān)督<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>實現(xiàn)單次非相干全息<b class='flag-5'>3D</b>成像

    奧比中光攜多款3D相機深度參與國內(nèi)3D視覺最高規(guī)格會議

    4月19日-21日,國內(nèi)3D視覺最高規(guī)格會議China 3DV 2024大會在深圳舉行。奧比中光作為大會鉑金贊助商,攜多款不同技術(shù)路線的3D相機深度參與。
    的頭像 發(fā)表于 04-24 09:26 ?408次閱讀
    奧比中光攜多款<b class='flag-5'>3D</b>相機<b class='flag-5'>深度</b>參與國內(nèi)<b class='flag-5'>3D</b>視覺最高規(guī)格會議

    谷歌模型怎么用PS打開文件和圖片

    谷歌模型本身并不是用Adobe Photoshop(簡稱PS)打開的文件和圖片格式。谷歌模型通常是用于機器學(xué)習(xí)深度學(xué)習(xí)的模型文件,如
    的頭像 發(fā)表于 02-29 18:25 ?1341次閱讀

    基于深度學(xué)習(xí)的方法在處理3D點云進行缺陷分類應(yīng)用

    背景部分介紹了3D點云應(yīng)用領(lǐng)域中公開可訪問的數(shù)據(jù)集的重要性,這些數(shù)據(jù)集對于分析和比較各種模型至關(guān)重要。研究人員專門設(shè)計了各種數(shù)據(jù)集,包括用于3D形狀分類、3D物體檢測和3D點云分割等
    的頭像 發(fā)表于 02-22 16:16 ?982次閱讀
    基于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的方法在處理<b class='flag-5'>3D</b>點云進行缺陷分類應(yīng)用

    Adobe提出DMV3D3D生成只需30秒!讓文本、圖像都動起來的新方法!

    因此,本文研究者的目標(biāo)是實現(xiàn)快速、逼真和通用的 3D 生成。為此,他們提出了 DMV3D。DMV3D 是一種全新的單階段的全類別擴散模型,能直接根據(jù)模型文字或單張圖片的輸入,生成 3D
    的頭像 發(fā)表于 01-30 16:20 ?781次閱讀
    Adobe提出DMV<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b>生成只需30秒!讓文本、<b class='flag-5'>圖像</b>都動起來的新方法!

    友思特C系列3D相機:實時3D點云圖像

    3D相機
    虹科光電
    發(fā)布于 :2024年01月10日 17:39:25

    如何搞定自動駕駛3D目標(biāo)檢測!

    可用于自動駕駛場景下基于圖像3D目標(biāo)檢測的數(shù)據(jù)集總結(jié)。其中一些數(shù)據(jù)集包括多個任務(wù),這里只報告了3D檢測基準(zhǔn)(例如KITTI 3D發(fā)布了超過
    發(fā)表于 01-05 10:43 ?542次閱讀
    如何搞定自動駕駛<b class='flag-5'>3D</b>目標(biāo)檢測!

    兩種應(yīng)用于3D對象檢測的點云深度學(xué)習(xí)方法

    是標(biāo)準(zhǔn) RGB 圖像與其關(guān)聯(lián)的“深度圖”的組合,目前由 Kinect 或英特爾實感技術(shù)使用。3D 數(shù)據(jù)可以對傳感器周圍環(huán)境進行豐富的空間表示,并可應(yīng)用于機器人、智能家居設(shè)備、無人駕駛汽車或醫(yī)學(xué)成像。
    的頭像 發(fā)表于 01-03 10:32 ?878次閱讀
    兩種應(yīng)用于<b class='flag-5'>3D</b>對象檢測的點云<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>方法

    使用Python從2D圖像進行3D重建過程詳解

    有許多不同的方法和算法可用于從2D圖像執(zhí)行3D重建。選擇的方法取決于諸如輸入圖像的質(zhì)量、攝像機校準(zhǔn)信息的可用性以及重建的期望準(zhǔn)確性和速度等因素。
    的頭像 發(fā)表于 12-05 14:07 ?2758次閱讀
    使用Python從2<b class='flag-5'>D</b><b class='flag-5'>圖像</b>進行<b class='flag-5'>3D</b>重建過程詳解

    深度解析3D視覺成像幾種典型方案

    類似于ToF相機、光場相機這類相機,可以歸類單相機3D成像范圍,它們體積小,實時性好,適合Eye-in-Hand系統(tǒng)執(zhí)行3D測量、定位和實時引導(dǎo)。
    發(fā)表于 12-05 12:24 ?896次閱讀
    <b class='flag-5'>深度</b>解析<b class='flag-5'>3D</b>視覺成像幾種典型方案