75 年前,寶麗來相機拍出了第一張即拍照片,實現(xiàn)了用逼真 2D 圖像快速捕捉 3D 場景的技術(shù)突破。如今,AI 研究者正在進行相反的研究——在幾秒鐘內(nèi)將靜止的圖像集合轉(zhuǎn)換成數(shù)字 3D 場景。
這項被稱為逆向繪制的流程利用 AI 逼真模擬現(xiàn)實世界中的光線特征,使研究者能夠使用從不同角度拍攝的 2D 圖像重建 3D 場景。NVIDIA Research 團隊開發(fā)出可以瞬間完成這一任務(wù)的方法,構(gòu)建了首個將超快神經(jīng)網(wǎng)絡(luò)訓(xùn)練和快速渲染相結(jié)合的模型。
NVIDIA 將這種方法應(yīng)用于被稱為神經(jīng)輻射場(NeRF)的新技術(shù)。該結(jié)果被稱為“即時 NeRF”(Instant NeRF),是迄今為止最快的 NeRF 技術(shù),它在某些情況中能夠?qū)⑺俣忍嵘^ 1000 倍。該模型只需要幾秒鐘就能訓(xùn)練出幾十張靜態(tài)照片及其拍攝角度數(shù)據(jù),并在瞬間渲染產(chǎn)生的 3D 場景。
NVIDIA 負責(zé)圖形學(xué)研究的副總裁 David Luebke 表示:“如果把多邊形網(wǎng)格這樣的傳統(tǒng) 3D 表示方式比作矢量圖像,那么 NeRF 就像是位圖圖像——它們可以密集捕捉光線在物體或場景中的輻射方式。從這個意義上來說,即時 NeRF 對 3D 的重要性不亞于數(shù)碼相機和 JPEG 壓縮對 2D 攝影的重要性,它極大地提高了 3D 捕捉和分享的速度、便利性和范圍?!?/p>
NVIDIA GTC 上的一場分會展示了如何使用即時 NeRF 為虛擬世界創(chuàng)建虛擬化身或場景、以 3D 方式捕捉視頻會議參與者及其環(huán)境或者為 3D 數(shù)字地圖重建場景。
為了向早期的寶麗來照片致敬,NVIDIA Research 重現(xiàn)了 Andy Warhol 拍攝即拍照片時的標(biāo)志性照片,并使用即時 NeRF 將其轉(zhuǎn)換成 3D 場景。
什么是 NeRF?
NeRF 使用神經(jīng)網(wǎng)絡(luò)來表示和渲染基于 2D 圖像集的逼真 3D 場景。
為 NeRF 采集數(shù)據(jù)有點像紅毯攝影師從各個角度拍攝盛裝打扮的名人。該神經(jīng)網(wǎng)絡(luò)還需要幾十張從環(huán)繞場景的多個位置拍攝的圖像以及每次拍攝時的相機位置。
在包含人或其他移動元素的場景中,這些照片拍得越快越好。如果在 2D 圖像捕捉過程中出現(xiàn)過多的運動,AI 生成的 3D 場景就會變得模糊不清。
NeRF 可以填補這方面的空白,它可以訓(xùn)練小型神經(jīng)網(wǎng)絡(luò),通過預(yù)測光線從 3D 空間任何一點向任何方向輻射時的顏色來重建該場景。該技術(shù)甚至可以解決遮擋問題,比如當(dāng)某些圖像中的物體被其他圖像中的柱子等障礙物擋住時。
使用即時 NeRF 實現(xiàn) 1000 倍加速
人類天生就會根據(jù)局部視圖估計物體的深度和外觀,但這對 AI 來說卻很艱巨。
根據(jù)視圖創(chuàng)建的復(fù)雜性和分辨率,使用傳統(tǒng)方法創(chuàng)建 3D 場景需要耗費數(shù)小時甚至更長時間。AI 能夠加快這項工作的速度。早期的 NeRF 模型在幾分鐘內(nèi)就能渲染出沒有偽影的清晰場景,但仍需要通過數(shù)小時的訓(xùn)練。
即時 NeRF 將渲染時間縮短了多個數(shù)量級。它依靠的是 NVIDIA 開發(fā)的“多分辨率哈希網(wǎng)格編碼技術(shù)”。這項技術(shù)經(jīng)過優(yōu)化后,可在 NVIDIA GPU 上高效運行。研究者可以通過新的輸入編碼方法,利用快速運行的微型神經(jīng)網(wǎng)絡(luò)獲得高質(zhì)量的結(jié)果。
該模型由 NVIDIA CUDA 工具包和微型 CUDA 神經(jīng)網(wǎng)絡(luò)庫所開發(fā)。由于是輕量級的神經(jīng)網(wǎng)絡(luò),它可以在單個 NVIDIA GPU 上訓(xùn)練和運行,并且在內(nèi)置 NVIDIA Tensor 核的顯卡上達到最快運行速度。
這項技術(shù)可用于訓(xùn)練機器人和自動駕駛汽車,通過捕捉現(xiàn)實世界中物體的 2D 圖像或視頻片段來理解物體的大小和形狀。在建筑和娛樂行業(yè),該技術(shù)能夠快速生成真實環(huán)境的數(shù)字場景表示,創(chuàng)作者可在此基礎(chǔ)上進行修改和構(gòu)建。
除了 NeRFs 之外,NVIDIA 研究人員還在探索如何利用這種輸入編碼技術(shù)來加速多個 AI 領(lǐng)域的發(fā)展,包括強化學(xué)習(xí)、語言翻譯和通用深度學(xué)習(xí)算法。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4733瀏覽量
100420 -
NVIDIA
+關(guān)注
關(guān)注
14文章
4855瀏覽量
102711 -
虛擬世界
+關(guān)注
關(guān)注
0文章
80瀏覽量
5785
發(fā)布評論請先 登錄
相關(guān)推薦
評論