0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GTC23 | China AI Day 演講回顧:NVIDIA CUDA 技術(shù)助力網(wǎng)易瑤臺(tái)神經(jīng)隱式曲面建模 20 倍加速

NVIDIA英偉達(dá) ? 來(lái)源:未知 ? 2023-04-01 01:40 ? 次閱讀

NVIDIA GTC 2023 春季大會(huì)成功落下帷幕,超過(guò) 30 萬(wàn)名注冊(cè)用戶參與到 650 多場(chǎng)演講中,深入了解最新的 AI 技術(shù)和豐富的應(yīng)用場(chǎng)景。

在本屆 GTC 特別活動(dòng) China AI Day 上,網(wǎng)易伏羲視覺(jué)計(jì)算負(fù)責(zé)人李林橙以《NVIDIA CUDA 技術(shù)助力網(wǎng)易瑤臺(tái)神經(jīng)隱式曲面建模 20 倍加速》為題,分享了 AIGC 趨勢(shì)下其創(chuàng)新性的神經(jīng)隱式曲面建模解決方案,以及項(xiàng)目過(guò)程中的實(shí)踐經(jīng)驗(yàn)和心得。以下為演講內(nèi)容概要。

網(wǎng)易瑤臺(tái)項(xiàng)目背景

網(wǎng)易瑤臺(tái)是網(wǎng)易伏羲旗下沉浸式活動(dòng)平臺(tái),致力于用人工智能科技創(chuàng)新打造數(shù)字空間新模式。網(wǎng)易瑤臺(tái)在底層的 AI 算法上,支持虛擬角色、虛擬場(chǎng)景的創(chuàng)建驅(qū)動(dòng);在底層的平臺(tái)上,有 ACE 分布式引擎來(lái)支持達(dá)到萬(wàn)人級(jí)別的同屏實(shí)時(shí)互動(dòng),同時(shí)借助網(wǎng)易雷火游戲的美術(shù)積累,實(shí)現(xiàn)業(yè)內(nèi)一流的 3D 美術(shù)制作和渲染管線。

作為一個(gè)提供一站式元宇宙營(yíng)銷服務(wù)的元宇宙產(chǎn)品,網(wǎng)易瑤臺(tái)已經(jīng)被廣泛地應(yīng)用于會(huì)議活動(dòng)、虛擬展會(huì)、在線展廳、社交娛樂(lè)等多元豐富的場(chǎng)景,為美國(guó)、日本、新加坡等一百多個(gè)國(guó)家的用戶舉辦累積兩百余場(chǎng)沉浸式虛擬活動(dòng),獲得了客戶的一致好評(píng)。

圖一

在這個(gè)過(guò)程中,我們了解到客戶的一個(gè)剛需是場(chǎng)景的數(shù)字化建模。一部分客戶希望重新打造一個(gè)虛擬場(chǎng)景,但更多的時(shí)候客戶希望復(fù)刻一個(gè)真實(shí)世界的場(chǎng)景,在虛擬的元宇宙中做到數(shù)字孿生。如圖一所示,左邊是網(wǎng)易瑤臺(tái)與河南省文化和旅游廳聯(lián)合推出的三維虛擬空間“元豫宙”之黃帝故里場(chǎng)景案例,我們運(yùn)用數(shù)字科技復(fù)刻了物理世界場(chǎng)景,把黃帝故里等河南文旅 IP 景區(qū)重現(xiàn)在以網(wǎng)易瑤臺(tái)為數(shù)字基座的數(shù)字空間;右邊是浙江大學(xué)求是會(huì)議廳,我們也在網(wǎng)易瑤臺(tái)里做了一個(gè) 1:1 的數(shù)字孿生復(fù)刻。這樣的需求很多,但是復(fù)刻的過(guò)程一方面依賴很多實(shí)地測(cè)繪,需要現(xiàn)場(chǎng)拍很多照片和測(cè)量;另一方面也需要很大的人工工作量,用建模軟件一步一步地雕刻出一個(gè)個(gè)場(chǎng)景,然后把它們組合起來(lái)。這是一個(gè)很大的工作量,也不利于我們做規(guī)?;臄?shù)字孿生。

所以引出了網(wǎng)易瑤臺(tái)想要做到的方案,即如何快速便捷地建模數(shù)字化場(chǎng)景。我們想讓使用網(wǎng)易瑤臺(tái)的用戶用手機(jī)拍攝物體,能夠自動(dòng)化且快速地做數(shù)字化建模,并且導(dǎo)入網(wǎng)易瑤臺(tái)的云會(huì)場(chǎng),這是這個(gè)項(xiàng)目希望實(shí)現(xiàn)的目標(biāo)。

融合 NVIDIA instant-ngp 和 NeuS 優(yōu)勢(shì)的

神經(jīng)隱式曲面建模方案

第二部分介紹一下我們奔著這個(gè)目標(biāo),做了怎樣的技術(shù)選型。從技術(shù)的角度,這是一個(gè)多視角三維場(chǎng)景重建的問(wèn)題,希望從多視角照片中重建高精度的 3D 模型。這個(gè)方案的采集成本比較低,只需要智能手機(jī)就可以,適用于大眾來(lái)進(jìn)行拍攝,同時(shí)做自動(dòng)化的建模來(lái)提升 3D 內(nèi)容數(shù)字孿生的生產(chǎn)效率但是技術(shù)難點(diǎn)在于,和常見(jiàn)的多視角 3D 場(chǎng)景重建的各種方案不同的是,網(wǎng)易瑤臺(tái)的要求略有些特殊,要求高質(zhì)量 Mesh 與貼圖,并且要求高效率,不讓用戶等的時(shí)間過(guò)長(zhǎng)。目前已有的常見(jiàn)算法在效率和精度上通常無(wú)法兼顧。

圖二

3D 重建算法的本質(zhì)都是輸入 2D 圖像,先計(jì)算相機(jī)位姿,之后再進(jìn)一步重建 3D 模型。模型的表示可以是隱式的,比如使用 SDF、體密度來(lái)表示,也可以是顯式的,用傳統(tǒng)的點(diǎn)云、深度圖、Mesh 這些方式來(lái)表示。

這里我們對(duì)現(xiàn)有算法作了一個(gè)簡(jiǎn)單的分類,如圖二。最左邊,近年來(lái)比較經(jīng)典的一類方法是神經(jīng)體渲染,代表方法是 NeRF,用 MLP 來(lái)表示神經(jīng)隱式場(chǎng)。對(duì)用戶輸入的每一個(gè)三維點(diǎn),從每一個(gè)方向的觀察,都輸出一個(gè) RGB 和體密度,每一個(gè)點(diǎn)的顏色通過(guò)沿著一條射線積分 RGB 和體密度來(lái)得到。在這個(gè)方向上,去年 NVIDIA instant-ngp 也是完成了特別顯著的加速優(yōu)化。

圖的中間示意,第二類是神經(jīng)隱式曲面,把經(jīng)典的體密度表示,換成了用 SDF 表示的方式,每個(gè)點(diǎn)表示了當(dāng)前這個(gè)點(diǎn)到空間中的三維曲面的距離。這種表示方式可以獲得更加平滑的曲面,代表方法是 IDR 和 NeuS。

圖的右側(cè),第三類是從傳統(tǒng)的 MVS 方法發(fā)展過(guò)來(lái),先用傳統(tǒng)的特征匹配或者用神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)一個(gè)深度圖,然后再將多幀的深度圖進(jìn)行融合得到三維的曲面,這幾年比較好用的方式其中之一是 CasMVSNet。

下面我將逐一介紹網(wǎng)易瑤臺(tái)在這三個(gè)方向上的探索以及結(jié)果。

一,NeRF。NVIDIA instant-ngp 在 NeRF 的基礎(chǔ)上提出了多尺度的哈希編碼。傳統(tǒng)的編碼是用正余弦編碼來(lái)表示每一個(gè)頂點(diǎn)頻域分量,瑤臺(tái)的方案,是用一個(gè)網(wǎng)絡(luò)去生成哈希編碼來(lái)表達(dá)空間中每一個(gè)位置,同時(shí)也使用了球諧編碼,這種方式做到了顯著的加速。在實(shí)現(xiàn)的過(guò)程中,還用了 NVIDIA 的 tiny-cuda-nn 加速技術(shù)。把這些技術(shù)整合在一起之后,在訓(xùn)練時(shí)間上從 NeRF 的 10 個(gè)小時(shí)大幅度提升到了 10 分鐘之內(nèi),可以做到高質(zhì)量的 2D 視角生成。但不足之處在于,只能輸出相對(duì)低質(zhì)量的 mesh 和紋理。本質(zhì)原因在于,這種方式是為了 2D 的視角合成而不是為了 3D 的 mesh 生成設(shè)計(jì)的。

二,NeuS。用 SDF 取代體密度渲染,得到了更高的 mesh 重建的精度。它把場(chǎng)景分成了球內(nèi)和球外,在球內(nèi)用 SDF 生成一個(gè)前景的神經(jīng)隱式場(chǎng),在球外還是沿用了 NeRF 生成比較好的 2D 背景,編碼還是正常的正余弦編碼。這個(gè)方法的優(yōu)勢(shì)是可以得到一個(gè)很高質(zhì)量的 mesh,同時(shí)因?yàn)?mesh 比較精細(xì),紋理對(duì)應(yīng)的也可以是高質(zhì)量的紋理,順便也可以做到比較高質(zhì)量的 2D 視角合成。但是它的訓(xùn)練時(shí)間很慢,和標(biāo)準(zhǔn)的 NeRF 一樣,訓(xùn)練時(shí)間也要 10 個(gè)小時(shí)以上,同時(shí)需要每張圖手動(dòng)截取物體邊框作為輸入。

三,深度圖融合的方式,代表方法是 CasMVSNet。它是通過(guò)多尺度級(jí)聯(lián)的深度估計(jì)網(wǎng)絡(luò),先預(yù)測(cè)低分辨率的深度圖,再逐漸增加分辨率到高分辨率的深度圖,以達(dá)到預(yù)測(cè)速度和預(yù)測(cè)精度之間的 tradeoff。然后在多視角深度融合中用一致性過(guò)濾噪點(diǎn),得到一個(gè)最終的 3D 點(diǎn)云。這個(gè)方法借助多尺度深度圖融合之后,推理時(shí)間可以做到兩分鐘,是很快的速度,同時(shí)能輸出高質(zhì)量的點(diǎn)云。但因?yàn)槭菑纳疃葓D融合后過(guò)濾的,被過(guò)濾掉的地方就變成了空洞。簡(jiǎn)單來(lái)說(shuō),在準(zhǔn)的地方很準(zhǔn),但是在有些區(qū)域是沒(méi)有信息的,即變成空洞。如果讓用戶拍出這樣的結(jié)果直接放到元宇宙的應(yīng)用里,不能滿足用戶需求。而且深度圖的方法還需要有數(shù)據(jù)集的監(jiān)督訓(xùn)練,也是一個(gè)比較受限制的條件。

708c2778-cfea-11ed-bfe3-dac502259ad0.png

圖三

總結(jié)一下,如圖三所示。前面這幾類比較經(jīng)典的方法,NeRF 是開(kāi)山鼻祖,運(yùn)行時(shí)間很長(zhǎng),但是給后續(xù)的方法提供了一個(gè)完全全新的思路。NVIDIA instant-ngp 在 NeRF 的基礎(chǔ)上做到了大幅的加速,做到了很理想的運(yùn)行時(shí)間,但是還是沿用了 NeRF 的 2D 視角合成任務(wù),沒(méi)有專門去關(guān)注 3Dmesh 生成任務(wù),和我們的需求沒(méi)有完全匹配。NeuS 針對(duì)高質(zhì)量的 3Dmesh 做了很好的優(yōu)化,但是它的運(yùn)行時(shí)間又回到了 10 個(gè)小時(shí)以上。CasMVSNet 速度非???,但是生成的 3D 點(diǎn)云有些空洞。

圖四

針對(duì)這個(gè)技術(shù)現(xiàn)狀,我們分別提取 instant-ngp 和 NeuS 的優(yōu)勢(shì)做了整合,設(shè)計(jì)了我們自己的整體流程(如圖四所示)。這個(gè)流程在大的框架上還是標(biāo)準(zhǔn)的模塊,如視頻抽幀、位姿估計(jì)、邊框估計(jì)、物體分割、到神經(jīng)渲染重建、紋理貼圖等模塊。下方的圖是這個(gè)流程重建出來(lái)的部分結(jié)果。

神經(jīng)隱式曲面建模方案工作流程

下面我們針對(duì)每個(gè)模塊展開(kāi)具體的介紹。首先介紹和神經(jīng)隱式場(chǎng)無(wú)關(guān)的位姿估計(jì)和預(yù)處理的模塊。

70f47526-cfea-11ed-bfe3-dac502259ad0.png

圖五

如圖五所示,我們輸入的是一個(gè)用戶拍攝的視頻,視頻幀數(shù)很多,而且會(huì)出現(xiàn)一些運(yùn)動(dòng)模糊。我們希望篩選出高質(zhì)量幀,踢掉模糊幀,保留視角相對(duì)合適的幀。因?yàn)橛脩襞牡膬?nèi)容一般是針對(duì)感興趣的區(qū)域進(jìn)行拍攝,所以我們針對(duì)用戶拍攝的圖片做特征匹配之后,能夠提取出用戶感興趣的區(qū)域。同時(shí)我們用模糊檢測(cè)的方法預(yù)測(cè)每一幀的模糊系數(shù),從而剔除一些幀,得到高質(zhì)量的圖片序列。

711933ac-cfea-11ed-bfe3-dac502259ad0.png

圖六

在位姿估計(jì)方面,傳統(tǒng)的 colmap 已經(jīng)是比較成熟而且比較好用的方法。但是它也存在兩點(diǎn)問(wèn)題,一是估計(jì)位姿的精度會(huì)差一些,二是視角容易缺失。我們用了一系列方法去優(yōu)化這兩個(gè)問(wèn)題。具體來(lái)說(shuō),我們使用 Superpoint 作為特征提取,使用 Superglue 作為特征匹配,使用 Pixsfm 作為算法的優(yōu)化。這樣在特征的提取、匹配、優(yōu)化的過(guò)程中各自做了一些改進(jìn)和替換之后,我們提高了位姿估計(jì)的魯棒性和準(zhǔn)確性。如圖六所示,左下角是原始的 colmap 和我們優(yōu)化之后的對(duì)比,可以看到右側(cè)的結(jié)果位姿的丟失比較少。同時(shí)我們的重投影誤差也有了 3.7%的提升,從 1.06 提升到了 1.02。

715ce62e-cfea-11ed-bfe3-dac502259ad0.png

圖七

在物體邊框估計(jì)方面,如果直接引用 NVIDIA instant-ngp 的話,物體邊框的估計(jì)出來(lái)會(huì)比較大。這里我們用位姿估計(jì)和稀疏的 3D 點(diǎn)估計(jì)結(jié)果去縮小這個(gè)邊框。首先進(jìn)行噪點(diǎn)的過(guò)濾,然后估計(jì)出物體的中心:用最小二乘法計(jì)算各個(gè)視角交點(diǎn),就可以認(rèn)為是用戶感興趣的物體的中心。之后計(jì)算各個(gè)視角的最小深度,把各相機(jī)沿主軸平移到這個(gè)最小深度上,平移后的相機(jī)包圍框就是我們縮小之后的物體邊框。如圖七,右邊是一個(gè)對(duì)比,原始的 NVIDIA instant-ngp 是綠色框,我們把它優(yōu)化到了紅色框里,這樣能減少一些計(jì)算資源。

7190d33a-cfea-11ed-bfe3-dac502259ad0.png

圖八

在物體分割方面,我們首先利用顯著性檢測(cè),對(duì)用戶圖片進(jìn)行前景分割,因?yàn)橛脩襞臄z的畫面中間那個(gè)東西,大概率是他感興趣的東西,而且是一個(gè)獨(dú)立的物體。我們?cè)趦?yōu)化顯著性檢測(cè)之后,得到了左邊的結(jié)果。這個(gè)結(jié)果還能進(jìn)一步互相校正,因?yàn)槲覀円呀?jīng)知道了每幀的位姿。檢測(cè)了 2D 分割后,我們可以根據(jù)位姿投影得到 3D 分割,也就是 3D 凸包,比如圖八右邊的展示。這些 3D 凸包一方面可以給用戶實(shí)現(xiàn)快速的預(yù)覽功能,只要不到一分鐘的時(shí)間就可以生成 3D 凸包,這些凸包相當(dāng)于一個(gè)粗糙的模型。看到這個(gè)模型之后,用戶就知道后面的進(jìn)一步細(xì)化會(huì)基于目前的這個(gè)粗糙狀態(tài)下進(jìn)行,提前有一個(gè)預(yù)覽。同時(shí)這些 3D 凸包可以互相校正,一些 2D 顯著性檢測(cè)結(jié)果有分割錯(cuò)誤的地方,在 3D 凸包上可以糾正回來(lái)。

71d01fea-cfea-11ed-bfe3-dac502259ad0.png

圖九

圖九是互相校正的例子。從左到右每一列依次是原圖、2D 顯著性分割的 mask,做了 3D 凸包的結(jié)果,互相校正之后得到的比較精確的 mask、最后是 mask 之后的圖片。右邊是一個(gè)粗糙的 3D 凸包,其實(shí)對(duì)于一些要求不高的物體來(lái)說(shuō),這個(gè) 3D 凸包可以直接作為重建結(jié)果使用,也可以指導(dǎo)后續(xù)的優(yōu)化。

建模速度從 10 小時(shí)優(yōu)化到了 10-20 分鐘

下面介紹一下我們對(duì)神經(jīng)隱式曲面建模,進(jìn)行了一些加速的操作(如圖十所示)。

71fb5c78-cfea-11ed-bfe3-dac502259ad0.png

圖十

整體來(lái)說(shuō),我們?nèi)诤狭?NVIDIA instant-ngp 和 NeuS 兩個(gè)方案的優(yōu)點(diǎn),同時(shí)借助 CasMVSNet 做先驗(yàn)的指導(dǎo)。主要做了兩個(gè)方面工作,一方面是對(duì)編碼進(jìn)行優(yōu)化和網(wǎng)絡(luò)壓縮,另一方面是調(diào)整訓(xùn)練策略。下面分別展開(kāi)討論。

725250aa-cfea-11ed-bfe3-dac502259ad0.png

圖十一

針對(duì)編碼優(yōu)化和網(wǎng)絡(luò)壓縮(如圖十一所示),我們做了以下工作:

首先位置編碼還是正常的正余弦編碼,再加上了 NVIDIA instant-ngp 的哈希編碼。這邊我們有一個(gè)操作:NVIDIA instant-ngp 把編碼改成了哈希編碼,我們?cè)谒幕A(chǔ)上疊加了正余弦編碼 concat 上去。這個(gè)操作其實(shí)在數(shù)學(xué)上并不是一個(gè)特別優(yōu)雅的方案,但是我們實(shí)驗(yàn)下來(lái)能夠解決哈希編碼的一些問(wèn)題。比如說(shuō)哈希編碼會(huì)帶來(lái)一些空洞問(wèn)題,通過(guò)這個(gè)正余弦編碼的疊加可以很大程度上的緩解。方向編碼我們沿用了 NVIDIA instant-ngp 的球諧編碼。在整體的 MLP 上,我們使用 NeuS 的 SDF 形式來(lái)表示三維場(chǎng)景,然后對(duì) NeuS 的 MLP 進(jìn)行了很大幅度的壓縮。球外是 2*64 這樣的小網(wǎng)絡(luò),球內(nèi)也是 2*64 和 2*256 這樣比較快速的網(wǎng)絡(luò)。

經(jīng)過(guò)一系列的優(yōu)化之后,我們這個(gè)小網(wǎng)絡(luò)的四萬(wàn)次迭代就達(dá)到了 NeuS 這個(gè)大網(wǎng)絡(luò)的三十萬(wàn)次迭代的精度。右下角圖里,橙色的線是 NeuS 的迭代誤差,藍(lán)色的線是我們的迭代誤差。同樣的迭代誤差下,我們用比較快的速度達(dá)到了 NeuS 相同的結(jié)果,總耗時(shí)也降到了 25 分鐘左右。

72a98848-cfea-11ed-bfe3-dac502259ad0.png

圖十二

在訓(xùn)練策略上,我們首先借助 CasMVSNet 做點(diǎn)云的監(jiān)督(如圖十二所示)。我們先通過(guò) CasMVSNet 得到一個(gè)比較稀疏的點(diǎn)云,再對(duì)這個(gè)稀疏點(diǎn)云進(jìn)行多視角一致性濾波,得到一個(gè)完成后處理的結(jié)果。這個(gè)結(jié)果可以用于監(jiān)督 SDF 網(wǎng)絡(luò)訓(xùn)練過(guò)程中的采樣,在有這個(gè)點(diǎn)云的附近多采一些點(diǎn),在遠(yuǎn)離這些點(diǎn)云的地方可以少采一些點(diǎn),因?yàn)辄c(diǎn)云大概率代表了實(shí)際的 3D 網(wǎng)格就在它附近。同時(shí)我們做了一個(gè)自適應(yīng)的采樣,平衡每一個(gè) batch 中點(diǎn)云像素的占比,因?yàn)辄c(diǎn)云是稀疏排布的,部分地方?jīng)]有點(diǎn)云。

在以上操作之后,我們?cè)趦傻饺f(wàn)次迭代后達(dá)到了 NeuS 三十萬(wàn)次迭代的精度。如圖十二顯示,左下角這張圖里,藍(lán)色是我們用點(diǎn)云監(jiān)督之后的結(jié)果,黃色是 NeuS 的原始結(jié)果。我們?cè)诤芸斓乃俣认逻_(dá)到了 NeuS 同樣精度的水平。右邊是我們用了點(diǎn)云監(jiān)督之后和 NeuS 的重建結(jié)果對(duì)比,除了速度大幅提高之外,我們?cè)诰壬弦灿辛艘欢ǖ奶岣?。比如第一行房子的屋頂上,我們的結(jié)果在屋頂上的凹陷就沒(méi)有了,但是 NeuS 的結(jié)果還有;在第四行的蘋果上,最上面那個(gè)蘋果我們也得到更精確的細(xì)節(jié)。

我們的第二個(gè)策略是做了多尺度和多視角的監(jiān)督(如圖十三所示)。多尺度是一個(gè)比較容易想到的方案:用圖像金字塔進(jìn)行重建,先做一個(gè)低分辨率的結(jié)果,然后逐漸擴(kuò)大得到高分辨率的結(jié)果。這種方案可以增強(qiáng)局部的連續(xù)性,而且總的迭代次數(shù)減少為 NeuS 的 43%,進(jìn)一步提升了計(jì)算速度。

72fa5692-cfea-11ed-bfe3-dac502259ad0.png

圖十三

如圖十三所示,右上角是我們?cè)谠瓐D和二分之一圖訓(xùn)練的一個(gè)對(duì)比。我們還做了多視角的監(jiān)督。單步多視角是指我們?cè)谟?xùn)練時(shí)的 batchsize 可以設(shè)得很大,因?yàn)槲覀兦懊孀隽撕芏嗖僮鳎W(wǎng)絡(luò)很小,batchsize 可以從 512 擴(kuò)大到 2560 來(lái)盡量加快訓(xùn)練速度。但是如果直接擴(kuò)大 batchsize 會(huì)導(dǎo)致空洞的增多,就像右下角的第三個(gè)圖片,在白色的盆上出現(xiàn)了空洞。我們的做法是在單步訓(xùn)練中使用 10 個(gè)視角。原來(lái)是每個(gè) step 在一張輸入圖片上采一個(gè) batch 的點(diǎn)去做訓(xùn)練,我們改成了每個(gè) step 從 10 個(gè)視角去采樣,在 10 張圖上總共采樣這么多點(diǎn)去做訓(xùn)練。這種方式可以避免訓(xùn)練過(guò)程中的空洞,比如右下角最右邊這張圖,用 10 個(gè)視角監(jiān)督之后白色的盆上不再有這些空洞。相比小的 batch,我們用 17 分鐘就可以達(dá)到 NeuS 用 10 個(gè)小時(shí)的精度。

7343ab3a-cfea-11ed-bfe3-dac502259ad0.png

圖十四

我們還做了采樣的優(yōu)化(如圖十四所示)。這部分目標(biāo)是加速體渲染,提高細(xì)節(jié)的精度。因?yàn)槲覀冇辛艘粋€(gè)比較精確的 3D 凸包,它可以過(guò)濾無(wú)效的采樣點(diǎn),所以基于這個(gè) 3D 凸包和 2D 重投影,就可以算出來(lái)每個(gè)射線在 3D 凸包內(nèi)的近交點(diǎn)和遠(yuǎn)交點(diǎn),那么我們采樣的范圍只需要在凸包內(nèi)部就可以。采樣范圍直接縮小 40%,訓(xùn)練時(shí)間也縮短了 10%。

另外我們做了梯度顯著點(diǎn)采樣。考慮到做采樣的時(shí)候,可能出問(wèn)題的更多是在物體的邊緣附近,我們希望在物體邊緣多采一些點(diǎn),在物體內(nèi)部少采一些點(diǎn)。于是我們先統(tǒng)計(jì)梯度的顯著點(diǎn),然后再根據(jù)這些顯著點(diǎn)去做采樣。同時(shí)我們做了等比采樣,batch 采樣中顯著點(diǎn)的占比要等于圖像中的顯著點(diǎn)占比。通過(guò)這個(gè)步驟重建精度進(jìn)一步提升了 3%。因?yàn)檫吘壍募?xì)節(jié)做得更好,非邊緣梯度較弱的地方簡(jiǎn)單采樣也沒(méi)有太大問(wèn)題,所以進(jìn)一步提高了精度。

73aed23e-cfea-11ed-bfe3-dac502259ad0.png

圖十五

做了這一系列工作之后,最后把 SDF 轉(zhuǎn)成 mesh 和紋理是比較常規(guī)的操作,如圖十五所示。我們直接計(jì)算每一個(gè)采樣體素的 SDF 值,用 marching cubes 提取零等值面,就直接輸出了 3D mesh。在這個(gè) mesh 上,我們借助 OpenMVS 做減面和貼圖操作。右邊這組圖里最初輸出的是 40 萬(wàn)面的 mesh,減面之后變成了 4000 面的 mesh。減面之后的 mesh 比較適合放在游戲引擎里去做元宇宙的應(yīng)用。下面是兩種方式的紋理貼圖的對(duì)比,雖然減到了 4000 面,但是視覺(jué)效果看起來(lái)。這是我們最終輸出的小體積的重建結(jié)果,最后我們把它放到了網(wǎng)易瑤臺(tái)產(chǎn)品里。

7401dc4a-cfea-11ed-bfe3-dac502259ad0.png

圖十六

經(jīng)過(guò)前面這些操作之后,我們總結(jié)一下目前達(dá)到的狀態(tài)。在 NVIDIA instant-ngp 和 tiny-cuda-nn 的幫助下,網(wǎng)易瑤臺(tái)神經(jīng)隱式曲面建模的速度從一開(kāi)始的 10 個(gè)小時(shí),優(yōu)化到了 10 到 20 分鐘。這個(gè)速度在用戶的使用過(guò)程中是可以接受的。

742d1a18-cfea-11ed-bfe3-dac502259ad0.png

圖十七

圖十七是我們重建精度的對(duì)比。我們和一個(gè)商業(yè)軟件 RealityCapture 做了對(duì)比。

RealityCapture 是一個(gè)傳統(tǒng)的基于特征匹配做 MVS 重建的算法。上面的是網(wǎng)易瑤臺(tái)的輸出,下面的是 RealityCapture 的輸出。在視角不丟失的情況下,兩個(gè)方法的精度都是很好的。比如這個(gè)鱷魚(yú)或者最左邊的熊,在看得到或者說(shuō)視角沒(méi)丟的那半邊其實(shí)是可以的,但視角丟了的那半邊沒(méi)有重建出來(lái),而且會(huì)有一些噪聲導(dǎo)致在視角丟失的時(shí)候連到很大的區(qū)域上去。這種精度的結(jié)果就給人工修復(fù)帶來(lái)很大的工作量。相比之下我們的結(jié)果重建出來(lái)就可以直接放到網(wǎng)易瑤臺(tái)里使用。這是另外的一個(gè)優(yōu)勢(shì),除了視角丟失需要修復(fù)之外,我們?cè)谥亟ǔ晒Φ膮^(qū)域的精度上也有一些優(yōu)勢(shì)。

小結(jié)

7469ba68-cfea-11ed-bfe3-dac502259ad0.png

圖十八

以上是網(wǎng)易瑤臺(tái)神經(jīng)隱式曲面建模項(xiàng)目目前的進(jìn)展。后續(xù)我們希望持續(xù)地提升建模的質(zhì)量和效率,進(jìn)一步提升紋理貼圖的質(zhì)量。同時(shí) NVIDIA 在 Text-to-3D 方面做了一個(gè)很好的榜樣,我們后面會(huì)和 NVIDIA 一起探索 Text-to-3D 技術(shù),基于大模型進(jìn)行文本生成三維模型,從而讓用戶更快的生成更多數(shù)字孿生的物體和場(chǎng)景,放到網(wǎng)易瑤臺(tái)這個(gè)數(shù)字孿生應(yīng)用中。

注:本文字實(shí)錄由網(wǎng)易伏羲語(yǔ)音識(shí)別技術(shù)輔助提供。

本文署名作者:

749a5cf4-cfea-11ed-bfe3-dac502259ad0.png

李林橙

網(wǎng)易伏羲視覺(jué)計(jì)算負(fù)責(zé)人,浙江大學(xué)校外導(dǎo)師,專注計(jì)算機(jī)視覺(jué)研究。

74cb4ed6-cfea-11ed-bfe3-dac502259ad0.png

張永強(qiáng)

網(wǎng)易伏羲視覺(jué)計(jì)算組,人工智能研究員,研究方向?yàn)樯窠?jīng)渲染與多視角三維重建。

彩蛋:

近期,在計(jì)算機(jī)視覺(jué)和模式識(shí)別領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議 CVPR 中,網(wǎng)易瑤臺(tái) 2 篇 3D 重建相關(guān)技術(shù)論文成功入選。感興趣的朋友們可以查閱進(jìn)一步了解相關(guān)信息:

[1] Towards Unbiased Volume Rendering of Neural Implicit Surfaces with Geometry Priors, CVPR 2023

[2] NeFII: Inverse Rendering for Reflectance Decomposition with Near-Field Indirect Illumination, CVPR 2023

掃描海報(bào)二維碼,或點(diǎn)擊“閱讀原文”,即可觀看 NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛 GTC23 主題演講重播!


原文標(biāo)題:GTC23 | China AI Day 演講回顧:NVIDIA CUDA 技術(shù)助力網(wǎng)易瑤臺(tái)神經(jīng)隱式曲面建模 20 倍加速

文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3637

    瀏覽量

    89864

原文標(biāo)題:GTC23 | China AI Day 演講回顧:NVIDIA CUDA 技術(shù)助力網(wǎng)易瑤臺(tái)神經(jīng)隱式曲面建模 20 倍加速

文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    NVIDIA AI助力SAP生成AI助手Joule加速發(fā)展

    在美國(guó)佛羅里達(dá)州奧蘭多舉行的 SAP Sapphire 大會(huì)上,NVIDIA 與這家企業(yè)軟件公司公布了搭載NVIDIA AI Enterprise軟件的生成
    的頭像 發(fā)表于 09-09 09:37 ?269次閱讀

    NVIDIA加速計(jì)算和生成AI領(lǐng)域的創(chuàng)新

    在最新發(fā)布的公司 2024 財(cái)年可持續(xù)發(fā)展報(bào)告開(kāi)篇的一封信中,NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛介紹了 NVIDIA加速計(jì)算和生成 AI
    的頭像 發(fā)表于 09-09 09:18 ?374次閱讀

    HPE 攜手 NVIDIA 推出 NVIDIA AI Computing by HPE,加速生成 AI 變革

    by HPE 包含了可持續(xù)的加速計(jì)算產(chǎn)品組合以及全生命周期服務(wù),將簡(jiǎn)化 AI 創(chuàng)造價(jià)值的過(guò)程,加速生成 AI 的發(fā)展步伐。
    的頭像 發(fā)表于 06-21 14:39 ?227次閱讀

    NVIDIA推出NVIDIA AI Computing by HPE加速生成 AI 變革

    關(guān)系進(jìn)一步深化。助力生成 AI 的企業(yè)級(jí)應(yīng)用與發(fā)展加速駛?cè)肟燔嚨馈?HPE Private Cloud AI 是該解決方案的關(guān)鍵,開(kāi)創(chuàng)性地
    的頭像 發(fā)表于 06-20 17:36 ?596次閱讀

    NVIDIA發(fā)布DeepStream 7.0,助力下一代視覺(jué)AI開(kāi)發(fā)

    NVIDIA DeepStream 是一款功能強(qiáng)大的 SDK,能夠提供用于構(gòu)建端到端視覺(jué) AI 管線的 GPU 加速構(gòu)建模塊。
    的頭像 發(fā)表于 05-23 10:09 ?439次閱讀
    <b class='flag-5'>NVIDIA</b>發(fā)布DeepStream 7.0,<b class='flag-5'>助力</b>下一代視覺(jué)<b class='flag-5'>AI</b>開(kāi)發(fā)

    助力科學(xué)發(fā)展,NVIDIA AI加速HPC研究

    科學(xué)家和研究人員正在利用 NVIDIA 技術(shù)將生成 AI 應(yīng)用于代碼生成、天氣預(yù)報(bào)、遺傳學(xué)和材料科學(xué)領(lǐng)域的 HPC 工作。
    的頭像 發(fā)表于 05-14 09:17 ?298次閱讀
    <b class='flag-5'>助力</b>科學(xué)發(fā)展,<b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b><b class='flag-5'>加速</b>HPC研究

    NVIDIA 通過(guò) CUDA-Q 平臺(tái)為全球各地的量子計(jì)算中心提供加速

    —— NVIDIA 于今日宣布將通過(guò)開(kāi)源的 NVIDIA CUDA-Q? 量子計(jì)算平臺(tái),助力全球各地的國(guó)家級(jí)超算中心加快量子計(jì)算的研究發(fā)展。 ? 德國(guó)、日本和波蘭的超算中心將使用該平
    發(fā)表于 05-13 15:21 ?154次閱讀
    <b class='flag-5'>NVIDIA</b> 通過(guò) <b class='flag-5'>CUDA</b>-Q 平臺(tái)為全球各地的量子計(jì)算中心提供<b class='flag-5'>加速</b>

    NVIDIA數(shù)字人技術(shù)加速部署生成AI驅(qū)動(dòng)的游戲角色

    NVIDIA 在 GDC 2024 大會(huì)上宣布,Inworld AI 等領(lǐng)先的 AI 應(yīng)用程序開(kāi)發(fā)者,正在使用 NVIDIA 數(shù)字人技術(shù)
    的頭像 發(fā)表于 04-09 10:08 ?505次閱讀
    <b class='flag-5'>NVIDIA</b>數(shù)字人<b class='flag-5'>技術(shù)</b><b class='flag-5'>加速</b>部署生成<b class='flag-5'>式</b><b class='flag-5'>AI</b>驅(qū)動(dòng)的游戲角色

    NVIDIA生成AI研究實(shí)現(xiàn)在1秒內(nèi)生成3D形狀

    NVIDIA 研究人員使 LATTE3D (一款最新文本轉(zhuǎn) 3D 生成 AI 模型)實(shí)現(xiàn)雙倍加速。
    的頭像 發(fā)表于 03-27 10:28 ?366次閱讀
    <b class='flag-5'>NVIDIA</b>生成<b class='flag-5'>式</b><b class='flag-5'>AI</b>研究實(shí)現(xiàn)在1秒內(nèi)生成3D形狀

    NVIDIA深度參與GTC,向量數(shù)據(jù)庫(kù)大廠Zilliz與全球頂尖開(kāi)發(fā)者共迎AI變革時(shí)刻

    近日,備受關(guān)注的 NVIDIA GTC 已拉開(kāi)序幕。來(lái)自世界各地的頂尖 AI 開(kāi)發(fā)者齊聚美國(guó)加州圣何塞會(huì)議中心,共同探索行業(yè)未來(lái),全球領(lǐng)先的向量數(shù)據(jù)庫(kù)公司 Zilliz 也不例外。作為去年被
    的頭像 發(fā)表于 03-26 11:01 ?295次閱讀

    NVIDIA Isaac將生成AI應(yīng)用于制造業(yè)和物流業(yè)

    NVIDIA Isaac 機(jī)器人平臺(tái)利用最新的生成 AI 和先進(jìn)的仿真技術(shù),加速 AI 機(jī)器人
    的頭像 發(fā)表于 03-22 10:06 ?413次閱讀
    <b class='flag-5'>NVIDIA</b> Isaac將生成<b class='flag-5'>式</b><b class='flag-5'>AI</b>應(yīng)用于制造業(yè)和物流業(yè)

    NVIDIA 初創(chuàng)加速計(jì)劃 Omniverse 加速營(yíng)

    新的 AI 技術(shù)和迅速發(fā)展的應(yīng)用正在改變各行各業(yè),生成 AI 已經(jīng)展示出在藝術(shù)、設(shè)計(jì)、影視動(dòng)畫、互娛、建筑等領(lǐng)域加速內(nèi)容創(chuàng)作的價(jià)值,
    的頭像 發(fā)表于 12-04 20:35 ?539次閱讀
    <b class='flag-5'>NVIDIA</b> 初創(chuàng)<b class='flag-5'>加速</b>計(jì)劃 Omniverse <b class='flag-5'>加速</b>營(yíng)

    精彩回顧| “NVIDIA AI 研發(fā)技術(shù)開(kāi)放日” 演講視頻全集!

    在全球 AI 產(chǎn)業(yè)生態(tài)體系日趨成熟的背景下,加速計(jì)算迎來(lái)了前所未有的發(fā)展空間,在眾多不同應(yīng)用以及各行各業(yè)得到了廣泛應(yīng)用,相關(guān)技術(shù)也飛速發(fā)展不斷迭代。 10 月 22 日,在 NVIDIA
    的頭像 發(fā)表于 11-09 10:45 ?313次閱讀
    精彩<b class='flag-5'>回顧</b>| “<b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> 研發(fā)<b class='flag-5'>技術(shù)</b>開(kāi)放日” <b class='flag-5'>演講</b>視頻全集!

    精彩回顧 | “NVIDIA AI 研發(fā)技術(shù)開(kāi)放日” 演講視頻全集!

    在全球 AI 產(chǎn)業(yè)生態(tài)體系日趨成熟的背景下,加速計(jì)算迎來(lái)了前所未有的發(fā)展空間,在眾多不同應(yīng)用以及各行各業(yè)得到了廣泛應(yīng)用,相關(guān)技術(shù)也飛速發(fā)展不斷迭代。 10 月 22 日,在 NVIDIA
    的頭像 發(fā)表于 11-09 10:45 ?309次閱讀
    精彩<b class='flag-5'>回顧</b> | “<b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> 研發(fā)<b class='flag-5'>技術(shù)</b>開(kāi)放日” <b class='flag-5'>演講</b>視頻全集!

    周四研討會(huì)預(yù)告 | 注冊(cè)報(bào)名 NVIDIA AI Inference Day - 大模型推理線上研討會(huì)

    由 CSDN 舉辦的 NVIDIA AI Inference Day - 大模型推理線上研討會(huì),將幫助您了解 NVIDIA 開(kāi)源大型語(yǔ)言模型(LLM)推理
    的頭像 發(fā)表于 10-26 09:05 ?284次閱讀