0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于大模型的仿真系統(tǒng)研究一——三維重建大模型

賽目科技 ? 來源: 賽目科技 ? 2024-07-30 14:51 ? 次閱讀

基于大模型的仿真系統(tǒng)框架

傳統(tǒng)的仿真測試驗證普遍基于場景,而場景的構建主要由道路和場景編輯器來人工搭建靜態(tài)場景和動態(tài)場景,這種方式費時費力,而且也大大限制了場景要素組合的豐富化。針對此痛點問題,賽目推出了基于大模型的仿真系統(tǒng),利用機器學習、深度學習人工智能技術,不僅推出自動標注大模型、多模態(tài)檢測大模型和場景生成大模型等模塊,并且引入三維重建大模型加強渲染畫面真實性。

通過上述模塊,賽目的路采場景轉換系統(tǒng)實現(xiàn)了以傳感器原始數(shù)據或者目標集數(shù)據為輸入,通過感知融合、場景提取和生成等功能,輸出仿真測試所需的靜態(tài)路網和動態(tài)場景進行仿真,大大提高了仿真測試的效率。

圖:基于大模型的仿真系統(tǒng)框架

三維重建大模型

本文首先介紹三維重建大模型。

三維重建是指根據單視圖或者多視圖重建三維信息、構建三維模型的過程。傳統(tǒng)的計算機圖形學的核心通過復雜的物理模型求解渲染方程。需要的不僅僅是場景中物體的幾何和材質信息、相機的內外參信息,更需要復雜的光照模型來模擬自然光照的影響。

上述工作的重大突破來自Ben Mildenhall等人于2020發(fā)表的神經輻射場(NeRF),根據對同一物體不同觀察視角的多張圖像,通過隱式的編碼表示場景實現(xiàn)三維重建的過程,利用體渲染生成新視角圖像。

NeRF訓練渲染流程可以總結如下:

1. 對于給定的相機光線,在光線上進行采樣,對采樣點的空間坐標及觀察方向進行編碼,用深度復雜網絡存獲得輻射場信息;

2. 輻射場輸出空間點的顏色和密度;

3. 根據2的輸出用體素渲染方程獲得生成視角圖片;

4. 在訓練階段與原視角圖片計算損失更新網絡。

圖:NeRF訓練管線[1]

下圖表示了輻射場的網絡結構,其中PE表示位置編碼,x為三維坐標點,d為觀察方向,MLP為多層感知機,ReLU和Sigmoid分別為不同激活函數(shù)。輻射場網絡的輸入是空間坐標及方差方向,輸出為對應的顏色和密度值傳遞至體渲染模塊。

圖:NeRF網絡結構

體渲染主要為解決云、煙、果凍等非剛性物體進行渲染建模,將其抽象成一團粒子群,表現(xiàn)了光線穿過時光子和粒子交互的過程,產生的輻亮度的變化。其物理過程包括吸收、外散射、內散射、放射。忽略背景光的影響,體渲染方程為:

上述方法主要針對室內小型場景進行三維重建,對于戶外場景、特別是自駕場景還有許多優(yōu)化的空間,相關內容將在下節(jié)討論。

三維重建大模型-挑戰(zhàn)和對應

對于自駕場景,上述Baseline方法面臨的挑戰(zhàn)包括:

1. 訓練和渲染速度:Baseline方法需要花費數(shù)小時、甚至數(shù)天進行訓練和生成,這對于仿真來說是難以接受的,同樣不利于算法的迭代優(yōu)化;

2. 生成畫質清晰度:自駕場景包括了靜態(tài)路網、動態(tài)環(huán)境參與者、背景建筑物、天空等等,需要同時將遠景與近景清晰地渲染生成是一個極大的挑戰(zhàn);

3. 算法訓練的過擬合現(xiàn)象:與Baseline對同一物體360°環(huán)視圖像獲取不同,路采車輛一般沿著固定采集路線前進,對于同一物體的信息收集不夠充沛,影響最終的渲染質量。

4. 動態(tài)物體的添加和刪除:利用三維重建大模型能夠獲得不同主車視角的成像結果,但是對于測試場景生成需要靈活地控制環(huán)境參與者,因此需要模型能夠自由地對物體進行添加和刪除。

基于上述問題,我們提出了下述的研究路線。

圖:三維重建技術路線

對于無邊界場景,由于可視范圍變大的原因通過NDC坐標變化后的采樣過程會將近景采樣稀疏化,影響最終成像質量導致物體模糊,保持近距離坐標不變,遠距離坐標作非線性轉換是一種解決思路。坐標轉換形式包括了[2-3]:

1.半徑為r的球面內保持坐標不變,球面外坐標以單位向量以及逆半徑重新定義,具體如下





然后利用線性插值法獲得相應分辨率下的特征,輸入至多層感知機中進行訓練。特征柵格主要流程如下。

通過上述三維重建大模型方法,可以在自動駕駛仿真領域提升模型的訓練和渲染速度、重建畫質的清晰度、輻射場中物體深度與表面的準確度等等,同時能夠動態(tài)添加環(huán)境車、行人等交通參與者進行場景泛化,實現(xiàn)更靈活的場景生成需求。

參考文獻

[1]Mildenhall, Ben, et al. "Nerf: Representing scenes as neural radiance fields for view synthesis." Communications of the ACM 65.1 (2021): 99-106.

[2]Zhang, Kai, et al. "Nerf++: Analyzing and improving neural radiance fields." arXiv preprint arXiv:2010.07492 (2020).

[3]Barron, Jonathan T., et al. "Mip-nerf 360: Unbounded anti-aliased neural radiance fields." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

[4]Müller, Thomas, et al. "Instant neural graphics primitives with a multiresolution hash encoding." ACM Transactions on Graphics (ToG) 41.4 (2022): 1-15.

賽目科技

專注智能網聯(lián)汽車測試

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 仿真系統(tǒng)

    關注

    1

    文章

    95

    瀏覽量

    20584
  • 大模型
    +關注

    關注

    2

    文章

    2134

    瀏覽量

    1970

原文標題:基于大模型的仿真系統(tǒng)研究一——三維重建大模型

文章出處:【微信號:gh_c85a8e3c0f2a,微信公眾號:賽目科技】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    留形科技借助NVIDIA平臺提供高效精確的三維重建解決方案

    本案例中,留形科技借助 NVIDIA Jetson 和 Omniverse 平臺,實現(xiàn)邊緣設備上的實時、全彩、無損三維重建,從而在建筑細節(jié)捕捉、大型基礎設施的數(shù)字孿生等應用中,大幅提升三維數(shù)據采集與處理的效率與精度。
    的頭像 發(fā)表于 09-09 09:42 ?241次閱讀

    泰來三維|三維掃描技術在虛擬博物館建設中的應用

    模型修復與著色:基于三維掃描數(shù)據,使用3D建模軟件進行模型的修復、細化,并添加真實的紋理和顏色,使模型更加逼真。場景構建:根據歷史資料和考古發(fā)現(xiàn),構建古代遺址、宮殿、城市等場景的
    的頭像 發(fā)表于 07-31 11:00 ?345次閱讀

    cad如何進行三維建模

    三維建模是計算機輔助設計(CAD)中的項重要技術,它可以幫助設計師在計算機上創(chuàng)建和編輯三維模型。本文將介紹如何使用CAD軟件進行三維建模,
    的頭像 發(fā)表于 07-09 10:23 ?425次閱讀

    泰來三維|三維激光掃描技術在古建筑保護中的應用

    通過三維激光掃描技術,可以快速獲取古建筑的精確三維模型。在文物保護與修復過程中,利用三維模型可以更加全面、準確地記錄古建筑的損傷情況,并輔助
    的頭像 發(fā)表于 06-21 09:15 ?336次閱讀
    泰來<b class='flag-5'>三維</b>|<b class='flag-5'>三維</b>激光掃描技術在古建筑保護中的應用

    三維可視化系統(tǒng)平臺介紹及優(yōu)勢

    三維可視化 系統(tǒng)平臺是種基于三維技術開發(fā)的軟件系統(tǒng),主要用于實現(xiàn)對三維空間中數(shù)據、
    的頭像 發(fā)表于 06-12 16:02 ?430次閱讀
    <b class='flag-5'>三維</b>可視化<b class='flag-5'>系統(tǒng)</b>平臺介紹及優(yōu)勢

    泰來三維|文物三維掃描,文物三維模型怎樣制作

    文物三維掃描,文物三維模型怎樣制作:我們都知道文物是不可再生的,要繼續(xù)保存?zhèn)鞒校枰奈?b class='flag-5'>三維數(shù)字化保護,所以三維數(shù)字化文物保護是非常重要的
    的頭像 發(fā)表于 03-12 11:10 ?437次閱讀
    泰來<b class='flag-5'>三維</b>|文物<b class='flag-5'>三維</b>掃描,文物<b class='flag-5'>三維</b><b class='flag-5'>模型</b>怎樣制作

    泰來三維|見過三維掃描烏賊嗎?三維掃描助力仿生設計學研究

    利用雙光源手持3D掃描儀EinScan H2三維掃描儀對烏賊整體 重點軀干進行掃描,獲取烏賊三維掃描點云模型。掃描過程中通過軟件可以實時看到掃描進度以及掃描數(shù)據質量。
    的頭像 發(fā)表于 01-26 11:25 ?275次閱讀

    基于光學計算超表面的全光學目標識別和三維重建技術

    隨著物體識別和三維(3D) 重建技術在各種逆向工程、人工智能、醫(yī)療診斷和工業(yè)生產領域變得必不可少,人們越來越關注與尋求可以簡化處理的高效、更快的速度和更集成的方法。
    的頭像 發(fā)表于 12-22 10:13 ?457次閱讀
    基于光學計算超表面的全光學目標識別和<b class='flag-5'>三維重建</b>技術

    基于深度學習的三維重建技術

    多視圖立體幾何(Multi-View Stereo,MVS)是計算機視覺中重要的研究領域,也是邁入三維計算機視覺研究的重點問題。它通過利用多張互相重疊的圖像恢復出原始三維場景的幾何結構
    的頭像 發(fā)表于 12-04 10:08 ?796次閱讀
    基于深度學習的<b class='flag-5'>三維重建</b>技術

    AIRLOOK與商湯科技強強聯(lián)合,打造“實景三維與AI大模型”結合的全新盛宴

    實景三維中國建設作為數(shù)字中國建設的重要內容之,是項涉及多方面技術支撐的綜合性工程,同時作為AI技術在其中發(fā)揮著至關重要的作用,AI大模型的發(fā)展也將進
    的頭像 發(fā)表于 11-20 09:06 ?396次閱讀

    RayDF:實時渲染!基于射線的三維重建新方法

    在機器視覺和機器人領域的許多前沿應用中,學習準確且高效的三維形狀表達是十分重要的。然而,現(xiàn)有的基于三維坐標的隱式表達在表示三維形狀或是渲染二圖像時,需要耗費昂貴的計算成本;
    的頭像 發(fā)表于 11-17 16:23 ?595次閱讀
    RayDF:實時渲染!基于射線的<b class='flag-5'>三維重建</b>新方法

    數(shù)字孿生 數(shù)字化三維掃描助力實景建模

    三維掃描技術后就直接變成了三維(點云數(shù)據)轉三維三維模型)的過程。三維掃描技術直接能構建出
    的頭像 發(fā)表于 11-10 17:11 ?553次閱讀
    數(shù)字孿生 數(shù)字化<b class='flag-5'>三維</b>掃描助力實景建模

    商湯打出“數(shù)字中國”建設大模型組合拳

    提供宏觀尺度的解譯能力,“洞察地球奧秘”。 以 商湯瓊宇SenseSpace高精實景三維重建平臺 提供精細化建模能力,“還原真實世界”。 從 二三維的大模型組合拳 ,是商湯科技面
    的頭像 發(fā)表于 11-09 13:35 ?446次閱讀
    商湯打出“數(shù)字中國”建設大<b class='flag-5'>模型</b>組合拳

    風洞模型表面壓力分布三維顯示技術

    電子發(fā)燒友網站提供《風洞模型表面壓力分布三維顯示技術.doc》資料免費下載
    發(fā)表于 11-02 10:38 ?0次下載
    風洞<b class='flag-5'>模型</b>表面壓力分布<b class='flag-5'>三維</b>顯示技術

    如何實現(xiàn)超高精度智能化全彩手持三維掃描

    全彩三維掃描儀是基于實時三維重建應用場景設計的高集成度易操作的手持式三維掃描系統(tǒng),可實現(xiàn)0.03秒高速掃描并鍵自動完成點云全局注冊,去噪融
    的頭像 發(fā)表于 10-16 15:58 ?645次閱讀
    如何實現(xiàn)超高精度智能化全彩手持<b class='flag-5'>三維</b>掃描