免费看黄色视频的网站,99久久久精品齐齐综合色圆

無(wú)論是單調(diào)的高速行車，還是平日的短途出行，駕駛過(guò)程往往平淡無(wú)奇。因此，在現(xiàn)實(shí)世界中采集的用于開(kāi)發(fā)自動(dòng)駕駛汽車（AV）的大部分訓(xùn)練數(shù)據(jù)都明顯偏向于簡(jiǎn)單場(chǎng)景。

這給部署魯棒的感知模型帶來(lái)了挑戰(zhàn)。自動(dòng)駕駛汽車必須接受全面的訓(xùn)練、測(cè)試和驗(yàn)證，以便能夠應(yīng)對(duì)復(fù)雜的場(chǎng)景，而這需要大量涵蓋此類場(chǎng)景的數(shù)據(jù)。

在現(xiàn)實(shí)世界中，收集此類場(chǎng)景數(shù)據(jù)要耗費(fèi)大量時(shí)間和成本。而現(xiàn)在，仿真提供了另一個(gè)可選方案。但要大規(guī)模生成復(fù)雜動(dòng)態(tài)場(chǎng)景仍然困難重重。

在近期發(fā)布的一篇論文中，NVIDIA Research 展示了一種基于神經(jīng)輻射場(chǎng)（NeRF）的新方法——EmerNeRF 及其如何使用自監(jiān)督學(xué)習(xí)準(zhǔn)確生成動(dòng)態(tài)場(chǎng)景。通過(guò)自監(jiān)督方法訓(xùn)練，EmerNeRF 在動(dòng)靜態(tài)場(chǎng)景重建上的表現(xiàn)超越了之前其他 NeRF 方法。詳細(xì)情況請(qǐng)參見(jiàn) EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision。

圖 1. EmerNeRF 重建動(dòng)態(tài)駕駛場(chǎng)景的示例

相比其他 NeRF 重建方法，EmerNeRF 的動(dòng)態(tài)場(chǎng)景重建準(zhǔn)確率高出 15%，靜態(tài)場(chǎng)景高出 11%。新視角合成的準(zhǔn)確率也高出 12%。

打破 NeRF 方法的局限性

NeRF 將一組靜態(tài)圖像重建成逼真的 3D 場(chǎng)景。這使得依據(jù)駕駛?cè)罩局亟ㄓ糜?DNN 訓(xùn)練、測(cè)試驗(yàn)證的高保真仿真環(huán)境成為可能。

然而，目前基于 NeRF 的重建方法在處理動(dòng)態(tài)物體時(shí)十分困難，而且實(shí)踐證明難以擴(kuò)展。例如有些方法可以生成靜態(tài)和動(dòng)態(tài)場(chǎng)景，但它們依賴真值（GT）標(biāo)簽。這就意味著必須使用自動(dòng)標(biāo)注或人工標(biāo)注員先來(lái)準(zhǔn)確標(biāo)注出駕駛?cè)罩局械拿總€(gè)物體。

其他 NeRF 方法則依賴于額外的模型來(lái)獲得完整的場(chǎng)景信息，例如光流。

為了打破這些局限性，EmerNeRF 使用自監(jiān)督學(xué)習(xí)將場(chǎng)景分解為靜態(tài)、動(dòng)態(tài)和流場(chǎng)（flow fields）。該模型從原始數(shù)據(jù)中學(xué)習(xí)前景、背景之間的關(guān)聯(lián)和結(jié)構(gòu)，而不依賴人工標(biāo)注的 GT 標(biāo)簽。然后，對(duì)場(chǎng)景做時(shí)空渲染，并不依賴外部模型來(lái)彌補(bǔ)時(shí)空中的不完整區(qū)域，而且準(zhǔn)確性更高。

圖 2. EmerNeRF 將圖 1 第一段視頻中的場(chǎng)景分解為動(dòng)態(tài)場(chǎng)、靜態(tài)場(chǎng)和流場(chǎng)

因此，其他模型往往會(huì)產(chǎn)生過(guò)于平滑的背景和精度較低的動(dòng)態(tài)物體（前景），而 EmerNeRF 則能重建高保真的背景及動(dòng)態(tài)物體（前景），同時(shí)保留場(chǎng)景的細(xì)節(jié)。

表 1. 將 EmerNeRF 與其他基于 NeRF 的動(dòng)態(tài)場(chǎng)景重建方法進(jìn)行比較后的評(píng)估結(jié)果，分為場(chǎng)景重建性能和新視角合成性能兩個(gè)類別

表 2. 將 EmerNeRF 與其他基于 NeRF 的靜態(tài)場(chǎng)景重建方法進(jìn)行比較后的評(píng)估結(jié)果

EmerNeRF 方法

EmerNeRF 使用的是自監(jiān)督學(xué)習(xí)，而非人工注釋或外部模型，這使得它能夠避開(kāi)之前方法所遇到的難題。

圖 3.EmerNeRF 分解和重建管線

EmerNeRF 將場(chǎng)景分解成動(dòng)態(tài)和靜態(tài)元素。在場(chǎng)景分解的同時(shí)，EmerNeRF 還能估算出動(dòng)態(tài)物體（如汽車和行人）的流場(chǎng)，并通過(guò)聚合流場(chǎng)在不同時(shí)間的特征以進(jìn)一步提高重建質(zhì)量。其他方法會(huì)使用外部模型提供此類光流數(shù)據(jù)，但通常會(huì)引入偏差。

通過(guò)將靜態(tài)場(chǎng)、動(dòng)態(tài)場(chǎng)和流場(chǎng)結(jié)合在一起，EmerNeRF 能夠充分表達(dá)高密度動(dòng)態(tài)場(chǎng)景，這不僅提高了重建精度，也方便擴(kuò)展到其他數(shù)據(jù)源。

使用基礎(chǔ)模型加強(qiáng)語(yǔ)義理解

EmerNeRF 對(duì)場(chǎng)景的語(yǔ)義理解，可通過(guò)（視覺(jué)）基礎(chǔ)大模型監(jiān)督進(jìn)一步增強(qiáng)?；A(chǔ)大模型具有更通用的知識(shí)（例如特定類型的車輛或動(dòng)物）。EmerNeRF 使用視覺(jué) Transformer（ViT）模型，例如 DINO， DINOv2，將語(yǔ)義特征整合到場(chǎng)景重建中。

這使 EmerNeRF 能夠更好地預(yù)測(cè)場(chǎng)景中的物體，并執(zhí)行自動(dòng)標(biāo)注等下游任務(wù)。

圖 4. EmerNeRF 使用 DINO 和 DINOv2 等基礎(chǔ)模型加強(qiáng)對(duì)場(chǎng)景的語(yǔ)義理解

不過(guò)，基于 Transformer 的基礎(chǔ)模型也帶來(lái)了新的挑戰(zhàn)：語(yǔ)義特征可能會(huì)表現(xiàn)出與位置相關(guān)的噪聲，從而大大限制下游任務(wù)的性能。

圖 5. EmerNeRF 使用位置嵌入消除基于 Transformer 的基礎(chǔ)模型所產(chǎn)生的噪聲

為了解決噪聲問(wèn)題，EmerNeRF 通過(guò)位置編碼分解來(lái)恢復(fù)無(wú)噪聲的特征圖。如圖 5 所示，這樣就解鎖了基礎(chǔ)大模型在語(yǔ)義特征上全面、準(zhǔn)確的表征能力。

評(píng)估 EmerNeRF

正如 EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision 中所述，研究人員整理出了一個(gè)包含 120 個(gè)獨(dú)特場(chǎng)景的數(shù)據(jù)集來(lái)評(píng)估 EmerNeRF 的性能，這些場(chǎng)景分為 32 個(gè)靜態(tài)場(chǎng)景、32 個(gè)動(dòng)態(tài)場(chǎng)景和 56 個(gè)多樣化場(chǎng)景，覆蓋了高速、低光照等具有挑戰(zhàn)性的場(chǎng)景。

然后根據(jù)數(shù)據(jù)集的不同子集，評(píng)估每個(gè) NeRF 模型重建場(chǎng)景和合成新視角的能力。

如表 1 所示，據(jù)此，EmerNeRF 在場(chǎng)景重建和新視角合成方面的表現(xiàn)始終明顯優(yōu)于其他方法。

EmerNeRF 的表現(xiàn)還優(yōu)于專門用于靜態(tài)場(chǎng)景的方法，這表明將場(chǎng)景分解為靜態(tài)和動(dòng)態(tài)元素的自監(jiān)督分解既能夠改善靜態(tài)重建，還能夠改善動(dòng)態(tài)重建。

總結(jié)

自動(dòng)駕駛仿真只有在能夠準(zhǔn)確重建現(xiàn)實(shí)世界的情況下才會(huì)有效。隨著場(chǎng)景的日益動(dòng)態(tài)化和復(fù)雜化，對(duì)保真度的要求也越來(lái)越高，而且更難實(shí)現(xiàn)。

與以前的方法相比，EmerNeRF 能夠更準(zhǔn)確地表現(xiàn)和重建動(dòng)態(tài)場(chǎng)景，而且無(wú)需人工監(jiān)督或外部模型。這樣就能大規(guī)模地重建和編輯復(fù)雜的駕駛數(shù)據(jù)，解決目前自動(dòng)駕駛汽車訓(xùn)練數(shù)據(jù)集的不平衡問(wèn)題。

NVIDIA 正迫切希望研究 EmerNeRF 帶來(lái)的新功能，如端到端駕駛、自動(dòng)標(biāo)注和仿真等。

如要了解更多信息，請(qǐng)?jiān)L問(wèn) EmerNeRF 項(xiàng)目頁(yè)面并閱讀 EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision。

了解更多

適用于自動(dòng)駕駛汽車的解決方案

https://www.nvidia.cn/self-driving-cars/

EmerNeRF 項(xiàng)目頁(yè)面

https://emernerf.github.io/
閱讀 EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision.

https://arxiv.org/abs/2311.02077

GTC 2024 將于 2024 年 3 月 18 至 21 日在美國(guó)加州圣何塞會(huì)議中心舉行，線上大會(huì)也將同期開(kāi)放。點(diǎn)擊“閱讀原文”或掃描下方海報(bào)二維碼，立即注冊(cè) GTC 大會(huì)。

原文標(biāo)題：使用自監(jiān)督學(xué)習(xí)重建動(dòng)態(tài)駕駛場(chǎng)景

文章出處：【微信公眾號(hào)：NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

英偉達(dá)

英偉達(dá)

+關(guān)注

關(guān)注
22

文章
3720

瀏覽量
90690

原文標(biāo)題：使用自監(jiān)督學(xué)習(xí)重建動(dòng)態(tài)駕駛場(chǎng)景

文章出處：【微信號(hào)：NVIDIA-Enterprise，微信公眾號(hào)：NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

收集海量的文本數(shù)據(jù)作為訓(xùn)練材料。這些數(shù)據(jù)集不僅包括語(yǔ)法結(jié)構(gòu)的學(xué)習(xí)，還包括對(duì)語(yǔ)言的深層次理解，如文化背景、語(yǔ)境含義和情感色彩等。自監(jiān)督學(xué)習(xí)：模型采用自

發(fā)表于 08-02 11:03

基于大模型的仿真系統(tǒng)研究一——三維重建大模型

問(wèn)題，賽目推出了基于大模型的仿真系統(tǒng)，利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能技術(shù)，不僅推出自動(dòng)標(biāo)注大模型、多模態(tài)檢測(cè)大模型和場(chǎng)景生成大模型等模塊，并且引入三維重建大模型加強(qiáng)渲染畫面真實(shí)性。

發(fā)表于 07-30 14:51 ?1298次閱讀

基于大模型的仿真系統(tǒng)研究一——三維<b class='flag-5'>重建</b>大模型

【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

章節(jié)最后總結(jié)了機(jī)器學(xué)習(xí)的分類：有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、自監(jiān)督學(xué)習(xí)和強(qiáng)化

發(fā)表于 07-25 14:33

神經(jīng)網(wǎng)絡(luò)如何用無(wú)監(jiān)督算法訓(xùn)練

神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的重要組成部分，其訓(xùn)練方式多樣，其中無(wú)監(jiān)督學(xué)習(xí)是一種重要的訓(xùn)練策略。無(wú)監(jiān)督學(xué)習(xí)旨在從未標(biāo)記的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的結(jié)構(gòu)、模式或規(guī)律，從而提取有用的特征表示。這種訓(xùn)練方式對(duì)于大規(guī)模未

發(fā)表于 07-09 18:06 ?677次閱讀

深度學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)方法綜述

應(yīng)用中往往難以實(shí)現(xiàn)。因此，無(wú)監(jiān)督學(xué)習(xí)在深度學(xué)習(xí)中扮演著越來(lái)越重要的角色。本文旨在綜述深度學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)方法，包括自編碼器、生成對(duì)抗網(wǎng)絡(luò)、聚類算法等，并分析它們的原理、應(yīng)用

發(fā)表于 07-09 10:50 ?386次閱讀

標(biāo)貝數(shù)據(jù)采集標(biāo)注在自動(dòng)駕駛場(chǎng)景中落地應(yīng)用實(shí)例

AI數(shù)據(jù)服務(wù)作為人工智能和機(jī)器學(xué)習(xí)的基礎(chǔ)，在自動(dòng)駕駛領(lǐng)域中有著重要地位。與其他人工智能應(yīng)用場(chǎng)景相比，自動(dòng)駕駛的落地場(chǎng)景相對(duì)復(fù)雜，想要讓汽車本

發(fā)表于 05-28 14:22 ?442次閱讀

標(biāo)貝數(shù)據(jù)采集標(biāo)注在自動(dòng)<b class='flag-5'>駕駛</b><b class='flag-5'>場(chǎng)景</b>中落地應(yīng)用實(shí)例

康謀分享 | aiSim5仿真場(chǎng)景重建感知置信度評(píng)估（三）

aiSim5能重建高精度的賽道、車庫(kù)、高速公路等真實(shí)交通場(chǎng)景，用于測(cè)試和訓(xùn)練ADAS/AD系統(tǒng)。通過(guò)全局行動(dòng)日志，能將駕駛數(shù)據(jù)轉(zhuǎn)化為場(chǎng)景重建

發(fā)表于 05-08 16:59 ?2374次閱讀

康謀分享 | aiSim5仿真<b class='flag-5'>場(chǎng)景</b><b class='flag-5'>重建</b>感知置信度評(píng)估（三）

機(jī)器學(xué)習(xí)基礎(chǔ)知識(shí)全攻略

有監(jiān)督學(xué)習(xí)通常是利用帶有專家標(biāo)注的標(biāo)簽的訓(xùn)練數(shù)據(jù)，學(xué)習(xí)一個(gè)從輸入變量X到輸入變量Y的函數(shù)映射。Y = f (X)，訓(xùn)練數(shù)據(jù)通常是(n×x,y)的形式，其中n代表訓(xùn)練樣本的大小，x和y分別是變量X和Y的樣本值。

發(fā)表于 02-25 13:53 ?201次閱讀

機(jī)器<b class='flag-5'>學(xué)習(xí)</b>基礎(chǔ)知識(shí)全攻略

2024年AI領(lǐng)域?qū)?huì)有哪些新突破呢？

傳統(tǒng)的機(jī)器學(xué)習(xí)需要大量的標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練，但自監(jiān)督學(xué)習(xí)可以通過(guò)無(wú)監(jiān)督的方式從大規(guī)模未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)到更有用的表示形式，從而提高模型的性能。

發(fā)表于 01-24 09:58 ?1933次閱讀

基于神經(jīng)輻射場(chǎng)的自監(jiān)督多相機(jī)占用預(yù)測(cè)

本研究提出了一種自監(jiān)督的多攝相機(jī)3D占據(jù)預(yù)測(cè)方法，名為OccNeRF。該方法旨在解決無(wú)界場(chǎng)景的建模問(wèn)題。

發(fā)表于 01-02 14:53 ?405次閱讀

基于神經(jīng)輻射場(chǎng)的<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b>多相機(jī)占用預(yù)測(cè)

基于transformer和自監(jiān)督學(xué)習(xí)的路面異常檢測(cè)方法分享

鋪設(shè)異常檢測(cè)可以幫助減少數(shù)據(jù)存儲(chǔ)、傳輸、標(biāo)記和處理的壓力。本論文描述了一種基于Transformer和自監(jiān)督學(xué)習(xí)的新方法，有助于定位異常區(qū)域。

發(fā)表于 12-06 14:57 ?1376次閱讀

基于transformer和<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督學(xué)習(xí)</b>的路面異常檢測(cè)方法分享

無(wú)監(jiān)督域自適應(yīng)場(chǎng)景：基于檢索增強(qiáng)的情境學(xué)習(xí)實(shí)現(xiàn)知識(shí)遷移

本文對(duì)比了多種基線方法，包括無(wú)監(jiān)督域自適應(yīng)的傳統(tǒng)方法（如Pseudo-labeling和對(duì)抗訓(xùn)練）、基于檢索的LM方法（如REALM和RAG）和情境學(xué)習(xí)方法（如In-context learning）。

發(fā)表于 12-05 14:14 ?534次閱讀

無(wú)<b class='flag-5'>監(jiān)督</b>域自適應(yīng)<b class='flag-5'>場(chǎng)景</b>：基于檢索增強(qiáng)的情境<b class='flag-5'>學(xué)習(xí)</b>實(shí)現(xiàn)知識(shí)遷移

動(dòng)態(tài)場(chǎng)景下的自監(jiān)督單目深度估計(jì)方案

自監(jiān)督單目深度估計(jì)的訓(xùn)練可以在大量無(wú)標(biāo)簽視頻序列來(lái)進(jìn)行，訓(xùn)練集獲取很方便。但問(wèn)題是，實(shí)際采集的視頻序列往往會(huì)有很多動(dòng)態(tài)物體，而自監(jiān)督訓(xùn)練本身

發(fā)表于 11-28 09:21 ?649次閱讀

<b class='flag-5'>動(dòng)態(tài)</b><b class='flag-5'>場(chǎng)景</b>下的<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b>單目深度估計(jì)方案

EmerNeRF：全面基于NeRF的自動(dòng)駕駛仿真框架，無(wú)需分割

在自動(dòng)駕駛中，感知、表示和重建動(dòng)態(tài)場(chǎng)景對(duì)于代理程序理解并與其環(huán)境進(jìn)行交互至關(guān)重要。

發(fā)表于 11-21 10:23 ?3316次閱讀

EmerNeRF：全面基于NeRF的自動(dòng)<b class='flag-5'>駕駛</b>仿真框架，無(wú)需分割

Backbone之戰(zhàn)：計(jì)算機(jī)視覺(jué)任務(wù)模型大比較

盡管Vision Transformer（ViTs）和自監(jiān)督學(xué)習(xí)（SSL）越來(lái)越受歡迎，但在大多數(shù)任務(wù)中，文章發(fā)現(xiàn)在大型訓(xùn)練集上以監(jiān)督方式預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)仍然表現(xiàn)最好。

發(fā)表于 11-13 15:41 ?914次閱讀

搜索歷史

使用自監(jiān)督學(xué)習(xí)重建動(dòng)態(tài)駕駛場(chǎng)景

評(píng)論