国产99视频免费精品是看6,国产成人免费高清av

ICCV2023 SOTA U-BEV：基于高度感知的鳥瞰圖分割和神經(jīng)地圖的重定位

論文標(biāo)題：U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based Relocalization

論文鏈接：https://arxiv.org/abs/2310.13766

1. 本文概覽

高效的重定位對于GPS信號不佳或基于傳感器的定位失敗的智能車輛至關(guān)重要。最近，Bird’s-Eye-View (BEV) 分割的進展使得能夠準(zhǔn)確地估計局部場景的外觀，從而有利于車輛的重定位。然而，BEV方法的一個缺點是利用幾何約束需要大量的計算。本文提出了U-BEV，一種受U-Net啟發(fā)的架構(gòu)，通過在拉平BEV特征之前對多個高度層進行推理，擴展了當(dāng)前的最先進水平。我們證明了這種擴展可以提高U-BEV的性能高達4.11%的IoU。此外，我們將編碼的神經(jīng)BEV與可微分的模板匹配器相結(jié)合，在神經(jīng)SD地圖數(shù)據(jù)集上執(zhí)行重定位。所提出的模型可以完全端到端地進行訓(xùn)練，并在nuScenes數(shù)據(jù)集上優(yōu)于具有相似計算復(fù)雜度的基于Transformer的BEV方法1.7到2.8%的mIoU，以及基于BEV的重定位超過26%的召回率。

圖1:，U-BEV 提出了一種新的環(huán)境圖像 BEV 表示方法，在 SD 地圖數(shù)據(jù)中實現(xiàn)了高效的神經(jīng)重定位。

2. 方法詳解

本方案的完整算法是在SD地圖中定位一組環(huán)視圖像。它從環(huán)視圖像生成本地BEV表示，并從給定粗略3D位置先驗的SD地圖tile中生成神經(jīng)地圖編碼(例如來自航海設(shè)備的嘈雜GPS信號和指南針)。深度模板匹配器然后在神經(jīng)BEV上滑動全局神經(jīng)地圖，產(chǎn)生相似度圖。最后，定位通過返回相似度圖的Soft-Argmax來完成。我們的方法概述如圖2所示。

圖2:U-BEV神經(jīng)重定位模型概述。U-BEV從一組環(huán)視攝像頭預(yù)測局部BEV(左)。地圖編碼器從根據(jù)位置先驗裁剪的全局SD地圖中提取特征(右)以構(gòu)建神經(jīng)地圖表示。QATM匹配模塊(中心)計算最佳匹配位置。

A. Bird眼視角重建

我們提出了一種新穎的輕量級且準(zhǔn)確的BEV架構(gòu)U-BEV，用于從一組環(huán)視圖像重建汽車周圍環(huán)境。我們的模型受計算機視覺分割任務(wù)中廣泛使用的架構(gòu)U-Net的啟發(fā)。概述如圖4所示。

給定一組6張圖像及其內(nèi)參和外參，我們預(yù)測一個BEV ，其中S是BEV的像素大小，N是地圖中可用標(biāo)簽的數(shù)量。我們遵循nuScenes數(shù)據(jù)集中的約定，使用后軸心中心作為我們的原點。

特征提取:我們使用輕量級的預(yù)訓(xùn)練EfficientNet backbone從所有6張圖像中提取不同分辨率的特征，這在較小的模型中是常見的方法。具體來說，我們以步長2、4、8、16提取特征，并為計算原因刪除最后一個步長。提取的特征在整個架構(gòu)中用作跳過連接。(圖4中的藍色框)

高度預(yù)測: U-BEV的一個關(guān)鍵貢獻是從地面估計高度以在3D空間進行推理。我們利用提取的特征和輕量級解碼器對每個像素執(zhí)行此像素式操作(圖4中的橙色部分)。與BEV文獻中廣泛預(yù)測隱式或顯式深度的做法相反，我們認(rèn)為從地面到觀察到的每個像素的高度是一種更有效的表示。這主要基于以下觀察:對于駕駛應(yīng)用程序，需要在x、y地面平面上進行高分辨率，而垂直軸可以更粗略地離散化。此外，如圖3所示，深度通常分布在更長的范圍上，例如[0-50]米，這需要大量的離散間隔?？梢杂幸饬x地將高度離散化在較低范圍內(nèi)，例如[0-5]米來解釋周圍環(huán)境。較少的bin數(shù)量對模型有直接影響:它顯著降低了投影的復(fù)雜性(在我們的例子中20)，并降低了內(nèi)存占用。最后，最相關(guān)的信息，即路面、標(biāo)記、路緣等集中在該范圍的下部。

圖3:當(dāng)車輛坐標(biāo)系中點離地面的高度和作為點離攝像頭的距離時,重新投影到圖像平面上的激光雷達讀數(shù)分布,來自nuScenes。

因此，我們將高度預(yù)測任務(wù)設(shè)置為分類問題，僅使用作為bin。更具體地說，我們的解碼器輸出預(yù)測，其中是輸入圖像的形狀。通過以下方式可以獲得特定像素在索引處的實際高度預(yù)測:

我們利用這個離散化的高度預(yù)測根據(jù)在每個bin中的可能性對每個特征進行加權(quán)。

投影:我們將更深層的特征投影到更粗糙的BEV中，將更早期的高分辨率特征投影到更高分辨率的BEV中。這允許我們以經(jīng)典的編碼器-解碼器方式上采樣BEV，其中更詳細的BEV充當(dāng)跳過連接(圖4中的綠色部分)。

圖4:U-BEV模型架構(gòu)。(a)預(yù)訓(xùn)練的backbone(藍色)從汽車周圍的所有6個攝像頭中提取特征。第一個解碼器(橙色)預(yù)測每個輸入圖像上的每個像素的高度。這個高度用于將每個攝像頭的特征投影到3D空間的單個BEV中(綠色)。更深層的特征被投影到較低分辨率的BEV中,然后以編碼器-解碼器方式上采樣(黃色),具有跳躍連接。(b)說明從環(huán)視圖像和高度到不同BEV層的投影操作。

我們應(yīng)用經(jīng)修改的逆投影映射(IPM)將圖像坐標(biāo)中的特征展開到BEV坐標(biāo)中(參見圖4 b)。要從像素投影每個特征，我們使用已知的外在投影矩陣和相機的內(nèi)在參數(shù)。要在高度處投影，我們利用矩陣形式的翻譯變換將參考系統(tǒng)提升到所需高度，并在處執(zhí)行標(biāo)準(zhǔn)IPM。

IPM公式將這些變量相關(guān)聯(lián)為:

這種形式方便地允許刪除矩陣的第三列，這使我們能夠?qū)ζ溥M行求逆并求出。該操作可以在GPU上對所有特征并行化，并在所有高度上執(zhí)行，從而產(chǎn)生一個占用體積。

BEV解碼:最后，我們用兩個卷積層擠壓高度維度的每個BEV。通過保持分辨率和通道的比率不變，我們可以將它們與跳過連接一起插入經(jīng)典的解碼器樣式，產(chǎn)生最終的BEV輸出(圖4中的黃色部分)。

B. 地圖編碼

地圖以布爾型通道離散化表面柵格化的形式輸入到我們的系統(tǒng)中，其中是類的數(shù)量，即每個語義類被分配一個獨立的通道。在多邊形表示的情況下，如自動駕駛SD地圖中的常見情況，我們通過將每個類的多邊形柵格化到通道來預(yù)處理地圖。

C. 定位

為了進行定位，我們利用本地BEV 和給定粗略位置先驗裁剪的全局地圖平鋪。

給定擬議的U-BEV模型重建的BEV與地圖平鋪在比例上相符合，定位通過模板匹配來實現(xiàn)。為了補償本地BEV重建的不完美，定位模塊從地圖平鋪和本地BEV中提取神經(jīng)表示，并在地圖平鋪上構(gòu)建概率圖。

在特征空間匹配神經(jīng)BEV預(yù)測和神經(jīng)地圖增強了定位模塊對本地BEV中的錯誤和不完美的魯棒性，這可能是由于遮擋或者在定位場景中感知降級(例如，照明不足或惡劣天氣)引起的，以犧牲分辨率為代價。

我們應(yīng)用二維softmax $ ilde{M} = ext{softmax}{2D}(M{prob}) xy$方向上執(zhí)行soft-argmax提取預(yù)測，其中

3. 實驗結(jié)果

本文的實驗結(jié)果主要涉及BEV分割和重定位的性能比較。在BEV方面，作者使用了U-BEV和CVT兩種方法進行比較，通過計算IoU來評估兩種方法在不同類別的地面、路面和十字路口上的表現(xiàn)。實驗結(jié)果顯示，U-BEV在所有類別上的IoU表現(xiàn)均優(yōu)于CVT，并且在路面和人行道分割上的表現(xiàn)提升尤為明顯。此外，U-BEV相較于CVT具有更低的計算復(fù)雜度，可實現(xiàn)相當(dāng)?shù)男阅芴嵘?。在重定位方面，作者通過比較不同方法在不同距離的召回準(zhǔn)確率(1m, 2m, 5m, 10m)上的表現(xiàn)，發(fā)現(xiàn)U-BEV相較于其他基于BEV的方法和當(dāng)代基于BEV的重定位方法，在10m上的召回準(zhǔn)確率提高了26.4%?？偟膩碚f，實驗結(jié)果證明了U-BEV方法在BEV分割和重定位方面取得了更好的性能表現(xiàn)。

表1:以1米,2米,5米,10米處的召回準(zhǔn)確率為指標(biāo)的定位結(jié)果。

表2: U-BEV和CVT的BEV性能IoU。mc表示多類模型,w/o H表示不帶高度的模型。

圖5:U-BEV的輸入和輸出示例,包括環(huán)視圖像,預(yù)測高度和預(yù)測和真值BEV。與CVT相比,U-BEV更準(zhǔn)確地重建了可駕駛表面和人行道。

圖6 定位過程的輸入和輸出示例，包括環(huán)繞圖像、局部BEV、局部BEV和地圖塊的神經(jīng)編碼、預(yù)測的可能性以及結(jié)果的可視化。在可視化中，藍十字為地面真實姿態(tài)，紅十字為預(yù)測姿態(tài)。

4. 結(jié)論

本文提出了一種新的U-Net啟發(fā)的BEV架構(gòu)“U-BEV”，它利用多個高度層的中間分割。該架構(gòu)在分割性能上優(yōu)于現(xiàn)有的基于Transformer的BEV架構(gòu)1.7到2.8%的IoU。此外，我們提出了一種新穎的重定位方法，利用擬議的U-BEV與神經(jīng)編碼的SD地圖進行匹配。重定位擴展顯著優(yōu)于相關(guān)方法，在10米內(nèi)的召回率提高了26.4%以上。值得注意的是，僅需要地圖數(shù)據(jù)的幾個類別，特別是道路表面，為在無特征環(huán)境中重定位鋪平了道路。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

傳感器

傳感器

+關(guān)注

關(guān)注
2541

文章
49945

瀏覽量
747439
模板

模板

+關(guān)注

關(guān)注
0

文章
107

瀏覽量
20531
模型

模型

+關(guān)注

關(guān)注
1

文章
3032

瀏覽量
48346

原文標(biāo)題：ICCV2023 SOTA U-BEV：基于高度感知的鳥瞰圖分割和神經(jīng)地圖的重定位

文章出處：【微信號：GiantPandaCV，微信公眾號：GiantPandaCV】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

如何保存機器人建圖，用于后續(xù)定位導(dǎo)航

，如下圖所示?！　　　?b class='flag-5'>地圖與機器人實際角度存在偏差　　發(fā)生上述情況后，要利用重定位功能修復(fù)相關(guān)偏差?！　　?b class='flag-5'>重定位】　　這里

發(fā)表于 01-28 17:27

《炬豐科技-半導(dǎo)體工藝》在硅上生長的 InGaN 基激光二極管的腔鏡的晶圓制造

損傷并平滑垂直側(cè)壁。圖中。在 TMAH 溶液中化學(xué)拋光不同時間后的 GaN m 面和 a 面?zhèn)缺诘?SEM 圖像。(a) 六方纖鋅礦結(jié)構(gòu)的晶胞示意圖。(b) 鳥瞰圖（傾斜于20°) ICP 干法蝕刻

發(fā)表于 07-09 10:21

什么是高精度地圖

）是地圖精度可以到厘米級別的高精度地圖。高精度地圖特性從數(shù)據(jù)精度和要素豐富度角度定義，簡稱HD Map(High Definition Map，通俗來講就是定位精度更高、數(shù)據(jù)維度

發(fā)表于 10-07 14:24

同時定位與地圖構(gòu)建(SLAM)概述2

定位卡爾曼濾波同時定位與地圖構(gòu)建未提及的問題跟蹤，全局定位，綁架問題二次型跟蹤，全局定位，綁架問題閉環(huán)回路尺度：

發(fā)表于 09-22 08:17 ?95次下載

圖像分割—基于圖的圖像分割

圖像分割—基于圖的圖像分割圖像分割—基于圖的圖像分割

發(fā)表于 11-19 16:17 ?0次下載

基于改進深度信息的手勢分割與定位

針對基于Kinect深度信息分割的手勢往往包含手腕易造成后續(xù)手勢誤識別的問題，提出一種改進深度信息的手勢分割與定位算法。首先，基于深度信息閾值限定在實驗空間中檢測出手勢二值圖；然后，根

發(fā)表于 12-07 10:59 ?0次下載

基于改進深度信息的手勢<b class='flag-5'>分割</b>與<b class='flag-5'>定位</b>

Apollo定位、感知、規(guī)劃模塊的基礎(chǔ)-高精地圖

與普通地圖不同，高精地圖主要服務(wù)于自動駕駛車輛，通過一套獨特的導(dǎo)航體系，幫助自動駕駛解決系統(tǒng)性能問題，擴展傳感器檢測邊界。目前 Apollo 內(nèi)部高精地圖主要應(yīng)用在高精定位、環(huán)境

發(fā)表于 08-12 11:15 ?9518次閱讀

特斯拉完全自動駕駛套件車輛新增“向量空間鳥瞰圖“功能

全球汽車快訊據(jù)外媒報道，埃隆馬斯克證實，特斯拉將向配置了完全自動駕駛（FSD）套件的旗下車輛新增向量空間鳥瞰圖（vector-space birds eye view）功能。 鳥瞰圖功能已成為一款

發(fā)表于 10-09 10:04 ?2245次閱讀

利用激光雷達探測車輛路徑上的障礙物

根據(jù)專利文件的描述，此類物體分類數(shù)據(jù)可用作下游物體追蹤器以及/或地圖定位器的掩碼，分析此類鳥瞰圖也能夠提高物體識別和物體跟蹤的準(zhǔn)確性和效率，反過來可以提升自動駕駛車輛控制系統(tǒng)的性能。

發(fā)表于 12-23 14:47 ?2387次閱讀

介紹一種對標(biāo)Tesla Occupancy的開源3D語義場景補全?法

在 2022 年的 Tesla AI Day 上， Tesla 將 Bev（鳥瞰圖）感知進?步升級，提出了基于 Occupancy Network 的感知?法。

發(fā)表于 03-08 16:44 ?1124次閱讀

基于神經(jīng)匹配的二維地圖視覺定位

提出了一種基于人類使用的2D語義圖以亞米精度定位圖像的算法，OrienterNet，通過將BEV圖與OpenStreetMap中開放可用的全局地圖相匹配來估計查詢圖像的位置和方向，使任

發(fā)表于 05-04 09:15 ?899次閱讀

基于<b class='flag-5'>神經(jīng)</b>匹配的二維<b class='flag-5'>地圖</b>視覺<b class='flag-5'>定位</b>

基于純視覺的感知方法

是指將周圍多個攝像頭的連續(xù)幀作為輸入，然后將像平面視角轉(zhuǎn)換為鳥瞰圖視角，在得到的鳥瞰圖特征上執(zhí)行諸如三維目標(biāo)檢測、地圖視圖語義分割和運動預(yù)測等感知

發(fā)表于 06-15 14:20 ?947次閱讀

高德地圖公布“奇境”引擎，應(yīng)用神經(jīng)渲染等前沿技術(shù)打造“時空地圖”

奇境MAX是高德地圖研發(fā)的全新目的地決策服務(wù)，基于深度神經(jīng)網(wǎng)絡(luò)和物理引擎的神經(jīng)渲染技術(shù)，通過在地圖上建立生動逼真、美輪美奐的立體場景模型，幫助用戶從多時段、多方位地

發(fā)表于 09-12 16:19 ?672次閱讀

智行者科技發(fā)布基于***的“重感知、輕地圖”智駕解決方案

今年4月份，智行者宣布成功獲得某頭部車企量產(chǎn)定點合作，成為國內(nèi)首家基于國產(chǎn)芯片的軟硬件一體高階自動駕駛系統(tǒng)方案供應(yīng)商。時隔半年，智行者發(fā)布首個基于國產(chǎn)芯片的“重感知、輕地圖”的智能駕駛解決方案

發(fā)表于 12-19 09:59 ?1111次閱讀

基于毫米波雷達和多視角相機鳥瞰圖融合的3D感知方法

RCBEVDet針對毫米波雷達的特性，設(shè)計了一種高效的毫米波雷達主干網(wǎng)絡(luò)(RadarBEVNet)，進行點云鳥瞰圖特征提取，RadarBEVNet使用兩種特征表征方式對毫米波雷達點云進行特征表示，并使用基于雷達反射截面（RCS）的離散方法得到鳥瞰圖特征。

發(fā)表于 04-06 15:06 ?603次閱讀