0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于高度感知的鳥瞰圖分割和神經(jīng)地圖的重定位

jf_pmFSk4VX ? 來源:GiantPandaCV ? 2023-11-08 15:59 ? 次閱讀

ICCV2023 SOTA U-BEV:基于高度感知的鳥瞰圖分割和神經(jīng)地圖的重定位

論文標(biāo)題:U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based Relocalization

論文鏈接:https://arxiv.org/abs/2310.13766

1. 本文概覽

高效的重定位對于GPS信號不佳或基于傳感器的定位失敗的智能車輛至關(guān)重要。最近,Bird’s-Eye-View (BEV) 分割的進展使得能夠準(zhǔn)確地估計局部場景的外觀,從而有利于車輛的重定位。然而,BEV方法的一個缺點是利用幾何約束需要大量的計算。本文提出了U-BEV,一種受U-Net啟發(fā)的架構(gòu),通過在拉平BEV特征之前對多個高度層進行推理,擴展了當(dāng)前的最先進水平。我們證明了這種擴展可以提高U-BEV的性能高達4.11%的IoU。此外,我們將編碼的神經(jīng)BEV與可微分的模板匹配器相結(jié)合,在神經(jīng)SD地圖數(shù)據(jù)集上執(zhí)行重定位。所提出的模型可以完全端到端地進行訓(xùn)練,并在nuScenes數(shù)據(jù)集上優(yōu)于具有相似計算復(fù)雜度的基于Transformer的BEV方法1.7到2.8%的mIoU,以及基于BEV的重定位超過26%的召回率。

e11e2f6c-7d7e-11ee-939d-92fbcf53809c.png

圖1:,U-BEV 提出了一種新的環(huán)境圖像 BEV 表示方法,在 SD 地圖數(shù)據(jù)中實現(xiàn)了高效的神經(jīng)重定位。

2. 方法詳解

本方案的完整算法是在SD地圖中定位一組環(huán)視圖像。它從環(huán)視圖像生成本地BEV表示,并從給定粗略3D位置先驗的SD地圖tile中生成神經(jīng)地圖編碼(例如來自航海設(shè)備的嘈雜GPS信號和指南針)。深度模板匹配器然后在神經(jīng)BEV上滑動全局神經(jīng)地圖,產(chǎn)生相似度圖。最后,定位通過返回相似度圖的Soft-Argmax來完成。我們的方法概述如圖2所示。

e14607ee-7d7e-11ee-939d-92fbcf53809c.png

圖2:U-BEV神經(jīng)重定位模型概述。U-BEV從一組環(huán)視攝像頭預(yù)測局部BEV(左)。地圖編碼器從根據(jù)位置先驗裁剪的全局SD地圖中提取特征(右)以構(gòu)建神經(jīng)地圖表示。QATM匹配模塊(中心)計算最佳匹配位置。

A. Bird眼視角重建

我們提出了一種新穎的輕量級且準(zhǔn)確的BEV架構(gòu)U-BEV,用于從一組環(huán)視圖像重建汽車周圍環(huán)境。我們的模型受計算機視覺分割任務(wù)中廣泛使用的架構(gòu)U-Net的啟發(fā)。概述如圖4所示。

給定一組6張圖像及其內(nèi)參和外參,我們預(yù)測一個BEV ,其中S是BEV的像素大小,N是地圖中可用標(biāo)簽的數(shù)量。我們遵循nuScenes數(shù)據(jù)集中的約定,使用后軸心中心作為我們的原點。

特征提取:我們使用輕量級的預(yù)訓(xùn)練EfficientNet backbone從所有6張圖像中提取不同分辨率的特征,這在較小的模型中是常見的方法。具體來說,我們以步長2、4、8、16提取特征,并為計算原因刪除最后一個步長。提取的特征在整個架構(gòu)中用作跳過連接。(圖4中的藍色框)

高度預(yù)測: U-BEV的一個關(guān)鍵貢獻是從地面估計高度以在3D空間進行推理。我們利用提取的特征和輕量級解碼器對每個像素執(zhí)行此像素式操作(圖4中的橙色部分)。與BEV文獻中廣泛預(yù)測隱式或顯式深度的做法相反,我們認(rèn)為從地面到觀察到的每個像素的高度是一種更有效的表示。這主要基于以下觀察:對于駕駛應(yīng)用程序,需要在x、y地面平面上進行高分辨率,而垂直軸可以更粗略地離散化。此外,如圖3所示,深度通常分布在更長的范圍上,例如[0-50]米,這需要大量的離散間隔??梢杂幸饬x地將高度離散化在較低范圍內(nèi),例如[0-5]米來解釋周圍環(huán)境。較少的bin數(shù)量對模型有直接影響:它顯著降低了投影的復(fù)雜性(在我們的例子中20),并降低了內(nèi)存占用。最后,最相關(guān)的信息,即路面、標(biāo)記、路緣等集中在該范圍的下部。

e15f415a-7d7e-11ee-939d-92fbcf53809c.png

圖3:當(dāng)車輛坐標(biāo)系中點離地面的高度和作為點離攝像頭的距離時,重新投影到圖像平面上的激光雷達讀數(shù)分布,來自nuScenes。

因此,我們將高度預(yù)測任務(wù)設(shè)置為分類問題,僅使用作為bin。更具體地說,我們的解碼器輸出預(yù)測,其中 是輸入圖像的形狀。通過以下方式可以獲得特定像素在索引處的實際高度預(yù)測:

e17be6c0-7d7e-11ee-939d-92fbcf53809c.png

我們利用這個離散化的高度預(yù)測根據(jù)在每個bin中的可能性對每個特征進行加權(quán)。

投影:我們將更深層的特征投影到更粗糙的BEV中,將更早期的高分辨率特征投影到更高分辨率的BEV中。這允許我們以經(jīng)典的編碼器-解碼器方式上采樣BEV,其中更詳細的BEV充當(dāng)跳過連接(圖4中的綠色部分)。

e1924b40-7d7e-11ee-939d-92fbcf53809c.png

圖4:U-BEV模型架構(gòu)。(a)預(yù)訓(xùn)練的backbone(藍色)從汽車周圍的所有6個攝像頭中提取特征。第一個解碼器(橙色)預(yù)測每個輸入圖像上的每個像素的高度。這個高度用于將每個攝像頭的特征投影到3D空間的單個BEV中(綠色)。更深層的特征被投影到較低分辨率的BEV中,然后以編碼器-解碼器方式上采樣(黃色),具有跳躍連接。(b)說明從環(huán)視圖像和高度到不同BEV層的投影操作。

我們應(yīng)用經(jīng)修改的逆投影映射(IPM)將圖像坐標(biāo)中的特征展開到BEV坐標(biāo)中(參見圖4 b)。要從像素投影每個特征,我們使用已知的外在投影矩陣和相機的內(nèi)在參數(shù)。要在高度處投影,我們利用矩陣形式的翻譯變換將參考系統(tǒng)提升到所需高度,并在處執(zhí)行標(biāo)準(zhǔn)IPM。

IPM公式將這些變量相關(guān)聯(lián)為:

e33adb1a-7d7e-11ee-939d-92fbcf53809c.png

這種形式方便地允許刪除矩陣的第三列,這使我們能夠?qū)ζ溥M行求逆并求出。該操作可以在GPU上對所有特征并行化,并在所有高度上執(zhí)行,從而產(chǎn)生一個占用體積。

BEV解碼:最后,我們用兩個卷積層擠壓高度維度的每個BEV。通過保持分辨率和通道的比率不變,我們可以將它們與跳過連接一起插入經(jīng)典的解碼器樣式,產(chǎn)生最終的BEV輸出(圖4中的黃色部分)。

B. 地圖編碼

地圖以布爾型通道離散化表面柵格化的形式輸入到我們的系統(tǒng)中,其中是類的數(shù)量,即每個語義類被分配一個獨立的通道。在多邊形表示的情況下,如自動駕駛SD地圖中的常見情況,我們通過將每個類的多邊形柵格化到通道來預(yù)處理地圖。

C. 定位

為了進行定位,我們利用本地BEV 和給定粗略位置先驗裁剪的全局地圖平鋪。

給定擬議的U-BEV模型重建的BEV與地圖平鋪在比例上相符合,定位通過模板匹配來實現(xiàn)。為了補償本地BEV重建的不完美,定位模塊從地圖平鋪和本地BEV中提取神經(jīng)表示,并在地圖平鋪上構(gòu)建概率圖。

在特征空間匹配神經(jīng)BEV預(yù)測和神經(jīng)地圖增強了定位模塊對本地BEV中的錯誤和不完美的魯棒性,這可能是由于遮擋或者在定位場景中感知降級(例如,照明不足或惡劣天氣)引起的,以犧牲分辨率為代價。

我們應(yīng)用二維softmax $ ilde{M} = ext{softmax}{2D}(M{prob}) xy$方向上執(zhí)行soft-argmax提取預(yù)測,其中

e348d7c4-7d7e-11ee-939d-92fbcf53809c.png

3. 實驗結(jié)果

本文的實驗結(jié)果主要涉及BEV分割和重定位的性能比較。在BEV方面,作者使用了U-BEV和CVT兩種方法進行比較,通過計算IoU來評估兩種方法在不同類別的地面、路面和十字路口上的表現(xiàn)。實驗結(jié)果顯示,U-BEV在所有類別上的IoU表現(xiàn)均優(yōu)于CVT,并且在路面和人行道分割上的表現(xiàn)提升尤為明顯。此外,U-BEV相較于CVT具有更低的計算復(fù)雜度,可實現(xiàn)相當(dāng)?shù)男阅芴嵘?。在重定位方面,作者通過比較不同方法在不同距離的召回準(zhǔn)確率(1m, 2m, 5m, 10m)上的表現(xiàn),發(fā)現(xiàn)U-BEV相較于其他基于BEV的方法和當(dāng)代基于BEV的重定位方法,在10m上的召回準(zhǔn)確率提高了26.4%??偟膩碚f,實驗結(jié)果證明了U-BEV方法在BEV分割和重定位方面取得了更好的性能表現(xiàn)。

e3520baa-7d7e-11ee-939d-92fbcf53809c.png

表1:以1米,2米,5米,10米處的召回準(zhǔn)確率為指標(biāo)的定位結(jié)果。

e36225a8-7d7e-11ee-939d-92fbcf53809c.png

表2: U-BEV和CVT的BEV性能IoU。mc表示多類模型,w/o H表示不帶高度的模型。

e37eb3e4-7d7e-11ee-939d-92fbcf53809c.png

圖5:U-BEV的輸入和輸出示例,包括環(huán)視圖像,預(yù)測高度和預(yù)測和真值BEV。與CVT相比,U-BEV更準(zhǔn)確地重建了可駕駛表面和人行道。

e3a022e0-7d7e-11ee-939d-92fbcf53809c.png

圖6 定位過程的輸入和輸出示例,包括環(huán)繞圖像、局部BEV、局部BEV和地圖塊的神經(jīng)編碼、預(yù)測的可能性以及結(jié)果的可視化。在可視化中,藍十字為地面真實姿態(tài),紅十字為預(yù)測姿態(tài)。

4. 結(jié)論

本文提出了一種新的U-Net啟發(fā)的BEV架構(gòu)“U-BEV”,它利用多個高度層的中間分割。該架構(gòu)在分割性能上優(yōu)于現(xiàn)有的基于Transformer的BEV架構(gòu)1.7到2.8%的IoU。此外,我們提出了一種新穎的重定位方法,利用擬議的U-BEV與神經(jīng)編碼的SD地圖進行匹配。重定位擴展顯著優(yōu)于相關(guān)方法,在10米內(nèi)的召回率提高了26.4%以上。值得注意的是,僅需要地圖數(shù)據(jù)的幾個類別,特別是道路表面,為在無特征環(huán)境中重定位鋪平了道路。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 傳感器
    +關(guān)注

    關(guān)注

    2541

    文章

    49945

    瀏覽量

    747439
  • 模板
    +關(guān)注

    關(guān)注

    0

    文章

    107

    瀏覽量

    20531
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3032

    瀏覽量

    48346

原文標(biāo)題:ICCV2023 SOTA U-BEV:基于高度感知的鳥瞰圖分割和神經(jīng)地圖的重定位

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    如何保存機器人建,用于后續(xù)定位導(dǎo)航

    ,如下圖所示?!   ?b class='flag-5'>地圖與機器人實際角度存在偏差  發(fā)生上述情況后,要利用定位功能修復(fù)相關(guān)偏差?!  ?b class='flag-5'>重定位】  這里
    發(fā)表于 01-28 17:27

    《炬豐科技-半導(dǎo)體工藝》在硅上生長的 InGaN 基激光二極管的腔鏡的晶圓制造

    損傷并平滑垂直側(cè)壁。圖中。 在 TMAH 溶液中化學(xué)拋光不同時間后的 GaN m 面和 a 面?zhèn)缺诘?SEM 圖像。(a) 六方纖鋅礦結(jié)構(gòu)的晶胞示意圖。(b) 鳥瞰圖(傾斜于20°) ICP 干法蝕刻
    發(fā)表于 07-09 10:21

    什么是高精度地圖

    )是地圖精度可以到厘米級別的高精度地圖。 高精度地圖特性 從數(shù)據(jù)精度和要素豐富度角度定義,簡稱HD Map(High Definition Map,通俗來講就是定位精度更高、數(shù)據(jù)維度
    發(fā)表于 10-07 14:24

    同時定位地圖構(gòu)建(SLAM)概述2

    定位卡爾曼濾波同時定位地圖構(gòu)建未提及的問題跟蹤,全局定位,綁架問題二次型跟蹤,全局定位,綁架問題閉環(huán)回路尺度:
    發(fā)表于 09-22 08:17 ?95次下載

    圖像分割—基于的圖像分割

    圖像分割—基于的圖像分割圖像分割—基于的圖像分割
    發(fā)表于 11-19 16:17 ?0次下載

    基于改進深度信息的手勢分割定位

    針對基于Kinect深度信息分割的手勢往往包含手腕易造成后續(xù)手勢誤識別的問題,提出一種改進深度信息的手勢分割定位算法。首先,基于深度信息閾值限定在實驗空間中檢測出手勢二值;然后,根
    發(fā)表于 12-07 10:59 ?0次下載
    基于改進深度信息的手勢<b class='flag-5'>分割</b>與<b class='flag-5'>定位</b>

    Apollo定位、感知、規(guī)劃模塊的基礎(chǔ)-高精地圖

    與普通地圖不同,高精地圖主要服務(wù)于自動駕駛車輛,通過一套獨特的導(dǎo)航體系,幫助自動駕駛解決系統(tǒng)性能問題,擴展傳感器檢測邊界。目前 Apollo 內(nèi)部高精地圖主要應(yīng)用在高精定位、環(huán)境
    的頭像 發(fā)表于 08-12 11:15 ?9518次閱讀

    特斯拉完全自動駕駛套件車輛新增“向量空間鳥瞰圖“功能

    全球汽車快訊據(jù)外媒報道,埃隆馬斯克證實,特斯拉將向配置了完全自動駕駛(FSD)套件的旗下車輛新增向量空間鳥瞰圖(vector-space birds eye view)功能。 鳥瞰圖功能已成為一款
    的頭像 發(fā)表于 10-09 10:04 ?2245次閱讀

    利用激光雷達探測車輛路徑上的障礙物

    根據(jù)專利文件的描述,此類物體分類數(shù)據(jù)可用作下游物體追蹤器以及/或地圖定位器的掩碼,分析此類鳥瞰圖也能夠提高物體識別和物體跟蹤的準(zhǔn)確性和效率,反過來可以提升自動駕駛車輛控制系統(tǒng)的性能。
    的頭像 發(fā)表于 12-23 14:47 ?2387次閱讀
    利用激光雷達探測車輛路徑上的障礙物

    介紹一種對標(biāo)Tesla Occupancy的開源3D語義場景補全?法

    在 2022 年的 Tesla AI Day 上, Tesla 將 Bev(鳥瞰圖感知進?步升級,提出了基于 Occupancy Network 的感知?法。
    的頭像 發(fā)表于 03-08 16:44 ?1124次閱讀

    基于神經(jīng)匹配的二維地圖視覺定位

    提出了一種基于人類使用的2D語義以亞米精度定位圖像的算法,OrienterNet,通過將BEV與OpenStreetMap中開放可用的全局地圖相匹配來估計查詢圖像的位置和方向,使任
    的頭像 發(fā)表于 05-04 09:15 ?899次閱讀
    基于<b class='flag-5'>神經(jīng)</b>匹配的二維<b class='flag-5'>地圖</b>視覺<b class='flag-5'>定位</b>

    基于純視覺的感知方法

    是指將周圍多個攝像頭的連續(xù)幀作為輸入,然后將像平面視角轉(zhuǎn)換為鳥瞰圖視角,在得到的鳥瞰圖特征上執(zhí)行諸如三維目標(biāo)檢測、地圖視圖語義分割和運動預(yù)測等感知
    的頭像 發(fā)表于 06-15 14:20 ?947次閱讀
    基于純視覺的<b class='flag-5'>感知</b>方法

    高德地圖公布“奇境”引擎,應(yīng)用神經(jīng)渲染等前沿技術(shù)打造“時空地圖

    奇境MAX是高德地圖研發(fā)的全新目的地決策服務(wù),基于深度神經(jīng)網(wǎng)絡(luò)和物理引擎的神經(jīng)渲染技術(shù),通過在地圖上建立生動逼真、美輪美奐的立體場景模型,幫助用戶從多時段、多方位地
    的頭像 發(fā)表于 09-12 16:19 ?672次閱讀
    高德<b class='flag-5'>地圖</b>公布“奇境”引擎,應(yīng)用<b class='flag-5'>神經(jīng)</b>渲染等前沿技術(shù)打造“時空<b class='flag-5'>地圖</b>”

    智行者科技發(fā)布基于***的“感知、輕地圖”智駕解決方案

    今年4月份,智行者宣布成功獲得某頭部車企量產(chǎn)定點合作,成為國內(nèi)首家基于國產(chǎn)芯片的軟硬件一體高階自動駕駛系統(tǒng)方案供應(yīng)商。 時隔半年,智行者發(fā)布首個基于國產(chǎn)芯片的“感知、輕地圖”的智能駕駛解決方案
    的頭像 發(fā)表于 12-19 09:59 ?1111次閱讀
    智行者科技發(fā)布基于***的“<b class='flag-5'>重</b><b class='flag-5'>感知</b>、輕<b class='flag-5'>地圖</b>”智駕解決方案

    基于毫米波雷達和多視角相機鳥瞰圖融合的3D感知方法

    RCBEVDet針對毫米波雷達的特性,設(shè)計了一種高效的毫米波雷達主干網(wǎng)絡(luò)(RadarBEVNet),進行點云鳥瞰圖特征提取,RadarBEVNet使用兩種特征表征方式對毫米波雷達點云進行特征表示,并使用基于雷達反射截面(RCS)的離散方法得到鳥瞰圖特征。
    發(fā)表于 04-06 15:06 ?603次閱讀
    基于毫米波雷達和多視角相機<b class='flag-5'>鳥瞰圖</b>融合的3D<b class='flag-5'>感知</b>方法