0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

BEV感知中的Transformer算法介紹

3D視覺(jué)工坊 ? 來(lái)源:東新村轱天樂(lè)@知乎 ? 2023-09-04 10:22 ? 次閱讀

1、Camera only

主要思想:固定900個(gè)query個(gè)數(shù),隨機(jī)初始化query。每個(gè)query對(duì)應(yīng)一個(gè)3D reference point,然后反投影到圖片上sample對(duì)應(yīng)像素的特征。

缺點(diǎn):需要預(yù)訓(xùn)練模型,且因?yàn)槭请S機(jī)初始化,訓(xùn)練收斂較慢

1eeb8d3e-4aae-11ee-97a6-92fbcf53809c.jpg

BEV Former

https://arxiv.org/abs/2203.17270

主要思想:將BEV下的每個(gè)grid作為query,在高度上采樣N個(gè)點(diǎn),投影到圖像中sample到對(duì)應(yīng)像素的特征,且利用了空間和時(shí)間的信息。并且最終得到的是BEV featrue,在此featrue上做Det和Seg。

Spatial Cross-Attention:將BEV下的每個(gè)grid作為query,在高度上采樣N個(gè)點(diǎn),投影到圖像中獲取特征。

Temporal Self-Attention: 通過(guò)self-attention代替運(yùn)動(dòng)補(bǔ)償,align上一幀的feature到當(dāng)前幀的Q

1f0aafb6-4aae-11ee-97a6-92fbcf53809c.jpg

曠視,PETR

https://arxiv.org/pdf/2203.05625.pdf

1f43256c-4aae-11ee-97a6-92fbcf53809c.jpg

2、多模態(tài)

清華,F(xiàn)UTR3D

https://arxiv.org/pdf/2203.10642.pdf

在DETR的基礎(chǔ)上,將3D reference point投影到Lidar voxel特征和radar point 特征上。

1f7422ac-4aae-11ee-97a6-92fbcf53809c.jpg

香港科技大學(xué),Transfusion

https://arxiv.org/pdf/2203.11496.pdf

利用CenterPoint在heatmap上獲取Top K個(gè)點(diǎn)作為Query(這K個(gè)點(diǎn)可以看做是通過(guò)lidar網(wǎng)絡(luò)初始化了每個(gè)目標(biāo)的位置,這比DETR用隨機(jī)點(diǎn)作為Qurey收斂要快),先經(jīng)過(guò)Lidar Transformer得到proposal,把這個(gè)proposal作為Query,再和image feature做cross attention。

1f9b9a30-4aae-11ee-97a6-92fbcf53809c.jpg

Google,DeepFusion

https://arxiv.org/abs/2203.08195

直接將Lidar feature和Camera feature做cross attention,這個(gè)思路牛逼,我不看到這篇論文是絕對(duì)想不到還能這么搞的。

1fbef3f4-4aae-11ee-97a6-92fbcf53809c.jpg

編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4552

    瀏覽量

    92023
  • 感知
    +關(guān)注

    關(guān)注

    1

    文章

    64

    瀏覽量

    12078
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    135

    瀏覽量

    5944

原文標(biāo)題:BEV感知中的Transformer算法

文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于LSS范式的BEV感知算法優(yōu)化部署詳解

    BEV即Bird's Eye View(鳥瞰視圖)是一種從空中俯視場(chǎng)景的視角。由多張不同視角采集的圖像通過(guò)不同的空間轉(zhuǎn)換方式形成,如下圖所示,左側(cè)為6張不同位置的相機(jī)采集的圖像,右側(cè)為轉(zhuǎn)換的BEV圖像。
    的頭像 發(fā)表于 01-02 14:13 ?3345次閱讀
    基于LSS范式的<b class='flag-5'>BEV</b><b class='flag-5'>感知</b><b class='flag-5'>算法</b>優(yōu)化部署詳解

    BEV感知算法:下一代自動(dòng)駕駛的核心技術(shù)

    首先,BEV視圖存在遮擋小的優(yōu)點(diǎn),由于視覺(jué)的透視效應(yīng),現(xiàn)實(shí)世界的物體在2D圖像很容易受到其他物體的遮擋,因此,傳統(tǒng)的基于2D的感知方式只能感知可見(jiàn)的目標(biāo),對(duì)于被遮擋的部分
    發(fā)表于 01-25 15:38 ?3463次閱讀
    <b class='flag-5'>BEV</b><b class='flag-5'>感知</b><b class='flag-5'>算法</b>:下一代自動(dòng)駕駛的核心技術(shù)

    未來(lái)已來(lái),多傳感器融合感知是自動(dòng)駕駛破局的關(guān)鍵

    了目標(biāo)的3D空間位置信息、目標(biāo)的速度信息和材質(zhì)信息,可以直接高效實(shí)時(shí)支持占用網(wǎng)格的體素算法。Tesla目前在主推“BEV +Transformer+占用網(wǎng)絡(luò)”,國(guó)內(nèi)華為GOD2.0和
    發(fā)表于 04-11 10:26

    感知時(shí)間等比縮減的機(jī)會(huì)頻譜接入算法研究

    的機(jī)會(huì)頻譜接入算法(SGPR)。該算法與其他固定感知時(shí)間長(zhǎng)度算法比較,相對(duì)縮減了頻譜感知時(shí)間,增加了系統(tǒng)傳輸時(shí)間,從而提高了認(rèn)知網(wǎng)絡(luò)系統(tǒng)的吞
    發(fā)表于 04-23 11:17

    BEV+Transformer對(duì)智能駕駛硬件系統(tǒng)有著什么樣的影響?

    BEV+Transformer是目前智能駕駛領(lǐng)域最火熱的話題,沒(méi)有之一,這也是無(wú)人駕駛低迷期唯一的亮點(diǎn),BEV+Transformer徹底終結(jié)了2D直視圖+CNN時(shí)代
    的頭像 發(fā)表于 02-16 17:14 ?2398次閱讀

    黑芝麻智能在BEV感知方面的研發(fā)進(jìn)展

    日前,在由黑芝麻智能主辦的“2023智能汽車高峰論壇”上,黑芝麻智能深度學(xué)習(xí)研發(fā)高級(jí)總監(jiān)王祚官發(fā)表了主題為“BEV感知,給自動(dòng)駕駛開啟‘上帝視角’”的主旨演講,分享黑芝麻智能在BEV感知
    的頭像 發(fā)表于 05-15 16:39 ?1420次閱讀

    基于幾何變換器的2D-to-BEV視圖轉(zhuǎn)換學(xué)習(xí)

    BEV感知是自動(dòng)駕駛的重要趨勢(shì)。常規(guī)的自動(dòng)駕駛算法方法基于在前視圖或透視圖中執(zhí)行檢測(cè)、分割、跟蹤,而在BEV可表示周圍場(chǎng)景,相對(duì)而言更加直
    發(fā)表于 06-06 17:47 ?1418次閱讀
    基于幾何變換器的2D-to-<b class='flag-5'>BEV</b>視圖轉(zhuǎn)換學(xué)習(xí)

    基于Transformer的目標(biāo)檢測(cè)算法

    掌握基于Transformer的目標(biāo)檢測(cè)算法的思路和創(chuàng)新點(diǎn),一些Transformer論文涉及的新概念比較多,話術(shù)沒(méi)有那么通俗易懂,讀完論文仍然不理解算法的細(xì)節(jié)部分。
    發(fā)表于 08-16 10:51 ?574次閱讀
    基于<b class='flag-5'>Transformer</b>的目標(biāo)檢測(cè)<b class='flag-5'>算法</b>

    BEV人工智能transformer

    BEV人工智能transformer? 人工智能Transformer技術(shù)是一種自然語(yǔ)言處理領(lǐng)域的重要技術(shù),廣泛應(yīng)用于自然語(yǔ)言理解、機(jī)器翻譯、文本分類等任務(wù)。它通過(guò)深度學(xué)習(xí)
    的頭像 發(fā)表于 08-22 15:59 ?761次閱讀

    CVPR上的新頂流:BEV自動(dòng)駕駛感知新范式

    BEV自動(dòng)駕駛感知好比一個(gè)從高處統(tǒng)觀全局的“上帝視角”,將三維環(huán)境信息投影到二維平面,以俯視視角展示環(huán)境的物體和地形。在路徑規(guī)劃、障礙物檢測(cè)、自動(dòng)駕駛決策等方面,BEV
    的頭像 發(fā)表于 08-23 14:51 ?954次閱讀
    CVPR上的新頂流:<b class='flag-5'>BEV</b>自動(dòng)駕駛<b class='flag-5'>感知</b>新范式

    利用Transformer BEV解決自動(dòng)駕駛Corner Case的技術(shù)原理

    BEV是一種將三維環(huán)境信息投影到二維平面的方法,以俯視視角展示環(huán)境的物體和地形。在自動(dòng)駕駛領(lǐng)域,BEV 可以幫助系統(tǒng)更好地理解周圍環(huán)境,提高感知和決策的準(zhǔn)確性。在環(huán)境
    的頭像 發(fā)表于 10-11 16:16 ?666次閱讀
    利用<b class='flag-5'>Transformer</b> <b class='flag-5'>BEV</b>解決自動(dòng)駕駛Corner Case的技術(shù)原理

    智能駕駛感知算法梳理 高階自動(dòng)駕駛落地關(guān)鍵分析

      感知算法升級(jí)是L2級(jí)向L 3級(jí)智能駕駛系統(tǒng)跨越的關(guān)鍵。與傳統(tǒng)2D+CNN算法相比,BEV+ Transformer
    發(fā)表于 10-19 09:53 ?309次閱讀
    智能駕駛<b class='flag-5'>感知</b><b class='flag-5'>算法</b>梳理 高階自動(dòng)駕駛落地關(guān)鍵分析

    BEV感知的二維特征點(diǎn)

    BEV感知的二維特征點(diǎn) 首先來(lái)簡(jiǎn)單介紹一下什么是BEV感知BEV
    的頭像 發(fā)表于 11-14 11:37 ?538次閱讀

    基于Transformer的多模態(tài)BEV融合方案

    由于大量的相機(jī)和激光雷達(dá)特征以及注意力的二次性質(zhì),將 Transformer 架構(gòu)簡(jiǎn)單地應(yīng)用于相機(jī)-激光雷達(dá)融合問(wèn)題是很困難的。
    發(fā)表于 01-23 11:39 ?546次閱讀
    基于<b class='flag-5'>Transformer</b>的多模態(tài)<b class='flag-5'>BEV</b>融合方案

    黑芝麻智能開發(fā)多重亮點(diǎn)的BEV算法技術(shù) 助力車企高階自動(dòng)駕駛落地

    隨著視覺(jué)算法的演進(jìn),BEV(Bird's-Eye-View Perception)感知算法成為主機(jī)廠和自動(dòng)駕駛公司發(fā)力城市場(chǎng)景的核心技術(shù)之一,
    的頭像 發(fā)表于 03-29 18:18 ?1775次閱讀
    黑芝麻智能開發(fā)多重亮點(diǎn)的<b class='flag-5'>BEV</b><b class='flag-5'>算法</b>技術(shù) 助力車企高階自動(dòng)駕駛落地