0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

探索3D檢測(cè)需要做哪些適配

新機(jī)器視覺(jué) ? 來(lái)源:新機(jī)器視覺(jué) ? 作者:新機(jī)器視覺(jué) ? 2022-10-27 17:01 ? 次閱讀

1. 前言

做為被動(dòng)傳感器的相機(jī),其感光元件僅接收物體表面反射的環(huán)境光,3D場(chǎng)景經(jīng)投影變換呈現(xiàn)在2D像平面上,成像過(guò)程深度信息丟失了。而當(dāng)我們僅有圖片時(shí),想要估計(jì)物體在真實(shí)3D場(chǎng)景中所處的位置,這將是一個(gè)欠約束的問(wèn)題。

a0aae7c2-520a-11ed-a3b6-dac502259ad0.png

2. 幾何求解

分類(lèi)、2D目標(biāo)檢測(cè)等圖像任務(wù)已經(jīng)在工業(yè)界得到廣泛應(yīng)用,可以認(rèn)為是已經(jīng)解決了的問(wèn)題,并且數(shù)據(jù)價(jià)格低廉。但2D目標(biāo)框無(wú)法滿(mǎn)足自動(dòng)駕駛機(jī)器人等對(duì)障礙物有定位需求的領(lǐng)域。傳統(tǒng)算法利用2D檢測(cè)框的底部中心點(diǎn),基于平面假設(shè),求解近似三角形來(lái)獲得目標(biāo)離自車(chē)的距離。這類(lèi)方法簡(jiǎn)單輕量,數(shù)據(jù)驅(qū)動(dòng)的部分僅限于2D目標(biāo)檢測(cè)部分,但對(duì)地面有較強(qiáng)的假設(shè),面對(duì)車(chē)輛顛簸敏感(俯仰角變化),且對(duì)2D檢測(cè)框的完整性有較強(qiáng)的依賴(lài)。

a0d36b02-520a-11ed-a3b6-dac502259ad0.png

3. 單目3D目標(biāo)檢測(cè)

隨著標(biāo)注方法的升級(jí),目標(biāo)的表示由原來(lái)的2D框?qū)屈c(diǎn)表示 進(jìn)化成了3D坐標(biāo)系下bounding box的表示 ,不同緯度表示了3D框的位置、尺寸、以及地面上的偏航角。有了數(shù)據(jù),原本用于2D檢測(cè)的深度神經(jīng)網(wǎng)絡(luò),也可以依靠監(jiān)督學(xué)習(xí)用于3D目標(biāo)框檢測(cè)。

這樣的3D數(shù)據(jù)業(yè)界目前主要有兩種獲取方式,一種是車(chē)輛除了配備了相機(jī),同時(shí)安裝了LiDAR這樣的3D傳感器,經(jīng)掃描,目標(biāo)輪廓以點(diǎn)云的形式被記錄下來(lái),標(biāo)注員主要看點(diǎn)云來(lái)標(biāo)注。另一種是像特斯拉這樣僅配備相機(jī)的車(chē)輛,收集的只有圖像數(shù)據(jù),依靠多種交叉驗(yàn)證的離線(xiàn)算法,輔以人工來(lái)生成3D標(biāo)注數(shù)據(jù)。

焦距適中的相機(jī),F(xiàn)OV是有限的,想要檢測(cè)車(chē)身 目標(biāo),就要部署多個(gè)相機(jī),每個(gè)相機(jī)負(fù)責(zé)一定FOV范圍內(nèi)的感知。最終將各相機(jī)的檢測(cè)結(jié)果通過(guò)相機(jī)到車(chē)身的外參,轉(zhuǎn)換到統(tǒng)一的車(chē)輛坐標(biāo)系下。

但在有共視時(shí),會(huì)產(chǎn)生冗余檢測(cè),即有多個(gè)攝像頭對(duì)同一目標(biāo)做了預(yù)測(cè),現(xiàn)有方法,如FCOS3D,會(huì)在統(tǒng)一的坐標(biāo)系下對(duì)所有檢測(cè)結(jié)果做一遍NMS,有重合的目標(biāo)框僅留下一個(gè)分類(lèi)指標(biāo)得分最高的。

冗余問(wèn)題得到緩解,但要命的是被截?cái)嗟哪繕?biāo)往往在任一個(gè)相機(jī)里都只出現(xiàn)了一部分,多數(shù)情況是每個(gè)相機(jī)下的檢測(cè)質(zhì)量都堪憂(yōu)。原因是多相機(jī)的圖片在深度神經(jīng)網(wǎng)絡(luò)是以 的形式傳遞的,傳統(tǒng)網(wǎng)絡(luò)中會(huì)有緯度 的特征間交互,也會(huì)有緯度 的空間交互,但唯獨(dú)沒(méi)有不同圖片間batch緯度的交互。簡(jiǎn)單來(lái)說(shuō)就是下圖中左邊圖片在檢測(cè)黑色客車(chē)時(shí),是無(wú)法用到右邊圖片的信息的。

a3089960-520a-11ed-a3b6-dac502259ad0.png

4. 統(tǒng)一多視角相機(jī)的3D目標(biāo)檢測(cè)

4.1 看到哪算哪

自下而上的方法,手頭的信息看到哪算哪。下圖來(lái)自CaDNN這篇文章,很好的描述了這一類(lèi)方法,包括Lift、BEVDet、BEVDepth。這類(lèi)方法預(yù)測(cè)每個(gè)像素的深度/深度分布,有的方法隱式的預(yù)測(cè),有的方法利用LiDAR點(diǎn)云當(dāng)監(jiān)督信號(hào)(推理時(shí)沒(méi)有LiDAR),雖然只用在訓(xùn)練階段,但不太能算在純視覺(jué)的方法里比較精度,工程使用的時(shí)候可能涉及部署車(chē)輛和數(shù)據(jù)采集車(chē)輛割裂的尷尬??傊?,有了深度就可以由相機(jī)內(nèi)外參計(jì)算此像素在3D空間中的位置,然后把圖像特征塞入對(duì)應(yīng)位置??梢岳斫鉃橛蓤D片生成3D“點(diǎn)云”,多視角相機(jī)形成的“點(diǎn)云”拼在一起,有了“點(diǎn)云”就可以利用現(xiàn)有的點(diǎn)云3D目標(biāo)檢測(cè)器了(如PointPillars, CenterPoint)。

a34d3e4e-520a-11ed-a3b6-dac502259ad0.png

4.2 先決定看哪

自上而下的方法,先確定關(guān)注的地方(但可能手頭不寬裕,不配關(guān)注這個(gè)地方... 比如想關(guān)注自車(chē)后方,可后方視野完全被一輛大車(chē)遮擋了的情況)。關(guān)于這類(lèi)的方法,下圖碰瓷一下特斯拉,簡(jiǎn)單來(lái)說(shuō)就是先確定空間中要關(guān)注的位置(圖中網(wǎng)格代表的車(chē)身周?chē)牡胤剑蛇@些位置去各個(gè)圖像中“搜集”特征,然后做判斷。根據(jù)“搜集”方式的不同衍生出了下面幾種方法。

a381745c-520a-11ed-a3b6-dac502259ad0.png

4.2.1 關(guān)鍵點(diǎn)采樣

下圖來(lái)自DETR3D,其作為將DETR框架用于3D目標(biāo)的先鋒工作,由一群可學(xué)習(xí)的3D空間中離散的位置(包含于object queries),根據(jù)相機(jī)內(nèi)外參轉(zhuǎn)換投影到圖片上,來(lái)索引圖像特征,每個(gè)3D位置僅對(duì)應(yīng)一個(gè)像素坐標(biāo)(會(huì)提取不同尺度特征圖的特征)。

a4138b94-520a-11ed-a3b6-dac502259ad0.png

4.2.2 局部注意力

下圖來(lái)自BEVFormer,該方法預(yù)先生成稠密的空間位置(含不同的高度,且不隨訓(xùn)練更新),每個(gè)位置投影到各圖片后,會(huì)和投影位置局部的數(shù)個(gè)像素塊發(fā)生交互來(lái)提取特征(基于deformable detr),相比于DETR3D,每個(gè)3D點(diǎn)可以提取到了更多的特征。最終提取的3D稠密特征圖在高度緯度會(huì)被壓扁,形成一張BEV視角下稠密的2D特征圖,后續(xù)基于此特征圖做目標(biāo)檢測(cè)。BEVFormer相比DETR3D在精度上有提升(結(jié)構(gòu)上也多了額外的BEV decoders),在BEV視角下,目標(biāo)尺度被統(tǒng)一了,不會(huì)出現(xiàn)圖像視角下目標(biāo)近大遠(yuǎn)小的問(wèn)題。一張稠密的BEV特征圖還可以做車(chē)道線(xiàn)檢測(cè)/道路分割等任務(wù),缺點(diǎn)是計(jì)算量大,顯存占用大。

a46d6d80-520a-11ed-a3b6-dac502259ad0.png

4.2.3 全局注意力

典型方法如PETR,該方法強(qiáng)調(diào)保持2D目標(biāo)檢測(cè)器DETR的框架,探索3D檢測(cè)需要做哪些適配。PETR同樣利用稀疏的3D點(diǎn)(來(lái)自object queries)來(lái)“搜索”圖像特征,但不像DETR3D或BEVFormer把3D點(diǎn)投影回圖片,而是基于標(biāo)準(zhǔn)的attention模塊,每個(gè)3D點(diǎn)會(huì)和來(lái)自全部圖片的所有像素交互。相似度(attention matrix)計(jì)算遵循 ,其中 來(lái)自object queries,里面包含的信息和3D bounding box的信息強(qiáng)相關(guān)(暫不討論query也包含的表觀(guān)信息),而 來(lái)自圖像(可以理解為和RGB信息強(qiáng)相關(guān),原生DETR中還會(huì)加入像素位置編碼),這兩個(gè)向量計(jì)算相似度缺乏可解釋性(直接訓(xùn)練也不怎么work)??梢岳斫鉃橄聢D描述的場(chǎng)景,很難說(shuō)一個(gè)3D框和哪個(gè)像素相似。

a498626a-520a-11ed-a3b6-dac502259ad0.png

PETR對(duì)矩陣下手,為每個(gè)像素編碼了3D位置相關(guān)的信息,使得相似度得以計(jì)算。實(shí)現(xiàn)上簡(jiǎn)單來(lái)說(shuō)是相機(jī)光心到像素的射線(xiàn)上每隔一段距離采樣一個(gè)點(diǎn)的 ,并轉(zhuǎn)換到query坐標(biāo)系下。相比之下,DETR3D和BEVFormer都遵循了deformable detr的方式,由query預(yù)測(cè)權(quán)重來(lái)加權(quán)“搜集”來(lái)的特征,規(guī)避掉了點(diǎn)積相似度的計(jì)算,PETR是正面硬剛這個(gè)問(wèn)題了屬于是。下圖是PETR單位置編碼相似度效果圖(達(dá)到了跨相機(jī)相似的效果),只是這個(gè)相似度是“虛假”的,跟真實(shí)場(chǎng)景沒(méi)關(guān)系,也不會(huì)變化。很快,PETRv2中加上了圖像特征,效果也有提升。不過(guò)全局注意力算力消耗巨大,PETR只用了單尺度特征圖,一般顯卡還需利用混合精度、checkpoint等降顯存的方法才能訓(xùn)練起來(lái)。

a4b44430-520a-11ed-a3b6-dac502259ad0.png  

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2852

    瀏覽量

    107264
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4733

    瀏覽量

    100415
  • 自動(dòng)駕駛
    +關(guān)注

    關(guān)注

    782

    文章

    13621

    瀏覽量

    165938

原文標(biāo)題:3D目標(biāo)檢測(cè) | 視覺(jué)3D目標(biāo)檢測(cè),從視覺(jué)幾何到BEV檢測(cè)

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    3D檢測(cè)系統(tǒng)可檢測(cè)PCB板針腳高度

    夠?qū)崟r(shí)輸出結(jié)果研發(fā)了一套3D檢測(cè)系統(tǒng)。2、方案描述3D檢測(cè)系統(tǒng)由3D高速相機(jī)、激光器、處理系統(tǒng)等主要部件組成,
    發(fā)表于 01-05 10:50

    為何PCB設(shè)計(jì)需要3D功能?

    (具有3個(gè)維度)創(chuàng)造產(chǎn)品,因此最佳的解決方法就是使用一種具有先進(jìn)的3D功能的設(shè)計(jì)工具。它可讓設(shè)計(jì)者在生產(chǎn)之前就能夠查看設(shè)計(jì)真實(shí)的3D圖像,不再需要制作樣機(jī),節(jié)省時(shí)間和資金??梢暂p松地生
    發(fā)表于 11-01 17:28

    哪些適配需要做CCC認(rèn)證?

    限值和測(cè)量方法》。三、需要做3C認(rèn)證的適配器的定義范圍1、音視頻設(shè)備配套的電源適配器(0807類(lèi)):將交流電網(wǎng)電源與音視頻產(chǎn)品配接,具有電壓轉(zhuǎn)換功能的設(shè)備,包括供電性質(zhì)和電氣參數(shù)轉(zhuǎn)換,
    發(fā)表于 04-10 16:57

    高精度3D掃描如何實(shí)現(xiàn)?

    三維(3D)掃描是一種功能強(qiáng)大的工具,可以獲取各種用于計(jì)量設(shè)備、檢測(cè)設(shè)備、探測(cè)設(shè)備和3D成像設(shè)備的體積數(shù)據(jù)。當(dāng)設(shè)計(jì)人員需要進(jìn)行毫米到微米分辨率的快速高精度掃描時(shí),經(jīng)常選擇基于TI DL
    發(fā)表于 08-06 08:09

    基于ToF的3D活體檢測(cè)算法研究

    人臉。這是由于目前基于RGB等2D空間的主流活體檢測(cè)方案未考慮光照、遮擋等干擾因素對(duì)于檢測(cè)的影響,而且存在計(jì)算量大的缺點(diǎn)。而數(shù)跡智能團(tuán)隊(duì)研發(fā)的3D SmartToF活體
    發(fā)表于 01-06 07:30

    3D模型

    3D模型, 淘寶網(wǎng)上買(mǎi)的3D元器件庫(kù)需要的自行下載
    發(fā)表于 11-04 15:36 ?0次下載

    3D技術(shù)的應(yīng)用探索3D機(jī)器視覺(jué)庫(kù)

    3D技術(shù)的應(yīng)用探索3D機(jī)器視覺(jué)庫(kù) 的資料。
    發(fā)表于 03-22 15:01 ?0次下載

    探索如何打開(kāi)我國(guó)3D打印的應(yīng)用之路

    想要切實(shí)打開(kāi)3D應(yīng)用之路,核心在于發(fā)展技術(shù),想要打開(kāi)現(xiàn)有應(yīng)用之路,在于融合、專(zhuān)注、研究與積累。總之還是那句話(huà)在探索應(yīng)用之路上我們需要協(xié)同合作.
    發(fā)表于 09-07 17:33 ?949次閱讀

    3DSYS公布了Figure4 3D打印機(jī)的材料參數(shù)

    我們知道對(duì)于3D打印機(jī)和耗材的適配性、打印件的性能如何,需要做大量的測(cè)試和參數(shù)設(shè)置,來(lái)尋求最佳的參數(shù)表和匹配度。
    的頭像 發(fā)表于 04-26 17:01 ?2546次閱讀

    探索3D打印PCB的潛力

    以色列3D打印公司Nano Dimension以電路/電子3D打印而聞名,其發(fā)布了一套名為DragonFly的電路/電子增材制造系統(tǒng)。 該公司使用這套系統(tǒng)制造出了3D打印的電容器 更具創(chuàng)新性
    的頭像 發(fā)表于 11-05 09:55 ?1731次閱讀

    矩子科技的3D檢測(cè)業(yè)務(wù)水平如何?

    具體到3D機(jī)器視覺(jué)檢測(cè)設(shè)備的發(fā)展,公司介紹,一是公司基于3D機(jī)器視覺(jué)技術(shù)的3D AOI、3D SPI已實(shí)現(xiàn)批量銷(xiāo)售和進(jìn)口替代,獲得諸如和碩集
    的頭像 發(fā)表于 10-09 09:54 ?2291次閱讀

    3D視覺(jué)相機(jī)板材瑕疵檢測(cè)(窄)說(shuō)明

    3D?視覺(jué)相機(jī)現(xiàn)在支持混合多傳感器網(wǎng)絡(luò),允許用戶(hù)混合和匹配同系列的3D視覺(jué)傳感器。以?huà)呙枘景鍨槔?,其中一半的檢查需要精細(xì)的特征測(cè)量,而另一半則需要的FOV。結(jié)合多個(gè)激光線(xiàn)輪廓儀的?
    發(fā)表于 04-22 15:47 ?2182次閱讀
    <b class='flag-5'>3D</b>視覺(jué)相機(jī)板材瑕疵<b class='flag-5'>檢測(cè)</b>(窄)說(shuō)明

    為什么要選擇3D機(jī)器視覺(jué)檢測(cè)

    檢測(cè)在日常生活中的重要性不言而喻,并且顯示出巨大的市場(chǎng)潛力,催生了基于3D機(jī)器視覺(jué)檢測(cè)的儀器,旨在解決檢測(cè)過(guò)程中遇到的各種棘手問(wèn)題。細(xì)心的客戶(hù)會(huì)重點(diǎn)探究機(jī)器視覺(jué)
    的頭像 發(fā)表于 12-26 17:23 ?851次閱讀

    電柜3D布局需要滿(mǎn)足哪些條件?

    介紹做電柜3D布局需要滿(mǎn)足的先提條件。 電氣部件要關(guān)聯(lián)有相應(yīng)的3D宏 使用stp格式文件,制作成3D宏,在部件中需要關(guān)聯(lián)。
    發(fā)表于 10-19 10:47 ?369次閱讀
    電柜<b class='flag-5'>3D</b>布局<b class='flag-5'>需要</b>滿(mǎn)足哪些條件?

    如何搞定自動(dòng)駕駛3D目標(biāo)檢測(cè)!

    可用于自動(dòng)駕駛場(chǎng)景下基于圖像的3D目標(biāo)檢測(cè)的數(shù)據(jù)集總結(jié)。其中一些數(shù)據(jù)集包括多個(gè)任務(wù),這里只報(bào)告了3D檢測(cè)基準(zhǔn)(例如KITTI 3D發(fā)布了超過(guò)
    發(fā)表于 01-05 10:43 ?534次閱讀
    如何搞定自動(dòng)駕駛<b class='flag-5'>3D</b>目標(biāo)<b class='flag-5'>檢測(cè)</b>!