0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

LinK:用線性核實(shí)現(xiàn)3D激光雷達(dá)感知任務(wù)中的large kernel

CVer ? 來(lái)源:CVer ? 2023-05-31 14:41 ? 次閱讀

【CVPR 2023】LinK:用線性核實(shí)現(xiàn)3D激光雷達(dá)感知任務(wù)中的large kernel

本文介紹我們媒體計(jì)算研究組(MCG)在3D激光雷達(dá)感知領(lǐng)域提出的新型網(wǎng)絡(luò)設(shè)計(jì)。針對(duì)點(diǎn)云數(shù)據(jù)的稀疏性,使用線性核(LinK)來(lái)擴(kuò)大模型的有效感受野,提升3D檢測(cè)、分割等任務(wù)的性能。

6d227078-ff52-11ed-90ce-dac502259ad0.png

LinK: Linear Kernel for LiDAR-based 3D Perception

論文鏈接:https://arxiv.org/abs/2303.16094

代碼鏈接:https://github.com/MCG-NJU/LinK

研究動(dòng)機(jī)

在2D計(jì)算機(jī)視覺(jué)任務(wù)中,更大的感受野使得模型在語(yǔ)義分割、目標(biāo)檢測(cè)等下游任務(wù)上的性能獲得顯著的提升。此前,一些方法(RepLKNet[1]等)探究了2D圖像處理領(lǐng)域中使用更大的卷積核來(lái)獲得更大范圍的感知能力。

由于3D數(shù)據(jù)模態(tài)的稀疏性,將大卷積核的設(shè)計(jì)引入3D存在兩方面的障礙。一是效率問(wèn)題:3D任務(wù)中,開(kāi)銷(xiāo)隨尺寸立方增長(zhǎng),若將卷積核大小從3×3×3簡(jiǎn)單地?cái)U(kuò)張到7×7×7,模型大小會(huì)是原來(lái)的10倍,擴(kuò)展到21×21×21則會(huì)變?yōu)?43倍。另一方面是優(yōu)化問(wèn)題:由于點(diǎn)云在空間中分布較為稀疏,如果卷積核的每個(gè)位置都被賦予一定的權(quán)重,那么3D數(shù)據(jù)的稀疏性會(huì)導(dǎo)致大量空閑位置的權(quán)重在網(wǎng)絡(luò)迭代中并沒(méi)有參與更新,導(dǎo)致參數(shù)更新緩慢。此前有人嘗試使用局部塊內(nèi)元素共享參數(shù)的方式來(lái)緩解這兩個(gè)問(wèn)題,提出了大小為7×7×7的空間共享權(quán)重卷積核(LargeKernel3D[2])。該設(shè)計(jì)成功地在3D語(yǔ)義分割和目標(biāo)檢測(cè)任務(wù)上提升了小卷積核的性能,但感受野的擴(kuò)張幅度仍然有限。

為了解決這些問(wèn)題,我們提出線性核LinK,以類卷積的方式實(shí)現(xiàn)更大的感知范圍。該方法有兩處核心設(shè)計(jì):一是用線性核生成器替換靜態(tài)的卷積權(quán)重,僅為非空區(qū)域的點(diǎn)云提供權(quán)重。同時(shí),該模塊是逐層共享的,避免了稀疏分布的權(quán)重在某次迭代中沒(méi)有被優(yōu)化的情況,改善了優(yōu)化問(wèn)題。二是在不同滑動(dòng)窗口的重疊區(qū)域復(fù)用預(yù)先計(jì)算的聚合結(jié)果,使整體計(jì)算復(fù)雜度進(jìn)一步降低,甚至最終計(jì)算量為常量,與實(shí)際感受范圍無(wú)關(guān)。換句話說(shuō),我們可以基于LinK以一致的開(kāi)銷(xiāo)實(shí)現(xiàn)任意大小的線性核。

我們的方法

核生成器

前文中討論了大卷積核下稀疏卷積的兩大缺陷:開(kāi)銷(xiāo)大以及優(yōu)化困難。我們首先采用神經(jīng)網(wǎng)絡(luò)模塊 來(lái)在線生成權(quán)重,取代靜態(tài)卷積核 ,使得網(wǎng)絡(luò)參數(shù)量與不隨卷積核尺寸增長(zhǎng)而增長(zhǎng),與之前方法對(duì)比如下:

6d3015ca-ff52-11ed-90ce-dac502259ad0.png

線性核生成器解決了參數(shù)量增長(zhǎng)的問(wèn)題,然后,并沒(méi)有解決計(jì)算量的問(wèn)題。于是我們考慮,能否將不同卷積窗口的重疊區(qū)域的特征聚合結(jié)果進(jìn)行復(fù)用,這樣有可能降低計(jì)算量。

為此,我們以一個(gè)toy case為例。假設(shè)兩個(gè)相鄰窗口中的元素集合分別為

其中每個(gè)元素表示一個(gè)體素。這兩個(gè)窗口的重疊區(qū)域?yàn)?/p>

我們分別將 中的元素特征聚合到 和 ,聚合過(guò)程為

可以發(fā)現(xiàn),每個(gè)重疊區(qū)域中的元素對(duì) 和 采用不同的local offset來(lái)獲得權(quán)重。因此,基于local offset的方式難以復(fù)用重疊區(qū)域的聚合結(jié)果,如下圖所示:

6d3f00f8-ff52-11ed-90ce-dac502259ad0.png

基于global coordinate的預(yù)聚合

為了解決這個(gè)問(wèn)題,考慮到每個(gè)位置的global coordinate是唯一的,我們提出,將local offset拆分為global coordinate的組合。對(duì)于區(qū)域 ,我們使用如下公式計(jì)算這三個(gè)元素的預(yù)聚合結(jié)果:

也是kernel generator。然后,若要得到 在區(qū)域 上的聚合特征,我們用如下方式生成基于local offset的結(jié)果:

這樣,不管有多少個(gè)元素要來(lái)復(fù)用區(qū)域 上的聚合特征,都不需要再重新計(jì)算 。

那么問(wèn)題來(lái)了,上式成立的前提是

為了使其成立,我們參考APP-Net[3],使用線性映射 來(lái)實(shí)現(xiàn) 和 。我們將這過(guò)程稱為線性核生成器,也即LinK方法名字的由來(lái)(Linear Kernel Generator)。這兩個(gè)函數(shù)可以用三角函數(shù)、指數(shù)函數(shù)等不同的形式進(jìn)行激活,正文中主要采用了余弦函數(shù)的方式。此時(shí)兩個(gè)窗口A、B的聚合過(guò)程如下圖所示:

6d687ee2-ff52-11ed-90ce-dac502259ad0.png

基于LinK的類卷積核設(shè)計(jì)

基于上述設(shè)計(jì),我們將整體點(diǎn)云劃分為不重疊的塊,每個(gè)塊的大小為 ,對(duì)每個(gè)塊進(jìn)行特征預(yù)聚合。為每個(gè)塊查詢其周?chē)?個(gè)近鄰塊,生成一個(gè)感受范圍為 的大塊的預(yù)聚合特征 。對(duì) 使用上述合成local offset的操作,即可為每個(gè)聚合中心算得最終的特征。這部分的具體公式可見(jiàn)論文原文。在實(shí)驗(yàn)中,設(shè) ,即可得到 21×21×21 的感知范圍。整體過(guò)程如下圖所示:

6d728ff4-ff52-11ed-90ce-dac502259ad0.png

網(wǎng)絡(luò)結(jié)構(gòu)

LinK模塊結(jié)構(gòu)

LinK模塊由兩個(gè)分支組成:一個(gè)分支為使用線性投影+三角核函數(shù)實(shí)現(xiàn)的大核分支,另一分支為 3×3×3 的稀疏卷積小核旁路,結(jié)構(gòu)圖如下所示。

6d7cf2b4-ff52-11ed-90ce-dac502259ad0.png

下游任務(wù)應(yīng)用

應(yīng)用到下游任務(wù)(檢測(cè)和分割)中時(shí),我們分別選取CenterPoint和MinkUnet作為基礎(chǔ)架構(gòu),并使用基于LinK的backbone替代了原本基于稀疏卷積實(shí)現(xiàn)的backbone,保留了原始的檢測(cè)頭和分割頭不變,具體結(jié)構(gòu)如下圖所示。

6d87e674-ff52-11ed-90ce-dac502259ad0.png

實(shí)驗(yàn)

我們?cè)趎uScenes上評(píng)估了目標(biāo)檢測(cè)的結(jié)果,在SemanticKITTI上評(píng)估了語(yǔ)義分割的結(jié)果。結(jié)果分別如下所示:

nuScenes

6d921ca2-ff52-11ed-90ce-dac502259ad0.png

截止論文發(fā)表,我們的方法在nuScenes數(shù)據(jù)集上取得了SOTA(73.4 NDS)。得益于超大的感受野,與baseline CenterPoint相比,我們的方法在大尺寸的物體(例如bus、con-veh等)上提升顯著。

SemanticKITTI

6d9c911e-ff52-11ed-90ce-dac502259ad0.png

在SemanticKITTI上,我們的方法相較baseline MinkUNet獲得了2.7 mIoU的提升。更多可視化分析見(jiàn)原始論文。

總結(jié)

在本文中,我們提出了一個(gè)線性核生成器LinK,能夠以不變的計(jì)算量任意擴(kuò)大模型感受野,大幅提升現(xiàn)有模型在下游任務(wù)(檢測(cè)、分割)上的性能。我們通過(guò)實(shí)驗(yàn)證明了LinK對(duì)下游任務(wù)性能提升的有效性與通用性。LinK在nuScenes(LiDAR only)上達(dá)到了SOTA性能,希望可以讓大家對(duì)大感受野的新方法以及其在3D感知任務(wù)上的應(yīng)用有更多關(guān)注。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Link
    +關(guān)注

    關(guān)注

    0

    文章

    101

    瀏覽量

    26906
  • 生成器
    +關(guān)注

    關(guān)注

    7

    文章

    313

    瀏覽量

    20958
  • 激光雷達(dá)
    +關(guān)注

    關(guān)注

    967

    文章

    3929

    瀏覽量

    189470

原文標(biāo)題:LinK: Linear Kernel for LiDAR-based 3D Perception

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    常見(jiàn)激光雷達(dá)種類

    。單線激光主要用于規(guī)避障礙物,由于單線激光雷達(dá)比多線和3D激光雷達(dá)在角頻率和靈敏度反映更加快捷,所以,在測(cè)試周?chē)系K物的距離和精度上都更加精確。但是,單線
    發(fā)表于 09-25 11:30

    激光雷達(dá)究竟為什么這么牛,這么貴

    激光雷達(dá)為什么這么牛?因?yàn)?b class='flag-5'>激光雷達(dá)能夠幫助車(chē)輛識(shí)別周?chē)沫h(huán)境信息,更好的運(yùn)行車(chē)輛。激光雷達(dá)在無(wú)人駕駛的兩個(gè)核心作用:1.3D建模進(jìn)行環(huán)境感知
    發(fā)表于 10-16 16:31

    固態(tài)設(shè)計(jì)激光雷達(dá)

    圍繞LR30進(jìn)行感知環(huán)境,精確建圖和定位導(dǎo)航的功能研發(fā),以實(shí)現(xiàn)低速自動(dòng)駕駛輔助和封閉園區(qū)自動(dòng)駕駛。二、已量產(chǎn)的固態(tài)激光雷達(dá)CE30-D當(dāng)其他公司展位擺放著《樣品預(yù)約測(cè)試表》的時(shí)候,北醒
    發(fā)表于 01-25 09:41

    激光雷達(dá)除了可以激光測(cè)距外,還可以怎么應(yīng)用?

    運(yùn)用紅外激光設(shè)備把紅外線投影到屏幕上。當(dāng)屏幕被阻擋時(shí),紅外線便會(huì)反射,而屏幕下的攝影機(jī)則會(huì)捕捉反射去向,再經(jīng)系統(tǒng)分析,便可作出反應(yīng)。 激光雷達(dá)應(yīng)用之 3D建模與環(huán)境掃描RPLIDAR 3D
    發(fā)表于 05-11 15:33

    5 款激光雷達(dá):iDAR、高清3D LiDARInnovizPro、S3、SLAM on Chip、VLS-128

    ,我們的任務(wù)就是要推動(dòng)自動(dòng)駕駛汽車(chē)大規(guī)模商用,現(xiàn)在我們離實(shí)現(xiàn)這一目標(biāo)越來(lái)越近了。”Innoviz 公司發(fā)言人在一份聲明說(shuō)道。S3(Quanergy)Quanergy S
    發(fā)表于 07-26 20:45

    讓機(jī)器人在陌生環(huán)境里穿梭自如的激光雷達(dá)

    `這輛汽車(chē)對(duì)于科技愛(ài)好者絕不陌生,這就是谷歌研發(fā)的無(wú)人駕駛汽車(chē)。在行駛過(guò)程,無(wú)人車(chē)需要感知周?chē)h(huán)境,但無(wú)法像人一樣眼睛完成,這一切就要依靠車(chē)頂安裝的激光雷達(dá)。該裝置可檢測(cè)周?chē)系K物
    發(fā)表于 09-10 16:32

    除了機(jī)器人行業(yè),激光雷達(dá)還能應(yīng)用于哪些領(lǐng)域?

    器人在房間里實(shí)現(xiàn)智能清掃,清掃的過(guò)程繪制地圖,實(shí)時(shí)傳輸?shù)绞謾C(jī)APP,就算用戶不在家,也可以通過(guò)手機(jī)APP查看清掃情況,以及安排其他地方清掃。 無(wú)人車(chē)領(lǐng)域——自主感知道路環(huán)境及規(guī)劃路線在無(wú)人車(chē)領(lǐng)域,
    發(fā)表于 12-10 14:55

    自制低成本3d激光掃描測(cè)距儀激光雷達(dá)

    自制低成本3d激光掃描測(cè)距儀激光雷達(dá)
    發(fā)表于 05-27 16:23

    激光雷達(dá)知多少:從技術(shù)上講講未來(lái)前景

    ,其云底高度的測(cè)量范圍可達(dá)7500m。 按線數(shù)分類: 單線激光雷達(dá) 單線激光雷達(dá)主要用于規(guī)避障礙物,其掃描速度快、分辨率強(qiáng)、可靠性高。由于單線激光雷達(dá)比多線和3D
    發(fā)表于 07-14 07:56

    自制低成本3D激光掃描測(cè)距儀(3D激光雷達(dá))

    自制低成本3D激光掃描測(cè)距儀(3D激光雷達(dá))
    發(fā)表于 03-04 10:51

    由iphone12說(shuō)說(shuō)激光雷達(dá) FMCW激光雷達(dá) 精選資料分享

    。另一個(gè)就是比較火的AR(增強(qiáng)現(xiàn)實(shí) ),通過(guò)LIDAR能夠測(cè)出這個(gè)現(xiàn)實(shí)物體的大小尺寸,進(jìn)而能夠很好的3D建模,當(dāng)然待開(kāi)發(fā)的應(yīng)用還有很多很多,畢竟相當(dāng)于賦予了手機(jī)一雙人的眼睛。主要說(shuō)一下這個(gè)激光雷達(dá)
    發(fā)表于 07-22 09:12

    3D激光雷達(dá)的現(xiàn)在和未來(lái)

    近年來(lái),激光雷達(dá)市場(chǎng)非?;钴S,一些參與者在推出汽車(chē)級(jí)3D激光雷達(dá)傳感器模塊產(chǎn)品方面取得了出色的進(jìn)展。
    的頭像 發(fā)表于 03-23 16:19 ?8709次閱讀

    3D激光雷達(dá)和相機(jī)校準(zhǔn)是如何考慮傳感器之間誤差的?

    作者:Raphael Voges and Bernardo Wagner 來(lái)源:IROS 2020 大家好,今天為大家?guī)?lái)的文章是—— 集員法對(duì)3D激光雷達(dá)和相機(jī)的外部校準(zhǔn)
    的頭像 發(fā)表于 05-26 09:15 ?5020次閱讀
    <b class='flag-5'>3D</b><b class='flag-5'>激光雷達(dá)</b>和相機(jī)校準(zhǔn)是如何考慮傳感器之間誤差的?

    3D Flash 激光雷達(dá)測(cè)繪和手勢(shì)識(shí)別

    3D Flash 激光雷達(dá)測(cè)繪和手勢(shì)識(shí)別
    的頭像 發(fā)表于 01-05 09:43 ?1375次閱讀

    激光雷達(dá)與視覺(jué)感知的優(yōu)劣對(duì)比

    3D激光雷達(dá)在無(wú)人駕駛車(chē)輛的定位、路徑規(guī)劃、決策、感知等方面有著重要的作用。2022-2025年之間預(yù)計(jì)絕大部分的主機(jī)廠會(huì)量產(chǎn)上激光雷達(dá),從國(guó)際上看,沃爾沃和Luminar宣布量產(chǎn),國(guó)
    發(fā)表于 10-30 18:14 ?497次閱讀
    <b class='flag-5'>激光雷達(dá)</b>與視覺(jué)<b class='flag-5'>感知</b>的優(yōu)劣對(duì)比