0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于圖卷積的層級圖網(wǎng)絡(luò)用于基于點云的3D目標檢測

454398 ? 來源:學術(shù)頭條 ? 作者:徐家興 ? 2021-06-21 12:15 ? 次閱讀

論文:A Hierarchical Graph Network for 3D Object Detection on Point Clouds

由于大多數(shù)現(xiàn)有的點云對象檢測方法不能充分適應點云的特征(例如稀疏性),所以一些關(guān)鍵的語義信息(如物體形狀)不能被很好的捕捉到。本文提出了一種基于層級圖網(wǎng)絡(luò)(HGNet)的圖卷積(GConv),可以直接將點云作為輸入來預測 3D 的邊界框。形狀注意圖卷積(SA-GConv)可以通過劍魔點的位置星系來描述物體形狀,基于 SA-GConv 的 U 形網(wǎng)絡(luò)可以通過改進的 voting 模塊獲取多層級的特征進而生成候選,然后一個基于圖卷積的候選推理模塊考慮全局的場景語義來對邊界框進行預測。該框架在兩個大規(guī)模點云數(shù)據(jù)上的表現(xiàn)超過了目前最先進的模型。

論文背景

由于點云的稀疏性,一些已有的為網(wǎng)格形式數(shù)據(jù)設(shè)計的方法(如 CNN)在點云上的表現(xiàn)并不好,為解決這一問題,最近有一些對點云數(shù)據(jù)的方法被提出,例如基于投影的方法、基于體卷積的方法和基于 PointNet 的方法。前兩種試圖將點云數(shù)據(jù)嚴格轉(zhuǎn)換為網(wǎng)格結(jié)構(gòu)數(shù)據(jù),而后一種則在不明確考慮點的幾何位置的情況下聚合特征。

其他方法相比,PointNet++ 可以保留點的稀疏特點,因此被廣泛作為框架的骨架。當目前仍有一些未能很好解決的挑戰(zhàn),首先由于沒有考慮點的相對幾何位置,因此使用 PointNet++ 作為主干忽略了一些局部形狀信息。其次,框架的結(jié)構(gòu)沒有充分利用多級語義,這可能會忽略一些有助于目標檢測的信息。

本文提出了一個基于圖卷積(GCONV)的層級圖網(wǎng)絡(luò)(HGNet)用于基于點云的 3D 目標檢測。HGNet 包含三部分:一個基于圖卷積的 U 形網(wǎng)絡(luò)(GUnet)、一個候選生成器以及一個候選推理模塊(ProRe Module)?;趯蛹増D網(wǎng)絡(luò)(HGNet)的圖卷積

整個 HGNet 以端到端的方式進行培訓。在本文的框架中,點云的局部形狀信息、多級語義和全局場景信息(候選的特征)已被層級圖模型充分捕獲、聚合和合并,充分考慮了點云數(shù)據(jù)的特征。

本文的主要貢獻如下:

(A)開發(fā)了一種新的層級圖網(wǎng)絡(luò)(HGNet),用于在點云上進行 3D 對象檢測,其表現(xiàn)好于已有方法。

(B)提出了一種新穎的 SA-(De)GConv,它可以有效地聚合特征并捕獲點云中對象的形狀信息。

(C)構(gòu)建了一個新的 GU-net,用于生成多級特征,這對于 3D 對象檢測至關(guān)重要。

(D)利用全局信息,ProRe 模塊通過對候選進行推理來提高效果。

論文模型

pIYBAF-cV8yALlh9AAKzXXorTzM753.jpg

融合采樣

3D 目標檢測有基于點和基于體素兩種框架,前者更加耗時,由候選生成與預測細化兩個階段組成。

在第一個階段,SA 用于降采樣以獲得更高的效率以及擴大感受野,F(xiàn)P 用來為降采樣過程中丟掉的點傳播特征。在第二階段,一個優(yōu)化模塊最優(yōu)化 RPN 的結(jié)果以獲得更準確的預測。SA 對于提取點的特征是必需的。但 FP 和優(yōu)化模塊會限制效率。

形狀注意圖卷積

點云通常不能清楚地表示出物體的形狀,可以使用其相鄰點的相對幾何位置來描述點周圍的局部形狀。本文介紹了一種新穎的形狀注意圖卷積,它通過對點的幾何位置建模來捕獲對象形狀。

對于一個點集 X,其中每一個點由其集合位置 p_i 以及 D 維的特征 f_i 組成,我們想要生成一個 X’,本文設(shè)計了圖卷積用于聚合從 X 到 X’ 的特征。與 PointNet++的采樣層相類似,本文首先從 n 個點中采樣 n’ 個點,通常 K 最近鄰(KNN)被用來在采樣中保留局部信息將其作為中心點特征。

pIYBAF-cV86ABApMAAA25BZLxR8713.jpg

其中 g 表示 i 和 j 的相對位置,通過一個卷積將三維變?yōu)橐痪S,f 是 mlp,然后二者的乘積就是中心點的 knn,其中最大的作為 i 的特征。形狀注意操作不同于簡單的基于 mlp 的操作主要就是因為這個 g 函數(shù)。雖然形式上沒有 attention 中的 softmax 這樣的歸一化,但是 g 的輸出就和 attention 一樣,每個點的 weights,然后對應的乘以特征。

o4YBAF-cV9iAADYDAAfuw2ITQns343.jpg

GU-net

本文設(shè)計了一個下采樣模塊,并將其重復堆疊 4 次以形成下采樣路徑,而將一個上采樣模塊重復堆疊兩次以構(gòu)成上采樣方式。類似 FPN、GU-net 生成三張點特征圖的特征金字塔。下采樣使用的是 FPS,然后通過 KNN 構(gòu)建局部區(qū)域,再使用 SA-GConv 更新特征,上采樣模塊的過程與下采樣模塊的過程相反,主要由 SA-GConv 執(zhí)行。

pIYBAF-cV96AZ4YhAAVmh5c6fG8299.jpg

候選生成器

GU-net 生成了包含多級語義的三張點特征圖。一些先前的方法(如 VoteNet)僅使用一個特征圖進行目標預測。即使通過在上采樣過程中融合較低層的特征來計算較高層的特征,由于不同層的特征提供了各種語義,因此將多層特征一起用于候選生成會更加有益。本文提出了一種候選生成器,以改進的投票模塊作為主要結(jié)構(gòu)來預測對象中心,該模型將多級特征轉(zhuǎn)換為相同的特征空間。接下來為了聚合特征,通過 FPS 保留 Np 的投票,該做法與 VoteNet 類似,從而融合多級特征以預測邊界框及其類別。

候選推理模塊

通過以上幾步,多層局部的語義信息已經(jīng)被很好的捕捉到了,但全局信息還沒有很好的學到,或者說可能有些目標在點云中只體現(xiàn)出很小的一部分表面的點,在這樣少的信息下很難正確的將其識別出來。其推理過程為:

o4YBAF-cV-CABjbfAAAyyHHn4tE694.jpg

其中 Hp 表示候選特征 tensor,P 表示候選的相對位置

論文實驗

本文在 SUN RGB-D 和 ScanNet-V2 兩個數(shù)據(jù)集上進行了實驗。

pIYBAF-cV-SAecV-AAIQCbTGyOM690.jpg

o4YBAF-cV-mAODbPAAM3xD0AqUY930.jpg

此外,本文還進行了消融實驗以證明各模快的有效性。

o4YBAF-cV-6ALsTCAAKeSQs30fg144.jpg

結(jié)論

本文提出了一種新穎的 HGNet 框架,該框架通過層級圖建模學習語義。

具體來說,作者提出了一種新穎且輕巧的形狀注意圖卷積來捕獲局部形狀語義,該語義聚合了點的相對幾何位置的特征。基于 SA-GConv 和 SA-DeGConv 構(gòu)建了 GU-net,生成了包含多級語義的特征金字塔。要素金字塔投票的點將位于相應的對象中心,并且進一步聚合多級語義以生成候選。然后使用 ProRe 模塊在候選之間合并和傳播特征,從而利用全局場景語義來提高檢測性能。最后,對邊界框和類別進行了預測。

編輯:hfy


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏

    評論

    相關(guān)推薦

    卷積神經(jīng)網(wǎng)絡(luò)共包括哪些層級

    卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)是一種深度學習模型,廣泛應用于圖像識別、語音識別、自然語言處理等領(lǐng)域。它以卷積層為核心,通過多層
    的頭像 發(fā)表于 07-11 15:58 ?704次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)分類方法有哪些

    卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是一種深度學習模型,廣泛應用于圖像分類、目標檢測、語義分割
    的頭像 發(fā)表于 07-03 09:40 ?369次閱讀

    cnn卷積神經(jīng)網(wǎng)絡(luò)分類有哪些

    卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種深度學習模型,廣泛應用于圖像分類、目標檢測、語義分割等領(lǐng)域。本文將詳細介紹CNN在分類任務(wù)中的應用,包括基本結(jié)構(gòu)
    的頭像 發(fā)表于 07-03 09:28 ?442次閱讀

    蘇州吳中區(qū)多色PCB板元器件3D視覺檢測技術(shù)

    3D視覺檢測相較于2D視覺檢測,有其獨特的優(yōu)勢,不受產(chǎn)品表面對比度影響,精確檢出產(chǎn)品形狀,可以測出高度(厚度)、體積、平整度等。在實際應用中可以與2
    的頭像 發(fā)表于 06-14 15:02 ?341次閱讀
    蘇州吳中區(qū)多色PCB板元器件<b class='flag-5'>3D</b>視覺<b class='flag-5'>檢測</b>技術(shù)

    機器人3D視覺引導系統(tǒng)框架介紹

    通過自主開發(fā)的3D掃描儀可獲準確并且快速地獲取場景的云圖像,通過3D識別算法,可實現(xiàn)在對云圖中的多種目標物體進行識別和位姿估計。
    發(fā)表于 04-29 09:31 ?298次閱讀
    機器人<b class='flag-5'>3D</b>視覺引導系統(tǒng)框架介紹

    Nullmax提出多相機3D目標檢測新方法QAF2D

    今天上午,計算機視覺領(lǐng)域頂會CVPR公布了最終的論文接收結(jié)果,Nullmax感知部門的3D目標檢測研究《Enhancing 3D Object Detection with 2
    的頭像 發(fā)表于 02-27 16:38 ?1051次閱讀
    Nullmax提出多相機<b class='flag-5'>3D</b><b class='flag-5'>目標</b><b class='flag-5'>檢測</b>新方法QAF2<b class='flag-5'>D</b>

    基于深度學習的方法在處理3D進行缺陷分類應用

    背景部分介紹了3D應用領(lǐng)域中公開可訪問的數(shù)據(jù)集的重要性,這些數(shù)據(jù)集對于分析和比較各種模型至關(guān)重要。研究人員專門設(shè)計了各種數(shù)據(jù)集,包括用于3D
    的頭像 發(fā)表于 02-22 16:16 ?963次閱讀
    基于深度學習的方法在處理<b class='flag-5'>3D</b><b class='flag-5'>點</b><b class='flag-5'>云</b>進行缺陷分類應用

    標注神器!AAAI&apos;24最新:第一個交互式3D目標檢測器!

    考慮到3D的稀疏性質(zhì),iDet3D設(shè)計了負點擊模擬 (NCS),通過減少誤報預測來提高準確性。還結(jié)合了兩種點擊傳播技術(shù)來充分利用用戶交互:(1) 密集點擊引導 (DCG),
    的頭像 發(fā)表于 01-16 16:08 ?504次閱讀
    標注神器!AAAI&apos;24最新:第一個交互式<b class='flag-5'>3D</b><b class='flag-5'>目標</b><b class='flag-5'>檢測</b>器!

    友思特C系列3D相機:實時3D云圖像

    3D相機
    虹科光電
    發(fā)布于 :2024年01月10日 17:39:25

    讓協(xié)作更便捷,3D工業(yè)相機獲UR+認證

    本次獲得UR+認證的3D機器視覺硬件產(chǎn)品主要為適用于手眼協(xié)同的小型化3D工業(yè)相機PS及FS系列,緊湊輕巧,高精度大視野,可實時采集三維空間
    的頭像 發(fā)表于 01-05 17:18 ?935次閱讀
    讓協(xié)作更便捷,<b class='flag-5'>圖</b>漾<b class='flag-5'>3D</b>工業(yè)相機獲UR+認證

    如何搞定自動駕駛3D目標檢測!

    用于自動駕駛場景下基于圖像的3D目標檢測的數(shù)據(jù)集總結(jié)。其中一些數(shù)據(jù)集包括多個任務(wù),這里只報告了3D檢測
    發(fā)表于 01-05 10:43 ?541次閱讀
    如何搞定自動駕駛<b class='flag-5'>3D</b><b class='flag-5'>目標</b><b class='flag-5'>檢測</b>!

    兩種應用于3D對象檢測深度學習方法

    是標準 RGB 圖像與其關(guān)聯(lián)的“深度”的組合,目前由 Kinect 或英特爾實感技術(shù)使用。3D 數(shù)據(jù)可以對傳感器周圍環(huán)境進行豐富的空間表示,并可應用于機器人、智能家居設(shè)備、無人駕駛汽車或醫(yī)學成像。
    的頭像 發(fā)表于 01-03 10:32 ?870次閱讀
    兩種應<b class='flag-5'>用于</b><b class='flag-5'>3D</b>對象<b class='flag-5'>檢測</b>的<b class='flag-5'>點</b><b class='flag-5'>云</b>深度學習方法

    基于3D的多任務(wù)模型在板端實現(xiàn)高效部署

    對于自動駕駛應用來說,3D 場景感知至關(guān)重要。3D數(shù)據(jù)就是具有3D特征的數(shù)據(jù)。一方面,3D
    的頭像 發(fā)表于 12-28 16:35 ?1341次閱讀
    基于<b class='flag-5'>3D</b><b class='flag-5'>點</b><b class='flag-5'>云</b>的多任務(wù)模型在板端實現(xiàn)高效部署

    倍加福全新3D視覺傳感器的工作原理和典型應用

    ??????無論是物流應用中叉車目標物的智能識別,還是車輛可靠的抬升移動,為了對目標物體實現(xiàn)更細致的檢測,3D圖像處理系統(tǒng)被日益廣泛使用。人們對于靈活識別、完整性、位置和體積等
    的頭像 發(fā)表于 12-08 14:37 ?1114次閱讀
    倍加福全新<b class='flag-5'>3D</b>視覺傳感器的工作原理和典型應用

    基于深度學習的3D實例分割方法

    3D實例分割(3DIS)是3D領(lǐng)域深度學習的核心問題。給定由云表示的 3D 場景,我們尋求為每個
    發(fā)表于 11-13 10:34 ?2110次閱讀
    基于深度學習的<b class='flag-5'>3D</b><b class='flag-5'>點</b><b class='flag-5'>云</b>實例分割方法