0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

首個無監(jiān)督3D點云物體實例分割算法

CVer ? 來源:CVer ? 作者:CVer ? 2022-11-09 15:15 ? 次閱讀

在物體部件分割和室內(nèi)、室外物體分割任務(wù)上的效果圖(無需任何人工標(biāo)注):

f6cf184e-5f7f-11ed-8abf-dac502259ad0.gif

1. Introduction

三維點云物體分割是三維場景理解的關(guān)鍵問題之一,也是自動駕駛、智能機器人等應(yīng)用的基礎(chǔ)。然而,目前的主流方法都是基于監(jiān)督學(xué)習(xí),需要大量人工標(biāo)注的數(shù)據(jù),而對點云數(shù)據(jù)進(jìn)行人工標(biāo)注是十分耗費時間和人力的。

2. Motivation

本文旨在尋求一種無監(jiān)督的3D物體分割方法。我們發(fā)現(xiàn),運動信息有望幫助我們實現(xiàn)這一目標(biāo)。如下圖1所示,在左圖中的藍(lán)色/橙色圓圈內(nèi),一輛汽車上的所有點一起向前運動,而場景中其他的點則保持靜止。那么理論上,我們可以基于每個點的運動,將場景中屬于汽車的點和其他點分割開,實現(xiàn)右圖中的效果。

f9ec989e-5f7f-11ed-8abf-dac502259ad0.png

Figure 1. 利用運動信息分割物體的motivation

利用運動信息分割3D物體的想法已經(jīng)在一些現(xiàn)有的工作中得到了探索。例如,[1] 和 [2] 利用傳統(tǒng)的稀疏子空間聚類的方法從點云序列中分割運動的物體;SLIM [3] 提出了第一個基于學(xué)習(xí)的方法來分割運動的前景和靜止的背景。然而,現(xiàn)有的方法都在以下的一個或多個方面存在局限性:

1)只適用于特定場景,不具備通用性;

2)只能實現(xiàn)運動的前景和靜止的背景之間的二類分割,無法進(jìn)一步區(qū)分前景中的多個物體;

3)(幾乎所有的現(xiàn)有方法都存在的局限)必須要多幀的點云序列作為輸入,而且只能分割出其中在運動的物體。但是理論上,我們利用運動信息學(xué)會辨別某些物體之后,當(dāng)這些物體以靜止的狀態(tài)出現(xiàn)在單幀點云中,我們應(yīng)該依然能辨別它們。

針對上述問題,我們希望設(shè)計一種通用的、能分割多個物體的無監(jiān)督3D物體分割方法:這種方法在完全無標(biāo)注的點云序列上進(jìn)行訓(xùn)練,從運動信息中學(xué)習(xí)3D物體分割;經(jīng)過訓(xùn)練后,能夠直接在單幀點云上進(jìn)行物體分割。為此,本文提出了無監(jiān)督的3D物體分割方法OGC (Object Geometry Consistency)。本文的主要貢獻(xiàn)包括以下三點:

1)我們提出了第一個通用的無監(jiān)督3D物體分割框架OGC,訓(xùn)練過程中無需任何人工標(biāo)注,從點云序列包含的運動信息中學(xué)習(xí);經(jīng)過訓(xùn)練后能直接在單幀點云上進(jìn)行物體分割。

2)作為OGC框架的核心,我們以物體在運動中保持幾何形狀一致作為約束條件,設(shè)計了一組損失函數(shù),能夠有效地利用運動信息為物體分割提供監(jiān)督信號。

3)我們在物體部件分割和室內(nèi)、室外物體分割任務(wù)上都取得了非常好的效果。

3. Method

3.1 Overview

如下圖2所示,我們的框架包括三個部分:

1)一個物體分割網(wǎng)絡(luò)(橙色部分),從單幀點云估計物體分割mask;

2)一個自監(jiān)督的場景流估計網(wǎng)絡(luò)(綠色部分),估計兩幀點云之間的運動(場景流);

3)一組損失函數(shù)(藍(lán)色部分),利用2)估計出的運動為1)輸出的物體分割mask提供監(jiān)督信號。

在訓(xùn)練過程中,需要三個部分聯(lián)合工作;在訓(xùn)練后,只需保留1)的物體分割網(wǎng)絡(luò),即可用于分割單幀點云。

fa348ee2-5f7f-11ed-8abf-dac502259ad0.png

Figure 2 OGC示意圖

對于OGC框架中的物體分割網(wǎng)絡(luò)和場景流估計網(wǎng)絡(luò),我們可以直接利用現(xiàn)有的網(wǎng)絡(luò)結(jié)構(gòu),如下圖3所示。具體來說:

1)物體分割網(wǎng)絡(luò):我們采用PointNet++ [4] 從輸入的單幀點云fa5ccda8-5f7f-11ed-8abf-dac502259ad0.png提取特征,然后用Transformer [5] 解碼器直接從提取的點云特征估計出所有物體的分割mask,表示為fa697558-5f7f-11ed-8abf-dac502259ad0.png。整個網(wǎng)絡(luò)結(jié)構(gòu)可以視作最近在2D圖像上非常成功的物體分割方法MaskFormer [6] 向3D點云的拓展。

2)場景流估計網(wǎng)絡(luò):我們直接采用了最近非常成功的FlowStep3D [5],接收兩幀點云fa75626e-5f7f-11ed-8abf-dac502259ad0.png作為輸入,估計fa7f66ce-5f7f-11ed-8abf-dac502259ad0.png中的點的運動(場景流)fa8df752-5f7f-11ed-8abf-dac502259ad0.png

fa99cea6-5f7f-11ed-8abf-dac502259ad0.png

Figure 3 OGC結(jié)構(gòu)圖

3.2 OGC Losses

OGC框架的關(guān)鍵,就在于如何利用運動信息為物體分割提供監(jiān)督信號。為此,我們設(shè)計了以下?lián)p失函數(shù):

1)Dynamic loss:現(xiàn)實世界中大部分物體的運動都可以用剛體變換來描述。因此在這項損失函數(shù)中,我們要求對每個估計出的物體分割mask,其中所包含的點的運動必須服從同一個剛體變換:

faaaefec-5f7f-11ed-8abf-dac502259ad0.png

上式中fab8feca-5f7f-11ed-8abf-dac502259ad0.png表示每個物體分割mask上擬合出的剛體變換。如果一個mask實際上包含了兩個運動方向不同的物體,這兩個物體上點的運動必然不可能服從同一個剛體變換。此時用這兩個物體上的點強行擬合出的剛體變換與這些點的實際運動并不一致,這個mask就會被損失函數(shù)懲罰??梢钥吹?,dynamic loss能幫助我們區(qū)分運動方向不同的物體。但是,如果實際上屬于同一個物體的點被分割成兩塊,即“過度分割”,dynamic loss并不能懲罰這種情況。

2)Smoothness loss:物體上的點在空間中一般都是連接在一起的,否則物體就會斷裂?;谶@一事實,我們提出了對物體分割mask的平滑性先驗,要求一個局部區(qū)域內(nèi)相互鄰近的點被分配到同一個物體:

fac9ec62-5f7f-11ed-8abf-dac502259ad0.png

上式中H表示某個點的領(lǐng)域內(nèi)包含的點的數(shù)量??梢钥吹絛ynamic loss和smoothness loss起到了相互對抗的效果:前者根據(jù)運動方向的不同將點區(qū)分開;后者則根據(jù)空間中的近鄰關(guān)系將鄰近的點聚合,以抵消潛在的“過度分割”問題。這兩項損失函數(shù)聯(lián)合起來,為分割場景中的運動物體提供了充足的監(jiān)督信號。

3)Invariance loss:我們希望將學(xué)習(xí)到的運動物體分割充分地泛化到外形相近的靜態(tài)物體。為此,我們要求物體分割網(wǎng)絡(luò)在面對處于不同位姿的同一物體時,能夠無差別地辨別(分割)該物體。具體來說,我們對同一場景施加兩個不同的空間變換(旋轉(zhuǎn),平移和縮放)fad95bac-5f7f-11ed-8abf-dac502259ad0.pngfae8e752-5f7f-11ed-8abf-dac502259ad0.png,使得場景中物體的位姿都發(fā)生變化,然后我們要求場景的分割結(jié)果保持不變:

faf5ebe6-5f7f-11ed-8abf-dac502259ad0.png

Invariance loss能有效地將從運動物體學(xué)習(xí)到的分割策略泛化到不同位姿的靜態(tài)物體。

3.3 Iterative Optimization

當(dāng)我們從運動信息中學(xué)會了分割物體,理論上我們可以用估計出的物體分割來提升對運動(場景流)的估計質(zhì)量,隨后從更準(zhǔn)確的運動信息中更好地學(xué)習(xí)分割物體。為實現(xiàn)這一目標(biāo),我們提出了如下圖4所示的“物體分割-運動估計”迭代優(yōu)化算法:初始階段,我們通過FlowStep3D網(wǎng)絡(luò)估計運動。在每一輪中,我們首先從當(dāng)前估計出的運動信息學(xué)習(xí)物體分割;隨后用我們的Object-aware ICP算法,基于估計出的物體分割來提升對運動的估計質(zhì)量,將改善后的運動估計送入下一輪。

fb096806-5f7f-11ed-8abf-dac502259ad0.png

Figure 4 “物體分割-運動估計”迭代優(yōu)化算法示意圖

在迭代過程中用到的Object-aware ICP算法,可以看作傳統(tǒng)的ICP算法向多物體場景的拓展,算法的具體細(xì)節(jié)可以參考原文附錄A.2。

4. Experiments

Evaluation on Synthetic Datasets

我們首先在SAPIEN數(shù)據(jù)集和我們在自己合成的OGC-DR / OGC-DRSV數(shù)據(jù)集上評估了OGC對物體部件分割和室內(nèi)物體分割任務(wù)的效果。從下面兩個表格可以看到,在高質(zhì)量的合成數(shù)據(jù)集上,OGC不僅領(lǐng)先于傳統(tǒng)的無監(jiān)督運動分割和聚類方法,還達(dá)到了接近甚至超越全監(jiān)督方法的效果。

fb31ac30-5f7f-11ed-8abf-dac502259ad0.png

Figure 5 不同方法在SAPIEN數(shù)據(jù)集上的定量結(jié)果對比

fb56d6b8-5f7f-11ed-8abf-dac502259ad0.png

Figure 6不同方法在OGC-DR/OGC-DRSV數(shù)據(jù)集上的定量結(jié)果對比

Evaluation on Real-World Outdoor Datasets

接下來,我們評估OGC在極具挑戰(zhàn)性的室外物體分割任務(wù)上的表現(xiàn)。首先,我們在KITTI Scene Flow(KITTI-SF)數(shù)據(jù)集上進(jìn)行評估。KITTI-SF包含200對點云用于訓(xùn)練,200單幀點云用于測試。實驗結(jié)果如下表所示:我們的方法達(dá)到了與全監(jiān)督方法接近的優(yōu)異性能。

fb984698-5f7f-11ed-8abf-dac502259ad0.png

Figure 7不同方法在KITTI-SF數(shù)據(jù)集上的定量結(jié)果對比

在實際應(yīng)用中,有時無法收集到包含運動的序列數(shù)據(jù),但我們可以將相似場景中訓(xùn)練出的OGC模型泛化過來。這里,我們將上述KITTI-SF數(shù)據(jù)集上訓(xùn)練好的OGC模型拿來,直接用于分割KITTI Detection(KITTI-Det)和SemanticKITTI數(shù)據(jù)集中的單幀點云。注意:KITTI-Det和SemanticKITTI中的點云都是通過雷達(dá)采集的,比KITTI-SF中雙目相機采集的點云稀疏很多,且KITTI-SF(3769幀)和SemanticKITTI(23201幀)的數(shù)據(jù)規(guī)模都遠(yuǎn)遠(yuǎn)大于KITTI-SF。實驗結(jié)果如下面兩張表所示:我們在KITTI-SF上訓(xùn)練的OGC模型能直接泛化到稀疏的雷達(dá)點云數(shù)據(jù),并取得與全監(jiān)督方法接近的效果。

fbc16bfe-5f7f-11ed-8abf-dac502259ad0.png

Figure 8在KITTI-Det數(shù)據(jù)集上的定量結(jié)果對比(*表示模型在KITTI-SF上訓(xùn)練)

fbe3fcf0-5f7f-11ed-8abf-dac502259ad0.png

Figure 9在SemanticKITTI數(shù)據(jù)集上的定量結(jié)果對比(*表示模型在KITTI-SF上訓(xùn)練)

Ablation Studies

我們在SAPIEN數(shù)據(jù)集上對OGC框架的核心技術(shù)進(jìn)行了消融實驗:

1)損失函數(shù)設(shè)計:從下方圖表可以看到,OGC的三個損失函數(shù)結(jié)合使用能帶來最好的效果。如果移除dynamic loss,所有點會被分到同一物體;如果移除smoothness loss,會出現(xiàn)“過度分割”的問題。

2)迭代優(yōu)化算法:可以看到,隨著迭代輪數(shù)增多,更高質(zhì)量的運動估計確實帶來了更好的物體分割表現(xiàn)。

fc08f8ca-5f7f-11ed-8abf-dac502259ad0.png

Figure 10 在SAPIEN數(shù)據(jù)集上的消融實驗(圖-左和表-上:損失函數(shù)設(shè)計;表下:迭代優(yōu)化算法)

5. Summary

最后總結(jié)一下,我們提出了第一個點云上的無監(jiān)督3D物體分割框架。這個框架的核心是一組基于物體幾何形狀一致性的損失函數(shù),利用運動信息有效地監(jiān)督物體分割。我們的方法在完全無標(biāo)注的點云序列上訓(xùn)練,訓(xùn)練后可以直接用于分割單幀點云,在多種任務(wù)場景下都展示出了非常好的效果。未來OGC還可以進(jìn)一步拓展:

1)當(dāng)有少量標(biāo)注數(shù)據(jù)時,如何將無監(jiān)督的OGC模型與這些標(biāo)注數(shù)據(jù)結(jié)合取得更好的性能;

2)當(dāng)有多幀作為輸入時,如何利用多幀信息更好地分割。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4235

    瀏覽量

    61965
  • 智能機器人
    +關(guān)注

    關(guān)注

    17

    文章

    855

    瀏覽量

    81911
  • 分割算法
    +關(guān)注

    關(guān)注

    0

    文章

    10

    瀏覽量

    7186

原文標(biāo)題:NeurIPS 2022 | 香港理工提出OGC:首個無監(jiān)督3D點云物體實例分割算法

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    歡創(chuàng)播報 騰訊元寶首發(fā)3D生成應(yīng)用

    1 騰訊元寶首發(fā)3D生成應(yīng)用 只需一張照片,便能迅速打造獨一二的3D角色。7月16日,騰訊旗下大模型應(yīng)用“騰訊元寶”上線了“3D角色夢工廠”玩法,騰訊元寶也是
    的頭像 發(fā)表于 07-18 11:39 ?616次閱讀
    歡創(chuàng)播報 騰訊元寶首發(fā)<b class='flag-5'>3D</b>生成應(yīng)用

    神經(jīng)網(wǎng)絡(luò)如何用監(jiān)督算法訓(xùn)練

    標(biāo)記數(shù)據(jù)的處理尤為有效,能夠充分利用互聯(lián)網(wǎng)上的海量數(shù)據(jù)資源。以下將詳細(xì)探討神經(jīng)網(wǎng)絡(luò)如何用監(jiān)督算法進(jìn)行訓(xùn)練,包括常見的監(jiān)督學(xué)習(xí)
    的頭像 發(fā)表于 07-09 18:06 ?573次閱讀

    機器人3D視覺引導(dǎo)系統(tǒng)框架介紹

    通過自主開發(fā)的3D掃描儀可獲準(zhǔn)確并且快速地獲取場景的云圖像,通過3D識別算法,可實現(xiàn)在對云圖中的多種目標(biāo)
    發(fā)表于 04-29 09:31 ?254次閱讀
    機器人<b class='flag-5'>3D</b>視覺引導(dǎo)系統(tǒng)框架介紹

    基于深度學(xué)習(xí)的方法在處理3D進(jìn)行缺陷分類應(yīng)用

    背景部分介紹了3D應(yīng)用領(lǐng)域中公開可訪問的數(shù)據(jù)集的重要性,這些數(shù)據(jù)集對于分析和比較各種模型至關(guān)重要。研究人員專門設(shè)計了各種數(shù)據(jù)集,包括用于3D形狀分類、
    的頭像 發(fā)表于 02-22 16:16 ?785次閱讀
    基于深度學(xué)習(xí)的方法在處理<b class='flag-5'>3D</b><b class='flag-5'>點</b><b class='flag-5'>云</b>進(jìn)行缺陷分類應(yīng)用

    探索ICLR‘24 Spotlight中的首個十億級別3D通用大模型

    Uni3D在少樣本部件分割任務(wù)上也展示出了卓越的性能。下表結(jié)果顯示,在各種實驗條件下,Uni3D的性能都明顯優(yōu)于Point-BERT等基
    的頭像 發(fā)表于 01-25 10:10 ?371次閱讀
    探索ICLR‘24 Spotlight中的<b class='flag-5'>首個</b>十億級別<b class='flag-5'>3D</b>通用大模型

    15倍加速!SuperCluster:最強3D全景分割!

    S3DIS Area 5的大規(guī)模全景分割結(jié)果,共有9.2 M個( 78M預(yù)采樣)和1863個真實"物"對象。SuperCluster可以在3.3秒內(nèi)在單塊V100 - 32GB GPU上一次推理處理如此大的掃描,并達(dá)到50.1
    的頭像 發(fā)表于 01-22 14:03 ?456次閱讀
    15倍加速!SuperCluster:最強<b class='flag-5'>3D</b><b class='flag-5'>點</b><b class='flag-5'>云</b>全景<b class='flag-5'>分割</b>!

    友思特C系列3D相機:實時3D云圖像

    3D相機
    虹科光電
    發(fā)布于 :2024年01月10日 17:39:25

    基于3D的多任務(wù)模型在板端實現(xiàn)高效部署

    對于自動駕駛應(yīng)用來說,3D 場景感知至關(guān)重要。3D數(shù)據(jù)就是具有3D特征的數(shù)據(jù)。一方面,3D
    的頭像 發(fā)表于 12-28 16:35 ?1156次閱讀
    基于<b class='flag-5'>3D</b><b class='flag-5'>點</b><b class='flag-5'>云</b>的多任務(wù)模型在板端實現(xiàn)高效部署

    NeurlPS&apos;23開源 | 首個!開放詞匯3D實例分割!

    我們介紹了開放詞匯3D實例分割的任務(wù)。當(dāng)前的3D實例分割方法通常只能從訓(xùn)練數(shù)據(jù)集中標(biāo)注的預(yù)定義的
    的頭像 發(fā)表于 11-14 15:53 ?451次閱讀
    NeurlPS&apos;23開源 | <b class='flag-5'>首個</b>!開放詞匯<b class='flag-5'>3D</b><b class='flag-5'>實例</b><b class='flag-5'>分割</b>!

    基于深度學(xué)習(xí)的3D實例分割方法

    3D實例分割3DIS)是3D領(lǐng)域深度學(xué)習(xí)的核心問題。給定由云表示的
    發(fā)表于 11-13 10:34 ?1626次閱讀
    基于深度學(xué)習(xí)的<b class='flag-5'>3D</b><b class='flag-5'>點</b><b class='flag-5'>云</b><b class='flag-5'>實例</b><b class='flag-5'>分割</b>方法

    OPT新3D傳感器LPF系列正式發(fā)布

    OPT(奧普特)新3D傳感器,LPF系列正式發(fā)布,依托全新升級的光學(xué)結(jié)構(gòu)及內(nèi)嵌多種算法,在景深范圍內(nèi)可實現(xiàn)對物體任一輪廓線尺寸測量,實時輸出超高精細(xì)的云圖、深度圖。
    發(fā)表于 11-10 10:35 ?468次閱讀
    OPT新<b class='flag-5'>3D</b>傳感器LPF系列正式發(fā)布

    基于3D形狀重建網(wǎng)絡(luò)的機器人抓取規(guī)劃方法

    一個帶有分割掩碼的輸入RGB-D圖像被提供給兩個神經(jīng)網(wǎng)絡(luò),分別產(chǎn)生一個6自由度的抓取姿勢和一個物體3D
    發(fā)表于 11-02 10:39 ?376次閱讀
    基于<b class='flag-5'>3D</b>形狀重建網(wǎng)絡(luò)的機器人抓取規(guī)劃方法

    如何實現(xiàn)高精度的3D感知

    ? 端到端自動駕駛是自動駕駛技術(shù)的重要發(fā)展方向之一。而要實現(xiàn)端到端自動駕駛,離不開高精度3D信息輸入,因此如何實現(xiàn)高精度的3D感知尤為關(guān)鍵。 從3D感知的實現(xiàn)技術(shù)路徑來看,主要包括稠密算法
    的頭像 發(fā)表于 10-17 09:53 ?1031次閱讀

    CVPR2022;直接從提取3D基元

    (i)實例分割 :定義將每個分配給某個片段 k{1 ...K} 的可能性,其中每個片段都是擠壓柱面(ii) 基礎(chǔ)桶分割:實例化為 ,表示桶
    的頭像 發(fā)表于 10-12 16:49 ?468次閱讀
    CVPR2022;直接從<b class='flag-5'>點</b><b class='flag-5'>云</b>提取<b class='flag-5'>3D</b>基元

    只要MLP就能實現(xiàn)的三維實例分割!

    實例分割問題,主要障礙在于本身是無序、非結(jié)構(gòu)化和非均勻的。廣泛使用的卷積神經(jīng)網(wǎng)絡(luò)需要對三維
    發(fā)表于 09-26 10:13 ?390次閱讀
    只要MLP就能實現(xiàn)的三維<b class='flag-5'>實例</b><b class='flag-5'>分割</b>!