0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于深度學(xué)習(xí)的3D分割綜述(RGB-D/點云/體素/多目)

3D視覺工坊 ? 來源:自動駕駛之心 ? 作者:汽車人 ? 2022-11-04 11:36 ? 次閱讀

摘要

3D目標(biāo)分割是計算機(jī)視覺中的一個基本且具有挑戰(zhàn)性的問題,在自動駕駛、機(jī)器人、增強(qiáng)現(xiàn)實和醫(yī)學(xué)圖像分析等領(lǐng)域有著廣泛的應(yīng)用。它受到了計算機(jī)視覺、圖形和機(jī)器學(xué)習(xí)社區(qū)的極大關(guān)注。傳統(tǒng)上,3D分割是用人工設(shè)計的特征和工程方法進(jìn)行的,這些方法精度較差,也無法推廣到大規(guī)模數(shù)據(jù)上。在2D計算機(jī)視覺巨大成功的推動下,深度學(xué)習(xí)技術(shù)最近也成為3D分割任務(wù)的首選。近年來已涌現(xiàn)出大量相關(guān)工作,并且已經(jīng)在不同的基準(zhǔn)數(shù)據(jù)集上進(jìn)行了評估。本文全面調(diào)研了基于深度學(xué)習(xí)的3D分割的最新進(jìn)展,涵蓋了150多篇論文。論文總結(jié)了最常用的范式,討論了它們的優(yōu)缺點,并分析了這些分割方法的對比結(jié)果。并在此基礎(chǔ)上,提出了未來的研究方向。

如圖1第二行所示,3D分割可分為三種類型:語義分割、實例分割和部件分割。

d9d49f30-5bf0-11ed-a3b6-dac502259ad0.png

論文的主要貢獻(xiàn)如下:

本文是第一篇全面涵蓋使用不同3D數(shù)據(jù)表示(包括RGB-D、投影圖像、體素、點云、網(wǎng)格和3D視頻)進(jìn)行3D分割的深度學(xué)習(xí)綜述論文;

論文對不同類型的3D數(shù)據(jù)分割方法的相對優(yōu)缺點進(jìn)行了深入分析;

與現(xiàn)有綜述不同,論文專注于專為3D分割設(shè)計的深度學(xué)習(xí)方法,并討論典型的應(yīng)用領(lǐng)域;

論文對幾種公共基準(zhǔn)3D數(shù)據(jù)集上的現(xiàn)有方法進(jìn)行了全面比較,得出了有趣的結(jié)論,并確定了有前景的未來研究方向。

圖2顯示了論文其余部分的組織方式:

d9efafdc-5bf0-11ed-a3b6-dac502259ad0.png

基準(zhǔn)數(shù)據(jù)集和評估指標(biāo)

3D分割數(shù)據(jù)集

數(shù)據(jù)集對于使用深度學(xué)習(xí)訓(xùn)練和測試3D分割算法至關(guān)重要。然而,私人收集和標(biāo)注數(shù)據(jù)集既麻煩又昂貴,因為它需要領(lǐng)域?qū)I(yè)知識、高質(zhì)量的傳感器和處理設(shè)備。因此,構(gòu)建公共數(shù)據(jù)集是降低成本的理想方法。遵循這種方式對社區(qū)有另一個好處,它提供了算法之間的公平比較。表1總結(jié)了關(guān)于傳感器類型、數(shù)據(jù)大小和格式、場景類別和標(biāo)注方法的一些最流行和典型的數(shù)據(jù)集。

da45197c-5bf0-11ed-a3b6-dac502259ad0.png

這些數(shù)據(jù)集是通過不同類型的傳感器(包括RGB-D相機(jī)[123]、[124]、[127]、[49]、[20]、移動激光掃描儀[120]、[3]、靜態(tài)地面掃描儀[39]和非真實引擎[7]、[155]和其他3D掃描儀[1]、[10])用于3D語義分割而獲取的。其中,從非真實引擎獲得的數(shù)據(jù)集是合成數(shù)據(jù)集[7][155],不需要昂貴的設(shè)備或標(biāo)注時間。這些物體的種類和數(shù)量非常豐富。與真實世界數(shù)據(jù)集相比,合成數(shù)據(jù)集具有完整的360度3D目標(biāo),沒有遮擋效果或噪聲,真實世界數(shù)據(jù)集中有噪聲且包含遮擋[123]、[124]、[127]、[49]、[20]、[120]、[12]、[3]、[1]、[39]、[10]。對于3D實例分割,只有有限的3D數(shù)據(jù)集,如ScanNet[20]和S3DIS[1]。這兩個數(shù)據(jù)集分別包含RGB-D相機(jī)或Matterport獲得的真實室內(nèi)場景的掃描數(shù)據(jù)。對于3D部件分割,普林斯頓分割基準(zhǔn)(PSB)[12]、COSEG[147]和ShapeNet[169]是三個最流行的數(shù)據(jù)集。圖3中顯示了這些數(shù)據(jù)集的標(biāo)注示例:

da806b62-5bf0-11ed-a3b6-dac502259ad0.png

評價指標(biāo)

不同的評估指標(biāo)可以評價分割方法的有效性和優(yōu)越性,包括執(zhí)行時間、內(nèi)存占用和準(zhǔn)確性。然而,很少有作者提供有關(guān)其方法的執(zhí)行時間和內(nèi)存占用的詳細(xì)信息。本文主要介紹精度度量。對于3D語義分割,常用的有Overall Accuracy(OAcc)、mean class Accuracy(mAcc)、mean class Intersection over Union(mIoU)。

OAcc:

dab3a054-5bf0-11ed-a3b6-dac502259ad0.png

mAcc:

dac8418a-5bf0-11ed-a3b6-dac502259ad0.png

mIoU:

dade725c-5bf0-11ed-a3b6-dac502259ad0.png

對于3D實例分割,常用的有Average Precision(AP)、mean class Average Precision(mAP)。

AP:

daef2d40-5bf0-11ed-a3b6-dac502259ad0.png

mAP:

db025a78-5bf0-11ed-a3b6-dac502259ad0.png

對于3D部件分割,常用的指標(biāo)是overall average category Intersection over Union(Cat.mIoU)和overall average instance Intersection over Union(Ins.mIoU)。

Cat.mIoU:

db1db55c-5bf0-11ed-a3b6-dac502259ad0.png

Ins.mIoU:

db314d92-5bf0-11ed-a3b6-dac502259ad0.png

3D語義分割

文獻(xiàn)中提出了許多關(guān)于3D語義分割的深度學(xué)習(xí)方法。根據(jù)使用的數(shù)據(jù)表示,這些方法可分為五類,即基于RGB-D圖像、基于投影圖像、基于體素、基于點云和其他表示?;邳c云的方法可以根據(jù)網(wǎng)絡(luò)架構(gòu)進(jìn)一步分類為基于多層感知器(MLP)的方法、基于點云卷積的方法和基于圖卷積的。圖4顯示了近年來3D語義分割深度學(xué)習(xí)的里程碑。

db571e1e-5bf0-11ed-a3b6-dac502259ad0.png

基于RGB-D

db71284a-5bf0-11ed-a3b6-dac502259ad0.png

RGB-D圖像中的深度圖包含關(guān)于真實世界的幾何信息,這有助于區(qū)分前景目標(biāo)和背景,從而提供提高分割精度的可能。在這一類別中,通常使用經(jīng)典的雙通道網(wǎng)絡(luò)分別從RGB和深度圖像中提取特征。然而框架過于簡單,無法提取豐富而精細(xì)的特征。為此,研究人員將幾個附加模塊集成到上述簡單的雙通道框架中,通過學(xué)習(xí)對語義分割至關(guān)重要的豐富上下文和幾何信息來提高性能。這些模塊大致可分為六類:多任務(wù)學(xué)習(xí)、深度編碼、多尺度網(wǎng)絡(luò)、新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、數(shù)據(jù)/特征/得分級融合和后處理(見圖5)。表2中總結(jié)了基于RGB-D圖像的語義分割方法。

db9c4f02-5bf0-11ed-a3b6-dac502259ad0.png

多任務(wù)學(xué)習(xí):深度估計和語義分割是計算機(jī)視覺中兩個具有挑戰(zhàn)性的基本任務(wù)。這些任務(wù)也有一定的相關(guān)性,因為與不同目標(biāo)之間的深度變化相比,目標(biāo)內(nèi)的深度變化較小。因此,許多研究者選擇將深度估計任務(wù)和語義分割任務(wù)結(jié)合起來。從兩個任務(wù)的關(guān)系來看,多任務(wù)學(xué)習(xí)框架主要有兩種類型:級聯(lián)式和并行式。級聯(lián)式的工作有[8]、[36],級聯(lián)框架分階段進(jìn)行深度估計和語義分割,無法端到端訓(xùn)練。因此,深度估計任務(wù)并沒有從語義分割任務(wù)中獲得任何好處。并行式的工作有[141]、[101]、[87],讀者具體可以參考相關(guān)論文。

深度編碼:傳統(tǒng)的2D CNN無法利用原始深度圖像的豐富幾何特征。另一種方法是將原始深度圖像編碼為適合2D-CNN的其他表示。Hoft等人[46]使用定向梯度直方圖(HOG)的簡化版本來表示RGB-D場景的深度通道。Gupta等人[38]和Aman等人[82]根據(jù)原始深度圖像計算了三個新通道,分別為水平視差、地面高度和重力角(HHA)。Liu等人[86]指出了HHA的局限性,即某些場景可能沒有足夠的水平和垂直平面。因此,他們提出了一種新的重力方向檢測方法,通過擬合垂直線來學(xué)習(xí)更好的表示。Hazirbas等人[42]還認(rèn)為,HHA表示具有較高的計算成本,并且包含比原始深度圖像更少的信息。并提出了一種稱為FuseNet的架構(gòu),該架構(gòu)由兩個編碼器-解碼器分支組成,包括一個深度分支和一個RGB分支,且以較低的計算負(fù)載直接編碼深度信息。

多尺度網(wǎng)絡(luò):由多尺度網(wǎng)絡(luò)學(xué)習(xí)的上下文信息對于小目標(biāo)和詳細(xì)的區(qū)域分割是有用的。Couprie等人[19]使用多尺度卷積網(wǎng)絡(luò)直接從RGB圖像和深度圖像中學(xué)習(xí)特征。Aman等人[111]提出了一種用于分割的多尺度deep ConvNet,其中VGG16-FC網(wǎng)絡(luò)的粗預(yù)測在scale-2模塊中被上采樣。然而,這種方法對場景中的雜波很敏感,導(dǎo)致輸出誤差。Lin等人[82]利用了這樣一個事實:較低場景分辨率區(qū)域具有較高的深度,而較高場景分辨率區(qū)域則具有較低的深度。他們使用深度圖將相應(yīng)的彩色圖像分割成多個場景分辨率區(qū)域,并引入context-aware receptive field(CaRF),該感知場專注于特定場景分辨率區(qū)域的語義分割。這使得他們的管道成為多尺度網(wǎng)絡(luò)。

新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):由于CNN的固定網(wǎng)格計算,它們處理和利用幾何信息的能力有限。因此,研究人員提出了其他新穎的神經(jīng)網(wǎng)絡(luò)架構(gòu),以更好地利用幾何特征以及RGB和深度圖像之間的關(guān)系。這些架構(gòu)可分為四大類:改進(jìn)2D CNN,相關(guān)工作有[61]、[144];逆卷積神經(jīng)網(wǎng)絡(luò)(DeconvNets),相關(guān)工作有[87]、[139]、[14];循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),相關(guān)工作有[29]、[79];圖神經(jīng)網(wǎng)絡(luò)(GNN),相關(guān)工作有[110]。

數(shù)據(jù)/特征/得分融合:紋理(RGB通道)和幾何(深度通道)信息的最優(yōu)融合對于準(zhǔn)確的語義分割非常重要。融合策略有三種:數(shù)據(jù)級、特征級和得分級,分別指早期、中期和晚期融合。數(shù)據(jù)融合最簡單的方式是將RGB圖像和深度圖像concat為4通道輸入CNN[19]中,這種方式比較粗暴,沒有充分利用深度和光度通道之間的強(qiáng)相關(guān)性。特征融合捕獲了這些相關(guān)性,相關(guān)工作有[79]、[139]、[42]、[61]。得分級融合通常使用簡單的平均策略進(jìn)行。然而,RGB模型和深度模型對語義分割的貢獻(xiàn)是不同的,相關(guān)工作有[86]、[14]。

后處理:用于RGB-D語義分割的CNN或DCNN的結(jié)果通常非常粗糙,導(dǎo)致邊緣粗糙和小目標(biāo)消失。解決這個問題的一個常見方法是將CNN與條件隨機(jī)場(CRF)耦合。Wang等人[141]通過分層CRF(HCRF)的聯(lián)合推斷進(jìn)一步促進(jìn)了兩個通道之間的相互作用。它加強(qiáng)了全局和局部預(yù)測之間的協(xié)同作用,其中全局用于指導(dǎo)局部預(yù)測并減少局部模糊性,局部結(jié)果提供了詳細(xì)的區(qū)域結(jié)構(gòu)和邊界。Mousavian等人[101]、Liu等人[87]和Long等人[86]采用了全連接CRF(FC-CRF)進(jìn)行后處理,其中逐像素標(biāo)記預(yù)測聯(lián)合考慮幾何約束,如逐像素法線信息、像素位置、強(qiáng)度和深度,以促進(jìn)逐像素標(biāo)記的一致性。類似地,Jiang等人[61]提出了將深度信息與FC-CRF相結(jié)合的密集敏感CRF(DCRF)。

基于投影圖像

基于投影圖像的語義分割的核心思想是使用2D CNN從3D場景/形狀的投影圖像中提取特征,然后融合這些特征用于標(biāo)簽預(yù)測。與單目圖像相比,該范式不僅利用了來自大規(guī)模場景的更多語義信息,而且與點云相比,減少了3D場景的數(shù)據(jù)大小。投影圖像主要包括多目圖像或球形圖像。表3總結(jié)了基于投影圖像的語義分割方法。

dbb7b9e0-5bf0-11ed-a3b6-dac502259ad0.png

基于多目圖像

MV-CNN[130]使用統(tǒng)一網(wǎng)絡(luò)將由虛擬相機(jī)形成的3D形狀的多個視圖中的特征組合到單個緊湊的形狀描述子中,以獲得更好的分類性能。這促使研究人員將同樣的想法應(yīng)用于3D語義分割(見圖6)。例如,Lawin等人[70]將點云投影到多目合成圖像中,包括RGB、深度和表面法線圖像。將所有多目圖像的預(yù)測分?jǐn)?shù)融合到單個表示中,并將其反向投影到每個點云中。然而,如果點云的密度較低,圖像可能會錯誤地捕捉到觀測結(jié)構(gòu)背后的點云,這使得深度網(wǎng)絡(luò)誤解了多目圖像。為此,SnapNet[6]、[5]對點云進(jìn)行預(yù)處理,以計算點云特征(如正常或局部噪聲)并生成網(wǎng)格,這與點云密度化類似。從網(wǎng)格和點云中,它們通過適當(dāng)?shù)目煺丈蒖GB和深度圖像。然后使用FCN對2D快照進(jìn)行逐像素標(biāo)記,并通過高效緩沖將這些標(biāo)記快速重投影回3D點云。其他相關(guān)算法[35]、[106]可參考具體論文。

dbe6cfc8-5bf0-11ed-a3b6-dac502259ad0.png

基于球形圖像

從3D場景中選擇快照并不直接。必須在適當(dāng)考慮視點數(shù)量、視距和虛擬相機(jī)角度后拍攝快照,以獲得完整場景的最優(yōu)表示。為了避免這些復(fù)雜性,研究人員將整個點云投影到一個球體上(見圖6底部)。例如,Wu等人[152]提出了一個名為SqueezeSeg的端到端管道,其靈感來自SqueezeNet[53],用于從球形圖像中學(xué)習(xí)特征,然后由CRF將其細(xì)化為循環(huán)層。類似地,PointSeg[148]通過整合特征和通道注意力來擴(kuò)展SqueezeNet,以學(xué)習(xí)魯棒表示。其他相關(guān)算法還有[153]、[98]、[160]。

基于體素

與像素類似,體素將3D空間劃分為具有特定大小和離散坐標(biāo)的許多體積網(wǎng)格。與投影圖像相比,它包含更多的場景幾何信息。3D ShapeNets[156]和VoxNet[94]將體積占用網(wǎng)格表示作為用于目標(biāo)識別的3D CNN的輸入,該網(wǎng)絡(luò)基于體素指導(dǎo)3D語義分割。根據(jù)體素大小的統(tǒng)一性,基于體素的方法可分為均勻體素方法和非均勻體素法。表3總結(jié)了基于體素的語義分割方法。

均勻體素

3D CNN是用于處理標(biāo)簽預(yù)測的統(tǒng)一體素的通用架構(gòu)。Huang等人[51]提出了用于粗體素水平預(yù)測的3D FCN。他們的方法受到預(yù)測之間空間不一致性的限制,并提供了粗略的標(biāo)記。Tchapmi等人[132]引入了一種新的網(wǎng)絡(luò)SEGCloud來產(chǎn)生細(xì)粒度預(yù)測。其通過三線性插值將從3D FCN獲得的粗體素預(yù)測上采樣到原始3D點云空間分辨率。對于固定分辨率的體素,計算復(fù)雜度隨場景比例的增加而線性增長。大體素可以降低大規(guī)模場景解析的計算成本。Liu等人[84]介紹了一種稱為3DCNN-DQN-RNN的新型網(wǎng)絡(luò)。與2D語義分割中的滑動窗口一樣,該網(wǎng)絡(luò)在3D-CNN和deep Q-Network(DQN)的控制下,提出了遍歷整個數(shù)據(jù)的眼睛窗口,用于快速定位和分割目標(biāo)。3D-CNN和殘差RNN進(jìn)一步細(xì)化眼睛窗口中的特征。該流水線有效地學(xué)習(xí)感興趣區(qū)域的關(guān)鍵特征,以較低的計算成本提高大規(guī)模場景解析的準(zhǔn)確性。其他相關(guān)工作[112]、[22]、[96]可以參考論文。

非均勻體素

在固定比例場景中,隨著體素分辨率的增加,計算復(fù)雜度呈立方增長。然而,體素表示自然是稀疏的,在對稀疏數(shù)據(jù)應(yīng)用3D密集卷積時會導(dǎo)致不必要的計算。為了緩解這個問題,OcNet[113]使用一系列不平衡的八叉樹將空間分層劃分為非均勻體素。樹結(jié)構(gòu)允許內(nèi)存分配和計算集中于相關(guān)的密集體素,而不犧牲分辨率。然而,empty space仍然給OctNet帶來計算和內(nèi)存負(fù)擔(dān)。相比之下,Graham等人[33]提出了一種新的子流形稀疏卷積(SSC),它不在empty space進(jìn)行計算,彌補了OcNet的缺陷。

基于點云

點云在3D空間中不規(guī)則地散布,缺乏任何標(biāo)準(zhǔn)順序和平移不變性,這限制了傳統(tǒng)2D/3D卷積神經(jīng)網(wǎng)絡(luò)的使用。最近,一系列基于點云的語義分割網(wǎng)絡(luò)被提出。這些方法大致可分為三類:基于多層感知器(MLP)的、基于點云卷積的和基于圖卷積。表4總結(jié)了這些方法。

dc52c5e8-5bf0-11ed-a3b6-dac502259ad0.png

基于MLP

這些方法直接使用MLP學(xué)習(xí)點云特征。根據(jù)其框架,可進(jìn)一步分為兩類:基于PN和基于PN++框架的方法,如圖7(a)和(b)所示。

基于PN框架

PointNet[108](PN)是一項直接處理點云的開創(chuàng)性工作。它使用共享MLP來挖掘逐點云特征,并采用max-pooling等對稱函數(shù)來將這些特征聚合到全局特征表示中。由于max-pooling僅捕獲全局點云的最大激活,因此PN無法學(xué)習(xí)利用局部特征?;赑N框架,一些網(wǎng)絡(luò)開始定義局部區(qū)域以增強(qiáng)局部特征學(xué)習(xí),并利用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)來增加上下文特征的利用。例如,Engelmann等人[28]通過KNN聚類和K-means聚類定義局部區(qū)域,并使用簡化PN提取局部特征。ESC[26]將全局區(qū)域點云劃分為多尺度/網(wǎng)格塊。連接的(局部)塊特征附加到逐點云特征,并通過遞歸合并單元(RCU)進(jìn)一步學(xué)習(xí)全局上下文特征。其他相關(guān)算法[168]可以參考論文。

基于PN++框架

基于PointNet,PointNet++[109](PN++)定義了分層學(xué)習(xí)架構(gòu)。它使用最遠(yuǎn)點采樣(FPS)對點云進(jìn)行分層采樣,并使用k個最近鄰搜索和球搜索對局部區(qū)域進(jìn)行聚類。逐步地,簡化的PointNet在多個尺度或多個分辨率下利用局部區(qū)域的功能。PN++框架擴(kuò)展了感受野以共同利用更多的局部特征。受SIFT[91]的啟發(fā),PointSIFT[63]在采樣層之前插入一個PointSIFT模塊層,以學(xué)習(xí)局部形狀信息。該模塊通過對不同方向的信息進(jìn)行編碼,將每個點云轉(zhuǎn)換為新的形狀表示。類似地,PointWeb[177]在聚類層之后插入自適應(yīng)特征調(diào)整(AFA)模塊層,以將點云之間的交互信息嵌入到每個點云中。這些策略增強(qiáng)了學(xué)習(xí)到的逐點云特征的表示能力。然而,MLP仍然單獨處理每個局部點云,并且不注意局部點云之間的幾何連接。此外,MLP是有效的,但缺乏捕捉更廣泛和更精細(xì)的局部特征的復(fù)雜性。

dc8b2b7c-5bf0-11ed-a3b6-dac502259ad0.png

基于點云卷積

基于點云卷積的方法直接對點云進(jìn)行卷積運算。與基于MLP的分割類似,這些網(wǎng)絡(luò)也可以細(xì)分為基于PN框架的方法和基于PN++框架的方法,如圖7(c)、(d)所示。

基于PN

基于PN框架的方法對每個點云的相鄰點云進(jìn)行卷積。例如,RSNet[52]使用1x1卷積利用逐點云特征,然后將它們傳遞給local dependency module(LDM),以利用局部上下文特征。但是,它并沒有為每個點云定義鄰域以了解局部特征。另一方面,PointwiseCNN[50]按照特定的順序?qū)c云進(jìn)行排序,例如XYZ坐標(biāo)或Morton曲線[100],并動態(tài)查詢最近鄰,并將它們放入3x3x3 kernel中,然后使用相同的內(nèi)核權(quán)重進(jìn)行卷積。DPC[27]在通過dilated KNN搜索確定鄰域點云的每個點云的鄰域點云上調(diào)整點卷積[154]。該方法將擴(kuò)張機(jī)制整合到KNN搜索中,以擴(kuò)大感受野。PCNN[143]在KD-tree鄰域上進(jìn)行參數(shù)化CNN,以學(xué)習(xí)局部特征。然而,特征圖的固定分辨率使得網(wǎng)絡(luò)難以適應(yīng)更深層次的架構(gòu)。其他相關(guān)算法[133]、[34]、[77]可以參考具體論文。

基于PN++

基于PN++框架的方法將卷積層作為其關(guān)鍵層。例如,蒙特卡羅卷積近似的一個擴(kuò)展叫做PointConv[154],它考慮了點云密度。使用MLP來近似卷積核的權(quán)重函數(shù),并使用inverse density scale來重新加權(quán)學(xué)習(xí)的權(quán)重函數(shù)。類似地,MCC[45]通過依賴點云概率密度函數(shù)(PDF)將卷積表述為蒙特卡羅積分問題,其中卷積核也由MLP表示。此外,它引入了Possion Disk Sampling(PDS)[151]來構(gòu)建點云層次結(jié)構(gòu),而不是FPS,這提供了一個在感受野中獲得最大樣本數(shù)的機(jī)會。A-CNN[67]通過擴(kuò)展的KNN定義了一個新的局部環(huán)形區(qū)域,并將點云投影到切線平面上,以進(jìn)一步排序局部區(qū)域中的相鄰點云。然后,對這些表示為閉環(huán)陣列的有序鄰域進(jìn)行標(biāo)準(zhǔn)點云卷積。其他相關(guān)算法[48]、[175]可以參考具體論文。

基于圖卷積

基于圖卷積的方法對與圖結(jié)構(gòu)連接的點云進(jìn)行卷積。在這里,圖的構(gòu)造(定義)和卷積設(shè)計正成為兩個主要挑戰(zhàn)。PN框架和PN++框架的相同分類也適用于圖7(e)和(f)所示的圖卷積方法。

基于PN

基于PN框架的方法從全局點云構(gòu)造圖,并對每個點云的鄰域點云進(jìn)行卷積。例如,ECC[125]是應(yīng)用空間圖形網(wǎng)絡(luò)從點云提取特征的先驅(qū)方法之一。它動態(tài)生成edge-conditioned filters,以學(xué)習(xí)描述點云與其相鄰點云之間關(guān)系的邊緣特征?;赑N架構(gòu),DGCN[149]在每個點云的鄰域上實現(xiàn)稱為EdgeConv的動態(tài)邊緣卷積。卷積由簡化PN近似。SPG[69]將點云劃分為若干簡單的幾何形狀(稱為super-points),并在全局super-points上構(gòu)建super graph。此外,該網(wǎng)絡(luò)采用PointNet來嵌入這些點云,并通過門控遞歸單元(GRU)細(xì)化嵌入。其他相關(guān)算法[74]、[73]、[93]、[159]可以參考具體論文。

基于PN++

基于PN++框架的方法對具有圖結(jié)構(gòu)的局部點云進(jìn)行卷積。圖是光譜圖或空間圖。在前一種情況下,LS-GCN[137]采用了PointNet++的基本架構(gòu),使用標(biāo)準(zhǔn)的非參數(shù)化傅立葉kernel將MLP替換為譜圖卷積,以及一種新的spectral cluster pooling替代max-pooling。然而,從空間域到頻譜域的轉(zhuǎn)換需要很高的計算成本。此外,譜圖網(wǎng)絡(luò)通常定義在固定的圖結(jié)構(gòu)上,因此無法直接處理具有不同圖結(jié)構(gòu)的數(shù)據(jù)。相關(guān)算法可以參考[30]、[78]、[80]、[174]、[72]。

基于其他表示

一些方法將原始點云轉(zhuǎn)換為投影圖像、體素和點云以外的表示。這種表示的例子包括正切圖像[131]和晶格[129]、[116]。在前一種情況下,Tatargenko等人[131]將每個點云周圍的局部曲面投影到一系列2D切線圖像,并開發(fā)基于切線卷積的U-Net來提取特征。在后一種情況下,SPLATNet[129]采用Jampani等人[56]提出的雙邊卷積層(BCL)將無序點云平滑映射到稀疏網(wǎng)格上。類似地,LatticeNet[116]使用了一種混合架構(gòu),它將獲得低級特征的PointNet與探索全局上下文特征的稀疏3D卷積相結(jié)合。這些特征嵌入到允許應(yīng)用標(biāo)準(zhǔn)2D卷積的稀疏網(wǎng)格中。盡管上述方法在3D語義分割方面取得了重大進(jìn)展,但每種方法都有其自身的缺點。例如,多目圖像具有更多的語義信息,但場景的幾何信息較少。另一方面,體素具有更多的幾何信息,但語義信息較少。為了獲得最優(yōu)性能,一些方法采用混合表示作為輸入來學(xué)習(xí)場景的綜合特征。相關(guān)算法[21]、[15]、[90]、[58]、[97]可以參考具體論文。

3D實例分割

3D實例分割方法另外區(qū)分同一類的不同實例。作為場景理解的一項信息量更大的任務(wù),3D實例分割越來越受到研究界的關(guān)注。3D實例分割方法大致分為兩個方向:基于Proposal和無Proposal。

基于Proposal

基于Proposal的方法首先預(yù)測目標(biāo)Proposal,然后細(xì)化它們以生成最終實例mask(見圖8),將任務(wù)分解為兩個主要挑戰(zhàn)。因此,從Proposal生成的角度來看,這些方法可以分為基于檢測的方法和無檢測的方法。

基于檢測的方法有時將目標(biāo)Proposal定義為3D邊界框回歸問題。3D-SIS[47]基于3D重建的姿態(tài)對齊,將高分辨率RGB圖像與體素結(jié)合,并通過3D檢測主干聯(lián)合學(xué)習(xí)顏色和幾何特征,以預(yù)測3D目標(biāo)框Proposal。在這些Proposal中,3D mask主干預(yù)測最終實例mask。其他相關(guān)算法[171]、[164]可以參考論文。

無檢測方法包括SGPN[145],它假定屬于同一目標(biāo)實例的點云應(yīng)該具有非常相似的特征。因此,它學(xué)習(xí)相似度矩陣來預(yù)測Proposal。這些Proposal通過置信度分?jǐn)?shù)過濾,以生成高度可信的實例Proposal。然而,這種簡單的距離相似性度量學(xué)習(xí)并不能提供信息,并且不能分割同一類的相鄰目標(biāo)。為此,3D-MPA[25]從投票給同一目標(biāo)中心的采樣和聚類點云特征中學(xué)習(xí)目標(biāo)Proposal,然后使用圖卷積網(wǎng)絡(luò)合并Proposal特征,從而實現(xiàn)Proposal之間的更高層次交互,從而優(yōu)化Proposal特征。AS Net[60]使用分配模塊來分配Proposal候選,然后通過抑制網(wǎng)絡(luò)消除冗余候選。

dcbe1e2e-5bf0-11ed-a3b6-dac502259ad0.png

Proposal Free

無Proposal 方法學(xué)習(xí)每個點云的特征嵌入,然后使用聚類以獲得明確的3D實例標(biāo)簽(見圖8),將任務(wù)分解為兩個主要挑戰(zhàn)。從嵌入學(xué)習(xí)的角度來看,這些方法可以大致分為三類:多嵌入學(xué)習(xí)、2D嵌入傳播和多任務(wù)學(xué)習(xí)。

多嵌入學(xué)習(xí):MASC[83]等方法依靠SSCN[33]的高性能來預(yù)測多尺度和語義拓?fù)渖舷噜忺c云之間的相似性嵌入。簡單而有效的聚類[89]適用于基于兩種類型的學(xué)習(xí)嵌入將點云分割為實例。MTML[68]學(xué)習(xí)兩組特征嵌入,包括每個實例唯一的特征嵌入和定向?qū)嵗行牡姆较蚯度?,這提供了更強(qiáng)的聚類能力。類似地,PointGroup[62]基于原始坐標(biāo)嵌入空間和偏移的坐標(biāo)嵌入空間將點云聚類為不同的簇。

2D嵌入傳播:這些方法的一個例子是3D-BEVIS[23],它通過鳥瞰整個場景來學(xué)習(xí)2D全局實例嵌入。然后通過DGCN[149]將學(xué)習(xí)到的嵌入傳播到點云上。另一個例子是PanopticFusion[102],它通過2D實例分割網(wǎng)絡(luò)Mask R-CNN[43]預(yù)測RGB幀的逐像素實例標(biāo)簽。

多任務(wù)聯(lián)合學(xué)習(xí):3D語義分割和3D實例分割可以相互影響。例如,具有不同類的目標(biāo)必須是不同的實例,具有相同實例標(biāo)簽的目標(biāo)必須為同一類?;诖耍珹SIS[146]設(shè)計了一個稱為ASIS的編碼器-解碼器網(wǎng)絡(luò),以學(xué)習(xí)語義感知的實例嵌入,從而提高這兩個任務(wù)的性能。類似地,JSIS3D[107]使用統(tǒng)一網(wǎng)絡(luò)即MT-PNet來預(yù)測點云的語義標(biāo)簽,并將點云嵌入到高維特征向量中,并進(jìn)一步提出MV-CRF來聯(lián)合優(yōu)化目標(biāo)類和實例標(biāo)簽。類似地,Liu等人[83]和3D-GEL[81]采用SSCN來同時生成語義預(yù)測和實例嵌入,然后使用兩個GCN來細(xì)化實例標(biāo)簽。OccusSeg[40]使用多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)來產(chǎn)生occupancy signal和空間嵌入。occupancy signal表示每個體素占用的體素數(shù)量。表5總結(jié)了3D實例分割方法。

de1c63ac-5bf0-11ed-a3b6-dac502259ad0.png

3D部件分割

3D部件分割是繼實例分割之后的下一個更精細(xì)的級別,其目的是標(biāo)記實例的不同部分。部件分割的管道與語義分割的管道非常相似,只是標(biāo)簽現(xiàn)在是針對單個部件的。因此,一些現(xiàn)有的3D語義分割網(wǎng)絡(luò)[96]、[33]、[108]、[109]、[174]、[52]、[133]、[50]、[45]、[154]、[77]、[149]、[73]、[159]、[143]、[34]、[72]、[129]、[116]也可用于部件分割。然而,這些網(wǎng)絡(luò)并不能完全解決部件分割的困難。例如,具有相同語義標(biāo)簽的各個部件可能具有不同的形狀,并且具有相同語義標(biāo)記的實例的部件數(shù)量可能不同。我們將3D部件分割方法細(xì)分為兩類:基于規(guī)則數(shù)據(jù)的和基于不規(guī)則數(shù)據(jù)的,如下所示。

基于規(guī)則數(shù)據(jù)

規(guī)則數(shù)據(jù)通常包括投影圖像[64]、體素[150]、[71]、[128]。對于投影圖像,Kalogerakis等人[64]從多個視圖中獲得一組最佳覆蓋物體表面的圖像,然后使用多視圖全卷積網(wǎng)絡(luò)(FCN)和基于表面的條件隨機(jī)場(CRF)分別預(yù)測和細(xì)化部件標(biāo)簽。體素是幾何數(shù)據(jù)的有效表示。然而,像部件分割這樣的細(xì)粒度任務(wù)需要具有更詳細(xì)結(jié)構(gòu)信息的高分辨率體素,這導(dǎo)致了較高的計算成本。Wang等人[150]建議VoxSegNet利用有限分辨率的體素中更詳細(xì)的信息。它們在子采樣過程中使用空間密集提取來保持空間分辨率,并使用attention feature aggregation(AFA)模塊來自適應(yīng)地選擇尺度特征。其他相關(guān)算法[71]、[128]可以參考論文。

基于不規(guī)則數(shù)據(jù)

不規(guī)則數(shù)據(jù)表示通常包括網(wǎng)格[161]、[41]和點云[75]、[121]、[170]、[136]、[140]、[172]、[178]。網(wǎng)格提供了3D形狀的有效近似,因為它捕捉到了平面、尖銳和復(fù)雜的表面形狀、表面和拓?fù)洹u等人[161]將人臉法線和人臉距離直方圖作為雙流框架的輸入,并使用CRF優(yōu)化最終標(biāo)簽。受傳統(tǒng)CNN的啟發(fā),Hanocka等人[41]設(shè)計了新穎的網(wǎng)格卷積和池化,以對網(wǎng)格邊緣進(jìn)行操作。對于點云,圖卷積是最常用的管道。在頻譜圖領(lǐng)域,SyncSpecCNN[170]引入了同步頻譜CNN來處理不規(guī)則數(shù)據(jù)。特別地,提出了多通道卷積核和參數(shù)化膨脹卷積核,分別解決了多尺度分析和形狀信息共享問題。在空間圖域中,類似于圖像的卷積核,KCNet[121]提出了point-set kernel和nearest-neighbor-graph,以改進(jìn)PointNet,使其具有高效的局部特征提取結(jié)構(gòu)。其他相關(guān)算法[140]、[163]、[136]、[65]、[142]、[75]、[172]、[178]可以參考論文。3D部件的相關(guān)算法總結(jié)如下表所示。

de37c70a-5bf0-11ed-a3b6-dac502259ad0.png

3D分割的應(yīng)用

無人駕駛系統(tǒng)

隨著激光雷達(dá)和深度相機(jī)的普及,價格也越來越實惠,它們越來越多地應(yīng)用于無人駕駛系統(tǒng),如自動駕駛和移動機(jī)器人。這些傳感器提供實時3D視頻,通常為每秒30幀(fps),作為系統(tǒng)的直接輸入,使3D視頻語義分割成為理解場景的主要任務(wù)。此外,為了更有效地與環(huán)境交互,無人系統(tǒng)通常會構(gòu)建場景的3D語義圖。下面回顧基于3D視頻的語義分割和3D語義地圖構(gòu)建。

3D視頻語義分割

與前文介紹的3D單幀/掃描語義分割方法相比,3D視頻(連續(xù)幀/掃描)語義分割方法考慮了幀之間連接的時空信息,這在穩(wěn)健和連續(xù)地解析場景方面更為強(qiáng)大。傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)沒有被設(shè)計成利用幀之間的時間信息。一種常見的策略是自適應(yīng)RNN([134]、[24])或時空卷積網(wǎng)絡(luò)([44]、[17]、[122])。

3D語義地圖重建

無人系統(tǒng)不僅需要避開障礙物,還需要建立對場景的更深理解,例如目標(biāo)解析、自我定位等。3D場景重建通常依賴于同時定位和建圖系統(tǒng)(SLAM)來獲得沒有語義信息的3D地圖。隨后用2D-CNN進(jìn)行2D語義分割,然后在優(yōu)化(例如條件隨機(jī)場)之后將2D標(biāo)簽轉(zhuǎn)移到3D地圖以獲得3D語義地圖[165]。這種通用管道無法保證復(fù)雜、大規(guī)模和動態(tài)場景中的3D語義地圖的高性能。研究人員已經(jīng)努力使用來自多幀的關(guān)聯(lián)信息([92]、[95]、[157]、[13]、[66])、多模型融合([59]、[176])和新的后處理操作來增強(qiáng)魯棒性。

醫(yī)療診斷

2D U-Net[115]和3D U-Net[18]通常用于醫(yī)學(xué)圖像分割。基于這些基本思想,設(shè)計了許多改進(jìn)的體系結(jié)構(gòu),主要可分為四類:擴(kuò)展的3D U-Net([9]、[173]、[117])、聯(lián)合的2D-3D CNN([105]、[2]、[138]、[76])、帶優(yōu)化模塊的CNN([99]、[179]、[126]、[104])和分層網(wǎng)絡(luò)([11]、[57]、[118]、[135]、[166]、[167]、[119])。

實驗結(jié)果

3D語義分割結(jié)果

論文報告了基于RGB-D的語義分割方法在SUN-RGB-D[127]和NYUDv2[124]數(shù)據(jù)集上的結(jié)果,使用mAcc和mIoU作為評估指標(biāo)。各種方法的這些結(jié)果取自原始論文,如表7所示。下表所示。

de57c596-5bf0-11ed-a3b6-dac502259ad0.png

論文在S3DIS[1](5折和6折交叉驗證)、ScanNet[20](測試集)、Semantic3D[39](縮減的8個子集)和SemanticKITTI[3](僅xyz,無RGB)上報告了投影圖像/體素/點云/其他表示語義分割方法的結(jié)果。使用mAcc、oAcc和mIoU作為評估指標(biāo)。這些不同方法的結(jié)果取自原始論文。表8列出了結(jié)果。

de7af444-5bf0-11ed-a3b6-dac502259ad0.png

由于本文的主要興趣是基于點云的語義分割方法,因此重點對這些方法的性能進(jìn)行詳細(xì)分析。為了捕獲對語義分割性能至關(guān)重要的更廣泛的上下文特征和更豐富的局部特征,在基本框架上提出了幾種專用策略。

基礎(chǔ)網(wǎng)絡(luò)是3D分割發(fā)展的主要推動力之一。一般來說,有兩個主要的基本框架,包括PointNet和PointNet++框架,它們的缺點也指出了改進(jìn)的方向;

自然環(huán)境中的物體通常具有各種形狀。局部特征可以增強(qiáng)目標(biāo)的細(xì)節(jié)分割;

3D場景中的目標(biāo)可以根據(jù)與環(huán)境中的其他目標(biāo)的某種關(guān)系來定位。已經(jīng)證明,上下文特征(指目標(biāo)依賴性)可以提高語義分割的準(zhǔn)確性,特別是對于小的和相似的目標(biāo)。

3D實例分割結(jié)果

論文報告了ScanNet[20]數(shù)據(jù)集上3D實例分割方法的結(jié)果,并選擇mAP作為評估指標(biāo)。這些方法的結(jié)果取自ScanNet Benchmark Challenge網(wǎng)站,如表9所示,并在圖9中總結(jié)。該表和圖如下所示:

de9af046-5bf0-11ed-a3b6-dac502259ad0.png

dec4254c-5bf0-11ed-a3b6-dac502259ad0.png

OccusSeg[40]具有最先進(jìn)的性能,在本文調(diào)查時,ScanNet數(shù)據(jù)集的平均精度為67.2%;

大多數(shù)方法在諸如“浴缸”和“廁所”之類的大規(guī)模類上具有更好的分割性能,而在諸如“柜臺”、“桌子”和“圖片”之類的小規(guī)模類上具有較差的分割性能。因此,小目標(biāo)的實例分割是一個突出的挑戰(zhàn);

在所有類的實例分割方面,無Proposal方法比基于提案的方法具有更好的性能,尤其是對于“窗簾”、“其他”、“圖片”、“淋浴簾”和“水槽”等小目標(biāo);

在基于Proposal的方法中,基于2D嵌入傳播的方法,包括3D-BEVIS[23]、PanoticFusion[102],與其他基于無提案的方法相比,性能較差。簡單的嵌入傳播容易產(chǎn)生錯誤標(biāo)簽。

3D部件分割結(jié)果

論文報告了ShapeNet[169]數(shù)據(jù)集上3D零件分割方法的結(jié)果,并使用了Ins.mIoU作為評估度量。各種方法的這些結(jié)果取自原始論文,如表10所示。我們可以看到:

deebac7a-5bf0-11ed-a3b6-dac502259ad0.png

LatticeNet[40]具有最先進(jìn)的性能,在本文調(diào)查時,ShapeNet數(shù)據(jù)集的平均精度為93.9%;

所有方法的部件分割性能非常相似。

討論和結(jié)論

論文使用深度學(xué)習(xí)技術(shù),包括3D語義分割、3D實例分割和3D部件分割,對3D分割的最新發(fā)展進(jìn)行了全面綜述。論文對每個類別中的各種方法進(jìn)行了全面的性能比較和優(yōu)點。近年來,使用深度學(xué)習(xí)技術(shù)的3D分割取得了重大進(jìn)展。然而,這僅僅是一個開始,重要的發(fā)展擺在我們面前。下面,論文提出一些懸而未決的問題,并確定潛在的研究方向。

合成數(shù)據(jù)集為多個任務(wù)提供了更豐富的信息:與真實數(shù)據(jù)集相比,合成數(shù)據(jù)集成本低、場景多樣,因此在語義分割方面逐漸發(fā)揮重要作用[7]、[155]。眾所周知,訓(xùn)練數(shù)據(jù)中包含的信息決定了場景解析精度的上限?,F(xiàn)有的數(shù)據(jù)集缺少重要的語義信息,如材料和紋理信息,這對于具有相似顏色或幾何信息的分割更為關(guān)鍵。此外,大多數(shù)現(xiàn)有數(shù)據(jù)集通常是為單個任務(wù)設(shè)計的。目前,只有少數(shù)語義分割數(shù)據(jù)集還包含實例[20]和場景布局[127]的標(biāo)簽,以滿足多任務(wù)目標(biāo)。

多任務(wù)的統(tǒng)一網(wǎng)絡(luò):對于一個系統(tǒng)來說,通過各種深度學(xué)習(xí)網(wǎng)絡(luò)來完成不同的計算機(jī)視覺任務(wù)是昂貴且不切實際的。對于場景的基本特征開發(fā),語義分割與一些任務(wù)具有很強(qiáng)的一致性,例如深度估計[97]、[85]、[36]、[141]、[1141]、[87]、場景補全[22]、實例分割[146]、[107]、[81]和目標(biāo)檢測[97]。這些任務(wù)可以相互協(xié)作,以提高統(tǒng)一網(wǎng)絡(luò)中的性能。語義/實例分割可以進(jìn)一步與部件分割和其他計算機(jī)視覺任務(wù)相結(jié)合,用于聯(lián)合學(xué)習(xí)。

場景解析的多種模式:使用多個不同表示的語義分割,例如投影圖像、體素和點云,可能實現(xiàn)更高的精度。然而,由于場景信息的限制,如圖像的幾何信息較少,體素的語義信息較少,單一表示限制了分割精度。多重表示(多模態(tài))將是提高性能的另一種方法[21],[15],[90],[58],[97]。

高效的基于點云卷積的網(wǎng)絡(luò):基于點云的語義分割網(wǎng)絡(luò)正成為當(dāng)今研究最多的方法。這些方法致力于充分探索逐點云特征和點云/特征之間的連接。然而,他們求助于鄰域搜索機(jī)制,例如KNN、ball query[109]和分層框架[154],這很容易忽略局部區(qū)域之間的低級特征,并進(jìn)一步增加了全局上下文特征開發(fā)的難度。

弱監(jiān)督和無監(jiān)督的3D分割:深度學(xué)習(xí)在3D分割方面取得了顯著的成功,但嚴(yán)重依賴于大規(guī)模標(biāo)記的訓(xùn)練樣本。弱監(jiān)督和無監(jiān)督學(xué)習(xí)范式被認(rèn)為是緩解大規(guī)模標(biāo)記數(shù)據(jù)集要求的替代方法。目前,工作[162]提出了一個弱監(jiān)督網(wǎng)絡(luò),它只需要對一小部分訓(xùn)練樣本進(jìn)行標(biāo)記。[75]、[178]提出了一種無監(jiān)督網(wǎng)絡(luò),該網(wǎng)絡(luò)從數(shù)據(jù)本身生成監(jiān)督標(biāo)簽。

大規(guī)模場景的語義分割一直是研究的熱點?,F(xiàn)有方法僅限于極小的3D點云[108]、[69](例如,4096個點云或1x1米塊),在沒有數(shù)據(jù)預(yù)處理的情況下,無法直接擴(kuò)展到更大規(guī)模的點云(例如,數(shù)百萬個點云或數(shù)百米)。盡管RandLA Net[48]可以直接處理100萬個點,但速度仍然不夠,需要進(jìn)一步研究大規(guī)模點云上的有效語義分割問題。

3D視頻語義分割:與2D視頻語義分割一樣,少數(shù)作品試圖在3D視頻上利用4D時空特征(也稱為4D點云)[17],[122]。從這些工作中可以看出,時空特征可以幫助提高3D視頻或動態(tài)3D場景語義分割的魯棒性。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2836

    瀏覽量

    107000
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1197

    瀏覽量

    24532
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5422

    瀏覽量

    120587

原文標(biāo)題:史上最全 | 基于深度學(xué)習(xí)的3D分割綜述(RGB-D/點云/體素/多目)

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    常用的RGB-D SLAM解決方案

    BundleFusion是一種稠密的實時室內(nèi)場景三維重建算法框架。輸入為RGB-D相機(jī)采集的并且是對齊好的RGB圖像和深度圖的數(shù)據(jù)流。輸出為重建好的稠密三維場景模型。
    的頭像 發(fā)表于 04-16 09:37 ?617次閱讀
    常用的<b class='flag-5'>RGB-D</b> SLAM解決方案

    基于深度學(xué)習(xí)的方法在處理3D進(jìn)行缺陷分類應(yīng)用

    背景部分介紹了3D應(yīng)用領(lǐng)域中公開可訪問的數(shù)據(jù)集的重要性,這些數(shù)據(jù)集對于分析和比較各種模型至關(guān)重要。研究人員專門設(shè)計了各種數(shù)據(jù)集,包括用于3D形狀分類、
    的頭像 發(fā)表于 02-22 16:16 ?785次閱讀
    基于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的方法在處理<b class='flag-5'>3D</b><b class='flag-5'>點</b><b class='flag-5'>云</b>進(jìn)行缺陷分類應(yīng)用

    移動協(xié)作機(jī)器人的RGB-D感知的端到端處理方案

    本文提出了一種用于具有雙目視覺的自主機(jī)器人的三維語義場景感知的端到端流程。該流程包括實例分割、特征匹配和集配準(zhǔn)。首先,利用RGB圖像進(jìn)行單視圖三維語義場景分割,將2
    發(fā)表于 02-21 15:55 ?484次閱讀
    移動協(xié)作機(jī)器人的<b class='flag-5'>RGB-D</b>感知的端到端處理方案

    友思特C系列3D相機(jī):實時3D云圖像

    3D相機(jī)
    虹科光電
    發(fā)布于 :2024年01月10日 17:39:25

    兩種應(yīng)用于3D對象檢測的深度學(xué)習(xí)方法

    隨著激光雷達(dá)傳感器(“光檢測和測距”的縮寫,有時稱為“激光掃描”,現(xiàn)在在一些最新的 iPhone 上可用)或 RGB-D 攝像頭(一種 RGB-D 攝像頭)的興起,3D 數(shù)據(jù)變得越來越廣泛。D
    的頭像 發(fā)表于 01-03 10:32 ?667次閱讀
    兩種應(yīng)用于<b class='flag-5'>3D</b>對象檢測的<b class='flag-5'>點</b><b class='flag-5'>云</b><b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>方法

    基于3D的多任務(wù)模型在板端實現(xiàn)高效部署

    對于自動駕駛應(yīng)用來說,3D 場景感知至關(guān)重要。3D數(shù)據(jù)就是具有3D特征的數(shù)據(jù)。一方面,3D
    的頭像 發(fā)表于 12-28 16:35 ?1156次閱讀
    基于<b class='flag-5'>3D</b><b class='flag-5'>點</b><b class='flag-5'>云</b>的多任務(wù)模型在板端實現(xiàn)高效部署

    手持RGB-D傳感器廣泛應(yīng)用的情況

    DisCo方法:提出了一種基于擴(kuò)散的跨模態(tài)形狀重建方法。該方法利用三平面擴(kuò)散模型,結(jié)合部分點云和視圖圖像,實現(xiàn)了高保真度的3D形狀重建?;旌咸卣骶酆蠈佑行诤狭瞬煌斎肽B(tài)的局部特征,提高了特征對齊效果。
    的頭像 發(fā)表于 12-26 16:44 ?346次閱讀
    手持<b class='flag-5'>RGB-D</b>傳感器廣泛應(yīng)用的情況

    一文了解3D視覺和2D視覺的區(qū)別

    一文了解3D視覺和2D視覺的區(qū)別 3D視覺和2D視覺是兩種不同的視覺模式,其區(qū)別主要體現(xiàn)在立體感、深度感和逼真度上。本文將詳細(xì)闡述這些區(qū)別,
    的頭像 發(fā)表于 12-25 11:15 ?2339次閱讀

    提供3D打印材料與解決方案,助力3D打印產(chǎn)業(yè)發(fā)展

    提供3D打印材料與解決方案,助力3D打印產(chǎn)業(yè)發(fā)展
    的頭像 發(fā)表于 12-12 11:12 ?388次閱讀

    一種基于RGB-D圖像序列的協(xié)同隱式神經(jīng)同步定位與建圖(SLAM)系統(tǒng)

    提出了一種基于RGB-D圖像序列的協(xié)同隱式神經(jīng)同步定位與建圖(SLAM)系統(tǒng),該系統(tǒng)由完整的前端和后端模塊組成,包括里程計、回環(huán)檢測、子圖融合和全局優(yōu)化。
    的頭像 發(fā)表于 11-29 10:35 ?467次閱讀
    一種基于<b class='flag-5'>RGB-D</b>圖像序列的協(xié)同隱式神經(jīng)同步定位與建圖(SLAM)系統(tǒng)

    NeurlPS&apos;23開源 | 首個!開放詞匯3D實例分割!

    我們介紹了開放詞匯3D實例分割的任務(wù)。當(dāng)前的3D實例分割方法通常只能從訓(xùn)練數(shù)據(jù)集中標(biāo)注的預(yù)定義的封閉類集中識別對象類別。這給現(xiàn)實世界的應(yīng)用程序帶來了很大的限制,在現(xiàn)實世界的應(yīng)用程序中,
    的頭像 發(fā)表于 11-14 15:53 ?452次閱讀
    NeurlPS&apos;23開源 | 首個!開放詞匯<b class='flag-5'>3D</b>實例<b class='flag-5'>分割</b>!

    基于深度學(xué)習(xí)3D實例分割方法

    3D實例分割3DIS)是3D領(lǐng)域深度學(xué)習(xí)的核心問題。給定由
    發(fā)表于 11-13 10:34 ?1626次閱讀
    基于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的<b class='flag-5'>3D</b><b class='flag-5'>點</b><b class='flag-5'>云</b>實例<b class='flag-5'>分割</b>方法

    基于3D形狀重建網(wǎng)絡(luò)的機(jī)器人抓取規(guī)劃方法

    一個帶有分割掩碼的輸入RGB-D圖像被提供給兩個神經(jīng)網(wǎng)絡(luò),分別產(chǎn)生一個6自由度的抓取姿勢和一個物體的3D重建。通過將抓取姿勢投影到點云中
    發(fā)表于 11-02 10:39 ?377次閱讀
    基于<b class='flag-5'>3D</b>形狀重建網(wǎng)絡(luò)的機(jī)器人抓取規(guī)劃方法

    如何實現(xiàn)高精度的3D感知

    兩個范疇。 在稠密算法范疇,主要通過轉(zhuǎn)換、視圖立體視覺等方法,來獲取場景中每一個深度信息,從而更準(zhǔn)確地描述場景中的物體。其中最具代
    的頭像 發(fā)表于 10-17 09:53 ?1031次閱讀

    以單顆CMOS攝像頭重構(gòu)三維場景,維悟光子發(fā)布單紅外3D成像模組

    硬件系統(tǒng)的輕量化和降本是3D視覺市場演進(jìn)的必然趨勢。維悟光子通過底層原理的創(chuàng)新,僅利用單CMOS相機(jī)(最簡單的成像系統(tǒng))就可以獲取完整的3D信息。本次發(fā)布的單紅外
    的頭像 發(fā)表于 10-13 15:45 ?549次閱讀
    以單顆CMOS攝像頭重構(gòu)三維場景,維悟光子發(fā)布單<b class='flag-5'>目</b>紅外<b class='flag-5'>3D</b>成像模組