0. 筆者個(gè)人體會(huì)
近年來,自動(dòng)駕駛領(lǐng)域的各項(xiàng)下游任務(wù)基本上都要求了對(duì)場(chǎng)景的語義理解,比如自動(dòng)駕駛車輛要能夠理解哪個(gè)是路面、哪個(gè)是交通燈、哪個(gè)是行人、哪個(gè)是樹木,因此點(diǎn)云分割的作用就不言而喻。
但隨著Transformer模型的大火,用于點(diǎn)云分割的深度神經(jīng)網(wǎng)絡(luò)的參數(shù)量越來越龐大,動(dòng)不動(dòng)就上億參數(shù)。想要訓(xùn)練如此龐大的模型,除了需要足夠強(qiáng)的GPU外,還需要大量的標(biāo)簽和數(shù)據(jù)。數(shù)據(jù)很容易得到,64線的激光雷達(dá)一幀可以打出十幾萬個(gè)點(diǎn)云,現(xiàn)有的雷達(dá)數(shù)據(jù)集也不少了。但標(biāo)簽?zāi)??給點(diǎn)云打過label的人都知道這個(gè)過程有多繁瑣(haaaaa)。
由此,點(diǎn)云分割模型便出現(xiàn)了各種各樣的訓(xùn)練范式,主要包括有監(jiān)督、弱監(jiān)督、無監(jiān)督以及半監(jiān)督。那么哪種訓(xùn)練方法才是最優(yōu)的?顯然這個(gè)問題在不同場(chǎng)景下有不同的答案。本文將帶領(lǐng)讀者閱讀幾種主流的頂會(huì)框架,探討不同訓(xùn)練方法的基本原理。當(dāng)然筆者水平有限,若有理解不當(dāng)?shù)牡胤剑瑲g迎大家一起探討,共同學(xué)習(xí)!
劃重點(diǎn),本文提到的算法都是開源的!文末附代碼鏈接!各位讀者可在現(xiàn)有模型的基礎(chǔ)上設(shè)計(jì)自己的點(diǎn)云分割模型。
1. 點(diǎn)云分割相較圖像分割的優(yōu)勢(shì)是啥?
自動(dòng)駕駛領(lǐng)域的下游任務(wù),我認(rèn)為主要包括目標(biāo)檢測(cè)、語義分割、實(shí)例分割和全景分割。其中目標(biāo)檢測(cè)是指在區(qū)域中提取目標(biāo)的候選框并分類,語義分割是對(duì)區(qū)域中不同類別的物體進(jìn)行區(qū)域性劃分,實(shí)例分割是將每個(gè)類別進(jìn)一步細(xì)化為單獨(dú)的實(shí)例,全景分割則要求對(duì)區(qū)域中的每一個(gè)像素/點(diǎn)云都進(jìn)行分類。
因?yàn)閳D像中存在大量且豐富的紋理信息,且相機(jī)相較于雷達(dá)很便宜,所以對(duì)圖像進(jìn)行分割非常容易。近年來也涌現(xiàn)了一大批圖像語義分割的深度模型,比如我們所熟知的ViT、TransUNet、YOLOP等等。各自架構(gòu)層出不窮,不停的在各種排行榜上提點(diǎn),似乎圖像語義分割已經(jīng)非常完美。
那么為啥還要對(duì)雷達(dá)點(diǎn)云進(jìn)行分割呢?
主要有三個(gè)原因:
(1) 激光雷達(dá)可以獲得絕對(duì)尺度。
我們知道單目圖像是無法獲得絕對(duì)尺度的,并且自動(dòng)駕駛汽車在長(zhǎng)時(shí)間運(yùn)行過程中也會(huì)發(fā)生尺度漂移問題。雖然現(xiàn)有的一些方法在嘗試從單目圖像中恢復(fù)出絕對(duì)尺度,但基本上也都不太準(zhǔn)確。這就導(dǎo)致了單純從圖像中提取出來的語義信息,很難直接應(yīng)用于軌跡規(guī)劃、避障、巡航等自動(dòng)駕駛?cè)蝿?wù)。
(2) 激光雷達(dá)對(duì)強(qiáng)/弱光線非常魯棒
視覺語義分割非常受光照和惡劣天氣影響,在過強(qiáng)、過弱、模糊等光線條件下,分割結(jié)果往往會(huì)出現(xiàn)很嚴(yán)重的畸變。但對(duì)于自動(dòng)駕駛?cè)蝿?wù)來說,惡劣天氣顯然是無法避免的。
(3) 激光雷達(dá)可以對(duì)環(huán)境進(jìn)行3D感知
我們希望自動(dòng)駕駛汽車能夠?qū)χ車恼w環(huán)境進(jìn)行全方位的感知,這對(duì)于激光雷達(dá)來說很容易。但對(duì)于圖像來說就很難了,僅僅依靠單目圖像很難恢復(fù)出完整的環(huán)境。依靠環(huán)視相機(jī)進(jìn)行BEV感知的話也會(huì)帶來像素畸變問題。
2. 都用啥數(shù)據(jù)集?
這里介紹幾個(gè)主流的點(diǎn)云分割數(shù)據(jù)集,用于模型的訓(xùn)練和評(píng)估。
2.1 nuScenes-Lidarseg數(shù)據(jù)集
數(shù)據(jù)集鏈接:https://www.nuscenes.org/nuscenes#lidarseg(注意總文件有293G)
nuScenes數(shù)據(jù)集是由Motional公司在2019年3月發(fā)布的用于自動(dòng)駕駛的共有大型數(shù)據(jù)集。數(shù)據(jù)集來源于波士頓和新加坡采集的1000個(gè)駕駛場(chǎng)景,每個(gè)場(chǎng)景選取了20秒長(zhǎng)的視頻,共計(jì)大約15小時(shí)的駕駛數(shù)據(jù)。場(chǎng)景選取時(shí)充分考慮多樣化的駕駛操作、交通情況和意外情況等,例如不同地點(diǎn)、天氣條件、車輛類型、植被、道路標(biāo)和駕駛規(guī)則等。
完整的nuScenes數(shù)據(jù)集包括大約140萬個(gè)圖像、40萬個(gè)激光雷達(dá)點(diǎn)云、140萬個(gè)雷達(dá)掃描和4萬個(gè)關(guān)鍵幀中的140萬個(gè)對(duì)象邊界框。其傳感器包括6個(gè)攝像頭、1個(gè)32線激光雷達(dá)、5個(gè)毫米波雷達(dá)、GPS和IMU,如下圖所示。2020年7月發(fā)布的nuScenes-lidarseg數(shù)據(jù)集,增加了激光雷達(dá)點(diǎn)云的語義分割標(biāo)注,涵蓋了23個(gè)前景類和9個(gè)背景類。nuScenes-lidarseg在40萬個(gè)點(diǎn)云和1000個(gè)場(chǎng)景(850個(gè)用于訓(xùn)練和驗(yàn)證的場(chǎng)景,150個(gè)用于測(cè)試的場(chǎng)景)中包含14億個(gè)注釋點(diǎn)。
2.2 SemanticKITTI數(shù)據(jù)集
數(shù)據(jù)集地址:http://www.semantic-kitti.org/index.html
SemanticKITTI數(shù)據(jù)集是一個(gè)基于KITTI Vision Benchmark里程計(jì)數(shù)據(jù)集的大型戶外點(diǎn)云數(shù)據(jù)集,顯示了市中心的交通、住宅區(qū),以及德國卡爾斯魯厄周圍的高速公路場(chǎng)景和鄉(xiāng)村道路。原始里程計(jì)數(shù)據(jù)集由22個(gè)序列組成,作者將序列00到10拆分為訓(xùn)練集,將11到21拆分為測(cè)試集,并且為了與原始基準(zhǔn)保持一致,作者對(duì)訓(xùn)練和測(cè)試集采用相同的劃分,采用和KITTI數(shù)據(jù)集相同的標(biāo)定方法,這使得該數(shù)據(jù)集和KITTI數(shù)據(jù)集等數(shù)據(jù)集可以通用。
SemanticKITTI數(shù)據(jù)集作者提供了精確的序列掃描注釋,并且在點(diǎn)注釋中顯示了前所未有的細(xì)節(jié),包含28個(gè)類。
2.3 ScribbleKITTI數(shù)據(jù)集
這個(gè)數(shù)據(jù)集很新,是CVPR2022 Oral的成果。
論文鏈接:https://arxiv.org/abs/2203.08537
數(shù)據(jù)集鏈接:http://github.com/ouenal/scribblekitti
ScribbleKITTI數(shù)據(jù)集希望通過利用弱監(jiān)督(weak supervision)來實(shí)現(xiàn)3D語義分割方法,首次提出了使用涂鴉(scribbles)對(duì)雷達(dá)點(diǎn)云進(jìn)行標(biāo)注。但這也導(dǎo)致那些包含邊緣信息的未標(biāo)注點(diǎn)并未被使用,且由于缺乏大量標(biāo)注點(diǎn)(該方法只使用8%的標(biāo)注點(diǎn))的數(shù)據(jù),影響了具有長(zhǎng)尾分布的類置信度,最終使得模型性能有所下降。
因此,ScribbleKITTI還提出了一個(gè)額外的pipeline,用以減少這種性能差距。該pipeline由三個(gè)獨(dú)立的部分組成,可以與任何LiDAR語義分割模型相結(jié)合。論文代碼采用Cylinder3D模型,在只使用8%標(biāo)注的情況下,可達(dá)到95.7%的全監(jiān)督性能。
論文提出的pipeline可分為訓(xùn)練、偽標(biāo)簽和蒸餾這三個(gè)階段:在訓(xùn)練期間,首先通過PLS來對(duì)數(shù)據(jù)進(jìn)行增強(qiáng),再訓(xùn)練mean teacher,這有利于后面生成更高質(zhì)量的偽標(biāo)簽。在偽標(biāo)簽階段,通過CRB來產(chǎn)生目標(biāo)標(biāo)簽,降低由于點(diǎn)云自身屬性降低生成偽標(biāo)簽的質(zhì)量。在蒸餾階段,通過前面生成的偽標(biāo)簽再對(duì)mean teacher進(jìn)行訓(xùn)練。
3. 雷達(dá)點(diǎn)云表征
深度學(xué)習(xí)模型都需要一個(gè)規(guī)范化的數(shù)據(jù)表征,才能進(jìn)行合理的特征提取和融合。對(duì)于圖像來說,是一個(gè)非常規(guī)整的2D表征,即每個(gè)像素位置都是固定的,這有利于模型訓(xùn)練和測(cè)試。但對(duì)于3D點(diǎn)云來說,每幀點(diǎn)云有十幾萬個(gè)點(diǎn),雜亂無章的點(diǎn)云必然不利于模型訓(xùn)練。因此需要對(duì)雷達(dá)點(diǎn)云進(jìn)行合理表征。
雷達(dá)點(diǎn)云主要的表征模式有四種:
(1) 2D Range View表征
非常接近圖像,將點(diǎn)云投影到平面,直接進(jìn)行2D表征,得到x、y坐標(biāo)。有時(shí)投影過程中還會(huì)考慮點(diǎn)云強(qiáng)度、深度以及每個(gè)方格是否有點(diǎn)云。網(wǎng)絡(luò)輸入也就是2D Range View,首先提取特征,然后進(jìn)行特征融合,最后根據(jù)不同的分割頭進(jìn)行語義訓(xùn)練。
(2) 2D BEV表征
對(duì)于很多自動(dòng)駕駛場(chǎng)景,往往是x和y坐標(biāo)范圍有幾十米上百米,但z方向的坐標(biāo)只有幾米。因此有些表征就直接省略掉z方向的表達(dá),通過俯視圖得到極坐標(biāo)表征。
(3) 3D Cylinder Voxel表征
在點(diǎn)云z方向進(jìn)行Cylinder的劃分,是一種3D描述,典型代表就是Cylinder3D。注意為什么要用Cylinder來表征而不是其他正方體呢?這是因?yàn)辄c(diǎn)云分布的密度是不一樣的,在自車周圍的點(diǎn)云密度很大,在周圍的點(diǎn)云密度很小。通過這種不規(guī)則的劃分就更有利于特征提取。
(4) 混合表征
顯然每種表征方法都有各自的特點(diǎn)和優(yōu)劣,那么有些文章就將不同的表征模式進(jìn)行混合,進(jìn)而得到更強(qiáng)的表征。具體執(zhí)行過程中會(huì)先通過不同的支路單獨(dú)進(jìn)行特征提取,之后進(jìn)行特征融合并輸出頭。
而針對(duì)不同的表征,也有不同的操作。對(duì)于3D表征來說,主要是Conv3d和SparseConv,對(duì)于2D表征來說,主要是Conv2d和線性Linear。對(duì)于直接將點(diǎn)作為輸入的一維表征,使用Conv1d和線性Linear。
4. 全監(jiān)督算法
華南理工大學(xué)今年11月在arXiv上傳了論文“Superpoint Transformer for 3D Scene Instance Segmentation”,基于Transformer構(gòu)建了一個(gè)新的點(diǎn)云分割框架,名為SPFormer。具體來說,作者提出一種基于Superpoint Transformer的新型端到端三維實(shí)例分割方法,它將點(diǎn)云中的隱特征分組為超點(diǎn),并通過查詢向量直接預(yù)測(cè)實(shí)例,而不依賴目標(biāo)檢測(cè)或語義分割的結(jié)果。
SPFormer其實(shí)針對(duì)的不是自動(dòng)駕駛場(chǎng)景,它主要是在ScanNet和S3DIS這兩個(gè)室內(nèi)數(shù)據(jù)集上進(jìn)行訓(xùn)練和評(píng)估。感覺最近很少有自動(dòng)駕駛場(chǎng)景的全監(jiān)督算法了,主要還是因?yàn)閷?duì)數(shù)據(jù)量和標(biāo)注要求太大。
這個(gè)框架的關(guān)鍵步驟是一個(gè)帶有Transformer的新型查詢解碼器,它可以通過超點(diǎn)交叉關(guān)注機(jī)制捕捉實(shí)例信息并生成實(shí)例的超點(diǎn)掩碼。通過基于超點(diǎn)掩碼的雙點(diǎn)匹配,SPFormer可以實(shí)現(xiàn)網(wǎng)絡(luò)訓(xùn)練,而不需要中間的聚合步驟,這就加速了網(wǎng)絡(luò)的發(fā)展。
SPFormer的結(jié)果也很漂亮,在ScanNetv2 hidden上的mAP達(dá)到了54.9%,比之前最好的結(jié)果高出4.3%。對(duì)于具體的18個(gè)類別,SPFormer在其中的8個(gè)類別上取得了最高的AP得分。特別是在counter類別中,SPFormer超過了之前最好的AP分?jǐn)?shù)10%以上。
總結(jié)一下,全監(jiān)督算法的精度應(yīng)該是最高的,因?yàn)榻邮芰送耆臉?biāo)簽訓(xùn)練,但是對(duì)數(shù)據(jù)量和標(biāo)注的要求越來越大。
5. 弱監(jiān)督算法
感覺ScribbleKITTI中提出的弱監(jiān)督Pipeline非常妙了,可以與任何LiDAR語義分割模型相結(jié)合,這里再回顧一下。
這里再介紹一個(gè)基于雷達(dá)引導(dǎo)的圖像弱監(jiān)督分割算法,感覺很有意思:
是由北京理工大學(xué)和上海AI Lab聯(lián)合提出的LWSIS,今年12月7日上傳到arXiv,錄用到了2023 AAAI,可以說非常新!論文題目是“LWSIS: LiDAR-guidedWeakly Supervised Instance Segmentation for Autonomous Driving”。
LWSIS利用現(xiàn)有的點(diǎn)云和3D框,作為訓(xùn)練2D圖像實(shí)例分割模型的自然弱監(jiān)督。LWSIS不僅在訓(xùn)練過程中利用了多模態(tài)數(shù)據(jù)中的互補(bǔ)信息,而且顯著降低了稠密二維掩膜的標(biāo)注成本。具體來說,LWSIS包括兩個(gè)關(guān)鍵模塊:點(diǎn)標(biāo)簽分配(PLA)和基于圖的一致性正則化(GCR)。前者旨在將三維點(diǎn)云自動(dòng)分配為二維逐點(diǎn)標(biāo)簽,而后者通過增強(qiáng)多模態(tài)數(shù)據(jù)的幾何和外觀一致性來進(jìn)一步優(yōu)化預(yù)測(cè)。此外,作者對(duì)nuScenes進(jìn)行了二次實(shí)例分割標(biāo)注,命名為nuInsSeg,以鼓勵(lì)多模態(tài)感知任務(wù)的進(jìn)一步研究。
在nuInsSeg和大規(guī)模Waymo上的大量實(shí)驗(yàn)表明,LWSIS在訓(xùn)練過程中只涉及三維數(shù)據(jù),可以顯著改進(jìn)現(xiàn)有的弱監(jiān)督分割模型。此外,LWSIS還可以與Point Painting等3D目標(biāo)檢測(cè)器結(jié)合,提升3D檢測(cè)性能。
總結(jié)一下,感覺弱監(jiān)督算法是現(xiàn)在的一個(gè)主流發(fā)展趨勢(shì)。也就是說,放棄標(biāo)注復(fù)雜的目標(biāo),轉(zhuǎn)而去用一些容易得到的表情來引導(dǎo)訓(xùn)練。感覺這種思想非常巧妙!當(dāng)然用來引導(dǎo)的標(biāo)簽不一定要是涂鴉或者點(diǎn)云,也可以是其他形式,讀者可以由此設(shè)計(jì)自己的弱監(jiān)督分割網(wǎng)絡(luò)。
6. 無監(jiān)督算法
點(diǎn)云分割算法是否可以完全不依賴標(biāo)簽?
這似乎是個(gè)很難回答的問題,沒有標(biāo)簽,也就完全無法知道物體的類別先驗(yàn),就更加無法進(jìn)行訓(xùn)練。
但香港理工大學(xué)的2022 NeurIPS論文“OGC: Unsupervised 3D Object Segmentation from Rigid Dynamics of Point Clouds”似乎回答了這個(gè)問題。作者的思路也很巧妙:一輛汽車上的所有點(diǎn)一起向前運(yùn)動(dòng),而場(chǎng)景中其他的點(diǎn)則保持靜止。那么理論上,我們可以基于每個(gè)點(diǎn)的運(yùn)動(dòng),將場(chǎng)景中屬于汽車的點(diǎn)和其他點(diǎn)分割開,實(shí)現(xiàn)右圖中的效果。
OGC是一種通用的、能分割多個(gè)物體的無監(jiān)督3D物體分割方法,這種方法在完全無標(biāo)注的點(diǎn)云序列上進(jìn)行訓(xùn)練,從運(yùn)動(dòng)信息中學(xué)習(xí)3D物體分割。經(jīng)過訓(xùn)練后,能夠直接在單幀點(diǎn)云上進(jìn)行物體分割。OGC框架的核心是:以物體在運(yùn)動(dòng)中保持幾何形狀一致作為約束條件,設(shè)計(jì)一組損失函數(shù),能夠有效地利用運(yùn)動(dòng)信息為物體分割提供監(jiān)督信號(hào)。
OGC以單點(diǎn)云作為輸入,并直接在一次向前傳遞中估計(jì)多個(gè)對(duì)象遮罩。OGC利用連續(xù)點(diǎn)云的潛在動(dòng)態(tài)作為監(jiān)督信號(hào)。具體架構(gòu)由三個(gè)主要組件組成: (1)目標(biāo)分割網(wǎng)絡(luò)提取每一點(diǎn)的特征,并從單一點(diǎn)云估計(jì)所有對(duì)象掩模如橙色塊所示;(2)輔助自監(jiān)督網(wǎng)絡(luò)來估計(jì)來自一對(duì)點(diǎn)云的每點(diǎn)運(yùn)動(dòng)矢量;3)一系列損失函數(shù)充分利用運(yùn)動(dòng)動(dòng)態(tài)來監(jiān)控目標(biāo)分割骨干。對(duì)于前兩個(gè)組件,實(shí)際上可以靈活地采用現(xiàn)有的提取器和自監(jiān)督運(yùn)動(dòng)估計(jì)器。
總結(jié)一下,無監(jiān)督算法現(xiàn)在應(yīng)該還比較少。OGC是利用了運(yùn)動(dòng)約束,可以很巧妙得訓(xùn)練點(diǎn)云分割網(wǎng)絡(luò)。但是靜止的物體呢?比如樹木、交通燈、建筑。未來應(yīng)該還會(huì)有很多大神提出更多巧妙的思路,讓我們拭目以待。
7. 半監(jiān)督算法
全監(jiān)督和弱監(jiān)督都要求對(duì)每幀點(diǎn)云都進(jìn)行標(biāo)注,只是弱監(jiān)督標(biāo)注的少,無監(jiān)督不需要標(biāo)注。那么半監(jiān)督呢?這里半監(jiān)督指的是,一部分的點(diǎn)云需要進(jìn)行標(biāo)注,另外一部分不需要任何標(biāo)注。即,在充分利用到現(xiàn)有的已標(biāo)注數(shù)據(jù)的基礎(chǔ)上,結(jié)合便于收集的大量無標(biāo)注數(shù)據(jù),訓(xùn)練泛化能力優(yōu)異的模型。
本文介紹的算法是新加坡國立大學(xué)今年6月提出的LaserMix for Semi-Supervised LiDAR Semantic Segmentation。
這項(xiàng)工作的思路非常巧妙!作者發(fā)現(xiàn),無論是靜態(tài)背景還是動(dòng)態(tài)前景對(duì)象,都在LiDAR點(diǎn)云場(chǎng)景中表現(xiàn)出很強(qiáng)的結(jié)構(gòu)先驗(yàn),而這種先驗(yàn)可以很好地由LiDAR的激光束所表征。以最常見的旋轉(zhuǎn)型LiDAR傳感器為例,其以自車為中心向周圍各向同性地發(fā)射具有固定傾角的激光射線,由于不同類別本身具有特殊的分布,由激光射線探測(cè)并返回的點(diǎn)便能夠較為精準(zhǔn)地捕捉到這些不同類別所蘊(yùn)藏的結(jié)構(gòu)化信息。
例如,road類在靠近自車周圍的區(qū)域中大量分布,主要由位于下部的射線所收集;vegetation類分布在遠(yuǎn)離自車的區(qū)域,主要由位于上部的具有較大正向傾角(inclination)的射線所收集;而car類主要分布在LiDAR點(diǎn)云場(chǎng)景的中部區(qū)域,主要由中間的射線所收集。
LaserMix管道有兩個(gè)分支,一個(gè)有標(biāo)注的學(xué)生分支和沒有標(biāo)注的教師分支。在訓(xùn)練過程中,一個(gè)batch由一半有標(biāo)簽數(shù)據(jù)和一半無標(biāo)簽數(shù)據(jù)組成。LaserMix收集來自學(xué)生和教師的預(yù)測(cè),并使用預(yù)定義的置信度閾值從教師網(wǎng)絡(luò)的預(yù)測(cè)中生成偽標(biāo)簽。對(duì)于有標(biāo)記數(shù)據(jù),LaserMix計(jì)算學(xué)生網(wǎng)絡(luò)的預(yù)測(cè)和真實(shí)值之間的交叉熵?fù)p失。對(duì)于無標(biāo)簽數(shù)據(jù),LaserMix將每次掃描與隨機(jī)標(biāo)記掃描混合在一起,加上偽標(biāo)記或真值。然后,令學(xué)生對(duì)混合數(shù)據(jù)進(jìn)行預(yù)測(cè),計(jì)算交叉熵?fù)p失。
LaserMix在Range View和Voxel這兩種點(diǎn)云表征上都進(jìn)行了驗(yàn)證,體現(xiàn)出該方法的普適性和適配性。此外,作者將nuScenes、SemanticKITTI、ScribbleKITTI三個(gè)數(shù)據(jù)集按照1%,10%,20%和50%的有標(biāo)注數(shù)據(jù)比例進(jìn)行了劃分,并認(rèn)為其余數(shù)據(jù)均為未標(biāo)注數(shù)據(jù)。結(jié)果顯示,LaserMix極大地提升了半監(jiān)督條件下的LiDAR分割結(jié)果。無論是在不同的數(shù)據(jù)集還是不同的LiDAR點(diǎn)云表征下,LaserMix的分割結(jié)果都明顯地超過了Sup.-only和SOTA的半監(jiān)督學(xué)習(xí)方法。其中Sup.-only代表僅使用有標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練后的結(jié)果,可以理解為該任務(wù)的下界(lower bound)。
總結(jié)一下,半監(jiān)督算法其實(shí)同時(shí)結(jié)合了弱監(jiān)督和監(jiān)督的優(yōu)點(diǎn)。弱監(jiān)督雖然標(biāo)注的簡(jiǎn)單了,但本質(zhì)上還是需要對(duì)每幀數(shù)據(jù)都進(jìn)行標(biāo)注,這個(gè)工程量也非常大。但是半監(jiān)督居然可以在僅有1%標(biāo)簽數(shù)據(jù)的情況下進(jìn)行訓(xùn)練,訓(xùn)練效果還超過了很多同類型的算法,所以我感覺半監(jiān)督在未來也會(huì)成為主流發(fā)展趨勢(shì),
8. 結(jié)論
本文首先介紹了點(diǎn)云分割相較于圖像分割的優(yōu)勢(shì),然后闡述了一些點(diǎn)云分割必備的基礎(chǔ)知識(shí),最后分別探討了全監(jiān)督、弱監(jiān)督、無監(jiān)督、半監(jiān)督點(diǎn)云分割算法的網(wǎng)絡(luò)架構(gòu)和基本原理。其中,全監(jiān)督算法精度最高,但要求的數(shù)據(jù)量和標(biāo)簽也很大。無監(jiān)督往往是依靠環(huán)境中的某種特殊假設(shè)進(jìn)行訓(xùn)練,在特殊場(chǎng)景下會(huì)非常高效。弱監(jiān)督和半監(jiān)督在很少的數(shù)據(jù)標(biāo)注條件下,達(dá)到了和全監(jiān)督幾乎相當(dāng)?shù)木取9P者認(rèn)為,在未來,弱監(jiān)督和半監(jiān)督是點(diǎn)云分割領(lǐng)域的重要發(fā)展趨勢(shì)。
審核編輯 :李倩
-
圖像
+關(guān)注
關(guān)注
2文章
1078瀏覽量
40375 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1200瀏覽量
24619 -
點(diǎn)云
+關(guān)注
關(guān)注
0文章
58瀏覽量
3775
原文標(biāo)題:點(diǎn)云分割訓(xùn)練哪家強(qiáng)?監(jiān)督,弱監(jiān)督,無監(jiān)督還是半監(jiān)督?
文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論