導(dǎo)讀
論文提出了一個(gè)用于三維點(diǎn)云分析的非參數(shù)網(wǎng)絡(luò),Point-NN,它由純不可學(xué)習(xí)的組件組成:最遠(yuǎn)點(diǎn)采樣(FPS)、k近鄰(k-NN)和三角函數(shù)以及池化操作。令人驚訝的是,它在各種3D任務(wù)上表現(xiàn)得很好,不需要任何參數(shù)或訓(xùn)練,甚至超過了現(xiàn)有的完全訓(xùn)練的模型。從這個(gè)基本的非參數(shù)模型出發(fā),論文提出了兩個(gè)擴(kuò)展。首先,Point-NN可以作為一個(gè)基礎(chǔ)架構(gòu)框架,通過在上面插入線性層來構(gòu)建參數(shù)化網(wǎng)絡(luò)Point-PN。由于具有優(yōu)越的非參數(shù)基礎(chǔ),所構(gòu)建出的Point-PN僅用少量可學(xué)習(xí)參數(shù)表現(xiàn)出高性能-效率的權(quán)衡。其次,Point-NN可以被視為已經(jīng)訓(xùn)練過的三維模型的即插即用模塊。Point-NN捕獲互補(bǔ)的幾何知識(shí),為不同的3D benchmarks來增強(qiáng)現(xiàn)有的方法,而無需再訓(xùn)練。研究者希望該工作可以為社區(qū)用非參數(shù)方法理解三維點(diǎn)云提供一個(gè)線索。
動(dòng)機(jī)
從PointNet++起,包括最遠(yuǎn)點(diǎn)采樣(FPS)、k近鄰(k-NN)和池化操作在內(nèi),所有可學(xué)習(xí)模塊背后的非參數(shù)框架幾乎保持相同。很少有研究去探索它們的療效,論文提出了一個(gè)問題:
僅使用非參數(shù)組件,能否實(shí)現(xiàn)較高的三維點(diǎn)云分析性能?
貢獻(xiàn)
The Pipeline of Non-Parametric Networks
論文提出了一個(gè)非參數(shù)網(wǎng)絡(luò),稱為PointNN,如上圖所示,PointNN由一個(gè)用于3D特征提取的非參數(shù)編碼器和一個(gè)用于特定任務(wù)識(shí)別的point-memory bank組成。該多階段編碼器應(yīng)用FPS、kNN、三角函數(shù)和池化操作來逐步聚合局部幾何圖形,為點(diǎn)云生成一個(gè)高維的全局向量。論文只采用簡單的三角函數(shù)來揭示每個(gè)池化階段的局部空間模式,而沒有可學(xué)習(xí)的算子。然后,多階段編碼器提取到的訓(xùn)練集特征,將其緩存作為point-memory bank。對(duì)于測試點(diǎn)云,bank通過樸素的特征相似度匹配輸出特定于任務(wù)的預(yù)測,從而驗(yàn)證了編碼器的識(shí)別能力。
Two Applications of Point-NN
論文建議重新審視三維點(diǎn)云網(wǎng)絡(luò)中的不可學(xué)習(xí)組件,并首次開發(fā)一種非參數(shù)方法Point-NN進(jìn)行三維點(diǎn)云分析
以Point-NN為基本框架,通過在Point-NN的每個(gè)階段插入線性層,引入了其 parameter-efficient 的變體 Point-PN(上圖a),它在沒有先進(jìn)算子的情況下具有優(yōu)越的性能
作為一個(gè)即插即用的模塊,PointNN可以在推理過程中直接提升各種3D任務(wù)中的現(xiàn)成的訓(xùn)練過的模型(上圖b)
方法
Non-Parametric Networks
論文提出了Point-NN,一個(gè)純粹由不可學(xué)習(xí)的基本組件組成的網(wǎng)絡(luò),以及簡單的三角函數(shù)的三維坐標(biāo)編碼。Point-NN由一個(gè)Non-Parametric Encoder(NPEnc)和一個(gè)Point-Memory Bank(PoM)組成。給定一個(gè)用于形狀分類的輸入點(diǎn)云 ,NPEnc提取其高維全局特征 ,PoM通過相似度匹配產(chǎn)生分類結(jié)果:
Non-Parametric Encoder
Non-Parametric Encoder of Point-NN
如上圖所示,非參數(shù)編碼器首先將輸入點(diǎn)云進(jìn)行Raw-point Embedding得到局部特征,再經(jīng)過4階段的Local Geometry Aggregation逐步聚合局部特征得到全局特征。
Raw-point Embedding
論文參考Transformer中的positional encoding,對(duì)于輸入點(diǎn)云的一個(gè)點(diǎn),利用三角函數(shù)將它嵌入到一個(gè) 維向量中:
其中,表示三個(gè)軸的embedding,表示初始化的特征維度。以 為例,對(duì)于通道索引 :
其中,α,β分別控制了其大小和波長。由于三角函數(shù)的固有性質(zhì),變換后的向量可以很好地編碼不同點(diǎn)之間的相對(duì)位置信息,并捕獲三維形狀的細(xì)粒度結(jié)構(gòu)變化。
Local Geometry Aggregation
基于embedding,論文采用四階段網(wǎng)絡(luò)結(jié)構(gòu)分層聚合空間局部特征。論文使用三角函數(shù)PosE(·)來提取局部特征,取代傳統(tǒng)最近鄰點(diǎn)局部特征提取算法,對(duì)于每個(gè)中心點(diǎn) 和其鄰域 :
Feature Expansion.論文首先地將鄰居特征 與中心特征沿特征維數(shù)concat來進(jìn)行特征擴(kuò)張:
Geometry Extraction.接著,論文通過相對(duì)位置編碼來得到每個(gè) 的權(quán)重,然后用均值和標(biāo)準(zhǔn)差對(duì)它們的坐標(biāo)進(jìn)行歸一化,記為,通過下面的公式得到加權(quán)后的K鄰域特征,該區(qū)域的局部幾何形狀就可以被隱式地編碼到特征中,而不需要任何可學(xué)習(xí)的參數(shù)。
Feature Aggregation。最后,同時(shí)利用最大池和平均池來進(jìn)行局部特征聚合::
在4個(gè)Local Geometry Aggregation之后,再應(yīng)用這兩個(gè)池化操作來得到點(diǎn)云的全局特征
Point-Memory Bank
Point-Memory Bank of Point-NN
Point-NN沒有使用傳統(tǒng)的可學(xué)習(xí)分類頭,而是采用了一個(gè)point-memory bank。如上圖所示,首先由Non-ParametricEncoder以無訓(xùn)練的方式構(gòu)造bank,然后在推理過程中通過相似度匹配輸出預(yù)測。
Memory Construction
point memory由一個(gè)feature memory 和一個(gè)label memory 。以圖像分類任務(wù)為例,假設(shè)給定的訓(xùn)練集包含K個(gè)類別的N個(gè)點(diǎn)云,。通過上述非參數(shù)編碼器得到的N個(gè)全局特征進(jìn)行編碼,同時(shí)將它們的ground-truth標(biāo)簽轉(zhuǎn)換為一個(gè)one-hot編碼。然后分別將兩者沿著樣本維度concat,緩存為兩個(gè)矩陣:
其中,,
Similarity-based Prediction.
對(duì)于測試點(diǎn)云,利用非參數(shù)編碼器來提取其全局特征,然后通過上一步構(gòu)造的bank進(jìn)行兩個(gè)矩陣乘法來完成分類。
計(jì)算測試點(diǎn)云全局特征 與feature memory 之間的余弦相似度:
將label memory 中的one-hot標(biāo)簽與 進(jìn)行加權(quán):
在 中,越相似的feature memory對(duì)最終分類logits的貢獻(xiàn)越大,反之亦然。通過這種基于相似性的標(biāo)簽集成, point-memory bank可以在不經(jīng)過任何訓(xùn)練的情況下自適應(yīng)地區(qū)分不同的點(diǎn)云實(shí)例。
Starting from Point-NN
在本節(jié)中將介紹兩個(gè)很有前途的Point-NN應(yīng)用,它充分釋放了非參數(shù)組件在三維點(diǎn)云分析中的潛力。
As Architectural Frameworks
The Pipeline of Point-PN
表1 Step-by-step Construction of Point-PN
Point-NN可以擴(kuò)展到可學(xué)習(xí)的參數(shù)網(wǎng)絡(luò)(Point-PN),不需要添加復(fù)雜的算子或太多的參數(shù)。只需要簡單地通過在編碼器的每個(gè)階段插入線性層來構(gòu)造參數(shù)微分。使用圖中A~E處的線性層的性能增益如表1所示:
首先用可學(xué)習(xí)分類器替換point-memory bank(上圖A位置),這個(gè)輕量級(jí)的版本在ModelNet40上就實(shí)現(xiàn)了90.3%的分類準(zhǔn)確率,只有0.3M的參數(shù)
為了更好地提取多尺度層次結(jié)構(gòu),在編碼器的每個(gè)stage(上圖C, D, E位置)都添加了簡單的線性層。Point-PN在0.8M參數(shù)下達(dá)到了競爭性的93.8%的精度。
As Plug-and-play Modules
Point-NN可以在不進(jìn)行額外re-training的情況下增強(qiáng)已經(jīng)訓(xùn)練過的三維模型。
分類任務(wù)
Complementary Characteristics of Point-NN
對(duì)于shape分類任務(wù),論文直接通過線性插值融合Point-NN和現(xiàn)成模型的分類結(jié)果。這種巧妙的設(shè)計(jì)將兩種類型的知識(shí)進(jìn)行集成:來自Point-NN的low-level結(jié)構(gòu)信號(hào)和來自訓(xùn)練網(wǎng)絡(luò)的high-level語義信號(hào)。
如上圖所示,通過Point-NN提取的點(diǎn)云特征在清晰的三維結(jié)構(gòu)周圍產(chǎn)生了較高的響應(yīng)值,例如,飛機(jī)的翼尖、椅子的腿和燈桿。相比之下,訓(xùn)練過的PointNet++更注重具有語義豐富的3D結(jié)構(gòu),這些結(jié)構(gòu)包括飛機(jī)的主體、椅子的底部和燈罩
Why Do Trigonometric Functions Work?
如上圖所示,對(duì)于輸入點(diǎn)云,論文將其低頻和高頻幾何進(jìn)行可視化,并與Point-NN的特征響應(yīng)進(jìn)行比較,其中較深的顏色表示更高的響應(yīng)。如圖所示,Point-NN可以聚焦于點(diǎn)云急劇變化的高頻三維結(jié)構(gòu)。
分割、檢測任務(wù)
論文直接采用已經(jīng)訓(xùn)練過的模型的編碼器來提取點(diǎn)云特征,只將所提的point-memory bank在上面進(jìn)行即插即用。利用相似度匹配和傳統(tǒng)的可學(xué)習(xí)分類頭之間的互補(bǔ)知識(shí)實(shí)現(xiàn)性能的改進(jìn)。
實(shí)驗(yàn)
Point-NN
Shape Classification
表2 Shape Classification on the Real-world ScanObjectNN
表3 Shape Classification on Synthetic ModelNet40
如表2、表3所示,Point-NN對(duì)真實(shí)世界和合成點(diǎn)云都獲得了良好的分類精度,表明了沒有任何參數(shù)的Point-NN有效性和通用性。
Few-shot Classification
表5 Few-shot Classification on ModelNet40
如表5所示,與現(xiàn)有的訓(xùn)練模型相比,Point-NN的few-shot性能顯著超過了第二好的方法。這是由于訓(xùn)練樣本有限,具有可學(xué)習(xí)參數(shù)的傳統(tǒng)網(wǎng)絡(luò)嚴(yán)重存在過擬合問題。
Part Segmentation
表4 Part Segmentation on ShapeNetPart
如表4所示,70.4% mIoU表明非參數(shù)網(wǎng)絡(luò)Point-NN拓張的分割網(wǎng)絡(luò),也可以產(chǎn)生執(zhí)行良好的點(diǎn)級(jí)特征,并捕獲鑒別特征的細(xì)粒度空間理解。
3D Object Detection
表6 3D Object Detection on ScanNetV2
將Point-NN作為非參數(shù)分類頭,配合兩種流行的三維檢測器VoteNet和3DETR-m提取類別無關(guān)的3D region proposals.如表6所示,不經(jīng)過歸一化處理的點(diǎn)坐標(biāo)可以大大提高Point-NN的AP分?jǐn)?shù),保留了原始場景中更多物體三維位置的位置線索。
Ablation Study
表7 Ablation Study of Non-Parametric Encoder
Point-PN
Shape Classification
如表2、表3所示,Point-PN在現(xiàn)實(shí)世界和合成的三維識(shí)別方面都取得了有競爭的結(jié)果。在ScanObjectNN上,與12.6M的大模型PointMLP相比,參數(shù)少16×,推理速度快6×,精度超過1.9%
Part Segmentation
對(duì)于表4中的點(diǎn)向分割任務(wù),Point-PN也取得了具有競爭力的性能,mIoU為86.6%。與CurveNet相比,具有簡單局部幾何聚合的Point-PN可以節(jié)省28小時(shí)的訓(xùn)練時(shí)間,推理速度快6×。
Ablation Study
如圖1所示,論文提出了如何從Point-NN逐步構(gòu)造Point-PN,可以觀察到“1+2”(Geometry Extraction step前面加一層線性層,后面加兩層)的 Point-PN表現(xiàn)最好,而更容易學(xué)習(xí)的層,“2+2”會(huì)損害性能
Plug-and-play
Shape Classification
Plug-and-play for Shape Classification
如上圖所示,Point-NN有效地提高了現(xiàn)有的方法的性能,如PointNet和PointMLP的準(zhǔn)確率提高了2.0%
Segmentation and Detection
Plug-and-play for Part Segmentation and 3D Object Detection
如上圖所示,Point-NN對(duì)于分割和檢測網(wǎng)絡(luò)具有通用的增強(qiáng)能力。
總結(jié)
論文重新討論了現(xiàn)有三維模型中的不可學(xué)習(xí)組件,并提出了 Point-NN,一個(gè)用于三維點(diǎn)云分析的純非參數(shù)網(wǎng)絡(luò)。沒有任何參數(shù)或訓(xùn)練, Point-NN在各種三維任務(wù)上取得了良好的準(zhǔn)確性。從Point-NN開始,論文提出了它的兩個(gè)很有前途的應(yīng)用程序:針對(duì)PointPN的架構(gòu)框架和用于提高性能的即插即用模塊。大量的實(shí)驗(yàn)已經(jīng)證明了其有效性和意義。在未來的工作中,研究者將重點(diǎn)探索更先進(jìn)的非參數(shù)模型,具有更廣泛的三維點(diǎn)云分析應(yīng)用場景。
審核編輯 :李倩
-
檢測器
+關(guān)注
關(guān)注
1文章
857瀏覽量
47623 -
三維
+關(guān)注
關(guān)注
1文章
489瀏覽量
28923 -
三維模型
+關(guān)注
關(guān)注
0文章
48瀏覽量
13090
原文標(biāo)題:CVPR 2023 | Point-NN: 即插即用,無需訓(xùn)練的非參數(shù)點(diǎn)云分析網(wǎng)絡(luò)!
文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論