論文作者:Junyi Ma, Xieyuanli Chen, Jingyi Xu, Guangming Xiong?
論文來源:IEEE Transactions on Industrial Electronics
1、摘要
在本文中,作者在其原有工作OverlapTransformer (OT)的基礎上,提出了一種用于自動駕駛的時空融合激光雷達地點識別算法SeqOT。SeqOT以多幀激光雷達數(shù)據(jù)作為輸入,使用端到端的方式直接為序列化數(shù)據(jù)提取全局描述子,用以快速的地點識別檢索。SeqOT采用多尺度Transformer結構對單幀高階特征與多幀高階特征進行增強和融合,并使用池化結構對多幀子描述子進行降維,顯著提升地點識別描述子特異性和實時性。此外,SeqOT具有yaw角旋轉(zhuǎn)不變和激光序列順序不變的結構,進一步提高自動駕駛車輛多角度地點識別的準確率。試驗結果表明,SeqOT在長、短時間跨度數(shù)據(jù)集上均具有很好的識別性能,且其運行速度快于激光雷達幀率,適用于實時運行的自動駕駛車輛。
2、主要工作與貢獻
本文的主要貢獻是一個端到端的地點識別神經(jīng)網(wǎng)絡,它利用連續(xù)的range image實現(xiàn)可靠的長期地點識別。受益于所提出的yaw角旋轉(zhuǎn)不變結構,SeqOT對視點變化和多幀激光雷達數(shù)據(jù)的輸入順序具有較強的魯棒性,因此即使在自動駕駛車輛以相反方向行駛時也能實現(xiàn)可靠的地點識別。SeqOT利用多尺度Transformer模塊來融合序列化激光雷達數(shù)據(jù)的時空信息,通過增強單幀內(nèi)部特征的關聯(lián)與多幀間特征的關聯(lián),增強地點描述子特異性,進而提升地點識別精度。
3、算法流程
圖1 SeqOT算法結構
SeqOT由單幀編碼模塊、多幀編碼模塊,以及池化模塊組合而成。如圖1所示,首先將多幀三維激光點云通過球面投影轉(zhuǎn)換為多幀二維range image,然后將各幀range image輸入到單幀編碼模塊中,分別進行空間維度的壓縮和通道維度的擴張,再利用單幀Transformer模塊進行特征圖的特異性增強,然后將特異性增強后的結果與增強前的結果進行通道維度上的拼接。以上操作均對序列化激光信息中的單幀數(shù)據(jù)分別進行操作。接下來,將單幀編碼模塊輸出的特征輸入到多幀編碼模塊中,在將相鄰幀特征進行拼接后,輸入到多幀Transformer模塊進行多幀信息的高階特征融合與增強,然后將融合后的結果輸入到NetVLAD結構中生成一系列維度為1x256的子描述子向量。池化模塊將此輸入激光序列中的全部子描述子進行池化壓縮,為輸入激光序列生成最終的1x256全局描述子向量。
球面投影與yaw角旋轉(zhuǎn)等變性
SeqOT使用序列化range image作為輸入,并充分利用其yaw角旋轉(zhuǎn)等變性。一個三維激光點(x, y, z),通過如下公式就可以投影至一個二維的圖像像素(u, v),這就是球面投影生成range image的過程。range image上的每個像素點都代表激光點的距離信息。
range image本身具備yaw角旋轉(zhuǎn)等變性,即一幀激光點云相對于z軸的旋轉(zhuǎn)等價于本幀range image的平移。圖2展示了yaw角旋轉(zhuǎn)等變的簡單示例。
圖2 yaw角旋轉(zhuǎn)等變性示例
得益于三維點云繞z軸的旋轉(zhuǎn)等價于range image的平移,SeqOT后續(xù)的結構能夠輸出一系列yaw角旋轉(zhuǎn)等變的中間特征圖,進而最終將yaw角旋轉(zhuǎn)等變性轉(zhuǎn)化為yaw角旋轉(zhuǎn)不變性,輸出不受視點變化影響的全局描述子,從而保證多角度地點識別的可行性。
單幀編碼模塊
單幀編碼模塊對輸入序列激光幀的每一幀單獨進行高階特征提取?;诖饲暗墓ぷ鱗1],單幀編碼模塊使用了與OverlapTransformer相似的OverlapNetLeg對range image進行高度方向的壓縮與通道維度的擴張。而后的單幀Transformer模塊對OverlapNetLeg的輸出進行特異性增強,即增強單幀激光內(nèi)部不同特征之間的關聯(lián)。增強后的特征與增強前的特征進行拼接,得到y(tǒng)aw角旋轉(zhuǎn)等變的中間特征,輸入到后續(xù)的多幀編碼模塊。
多幀編碼模塊與池化模塊
多幀編碼模塊將連續(xù)幀經(jīng)過單幀編碼模塊輸出的序列化高階特征進行初步融合,池化模塊則對初步融合的特征進行描述子級的聚合,最終為序列化輸入計算地點識別描述子。在多幀編碼模塊中,首先將相鄰三幀點云對應的單幀編碼模塊的輸出進行拼接,構成更長的特征編碼,輸入至多幀Transformer模塊,對幀間特征關聯(lián)進行增強,實現(xiàn)多幀信息的融合。序列化信息融合后的特征輸入至NetVLAD結構中,提取一系列子描述子。池化模塊最終將序列子描述子進行聚合,生成一維地點識別全局描述子。由于結構中使用了具有順序不變性質(zhì)的NetVLAD結構與GeM池化結構,因此最終輸出的全局描述子具備yaw角旋轉(zhuǎn)不變性和激光序列順序不變性,示例如圖3所示,相關證明詳見論文。
圖3 全局描述子yaw角旋轉(zhuǎn)不變性示例
基于overlap的訓練
與此前工作[1]類似,SeqOT利用基于overlap劃分的數(shù)據(jù)集進行訓練。利用overlap作為label進行訓練的理念在OverlapNet論文[2]中有所闡述。訓練過程采用對比學習的思路,對于一幀query點云,同時向SeqOT輸入本幀點云對應的序列激光幀、以及它的kp個正樣本序列和kn個負樣本序列。基于overlap的triplet loss函數(shù)如下式所示。
使用overlap而不是點云之間的距離作為衡量正負樣本的基準,是因為overlap對于描述激光點云相似度來說是一個更為自然的方式;此外,點云間的overlap對應了后續(xù)點云配準的質(zhì)量,因此基于overlap對是否為同一地點進行判斷更有益于后續(xù)算法的進行。此外,本工作面向自動駕駛車輛地點識別最常用場景——可重復性行駛環(huán)境,為低顯存的嵌入式設備提供了更為節(jié)省資源的兩步訓練策略,即第一步:將triplet loss作用于多幀編碼模塊輸出的子描述子,訓練池化模塊之前的模型,并保存訓練使用的子描述子;第二步:利用保存的子描述子作為輸入,將triplet loss作用于SeqOT最終輸出的全局描述子,訓練池化模塊。
4、實驗結果
毫末數(shù)據(jù)集上的地點識別結果
KITTI和MulRan數(shù)據(jù)集上的泛化性測試結果
輸入序列長度的對比試驗結果
多尺度Transformer的消融試驗結果
yaw角旋轉(zhuǎn)不變性驗證
審核編輯:郭婷
-
神經(jīng)網(wǎng)絡
+關注
關注
42文章
4734瀏覽量
100420 -
激光雷達
+關注
關注
967文章
3921瀏覽量
189444 -
自動駕駛
+關注
關注
782文章
13622瀏覽量
165953
原文標題:SeqOT: 基于時空融合Transformer的SOTA地點識別算法,代碼開源(IEEE Trans2022)
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論