動機
視覺定位(Visual Grounding)旨在基于自由形式的自然語言文本表達定位圖像中的目標物體。隨著多模態(tài)推理系 統(tǒng)的普及,如視覺問答和圖像描述,視覺定位的重要性愈加凸顯。已有的研究大致可以分為三類:兩階段方法、單 階段方法和基于變換器(Transformer)的方法。盡管這些方法取得了良好的效果,但在注釋的利用上仍顯得不 足,尤其是僅將框注釋作為回歸的真值樣本,限制了模型的性能表現(xiàn)。
具體而言,視覺定位面臨的挑戰(zhàn)在于其稀疏的監(jiān)督信號,每對文本和圖像僅提供一個邊界框標簽。這與目標檢測任 務(Object Detection)存在顯著不同,因此充分利用框注釋至關重要,將其視為分割掩膜(即邊界框內(nèi)的像素賦 值為1,外部像素賦值為0),可以為視覺定位提供更細粒度的像素級監(jiān)督。
在本研究中,提出了一個名為SegVG的新方法,旨在將邊界框級的注釋轉化為分割信號,以提供更為豐富的監(jiān)督信 號。該方法倡導多層多任務編碼器-解碼器結構,學習回歸查詢和多個分割查詢,以通過回歸和每個解碼層的分割來 實現(xiàn)目標定位。此外,為了解決由于特征域不匹配而產(chǎn)生的差異,研究中引入了三重對?模塊,通過三重注意機制 更新查詢、文本和視覺特征,以確保它們共享同一空間,從而提高后續(xù)的目標檢測效果。
綜上,SegVG通過最大化邊界框注釋的利用,提供了額外的像素級監(jiān)督,并通過三重對?消除特征之間的域差異, 這在視覺定位任務中具有重要的創(chuàng)新意義。以下是來自論文中的相關圖示,用以進一步說明視覺定位框架的不同:
方法
在本節(jié)中,介紹了SegVG方法的各個組件,按數(shù)據(jù)流的順序進行說明,包括?干網(wǎng)絡、Triple Alignment模塊以及 Multi-layer Multi-task Encoder-Decoder。
?干網(wǎng)絡
SegVG方法的視覺?干網(wǎng)絡和文本?干網(wǎng)絡分別處理圖像和文本數(shù)據(jù)。視覺?干網(wǎng)絡使用的是經(jīng)過Object Detection任務在MSCOCO數(shù)據(jù)集上預訓練的ResNet和DETR的Transformer編碼器。文本?干網(wǎng)絡使用BERT的嵌入層將輸入文本轉換為語言Token。在Token前添加一個[CLS] 標記,并在末尾添加一個[SEP]標記,隨后通過BERT層迭代處理得到語言嵌入 。
Triple Alignment
Triple Alignment模塊致?于解決視覺??、?本??和查詢特征之間的域差異。該模塊利?注意?機制執(zhí)?三?形特征采樣,確保查詢、?本和視覺特征之間的?致性。輸?的查詢 被初始化為可學習的嵌?,包含?個回歸查詢和多個分割查詢。這?過程按以下?式進?:
通過這種?式,Triple Alignmen模塊能夠在每?層迭代幫助三類特征實現(xiàn)有效地對?。
Multi-layer Multi-task Encoder-Decoder
Multi-layer Multi-task Encoder-Decoder是目標對接階段的核心部分,旨在通過跨模態(tài)融合和目標對接同時執(zhí)行邊 框回歸任務和邊框分割任務。編碼器部分融合了文本和視覺特征,每一層通過多頭自注意力層(MHSA)和前饋網(wǎng) 絡(FFN)過程實現(xiàn)提升。解碼器部分則通過 bbox2seg范式將邊框注釋轉化為分割掩碼,分割掩碼將框內(nèi)的像素 標記為前景(值為1),而框外像素則標記為背景(值為0)。在每一解碼層中,一個回歸查詢用于回歸邊框,多個 分割查詢則用于對目標進行分割。
上述公式中,各種損失函數(shù)(如L1損失、GIoU損失、Focal損失和Dice損失)被結合用于驅動模型的訓練過程,使 得模型在執(zhí)行回歸和分割任務時獲得強化的反饋。
通過將分割輸出的信心值轉化為Focal損失因子,可以有效地強調(diào)那些難以訓練的數(shù)據(jù)樣本,以進一步提升模型的 性能。整體而言,SegVG方法實現(xiàn)了對邊框注釋的最大化利用,并有效解決了多模態(tài)特征間的域差異問題,為視覺 目標定位任務帶來了重要的改進和提升。
實驗
在實驗部分,研究者對所提出的SegVG模型進行了全面的評估,涉及多個標準數(shù)據(jù)集和不同的實驗設置,以驗證其 有效性和優(yōu)越性。
指標與數(shù)據(jù)集
研究者采用的主要評估指標是交并比(IoU)和前1準確率,以評估預測邊界框與真實邊界框的匹配程度。使用的標 準基準數(shù)據(jù)集包括RefCOCO、RefCOCO+、RefCOCOg-g、RefCOCOg-umd以及Refer It Game等。
實施細節(jié)
研究中對數(shù)據(jù)輸入進行了特別配置,使用640x640的圖像大小,以及最大文本?度設定為40。當圖像大小調(diào)整時, 會保持原始寬高比。模型的訓練過程采用AdamW優(yōu)化器,及其學習率和權重衰減參數(shù)。
定量結果在定量實驗中,SegVG模型在所有基準數(shù)據(jù)集中表現(xiàn)出色。例如,在RefCOCO+數(shù)據(jù)集上,其預先訓練模型在各個 子集上相較于之前的最先進模型取得了顯著提升,分別達到了2.99%、3.7%和2.42%的錯誤率下降。在RefCOCOg 數(shù)據(jù)集上,SegVG同樣取得了+3.03%、+2.31%和+3.24%的改善。這些結果證明了結合Triple Alignment和Multi- layer Multi-task Encoder-Decoder后,模型在目標定位和準確性上的提升。
消融研究
進一步分析通過控制變量法對各個模塊的有效性進行消融研究。研究顯示,加入Triple Alignment模塊后,可以有 效消除查詢、文本及視覺特征之間的領域差異,進而促進后續(xù)的目標定位。此外,通過加入Multi-layer Multi-task 監(jiān)督,能夠迭代充分利用注釋信息,從而增強查詢表示的學習能力。
計算開銷比較
研究者還對不同Transformer模型的參數(shù)數(shù)量和GFLOPS進行了比較,以評估SegVG的計算開銷。結果表明,SegVG的計 算成本處于合理范圍,符合實際應用需求。
定性結果
在定性分析中,通過對比不同模型在目標檢測中的表現(xiàn),SegVG在初始解碼層階段就能準確識別目標位置,相較于 對比模型VLTVG而言,表現(xiàn)更加穩(wěn)健。具體案例中,SegVG成功定位復雜背景下的目標,顯示了其在多任務優(yōu)化時 的高度有效性。
-
編碼器
+關注
關注
45文章
3571瀏覽量
133959 -
變換器
+關注
關注
17文章
2082瀏覽量
109066 -
視覺定位
+關注
關注
5文章
49瀏覽量
12360
原文標題:ECCV 2024 | SegVG:刷新視覺定位新SOTA!將視覺定位的目標邊界框轉化為分割信號
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論