0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

全球首個面向遙感任務(wù)設(shè)計的億級視覺Transformer大模型

CVer ? 來源:京東探索研究院 ? 作者:京東探索研究院 ? 2022-12-09 14:53 ? 次閱讀

大規(guī)模視覺基礎(chǔ)模型在基于自然圖像的視覺任務(wù)中取得了重大進(jìn)展。得益于良好的可擴(kuò)展性和表征能力,基于視覺Transformer (Vision Transformer, ViT) 的大規(guī)模視覺基礎(chǔ)模型吸引了研究社區(qū)的廣泛關(guān)注,并在多種視覺感知任務(wù)中廣泛應(yīng)用。然而,在遙感圖像感知領(lǐng)域,大規(guī)模視覺模型的潛力尚未得到充分的探索。為此,我們首次提出面向遙感任務(wù)設(shè)計的大規(guī)模視覺基礎(chǔ)模型[1],針對具有1億參數(shù)的一般結(jié)構(gòu)的ViT (Plain ViT),設(shè)計符合遙感圖像特點(diǎn)的新型注意力機(jī)制,并據(jù)此研究大模型在遙感圖像理解任務(wù)上的性能,包括圖像分類、目標(biāo)檢測、語義分割等。

簡單來說,為了更好地應(yīng)對遙感圖像所具有的大尺寸特性以及圖像中的目標(biāo)物體的朝向任意性,我們提出了一種新的旋轉(zhuǎn)可變尺寸窗口的注意力(Rotated Varied-Size Window Attention, RVSA)來代替Transformer中的原始完全注意力(Vanilla Full Self-Attention),它可以從生成的不同窗口中提取豐富的上下文信息來學(xué)習(xí)更好的目標(biāo)表征,并顯著降低計算成本和內(nèi)存占用。

實(shí)驗(yàn)表明,在檢測任務(wù)上,我們提出的模型優(yōu)于目前為止所有最先進(jìn)的模型,其在DOTA-V1.0數(shù)據(jù)集上取得了81.24% mAP的最高精度。在下游分類和分割任務(wù)上,所提出的模型與現(xiàn)有先進(jìn)方法相比性能具有很好的競爭力。進(jìn)一步的分析實(shí)驗(yàn)表明該模型在計算復(fù)雜度、遷移學(xué)習(xí)的樣本效率、可解釋性等方面具有明顯優(yōu)勢。

本工作由京東探索研究院、武漢大學(xué)以及悉尼大學(xué)聯(lián)合完成,已被IEEE TGRS接收。

0e1ac3c6-7746-11ed-8abf-dac502259ad0.png

01

研究背景

在遙感圖像感知領(lǐng)域中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)是提取多尺度視覺特征最常用的模型。然而,卷積操作的感受野受限,這使得CNN很難關(guān)注長距離像素并提取全局上下文信息。為了解決這一問題,研究者提出使用自注意力(Self-Attention, SA)機(jī)制,通過計算圖像中任意像素(特征)之間的相似性來靈活地建模特征之間的長距依賴關(guān)系。這一技術(shù)在計算機(jī)視覺領(lǐng)域的諸多任務(wù)上取得了良好的表現(xiàn)。其中,視覺Transformer模型采用了多頭自注意力(Multi-Head Self-Attention, MHSA)的設(shè)計,在多個投影子空間中同時計算自注意力,使得提取的上下文信息更加多樣化,從而進(jìn)一步提高了特征的表征能力。

最早提出的視覺Transformer模型ViT [2]的結(jié)構(gòu)采用了非層次化的一般結(jié)構(gòu)設(shè)計,即在特征嵌入層之后重復(fù)堆疊Transformer編碼器模塊,其中每個模塊輸出的空間尺度、特征維度均相同。為了更好地使ViT適應(yīng)下游任務(wù),研究人員借用了CNN中的分層設(shè)計思想,并相應(yīng)地設(shè)計了層次化視覺Transformer[3, 4]。這些模型通常使用大規(guī)模數(shù)據(jù)集并以有監(jiān)督的方式進(jìn)行預(yù)訓(xùn)練,然后再在下游任務(wù)的訓(xùn)練集上進(jìn)行微調(diào)。最近,探索研究院通過比較不同的預(yù)訓(xùn)練方法和模型,將層次化視覺Transformer應(yīng)用于遙感圖像上并對其性能進(jìn)行了詳細(xì)的實(shí)證研究[5],驗(yàn)證了層次化視覺Transformer相比于CNN的優(yōu)勢以及使用大規(guī)模遙感場景標(biāo)注數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練的有效性。然而,是否一定要采用層次化結(jié)構(gòu)的模型才能在遙感圖像上獲得較好性能呢?在本項(xiàng)研究中,我們首次嘗試采用非層次化結(jié)構(gòu)的模型并驗(yàn)證了其在一系列遙感圖像感知任務(wù)上的優(yōu)勢和潛力。

具體來說,我們首先使用具有約一億參數(shù)的Plain ViT模型和研究院最近提出的更先進(jìn)的ViTAE 模型[6],并采用掩碼圖像建模算法MAE [7]在大規(guī)模遙感數(shù)據(jù)集MillionAID [8]上對其進(jìn)行預(yù)訓(xùn)練,從而得到很好的初始化參數(shù)。

在預(yù)訓(xùn)練完成后,我們通過在下游任務(wù)相關(guān)數(shù)據(jù)集上進(jìn)行微調(diào),從而完成相應(yīng)任務(wù)。由于下游任務(wù)的圖像分辨率較大,為了降低視覺Transformer在下游任務(wù)上的計算成本和內(nèi)存占用,研究者通常采用窗口注意力(Window-based Attention)機(jī)制來代替原始的完全注意力機(jī)制。然而,窗口注意力采用的固定窗口大小和位置會限制模型提取上下文信息的范圍以及跨窗信息交互,從而影響模型的表征能力。

為此,探索研究院提出了一種名為可變大小窗口的注意力機(jī)制(Varied-Size Window Attention, VSA) [9]。它通過學(xué)習(xí)窗口的縮放和偏移因子,以使窗口的大小、形狀和位置適應(yīng)不同的圖像內(nèi)容,從而提高特征的表征能力,在多個視覺感知任務(wù)中獲得了更好的性能。不同于自然圖像中目標(biāo)主要呈現(xiàn)上下方向的特點(diǎn),遙感圖像中的目標(biāo)具有任意朝向,如圖1所示。為了處理這種差異,我們進(jìn)一步引入了一種可學(xué)習(xí)的旋轉(zhuǎn)框機(jī)制,從而獲得具有不同角度、大小、形狀和位置的窗口,實(shí)現(xiàn)了提取更豐富的上下文新型的目標(biāo)。

0e255e4e-7746-11ed-8abf-dac502259ad0.png

圖1:兩種常見類別(橋梁和飛機(jī))的自然圖像(a)與遙感圖像(b)的區(qū)別

基于ViT和ViTAE模型,我們將上述自注意力方法應(yīng)用于三種遙感感知任務(wù)(場景分類、語義分割和目標(biāo)檢測),并開展了詳細(xì)的實(shí)驗(yàn)評估,取得了很好的效果。我們希望這項(xiàng)研究能夠填補(bǔ)遙感大模型領(lǐng)域的空白,并為遙感社區(qū)發(fā)展更大規(guī)模的Plain ViT模型提供有益的參考。

02

方法介紹

2.1 MillionAID

MillionAID [8]是一個具有遙感場景圖像和標(biāo)簽的大型數(shù)據(jù)集。它包含1,000,848個RGB格式的非重疊遙感場景,非常適合用于深度神經(jīng)網(wǎng)絡(luò)模型預(yù)訓(xùn)練。該數(shù)據(jù)集包含51類,每類有大約2,000-45,000個圖像。該數(shù)據(jù)集中的圖片是從包含各種傳感器和不同分辨率數(shù)據(jù)的谷歌地球上收集得到的。圖像尺寸分布廣泛,覆蓋了110*110到31,672*31,672個像素的多種情況。應(yīng)該注意的是,盡管該數(shù)據(jù)集同時包含圖像和標(biāo)簽,但在本項(xiàng)研究中,我們只采用圖像數(shù)據(jù)進(jìn)行無監(jiān)督預(yù)訓(xùn)練。

2.2 MAE

MAE [7]是一種生成式自監(jiān)督預(yù)訓(xùn)練方法,采用了非對稱的網(wǎng)絡(luò)結(jié)構(gòu)提取非掩碼區(qū)域的圖像特征并預(yù)測掩碼區(qū)域的圖像內(nèi)容,具有很高的計算效率。它首先將圖像分割成不重疊的圖像塊,然后通過特征嵌入層將每個圖像塊映射為視覺Token。按照一定掩碼比率,一些Token被刪除并被作為要預(yù)測的掩碼區(qū)域。剩余的Token被饋送到Transformer編碼器網(wǎng)絡(luò)進(jìn)行特征提取。然后,解碼器部分利用編碼器提取到的可見區(qū)域Token的特征和可學(xué)習(xí)的掩碼區(qū)域的Token來恢復(fù)掩碼區(qū)域圖像內(nèi)容。在訓(xùn)練過程中,通過最小化像素空間或特征空間中掩碼區(qū)域的預(yù)測和圖像真值之間的差異來訓(xùn)練模型。我們遵循原始MAE文獻(xiàn)中的設(shè)置并在歸一化像素空間中計算訓(xùn)練損失。

2.3 MAE無監(jiān)督預(yù)訓(xùn)練

0e327732-7746-11ed-8abf-dac502259ad0.png

圖2:預(yù)訓(xùn)練階段的視覺Transformer的網(wǎng)絡(luò)結(jié)構(gòu)

圖2展示了所采用的Plain ViT模型的基本結(jié)構(gòu)。具體來說,我們采用兩種骨干網(wǎng)絡(luò)ViT和ViTAE進(jìn)行預(yù)訓(xùn)練。前者由具有完全自注意力的Plain ViT編碼器組成。這種簡單的結(jié)構(gòu)能夠使其無縫地采用MAE方法進(jìn)行預(yù)訓(xùn)練。相比之下,ViTAE引入了卷積結(jié)構(gòu)從而讓網(wǎng)絡(luò)獲取局部性歸納偏置,即采用與MHSA并列的平行卷積分支PCM。在預(yù)訓(xùn)練時,因?yàn)镸AE中的隨機(jī)掩蔽策略破壞了空間關(guān)系,我們將PCM的卷積和從3*3改為1*1,以避免其學(xué)習(xí)到錯誤的空間特征。然后,在對特定的下游任務(wù)進(jìn)行微調(diào)時,我們將卷積核重新填充為3*3大小。假設(shè)第i卷積層的預(yù)訓(xùn)練中的權(quán)重為(忽略通道維),填充內(nèi)核如下

其中是MAE預(yù)訓(xùn)練學(xué)習(xí)到的值,初始化為0。此外,我們在ViTAE模型中采用一種淺層PCM的設(shè)計,其依次為卷積層、批歸一化層、SiLU層和卷積層,以節(jié)省內(nèi)存占用。圖3顯示了用于MAE預(yù)訓(xùn)練的ViT和ViTAE網(wǎng)絡(luò)中的基本模塊。

0e3a0fba-7746-11ed-8abf-dac502259ad0.png

圖3:MAE編碼器中采用的塊結(jié)構(gòu)

(a) ViT的基本模塊,(b) 改進(jìn)后的ViTAE Normal Cell

我們使用“Base”版本的ViT和ViTAE,它們都具有約一億參數(shù)。這兩種網(wǎng)絡(luò)被分別表示為“ViT-B”和“ViTAE-B”。其詳細(xì)結(jié)構(gòu)見表1,其中“Patch Size”表示特征嵌入層的圖像塊尺寸,“Embedding Dim”表示Token的維度,“Head”表示MHSA中SA的個數(shù),“Group”表示PCM中分組卷積的組數(shù),“Ratio”指FFN的特征維膨脹率, “Depth”表示兩種網(wǎng)絡(luò)中堆積模塊的數(shù)量。

0e4311c8-7746-11ed-8abf-dac502259ad0.png

表1 :ViT-B和ViTAE-B的超參數(shù)設(shè)置

2.4 采用RVSA進(jìn)行微調(diào)

與自然圖像相比,遙感圖像通常尺寸更大。由于完全自注意力具有和圖片分辨率呈平方關(guān)系的計算復(fù)雜度,直接將采用完全自注意力的預(yù)訓(xùn)練模型應(yīng)用于下游任務(wù)時會顯著增加訓(xùn)練成本。為此,我們在微調(diào)階段采用窗口自注意力替換原始的完全自注意力,這將計算代價降低到與圖像大小線性相關(guān)的復(fù)雜度。因?yàn)檫@種替換只改變了參與自注意力計算的Token范圍,而不引入新的參數(shù),因此可以在預(yù)訓(xùn)練-微調(diào)范式中直接轉(zhuǎn)換。然而,原始的窗口自注意力在固定水平和垂直方向上采用固定大小的窗口,這與遙感圖像中目標(biāo)的任意朝向特點(diǎn)不符,導(dǎo)致使用固定方向固定大小的窗口可能并非最優(yōu)。為此,我們設(shè)計了RVSA。

具體來說,我們引入了一系列變換參數(shù)來學(xué)習(xí)可變方向、大小和位置的窗口,包括相對參考窗口的偏移量、尺度縮放因子以及旋轉(zhuǎn)角度。具體地,給定輸入特征,首先將其劃分為幾個不重疊的參考窗口,即每個窗口的特征為(其中表示窗口大?。偣驳玫絺€窗口。然后,我們通過三個線性層去獲得查詢特征,初始的鍵特征和值特征。我們用去預(yù)測目標(biāo)窗口在水平和豎直方向上的偏移和縮放,以及旋轉(zhuǎn)角度

GAP是全局平均池化操作的縮寫。以窗口的角點(diǎn)為例

上式中,表示初始窗口左上角和右下角的坐標(biāo),表示窗口的中心坐標(biāo),分別是角點(diǎn)與中心在水平和垂直方向上的距離。我們用估計到的參數(shù)來對窗口進(jìn)行變換,

是變換后窗口的角點(diǎn)坐標(biāo)。然后,從變換后的窗口中采樣鍵特征,從而和查詢特征一起計算自注意力。采樣的鍵特征和值特征中Token的數(shù)量與查詢特征中Token的數(shù)量相同,從而保證RVSA與原始窗口自注意力機(jī)制具有相同的計算復(fù)雜度。

這里,是一個窗口中一個SA的輸出特征,,是SA的個數(shù)。然后,沿著通道維度連接來自不同SA的特征,并且沿著空間維度連接來自不同窗口的特征,以恢復(fù)輸入特征的形狀,最終獲得RVSA的輸出特征,圖4展示了RVSA的示意圖。

0e4b9da2-7746-11ed-8abf-dac502259ad0.png

圖4:第個SA上所提出RVSA的完整流程

RVSA的變體:我們還提出了RVSA的一種變體,此時鍵特征和值特征可以來自不同窗口,即我們分別預(yù)測鍵特征和值特征窗口的偏移,縮放和旋轉(zhuǎn)因子

這個更靈活的架構(gòu)被稱為RVSA。

為了使MAE預(yù)訓(xùn)練模型適應(yīng)遙感下游任務(wù),我們將原始Plain ViT中的MHSA模塊替換為RVSA。按照ViTDet [10]中的策略,我們在每1/4個深度層采用完全自注意力。由于ViT-B 和 ViTAE-B有12 層,因此我們在第3、6、9和12層使用完全自注意力,并在所有其他層采用RVSA。修改后的網(wǎng)絡(luò)分別表示為“ViT-B + RVSA”和“ViTAE-B + RVSA”。圖5展示了 ViT-B + RVSA和ViTAE-B + RVSA中替換注意力后模塊的結(jié)構(gòu)。我們也對比了采用普通窗口自注意力、VSA和RVSA的變體。它們被分別表示為“ViT-B-Win”、“ViT-B + VSA”、 “ViT-B + RVSA”、“ViTAE-B-Win”、“ViTAE-B + VSA”和“ViTAE-B + RVSA”。

0e551dfa-7746-11ed-8abf-dac502259ad0.png

圖5:修改注意力后模塊的結(jié)構(gòu)(a)ViT-B+RVSA。(b)ViTAE-B+RVSA

最后,我們在圖6中展示了上述預(yù)訓(xùn)練和微調(diào)過程的完整框架,以便于讀者理解所提出的方法。

0e5ff2a2-7746-11ed-8abf-dac502259ad0.png

圖6:預(yù)訓(xùn)練和微調(diào)的流程(以RVSA為例)

03

實(shí)驗(yàn)結(jié)果

我們將所提出的模型在包括場景分類、對象檢測和語義分割等多個遙感任務(wù)上進(jìn)行實(shí)驗(yàn),并且還進(jìn)一步展示了其在計算復(fù)雜度、遷移學(xué)習(xí)的數(shù)據(jù)效率以及可解釋性等方面的優(yōu)勢。

3.1 目標(biāo)檢測

0e697c82-7746-11ed-8abf-dac502259ad0.png

表2:不同先進(jìn)方法在DOTA-V1.0數(shù)據(jù)集上的精度。

0e781d14-7746-11ed-8abf-dac502259ad0.png

表3:不同先進(jìn)方法在DIOR-R數(shù)據(jù)集上的精度

我們將所提出的方法與迄今為止最先進(jìn)的一些方法進(jìn)行了比較,結(jié)果列于表2和表3中。每列精度前三分別用粗體,紅色和藍(lán)色標(biāo)記。在DOTA-V1.0數(shù)據(jù)集上,我們分別列出了單尺度訓(xùn)練和多尺度訓(xùn)練的結(jié)果。在單尺度訓(xùn)練設(shè)置上,我們的模型在五個類中表現(xiàn)最好,超過了以前的最佳方法約1%的mAP。在競爭更激烈的多尺度訓(xùn)練中,我們的模型在總共四個類別中獲得第一。特別的,我們的方法在一些具有挑戰(zhàn)性的類別(如環(huán)島和港口)中的檢測結(jié)果顯著優(yōu)于之前的方法,從而在DOTA-V1.0上取得了新的精度記錄,即81.24%的mAP。在更具挑戰(zhàn)性的DIOR-R數(shù)據(jù)集上,我們的模型在11個類別中表現(xiàn)最好。與現(xiàn)有方法相比,其檢測性能提高了10%以上,并以5% mAP的優(yōu)勢顯著超過第二名。值得注意的是,我們成功地證明了建立強(qiáng)大的Plain ViT基線的可能性:事實(shí)上,ViT-B+VSA和ViTAE-B+VSA在DOTA-V.1.0和DIOR-R數(shù)據(jù)集上已經(jīng)超過了之前的方法并取得了很好的檢測性能。當(dāng)進(jìn)一步引入旋轉(zhuǎn)機(jī)制后,它們的性能仍然能被進(jìn)一步提高。

3.2 場景分類

0e806262-7746-11ed-8abf-dac502259ad0.png

表4:不同方法在場景分類任務(wù)上的精度

表4展示了不同模型在場景分類任務(wù)上的結(jié)果。在此任務(wù)中,MAE 預(yù)訓(xùn)練的ViT-B在大多數(shù)設(shè)置上獲得最佳效果,因?yàn)樗蠺oken都參加了MHSA計算 ,這種方式提取的全局上下信息有利于場景識別。我們的 RVSA 模型在三個設(shè)置(包括 UCM-55、AID-28 和 NWPU-28)中優(yōu)于以前的方法。而在其他設(shè)置中,我們的模型可以與探索研究院先前提出的當(dāng)前最先進(jìn)的模型:即在 MillionAID上采用有監(jiān)督預(yù)訓(xùn)練的層次化模型RSP-ViTAEv2-S [5]相媲美。與VSA 方法相比,我們所提出的模型主要在NWPU-19設(shè)置中表現(xiàn)較差。這是因?yàn)橄啾萔SA,RVSA 需要相對更多的訓(xùn)練數(shù)據(jù)來學(xué)習(xí)最佳窗口配置,而NWPU-19 的訓(xùn)練數(shù)據(jù)規(guī)模相對較小。當(dāng)采用較大規(guī)模數(shù)據(jù)集,如NWPU-28 的設(shè)置時,我們的模型超越了ViT-B + VSA,ViTAE-B + VSA和RSP-ViTAEv2-S等先進(jìn)模型。

3.3 語義分割

0e8e753c-7746-11ed-8abf-dac502259ad0.png

表5:不同方法在語義分割任務(wù)上的精度

表5顯示了不同分割方法的結(jié)果。我們的模型獲得了與當(dāng)前最佳方法相當(dāng)?shù)男阅堋1M管如此, 我們也必須承認(rèn)其在分割任務(wù)上的性能不如在檢測和場景分類任務(wù)上令人印象深刻。我們認(rèn)為這有兩個原因。首先,我們使用經(jīng)典但簡單的分割框架 UperNet,它不能有效地將高級語義信息傳播到高分辨率特征圖上。另一個原因是我們采用的視覺Transformer 骨干網(wǎng)絡(luò)直接通過的圖像塊來嵌入編碼網(wǎng)絡(luò)特征,并且特征圖分辨率始終保持輸入大小的1/16,這可能會丟失細(xì)節(jié),不利于像素級語義分割任務(wù)。盡管如此,我們提出的RVSA仍然可以提升Plain ViT的性能并達(dá)到與層次化模型RSP-ViTAEv2-S相當(dāng)?shù)男阅?,且?yōu)于ViT-B、ViTAE-B 和 VSA等模型,證明了其從可變窗口中學(xué)習(xí)有用上下文信息的強(qiáng)大能力。

3.4 計算復(fù)雜度

0e96d60a-7746-11ed-8abf-dac502259ad0.png

表6:不同模型的復(fù)雜度和訓(xùn)練代價

我們以ViT為例,在DIOR-R檢測數(shù)據(jù)集上比較了不同模型的復(fù)雜度和訓(xùn)練代價。表6列出了包括參數(shù)數(shù)量 (Params)、計算量 (FLOPs)、GPU 內(nèi)存在內(nèi)的多種評估指標(biāo),所有模型參數(shù)量均超過1億。由于完全自注意力的二次復(fù)雜度,ViT-B具有最大的內(nèi)存占用,最大的FLOPs以及最長的訓(xùn)練時間,因此需要使用兩個GPU才能在相當(dāng)?shù)臅r間完成訓(xùn)練。ViT-B-Win通過采用窗口自注意力緩解了這些問題。需要注意的是,ViT-B + VSA的FLOP比ViT-B-Win小,這是因?yàn)樘畛洌╬adding)操作是在生成查詢特征、鍵特征和值特征之后實(shí)現(xiàn)的。由于可學(xué)習(xí)的縮放和偏移因子,ViT-B + VSA比ViT-B-Win略多一些內(nèi)存占用。與ViT-B+VSA相比,ViT-B+RVSA具有相似的復(fù)雜度,而ViT-B+RVSA略微增加了參數(shù)和計算開銷,因?yàn)樗鼘︽I特征和值特征分別預(yù)測窗口。與ViT-B相比,所提出的ViT-B + RVSA和ViT-B + RVSA可以節(jié)省大約一半的內(nèi)存并加快訓(xùn)練速度,同時還具有更好的性能。

3.5 遷移學(xué)習(xí)的訓(xùn)練數(shù)據(jù)效率

0ea467e8-7746-11ed-8abf-dac502259ad0.png

圖7:不同的模型在DIOR-R數(shù)據(jù)集上采用不同比例的訓(xùn)練集進(jìn)行訓(xùn)練的結(jié)果

遷移學(xué)習(xí)的訓(xùn)練數(shù)據(jù)效率是衡量基礎(chǔ)模型的一項(xiàng)重要能力。在這里,我們在DIOR-R 數(shù)據(jù)集上,使用不同數(shù)量的訓(xùn)練數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。我們通過分別隨機(jī)選擇原始訓(xùn)練集的 20%、40%、60% 和 80% 的圖像來獲得一系列較小的訓(xùn)練集。然后,我們分別在這些數(shù)據(jù)集上微調(diào)預(yù)訓(xùn)練模型,并在原始測試集上對其進(jìn)行評估。為了便于比較,我們也訓(xùn)練了一些小規(guī)模模型,例如 RSP-ResNet-50、RSP-Swin-T和RSP-ViTAEv2-S,它們采用訓(xùn)練集中所有的數(shù)據(jù)進(jìn)行訓(xùn)練。圖7顯示了相關(guān)結(jié)果??梢钥闯?,無論訓(xùn)練樣本的數(shù)量如何,所提出的模型都優(yōu)于相應(yīng)的ViT-B和ViTAE-B基線模型。由于我們考慮了遙感圖像中任意方向的對象,所提出的具有可學(xué)習(xí)旋轉(zhuǎn)機(jī)制的RVSA在大多數(shù)情況下都可以超越VSA。此外,它們僅使用40%的訓(xùn)練樣本就達(dá)到了與Swin-T相當(dāng)?shù)男阅?,?dāng)使用60%的訓(xùn)練樣本時,它們的性能優(yōu)于ResNet-50和Swin-T。當(dāng)采用80%的訓(xùn)練樣本時,它們超過了強(qiáng)大的骨干網(wǎng)絡(luò)ViTAEv2-S。上述結(jié)果表明我們的模型在遷移學(xué)習(xí)時具有良好的訓(xùn)練數(shù)據(jù)效率。

3.6 窗口可視化

0ead8346-7746-11ed-8abf-dac502259ad0.png

圖8:不同注意力方法生成窗口的可視化。(a) 窗口自注意力。(b) VSA。(c) RVSA。(d)和(e)分別是RVSA為鍵特征和值特征生成的窗口

以ViT為例,圖8 可視化了不同的網(wǎng)絡(luò)在倒數(shù)第二個模塊中的注意力層生成的窗口。可以看出,VSA生成的窗口可以縮放和移動以匹配不同的對象。然而,VSA 無法有效處理遙感圖像中任意方向的目標(biāo),例如圖8第二行中傾斜的飛機(jī)。相比之下,我們的RVSA引入了旋轉(zhuǎn)因子來解決這個問題,獲得更多樣化的窗口并有利于提取更豐富的上下文信息。同樣值得注意的是,每個頭可以產(chǎn)生不同方向和位置的窗口,并來覆蓋特定角度和位置的飛機(jī)。因此,通過使用多頭注意力的方式,圖片中不同方向的飛機(jī)可以被不同頭的窗口覆蓋,這意味著RVSA可以更好地處理任意方向的物體。與RVSA相比, RVSA進(jìn)一步提高了生成窗口的靈活性。通過將 (d) 和 (e) 與 (c) 進(jìn)行比較,我們可以發(fā)現(xiàn)鍵特征和值特征的窗口形狀略有變化,這在擁有大量可用的訓(xùn)練數(shù)據(jù)和處理具有挑戰(zhàn)性的樣本時比較有用。通過將學(xué)習(xí)到的窗口進(jìn)行可視化,我們提供了一種分析所提出的模型的工作機(jī)制的手段,可以增強(qiáng)其學(xué)習(xí)過程和學(xué)習(xí)結(jié)果的可解釋性。

04

總結(jié)

本工作提出了全球首個面向遙感任務(wù)設(shè)計的億級視覺Transformer大模型。具體來說,我們首先基于具有代表性的無監(jiān)督掩碼圖像建模方法MAE對網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練來研究Plain ViT作為基礎(chǔ)模型的潛力。我們提出了一種新穎的旋轉(zhuǎn)可變大小窗口注意力方法來提高Plain ViT的性能。它可以生成具有不同角度、大小、形狀和位置的窗口,以適應(yīng)遙感圖像中任意方向、任意大小的目標(biāo),并能夠從生成的窗口中提取豐富的上下文信息,從而學(xué)習(xí)到更好的物體表征。我們在典型的遙感任務(wù)上對所提出的模型進(jìn)行實(shí)驗(yàn),結(jié)果證明了Plain ViT作為遙感基礎(chǔ)模型方面的優(yōu)越性和有效性。我們希望這項(xiàng)研究可以為社區(qū)提供有價值的見解,并激發(fā)未來對開發(fā)遙感基礎(chǔ)模型的探索,尤其是基于Plain ViT的研究。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 視覺
    +關(guān)注

    關(guān)注

    1

    文章

    146

    瀏覽量

    23867
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1200

    瀏覽量

    24621
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    139

    瀏覽量

    5968
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2279

    瀏覽量

    2360

原文標(biāo)題:全球首個面向遙感任務(wù)設(shè)計的億級視覺Transformer大模型

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    Transformer語言模型簡介與實(shí)現(xiàn)過程

    任務(wù),隨后迅速擴(kuò)展到其他NLP任務(wù)中,如文本生成、語言理解、問答系統(tǒng)等。本文將詳細(xì)介紹Transformer語言模型的原理、特點(diǎn)、優(yōu)勢以及實(shí)現(xiàn)過程。
    的頭像 發(fā)表于 07-10 11:48 ?1117次閱讀

    llm模型有哪些格式

    LLM(Large Language Model,大型語言模型)是一種深度學(xué)習(xí)模型,主要用于處理自然語言處理(NLP)任務(wù)。LLM模型的格式多種多樣,以下是一些常見的LLM
    的頭像 發(fā)表于 07-09 09:59 ?518次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型自其問世以來,在自然語言處理(NLP)領(lǐng)域取得了巨大的成功,并成為了許多先進(jìn)模型(如BERT、GPT等)的基礎(chǔ)。本文將深入解讀如何使用PyTorch框架搭建Trans
    的頭像 發(fā)表于 07-02 11:41 ?1411次閱讀

    百度發(fā)布全球首個L4自動駕駛大模型

    近日,百度Apollo宣布了全球首個支持L4自動駕駛的大模型Apollo ADFM(Autonomous Driving Foundation Model)。這一突破性的技術(shù)成果,標(biāo)
    的頭像 發(fā)表于 05-17 09:58 ?428次閱讀

    基于“地界”遙感模型助力商湯SenseEarth智能遙感云平臺升級

    在AI大模型加持下,智能遙感又進(jìn)化出新能力!
    的頭像 發(fā)表于 05-09 16:13 ?557次閱讀
    基于“地界”<b class='flag-5'>遙感</b>大<b class='flag-5'>模型</b>助力商湯SenseEarth智能<b class='flag-5'>遙感</b>云平臺升級

    通義千問開源千億參數(shù)模型

    通義千問近日開源了其首個千億參數(shù)模型Qwen1.5-110B,這是其全系列中首個達(dá)到千億級別的開源模型。Qwen1.5-110B
    的頭像 發(fā)表于 05-08 11:01 ?683次閱讀

    【大語言模型:原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

    之后,成為文本建模領(lǐng)域的熱門架構(gòu)。不僅如此,它還對自然語言處理領(lǐng)域產(chǎn)生了深遠(yuǎn)的影響?;?b class='flag-5'>Transformer的預(yù)訓(xùn)練模型,如GPT系列和BERT系列,已在多種任務(wù)上取得了卓越的成績。目前的大型語言
    發(fā)表于 05-05 12:17

    商湯科技聯(lián)合海通證券發(fā)布業(yè)內(nèi)首個面向金融行業(yè)的多模態(tài)全棧式大模型

    4月23日,商湯科技正式推出“日日新SenseNova 5.0”大模型體系,并與海通證券聯(lián)合發(fā)布業(yè)內(nèi)首個面向金融行業(yè)的多模態(tài)全棧式大模型
    的頭像 發(fā)表于 04-26 09:48 ?415次閱讀
    商湯科技聯(lián)合海通證券發(fā)布業(yè)內(nèi)<b class='flag-5'>首個</b><b class='flag-5'>面向</b>金融行業(yè)的多模態(tài)全棧式大<b class='flag-5'>模型</b>

    視覺Transformer基本原理及目標(biāo)檢測應(yīng)用

    視覺Transformer的一般結(jié)構(gòu)如圖2所示,包括編碼器和解碼器兩部分,其中編碼器每一層包括一個多頭自注意力模塊(self-attention)和一個位置前饋神經(jīng)網(wǎng)絡(luò)(FFN)。
    發(fā)表于 04-03 10:32 ?3132次閱讀
    <b class='flag-5'>視覺</b><b class='flag-5'>Transformer</b>基本原理及目標(biāo)檢測應(yīng)用

    螞蟻集團(tuán)推出20參數(shù)多模態(tài)遙感基礎(chǔ)模型SkySense

    近日,螞蟻集團(tuán)聯(lián)合武漢大學(xué)宣布成功研發(fā)出20參數(shù)多模態(tài)遙感基礎(chǔ)模型SkySense。這一創(chuàng)新模型由螞蟻集團(tuán)的AI創(chuàng)新研發(fā)部門NextEvo與武漢大學(xué)共同完成,是迄今為止國際上參數(shù)規(guī)模
    的頭像 發(fā)表于 03-04 11:22 ?752次閱讀

    螞蟻推出20參數(shù)多模態(tài)遙感模型SkySense

    據(jù)了解,負(fù)責(zé)開發(fā)的百靈團(tuán)隊利用自身擁有的19遙感影像數(shù)據(jù)集進(jìn)行了預(yù)訓(xùn)練,從而生成了具有20.6參數(shù)的SkySense大模型。官方稱其為全球
    的頭像 發(fā)表于 02-28 15:53 ?600次閱讀

    基于Transformer模型的壓縮方法

    基于Transformer架構(gòu)的大型模型在人工智能領(lǐng)域中發(fā)揮著日益重要的作用,特別是在自然語言處理(NLP)和計算機(jī)視覺(CV)領(lǐng)域。
    的頭像 發(fā)表于 02-22 16:27 ?594次閱讀
    基于<b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>的壓縮方法

    大語言模型背后的Transformer,與CNN和RNN有何不同

    for Language Understanding》,BERT模型橫空出世,并橫掃NLP領(lǐng)域11項(xiàng)任務(wù)的最佳成績。而在BERT中發(fā)揮重要作用的結(jié)構(gòu)就是Transformer,之后又相繼出現(xiàn)XLNET、roBERT等
    的頭像 發(fā)表于 12-25 08:36 ?3653次閱讀
    大語言<b class='flag-5'>模型</b>背后的<b class='flag-5'>Transformer</b>,與CNN和RNN有何不同

    更深層的理解視覺Transformer, 對視覺Transformer的剖析

    最后是在ADE20K val上的LeaderBoard,通過榜單也可以看出,在榜單的前幾名中,Transformer結(jié)構(gòu)依舊占據(jù)是當(dāng)前的主力軍。
    的頭像 發(fā)表于 12-07 09:39 ?721次閱讀
    更深層的理解<b class='flag-5'>視覺</b><b class='flag-5'>Transformer</b>, 對<b class='flag-5'>視覺</b><b class='flag-5'>Transformer</b>的剖析

    AI Transformer模型支持機(jī)器視覺對象檢測方案

    使用機(jī)器視覺進(jìn)行對象檢測需要 AI 模型/算法在 AI 芯片、FPGA 或模塊上運(yùn)行。它們通常被稱為“人工智能引擎”。在首次訓(xùn)練后,可以部署 AI 模型以在適當(dāng)?shù)挠布线\(yùn)行,以做出預(yù)測和/或決策,通常稱為“推理”。確保硬件開發(fā)能
    發(fā)表于 11-23 10:31 ?459次閱讀
    AI <b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>支持機(jī)器<b class='flag-5'>視覺</b>對象檢測方案