寫在前面&&筆者的個人理解
目前基于Transformer結(jié)構(gòu)的算法模型已經(jīng)在計算機視覺(CV)領(lǐng)域展現(xiàn)出了巨大的影響力。他們在很多基礎(chǔ)的計算機視覺任務(wù)上都超過了之前的卷積神經(jīng)網(wǎng)絡(luò)(CNN)算法模型,下面是筆者找到的最新的在不同基礎(chǔ)計算機視覺任務(wù)上的LeaderBoard榜單排名,通過LeaderBoard可以看到,基于Transformer算法模型在各類計算機視覺任務(wù)上的統(tǒng)治地位。
圖像分類任務(wù)
首先是在ImageNet上的LeaderBoard,通過榜單可以看出,前五名當(dāng)中,每個模型都使用了Transformer結(jié)構(gòu),而CNN結(jié)構(gòu)只有部分使用,或者采用和Transformer相結(jié)合的方式。
圖像分類任務(wù)的LeaderBoard
目標(biāo)檢測任務(wù)
接下來是在COCO test-dev上的LeaderBoard,通過榜單可以看出,前五名當(dāng)中,一半以上都是基于DETR這類算法結(jié)構(gòu)進行延伸的。
目標(biāo)檢測任務(wù)的LeaderBoard
語義分割任務(wù)
最后是在ADE20K val上的LeaderBoard,通過榜單也可以看出,在榜單的前幾名中,Transformer結(jié)構(gòu)依舊占據(jù)是當(dāng)前的主力軍。
語義分割任務(wù)的LeaderBoard
雖然目前Transformer展現(xiàn)出了巨大的發(fā)展前景,但是現(xiàn)在的計算機視覺社區(qū)還并沒有完全掌握Vision Transformer的內(nèi)部工作原理,也沒有掌握其決策(輸出的預(yù)測結(jié)果)的基礎(chǔ),那對其可解釋性的需求就逐漸凸顯了出來。因為只有了解了這類模型是如何做出決策的,才不僅可以提高它們的性能,還可以建立對人工智能系統(tǒng)的信任。
所以本文的主要動機就是探索Vision Transformer的不同可解釋性方法,并根據(jù)不同算法的研究動機、結(jié)構(gòu)類型以及應(yīng)用場景進行分類,從而形成了一篇綜述文章。
刨析Vision Transformer
因為剛才提到,Vision Transformer的結(jié)構(gòu)在各類基礎(chǔ)的計算機視覺任務(wù)中都取得了非常不錯的成績。所以之后計算機視覺社區(qū)涌現(xiàn)出了很多方法來增強它的可解釋性。本文我們主要以分類任務(wù)為主線,從Common Attribution Methods、Attention-based Methods、Pruning-based Methods、Inherently Explainable Methods、Other Tasks這五個方面中,挑選出最新以及經(jīng)典的工作進行介紹。這里放一下論文中出現(xiàn)的思維導(dǎo)圖,大家可以根據(jù)自身感興趣的內(nèi)容,進行更加細(xì)致的閱讀~
本文思維導(dǎo)圖
Common Attribution Methods
基于屬性方法的解釋通常的出發(fā)點是對模型的輸入特征如何一步一步得到最終輸出結(jié)果過程的解釋。這類方法主要用于衡量模型的預(yù)測結(jié)果和輸入特征之間的相關(guān)性。
在這些方法中,例如Grad-CAM以及Integrated Gradients算法是直接應(yīng)用于了基于視覺Transformer的算法上。一些其他的方法像SHAP和Layer-Wise Relevance Propagation(LRP)已經(jīng)被用來探索基于ViT的架構(gòu)上了。但是由于SHAP這類方法到的計算成本非常大,所以最近的ViT Shapely算法被設(shè)計出來用于適配ViT的相關(guān)應(yīng)用研究。
Attention-based Methods
Vision Transformer正是得益于其注意力機制使其擁有了強大的特征提取能力。而在基于注意力的可解釋性方法中,對注意力權(quán)重結(jié)果進行可視化則是一種非常有效的方法。本文對其中的幾種可視化技術(shù)進行介紹
Raw Attention:該方法顧名思義,就是對網(wǎng)絡(luò)模型中間層得到的注意力權(quán)重圖進行可視化,從而對模型的效果進行分析。
Attention Rollout:該技術(shù)通過對網(wǎng)絡(luò)的不同層中擴展注意力權(quán)重來跟蹤從輸入token到中間embedding之間的信息傳輸。
Attention Flow:該方法將注意力圖視為一個流量網(wǎng)絡(luò),并使用最大流量算法計算從中間embedding到輸入token的最大流量值。
partialLRP:該方法是用于可視化Vision Transformer中的多頭注意力機制提出來的,同時還考慮了每個注意力頭的重要性。
Grad-SAM:該方法用于緩解僅依靠原始注意力矩陣來解釋模型預(yù)測的局限性,促使研究人員將梯度以用于原始的注意力權(quán)重中。
Beyond Intuition:該方法也是一種用于解釋注意力的方法,包括注意力感知和推理反饋兩個階段。
最后放一張不同可解釋性方法的注意力可視化圖,大家可以自行感受一下不同可視化方法的區(qū)別。
不同可視化方法的注意力圖對比
Pruning-based Methods
剪枝是一種非常有效的方法,被廣泛應(yīng)用于優(yōu)化transformer結(jié)構(gòu)的效率和復(fù)雜性。剪枝方法通過對冗余或者沒用的信息進行刪減,從而降低模型的參數(shù)量和計算復(fù)雜度。雖然剪枝算法側(cè)重于提高模型的計算效率,但是該類算法依舊可以實現(xiàn)對模型的可解釋性。
本文中針對基于Vision-Transformer的剪枝方法,大體可以分成三大類:explicitly explainable(顯式可解釋)、implicitly explainable(隱式可解釋)、possibly explainable(可能可解釋)。
Explicitly Explainable
在基于剪枝的方法當(dāng)中,有幾類方法可以提供簡單而且更可解釋的模型。
IA-RED^2:該方法的目標(biāo)是在算法模型的計算效率以及可解釋性之間實現(xiàn)一個最優(yōu)的平衡。并且在這個過程當(dāng)中,保持原有ViT算法模型的靈活性。
X-Pruner:該方法是一種用于剪枝顯著性單元的方法,通過創(chuàng)建一個可解釋性的感知掩碼來衡量每個可預(yù)測單元在預(yù)測特定類中的貢獻。
Vision DiffMask:該剪枝方法包括在每個ViT層上加入門控機制,通過門控機制,可以實現(xiàn)在屏蔽輸入的同時保持模型的輸出。除此之外,該算法模型可以清晰地觸發(fā)剩余圖像中的子集,從而實現(xiàn)更好地對模型預(yù)測的理解。
Implicitly Explainable
基于剪枝的方法當(dāng)中,也有一些經(jīng)典的方法可以被劃分為隱式的可解釋性模型類別中。
Dynamic ViT:該方法采用輕量級預(yù)測模塊,根據(jù)當(dāng)前的特征去估計每個token的重要性程度。然后將該輕量級的模塊加入到ViT的不同層中,以分層的方式來修剪冗余的token。最重要的是,該方法通過逐步定位對分類貢獻最大的關(guān)鍵圖像部分來增強可解釋性。
Efficient Vision Transformer(EViT):該方法的核心思想是通過重組token的方式來加速EViT。通過計算注意力得分,EViT保留最相關(guān)的token,同時將不太相關(guān)的token融合到另外的token中。同時論文的作者為了評估EViT的可解釋性,對多個輸入圖像可視化了token的識別過程。
Possibly Explainable
雖然這類方法最初并不是為了提高ViT的可解釋性,但是這類方法為進一步研究模型的可解釋性提供了很大的潛力。
Patch Slimming:通過自上而下的方法來專注圖像中的冗余patch來加速ViT。該算法選擇性的保留了關(guān)鍵補丁的能力來突出重要的視覺特征,從而增強可解釋性。
Hierarchical Visual Transformer(HVT):該方法的引入用于去增強ViT的可擴展性和性能。隨著模型深度的增加,序列長度逐漸減小。此外,通過將ViT塊劃分為多個階段,并在每個階段應(yīng)用池化操作,顯著提高了計算效率。考慮到對模型最重要組成部分的逐漸集中,有機會探索其對增強可解釋性和可解釋性的潛在影響。
Inherently Explainable Methods
在不同的可解釋方法中,有一類方法主要是開發(fā)能夠內(nèi)在地解釋算法模型,然而,這些模型通常難以達到與更復(fù)雜的黑盒模型相同的精度水平。因此,必須在可解釋性和性能之間考慮謹(jǐn)慎的平衡。接下來對一些經(jīng)典的工作進行簡要的介紹。
ViT-CX:該方法針對ViT模型定制的基于掩碼的解釋方法。這種方法依賴patch embedding以及其對模型輸出的影響,而不是聚焦對它們的關(guān)注。該方法包括掩碼生成和掩碼聚合兩個階段,從而提供更有意義的顯著性圖。
ViT-NeT:該方法是一種新的神經(jīng)樹解碼器,通過樹形結(jié)構(gòu)和原型來描述決策過程。同時,該算法還可以對結(jié)果進行可視化解釋。
R-Cut:該方法是通過Relationship Weighted Out and Cut來增強ViT的可解釋性。該方法包括兩個模塊,分別是Relationship Weighted Out和Cut模塊。前者側(cè)重于從中間層提取特定類的信息,強調(diào)相關(guān)特征。后者執(zhí)行細(xì)粒度的特征分解。通過對兩個模塊的集成,可以生成密集的特定于類的可解釋性映射。
Other Tasks
就如同在文章開頭提到的,除了分類之外,基于ViT的架構(gòu)對其他CV任務(wù)的解釋性仍在探索中。有幾種專門針對其他任務(wù)提出的可解釋性方法,接下來就對相關(guān)領(lǐng)域的最新工作進行介紹~
eX-ViT:該算法是一種基于弱監(jiān)督語義分割的新型可解釋視覺轉(zhuǎn)換器。此外,為了提高可解釋性,引入了屬性導(dǎo)向損失模塊,該模塊包含全局級屬性導(dǎo)向損失、局部級屬性可判別性損失和屬性多樣性損失三種損失。前者使用注意圖來創(chuàng)建可解釋的特征,后兩者則增強屬性學(xué)習(xí)。
DINO:該方法是一種簡單的自監(jiān)督方法,并且是一種不帶標(biāo)簽的自蒸餾方法。最終學(xué)習(xí)到的注意圖能夠有效地保留圖像的語義區(qū)域,從而實現(xiàn)可以解釋的目的。
Generic Attention-model:該方法是一種基于Transformer架構(gòu)做預(yù)測的算法模型。該方法應(yīng)用于三種最常用的架構(gòu),即純自注意、自注意與共同注意相結(jié)合和編碼器-解碼器注意。為了檢驗?zāi)P偷慕忉屝?,作者使用了視覺問答任務(wù),然而,它也適用于其他CV任務(wù),如目標(biāo)檢測和圖像分割。
ATMAN:這是一種模態(tài)不可知的擾動方法,利用注意機制生成輸入相對于輸出預(yù)測的相關(guān)性圖。該方法試圖通過記憶效率注意操作來理解變形預(yù)測。
Concept-Transformer:該算法通過突出顯示用戶定義的高級概念的注意分?jǐn)?shù)來生成模型輸出的解釋,從而確保可信性和可靠性。
未來展望
雖然目前基于Transformer架構(gòu)的算法模型已經(jīng)在各類計算機視覺任務(wù)上取得了非常出色的成績。但是目前來看,對于如何利用可解釋性方法的好處來促進模型調(diào)試和改進,以及提高模型的公平性和可靠性,特別是在ViT應(yīng)用中,一直缺乏明顯的研究。
所以本文以圖像分類任務(wù)出發(fā),對現(xiàn)有的基于Vision Transformer的可解釋性算法模型進行歸類整理,從而幫助人們更好的理解此類模型架構(gòu),希望可以對大家有所幫助。
-
算法
+關(guān)注
關(guān)注
23文章
4587瀏覽量
92505 -
計算機視覺
+關(guān)注
關(guān)注
8文章
1694瀏覽量
45901 -
Transformer
+關(guān)注
關(guān)注
0文章
139瀏覽量
5968
原文標(biāo)題:更深層的理解視覺Transformer, 對視覺Transformer的剖析
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論