1. 論文信息
標題:Visual Classification via Description from Large Language Models
作者:Zihao Xu, Hao he, Guang-He Lee, Yuyang Wang, Hao Wang
原文鏈接:http://wanghao.in/paper/ICLR22_GRDA.pdf
代碼鏈接:https://github.com/ZrrSkywalker/PointCLIP
2. 引言
論文首先介紹了一個非常有意思的圖:為什么人們把圖中的物體分類為母雞?因為如果我們?nèi)祟愋枰C明我們給出的答案是正確的,你可以給它的喙命名,描述它的羽毛,或者討論我們與母雞聯(lián)系在一起的任何其他特征。
人們很容易用文字來描述類別的視覺特征,并利用這些文字描述來輔助感知,用于分類檢測等各種感知任務(wù)。然而,生成這樣的模式的語言描述本身就已經(jīng)非常具有挑戰(zhàn),很難以完成了,更不用說利用它們進行感知任務(wù),這在機器學(xué)習(xí)領(lǐng)域還是一個比較大的挑戰(zhàn)。
在成對的圖像-文本數(shù)據(jù)的大型語料庫上進行訓(xùn)練視覺語言模型(Vison-Language Model),例如CLIP ,最近取得了巨大成功,在圖像分類等領(lǐng)域取得了巨大的成就。標準的zero-shot分類的程序設(shè)定——計算查詢圖像和每個類別單詞的embeddings之間的相似度,然后選擇最高的。這種zero-shot的設(shè)定在許多流行的基準測試中顯示了令人印象深刻的性能。
與單詞相比,這種結(jié)構(gòu)化的描述顯然是一個合理的出發(fā)點,因為這種基于語義的方法可以依賴于這樣一個事實,即在互聯(lián)網(wǎng)環(huán)境種,“母雞”這個詞往往出現(xiàn)在母雞的圖片附近。
其實本文主要的insight是,其實我們可以使用語言作為視覺識別的internal representation,這為計算機視覺任務(wù)創(chuàng)建了一個可解釋的方案。使用語言使我們能夠靈活地與任何單詞進行比較,而不是只使用一個類別名稱來在多模態(tài)信息種進行查詢。如果我們知道應(yīng)該使用什么特性,我們可以讓VLM檢查這些特性,而不僅僅是依照類名進行查詢。
要找一只母雞,要找它的喙、羽毛以及其他的特征。通過基于這些特性的判斷,我們可以獲得視覺信息種的額外線索,鼓勵查看我們想要使用的特性。在這個過程中,我們可以清楚地了解模型使用什么來做出決策,顯然這是有助于。然而,手工編寫這些特性可能代價高昂,而且不能擴展到大量的類。我們可以通過向另一個模型請求幫助來解決這個問題。
大型語言模型(large language model),如GPT-3 ,顯示了對各種主題的顯著的世界知識。它們可以被認為是隱性知識庫,以一種可以用自然語言輕松查詢的方式喧鬧地濃縮了互聯(lián)網(wǎng)的集體知識。因為人們經(jīng)常寫東西看起來像什么,這包括視覺描述符的知識。
因此,我們可以簡單地問一個LLM,通過LLM來查詢物體的特征。與從大型語言模型獲得的類描述符相比,我們提供了一種用視覺語言模型替代當(dāng)前零目標分類范式的方法。這不需要額外的訓(xùn)練,也不需要推理期間的大量計算開銷。通過構(gòu)造,這提供了某種程度的內(nèi)在可解釋性;我們可以知道一張圖片被標記為老虎,因為模型看到的是老虎的條紋,而不是因為它有一個尾巴而把他分類成老虎。
3. 方法
首先來描述下本文定義識別范式和經(jīng)典的語言識別模型的區(qū)別,如上圖,論文提出的方法首先對模型類別的特征進行分解:
where is the set of descriptors for the category and is the log probability that descriptor pertains to the image . Our approach will represent the descriptors also through a natural language sentence.
如何得到這些先驗的特征分配呢?當(dāng)然不是去根據(jù)手工標注,我們可以去問GPT-3。當(dāng)類別D(c)的字典包含許多與觀察到的圖像x高度匹配的描述符時,該模型s(c, x)將輸出一個高分。圖2說明了這種分類方法。我們使用加法,以便在圖像中可以缺少一些描述符,并通過類的描述符數(shù)量進行規(guī)范化,以允許不同的類擁有不同數(shù)量的描述符。由于描述符是相加的,并且用自然語言表示,因此模型是自然可解釋的。要理解為什么模型預(yù)測c類,我們可以簡單地閱讀哪些描述符得分高。
問題的模式,如上所示。而獲取的答案也非常有意思:
可以發(fā)現(xiàn),利用GPT-3來預(yù)測的效果還是非常不錯的。描述符通常包括顏色、形狀、物體部件、數(shù)量和關(guān)系,但也可以用自然語言表達任何東西,這些特征靈活性區(qū)分了它們,使每個類別的描述符豐富而微妙。
雖然語言模型的訓(xùn)練集中沒有圖像,但它們可以在沒有視覺輸入的情況下成功地模仿視覺描述。用于訓(xùn)練語言模型的語料庫包含有視覺知識的人所寫的描述。這些描述,在規(guī)模上聚合,為視覺識別提供了強有力的基礎(chǔ)。
下一步就是GROUNDING DESCRIPTORS, 也就是說利用“{category_name} which (is/has/etc) {descriptor}”這種prompt的方式,來使得CLIP的描述更加細粒度,使得模型的text embedding具有更強的泛化能力??梢园l(fā)現(xiàn),這個方法等于只是重新設(shè)計了一種獲取prompt的方式。
4. 實驗
論文評估提出的方法在執(zhí)行圖像分類的能力,同時也為其決策提供解釋。雖然大多數(shù)可解釋性方法都在基準性能上做出了妥協(xié),但在表1中演示了我們的方法在此基礎(chǔ)上進行了改進。
與將圖像與類名的embedding進行比較的CLIP相比,論文提出的方法在imagenet1上平均提高了3%以上的性能。ImageNetV2分布移位基準的改進表明,這些改進不是由于對ImageNet分布的過擬合。最后,我們演示了對鳥類細粒度分類的CUB基準的約1-2%的改進,表明該技術(shù)在通用識別環(huán)境之外具有前景。我們假設(shè),由于GPT-3不能產(chǎn)生特定于鳥類分類的生態(tài)位描述符,所以在CUB上的收益減少了。
可以看到可視化還是提供了比較充分的對于類別特征的解釋的。
論文也提供了基于描述符的檢索信息,可以發(fā)現(xiàn)也會有非常顯著的性能改進。
5. 結(jié)論
論文提出了一種新的基于視覺語言模型的零鏡頭分類框架。作者利用大型語言模型中關(guān)于視覺類別的語言知識,為每個類別生成文本描述符,將圖像與這些描述符進行比較,而不是直接估計圖像與類別名稱的相似性。使用GPT-3和CLIP,作者顯示了非常promising的結(jié)果。
審核編輯:劉清
-
Clip
+關(guān)注
關(guān)注
0文章
30瀏覽量
6640 -
GPT
+關(guān)注
關(guān)注
0文章
351瀏覽量
15281
原文標題:通過大型語言模型的描述進行視覺分類
文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論