0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種新的基于視覺語言模型的零鏡頭分類框架

jf_pmFSk4VX ? 來源:GiantPandaCV ? 作者:Garfield ? 2022-10-20 09:56 ? 次閱讀

1. 論文信息

標題:Visual Classification via Description from Large Language Models

作者:Zihao Xu, Hao he, Guang-He Lee, Yuyang Wang, Hao Wang

原文鏈接:http://wanghao.in/paper/ICLR22_GRDA.pdf

代碼鏈接:https://github.com/ZrrSkywalker/PointCLIP

2. 引言

b4537fd0-5013-11ed-a3b6-dac502259ad0.png

論文首先介紹了一個非常有意思的圖:為什么人們把圖中的物體分類為母雞?因為如果我們?nèi)祟愋枰C明我們給出的答案是正確的,你可以給它的喙命名,描述它的羽毛,或者討論我們與母雞聯(lián)系在一起的任何其他特征。

人們很容易用文字來描述類別的視覺特征,并利用這些文字描述來輔助感知,用于分類檢測等各種感知任務(wù)。然而,生成這樣的模式的語言描述本身就已經(jīng)非常具有挑戰(zhàn),很難以完成了,更不用說利用它們進行感知任務(wù),這在機器學(xué)習(xí)領(lǐng)域還是一個比較大的挑戰(zhàn)。

在成對的圖像-文本數(shù)據(jù)的大型語料庫上進行訓(xùn)練視覺語言模型(Vison-Language Model),例如CLIP ,最近取得了巨大成功,在圖像分類等領(lǐng)域取得了巨大的成就。標準的zero-shot分類的程序設(shè)定——計算查詢圖像和每個類別單詞的embeddings之間的相似度,然后選擇最高的。這種zero-shot的設(shè)定在許多流行的基準測試中顯示了令人印象深刻的性能。

與單詞相比,這種結(jié)構(gòu)化的描述顯然是一個合理的出發(fā)點,因為這種基于語義的方法可以依賴于這樣一個事實,即在互聯(lián)網(wǎng)環(huán)境種,“母雞”這個詞往往出現(xiàn)在母雞的圖片附近。

其實本文主要的insight是,其實我們可以使用語言作為視覺識別的internal representation,這為計算機視覺任務(wù)創(chuàng)建了一個可解釋的方案。使用語言使我們能夠靈活地與任何單詞進行比較,而不是只使用一個類別名稱來在多模態(tài)信息種進行查詢。如果我們知道應(yīng)該使用什么特性,我們可以讓VLM檢查這些特性,而不僅僅是依照類名進行查詢。

要找一只母雞,要找它的喙、羽毛以及其他的特征。通過基于這些特性的判斷,我們可以獲得視覺信息種的額外線索,鼓勵查看我們想要使用的特性。在這個過程中,我們可以清楚地了解模型使用什么來做出決策,顯然這是有助于。然而,手工編寫這些特性可能代價高昂,而且不能擴展到大量的類。我們可以通過向另一個模型請求幫助來解決這個問題。

大型語言模型(large language model),如GPT-3 ,顯示了對各種主題的顯著的世界知識。它們可以被認為是隱性知識庫,以一種可以用自然語言輕松查詢的方式喧鬧地濃縮了互聯(lián)網(wǎng)的集體知識。因為人們經(jīng)常寫東西看起來像什么,這包括視覺描述符的知識。

因此,我們可以簡單地問一個LLM,通過LLM來查詢物體的特征。與從大型語言模型獲得的類描述符相比,我們提供了一種用視覺語言模型替代當(dāng)前零目標分類范式的方法。這不需要額外的訓(xùn)練,也不需要推理期間的大量計算開銷。通過構(gòu)造,這提供了某種程度的內(nèi)在可解釋性;我們可以知道一張圖片被標記為老虎,因為模型看到的是老虎的條紋,而不是因為它有一個尾巴而把他分類成老虎。

3. 方法

b4b17bb2-5013-11ed-a3b6-dac502259ad0.png

首先來描述下本文定義識別范式和經(jīng)典的語言識別模型的區(qū)別,如上圖,論文提出的方法首先對模型類別的特征進行分解:

where is the set of descriptors for the category and is the log probability that descriptor pertains to the image . Our approach will represent the descriptors also through a natural language sentence.

如何得到這些先驗的特征分配呢?當(dāng)然不是去根據(jù)手工標注,我們可以去問GPT-3。當(dāng)類別D(c)的字典包含許多與觀察到的圖像x高度匹配的描述符時,該模型s(c, x)將輸出一個高分。圖2說明了這種分類方法。我們使用加法,以便在圖像中可以缺少一些描述符,并通過類的描述符數(shù)量進行規(guī)范化,以允許不同的類擁有不同數(shù)量的描述符。由于描述符是相加的,并且用自然語言表示,因此模型是自然可解釋的。要理解為什么模型預(yù)測c類,我們可以簡單地閱讀哪些描述符得分高。

b4bcb4c8-5013-11ed-a3b6-dac502259ad0.png

問題的模式,如上所示。而獲取的答案也非常有意思:

b4cb7256-5013-11ed-a3b6-dac502259ad0.png

可以發(fā)現(xiàn),利用GPT-3來預(yù)測的效果還是非常不錯的。描述符通常包括顏色、形狀、物體部件、數(shù)量和關(guān)系,但也可以用自然語言表達任何東西,這些特征靈活性區(qū)分了它們,使每個類別的描述符豐富而微妙。

雖然語言模型的訓(xùn)練集中沒有圖像,但它們可以在沒有視覺輸入的情況下成功地模仿視覺描述。用于訓(xùn)練語言模型的語料庫包含有視覺知識的人所寫的描述。這些描述,在規(guī)模上聚合,為視覺識別提供了強有力的基礎(chǔ)。

下一步就是GROUNDING DESCRIPTORS, 也就是說利用“{category_name} which (is/has/etc) {descriptor}”這種prompt的方式,來使得CLIP的描述更加細粒度,使得模型的text embedding具有更強的泛化能力??梢园l(fā)現(xiàn),這個方法等于只是重新設(shè)計了一種獲取prompt的方式。

4. 實驗

b4f2383c-5013-11ed-a3b6-dac502259ad0.png

論文評估提出的方法在執(zhí)行圖像分類的能力,同時也為其決策提供解釋。雖然大多數(shù)可解釋性方法都在基準性能上做出了妥協(xié),但在表1中演示了我們的方法在此基礎(chǔ)上進行了改進。

與將圖像與類名的embedding進行比較的CLIP相比,論文提出的方法在imagenet1上平均提高了3%以上的性能。ImageNetV2分布移位基準的改進表明,這些改進不是由于對ImageNet分布的過擬合。最后,我們演示了對鳥類細粒度分類的CUB基準的約1-2%的改進,表明該技術(shù)在通用識別環(huán)境之外具有前景。我們假設(shè),由于GPT-3不能產(chǎn)生特定于鳥類分類的生態(tài)位描述符,所以在CUB上的收益減少了。

b518990a-5013-11ed-a3b6-dac502259ad0.png

可以看到可視化還是提供了比較充分的對于類別特征的解釋的。

b55ed186-5013-11ed-a3b6-dac502259ad0.png

論文也提供了基于描述符的檢索信息,可以發(fā)現(xiàn)也會有非常顯著的性能改進。

5. 結(jié)論

論文提出了一種新的基于視覺語言模型的零鏡頭分類框架。作者利用大型語言模型中關(guān)于視覺類別的語言知識,為每個類別生成文本描述符,將圖像與這些描述符進行比較,而不是直接估計圖像與類別名稱的相似性。使用GPT-3和CLIP,作者顯示了非常promising的結(jié)果。




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Clip
    +關(guān)注

    關(guān)注

    0

    文章

    30

    瀏覽量

    6640
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    351

    瀏覽量

    15281

原文標題:通過大型語言模型的描述進行視覺分類

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    如何利用Transformers了解視覺語言模型

    模型稱為 “視覺語言模型是什么意思?個結(jié)合了視覺
    發(fā)表于 03-03 09:49 ?993次閱讀
    如何利用Transformers了解<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    【大語言模型:原理與工程實踐】大語言模型的應(yīng)用

    類任務(wù)上表現(xiàn)出色,甚至在樣本條件下也能取得良好效果。另類則需要逐步推理才能完成的任務(wù),類似于人類的系統(tǒng)2,如數(shù)字推理等。然而,隨著參數(shù)量的增加,大語言模型在這類任務(wù)上并未出現(xiàn)質(zhì)的飛
    發(fā)表于 05-07 17:21

    一種成分取證的理論分析模式的分類框架

    一種成分取證的理論分析模式的分類框架
    發(fā)表于 03-20 11:04 ?0次下載

    一種新的動態(tài)微觀語言競爭社會仿真模型

    語言競爭傳播演化現(xiàn)象是典型的不能假設(shè)、無法進行真實性實驗的社會科學(xué)問題,而建立在社會仿真模型基礎(chǔ)上的計算實驗是可行的方案。利用基于Agent的社會圈子網(wǎng)絡(luò)理論并引入語言的內(nèi)部詞匯結(jié)構(gòu)給出一種
    發(fā)表于 11-23 15:41 ?6次下載

    一種稀疏協(xié)同模型的目標跟蹤

    針對受到光照、遮擋及姿態(tài)變化等引起的目標外觀發(fā)生變化時,目標跟蹤的魯棒性和準確性較差的問題,將稀疏表示引入到粒子濾波框架進行目標跟蹤,提出一種稀疏協(xié)同模型。首先,在目標運動定位模型中,
    發(fā)表于 12-09 11:51 ?0次下載

    一種改進的視覺詞袋方法

    視覺詞袋模型廣泛地應(yīng)用于圖像分類與圖像檢索等領(lǐng)域.在傳統(tǒng)詞袋模型中,視覺單詞統(tǒng)計方法忽略了視覺
    發(fā)表于 12-28 17:36 ?3次下載

    一種新的目標分類特征深度學(xué)習(xí)模型

    為提高低配置計算環(huán)境中的視覺目標實時在線分類特征提取的時效性和分類準確率,提出一種新的目標分類特征深度學(xué)習(xí)
    發(fā)表于 03-20 17:30 ?0次下載
    <b class='flag-5'>一種</b>新的目標<b class='flag-5'>分類</b>特征深度學(xué)習(xí)<b class='flag-5'>模型</b>

    一種基于框架特征的共指消解方法

    一種基于框架特征的共指消解方法,該方法通過融合漢語框架語義信息并采用多種分類算法實現(xiàn)共指消解。框架語義篇章語料集上的實驗結(jié)果表明,將漢語
    發(fā)表于 03-19 11:35 ?7次下載
    <b class='flag-5'>一種</b>基于<b class='flag-5'>框架</b>特征的共指消解方法

    一種基于BERT模型的社交電商文本分類算法

    隨著網(wǎng)絡(luò)購物的高速發(fā)展,網(wǎng)絡(luò)商家和購物者在網(wǎng)絡(luò)交易活動中產(chǎn)生了大量的交易數(shù)據(jù),其中蘊含著巨大的分析價值。針對社交電商商品文本的文本分類問題,為了更加高效準確地判斷文本所描述商品的類別,提出了一種
    發(fā)表于 04-13 15:14 ?8次下載
    <b class='flag-5'>一種</b>基于BERT<b class='flag-5'>模型</b>的社交電商文本<b class='flag-5'>分類</b>算法

    一種問題框架模型驅(qū)動技術(shù)現(xiàn)結(jié)合的方法

    ,仍是個亟待解決的問題。文中提出了一種問題框架模型驅(qū)動技術(shù)相結(jié)合的方法,其可將問題模型轉(zhuǎn)換為UML( Unified Modeling
    發(fā)表于 04-23 10:48 ?4次下載
    <b class='flag-5'>一種</b>問題<b class='flag-5'>框架</b>與<b class='flag-5'>模型</b>驅(qū)動技術(shù)現(xiàn)結(jié)合的方法

    一種基于Q學(xué)習(xí)算法的增量分類模型

    大數(shù)據(jù)時代的數(shù)據(jù)信息呈現(xiàn)持續(xù)性、爆炸性的増長,為杋器學(xué)習(xí)算法帶來了大量監(jiān)督樣本。然而,這對信息通常不是次性獲得的,且獲得的數(shù)據(jù)標記是不準確的,這對傳統(tǒng)的分類模型提岀了挑戰(zhàn),而増量學(xué)習(xí)是一種重要
    發(fā)表于 05-13 14:17 ?3次下載

    一種基于亂序語言模型的預(yù)訓(xùn)練模型-PERT

    由于亂序語言模型不使用[MASK]標記,減輕了預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)之間的gap,并由于預(yù)測空間大小為輸入序列長度,使得計算效率高于掩碼語言模型。PERT
    的頭像 發(fā)表于 05-10 15:01 ?1486次閱讀

    OpenCV中支持的非分類與檢測視覺模型

    前面給大家分別匯總了OpenCV中支持的圖像分類與對象檢測模型,視覺視覺任務(wù)除了分類與檢測還有很多其他任務(wù),這里我們就來OpenCV中支持的
    的頭像 發(fā)表于 08-19 09:10 ?1226次閱讀

    介紹一種新的全景視覺里程計框架PVO

    論文提出了PVO,這是一種新的全景視覺里程計框架,用于實現(xiàn)場景運動、幾何和全景分割信息的更全面建模。
    的頭像 發(fā)表于 05-09 16:51 ?1757次閱讀
    介紹<b class='flag-5'>一種</b>新的全景<b class='flag-5'>視覺</b>里程計<b class='flag-5'>框架</b>PVO

    語言模型中的語言與知識:一種神秘的分離現(xiàn)象

    自然語言處理領(lǐng)域存在著個非常有趣的現(xiàn)象:在多語言模型中,不同的語言之間似乎存在著一種隱含的對齊
    發(fā)表于 02-20 14:53 ?471次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>中的<b class='flag-5'>語言</b>與知識:<b class='flag-5'>一種</b>神秘的分離現(xiàn)象