亚洲av成人在线免费,日本精品激情乱一区二区,亚洲av无码有乱码在线观看

1. 論文信息

標題：Visual Classification via Description from Large Language Models

作者：Zihao Xu, Hao he, Guang-He Lee, Yuyang Wang, Hao Wang

原文鏈接：http://wanghao.in/paper/ICLR22_GRDA.pdf

代碼鏈接：https://github.com/ZrrSkywalker/PointCLIP

2. 引言

論文首先介紹了一個非常有意思的圖：為什么人們把圖中的物體分類為母雞？因為如果我們?nèi)祟愋枰C明我們給出的答案是正確的，你可以給它的喙命名，描述它的羽毛，或者討論我們與母雞聯(lián)系在一起的任何其他特征。

人們很容易用文字來描述類別的視覺特征，并利用這些文字描述來輔助感知，用于分類檢測等各種感知任務(wù)。然而，生成這樣的模式的語言描述本身就已經(jīng)非常具有挑戰(zhàn)，很難以完成了，更不用說利用它們進行感知任務(wù)，這在機器學(xué)習(xí)領(lǐng)域還是一個比較大的挑戰(zhàn)。

在成對的圖像-文本數(shù)據(jù)的大型語料庫上進行訓(xùn)練視覺語言模型（Vison-Language Model），例如CLIP ，最近取得了巨大成功，在圖像分類等領(lǐng)域取得了巨大的成就。標準的zero-shot分類的程序設(shè)定——計算查詢圖像和每個類別單詞的embeddings之間的相似度，然后選擇最高的。這種zero-shot的設(shè)定在許多流行的基準測試中顯示了令人印象深刻的性能。

與單詞相比，這種結(jié)構(gòu)化的描述顯然是一個合理的出發(fā)點，因為這種基于語義的方法可以依賴于這樣一個事實，即在互聯(lián)網(wǎng)環(huán)境種，“母雞”這個詞往往出現(xiàn)在母雞的圖片附近。

其實本文主要的insight是，其實我們可以使用語言作為視覺識別的internal representation，這為計算機視覺任務(wù)創(chuàng)建了一個可解釋的方案。使用語言使我們能夠靈活地與任何單詞進行比較，而不是只使用一個類別名稱來在多模態(tài)信息種進行查詢。如果我們知道應(yīng)該使用什么特性，我們可以讓VLM檢查這些特性，而不僅僅是依照類名進行查詢。

要找一只母雞，要找它的喙、羽毛以及其他的特征。通過基于這些特性的判斷，我們可以獲得視覺信息種的額外線索，鼓勵查看我們想要使用的特性。在這個過程中，我們可以清楚地了解模型使用什么來做出決策，顯然這是有助于。然而，手工編寫這些特性可能代價高昂，而且不能擴展到大量的類。我們可以通過向另一個模型請求幫助來解決這個問題。

大型語言模型(large language model)，如GPT-3 ，顯示了對各種主題的顯著的世界知識。它們可以被認為是隱性知識庫，以一種可以用自然語言輕松查詢的方式喧鬧地濃縮了互聯(lián)網(wǎng)的集體知識。因為人們經(jīng)常寫東西看起來像什么，這包括視覺描述符的知識。

因此，我們可以簡單地問一個LLM，通過LLM來查詢物體的特征。與從大型語言模型獲得的類描述符相比，我們提供了一種用視覺語言模型替代當(dāng)前零目標分類范式的方法。這不需要額外的訓(xùn)練，也不需要推理期間的大量計算開銷。通過構(gòu)造，這提供了某種程度的內(nèi)在可解釋性;我們可以知道一張圖片被標記為老虎，因為模型看到的是老虎的條紋，而不是因為它有一個尾巴而把他分類成老虎。

3. 方法

首先來描述下本文定義識別范式和經(jīng)典的語言識別模型的區(qū)別，如上圖，論文提出的方法首先對模型類別的特征進行分解：

where is the set of descriptors for the category and is the log probability that descriptor pertains to the image . Our approach will represent the descriptors also through a natural language sentence.

如何得到這些先驗的特征分配呢？當(dāng)然不是去根據(jù)手工標注，我們可以去問GPT-3。當(dāng)類別D(c)的字典包含許多與觀察到的圖像x高度匹配的描述符時，該模型s(c, x)將輸出一個高分。圖2說明了這種分類方法。我們使用加法，以便在圖像中可以缺少一些描述符，并通過類的描述符數(shù)量進行規(guī)范化，以允許不同的類擁有不同數(shù)量的描述符。由于描述符是相加的，并且用自然語言表示，因此模型是自然可解釋的。要理解為什么模型預(yù)測c類，我們可以簡單地閱讀哪些描述符得分高。

問題的模式，如上所示。而獲取的答案也非常有意思：

可以發(fā)現(xiàn)，利用GPT-3來預(yù)測的效果還是非常不錯的。描述符通常包括顏色、形狀、物體部件、數(shù)量和關(guān)系，但也可以用自然語言表達任何東西，這些特征靈活性區(qū)分了它們，使每個類別的描述符豐富而微妙。

雖然語言模型的訓(xùn)練集中沒有圖像，但它們可以在沒有視覺輸入的情況下成功地模仿視覺描述。用于訓(xùn)練語言模型的語料庫包含有視覺知識的人所寫的描述。這些描述，在規(guī)模上聚合，為視覺識別提供了強有力的基礎(chǔ)。

下一步就是GROUNDING DESCRIPTORS，也就是說利用“{category_name} which (is/has/etc) {descriptor}”這種prompt的方式，來使得CLIP的描述更加細粒度，使得模型的text embedding具有更強的泛化能力?？梢园l(fā)現(xiàn)，這個方法等于只是重新設(shè)計了一種獲取prompt的方式。

4. 實驗

論文評估提出的方法在執(zhí)行圖像分類的能力，同時也為其決策提供解釋。雖然大多數(shù)可解釋性方法都在基準性能上做出了妥協(xié)，但在表1中演示了我們的方法在此基礎(chǔ)上進行了改進。

與將圖像與類名的embedding進行比較的CLIP相比，論文提出的方法在imagenet1上平均提高了3%以上的性能。ImageNetV2分布移位基準的改進表明，這些改進不是由于對ImageNet分布的過擬合。最后，我們演示了對鳥類細粒度分類的CUB基準的約1-2%的改進，表明該技術(shù)在通用識別環(huán)境之外具有前景。我們假設(shè)，由于GPT-3不能產(chǎn)生特定于鳥類分類的生態(tài)位描述符，所以在CUB上的收益減少了。

可以看到可視化還是提供了比較充分的對于類別特征的解釋的。

論文也提供了基于描述符的檢索信息，可以發(fā)現(xiàn)也會有非常顯著的性能改進。

5. 結(jié)論

論文提出了一種新的基于視覺語言模型的零鏡頭分類框架。作者利用大型語言模型中關(guān)于視覺類別的語言知識，為每個類別生成文本描述符，將圖像與這些描述符進行比較，而不是直接估計圖像與類別名稱的相似性。使用GPT-3和CLIP，作者顯示了非常promising的結(jié)果。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

Clip

Clip

+關(guān)注

關(guān)注
0

文章
30

瀏覽量
6640
GPT

GPT

+關(guān)注

關(guān)注
0

文章
351

瀏覽量
15281

原文標題：通過大型語言模型的描述進行視覺分類

文章出處：【微信號：GiantPandaCV，微信公眾號：GiantPandaCV】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

如何利用Transformers了解視覺語言模型

將模型稱為 “視覺語言” 模型是什么意思？一個結(jié)合了視覺和語

發(fā)表于 03-03 09:49 ?993次閱讀

【大語言模型：原理與工程實踐】大語言模型的應(yīng)用

類任務(wù)上表現(xiàn)出色，甚至在零樣本條件下也能取得良好效果。另一類則需要逐步推理才能完成的任務(wù)，類似于人類的系統(tǒng)2，如數(shù)字推理等。然而，隨著參數(shù)量的增加，大語言模型在這類任務(wù)上并未出現(xiàn)質(zhì)的飛

發(fā)表于 05-07 17:21

一種成分取證的理論分析模式的分類框架

一種成分取證的理論分析模式的分類框架

發(fā)表于 03-20 11:04 ?0次下載

一種新的動態(tài)微觀語言競爭社會仿真模型

語言競爭傳播演化現(xiàn)象是典型的不能假設(shè)、無法進行真實性實驗的社會科學(xué)問題，而建立在社會仿真模型基礎(chǔ)上的計算實驗是可行的方案。利用基于Agent的社會圈子網(wǎng)絡(luò)理論并引入語言的內(nèi)部詞匯結(jié)構(gòu)給出一種

發(fā)表于 11-23 15:41 ?6次下載

一種稀疏協(xié)同模型的目標跟蹤

針對受到光照、遮擋及姿態(tài)變化等引起的目標外觀發(fā)生變化時，目標跟蹤的魯棒性和準確性較差的問題，將稀疏表示引入到粒子濾波框架進行目標跟蹤，提出一種稀疏協(xié)同模型。首先，在目標運動定位模型中，

發(fā)表于 12-09 11:51 ?0次下載

一種改進的視覺詞袋方法

視覺詞袋模型廣泛地應(yīng)用于圖像分類與圖像檢索等領(lǐng)域．在傳統(tǒng)詞袋模型中，視覺單詞統(tǒng)計方法忽略了視覺詞

發(fā)表于 12-28 17:36 ?3次下載

一種新的目標分類特征深度學(xué)習(xí)模型

為提高低配置計算環(huán)境中的視覺目標實時在線分類特征提取的時效性和分類準確率，提出一種新的目標分類特征深度學(xué)習(xí)

發(fā)表于 03-20 17:30 ?0次下載

一種基于框架特征的共指消解方法

岀一種基于框架特征的共指消解方法，該方法通過融合漢語框架語義信息并采用多種分類算法實現(xiàn)共指消解。框架語義篇章語料集上的實驗結(jié)果表明，將漢語

發(fā)表于 03-19 11:35 ?7次下載

一種基于BERT模型的社交電商文本分類算法

隨著網(wǎng)絡(luò)購物的高速發(fā)展，網(wǎng)絡(luò)商家和購物者在網(wǎng)絡(luò)交易活動中產(chǎn)生了大量的交易數(shù)據(jù)，其中蘊含著巨大的分析價值。針對社交電商商品文本的文本分類問題，為了更加高效準確地判斷文本所描述商品的類別，提出了一種

發(fā)表于 04-13 15:14 ?8次下載

一種問題框架與模型驅(qū)動技術(shù)現(xiàn)結(jié)合的方法

，仍是一個亟待解決的問題。文中提出了一種問題框架與模型驅(qū)動技術(shù)相結(jié)合的方法，其可將問題模型轉(zhuǎn)換為UML（ Unified Modeling

發(fā)表于 04-23 10:48 ?4次下載

一種基于Q學(xué)習(xí)算法的增量分類模型

大數(shù)據(jù)時代的數(shù)據(jù)信息呈現(xiàn)持續(xù)性、爆炸性的増長，為杋器學(xué)習(xí)算法帶來了大量監(jiān)督樣本。然而，這對信息通常不是次性獲得的，且獲得的數(shù)據(jù)標記是不準確的，這對傳統(tǒng)的分類模型提岀了挑戰(zhàn)，而増量學(xué)習(xí)是一種重要

發(fā)表于 05-13 14:17 ?3次下載

一種基于亂序語言模型的預(yù)訓(xùn)練模型-PERT

由于亂序語言模型不使用[MASK]標記，減輕了預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)之間的gap，并由于預(yù)測空間大小為輸入序列長度，使得計算效率高于掩碼語言模型。PERT

發(fā)表于 05-10 15:01 ?1486次閱讀

OpenCV中支持的非分類與檢測視覺模型

前面給大家分別匯總了OpenCV中支持的圖像分類與對象檢測模型，視覺視覺任務(wù)除了分類與檢測還有很多其他任務(wù)，這里我們就來OpenCV中支持的

發(fā)表于 08-19 09:10 ?1226次閱讀

介紹一種新的全景視覺里程計框架PVO

論文提出了PVO，這是一種新的全景視覺里程計框架，用于實現(xiàn)場景運動、幾何和全景分割信息的更全面建模。

發(fā)表于 05-09 16:51 ?1757次閱讀

大語言模型中的語言與知識：一種神秘的分離現(xiàn)象

自然語言處理領(lǐng)域存在著一個非常有趣的現(xiàn)象：在多語言模型中，不同的語言之間似乎存在著一種隱含的對齊

發(fā)表于 02-20 14:53 ?471次閱讀