精品久久久久久中文墓无码,99re在线播放视频

融入了Prompt的新模式大致可以歸納成”pre-train, prompt, and predict“，在該模式中，下游任務被重新調整成類似預訓練任務的形式。例如，通常的預訓練任務有Masked Language Model，在文本情感分類任務中，對于 "I love this movie." 這句輸入，可以在后面加上prompt "The movie is ___" 這樣的形式，然后讓PLM用表示情感的答案填空如 "great"、"fantastic" 等等，最后再將該答案轉化成情感分類的標簽，這樣以來，通過選取合適的prompt，我們可以控制模型預測輸出，從而一個完全無監(jiān)督訓練的PLM可以被用來解決各種各樣的下游任務。

因此，合適的prompt對于模型的效果至關重要。大量研究表明，prompt的微小差別，可能會造成效果的巨大差異。研究者們就如何設計prompt做出了各種各樣的努力——自然語言背景知識的融合、自動生成prompt的搜索、不再拘泥于語言形式的prompt探索等等。

而對于視覺領域的prompt，最近在視覺語言預訓練方面的進展，如CLIP和ALIGN，prompt為開發(fā)視覺任務的基礎模型提供了一個有前途的方向。這些基礎模型在數(shù)百萬個有噪聲的圖像-文本對上進行訓練后編碼了廣泛的視覺概念，可以在不需要任務特定的訓練數(shù)據(jù)的情況下以零目標的方式應用于下游任務。這可以通過適當設計的prompt提示實現(xiàn)。

以CLIP為例，如下圖紅色方框強調所示，可以完成對“class label”的拓展，使得模型具有較為豐富的視覺信息。然后，可以使用CLIP對圖像進行分類，以度量它們與各種類描述的對齊程度。因此，設計這樣的提示在以zero-shot方式將基礎模型應用到下游任務中起著至關重要的作用。

然而，這種手工制作的prompt需要特定于領域的靈感，因此可能較難設計，所以如何設計一種模式，可以讓讓模型自適應地學習到有關prompt的一些參數(shù)和設定是非常有必要的。與手工制作的prompt相比，這種方法可以找到更好的prompt，但學習到的prompt僅限于與訓練數(shù)據(jù)對應的分布和任務，除此之外的泛化可能有限。

此外，這種方法需要帶注釋的訓練數(shù)據(jù)，這可能非常昂貴，而且不能很好地應用于zero-shot的相關任務中。為了解決上述的挑戰(zhàn), 論文提出在測試階段使用test-time prompt tuning(TPT)，只使用給定的測試樣本對prompt進行調整。由于避免了使用額外的訓練數(shù)據(jù)或標注，TPT仍然遵守了zero-shot的設置。

. 方法

論文首先簡單回顧了CLIP和基于CLIP的一些可學習參數(shù)的prompts獲取方法。對于為何要優(yōu)化prompt，論文是這樣描述的：CLIP包含了豐富的知識，從前期的訓練中獲得了海量的知識和不同的數(shù)據(jù)感知能力。然而，如何更有效地提取這些知識仍然是一個開放的問題。一個簡單的策略是直接對模型進行微調，無論是端到端的還是針對的一個子集層，對一類的輸入。然而，先前的工作表明，這種微調策略導致特定于領域的行為失去了非分布泛化和魯棒性的基礎模型。

因此，這項工作的目標是利用現(xiàn)有的CLIP知識來促進其泛化到zero-shot的廠家中去。因此，調整prompt就是實現(xiàn)這一目標的理想途徑。此外，我們將測試時提示調優(yōu)視為為模型提供上下文的一種方法為單個測試樣本量身定制，有助于精確檢索CLIP知識。

論文的目的很簡單，就是在測試階段得不到測試樣本ground-truth標注的時候，進行一定的訓練，具體表現(xiàn)為

因為標簽不能用于測試階段的優(yōu)化，所以我們如果想在測試階段進行優(yōu)化就必須選擇用于能夠提供一定hint的無監(jiān)督損失函數(shù)來指導優(yōu)化。因此，論文設計了TPT目標來促進采用不同數(shù)據(jù)增強下，模型的一致性。通過對給定測試相同圖像的不同增強類型的特征，來依照他們預測的差值來進行訓練。具體來說，我們使用一個隨機增廣cluster生成測試圖像的N個隨機augumention視圖，最小化平均預測概率分布的熵:

這里是根據(jù)物體不同prompt and the -th augmented view of the test image預測出的概率。

值得一提的是，為了減少隨機增強的噪聲（也就是說增強之后模型很難再預測出正確的分類信息，如刪去了圖像非常關鍵的content），本文還引入了一個新的機制：confidence selection，來選擇過濾增強產生的低置信度預測的view。數(shù)學表達式體現(xiàn)為：

實驗

首先論文根據(jù)CoOp 和 CoCoOp的混淆矩陣可視化來判斷這兩種可學習的prompt參數(shù)化方式在不同數(shù)據(jù)集上的遷移性很差，有增加參數(shù)量過擬合的嫌疑。所以其實在訓練階段，增加參數(shù)量來做相應的操作不見得合理。因此才更能體現(xiàn)本文這種基于測試階段方法提出方法的優(yōu)越性。

可以發(fā)現(xiàn)，本文提出的這種方法在不同數(shù)據(jù)集之間的遷移性非常之好。

結論

本文研究了如何充分挖掘預訓練視覺-語言基礎大模型的更好零樣本學習能力。論文提出了Test-time Prompt Tuning, TPT)，這種新的prompt調整方法，可以使用單個測試樣本動態(tài)學習自適應提示。我們證明了該方法對自然分布變化的魯棒性跨數(shù)據(jù)集泛化，使用CLIP作為基礎模型。不需要任何訓練數(shù)據(jù)或標注，TPT提高了CLIP的zero-shot的泛化能力。

審核編輯：彭靜

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

模型

模型

+關注

關注
1

文章
3032

瀏覽量
48360
數(shù)據(jù)集

數(shù)據(jù)集

+關注

關注
4

文章
1197

瀏覽量
24538
Clip

Clip

+關注

關注
0

文章
30

瀏覽量
6612
自然語言

自然語言

+關注

關注
1

文章
279

瀏覽量
13295
大模型

大模型

+關注

關注
2

文章
2136

瀏覽量
1980

原文標題：面向測試階段的prompt搜索方式

文章出處：【微信號：GiantPandaCV，微信公眾號：GiantPandaCV】歡迎添加關注！文章轉載請注明出處。

【大語言模型：原理與工程實踐】大語言模型的預訓練

大語言模型的核心特點在于其龐大的參數(shù)量，這賦予了模型強大的學習容量，使其無需依賴微調即可適應各種下游任務，而更傾向于培養(yǎng)通用的處理能力。然而

發(fā)表于 05-07 17:10

【大語言模型：原理與工程實踐】大語言模型的應用

設計提示詞時，需要明確輸出需求，以便得到滿意的結果。推理引導如前文所述，提示工程對于訓練大語言模型的逐步推理能力至關重要。零

發(fā)表于 05-07 17:21

基于深度學習的自然語言處理對抗樣本模型

深度學習模型被證明存在脆弱性并容易遭到對抗樣本的攻擊，但目前對于對抗樣本的研究主要集中在計算機視覺領域而忽略了自然

發(fā)表于 04-20 14:36 ?39次下載

基于深度<b class='flag-5'>學習</b>的自然<b class='flag-5'>語言</b>處理對抗<b class='flag-5'>樣本</b><b class='flag-5'>模型</b>

基于預訓練視覺-語言模型的跨模態(tài)Prompt-Tuning

、新加坡國立大學鏈接：https://arxiv.org/pdf/2109.11797.pdf 提取摘要預訓練的視覺語言模型（VL-P

發(fā)表于 10-09 15:10 ?3134次閱讀

基于<b class='flag-5'>預</b><b class='flag-5'>訓練</b><b class='flag-5'>視覺</b>-<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的跨模態(tài)Prompt-Tuning

融合零樣本學習和小樣本學習的弱監(jiān)督學習方法綜述

融合零樣本學習和小樣本學習的弱監(jiān)督學習方法綜述來源：《系統(tǒng)工程與電子技術》，作者潘崇煜等摘

發(fā)表于 02-09 11:22 ?2114次閱讀

融合<b class='flag-5'>零</b><b class='flag-5'>樣本</b><b class='flag-5'>學習</b>和小<b class='flag-5'>樣本</b><b class='flag-5'>學習</b>的弱監(jiān)督<b class='flag-5'>學習</b>方法綜述

如何更高效地使用預訓練語言模型

基本的假設:預訓練模型在不同下游任務上學習的過程，可以被重新參數(shù)化（reparameterized）為在同一個低維本征子空間上的優(yōu)化過程。

發(fā)表于 07-08 11:28 ?1165次閱讀

利用視覺語言模型對檢測器進行預訓練

預訓練通常被用于自然語言處理以及計算機視覺領域，以增強主干網(wǎng)絡的特征提取能力，達到加速訓練和提高

發(fā)表于 08-08 15:33 ?1256次閱讀

使用BLIP-2 零樣本“圖生文”

現(xiàn)代計算機視覺和自然語言模型在能力越來越強大的同時，模型尺寸也隨之顯著增大。由于當前進行一次單模態(tài)模型

發(fā)表于 03-03 11:06 ?1567次閱讀

預訓練數(shù)據(jù)大小對于預訓練模型的影響

BERT類模型的工作模式簡單，但取得的效果也是極佳的，其在各項任務上的良好表現(xiàn)主要得益于其在大量無監(jiān)督文本上學習到的文本表征能力。那么如何從語言學的特征角度來衡量一個

發(fā)表于 03-03 11:20 ?1252次閱讀

形狀感知零樣本語義分割

由于大規(guī)模視覺語言預訓練取得了令人矚目的進展，最近的識別模型可以以驚人的高準確度對任意對象進行零

發(fā)表于 04-28 11:26 ?722次閱讀

一個通用的自適應prompt方法，突破了零樣本學習的瓶頸

為了解決這個問題，這篇研究提出了一種Universal Self-adaptive Prompting (USP)方法，對LLMs的零樣本學習進行了優(yōu)化，同時也適用于少樣本

發(fā)表于 06-01 14:48 ?661次閱讀

基于預訓練模型和語言增強的零樣本視覺學習

在一些非自然圖像中要比傳統(tǒng)模型表現(xiàn)更好 CoOp 增加一些 prompt 會讓模型能力進一步提升怎么讓能力

發(fā)表于 06-15 16:36 ?460次閱讀

什么是零樣本學習？為什么要搞零樣本學習？

零樣本分類的技術目前正處于高速發(fā)展時期，所涉及的具體應用已經從最初的圖像分類任務擴展到了其他計算機視覺任務乃至自然語言處理等多個相關領域。對此，本文將其稱為廣義

發(fā)表于 09-22 11:10 ?1872次閱讀

預訓練模型的基本原理和應用

預訓練模型（Pre-trained Model）是深度學習和機器學習領域中的一個重要概念，尤其是在自然語

發(fā)表于 07-03 18:20 ?1433次閱讀

大語言模型的預訓練

能力，逐漸成為NLP領域的研究熱點。大語言模型的預訓練是這一技術發(fā)展的關鍵步驟，它通過在海量無標簽數(shù)據(jù)上進行

發(fā)表于 07-11 10:11 ?249次閱讀