0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

In-context learning如何工作?斯坦福學(xué)者用貝葉斯方法解開(kāi)其奧秘

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:機(jī)器翻譯學(xué)堂 ? 2023-04-11 14:07 ? 次閱讀

引言

去年底,OpenAI研發(fā)的ChatGPT一經(jīng)面世,在引起了大家驚訝的同時(shí),也紛紛引發(fā)大家的思考,到底ChatGPT是如何研發(fā)的?用到了什么技術(shù)?如何才能充分挖掘ChatGPT潛能?ChatGPT背后的核心技術(shù),大語(yǔ)言模型毫無(wú)疑問(wèn)是最重要的之一。同樣由OpenAI研發(fā)的大模型GPT-3,其參數(shù)量達(dá)到的1750億。如此大規(guī)模的模型,不僅研發(fā)成本讓許多機(jī)構(gòu)望而卻步,其背后的運(yùn)行原理也是讓很多科研人員“一頭霧水”。大量的工作在探究,語(yǔ)言模型是怎樣獲得如何驚人的“語(yǔ)言理解能力”的?其中,In-context learning就是一種在大規(guī)模語(yǔ)言模型中展現(xiàn)出來(lái)的特殊能力,通過(guò)給模型“展示”幾個(gè)相關(guān)的例子,模型便可以“學(xué)會(huì)”這個(gè)任務(wù)要做的事情,并給出測(cè)試樣例的答案??墒牵P褪窃趺传@得這個(gè)特殊“技能”的呢?斯坦福大學(xué)的Sang Michael Xie等人認(rèn)為,in-context learning可以看成是一個(gè)貝葉斯推理過(guò)程,其利用提示的四個(gè)組成部分(輸入、輸出、格式和輸入輸出映射)來(lái)獲得隱含在語(yǔ)言模型中的潛在概念,而潛在概念是語(yǔ)言模型在訓(xùn)練過(guò)程中學(xué)到的關(guān)于某類任務(wù)的特定“知識(shí)”。相關(guān)工作發(fā)表在2022年的ICLR會(huì)議上,作者等人還寫了一篇博客來(lái)進(jìn)行詳細(xì)介紹。下面跟著譯者一起來(lái)了解in-context learning的奧秘吧!

博客正文

在這篇文章中,我們?yōu)镚PT-3等大規(guī)模語(yǔ)言模型中的in-context learning提供了一個(gè)貝葉斯推理框架,并展示了我們框架的實(shí)驗(yàn)證據(jù),突出了與傳統(tǒng)監(jiān)督學(xué)習(xí)的區(qū)別。這篇博文主要借鑒了來(lái)自論文An Explanation of In-context Learning as Implicit Bayesian Inference的in-context learning理論框架,以及來(lái)自Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? 的實(shí)驗(yàn)。

In-context learning是大規(guī)模語(yǔ)言模型中一種神秘的涌現(xiàn)行為,其中語(yǔ)言模型僅通過(guò)調(diào)節(jié)輸入輸出示例來(lái)完成任務(wù),而無(wú)需優(yōu)化任何參數(shù)。在這篇文章中,我們提供了一個(gè)貝葉斯推理框架,將in-context learning理解為“定位”語(yǔ)言模型從預(yù)訓(xùn)練數(shù)據(jù)中獲取到的潛在“概念”。這表明提示的所有組成部分(輸入、輸出、格式和輸入-輸出映射)都可以提供用來(lái)推斷潛在概念的信息。我們就此框架進(jìn)行相關(guān)實(shí)驗(yàn),在這些實(shí)驗(yàn)的結(jié)果中,當(dāng)提供具有隨機(jī)輸出的訓(xùn)練示例時(shí),in-context learning仍然有效。雖然隨機(jī)的輸出削弱了傳統(tǒng)的監(jiān)督學(xué)習(xí)算法,但它只是消除了貝葉斯推理的一種信息來(lái)源(輸入-輸出映射)。最后,我們提出了對(duì)于未來(lái)工作存在的差距和努力方向,并邀請(qǐng)社區(qū)與我們一起進(jìn)一步了解in-context learning。

目錄

一、In-context learning的奧秘

二、一種in-context learning框架

三、實(shí)驗(yàn)證據(jù)

四、擴(kuò)展

五、總結(jié)

一、In-context learning的奧秘

大規(guī)模語(yǔ)言模型,例如GPT-3[1]在互聯(lián)網(wǎng)規(guī)模的文本數(shù)據(jù)上進(jìn)行訓(xùn)練,以預(yù)測(cè)給定前文文本的下一個(gè)標(biāo)記。這個(gè)簡(jiǎn)單的目標(biāo)與大規(guī)模數(shù)據(jù)集和模型相結(jié)合,產(chǎn)生了一個(gè)非常靈活的語(yǔ)言模型,它可以“讀取”任何文本輸入,并以此為條件“書(shū)寫”可能出現(xiàn)在輸入之后的文本。雖然訓(xùn)練過(guò)程既簡(jiǎn)單又通用,但GPT-3論文發(fā)現(xiàn)“大規(guī)?!睍?huì)導(dǎo)致特別有趣的、意想不到的行為,稱為in-context learning。什么是in-context learning?In-context learning最初是在 GPT-3 論文中開(kāi)始普及的,是一種僅給出幾個(gè)示例就可以讓語(yǔ)言模型學(xué)習(xí)到相關(guān)任務(wù)的方法。在in-context learning里,我們給語(yǔ)言模型一個(gè)“提示(prompt)”,該提示是一個(gè)由輸入輸出對(duì)組成的列表,這些輸入輸出對(duì)用來(lái)描述一個(gè)任務(wù)。在提示的末尾,有一個(gè)測(cè)試輸入,并讓語(yǔ)言模型僅通過(guò)以提示為條件來(lái)預(yù)測(cè)下一個(gè)標(biāo)記。例如,要正確回答下圖所示的兩個(gè)提示,模型需要讀取訓(xùn)練示例以弄清楚輸入分布(財(cái)經(jīng)或普通新聞)、輸出分布(正向情感/負(fù)向情感或某個(gè)主題)、輸入-輸出映射(情感分類或主題分類)和格式。

9275a694-d827-11ed-bfe3-dac502259ad0.gif

In-context learning能做什么?在許多NLP基準(zhǔn)測(cè)試中,in-context learning與使用更多標(biāo)記數(shù)據(jù)訓(xùn)練的模型相比具有相當(dāng)?shù)男阅?,并且在LAMBADA(常識(shí)句子完成)和 TriviaQA(問(wèn)答)上是最出色的。更令人興奮的是,in-context learning使人們能夠在短短幾個(gè)小時(shí)內(nèi)啟動(dòng)一系列應(yīng)用程序,包括根據(jù)自然語(yǔ)言描述編寫代碼、幫助設(shè)計(jì)應(yīng)用程序模型以及概括電子表格功能等。

In-context learning允許用戶為新用例快速構(gòu)建模型,而無(wú)需為每個(gè)任務(wù)微調(diào)和存儲(chǔ)新參數(shù)。它通常只需要很少的訓(xùn)練示例就可以使模型正常工作,而且即使對(duì)于非專家來(lái)說(shuō),也可以通過(guò)直觀的自然語(yǔ)言來(lái)進(jìn)行交互。

為什么in-context learning這么神奇?In-context learning不同于傳統(tǒng)的機(jī)器學(xué)習(xí),因?yàn)樗鼪](méi)有對(duì)任何參數(shù)進(jìn)行優(yōu)化。然而,這并不是獨(dú)一無(wú)二的——元學(xué)習(xí)(meta-learning)方法已經(jīng)訓(xùn)練出了從示例中學(xué)習(xí)的模型。神奇之處在于語(yǔ)言模型沒(méi)有進(jìn)行過(guò)從示例中學(xué)習(xí)的訓(xùn)練,它在預(yù)訓(xùn)練中做的事是預(yù)測(cè)下一個(gè)標(biāo)記。正因?yàn)槿绱?,語(yǔ)言模型和in-context learning似乎并不一致。

這看起來(lái)很神奇,那In-context learning是怎么起作用的呢?

二、一種In-context learning框架

我們?nèi)绾尾拍芨玫乩斫鈏n-context learning?首先要注意的是,像GPT-3這樣的大規(guī)模語(yǔ)言模型已經(jīng)在具有廣泛主題和格式的大量文本上進(jìn)行了訓(xùn)練,這些文本包括維基百科頁(yè)面、學(xué)術(shù)論文、Reddit帖子以及莎士比亞的作品。我們假設(shè)在這些文本上進(jìn)行訓(xùn)練使得語(yǔ)言模型可以對(duì)多種不同的概念進(jìn)行建模。

Xie等人[2]提出了一個(gè)框架,即語(yǔ)言模型使用in-context learning提示來(lái)“定位”訓(xùn)練中學(xué)習(xí)到的概念,從而完成in-context learning任務(wù)。如下圖所示,在我們的框架中,語(yǔ)言模型使用訓(xùn)練示例在內(nèi)部確定任務(wù)是情感分析(左)或主題分類(右),并將相同的映射應(yīng)用于測(cè)試輸入。

92af44da-d827-11ed-bfe3-dac502259ad0.gif

什么是“概念”?我們可以將概念視為包含各種文檔級(jí)統(tǒng)計(jì)信息的潛在變量。例如,“新聞主題”的概念描述了詞匯的分布(新聞及新聞主題)、格式(新聞文章的寫作方式)、新聞與新聞主題之間的關(guān)系以及詞匯之間的其他語(yǔ)義和句法關(guān)系。通常,概念可能是許多潛在變量的組合,這些潛在變量指定了文檔語(yǔ)義和語(yǔ)法的不同方面,但在這里我們通過(guò)將它們?nèi)靠闯梢粋€(gè)概念變量來(lái)簡(jiǎn)化。

語(yǔ)言模型如何在預(yù)訓(xùn)練期間學(xué)會(huì)進(jìn)行貝葉斯推理?

我們證明,在具有潛在概念結(jié)構(gòu)的偽數(shù)據(jù)上訓(xùn)練(預(yù)測(cè)下一個(gè)標(biāo)記)的語(yǔ)言模型可以學(xué)習(xí)進(jìn)行in-context learning。我們假設(shè)在真實(shí)的預(yù)訓(xùn)練數(shù)據(jù)中會(huì)發(fā)生類似的效果,因?yàn)槲谋疚臋n天然具有長(zhǎng)期連貫性:同一文檔中的句子/段落/表格行傾向于共享底層語(yǔ)義信息(例如,主題)和格式(例如,問(wèn)題和答案之間交替的問(wèn)答頁(yè)面)。在我們的框架中,文檔級(jí)潛在概念創(chuàng)造了長(zhǎng)期連貫性,并且在預(yù)訓(xùn)練期間對(duì)這種連貫性進(jìn)行建模來(lái)推斷潛在概念:

1、預(yù)訓(xùn)練:為了在預(yù)訓(xùn)練期間預(yù)測(cè)下一個(gè)標(biāo)記,語(yǔ)言模型必須使用來(lái)自先前句子的證據(jù)推斷(“定位”)文檔的潛在概念。

2、In-context learning:如果語(yǔ)言模型使用提示中的in-context示例推斷提示概念(提示中的示例所共享的潛在概念),則發(fā)生in-context learning!

In-context learning的貝葉斯推理觀點(diǎn)

在我們討論貝葉斯推理觀點(diǎn)之前,讓我們?cè)O(shè)置好in-context learning的設(shè)定。

預(yù)訓(xùn)練分布(p):我們對(duì)預(yù)訓(xùn)練文檔結(jié)構(gòu)的主要假設(shè)是,關(guān)于文檔的生成,首先通過(guò)對(duì)潛在概念進(jìn)行采樣,然后以潛在概念為條件來(lái)生成文檔。我們假設(shè)預(yù)訓(xùn)練數(shù)據(jù)足夠多以及語(yǔ)言模型足夠大,使得語(yǔ)言模型完全符合預(yù)訓(xùn)練分布。正因?yàn)槿绱?,我們使用p表示語(yǔ)言模型下的預(yù)訓(xùn)練分布和概率。

提示分布:In-context learning提示是一系列獨(dú)立同分布的訓(xùn)練示例加上一個(gè)測(cè)試輸入。提示中的每個(gè)示例都可以認(rèn)為是以相同提示概念為條件的序列,它描述了要學(xué)習(xí)的任務(wù)。

去“定位”學(xué)習(xí)到的概念的過(guò)程,可以看作是提示中每個(gè)示例共享的提示概念的貝葉斯推理。如果模型能夠推斷出提示概念,那么它就可以用來(lái)對(duì)測(cè)試樣例做出正確的預(yù)測(cè)。在數(shù)學(xué)上,提示為模型(p)提供了證據(jù)來(lái)銳化概念的后驗(yàn)分布p(concept|prompt)。如果p(concept|prompt)集中在提示概念上,模型則有效地從提示中“學(xué)習(xí)”到了概念。

92cce882-d827-11ed-bfe3-dac502259ad0.png

理想情況下,p(concept|prompt)會(huì)集中在有更多示例的提示概念,就可以通過(guò)邊緣化來(lái)“選擇”對(duì)應(yīng)的提示概念。

提示為貝葉斯推理提供了帶有噪聲的信號(hào)

在解釋中不太符合邏輯的地方是,語(yǔ)言模型從in-context示例中推斷提示概念,不過(guò)提示是從提示分布中采樣的,這可能與語(yǔ)言模型訓(xùn)練的預(yù)訓(xùn)練分布非常不同。提示將獨(dú)立的訓(xùn)練示例連接在一起,因此不同示例之間的轉(zhuǎn)換在語(yǔ)言模型以及預(yù)訓(xùn)練分布下的概率非常低,并且可能在推理過(guò)程中引入噪聲。例如,連接關(guān)于不同新聞主題的獨(dú)立句子可能會(huì)產(chǎn)生不常見(jiàn)的文本,因?yàn)闆](méi)有一個(gè)句子具有足夠的in-context。有趣的是,正如在GPT-3中所發(fā)現(xiàn)的那樣,盡管預(yù)訓(xùn)練和提示分布之間存在差異,語(yǔ)言模型仍然可以進(jìn)行貝葉斯推理。我們證明,通過(guò)貝葉斯推理進(jìn)行的in-context learning可以用一個(gè)簡(jiǎn)化的理論設(shè)置,在預(yù)訓(xùn)練數(shù)據(jù)的潛在概念結(jié)構(gòu)中出現(xiàn)。我們使用它來(lái)生成一個(gè)數(shù)據(jù)集,該數(shù)據(jù)集使得Transformer和LSTM能夠發(fā)生in-context learning。

92d7e660-d827-11ed-bfe3-dac502259ad0.gif

訓(xùn)練示例提供信號(hào):我們可以認(rèn)為訓(xùn)練示例為貝葉斯推理提供信號(hào)。尤其是訓(xùn)練示例中的轉(zhuǎn)換(上圖中的綠色箭頭)允許語(yǔ)言模型推斷它們共享的潛在概念。在提示中,來(lái)自輸入分布(新聞句子之間的轉(zhuǎn)換)、輸出分布(主題詞)、格式(新聞句子的句法)和輸入-輸出映射(新聞和主題之間的關(guān)系)的轉(zhuǎn)換都為貝葉斯推理提供信號(hào)。

訓(xùn)練示例之間的轉(zhuǎn)換可能是低概率的(噪聲):因?yàn)橛?xùn)練示例是獨(dú)立同分布的,將它們連接在一起通常會(huì)在示例之間產(chǎn)生不流暢的低概率轉(zhuǎn)換。例如,在關(guān)于芬蘭流通收入的句子之后看到關(guān)于 NFC 冠軍賽(美式橄欖球比賽)的句子可能會(huì)令人驚訝(見(jiàn)上圖)。這些轉(zhuǎn)換會(huì)在推理過(guò)程中產(chǎn)生噪音,原因在于預(yù)訓(xùn)練和提示分布之間的差異。

In-context learning對(duì)某些噪聲具有魯棒性:我們證明,如果信號(hào)大于噪聲,則語(yǔ)言模型可以成功進(jìn)行in-context learning。我們將信號(hào)描述為其他概念與以提示為條件的提示概念之間的KL散度,并將噪聲描述為來(lái)自示例之間轉(zhuǎn)換的誤差項(xiàng)。直覺(jué)上,如果提示允許模型真正輕松地將提示概念與其他概念區(qū)分開(kāi)來(lái),那么就會(huì)有很強(qiáng)的信號(hào)。這也表明,在信號(hào)足夠強(qiáng)的情況下,其他形式的噪聲,例如刪除一種信息源(如刪除輸入輸出映射)可能是沒(méi)有問(wèn)題的,特別是當(dāng)提示的格式?jīng)]有改變并且輸入輸出映射信息在預(yù)訓(xùn)練數(shù)據(jù)中。這不同于傳統(tǒng)的監(jiān)督學(xué)習(xí),如果刪除輸入-輸出映射信息(如通過(guò)隨機(jī)化標(biāo)簽),傳統(tǒng)的監(jiān)督學(xué)習(xí)將會(huì)失效。我們將在下一節(jié)中直接研究這種區(qū)別。

用于in-context learning的小型測(cè)試平臺(tái)(GINC數(shù)據(jù)集):為了支持該理論,我們構(gòu)建了一個(gè)預(yù)訓(xùn)練數(shù)據(jù)集和具有潛在概念結(jié)構(gòu)的in-context learning測(cè)試平臺(tái),取名為GINC。我們發(fā)現(xiàn)在GINC上進(jìn)行預(yù)訓(xùn)練會(huì)使Transformer和LSTM出現(xiàn)in-context learning,這表明來(lái)自預(yù)訓(xùn)練數(shù)據(jù)中的結(jié)構(gòu)有非常重要的作用。消融實(shí)驗(yàn)顯示,潛在的概念結(jié)構(gòu)(導(dǎo)致長(zhǎng)期連貫性)對(duì)于GINC中in-context learning的出現(xiàn)至關(guān)重要[2]。

三、實(shí)驗(yàn)證據(jù)

接下來(lái),我們希望通過(guò)一組實(shí)驗(yàn)為上述框架提供實(shí)驗(yàn)證據(jù)。

提示中的輸入輸出對(duì)很重要

提示中不需要使用真實(shí)輸出也能獲得良好的in-context learning性能。

在Min等人的論文[3]中,我們比較了三種不同的方法:

No-examples:語(yǔ)言模型僅在測(cè)試輸入上計(jì)算條件概率,沒(méi)有示例。這是典型的零樣本推理,在GPT-2/GPT-3中已經(jīng)實(shí)現(xiàn)。

具有真實(shí)輸出的示例:語(yǔ)言模型是基于一些in-context示例和測(cè)試輸入共同去計(jì)算的。這是一種典型的in-context learning方法,默認(rèn)情況下,提示中的所有輸出都是真實(shí)的。

具有隨機(jī)輸出的示例:語(yǔ)言模型也是基于一些in-context示例和測(cè)試輸入去共同計(jì)算的,不過(guò),提示中的每個(gè)輸出都是從輸出集中隨機(jī)抽樣的(分類任務(wù)中的標(biāo)簽;多項(xiàng)選擇中的一組答案選項(xiàng))。

93008868-d827-11ed-bfe3-dac502259ad0.png

9314187e-d827-11ed-bfe3-dac502259ad0.png

帶有真實(shí)輸出的提示(上圖)和帶有隨機(jī)輸出的提示(下圖)

值得注意的是,“帶有隨機(jī)輸出的示例”這種方法以前從未有人嘗試過(guò)。如果標(biāo)記數(shù)據(jù)的輸出是隨機(jī)的,那么典型的監(jiān)督學(xué)習(xí)將根本不起作用,因?yàn)槿蝿?wù)不再有意義。

我們?cè)囼?yàn)了12個(gè)模型,參數(shù)大小范圍從 774M 到 175B,包括最大的GPT-3(Davinci)。模型在16個(gè)分類數(shù)據(jù)集和10個(gè)多選數(shù)據(jù)集上進(jìn)行評(píng)估。

932e4bf4-d827-11ed-bfe3-dac502259ad0.png

無(wú)示例(藍(lán)色)、具有真實(shí)輸出的示例(黃色)和具有隨機(jī)輸出的示例(隨機(jī))之間的比較;用隨機(jī)輸出替換真值輸出對(duì)性能的影響比之前想象的要小得多,而且仍然比沒(méi)有例子要好得多

當(dāng)用輸出集合的隨機(jī)輸出來(lái)替換每個(gè)輸出時(shí),in-context learning性能不會(huì)下降太多。

首先,正如預(yù)期的那樣,使用帶有真實(shí)輸出的示例明顯優(yōu)于無(wú)示例。然后,用隨機(jī)輸出替換真實(shí)輸出幾乎不會(huì)使性能下降。這意味著,與典型的監(jiān)督學(xué)習(xí)不同,真實(shí)輸出并不是獲得良好的in-context learning性能所必須需要的,這有違我們的直覺(jué)。

933ae6c0-d827-11ed-bfe3-dac502259ad0.png

in-context示例的四個(gè)不同方面:輸入輸出映射(Input-output mapping)、輸入分布(Input distribution)、輸出空間(Output space)和格式(Format)

如果正確的輸入輸出映射具有邊際效應(yīng),提示的哪些方面對(duì)于in-context learning最重要呢?

一個(gè)可能的方面是輸入分布,即示例中輸入的基礎(chǔ)分布(下圖中的紅色文本)。為了量化其影響,我們?cè)O(shè)計(jì)了一種演示變量,其中每個(gè)in-context示例都包含一個(gè)從外部語(yǔ)料庫(kù)中隨機(jī)抽取的輸入句子(不是來(lái)自訓(xùn)練數(shù)據(jù)的輸入)。然后,我們將其性能與帶有隨機(jī)標(biāo)簽的演示進(jìn)行比較。直覺(jué)上,這兩個(gè)版本的演示都是不正確的輸入標(biāo)簽對(duì)應(yīng)關(guān)系,區(qū)別在于是否有正確的輸入分布。

9387e574-d827-11ed-bfe3-dac502259ad0.png

輸入分布很重要:當(dāng)提示中的輸入被外部語(yǔ)料庫(kù)(CC新聞?wù)Z料庫(kù))的隨機(jī)輸入替換時(shí),模型性能會(huì)顯著下降

結(jié)果表明,總體而言,以隨機(jī)句子作為輸入的模型性能顯著降低(絕對(duì)值降低高達(dá) 16%)。這表明對(duì)正確的輸入分布進(jìn)行調(diào)節(jié)很重要。

93ae6744-d827-11ed-bfe3-dac502259ad0.png

輸出空間很重要:當(dāng)示例中的輸出被隨機(jī)的英文一元組替換時(shí),模型性能會(huì)顯著下降 可能影響in-context learning的另一個(gè)方面是輸出空間:任務(wù)中的輸出集(類別或答案選項(xiàng))。為了量化其影響,我們?cè)O(shè)計(jì)了一種演示變量,由in-context示例組成,這些示例具有隨機(jī)配對(duì)的隨機(jī)英語(yǔ)一元組,這些一元組與任務(wù)的原始標(biāo)簽(例如,“wave”)無(wú)關(guān)。結(jié)果表明,使用此演示時(shí)性能顯著下降(絕對(duì)值高達(dá)16%)。這表明對(duì)正確的輸出空間進(jìn)行調(diào)節(jié)很重要。即使對(duì)于多項(xiàng)選擇任務(wù)也是如此,可能是因?yàn)樗匀痪哂心P褪褂玫奶囟ㄟx擇分布(例如,OpenBookQA數(shù)據(jù)集中的“Bolts(螺栓)”和“Screws(螺絲)”等對(duì)象)。

93e53b98-d827-11ed-bfe3-dac502259ad0.png

與貝葉斯推理框架的聯(lián)系

語(yǔ)言模型不依賴提示中的輸入-輸出對(duì)應(yīng)這一事實(shí)意味著語(yǔ)言模型在預(yù)訓(xùn)練期間可能已經(jīng)接觸到任務(wù)的輸入-輸出對(duì)應(yīng)中的某些概念,而in-context learning在它們的基礎(chǔ)上發(fā)生作用。相反,提示的其它所有組成部分(輸入分布、輸出空間和格式)都在提供信號(hào),使模型能夠更好地推斷(“定位”)在預(yù)訓(xùn)練期間學(xué)習(xí)到的概念。由于在提示中將隨機(jī)序列連接在一起,隨機(jī)輸入輸出映射仍然會(huì)增加“噪音”。盡管如此,基于我們的框架,只要仍然有足夠的信號(hào)(例如正確的輸入分布、輸出空間和格式),模型仍然會(huì)進(jìn)行貝葉斯推理。當(dāng)然,擁有正確的輸入輸出映射仍然可以通過(guò)提供更多依據(jù)和減少噪音來(lái)發(fā)揮作用,尤其是當(dāng)輸入輸出映射并非經(jīng)常出現(xiàn)在預(yù)訓(xùn)練數(shù)據(jù)中時(shí)。

在預(yù)訓(xùn)練期間,in-context learning 的性能與術(shù)語(yǔ)頻率高度相關(guān)

Razeghi等人[4]在各種數(shù)字任務(wù)上評(píng)估GPT-J,發(fā)現(xiàn)in-context learning性能與每個(gè)示例中的術(shù)語(yǔ)(數(shù)字和單位)在 GPT-J的預(yù)訓(xùn)練數(shù)據(jù)(The PILE)中出現(xiàn)的次數(shù)高度相關(guān)。

9405806a-d827-11ed-bfe3-dac502259ad0.png

術(shù)語(yǔ)頻率(x軸)和in-context learning性能(y軸)之間的相關(guān)性;從左到右:加法、乘法、提示中無(wú)任務(wù)指示的加法和提示中無(wú)任務(wù)指示的乘法;來(lái)自 Razeghi等人的數(shù)據(jù)

這在不同類型的數(shù)字任務(wù)(加法、乘法和單位轉(zhuǎn)換)和不同的k值(提示中標(biāo)記示例的數(shù)量)中結(jié)論是一致的。一個(gè)有趣的現(xiàn)象是,當(dāng)輸入沒(méi)有明確說(shuō)明任務(wù)時(shí)也是如此——例如,不使用“問(wèn):3 乘以 4 是多少?答:12”,而是用“問(wèn):3#4是多少?答:12”。

與貝葉斯推理框架的聯(lián)系

我們將這項(xiàng)工作視為另一個(gè)證據(jù),表明in-context learning主要是定位在預(yù)訓(xùn)練期間學(xué)習(xí)的潛在概念。特別是,如果特定實(shí)例中的術(shù)語(yǔ)在預(yù)訓(xùn)練數(shù)據(jù)中多次出現(xiàn),則模型可能會(huì)更好地了解輸入分布。根據(jù)貝葉斯推理,這將為定位潛在概念以執(zhí)行下游任務(wù)提供更好的信號(hào)。而Razeghi等人特別關(guān)注模型對(duì)輸入分布了解程度的一個(gè)方面——特定實(shí)例的詞頻——可能存在更廣泛的變化集,例如輸入-輸出相關(guān)性的頻率、格式(或文本模式)等。

四、擴(kuò)展

了解模型在“沒(méi)見(jiàn)過(guò)”的任務(wù)上的表現(xiàn)

我們的框架表明該模型正在“檢索”它在預(yù)訓(xùn)練期間學(xué)到的概念。然而,Rong[5]在博文中表明,該模型在將運(yùn)動(dòng)映射到動(dòng)物、將蔬菜映射到運(yùn)動(dòng)等(下圖)沒(méi)見(jiàn)過(guò)的任務(wù)上表現(xiàn)幾乎完美。此外,輸入輸出映射在這種情況下仍然很重要,因?yàn)槟P蛷氖纠袑W(xué)習(xí)了不自然的映射。根據(jù)經(jīng)驗(yàn),一種可能性是in-context learning行為可能會(huì)在構(gòu)造的任務(wù)中發(fā)生變化(而不是我們實(shí)驗(yàn)關(guān)注的真實(shí)NLP基準(zhǔn)測(cè)試)——這需要進(jìn)一步探索。

盡管如此,如果我們將一個(gè)概念視為許多潛在變量的組合,貝葉斯推理仍然可以解釋某些形式的外推。例如,考慮一個(gè)表示語(yǔ)法的潛在變量和另一個(gè)表示語(yǔ)義的變量。貝葉斯推理可以組合推廣到新的語(yǔ)義-句法對(duì),即使模型在預(yù)訓(xùn)練期間沒(méi)有看到所有句對(duì)。排列、交換和復(fù)制等一般操作在預(yù)訓(xùn)練期間很有用,并且可以在組合時(shí)幫助外推(例如,運(yùn)動(dòng)到動(dòng)物案例中的標(biāo)簽排列)。需要做更多的工作來(lái)模擬in-context learning如何處理沒(méi)見(jiàn)過(guò)的任務(wù)。

9426d09e-d827-11ed-bfe3-dac502259ad0.png

GPT-3可以成功學(xué)習(xí)的具有不尋常語(yǔ)義的示例合成任務(wù)

與學(xué)習(xí)閱讀任務(wù)描述的聯(lián)系

可以在提示中使用自然語(yǔ)言的任務(wù)描述(或說(shuō)明)來(lái)執(zhí)行下游任務(wù)。例如,我們可以在前面加上“Write a summary about the given article”來(lái)描述總結(jié)或“Answer a following question about the Wikipedia article”來(lái)描述問(wèn)答。在大規(guī)模、高質(zhì)量指令數(shù)據(jù)上進(jìn)一步調(diào)整的語(yǔ)言模型被證明可以很好地執(zhí)行沒(méi)見(jiàn)過(guò)的任務(wù)[6][7]。根據(jù)我們的框架,我們可以通過(guò)提供明確的潛在提示概念,將“指定任務(wù)描述”理解為改進(jìn)貝葉斯推理。

了解用于in-context learning的預(yù)訓(xùn)練數(shù)據(jù)

雖然我們提出in-context learning來(lái)自預(yù)訓(xùn)練數(shù)據(jù)中的長(zhǎng)期連貫結(jié)構(gòu)(由于潛在的概念結(jié)構(gòu)),但需要做更多的工作來(lái)準(zhǔn)確查明預(yù)訓(xùn)練數(shù)據(jù)的哪些元素對(duì)in-context learning有最大貢獻(xiàn)。是否有一個(gè)關(guān)鍵的數(shù)據(jù)子集可以從中產(chǎn)生in-context learning,或者它是否是多種類型數(shù)據(jù)之間的復(fù)雜交互?最近的工作[8][9]給出了一些關(guān)于引發(fā)in-context learning行為所需的預(yù)訓(xùn)練數(shù)據(jù)類型的提示。更好地理解in-context learning有助于構(gòu)建更有效的大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)集。

從模型架構(gòu)和訓(xùn)練中捕捉效果

我們的框架僅描述了預(yù)訓(xùn)練數(shù)據(jù)對(duì)in-context learning的影響,但其他方面也會(huì)產(chǎn)生影響。模型規(guī)模就是其中之一——許多論文都展示了大規(guī)模的好處[10][11][12]。結(jié)構(gòu)(例如,僅解碼器與編碼器-解碼器)和訓(xùn)練目標(biāo)(例如,因果語(yǔ)言模型與掩碼語(yǔ)言模型)是有可能的其它因素[13]。未來(lái)的工作可能會(huì)進(jìn)一步研究in-context learning中的模型行為如何受模型規(guī)模、結(jié)構(gòu)和訓(xùn)練目標(biāo)的選擇的影響。

五、總結(jié)

在這篇博文中,我們提供了一個(gè)框架,其中語(yǔ)言模型通過(guò)使用提示去“定位”它在預(yù)訓(xùn)練期間學(xué)習(xí)到的相關(guān)概念來(lái)進(jìn)行in-context learning,進(jìn)而完成相關(guān)任務(wù)。從理論上講,我們可以將其視為一個(gè)潛在概念以提示為條件的貝葉斯推理,這種能力來(lái)自預(yù)訓(xùn)練數(shù)據(jù)中的結(jié)構(gòu)(長(zhǎng)期連貫性)。我們?cè)谝恍㎞LP基準(zhǔn)測(cè)試上進(jìn)行實(shí)驗(yàn),表明當(dāng)提示中的輸出用隨機(jī)輸出來(lái)進(jìn)行替換時(shí),in-context learning仍然有效。雖然使用隨機(jī)輸出會(huì)增加噪聲,并破壞了輸入-輸出映射信息,但其他部分(輸入分布、輸出分布、格式)仍然為貝葉斯推理提供依據(jù)。最后,我們?cè)敿?xì)說(shuō)明了我們框架的局限性和可能的擴(kuò)展,例如解釋外推到看不見(jiàn)的任務(wù),并結(jié)合模型架構(gòu)和優(yōu)化的影響。我們呼吁未來(lái)在理解和改進(jìn)in-context learning方面開(kāi)展更多工作。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 貝葉斯
    +關(guān)注

    關(guān)注

    0

    文章

    77

    瀏覽量

    12548
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    502

    瀏覽量

    10236
  • 自然語(yǔ)言
    +關(guān)注

    關(guān)注

    1

    文章

    286

    瀏覽量

    13320

原文標(biāo)題:In-context learning如何工作?斯坦福學(xué)者用貝葉斯方法解開(kāi)其奧秘

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    斯坦福開(kāi)發(fā)過(guò)熱自動(dòng)斷電電池

    導(dǎo)致起火。開(kāi)發(fā)電池的斯坦福教授  在斯坦福開(kāi)發(fā)的新電池中,研究人員采用聚乙烯薄膜材料,薄膜上嵌入了鎳磁粉,它會(huì)形成納米級(jí)的突起。研究人員在突起部分覆蓋石墨烯導(dǎo)電材料,讓電流可以從表面通過(guò)。當(dāng)溫度
    發(fā)表于 01-12 11:57

    關(guān)于斯坦福的CNTFET的問(wèn)題

    之前下載了斯坦福2015年的CNTFET VS model,是.va的文件,不知道怎么啊,該怎么通過(guò)cadence的pspice進(jìn)行仿真啊,求指點(diǎn)
    發(fā)表于 01-26 13:47

    常用的分類方法:樸素

    統(tǒng)計(jì)學(xué)習(xí)方法樸素
    發(fā)表于 11-05 09:24

    回收新舊 斯坦福SRS DG645 延遲發(fā)生器

    回收新舊 斯坦福SRS DG645 延遲發(fā)生器 歐陽(yáng)R:*** QQ:1226365851溫馨提示:如果您找不到聯(lián)系方式,請(qǐng)?jiān)跒g覽器上搜索一下,旺貿(mào)通儀器儀回收工廠或個(gè)人、庫(kù)存閑置、二手儀器及附件
    發(fā)表于 07-14 10:34

    DG645 斯坦福 SRS DG645 延遲發(fā)生器 現(xiàn)金回收

    DG645 斯坦福 SRS DG645 延遲發(fā)生器 現(xiàn)金回收 歐陽(yáng)R:*** QQ:1226365851溫馨提示:如果您找不到聯(lián)系方式,請(qǐng)?jiān)跒g覽器上搜索一下,旺貿(mào)通儀器儀回收工廠或個(gè)人、庫(kù)存閑置
    發(fā)表于 01-11 10:08

    使用PyMC3包實(shí)現(xiàn)線性回歸

    1、如何使用PyMC3包實(shí)現(xiàn)線性回歸  PyMC3(現(xiàn)在簡(jiǎn)稱為PyMC)是一個(gè)建模包
    發(fā)表于 10-08 15:59

    基于應(yīng)變模態(tài)和方法的桿件損傷識(shí)別

    基于應(yīng)變模態(tài)和方法的桿件損傷識(shí)別 提出了一種基于空間桿系結(jié)構(gòu)應(yīng)變模態(tài)和
    發(fā)表于 10-24 15:02 ?15次下載

    基于網(wǎng)絡(luò)的軟件項(xiàng)目風(fēng)險(xiǎn)評(píng)估模型

    針對(duì)軟件項(xiàng)目面臨失敗風(fēng)險(xiǎn)的問(wèn)題,提出一種新的軟件風(fēng)險(xiǎn)評(píng)估模型,采用網(wǎng)絡(luò)推理風(fēng)險(xiǎn)發(fā)生的概率,模糊語(yǔ)言評(píng)估風(fēng)險(xiǎn)后果與損失的方法。實(shí)踐證明
    發(fā)表于 04-10 09:35 ?24次下載

    網(wǎng)絡(luò)分析

    網(wǎng)絡(luò)
    發(fā)表于 03-31 10:40 ?2次下載

    機(jī)器學(xué)習(xí)之樸素應(yīng)用教程

    方法輸出的是某一類的概率,取值范圍在 0-1 之間,樸素在做文本分類,或者說(shuō)垃圾郵件識(shí)別的時(shí)候非常有效。 樸素
    發(fā)表于 11-25 12:49 ?1368次閱讀
    機(jī)器學(xué)習(xí)之樸素<b class='flag-5'>貝</b><b class='flag-5'>葉</b><b class='flag-5'>斯</b>應(yīng)用教程

    怎樣通俗易懂地解釋網(wǎng)絡(luò)和它的應(yīng)用?

    怎樣通俗易懂地解釋網(wǎng)絡(luò)和它的應(yīng)用?詳情請(qǐng)看下文。網(wǎng)絡(luò)是一個(gè)
    發(fā)表于 02-02 16:09 ?4129次閱讀
    怎樣通俗易懂地解釋<b class='flag-5'>貝</b><b class='flag-5'>葉</b><b class='flag-5'>斯</b>網(wǎng)絡(luò)和它的應(yīng)用?

    基于概率的常見(jiàn)的分類方法--樸素

    方法輸出的是某一類的概率,取值范圍在 0-1 之間,樸素在做文本分類,或者說(shuō)垃圾郵件識(shí)別的時(shí)候非常有效。
    的頭像 發(fā)表于 02-03 14:37 ?5184次閱讀
    基于概率的常見(jiàn)的分類<b class='flag-5'>方法</b>--樸素<b class='flag-5'>貝</b><b class='flag-5'>葉</b><b class='flag-5'>斯</b>

    樸素分類 樸素算法的優(yōu)點(diǎn)

    樸素方法是在算法的基礎(chǔ)上進(jìn)行了相應(yīng)的簡(jiǎn)化
    的頭像 發(fā)表于 10-02 17:14 ?9242次閱讀

    In-context learning介紹

    隨著大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型(LLM)能力的不斷提升,in-context learning(ICL)逐漸成為自然語(yǔ)言處理領(lǐng)域一個(gè)新的范式。
    的頭像 發(fā)表于 04-21 10:02 ?1489次閱讀

    濾波和卡爾曼濾波的區(qū)別

    濾波和卡爾曼濾波是兩種常用的濾波方法,它們?cè)谛盘?hào)處理、導(dǎo)航、機(jī)器人定位等領(lǐng)域有著廣泛的應(yīng)用。
    的頭像 發(fā)表于 08-01 15:25 ?461次閱讀