国产精品亚洲欧美,2021国产精品自在拍在线观看,国产污在线观看

引言

去年底，OpenAI研發(fā)的ChatGPT一經(jīng)面世，在引起了大家驚訝的同時(shí)，也紛紛引發(fā)大家的思考，到底ChatGPT是如何研發(fā)的？用到了什么技術(shù)？如何才能充分挖掘ChatGPT潛能？ChatGPT背后的核心技術(shù)，大語(yǔ)言模型毫無(wú)疑問(wèn)是最重要的之一。同樣由OpenAI研發(fā)的大模型GPT-3，其參數(shù)量達(dá)到的1750億。如此大規(guī)模的模型，不僅研發(fā)成本讓許多機(jī)構(gòu)望而卻步，其背后的運(yùn)行原理也是讓很多科研人員“一頭霧水”。大量的工作在探究，語(yǔ)言模型是怎樣獲得如何驚人的“語(yǔ)言理解能力”的？其中，In-context learning就是一種在大規(guī)模語(yǔ)言模型中展現(xiàn)出來(lái)的特殊能力，通過(guò)給模型“展示”幾個(gè)相關(guān)的例子，模型便可以“學(xué)會(huì)”這個(gè)任務(wù)要做的事情，并給出測(cè)試樣例的答案?？墒牵Ｐ褪窃趺传@得這個(gè)特殊“技能”的呢？斯坦福大學(xué)的Sang Michael Xie等人認(rèn)為，in-context learning可以看成是一個(gè)貝葉斯推理過(guò)程，其利用提示的四個(gè)組成部分（輸入、輸出、格式和輸入輸出映射）來(lái)獲得隱含在語(yǔ)言模型中的潛在概念，而潛在概念是語(yǔ)言模型在訓(xùn)練過(guò)程中學(xué)到的關(guān)于某類任務(wù)的特定“知識(shí)”。相關(guān)工作發(fā)表在2022年的ICLR會(huì)議上，作者等人還寫了一篇博客來(lái)進(jìn)行詳細(xì)介紹。下面跟著譯者一起來(lái)了解in-context learning的奧秘吧！

博客正文

在這篇文章中，我們?yōu)镚PT-3等大規(guī)模語(yǔ)言模型中的in-context learning提供了一個(gè)貝葉斯推理框架，并展示了我們框架的實(shí)驗(yàn)證據(jù)，突出了與傳統(tǒng)監(jiān)督學(xué)習(xí)的區(qū)別。這篇博文主要借鑒了來(lái)自論文An Explanation of In-context Learning as Implicit Bayesian Inference的in-context learning理論框架，以及來(lái)自Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? 的實(shí)驗(yàn)。

In-context learning是大規(guī)模語(yǔ)言模型中一種神秘的涌現(xiàn)行為，其中語(yǔ)言模型僅通過(guò)調(diào)節(jié)輸入輸出示例來(lái)完成任務(wù)，而無(wú)需優(yōu)化任何參數(shù)。在這篇文章中，我們提供了一個(gè)貝葉斯推理框架，將in-context learning理解為“定位”語(yǔ)言模型從預(yù)訓(xùn)練數(shù)據(jù)中獲取到的潛在“概念”。這表明提示的所有組成部分（輸入、輸出、格式和輸入-輸出映射）都可以提供用來(lái)推斷潛在概念的信息。我們就此框架進(jìn)行相關(guān)實(shí)驗(yàn)，在這些實(shí)驗(yàn)的結(jié)果中，當(dāng)提供具有隨機(jī)輸出的訓(xùn)練示例時(shí)，in-context learning仍然有效。雖然隨機(jī)的輸出削弱了傳統(tǒng)的監(jiān)督學(xué)習(xí)算法，但它只是消除了貝葉斯推理的一種信息來(lái)源（輸入-輸出映射）。最后，我們提出了對(duì)于未來(lái)工作存在的差距和努力方向，并邀請(qǐng)社區(qū)與我們一起進(jìn)一步了解in-context learning。

一、In-context learning的奧秘

二、一種in-context learning框架

三、實(shí)驗(yàn)證據(jù)

四、擴(kuò)展

五、總結(jié)

一、In-context learning的奧秘

大規(guī)模語(yǔ)言模型，例如GPT-3[1]在互聯(lián)網(wǎng)規(guī)模的文本數(shù)據(jù)上進(jìn)行訓(xùn)練，以預(yù)測(cè)給定前文文本的下一個(gè)標(biāo)記。這個(gè)簡(jiǎn)單的目標(biāo)與大規(guī)模數(shù)據(jù)集和模型相結(jié)合，產(chǎn)生了一個(gè)非常靈活的語(yǔ)言模型，它可以“讀取”任何文本輸入，并以此為條件“書(shū)寫”可能出現(xiàn)在輸入之后的文本。雖然訓(xùn)練過(guò)程既簡(jiǎn)單又通用，但GPT-3論文發(fā)現(xiàn)“大規(guī)?！睍?huì)導(dǎo)致特別有趣的、意想不到的行為，稱為in-context learning。什么是in-context learning？In-context learning最初是在 GPT-3 論文中開(kāi)始普及的，是一種僅給出幾個(gè)示例就可以讓語(yǔ)言模型學(xué)習(xí)到相關(guān)任務(wù)的方法。在in-context learning里，我們給語(yǔ)言模型一個(gè)“提示（prompt）”，該提示是一個(gè)由輸入輸出對(duì)組成的列表，這些輸入輸出對(duì)用來(lái)描述一個(gè)任務(wù)。在提示的末尾，有一個(gè)測(cè)試輸入，并讓語(yǔ)言模型僅通過(guò)以提示為條件來(lái)預(yù)測(cè)下一個(gè)標(biāo)記。例如，要正確回答下圖所示的兩個(gè)提示，模型需要讀取訓(xùn)練示例以弄清楚輸入分布（財(cái)經(jīng)或普通新聞）、輸出分布（正向情感/負(fù)向情感或某個(gè)主題）、輸入-輸出映射（情感分類或主題分類）和格式。

In-context learning能做什么？在許多NLP基準(zhǔn)測(cè)試中，in-context learning與使用更多標(biāo)記數(shù)據(jù)訓(xùn)練的模型相比具有相當(dāng)?shù)男阅?，并且在LAMBADA（常識(shí)句子完成）和 TriviaQA（問(wèn)答）上是最出色的。更令人興奮的是，in-context learning使人們能夠在短短幾個(gè)小時(shí)內(nèi)啟動(dòng)一系列應(yīng)用程序，包括根據(jù)自然語(yǔ)言描述編寫代碼、幫助設(shè)計(jì)應(yīng)用程序模型以及概括電子表格功能等。

In-context learning允許用戶為新用例快速構(gòu)建模型，而無(wú)需為每個(gè)任務(wù)微調(diào)和存儲(chǔ)新參數(shù)。它通常只需要很少的訓(xùn)練示例就可以使模型正常工作，而且即使對(duì)于非專家來(lái)說(shuō)，也可以通過(guò)直觀的自然語(yǔ)言來(lái)進(jìn)行交互。

為什么in-context learning這么神奇？In-context learning不同于傳統(tǒng)的機(jī)器學(xué)習(xí)，因?yàn)樗鼪](méi)有對(duì)任何參數(shù)進(jìn)行優(yōu)化。然而，這并不是獨(dú)一無(wú)二的——元學(xué)習(xí)（meta-learning）方法已經(jīng)訓(xùn)練出了從示例中學(xué)習(xí)的模型。神奇之處在于語(yǔ)言模型沒(méi)有進(jìn)行過(guò)從示例中學(xué)習(xí)的訓(xùn)練，它在預(yù)訓(xùn)練中做的事是預(yù)測(cè)下一個(gè)標(biāo)記。正因?yàn)槿绱?，語(yǔ)言模型和in-context learning似乎并不一致。

這看起來(lái)很神奇，那In-context learning是怎么起作用的呢？

二、一種In-context learning框架

我們?nèi)绾尾拍芨玫乩斫鈏n-context learning？首先要注意的是，像GPT-3這樣的大規(guī)模語(yǔ)言模型已經(jīng)在具有廣泛主題和格式的大量文本上進(jìn)行了訓(xùn)練，這些文本包括維基百科頁(yè)面、學(xué)術(shù)論文、Reddit帖子以及莎士比亞的作品。我們假設(shè)在這些文本上進(jìn)行訓(xùn)練使得語(yǔ)言模型可以對(duì)多種不同的概念進(jìn)行建模。

Xie等人[2]提出了一個(gè)框架，即語(yǔ)言模型使用in-context learning提示來(lái)“定位”訓(xùn)練中學(xué)習(xí)到的概念，從而完成in-context learning任務(wù)。如下圖所示，在我們的框架中，語(yǔ)言模型使用訓(xùn)練示例在內(nèi)部確定任務(wù)是情感分析（左）或主題分類（右），并將相同的映射應(yīng)用于測(cè)試輸入。

什么是“概念”？我們可以將概念視為包含各種文檔級(jí)統(tǒng)計(jì)信息的潛在變量。例如，“新聞主題”的概念描述了詞匯的分布（新聞及新聞主題）、格式（新聞文章的寫作方式）、新聞與新聞主題之間的關(guān)系以及詞匯之間的其他語(yǔ)義和句法關(guān)系。通常，概念可能是許多潛在變量的組合，這些潛在變量指定了文檔語(yǔ)義和語(yǔ)法的不同方面，但在這里我們通過(guò)將它們?nèi)靠闯梢粋€(gè)概念變量來(lái)簡(jiǎn)化。

語(yǔ)言模型如何在預(yù)訓(xùn)練期間學(xué)會(huì)進(jìn)行貝葉斯推理？

我們證明，在具有潛在概念結(jié)構(gòu)的偽數(shù)據(jù)上訓(xùn)練（預(yù)測(cè)下一個(gè)標(biāo)記）的語(yǔ)言模型可以學(xué)習(xí)進(jìn)行in-context learning。我們假設(shè)在真實(shí)的預(yù)訓(xùn)練數(shù)據(jù)中會(huì)發(fā)生類似的效果，因?yàn)槲谋疚臋n天然具有長(zhǎng)期連貫性：同一文檔中的句子/段落/表格行傾向于共享底層語(yǔ)義信息（例如，主題）和格式（例如，問(wèn)題和答案之間交替的問(wèn)答頁(yè)面）。在我們的框架中，文檔級(jí)潛在概念創(chuàng)造了長(zhǎng)期連貫性，并且在預(yù)訓(xùn)練期間對(duì)這種連貫性進(jìn)行建模來(lái)推斷潛在概念：

1、預(yù)訓(xùn)練：為了在預(yù)訓(xùn)練期間預(yù)測(cè)下一個(gè)標(biāo)記，語(yǔ)言模型必須使用來(lái)自先前句子的證據(jù)推斷（“定位”）文檔的潛在概念。

2、In-context learning：如果語(yǔ)言模型使用提示中的in-context示例推斷提示概念（提示中的示例所共享的潛在概念），則發(fā)生in-context learning！

In-context learning的貝葉斯推理觀點(diǎn)

在我們討論貝葉斯推理觀點(diǎn)之前，讓我們?cè)O(shè)置好in-context learning的設(shè)定。

預(yù)訓(xùn)練分布（p）：我們對(duì)預(yù)訓(xùn)練文檔結(jié)構(gòu)的主要假設(shè)是，關(guān)于文檔的生成，首先通過(guò)對(duì)潛在概念進(jìn)行采樣，然后以潛在概念為條件來(lái)生成文檔。我們假設(shè)預(yù)訓(xùn)練數(shù)據(jù)足夠多以及語(yǔ)言模型足夠大，使得語(yǔ)言模型完全符合預(yù)訓(xùn)練分布。正因?yàn)槿绱?，我們使用p表示語(yǔ)言模型下的預(yù)訓(xùn)練分布和概率。

提示分布：In-context learning提示是一系列獨(dú)立同分布的訓(xùn)練示例加上一個(gè)測(cè)試輸入。提示中的每個(gè)示例都可以認(rèn)為是以相同提示概念為條件的序列，它描述了要學(xué)習(xí)的任務(wù)。

去“定位”學(xué)習(xí)到的概念的過(guò)程，可以看作是提示中每個(gè)示例共享的提示概念的貝葉斯推理。如果模型能夠推斷出提示概念，那么它就可以用來(lái)對(duì)測(cè)試樣例做出正確的預(yù)測(cè)。在數(shù)學(xué)上，提示為模型（p）提供了證據(jù)來(lái)銳化概念的后驗(yàn)分布p(concept|prompt)。如果p(concept|prompt)集中在提示概念上，模型則有效地從提示中“學(xué)習(xí)”到了概念。

理想情況下，p(concept|prompt)會(huì)集中在有更多示例的提示概念，就可以通過(guò)邊緣化來(lái)“選擇”對(duì)應(yīng)的提示概念。

提示為貝葉斯推理提供了帶有噪聲的信號(hào)

在解釋中不太符合邏輯的地方是，語(yǔ)言模型從in-context示例中推斷提示概念，不過(guò)提示是從提示分布中采樣的，這可能與語(yǔ)言模型訓(xùn)練的預(yù)訓(xùn)練分布非常不同。提示將獨(dú)立的訓(xùn)練示例連接在一起，因此不同示例之間的轉(zhuǎn)換在語(yǔ)言模型以及預(yù)訓(xùn)練分布下的概率非常低，并且可能在推理過(guò)程中引入噪聲。例如，連接關(guān)于不同新聞主題的獨(dú)立句子可能會(huì)產(chǎn)生不常見(jiàn)的文本，因?yàn)闆](méi)有一個(gè)句子具有足夠的in-context。有趣的是，正如在GPT-3中所發(fā)現(xiàn)的那樣，盡管預(yù)訓(xùn)練和提示分布之間存在差異，語(yǔ)言模型仍然可以進(jìn)行貝葉斯推理。我們證明，通過(guò)貝葉斯推理進(jìn)行的in-context learning可以用一個(gè)簡(jiǎn)化的理論設(shè)置，在預(yù)訓(xùn)練數(shù)據(jù)的潛在概念結(jié)構(gòu)中出現(xiàn)。我們使用它來(lái)生成一個(gè)數(shù)據(jù)集，該數(shù)據(jù)集使得Transformer和LSTM能夠發(fā)生in-context learning。

訓(xùn)練示例提供信號(hào)：我們可以認(rèn)為訓(xùn)練示例為貝葉斯推理提供信號(hào)。尤其是訓(xùn)練示例中的轉(zhuǎn)換（上圖中的綠色箭頭）允許語(yǔ)言模型推斷它們共享的潛在概念。在提示中，來(lái)自輸入分布（新聞句子之間的轉(zhuǎn)換）、輸出分布（主題詞）、格式（新聞句子的句法）和輸入-輸出映射（新聞和主題之間的關(guān)系）的轉(zhuǎn)換都為貝葉斯推理提供信號(hào)。

訓(xùn)練示例之間的轉(zhuǎn)換可能是低概率的（噪聲）：因?yàn)橛?xùn)練示例是獨(dú)立同分布的，將它們連接在一起通常會(huì)在示例之間產(chǎn)生不流暢的低概率轉(zhuǎn)換。例如，在關(guān)于芬蘭流通收入的句子之后看到關(guān)于 NFC 冠軍賽（美式橄欖球比賽）的句子可能會(huì)令人驚訝（見(jiàn)上圖）。這些轉(zhuǎn)換會(huì)在推理過(guò)程中產(chǎn)生噪音，原因在于預(yù)訓(xùn)練和提示分布之間的差異。

In-context learning對(duì)某些噪聲具有魯棒性：我們證明，如果信號(hào)大于噪聲，則語(yǔ)言模型可以成功進(jìn)行in-context learning。我們將信號(hào)描述為其他概念與以提示為條件的提示概念之間的KL散度，并將噪聲描述為來(lái)自示例之間轉(zhuǎn)換的誤差項(xiàng)。直覺(jué)上，如果提示允許模型真正輕松地將提示概念與其他概念區(qū)分開(kāi)來(lái)，那么就會(huì)有很強(qiáng)的信號(hào)。這也表明，在信號(hào)足夠強(qiáng)的情況下，其他形式的噪聲，例如刪除一種信息源（如刪除輸入輸出映射）可能是沒(méi)有問(wèn)題的，特別是當(dāng)提示的格式?jīng)]有改變并且輸入輸出映射信息在預(yù)訓(xùn)練數(shù)據(jù)中。這不同于傳統(tǒng)的監(jiān)督學(xué)習(xí)，如果刪除輸入-輸出映射信息（如通過(guò)隨機(jī)化標(biāo)簽），傳統(tǒng)的監(jiān)督學(xué)習(xí)將會(huì)失效。我們將在下一節(jié)中直接研究這種區(qū)別。

用于in-context learning的小型測(cè)試平臺(tái)（GINC數(shù)據(jù)集）：為了支持該理論，我們構(gòu)建了一個(gè)預(yù)訓(xùn)練數(shù)據(jù)集和具有潛在概念結(jié)構(gòu)的in-context learning測(cè)試平臺(tái)，取名為GINC。我們發(fā)現(xiàn)在GINC上進(jìn)行預(yù)訓(xùn)練會(huì)使Transformer和LSTM出現(xiàn)in-context learning，這表明來(lái)自預(yù)訓(xùn)練數(shù)據(jù)中的結(jié)構(gòu)有非常重要的作用。消融實(shí)驗(yàn)顯示，潛在的概念結(jié)構(gòu)（導(dǎo)致長(zhǎng)期連貫性）對(duì)于GINC中in-context learning的出現(xiàn)至關(guān)重要[2]。

三、實(shí)驗(yàn)證據(jù)

接下來(lái)，我們希望通過(guò)一組實(shí)驗(yàn)為上述框架提供實(shí)驗(yàn)證據(jù)。

提示中的輸入輸出對(duì)很重要

提示中不需要使用真實(shí)輸出也能獲得良好的in-context learning性能。

在Min等人的論文[3]中，我們比較了三種不同的方法：

No-examples：語(yǔ)言模型僅在測(cè)試輸入上計(jì)算條件概率，沒(méi)有示例。這是典型的零樣本推理，在GPT-2/GPT-3中已經(jīng)實(shí)現(xiàn)。

具有真實(shí)輸出的示例：語(yǔ)言模型是基于一些in-context示例和測(cè)試輸入共同去計(jì)算的。這是一種典型的in-context learning方法，默認(rèn)情況下，提示中的所有輸出都是真實(shí)的。

具有隨機(jī)輸出的示例：語(yǔ)言模型也是基于一些in-context示例和測(cè)試輸入去共同計(jì)算的，不過(guò)，提示中的每個(gè)輸出都是從輸出集中隨機(jī)抽樣的（分類任務(wù)中的標(biāo)簽；多項(xiàng)選擇中的一組答案選項(xiàng)）。

帶有真實(shí)輸出的提示（上圖）和帶有隨機(jī)輸出的提示（下圖）

值得注意的是，“帶有隨機(jī)輸出的示例”這種方法以前從未有人嘗試過(guò)。如果標(biāo)記數(shù)據(jù)的輸出是隨機(jī)的，那么典型的監(jiān)督學(xué)習(xí)將根本不起作用，因?yàn)槿蝿?wù)不再有意義。

我們?cè)囼?yàn)了12個(gè)模型，參數(shù)大小范圍從 774M 到 175B，包括最大的GPT-3（Davinci）。模型在16個(gè)分類數(shù)據(jù)集和10個(gè)多選數(shù)據(jù)集上進(jìn)行評(píng)估。

無(wú)示例（藍(lán)色）、具有真實(shí)輸出的示例（黃色）和具有隨機(jī)輸出的示例（隨機(jī)）之間的比較；用隨機(jī)輸出替換真值輸出對(duì)性能的影響比之前想象的要小得多，而且仍然比沒(méi)有例子要好得多

當(dāng)用輸出集合的隨機(jī)輸出來(lái)替換每個(gè)輸出時(shí)，in-context learning性能不會(huì)下降太多。

首先，正如預(yù)期的那樣，使用帶有真實(shí)輸出的示例明顯優(yōu)于無(wú)示例。然后，用隨機(jī)輸出替換真實(shí)輸出幾乎不會(huì)使性能下降。這意味著，與典型的監(jiān)督學(xué)習(xí)不同，真實(shí)輸出并不是獲得良好的in-context learning性能所必須需要的，這有違我們的直覺(jué)。

in-context示例的四個(gè)不同方面：輸入輸出映射（Input-output mapping）、輸入分布（Input distribution）、輸出空間（Output space）和格式（Format）

如果正確的輸入輸出映射具有邊際效應(yīng)，提示的哪些方面對(duì)于in-context learning最重要呢？

一個(gè)可能的方面是輸入分布，即示例中輸入的基礎(chǔ)分布（下圖中的紅色文本）。為了量化其影響，我們?cè)O(shè)計(jì)了一種演示變量，其中每個(gè)in-context示例都包含一個(gè)從外部語(yǔ)料庫(kù)中隨機(jī)抽取的輸入句子（不是來(lái)自訓(xùn)練數(shù)據(jù)的輸入）。然后，我們將其性能與帶有隨機(jī)標(biāo)簽的演示進(jìn)行比較。直覺(jué)上，這兩個(gè)版本的演示都是不正確的輸入標(biāo)簽對(duì)應(yīng)關(guān)系，區(qū)別在于是否有正確的輸入分布。

輸入分布很重要：當(dāng)提示中的輸入被外部語(yǔ)料庫(kù)（CC新聞?wù)Z料庫(kù)）的隨機(jī)輸入替換時(shí)，模型性能會(huì)顯著下降

結(jié)果表明，總體而言，以隨機(jī)句子作為輸入的模型性能顯著降低（絕對(duì)值降低高達(dá) 16%）。這表明對(duì)正確的輸入分布進(jìn)行調(diào)節(jié)很重要。

輸出空間很重要：當(dāng)示例中的輸出被隨機(jī)的英文一元組替換時(shí)，模型性能會(huì)顯著下降可能影響in-context learning的另一個(gè)方面是輸出空間：任務(wù)中的輸出集（類別或答案選項(xiàng)）。為了量化其影響，我們?cè)O(shè)計(jì)了一種演示變量，由in-context示例組成，這些示例具有隨機(jī)配對(duì)的隨機(jī)英語(yǔ)一元組，這些一元組與任務(wù)的原始標(biāo)簽（例如，“wave”）無(wú)關(guān)。結(jié)果表明，使用此演示時(shí)性能顯著下降（絕對(duì)值高達(dá)16%）。這表明對(duì)正確的輸出空間進(jìn)行調(diào)節(jié)很重要。即使對(duì)于多項(xiàng)選擇任務(wù)也是如此，可能是因?yàn)樗匀痪哂心Ｐ褪褂玫奶囟ㄟx擇分布（例如，OpenBookQA數(shù)據(jù)集中的“Bolts（螺栓）”和“Screws（螺絲）”等對(duì)象）。

與貝葉斯推理框架的聯(lián)系

語(yǔ)言模型不依賴提示中的輸入-輸出對(duì)應(yīng)這一事實(shí)意味著語(yǔ)言模型在預(yù)訓(xùn)練期間可能已經(jīng)接觸到任務(wù)的輸入-輸出對(duì)應(yīng)中的某些概念，而in-context learning在它們的基礎(chǔ)上發(fā)生作用。相反，提示的其它所有組成部分（輸入分布、輸出空間和格式）都在提供信號(hào)，使模型能夠更好地推斷（“定位”）在預(yù)訓(xùn)練期間學(xué)習(xí)到的概念。由于在提示中將隨機(jī)序列連接在一起，隨機(jī)輸入輸出映射仍然會(huì)增加“噪音”。盡管如此，基于我們的框架，只要仍然有足夠的信號(hào)（例如正確的輸入分布、輸出空間和格式），模型仍然會(huì)進(jìn)行貝葉斯推理。當(dāng)然，擁有正確的輸入輸出映射仍然可以通過(guò)提供更多依據(jù)和減少噪音來(lái)發(fā)揮作用，尤其是當(dāng)輸入輸出映射并非經(jīng)常出現(xiàn)在預(yù)訓(xùn)練數(shù)據(jù)中時(shí)。

在預(yù)訓(xùn)練期間，in-context learning 的性能與術(shù)語(yǔ)頻率高度相關(guān)

Razeghi等人[4]在各種數(shù)字任務(wù)上評(píng)估GPT-J，發(fā)現(xiàn)in-context learning性能與每個(gè)示例中的術(shù)語(yǔ)（數(shù)字和單位）在 GPT-J的預(yù)訓(xùn)練數(shù)據(jù)（The PILE）中出現(xiàn)的次數(shù)高度相關(guān)。

術(shù)語(yǔ)頻率（x軸）和in-context learning性能（y軸）之間的相關(guān)性；從左到右：加法、乘法、提示中無(wú)任務(wù)指示的加法和提示中無(wú)任務(wù)指示的乘法；來(lái)自 Razeghi等人的數(shù)據(jù)

這在不同類型的數(shù)字任務(wù)（加法、乘法和單位轉(zhuǎn)換）和不同的k值（提示中標(biāo)記示例的數(shù)量）中結(jié)論是一致的。一個(gè)有趣的現(xiàn)象是，當(dāng)輸入沒(méi)有明確說(shuō)明任務(wù)時(shí)也是如此——例如，不使用“問(wèn)：3 乘以 4 是多少？答：12”，而是用“問(wèn)：3#4是多少？答：12”。

與貝葉斯推理框架的聯(lián)系

我們將這項(xiàng)工作視為另一個(gè)證據(jù)，表明in-context learning主要是定位在預(yù)訓(xùn)練期間學(xué)習(xí)的潛在概念。特別是，如果特定實(shí)例中的術(shù)語(yǔ)在預(yù)訓(xùn)練數(shù)據(jù)中多次出現(xiàn)，則模型可能會(huì)更好地了解輸入分布。根據(jù)貝葉斯推理，這將為定位潛在概念以執(zhí)行下游任務(wù)提供更好的信號(hào)。而Razeghi等人特別關(guān)注模型對(duì)輸入分布了解程度的一個(gè)方面——特定實(shí)例的詞頻——可能存在更廣泛的變化集，例如輸入-輸出相關(guān)性的頻率、格式（或文本模式）等。

四、擴(kuò)展

了解模型在“沒(méi)見(jiàn)過(guò)”的任務(wù)上的表現(xiàn)

我們的框架表明該模型正在“檢索”它在預(yù)訓(xùn)練期間學(xué)到的概念。然而，Rong[5]在博文中表明，該模型在將運(yùn)動(dòng)映射到動(dòng)物、將蔬菜映射到運(yùn)動(dòng)等（下圖）沒(méi)見(jiàn)過(guò)的任務(wù)上表現(xiàn)幾乎完美。此外，輸入輸出映射在這種情況下仍然很重要，因?yàn)槟Ｐ蛷氖纠袑W(xué)習(xí)了不自然的映射。根據(jù)經(jīng)驗(yàn)，一種可能性是in-context learning行為可能會(huì)在構(gòu)造的任務(wù)中發(fā)生變化（而不是我們實(shí)驗(yàn)關(guān)注的真實(shí)NLP基準(zhǔn)測(cè)試）——這需要進(jìn)一步探索。

盡管如此，如果我們將一個(gè)概念視為許多潛在變量的組合，貝葉斯推理仍然可以解釋某些形式的外推。例如，考慮一個(gè)表示語(yǔ)法的潛在變量和另一個(gè)表示語(yǔ)義的變量。貝葉斯推理可以組合推廣到新的語(yǔ)義-句法對(duì)，即使模型在預(yù)訓(xùn)練期間沒(méi)有看到所有句對(duì)。排列、交換和復(fù)制等一般操作在預(yù)訓(xùn)練期間很有用，并且可以在組合時(shí)幫助外推（例如，運(yùn)動(dòng)到動(dòng)物案例中的標(biāo)簽排列）。需要做更多的工作來(lái)模擬in-context learning如何處理沒(méi)見(jiàn)過(guò)的任務(wù)。

GPT-3可以成功學(xué)習(xí)的具有不尋常語(yǔ)義的示例合成任務(wù)

與學(xué)習(xí)閱讀任務(wù)描述的聯(lián)系

可以在提示中使用自然語(yǔ)言的任務(wù)描述（或說(shuō)明）來(lái)執(zhí)行下游任務(wù)。例如，我們可以在前面加上“Write a summary about the given article”來(lái)描述總結(jié)或“Answer a following question about the Wikipedia article”來(lái)描述問(wèn)答。在大規(guī)模、高質(zhì)量指令數(shù)據(jù)上進(jìn)一步調(diào)整的語(yǔ)言模型被證明可以很好地執(zhí)行沒(méi)見(jiàn)過(guò)的任務(wù)[6][7]。根據(jù)我們的框架，我們可以通過(guò)提供明確的潛在提示概念，將“指定任務(wù)描述”理解為改進(jìn)貝葉斯推理。

了解用于in-context learning的預(yù)訓(xùn)練數(shù)據(jù)

雖然我們提出in-context learning來(lái)自預(yù)訓(xùn)練數(shù)據(jù)中的長(zhǎng)期連貫結(jié)構(gòu)（由于潛在的概念結(jié)構(gòu)），但需要做更多的工作來(lái)準(zhǔn)確查明預(yù)訓(xùn)練數(shù)據(jù)的哪些元素對(duì)in-context learning有最大貢獻(xiàn)。是否有一個(gè)關(guān)鍵的數(shù)據(jù)子集可以從中產(chǎn)生in-context learning，或者它是否是多種類型數(shù)據(jù)之間的復(fù)雜交互？最近的工作[8][9]給出了一些關(guān)于引發(fā)in-context learning行為所需的預(yù)訓(xùn)練數(shù)據(jù)類型的提示。更好地理解in-context learning有助于構(gòu)建更有效的大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)集。

從模型架構(gòu)和訓(xùn)練中捕捉效果

我們的框架僅描述了預(yù)訓(xùn)練數(shù)據(jù)對(duì)in-context learning的影響，但其他方面也會(huì)產(chǎn)生影響。模型規(guī)模就是其中之一——許多論文都展示了大規(guī)模的好處[10][11][12]。結(jié)構(gòu)（例如，僅解碼器與編碼器-解碼器）和訓(xùn)練目標(biāo)（例如，因果語(yǔ)言模型與掩碼語(yǔ)言模型）是有可能的其它因素[13]。未來(lái)的工作可能會(huì)進(jìn)一步研究in-context learning中的模型行為如何受模型規(guī)模、結(jié)構(gòu)和訓(xùn)練目標(biāo)的選擇的影響。

五、總結(jié)

在這篇博文中，我們提供了一個(gè)框架，其中語(yǔ)言模型通過(guò)使用提示去“定位”它在預(yù)訓(xùn)練期間學(xué)習(xí)到的相關(guān)概念來(lái)進(jìn)行in-context learning，進(jìn)而完成相關(guān)任務(wù)。從理論上講，我們可以將其視為一個(gè)潛在概念以提示為條件的貝葉斯推理，這種能力來(lái)自預(yù)訓(xùn)練數(shù)據(jù)中的結(jié)構(gòu)（長(zhǎng)期連貫性）。我們?cè)谝恍㎞LP基準(zhǔn)測(cè)試上進(jìn)行實(shí)驗(yàn)，表明當(dāng)提示中的輸出用隨機(jī)輸出來(lái)進(jìn)行替換時(shí)，in-context learning仍然有效。雖然使用隨機(jī)輸出會(huì)增加噪聲，并破壞了輸入-輸出映射信息，但其他部分（輸入分布、輸出分布、格式）仍然為貝葉斯推理提供依據(jù)。最后，我們?cè)敿?xì)說(shuō)明了我們框架的局限性和可能的擴(kuò)展，例如解釋外推到看不見(jiàn)的任務(wù)，并結(jié)合模型架構(gòu)和優(yōu)化的影響。我們呼吁未來(lái)在理解和改進(jìn)in-context learning方面開(kāi)展更多工作。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

貝葉斯

貝葉斯

+關(guān)注

關(guān)注
0

文章
77

瀏覽量
12548
語(yǔ)言模型

語(yǔ)言模型

+關(guān)注

關(guān)注
0

文章
502

瀏覽量
10236
自然語(yǔ)言

自然語(yǔ)言

+關(guān)注

關(guān)注
1

文章
286

瀏覽量
13320

原文標(biāo)題：In-context learning如何工作？斯坦福學(xué)者用貝葉斯方法解開(kāi)其奧秘

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

搜索歷史

In-context learning如何工作？斯坦福學(xué)者用貝葉斯方法解開(kāi)其奧秘

評(píng)論

斯坦福開(kāi)發(fā)過(guò)熱自動(dòng)斷電電池

關(guān)于斯坦福的CNTFET的問(wèn)題

常用的分類方法：樸素貝葉斯法

回收新舊斯坦福SRS DG645 延遲發(fā)生器

DG645 斯坦福 SRS DG645 延遲發(fā)生器現(xiàn)金回收

使用PyMC3包實(shí)現(xiàn)貝葉斯線性回歸

基于應(yīng)變模態(tài)和貝葉斯方法的桿件損傷識(shí)別

基于貝葉斯網(wǎng)絡(luò)的軟件項(xiàng)目風(fēng)險(xiǎn)評(píng)估模型

貝葉斯網(wǎng)絡(luò)分析

機(jī)器學(xué)習(xí)之樸素貝葉斯應(yīng)用教程

怎樣通俗易懂地解釋貝葉斯網(wǎng)絡(luò)和它的應(yīng)用？

基于概率的常見(jiàn)的分類方法--樸素貝葉斯

樸素貝葉斯分類樸素貝葉斯算法的優(yōu)點(diǎn)

In-context learning介紹

貝葉斯濾波和卡爾曼濾波的區(qū)別

搜索歷史

In-context learning如何工作？斯坦福學(xué)者用貝葉斯方法解開(kāi)其奧秘

評(píng)論

In-context learning如何工作？斯坦福學(xué)者用貝葉斯方法解開(kāi)其奧秘