欧美中文字幕在线免费看,国产亚洲自在精品久久

1. 背景和動(dòng)機(jī)

因果推理能力對(duì)于許多自然語言處理（NLP）應(yīng)用至關(guān)重要。最近的因果推理系統(tǒng)主要基于經(jīng)過微調(diào)的預(yù)訓(xùn)練語言模型（PLMs），如BERT [1] 和RoBERTa [2]。它們的因果推理能力依賴于使用大量標(biāo)注數(shù)據(jù)的監(jiān)督訓(xùn)練，然而ChatGPT能夠在不依賴標(biāo)注數(shù)據(jù)的前提下在各種NLP任務(wù)中取得良好表現(xiàn)。

在本文中，我們進(jìn)行了全面的評(píng)估，以展示ChatGPT的因果推理能力，涉及四個(gè)最先進(jìn)的（SOTA）版本的ChatGPT：text-davinci-002、text-davinci-003、gpt-3.5-turbo和gpt-4。首先，我們利用事件因果關(guān)系識(shí)別（ECI）任務(wù)作為因果推理基準(zhǔn)。如圖1所示，ECI任務(wù)旨在確定一個(gè)句子中的兩個(gè)事件之間是否存在因果關(guān)系。這要求ChatGPT不僅要掌握常識(shí)知識(shí)，還要理解由多個(gè)實(shí)體和事件組成的復(fù)雜上下文。最后，ChatGPT必須綜合所有信息來識(shí)別因果關(guān)系。

其次，我們采用因果發(fā)現(xiàn)（CD）任務(wù)進(jìn)行評(píng)估，這要求ChatGPT具有更廣泛和更專業(yè)的知識(shí)，但不需要考慮復(fù)雜的上下文。如圖1所示，我們使用了兩種CD任務(wù)格式：1）多項(xiàng)選擇，旨在從兩個(gè)選項(xiàng)中選擇輸入事件的原因或效果；2）二分類，旨在確定兩個(gè)輸入事件之間是否存在因果關(guān)系。對(duì)于二分類設(shè)置，我們將每個(gè)多項(xiàng)選擇示例轉(zhuǎn)換為兩個(gè)二分類示例，即將輸入事件與兩個(gè)選項(xiàng)中的每一個(gè)進(jìn)行配對(duì)。我們的實(shí)驗(yàn)表明，二分類是評(píng)估ChatGPT更可靠的方法。

此外，如圖1所示，我們進(jìn)行因果解釋生成（CEG）任務(wù)，以測(cè)試ChatGPT是否能為事件間的因果關(guān)系生成解釋。這通常用于測(cè)試機(jī)器是否真正理解因果關(guān)系背后的原理，這對(duì)于構(gòu)建可靠的因果推理系統(tǒng)至關(guān)重要。

圖1: 三種因果推理任務(wù)的形式和我們使用的提示。需要ChatGPT回復(fù)的內(nèi)容用紅色標(biāo)記。多項(xiàng)選擇CD任務(wù)還涉及要求選擇輸入事件可能后果的樣本。對(duì)于這些樣本，我們將問題中的“cause”修改為“result”。

關(guān)鍵發(fā)現(xiàn)如下：

ChatGPT不是一個(gè)好的因果推理器，但是一個(gè)好的因果解釋器。

ChatGPT存在嚴(yán)重的因果幻覺問題，它傾向于假設(shè)事件之間存在因果關(guān)系，而不管這些關(guān)系是否真正存在。

ChatGPT因果幻覺的主要原因可能是自然語言中因果關(guān)系和非因果關(guān)系之間的報(bào)告偏差。ICL和CoT [4]等技術(shù)可以進(jìn)一步加劇ChatGPT的因果幻覺。此外隨著ChatGPT版本提升，這種因果幻覺變得更加明顯。

ChatGPT的因果推理能力對(duì)提示中用于表達(dá)因果概念的詞匯十分敏感。

隨著句子中事件數(shù)量的增加，以及事件之間的詞匯距離變大，ChatGPT的因果推理性能會(huì)降低。此外，ChatGPT在識(shí)別顯式因果關(guān)系方面比識(shí)別隱式因果關(guān)系做得更好。

開放式生成提示無法提高ChatGPT的因果推理能力。

2 數(shù)據(jù)集、評(píng)估指標(biāo)及相關(guān)設(shè)置

2.1 數(shù)據(jù)集和評(píng)估指標(biāo)

事件因果關(guān)系識(shí)別

我們?cè)谌齻€(gè)廣泛使用的事件因果識(shí)別（ECI）數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)：1) EventStoryLine v0.9（ESC）[5]，包含22個(gè)主題、258份文檔、5,334個(gè)事件和1,770對(duì)因果事件對(duì)；2) Causal-TimeBank（CTB）[6]，包含184份文檔、6,813個(gè)事件和318對(duì)因果事件對(duì)；3) MAVEN-ERE [7]，包含90個(gè)主題、4,480份文檔、103,193個(gè)事件和57,992對(duì)因果事件對(duì)。參照以往的工作 [8, 9]，對(duì)于ESC我們僅使用其前20個(gè)主題進(jìn)行評(píng)估。此外，由于MAVEN-ERE沒有發(fā)布測(cè)試集，我們?cè)谄溟_發(fā)集上評(píng)估ChatGPT。我們采用準(zhǔn)確度、精確度（P）、召回率（R）和F1-score（F1）作為評(píng)估指標(biāo)。

因果發(fā)現(xiàn)

我們?cè)趦蓚€(gè)廣泛使用的因果發(fā)現(xiàn)（CD）數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)：1) COPA [10]，這是一個(gè)經(jīng)典的因果推理數(shù)據(jù)集，包含1,000個(gè)以日常生活場(chǎng)景為主的多項(xiàng)選擇題。2) e-CARE [11]，包含21,324個(gè)涵蓋廣泛領(lǐng)域的多項(xiàng)選擇題。我們采用準(zhǔn)確率作為評(píng)估指標(biāo)。

因果解釋生成

我們?cè)趀-CARE上進(jìn)行實(shí)驗(yàn)，該數(shù)據(jù)集包含21,324個(gè)人工注釋的因果解釋。參照e-CARE的評(píng)估設(shè)置，我們首先采用BLEU（n=4）[12]和ROUGE-L [13]作為自動(dòng)評(píng)估指標(biāo)。其次，我們抽取每個(gè)版本的ChatGPT在e-CARE上生成的100個(gè)解釋進(jìn)行人工評(píng)估。具體來說，我們標(biāo)記生成的解釋是否能解釋相應(yīng)的因果事實(shí)以人工評(píng)估解釋的準(zhǔn)確率。

2.2 實(shí)驗(yàn)設(shè)置

對(duì)于ChatGPT，圖1展示了三個(gè)因果推理任務(wù)所采用的提示。我們?cè)?zero-shot 設(shè)置下評(píng)估ChatGPT的性能。其他提示和設(shè)置在第四節(jié)中討論。

我們使用OpenAI的官方API進(jìn)行實(shí)驗(yàn)，涵蓋了四個(gè)ChatGPT最新版本：text-davinci-002、text-davinci-003、gpt-3.5-turbo和gpt-4。具體來說，text-davinci-002通過RLHF（強(qiáng)化學(xué)習(xí)與人類反饋）進(jìn)一步訓(xùn)練得到text-davinci-003，后者又進(jìn)一步利用對(duì)話數(shù)據(jù)訓(xùn)練得到gpt-3.5-turbo。雖然OpenAI未公開gpt-4的具體信息，但gpt-4在各種自然語言處理任務(wù)中顯示出了更為卓越的推理能力。對(duì)于gpt-4，我們從每個(gè)數(shù)據(jù)集中抽取1000個(gè)實(shí)例進(jìn)行評(píng)估。我們將temperature參數(shù)設(shè)置為0，以盡量減少隨機(jī)性。

2.3 基線方法

在本文中，所有針對(duì)三項(xiàng)因果推理任務(wù)的基線方法都基于在完整訓(xùn)練數(shù)據(jù)集上微調(diào)的預(yù)訓(xùn)練語言模型（PLMs）。

對(duì)于 ECI 和 CD 任務(wù)，我們將 ChatGPT 與基于 BERT-Base [14]和 RoBERTa-Base [15]的普通分類模型進(jìn)行了比較。它們的框架和訓(xùn)練過程與之前的工作一致 [16, 17]。

此外，我們將 ChatGPT 與兩種 SOTA ECI 方法進(jìn)行了比較：基于 BERT-Base 的 KEPT [18]，融合了背景和關(guān)系信息以進(jìn)行因果推理；以及基于 RoBERTa-Base 的 DPJL [19]，將有關(guān)因果線索詞和事件間關(guān)系的信息引入到 ECI 模型中。

對(duì)于 CEG 任務(wù)，我們首先將 ChatGPT 與基于 GRU 的 Seq2Seq 模型 [20]和 GPT2 [21]進(jìn)行比較。它們的框架和訓(xùn)練過程與之前的工作一致 [22]。此外，我們?cè)?e-CARE 的訓(xùn)練集上微調(diào) LLaMA 7B [23]和 FLAN-T5 11B [24]，作為基于 LLMs 基線。

3 實(shí)驗(yàn)

3.1 事件因果關(guān)系識(shí)別

表1顯示了在三個(gè)ECI數(shù)據(jù)集上的結(jié)果：ESC、CTB和MAVEN-ERE。

表1: ECI任務(wù)上的實(shí)驗(yàn)結(jié)果（%）。P、R和F1分別代表準(zhǔn)確率、召回率和F1分?jǐn)?shù)。Pos、Neg和Full分別表示因果對(duì)、非因果對(duì)和所有測(cè)試樣例上的準(zhǔn)確率。

我們發(fā)現(xiàn)：

即使是gpt-4版本的ChatGPT，也被基于微調(diào)的小型PLMs的基線方法全面超越。這表明在像ECI這樣復(fù)雜的因果推理任務(wù)中，ChatGPT并不是一個(gè)好的因果推理器。

ChatGPT的召回率很高，但精確度低，這表明大量非因果事件對(duì)被錯(cuò)誤地識(shí)別為因果對(duì)。這也是ChatGPT在CTB數(shù)據(jù)集上表現(xiàn)尤其糟糕的原因，因?yàn)樵摂?shù)據(jù)集包含更多非因果事件對(duì)。這可能是因?yàn)樽匀徽Z言包含大量因果關(guān)系的描述，主要由諸如“l(fā)ead to”和“therefore”這樣的因果線索詞指示。然而，自然語言通常不表達(dá)哪些事件不是因果相關(guān)的。由于ChatGPT的能力來自于對(duì)大量自然語言文本的訓(xùn)練，文本中因果和非因果事件對(duì)之間的這種報(bào)告偏差使得ChatGPT擅長(zhǎng)于識(shí)別因果事件對(duì)，但不擅長(zhǎng)識(shí)別非因果事件對(duì)。

此外，可以觀察到經(jīng)過微調(diào)的小型PLMs在識(shí)別非因果事件對(duì)方面表現(xiàn)得更好。這是因?yàn)樵贓CI訓(xùn)練集中，非因果示例比因果示例多得多，而經(jīng)過微調(diào)的模型學(xué)習(xí)到了這種數(shù)據(jù)分布。

3.2 因果關(guān)系發(fā)現(xiàn)

表2展示了在兩個(gè)因果發(fā)現(xiàn)（CD）數(shù)據(jù)集上的結(jié)果：COPA和e-CARE。

表2: CD任務(wù)上的實(shí)驗(yàn)結(jié)果（%）。Pos、Neg和Full分別表示因果對(duì)、非因果對(duì)以及所有測(cè)試樣例上的準(zhǔn)確率。

我們發(fā)現(xiàn)：

盡管ChatGPT在多項(xiàng)選擇設(shè)置中表現(xiàn)良好，但在二元分類中的表現(xiàn)卻顯著變差。這主要是因?yàn)樵诙囗?xiàng)選擇設(shè)置中，ChatGPT只需要考慮與輸入事件呈現(xiàn)更明顯的因果或非因果關(guān)系的選項(xiàng)，而可以忽略另一個(gè)更難分析的選項(xiàng)。之前的工作 [25, 26]只用多項(xiàng)選擇題來評(píng)估ChatGPT的因果推理能力，導(dǎo)致誤認(rèn)為ChatGPT擅長(zhǎng)因果推理。

與ECI任務(wù)相比，ChatGPT在CD任務(wù)中識(shí)別非因果對(duì)的準(zhǔn)確率更高。這主要是因?yàn)閑-CARE和COPA數(shù)據(jù)集中的非因果對(duì)是根據(jù)輸入事件手動(dòng)生成的，它們結(jié)構(gòu)簡(jiǎn)單，與輸入事件的相關(guān)性弱，因此更容易識(shí)別。這也是為什么經(jīng)過微調(diào)的小型預(yù)訓(xùn)練語言模型（PLMs）在識(shí)別非因果事件對(duì)方面比識(shí)別因果事件對(duì)表現(xiàn)更好。

與COPA相比，ChatGPT在e-CARE數(shù)據(jù)集中識(shí)別因果對(duì)的準(zhǔn)確率略低。這是因?yàn)閑-CARE要求ChatGPT掌握更廣泛的知識(shí)，這不僅涉及到更多場(chǎng)景中的常識(shí)知識(shí)，還包括某些領(lǐng)域的專業(yè)知識(shí)，如生物學(xué)。

更重要的是，我們注意到ChatGPT的升級(jí)過程（text-davinci-003→gpt-3.5turbo→gpt-4）使得ChatGPT越來越傾向于將事件分類為具有因果關(guān)系，而無論因果是否真實(shí)存在。這可能是RLHF的對(duì)齊稅 [27]所致。這表明，盡管OpenAI [28]提到ChatGPT的升級(jí)過程減少了在其他各種任務(wù)中的幻覺問題，但也使得ChatGPT更擅長(zhǎng)于編造因果關(guān)系。

3.3 因果解釋生成

表 3 展示了在 CEG 任務(wù)上的實(shí)驗(yàn)結(jié)果。

表3: 在CEG任務(wù)上的實(shí)驗(yàn)結(jié)果（%）。

可以觀察到：

根據(jù)人類評(píng)估結(jié)果，由 ChatGPT 生成的因果解釋的準(zhǔn)確性接近人類生成的解釋。這表明 ChatGPT 是一個(gè)良好的因果解釋器。

與“Human Generation”相比，ChatGPT 在 ROUGE-l 指標(biāo)上表現(xiàn)更好，這是一個(gè)類似于文本分類中“recall”的文本生成度量。這是因?yàn)?ChatGPT 傾向于生成相比人工標(biāo)注的解釋更完整、更詳細(xì)的解釋。這一點(diǎn)在我們的人工評(píng)估過程中得到了評(píng)估員的一致認(rèn)可。這也是 ChatGPT 獲得較低的 AVG-BLEU 分?jǐn)?shù)的原因，因?yàn)锳VG-BLEU是一個(gè)類似于文本分類中“precision”的文本生成度量。

通過手動(dòng)評(píng)估，我們發(fā)現(xiàn)由 LLaMA 和 FLAN-T5 生成的解釋與輸入事件高度相關(guān)。然而，這些解釋可能只是對(duì)輸入事件的重復(fù)，或者提供相關(guān)但無法用于解釋的描述。這也是 LLaMA 和 FLAN-T5 在人類評(píng)估中表現(xiàn)不佳的主要原因。

此外，與 ChatGPT 相比，LLaMA 和 FLAN-T5 提供的解釋明顯更短。這是因?yàn)?e-CARE 訓(xùn)練集中標(biāo)注的解釋非常簡(jiǎn)短。然而，ChatGPT 在提供更全面和詳細(xì)的解釋方面表現(xiàn)出色。這展示了 ChatGPT 因果解釋相比傳統(tǒng)微調(diào)方法的優(yōu)勢(shì)。

最后值得注意的是，盡管經(jīng)過微調(diào)的 LLaMA、FLAN-T5 和 ChatGPT 在 ROUGE-l 分?jǐn)?shù)上表現(xiàn)相近，但兩個(gè)微調(diào)的 LLMs 在我們的人類評(píng)估中表現(xiàn)明顯更差。這是因?yàn)?ChatGPT 生成的解釋相比測(cè)試集中標(biāo)注的解釋更加全面、詳細(xì)，導(dǎo)致了偏低的ROUGE-l數(shù)值。事實(shí)上ChatGPT生成的解釋質(zhì)量相當(dāng)可靠。

4 分析

4.1 上下文學(xué)習(xí)

如表4和表5所示，我們分析了ChatGPT在不同上下文學(xué)習(xí)設(shè)置下的表現(xiàn)：1）“x pos + y neg”：我們隨機(jī)選擇x個(gè)因果訓(xùn)練樣例和y個(gè)非因果訓(xùn)練樣例作為上下文學(xué)習(xí)的示例，所有測(cè)試樣例共享相同的示例；2）“top k similar”：對(duì)于每個(gè)測(cè)試樣例，我們檢索與其最相似的k個(gè)訓(xùn)練樣例作為其上下文示例。論文中還額外分析了ICL示例的順序和標(biāo)簽分布對(duì)因果推理性能的影響。

表4: ChatGPT在ECI任務(wù)中使用上下文學(xué)習(xí)的表現(xiàn)。其中“none”表示未使用上下文學(xué)習(xí)的ChatGPT。

表5: ChatGPT 在 binary-classification CD任務(wù)中使用上下文學(xué)習(xí)的性能。“none” 表示沒有使用上下文學(xué)習(xí)的 ChatGPT。

我們觀察到：

當(dāng)x和y不大于4時(shí)，ICL主要提高了ChatGPT在因果對(duì)中的準(zhǔn)確率，但降低了非因果對(duì)的準(zhǔn)確率。這可能是因?yàn)殡m然ICL可以激發(fā)ChatGPT的能力，但ChatGPT更擅長(zhǎng)識(shí)別因果事件對(duì)。因此，ICL進(jìn)一步加劇了ChatGPT識(shí)別因果和非因果對(duì)的性能的不均衡。

“4 pos + 48 neg”實(shí)現(xiàn)了更高的Full Acc。然而它是以犧牲Pos Acc為代價(jià)提高了Neg Acc。又因?yàn)镋SC數(shù)據(jù)集包含更多的非因果對(duì)，造成表面看起來Full Acc有所提升。但整體性能的有效提升不應(yīng)該是以拆東墻補(bǔ)西墻的形式實(shí)現(xiàn)，而應(yīng)該是同時(shí)提高Pos Acc和Neg Acc。

4.2 思維鏈提示

如表6所示，我們分析了ChatGPT在不同思維鏈設(shè)置下的表現(xiàn)：1）“-w/ CoT zero-shot”：我們通過在提示后添加“Let’s think step by step” 來實(shí)現(xiàn)zero-shot CoT [29]；2）“-w/ CoT x pos + y neg”：我們?yōu)閤個(gè)因果訓(xùn)練樣例和y個(gè)非因果訓(xùn)練樣例手動(dòng)注釋推理鏈。它們被選為上下文學(xué)習(xí)的示例，所有測(cè)試樣例共享相同的上下文示例。論文中還額外展示了ChatGPT的錯(cuò)誤類型、推理鏈條的樣例等。

表6: ChatGPT在ECI和binary-classification CD任務(wù)上的使用CoT的表現(xiàn)?！皀one” 表示沒有使用上下文學(xué)習(xí)的 ChatGPT。

可以發(fā)現(xiàn)：

“-w/ CoT zero-shot”不能有效地提高ChatGPT在ECI任務(wù)中的表現(xiàn)。這可能是因?yàn)?zero-shot CoT生成的推理鏈質(zhì)量不足以有效地指導(dǎo)模型。

“-w/ CoT x pos + y neg”提高了ChatGPT在因果對(duì)上的準(zhǔn)確率，但降低了其在非因果對(duì)上的準(zhǔn)確率。觀察ChatGPT生成的推理鏈，我們發(fā)現(xiàn)ChatGPT為非因果對(duì)生成的鏈條質(zhì)量低于因果對(duì)。這種差異會(huì)加劇ChatGPT在識(shí)別因果和非因果事件對(duì)方面的不平衡。

4.3 表達(dá)因果關(guān)系的方式

如圖2所示，我們分析了在提示中使用不同方式表達(dá)因果概念時(shí)ChatGPT的性能變化：

1）“counterfactual”，基于 [30]的反事實(shí)因果觀點(diǎn)的提示；

2）“one-step”，我們添加了“one-step”這樣的限制性詞語來減輕將非因果事件對(duì)識(shí)別為因果的傾向；

3）“trigger()”，我們使用不同的因果提示詞（例如，“l(fā)ead to”）來構(gòu)建提示。

圖2: 以各種方式表達(dá)因果概念的提示。需要ChatGPT回復(fù)的內(nèi)容用紅色標(biāo)記。

實(shí)驗(yàn)結(jié)果顯示在表7中。

表7: 以不同方式表達(dá)因果概念的提示在ECI任務(wù)上的性能。

我們發(fā)現(xiàn)：

“counterfactual” 提示使得幾乎所有非因果對(duì)被識(shí)別為因果。人工檢查發(fā)現(xiàn)這主要是因?yàn)镃hatGPT的反事實(shí)推理結(jié)果不夠準(zhǔn)確。

“one-step”提高了ChatGPT在非因果對(duì)上的準(zhǔn)確性，但降低了其在因果對(duì)上的準(zhǔn)確性。這是意味著盡管像“one-step”這樣的限制性詞語可以使模型更傾向于預(yù)測(cè)事件對(duì)為非因果，但它并沒有真正增強(qiáng)ChatGPT的因果推理能力。

“trigger()” 在不同因果提示詞下的表現(xiàn)有顯著差異。這可能是因?yàn)樵陬A(yù)訓(xùn)練期間，ChatGPT主要通過因果提示詞學(xué)習(xí)因果知識(shí)，但每個(gè)提示詞觸發(fā)的因果關(guān)系分布都有所不同。因此，對(duì)于人類來說意義相同的因果提示詞對(duì)ChatGPT來說代表不同的因果概念。這進(jìn)一步表明，通過提示準(zhǔn)確地向ChatGPT傳達(dá)因果含義是一個(gè)具有挑戰(zhàn)性的任務(wù)。

4.4 事件之間的詞匯距離

如圖3所示，我們分析了ChatGPT處理不同詞匯距離事件對(duì)的表現(xiàn)。“詞匯距離”指的是一個(gè)句子中兩個(gè)事件之間間隔的單詞數(shù)。

圖3: ChatGPT在ESC數(shù)據(jù)集中處理具有不同詞匯距離的事件對(duì)的表現(xiàn)。

我們發(fā)現(xiàn)：

隨著間距的增加，ChatGPT更傾向于將事件對(duì)預(yù)測(cè)為非因果。這可能是因?yàn)樵谧匀徽Z言中，事件之間的距離越大，存在因果關(guān)系的可能性越小，而ChatGPT學(xué)到了這種模式。

隨著事件間距的增加，ChatGPT的F1得分降低。這表明ChatGPT不擅長(zhǎng)識(shí)別長(zhǎng)距離的因果關(guān)系。一個(gè)異常值是在[25,30)區(qū)間內(nèi)gpt-4的F1得分。這是因?yàn)樵趃pt-4的1000個(gè)測(cè)試樣例中，只有35個(gè)例子在[25,30)區(qū)間內(nèi)，導(dǎo)致表現(xiàn)更加隨機(jī)。然而，所有其他結(jié)果都表明，隨著事件距離的增加，ChatGPT的表現(xiàn)會(huì)下降。

4.5 事件密度

如圖4所示，我們分析了ChatGPT在ECI任務(wù)中處理具有不同數(shù)量事件的句子的表現(xiàn)。

圖4: ChatGPT在ESC數(shù)據(jù)集中處理具有不同事件數(shù)量的句子的表現(xiàn)。

我們發(fā)現(xiàn)：

隨著事件密度的增加，大多數(shù)版本的ChatGPT更傾向于預(yù)測(cè)事件對(duì)為非因果關(guān)系。這主要是因?yàn)殡S著事件密度的增加，事件的上下文變得更加復(fù)雜，使得捕捉事件之間的關(guān)聯(lián)變得更加困難。

隨著事件密度的增加，ChatGPT的F1分?jǐn)?shù)下降。這表明ChatGPT不擅長(zhǎng)處理涉及多個(gè)事件的復(fù)雜情況。

4.6 因果關(guān)系類型

如圖5所示，我們分析了ChatGPT在ECI任務(wù)中處理具有不同類型因果關(guān)系的事件對(duì)的準(zhǔn)確性：1）顯式因果，指的是句子中由因果提示詞（例如，“l(fā)ead to”）明確觸發(fā)的因果關(guān)系；2）隱式因果，指的是未使用因果提示詞表達(dá)的因果關(guān)系。

圖5: 在ESC數(shù)據(jù)集中，ChatGPT在不同類型因果關(guān)系的事件對(duì)上的表現(xiàn)。

可以觀察到：

與隱性因果性相比，ChatGPT在捕捉顯性因果性方面表現(xiàn)更好。這主要是因?yàn)樽R(shí)別顯性因果性只需識(shí)別因果提示詞，而識(shí)別隱性因果性則需要利用上下文信息和常識(shí)知識(shí)進(jìn)行推理。

4.7 開放式提示

最近，阿羅拉等人 [31]發(fā)現(xiàn)，開放式提示（例如“誰去了公園？”）對(duì)于ChatGPT來說，往往比限制性的提示（例如“約翰去了公園。對(duì)還是錯(cuò)？”）產(chǎn)生更好的結(jié)果。如表8所示，我們分析了ChatGPT使用開放式提示的因果推理性能：

1）“open-ended A.1/2/3”，要求ChatGPT生成輸入句子中的所有因果事件對(duì)。我們?cè)O(shè)計(jì)了三種不同的提示，以全面評(píng)估ChatGPT的表現(xiàn)。

2）“open-ended B”，給出輸入句子中的目標(biāo)事件，并要求ChatGPT生成輸入句子中與目標(biāo)事件具有因果關(guān)系的事件。

這些提示的格式在圖6中展示。

圖6: 開放式提示。標(biāo)記為紅色的內(nèi)容需要ChatGPT回復(fù)。

我們對(duì)開放式提示采用了邊界寬松的P、R和F1計(jì)算方法。具體來說，當(dāng)預(yù)測(cè)的結(jié)果事件與標(biāo)注的結(jié)果事件共享至少一個(gè)單詞，同時(shí)預(yù)測(cè)的原因事件與標(biāo)注的原因事件也共享至少一個(gè)單詞，則認(rèn)為預(yù)測(cè)的因果事件對(duì)是正確的。

表8: ChatGPT 使用開放式提示在 ECI 任務(wù)上的表現(xiàn)。“close-ended”表示圖 1 中顯示的原始 ECI 提示。值得注意的是，“close-ended”提示并不明確要求 ChatGPT 輸出“yes”或“no”，但其句法形式引導(dǎo) ChatGPT 幾乎總是輸出“yes”或“no”。

可以觀察到：

開放式提示降低了ChatGPT的性能。這是因?yàn)殚_放式提示要求ChatGPT同時(shí)執(zhí)行事件提取和ECI任務(wù)。然而，之前的研究 [32, 33]表明，ChatGPT不擅長(zhǎng)提取事件。

5 結(jié)論

在本文中，我們對(duì)ChatGPT的因果推理能力進(jìn)行了全面評(píng)估。實(shí)驗(yàn)表明：

ChatGPT不是一個(gè)好的因果推理器，但擅長(zhǎng)因果解釋生成；

ChatGPT存在嚴(yán)重的因果幻覺，這可能是由于因果的報(bào)告偏見；

隨著ChatGPT版本的提升，以及ICL和CoT技術(shù)的應(yīng)用，這種因果幻覺進(jìn)一步加?。?/p>

ChatGPT對(duì)于提示中表達(dá)因果概念的方式敏感，且開放式提示不適合ChatGPT；

對(duì)于句子中的事件，ChatGPT擅長(zhǎng)捕捉明確的因果關(guān)系，在事件密度較低和事件距離較小的句子中表現(xiàn)更好。

開放式生成提示無法提高ChatGPT的因果推理能力。

盡管可能存在更細(xì)致的提示，可以進(jìn)一步超越我們報(bào)告的結(jié)果，但我們認(rèn)為，僅依靠提示無法從根本上解決 ChatGPT 在因果推理中面臨的問題。我們希望這項(xiàng)研究能激發(fā)未來的工作，例如解決ChatGPT的因果幻覺問題或在多因素和多模態(tài)因果推理的場(chǎng)景中進(jìn)一步評(píng)估ChatGPT。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

ChatGPT

ChatGPT

+關(guān)注

關(guān)注
29

文章
1546

瀏覽量
7360

原文標(biāo)題：ChatGPT 是一個(gè)好的因果推理器嗎？一份綜合評(píng)估

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

【國(guó)產(chǎn)FPGA+OMAPL138開發(fā)板體驗(yàn)】（原創(chuàng)）6.FPGA連接ChatGPT 4

OMAP-L138（定點(diǎn)/浮點(diǎn)DSP C674x+ARM9）+ FPGA處理器的開發(fā)板。編寫一個(gè)用于FPGA訪問ChatGPT 4的程序代碼是一

發(fā)表于 02-14 21:58

#chatgpt 使用chatGPT輔助開發(fā)第一彈-電路設(shè)計(jì)，讓它設(shè)計(jì)一個(gè)放大電路，看下效果#人工智能

ChatGPT

jf_82140138
發(fā)布于 :2023年02月27日 13:07:41

科技大廠競(jìng)逐AIGC，中國(guó)的ChatGPT在哪？

推出了ChatGPT，嘗試在這里與它交談”，還包括一個(gè)鏈接，任何人都可以點(diǎn)擊鏈接，免費(fèi)與ChatGPT交談。與Siri、小愛同學(xué)等語音助手類似，

發(fā)表于 03-03 14:28

不到1分鐘開發(fā)一個(gè)GPT應(yīng)用！各路大神瘋狂整活，網(wǎng)友：ChatGPT就是新iPhone

這個(gè)說法并不準(zhǔn)確。盡管ChatGPT等語言模型已經(jīng)在一定程度上改變了我們獲取信息、學(xué)習(xí)知識(shí)的方式，但它們并不能替代人類進(jìn)行創(chuàng)造性思考和創(chuàng)造性活動(dòng)。雖然一些人可能會(huì)利用ChatGPT等

發(fā)表于 11-19 12:06

基于加性噪聲的缺失數(shù)據(jù)因果推斷

推斷數(shù)據(jù)間存在的因果關(guān)系是很多科學(xué)領(lǐng)域中的一個(gè)基礎(chǔ)問題，然而現(xiàn)在暫時(shí)還沒有快速有效的方法對(duì)缺失數(shù)據(jù)進(jìn)行因果推斷。為此，提出一種基于加性噪聲模

發(fā)表于 01-14 16:06 ?0次下載

醫(yī)學(xué)AI的行業(yè)研究人員演示了一種“因果推理”算法

關(guān)聯(lián)算法使用線性推論將癥狀與可能導(dǎo)致它們的疾病進(jìn)行匹配。因果推理AI（也稱為反事實(shí)AI或“具有想象力的AI”）考慮是否可能是其他疾病導(dǎo)致給定癥狀或一系列癥狀。

發(fā)表于 09-09 10:51 ?2098次閱讀

超詳細(xì)EMNLP2020 因果推斷

引言 X，Y之間的因果性被定義為操作X，會(huì)使得Y發(fā)生改變。在很多領(lǐng)域如藥物效果預(yù)測(cè)、推薦算法有效性，因果性都有著重要作用。然而現(xiàn)實(shí)數(shù)據(jù)中，變量之間還會(huì)存在其他的相關(guān)關(guān)系（confounding

發(fā)表于 05-19 15:59 ?4877次閱讀

基于e-CARE的因果推理相關(guān)任務(wù)

因果推理是人類的一項(xiàng)核心認(rèn)知能力。借助因果推理能力，人類得以理解已觀測(cè)到的各種現(xiàn)象，并預(yù)測(cè)將來可能發(fā)生的事件。然而，盡管當(dāng)下的各類

發(fā)表于 05-16 16:21 ?1330次閱讀

問了一個(gè)讓ChatGPT尷尬的問題……

點(diǎn)擊藍(lán)字?關(guān)注我們最近這段時(shí)間，全球最繁忙的服務(wù)器非ChatGPT的服務(wù)器莫屬。OpenAI公司推出的DALL-E和GPT-3生成式AI系統(tǒng)ChatGPT，其月活用戶僅用兩個(gè)月就已經(jīng)

發(fā)表于 02-12 12:30 ?1267次閱讀

ChatGPT了的七個(gè)開源項(xiàng)目

就推出了很多。估計(jì)，現(xiàn)在還有不少同學(xué)苦于不知道該如何體驗(yàn)chatGPT。　　chatGPT火了，圍繞chatGPT盡心二次擴(kuò)展的開源項(xiàng)目最近也涌現(xiàn)出很多，今天就來給大家介紹幾個(gè)最近發(fā)現(xiàn)的不錯(cuò)的開源項(xiàng)目！　　這是

發(fā)表于 02-15 09:26 ?3次下載

ChatGPT的潛力和局限

的世界也是一個(gè)完整的環(huán)境：你可以收集口袋妖怪、培養(yǎng)它們的實(shí)力，然后讓它們?cè)趹?zhàn)斗中一展身手。每一個(gè)系統(tǒng)都有詳細(xì)的、明確的規(guī)定。而現(xiàn)在，我們把這個(gè)酷炫的口袋妖怪世界作為評(píng)估

發(fā)表于 06-13 17:23 ?544次閱讀

基準(zhǔn)數(shù)據(jù)集(CORR2CAUSE)如何測(cè)試大語言模型(LLM)的純因果推理能力

? 因果推理是人類智力的標(biāo)志之一。因果關(guān)系NLP領(lǐng)域近年來引起了人們的極大興趣，但其主要依賴于從常識(shí)知識(shí)中發(fā)現(xiàn)因果關(guān)系。本研究提出了

發(fā)表于 06-20 15:39 ?1729次閱讀

ChatGPT plus多少錢一個(gè)月 ChatGPT Plus國(guó)內(nèi)代充教程

ChatGPT plus多少錢一個(gè)月？ OpenAI推出ChatGPT付費(fèi)訂閱版ChatGPT Plus，每月收費(fèi)20美元。 ChatGPT

發(fā)表于 08-14 18:24 ?7627次閱讀

如何使用Rust創(chuàng)建一個(gè)基于ChatGPT的RAG助手

經(jīng)常會(huì)出現(xiàn)一些幻覺，“一本正經(jīng)”地為我們提供一些錯(cuò)誤答案，沒有辦法為我們提供專業(yè)的意見或指導(dǎo)。那我們?nèi)绾巫?ChatGPT 具備某個(gè)專業(yè)領(lǐng)域的知識(shí)，提升回答的正確率，從而讓

發(fā)表于 10-24 17:34 ?1000次閱讀

AMD助力HyperAccel開發(fā)全新AI推理服務(wù)器

提高成本效率。HyperAccel 針對(duì)新興的生成式 AI 應(yīng)用提供超級(jí)加速的芯片 IP/解決方案。HyperAccel 已經(jīng)打造出一個(gè)快速、高效且低成本的推理系統(tǒng)，加速了基于轉(zhuǎn)換器的

發(fā)表于 09-18 09:37 ?308次閱讀