論文名稱:Cross-lingual Prompting: Improving Zero-shot Chain-of-Thought Reasoning across Languages
論文作者:覃立波,陳麒光,車萬翔等
原創(chuàng)作者:陳麒光
論文鏈接:https://arxiv.org/abs/2310.14799
出處:哈工大SCIR
最后一個名額:帶你沖刺ACL2024
0. Take-away messages
?本文引入了簡單有效的Cross-Lingual Prompting (CLP),其中包含cross-lingual alignment prompting (CAP) 和 task-specific solver prompting (TSP),它們能夠幫助思維鏈(CoT)范式在不同語言間進行有效地對齊,共同改進了跨語言的零樣本 CoT 推理。
?進一步地,提出了Cross-Lingual Self-consistent Prompting (CLSP),利用不同語言專家的知識和不同語言間更加多樣的思考方式,集成了多個推理路徑,顯著地提高了self-consistency的跨語言性能。CLSP 都能夠在CLP的基礎(chǔ)上更進一步地有效提高零樣本跨語言 CoT 性能。
?對多個基準的廣泛評估表明,CLP 在各類任務(wù)上甚至取得了比機器翻譯用戶請求更加優(yōu)異的性能(在各個多語言數(shù)據(jù)集上平均準確率至少提高了1.8%)。在此基礎(chǔ)上,CLSP能夠進一步地提高CLP的性能,在多個基準上都取得了超過6%的提升。
1. 背景與動機
1.1 背景
LLM能夠在訓(xùn)練和測試過程中無需修改模型參數(shù),實現(xiàn)零樣本推理,受到越來越多的關(guān)注。具體來說,零樣本思維鏈 (CoT) 只需要附加提示 Let's think step by step! ,就可以從大型語言模型中誘導(dǎo)強大的推理能力,并在各種任務(wù)上展示出驚人的性能,包括算術(shù)推理、常識推理甚至具身規(guī)劃。
圖 1:傳統(tǒng)單語言CoT示例 以傳統(tǒng)CoT為例,提供提示 Let's think step by step! 針對英文請求以進行分步推理。最終,LLM通過多步推理給出了相應(yīng)的答案68 years。
1.2 動機
全世界有200多個國家和7000多種語言。隨著全球化的加速,迫切需要將當前的CoT推廣到不同的語言中。盡管零樣本CoT取得了顯著的成功,但其推理能力仍然難以推廣到不同的語言。
圖 2:跨語言CoT示例 與請求的語言和 CoT 輸出相同的傳統(tǒng) CoT 場景不同,跨語言 CoT 要求 LLM 通過提供觸發(fā)語句Let's think in English step by step!。 當前零樣本跨語言推理仍處于一個非常早期的階段,沒有考慮跨語言間的顯式對齊。為了更好地將CoT零樣本地泛化到不同語言上,我們提出了cross-lingual-prompting (CLP),旨在有效地彌合不同語言之間的差距。具體來說,CLP 由兩個部分組成:(1) cross-lingual alignment prompting (CAP) 和(2) task-specific solver prompting (TSP)。在第一步中,CLP首先要求模型逐步地理解英語任務(wù),對齊了不同語言之間的表示。在第二步中,CLP要求模型根據(jù)上一步理解的內(nèi)容逐步地完成最終的任務(wù)。此外,受self-consistency工作的啟發(fā),我們提出了Cross-Lingual Self-consistent Prompting (CLSP),使模型能夠集成不同語言專家的不同推理路徑。 總的來說,簡單而有效的CLP和CLSP方法可以極大地增強跨語言場景的推理能力。
2. Prompting設(shè)計
2.1 CLP設(shè)計
為了激發(fā)LLM的跨語言推理能力,我們引入了跨語言提示(CLP)作為解決方案。具體來說,CLP 由兩個部分組成:(1) cross-lingual alignment prompting (CAP) 和 (2) task-specific solver prompting (TSP)。
圖 3:Cross-Lingual Prompting (CLP) 示意圖
2.1.1 Cross-lingual Alignment Prompting (CAP)
跨語言對齊是跨語言遷移的核心挑戰(zhàn)。因此,為了更好地捕獲對齊信息,我們首先引入了cross-lingual alignment prompting。該prompt的表述如下:
圖 4:跨語言對齊提示 (CAP) 示意圖 具體來說,給定請求句子 X,我們首先要求 LLM 扮演 在多語言理解方面的專家,來理解跨語言問題。此外,對齊提示將從源語言 Ls 到目標語言 Lt 進行逐步地對齊。
2.1.2 Task-specific Solver Prompting (TSP)
實現(xiàn)跨語言對齊后,我們進一步提出task-specific solver prompting 以促進多語言環(huán)境中的多步推理。
圖 5:Task-specific Solver Prompting (TSP) 示意圖 具體來說,給定 目標語言 和從上一步獲得的對齊文本 ,我們提示 LLM 參與解析目標任務(wù)。LLM嘗試根據(jù)之前對齊的跨語言理解進行進一步的多步推理以確定最終結(jié)果。此外,我們提供了一個答案提取的指令來格式化模型的答案,其定義為:
圖 6:答案提取指令示意圖
2.2 CLSP設(shè)計
在我們的研究中,我們觀察到LLM在不同語言中表現(xiàn)出不同的推理路徑。受Self-consistency的啟發(fā),我們提出了一種Cross-lingual Self-consistent Prompting (CLSP) 來整合不同語言的推理知識(如圖7所示)。
圖 7:Cross-lingual Self-consistent Prompting (CLSP) 示意圖 具體來說,對于推理過程中的每個步驟,我們要求LLM以不同的目標語言生成跨語言對齊的回復(fù),并分別在各自目標語言上進行推理。我們通過投票機制保留在推斷推理結(jié)果中表現(xiàn)出高度一致性的答案。然后將這些一致推斷的答案視為最終結(jié)果。
3 主實驗分析
表 1:在MGSM基準上主實驗的推理表現(xiàn) 從表1結(jié)果來看,我們有以下觀察結(jié)果:
GPT-3.5 表現(xiàn)出顯著的跨語言推理優(yōu)勢。在各種設(shè)置下,GPT-3.5 均大幅超越了 PaLM-540B 和 GPT-3 的少樣本結(jié)果。具體來說,與少樣本 PaLM-540B相比,零樣本GPT-3.5實現(xiàn)了 30.3%、2.3%、7.7% 和 14.2%的改進。我們認為是多語言SFT 和 RLHF 技術(shù)帶來了跨語言推理性能的顯著提高。
CLP 實現(xiàn)了最先進的性能。CLP 超越了之前的所有基線,特別是優(yōu)于少樣本的PALM-540B(Translate-En),提高了 16.4%。這一改進不能僅僅歸功于 GPT-3.5,因為CLP 的平均準確度甚至比擁有額外知識的高質(zhì)量機器翻譯(Translate-En) 高 2.2%。這些發(fā)現(xiàn)表明 CLP 超越了原始的文本翻譯,提供了自己的理解,能夠并進一步增強了模型固有的跨語言理解能力。
CLSP 進一步顯著提高了性能。CLSP 在所有語言中都比 CLP 表現(xiàn)出顯著的優(yōu)越性(平均準確率提高了 6.1%)。這一觀察結(jié)果表明,整合不同語言的知識和不同語言間的思考路徑可以有效提高跨語言CoT的推理性能,驗證了CLSP 的有效性。
4 CLP 分析
4.1 CLP能夠擁有更好的推理質(zhì)量
為了進一步研究CLP為何有效,我們采用Roscoe 框架來評估模型思想鏈中推理路徑的質(zhì)量。
圖 8:Native-CoT 和 CLP 的推理路徑質(zhì)量 如圖8所示,我們發(fā)現(xiàn)CLP的推理路徑表現(xiàn)出更高的忠實度,在推理過程中與關(guān)鍵步驟表現(xiàn)出更好的一致性。具體來說,CLP的推理路徑優(yōu)勢可以總結(jié)為:
推理幻覺更少:CLP的推理路徑的Faithfulness得分提高了 1.6%,表明模型更好地理解了問題陳述,并確保了清晰的推理鏈,而不會生成不相關(guān)或誤用的信息,更加可信。
推理更有依據(jù):此外,我們觀察到“Step”和“Chain”的Informativeness指標分別提高了 2.8% 和 2.5%。它表明模型的推理在跨語言對齊之后可以提供更有根據(jù)的推理步驟。
邏輯鏈更完整:此外,CLP 在 Miss-step 指標中也增強了 2.8%,表明模型的推理可以包含完整的邏輯鏈,從而帶來更好的性能。
4.2 二階段交互式提示比單輪提示效果更好
由于之前CLP分為了兩個階段,本節(jié)將探討兩階段交互式提示的有效性。
圖 9:二階段和單輪的CoT效果比較 與兩階段交互式提示(CLP)相比,我們觀察到單輪提示性能平均顯著下降 10.4%。我們認為兩階段的交互提示可以更好地引出LLM強大的對話交互能力,從而提高表現(xiàn)。
4.3 CLP 并不是簡單的翻譯
如表1 所示,我們可以發(fā)現(xiàn)CLP的平均準確率甚至比機器翻譯請求高出2.2%,這表明CLP不是普通翻譯,而是利用了語言之間的語義對齊。 為了進一步了解 CLP 為何比翻譯效果更好,我們隨機選擇了 200 個來自不同語言的樣本進行細粒度探索。首先,我們發(fā)現(xiàn)CLP會自動地采取7種不同的策略,大部分策略一定程度上都對最終的性能做出了貢獻,這證明了CLP的有效性。
表 2:CLP自動使用的策略的占比以及性能影響 此外,我們發(fā)現(xiàn)進一步分解第一階段有助于改進。將第 1 階段的行動分解為 2-4 個策略可以顯著提高性能(至少 6.45%)。例如,通過將對齊過程分解為“問題重述”和“解決初步解決”,就可以獲得優(yōu)異的性能,達到 64.71%(與 Native-CoT 相比提高了 11.77%)。
4.4 Prompt的選擇如何影響CLP?
我們利用不同的表述的跨語言對齊提示以驗證CLP零樣本跨語言CoT的魯棒性。表3說明了 4 種意思相同但表述不同的跨語言對齊提示的性能。
表 3:不同表述的CAP對CLP的影響分析 實驗結(jié)果表明,雖然AVG Acc. 存在一定的波動(最大差異超過4%)。但所有跨語言對齊提示相比En-CoT仍然可以提高性能。這進一步驗證了CLP的有效性。
4.5 CLP的泛化性分析
為了進一步研究我們工作的通用性,我們從兩個方面驗證CLP的泛化性:
圖 10:在其他多語言數(shù)據(jù)集上的準確率表現(xiàn)
CLP 在其他多語言基準上效果優(yōu)異。我們在其他廣泛使用的多語言推理數(shù)據(jù)集(即 XNLI 和 PAWS-X)上進行了實驗。從表4中的結(jié)果來看,我們觀察到 CLP 在大多數(shù)語言中都可以獲得更好的性能。與En-CoT相比,我們觀察到 XNLI 的平均改進為 3.1%,PAWS-X 的平均改進為 4.5%。
表 4:在其他開源/較小的LLM上的準確率表現(xiàn)
CLP 在其他 LLM 上表現(xiàn)優(yōu)異。為了更好地理解模型泛化,我們在具有較小 LLM 的 XCOPA 上進行了實驗。實驗結(jié)果(如表X所示)表明,在較小的法學(xué)碩士上,CLP 與 En-CoT 相比至少實現(xiàn)了 6.8% 的改進。
4.6 CLP能夠通過上下文學(xué)習(xí)策略進一步提升
近年來,上下文學(xué)習(xí)(ICL)取得了驚人的結(jié)果,為了進一步探索 CLP 在 ICL 框架內(nèi)的效果,我們進行了一系列實驗。對實證結(jié)果的后續(xù)分析得出以下觀察結(jié)果(實驗在1000條抽樣結(jié)果上進行):
表 5:CLP各個階段在ICL設(shè)置下的表現(xiàn)
在CAP中使用 ICL 可以顯著提高推理性能。如表5所示,CLP 比 MGSM 上的零樣本設(shè)置表現(xiàn)出顯著的 6.9% 改進。這進一步強調(diào)了我們的方法作為即插即用模塊的優(yōu)勢,與 ICL 方法正交,以提高性能。
在TSP中使用 ICL 可以進一步提高推理性能。如表5所示,結(jié)果顯示,在 Task-specific Solver Prompting (TSP) 中結(jié)合 Complex-CoT時,性能額外提高了 1.1%。與其他 CoT 優(yōu)化方法相比,這進一步鞏固了我們的方法的獨特性,強調(diào)了其適應(yīng)性以及為下游 CoT 推理技術(shù)提供更廣泛支持的能力。
CAP階段的示例選擇起著關(guān)鍵作用。我們對ICL策略的各種組合進行了實驗。如表5所示,如果依賴單一策略,則模型的平均性能顯著下降至63.5%,甚至遠低于零樣本的效果。相反,當在少樣本示例中采用更多樣化的策略時,模型的性能顯示出顯著的改進,達到 75.9%。它表明更多樣化的策略樣本可以帶來更好的性能提升。
表 6:在示例中不同對齊策略數(shù)量對準確率的影響(策略按照表2中的占比從大到小選?。?/p>
5. CLSP Analysis
5.1 CLSP 超越了原始的Self-consistency
為了驗證 CLSP 的有效性,我們對原始的Self-consistency(VSC)進行了實驗。原始的Self-consistency 是指利用不同Temperature生成多條推理路徑,并通過投票的方式確定最終的答案。如圖11所示,與VSC相比,CLSP平均提高了大約 4.5%,驗證了CLSP的有效性。
圖 11:CLSP和VSC在MGSM上各個語言的準確率表現(xiàn) 此外,我們嘗試探索 CLSP 為何有效。我們使用所有正確的預(yù)測結(jié)果和手動注釋的 CoT 推理路徑來評估跨語言 CoT 推理路徑(包括 CLSP 和 VSC)之間的對齊分數(shù)。
圖 12:CLSP和VSC的不同的推理路徑與標準推理路徑的對齊分數(shù) 如圖12所示,CLSP生成的對齊分數(shù)的方差明顯高于VSC。它表明 CLSP 更好地集成了語言知識,從而提高了最終的跨語言 CoT 性能。
5.2 集成更多的語言并不能帶來更多的提升
一個自然出現(xiàn)的問題是,“在CLSP中集成大量語言是否會帶來更好的整體表現(xiàn)?”為了回答這個問題,我們探討了CoT表現(xiàn)與集成的語言數(shù)量之間的關(guān)系。
圖 13:Common Crawl 2021數(shù)據(jù)集語言分布 一些研究表明LLM的表現(xiàn)與每種語言的預(yù)訓(xùn)練數(shù)據(jù)比例高度相關(guān)。因此,我們檢查了廣泛使用的多語言預(yù)訓(xùn)練數(shù)據(jù)集 Common Crawl 2021 中的語言分布(如圖13所示)。
圖 14:集成語言數(shù)量對最終性能的影響 根據(jù)比例,我們按照語言的降序和升序逐步整合每種語言。各自的比例。圖14中的結(jié)果表明,在高資源設(shè)置中,隨著添加更多語言,性能會提高。然而,當合并低資源語言時,性能會隨著語言數(shù)量的增加而下降。 這些發(fā)現(xiàn)表明,語言整合的有效性不僅僅取決于整合的語言數(shù)量。每種語言的預(yù)訓(xùn)練數(shù)據(jù)量,尤其是高資源語言,起著至關(guān)重要的作用??紤]到可用資源和影響,平衡多種語言至關(guān)重要。
5.3 CLSP泛化性研究
為了進一步驗證 CLSP 的有效性,我們在 XCOPA 數(shù)據(jù)集上進行了實驗,這是一個廣泛采用的基準,用于評估 11 種不同語言的常識推理技能。
表 7:XCOPA上CLSP的表現(xiàn) 正如表7 中所示的結(jié)果所示,與基線相比,我們觀察到 CLP 性能平均顯著提高了 4.7%。此外,與 CLP 相比,CLSP 的性能進一步提高了 7.4%。這些結(jié)果表明,除了在數(shù)學(xué)推理方面表現(xiàn)出色之外,CLSP 在解決常識推理任務(wù)方面也表現(xiàn)出顯著的有效性。
6. 結(jié)論
在這項工作中,我們引入了跨語言思維鏈的Cross-lingual Prompting (CLP)。具體來說,CLP 由 cross-lingual alignment prompting 和 task-specific solver prompting 組成,用于跨語言對齊表示并在跨語言設(shè)置中生成最終推理路徑。
此外,我們提出了Cross-Lingual Self-consistent Prompting (CLSP)來有效利用跨語言的知識,這進一步提高了 CLP 的性能。
大量實驗表明,CLP 和 CLSP 在跨語言 CoT 中都能取得良好的性能。
歡迎感興趣的同學(xué)閱讀我們的論文,對于cross-lingual alignment prompting中不同策略的思考,該問題對跨語言的相關(guān)研究是非常有價值的。
-
CLP
+關(guān)注
關(guān)注
0文章
5瀏覽量
7114 -
模型
+關(guān)注
關(guān)注
1文章
3112瀏覽量
48658 -
機器翻譯
+關(guān)注
關(guān)注
0文章
139瀏覽量
14862
原文標題:6. 結(jié)論
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論