0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于e-CARE的因果推理相關(guān)任務(wù)

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:哈工大SCIR ? 作者:哈工大SCIR ? 2022-05-16 16:21 ? 次閱讀

論文名稱:e-CARE: a New Dataset for Exploring Explainable Causal Reasoning

論文作者:杜理,丁效,熊凱,劉挺,秦兵原創(chuàng)作者:杜理出處:哈工大SCIR

1. 簡(jiǎn)介

因果推理是人類的一項(xiàng)核心認(rèn)知能力。借助因果推理能力,人類得以理解已觀測(cè)到的各種現(xiàn)象,并預(yù)測(cè)將來(lái)可能發(fā)生的事件。然而,盡管當(dāng)下的各類因果推理模型已經(jīng)在現(xiàn)有的因果推理數(shù)據(jù)集上取得了令人印象深刻的性能,然而,這些模型與人類的因果推理能力相比仍存在顯著差距。

造成這種差距的原因之一在于,當(dāng)下的因果推理模型往往僅能夠從數(shù)據(jù)中捕獲到經(jīng)驗(yàn)性的因果模式,但是人類則能夠進(jìn)一步追求于對(duì)于因果關(guān)系的相對(duì)抽象的深入理解。如圖1中例子所示,當(dāng)觀察到原因事件: 將石頭加入鹽酸造成結(jié)果:石頭溶解 之后,人類往往不會(huì)停留在經(jīng)驗(yàn)性地觀察現(xiàn)象這一層面,而會(huì)進(jìn)一步深入思考,為什么這一現(xiàn)象能夠存在?通過(guò)種種手段,最終得到一個(gè)概念性的解釋,即酸具有腐蝕性。值得注意的是,這一對(duì)于因果現(xiàn)象的概念性解釋是超越具體的現(xiàn)象本身,能夠解釋一系列相關(guān)現(xiàn)象的。借助此類解釋信息,模型將可能產(chǎn)生對(duì)于因果命題的更加深入的理解。

雖然這種概念性解釋在因果推理過(guò)程中具有相當(dāng)?shù)闹匾裕竦囊蚬评頂?shù)據(jù)集中尚未具備這一信息以支撐訓(xùn)練更強(qiáng)的、更接近人類表現(xiàn)的因果推理模型。為此,我們提供了一個(gè)人工標(biāo)注的可解釋因果推理數(shù)據(jù)集( explainable CAusal REasoning dataset, e-CARE)。e-CARE數(shù)據(jù)集包含超過(guò)2萬(wàn)個(gè)因果推理問(wèn)題,這使得e-CARE成為目前最大的因果推理數(shù)據(jù)集。并且對(duì)于每個(gè)因果推理問(wèn)題,提供了一個(gè)自然語(yǔ)言描述的,有關(guān)于因果關(guān)系為何能夠成立的解釋。下表提供了一個(gè)e-CARE數(shù)據(jù)集的例子。

依托于e-CARE數(shù)據(jù)集,在傳統(tǒng)的多項(xiàng)選擇式的因果推理任務(wù)之外,我們還進(jìn)一步提出了一個(gè)因果解釋生成任務(wù),即給定一個(gè)因果事件對(duì),模型需要為這個(gè)因果事件對(duì)生成合理的解釋,并提出了一個(gè)新指標(biāo)衡量解釋生成的質(zhì)量。

Key Value
Premise Tom holds a copper block by hand and heats it on fire.
Ask-for Effect
Hypothesis 1 His fingers feel burnt immediately. ()
Hypothesis 2 The copper block keeps the same. ()
Conceptual Explanation Copper is a good thermal conductor.

2. 基于e-CARE的因果推理相關(guān)任務(wù)

基于e-CARE數(shù)據(jù)集,我們提出了兩個(gè)任務(wù)以評(píng)價(jià)模型因果推理能力:

  1. 因果推理任務(wù)
  2. 解釋生成任務(wù)

2.1 因果推理:

這一任務(wù)要求模型從給定的兩個(gè)候選hypothesis中選出一個(gè),使得其與給定的premise構(gòu)成一個(gè)合理的因果事實(shí)。例如,如下例所示,給定premise "Tom holds a copper block by hand and heats it on fire.", hypothesis 1 "His fingers feel burnt immediately."能夠與給定premise構(gòu)成合理的因果事件對(duì)。

{
"index":"train-0",
"premise":"Tomholdsacopperblockbyhandandheatsitonfire.",
"ask-for":"effect",
"hypothesis1":"Hisfingersfeelburntimmediately.",
"hypothesis2":"Thecopperblockkeepsthesame.",
"label":1
}

2.2 解釋生成:

這一任務(wù)要求模型為給定的由<原因,結(jié)果>構(gòu)成的因果事件對(duì)生成一個(gè)合理解釋,以解釋為何該因果事件對(duì)能夠存在。例如, 給定因果事件對(duì)<原因: Tom holds a copper block by hand and heats it on fire. 結(jié)果: His fingers feel burnt immediately.>, 模型需要生成一個(gè)合理的解釋,如"Copper is a good thermal conductor."。

{
"index":"train-0",
"cause":"Tomholdsacopperblockbyhandandheatsitonfire.",
"effect":"Hisfingersfeelburntimmediately.",
"conceptual_explanation":"Copperisagoodthermalconductor."
}

3. 數(shù)據(jù)集統(tǒng)計(jì)信息

  • 問(wèn)題類型分布
Ask-for Train Test Dev Total
Cause 7,617 2,176 1,088 10881
Effect 7,311 2,088 1,044 10443
Total 14,928 4,264 2,132 21324
  • 解釋信息數(shù)量
Overall Train Test Dev
13048 10491 3814 2012

4. 解釋生成質(zhì)量評(píng)價(jià)指標(biāo)CEQ Score

當(dāng)用于評(píng)價(jià)解釋生成的質(zhì)量時(shí),經(jīng)典的生成質(zhì)量自動(dòng)評(píng)價(jià)指標(biāo),如BLEU,Rough等僅從自動(dòng)生成的解釋與給定的人工標(biāo)注的解釋的文本或語(yǔ)義相似度來(lái)評(píng)判解釋生成的質(zhì)量。但是,理想的解釋生成質(zhì)量評(píng)價(jià)指標(biāo)需要能夠直接評(píng)價(jià)自動(dòng)生成的解釋是否恰當(dāng)?shù)亟忉屃私o定的因果事實(shí)。為此,我們提出了一個(gè)新的解釋生成質(zhì)量評(píng)價(jià)指標(biāo)CEQ Score (Causal Explanation Quality Score)。

簡(jiǎn)言之,一個(gè)合理的解釋,需要能夠幫助預(yù)測(cè)模型更好理解因果事實(shí),從而更加合理準(zhǔn)確地預(yù)測(cè)給定事實(shí)的因果強(qiáng)度。其中因果強(qiáng)度是一個(gè)[0,1]之間的數(shù)值,衡量給定因果事實(shí)的合理性。因此,對(duì)于確證合理的因果事實(shí),其因果強(qiáng)度應(yīng)該等于1.

因此,我們可以通過(guò)衡量生成的解釋能夠?yàn)橐蚬麖?qiáng)度的度量帶來(lái)何種程度的增益,來(lái)衡量解釋生成的質(zhì)量。因此,我們將CEQ定義為:

756fe008-d460-11ec-bce3-dac502259ad0.png

其中,和分別是原因與結(jié)果,是因果強(qiáng)度預(yù)測(cè)模型度量的原始的因果強(qiáng)度,是給定解釋后,因果預(yù)測(cè)模型給出的因果強(qiáng)度。

值得注意的是,這一指標(biāo)依賴于具體的因果強(qiáng)度預(yù)測(cè)方式的選取,以及如何將解釋信息融入因果強(qiáng)度預(yù)測(cè)過(guò)程。在本文中,我們選擇基于統(tǒng)計(jì)的、不依賴具體模型的因果強(qiáng)度預(yù)測(cè)方式CausalNet[5]。CausalNet能夠依賴大語(yǔ)料上的統(tǒng)計(jì)信息,得到給定原因與結(jié)果間的因果強(qiáng)度。而為將解釋信息融因果強(qiáng)度預(yù)測(cè)過(guò)程以得到,我們定義(其中+為字符串拼接操作):

7581f644-d460-11ec-bce3-dac502259ad0.png

5. 數(shù)據(jù)集下載與模型性能評(píng)價(jià)

5.1 數(shù)據(jù)集下載

模型的訓(xùn)練與開(kāi)發(fā)集可在以下鏈接下載: https://github.com/Waste-Wood/e-CARE/files/8242580/e-CARE.zip

5.2 模型性能評(píng)測(cè)

為提升方法結(jié)果的可比性,我們提供了leaderboard用以評(píng)測(cè)模型性能:https://scir-sp.github.io/

6. 實(shí)驗(yàn)結(jié)果

6.1 因果推理

表1 因果推理實(shí)驗(yàn)結(jié)果

75979e68-d460-11ec-bce3-dac502259ad0.png

針對(duì)多項(xiàng)選擇式的因果推理任務(wù),我們利用一系列預(yù)訓(xùn)練語(yǔ)言模型(均為base-sized版本)進(jìn)行了實(shí)驗(yàn)。我們使用準(zhǔn)確率衡量模型性能。其中,ALBERT取得了最高性能,但是和人類表現(xiàn)(92%)仍有較大差距。這顯示e-CARE所提供的因果推理任務(wù)仍為一相對(duì)具有挑戰(zhàn)性的任務(wù)。

6.2 解釋生成

表2 解釋生成實(shí)驗(yàn)結(jié)果

75b66c12-d460-11ec-bce3-dac502259ad0.png

為測(cè)試模型在給定因果事實(shí)后生成合理的解釋的能力,我們利用經(jīng)典的GRU-Seq2Seq模型以及GPT2進(jìn)行了解釋生成實(shí)驗(yàn)。其中,我們使用自動(dòng)評(píng)價(jià)指標(biāo)AVG-BLEU、ROUGH-l、PPL,以及人工評(píng)價(jià)衡量生成質(zhì)量。由表2可得,雖然相比于GRU-Seq-Seq,GPT2性能有明顯提高,但是和人類生成的解釋質(zhì)量相比仍存在巨大差距,尤其在人工評(píng)價(jià)指標(biāo)上。這顯示,深度理解因果事實(shí),并為此生成合理解釋仍是相當(dāng)具有挑戰(zhàn)性的任務(wù)。而無(wú)法深度理解因果事實(shí)也可能是阻礙當(dāng)前的因果推理模型性能進(jìn)一步提高的主要因素之一。另一方面,這也一定程度顯示所提出的解釋生成質(zhì)量評(píng)價(jià)指標(biāo)CEQ的合理性。

7. 潛在研究方向

7.1 作為因果知識(shí)庫(kù)

因果知識(shí)對(duì)于多種NLP任務(wù)具有重要意義。因此,e-CARE中包含的因果知識(shí)可能能夠提升因果相關(guān)任務(wù)上的模型性能。為了驗(yàn)證這一點(diǎn),我們首先在e-CARE上微調(diào)了e-CARE模型,并將微調(diào)后的模型(記作BERTE)分別 遷移至因果抽取數(shù)據(jù)集EventStoryLine[1]、兩個(gè)因果推理數(shù)據(jù)集BECauSE 2.0[2]和COPA[3],和一個(gè)常識(shí)推理數(shù)據(jù)集CommonsenseQA[4]上,并觀察模型性能。如下表所示,e-CARE微調(diào)后的模型在四個(gè)因果相關(guān)任務(wù)上均表現(xiàn)出了更好性能。這顯示e-CARE能夠提供因果知識(shí)以支撐相關(guān)任務(wù)上的性能。

75d5ae60-d460-11ec-bce3-dac502259ad0.png

表3 知識(shí)遷移實(shí)驗(yàn)結(jié)果

7.2 支持溯因推理

前期研究將解釋生成過(guò)程總結(jié)為一個(gè)溯因推理過(guò)程。并強(qiáng)調(diào)了溯因式的解釋生成的重要性,因?yàn)樗梢耘c因果推理過(guò)程相互作用,促進(jìn)對(duì)因果機(jī)制的理解,提高因果推理的效率和可靠性。

例如,如下圖所示,人們可能會(huì)觀察到 C1: 將巖石加入鹽酸中 導(dǎo)致 E1: 巖石溶解。通過(guò)溯因推理,人們可能會(huì)為上述觀察提出一個(gè)概念性解釋,即酸具有腐蝕性。之后,可以通過(guò)實(shí)驗(yàn)驗(yàn)證,或者外部資料來(lái)確認(rèn)或糾正解釋。通過(guò)這種方式,關(guān)于因果關(guān)系的知識(shí)可以被引入到因果推理過(guò)程中。如果解釋得到證實(shí),它可以通過(guò)幫助解釋和驗(yàn)證其他相關(guān)的因果事實(shí),來(lái)進(jìn)一步用于支持因果推理過(guò)程,例如 C2:將鐵銹加入硫酸可能導(dǎo)致 E2:鐵銹溶解。這顯示了概念解釋在學(xué)習(xí)和推斷因果關(guān)系中的關(guān)鍵作用,以及 e-CARE 數(shù)據(jù)集在提供因果解釋并支持未來(lái)對(duì)更強(qiáng)大的因果推理系統(tǒng)的研究中可能具有的意義。

76396a90-d460-11ec-bce3-dac502259ad0.png

圖1 溯因推理與因果推理關(guān)系示意圖

8. 結(jié)論

本文關(guān)注于因果推理問(wèn)題中的可解釋性。針對(duì)這一點(diǎn),本文標(biāo)注了一個(gè)可解釋因果推理數(shù)據(jù)集e-CARE,這一數(shù)據(jù)集包含21K因果推理問(wèn)題,并為每個(gè)問(wèn)題提供了一個(gè)解釋因果關(guān)系為何能夠成立的自然語(yǔ)言形式的解釋。依托于這一數(shù)據(jù)集,我們進(jìn)一步提出了一個(gè)因果推理和一個(gè)因果生成任務(wù)。實(shí)驗(yàn)顯示,當(dāng)前的預(yù)訓(xùn)練語(yǔ)言模型在這兩個(gè)任務(wù)上仍面臨較大困難。

歡迎大家共同推動(dòng)因果推理領(lǐng)域的研究進(jìn)展!

原文標(biāo)題:ACL'22 | e-CARE: 可解釋的因果推理數(shù)據(jù)集

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

審核編輯:湯梓紅
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 推理
    +關(guān)注

    關(guān)注

    0

    文章

    8

    瀏覽量

    7257
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1200

    瀏覽量

    24621

原文標(biāo)題:ACL'22 | e-CARE: 可解釋的因果推理數(shù)據(jù)集

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    定時(shí)器技術(shù):Air780E如何革新定時(shí)任務(wù)管理?

    今天講的是關(guān)于Air780E如何革新定時(shí)任務(wù)管理的內(nèi)容,希望大家有所收獲。
    的頭像 發(fā)表于 11-07 13:50 ?84次閱讀
    定時(shí)器技術(shù):Air780<b class='flag-5'>E</b>如何革新定時(shí)<b class='flag-5'>任務(wù)</b>管理?

    FPGA和ASIC在大模型推理加速中的應(yīng)用

    隨著現(xiàn)在AI的快速發(fā)展,使用FPGA和ASIC進(jìn)行推理加速的研究也越來(lái)越多,從目前的市場(chǎng)來(lái)說(shuō),有些公司已經(jīng)有了專門(mén)做推理的ASIC,像Groq的LPU,專門(mén)針對(duì)大語(yǔ)言模型的推理做了優(yōu)化,因此相比GPU這種通過(guò)計(jì)算平臺(tái),功耗更低、
    的頭像 發(fā)表于 10-29 14:12 ?156次閱讀
    FPGA和ASIC在大模型<b class='flag-5'>推理</b>加速中的應(yīng)用

    NVIDIA助力麗蟾科技打造AI訓(xùn)練與推理加速解決方案

    麗蟾科技通過(guò) Leaper 資源管理平臺(tái)集成 NVIDIA AI Enterprise,為企業(yè)和科研機(jī)構(gòu)提供了一套高效、靈活的 AI 訓(xùn)練與推理加速解決方案。無(wú)論是在復(fù)雜的 AI 開(kāi)發(fā)任務(wù)中,還是在高并發(fā)推理場(chǎng)景下,都能夠確保項(xiàng)
    的頭像 發(fā)表于 10-27 10:03 ?142次閱讀
    NVIDIA助力麗蟾科技打造AI訓(xùn)練與<b class='flag-5'>推理</b>加速解決方案

    【飛凌嵌入式OK3576-C開(kāi)發(fā)板體驗(yàn)】rkllm板端推理

    /to/rkllm_model 通過(guò)以上步驟,即可在開(kāi)發(fā)板上正常啟動(dòng)推理任務(wù)。執(zhí)行結(jié)果如下: 可以看到模型能夠正常進(jìn)行推理,但是0.5B參數(shù)量的模型推理結(jié)果還差強(qiáng)人意。
    發(fā)表于 08-31 22:45

    當(dāng)系統(tǒng)鬧脾氣:用「因果推斷」哄穩(wěn)技術(shù)的心

    背景 系統(tǒng)穩(wěn)定性問(wèn)題往往涉及復(fù)雜的因果關(guān)系。例如,一個(gè)系統(tǒng)的崩潰可能由多個(gè)因素引起,包括硬件故障、軟件bug、業(yè)務(wù)配置、外部攻擊或其他操作不當(dāng)?shù)?。理解這些因素之間的因果關(guān)系對(duì)于系統(tǒng)穩(wěn)定性建設(shè)至關(guān)重要
    的頭像 發(fā)表于 08-14 10:42 ?217次閱讀
    當(dāng)系統(tǒng)鬧脾氣:用「<b class='flag-5'>因果</b>推斷」哄穩(wěn)技術(shù)的心

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語(yǔ)言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)時(shí)的效率和響應(yīng)速度。以下是對(duì)LLM大模型推理加速關(guān)鍵技術(shù)的詳細(xì)探討,內(nèi)容將涵蓋模型壓縮、解碼方法優(yōu)化、底層優(yōu)化、分布式并行
    的頭像 發(fā)表于 07-24 11:38 ?724次閱讀

    如何加速大語(yǔ)言模型推理

    的主要挑戰(zhàn)。本文將從多個(gè)維度深入探討如何加速大語(yǔ)言模型的推理過(guò)程,以期為相關(guān)領(lǐng)域的研究者和開(kāi)發(fā)者提供參考。
    的頭像 發(fā)表于 07-04 17:32 ?448次閱讀

    【大語(yǔ)言模型:原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

    能力,使其能夠應(yīng)對(duì)更復(fù)雜和抽象的語(yǔ)言任務(wù)。神經(jīng)網(wǎng)絡(luò)的前向傳播和反向傳播算法是其核心技術(shù)。前向傳播中,模型根據(jù)輸入文本的上下文和先前知識(shí)生成相關(guān)輸出;而在反向傳播中,模型通過(guò)調(diào)整參數(shù)使輸出更接近預(yù)期結(jié)果
    發(fā)表于 05-04 23:55

    深度探討VLMs距離視覺(jué)演繹推理還有多遠(yuǎn)?

    通用大型語(yǔ)言模型(LLM)推理基準(zhǔn):研究者們介紹了多種基于文本的推理任務(wù)和基準(zhǔn),用于評(píng)估LLMs在不同領(lǐng)域(如常識(shí)、數(shù)學(xué)推理、常識(shí)推理、事實(shí)
    發(fā)表于 03-19 14:32 ?325次閱讀
    深度探討VLMs距離視覺(jué)演繹<b class='flag-5'>推理</b>還有多遠(yuǎn)?

    基于LLM的表格數(shù)據(jù)的大模型推理綜述

    面向表格數(shù)據(jù)的推理任務(wù),在計(jì)算機(jī)領(lǐng)域,特別是自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域的研究中扮演著重要角色[1]。該任務(wù)要求模型在給定一個(gè)或多個(gè)表格的情況下,按照
    發(fā)表于 01-08 09:56 ?1479次閱讀
    基于LLM的表格數(shù)據(jù)的大模型<b class='flag-5'>推理</b>綜述

    ChatGPT是一個(gè)好的因果推理器嗎?

    因果推理能力對(duì)于許多自然語(yǔ)言處理(NLP)應(yīng)用至關(guān)重要。最近的因果推理系統(tǒng)主要基于經(jīng)過(guò)微調(diào)的預(yù)訓(xùn)練語(yǔ)言模型(PLMs),如BERT [1] 和RoBERTa [2]。
    的頭像 發(fā)表于 01-03 09:55 ?797次閱讀
    ChatGPT是一個(gè)好的<b class='flag-5'>因果</b><b class='flag-5'>推理</b>器嗎?

    HarmonyOS:使用MindSpore Lite引擎進(jìn)行模型推理

    的通用開(kāi)發(fā)流程中涉及的一些接口,具體請(qǐng)見(jiàn)下列表格。 Context 相關(guān)接口 Model 相關(guān)接口 Tensor 相關(guān)接口 開(kāi)發(fā)步驟 使用 MindSpore Lite 進(jìn)行模型推理
    發(fā)表于 12-14 11:41

    基于大語(yǔ)言模型辯論的多智能體協(xié)作推理分析

    具體來(lái)說(shuō),我們以多項(xiàng)選擇的常識(shí)推理作為示例任務(wù),因?yàn)槌WR(shí)推理任務(wù)是一類可能性 (plausible) 的任務(wù),每個(gè)答案都是可能成立的,只是正
    的頭像 發(fā)表于 11-29 15:45 ?1191次閱讀
    基于大語(yǔ)言模型辯論的多智能體協(xié)作<b class='flag-5'>推理</b>分析

    澎峰科技發(fā)布大模型推理引擎PerfXLLM

    要的巨額開(kāi)銷也引發(fā)了相關(guān)研究者的關(guān)注。如何高效地進(jìn)行推理,并盡可能地減少成本,從而促進(jìn)大模型應(yīng)用的落地成為了目前的關(guān)鍵問(wèn)題。 于是,澎峰科技研發(fā)了一款 大模型推理引擎—PerfXLLM ,并且已經(jīng)在 高通的 驍龍8Gen2 平臺(tái)
    的頭像 發(fā)表于 11-25 15:35 ?1029次閱讀
    澎峰科技發(fā)布大模型<b class='flag-5'>推理</b>引擎PerfXLLM

    大型語(yǔ)言模型的邏輯推理能力探究

    最新研究揭示,盡管大語(yǔ)言模型LLMs在語(yǔ)言理解上表現(xiàn)出色,但在邏輯推理方面仍有待提高。為此,研究者們推出了GLoRE,一個(gè)全新的邏輯推理評(píng)估基準(zhǔn),包含12個(gè)數(shù)據(jù)集,覆蓋三大任務(wù)類型。
    的頭像 發(fā)表于 11-23 15:05 ?912次閱讀
    大型語(yǔ)言模型的邏輯<b class='flag-5'>推理</b>能力探究