久久久久精品国产AV麻豆,一到久高清无码免费,亚洲理论电影在线观看

作者：wkk

就像人類在做一件事情的時候，可能需要嘗試多次。LLM也是如此！這對于情感分析任務(wù)尤其如此，在情感分析任務(wù)中，LLM需要深入推理來處理輸入中的復(fù)雜語言現(xiàn)象（例如，從句組成、反諷等），單個LLM生成的單回合輸出可能無法提供完美的決策。

今天介紹的論文工作就上面提到的單一LLM框架在進(jìn)行情感分析時的缺陷展開。

在博士畢業(yè)就有10篇ACL一作的師兄指導(dǎo)下是種什么體驗

簡介

LLM的發(fā)展為情感分析任務(wù)帶來的新的解決方案。有研究人員使用LLM，在上下文學(xué)習(xí)(in-context learning, ICL)的范式下，僅使用少量的訓(xùn)練示例就能夠?qū)崿F(xiàn)與監(jiān)督學(xué)習(xí)策略旗鼓相當(dāng)?shù)男阅鼙憩F(xiàn)。

缺點(diǎn)：但是單個LLM產(chǎn)生的單輪輸出可能無法提供完美的決策。針對情感分析任務(wù)，LLM通常需要闡明推理過程，以解決輸入句子中的復(fù)雜語言現(xiàn)象。

創(chuàng)新：為了解決這個問題，本文提出了一種用于情感分析的多LLM協(xié)商策略。所提出的策略的核心是生成器-鑒別器框架，其中一個LLM充當(dāng)生成器做出情感決策，而另一個充當(dāng)鑒別器，任務(wù)是評估第一個LLM生成的輸出的可信度。如下圖所示。

具體步驟：

推理生成器：一種LLM，它遵循結(jié)構(gòu)化的推理鏈，增強(qiáng)生成器的ICL，同時為鑒別器提供評估其有效性的證據(jù)和見解；

推導(dǎo)鑒別器的解釋；其他LLM，旨在為其判斷提供評估后的理由；

協(xié)商：兩個LLM充當(dāng)生成器和鑒別器的角色，執(zhí)行協(xié)商直到達(dá)成共識。

在情感分析基準(zhǔn)上的實驗表明，在所有基準(zhǔn)中，所提出的算法始終比ICL基準(zhǔn)產(chǎn)生更好的性能，甚至比Twitter和電影評論數(shù)據(jù)集上的監(jiān)督基線更出色的性能。

相關(guān)工作

情感分析

情感分析是自然語言處理的熱門研究方向之一。其研究方法和思路由早期的“序列模型+分類器”演化到ICL，并逐漸成為一種新的NLP任務(wù)范式。研究人員發(fā)現(xiàn)在二分類的情感分析中，ICL取得了出色的性能。然而在一些更加復(fù)雜的任務(wù)(如方面級情感分析)中，ICL的表現(xiàn)不如監(jiān)督基線模型。

LLM and In-context Learning

LLM訓(xùn)練來自大規(guī)模的未標(biāo)注語料庫。LLM可以劃分為三類：only Encoder，only Decoder and Encoder-Decoder模型。從GPT3.0開始，LLM通過ICL在許多自然語言處理任務(wù)中展現(xiàn)出了出色的性能。

LLM協(xié)作

LLM協(xié)作涉及多個LLM協(xié)同工作以解決給定任務(wù)。具體來說，任務(wù)被分解為幾個中間任務(wù)，每個LLM被分配獨(dú)立完成一個中間任務(wù)。給定的任務(wù)是在對這些中間結(jié)果進(jìn)行集成或匯總后解決的。LLM協(xié)作方法可以利用LLM的能力，提高復(fù)雜任務(wù)的性能，并能夠構(gòu)建復(fù)雜的系統(tǒng)。

LLM情感分析協(xié)商

使用兩個LLM充當(dāng)答案生成器和鑒別器。將生成器和鑒別器之間的交互稱為協(xié)商。協(xié)商將重復(fù)進(jìn)行，直到達(dá)成共識或超過最大協(xié)商次數(shù)。圖示如下圖所示。

生成器

生成器由一個LLM扮演。通過提示詢問基于ICL范式的答案生成器，旨在生成一個循序漸進(jìn)的推理鏈，并對測試輸入的情緒極性做出決定。提示由三個元素組成：任務(wù)描述、演示和測試輸入。任務(wù)描述是用自然語言對任務(wù)的描述（如，“請確定測試輸入的整體情感傾向。”）；測試輸入是測試集中的文本輸入（例如，“天空是藍(lán)色的”）；演示是從訓(xùn)練中完成的任務(wù)。每一個都包含三個元素：輸入、推理鏈和情感決策。對于每個測試輸入，首先從訓(xùn)練集中檢索K nearest鄰居作為演示。然后，我們通過提示生成器生成推理鏈，將演示轉(zhuǎn)換為（輸入、推理過程、情緒決策）三元組。在連接任務(wù)描述、演示和測試輸入后，將提示轉(zhuǎn)發(fā)給生成器，生成器將以逐步推理鏈和情感決策作為響應(yīng)。

鑒別器

鑒別器則是由另一個LLM扮演。在完成答案生成過程后，使用答案鑒別器來判斷生成器所做的決定是否正確，并提供合理的解釋。為了實現(xiàn)這個目標(biāo)，首先為答案鑒別器構(gòu)造提示。提示由四個元素組成：任務(wù)描述、演示、測試輸入和來自答案生成器的響應(yīng)。任務(wù)描述是一段用自然語言描述任務(wù)的文本（例如，“請確定決策是否正確?！埃?。每個演示由六個元素組成：（輸入文本、推理鏈、情感決策、鑒別者態(tài)度、鑒別器解釋、鑒別器決策）并且通過提示回答鑒別器提供為什么情緒決定對于輸入文本是正確的解釋來構(gòu)造。然后使用構(gòu)造提示詢問鑒別器。答案鑒別器將用文本字符串進(jìn)行響應(yīng)，該文本字符串包含表示鑒別器是否同意生成器的態(tài)度（即，是，否）、解釋鑒別器為什么同意/不同意生成器的解釋，以及確定測試輸入情緒的鑒別器決定。

Why Two LLMs but Not One?

本文工作為何使用兩個不同的LLM分別扮演生成器和鑒別器的原因：

如果LLM由于錯誤的推理而作為生成器出錯，它更有可能也會犯與鑒別器相同的錯誤，因為來自同一模型的生成器和鑒別器很可能會犯類似的理由；

通過使用兩個獨(dú)立的模型，能夠利用這兩個模型的互補(bǔ)能力。

角色轉(zhuǎn)換

在兩個LLM以協(xié)商結(jié)束后，要求它們轉(zhuǎn)換角色并啟動新的協(xié)商，其中第二個LLM充當(dāng)生成器，第一個LLM用作鑒別器。同樣，角色轉(zhuǎn)換協(xié)商也會結(jié)束，直到達(dá)成共識或超過最大協(xié)商次數(shù)。當(dāng)兩次協(xié)商達(dá)成協(xié)議，并且他們的決定相同時，選擇其中一個決定作為最終決定，因為它們是相同的。如果一個協(xié)商未能達(dá)成共識，而另一個協(xié)商達(dá)成決定，將從達(dá)成共識的協(xié)商中選擇一個決定作為最終決定。然而，如果雙方協(xié)商達(dá)成共識，但雙方的決定不一致，將需要額外的LLM幫助。

引入第三個LLM

如果兩次協(xié)商的決定不一致，將引入第三個LLM，并與上述兩個LLM中的每一個進(jìn)行協(xié)商和角色轉(zhuǎn)換協(xié)商。隨后，將得到6個協(xié)商結(jié)果，并對這些結(jié)果進(jìn)行投票：將最頻繁出現(xiàn)的決策作為輸入測試的情感極性。

實驗

實驗選擇GPT3.5和GPT4.0作為骨干，并且使用以下三種不同的ICL方法。

Vanilla ICL

Self-Negotiation

Negotiation with two LLMs

Dataset and methods

本文在六個數(shù)據(jù)集上進(jìn)行實驗，分別為：SST-2，Movie Review，Twitter，Yelp-Binary，Amazon-Binary和IMDB數(shù)據(jù)集。并選擇了以下Baselines。

supervised methods:DRNN, RoBERTa, XLNet, UDA, BERTweet和EFL。

ICL methods:FLan-UL2, T5, ChatGPT, InstructGPT-3.5, IDS, GPT-4和Self-negotiation。

實驗結(jié)果與分析

本文實驗結(jié)果如下表所示：

從表中可以看出，與普通ICL相比，使用一個LLM(Self-negotiation)遵循generate-discriminate范式在六個情緒分析數(shù)據(jù)集上獲得了性能增益：GPT-3.5增益平均+0.9；GPT-4增益平均+1.0 acc。這種現(xiàn)象表明，LLM作為答案鑒別器，可以校正由任務(wù)生成器引起的一部分錯誤。

此外，與僅使用一個模型相比，使用兩個不同的LLM作為任務(wù)生成器和鑒別器反過來又帶來了顯著的性能改進(jìn)。在MR、Twitter和IMDB數(shù)據(jù)集上，使用兩個LLM的協(xié)商在準(zhǔn)確性方面分別優(yōu)于Self-negotiation方法+1.7、+2.1和+2.3。出現(xiàn)這種現(xiàn)象的原因是，使用兩個不同的LLM通過協(xié)商完成情感分析任務(wù)，可以利用對給定輸入的不同理解，釋放兩個LLM的力量，從而做出更準(zhǔn)確的決策。

還發(fā)現(xiàn)，當(dāng)引入第三個LLM來解決轉(zhuǎn)換角色協(xié)商之間的分歧時，可以獲得額外的性能提升。這表明第三個LLM可以通過多次協(xié)商解決兩個LLM之間的沖突，并提高情緒分析任務(wù)的性能。值得注意的是，多模型協(xié)商方法在MR數(shù)據(jù)集上比監(jiān)督方法RoBERTa Large高出+0.9，并彌合了普通ICL與監(jiān)督方法之間的差距：在SST-2上實現(xiàn)94.1(+1.4)的準(zhǔn)確度；Twitter上92.1(+2.7)；對Yelp-Binary為96.3(+2.5)；Amazon-Binary的87.2(+3.7)；在IMDB數(shù)據(jù)集上為94.5(+6.0)。

本文在Twitter數(shù)據(jù)集上的消融實驗結(jié)果如下表所示：

結(jié)果表明：

利用異構(gòu)LLM扮演不同的角色可以優(yōu)化協(xié)商的性能。

GPT-4的推理過程比3.5更明智，使前者的決策更有可能達(dá)成一致。

在協(xié)商過程中，LLM被要求闡明其推理原因過程具有重大的意義。

總結(jié)

在本文中，分析了基于單一LLM的情感分析方法的局限性，并引入了一種新的角色轉(zhuǎn)換的多LLM協(xié)商方法，以提高情感分類的準(zhǔn)確性和可解釋性。在多個基準(zhǔn)上的實驗表明，與傳統(tǒng)的ICL和許多監(jiān)督方法相比，本文提出的方法具有優(yōu)勢。未來的工作可以探索優(yōu)化速度和資源消耗的框架，使基本原則適應(yīng)其他NLP任務(wù)，并設(shè)計明確的協(xié)商模塊，以識別和減輕單個LLM中存在的偏見和解碼錯誤的影響。

審核編輯：黃飛

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

生成器

生成器

+關(guān)注

關(guān)注
7

文章
313

瀏覽量
20835
自然語言處理

自然語言處理

+關(guān)注

關(guān)注
1

文章
585

瀏覽量
13418
半監(jiān)督學(xué)習(xí)

半監(jiān)督學(xué)習(xí)

+關(guān)注

關(guān)注
0

文章
20

瀏覽量
2499
LLM

LLM

+關(guān)注

關(guān)注
0

文章
247

瀏覽量
279