0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于單一LLM的情感分析方法的局限性

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 2023-11-23 11:14 ? 次閱讀

作者:wkk

就像人類在做一件事情的時候,可能需要嘗試多次。LLM也是如此!這對于情感分析任務(wù)尤其如此,在情感分析任務(wù)中,LLM需要深入推理來處理輸入中的復(fù)雜語言現(xiàn)象(例如,從句組成、反諷等),單個LLM生成的單回合輸出可能無法提供完美的決策。

今天介紹的論文工作就上面提到的單一LLM框架在進(jìn)行情感分析時的缺陷展開。

13af5e14-7eac-11ee-939d-92fbcf53809c.png

在博士畢業(yè)就有10篇ACL一作的師兄指導(dǎo)下是種什么體驗

簡介

LLM的發(fā)展為情感分析任務(wù)帶來的新的解決方案。有研究人員使用LLM,在上下文學(xué)習(xí)(in-context learning, ICL)的范式下,僅使用少量的訓(xùn)練示例就能夠?qū)崿F(xiàn)與監(jiān)督學(xué)習(xí)策略旗鼓相當(dāng)?shù)男阅鼙憩F(xiàn)。

缺點(diǎn):但是單個LLM產(chǎn)生的單輪輸出可能無法提供完美的決策。針對情感分析任務(wù),LLM通常需要闡明推理過程,以解決輸入句子中的復(fù)雜語言現(xiàn)象。

創(chuàng)新:為了解決這個問題,本文提出了一種用于情感分析的多LLM協(xié)商策略。所提出的策略的核心是生成器-鑒別器框架,其中一個LLM充當(dāng)生成器做出情感決策,而另一個充當(dāng)鑒別器,任務(wù)是評估第一個LLM生成的輸出的可信度。如下圖所示。

13dfc45a-7eac-11ee-939d-92fbcf53809c.png

具體步驟

推理生成器:一種LLM,它遵循結(jié)構(gòu)化的推理鏈,增強(qiáng)生成器的ICL,同時為鑒別器提供評估其有效性的證據(jù)和見解;

推導(dǎo)鑒別器的解釋;其他LLM,旨在為其判斷提供評估后的理由;

協(xié)商:兩個LLM充當(dāng)生成器和鑒別器的角色,執(zhí)行協(xié)商直到達(dá)成共識。

在情感分析基準(zhǔn)上的實驗表明,在所有基準(zhǔn)中,所提出的算法始終比ICL基準(zhǔn)產(chǎn)生更好的性能,甚至比Twitter和電影評論數(shù)據(jù)集上的監(jiān)督基線更出色的性能。

相關(guān)工作

情感分析

情感分析是自然語言處理的熱門研究方向之一。其研究方法和思路由早期的“序列模型+分類器”演化到ICL,并逐漸成為一種新的NLP任務(wù)范式。研究人員發(fā)現(xiàn)在二分類的情感分析中,ICL取得了出色的性能。然而在一些更加復(fù)雜的任務(wù)(如方面級情感分析)中,ICL的表現(xiàn)不如監(jiān)督基線模型。

LLM and In-context Learning

LLM訓(xùn)練來自大規(guī)模的未標(biāo)注語料庫。LLM可以劃分為三類:only Encoder,only Decoder and Encoder-Decoder模型。從GPT3.0開始,LLM通過ICL在許多自然語言處理任務(wù)中展現(xiàn)出了出色的性能。

LLM協(xié)作

LLM協(xié)作涉及多個LLM協(xié)同工作以解決給定任務(wù)。具體來說,任務(wù)被分解為幾個中間任務(wù),每個LLM被分配獨(dú)立完成一個中間任務(wù)。給定的任務(wù)是在對這些中間結(jié)果進(jìn)行集成或匯總后解決的。LLM協(xié)作方法可以利用LLM的能力,提高復(fù)雜任務(wù)的性能,并能夠構(gòu)建復(fù)雜的系統(tǒng)。

LLM情感分析協(xié)商

使用兩個LLM充當(dāng)答案生成器和鑒別器。將生成器和鑒別器之間的交互稱為協(xié)商。協(xié)商將重復(fù)進(jìn)行,直到達(dá)成共識或超過最大協(xié)商次數(shù)。圖示如下圖所示。

13fe98f8-7eac-11ee-939d-92fbcf53809c.png

生成器

生成器由一個LLM扮演。通過提示詢問基于ICL范式的答案生成器,旨在生成一個循序漸進(jìn)的推理鏈,并對測試輸入的情緒極性做出決定。提示由三個元素組成:任務(wù)描述、演示測試輸入。任務(wù)描述是用自然語言對任務(wù)的描述(如,“請確定測試輸入的整體情感傾向。”);測試輸入是測試集中的文本輸入(例如,“天空是藍(lán)色的”);演示是從訓(xùn)練中完成的任務(wù)。每一個都包含三個元素:輸入、推理鏈和情感決策。對于每個測試輸入,首先從訓(xùn)練集中檢索K nearest鄰居作為演示。然后,我們通過提示生成器生成推理鏈,將演示轉(zhuǎn)換為(輸入、推理過程、情緒決策)三元組。在連接任務(wù)描述、演示和測試輸入后,將提示轉(zhuǎn)發(fā)給生成器,生成器將以逐步推理鏈和情感決策作為響應(yīng)。

鑒別器

鑒別器則是由另一個LLM扮演。在完成答案生成過程后,使用答案鑒別器來判斷生成器所做的決定是否正確,并提供合理的解釋。為了實現(xiàn)這個目標(biāo),首先為答案鑒別器構(gòu)造提示。提示由四個元素組成:任務(wù)描述、演示測試輸入來自答案生成器的響應(yīng)。任務(wù)描述是一段用自然語言描述任務(wù)的文本(例如,“請確定決策是否正確?!埃?。每個演示由六個元素組成:(輸入文本、推理鏈、情感決策、鑒別者態(tài)度、鑒別器解釋、鑒別器決策)并且通過提示回答鑒別器提供為什么情緒決定對于輸入文本是正確的解釋來構(gòu)造。然后使用構(gòu)造提示詢問鑒別器。答案鑒別器將用文本字符串進(jìn)行響應(yīng),該文本字符串包含表示鑒別器是否同意生成器的態(tài)度(即,是,否)、解釋鑒別器為什么同意/不同意生成器的解釋,以及確定測試輸入情緒的鑒別器決定。

Why Two LLMs but Not One?

本文工作為何使用兩個不同的LLM分別扮演生成器和鑒別器的原因:

如果LLM由于錯誤的推理而作為生成器出錯,它更有可能也會犯與鑒別器相同的錯誤,因為來自同一模型的生成器和鑒別器很可能會犯類似的理由;

通過使用兩個獨(dú)立的模型,能夠利用這兩個模型的互補(bǔ)能力。

角色轉(zhuǎn)換

在兩個LLM以協(xié)商結(jié)束后,要求它們轉(zhuǎn)換角色并啟動新的協(xié)商,其中第二個LLM充當(dāng)生成器,第一個LLM用作鑒別器。同樣,角色轉(zhuǎn)換協(xié)商也會結(jié)束,直到達(dá)成共識或超過最大協(xié)商次數(shù)。當(dāng)兩次協(xié)商達(dá)成協(xié)議,并且他們的決定相同時,選擇其中一個決定作為最終決定,因為它們是相同的。如果一個協(xié)商未能達(dá)成共識,而另一個協(xié)商達(dá)成決定,將從達(dá)成共識的協(xié)商中選擇一個決定作為最終決定。然而,如果雙方協(xié)商達(dá)成共識,但雙方的決定不一致,將需要額外的LLM幫助。

引入第三個LLM

如果兩次協(xié)商的決定不一致,將引入第三個LLM,并與上述兩個LLM中的每一個進(jìn)行協(xié)商和角色轉(zhuǎn)換協(xié)商。隨后,將得到6個協(xié)商結(jié)果,并對這些結(jié)果進(jìn)行投票:將最頻繁出現(xiàn)的決策作為輸入測試的情感極性。

實驗

實驗選擇GPT3.5和GPT4.0作為骨干,并且使用以下三種不同的ICL方法。

Vanilla ICL

Self-Negotiation

Negotiation with two LLMs

Dataset and methods

本文在六個數(shù)據(jù)集上進(jìn)行實驗,分別為:SST-2,Movie Review,Twitter,Yelp-BinaryAmazon-BinaryIMDB數(shù)據(jù)集。并選擇了以下Baselines。

supervised methods:DRNN, RoBERTa, XLNet, UDA, BERTweetEFL。

ICL methods:FLan-UL2, T5, ChatGPT, InstructGPT-3.5, IDS, GPT-4Self-negotiation。

實驗結(jié)果與分析

本文實驗結(jié)果如下表所示:

142449cc-7eac-11ee-939d-92fbcf53809c.png

從表中可以看出,與普通ICL相比,使用一個LLM(Self-negotiation)遵循generate-discriminate范式在六個情緒分析數(shù)據(jù)集上獲得了性能增益:GPT-3.5增益平均+0.9;GPT-4增益平均+1.0 acc。這種現(xiàn)象表明,LLM作為答案鑒別器,可以校正由任務(wù)生成器引起的一部分錯誤。

此外,與僅使用一個模型相比,使用兩個不同的LLM作為任務(wù)生成器和鑒別器反過來又帶來了顯著的性能改進(jìn)。在MR、Twitter和IMDB數(shù)據(jù)集上,使用兩個LLM的協(xié)商在準(zhǔn)確性方面分別優(yōu)于Self-negotiation方法+1.7、+2.1和+2.3。出現(xiàn)這種現(xiàn)象的原因是,使用兩個不同的LLM通過協(xié)商完成情感分析任務(wù),可以利用對給定輸入的不同理解,釋放兩個LLM的力量,從而做出更準(zhǔn)確的決策。

還發(fā)現(xiàn),當(dāng)引入第三個LLM來解決轉(zhuǎn)換角色協(xié)商之間的分歧時,可以獲得額外的性能提升。這表明第三個LLM可以通過多次協(xié)商解決兩個LLM之間的沖突,并提高情緒分析任務(wù)的性能。值得注意的是,多模型協(xié)商方法在MR數(shù)據(jù)集上比監(jiān)督方法RoBERTa Large高出+0.9,并彌合了普通ICL與監(jiān)督方法之間的差距:在SST-2上實現(xiàn)94.1(+1.4)的準(zhǔn)確度;Twitter上92.1(+2.7);對Yelp-Binary為96.3(+2.5);Amazon-Binary的87.2(+3.7);在IMDB數(shù)據(jù)集上為94.5(+6.0)。

本文在Twitter數(shù)據(jù)集上的消融實驗結(jié)果如下表所示:

144d9bb0-7eac-11ee-939d-92fbcf53809c.png

1454f568-7eac-11ee-939d-92fbcf53809c.png

14601ce0-7eac-11ee-939d-92fbcf53809c.png

結(jié)果表明:

利用異構(gòu)LLM扮演不同的角色可以優(yōu)化協(xié)商的性能。

GPT-4的推理過程比3.5更明智,使前者的決策更有可能達(dá)成一致。

在協(xié)商過程中,LLM被要求闡明其推理原因過程具有重大的意義。

總結(jié)

在本文中,分析了基于單一LLM的情感分析方法的局限性,并引入了一種新的角色轉(zhuǎn)換的多LLM協(xié)商方法,以提高情感分類的準(zhǔn)確性和可解釋性。在多個基準(zhǔn)上的實驗表明,與傳統(tǒng)的ICL和許多監(jiān)督方法相比,本文提出的方法具有優(yōu)勢。未來的工作可以探索優(yōu)化速度和資源消耗的框架,使基本原則適應(yīng)其他NLP任務(wù),并設(shè)計明確的協(xié)商模塊,以識別和減輕單個LLM中存在的偏見和解碼錯誤的影響。

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 生成器
    +關(guān)注

    關(guān)注

    7

    文章

    313

    瀏覽量

    20835
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    585

    瀏覽量

    13418
  • 半監(jiān)督學(xué)習(xí)

    關(guān)注

    0

    文章

    20

    瀏覽量

    2499
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    247

    瀏覽量

    279

原文標(biāo)題:情感分析與LLMs角色扮演

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    34063的局限性

    由34063構(gòu)成的開關(guān)電源雖然價格便宜、應(yīng)用廣泛,但它的局限性也是顯而易見的。主要有以下幾點(diǎn):(1)效率偏低。對于降壓應(yīng)用,效率般只有70%左右,輸出電壓低時效率更低。這就使它不能用在某些對功耗
    發(fā)表于 06-12 10:41

    FPGA的優(yōu)勢與局限性

    。減少板級走線,有效降低布局布線難度。當(dāng)然了,在很多情況下,F(xiàn)PGA不是萬能的。FPGA技術(shù)也存在著些固有的局限性。從以下這些方面看,選擇FPGA技術(shù)來實現(xiàn)產(chǎn)品的開發(fā)設(shè)計有時并不是明智的決定?!裨谀承?/div>
    發(fā)表于 12-20 10:07

    無線網(wǎng)絡(luò)有什么局限性

    以無線方式發(fā)送數(shù)據(jù)的方法有很多。從遙控?zé)o鑰匙進(jìn)入(RKE)和車庫開門裝置(GDO)等簡單命令和控制方案到WLAN,您有很多種選擇。本文主要探討各種可用的無線網(wǎng)絡(luò)選項和必須在應(yīng)用過程中解決的局限性,旨在為設(shè)計師提供些選擇工業(yè)應(yīng)用
    發(fā)表于 08-23 06:13

    MySQL優(yōu)化之查詢性能優(yōu)化之查詢優(yōu)化器的局限性與提示

    MySQL優(yōu)化三:查詢性能優(yōu)化之查詢優(yōu)化器的局限性與提示
    發(fā)表于 06-02 06:34

    超聲波液位計的局限性及安裝要求

    簡單方便,且性能可靠、維護(hù)量小、不受液體的粘度和密度影響等優(yōu)點(diǎn),在水處理、化工、石油、冶金等行業(yè)應(yīng)用廣泛。不過,超聲波液位計也并非完美無缺,其也有自身所無法克服的局限性,使之在應(yīng)用中受到定的限制。那么
    發(fā)表于 06-19 11:49

    運(yùn)算放大器的精度局限性是什么

    日益普遍。本文將介紹運(yùn)算放大器的精度局限性,以及如何選擇為數(shù)不多的有可能達(dá)到 1 ppm 精度的運(yùn)算放大器。另外,我們還將介紹些針對現(xiàn)有運(yùn)算放大器局限性的應(yīng)用改善。
    發(fā)表于 03-11 06:10

    柵漏電流噪聲有哪幾種模型?這幾種模型有什么局限性?

    常見的柵漏電流噪聲模型有哪幾種,這幾種模型的特性是什么?有什么局限性?
    發(fā)表于 04-09 06:44

    貼片機(jī)轉(zhuǎn)塔式結(jié)構(gòu)的優(yōu)缺點(diǎn)是什么?有什么局限性?

    貼片機(jī)轉(zhuǎn)塔式結(jié)構(gòu)的優(yōu)缺點(diǎn)是什么貼片機(jī)轉(zhuǎn)塔式結(jié)構(gòu)的局限性有哪些?
    發(fā)表于 04-25 06:12

    基于FPGA的神經(jīng)網(wǎng)絡(luò)的性能評估及局限性

    FPGA實現(xiàn)神經(jīng)網(wǎng)絡(luò)關(guān)鍵問題分析基于FPGA的ANN實現(xiàn)方法基于FPGA的神經(jīng)網(wǎng)絡(luò)的性能評估及局限性
    發(fā)表于 04-30 06:58

    RS-485自動換向電路設(shè)計的局限性

    RS-485自動換向電路設(shè)計的局限性,RS-485
    發(fā)表于 12-21 14:45 ?0次下載

    紅外顯微鏡用于測量高性能微波GaN HEMT器件和MMIC的有什么局限性?

    本文討論了紅外顯微鏡用于測量高性能微波GaN HEMT器件和MMIC的局限性。它還將描述Qorvo的熱分析集成方法,它利用建模、經(jīng)驗測量(包括顯微拉曼熱成像)和有限元分析(FEA)。該
    發(fā)表于 08-02 11:29 ?11次下載
    紅外顯微鏡用于測量高性能微波GaN HEMT器件和MMIC的有什么<b class='flag-5'>局限性</b>?

    WSN中LEACH協(xié)議局限性分析與改進(jìn)

    WSN中LEACH協(xié)議局限性分析與改進(jìn)(電源技術(shù)答案)-WSN中LEACH協(xié)議局限性分析與改進(jìn)? ? ? ? ? ? ? ?
    發(fā)表于 09-15 11:12 ?3次下載
    WSN中LEACH協(xié)議<b class='flag-5'>局限性</b>的<b class='flag-5'>分析</b>與改進(jìn)

    千兆光模塊存在哪些局限性

    千兆光模塊,作為網(wǎng)絡(luò)設(shè)備中常用的個配件,在實際應(yīng)用中,由于其存在定的局限性,可能會對網(wǎng)絡(luò)傳輸速度、信號接收等方面產(chǎn)生影響。本文將就千兆光模塊的局限性進(jìn)行探討,并提供
    的頭像 發(fā)表于 10-16 12:10 ?458次閱讀

    碳化硅二極管的優(yōu)點(diǎn)和局限性分析

    碳化硅二極管的優(yōu)點(diǎn)和局限性分析 碳化硅(SiC)二極管是種新型半導(dǎo)體材料,在高頻電源電子裝置中得到了廣泛應(yīng)用。與傳統(tǒng)的硅(Si)材料相比,碳化硅二極管具有許多優(yōu)點(diǎn)和局限性。下面是對碳
    的頭像 發(fā)表于 12-21 11:31 ?1597次閱讀

    WDM技術(shù)的缺點(diǎn)和局限性

    和效率。然而,盡管WDM技術(shù)具有諸多優(yōu)勢,但它也存在些缺點(diǎn)和局限性。以下是對WDM技術(shù)缺點(diǎn)和局限性的詳細(xì)分析
    的頭像 發(fā)表于 08-09 11:42 ?277次閱讀