0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

探索ChatGPT的信息抽取能力

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:深度學(xué)習(xí)自然語(yǔ)言 ? 2023-06-01 14:45 ? 次閱讀

信息抽取(IE)旨在從非結(jié)構(gòu)化文本中抽取出結(jié)構(gòu)化信息,該結(jié)果可以直接影響很多下游子任務(wù),比如問(wèn)答和知識(shí)圖譜構(gòu)建。因此,探索ChatGPT的信息抽取能力在一定程度上能反映出ChatGPT生成回復(fù)時(shí)對(duì)任務(wù)指令理解的性能。

c5df4f1c-0018-11ee-90ce-dac502259ad0.png

論文:Is Information Extraction Solved by ChatGPT? An Analysis of Performance, Evaluation Criteria, Robustness and Errors
地址:https://arxiv.org/pdf/2305.14450.pdf
代碼:https://github.com/RidongHan/Evaluation-of-ChatGPT-on-Information-Extraction

本文將從性能、評(píng)估標(biāo)準(zhǔn)、魯棒性和錯(cuò)誤類(lèi)型四個(gè)角度對(duì)ChatGPT在信息抽取任務(wù)上的能力進(jìn)行評(píng)估。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

任務(wù)和數(shù)據(jù)集
本文的實(shí)驗(yàn)采用4類(lèi)常見(jiàn)的信息抽取任務(wù),包括命名實(shí)體識(shí)別(NER),關(guān)系抽取(RE),事件抽取(EE)和基于方面的情感分析(ABSA),它們一共包含14類(lèi)子任務(wù)。

對(duì)于NER任務(wù),采用的數(shù)據(jù)集包括CoNLL03、FewNERD、ACE04、ACE05-Ent和GENIA。

對(duì)于RE任務(wù),采用的數(shù)據(jù)集包括CCoNLL04、NYT-multi、TACRED和SemEval 2010。

對(duì)于EE任務(wù),采用的數(shù)據(jù)集包括CACE05-Evt、ACE05+、CASIE和Commodity News EE。

對(duì)于ABSA任務(wù),采用的數(shù)據(jù)集包括D17、D19、D20a和D20b,均從SemEval Challenges獲取。

實(shí)驗(yàn)結(jié)果

1、性能

c5ea39f4-0018-11ee-90ce-dac502259ad0.png

從上圖結(jié)果可以明顯看出:
(1)ChatGPT和SOTA方法之間存在顯著的性能差距;
(2)任務(wù)的難度越大,性能差距越大;
(3)任務(wù)場(chǎng)景越復(fù)雜,性能差距越大;
(4)在一些簡(jiǎn)單的情況下,ChatGPT可以達(dá)到或超過(guò)SOTA方法的性能;
(5)使用few-shot ICL提示通常有顯著提升(約3.0~13.0的F1值),但仍明顯落后于SOTA結(jié)果;
(6)與few-shot ICL提示相比,few-shot COT提示的使用不能保證進(jìn)一步的增益,有時(shí)它比f(wàn)ew-shot ICR提示的性能更差。

2、對(duì)性能gap的思考

c6074dd2-0018-11ee-90ce-dac502259ad0.png

通過(guò)人工檢查ChatGPT的回復(fù),發(fā)現(xiàn)ChatGPT傾向于識(shí)別比標(biāo)注的跨度更長(zhǎng)的sapn,以更接近人類(lèi)的偏好。因此,之前的硬匹配(hard-matching)策略可能不適合如ChatGPT的LLM,所以本文提出了一種軟匹配(soft-matching)策略,算法流程如下。

c6177252-0018-11ee-90ce-dac502259ad0.png

該算法表明,只要生成和span和標(biāo)記的span存在包含關(guān)系且達(dá)到相似度的閾值,則認(rèn)為結(jié)果正確。通過(guò)軟匹配策略,對(duì)重新評(píng)估ChatGPT的IE性能,得到的結(jié)果如下。

c62deb22-0018-11ee-90ce-dac502259ad0.png

從上圖可以看出,軟匹配策略帶來(lái)一致且顯著的性能增益(F1值高達(dá)14.53),簡(jiǎn)單子任務(wù)的提升更明顯。同時(shí),雖然軟匹配策略帶來(lái)性能提升,但仍然沒(méi)有達(dá)到SOTA水平。

3、魯棒性分析
(1)無(wú)效輸出

c645baf4-0018-11ee-90ce-dac502259ad0.png

在大多數(shù)情況下,ChatGPT很少輸出無(wú)效回復(fù)。然而在RE-Triplet子任務(wù)中,無(wú)效回復(fù)占比高達(dá)25.3%。一個(gè)原因可能這個(gè)子任務(wù)更加與眾不同。

(2)無(wú)關(guān)上下文
由于ChatGPT對(duì)不同的提示非常敏感,本文研究了無(wú)關(guān)上下文對(duì)ChatGPT在所有IE子任務(wù)上性能的影響。主要通過(guò)在輸入文本前后隨機(jī)插入一段無(wú)關(guān)文本來(lái)修改zero-shot提示的“輸入文本”部分,無(wú)關(guān)文本不包含要提取的目標(biāo)信息span,結(jié)果如圖所示。

c666d4be-0018-11ee-90ce-dac502259ad0.png

可以看出,當(dāng)隨機(jī)添加無(wú)關(guān)上下文時(shí),大多數(shù)子任務(wù)的性能都會(huì)顯著下降(最高可達(dá)48.0%)。ABSA-ALSC和RE-RC子任務(wù)的性能下降較小,這是因?yàn)樗鼈兓诮o定的方面項(xiàng)或?qū)嶓w對(duì)進(jìn)行分類(lèi),受到無(wú)關(guān)上下文的影響較小。因此,ChatGPT對(duì)無(wú)關(guān)上下文非常敏感,這會(huì)顯著降低IE任務(wù)的性能。

(3)目標(biāo)類(lèi)型的頻率
真實(shí)世界的數(shù)據(jù)通常為長(zhǎng)尾分布,導(dǎo)致模型在尾部類(lèi)型上的表現(xiàn)比在頭部類(lèi)型上差得多。本文研究了“目標(biāo)類(lèi)型的頻率”對(duì)ChatGPT在所有IE子任務(wù)中的性能的影響,結(jié)果如圖所示。

c67c5f8c-0018-11ee-90ce-dac502259ad0.png

可以看出,尾部類(lèi)型的性能明顯不如頭部類(lèi)型,僅高達(dá)頭部類(lèi)型的75.9%。在一些子任務(wù)上,比如RE-RC和RE-Triplet,尾部類(lèi)型的性能甚至低于頭部類(lèi)型性能的15%,所以ChatGPT也面臨長(zhǎng)尾問(wèn)題的困擾。

(4)其他
本文探討了ChatGPT是否可以區(qū)分RE-RC子任務(wù)中兩個(gè)實(shí)體的主客觀順序。由于大多數(shù)關(guān)系類(lèi)型都是非對(duì)稱(chēng)的,因此兩個(gè)實(shí)體的順序非常關(guān)鍵。對(duì)于非對(duì)稱(chēng)關(guān)系類(lèi)型的每個(gè)實(shí)例,交換實(shí)體的順序并檢測(cè)預(yù)測(cè)結(jié)果的變化,結(jié)果如圖所示。

c69205d0-0018-11ee-90ce-dac502259ad0.png

可以看到,交換順序后大多數(shù)預(yù)測(cè)結(jié)果(超過(guò)70%)與交換前保持不變。因此對(duì)于RE-RC子任務(wù),ChatGPT對(duì)實(shí)體的順序不敏感,而且無(wú)法準(zhǔn)確理解實(shí)體的主客體關(guān)系。

4、錯(cuò)誤類(lèi)型分析

c69e1ffa-0018-11ee-90ce-dac502259ad0.png

從圖中可以看出,“Unannotated spans”、“Incorrect types”和“Missing spans”是三種主要的錯(cuò)誤類(lèi)型,占70%以上。特別是,幾乎三分之一的錯(cuò)誤是“Unannotated spans”的錯(cuò)誤,這也引發(fā)了對(duì)標(biāo)注數(shù)據(jù)質(zhì)量的擔(dān)憂(yōu)。

總結(jié)

本文從性能、評(píng)估標(biāo)準(zhǔn)、魯棒性和錯(cuò)誤類(lèi)型四個(gè)角度評(píng)估了ChatGPT的信息抽取能力,結(jié)論如下:

性能 本文評(píng)估了ChatGPT在zero-shot、few-shot和chain-of-thought場(chǎng)景下的17個(gè)數(shù)據(jù)集和14個(gè)IE子任務(wù)上的性能,發(fā)現(xiàn)ChatGPT和SOTA結(jié)果之間存在巨大的性能差距。

評(píng)估標(biāo)準(zhǔn) 本文重新審視了性能差距,發(fā)現(xiàn)硬匹配策略不適合評(píng)估ChatGPT,因?yàn)镃hatGPT會(huì)產(chǎn)生human-like的回復(fù),并提出軟匹配策略,以更準(zhǔn)確地評(píng)估ChatGPT的性能。

魯棒性 本文從四個(gè)角度分析了ChatGPT對(duì)14個(gè)子任務(wù)的魯棒性,包括無(wú)效輸出、無(wú)關(guān)上下文、目標(biāo)類(lèi)型的頻率和錯(cuò)誤類(lèi)型并得出以下結(jié)論:1)ChatGPT很少輸出無(wú)效響應(yīng);2)無(wú)關(guān)上下文和長(zhǎng)尾目標(biāo)類(lèi)型極大地影響了ChatGPT的性能;3)ChatGPT不能很好地理解RE任務(wù)中的主客體關(guān)系。

錯(cuò)誤類(lèi)型 通過(guò)人工檢查,本文分析了ChatGPT的錯(cuò)誤,總結(jié)出7種類(lèi)型,包括Missing spans、Unmentioned spans、Unannotated spans、Incorrect span offsets、Undefined types、Incorrect types和other。發(fā)現(xiàn)“Unannotated spans”是最主要的錯(cuò)誤類(lèi)型。這引發(fā)了大家對(duì)之前標(biāo)注數(shù)據(jù)質(zhì)量的擔(dān)心,同時(shí)也表明利用ChatGPT標(biāo)記數(shù)據(jù)的可能性。


審核編輯 :李倩


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29806

    瀏覽量

    268103
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1200

    瀏覽量

    24619
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5463

    瀏覽量

    120889
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1033

    瀏覽量

    6378
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1546

    瀏覽量

    7356

原文標(biāo)題:ChatGPT能解決信息抽取嗎?一份關(guān)于性能、評(píng)估標(biāo)準(zhǔn)、魯棒性和錯(cuò)誤的分析

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    文本信息抽取的分階段詳細(xì)介紹

    文本信息是有具體的單元結(jié)構(gòu)組成,包括句子,段落,篇章。文本信息抽取是指對(duì)現(xiàn)有文本數(shù)據(jù)進(jìn)行信息抽取的過(guò)程,
    發(fā)表于 09-16 15:03

    科技大廠競(jìng)逐AIGC,中國(guó)的ChatGPT在哪?

    來(lái)看,國(guó)內(nèi)大模型開(kāi)發(fā)廠商一是布局以大模型為基礎(chǔ)的通用對(duì)話(huà)、生成等能力;二是將其能力整合到搜索引擎、智能客服、智能音箱等產(chǎn)品線(xiàn)中;三是通過(guò)能力調(diào)用為中小企業(yè)滿(mǎn)足具體場(chǎng)景落地需求?!倍瓡燥w說(shuō)。 隨著
    發(fā)表于 03-03 14:28

    基于子樹(shù)廣度的Web信息抽取

    提出一種新的網(wǎng)頁(yè)信息抽取方法,基于子樹(shù)的廣度可不加區(qū)分地對(duì)不同科技文獻(xiàn)網(wǎng)站的頁(yè)面信息進(jìn)行自動(dòng)抽取。對(duì)大量科技文獻(xiàn)網(wǎng)站進(jìn)行信息
    發(fā)表于 03-28 10:03 ?14次下載

    基于重復(fù)模式的自動(dòng)Web信息抽取

    互聯(lián)網(wǎng)上存在很多在線(xiàn)購(gòu)物網(wǎng)站,抽取這類(lèi)網(wǎng)站頁(yè)面里的商品信息可以為電子商務(wù)、Web查詢(xún)提供增值服務(wù)。該文針對(duì)這類(lèi)網(wǎng)站提出一種自動(dòng)的Web信息抽取方法,通過(guò)檢測(cè)網(wǎng)頁(yè)中的重
    發(fā)表于 04-10 09:33 ?11次下載

    基于XML的WEB信息抽取模型設(shè)計(jì)

    對(duì)現(xiàn)有的信息抽取技術(shù)和XML 技術(shù)加以研究,在此基礎(chǔ)上提出了適合XML 的通用的web 信息抽取模型,它能夠把Web 上的數(shù)據(jù)抽取出來(lái)整合到
    發(fā)表于 12-22 13:56 ?17次下載

    基于WebHarvest的健康領(lǐng)域Web信息抽取方法

    針對(duì)Web信息抽取(WIE)技術(shù)在健康領(lǐng)域應(yīng)用的問(wèn)題,提出了一種基于WebHarvest的健康領(lǐng)域Web信息抽取方法。通過(guò)對(duì)不同健康網(wǎng)站的結(jié)構(gòu)分析設(shè)計(jì)健康實(shí)體的
    發(fā)表于 12-26 13:44 ?0次下載

    節(jié)點(diǎn)屬性的海量Web信息抽取方法

    為解決大數(shù)據(jù)場(chǎng)景下從海量Web頁(yè)面中抽取有價(jià)值的信息,提出了一種基于節(jié)點(diǎn)屬性與正文內(nèi)容的海量Web信息抽取方法。將Web頁(yè)面轉(zhuǎn)化為DOM樹(shù)表示,并提出剪枝與融合算法,對(duì)DOM樹(shù)進(jìn)行簡(jiǎn)化
    發(fā)表于 02-06 14:36 ?0次下載

    了解信息抽取必須要知道關(guān)系抽取

    當(dāng)我們拿到一個(gè)信息抽取的任務(wù),需要明確我們抽取的是什么,”今天天氣真冷“,我們要抽的天氣的狀態(tài)天氣-狀態(tài)-冷,而非 今天-氣候-冷(雖然也可以這樣抽),因此一般會(huì)首先定義好我們要抽取
    的頭像 發(fā)表于 04-15 14:32 ?2018次閱讀
    了解<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>必須要知道關(guān)系<b class='flag-5'>抽取</b>

    基于篇章信息和Bi-GRU的事件抽取綜述

    事件抽取信息抽取中一個(gè)重要的研究方向,其中事件檢測(cè)是事件抽取的關(guān)鍵。目前,中文神經(jīng)網(wǎng)絡(luò)事件檢測(cè)方法均是基于句子的方法,這種方法獲得的局部上下文的
    發(fā)表于 04-23 15:35 ?3次下載
    基于篇章<b class='flag-5'>信息</b>和Bi-GRU的事件<b class='flag-5'>抽取</b>綜述

    開(kāi)放域信息抽取和文本知識(shí)結(jié)構(gòu)化的3篇論文詳細(xì)解析

    開(kāi)放域信息抽取信息抽取任務(wù)的另一個(gè)分支任務(wù),其中抽取的謂語(yǔ)和實(shí)體并不是特定的領(lǐng)域,也并沒(méi)有提前定義好實(shí)體類(lèi)別。
    的頭像 發(fā)表于 04-26 14:44 ?2667次閱讀
    開(kāi)放域<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>和文本知識(shí)結(jié)構(gòu)化的3篇論文詳細(xì)解析

    面向知識(shí)圖譜的信息抽取

    摘要: 隨著大數(shù)據(jù)時(shí)代的到來(lái),海量數(shù)據(jù)不斷涌現(xiàn),從中尋找有用信息,抽取對(duì)應(yīng)知識(shí)的需求變得越來(lái)越強(qiáng)烈。針對(duì)該需求,知識(shí)圖譜技術(shù)應(yīng)運(yùn)而生,并在實(shí)現(xiàn)知識(shí)互聯(lián)的過(guò)程中日益發(fā)揮重要作用。信息抽取
    發(fā)表于 03-22 16:59 ?837次閱讀
    面向知識(shí)圖譜的<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>

    如何統(tǒng)一各種信息抽取任務(wù)的輸入和輸出

    信息抽取任務(wù)包括命名實(shí)體識(shí)別(NER)、關(guān)系抽取(RE)、事件抽取(EE)等各種各樣的任務(wù)。
    的頭像 發(fā)表于 09-20 15:25 ?1226次閱讀

    10分鐘教你如何ChatGPT最詳細(xì)注冊(cè)教程

    ChatGPT 以其強(qiáng)大的信息整合和對(duì)話(huà)能力驚艷了全球,在自然語(yǔ)言處理上面表現(xiàn)出了驚人的能力。這么強(qiáng)大的工具我們都想體驗(yàn)一下,那么? ChatGPT
    發(fā)表于 02-08 14:46 ?106次下載

    微信接入ChatGPT 利用ChatGPT的對(duì)話(huà)能力

      當(dāng)前ChatGPT是一個(gè)爆火的項(xiàng)目,近來(lái)瀏覽 Github 的時(shí)候,發(fā)現(xiàn)一個(gè)好玩的項(xiàng)目:微信接入ChatGPT,利用ChatGPT的對(duì)話(huà)能力,實(shí)現(xiàn)微信的自動(dòng)聊天回復(fù)。   在
    發(fā)表于 02-13 10:31 ?3次下載
    微信接入<b class='flag-5'>ChatGPT</b> 利用<b class='flag-5'>ChatGPT</b>的對(duì)話(huà)<b class='flag-5'>能力</b>

    ChatGPT Plus怎么支付 開(kāi)通ChatGPT plus有什么功能?

    ChatGPT Plus怎么支付?探索AI的未來(lái)——ChatGPT 4.0開(kāi)通付費(fèi)教程 在人工智能的世界里,OpenAI的ChatGPT 4.0就像一顆璀璨的星星?,以其卓越的自然語(yǔ)言
    的頭像 發(fā)表于 10-10 16:01 ?4580次閱讀
    <b class='flag-5'>ChatGPT</b> Plus怎么支付 開(kāi)通<b class='flag-5'>ChatGPT</b> plus有什么功能?