信息抽取(IE)旨在從非結(jié)構(gòu)化文本中抽取出結(jié)構(gòu)化信息,該結(jié)果可以直接影響很多下游子任務(wù),比如問(wèn)答和知識(shí)圖譜構(gòu)建。因此,探索ChatGPT的信息抽取能力在一定程度上能反映出ChatGPT生成回復(fù)時(shí)對(duì)任務(wù)指令理解的性能。
論文:Is Information Extraction Solved by ChatGPT? An Analysis of Performance, Evaluation Criteria, Robustness and Errors
地址:https://arxiv.org/pdf/2305.14450.pdf
代碼:https://github.com/RidongHan/Evaluation-of-ChatGPT-on-Information-Extraction
本文將從性能、評(píng)估標(biāo)準(zhǔn)、魯棒性和錯(cuò)誤類(lèi)型四個(gè)角度對(duì)ChatGPT在信息抽取任務(wù)上的能力進(jìn)行評(píng)估。
實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置
任務(wù)和數(shù)據(jù)集
本文的實(shí)驗(yàn)采用4類(lèi)常見(jiàn)的信息抽取任務(wù),包括命名實(shí)體識(shí)別(NER),關(guān)系抽取(RE),事件抽取(EE)和基于方面的情感分析(ABSA),它們一共包含14類(lèi)子任務(wù)。
對(duì)于NER任務(wù),采用的數(shù)據(jù)集包括CoNLL03、FewNERD、ACE04、ACE05-Ent和GENIA。
對(duì)于RE任務(wù),采用的數(shù)據(jù)集包括CCoNLL04、NYT-multi、TACRED和SemEval 2010。
對(duì)于EE任務(wù),采用的數(shù)據(jù)集包括CACE05-Evt、ACE05+、CASIE和Commodity News EE。
對(duì)于ABSA任務(wù),采用的數(shù)據(jù)集包括D17、D19、D20a和D20b,均從SemEval Challenges獲取。
實(shí)驗(yàn)結(jié)果
1、性能
從上圖結(jié)果可以明顯看出:
(1)ChatGPT和SOTA方法之間存在顯著的性能差距;
(2)任務(wù)的難度越大,性能差距越大;
(3)任務(wù)場(chǎng)景越復(fù)雜,性能差距越大;
(4)在一些簡(jiǎn)單的情況下,ChatGPT可以達(dá)到或超過(guò)SOTA方法的性能;
(5)使用few-shot ICL提示通常有顯著提升(約3.0~13.0的F1值),但仍明顯落后于SOTA結(jié)果;
(6)與few-shot ICL提示相比,few-shot COT提示的使用不能保證進(jìn)一步的增益,有時(shí)它比f(wàn)ew-shot ICR提示的性能更差。
2、對(duì)性能gap的思考
通過(guò)人工檢查ChatGPT的回復(fù),發(fā)現(xiàn)ChatGPT傾向于識(shí)別比標(biāo)注的跨度更長(zhǎng)的sapn,以更接近人類(lèi)的偏好。因此,之前的硬匹配(hard-matching)策略可能不適合如ChatGPT的LLM,所以本文提出了一種軟匹配(soft-matching)策略,算法流程如下。
該算法表明,只要生成和span和標(biāo)記的span存在包含關(guān)系且達(dá)到相似度的閾值,則認(rèn)為結(jié)果正確。通過(guò)軟匹配策略,對(duì)重新評(píng)估ChatGPT的IE性能,得到的結(jié)果如下。
從上圖可以看出,軟匹配策略帶來(lái)一致且顯著的性能增益(F1值高達(dá)14.53),簡(jiǎn)單子任務(wù)的提升更明顯。同時(shí),雖然軟匹配策略帶來(lái)性能提升,但仍然沒(méi)有達(dá)到SOTA水平。
3、魯棒性分析
(1)無(wú)效輸出
在大多數(shù)情況下,ChatGPT很少輸出無(wú)效回復(fù)。然而在RE-Triplet子任務(wù)中,無(wú)效回復(fù)占比高達(dá)25.3%。一個(gè)原因可能這個(gè)子任務(wù)更加與眾不同。
(2)無(wú)關(guān)上下文
由于ChatGPT對(duì)不同的提示非常敏感,本文研究了無(wú)關(guān)上下文對(duì)ChatGPT在所有IE子任務(wù)上性能的影響。主要通過(guò)在輸入文本前后隨機(jī)插入一段無(wú)關(guān)文本來(lái)修改zero-shot提示的“輸入文本”部分,無(wú)關(guān)文本不包含要提取的目標(biāo)信息span,結(jié)果如圖所示。
可以看出,當(dāng)隨機(jī)添加無(wú)關(guān)上下文時(shí),大多數(shù)子任務(wù)的性能都會(huì)顯著下降(最高可達(dá)48.0%)。ABSA-ALSC和RE-RC子任務(wù)的性能下降較小,這是因?yàn)樗鼈兓诮o定的方面項(xiàng)或?qū)嶓w對(duì)進(jìn)行分類(lèi),受到無(wú)關(guān)上下文的影響較小。因此,ChatGPT對(duì)無(wú)關(guān)上下文非常敏感,這會(huì)顯著降低IE任務(wù)的性能。
(3)目標(biāo)類(lèi)型的頻率
真實(shí)世界的數(shù)據(jù)通常為長(zhǎng)尾分布,導(dǎo)致模型在尾部類(lèi)型上的表現(xiàn)比在頭部類(lèi)型上差得多。本文研究了“目標(biāo)類(lèi)型的頻率”對(duì)ChatGPT在所有IE子任務(wù)中的性能的影響,結(jié)果如圖所示。
可以看出,尾部類(lèi)型的性能明顯不如頭部類(lèi)型,僅高達(dá)頭部類(lèi)型的75.9%。在一些子任務(wù)上,比如RE-RC和RE-Triplet,尾部類(lèi)型的性能甚至低于頭部類(lèi)型性能的15%,所以ChatGPT也面臨長(zhǎng)尾問(wèn)題的困擾。
(4)其他
本文探討了ChatGPT是否可以區(qū)分RE-RC子任務(wù)中兩個(gè)實(shí)體的主客觀順序。由于大多數(shù)關(guān)系類(lèi)型都是非對(duì)稱(chēng)的,因此兩個(gè)實(shí)體的順序非常關(guān)鍵。對(duì)于非對(duì)稱(chēng)關(guān)系類(lèi)型的每個(gè)實(shí)例,交換實(shí)體的順序并檢測(cè)預(yù)測(cè)結(jié)果的變化,結(jié)果如圖所示。
可以看到,交換順序后大多數(shù)預(yù)測(cè)結(jié)果(超過(guò)70%)與交換前保持不變。因此對(duì)于RE-RC子任務(wù),ChatGPT對(duì)實(shí)體的順序不敏感,而且無(wú)法準(zhǔn)確理解實(shí)體的主客體關(guān)系。
4、錯(cuò)誤類(lèi)型分析
從圖中可以看出,“Unannotated spans”、“Incorrect types”和“Missing spans”是三種主要的錯(cuò)誤類(lèi)型,占70%以上。特別是,幾乎三分之一的錯(cuò)誤是“Unannotated spans”的錯(cuò)誤,這也引發(fā)了對(duì)標(biāo)注數(shù)據(jù)質(zhì)量的擔(dān)憂(yōu)。
總結(jié)
本文從性能、評(píng)估標(biāo)準(zhǔn)、魯棒性和錯(cuò)誤類(lèi)型四個(gè)角度評(píng)估了ChatGPT的信息抽取能力,結(jié)論如下:
性能 本文評(píng)估了ChatGPT在zero-shot、few-shot和chain-of-thought場(chǎng)景下的17個(gè)數(shù)據(jù)集和14個(gè)IE子任務(wù)上的性能,發(fā)現(xiàn)ChatGPT和SOTA結(jié)果之間存在巨大的性能差距。
評(píng)估標(biāo)準(zhǔn) 本文重新審視了性能差距,發(fā)現(xiàn)硬匹配策略不適合評(píng)估ChatGPT,因?yàn)镃hatGPT會(huì)產(chǎn)生human-like的回復(fù),并提出軟匹配策略,以更準(zhǔn)確地評(píng)估ChatGPT的性能。
魯棒性 本文從四個(gè)角度分析了ChatGPT對(duì)14個(gè)子任務(wù)的魯棒性,包括無(wú)效輸出、無(wú)關(guān)上下文、目標(biāo)類(lèi)型的頻率和錯(cuò)誤類(lèi)型并得出以下結(jié)論:1)ChatGPT很少輸出無(wú)效響應(yīng);2)無(wú)關(guān)上下文和長(zhǎng)尾目標(biāo)類(lèi)型極大地影響了ChatGPT的性能;3)ChatGPT不能很好地理解RE任務(wù)中的主客體關(guān)系。
錯(cuò)誤類(lèi)型 通過(guò)人工檢查,本文分析了ChatGPT的錯(cuò)誤,總結(jié)出7種類(lèi)型,包括Missing spans、Unmentioned spans、Unannotated spans、Incorrect span offsets、Undefined types、Incorrect types和other。發(fā)現(xiàn)“Unannotated spans”是最主要的錯(cuò)誤類(lèi)型。這引發(fā)了大家對(duì)之前標(biāo)注數(shù)據(jù)質(zhì)量的擔(dān)心,同時(shí)也表明利用ChatGPT標(biāo)記數(shù)據(jù)的可能性。
審核編輯 :李倩
-
AI
+關(guān)注
關(guān)注
87文章
29806瀏覽量
268103 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1200瀏覽量
24619 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5463瀏覽量
120889 -
OpenAI
+關(guān)注
關(guān)注
9文章
1033瀏覽量
6378 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1546瀏覽量
7356
原文標(biāo)題:ChatGPT能解決信息抽取嗎?一份關(guān)于性能、評(píng)估標(biāo)準(zhǔn)、魯棒性和錯(cuò)誤的分析
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論