0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ChatGPT大型語(yǔ)言模型在信息提取方面的能力

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 2023-05-10 14:32 ? 次閱讀

摘要

本文主要評(píng)估了ChatGPT這種大型語(yǔ)言模型在信息提取方面的能力,作者使用了7個(gè)細(xì)粒度的信息提取任務(wù)來(lái)評(píng)估ChatGPT的性能、可解釋性、校準(zhǔn)度和可信度。

作者發(fā)現(xiàn),在標(biāo)準(zhǔn)信息提取設(shè)置下,ChatGPT的性能較差,但在開放式信息提取設(shè)置下表現(xiàn)出色,且其決策的解釋具有高質(zhì)量和可信度。

不過(guò),ChatGPT存在過(guò)度自信的問(wèn)題,導(dǎo)致其校準(zhǔn)度較低。此外,ChatGPT在大多數(shù)情況下對(duì)原始文本的忠實(shí)度很高。

最后,作者手動(dòng)注釋并發(fā)布了7個(gè)細(xì)粒度信息提取任務(wù)的測(cè)試集,包含14個(gè)數(shù)據(jù)集,以進(jìn)一步促進(jìn)研究。

主要思路

ChatGPT是最近非常流行的對(duì)話大模型,可以與用戶進(jìn)行流暢和高效的交流。但是由于ChatGPT的訓(xùn)練細(xì)節(jié)和數(shù)據(jù)沒(méi)有完全公開,并且ChatGPT的輸出會(huì)帶有一些觀點(diǎn)和偏向,這些觀點(diǎn)都可能會(huì)影響用戶對(duì)事物的判斷和決策,甚至對(duì)用戶造成負(fù)面作用[1-4]。

因此,對(duì)于ChatGPT的評(píng)測(cè)方面,不止需要關(guān)注給定下游任務(wù)的性能評(píng)測(cè),同時(shí)還需要考慮到使用大模型過(guò)程中用戶可能需要的一些方面,如ChatGPT對(duì)決策判斷的可解釋、預(yù)測(cè)自信程度和對(duì)于輸入原文的忠實(shí)程度等。

基于以上分析,本文希望在ChatGPT性能的基礎(chǔ)上,通過(guò)更多的維度對(duì)ChatGPT模型的能力進(jìn)行全方位的評(píng)估。

具體來(lái)說(shuō),我們希望通過(guò)以下4個(gè)方面來(lái)評(píng)估ChatGPT的綜合性能:

1)性能(Performance)。我們研究的一個(gè)重要方面是全面評(píng)估ChatGPT在各種任務(wù)上的整體性能,如準(zhǔn)確率和F1值等。并將其與其他熱門模型進(jìn)行比較。通過(guò)從不同角度考察其性能,我們旨在提供對(duì)ChatGPT在下游信息提取任務(wù)方面能力的詳細(xì)理解。

2)可解釋性(Explainability)。ChatGPT的可解釋性對(duì)于其在現(xiàn)實(shí)場(chǎng)景中應(yīng)用是至關(guān)重要的[5-7],因?yàn)橛脩粝M讷@取模型輸出的同時(shí),讓模型給出合理的預(yù)測(cè)理由和判斷依據(jù)。在我們的研究中,我們將同時(shí)衡量ChatGPT的自我檢查和人工檢查的可解釋性,重點(diǎn)關(guān)注其為人類提供有用和準(zhǔn)確的推理過(guò)程解釋的能力。

3)校準(zhǔn)性(Calibration)。測(cè)量“calibration”有助于評(píng)估模型的預(yù)測(cè)不確定性[8,9]。校準(zhǔn)度高的分類器應(yīng)該具有準(zhǔn)確反映正確性概率的預(yù)測(cè)分?jǐn)?shù)[10,11]。鑒于深度神經(jīng)網(wǎng)絡(luò)在其預(yù)測(cè)中表現(xiàn)出過(guò)度自信的傾向,我們期望識(shí)別ChatGPT的潛在不確定性或過(guò)度自信現(xiàn)象。

4)忠誠(chéng)度(Faithfulness)。模型對(duì)預(yù)測(cè)解釋的忠誠(chéng)度對(duì)于用戶而言非常重要[12,13]。我們嘗試評(píng)估ChatGPT提供的解釋是否與輸入內(nèi)容一致。

基于以上四個(gè)方面,我們?cè)O(shè)計(jì)了15個(gè)不同的評(píng)測(cè)指標(biāo),其中10個(gè)為ChatGPT自動(dòng)輸出的指標(biāo),5個(gè)為多位領(lǐng)域?qū)<胰斯?biāo)注的指標(biāo)。具體指標(biāo)如下:

78fe2eda-ee6f-11ed-90ce-dac502259ad0.png

任務(wù)數(shù)據(jù)集及實(shí)驗(yàn)設(shè)置

我們選擇了自然語(yǔ)言處理中十分重要的研究任務(wù)——信息抽取,作為任務(wù)載體,對(duì)ChatGPT的以上度量指標(biāo)進(jìn)行全方位的評(píng)估。信息抽?。╥nformation extraction, IE)涉及異構(gòu)結(jié)構(gòu)提取、事實(shí)知識(shí)使用和多樣化的目標(biāo),因此此類任務(wù)是評(píng)估ChatGPT能力的理想場(chǎng)景。本文中,我們選擇了7個(gè)信息抽取任務(wù)共14個(gè)數(shù)據(jù)集進(jìn)行測(cè)試,包括是實(shí)體識(shí)別,關(guān)系抽取和事件抽取等。

在實(shí)驗(yàn)過(guò)程中,我們采用了2種設(shè)置,即標(biāo)準(zhǔn)信息抽?。⊿tandard-IE)和開放式信息抽?。∣penIE)。Standard-IE設(shè)置通常用于以前的工作中,它使用特定于任務(wù)的數(shù)據(jù)集與監(jiān)督式學(xué)習(xí)范式對(duì)模型進(jìn)行微調(diào)。對(duì)于ChatGPT,由于我們無(wú)法直接微調(diào)參數(shù),因此我們?cè)u(píng)估ChatGPT從一組候選標(biāo)簽中選擇最合適答案的能力。具體而言,這種設(shè)置基于包括任務(wù)描述、輸入文本、提示和標(biāo)簽集的指示。任務(wù)描述描述了具體的IE任務(wù),提示包括引導(dǎo)ChatGPT輸出所需特征(即上述15個(gè)特征中的一個(gè)或多個(gè)),而標(biāo)簽集基于每個(gè)數(shù)據(jù)集包含所有候選標(biāo)簽。OpenIE設(shè)置是比Standard-IE設(shè)置更高級(jí)和具有挑戰(zhàn)性的情境。在此設(shè)置中,我們不會(huì)向ChatGPT提供任何候選標(biāo)簽,僅依賴其理解任務(wù)描述、提示和輸入文本的能力來(lái)生成預(yù)測(cè)。我們的目標(biāo)是評(píng)估ChatGPT生成合理事實(shí)知識(shí)的能力。實(shí)驗(yàn)結(jié)果對(duì)比的模型包括BERT、RoBERTa和每個(gè)任務(wù)的SOTA模型。

實(shí)驗(yàn)結(jié)果及結(jié)論

1)Standard-IE設(shè)置

79212368-ee6f-11ed-90ce-dac502259ad0.png

主要結(jié)論:
1)在大部分情況下,ChatGPT的性能與BERT類模型和SOTA模型的性能差距較大;
2)在簡(jiǎn)單任務(wù),如entity typing和relation classification問(wèn)題下,ChatGPT的性能較好。

2)Open-IE設(shè)置

79437b16-ee6f-11ed-90ce-dac502259ad0.png

主要結(jié)論:
ChatGPT在開放式信息抽取設(shè)置下,輸出的結(jié)果較為令人滿意,在很多任務(wù)上能夠在大多數(shù)情況下輸出人類認(rèn)可的結(jié)果。這說(shuō)明ChatGPT已經(jīng)學(xué)習(xí)了很多正確且可以合理輸出的常識(shí)知識(shí)。

3)可解釋性

795d82fe-ee6f-11ed-90ce-dac502259ad0.png

主要結(jié)論:
通過(guò)ChatGPT和人工對(duì)給出的判斷理由進(jìn)行標(biāo)注,我們發(fā)現(xiàn)ChatGPT輸出的解釋非??煽?,絕大多數(shù)情況下,人類與ChatGPT都認(rèn)為給出的理由是合理的。以上數(shù)據(jù)表明,ChatGPT對(duì)于自己預(yù)測(cè)的解釋可信度較高。

4)校準(zhǔn)度

79716972-ee6f-11ed-90ce-dac502259ad0.png

798c23b6-ee6f-11ed-90ce-dac502259ad0.png

主要結(jié)論:
1)表6展示的是各個(gè)模型預(yù)測(cè)的置信度,可以看出,BERT類模型和ChatGPT對(duì)于自己的預(yù)測(cè)都十分自信,均給出了很高的置信度。相比而言,因?yàn)镃hatGPT在Standard-IE中其性能不佳,所以給出這么高的置信度表明模型有很嚴(yán)重的過(guò)度自信傾向。同時(shí),模型對(duì)于預(yù)測(cè)錯(cuò)誤的樣本,置信度明顯較低。也就是說(shuō),當(dāng)模型給出的預(yù)測(cè)置信度較低時(shí),應(yīng)該對(duì)預(yù)測(cè)結(jié)果進(jìn)行校驗(yàn)。
2)表7通過(guò)評(píng)估校準(zhǔn)度的指標(biāo)ECE,我們可以明顯看出ChatGPT有最低的校準(zhǔn)度,即預(yù)測(cè)置信度偏高,過(guò)度自信問(wèn)題嚴(yán)重。

5)忠實(shí)度

799ffc2e-ee6f-11ed-90ce-dac502259ad0.png

主要結(jié)論:
通過(guò)領(lǐng)域?qū)<覍?duì)模型輸出解釋和輸入原文的對(duì)比,進(jìn)行了人工的忠實(shí)度度量。我們發(fā)現(xiàn),ChatGPT的解釋是非常忠實(shí)于原文的,基本沒(méi)有在給定上下文的情況下,通過(guò)編造理由進(jìn)行預(yù)測(cè)的行為。

總結(jié)

本文聚焦于ChatGPT在各種信息抽取任務(wù)上的系統(tǒng)性評(píng)測(cè)。針對(duì)于7個(gè)細(xì)粒度信息抽取任務(wù)和14個(gè)數(shù)據(jù)集,從模型性能、可解釋性、校準(zhǔn)度和忠實(shí)度這四個(gè)角度,設(shè)計(jì)了15個(gè)指標(biāo)(10個(gè)從ChatGPT自動(dòng)獲取的指標(biāo),5個(gè)領(lǐng)域?qū)<覙?biāo)注的指標(biāo)),對(duì)ChatGPT進(jìn)行了全面評(píng)估。實(shí)驗(yàn)結(jié)果表明,ChatGPT在標(biāo)準(zhǔn)IE設(shè)置下,性能與有監(jiān)督模型有很大差距。

但是,ChatGPT在OpenIE的場(chǎng)景下輸出非常符合人類預(yù)期。同時(shí),通過(guò)領(lǐng)域?qū)<覙?biāo)注表明,ChatGPT可以對(duì)自己的預(yù)測(cè)結(jié)果給出可靠的解釋,這表明ChatGPT有極強(qiáng)的解釋能力。但是ChatGPT會(huì)對(duì)自己的預(yù)測(cè)過(guò)度自信,給出非常高的預(yù)測(cè)置信度,從而導(dǎo)致較低的校準(zhǔn)度。

最后,本文還驗(yàn)證了ChatGPT的決策非常忠實(shí)于原文,即不會(huì)通過(guò)虛構(gòu)來(lái)解決或者解釋問(wèn)題。本文說(shuō)明,ChatGPT在信息抽取領(lǐng)域仍然有很多的改進(jìn)角度和提升空間。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3121

    瀏覽量

    48663
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1201

    瀏覽量

    24622
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1547

    瀏覽量

    7382

原文標(biāo)題:通過(guò)準(zhǔn)確性、可解釋性、校準(zhǔn)度和忠實(shí)度,對(duì)ChatGPT的能力進(jìn)行全面評(píng)估

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的評(píng)測(cè)

    是否與事實(shí)或邏輯相符;以及推理過(guò)程的完整性,即模型解題過(guò)程中是否提供了完整的推理鏈或證據(jù)支持。 摘要生成類評(píng)測(cè)任務(wù):考察大語(yǔ)言模型在內(nèi)容概括、觀點(diǎn)提煉和
    發(fā)表于 05-07 17:12

    【《時(shí)間序列與機(jī)器學(xué)習(xí)》閱讀體驗(yàn)】+ 時(shí)間序列的信息提取

    利用這些信息來(lái)建立時(shí)間序列模型,可見(jiàn)信息提取是一個(gè)關(guān)鍵的步驟。 本章第一小節(jié)直接引入了特征工程定義: 特征工程(Feature Engineering)是將數(shù)據(jù)轉(zhuǎn)換為更好地表示潛在問(wèn)題的特征,從而
    發(fā)表于 08-14 18:00

    【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】時(shí)間序列的信息提取

    本章主講時(shí)間序列的信息提取,章節(jié)中有許多概念定義和數(shù)學(xué)公式,并配有Python代碼演示,細(xì)細(xì)品讀與理解動(dòng)手演練,還是很開拓思維視野的。下面以筆記形式進(jìn)行展開。 時(shí)間序列的信息提取是時(shí)間序列分析的一
    發(fā)表于 08-17 21:12

    關(guān)于頻率變化的正弦波幅值信息提取

    有一個(gè)近似正弦波的信號(hào),信號(hào)頻率從10MHz到40MHz變化,信號(hào)的幅值也變化,變化的幅度200mV到800mV之間?,F(xiàn)在想把這個(gè)信號(hào)的幅值信息提取出來(lái),提取出來(lái)的信號(hào)與其頻率無(wú)關(guān)
    發(fā)表于 12-19 09:25

    NLPIR文本信息提取方面的優(yōu)勢(shì)介紹

    介紹:1、確定要進(jìn)行信息提取的知識(shí)本體。2、為每一個(gè)目標(biāo)知識(shí)點(diǎn)設(shè)立足夠的訓(xùn)練語(yǔ)料,或是抽取足夠的編寫規(guī)則3、利用機(jī)器學(xué)習(xí)的方法,訓(xùn)練語(yǔ)料和規(guī)則的基礎(chǔ)上,建立模型。 構(gòu)建知識(shí)圖譜最重要的環(huán)節(jié)
    發(fā)表于 09-12 15:33

    不到1分鐘開發(fā)一個(gè)GPT應(yīng)用!各路大神瘋狂整活,網(wǎng)友:ChatGPT就是新iPhone

    能力仍然是不可替代的。 此外,ChatGPT語(yǔ)言模型的應(yīng)用也需要大量的數(shù)據(jù)和算力支持,以及專業(yè)的技術(shù)人員進(jìn)行開發(fā)和維護(hù)。因此,雖然ChatGPT
    發(fā)表于 11-19 12:06

    基于VB6.0的點(diǎn)陣字模信息提取方法

    摘要:提出通過(guò)顏色法提取像素點(diǎn)的漢字點(diǎn)陣字模信息提取方法,給出基于VB6.0的系統(tǒng)控件設(shè)置及流程實(shí)現(xiàn)方法。與基于內(nèi)碼法的漢字點(diǎn)陣提取方法的比較結(jié)果表明,該方法能夠方便
    發(fā)表于 07-16 11:20 ?67次下載

    GPS定位信息提取及應(yīng)用

    描述了GPS與手持終端串口通信的方法,并在WinCE6.0操作系統(tǒng)下提取GPS的定位信息,采用NMEA-0183 通信協(xié)議中的RMC數(shù)據(jù)格式進(jìn)行解析。簡(jiǎn)述了GIS概念,并介紹了GPSGIS
    發(fā)表于 07-06 16:46 ?67次下載

    短時(shí)傅立葉變換陣列聲波信息提取中的應(yīng)用

    短時(shí)傅立葉變換陣列聲波信息提取中的應(yīng)用。
    發(fā)表于 01-15 15:17 ?9次下載

    脈沖多普勒雷達(dá)識(shí)別中的信號(hào)調(diào)制信息提取

    脈沖多普勒雷達(dá)識(shí)別中的信號(hào)調(diào)制信息提取,下來(lái)看看
    發(fā)表于 12-24 23:21 ?13次下載

    基于FPGA的圖像信息提取設(shè)計(jì)及仿真

    信息提取模塊,并且XST(Xilinx官方綜合工具)以及Synplify pro兩個(gè)綜合環(huán)境下進(jìn)行了仿真驗(yàn)證。通過(guò)對(duì)比仿真結(jié)果的差異,嘗試分析設(shè)計(jì)的寄存器傳輸級(jí)視圖(RTL視圖),并找出了影響狀態(tài)機(jī)工作的關(guān)鍵要素。強(qiáng)調(diào)了代碼風(fēng)格對(duì)FPGA設(shè)計(jì)的重要性。
    發(fā)表于 11-17 06:04 ?2228次閱讀
    基于FPGA的圖像<b class='flag-5'>信息提取</b>設(shè)計(jì)及仿真

    散亂點(diǎn)云數(shù)據(jù)特征信息提取算法

    的特征提取不僅可以更好地刻畫三維模型特征,并且其模型重建、點(diǎn)云分割、對(duì)稱性檢測(cè)以及點(diǎn)云配準(zhǔn)等。方面起到一定的作用。特征
    發(fā)表于 01-30 16:35 ?0次下載
    散亂點(diǎn)云數(shù)據(jù)特征<b class='flag-5'>信息提取</b>算法

    ChatGPT電磁領(lǐng)域的能力到底有多強(qiáng)?

    ChatGPT簡(jiǎn)介ChatGPT(GenerativePre-trainedTransformer)是由OpenAI開發(fā)的一個(gè)包含了1750億個(gè)參數(shù)的大型自然語(yǔ)言處理
    的頭像 發(fā)表于 02-02 15:10 ?1203次閱讀
    <b class='flag-5'>ChatGPT</b><b class='flag-5'>在</b>電磁領(lǐng)域的<b class='flag-5'>能力</b>到底有多強(qiáng)?

    大型語(yǔ)言模型的應(yīng)用

    該領(lǐng)域。在過(guò)去幾年中,LLM 的規(guī)模每年增加 10 倍,而且隨著這些模型的復(fù)雜程度和規(guī)模的增加,其性能也不斷發(fā)展。 大型語(yǔ)言模型現(xiàn)在正在為
    的頭像 發(fā)表于 07-05 10:27 ?2029次閱讀

    ChatGPT大型語(yǔ)言模型的出現(xiàn)會(huì)帶來(lái)哪些風(fēng)險(xiǎn)

    近日,美智庫(kù)蘭德公司高級(jí)工程師克里斯托弗·莫頓(Christopher Mouton)C4ISRNET網(wǎng)站撰文,分析ChatGPT大型語(yǔ)言模型
    發(fā)表于 08-04 11:44 ?470次閱讀