0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何統(tǒng)一各種信息抽取任務(wù)的輸入和輸出

深度學(xué)習(xí)自然語言處理 ? 來源:圓圓的算法筆記 ? 作者:圓圓的算法筆記 ? 2022-09-20 15:25 ? 次閱讀

信息抽取任務(wù)包括命名實(shí)體識別(NER)、關(guān)系抽取(RE)、事件抽取(EE)等各種各樣的任務(wù)。不同的信息抽取任務(wù)針對的任務(wù)不同,希望得到的輸出也不同。例如下面的例子中,對于NER任務(wù),需要識別Steve是PER、Apple是ORG;而對于關(guān)系抽取任務(wù),則需要識別出Steve和Apple是Work For的關(guān)系。此外,不同場景的同一個信息抽取任務(wù)的輸出可能也是不同的。

33d9fc38-37f1-11ed-ba43-dac502259ad0.png

目前業(yè)內(nèi)比較常見的做法是針對每個場景的每種信息抽取任務(wù),分別獨(dú)立的訓(xùn)練一個模型。這種方法成本很高,每種任務(wù)、每種場景都要建立模型。此外,獨(dú)立的訓(xùn)練模型導(dǎo)致不同任務(wù)之間無法共享知識,沒有發(fā)揮出數(shù)據(jù)和模型的全部能力。

中科院、百度在ACL 2022中提出了一種可以實(shí)現(xiàn)統(tǒng)一建模各類信息抽取任務(wù)的框架UIE,在4種信息檢索任務(wù)的13個數(shù)據(jù)集上都取得了顯著效果。

1 統(tǒng)一多種信息抽取任務(wù)

要想實(shí)現(xiàn)使用一個模型解決多種信息抽取任務(wù)的目標(biāo),一個核心問題是如何統(tǒng)一各種信息抽取任務(wù)的輸入和輸出。作者提出所有信息抽取任務(wù)都可以抽象成SpottingAssociating兩個步驟:在Spotting步驟中,確定輸入文本中的實(shí)體以及該實(shí)體對應(yīng)的實(shí)體類型;在Associating中,建立兩個實(shí)體之間的關(guān)系。

例如下面是Steve became CEO of Apple in 1997這句話使用上述方法抽象出來的描述語言。藍(lán)色的代表關(guān)系抽取,紅色的代表事件抽取,其他的是命名實(shí)體識別。首先能夠識別出person、organization、time三種實(shí)體。此外Steve可以識別出work for的關(guān)系,而事件以became作為start-position,關(guān)聯(lián)employee、employer、time。

3403d364-37f1-11ed-ba43-dac502259ad0.png

通過上述方法,可以實(shí)現(xiàn)將所有信息抽取任務(wù)都抽象為相同結(jié)構(gòu)的語言描述,為后續(xù)的多任務(wù)統(tǒng)一建模打下了基礎(chǔ)。

2 基于prompt的多任務(wù)統(tǒng)一建模

基于上面的關(guān)系抽取統(tǒng)一描述,本文提出了UIE框架,在輸入側(cè)構(gòu)造每個任務(wù)structural schema instructor (SSI),以及原始文本,使用Encoder編碼后,使用Decoder解碼統(tǒng)一的信息抽取語言描述。整個過程如下圖所示。

3430638e-37f1-11ed-ba43-dac502259ad0.png

仍然以上面文本為例,輸入由SSL原始文本組成。對于關(guān)系抽取任務(wù),SSL對應(yīng)的是[spot] person [asso] word for。這會作為一個前綴prompt,用來指導(dǎo)模型根據(jù)特定的任務(wù)進(jìn)行文本生成。而對于NER任務(wù),SSL對應(yīng)的是[spot] person [spot] organization [spot] time。SSL后面接一個[text]標(biāo)識符以及原來的文本。整體的輸入文本拼接模式如下:

34525494-37f1-11ed-ba43-dac502259ad0.png

上述文本會通過Encoder進(jìn)行編碼,然后利用Decoder進(jìn)行文本生成,生成的目標(biāo)文本即為根據(jù)信息抽取的label生成的統(tǒng)一描述。在具體的模型結(jié)構(gòu)上,BART、T5等生成式模型,都可以作為框架的主模型的backbone。這種基于前綴的生成方式,也可以比較容易的適應(yīng)到一個新的信息抽取任務(wù)上。

3 模型訓(xùn)練

為了訓(xùn)練上面說的從SSL+文本到描述的生成式模型,文中采用了三個預(yù)訓(xùn)練任務(wù)聯(lián)合學(xué)習(xí)。構(gòu)造了3種數(shù)據(jù),分別是SSL+原始文本到結(jié)構(gòu)化文本的pair對、單獨(dú)的原始文本以及單獨(dú)的結(jié)構(gòu)化文本。第一個任務(wù)是SSL+原始文本到結(jié)構(gòu)化文本的匹配關(guān)系,匹配的label為1,不匹配label為0,label為0的樣本是通過隨機(jī)替換spot或associate實(shí)現(xiàn)的。第二個任務(wù)是使用結(jié)構(gòu)化文本訓(xùn)練Decoder,這一步是為了讓Decoder適應(yīng)結(jié)構(gòu)化文本的語言形式。第三個任務(wù)是在訓(xùn)練過程中引入一般的mask language modeling任務(wù),目的是防止模型在訓(xùn)練過程中丟失了文本原始的語義信息。最終的預(yù)訓(xùn)練loss是下面3個loss的和:

3470d8d8-37f1-11ed-ba43-dac502259ad0.png

預(yù)訓(xùn)練好的模型可以在下游任務(wù)進(jìn)行finetune以應(yīng)用到各類任務(wù)上。同時作者引入rejection mechanism,在結(jié)構(gòu)化文本中插入一些在原始輸入中沒有的實(shí)體以及NULL,讓模型可以通過生成NULL避免被誤導(dǎo)生成不正確的結(jié)果。

34b4b792-37f1-11ed-ba43-dac502259ad0.png

4 實(shí)驗(yàn)結(jié)果

UIE框架在信息抽取任務(wù)中的整體效果如下,主要對比了UIE和各個數(shù)據(jù)集上各類SOTA模型的效果。可以看到在大部分?jǐn)?shù)據(jù)集上,UIE的效果都是最優(yōu)的。對比沒有經(jīng)過預(yù)訓(xùn)練的模型(SEL),UIE取得非常顯著的提升,通過將多任務(wù)使用統(tǒng)一框架聯(lián)合訓(xùn)練,實(shí)現(xiàn)了知識的共享和效果的互相促進(jìn)。

35247a28-37f1-11ed-ba43-dac502259ad0.png

除了在正常的有監(jiān)督任務(wù)上效果外,本文也對小樣本場景的效果進(jìn)行了實(shí)驗(yàn),主要對比了使用T5模型finetune和使用UIE方法的效果,UIE在小樣本上的效果非常顯著。

3560cc80-37f1-11ed-ba43-dac502259ad0.png

5 開源代碼

與此論文相應(yīng)的開源代碼發(fā)布在百度PaddleNLP上https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie。

35cc9ee2-37f1-11ed-ba43-dac502259ad0.png

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    6808

    瀏覽量

    88743
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3112

    瀏覽量

    48660
  • NER
    NER
    +關(guān)注

    關(guān)注

    0

    文章

    7

    瀏覽量

    6201

原文標(biāo)題:一個模型解決所有信息抽取任務(wù)?。êa)

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    文本信息抽取的分階段詳細(xì)介紹

    文本信息抽取作為監(jiān)督學(xué)習(xí)的項具體運(yùn)用。文本信息抽取可以分為兩個階段:學(xué)習(xí)階段和抽取階段。其過程
    發(fā)表于 09-16 15:03

    基于子樹廣度的Web信息抽取

    提出種新的網(wǎng)頁信息抽取方法,基于子樹的廣度可不加區(qū)分地對不同科技文獻(xiàn)網(wǎng)站的頁面信息進(jìn)行自動抽取。對大量科技文獻(xiàn)網(wǎng)站進(jìn)行
    發(fā)表于 03-28 10:03 ?14次下載

    基于重復(fù)模式的自動Web信息抽取

    互聯(lián)網(wǎng)上存在很多在線購物網(wǎng)站,抽取這類網(wǎng)站頁面里的商品信息可以為電子商務(wù)、Web查詢提供增值服務(wù)。該文針對這類網(wǎng)站提出種自動的Web信息抽取
    發(fā)表于 04-10 09:33 ?11次下載

    基于XML的WEB信息抽取模型設(shè)計

    對現(xiàn)有的信息抽取技術(shù)和XML 技術(shù)加以研究,在此基礎(chǔ)上提出了適合XML 的通用的web 信息抽取模型,它能夠把Web 上的數(shù)據(jù)抽取出來整合到
    發(fā)表于 12-22 13:56 ?17次下載

    基于WebHarvest的健康領(lǐng)域Web信息抽取方法

    針對Web信息抽取(WIE)技術(shù)在健康領(lǐng)域應(yīng)用的問題,提出了種基于WebHarvest的健康領(lǐng)域Web信息抽取方法。通過對不同健康網(wǎng)站的結(jié)
    發(fā)表于 12-26 13:44 ?0次下載

    節(jié)點(diǎn)屬性的海量Web信息抽取方法

    為解決大數(shù)據(jù)場景下從海量Web頁面中抽取有價值的信息,提出了種基于節(jié)點(diǎn)屬性與正文內(nèi)容的海量Web信息抽取方法。將Web頁面轉(zhuǎn)化為DOM樹表
    發(fā)表于 02-06 14:36 ?0次下載

    抽取式摘要方法中如何合理設(shè)置抽取單元?

    的核心問題。抽取式摘要則是文本摘要技術(shù)中效果穩(wěn)定,實(shí)現(xiàn)簡單的類方法,本文結(jié)合COLING 2020中抽取式摘要相關(guān)的兩篇最新工作,對抽取式摘要方法中如何合理設(shè)置
    的頭像 發(fā)表于 05-03 18:23 ?1590次閱讀
    <b class='flag-5'>抽取</b>式摘要方法中如何合理設(shè)置<b class='flag-5'>抽取</b>單元?

    了解信息抽取必須要知道關(guān)系抽取

    當(dāng)我們拿到信息抽取任務(wù),需要明確我們抽取的是什么,”今天天氣真冷“,我們要抽的天氣的狀態(tài)天氣-狀態(tài)-冷,而非 今天-氣候-冷(雖然也可
    的頭像 發(fā)表于 04-15 14:32 ?2018次閱讀
    了解<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>必須要知道關(guān)系<b class='flag-5'>抽取</b>

    開放域信息抽取和文本知識結(jié)構(gòu)化的3篇論文詳細(xì)解析

    開放域信息抽取信息抽取任務(wù)的另個分支任務(wù),其中
    的頭像 發(fā)表于 04-26 14:44 ?2667次閱讀
    開放域<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>和文本知識結(jié)構(gòu)化的3篇論文詳細(xì)解析

    面向知識圖譜的信息抽取

    摘要: 隨著大數(shù)據(jù)時代的到來,海量數(shù)據(jù)不斷涌現(xiàn),從中尋找有用信息,抽取對應(yīng)知識的需求變得越來越強(qiáng)烈。針對該需求,知識圖譜技術(shù)應(yīng)運(yùn)而生,并在實(shí)現(xiàn)知識互聯(lián)的過程中日益發(fā)揮重要作用。信息抽取
    發(fā)表于 03-22 16:59 ?837次閱讀
    面向知識圖譜的<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>

    實(shí)體關(guān)系抽取模型CasRel

    許多實(shí)驗(yàn)證明聯(lián)合學(xué)習(xí)方法由于考慮了兩個子任務(wù)之間的信息交互,大大提升了實(shí)體關(guān)系抽取的效果,所以目前針對實(shí)體關(guān)系抽取任務(wù)的研究大多采用聯(lián)合學(xué)習(xí)
    的頭像 發(fā)表于 07-21 14:11 ?3781次閱讀

    基于統(tǒng)一語義匹配的通用信息抽取框架USM

    信息提?。↖nformation Extraction,IE)需要提取句子中的實(shí)體、關(guān)系、事件等,其不同的任務(wù)具有多樣的抽取目標(biāo)和異質(zhì)的機(jī)構(gòu),因此,傳統(tǒng)的方法需要針對特定的任務(wù)進(jìn)行模型
    的頭像 發(fā)表于 01-16 10:21 ?1051次閱讀

    介紹信息抽取的大統(tǒng)方法USM

    信息抽取任務(wù)具有多樣的抽取目標(biāo)和異構(gòu)的結(jié)構(gòu),而傳統(tǒng)的模型需要針對特定的任務(wù)進(jìn)行任務(wù)設(shè)計和標(biāo)簽標(biāo)注
    的頭像 發(fā)表于 02-15 14:13 ?757次閱讀

    基于統(tǒng)一語義匹配的通用信息抽取框架-USM

    信息提?。↖nformation Extraction,IE)需要提取句子中的實(shí)體、關(guān)系、事件等,其不同的任務(wù)具有多樣的抽取目標(biāo)和異質(zhì)的機(jī)構(gòu),因此,傳統(tǒng)的方法需要針對特定的任務(wù)進(jìn)行模型
    的頭像 發(fā)表于 02-22 11:09 ?805次閱讀
    基于<b class='flag-5'>統(tǒng)一</b>語義匹配的通用<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>框架-USM

    Instruct-UIE:信息抽取統(tǒng)一大模型

    Instruct-UIE 統(tǒng)一信息抽取任務(wù)訓(xùn)練方法,可以融合不同類型任務(wù)以及不同的標(biāo)注規(guī)范,統(tǒng)一
    的頭像 發(fā)表于 04-25 10:46 ?1652次閱讀
    Instruct-UIE:<b class='flag-5'>信息</b><b class='flag-5'>抽取</b><b class='flag-5'>統(tǒng)一</b>大模型