1. 總述
關(guān)系抽取(Relation Extraction, RE)是從純文本中提取未知關(guān)系事實(shí),是自然語(yǔ)言處理領(lǐng)域非常重要的一項(xiàng)任務(wù)。過(guò)去的關(guān)系抽取方法主要將注意力集中于抽取單個(gè)實(shí)體對(duì)在某個(gè)句子內(nèi)反映的關(guān)系,然而單句關(guān)系抽取在實(shí)踐中受到不可避免的限制:在真實(shí)場(chǎng)景如醫(yī)療、金融文檔中,有許多關(guān)系事實(shí)是蘊(yùn)含在文檔中不同句子的實(shí)體對(duì)中的,且文檔中的多個(gè)實(shí)體之間,往往存在復(fù)雜的相互關(guān)系。如下圖所示:
圖中包括了文章中的三個(gè)關(guān)系事實(shí)(從文檔標(biāo)注的諸多關(guān)系事實(shí)中采樣得到),其中涉及這些關(guān)系事實(shí)的命名實(shí)體用彩色著色,其它命名實(shí)體用下劃線(xiàn)標(biāo)出。與句子級(jí)相比,文檔級(jí)關(guān)系抽取中的文本要長(zhǎng)得多,并且包含更多的實(shí)體, 這使得文檔級(jí)關(guān)系抽取更加困難。其中(Maryland, country, US)、(Baltimore, located_in, Maryland) 和 (Eldersburg, located_in, Maryland)三組triples中的實(shí)體在同一個(gè)句子中的出現(xiàn),這種句內(nèi)關(guān)系相對(duì)容易識(shí)別。然而,跨句實(shí)體之間的關(guān)系識(shí)別更具挑戰(zhàn)性, 例如,關(guān)系事實(shí)(Baltimore,country,U.S.)和(Eldersburg,country,U.S.)中的相關(guān)實(shí)體并沒(méi)有出現(xiàn)在同一個(gè)句子中并且需要長(zhǎng)距離依賴(lài), 具體來(lái)說(shuō),多個(gè)三元組之間的相互依賴(lài)是有利的,可以為實(shí)體多的情況下的關(guān)系分類(lèi)提供指導(dǎo)。例如,如果句內(nèi)關(guān)系 (Maryland, country, US) 已被識(shí)別,則{US} 不可能處于任何 person-social 關(guān)系中,例如"is the father of." 此外,根據(jù){Eldersburg} 位于{Maryland} 和{Maryland} 屬于{US} 的三元組,我們可以推斷{Eldersburg} 屬于{US} . 如上所述,每個(gè)關(guān)系三元組可以向同一文本中的其他關(guān)系三元組提供信息。
文檔級(jí)關(guān)系抽取主要面臨以下三個(gè)挑戰(zhàn):
1.相同關(guān)系會(huì)出現(xiàn)在多個(gè)句子。在文檔級(jí)關(guān)系抽取中,單一關(guān)系可能出現(xiàn)在多個(gè)輸入的句子中,因此模型需要依賴(lài)多個(gè)句子進(jìn)行關(guān)系推斷。
2.相同實(shí)體會(huì)具有多個(gè)指稱(chēng)。在復(fù)雜的文檔中,同一個(gè)實(shí)體具有各種各樣的指稱(chēng),因此模型需要聚合不同的指稱(chēng)學(xué)習(xí)實(shí)體表示。
3.不同三元組之間需要信息交互。文檔包含多個(gè)實(shí)體關(guān)系三元組,不同的實(shí)體關(guān)系三元組之間存在邏輯關(guān)聯(lián),因此模型需要捕捉同一篇文檔中三元組之間的信息交互。
然而先前的基于graph或基于transformer的模型僅單獨(dú)地使用實(shí)體對(duì),而未考慮關(guān)系三元組之間的全局信息。本文創(chuàng)新性地提出DocuNet模型,首次將文檔級(jí)關(guān)系抽取任務(wù)類(lèi)比于計(jì)算機(jī)視覺(jué)中的語(yǔ)義分割任務(wù)。DocuNet模型利用編碼器模塊捕獲實(shí)體的上下文信息,并采用U-shaped分割模塊在image-style特征圖上捕獲三元組之間的全局相互依賴(lài)性,通過(guò)預(yù)測(cè)實(shí)體級(jí)關(guān)系矩陣來(lái)捕獲local和global信息以增強(qiáng)文檔級(jí)關(guān)系抽取。實(shí)驗(yàn)結(jié)果表明,我們的方法可以在三個(gè)基準(zhǔn)數(shù)據(jù)集DocRED,CDR和GDA上獲得SOTA性能。
2.方法
具體來(lái)說(shuō),DocuNet模型分為三個(gè)模塊:
(1)Encoder Module
我們將triple抽取視為sequence-to-sequence的任務(wù),以更好地對(duì)實(shí)體和關(guān)系之間的交叉依賴(lài)進(jìn)行建模。我們將輸入文本和輸出三元組定義為源和目標(biāo)序列。源序列僅由輸入句子的標(biāo)記組成,例如“[CLS] The United States President Trump was raised in the borough of Queens ...[SEP]”。我們連接由特殊標(biāo)記 ”< e >” 和 ”< /e >”分隔的每個(gè)實(shí)體/關(guān)系的三元組作為目標(biāo)序列。
其中是實(shí)體感知注意力的注意力權(quán)重,對(duì)于矩陣中的每個(gè)實(shí)體,它們的相關(guān)性由一維特征向量捕獲。
(2)U-shaped Segmentation Module
三元組之間存在局部語(yǔ)義依賴(lài),語(yǔ)義分割中的CNN可以促進(jìn)感受野中實(shí)體對(duì)之間的局部信息交換。文檔級(jí)RE還需要全局信息來(lái)推斷三元組之間的關(guān)系,語(yǔ)義分割模塊中的下采樣和上采樣可以擴(kuò)大當(dāng)前實(shí)體pair對(duì)嵌入的感受野,能夠增強(qiáng)全局隱式推理:
我們把實(shí)體級(jí)關(guān)系矩陣作為D-channel圖像,我們將文檔級(jí)關(guān)系預(yù)測(cè)公式化為像素級(jí)掩碼, 其中N是從所有數(shù)據(jù)集樣本中統(tǒng)計(jì)出的最大實(shí)體數(shù)。
(3)Classification Module
給定實(shí)體pair的特征表示和實(shí)體級(jí)關(guān)系矩陣Y,我們使用前饋神經(jīng)網(wǎng)絡(luò)將它們映射到隱藏表示z。然后,我們通過(guò)雙線(xiàn)性函數(shù)獲得實(shí)體pair之間關(guān)系預(yù)測(cè)的概率表示如下:
由于觀(guān)察到 RE 存在不平衡關(guān)系分布(許多實(shí)體對(duì)具有 NA 的關(guān)系),我們引入了一種平衡的 softmax 方法進(jìn)行訓(xùn)練:
3. 實(shí)驗(yàn)
(1)數(shù)據(jù)集
為了驗(yàn)證DocuNet的效果,我們?cè)谌齻€(gè)文檔級(jí)關(guān)系抽取數(shù)據(jù)集上評(píng)測(cè),數(shù)據(jù)集具體分析如下所示:
(2)實(shí)驗(yàn)結(jié)果
由下面實(shí)驗(yàn)結(jié)果表明,DocuNet比以往的文檔級(jí)關(guān)系抽取方法效果更佳。
4. 總結(jié)與展望
在本文中,我們把文檔級(jí)關(guān)系抽取任務(wù)看作語(yǔ)義分割來(lái)求解,直接給出了如何將 UNet 應(yīng)用于文檔級(jí) RE 的解決方案,實(shí)驗(yàn)結(jié)果表明U-shaped模塊能有效得理解局部上下文和全局相互依賴(lài)性。目前結(jié)果表明U-shaped模塊中的卷積學(xué)習(xí)了 RE 三元組之間的相互作用,但仍U-shaped模塊的推理作用尚是隱式的,未來(lái)對(duì)U-shaped模塊進(jìn)一步的可視化分析有助于我們加強(qiáng)理解其是如何做三元組之間推理的。我們的方法證實(shí)了語(yǔ)義分割模塊在處理RE中有效性,仍需要更多的工作去探索U-shaped模塊在如aspect-based sentiment analysis等其他nlp任務(wù)上的應(yīng)用。
-
語(yǔ)義
+關(guān)注
關(guān)注
0文章
21瀏覽量
8656 -
文本
+關(guān)注
關(guān)注
0文章
118瀏覽量
17057
原文標(biāo)題:【IJCAI2021】長(zhǎng)文本知識(shí)抽?。夯谡Z(yǔ)義分割的文檔級(jí)三元組關(guān)系抽取
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論