0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何解決NER覆蓋和不連續(xù)問題

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:zenRRan ? 2021-09-08 10:48 ? 次閱讀

論文:A Span-Based Model for Joint Overlapped and DiscontinuousNamed Entity Recognition

鏈接:https://aclanthology.org/2021.acl-long.372.pdf

代碼:https://github.com/foxlf823/sodner

提取摘要

由于普通的NER問題被研究的透透的了,本文主要解決一種稍微復(fù)雜些問題:一種帶有覆蓋和不連續(xù)(Overlapped and Discontinuous)的命名實(shí)體識(shí)別任務(wù)。

而在這兩者研究上來說,前人只是要么解決覆蓋問題,要么解決不連續(xù)問題,但是本文提出一種聯(lián)合解決這兩種問題的span-based方法。

span-based方法昨天也提到過了,所以關(guān)于實(shí)體+關(guān)系抽取的任務(wù)都可以嘗試。

本文通過兩個(gè)步驟構(gòu)建模型:

通過列舉所有可能的text span來識(shí)別出實(shí)體片段(entity fragments);

在這些entity fragments上預(yù)測是兩種關(guān)系overlapping or succession。

這樣,我們不僅可以識(shí)別Discontinuous的實(shí)體,同時(shí)也可以對(duì)Overlapped的實(shí)體進(jìn)行雙重檢查。

通過上述方法輕松將NER裝換成RE(Relation Extraction)任務(wù)。最終實(shí)驗(yàn)在很多數(shù)據(jù)集上比如CLEF, GENIA andACE05上展現(xiàn)除了很強(qiáng)勁的性能。

該模型的步驟為

input一方面通過pre-train模型獲取word rep,一方面通過dependency parsing獲取句法信息

GCN集合LSTM的輸出和句法輸入,得到syntax-enhanced的新的表達(dá);

獲取所有span表示;

通過兩個(gè)MLP預(yù)測span是否為實(shí)體,以及實(shí)體時(shí)間是否有關(guān)系;

最后每個(gè)loss加上權(quán)重,為最終優(yōu)化目標(biāo)。

關(guān)鍵分類

AGGCN用來融入句法信息

attention-guided GCN (AGGCN)比普通GCN要強(qiáng)一些,所以這里選用該方法。傳統(tǒng)的GCN:

124ac384-1003-11ec-8fb8-12bb97331649.png

而AGGCN就是使用self-attention,替換以前的鄰接矩陣A,最后通過線性方法將multi head生成的結(jié)果合一:

12545908-1003-11ec-8fb8-12bb97331649.png

Span的表示

解碼先預(yù)測實(shí)體片段,再預(yù)測關(guān)系。

12860e4e-1003-11ec-8fb8-12bb97331649.png

解碼公式

損失計(jì)算

實(shí)驗(yàn)實(shí)驗(yàn)數(shù)據(jù)介紹

在數(shù)據(jù)上的表現(xiàn)

在其他數(shù)據(jù)上與前人的對(duì)比,雖然性能不如SOTA,但是這種Span-based方式和SOTA差不了多少,是個(gè)新穎的想法。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3032

    瀏覽量

    48360
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    481

    瀏覽量

    21935

原文標(biāo)題:ACL2021 | 一種巧妙解決NER覆蓋和不連續(xù)問題的方法

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    何解決電感的漏感問題

    電子發(fā)燒友網(wǎng)站提供《如何解決電感的漏感問題.docx》資料免費(fèi)下載
    發(fā)表于 09-02 14:48 ?0次下載

    BP神經(jīng)網(wǎng)絡(luò)在處理連續(xù)變量時(shí)的應(yīng)用

    BP神經(jīng)網(wǎng)絡(luò)(Backpropagation Neural Network)是一種多層前饋神經(jīng)網(wǎng)絡(luò),廣泛應(yīng)用于各種領(lǐng)域的數(shù)據(jù)建模和預(yù)測任務(wù)。然而,BP神經(jīng)網(wǎng)絡(luò)在處理連續(xù)變量時(shí)可能會(huì)遇到一些挑戰(zhàn)
    的頭像 發(fā)表于 07-03 10:19 ?229次閱讀

    PMP30921.1-4W 連續(xù)導(dǎo)通模式初級(jí)側(cè)調(diào)節(jié)反激式 PCB layout 設(shè)計(jì)

    電子發(fā)燒友網(wǎng)站提供《PMP30921.1-4W 連續(xù)導(dǎo)通模式初級(jí)側(cè)調(diào)節(jié)反激式 PCB layout 設(shè)計(jì).pdf》資料免費(fèi)下載
    發(fā)表于 05-22 15:16 ?0次下載
    PMP30921.1-4W <b class='flag-5'>不</b><b class='flag-5'>連續(xù)</b>導(dǎo)通模式初級(jí)側(cè)調(diào)節(jié)反激式 PCB layout 設(shè)計(jì)

    PMP31007.1-隔離式 12W 連續(xù)導(dǎo)通模式 (DCM) 反激式 PCB layout 設(shè)計(jì)

    電子發(fā)燒友網(wǎng)站提供《PMP31007.1-隔離式 12W 連續(xù)導(dǎo)通模式 (DCM) 反激式 PCB layout 設(shè)計(jì).pdf》資料免費(fèi)下載
    發(fā)表于 05-22 11:20 ?3次下載
    PMP31007.1-隔離式 12W <b class='flag-5'>不</b><b class='flag-5'>連續(xù)</b>導(dǎo)通模式 (DCM) 反激式 PCB layout 設(shè)計(jì)

    定義了一個(gè)結(jié)構(gòu)體,但是分配的地址連續(xù),為什么?

    定義了一個(gè)結(jié)構(gòu)體,但是分配的地址連續(xù),是KEIL的問題還是我的問題?
    發(fā)表于 04-26 08:12

    BOM與焊盤為什么匹配?

    何解決BOM與焊盤匹配的問題? ①同步更新BOM與焊盤設(shè)計(jì) 在設(shè)計(jì)變更時(shí),確保BOM和焊盤設(shè)計(jì)同步更新,避免信息不一致。
    的頭像 發(fā)表于 04-12 12:33 ?477次閱讀

    PCB設(shè)計(jì)阻抗連續(xù)的原因及解決方法

    一站式PCBA智造廠家今天為大家講講如何解決pcb設(shè)計(jì)阻抗連續(xù)的問題?解決PCB設(shè)計(jì)中的阻抗連續(xù)的方法。當(dāng)涉及到PCB(Printed
    的頭像 發(fā)表于 03-21 09:32 ?506次閱讀

    arcgis空間參考與數(shù)據(jù)框匹配如何解

    當(dāng)使用ArcGIS軟件進(jìn)行空間數(shù)據(jù)處理時(shí),經(jīng)常會(huì)遇到空間參考與數(shù)據(jù)框匹配的問題。這種匹配可能導(dǎo)致數(shù)據(jù)顯示不正確,分析結(jié)果不準(zhǔn)確,甚至引發(fā)其他錯(cuò)誤。本文將詳細(xì)介紹空間參考與數(shù)據(jù)框匹配的原因以及
    的頭像 發(fā)表于 02-25 11:17 ?9437次閱讀

    tasking生成的應(yīng)用程序SRE文件地址連續(xù)是怎么回事?

    我在做XC2234L的bootloader,將boot地址劃為0XC0 0000-0XC0 5000,APP地址為0XC05000起的所有地址,我做了一個(gè)小的APP程序,但是最后生成的SREC文件的地址連續(xù),地址從0XC05200直接跳到了0XC20000,請問這個(gè)要怎
    發(fā)表于 02-06 06:06

    何解決PCB設(shè)計(jì)總是有阻抗連續(xù)?

    如果傳輸線是各向同性的,那么只要信號(hào)在傳輸,就始終存在一個(gè)電流 I,而如果信號(hào)的輸出電壓為 V,在信號(hào)傳輸過程中,傳輸線就會(huì)等效成一個(gè)電阻,大小為 V/I,把這個(gè)等效的電阻稱為傳輸線的特性阻抗 Z。
    發(fā)表于 01-09 16:15 ?231次閱讀
    如<b class='flag-5'>何解</b>決PCB設(shè)計(jì)總是有阻抗<b class='flag-5'>不</b><b class='flag-5'>連續(xù)</b>?

    什么原因會(huì)導(dǎo)致ADP7118工作?如何解決?

    ,沒有異常。初步懷疑是ADP7118的問題,但是換了其他同樣封裝的LDO,現(xiàn)象相同,還是有一定幾率+5V產(chǎn)生。請問這是什么問題,如何解決,是不是應(yīng)該選擇具有軟啟動(dòng)功能的LDO?
    發(fā)表于 01-08 06:47

    增加擴(kuò)展芯片,如何解決51單片機(jī)端口不夠用的問題?

    為了實(shí)現(xiàn)51單片機(jī)的多功能控制,增加擴(kuò)展芯片要如何解決51單片機(jī)端口不夠用的情況?
    發(fā)表于 10-26 07:41

    解耦系統(tǒng)的局部阻抗連續(xù)膚淺風(fēng)險(xiǎn)評(píng)估方法

    今天看了一篇很有意思的文章《Utilizing Fine Line PCBs with High Density BGAs》,講的是PCB BGA高密度fanout帶來的阻抗連續(xù)。
    的頭像 發(fā)表于 10-25 14:38 ?554次閱讀
    解耦系統(tǒng)的局部阻抗<b class='flag-5'>不</b><b class='flag-5'>連續(xù)</b>膚淺風(fēng)險(xiǎn)評(píng)估方法

    何解決內(nèi)存碎片與內(nèi)存交換效率慢的問題

    內(nèi)存分頁 分段的好處是能產(chǎn)生連續(xù)的內(nèi)存空間,但是會(huì)出現(xiàn)大量內(nèi)存碎片與內(nèi)存交換效率低的問題 先思考一下怎么解決這兩個(gè)問題,內(nèi)存碎片是由多個(gè)連續(xù)的小物理內(nèi)存空間造成,如果把這些
    的頭像 發(fā)表于 10-09 16:57 ?837次閱讀
    如<b class='flag-5'>何解</b>決內(nèi)存碎片與內(nèi)存交換效率慢的問題

    emwin顯示文本被元件覆蓋何解決?

    例如我在(0,0)坐標(biāo)創(chuàng)建了一個(gè)100*100的TEXT的控件并設(shè)置了背景顏色,然后我想GUI_DispString在(50,50)的坐標(biāo)顯示一字符串,實(shí)際操作中,該字符串被TEXT控件覆蓋了,顯示不出來,我想把字符串疊在這個(gè)TEXT控件上需要怎么操作??
    發(fā)表于 09-28 06:30