0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NLP:現(xiàn)有聯(lián)合抽取工作的不足之處

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:深度學(xué)習(xí)的知識(shí)小 ? 2021-01-07 15:06 ? 次閱讀

這是一篇關(guān)于實(shí)體關(guān)系聯(lián)合抽取的工作。關(guān)于現(xiàn)有的聯(lián)合抽取工作,作者提出了兩點(diǎn)不足之處:

Feature Confusiong: 用于同樣的特征表示進(jìn)行NER和RE(關(guān)系分類)兩項(xiàng)任務(wù),可能會(huì)對(duì)模型的學(xué)習(xí)造成誤解;

現(xiàn)有的基于Table-Filling方法去完成聯(lián)合抽取的工作,會(huì)將表結(jié)構(gòu)轉(zhuǎn)化成一個(gè)序列結(jié)構(gòu),這樣導(dǎo)致丟失了重要的結(jié)構(gòu)信息。

因此本文的工作有以下特點(diǎn):

針對(duì)NER和RE,分別學(xué)習(xí)出不同的序列表示(sequence representations)和表格表示(table representations); 這兩種表示能分別捕獲任務(wù)相關(guān)的信息,同時(shí)作者還涉及了一種機(jī)制使他們彼此交互;

保持表格的結(jié)構(gòu),通過神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來捕捉二維表格中的結(jié)構(gòu)信息;同時(shí),引入BERT中的attention權(quán)重,進(jìn)行表格中元素表示的學(xué)習(xí)。

c796a5b0-5036-11eb-8b86-12bb97331649.png

模型的核心部分包括以下模塊:

Text Embedding: 對(duì)于一個(gè)輸入的包含n個(gè)words的句子,其詞向量、字符向量和BERT詞向量的共同構(gòu)成了每個(gè)word的表示。

Table Encoder: 目標(biāo)在于學(xué)出 N×N 表格下的向量表示,表格第i行第j列的向量表示,與句子中的第i個(gè)和第j個(gè)詞相對(duì)應(yīng),如Figure1所示。文中使用基于GRU結(jié)構(gòu)的MD-RNN(多維RNN)作為Text Encoder,在更新表格中當(dāng)前cell的信息時(shí),通過MDRNN融合其上下左右四個(gè)方向上的信息,從而利用了表格的結(jié)構(gòu)特點(diǎn);同時(shí)引入當(dāng)前cell所對(duì)應(yīng)的兩個(gè)詞在Sequence Encoder下的表示,使得Table Encoder和Sequence Encoder之間發(fā)生信息的交流;

c7f39a22-5036-11eb-8b86-12bb97331649.png

Sequence Encoder: Sequence Encoder的結(jié)構(gòu)與Transformer類似,不同之處在于將Transformer中的scaled dot-product attention 替換為文中提出的 table-guided attention。具體地,將Transformer中計(jì)算Q,K之間分值的過程直接替換為對(duì)應(yīng)兩個(gè)word在table中對(duì)應(yīng)的向量:

c8445e30-5036-11eb-8b86-12bb97331649.png

由于 T_ij 融合了四個(gè)方向上的信息,能夠更加充分的捕捉上下文信息以及詞與詞之間的關(guān)系,同時(shí)也使Table Encoder和Sequence Encoder之間產(chǎn)生了雙向的信息交流。

c89b028a-5036-11eb-8b86-12bb97331649.png

Exploit Pre-trained Attention Weights: Text Embeddings部分有用到BERT,因此將BERT中各個(gè)層上多頭attention每個(gè)頭上的atention權(quán)重堆疊起來,得到張量T l ∈ R N × N × ( L l × A l ) T^{l} in mathbb{R}^{N imes N imes (L^l imes A^l)} T和 Text Embedding中每個(gè)詞的表示,來構(gòu)成Table的初始輸入:

c8fcda28-5036-11eb-8b86-12bb97331649.png

c9423afa-5036-11eb-8b86-12bb97331649.png

作者通過在不同數(shù)據(jù)集上的實(shí)驗(yàn)證明了模型的有效性,并通過消融實(shí)驗(yàn)進(jìn)行了相關(guān)的分析。

責(zé)任編輯:xj

原文標(biāo)題:【EMNLP2020】用填表的方式進(jìn)行實(shí)體關(guān)系聯(lián)合抽取

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    585

    瀏覽量

    13418
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    481

    瀏覽量

    21932

原文標(biāo)題:【EMNLP2020】用填表的方式進(jìn)行實(shí)體關(guān)系聯(lián)合抽取

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    nlp邏輯層次模型的特點(diǎn)

    NLP(自然語言處理)邏輯層次模型是一種用于理解和生成自然語言文本的計(jì)算模型。它將自然語言文本分解為不同的層次,以便于計(jì)算機(jī)更好地處理和理解。以下是對(duì)NLP邏輯層次模型特點(diǎn)的分析: 詞匯層次 詞匯
    的頭像 發(fā)表于 07-09 10:39 ?189次閱讀

    nlp神經(jīng)語言和NLP自然語言的區(qū)別和聯(lián)系

    神經(jīng)語言(Neuro-Linguistic Programming,NLP) 神經(jīng)語言是一種心理學(xué)方法,它研究人類思維、語言和行為之間的關(guān)系。NLP的核心理念是,我們可以通過改變我們的思維方式和語言
    的頭像 發(fā)表于 07-09 10:35 ?560次閱讀

    nlp自然語言處理框架有哪些

    自然語言處理(Natural Language Processing,簡稱NLP)是計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域的一個(gè)重要分支,它致力于使計(jì)算機(jī)能夠理解和處理人類語言。隨著技術(shù)的發(fā)展,NLP領(lǐng)域出現(xiàn)了
    的頭像 發(fā)表于 07-09 10:28 ?293次閱讀

    nlp自然語言處理的主要任務(wù)及技術(shù)方法

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學(xué)領(lǐng)域的一個(gè)分支,它研究如何讓計(jì)算機(jī)能夠理解、生成和處理人類語言。NLP技術(shù)在許多領(lǐng)域都有廣泛
    的頭像 發(fā)表于 07-09 10:26 ?400次閱讀

    NLP技術(shù)在人工智能領(lǐng)域的重要性

    在自然語言處理(Natural Language Processing, NLP)與人工智能(Artificial Intelligence, AI)的交織發(fā)展中,NLP技術(shù)作為連接人類語言與機(jī)器
    的頭像 發(fā)表于 07-04 16:03 ?244次閱讀

    NLP模型中RNN與CNN的選擇

    NLP中的應(yīng)用場景、工作原理、優(yōu)缺點(diǎn),以及在選擇時(shí)應(yīng)考慮的關(guān)鍵因素,以期為讀者提供一個(gè)全面而深入的理解。
    的頭像 發(fā)表于 07-03 15:59 ?204次閱讀

    什么是自然語言處理 (NLP)

    自然語言處理(Natural Language Processing, NLP)是人工智能領(lǐng)域中的一個(gè)重要分支,它專注于構(gòu)建能夠理解和生成人類語言的計(jì)算機(jī)系統(tǒng)。NLP的目標(biāo)是使計(jì)算機(jī)能夠像人類一樣
    的頭像 發(fā)表于 07-02 18:16 ?577次閱讀

    特斯拉頻繁調(diào)價(jià),馬斯克解釋傳統(tǒng)經(jīng)銷商模式價(jià)格不穩(wěn)

    IT之家發(fā)現(xiàn),Whole Mars博客的Omar認(rèn)為特斯拉的定價(jià)策略缺乏連續(xù)性,Sawyer Merritt則指出,雖然定價(jià)更為透明,但這或許是特斯拉直銷模式的不足之處。
    的頭像 發(fā)表于 04-22 15:15 ?220次閱讀

    UART轉(zhuǎn)RS485電路的不足之處

    當(dāng)RE#為低時(shí),接收數(shù)據(jù); 當(dāng)RE#為高時(shí),禁止接收; 當(dāng)DE為高時(shí),發(fā)送數(shù)據(jù); 當(dāng)DE為低時(shí),禁止發(fā)送。 RO為接收輸出端,DI為發(fā)送輸入端。
    發(fā)表于 03-28 10:21 ?1291次閱讀
    UART轉(zhuǎn)RS485電路的<b class='flag-5'>不足之處</b>

    汽車轉(zhuǎn)向器軸承滑動(dòng)力測試深度解析

    軟件平臺(tái)采用了簡儀的銳視測控軟件平臺(tái),面向?qū)ο篁?qū)動(dòng)——FirmDrive,快速實(shí)現(xiàn)了AI CI同步采集,確保了力與位移的同步,消除了任何偏移,解決了原有PLC方案存在的不足之處
    發(fā)表于 03-07 11:24 ?299次閱讀
    汽車轉(zhuǎn)向器軸承滑動(dòng)力測試深度解析

    谷歌發(fā)布Pixel手機(jī)3月功能更新,優(yōu)化應(yīng)用屏幕共享和快速配對(duì)功能

    除對(duì)先前階段不足之處進(jìn)行修復(fù)和增強(qiáng)系統(tǒng)穩(wěn)定性外,谷歌還將重點(diǎn)放在了擴(kuò)大“圈選即搜”(Circle to Search)功能的覆蓋范圍、優(yōu)化應(yīng)用屏幕共享和Fast Pair等功能上。
    的頭像 發(fā)表于 03-05 10:10 ?503次閱讀

    什么是“車規(guī)級(jí)”?使用車規(guī)零件的不足之處分享

    車規(guī)和工規(guī),誰的要求高。普遍的認(rèn)為標(biāo)準(zhǔn)的高低順序是軍工 > 汽車 > 工業(yè) > 消費(fèi)電子。但個(gè)人卻不不能完全接受這個(gè)順序。
    發(fā)表于 12-22 16:47 ?475次閱讀
    什么是“車規(guī)級(jí)”?使用車規(guī)零件的<b class='flag-5'>不足之處</b>分享

    請(qǐng)問一個(gè)平臺(tái)的多個(gè)sharc 21469如何聯(lián)合工作?

    你好, 請(qǐng)問一個(gè)平臺(tái)的多個(gè)sharc 21469如何聯(lián)合工作。根據(jù)adi的spec有l(wèi)ink port可以將多個(gè)sharc連接到一起,那么他們的工作方式是各自獨(dú)立并行工作還是某種
    發(fā)表于 11-29 06:39

    介紹一種前饋形式的振蕩控制器(下)

    上篇跟大家聊到了posicast的不足之處在于,對(duì)于系統(tǒng)的模型不匹配敏感,其實(shí)有個(gè)簡單的解決辦法:把兩個(gè)posicast串聯(lián)在一起。
    的頭像 發(fā)表于 11-07 17:14 ?555次閱讀
    介紹一種前饋形式的振蕩控制器(下)

    寄生參數(shù)抽取只會(huì)StarRC不會(huì)QRC?

    寄生參數(shù)抽取 只會(huì)StarRC 不會(huì)QRC?本章節(jié)講解下QRC抽取寄生參數(shù)。
    的頭像 發(fā)表于 10-11 16:01 ?3207次閱讀
    寄生參數(shù)<b class='flag-5'>抽取</b>只會(huì)StarRC不會(huì)QRC?