0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

知識圖譜與訓(xùn)練模型相結(jié)合和命名實體識別的研究工作

深度學習自然語言處理 ? 來源:復(fù)旦DISC ? 作者:朱 琦 ? 2021-03-29 17:06 ? 次閱讀

本次將分享ICLR2021中的三篇投遞文章,涉及知識圖譜與訓(xùn)練模型相結(jié)合和命名實體識別(NER)的研究工作。

文章概覽

知識圖譜和語言理解的聯(lián)合預(yù)訓(xùn)練(JAKET: Joint Pre-training of Knowledge Graph and Language Understanding)。該論文提出了知識圖譜和文本的聯(lián)合訓(xùn)練框架,通過將RoBERTa作為語言模型將上下文編碼信息傳遞給知識圖譜,同時借助圖注意力模型將知識圖譜的結(jié)構(gòu)化信息反饋給語言模型,從而實現(xiàn)知識圖譜模型和語言模型的循環(huán)交替訓(xùn)練,使得在知識圖譜指導(dǎo)下的預(yù)訓(xùn)練模型能夠快速適應(yīng)新領(lǐng)域知識。

語言模型是開放知識圖譜(Language Models are Open Knowledge Graphs)。該論文提出了能夠自動化構(gòu)建知識圖譜的Match and Map(MAMA)模型,借助預(yù)先訓(xùn)練好的語言模型中的注意力權(quán)重來提取語料中的實體間關(guān)系,并基于已有的schema框架自動化構(gòu)建開放性知識圖譜。

命名實體識別中未標記實體問題的研究(Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition)。論文探究了未標注實體問題對NER實驗指標的影響,并提出了一種負采樣策略,通過改進損失函數(shù),將為標注實體當作負樣本訓(xùn)練,從而極大改善了未標注實體問題對NER實驗指標的影響。

論文細節(jié)

1

論文動機

現(xiàn)有的將知識圖譜與預(yù)訓(xùn)練模型相結(jié)合的研究工作還存在挑戰(zhàn):當預(yù)先訓(xùn)練好的模型與新領(lǐng)域中的知識圖譜結(jié)合微調(diào)時,語言模型難以高效學習到結(jié)構(gòu)化的實體關(guān)系語義信息。同時知識圖譜的理解推理能力也需要上下文的輔助?;诖?,論文提出了一個聯(lián)合預(yù)訓(xùn)練框架:JAKET,通過同時對知識圖譜和語言建模,實現(xiàn)兩個模型之間的信息互補和交替訓(xùn)練。方法1. 知識模塊(Knowledge Module,KM)知識模塊主要是對知識圖譜進行建模,生成含有結(jié)構(gòu)化信息的實體表示。采用圖注意力模型和組合算子思想來聚合實體嵌入和關(guān)系嵌入信息。在第L層的實體V的嵌入信息傳播公式為:

3bf5710c-8e8f-11eb-8b86-12bb97331649.png

考慮到計算過程中可能會出現(xiàn)的實體數(shù)爆炸問題,實驗采用了設(shè)置minibatch領(lǐng)域采樣的方法獲取多跳鄰居集合。2. 語言模塊(Language Module,LM)語言模塊主要是對文本建模,學習文本的嵌入表示。采用RoBERT-base作為預(yù)訓(xùn)練模型。3.解決循環(huán)依賴問題(Solve the syclic dependency)由于LM和KM是互相傳遞信息的,訓(xùn)練過程存在循環(huán)依賴問題,不便于后續(xù)計算優(yōu)化。論文提出了分解語言模型解決此問題,即將LM分解為LM1和LM2子模塊,將RoBERT的前6層和后6層分別作為LM1和LM2,實現(xiàn)LM1,KM和LM2的聯(lián)合訓(xùn)練。整體框架如下圖所示。

3c6790e8-8e8f-11eb-8b86-12bb97331649.png

實驗結(jié)果論文在實體類別預(yù)測、關(guān)系類別預(yù)測、詞塊掩碼預(yù)測、實體掩碼預(yù)測4個任務(wù)上進行預(yù)訓(xùn)練,并在小樣本關(guān)系分類、KGQA和實體分類這3個下游任務(wù)上進行實驗。實驗結(jié)果分別如下圖所示:

3ccab038-8e8f-11eb-8b86-12bb97331649.png

3d660b5a-8e8f-11eb-8b86-12bb97331649.png

由實驗結(jié)果可知,在3個任務(wù)中論文提出的JAKET都可以進一步提高性能,并且聯(lián)合預(yù)訓(xùn)練可以有效減少模型對下游訓(xùn)練數(shù)據(jù)的依賴。

2

3dd9f9c0-8e8f-11eb-8b86-12bb97331649.png

論文動機

知識圖譜的構(gòu)建方法通常需要人工輔助參與,但是人力成本太高;

同時BERT等預(yù)訓(xùn)練模型通常在非常大規(guī)模的語料上訓(xùn)練,訓(xùn)練好的模型本身包含常識知識,這些知識可以促進上層的其他應(yīng)用。

所以本論文提出了一種無監(jiān)督的Match and Map(MAMA)模型,來將預(yù)訓(xùn)練語言模型中包含的知識轉(zhuǎn)換為知識圖譜。

方法

1. 匹配(Match)

3e6ba8c0-8e8f-11eb-8b86-12bb97331649.png

Match階段主要是自動抽取三元組。對于輸入的文本,使用開源工具抽取出實體,并將實體兩兩配對為頭實體和尾實體,利用預(yù)訓(xùn)練模型的注意力權(quán)重來提取實體對的關(guān)系。通過beam search的方法搜索多條從頭實體到尾實體的路徑,從而獲取多個候選的三元組。再通過設(shè)置一些限制規(guī)則過濾掉不符常理的三元組,即得到用于構(gòu)建知識圖譜的三元組。

2. 映射(Map)

Map階段主要是將Match階段抽取到的三元組映射到知識圖譜中去。利用成熟的實體鏈接和關(guān)系映射技術(shù),將三元組映射到已有的固定schema圖譜中。對于部分映射或完全不匹配的三元組,就構(gòu)建開放schema的知識圖譜,并最后將這兩類知識圖譜融合,得到一個靈活的開放性知識圖譜。

整體框架如下:

3fadc286-8e8f-11eb-8b86-12bb97331649.png

論文中使用BERT-large對Wikipedia語料進行自動化構(gòu)建知識圖譜,圖譜效果如下:

4008e7b0-8e8f-11eb-8b86-12bb97331649.png

實驗結(jié)果

論文在TAC KBP和Wikidata數(shù)據(jù)集上進行槽填充任務(wù)實驗。

在TAC KBP數(shù)據(jù)集上的結(jié)果如下表:

40ab57c0-8e8f-11eb-8b86-12bb97331649.png

基于TAC KBP數(shù)據(jù)集的實驗結(jié)果主要有兩點:一是MAMA模型能夠提升知識圖譜的槽填充效果;二是更大/更深的語言模型能夠抽取出更高質(zhì)量的知識圖譜。

在Wikidata數(shù)據(jù)集上的結(jié)果如下表:

413cd6fa-8e8f-11eb-8b86-12bb97331649.png

基于Wikidata數(shù)據(jù)集的實驗結(jié)論一方面說明MAMA可擴展到更大的語料庫,另一方面說明MAMA能從更大規(guī)模的語料庫中抽取出更完整的知識圖譜。

3

41a55734-8e8f-11eb-8b86-12bb97331649.png

論文動機

實體未標注問題是命名實體識別(NER)任務(wù)中的常見問題,且該問題在實際情況中無法完全避免。既然無法徹底解決實體未標注問題,那么該問題是否會對NER模型產(chǎn)生影響呢?若產(chǎn)生較大影響,如何將這種消極影響盡量降低?

基于上述問題,論文分析了未標注實體問題對NER實驗指標的影響及其原因,并提出了一種具有魯棒性的負采樣策略,使得模型能夠保持在未標注實體概率極低的狀態(tài)下訓(xùn)練,從而提升實體標注效果。

方法

1.合成數(shù)據(jù)集(Synthetic Datasets)

通過在標注完善的CoNLL-2003和OntoNotes5.0數(shù)據(jù)集按照一定概率隨機掩蓋標注出的實體,獲取人工合成的欠完善標注數(shù)據(jù)集。

2.衡量指標(Metrics)

文章中設(shè)計了侵蝕率(erosion rate)和誤導(dǎo)率(misguidance rate)2種指標來測算NER中未標注實體問題的影響。

侵蝕率代表實體標注量減少對NER指標下降的影響程度。

誤導(dǎo)率代表未標注實體對當作負樣本時對NER指標下降的影響程度。

3.負采樣(Negative Sampling)

文章采用負采樣的方式進行降噪,對所有的非實體進行負采樣,采樣負樣本進行損失函數(shù)的計算。改進后的損失函數(shù)如下所示:

41f444ca-8e8f-11eb-8b86-12bb97331649.png

其中前半部分表示標注實體集合的損失,后半部分則是負采樣實體集合的損失。文章的整體模型框架如下圖所示,總體就是BERT/LSTM編碼+softmax的思路。

427335d2-8e8f-11eb-8b86-12bb97331649.png

實驗結(jié)果

文章在合成數(shù)據(jù)集上進行NER任務(wù)實驗,分析未標注問題的影響和負采樣的訓(xùn)練效果。

首先是分別基于CoNLL-2003和OntoNotes5.0合成數(shù)據(jù)集進行的實驗結(jié)果:

42ec9c38-8e8f-11eb-8b86-12bb97331649.png

4371e92e-8e8f-11eb-8b86-12bb97331649.png

由圖可知:隨著實體掩蓋概率p增大,即未標注實體數(shù)量增多,NER指標下降明顯;在p很低的時候,誤導(dǎo)率就較高了,而侵蝕率受影響較小,說明把未標注實體當作負樣本訓(xùn)練、對NER指標下降的影響程度很大,實體標注量減少對指標下降的影響較小

其次將文章提出的負采樣訓(xùn)練模型與其他SOTA模型分別在完全標注數(shù)據(jù)集和真實數(shù)據(jù)集上做對比,實驗結(jié)果如下:

44481878-8e8f-11eb-8b86-12bb97331649.png

結(jié)果表明本模型在完全標注數(shù)據(jù)集上的效果和其他模型相差不大,并且真實世界數(shù)據(jù)集上的效果遠優(yōu)于其他的模型,所以本文模型的綜合效果最好。

總結(jié)

此次解讀的三篇論文圍繞知識建模和信息抽取的研究點展開。感覺知識圖譜結(jié)合語言模型的相關(guān)研究的趨勢是嘗試使用同一套編碼系統(tǒng),同時對語言模型中的上下文信息和知識圖譜中的結(jié)構(gòu)化語義信息進行編碼和訓(xùn)練,從而實現(xiàn)知識融合或知識挖掘。此外,第三篇文章主要想給廣大做知識圖譜方向的研究者分享一個命名實體識別的技巧思路,當面對標注質(zhì)量不那么高的數(shù)據(jù)集時,或許可以嘗試一下負采樣的方法。

以上就是Fudan DISC本期的論文分享內(nèi)容,歡迎大家的批評和交流。

原文標題:【論文解讀】ICLR2021 知識建模與信息抽取

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3032

    瀏覽量

    48346
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5422

    瀏覽量

    120587

原文標題:【論文解讀】ICLR2021 知識建模與信息抽取

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學習

    的信息,提供更全面的上下文理解。這使得模型能夠更準確地理解復(fù)雜問題中的多個層面和隱含意義。 2. 語義分析 模型通過訓(xùn)練學習到語言的語義特征,能夠識別文本中的
    發(fā)表于 08-02 11:03

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 俯瞰全書

    上周收到《大語言模型應(yīng)用指南》一書,非常高興,但工作項目繁忙,今天才品鑒體驗,感謝作者編寫了一部內(nèi)容豐富、理論應(yīng)用相結(jié)合、印刷精美的著作,也感謝電子發(fā)燒友論壇提供了一個讓我了解大語言模型
    發(fā)表于 07-21 13:35

    三星電子將收購英國知識圖譜技術(shù)初創(chuàng)企業(yè)

    在人工智能技術(shù)日新月異的今天,三星電子公司再次展現(xiàn)了其前瞻性的戰(zhàn)略布局與技術(shù)創(chuàng)新實力。近日,三星正式宣布完成了對英國領(lǐng)先的人工智能(AI)與知識圖譜技術(shù)初創(chuàng)企業(yè)Oxford Semantic Technologies的收購,此舉標志著三星在提升設(shè)備端AI能力、深化個性化用戶體驗方面邁出了重要一步。
    的頭像 發(fā)表于 07-18 14:46 ?428次閱讀

    知識圖譜與大模型之間的關(guān)系

    在人工智能的廣闊領(lǐng)域中,知識圖譜與大模型是兩個至關(guān)重要的概念,它們各自擁有獨特的優(yōu)勢和應(yīng)用場景,同時又相互補充,共同推動著人工智能技術(shù)的發(fā)展。本文將從定義、特點、應(yīng)用及相互關(guān)系等方面深入探討知識圖譜與大
    的頭像 發(fā)表于 07-10 11:39 ?620次閱讀

    llm模型有哪些格式

    Representations from Transformers):BERT是一種雙向預(yù)訓(xùn)練模型,通過大量文本數(shù)據(jù)進行預(yù)訓(xùn)練,可以用于各種NLP任務(wù),如文本分類、問答、命名實體
    的頭像 發(fā)表于 07-09 09:59 ?332次閱讀

    Al大模型機器人

    理解能力強大: AI大模型機器人可以理解和生成自然語言,能夠進行復(fù)雜的對話和語言任務(wù)。它們能夠識別語言中的語義、語境和情感,并據(jù)此作出適當?shù)幕貞?yīng)。廣泛的知識儲備: 這些模型基于大規(guī)模的
    發(fā)表于 07-05 08:52

    人臉識別模型訓(xùn)練流程

    人臉識別模型訓(xùn)練流程是計算機視覺領(lǐng)域中的一項重要技術(shù)。本文將詳細介紹人臉識別模型訓(xùn)練流程,包括
    的頭像 發(fā)表于 07-04 09:19 ?494次閱讀

    人臉識別模型訓(xùn)練失敗原因有哪些

    人臉識別模型訓(xùn)練失敗的原因有很多,以下是一些常見的原因及其解決方案: 數(shù)據(jù)集質(zhì)量問題 數(shù)據(jù)集是訓(xùn)練人臉識別
    的頭像 發(fā)表于 07-04 09:17 ?356次閱讀

    人臉識別模型訓(xùn)練是什么意思

    人臉識別模型訓(xùn)練是指通過大量的人臉數(shù)據(jù),使用機器學習或深度學習算法,訓(xùn)練出一個能夠識別和分類人臉的模型
    的頭像 發(fā)表于 07-04 09:16 ?332次閱讀

    【大語言模型:原理與工程實踐】大語言模型的應(yīng)用

    操作。所謂零樣本提示(Zero-Shot Prompt),指的是在提示詞中不包含與指令任務(wù)相似的任何示例。 當大語言模型訓(xùn)練完成后,它便具備了分析情緒和識別命名實體等常見任務(wù)的能力,
    發(fā)表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型的預(yù)訓(xùn)練

    訓(xùn)練數(shù)據(jù)時,數(shù)量、質(zhì)量和多樣性三者缺一不可。 數(shù)據(jù)的多樣性對于大語言模型至關(guān)重要,這主要體現(xiàn)在數(shù)據(jù)的類別和來源兩個方面。豐富的數(shù)據(jù)類別能夠提供多樣的語言表達特征,如官方知識型數(shù)據(jù)、口語化表達的論壇
    發(fā)表于 05-07 17:10

    利用知識圖譜與Llama-Index技術(shù)構(gòu)建大模型驅(qū)動的RAG系統(tǒng)(下)

    對于語言模型(LLM)幻覺,知識圖譜被證明優(yōu)于向量數(shù)據(jù)庫。知識圖譜提供更準確、多樣化、有趣、邏輯和一致的信息,減少了LLM中出現(xiàn)幻覺的可能性。
    的頭像 發(fā)表于 02-22 14:13 ?941次閱讀
    利用<b class='flag-5'>知識圖譜</b>與Llama-Index技術(shù)構(gòu)建大<b class='flag-5'>模型</b>驅(qū)動的RAG系統(tǒng)(下)

    如何使用Python進行圖像識別的自動學習自動訓(xùn)練?

    圖像識別的自動學習和自動訓(xùn)練。 首先,讓我們了解一下圖像識別的基本概念。圖像識別是指通過計算機程序識別和理解圖像內(nèi)容的過程。自動學習和自動
    的頭像 發(fā)表于 01-12 16:06 ?444次閱讀

    知識圖譜基礎(chǔ)知識應(yīng)用和學術(shù)前沿趨勢

    知識圖譜(Knowledge Graph)以結(jié)構(gòu)化的形式描述客觀世界中概念、實體及其關(guān)系。是融合了認知計算、知識表示與推理、信息檢索與抽取、自然語言處理、Web技術(shù)、機器學習與大數(shù)據(jù)挖掘等等方向的交叉學科。人工智能是以傳統(tǒng)符號派
    的頭像 發(fā)表于 01-08 10:57 ?706次閱讀
    <b class='flag-5'>知識圖譜</b>基礎(chǔ)<b class='flag-5'>知識</b>應(yīng)用和學術(shù)前沿趨勢

    知識圖譜與大模型結(jié)合方法概述

    )LLM+KG協(xié)同使用,主要用于知識表示和推理兩個方面。該文綜述了以上三個路線的代表性研究,探討了未來可能的研究方向。 知識圖譜(KG)和大語言模型
    的頭像 發(fā)表于 10-29 15:50 ?830次閱讀
    <b class='flag-5'>知識圖譜</b>與大<b class='flag-5'>模型</b><b class='flag-5'>結(jié)合</b>方法概述