0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何在BERT中引入知識(shí)圖譜中信息

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:深度學(xué)習(xí)自然語(yǔ)言 ? 2020-11-03 17:52 ? 次閱讀

引言

隨著B(niǎo)ERT等預(yù)訓(xùn)練模型橫空出世,NLP方向迎來(lái)了一波革命,預(yù)訓(xùn)練模型在各類任務(wù)上均取得了驚人的成績(jī)。隨著各類預(yù)訓(xùn)練任務(wù)層出不窮,也有部分研究者考慮如何在BERT這一類模型中引入或者強(qiáng)化知識(shí)圖譜中包含的信息,進(jìn)而增強(qiáng)BERT對(duì)背景知識(shí)或常識(shí)信息的編碼能力。本文主要關(guān)注于如何在BERT中引入知識(shí)圖譜中信息,并survey了目前已公布的若干種方法,歡迎大家批評(píng)和交流。

ERNIE: Enhanced Language Representation with Informative Entities

論文鏈接:https://www.aclweb.org/anthology/P19-1139.pdf

這篇論文來(lái)自于清華劉知遠(yuǎn)老師和華為劉群老師,已被ACL2019所錄取,是較早的考慮將知識(shí)引入預(yù)訓(xùn)練模型的論文。

該論文主要利用了從知識(shí)庫(kù)中提出的高信息量的實(shí)體信息,通過(guò)特殊的語(yǔ)義融合模塊,來(lái)增強(qiáng)文本中對(duì)應(yīng)的表示。首先本文通過(guò)實(shí)體鏈接算法,將Wikipedia文本中包含的實(shí)體與Wikidata中的實(shí)體庫(kù)構(gòu)建關(guān)聯(lián),然后采用TransE算法,對(duì)Wikidata中的實(shí)體embedding進(jìn)行預(yù)訓(xùn)練,進(jìn)而得到其初始的表示;之后本文采用一個(gè)特殊的信息融合結(jié)構(gòu),其模型框架如下圖所示:

從圖中可以看出,ERNIE的框架分為以下兩部分,T-Encoder和K-Encoder,以上兩部分均使用BERT的Transformer框架,并利用其中的參數(shù)進(jìn)行初始化。其中Wikipedia中的每一句話首先被輸入給T-Encoder,其通過(guò)Transformer的多頭注意力機(jī)制對(duì)文本中的信息進(jìn)行編碼;之后輸出的表示與其內(nèi)部包含的實(shí)體被一起輸入給了K-Encoder,其內(nèi)部包含兩個(gè)多頭注意力層以分別對(duì)文本信息和實(shí)體信息進(jìn)行編碼;編碼后實(shí)體信息會(huì)得到兩種表示——詞級(jí)別和實(shí)體級(jí)別的表示,ERNIE通過(guò)將兩種信息concat之后輸入給DNN層,進(jìn)而融合得到知識(shí)增強(qiáng)的表示;為進(jìn)一步促進(jìn)該部分融合,ERNIE采用一個(gè)denoising entity auto-encoder (dEA)來(lái)對(duì)該部分進(jìn)行監(jiān)督,其采用類似于BERT中的Mask機(jī)制,基于一定的概率對(duì)其中的實(shí)體進(jìn)行mask或替換,然后還原該部分實(shí)體信息。

在采用以上過(guò)程預(yù)訓(xùn)練后,本文將ERNIE在多個(gè)NLP任務(wù)上進(jìn)行微調(diào),并在多個(gè)數(shù)據(jù)集上獲得了State-of-the-art的結(jié)果。

K-BERT: Enabling Language Representation with Knowledge Graph

論文鏈接:https://arxiv.org/pdf/1909.07606v1.pdf

這篇論文來(lái)自于北大和騰訊,已被AAAI2020所錄取,是較早的考慮將知識(shí)圖譜中的邊關(guān)系引入預(yù)訓(xùn)練模型的論文。

該論文主要通過(guò)修改Transformer中的attention機(jī)制,通過(guò)特殊的mask方法將知識(shí)圖譜中的相關(guān)邊考慮到編碼過(guò)程中,進(jìn)而增強(qiáng)預(yù)訓(xùn)練模型的效果。首先本文利用CN-DBpedia、HowNet和MedicalKG作為領(lǐng)域內(nèi)知識(shí)圖譜,對(duì)每一個(gè)句子中包含的實(shí)體抽取其相關(guān)的三元組,這里的三元組被看作是一個(gè)短句(首實(shí)體,關(guān)系,尾實(shí)體),與原始的句子合并一起輸入給Transformer模型;針對(duì)該方法,本文采用基于可見(jiàn)矩陣的mask機(jī)制,如下圖所示:

從圖中可以看出,輸入的句子增加了許多三元組構(gòu)成的短句,在每次編碼時(shí)針對(duì)每一個(gè)詞,模型通過(guò)可視矩陣(0-1變量)來(lái)控制該詞的視野,使其計(jì)算得到的attention分布不會(huì)涵蓋與其無(wú)關(guān)的詞,進(jìn)而模擬一個(gè)句子樹(shù)的場(chǎng)景;由于該策略僅僅改動(dòng)了mask策略,故其可以支持BERT,RoBERTa等一系列模型;該方法最終在8個(gè)開(kāi)放域任務(wù)和4個(gè)特定領(lǐng)域任務(wù)下取得了一定的提升。

KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation

論文鏈接:https://arxiv.org/pdf/1911.06136.pdf

這篇論文來(lái)源于清華和Mila實(shí)驗(yàn)室,其主要關(guān)注于如何使用BERT增強(qiáng)知識(shí)圖譜embedding,并幫助增強(qiáng)對(duì)應(yīng)的表示。

該論文主要通過(guò)添加類似于TransE的預(yù)訓(xùn)練機(jī)制來(lái)增強(qiáng)對(duì)應(yīng)文本的表示,進(jìn)而增強(qiáng)預(yù)訓(xùn)練模型在一些知識(shí)圖譜有關(guān)任務(wù)的效果。首先本文基于Wikipedia和Wikidata數(shù)據(jù)集,將每個(gè)entity與對(duì)應(yīng)的維基百科描述相鏈接,則每個(gè)entity均獲得其對(duì)應(yīng)的文本描述信息;之后對(duì)于每一個(gè)三元組——<頭實(shí)體,關(guān)系,尾實(shí)體>,本文采用基于BERT對(duì)encoder利用entity的描述信息,對(duì)每個(gè)實(shí)體進(jìn)行編碼,如下圖所示:

從圖中可以看出,在通過(guò)encoder得到頭實(shí)體和尾實(shí)體對(duì)應(yīng)的表示之后,本文采用類似于TransE的訓(xùn)練方法,即基于頭實(shí)體和關(guān)系預(yù)測(cè)尾實(shí)體;此外本文還采用BERT經(jīng)典的MLM損失函數(shù),并使用RoBERTa的原始參數(shù)進(jìn)行初始化;最終本文提出的方法在知識(shí)圖譜補(bǔ)全和若干NLP任務(wù)上均帶來(lái)了增益。

CoLAKE: Contextualized Language and Knowledge Embedding

論文鏈接:https://arxiv.org/pdf/2010.00309.pdf

這篇論文來(lái)源于復(fù)旦和亞馬遜,其主要關(guān)注于如何使用知識(shí)圖譜以增強(qiáng)預(yù)訓(xùn)練模型的效果。

本文首先將上下文看作全連接圖,并根據(jù)句子中的實(shí)體在KG上抽取子圖,通過(guò)兩個(gè)圖中共現(xiàn)的實(shí)體將全連接圖和KG子圖融合起來(lái);然后本文將該圖轉(zhuǎn)化為序列,使用Transformer進(jìn)行預(yù)訓(xùn)練,并在訓(xùn)練時(shí)采用特殊的type embedding來(lái)表示實(shí)體、詞語(yǔ)與其他子圖信息,如下圖所示:

最終本文將文本上下文和知識(shí)上下文一起用MLM進(jìn)行預(yù)訓(xùn)練,將mask的范圍推廣到word、entity和relation;為訓(xùn)練該模型,本文采用cpu-gpu混合訓(xùn)練策略結(jié)合負(fù)采樣機(jī)制減少訓(xùn)練時(shí)間;最終本文提出的方法在知識(shí)圖譜補(bǔ)全和若干NLP任務(wù)上均帶來(lái)了增益。

Exploiting Structured Knowledge in Text via Graph-Guided Representation Learning

論文鏈接:https://arxiv.org/pdf/2004.14224.pdf

這篇論文來(lái)源于悉尼科技大學(xué)和微軟,其主要關(guān)注于如何使用知識(shí)圖譜增強(qiáng)預(yù)訓(xùn)練模型。

本文思路比較簡(jiǎn)潔,其提出了一個(gè)基于entity的mask機(jī)制,結(jié)合一定的負(fù)采樣機(jī)制來(lái)增強(qiáng)模型。首先對(duì)于輸入的每一句話,本文首先進(jìn)行實(shí)體鏈接工作,得到其中的entity,并從知識(shí)圖譜conceptnet和freebase中召回其鄰接的三元組;本文利用一個(gè)特殊的權(quán)重,防止在mask時(shí)關(guān)注于句子中過(guò)于簡(jiǎn)單和過(guò)于難的entity,這樣模型在entity-level MLM訓(xùn)練時(shí)就關(guān)注于較為適合學(xué)習(xí)的信息;此外本文還引入了基于知識(shí)圖譜的負(fù)采樣機(jī)制,其利用relation來(lái)選擇高質(zhì)量的負(fù)例,以進(jìn)一步幫助訓(xùn)練;最終本文提出的方法在知識(shí)圖譜補(bǔ)全和若干NLP任務(wù)上均帶來(lái)了增益。

K-ADAPTER: Infusing Knowledge into Pre-Trained Models with Adapters

論文鏈接:https://arxiv.org/pdf/2002.01808v3.pdf

這篇論文來(lái)源于復(fù)旦和微軟,其考慮自適應(yīng)的讓BERT與知識(shí)相融合。

這篇論文考慮如何通過(guò)不同的特殊下游任務(wù)來(lái)幫助向預(yù)訓(xùn)練模型融入任務(wù)相關(guān)的知識(shí)。首先本文針對(duì)不同的預(yù)訓(xùn)練任務(wù),定義了對(duì)應(yīng)的adapter;在針對(duì)具體的下游任務(wù)進(jìn)行fine-tune時(shí),可以采用不同的adapter來(lái)針對(duì)性的加入特征,進(jìn)而增強(qiáng)其效果;如下圖所示:

基于該思想,本文提出了兩種特殊的adapter,分別利用factor knowledge和linguistic knowledge;針對(duì)這兩個(gè)adapter,本文提出了針對(duì)entity之間的關(guān)系分類任務(wù)和基于依存關(guān)系的分類任務(wù);再fine-tune階段,兩個(gè)adapter得到的特征可以與BERT或RoBERTa得到的特征一起拼接來(lái)進(jìn)行預(yù)測(cè),該策略在三個(gè)知識(shí)驅(qū)動(dòng)數(shù)據(jù)集上均取得了較大增益。

Integrating Graph Contextualized Knowledge into Pre-trained Language Models

論文鏈接:https://arxiv.org/pdf/1912.00147.pdf

這篇論文來(lái)自于華為和中科大,其主要關(guān)注于如何將上下文有關(guān)的知識(shí)信息加入到預(yù)訓(xùn)練模型里。

這篇論文的思想類似于graph-BERT和K-BERT,其針對(duì)給出文本首先檢索返回相關(guān)的entity三元組,再在知識(shí)圖譜上搜集其相鄰的節(jié)點(diǎn)以構(gòu)成子圖;然后將該子圖轉(zhuǎn)換成序列的形式,輸入給傳統(tǒng)的Transformer模型(類似graph-BERT),通過(guò)特殊的mask來(lái)約束注意力在相鄰節(jié)點(diǎn)上(K-BERT);最后用類似于ERNIE的策略將子圖中的信息加入到Transformer中;最終該模型在下游的幾個(gè)醫(yī)療相關(guān)數(shù)據(jù)集上取得了增益。

JAKET: Joint Pre-training of Knowledge Graph and Language Understanding

論文鏈接:https://arxiv.org/pdf/2010.00796.pdf

這篇論文來(lái)自于CMU和微軟,其主要關(guān)注于如何同時(shí)對(duì)知識(shí)圖譜和語(yǔ)言模型一起預(yù)訓(xùn)練。

本文使用RoBERTa作為語(yǔ)言模型對(duì)文本進(jìn)行編碼,增加了relation信息的graph attention模型來(lái)對(duì)知識(shí)圖譜進(jìn)行編碼;由于文本和知識(shí)圖譜的交集在于其中共有的若干entity,本文采用一種交替訓(xùn)練的方式來(lái)幫助融合兩部分的知識(shí),如下圖所示:

可以看出,語(yǔ)言模型得到的信息會(huì)首先對(duì)輸入文本以及entity/relation的描述信息進(jìn)行編碼,以得到對(duì)應(yīng)的表示;之后語(yǔ)言模型得到的entity embedding會(huì)被送給R-GAT模型以聚合鄰居節(jié)點(diǎn)的信息,以得到更強(qiáng)的entity表示;然后該部分信息會(huì)被輸入給語(yǔ)言模型繼續(xù)融合并編碼,以得到強(qiáng)化的文本表示信息;為了訓(xùn)練該模型,本文還采用embedding memory機(jī)制來(lái)控制訓(xùn)練時(shí)梯度的更新頻率和優(yōu)化目標(biāo)的權(quán)重,并提出四種特殊的損失函數(shù)來(lái)進(jìn)行預(yù)訓(xùn)練;最終本文提出的模型在多個(gè)知識(shí)驅(qū)動(dòng)的下游任務(wù)均取得較好效果。

責(zé)任編輯:xj

原文標(biāo)題:BERT meet Knowledge Graph:預(yù)訓(xùn)練模型與知識(shí)圖譜相結(jié)合的研究進(jìn)展

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5422

    瀏覽量

    120590
  • 知識(shí)圖譜
    +關(guān)注

    關(guān)注

    2

    文章

    132

    瀏覽量

    7663
  • 訓(xùn)練模型
    +關(guān)注

    關(guān)注

    1

    文章

    35

    瀏覽量

    3781

原文標(biāo)題:BERT meet Knowledge Graph:預(yù)訓(xùn)練模型與知識(shí)圖譜相結(jié)合的研究進(jìn)展

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    三星電子將收購(gòu)英國(guó)知識(shí)圖譜技術(shù)初創(chuàng)企業(yè)

    在人工智能技術(shù)日新月異的今天,三星電子公司再次展現(xiàn)了其前瞻性的戰(zhàn)略布局與技術(shù)創(chuàng)新實(shí)力。近日,三星正式宣布完成了對(duì)英國(guó)領(lǐng)先的人工智能(AI)與知識(shí)圖譜技術(shù)初創(chuàng)企業(yè)Oxford Semantic Technologies的收購(gòu),此舉標(biāo)志著三星在提升設(shè)備端AI能力、深化個(gè)性化用戶體驗(yàn)方面邁出了重要一步。
    的頭像 發(fā)表于 07-18 14:46 ?429次閱讀

    知識(shí)圖譜與大模型之間的關(guān)系

    在人工智能的廣闊領(lǐng)域中,知識(shí)圖譜與大模型是兩個(gè)至關(guān)重要的概念,它們各自擁有獨(dú)特的優(yōu)勢(shì)和應(yīng)用場(chǎng)景,同時(shí)又相互補(bǔ)充,共同推動(dòng)著人工智能技術(shù)的發(fā)展。本文將從定義、特點(diǎn)、應(yīng)用及相互關(guān)系等方面深入探討知識(shí)圖譜與大模型之間的關(guān)系。
    的頭像 發(fā)表于 07-10 11:39 ?622次閱讀

    何在idf工程引入mdf WiFi-Mesh函數(shù)?

    我原先在idf下開(kāi)發(fā)好的程序,如何引入mdf進(jìn)行開(kāi)發(fā)?需要用到WiFi-Mesh,看了下mdf下的例程是比較合適的,而idf下的wifi-mesh例程很粗略,想把mdf的例程移植到我原來(lái)的idf工程里面去
    發(fā)表于 06-28 14:59

    何在啟動(dòng)軟件時(shí)將信息存儲(chǔ)在非易失性存儲(chǔ)器,以便在COLD PORST之后恢復(fù)?

    何在啟動(dòng)軟件時(shí)將信息存儲(chǔ)在非易失性存儲(chǔ)器,以便在 COLD PORST 之后恢復(fù)?
    發(fā)表于 05-21 07:55

    利用知識(shí)圖譜與Llama-Index技術(shù)構(gòu)建大模型驅(qū)動(dòng)的RAG系統(tǒng)(下)

    對(duì)于語(yǔ)言模型(LLM)幻覺(jué),知識(shí)圖譜被證明優(yōu)于向量數(shù)據(jù)庫(kù)。知識(shí)圖譜提供更準(zhǔn)確、多樣化、有趣、邏輯和一致的信息,減少了LLM中出現(xiàn)幻覺(jué)的可能性。
    的頭像 發(fā)表于 02-22 14:13 ?943次閱讀
    利用<b class='flag-5'>知識(shí)圖譜</b>與Llama-Index技術(shù)構(gòu)建大模型驅(qū)動(dòng)的RAG系統(tǒng)(下)

    知識(shí)圖譜基礎(chǔ)知識(shí)應(yīng)用和學(xué)術(shù)前沿趨勢(shì)

    知識(shí)圖譜(Knowledge Graph)以結(jié)構(gòu)化的形式描述客觀世界概念、實(shí)體及其關(guān)系。是融合了認(rèn)知計(jì)算、知識(shí)表示與推理、信息檢索與抽取、自然語(yǔ)言處理、Web技術(shù)、機(jī)器學(xué)習(xí)與大數(shù)據(jù)挖
    的頭像 發(fā)表于 01-08 10:57 ?708次閱讀
    <b class='flag-5'>知識(shí)圖譜</b>基礎(chǔ)<b class='flag-5'>知識(shí)</b>應(yīng)用和學(xué)術(shù)前沿趨勢(shì)

    智慧燈桿產(chǎn)業(yè)鏈企業(yè)圖譜

    智慧燈桿產(chǎn)業(yè)鏈企業(yè)圖譜智慧燈桿產(chǎn)業(yè)鏈企業(yè)圖譜智慧燈桿產(chǎn)業(yè)鏈企業(yè)圖譜智慧燈桿產(chǎn)業(yè)鏈企業(yè)圖譜智慧燈桿產(chǎn)業(yè)鏈企業(yè)圖譜智慧燈桿產(chǎn)業(yè)鏈企業(yè)
    發(fā)表于 12-11 17:36 ?1次下載

    信號(hào)如何在無(wú)限大的導(dǎo)電介質(zhì)傳播

    信號(hào)如何在無(wú)限大的導(dǎo)電介質(zhì)傳播
    的頭像 發(fā)表于 11-24 16:06 ?387次閱讀
    信號(hào)如<b class='flag-5'>何在</b>無(wú)限大的導(dǎo)電介質(zhì)<b class='flag-5'>中</b>傳播

    何在高速設(shè)計(jì)通過(guò)規(guī)則管理來(lái)控制阻抗

    何在高速設(shè)計(jì)通過(guò)規(guī)則管理來(lái)控制阻抗
    的頭像 發(fā)表于 11-23 17:48 ?742次閱讀
    如<b class='flag-5'>何在</b>高速設(shè)計(jì)<b class='flag-5'>中</b>通過(guò)規(guī)則管理來(lái)控制阻抗

    python如何引入math庫(kù)

    在Python,要使用math庫(kù),首先需要先引入它。math庫(kù)是Python的一個(gè)標(biāo)準(zhǔn)庫(kù),它提供了許多數(shù)學(xué)函數(shù)和常數(shù)。通過(guò)使用math庫(kù),我們可以進(jìn)行各種數(shù)學(xué)運(yùn)算,例如三角函數(shù)、指數(shù)、對(duì)數(shù)、冪運(yùn)算
    的頭像 發(fā)表于 11-22 11:03 ?3377次閱讀

    《電子工程師必備——九大系統(tǒng)電路識(shí)圖寶典》+附錄2化整為零和集零為整電路分析方法

    編著的《電子工程師必備 九大系統(tǒng)電路識(shí)圖寶典第2版》! 通過(guò)閱讀附錄2的內(nèi)容,我對(duì)交流信號(hào)的頻段劃分和分析方法有了更深入的理解。在電路分析,對(duì)信號(hào)頻率的識(shí)別和理解是非常重要的,因?yàn)椴煌l率的信號(hào)會(huì)對(duì)
    發(fā)表于 11-18 21:06

    基于BERT算法搭建一個(gè)問(wèn)答搜索引擎

    鼎鼎大名的 Bert 算法相信大部分同學(xué)都聽(tīng)說(shuō)過(guò),它是Google推出的NLP領(lǐng)域“王炸級(jí)”預(yù)訓(xùn)練模型,其在NLP任務(wù)刷新了多項(xiàng)記錄,并取得state of the art的成績(jī)。 但是有很多深度
    的頭像 發(fā)表于 10-30 11:46 ?504次閱讀
    基于<b class='flag-5'>BERT</b>算法搭建一個(gè)問(wèn)答搜索引擎

    知識(shí)圖譜與大模型結(jié)合方法概述

    本文作者 |? 黃巍 《Unifying Large Language Models and Knowledge Graphs: A Roadmap》總結(jié)了大語(yǔ)言模型和知識(shí)圖譜融合的三種路線:1
    的頭像 發(fā)表于 10-29 15:50 ?831次閱讀
    <b class='flag-5'>知識(shí)圖譜</b>與大模型結(jié)合方法概述

    《電子工程師必備——九大系統(tǒng)電路識(shí)圖寶典》+附錄5學(xué)習(xí)方法

    被動(dòng)的接受,而是主動(dòng)的探索和發(fā)現(xiàn)。在電子技術(shù)學(xué)科,自主學(xué)習(xí)法將使你的學(xué)習(xí)過(guò)程更具創(chuàng)新性和實(shí)用性。 首先,明確你的學(xué)習(xí)目標(biāo)。清晰的目標(biāo)是自主學(xué)習(xí)的第一步。你應(yīng)明確自己想要掌握的電子技術(shù)知識(shí)點(diǎn),并制定一個(gè)
    發(fā)表于 10-06 23:25

    《電子工程師必備——九大系統(tǒng)電路識(shí)圖寶典》+附錄4讀后感

    第2版》這本書(shū)后給人的整體感覺(jué)還是相當(dāng)不錯(cuò)的!在閱讀附錄4的過(guò)程,我對(duì)電子電路圖的種類和識(shí)圖方法有了更深入的了解。電子電路圖在電路設(shè)計(jì)和維修具有非常重要的地位,而掌握各種電路圖的識(shí)別方法對(duì)于有效地
    發(fā)表于 09-28 13:44