一、語言表征學(xué)習(xí) Language Representation Learning
通過自監(jiān)督語言模型預(yù)訓(xùn)練的語言表征學(xué)習(xí)已經(jīng)成為許多NLP系統(tǒng)的一個組成部分。傳統(tǒng)的語言建模不利用文本語料庫中經(jīng)常觀察到的實體事實,如何將知識整合到語言表征中已引起越來越多的關(guān)注。
二、知識圖譜語言模型(KGLM):通過選擇和復(fù)制實體來學(xué)習(xí)并呈現(xiàn)知識。
ERNIE-Tsinghua:通過聚合的預(yù)訓(xùn)練和隨機Mask來融合信息實體。
K-BERT:將領(lǐng)域知識注入BERT上下文編碼器。
ERNIE-Baidu:引入了命名實體Mask和短語Mask以將知識集成到語言模型中,并由ERNIE 2.0通過持續(xù)的多任務(wù)學(xué)習(xí)進(jìn)一步改進(jìn)。
KEPLER:為了從文本中獲取事實知識,通過聯(lián)合優(yōu)化將知識嵌入和Mask語言建模損失相結(jié)合。
GLM:提出了一種圖引導(dǎo)的實體Mask方案來隱式地利用知識圖譜。
CoLAKE:通過統(tǒng)一的詞-知識圖譜和改進(jìn)的Transformer編碼器進(jìn)一步利用了實體的上下文。
BERT-MK:與K-BERT模型類似,更專注于醫(yī)學(xué)語料庫,通過知識子圖將醫(yī)學(xué)知識集成到預(yù)訓(xùn)練語言模型中。
Petroni等人:重新思考語言模型的大規(guī)模訓(xùn)練和知識圖譜查詢,分析了語言模型和知識庫,他們發(fā)現(xiàn)可以通過預(yù)訓(xùn)練語言模型獲得某些事實知識。
基于知識圖譜的問答(KG-QA)用知識圖譜中的事實回答自然語言問題?;?a href="http://ttokpm.com/tags/神經(jīng)網(wǎng)絡(luò)/" target="_blank">神經(jīng)網(wǎng)絡(luò)的方法表示分布式語義空間中的問題和答案,有些方法還進(jìn)行符號知識注入以進(jìn)行常識推理。
Single-fact QA:以知識圖譜為外部知識源,simple factoid QA或single-fact QA是回答一個涉及單個知識圖譜事實的簡單問題。
Dai等人:提出了一種條件聚焦神經(jīng)網(wǎng)絡(luò),配備聚焦修剪以減少搜索空間。
BAMnet:使用雙向注意機制對問題和知識圖譜之間的雙向交互進(jìn)行建模。盡管深度學(xué)習(xí)技術(shù)在KG-QA中得到了廣泛應(yīng)用,但它們不可避免地增加了模型的復(fù)雜性。
Mohammed等人:通過評估有和沒有神經(jīng)網(wǎng)絡(luò)的簡單KG-QA,發(fā)現(xiàn)復(fù)雜的深度模型(如LSTM和GRU等啟發(fā)式算法)達(dá)到了最先進(jìn)的水平,非神經(jīng)模型也獲得了相當(dāng)好的性能。
多跳推理(Multi-hop Reasoning):處理復(fù)雜的多跳關(guān)系需要更專門的設(shè)計才能進(jìn)行多跳常識推理。結(jié)構(gòu)化知識提供了信息豐富的常識,這促進(jìn)了最近關(guān)于多跳推理的符號空間和語義空間之間的常識知識融合的研究。
Bauer等人:提出了多跳雙向注意力和指針生成器(pointer-generator)解碼器,用于有效的多跳推理和連貫的答案生成,利用來自ConceptNet的relational path selection和selectively-gated注意力注入的外部常識知識。
Variational Reasoning Network(VRN):使用reasoning-graph嵌入進(jìn)行多跳邏輯推理,同時處理主題實體識別中的不確定性。
KagNet:執(zhí)行concept recognition以從ConceptNet構(gòu)建模式圖,并通過GCN、LSTM和hierarchical path-based attention學(xué)習(xí)基于路徑的關(guān)系表示。
CogQA:結(jié)合了implicit extraction和explicit reasoning,提出了一種基于BERT和GNN的認(rèn)知圖模型,用于多跳QA。
四、推薦系統(tǒng) Recommender Systems
將知識圖譜集成為外部信息,使推薦系統(tǒng)具備常識推理能力,具有解決稀疏問題和冷啟動問題的潛力。通過注入實體、關(guān)系和屬性等知識圖譜的輔助信息,許多方法致力于使用基于嵌入的正則化模塊以改進(jìn)推薦效果。
collaborative CKE:通過平移KGE模型和堆疊自動編碼器聯(lián)合訓(xùn)練KGE、文本信息和視覺內(nèi)容。
DKN:注意到時間敏感和主題敏感的新聞文章由大量密集的實體和常識組成,通過知識感知CNN模型將知識圖譜與多通道word-entity-aligned文本輸入相結(jié)合。但是,DKN不能以端到端的方式進(jìn)行訓(xùn)練,因為它需要提前學(xué)習(xí)實體嵌入。
MKR:為了實現(xiàn)端到端訓(xùn)練,通過共享潛在特征和建模高階項目-實體交互,將多任務(wù)知識圖譜表示和推薦相關(guān)聯(lián)。
KPRN:雖然其他工作考慮了知識圖譜的關(guān)系路徑和結(jié)構(gòu),但KPRN將用戶和項目之間的交互視為知識圖譜中的實體關(guān)系路徑,并使用LSTM對路徑進(jìn)行偏好推斷以捕獲順序依賴關(guān)系。
PGPR:在基于知識圖譜的user-item交互上執(zhí)行reinforcement policy-guided的路徑推理。
KGAT:在entity-relation和user-item圖的協(xié)作知識圖譜上應(yīng)用圖注意力網(wǎng)絡(luò),通過嵌入傳播和基于注意力的聚合對高階連接進(jìn)行編碼。
總而言之,基于知識圖的推薦本質(zhì)上是通過在知識圖譜中嵌入傳播與多跳來處理可解釋性。
五、文本分類和特定任務(wù)應(yīng)用程序 Text Classification and Task-Specific Applications
知識驅(qū)動的自然語言理解(NLU)是通過將結(jié)構(gòu)化知識注入統(tǒng)一的語義空間來增強語言表征能力。最近成果利用了明確的事實知識和隱含的語言表征。
Wang等人:通過加權(quán)的word-concept嵌入,通過基于知識的conceptualization增強了短文本表征學(xué)習(xí)。
Peng等人:集成了外部知識庫,以構(gòu)建異構(gòu)信息圖譜,用于短社交文本中的事件分類。
在精神衛(wèi)生領(lǐng)域,具有知識圖譜的模型有助于更好地了解精神狀況和精神障礙的危險因素,并可有效預(yù)防精神健康導(dǎo)致的自殺。
Gaurs等人:開發(fā)了一個基于規(guī)則的分類器,用于知識驅(qū)動的自殺風(fēng)險評估,其中結(jié)合了醫(yī)學(xué)知識庫和自殺本體的自殺風(fēng)險嚴(yán)重程度詞典。
情感分析與情感相關(guān)概念相結(jié)合,可以更好地理解人們的觀點和情感。
SenticNet:學(xué)習(xí)用于情感分析的概念原語,也可以用作常識知識源。為了實現(xiàn)與情感相關(guān)的信息過濾。
Sentic LSTM:將知識概念注入到vanilla LSTM中,并為概念級別的輸出設(shè)計了一個知識輸出門,作為對詞級別的補充。
對話系統(tǒng) Dialogue Systems
問答(QA)也可以被視為通過生成正確答案作為響應(yīng)的單輪對話系統(tǒng),而對話系統(tǒng)考慮對話序列并旨在生成流暢的響應(yīng)以通過語義增強和知識圖譜游走來實現(xiàn)多輪對話。
Liu等人:在編碼器-解碼器框架下,通過知識圖譜檢索和圖注意機制對知識進(jìn)行編碼以增強語義表征并生成知識驅(qū)動的響應(yīng)。
DialKG Walker:遍歷符號知識圖譜以學(xué)習(xí)對話中的上下文轉(zhuǎn)換,并使用注意力圖路徑解碼器預(yù)測實體響應(yīng)。
通過形式邏輯表示的語義解析是對話系統(tǒng)的另一個方向。
Dialog-to-Action:是一種編碼器-解碼器方法,通過預(yù)定義一組基本動作,它從對話中的話語映射可執(zhí)行的邏輯形式,以在語法引導(dǎo)解碼器的控制下生成動作序列。
六、醫(yī)學(xué)和生物學(xué) Medicine and Biology
知識驅(qū)動的模型及其應(yīng)用為整合領(lǐng)域知識以在醫(yī)學(xué)和生物學(xué)領(lǐng)域進(jìn)行精確預(yù)測鋪平了道路。醫(yī)學(xué)應(yīng)用涉及有眾多醫(yī)學(xué)概念的特定領(lǐng)域知識圖譜。
Sousa等人:采用知識圖譜相似性進(jìn)行蛋白質(zhì)-蛋白質(zhì)相互作用預(yù)測,使用基因本體。
Mohamed等人:將藥物-靶點相互作用預(yù)測設(shè)定為生物醫(yī)學(xué)知識圖譜中與藥物及其潛在靶點的鏈接預(yù)測。
Lin等人:開發(fā)了一個知識圖譜網(wǎng)絡(luò)來學(xué)習(xí)藥物-藥物相互作用預(yù)測的結(jié)構(gòu)信息和語義關(guān)系。
UMLS:在臨床領(lǐng)域,來自Unified Medical Language Systems(UMLS)本體的生物醫(yī)學(xué)知識被集成到語言模型預(yù)訓(xùn)練中,用于臨床實體識別和醫(yī)學(xué)語言推理等下游臨床應(yīng)用。
Liu等人:設(shè)定了醫(yī)學(xué)圖像報告生成的任務(wù),包括編碼、檢索和釋義三個步驟。
知識圖譜相關(guān)信息學(xué)習(xí):
一、知識圖譜概論
1.1知識圖譜的起源和歷史
1.2知識圖譜的發(fā)展史——從框架、本體論、語義網(wǎng)、鏈接數(shù)據(jù)到知識圖譜
1.3知識圖譜的本質(zhì)和價值
1.4知識圖譜VS傳統(tǒng)知識庫VS關(guān)系數(shù)據(jù)庫
1.5經(jīng)典的知識圖譜
1.5.1經(jīng)典的CYC, WordNnet, WikiData, DBpedia, YAGO, NELL等知識庫
1.5.2行業(yè)知識圖譜:
Google知識圖譜,微軟實體圖,阿里知識圖譜,醫(yī)學(xué)知識圖譜,基因知識圖譜等知識圖譜項目
二、知識圖譜應(yīng)用
2.1知識圖譜應(yīng)用場景
2.2知識圖譜應(yīng)用簡介
2.2.1知識圖譜在數(shù)字圖書館上的應(yīng)用
2.2.2知識圖譜在國防、情報、公安上的應(yīng)用
2.2.3知識圖譜在金融上的應(yīng)用
2.2.4知識圖譜在電子商務(wù)中的應(yīng)用
2.2.5知識圖譜在農(nóng)業(yè)、醫(yī)學(xué)、法律等領(lǐng)域的應(yīng)用
2.2.6知識圖譜在制造行業(yè)的應(yīng)用
2.2.7知識圖譜在大數(shù)據(jù)融合中的應(yīng)用
2.2.8知識圖譜在人機交互(智能問答)中的應(yīng)用
三、知識表示與知識建模
3.1知識表示概念
3.2 知識表示方法
a.語義網(wǎng)絡(luò) b.產(chǎn)生式規(guī)則 c.框架系統(tǒng) d.描述邏輯 e.本體 f.RDF和RDFS
g.OWL和OWL2 Fragmentsh.SPARQL查詢語言
i.Json-LD、RDFa、HTML5 MicroData等新型知識表示
3.3典型知識庫項目的知識表示
3.4知識建模方法學(xué)
3.5知識表示和知識建模實踐
1.三國演義知識圖譜的表示和建模實踐案例
2.學(xué)術(shù)知識圖譜等
四、知識抽取與挖掘
4.1知識抽取基本問題
a.實體識別 b.關(guān)系抽取 c.事件抽取
4.2數(shù)據(jù)采集和獲取
4.3面向結(jié)構(gòu)化數(shù)據(jù)的知識抽取
a.D2RQb.R2RML
4.4面向半結(jié)構(gòu)化數(shù)據(jù)的知識抽取
a.基于正則表達(dá)式的方法b.基于包裝器的方法
4.5.面向非結(jié)構(gòu)化數(shù)據(jù)的知識抽取
a.實體識別技術(shù)(基于規(guī)則、機器學(xué)習(xí)、深度學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、預(yù)訓(xùn)練等方法)
b.關(guān)系抽取技術(shù)(基于模板、監(jiān)督、遠(yuǎn)程監(jiān)督、深度學(xué)習(xí)等方法)
c.事件抽取技術(shù)(基于規(guī)則、深度學(xué)習(xí)、強化學(xué)習(xí)等方法)
4.6.知識挖掘
a.實體消歧b.實體鏈接c.類型推斷 d.知識表示學(xué)習(xí)
4.7知識抽取上機實踐
A.面向半結(jié)構(gòu)化數(shù)據(jù)的三國演義知識抽取
B.面向文本的三國演義知識抽取
C.人物關(guān)系抽取
五、知識融合
5.1知識融合背景
5.2知識異構(gòu)原因分析
5.3知識融合解決方案分析
5.4.本體對齊基本流程和常用方法
a.基于文本的匹配 b.基于圖結(jié)構(gòu)的匹配 c.基于外部知識庫的匹配
e.不平衡本體匹配 d.跨語言本體匹配f.弱信息本體匹配
5.5實體匹配基本流程和常用方法
a.基于相似度的實例匹配b.基于規(guī)則或推理的實體匹配
c.基于機器學(xué)習(xí)的實例匹配 d.大規(guī)模知識圖譜的實例匹配
(1)基于分塊的實例匹配
(2)無需分塊的實例匹配
(3)大規(guī)模實例匹配的分布式處理
5.6 知識融合上機實踐
1.百科知識融合
2.OAEI知識融合任務(wù)
六、存儲與檢索
6.1.知識圖譜的存儲與檢索概述
6.2.知識圖譜的存儲
a.基于表結(jié)構(gòu)的存儲b.基于圖結(jié)構(gòu)的存儲
6.3.知識圖譜的檢索
a.關(guān)系數(shù)據(jù)庫查詢:SQL語言b數(shù)據(jù)庫查詢:SPARQL語言
6.4.上機實踐案例:利用GraphDB完成知識圖譜的存儲與檢索
七、知識推理
7.1.知識圖譜中的推理技術(shù)概述
7.2.歸納推理:學(xué)習(xí)推理規(guī)則
a.歸納邏輯程設(shè)計?b.關(guān)聯(lián)規(guī)則挖掘c.路徑排序算法
上機實踐案例:利用AMIE+算法完成Freebase數(shù)據(jù)上的關(guān)聯(lián)規(guī)則挖掘
7.3.演繹推理:推理具體事實
?a.馬爾可夫邏輯網(wǎng) b.概率軟邏輯
7.4.基于分布式表示的推理
a.TransE模型及其變種b.RESCAL模型及其變種
c.(深度)神經(jīng)網(wǎng)絡(luò)模型介紹d.表示學(xué)習(xí)模型訓(xùn)練
7.5.上機實踐案例:利用分布式知識表示技術(shù)完成Freebase上的鏈接預(yù)測
八、語義搜索
8.1.語義搜索概述
8.2.搜索關(guān)鍵技術(shù)
a.索引技術(shù):倒排索引
b.排序算法:BM25及其擴展
8.3.知識圖譜搜索
a.實體搜索
b.關(guān)聯(lián)搜索
8.4.知識可視化a.摘要技術(shù)
8.5.上機實踐案例:SPARQL搜索
九、知識問答
9.1.知識問答概述
9.2.知識問答基本流程
9.3.相關(guān)測試集:QALD、WebQuestions等
9.4.知識問答關(guān)鍵技術(shù)
a.基于模板的方法
b.語義解析
c.基于深度學(xué)習(xí)的方法
9.5.上機實踐案例:DeepQA、TemplateQA
-
AI
+關(guān)注
關(guān)注
87文章
29012瀏覽量
266401 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8308瀏覽量
131897 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5424瀏覽量
120621 -
知識圖譜
+關(guān)注
關(guān)注
2文章
132瀏覽量
7665
發(fā)布評論請先 登錄
相關(guān)推薦
評論