知識(shí)圖譜嵌入(KGE)是一種利用監(jiān)督學(xué)習(xí)來學(xué)習(xí)嵌入以及節(jié)點(diǎn)和邊的向量表示的模型。它們將“知識(shí)”投射到一個(gè)連續(xù)的低維空間,這些低維空間向量一般只有幾百個(gè)維度(用來表示知識(shí)存儲(chǔ)的內(nèi)存效率)。向量空間中,每個(gè)點(diǎn)代表一個(gè)概念,每個(gè)點(diǎn)在空間中的位置具有語義意義,類似于詞嵌入。
一個(gè)好的KGE 應(yīng)該具有足夠的表現(xiàn)力來捕獲 KG 屬性,這些屬性解決了表示關(guān)系的獨(dú)特邏輯模式的能力。并且KG 可以根據(jù)要求添加或刪除一些特定屬性。KGE算法可分為兩類:
- 翻譯距離模型 (translation distance models),如TransE、TransH、TransR、TransD等。
- 語義匹配模型 (semantic matching models),如DistMult。
以下是常見的KGE 模型在捕獲關(guān)系類型方面的比較,我們將對(duì)這些常見的模型進(jìn)行比較
翻譯距離模型
TransE
提出了一種基于翻譯的知識(shí)圖譜嵌入模型,可以捕獲多關(guān)系圖中的翻譯方差不變性現(xiàn)象。知識(shí)圖譜中的事實(shí)是用三元組 ( h , l , t ) 表示的,transE算法的思想非常簡(jiǎn)單,它受word2vec平移不變性的啟發(fā),希望h + l ≈ t h+l≈th+l≈t。
這里的l1/l2是范數(shù)約束。
TransE的偽代碼如下:
TransE多次在大規(guī)模知識(shí)圖譜方面表現(xiàn)出良好的性能。但是它不能有效地捕獲復(fù)雜的關(guān)系,如一對(duì)多和多對(duì)多。
TransH
TransH根據(jù)關(guān)系為每個(gè)實(shí)體提供不同的表示向量。TransH的工作原理是為每個(gè)關(guān)系發(fā)布一個(gè)完全獨(dú)立的特定于關(guān)系的超平面,這樣與它關(guān)聯(lián)的實(shí)體僅在該關(guān)系的上下文中具有不同的語義。TransH將實(shí)體嵌入向量h和t投影到映射向量W?方向的超平面(關(guān)系特定)。
其中D?表示關(guān)系特定的平移向量,h和t的計(jì)算方法如下:
TransH 在一定程度上解決了復(fù)雜關(guān)系問題。它采用相同的向量特征空間。
TransR
TransR的理念與TransH非常相似。但它引入了特定于關(guān)系的空間,而不是超平面。實(shí)體表示為實(shí)體空間R?中的向量,每個(gè)關(guān)系都與特定空間R?相關(guān)聯(lián),并建模為該空間中的平移向量。給定一個(gè)事實(shí),TransR首先將實(shí)體表示h和t投影到關(guān)系r特定的空間中:
這里M?是一個(gè)從實(shí)體空間到r的關(guān)系空間的投影矩陣,評(píng)分函數(shù)定義為
它能夠?qū)?fù)雜的關(guān)系建模。但是每個(gè)關(guān)系需要O(dk)個(gè)參數(shù)。沒有TransE/TransH的簡(jiǎn)單性和效率。
TransD
TransD是TransR的改進(jìn)。它采用映射矩陣,為頭部和尾部實(shí)體生成兩個(gè)獨(dú)立的映射矩陣。它使用兩個(gè)嵌入向量來表示每個(gè)實(shí)體和關(guān)系。第一個(gè)嵌入向量表示實(shí)體和關(guān)系的語義,第二個(gè)嵌入向量生成兩個(gè)動(dòng)態(tài)投影矩陣,如下圖所示。
評(píng)分函數(shù)如下:
下表是總結(jié)所有翻譯距離模型的對(duì)比
語義匹配模型
RESCAL
RESCAL將每個(gè)實(shí)體與一個(gè)向量相關(guān)聯(lián),捕獲其潛在語義。每個(gè)關(guān)系都表示為一個(gè)矩陣,它模擬了潛在因素之間的成對(duì)相互作用。事實(shí)(h,r,t)的分?jǐn)?shù)由雙線性函數(shù)定義。
其中h,t∈R?是實(shí)體的向量表示,M?∈R?*?是與該關(guān)系相關(guān)的矩陣。這個(gè)分?jǐn)?shù)捕獲了h和t的所有分量之間的成對(duì)相互作用,每個(gè)關(guān)系需要O(d2)個(gè)參數(shù),并進(jìn)一步假設(shè)所有 M? 在一組通用的 rank-1 指標(biāo)上分解。
它最大的問題是計(jì)算復(fù)雜且成本高。
TATEC
TATEC模型不僅有三種相互關(guān)系,它還包含雙向交互,例如實(shí)體和關(guān)系之間的交互。評(píng)分函數(shù)為
其中D是所有不同關(guān)系共享的對(duì)角矩陣。
DistMult
通過將M?限制為對(duì)角矩陣,DistMult簡(jiǎn)化了RESCAL。對(duì)于每個(gè)關(guān)系r,引入一個(gè)向量r∈r?,并要求M?= diag(r),評(píng)分函數(shù)如下:
DistMult優(yōu)點(diǎn)就是計(jì)算簡(jiǎn)單,成本低。但是因?yàn)槟P瓦^于簡(jiǎn)化,只能處理對(duì)稱關(guān)系。對(duì)于一般kg來說,它不夠強(qiáng)大。
Holographic Embeddings(HolE)
HolE結(jié)合了RESCAL的表達(dá)能力和DistMult的效率和簡(jiǎn)單性。它將實(shí)體和關(guān)系重新表示為R?中的向量。給定一個(gè)事實(shí)(h,r,t),通過使用循環(huán)相關(guān)操作,首先將實(shí)體表示組合成h*t∈r?:
采用*的主要目的是利用壓縮張量積形式的復(fù)合表示的降低復(fù)雜性。HolE利用了快速傅里葉變換,可以通過以下方式進(jìn)一步加速計(jì)算過程:
HolE每個(gè)關(guān)系只需要O(d)個(gè)參數(shù),這比RESCAL更有效。但是HolE不能對(duì)不對(duì)的稱關(guān)系建模,但在一些研究論文中,把它與擴(kuò)展形式HolEX混淆了,HolEX能夠處理不對(duì)稱關(guān)系。
Complex Embeddings (ComplEx)
Complex通過引入復(fù)值嵌入來擴(kuò)展DistMult,以便更好地建模非對(duì)稱關(guān)系。在ComplEx中,實(shí)體和關(guān)系嵌入h,r,t不再位于實(shí)空間中,而是位于復(fù)空間中,例如C?。
這個(gè)評(píng)分函數(shù)不再對(duì)稱,來自非對(duì)稱關(guān)系的事實(shí)可以根據(jù)所涉及實(shí)體的順序獲得不同的分?jǐn)?shù)。作為共軛對(duì)稱施加于嵌入的特殊情況,HolE可以被包含在ComplEx中。
ANALOGY 擴(kuò)展了RESCAL,可以進(jìn)一步對(duì)實(shí)體和關(guān)系的類推屬性建模。它采用了雙線性評(píng)分函數(shù)。
DistMult, HolE和ComplEx都可以作為特殊情況在ANALOGY上實(shí)現(xiàn)。
以下是語義匹配模型的對(duì)比總結(jié):
Deep Scoring Functions
對(duì)于深度學(xué)習(xí)進(jìn)步,還出現(xiàn)了基于深度學(xué)習(xí)的評(píng)分函數(shù)
ConvE
ConvE是第一個(gè)使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來預(yù)測(cè)知識(shí)圖譜中缺失環(huán)節(jié)的模型之一。與完全連接的密集層不同,cnn可以通過使用很少的參數(shù)學(xué)習(xí)來幫助捕獲復(fù)雜的非線性關(guān)系。ConvE在多個(gè)維度上實(shí)現(xiàn)了不同實(shí)體之間的本地連接。
concat為連接運(yùn)算符,*表示卷積,e?和e?分別負(fù)責(zé)主題單元和關(guān)系單元的二維重塑。
ConvE不能捕獲三元嵌入的全局關(guān)系
ConvKB
ConbKB使用1D卷積來保留TransE的解釋屬性,捕獲實(shí)體之間的全局關(guān)系和時(shí)間屬性。該方法將每個(gè)三元網(wǎng)絡(luò)嵌入為三段網(wǎng)絡(luò),并將其饋送到卷積層,實(shí)現(xiàn)事實(shí)的維類之間的全局連接。
其中Ω(過濾器集),e(權(quán)重向量)表示共享參數(shù)。
HypER
HypER將每個(gè)關(guān)系的向量嵌入通過密集層投影后完全重塑,然后調(diào)整每層中的一堆卷積通道權(quán)重向量關(guān)系,這樣可以有更高的表達(dá)范圍和更少的參數(shù)。
vec是將一個(gè)向量重新塑造為一個(gè)矩陣,非線性f是ReLU。
模型的空間復(fù)雜度和時(shí)間復(fù)雜度的比較
-
嵌入式系統(tǒng)
+關(guān)注
關(guān)注
40文章
3519瀏覽量
128804 -
向量機(jī)
+關(guān)注
關(guān)注
0文章
166瀏覽量
20798 -
卷積神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
4文章
358瀏覽量
11798
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論