0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于NLP任務(wù)的所有GNN相關(guān)技術(shù)介紹

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:圖與推薦 ? 作者:圖子 ? 2021-06-23 16:09 ? 次閱讀

今天為大家解讀的是由京東硅谷研發(fā)中心首席科學(xué)家吳凌飛博士等研究者最新發(fā)表的GNN for NLP綜述,幾乎覆蓋了圍繞NLP任務(wù)的所有GNN相關(guān)技術(shù),是迄今為止GNN for NLP領(lǐng)域最全面最新的綜述性文獻(xiàn)。

深度學(xué)習(xí)已經(jīng)成為應(yīng)對(duì)各種NLP任務(wù)的主導(dǎo)方法,盡管輸入文本通常被表示為序列化的tokens,但圖結(jié)構(gòu)的形式往往可以對(duì)許多NLP問(wèn)題進(jìn)行更好的表達(dá)。因此,有必要針對(duì)NLP任務(wù)來(lái)開(kāi)發(fā)新的圖上的深度學(xué)習(xí)技術(shù)。在這項(xiàng)綜述中,作者對(duì)用于NLP任務(wù)的GNNs進(jìn)行了全面的概述,并提出了一個(gè)新的GNNs for NLP的分類體系,它沿著三個(gè)方面系統(tǒng)地組織了現(xiàn)有研究,包括:圖的構(gòu)建、圖表示學(xué)習(xí)和基于圖的編碼器-解碼器模型。論文還進(jìn)一步介紹了大量正在應(yīng)用GNNs驅(qū)動(dòng)NLP的應(yīng)用,并總結(jié)了相應(yīng)的基準(zhǔn)數(shù)據(jù)集、評(píng)估指標(biāo)和開(kāi)源代碼。最后,論文討論了在NLP中充分利用GNNs的挑戰(zhàn)以及未來(lái)的研究方向。這是第一份針對(duì)自然語(yǔ)言處理任務(wù)的圖神經(jīng)網(wǎng)絡(luò)的全面綜述。

1. 介紹

傳統(tǒng)的文本數(shù)據(jù)建模方式

傳統(tǒng)的NLP任務(wù)中,文本序列被認(rèn)為是一個(gè)由tokens組成的袋子,如BoW(詞袋模型)和TF-IDF(詞頻-逆文檔頻率)。隨著詞嵌入技術(shù)的成功,句子通常被表示為一個(gè)由tokens組成的序列。一些流行的深度學(xué)習(xí)技術(shù),如RNN和CNN被廣泛用于建模文本序列。

文本數(shù)據(jù)的圖結(jié)構(gòu)表達(dá)

有大量的NLP問(wèn)題可以用圖結(jié)構(gòu)進(jìn)行最佳表達(dá)。例如,文本序列中的句子結(jié)構(gòu)信息(即句法解析樹(shù))可以用于增強(qiáng)原始序列數(shù)據(jù)的表示。同樣,序列數(shù)據(jù)中的語(yǔ)義信息(即語(yǔ)義解析圖)也可以被利用來(lái)增強(qiáng)原始序列數(shù)據(jù)。因此,這些圖結(jié)構(gòu)的數(shù)據(jù)可以編碼實(shí)體tokens之間復(fù)雜的成對(duì)關(guān)系,以學(xué)習(xí)更由信息量的表示。

基于GNN的NLP任務(wù)

圖上深度學(xué)習(xí)和NLP的交叉點(diǎn)上的研究浪潮影響了各種NLP任務(wù)。不同的GNNs變體在許多NLP任務(wù)中取得了相當(dāng)大的成功,如分類任務(wù):句子分類,語(yǔ)義角色標(biāo)注,關(guān)系提?。簧扇蝿?wù):機(jī)器翻譯,問(wèn)題生成和摘要生成等。

GNN應(yīng)用于NLP的挑戰(zhàn)

將原始文本序列數(shù)據(jù)自動(dòng)轉(zhuǎn)化為圖結(jié)構(gòu)的數(shù)據(jù)。大多數(shù)NLP任務(wù)使用文本序列作為原始輸入,從文本序列中自動(dòng)構(gòu)建圖數(shù)據(jù)以利用底層結(jié)構(gòu)信息是利用圖神經(jīng)網(wǎng)絡(luò)處理NLP問(wèn)題的關(guān)鍵步驟。

恰當(dāng)?shù)膱D表示學(xué)習(xí)技術(shù)。需要使用專門設(shè)計(jì)的GNN來(lái)學(xué)習(xí)不同圖結(jié)構(gòu)數(shù)據(jù)的獨(dú)特特征,如無(wú)向、有向、多關(guān)系和異質(zhì)圖。

有效地建模復(fù)雜數(shù)據(jù)。因?yàn)樵S多NLP任務(wù)涉及學(xué)習(xí)基于圖的輸入和高度結(jié)構(gòu)化的輸出數(shù)據(jù)之間的映射,如序列、樹(shù),以及具有多種類型節(jié)點(diǎn)和邊的圖數(shù)據(jù)。

本文提出的分類體系

從三個(gè)維度來(lái)組織用于NLP任務(wù)的GNNs:圖的構(gòu)建;圖表示學(xué)習(xí);編碼器-解碼器模型;以及對(duì)應(yīng)的NLP應(yīng)用。

針對(duì)用于NLP任務(wù)的GNNs,提出了一個(gè)新的分類體系。沿著三個(gè)軸線系統(tǒng)地組織了現(xiàn)有的用于NLP的GNN的研究:圖的構(gòu)建、圖表示學(xué)習(xí)和基于圖的編碼器-解碼器模型。

對(duì)各種NLP任務(wù)中最先進(jìn)的GNNs技術(shù)進(jìn)行了最全面的概述。對(duì)基于領(lǐng)域知識(shí)和語(yǔ)義空間的各種圖構(gòu)建方法、各種圖結(jié)構(gòu)數(shù)據(jù)的圖表示學(xué)習(xí)方法、基于GNNs的編碼器-解碼器模型提供了詳細(xì)的描述和比較。

總結(jié)了將GNNs充分用于NLP任務(wù)的各種突出挑戰(zhàn),并對(duì)未來(lái)的研究方向進(jìn)行了討論和建議。

2. 用于NLP任務(wù)的圖算法

這一章中,首先從圖的視角回顧了NLP問(wèn)題,簡(jiǎn)要介紹了NLP領(lǐng)域存在的多種多樣的圖結(jié)構(gòu)以及不同層次的圖結(jié)構(gòu);然后,簡(jiǎn)要介紹了一些傳統(tǒng)的用于解決NLP問(wèn)題的圖算法,包括:Random walk,graph clustering,graph matching,label propagation 等;最后總結(jié)了傳統(tǒng)圖算法的局限性以及與最新GNN算法之間的聯(lián)系。

2.1 從圖視角看NLP

自然語(yǔ)言的表示方式反映了我們對(duì)自然語(yǔ)言的特殊看法,并對(duì)處理和理解自然語(yǔ)言的方式有根本性的影響。一般來(lái)說(shuō),有三種不同的表示自然語(yǔ)言的方式。

bag of tokens:最簡(jiǎn)單的方式是將自然語(yǔ)言表示為一袋tokens,這種方式完全忽略了文本中tokens出現(xiàn)的具體位置,而只考慮其在文本中出現(xiàn)的次數(shù)。采取這種觀點(diǎn)的最具代表性的NLP技術(shù)是話題模型。

sequence of tokens:更自然的方式是將自然語(yǔ)言表示為一個(gè)tokens序列,這就是人類通常說(shuō)和寫自然語(yǔ)言的方式。與上述詞袋方式相比,這種觀點(diǎn)能夠捕捉到更豐富的文本信息,例如,哪兩個(gè)tokens是連續(xù)的,以及一個(gè)詞對(duì)局部語(yǔ)境中共出現(xiàn)了多少次。采取這種觀點(diǎn)的最具代表性的NLP技術(shù)包括線性鏈CRF,它在預(yù)測(cè)中實(shí)現(xiàn)了順序依賴,以及word2vec,它通過(guò)預(yù)測(cè)目標(biāo)單詞的上下文單詞來(lái)學(xué)習(xí)單詞嵌入。

represent natural language as a graph:第三種方式是將自然語(yǔ)言表現(xiàn)為圖。圖在NLP中是無(wú)處不在的。雖然將文本視為序列數(shù)據(jù)可能是最明顯的,但在NLP界,將文本表示為各種圖的做法由來(lái)已久。常見(jiàn)的文本或知識(shí)的圖表示包括依賴圖、成分圖、AMR圖、IE圖、詞匯網(wǎng)絡(luò)和知識(shí)圖譜。此外,還可以構(gòu)建一個(gè)包含多個(gè)層次元素的文本圖,如文檔、段落、句子和單詞。與上述兩種觀點(diǎn)相比,這種自然語(yǔ)言的觀點(diǎn)能夠捕捉到文本元素之間更豐富的關(guān)系。許多傳統(tǒng)的基于圖的方法(如隨機(jī)游走、標(biāo)簽傳播)已經(jīng)成功地應(yīng)用于具有挑戰(zhàn)性的NLP問(wèn)題,包括詞義消歧、命名消歧、共指解決、情感分析和文本聚類。

2.2 用于NLP任務(wù)的圖方法

在本小節(jié)中,將介紹各種傳統(tǒng)的基于圖的算法,這些算法已經(jīng)成功應(yīng)用于NLP的應(yīng)用。首先簡(jiǎn)要說(shuō)明一些有代表性的基于圖的算法和它們?cè)贜LP領(lǐng)域的應(yīng)用。然后,進(jìn)一步討論它們與GNN的聯(lián)系。

2.2.1 隨機(jī)游走算法(RANDOM WALK ALGORITHMS )

隨機(jī)游走

是一類基于圖的算法,在圖中產(chǎn)生隨機(jī)路徑??梢詮膱D中的任何一個(gè)節(jié)點(diǎn)開(kāi)始,根據(jù)一定的轉(zhuǎn)移概率反復(fù)選擇在每個(gè)時(shí)間訪問(wèn)一個(gè)隨機(jī)的鄰近節(jié)點(diǎn)。然后,隨機(jī)游走中所有被訪問(wèn)的節(jié)點(diǎn)就形成了一條隨機(jī)路徑。在隨機(jī)游走收斂后,人們可以得到一個(gè)圖中所有節(jié)點(diǎn)的靜態(tài)分布,該分布可以用來(lái)通過(guò)對(duì)概率得分進(jìn)行排名,選擇圖中結(jié)構(gòu)重要性高的最突出的節(jié)點(diǎn),或者通過(guò)計(jì)算兩個(gè)隨機(jī)游走分布的相似性來(lái)衡量?jī)蓚€(gè)圖的關(guān)聯(lián)性。

應(yīng)用

隨機(jī)游走算法已被應(yīng)用于各種NLP任務(wù)中,包括文本的語(yǔ)義相似性度量和語(yǔ)義網(wǎng)絡(luò)上的語(yǔ)義距離、詞義消歧、名稱消歧、查詢擴(kuò)展、關(guān)鍵詞提取、名稱消歧、擴(kuò)展查詢、關(guān)鍵詞提取,以及跨語(yǔ)言信息檢索等。

2.2.2 圖聚類算法(GRAPH CLUSTERING ALGORITHMS )

圖聚類算法

常見(jiàn)的圖聚類算法包括譜聚類、隨機(jī)游走聚類和min-cut聚類。譜聚類算法利用圖的拉普拉斯矩陣的頻譜(特征值),在使用K-means等現(xiàn)有算法進(jìn)行聚類前進(jìn)行降維。隨機(jī)漫步聚類算法通過(guò)在圖上進(jìn)行t步隨機(jī)漫步來(lái)操作,因此,每個(gè)節(jié)點(diǎn)被表示為一個(gè)概率向量,表示圖中所有其它節(jié)點(diǎn)的t步生成概率?;趫D聚類的目的,小的t值是更可取的,因?yàn)橄氩蹲骄植拷Y(jié)構(gòu)信息而不是全局結(jié)構(gòu)信息。min-cut算法也可用于將圖劃分為多個(gè)簇。

應(yīng)用

圖聚類算法已被成功應(yīng)用于解決文本聚類任務(wù)。例如,Erkan提出使用從有向生成圖(包含n個(gè)文檔節(jié)點(diǎn))上的t步隨機(jī)游走得出的n-dim概率分布作為語(yǔ)料庫(kù)中每個(gè)文檔的向量表示。然后,圖聚類算法作用于文檔表示,以生成文檔簇。

2.2.3 圖匹配算法(GRAPH MATCHING ALGORITHMS)

圖匹配算法

圖匹配算法的目的是計(jì)算兩個(gè)圖之間的相似度。Graph Edit Distance 是最常用的測(cè)量?jī)蓚€(gè)圖的不相似性的方法。它將距離計(jì)算為將一個(gè)圖轉(zhuǎn)化為另一個(gè)圖所需的變化(即添加、刪除、替換)的數(shù)量。

應(yīng)用

圖匹配算法在文本推斷任務(wù)中有所應(yīng)用,該任務(wù)旨在決定一個(gè)給定的句子是否可以從文本中推斷出來(lái)。

2.2.4 標(biāo)簽傳播算法(LABEL PROPAGATION ALGORITHMS)

標(biāo)簽傳播算法

標(biāo)簽傳播算法(LPAs)是一類基于圖的半監(jiān)督算法,它將標(biāo)簽從有標(biāo)簽的數(shù)據(jù)點(diǎn)傳播到之前沒(méi)有標(biāo)簽的數(shù)據(jù)點(diǎn)。LPA是通過(guò)在圖上迭代傳播和聚集標(biāo)簽來(lái)操作的。在每次迭代中,每個(gè)節(jié)點(diǎn)都會(huì)根據(jù)其鄰居節(jié)點(diǎn)擁有的標(biāo)簽改變其標(biāo)簽。因此,標(biāo)簽信息會(huì)在圖中擴(kuò)散。

應(yīng)用

LPA在網(wǎng)絡(luò)科學(xué)文獻(xiàn)中被廣泛用于發(fā)現(xiàn)復(fù)雜網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu)。在NLP的文獻(xiàn)中,LPA已經(jīng)成功地應(yīng)用于詞義消歧和情感分析。這些應(yīng)用通常集中在標(biāo)記數(shù)據(jù)稀少的半監(jiān)督學(xué)習(xí)環(huán)境中,并利用LPA算法將標(biāo)簽從有限的標(biāo)記例子傳播到大量類似的未標(biāo)記的例子,并假設(shè)類似的例子應(yīng)該有類似的標(biāo)簽。

2.2.5 局限性以及與GNN的聯(lián)系

局限性

首先,它們的表達(dá)能力有限,主要側(cè)重于捕捉圖的結(jié)構(gòu)信息,但不考慮節(jié)點(diǎn)和邊特征,而這些特征對(duì)許多NLP的應(yīng)用也非常重要。其次,對(duì)于傳統(tǒng)的基于圖的算法,沒(méi)有統(tǒng)一的學(xué)習(xí)框架。不同的基于圖的算法有非常不同的屬性和設(shè)置,并且只適用于一些特定的用例。

與GNN的聯(lián)系

傳統(tǒng)基于圖的算法的上述局限性要求建立一個(gè)統(tǒng)一的基于圖的學(xué)習(xí)框架,該框架對(duì)圖結(jié)構(gòu)和節(jié)點(diǎn)/邊屬性的建模具有強(qiáng)大的表達(dá)能力。GNN作為一類特殊的神經(jīng)網(wǎng)絡(luò)獲得了越來(lái)越多的關(guān)注,它可以為任意的圖結(jié)構(gòu)數(shù)據(jù)建模。大多數(shù)GNN的變體可以被視為一個(gè)基于消息傳遞的學(xué)習(xí)框架。與傳統(tǒng)的基于消息傳遞的算法(如LPA)不同的是,GNN的操作方式是通過(guò)幾個(gè)神經(jīng)層對(duì)節(jié)點(diǎn)/邊特征進(jìn)行轉(zhuǎn)換、傳播和聚合,從而學(xué)習(xí)更好的圖表示。作為一個(gè)通用的基于圖的學(xué)習(xí)框架,GNNs可以應(yīng)用于各種與圖相關(guān)的任務(wù),如節(jié)點(diǎn)分類、鏈接預(yù)測(cè)和圖分類。

3. 圖神經(jīng)網(wǎng)絡(luò)

在上一章中,已經(jīng)說(shuō)明了各種基于圖的傳統(tǒng)方法在不同的NLP任務(wù)中的應(yīng)用。本章中,將闡述GNNs的基礎(chǔ)理論和方法,能夠直接在圖結(jié)構(gòu)的數(shù)據(jù)上操作。并詳細(xì)介紹了圖濾波器(Spectral-based Graph Filters,Spatial-based Graph Filters,Attention-based Graph Filters,Recurrent-based Graph Filters)和圖池化方法(Flat Graph Pooling,Hierarchical Graph Pooling)。

3.1 Foundations

圖神經(jīng)網(wǎng)絡(luò)本質(zhì)上是圖表示學(xué)習(xí)模型,可以應(yīng)用于節(jié)點(diǎn)級(jí)別的任務(wù)和圖級(jí)別的任務(wù)。圖神經(jīng)網(wǎng)絡(luò)為圖中的每個(gè)節(jié)點(diǎn)學(xué)習(xí)嵌入,并將節(jié)點(diǎn)嵌入聚集起來(lái)產(chǎn)生圖的嵌入。一般來(lái)說(shuō),節(jié)點(diǎn)嵌入的學(xué)習(xí)過(guò)程利用了輸入的節(jié)點(diǎn)嵌入和圖結(jié)構(gòu),可以總結(jié)為:

即輸入鄰居節(jié)矩陣和 層的節(jié)點(diǎn)狀態(tài),可以更新得到下一層的節(jié)點(diǎn)嵌入,不同的模型在于圖濾波器的選擇和參數(shù)。

池化操作來(lái)聚合節(jié)點(diǎn)嵌入,以生成圖級(jí)別的嵌入。在GNN模型中,圖池化將一個(gè)圖及其節(jié)點(diǎn)嵌入作為輸入,然后生成一個(gè)具有較少節(jié)點(diǎn)的較小的圖及其相應(yīng)的新節(jié)點(diǎn)嵌入。圖池化操作可以總結(jié)為:

3.2 方法

3.2.1 圖濾波器

圖濾波器存在多種實(shí)現(xiàn)方式,大致可分為基于譜域的圖濾波器、基于空間域的圖濾波器、基于注意力的圖濾波器和基于遞歸的圖濾波器。從概念上講,基于譜域的圖濾波器是基于譜圖理論的,而基于空域的方法則是利用圖空間上的鄰居節(jié)點(diǎn)來(lái)計(jì)算節(jié)點(diǎn)嵌入。一些基于譜域的圖濾波器可以被轉(zhuǎn)換為基于空間的圖濾波。基于注意力的圖濾波器受到自注意力機(jī)制的啟發(fā),對(duì)不同的鄰居節(jié)點(diǎn)分配不同的注意力權(quán)重?;谶f歸的圖濾波器引入了門控機(jī)制,模型參數(shù)在不同的GNN層之間共享。

3.2.2 圖池化

圖池化層用于以圖為重點(diǎn)的下游任務(wù)生成圖級(jí)表示,如基于學(xué)習(xí)到的節(jié)點(diǎn)嵌入進(jìn)行圖分類和預(yù)測(cè)。圖級(jí)別的任務(wù)來(lái)說(shuō),需要整個(gè)圖的表示。為此,需要對(duì)節(jié)點(diǎn)嵌入信息和圖結(jié)構(gòu)信息進(jìn)行總結(jié)。圖池化層可以分為兩類:flat圖池化和分層圖池化。flat圖池化在單個(gè)步驟中直接從節(jié)點(diǎn)嵌入中生成圖級(jí)別表示。相比之下,分層圖池化包含幾個(gè)圖池化層。

4. 用于NLP任務(wù)的圖構(gòu)建方法

上一章討論了給定圖輸入時(shí),GNN的基本基礎(chǔ)和方法。不幸的是,對(duì)于大多數(shù)NLP任務(wù)來(lái)說(shuō),典型的輸入是文本序列而不是圖。為了利用GNN的力量,如何從文本序列中構(gòu)建一個(gè)圖輸入成為一個(gè)艱難的步驟。在本章重點(diǎn)介紹兩種主要的圖構(gòu)建方法,即靜態(tài)圖構(gòu)建(Dependency Graph Construction,Constituency Graph Construction,AMR Graph Construction,Discourse Graph Construction,information extraction graph,Discourse Graph Construction,Knowledge Graph Construction,Knowledge Graph Construction,Similarity Graph Construction,Co-occurrence Graph Construction。Topic Graph Construction,App-driven Graph Construction)和動(dòng)態(tài)圖構(gòu)建,此外介紹了多種圖相似度度量準(zhǔn)則,用于構(gòu)建各種NLP任務(wù)中的圖結(jié)構(gòu)輸入。

4.1 靜態(tài)圖構(gòu)建

靜態(tài)圖構(gòu)建方法的目的是在預(yù)處理期間構(gòu)建圖結(jié)構(gòu),通常是利用現(xiàn)有的關(guān)系解析工具(如依存分析)或手動(dòng)定義的規(guī)則。從概念上講,靜態(tài)圖包含了隱藏在原始文本序列中的不同領(lǐng)域/外部知識(shí),它用豐富的結(jié)構(gòu)化信息豐富了原始文本的內(nèi)容。

4.1.1 靜態(tài)圖構(gòu)建方法

依賴圖構(gòu)建(Dependency Graph Construction)

依賴圖被廣泛用于捕捉給定句子中不同對(duì)象之間的依賴關(guān)系。從形式上看,給定一個(gè)段落,可以通過(guò)使用各種NLP解析工具(例如Stanford CoreNLP)獲得依存分析樹(shù)(例如句法依存樹(shù)或語(yǔ)義依存關(guān)系樹(shù))。然后,從依存分析樹(shù)中提取依賴關(guān)系,并將其轉(zhuǎn)換為依賴性圖。由于給定段落有順序信息,而圖的節(jié)點(diǎn)是無(wú)序的,可以引入順序的 link,在圖結(jié)構(gòu)中保留這種重要信息。有代表性的依存圖構(gòu)建方法,給定輸入段和其提取的分析樹(shù),包括三個(gè)關(guān)鍵步驟。1)構(gòu)建依賴關(guān)系,2)構(gòu)建順序關(guān)系,3)最終的圖轉(zhuǎn)換。

成分圖構(gòu)建(Constituency Graph Construction)

成分圖是另一個(gè)廣泛使用的靜態(tài)圖,能夠捕捉一個(gè)或多個(gè)句子中基于短語(yǔ)的句法關(guān)系。與依存分析不同的是,依存分析只關(guān)注單個(gè)詞之間一對(duì)一的對(duì)應(yīng)關(guān)系(即詞級(jí)),而構(gòu)成分析則對(duì)一個(gè)或幾個(gè)對(duì)應(yīng)詞的組合進(jìn)行建模(即短語(yǔ)級(jí))。首先解釋成分關(guān)系的基本概念,然后說(shuō)明成分圖的構(gòu)建過(guò)程。構(gòu)成圖的例子如圖2所示。

在語(yǔ)言學(xué)中,成分關(guān)系是指遵循短語(yǔ)結(jié)構(gòu)語(yǔ)法的關(guān)系,而不是依存關(guān)系和依存語(yǔ)法。一般來(lái)說(shuō),成分關(guān)系是由主語(yǔ)(名詞短語(yǔ)NP)— 謂語(yǔ)(動(dòng)詞短語(yǔ)VP)關(guān)系衍生出來(lái)的。與依存關(guān)系解析樹(shù)不同的是,所有的節(jié)點(diǎn)都有相同的類型,成分分析樹(shù)區(qū)分了終端節(jié)點(diǎn)和非終端節(jié)點(diǎn),非終端類別標(biāo)記分析樹(shù)的內(nèi)部節(jié)點(diǎn),葉子節(jié)點(diǎn)標(biāo)記為終端類別。節(jié)點(diǎn)集可以表示為:1)非終端節(jié)點(diǎn)集2) 終端節(jié)點(diǎn)集。構(gòu)成關(guān)系集合與樹(shù)的邊相關(guān)。成分圖由非終端節(jié)點(diǎn)和終端節(jié)點(diǎn)組成,以及成分邊和序列邊。對(duì)于原文中相鄰的每個(gè)單詞節(jié)點(diǎn)對(duì),在它們之間添加一條具有特定序列類型的無(wú)向邊,用來(lái)保留順序信息。

抽象語(yǔ)義表示圖構(gòu)建(AMR Graph Construction)

AMR圖是有根、有標(biāo)注、有向、無(wú)環(huán)的圖,它被廣泛用于表示非結(jié)構(gòu)化的具體自然文本的抽象概念之間的高級(jí)語(yǔ)義關(guān)系。與句法上的特異性不同,AMR是高層次的語(yǔ)義抽象。更具體地說(shuō),在語(yǔ)義上相似的不同句子可能共享相同的AMR解析結(jié)果,例如,"保羅描述自己是一個(gè)戰(zhàn)士 "和 "保羅對(duì)自己的描述:一個(gè)戰(zhàn)士",如圖3所示。與之前介紹的依賴樹(shù)和成分樹(shù)類似,AMR圖是由AMR解析樹(shù)衍生出來(lái)的。

信息抽取圖構(gòu)建(Information Extraction Graph Construction)

信息抽取圖(IE Graph)旨在提取結(jié)構(gòu)信息來(lái)表示自然句子之間的高級(jí)信息,例如基于文本的文檔。這些提取出來(lái)的關(guān)系,捕捉到遠(yuǎn)距離句子之間的關(guān)系,在許多NLP任務(wù)中很有幫助。在下文中,為給定段落構(gòu)建IE圖的過(guò)程分為三個(gè)基本步驟。1)指代消解,2)構(gòu)建IE關(guān)系,3)圖的構(gòu)建。

話語(yǔ)圖構(gòu)建(Discourse Graph Construction)

當(dāng)候選文檔太長(zhǎng)時(shí),許多NLP任務(wù)會(huì)受到長(zhǎng)距離依賴性的挑戰(zhàn)。話語(yǔ)圖描述了兩個(gè)句子之間的邏輯聯(lián)系,可以有效地解決這種挑戰(zhàn)。

知識(shí)圖譜構(gòu)建(Knowledge Graph Construction)

捕捉實(shí)體和關(guān)系的知識(shí)圖譜(KG)可以大大促進(jìn)許多NLP應(yīng)用中的學(xué)習(xí)和推理。KG可以表示為G(V, E),它通常由知識(shí)庫(kù)中的元素構(gòu)建。形式上,定義三元組作為知識(shí)庫(kù)的基本元素,包括是源實(shí)體,目標(biāo)實(shí)體和關(guān)系類型。然后,在知識(shí)庫(kù)中添加兩個(gè)節(jié)點(diǎn),即源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn),并從節(jié)點(diǎn)v1到節(jié)點(diǎn)v2添加一條邊類型為rel的有向邊。

構(gòu)建KG的第一件事是獲取給定查詢中的術(shù)語(yǔ)實(shí)例。然后,通過(guò)一些匹配算法(如最大子串匹配)將術(shù)語(yǔ)實(shí)例與KG中的概念聯(lián)系起來(lái)。這些概念被看作是提取的子圖中的初始節(jié)點(diǎn)。下一步是獲取初始節(jié)點(diǎn)在KG中的1跳鄰居。此外,人們可以通過(guò)應(yīng)用一些圖節(jié)點(diǎn)相關(guān)性模型,如個(gè)性化的PageRank(PPR)算法,來(lái)計(jì)算鄰居與初始節(jié)點(diǎn)的相關(guān)性。然后根據(jù)結(jié)果,進(jìn)一步修剪出相關(guān)性分?jǐn)?shù)低于置信度閾值的邊,并刪除孤立的鄰居。剩余的最終子圖隨后被用來(lái)給任何圖表示學(xué)習(xí)模塊提供信息。

共指圖構(gòu)建(Coreference Graph Construction)

在語(yǔ)言學(xué)中,當(dāng)某個(gè)段落中的兩個(gè)或多個(gè)術(shù)語(yǔ)指代同一個(gè)對(duì)象時(shí),就會(huì)出現(xiàn)共指。許多工作表明,這種現(xiàn)象有助于更好地理解語(yǔ)料庫(kù)的復(fù)雜結(jié)構(gòu)和邏輯,解決歧義。為了有效地利用共指信息,共指圖用來(lái)顯式的建模隱性共指關(guān)系。給定一組短語(yǔ),共指圖可以連接文本語(yǔ)料庫(kù)中指代同一實(shí)體的節(jié)點(diǎn)(短語(yǔ))。

相似圖構(gòu)建(Similarity Graph Construction)

相似性圖旨在量化節(jié)點(diǎn)之間的相似性,在許多NLP任務(wù)中被廣泛使用。由于相似性圖通常是面向應(yīng)用的,因此我們重點(diǎn)關(guān)注構(gòu)建實(shí)體、句子和文檔等各種類型元素的相似性圖的基本程序,而忽略了具體的應(yīng)用細(xì)節(jié)。相似性圖的構(gòu)建是在預(yù)處理過(guò)程中進(jìn)行的,而不是以端到端的方式與其余學(xué)習(xí)系統(tǒng)共同訓(xùn)練。圖6中顯示了一個(gè)相似性圖的例子。

共現(xiàn)圖構(gòu)建(Co-occurrence Graph Construction)

共現(xiàn)圖旨在捕捉文本中詞與詞之間的共現(xiàn)關(guān)系,這在許多NLP任務(wù)中被廣泛使用,共現(xiàn)關(guān)系描述了在固定大小的上下文窗口內(nèi)共同出現(xiàn)的兩個(gè)詞的頻率,是捕捉語(yǔ)料庫(kù)中詞之間語(yǔ)義關(guān)系的一個(gè)重要特征。共現(xiàn)圖的例子見(jiàn)圖7。

話題圖構(gòu)建(Topic Graph Construction)

話題圖是建立在幾個(gè)文檔上的,其目的是對(duì)不同話題之間的高層次語(yǔ)義關(guān)系進(jìn)行建模。給定一組文檔,首先用一些話題建模算法,如LDA,學(xué)習(xí)潛在的話題。然后構(gòu)建話題圖,只有當(dāng)文檔具有該話題時(shí),那么在文檔節(jié)點(diǎn)和話題節(jié)點(diǎn)之間構(gòu)建一條無(wú)向邊。

應(yīng)用驅(qū)動(dòng)圖構(gòu)建(App-driven Graph Construction)

應(yīng)用驅(qū)動(dòng)圖指的是為特定的NLP任務(wù)專門設(shè)計(jì)的圖。在一些NLP任務(wù)中,用特定應(yīng)用的方法通過(guò)結(jié)構(gòu)化的形成來(lái)表示非結(jié)構(gòu)化的數(shù)據(jù)是很常見(jiàn)的。例如,SQL語(yǔ)言可以自然地通過(guò)SQL解析樹(shù)來(lái)表示。因此,它可以被轉(zhuǎn)換為SQL圖。由于這些圖在領(lǐng)域知識(shí)的基礎(chǔ)上過(guò)于專業(yè)化,所以沒(méi)有統(tǒng)一的模式來(lái)總結(jié)如何建立一個(gè)應(yīng)用驅(qū)動(dòng)的圖。圖9是這種應(yīng)用驅(qū)動(dòng)圖的一個(gè)例子,如SQL圖。

4.1.2 混合圖構(gòu)建和討論

以前的大多數(shù)靜態(tài)圖構(gòu)建方法只考慮節(jié)點(diǎn)之間的一種特定關(guān)系。盡管得到的圖在某種程度上很好地捕捉了結(jié)構(gòu)信息,但它們?cè)诶貌煌愋偷膱D關(guān)系方面也是有限的。為了解決這一局限性,人們?cè)絹?lái)越關(guān)注通過(guò)將幾個(gè)圖組合在一起構(gòu)建混合圖,以豐富圖中的語(yǔ)義信息。

4.2 動(dòng)態(tài)圖構(gòu)建

盡管靜態(tài)圖的構(gòu)建具有將數(shù)據(jù)的先驗(yàn)知識(shí)編碼到圖結(jié)構(gòu)中的優(yōu)勢(shì),但它有幾個(gè)局限性:1)為了構(gòu)建一個(gè)性能合理的圖的拓?fù)浣Y(jié)構(gòu),需要大量的人力和領(lǐng)域知識(shí);2)人工構(gòu)建的圖結(jié)構(gòu)可能容易出錯(cuò)(例如,有噪音或不完整);3)由于圖構(gòu)建階段和圖表示學(xué)習(xí)階段是不相干的,在圖構(gòu)建階段引入的錯(cuò)誤不能被糾正,可能會(huì)累積到后面的階段,這可能導(dǎo)致性能下降。4)圖的構(gòu)建過(guò)程往往只由機(jī)器學(xué)習(xí)從業(yè)者的見(jiàn)解來(lái)決定,對(duì)于下游的預(yù)測(cè)任務(wù)來(lái)說(shuō)可能是次優(yōu)的。

為了應(yīng)對(duì)上述挑戰(zhàn),最近關(guān)于NLP的GNN的嘗試(Chen等人,2020e,f;Liu等人,2021b,2019c)開(kāi)始探索動(dòng)態(tài)圖的構(gòu)建,而不需要借助人工或領(lǐng)域?qū)I(yè)知識(shí)。大多數(shù)動(dòng)態(tài)圖構(gòu)建方法旨在動(dòng)態(tài)學(xué)習(xí)圖結(jié)構(gòu)(即加權(quán)鄰接矩陣),圖構(gòu)建模塊可以與后續(xù)的圖表示學(xué)習(xí)模塊共同優(yōu)化,以端到端的方式面向下游任務(wù)。如圖10所示,這些動(dòng)態(tài)圖構(gòu)建方法通常包括一個(gè)圖相似性度量學(xué)習(xí)組件,用于通過(guò)考慮嵌入空間中的成對(duì)節(jié)點(diǎn)相似性來(lái)學(xué)習(xí)鄰接矩陣,以及一個(gè)圖稀疏化組件,用于從學(xué)到的全連接圖中提取稀疏圖。將固有的圖結(jié)構(gòu)和學(xué)習(xí)到的隱含圖結(jié)構(gòu)結(jié)合起來(lái),有利于提高學(xué)習(xí)性能。此外,為了有效地進(jìn)行圖結(jié)構(gòu)和表征的聯(lián)合學(xué)習(xí),人們提出了各種學(xué)習(xí)范式。GNN的圖結(jié)構(gòu)學(xué)習(xí)本身就是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)趨勢(shì)性研究問(wèn)題,并且已經(jīng)在NLP之外被廣泛研究然而,在本綜述將重點(diǎn)介紹其在NLP領(lǐng)域的最新進(jìn)展,將動(dòng)態(tài)圖構(gòu)建和圖結(jié)構(gòu)學(xué)習(xí)交替使用。

4.2.1 圖相似度度量技術(shù)

基于節(jié)點(diǎn)屬性包含學(xué)習(xí)隱式圖結(jié)構(gòu)的有用信息的假設(shè),最近有工作將圖結(jié)構(gòu)學(xué)習(xí)問(wèn)題作為定義在節(jié)點(diǎn)嵌入空間的相似度量學(xué)習(xí)問(wèn)題。學(xué)習(xí)到的相似性度量函數(shù)以后可以應(yīng)用于未見(jiàn)過(guò)的節(jié)點(diǎn)嵌入集來(lái)推斷圖結(jié)構(gòu),從而實(shí)現(xiàn)歸納式圖結(jié)構(gòu)學(xué)習(xí)。對(duì)于部署在像圖這樣的非歐幾里得領(lǐng)域的數(shù)據(jù),歐幾里得距離不一定是衡量節(jié)點(diǎn)相似性的最佳指標(biāo)。各種相似性度量函數(shù)已用于GNN的圖結(jié)構(gòu)學(xué)習(xí)。根據(jù)所利用的信息源的類型,將這些度量函數(shù)分為兩類:基于節(jié)點(diǎn)嵌入的相似性度量學(xué)習(xí)和結(jié)構(gòu)感知的相似性度量學(xué)習(xí)。

基于節(jié)點(diǎn)嵌入的相似度度量學(xué)習(xí)

基于節(jié)點(diǎn)嵌入的相似性度量函數(shù)被設(shè)計(jì)為通過(guò)計(jì)算嵌入空間中的成對(duì)節(jié)點(diǎn)相似性來(lái)學(xué)習(xí)加權(quán)鄰接矩陣。常見(jiàn)的度量函數(shù)包括基于注意力的度量函數(shù)和基于余弦的度量函數(shù)。

基于注意力機(jī)制的相似度度量函數(shù)

迄今為止提出的大多數(shù)相似性度量函數(shù)都是基于注意力機(jī)制的。為了提高基于點(diǎn)積的注意力機(jī)制的學(xué)習(xí)能力,Chen等人通過(guò)引入可學(xué)習(xí)的參數(shù),提出了一個(gè)改良的點(diǎn)積,表述如下:

是一個(gè)非負(fù)的權(quán)重向量,提升節(jié)點(diǎn)嵌入不同維度的影響力。

Chen et al. 通過(guò)引入一個(gè)可學(xué)習(xí)的權(quán)重矩陣設(shè)計(jì)了一個(gè)更具有表達(dá)能力的點(diǎn)積方式:

Chen等人(2020e)將vanilla余弦相似度擴(kuò)展為多頭加權(quán)余弦相似度,以從多個(gè)角度捕捉成對(duì)的節(jié)點(diǎn)相似度,如下:

基于Cosine相似度的度量函數(shù)

Chen等人(2020e)將香vanilla余弦相似性擴(kuò)展為多頭加權(quán)余弦相似性,以從多個(gè)角度捕捉成對(duì)節(jié)點(diǎn)的相似性:

結(jié)構(gòu)感知的相似度學(xué)習(xí)

受結(jié)構(gòu)感知 transformers 的啟發(fā),最近的方法采用了結(jié)構(gòu)感知的相似性度量函數(shù),在節(jié)點(diǎn)信息之外還額外考慮了內(nèi)在圖的現(xiàn)有邊信息。例如,Liu等人(2019c)提出了一個(gè)學(xué)習(xí)成對(duì)節(jié)點(diǎn)相似性的結(jié)構(gòu)感知注意機(jī)制,如下:

是邊的嵌入表示。Liu et al. (2021b) 提出了結(jié)構(gòu)感知的全局注意力機(jī)制:

4.2.2 圖稀疏化技術(shù)

現(xiàn)實(shí)世界中的大多數(shù)圖都是稀疏的圖。相似性度量函數(shù)考慮任何一對(duì)節(jié)點(diǎn)之間的關(guān)系,并返回一個(gè)完全連接的圖,這不僅計(jì)算成本高,而且還可能引入噪音,如不重要的邊。因此,對(duì)所學(xué)的圖結(jié)構(gòu)明確地強(qiáng)制執(zhí)行稀疏性是有益的。除了在相似度量函數(shù)中應(yīng)用ReLU函數(shù),還采用了各種圖稀疏化技術(shù)來(lái)提高所學(xué)圖形結(jié)構(gòu)的稀疏性。

Chen等人(2020f,d)應(yīng)用kNN式的稀疏化操作,從相似度學(xué)習(xí)函數(shù)計(jì)算的節(jié)點(diǎn)相似度矩陣中獲得稀疏的鄰接矩陣:

其中,對(duì)于每個(gè)節(jié)點(diǎn),只保留K個(gè)最近的鄰居(包括它自己)和相關(guān)的相似度分?jǐn)?shù),其余的相似度分?jǐn)?shù)被屏蔽掉。Chen等人(2020e)通過(guò)只考慮每個(gè)節(jié)點(diǎn)的ε-鄰居來(lái)執(zhí)行稀疏的鄰接矩陣:

其中,S中小于非負(fù)閾值ε的元素全部被屏蔽掉(即設(shè)置為零)。

4.2.3 結(jié)合INTRINSIC圖結(jié)構(gòu)和隱式圖結(jié)構(gòu)

最近的研究表明,如果在進(jìn)行動(dòng)態(tài)圖構(gòu)建時(shí)完全丟棄內(nèi)在圖結(jié)構(gòu),可能會(huì)損害下游任務(wù)的性能。這可能是因?yàn)?intrinsic 圖通常仍然帶有關(guān)于下游任務(wù)的最佳圖結(jié)構(gòu)的豐富和有用的信息。因此,他們提出將學(xué)習(xí)到的隱式圖結(jié)構(gòu)與intrinsic圖結(jié)構(gòu)結(jié)合起來(lái),基于這樣的假設(shè):學(xué)習(xí)到的隱式圖有可能是intrinsic圖結(jié)構(gòu)的 "轉(zhuǎn)變"(例如,子結(jié)構(gòu)),是對(duì)intrinsic圖結(jié)構(gòu)的補(bǔ)充。另一個(gè)潛在的好處是納入intrinsic圖結(jié)構(gòu)可能有助于加速訓(xùn)練過(guò)程,提高訓(xùn)練的穩(wěn)定性。

4.2.4 學(xué)習(xí)范式

大多數(shù)現(xiàn)有的GNN動(dòng)態(tài)圖構(gòu)建方法包括兩個(gè)關(guān)鍵的學(xué)習(xí)組件:圖結(jié)構(gòu)學(xué)習(xí)(即相似性度量學(xué)習(xí))和圖表示學(xué)習(xí)(即GNN模塊),最終目標(biāo)是學(xué)習(xí)與某些下游預(yù)測(cè)任務(wù)相關(guān)的優(yōu)化圖結(jié)構(gòu)和表示。如何優(yōu)化這兩個(gè)獨(dú)立的學(xué)習(xí)組件以達(dá)到相同的最終目標(biāo)成為一個(gè)重要問(wèn)題。這里我們強(qiáng)調(diào)三個(gè)有代表性的學(xué)習(xí)范式。1)最直接的策略(Chen等人,2020f,d;Liu等人,2021b)是以端到端的方式聯(lián)合優(yōu)化整個(gè)學(xué)習(xí)系統(tǒng),以實(shí)現(xiàn)下游(半)監(jiān)督預(yù)測(cè)任務(wù);2)另一個(gè)常見(jiàn)的策略(Yang等人,2018b;Liu等人,2019c;Huang等人,2020a)是自適應(yīng)學(xué)習(xí)每個(gè)堆疊GNN層的輸入圖結(jié)構(gòu)以反映中間圖表示的變化。這類似于transformer 如何在每一層學(xué)習(xí)不同的加權(quán)全連接圖;3)與上述兩種范式不同,Chen等人(2020e)提出了一個(gè)迭代式的圖學(xué)習(xí)框架,即在更好的圖表示的基礎(chǔ)上學(xué)習(xí)更好的圖結(jié)構(gòu),同時(shí)以迭代的方式學(xué)習(xí)更好的圖表示。因此,這種迭代學(xué)習(xí)范式反復(fù)完善圖結(jié)構(gòu)和圖表示,以達(dá)到最佳的下游性能。

5. 用于NLP的圖表示學(xué)習(xí)

上一章介紹了各種圖構(gòu)建方法,包括靜態(tài)圖構(gòu)建和動(dòng)態(tài)圖構(gòu)建。本章將討論各種圖表示學(xué)習(xí)技術(shù),這些技術(shù)直接在構(gòu)建的圖上操作,用于各種NLP任務(wù)。圖表示學(xué)習(xí)的目標(biāo)是找到一種方法,通過(guò)機(jī)器學(xué)習(xí)模型將圖的結(jié)構(gòu)和屬性信息納入低維嵌入。一般來(lái)說(shuō),從原始文本數(shù)據(jù)構(gòu)建的圖可能是同質(zhì)圖或異質(zhì)圖。因此,在第5.1節(jié)中,將討論同質(zhì)圖的各種圖表示學(xué)習(xí)方法,包括原始同質(zhì)圖和一些從異質(zhì)圖轉(zhuǎn)換過(guò)來(lái)的方案。在第5.2節(jié),將討論基于GNN的作用于多關(guān)系圖的方法,在第5.3節(jié),討論處理異質(zhì)圖的GNN。

數(shù)學(xué)上表示任意圖 , 是節(jié)點(diǎn)集合, 是邊集合, 是節(jié)點(diǎn)類型結(jié)合, 是邊的類型集合, 是任意元素的個(gè)數(shù), 是節(jié)點(diǎn)類型的指示函數(shù)( 表示節(jié)點(diǎn) 的類型), 是邊類型的指示函數(shù)。

5.1 GNNs for Homogeneous Graphs

根據(jù)定義,對(duì)于圖 ,當(dāng)滿足被稱為同質(zhì)圖。大多數(shù)圖神經(jīng)網(wǎng)絡(luò),如GCN、GAT和GraphSage,都是為同質(zhì)圖設(shè)計(jì)的,然而,這并不能很好地適配許多NLP任務(wù)。例如,給定一個(gè)自然語(yǔ)言文本,構(gòu)建的依賴圖是包含多種關(guān)系的任意圖,傳統(tǒng)的GNN方法無(wú)法直接利用。因此,在本小節(jié)中,將首先討論將任意圖轉(zhuǎn)換為同質(zhì)圖的各種策略,包括靜態(tài)圖和動(dòng)態(tài)圖。然后,討論考慮雙向編碼的圖神經(jīng)網(wǎng)絡(luò)。

5.1.1 靜態(tài)圖

處理靜態(tài)圖的GNN通常包括兩個(gè)階段,即轉(zhuǎn)換邊信息和節(jié)點(diǎn)表示學(xué)習(xí)。

將邊信息轉(zhuǎn)換為相鄰矩陣

邊被看作是節(jié)點(diǎn)之間的連接信息。在這種情況下,丟棄邊類型信息,保留連接信息,將異質(zhì)圖轉(zhuǎn)換成同質(zhì)圖。得到這樣的圖后,可以將圖的拓?fù)浣Y(jié)構(gòu)表示為統(tǒng)一的鄰接矩陣A。有向圖可以通過(guò)平均兩個(gè)方向的邊權(quán)重轉(zhuǎn)化為無(wú)向圖。邊權(quán)重被重新縮放,其最大邊緣權(quán)重為1,然后再送入GNN。

節(jié)點(diǎn)表示學(xué)習(xí)

給定初始節(jié)點(diǎn)嵌入X和鄰接矩陣A,基于經(jīng)典的GNNs技術(shù)提取節(jié)點(diǎn)表示。對(duì)于無(wú)向圖,大多數(shù)工作主要采用圖表示學(xué)習(xí)算法,如GCN、GGNN、GAT、GraphSage等,并將它們堆疊起來(lái),探索圖中的深層語(yǔ)義關(guān)聯(lián)。當(dāng)涉及到有向圖時(shí),少數(shù)GNN方法如GGNN、GAT仍然有效。而對(duì)于其他不能直接應(yīng)用于有向圖的GNN,簡(jiǎn)單的策略是忽略方向(即把有向圖轉(zhuǎn)換為無(wú)向圖)。然而,這種方法允許信息在沒(méi)有約束的情況下雙向傳播。為了解決這個(gè)問(wèn)題,人們做了很多努力來(lái)使GNN適應(yīng)于有向圖。對(duì)于GCN,一些基于空間的GCN算法是為有向圖設(shè)計(jì)的,如DCNN。GraphSage通過(guò)修改聚合函數(shù),通過(guò)指定邊方向并分別聚合,可以很容易地?cái)U(kuò)展到有向圖上。

5.1.2 動(dòng)態(tài)圖

動(dòng)態(tài)圖旨在與下游任務(wù)共同學(xué)習(xí)圖結(jié)構(gòu)。早期的工作主要采用遞歸網(wǎng)絡(luò),將圖節(jié)點(diǎn)嵌入作為RNN的狀態(tài)編碼,這可以看作是GGNN的雛形。然后,經(jīng)典的GNN如GCN、GAT、GGNN 被用來(lái)有效地學(xué)習(xí)圖嵌入。最近的研究者采用基于注意力或基于度量學(xué)習(xí)的機(jī)制,從非結(jié)構(gòu)化文本中學(xué)習(xí)隱含的圖結(jié)構(gòu)。圖結(jié)構(gòu)的學(xué)習(xí)過(guò)程是通過(guò)端到端的方式與下游任務(wù)共同進(jìn)行的。

5.1.3 雙向圖嵌入

前面介紹了從靜態(tài)同質(zhì)圖中構(gòu)建和學(xué)習(xí)節(jié)點(diǎn)嵌入的典型技術(shù)。在本小節(jié)中,詳細(xì)討論了如何處理邊方向。在現(xiàn)實(shí)中,許多圖都是有向無(wú)環(huán)圖(DAG),其信息是沿著特定的邊方向傳播的。一些研究者允許信息在兩個(gè)方向上平等傳播,另一些研究者則拋棄了包含在出邊中的信息,這兩種情況對(duì)于最終的表示學(xué)習(xí)會(huì)損失一些重要結(jié)構(gòu)信息。為了解決這個(gè)問(wèn)題,提出了雙向圖神經(jīng)網(wǎng)絡(luò)(bidirectional GNN),以交錯(cuò)的方式從傳入和傳出的邊上學(xué)習(xí)節(jié)點(diǎn)表示。

5.2 用于多關(guān)系圖的GNN

現(xiàn)實(shí)中許多圖都有各種邊類型,如知識(shí)圖、AMR圖等,代表和學(xué)習(xí)多關(guān)系圖,當(dāng)|R|>1并且|T|=1時(shí),被定義為多關(guān)系圖。在本節(jié)中將介紹不同的技術(shù),這些技術(shù)可以表示和學(xué)習(xí)多關(guān)系圖。

5.2.1 多關(guān)系圖的形成

由于異質(zhì)圖在NLP領(lǐng)域普遍存在,如知識(shí)圖譜、AMR圖等,大多數(shù)研究者提出將其轉(zhuǎn)換為多關(guān)系圖,可以通過(guò)5.2.2小節(jié)和5.2.3小節(jié)的關(guān)系GNN學(xué)習(xí),多關(guān)系圖表示為 , 并且 . 為了獲得多關(guān)系圖,技術(shù)上我們忽略了節(jié)點(diǎn)類型,設(shè)置初始邊的類型為"default",對(duì)于每一個(gè)邊,為其添加一個(gè)逆向邊,類型為"reverse",并為每個(gè)節(jié)點(diǎn)添加自環(huán)"self',因此就獲得了多關(guān)系圖: 且 .

5.2.2 多關(guān)系GNNs

多關(guān)系GNN是經(jīng)典GNN對(duì)多關(guān)系圖的擴(kuò)展,其節(jié)點(diǎn)類型相同,但邊類型不同。它們最初是用來(lái)編碼特定關(guān)系圖的,如知識(shí)圖譜和解析圖,這些圖在相同類型的節(jié)點(diǎn)之間有復(fù)雜的關(guān)系。一般來(lái)說(shuō),大多數(shù)多關(guān)系GNN采用特定類型的參數(shù)對(duì)關(guān)系進(jìn)行單獨(dú)建模。經(jīng)典的方法有:R-GCN、R-GGNN 和 R-GAT。

R-GCN

R-GCN是消息傳遞GCN框架的自然延伸,該框架在局部圖鄰域運(yùn)行,根據(jù)標(biāo)簽類型對(duì)傳入的節(jié)點(diǎn)進(jìn)行分組,然后對(duì)每一組分別應(yīng)用消息傳遞。因此,節(jié)點(diǎn)vi的鄰居節(jié)點(diǎn)的聚合過(guò)程被定義為:

R-GGNN

關(guān)系型GGNN最初是用于graph-to-sequence問(wèn)題,它能夠捕捉到長(zhǎng)距離的關(guān)系。與R-GCN類似,R-GGNN使用特定關(guān)系的權(quán)重來(lái)更好地捕捉節(jié)點(diǎn)之間特定關(guān)系的相關(guān)性。R-GGNN的傳播過(guò)程可以概括為:

R-GAT

Wang等人提出擴(kuò)展經(jīng)典的GAT以適應(yīng)多關(guān)系圖。直觀地說(shuō),具有不同關(guān)系的鄰居節(jié)點(diǎn)應(yīng)該具有不同的影響力。Wang等人(2020b)提出用額外的關(guān)系頭來(lái)擴(kuò)展同質(zhì)GAT。從技術(shù)上講,他們提出的關(guān)系結(jié)點(diǎn)表示為:

Gating Mechanism

多關(guān)系圖神經(jīng)網(wǎng)絡(luò)在堆疊若干層以利用遠(yuǎn)處鄰居之間的隱性關(guān)聯(lián)時(shí)也面臨過(guò)平滑問(wèn)題。為了解決這個(gè)問(wèn)題,在多關(guān)系圖神經(jīng)網(wǎng)絡(luò)中引入了門控機(jī)制,即通過(guò)門控將節(jié)點(diǎn)的輸入特征和聚合特征結(jié)合起來(lái)。直觀地說(shuō),門控機(jī)制可以被看作是原始信號(hào)和學(xué)習(xí)到的信息之間的權(quán)衡。它調(diào)節(jié)了多少更新信息被傳播到下一步,從而防止模型徹底覆蓋過(guò)去的信息。這里以經(jīng)典的R-GCN為例來(lái)介紹門控機(jī)制,它實(shí)際上可以擴(kuò)展到任意的變體。激活之前的表示為:

其中 表示聚合函數(shù)。最終,節(jié)點(diǎn)的最終表示是先前嵌入和GNN輸出表示 的門控組合:

為門向量。

5.2.3 GRAPH TRANSFORMER

Transformer 架構(gòu)在NLP領(lǐng)域取得了巨大成功,transformer的自注意力機(jī)制是全連接隱式圖學(xué)習(xí)的一個(gè)特殊程序,因此GNN和transformer 的概念產(chǎn)生了連接。然而,傳統(tǒng)的 transformer 未能利用結(jié)構(gòu)信息。在GAT的啟發(fā)下,許多文獻(xiàn)通過(guò)開(kāi)發(fā)結(jié)構(gòu)感知的自注意力機(jī)制,將結(jié)構(gòu)信息納入transformer。

self-attention

在本節(jié)中,將討論多關(guān)系圖的結(jié)構(gòu)感知自注意力技術(shù)。對(duì)自注意力機(jī)制作一個(gè)簡(jiǎn)單的回顧,省略了多頭機(jī)制,只介紹自注意的功能,自注意力的輸入為:,輸出表示 為:

對(duì)于圖 transformer 來(lái)說(shuō),查詢、鍵和值都是指節(jié)點(diǎn)的嵌入:即 。有各種結(jié)合了結(jié)構(gòu)知識(shí)的關(guān)系圖的圖 transformer,根據(jù)自注意力的功能可以分為兩類。一類是基于R-GAT的方法,它采用類似關(guān)系GAT的特征聚合方式。另一類是保留全連接圖,同時(shí)將結(jié)構(gòu)感知的關(guān)系信息納入到自注意功能中。

R-GAT Based Graph Transformer

基于GAT的圖 transformer采用了類似GAT的特征聚合,它利用了圖連接性的歸納偏置。在技術(shù)上,首先用特定類型的聚合步驟聚合鄰居,然后通過(guò)前饋層進(jìn)行融合,具體如下:

Structure-aware Self-attention Based Graph Transformer

與基于R-GAT的圖transformer純粹依靠給定的圖結(jié)構(gòu)不同,基于結(jié)構(gòu)感知的自注意的圖transformer保留了原有的自注意架構(gòu),允許非鄰接節(jié)點(diǎn)的通信。首先討論結(jié)構(gòu)感知的自我注意機(jī)制,然后介紹其獨(dú)特的邊嵌入表示法。

Shaw等人嘗試對(duì)神經(jīng)機(jī)器翻譯任務(wù)中詞(節(jié)點(diǎn))之間的相對(duì)關(guān)系進(jìn)行建模。在技術(shù)上,他們?cè)谟?jì)算節(jié)點(diǎn)相似度時(shí)考慮了關(guān)系嵌入:

受Shaw等人(2018)的啟發(fā),Xiao等提出擴(kuò)展傳統(tǒng)的自注意力架構(gòu),將隱空間中節(jié)點(diǎn)對(duì)之間的關(guān)系嵌入顯式編碼為:

為了采用雙向關(guān)系,Cai和Lam(2020c)對(duì)傳統(tǒng)的自注意力進(jìn)行了如下擴(kuò)展:

給定每種關(guān)系上學(xué)習(xí)到的注意力,邊的嵌入表示是納入結(jié)構(gòu)信息的下一個(gè)關(guān)鍵步驟。Shaw等人(2018)簡(jiǎn)單地學(xué)習(xí)了相對(duì)位置編碼,即節(jié)點(diǎn)的絕對(duì)位置。從技術(shù)上講,他們采用了個(gè)潛在標(biāo)簽 ,并映射對(duì)節(jié)點(diǎn)對(duì) ,將 到一個(gè)特定的標(biāo)簽嵌入,從而得到邊的嵌入。

Zhu等人(2019b);Cai和Lam(2020c)通過(guò)從節(jié)點(diǎn)到節(jié)點(diǎn) 的路徑來(lái)學(xué)習(xí)邊的表示。Zhu等人(2019b)將路徑視為一個(gè)字符串,將其添加到詞匯表中,使其向量化。還進(jìn)一步提出了其他方法來(lái)學(xué)習(xí)標(biāo)簽沿路徑的嵌入,例如:1)取平均值,2)求和,3)用自注意力來(lái)編碼,4)用CNN濾波器來(lái)編碼。Cai和Lam(2020c)提出了基于最短路徑的關(guān)系編碼器。具體來(lái)說(shuō),他們首先沿著路徑獲取標(biāo)簽的嵌入序列。然后,他們采用雙向的GRU進(jìn)行序列編碼。前向和后向GRU網(wǎng)絡(luò)的最后一個(gè)隱藏狀態(tài)最終被連接起來(lái)以表示關(guān)系嵌入。

5.3 Graph Neural Networks for Heterogeneous Graph

現(xiàn)實(shí)中的大多數(shù)圖有多種節(jié)點(diǎn)和邊的類型,如知識(shí)圖譜,AMR圖,它們被稱為異質(zhì)圖。從形式上看,對(duì)于一個(gè)圖G,滿足 或者 1,那么稱其為異質(zhì)圖。除了將異質(zhì)圖轉(zhuǎn)化為關(guān)系圖外,如上一小節(jié)所介紹的,有時(shí)還需要充分利用節(jié)點(diǎn)和邊的類別信息。因此,在第5.3.1小節(jié)中,首先介紹了異質(zhì)圖的預(yù)處理技術(shù)。然后,在第5.3.2和5.3.3小節(jié)中,將介紹兩種專門針對(duì)異質(zhì)圖的典型圖表示學(xué)習(xí)方法。

5.3.1 LEVI 圖轉(zhuǎn)換技術(shù)

由于大多數(shù)現(xiàn)有的GNN方法只針對(duì)同質(zhì)條件而設(shè)計(jì),在處理大量的邊類型時(shí),會(huì)有大量的計(jì)算負(fù)擔(dān)(例如,一個(gè)AMR圖可能包含100多種邊類型),因此,在異質(zhì)圖中有效的做法是將邊視為節(jié)點(diǎn)。最重要的圖轉(zhuǎn)換技術(shù)是Levi Graph Transformation,對(duì)于每一個(gè)具有特定標(biāo)簽的邊,生成一個(gè)新的節(jié)點(diǎn)。得到的圖是一個(gè)簡(jiǎn)化的異質(zhì)levi圖,它具有單一的邊類型,但節(jié)點(diǎn)類型不受限制,然后可以由第5.3小節(jié)中描述的異質(zhì)GNN進(jìn)行學(xué)習(xí)。

5.3.2 基于元路徑的異質(zhì) GNN

Meta-path

元路徑是連接兩個(gè)對(duì)象的復(fù)合關(guān)系,是一種廣泛使用的捕捉語(yǔ)義的結(jié)構(gòu)。以電影數(shù)據(jù)IMDB為例,有三種類型的節(jié)點(diǎn),包括電影、演員和導(dǎo)演。元路徑Movie → Actor →Movie,涵蓋了兩部電影和一個(gè)演員,描述了co-actor的關(guān)系。因此,異質(zhì)圖中節(jié)點(diǎn)之間的不同關(guān)系可以很容易地通過(guò)元路徑展示出來(lái)。首先提供了異質(zhì)圖的meta-level 描述,以便更好地理解。

遵循異質(zhì)信息網(wǎng)絡(luò)(HIN)的設(shè)定,給出了網(wǎng)絡(luò)模式的概念。網(wǎng)絡(luò)模式是異質(zhì)圖的元模板:節(jié)點(diǎn)類型的映射 以及邊類型的映射 ,將其表示為 ,網(wǎng)絡(luò)模式上的元路徑表示為:, 是模式的節(jié)點(diǎn), 是對(duì)應(yīng)的關(guān)系節(jié)點(diǎn)。元路徑集合為 ,將其表示為。元路徑是網(wǎng)絡(luò)模式上的一條路徑,表示為異質(zhì)圖G(V, E)的節(jié)點(diǎn)類型映射。V→T和邊類型映射。對(duì)于每一個(gè)元路徑上的節(jié)點(diǎn) ,表示為。然后將網(wǎng)絡(luò)模式與異質(zhì)如圖結(jié)合起來(lái),對(duì)于每一個(gè)異質(zhì)圖的節(jié)點(diǎn)以及一個(gè)元路徑 ,定義基于元路徑的鄰居為,其中包含所有節(jié)點(diǎn),包括由元路徑 鏈接的自己。在概念上,鄰居集可以有多跳節(jié)點(diǎn),這取決于元路徑的長(zhǎng)度。

大多數(shù)基于元路徑的GNN方法采用基于注意力的聚合策略。從技術(shù)上講,它們一般可以分為兩個(gè)階段。1)沿著每條元路徑聚合鄰居,這可以被稱為 "節(jié)點(diǎn)級(jí)聚集"。在這之后,節(jié)點(diǎn)通過(guò)不同的元路徑接收鄰居的信息;2)接下來(lái),應(yīng)用元路徑級(jí)別的注意力機(jī)制來(lái)學(xué)習(xí)不同元路徑的語(yǔ)義影響。通過(guò)這種方式,他們可以學(xué)習(xí)由多條元路徑連接的鄰居的最佳組合。

HAN

由于圖中節(jié)點(diǎn)的異質(zhì)性,不同的節(jié)點(diǎn)具有不同的特征空間,這給GNN處理各種初始節(jié)點(diǎn)嵌入帶來(lái)了很大挑戰(zhàn)。為解決這一問(wèn)題,采用特定類型的變換,將各種節(jié)點(diǎn)投射到統(tǒng)一的特征空間:

Node-level Aggregation:對(duì)于在元路徑上,節(jié)點(diǎn)的鄰居節(jié)點(diǎn)集合,節(jié)點(diǎn)特征的聚合過(guò)程可以表示為:

Meta-path Level Aggregation:一般來(lái)說(shuō),不同的元路徑傳達(dá)了不同的語(yǔ)義信息。為此,旨在學(xué)習(xí)每個(gè)元路徑的重要性:從技術(shù)上講,對(duì)于每條元路徑,首先學(xué)習(xí)每個(gè)節(jié)點(diǎn)的語(yǔ)義級(jí)重要性。然后對(duì)它們進(jìn)行平均,得到元路徑級(jí)別的重要性:最終獲得節(jié)點(diǎn)表示:

5.3.3 基于R-GNN的異質(zhì)GNN

盡管元路徑是組織異質(zhì)圖的有效工具,但它需要額外的領(lǐng)域?qū)<抑R(shí)。為此,大多數(shù)研究人員通過(guò)使用特定類型的聚合,采用了R-GNN的類似想法。為了清楚起見(jiàn),本文將這些方法命名為基于R-GNN的異質(zhì)GNN,并在下文中介紹這一類的幾個(gè)典型變體。

HGAT

HGAT(Linmei等人,2019)被提出用于編碼包含各種節(jié)點(diǎn)類型但單一邊類型的異質(zhì)圖。換句話說(shuō),邊只代表連接性。對(duì)于一個(gè)特定的節(jié)點(diǎn),不同類型的鄰居可能有不同的相關(guān)性。為了充分利用多樣化的結(jié)構(gòu)信息,HGAT首先專注于全局類型的相關(guān)性學(xué)習(xí),然后學(xué)習(xí)具體節(jié)點(diǎn)的表示。

MHGRN

MHGRN(Feng等人,2020b)是R-GCN的一個(gè)擴(kuò)展,它可以直接在異質(zhì)圖上利用多跳信息。一般來(lái)說(shuō),它借助關(guān)系路徑(如元路徑)的思想來(lái)建模兩個(gè)不具有k-hop連接節(jié)點(diǎn)的關(guān)系,并將現(xiàn)有的R-GNN擴(kuò)展到基于路徑的異構(gòu)圖表示學(xué)習(xí)范式。

HGT

HGT(Hu等人,2020c)是異質(zhì)圖的圖transformer,它在網(wǎng)絡(luò)模式之上建立節(jié)點(diǎn)之間的元關(guān)系,正如在基于元路徑的異質(zhì)GNN段落中討論的那樣。與之前大多數(shù)假設(shè)圖結(jié)構(gòu)是靜態(tài)的(即與時(shí)間無(wú)關(guān))的工作不同,他們提出了一個(gè)相對(duì)的時(shí)間編碼策略來(lái)學(xué)習(xí)時(shí)間依賴性。

6. 基于GNN 的編碼器-解碼器模型

編碼器-解碼器架構(gòu)是NLP領(lǐng)域最廣泛使用的機(jī)器學(xué)習(xí)框架之一,如Seq2Seq模型。鑒于GNN在建模圖結(jié)構(gòu)數(shù)據(jù)方面的巨大力量,最近,許多研究開(kāi)發(fā)了基于GNN的編碼器-解碼器框架,包括Graph-to-Tree和Graph-to-Graph模型。在本節(jié)中,首先介紹典型的Seq2Seq模型,然后討論各種基于圖的編碼器-解碼器模型,用于各種NLP任務(wù)。

6.1 Sequence-to-Sequence Models

序列到序列學(xué)習(xí)是NLP領(lǐng)域中最廣泛使用的機(jī)器學(xué)習(xí)范式之一。在這一節(jié)中,首先對(duì)Seq2Seq學(xué)習(xí)進(jìn)行了簡(jiǎn)要的概述,并介紹了一些典型的Seq2Seq技術(shù)。然后,指出Seq2Seq學(xué)習(xí)的一些已知的局限性以及它的解決方案,即納入更多結(jié)構(gòu)化的編碼器-解碼器模型作為原始Seq2Seq模型的替代,以編碼更復(fù)雜的數(shù)據(jù)結(jié)構(gòu)。

6.1.1 介紹

Seq2Seq模型用于解決一般的序列到序列問(wèn)題(如機(jī)器翻譯)。Seq2Seq模型是一個(gè)端到端的編碼器-解碼器框架,它學(xué)習(xí)將一個(gè)可變長(zhǎng)度的輸入序列到一個(gè)可變長(zhǎng)度的輸出序列之間的映射。通常這個(gè)想法是使用一個(gè)基于RNN的編碼器來(lái)讀取輸入序列,建立一個(gè)固定維度的向量表示,然后使用一個(gè)基于RNN的解碼器來(lái)生成以編碼器輸出向量為條件的輸出序列。解碼器本質(zhì)上是一個(gè)RNN語(yǔ)言模型,只不過(guò)它是以輸入序列為條件的。最常見(jiàn)的Seq2Seq變體之一是應(yīng)用雙向LSTM編碼器對(duì)輸入序列進(jìn)行編碼,并應(yīng)用LSTM解碼器對(duì)輸出序列進(jìn)行解碼。其他Seq2Seq變體用門控遞歸單元(GRU)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)或 Transformer模型代替LSTM。

在最初的Seq2Seq架構(gòu)中,中間向量的表示成為信息瓶頸,因?yàn)樗鼘⑤斎胄蛄械呢S富信息總結(jié)為固定維度的嵌入,作為解碼器生成高質(zhì)量輸出序列的唯一知識(shí)源。為了提高原始Seq2Seq模型的學(xué)習(xí)能力,人們提出了許多有效的技術(shù)。

6.1.2 討論

許多NLP應(yīng)用自然地接納了圖結(jié)構(gòu)的輸入數(shù)據(jù),如依賴圖、構(gòu)成圖,AMR圖,IE圖和知識(shí)圖譜。與序列數(shù)據(jù)相比,圖結(jié)構(gòu)的數(shù)據(jù)能夠編碼對(duì)象之間豐富的句法或語(yǔ)義關(guān)系。此外,即使原始輸入最初是以序列形式表示的,它仍然可以從顯式地合并結(jié)構(gòu)信息中受益。上述情況基本上需要一個(gè)編碼器-解碼器框架來(lái)學(xué)習(xí)圖到X的映射,其中X可以代表序列、樹(shù)或甚至圖?,F(xiàn)有的Seq2Seq模型在學(xué)習(xí)從圖到適當(dāng)目標(biāo)的精確映射方面面臨著巨大的挑戰(zhàn),因?yàn)樗鼪](méi)有能力對(duì)復(fù)雜的圖結(jié)構(gòu)數(shù)據(jù)進(jìn)行建模。

為了擴(kuò)展Seq2Seq模型以處理輸入為圖結(jié)構(gòu)數(shù)據(jù)的Graph-to-Sequence問(wèn)題,人們進(jìn)行了各種嘗試。一個(gè)簡(jiǎn)單直接的方法是直接將結(jié)構(gòu)化圖數(shù)據(jù)線性化為序列數(shù)據(jù),并將Seq2Seq模型應(yīng)用于所得到的序列。然而,這種方法遭受了巨大的信息損失,導(dǎo)致了性能的下降。RNN沒(méi)有能力對(duì)復(fù)雜的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行建模的根本原因在于它是一個(gè)線性鏈。鑒于此,一些研究工作已經(jīng)致力于擴(kuò)展Seq2Seq模型。例如,Tree2Seq(Eriguchi等人,2016)通過(guò)采用Tree-LSTM擴(kuò)展了Seq2Seq模型,該模型是鏈?zhǔn)浇Y(jié)構(gòu)LSTM對(duì)樹(shù)式結(jié)構(gòu)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的一種概括。Set2Seq是Seq2Seq模型的一個(gè)擴(kuò)展,它超越了序列,使用注意力機(jī)制處理輸入集。盡管這些Seq2Seq擴(kuò)展在某些類別的問(wèn)題上取得了有希望的結(jié)果,但它們都不能以一種原則性的方式對(duì)任意圖結(jié)構(gòu)的數(shù)據(jù)進(jìn)行建模。

6.2 Graph-to-Sequence Models

為了解決上述Seq2Seq模型在編碼豐富復(fù)雜的數(shù)據(jù)結(jié)構(gòu)上的局限性,最近提出了一些用于NLP任務(wù)的graph-to-sequence的編碼器-解碼器模型。Graph2Seq模型通常采用一個(gè)基于GNN的編碼器和一個(gè)基于RNN/Transformer的解碼器。與Seq2Seq范式相比,Graph2Seq范式更善于捕捉輸入文本的豐富結(jié)構(gòu)信息,可以應(yīng)用于任意的圖結(jié)構(gòu)數(shù)據(jù)。與Seq2Seq模型相比,Graph2Seq模型在廣泛的NLP任務(wù)中顯示出優(yōu)越的性能,包括神經(jīng)機(jī)器翻譯,AMR-to-text、文本摘要、問(wèn)題生成、KG-to-text、SQL-to-text 、code summarization和語(yǔ)義解析。

基于圖的編碼器

早期的Graph2Seq方法及其后續(xù)工作主要使用一些典型的GNN變體作為圖編碼器,包括GCN、GGNN、GraphSAGE和GAT。由于NLP圖中的邊緣向經(jīng)常編碼關(guān)于兩個(gè)頂點(diǎn)之間的語(yǔ)義關(guān)系的關(guān)鍵信息,因此捕獲文本的雙向信息往往是非常有幫助的。在Graph2Seq范式的文獻(xiàn)中,人們做了一些努力來(lái)擴(kuò)展現(xiàn)有的GNN模型以處理有向圖。最常見(jiàn)的策略是在進(jìn)行鄰居聚合時(shí),為不同的邊方向(即傳入/傳出/自環(huán)邊)引入單獨(dú)的模型參數(shù)。

除了邊方向信息,NLP應(yīng)用中的許多圖實(shí)際上是多關(guān)系圖,其中邊類型信息對(duì)下游任務(wù)非常重要。為了編碼邊類型信息,一些工作通過(guò)為不同的邊類型設(shè)置單獨(dú)的模型參數(shù)來(lái)擴(kuò)展它們。然而,在許多NLP應(yīng)用中(如KG相關(guān)任務(wù)),邊類型的總數(shù)很大,因此上述策略會(huì)有嚴(yán)重的可擴(kuò)展性問(wèn)題。為此,一些工作提出通過(guò)將多關(guān)系圖轉(zhuǎn)換為L(zhǎng)evi圖來(lái)繞過(guò)這個(gè)問(wèn)題,然后利用現(xiàn)有為同質(zhì)圖設(shè)計(jì)的GNN作為編碼器。另一個(gè)普遍采用的技術(shù)是將邊嵌入明確納入消息傳遞機(jī)制。

節(jié)點(diǎn)/邊嵌入初始化

對(duì)于基于GNN的方法,節(jié)點(diǎn)和邊的初始化是非常關(guān)鍵的。雖然CNNs和RNNs都擅長(zhǎng)捕捉文本中連續(xù)詞之間的局部依賴關(guān)系,但GNNs在捕捉圖中相鄰節(jié)點(diǎn)之間的局部依賴關(guān)系方面表現(xiàn)良好。許多關(guān)于Graph2Seq的工作表明,應(yīng)用CNN或雙向RNNs應(yīng)用基于GNN的編碼器之前,對(duì)詞嵌入序列進(jìn)行處理。還有研究探索了用BERT嵌入+BiRNNs或RoBERTa+BiRNNs初始化節(jié)點(diǎn)/邊緣嵌入。

序列解碼技術(shù)

由于Seq2Seq和Graph2Seq模型的主要區(qū)別在于編碼器,Seq2Seq模型中使用的常見(jiàn)解碼技術(shù),如注意機(jī)制、copying 機(jī)制、coverage 機(jī)制和scheduled sampling也可以在Graph2Seq模型中采用。為了使常見(jiàn)的解碼技術(shù)適應(yīng)Graph2Seq范式,例如,Chen等人(2020g)為了將包含多token序列的整個(gè)節(jié)點(diǎn)屬性從輸入圖復(fù)制到輸出序列,將token級(jí)復(fù)制機(jī)制擴(kuò)展到節(jié)點(diǎn)級(jí)復(fù)制機(jī)制。為了結(jié)合序列編碼器和圖編碼器的優(yōu)點(diǎn),Pan等人(2020);Sachan等人(2020)提出在將其輸出送入解碼器之前將其融合為一個(gè)單一的向量。Huang等人(2020b)分別為序列編碼器和圖形編碼器設(shè)計(jì)了獨(dú)立的注意力模塊。

6.3 Graph-to-Tree Models

與Graph2Seq模型考慮輸入端的結(jié)構(gòu)信息相比,許多NLP任務(wù)還包含以復(fù)雜結(jié)構(gòu)表示的輸出,如樹(shù),在輸出端也有豐富的結(jié)構(gòu)信息,如句法解析,語(yǔ)義解析,math word 問(wèn)題解決,考慮輸出的結(jié)構(gòu)信息是一個(gè)自然的選擇。為此,一些Graph2Tree模型被提出來(lái),在輸入和輸出端都加入了結(jié)構(gòu)信息,使編碼-解碼過(guò)程中的信息流更加完整。

6.4 Graph-to-Graph Models

graph-to-graph模型通常用于解決圖轉(zhuǎn)換問(wèn)題,是圖編碼器-解碼器模型。圖編碼器生成圖中每個(gè)節(jié)點(diǎn)的潛在表示,或通過(guò)GNNs為整個(gè)圖生成一個(gè)圖級(jí)別表示。然后,圖解碼器根據(jù)來(lái)自編碼器的節(jié)點(diǎn)級(jí)或圖級(jí)潛在表示生成輸出目標(biāo)圖。

Graph-to-Graph for NLP

由于自然語(yǔ)言或信息知識(shí)圖譜可以自然地被形式化為具有一組節(jié)點(diǎn)及其關(guān)系的圖,NLP領(lǐng)域的許多生成任務(wù)可以被形式化為一個(gè)圖的轉(zhuǎn)換問(wèn)題,這可以進(jìn)一步通過(guò)graph-to-graph模型來(lái)解決。這樣一來(lái),輸入和輸出句子的語(yǔ)義結(jié)構(gòu)信息就可以得到充分的利用和把握。兩個(gè)重要的NLP任務(wù)(即信息抽取和語(yǔ)義解析)可以被形式化為graph-to-graph的問(wèn)題。

7. 應(yīng)用

在本章中,將討論大量使用GNN的典型NLP應(yīng)用,包括自然語(yǔ)言生成、機(jī)器閱讀理解、問(wèn)題回答、對(duì)話系統(tǒng)、文本分類、文本匹配、話題建模、情感分類、知識(shí)圖譜、信息提取、語(yǔ)義和句法解析、推理和語(yǔ)義角色標(biāo)注。表3中提供了所有應(yīng)用的摘要及其子任務(wù)和評(píng)價(jià)指標(biāo)。

7.1 自然語(yǔ)言生成

自然語(yǔ)言生成(NLG)旨在給定各種形式的輸入,如文本、語(yǔ)音等,生成高質(zhì)量、連貫和可理解的自然語(yǔ)言,而我們只關(guān)注語(yǔ)言形式?,F(xiàn)代自然語(yǔ)言生成方法通常采取編碼器-解碼器的形式,將輸入序列編碼到潛在空間,并根據(jù)潛在表征預(yù)測(cè)出一個(gè)詞的集合。大多數(shù)現(xiàn)代NLG方法可以分為兩個(gè)步驟:編碼和解碼,它們由兩個(gè)模塊處理:編碼器和解碼器。在本節(jié)中,對(duì)基于auto-regressive graph-based的方法進(jìn)行了全面的概述,這些方法在這個(gè)蓬勃發(fā)展的領(lǐng)域中利用了編碼器中的圖結(jié)構(gòu),包括:1)神經(jīng)機(jī)器翻譯,2)摘要,3)問(wèn)題生成,4)structural-data to text。

7.1.1 神經(jīng)機(jī)器翻譯

經(jīng)典的神經(jīng)機(jī)器翻譯(NMT)系統(tǒng)旨在將源語(yǔ)言的句子映射到目標(biāo)語(yǔ)言,而不改變其語(yǔ)義。大多數(shù)先前的工作采用了基于注意力的序列對(duì)序列學(xué)習(xí)圖,特別是基于RNN的語(yǔ)言模型。與傳統(tǒng)的機(jī)器翻譯模型相比,這些方法可以在沒(méi)有特定語(yǔ)言知識(shí)的情況下產(chǎn)生更好的性能。然而,這些方法存在著長(zhǎng)依賴性的問(wèn)題。隨著注意力機(jī)制的發(fā)展,完全基于注意力的模型,如Transformer,通過(guò)自注意力捕捉隱性關(guān)聯(lián),取得了突破性進(jìn)展,達(dá)到了新的水平。雖然這些取得了巨大的成功,但它們很少考慮到結(jié)構(gòu)信息,如句法結(jié)構(gòu)。最近,在強(qiáng)大的GNN的幫助下,許多研究者通過(guò)挖掘非結(jié)構(gòu)化文本中包含的結(jié)構(gòu)性知識(shí)進(jìn)一步提升了性能。

大多數(shù)基于GNN的NMT方法將傳統(tǒng)的seq2seq圖轉(zhuǎn)換成Graph2Seq架構(gòu)。它們首先將輸入文本轉(zhuǎn)換為圖結(jié)構(gòu)的數(shù)據(jù),然后采用基于GNN的編碼器來(lái)利用結(jié)構(gòu)信息。

7.1.2 摘要生成

自動(dòng)摘要生成是在保留關(guān)鍵信息內(nèi)容和整體意義的情況下產(chǎn)生一個(gè)簡(jiǎn)明流暢的摘要的任務(wù)。這個(gè)任務(wù)有兩個(gè)主要的經(jīng)典設(shè)置:1)抽取式 2)生成式。傳統(tǒng)的方法只是將輸入視為序列,并應(yīng)用LSTM、Transformer等編碼器來(lái)學(xué)習(xí)潛在的表征,這些方法未能利用自然輸入中隱含的豐富結(jié)構(gòu)信息。許多研究人員發(fā)現(xiàn),結(jié)構(gòu)知識(shí)有利于解決一些挑戰(zhàn),例如長(zhǎng)距離依賴性問(wèn)題,因此提出了基于GNN的技術(shù),明確利用結(jié)構(gòu)信息來(lái)提高性能。

大多數(shù)基于GNN的摘要方法首先是構(gòu)建圖來(lái)表示給定的文本。然后,采用基于GNN的編碼器來(lái)學(xué)習(xí)圖的表示。之后,對(duì)于抽取式摘要模型,采用分類器來(lái)選擇候選子句來(lái)組成最終的總結(jié)。對(duì)于生成式摘要,大多采用語(yǔ)言解碼器,以最大化輸出的可能性來(lái)生成摘要。

7.1.3 結(jié)構(gòu)化數(shù)據(jù)到文本

盡管是自然文本,但許多NLP應(yīng)用都是以明確的圖結(jié)構(gòu)來(lái)表示數(shù)據(jù),如SQL查詢、知識(shí)圖、AMR等。結(jié)構(gòu)化數(shù)據(jù)的任務(wù)就是要從結(jié)構(gòu)化數(shù)據(jù)輸入中生成自然語(yǔ)言。傳統(tǒng)的工作應(yīng)用線性化機(jī)制,將結(jié)構(gòu)數(shù)據(jù)映射為序列數(shù)據(jù),并采用Seq2Seq架構(gòu)來(lái)生成文本。為了充分捕捉豐富的結(jié)構(gòu)信息,最近的研究集中在基于GNN的技術(shù)來(lái)處理這一任務(wù)。

大多數(shù)基于GNN的AMR-to-text和SQL-to-text方法通常構(gòu)建特定領(lǐng)域的圖,如AMR圖和基于SQL解析的圖來(lái)組織輸入。之后,應(yīng)用由GNN編碼器和序列解碼器組成的Graph2Seq來(lái)生成神經(jīng)語(yǔ)言輸出。

7.1.4 自然問(wèn)題生成

自然問(wèn)題生成(QG)任務(wù)旨在從某種形式的數(shù)據(jù)中生成自然語(yǔ)言問(wèn)題,如KG、表格、文本或圖像,其中生成的問(wèn)題需要從輸入數(shù)據(jù)中得到答案。大多數(shù)先前的工作采用了Seq2Seq架構(gòu),將輸入數(shù)據(jù)視為序列數(shù)據(jù),而不考慮其豐富的結(jié)構(gòu)信息。例如,在對(duì)輸入文本進(jìn)行編碼時(shí),以前的大多數(shù)方法通常會(huì)忽略與單詞序列相關(guān)的隱藏結(jié)構(gòu)信息,如依賴性解析樹(shù)。即使對(duì)于來(lái)自KG的QG的設(shè)置,大多數(shù)方法通常將KB子圖線性化為一個(gè)序列,并應(yīng)用一個(gè)序列編碼器。未能利用輸入數(shù)據(jù)的圖結(jié)構(gòu)可能會(huì)限制QG模型的有效性。對(duì)于在多個(gè)段落或文檔上進(jìn)行推理的來(lái)自文本的多跳QG,捕捉多個(gè)段落或文檔中不同實(shí)體提及的關(guān)系是有益的??傊?,**對(duì)輸入數(shù)據(jù)的豐富結(jié)構(gòu)進(jìn)行建模對(duì)許多QG任務(wù)來(lái)說(shuō)是很重要的。**最近,GNN已經(jīng)成功應(yīng)用于QG任務(wù)(Liu et al., 2019b; Chen et al., 2020f; Wang et al., 2020c)。

大多數(shù)基于GNN的QG方法采用Graph2Seq架構(gòu),其中基于GNN的編碼器用來(lái)對(duì)圖結(jié)構(gòu)的輸入數(shù)據(jù)進(jìn)行建模,序列解碼器被用來(lái)生成自然語(yǔ)言問(wèn)題。

7.2 機(jī)器閱讀理解和問(wèn)題回答

7.2.1 機(jī)器閱讀理解

機(jī)器閱讀理解(MRC)的任務(wù)旨在利用給定的段落回答一個(gè)自然語(yǔ)言問(wèn)題。由于各種注意力機(jī)制的發(fā)展,MRC任務(wù)已經(jīng)取得了重大進(jìn)展,這些機(jī)制可以捕捉到問(wèn)題和上下文之間的相互聯(lián)系??紤]到傳統(tǒng)的MRC設(shè)置主要集中在相對(duì)簡(jiǎn)單的一跳推理上,最近,更多的研究工作被用于解決更具挑戰(zhàn)性的MRC設(shè)置。例如,多跳MRC任務(wù)是使用多個(gè)段落或文檔來(lái)回答一個(gè)自然語(yǔ)言問(wèn)題,這需要多跳推理能力。Con- versational MRC任務(wù)是在對(duì)話中回答當(dāng)前的自然語(yǔ)言問(wèn)題,并給出一段話和之前的問(wèn)題和答案,這需要對(duì)對(duì)話歷史進(jìn)行建模的能力。數(shù)字性的MRC任務(wù)要求有對(duì)段落進(jìn)行數(shù)字推理的能力。這些具有挑戰(zhàn)性的MRC任務(wù)需要對(duì)對(duì)象之間的復(fù)雜關(guān)系進(jìn)行建模的學(xué)習(xí)能力。例如,在多跳MRC任務(wù)中,對(duì)多個(gè)文檔之間的關(guān)系以及文檔中提到的實(shí)體進(jìn)行建模是非常有益的。最近,GNN已經(jīng)成功應(yīng)用于各種類型的MRC任務(wù),包括多跳MRC,對(duì)話式MRC,以及numerical MRC。

基于GNN的MRC方法通常是通過(guò)首先構(gòu)建一個(gè)實(shí)體圖或?qū)哟螆D來(lái)捕捉圖中節(jié)點(diǎn)之間的豐富關(guān)系,然后應(yīng)用基于GNN的推理模塊對(duì)圖進(jìn)行復(fù)雜推理。假設(shè)GNN的輸出已經(jīng)編碼了節(jié)點(diǎn)本身及其鄰居結(jié)構(gòu)的語(yǔ)義,最后將應(yīng)用一個(gè)預(yù)測(cè)模塊來(lái)預(yù)測(cè)答案。為解決MRC任務(wù)而開(kāi)發(fā)的圖構(gòu)建技術(shù)和圖表示技術(shù)在不同的方法中有所不同。

7.2.2 知識(shí)庫(kù)問(wèn)題回答

在過(guò)去的幾年里,知識(shí)庫(kù)問(wèn)題回答(KBQA)已經(jīng)成為一個(gè)重要的研究課題。KBQA的目標(biāo)是給定自然語(yǔ)言問(wèn)題自動(dòng)從KG中找到答案。最近,由于其對(duì)對(duì)象之間關(guān)系建模的性質(zhì)能力,GNN已經(jīng)成功地應(yīng)用于執(zhí)行多跳KBQA任務(wù),這需要對(duì)KG的多條邊進(jìn)行推理以得出正確的答案。一個(gè)相關(guān)的任務(wù)是開(kāi)放領(lǐng)域的QA,其目的是通過(guò)利用包括語(yǔ)料庫(kù)和KG的混合知識(shí)源來(lái)回答開(kāi)放領(lǐng)域的問(wèn)題。本文介紹并總結(jié)了最近KBQA研究中采用的一些有代表性的GNN相關(guān)技術(shù)。

7.2.3 開(kāi)放域的問(wèn)題回答

開(kāi)放域問(wèn)題回答的任務(wù)旨在給定一個(gè)大規(guī)模的開(kāi)放域知識(shí)(如文檔、知識(shí)庫(kù)等),以確定自然問(wèn)題的答案?;谥R(shí)的方法得益于通過(guò)圖結(jié)構(gòu)輕松獲得外部知識(shí)。然而,這些方法在知識(shí)庫(kù)和固定模式的信息缺失方面受到限制。為了回答來(lái)自海量和非結(jié)構(gòu)化文檔的問(wèn)題,與基于知識(shí)庫(kù)的方法相比,這些方法可以獲取更多的信息,但在從冗余的外部文檔中檢索相關(guān)和關(guān)鍵信息方面存在困難。本文介紹并總結(jié)了最近開(kāi)放域問(wèn)題回答研究中一些有代表性的GNN相關(guān)技術(shù)。

7.2.4 社區(qū)問(wèn)題回答

社區(qū)問(wèn)題回答的任務(wù)旨在從QA論壇(如Stack Overflow或Quora)中檢索出相關(guān)答案。與傳統(tǒng)的MRC(QA)任務(wù)不同,CQA系統(tǒng)能夠利用隱性知識(shí)(嵌入在不同的社區(qū)中)或顯性知識(shí)(嵌入在所有解決的問(wèn)題中)來(lái)回答每天發(fā)布的大量新問(wèn)題。然而,越來(lái)越多的新問(wèn)題可能會(huì)使沒(méi)有適當(dāng)協(xié)作支持的CQA系統(tǒng)因用戶的要求而變得超負(fù)荷。本文介紹并總結(jié)了最近CQA研究中采用的一些有代表性的GNN相關(guān)技術(shù)。

7.3 對(duì)話系統(tǒng)

對(duì)話系統(tǒng)是一個(gè)可以連續(xù)與人對(duì)話的計(jì)算機(jī)系統(tǒng)。為了建立一個(gè)成功的對(duì)話系統(tǒng),對(duì)對(duì)話中不同對(duì)話者或話語(yǔ)之間的依賴關(guān)系進(jìn)行建模很重要。由于能夠?qū)?duì)象之間的復(fù)雜關(guān)系進(jìn)行建模,最近,GNN已經(jīng)成功地應(yīng)用于各種對(duì)話系統(tǒng)相關(guān)的任務(wù),包括對(duì)話狀態(tài)跟蹤,旨在估計(jì)給定對(duì)話歷史的當(dāng)前對(duì)話狀態(tài);對(duì)話響應(yīng)生成,旨在給定對(duì)話歷史生成對(duì)話響應(yīng);以及下一個(gè)話語(yǔ)選擇,旨在給定對(duì)話歷史從候選列表中選擇下一個(gè)話語(yǔ)。本文介紹并總結(jié)了近期對(duì)話系統(tǒng)研究中采用的一些有代表性的GNN相關(guān)技術(shù)。

7.4 文本分類

傳統(tǒng)的文本分類方法嚴(yán)重依賴特征工程(如BOW、TF-IDF或更高級(jí)的基于圖形路徑的特征)進(jìn)行文本表示。為了從數(shù)據(jù)中自動(dòng)學(xué)習(xí) "好的 "文本表征,人們提出了各種無(wú)監(jiān)督的方法來(lái)學(xué)習(xí)單詞或文檔表征,包括word2vec、GloVe、話題模型、自動(dòng)編碼器和doc2vec。這些預(yù)訓(xùn)練的單詞或文檔嵌入可以進(jìn)一步被MLP、CNN或LSTM模塊所消耗,用于訓(xùn)練監(jiān)督下的文本分類器。為了更好地捕捉文本或語(yǔ)料庫(kù)中文件之間的關(guān)系,人們提出了各種基于圖的方法進(jìn)行文本分類。例如,Peng等人(2018)提出首先構(gòu)建一個(gè)詞的圖,然后將CNN應(yīng)用于規(guī)范化的子圖。Tang等人提出了一種基于網(wǎng)絡(luò)嵌入的方法,通過(guò)將部分標(biāo)記的文本語(yǔ)料轉(zhuǎn)換為異質(zhì)文本網(wǎng)絡(luò),以半監(jiān)督的方式進(jìn)行文本表示學(xué)習(xí)。最近,考慮到強(qiáng)大的表達(dá)能力,GNN已經(jīng)成功應(yīng)用于半監(jiān)督和監(jiān)督文本分類中。

基于GNN的文本分類方法通常是,首先構(gòu)建一個(gè)文檔圖或語(yǔ)料庫(kù)圖來(lái)捕捉圖中節(jié)點(diǎn)之間的豐富關(guān)系,然后應(yīng)用GNN來(lái)學(xué)習(xí)良好的文檔嵌入,這些嵌入隨后將被送入softmax層以產(chǎn)生一類標(biāo)簽的概率分布。為解決文本分類任務(wù)而開(kāi)發(fā)的圖構(gòu)建技術(shù)和圖表示技術(shù)在不同的方法中有所不同。本文介紹并總結(jié)了最近的文本分類方法中采用的一些代表性的GNN相關(guān)技術(shù)。

7.5 文本匹配

現(xiàn)有的大多數(shù)文本匹配方法是通過(guò)一些神經(jīng)網(wǎng)絡(luò),如CNN或RNN,將每個(gè)文本映射到一個(gè)潛在的嵌入空間,然后根據(jù)文本表征之間的相似性計(jì)算匹配分?jǐn)?shù)。為了在不同的顆粒度水平上對(duì)兩個(gè)文本之間的豐富互動(dòng)進(jìn)行建模,通常會(huì)精心設(shè)計(jì)復(fù)雜的注意力或匹配組件。最近,有一些工作成功地探索了GNNs在文本匹配中對(duì)文本元素之間復(fù)雜的交互作用進(jìn)行建模的問(wèn)題。本文介紹并總結(jié)了近期文本匹配方法中采用的一些有代表性的GNN相關(guān)技術(shù)。

7.6 話題建模

話題建模的任務(wù)旨在發(fā)現(xiàn)語(yǔ)料庫(kù)中出現(xiàn)的抽象的 "話題"。通常情況下,話題模型學(xué)習(xí)將一段文本表示為一個(gè)話題的混合物,而話題本身則表示為詞匯的混合物。經(jīng)典的話題模型包括基于圖模型的方法,基于自回歸模型的方法,以及基于自動(dòng)編碼器的方法。最近的工作通過(guò)明確地對(duì)文檔和詞之間的關(guān)系進(jìn)行建模,探索了基于GNN的方法進(jìn)行話題建模。本文介紹并總結(jié)了近期話題建模方法中采用的一些有代表性的GNN相關(guān)技術(shù)。

7.7 情感分析

情感分析任務(wù)旨在檢測(cè)一段文本的情感(即積極、消極或中立)。方面級(jí)的情感分類旨在識(shí)別文本在特定方面的情感極性,并受到更多關(guān)注。雖然大多數(shù)工作都集中在句子層面和單一領(lǐng)域的情感分類上,但在文檔層面和跨領(lǐng)域的情感分類上也有一些嘗試。早期的情感分類工作主要依賴于特征工程。最近的嘗試?yán)昧烁鞣N神經(jīng)網(wǎng)絡(luò)模型的表達(dá)能力,如LSTM、CNN或記憶網(wǎng)絡(luò)。最近,人們嘗試?yán)肎NN來(lái)更好地模擬文本的句法和語(yǔ)義,以完成情感分類任務(wù)。

基于GNN的情感分類方法通常是通過(guò)首先構(gòu)建文本的圖表示(如依賴樹(shù)),然后應(yīng)用GNN來(lái)學(xué)習(xí)良好的文本嵌入,這些嵌入將被用于預(yù)測(cè)情感的極性。為解決情感分類任務(wù)而開(kāi)發(fā)的圖構(gòu)建技術(shù)和圖表示技術(shù)在不同的方法中有所不同。本文將介紹并總結(jié)最近的情感分類方法中采用的一些有代表性的GNN相關(guān)技術(shù)。

7.8 知識(shí)圖譜

知識(shí)圖譜(KG)以結(jié)構(gòu)化的形式表示現(xiàn)實(shí)世界的知識(shí),在學(xué)術(shù)界和工業(yè)界引起了很大的關(guān)注。KG可以表示為一組三元組集合。在KG方面有三個(gè)主要任務(wù),即知識(shí)圖譜嵌入(KGE),知識(shí)圖譜對(duì)齊(KGA),知識(shí)圖譜補(bǔ)全(KGC)。本文將對(duì)基于圖的KGC和KGA方法進(jìn)行概述。

7.9 信息抽取

信息抽?。↖E)的目的是提取給定句子或文檔的實(shí)體對(duì)及其關(guān)系。IE是一項(xiàng)重要的任務(wù),因?yàn)樗兄趶姆墙Y(jié)構(gòu)化文本中自動(dòng)構(gòu)建知識(shí)圖譜。隨著深度神經(jīng)網(wǎng)絡(luò)的成功,基于神經(jīng)網(wǎng)絡(luò)的方法已被應(yīng)用于信息提取。然而,這些方法往往忽略了輸入文本的非局部和非序列化的上下文信息。此外,重疊關(guān)系的預(yù)測(cè),即共享相同實(shí)體的一對(duì)實(shí)體的關(guān)系預(yù)測(cè),也不能得到妥善解決。為了這些目的,GNN已經(jīng)被廣泛用于建立文本中實(shí)體和關(guān)系之間的交互模型。信息提取由兩個(gè)子任務(wù)組成:命名實(shí)體識(shí)別(NER)和關(guān)系提?。≧E)。NER為句子中的每個(gè)詞預(yù)測(cè)一個(gè)標(biāo)簽,這通常被認(rèn)為是一個(gè)序列標(biāo)注任務(wù)。RE為文本中的每一對(duì)實(shí)體預(yù)測(cè)一個(gè)關(guān)系類型。當(dāng)輸入文本中的實(shí)體被注釋后,IE任務(wù)就退化為RE任務(wù)。基于GNN的IE方法通常通過(guò)pipeline的方式運(yùn)作。首先,構(gòu)建一個(gè)文本圖。然后,實(shí)體被識(shí)別,實(shí)體對(duì)之間的關(guān)系被預(yù)測(cè)。本文是對(duì)基于GNN的不同技術(shù)的介紹。

7.10 語(yǔ)義語(yǔ)法解析

在本節(jié)中主要討論GNN在解析方面的應(yīng)用,包括與語(yǔ)法相關(guān)的解析和與語(yǔ)義相關(guān)的解析。對(duì)于語(yǔ)法相關(guān)的解析,GNN已經(jīng)被用于依賴性解析和成分解析的任務(wù)。對(duì)于語(yǔ)義相關(guān)的解析,本文簡(jiǎn)要介紹語(yǔ)義解析和AMR解析。

7.11 推理

推理是NLP的一個(gè)重要研究方向。近年來(lái),GNN開(kāi)始在NLP推理任務(wù)中發(fā)揮重要作用,如數(shù)學(xué)單詞問(wèn)題解決,自然語(yǔ)言推理,常識(shí)推理等。本文將對(duì)這三個(gè)任務(wù)以及圖神經(jīng)網(wǎng)絡(luò)在這些方法中的應(yīng)用做一個(gè)簡(jiǎn)要介紹。

7.12 語(yǔ)義角色標(biāo)注

語(yǔ)義角色標(biāo)注(SRL)問(wèn)題旨在恢復(fù)一個(gè)句子的predicate-argument結(jié)構(gòu),即基本上確定 "誰(shuí)對(duì)誰(shuí)做了什么"、"何時(shí) "和 "何地"。對(duì)于每個(gè)謂詞,SRL模型必須識(shí)別所有的argument跨度,并為它們標(biāo)注語(yǔ)義角色。這樣的高層結(jié)構(gòu)可以作為語(yǔ)義信息,用于支持各種下游任務(wù),包括對(duì)話系統(tǒng)、機(jī)器閱讀和翻譯。最近的SRL工作大多可以分為兩類,即根據(jù)是否納入句法知識(shí),分為句法感知型和句法診斷型方法。大多數(shù)syntax-agnostic的工作采用深度BiLSTM或自注意編碼器來(lái)編碼自然句子的上下文信息,用各種評(píng)分器來(lái)預(yù)測(cè)基于BIO的語(yǔ)義角色的概率或predicate-argument-role元組。在句法和語(yǔ)義之間強(qiáng)烈的相互作用的激勵(lì)下,研究人員探索了各種方法,將句法知識(shí)整合到句法無(wú)關(guān)的模型中,考慮到語(yǔ)義表示與句法表示密切相關(guān)。例如,我們可以觀察到,句法依賴圖中的許多弧在語(yǔ)義依賴圖中都有反映。鑒于這些相似性以及許多語(yǔ)言都有精確的句法分析器,在預(yù)測(cè)語(yǔ)義時(shí)利用句法信息似乎是很自然的。

采用神經(jīng)序列模型,即LSTM,存在以下挑戰(zhàn):(1)由于句法關(guān)系的復(fù)雜樹(shù)狀結(jié)構(gòu),很難有效地將句法信息納入神經(jīng)SRL模型;(2)由于錯(cuò)誤的句法輸入的風(fēng)險(xiǎn),句法分析器是不可靠的,這可能導(dǎo)致錯(cuò)誤傳播和不理想的SRL性能。鑒于這種情況,GNN正在成為捕捉和納入基于深度神經(jīng)網(wǎng)絡(luò)的SRL模型中的語(yǔ)法模式的有力工具。在捕捉結(jié)構(gòu)化數(shù)據(jù)中的復(fù)雜關(guān)系模式方面,GNN的性質(zhì)使其很適合于為句子的句法依賴和成分結(jié)構(gòu)建模。

從形式上看,SRL可以被投射為一個(gè)序列標(biāo)注問(wèn)題,即給定一個(gè)輸入句子,以及謂詞在句子中的位置,目標(biāo)是預(yù)測(cè)句子中的詞的語(yǔ)義角色的BIO序列;另一個(gè)是關(guān)于端到端的語(yǔ)義角色三元組提取,目的是一次性檢測(cè)所有可能的謂詞和它們相應(yīng)的arguments。從技術(shù)上講,給定一個(gè)句子,SRL模型會(huì)預(yù)測(cè)一組標(biāo)記的謂語(yǔ)-參數(shù)-角色三元組,而每個(gè)三元組包含一個(gè)可能的謂語(yǔ)標(biāo)記和兩個(gè)候選標(biāo)記。上述兩個(gè)問(wèn)題都可以基于基于GNN的SRL模型來(lái)解決,它由兩部分組成,即圖的構(gòu)建和圖的表示學(xué)習(xí)。

8. 結(jié)論

在這篇文章中,我們對(duì)各種圖神經(jīng)網(wǎng)絡(luò)演化出的各種NLP問(wèn)題進(jìn)行了全面的概述。具體來(lái)說(shuō),我們首先提供了典型的GNN模型的初步知識(shí),包括圖過(guò)濾器和圖池化方法。然后,提出了一個(gè)新的分類法,沿著三個(gè)維度系統(tǒng)地組織GNNs for NLP方法,即圖的構(gòu)造、圖表示學(xué)習(xí)和編碼器-解碼器模型。鑒于這些在NLP應(yīng)用每個(gè)階段的具體技術(shù),我們從圖構(gòu)建、圖表示學(xué)習(xí)和具體技術(shù)的角度討論了大量的NLP應(yīng)用。最后,為進(jìn)一步釋放GNN在NLP領(lǐng)域的巨大潛力,本文提供了這一思路的大體挑戰(zhàn)和未來(lái)方向。

責(zé)任編輯:lq6

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    486

    瀏覽量

    21991
  • GNN
    GNN
    +關(guān)注

    關(guān)注

    1

    文章

    31

    瀏覽量

    6325

原文標(biāo)題:萬(wàn)字綜述,GNN在NLP中的應(yīng)用,建議收藏慢慢看

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    NLP技術(shù)在聊天機(jī)器人中的作用

    的第一個(gè)作用是幫助聊天機(jī)器人理解用戶的意圖。聊天機(jī)器人需要能夠識(shí)別用戶的問(wèn)題或請(qǐng)求,并將其轉(zhuǎn)化為可執(zhí)行的任務(wù)。這涉及到以下幾個(gè)步驟: 詞義消歧 :NLP技術(shù)可以幫助聊天機(jī)器人理解單詞的多種含義,并根據(jù)上下文選擇正確的解釋。 意圖
    的頭像 發(fā)表于 11-11 10:33 ?242次閱讀

    Transformer能代替圖神經(jīng)網(wǎng)絡(luò)嗎

    Transformer作為一種在處理序列數(shù)據(jù)方面表現(xiàn)出色的深度學(xué)習(xí)模型,自其提出以來(lái),已經(jīng)在自然語(yǔ)言處理(NLP)、時(shí)間序列分析等領(lǐng)域取得了顯著的成果。然而,關(guān)于Transformer是否能完全代替圖神經(jīng)網(wǎng)絡(luò)(GNN)的問(wèn)題,需
    的頭像 發(fā)表于 07-12 14:07 ?359次閱讀

    nlp邏輯層次模型的特點(diǎn)

    NLP(自然語(yǔ)言處理)邏輯層次模型是一種用于理解和生成自然語(yǔ)言文本的計(jì)算模型。它將自然語(yǔ)言文本分解為不同的層次,以便于計(jì)算機(jī)更好地處理和理解。以下是對(duì)NLP邏輯層次模型特點(diǎn)的分析: 詞匯層次 詞匯
    的頭像 發(fā)表于 07-09 10:39 ?301次閱讀

    nlp神經(jīng)語(yǔ)言和NLP自然語(yǔ)言的區(qū)別和聯(lián)系

    神經(jīng)語(yǔ)言(Neuro-Linguistic Programming,NLP) 神經(jīng)語(yǔ)言是一種心理學(xué)方法,它研究人類思維、語(yǔ)言和行為之間的關(guān)系。NLP的核心理念是,我們可以通過(guò)改變我們的思維方式和語(yǔ)言
    的頭像 發(fā)表于 07-09 10:35 ?686次閱讀

    nlp自然語(yǔ)言處理基本概念及關(guān)鍵技術(shù)

    自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱NLP)是人工智能領(lǐng)域的一個(gè)重要分支,它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類語(yǔ)言。NLP技術(shù)在機(jī)器翻譯、情感分析、語(yǔ)音識(shí)別
    的頭像 發(fā)表于 07-09 10:32 ?482次閱讀

    nlp自然語(yǔ)言處理框架有哪些

    自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱NLP)是計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域的一個(gè)重要分支,它致力于使計(jì)算機(jī)能夠理解和處理人類語(yǔ)言。隨著技術(shù)的發(fā)展,NLP領(lǐng)域出現(xiàn)了
    的頭像 發(fā)表于 07-09 10:28 ?468次閱讀

    nlp自然語(yǔ)言處理的主要任務(wù)技術(shù)方法

    自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱NLP)是人工智能和語(yǔ)言學(xué)領(lǐng)域的一個(gè)分支,它研究如何讓計(jì)算機(jī)能夠理解、生成和處理人類語(yǔ)言。NLP技術(shù)在許多領(lǐng)域都有廣泛
    的頭像 發(fā)表于 07-09 10:26 ?780次閱讀

    nlp自然語(yǔ)言處理模型怎么做

    自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱NLP)是人工智能領(lǐng)域的一個(gè)重要分支,它涉及到計(jì)算機(jī)對(duì)人類語(yǔ)言的理解和生成。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,NLP領(lǐng)域取得了顯著
    的頭像 發(fā)表于 07-05 09:59 ?503次閱讀

    nlp自然語(yǔ)言處理的應(yīng)用有哪些

    自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱NLP)是人工智能領(lǐng)域的一個(gè)分支,它致力于使計(jì)算機(jī)能夠理解和生成自然語(yǔ)言。隨著技術(shù)的發(fā)展,NLP已經(jīng)在許多領(lǐng)域得到了廣泛
    的頭像 發(fā)表于 07-05 09:55 ?2387次閱讀

    深度學(xué)習(xí)與nlp的區(qū)別在哪

    深度學(xué)習(xí)和自然語(yǔ)言處理(NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域中兩個(gè)非常重要的研究方向。它們之間既有聯(lián)系,也有區(qū)別。本文將介紹深度學(xué)習(xí)與NLP的區(qū)別。 深度學(xué)習(xí)簡(jiǎn)介 深度學(xué)習(xí)是一種基于人工神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法
    的頭像 發(fā)表于 07-05 09:47 ?761次閱讀

    NLP技術(shù)在機(jī)器人中的應(yīng)用

    在人工智能的廣闊領(lǐng)域中,自然語(yǔ)言處理(NLP技術(shù)作為連接人類語(yǔ)言與機(jī)器智能的橋梁,正逐漸滲透到我們?nèi)粘I畹姆椒矫婷?,其中機(jī)器人技術(shù)便是一個(gè)尤為突出的應(yīng)用領(lǐng)域。NLP
    的頭像 發(fā)表于 07-04 16:04 ?395次閱讀

    NLP技術(shù)在人工智能領(lǐng)域的重要性

    在自然語(yǔ)言處理(Natural Language Processing, NLP)與人工智能(Artificial Intelligence, AI)的交織發(fā)展中,NLP技術(shù)作為連接人類語(yǔ)言與機(jī)器
    的頭像 發(fā)表于 07-04 16:03 ?401次閱讀

    使用Python進(jìn)行自然語(yǔ)言處理

    在探討使用Python進(jìn)行自然語(yǔ)言處理(NLP)的廣闊領(lǐng)域時(shí),我們首先需要理解NLP的基本概念、其重要性、Python在NLP中的優(yōu)勢(shì),以及如何通過(guò)Python實(shí)現(xiàn)一些基礎(chǔ)的NLP
    的頭像 發(fā)表于 07-04 14:40 ?378次閱讀

    NLP模型中RNN與CNN的選擇

    在自然語(yǔ)言處理(NLP)領(lǐng)域,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與卷積神經(jīng)網(wǎng)絡(luò)(CNN)是兩種極為重要且廣泛應(yīng)用的網(wǎng)絡(luò)結(jié)構(gòu)。它們各自具有獨(dú)特的優(yōu)勢(shì),適用于處理不同類型的NLP任務(wù)。本文旨在深入探討RNN與CNN
    的頭像 發(fā)表于 07-03 15:59 ?393次閱讀

    什么是自然語(yǔ)言處理 (NLP)

    理解和處理自然語(yǔ)言文本,從而實(shí)現(xiàn)人機(jī)交互的流暢和自然。NLP不僅關(guān)注理論框架的建立,還側(cè)重于實(shí)際技術(shù)的開(kāi)發(fā)和應(yīng)用,廣泛應(yīng)用于法律、醫(yī)療、教育、安全、工業(yè)、金融等多個(gè)領(lǐng)域。
    的頭像 發(fā)表于 07-02 18:16 ?982次閱讀