精品中文字幕一区二区三区四区,色综合a怡红院怡红院,欧美老妇人与禽交

今天為大家解讀的是由京東硅谷研發(fā)中心首席科學(xué)家吳凌飛博士等研究者最新發(fā)表的GNN for NLP綜述，幾乎覆蓋了圍繞NLP任務(wù)的所有GNN相關(guān)技術(shù)，是迄今為止GNN for NLP領(lǐng)域最全面最新的綜述性文獻(xiàn)。

深度學(xué)習(xí)已經(jīng)成為應(yīng)對(duì)各種NLP任務(wù)的主導(dǎo)方法，盡管輸入文本通常被表示為序列化的tokens，但圖結(jié)構(gòu)的形式往往可以對(duì)許多NLP問(wèn)題進(jìn)行更好的表達(dá)。因此，有必要針對(duì)NLP任務(wù)來(lái)開(kāi)發(fā)新的圖上的深度學(xué)習(xí)技術(shù)。在這項(xiàng)綜述中，作者對(duì)用于NLP任務(wù)的GNNs進(jìn)行了全面的概述，并提出了一個(gè)新的GNNs for NLP的分類體系，它沿著三個(gè)方面系統(tǒng)地組織了現(xiàn)有研究，包括：圖的構(gòu)建、圖表示學(xué)習(xí)和基于圖的編碼器-解碼器模型。論文還進(jìn)一步介紹了大量正在應(yīng)用GNNs驅(qū)動(dòng)NLP的應(yīng)用，并總結(jié)了相應(yīng)的基準(zhǔn)數(shù)據(jù)集、評(píng)估指標(biāo)和開(kāi)源代碼。最后，論文討論了在NLP中充分利用GNNs的挑戰(zhàn)以及未來(lái)的研究方向。這是第一份針對(duì)自然語(yǔ)言處理任務(wù)的圖神經(jīng)網(wǎng)絡(luò)的全面綜述。

1. 介紹

傳統(tǒng)的文本數(shù)據(jù)建模方式

傳統(tǒng)的NLP任務(wù)中，文本序列被認(rèn)為是一個(gè)由tokens組成的袋子，如BoW（詞袋模型）和TF-IDF（詞頻-逆文檔頻率）。隨著詞嵌入技術(shù)的成功，句子通常被表示為一個(gè)由tokens組成的序列。一些流行的深度學(xué)習(xí)技術(shù)，如RNN和CNN被廣泛用于建模文本序列。

文本數(shù)據(jù)的圖結(jié)構(gòu)表達(dá)

有大量的NLP問(wèn)題可以用圖結(jié)構(gòu)進(jìn)行最佳表達(dá)。例如，文本序列中的句子結(jié)構(gòu)信息（即句法解析樹(shù)）可以用于增強(qiáng)原始序列數(shù)據(jù)的表示。同樣，序列數(shù)據(jù)中的語(yǔ)義信息（即語(yǔ)義解析圖）也可以被利用來(lái)增強(qiáng)原始序列數(shù)據(jù)。因此，這些圖結(jié)構(gòu)的數(shù)據(jù)可以編碼實(shí)體tokens之間復(fù)雜的成對(duì)關(guān)系，以學(xué)習(xí)更由信息量的表示。

基于GNN的NLP任務(wù)

圖上深度學(xué)習(xí)和NLP的交叉點(diǎn)上的研究浪潮影響了各種NLP任務(wù)。不同的GNNs變體在許多NLP任務(wù)中取得了相當(dāng)大的成功，如分類任務(wù)：句子分類，語(yǔ)義角色標(biāo)注，關(guān)系提?。簧扇蝿?wù)：機(jī)器翻譯，問(wèn)題生成和摘要生成等。

GNN應(yīng)用于NLP的挑戰(zhàn)

將原始文本序列數(shù)據(jù)自動(dòng)轉(zhuǎn)化為圖結(jié)構(gòu)的數(shù)據(jù)。大多數(shù)NLP任務(wù)使用文本序列作為原始輸入，從文本序列中自動(dòng)構(gòu)建圖數(shù)據(jù)以利用底層結(jié)構(gòu)信息是利用圖神經(jīng)網(wǎng)絡(luò)處理NLP問(wèn)題的關(guān)鍵步驟。

恰當(dāng)?shù)膱D表示學(xué)習(xí)技術(shù)。需要使用專門設(shè)計(jì)的GNN來(lái)學(xué)習(xí)不同圖結(jié)構(gòu)數(shù)據(jù)的獨(dú)特特征，如無(wú)向、有向、多關(guān)系和異質(zhì)圖。

有效地建模復(fù)雜數(shù)據(jù)。因?yàn)樵S多NLP任務(wù)涉及學(xué)習(xí)基于圖的輸入和高度結(jié)構(gòu)化的輸出數(shù)據(jù)之間的映射，如序列、樹(shù)，以及具有多種類型節(jié)點(diǎn)和邊的圖數(shù)據(jù)。

本文提出的分類體系

從三個(gè)維度來(lái)組織用于NLP任務(wù)的GNNs：圖的構(gòu)建；圖表示學(xué)習(xí)；編碼器-解碼器模型；以及對(duì)應(yīng)的NLP應(yīng)用。

針對(duì)用于NLP任務(wù)的GNNs，提出了一個(gè)新的分類體系。沿著三個(gè)軸線系統(tǒng)地組織了現(xiàn)有的用于NLP的GNN的研究：圖的構(gòu)建、圖表示學(xué)習(xí)和基于圖的編碼器-解碼器模型。

對(duì)各種NLP任務(wù)中最先進(jìn)的GNNs技術(shù)進(jìn)行了最全面的概述。對(duì)基于領(lǐng)域知識(shí)和語(yǔ)義空間的各種圖構(gòu)建方法、各種圖結(jié)構(gòu)數(shù)據(jù)的圖表示學(xué)習(xí)方法、基于GNNs的編碼器-解碼器模型提供了詳細(xì)的描述和比較。

總結(jié)了將GNNs充分用于NLP任務(wù)的各種突出挑戰(zhàn)，并對(duì)未來(lái)的研究方向進(jìn)行了討論和建議。

2. 用于NLP任務(wù)的圖算法

這一章中，首先從圖的視角回顧了NLP問(wèn)題，簡(jiǎn)要介紹了NLP領(lǐng)域存在的多種多樣的圖結(jié)構(gòu)以及不同層次的圖結(jié)構(gòu)；然后，簡(jiǎn)要介紹了一些傳統(tǒng)的用于解決NLP問(wèn)題的圖算法，包括：Random walk，graph clustering，graph matching，label propagation 等；最后總結(jié)了傳統(tǒng)圖算法的局限性以及與最新GNN算法之間的聯(lián)系。

2.1 從圖視角看NLP

自然語(yǔ)言的表示方式反映了我們對(duì)自然語(yǔ)言的特殊看法，并對(duì)處理和理解自然語(yǔ)言的方式有根本性的影響。一般來(lái)說(shuō)，有三種不同的表示自然語(yǔ)言的方式。

bag of tokens：最簡(jiǎn)單的方式是將自然語(yǔ)言表示為一袋tokens，這種方式完全忽略了文本中tokens出現(xiàn)的具體位置，而只考慮其在文本中出現(xiàn)的次數(shù)。采取這種觀點(diǎn)的最具代表性的NLP技術(shù)是話題模型。

sequence of tokens：更自然的方式是將自然語(yǔ)言表示為一個(gè)tokens序列，這就是人類通常說(shuō)和寫自然語(yǔ)言的方式。與上述詞袋方式相比，這種觀點(diǎn)能夠捕捉到更豐富的文本信息，例如，哪兩個(gè)tokens是連續(xù)的，以及一個(gè)詞對(duì)局部語(yǔ)境中共出現(xiàn)了多少次。采取這種觀點(diǎn)的最具代表性的NLP技術(shù)包括線性鏈CRF，它在預(yù)測(cè)中實(shí)現(xiàn)了順序依賴，以及word2vec，它通過(guò)預(yù)測(cè)目標(biāo)單詞的上下文單詞來(lái)學(xué)習(xí)單詞嵌入。

represent natural language as a graph：第三種方式是將自然語(yǔ)言表現(xiàn)為圖。圖在NLP中是無(wú)處不在的。雖然將文本視為序列數(shù)據(jù)可能是最明顯的，但在NLP界，將文本表示為各種圖的做法由來(lái)已久。常見(jiàn)的文本或知識(shí)的圖表示包括依賴圖、成分圖、AMR圖、IE圖、詞匯網(wǎng)絡(luò)和知識(shí)圖譜。此外，還可以構(gòu)建一個(gè)包含多個(gè)層次元素的文本圖，如文檔、段落、句子和單詞。與上述兩種觀點(diǎn)相比，這種自然語(yǔ)言的觀點(diǎn)能夠捕捉到文本元素之間更豐富的關(guān)系。許多傳統(tǒng)的基于圖的方法（如隨機(jī)游走、標(biāo)簽傳播）已經(jīng)成功地應(yīng)用于具有挑戰(zhàn)性的NLP問(wèn)題，包括詞義消歧、命名消歧、共指解決、情感分析和文本聚類。

2.2 用于NLP任務(wù)的圖方法

在本小節(jié)中，將介紹各種傳統(tǒng)的基于圖的算法，這些算法已經(jīng)成功應(yīng)用于NLP的應(yīng)用。首先簡(jiǎn)要說(shuō)明一些有代表性的基于圖的算法和它們?cè)贜LP領(lǐng)域的應(yīng)用。然后，進(jìn)一步討論它們與GNN的聯(lián)系。

2.2.1 隨機(jī)游走算法（RANDOM WALK ALGORITHMS ）

隨機(jī)游走

是一類基于圖的算法，在圖中產(chǎn)生隨機(jī)路徑?？梢詮膱D中的任何一個(gè)節(jié)點(diǎn)開(kāi)始，根據(jù)一定的轉(zhuǎn)移概率反復(fù)選擇在每個(gè)時(shí)間訪問(wèn)一個(gè)隨機(jī)的鄰近節(jié)點(diǎn)。然后，隨機(jī)游走中所有被訪問(wèn)的節(jié)點(diǎn)就形成了一條隨機(jī)路徑。在隨機(jī)游走收斂后，人們可以得到一個(gè)圖中所有節(jié)點(diǎn)的靜態(tài)分布，該分布可以用來(lái)通過(guò)對(duì)概率得分進(jìn)行排名，選擇圖中結(jié)構(gòu)重要性高的最突出的節(jié)點(diǎn)，或者通過(guò)計(jì)算兩個(gè)隨機(jī)游走分布的相似性來(lái)衡量?jī)蓚€(gè)圖的關(guān)聯(lián)性。

應(yīng)用

隨機(jī)游走算法已被應(yīng)用于各種NLP任務(wù)中，包括文本的語(yǔ)義相似性度量和語(yǔ)義網(wǎng)絡(luò)上的語(yǔ)義距離、詞義消歧、名稱消歧、查詢擴(kuò)展、關(guān)鍵詞提取、名稱消歧、擴(kuò)展查詢、關(guān)鍵詞提取，以及跨語(yǔ)言信息檢索等。

2.2.2 圖聚類算法（GRAPH CLUSTERING ALGORITHMS ）

圖聚類算法

常見(jiàn)的圖聚類算法包括譜聚類、隨機(jī)游走聚類和min-cut聚類。譜聚類算法利用圖的拉普拉斯矩陣的頻譜（特征值），在使用K-means等現(xiàn)有算法進(jìn)行聚類前進(jìn)行降維。隨機(jī)漫步聚類算法通過(guò)在圖上進(jìn)行t步隨機(jī)漫步來(lái)操作，因此，每個(gè)節(jié)點(diǎn)被表示為一個(gè)概率向量，表示圖中所有其它節(jié)點(diǎn)的t步生成概率?；趫D聚類的目的，小的t值是更可取的，因?yàn)橄氩蹲骄植拷Y(jié)構(gòu)信息而不是全局結(jié)構(gòu)信息。min-cut算法也可用于將圖劃分為多個(gè)簇。

應(yīng)用

圖聚類算法已被成功應(yīng)用于解決文本聚類任務(wù)。例如，Erkan提出使用從有向生成圖（包含n個(gè)文檔節(jié)點(diǎn)）上的t步隨機(jī)游走得出的n-dim概率分布作為語(yǔ)料庫(kù)中每個(gè)文檔的向量表示。然后，圖聚類算法作用于文檔表示，以生成文檔簇。

2.2.3 圖匹配算法（GRAPH MATCHING ALGORITHMS）

圖匹配算法

圖匹配算法的目的是計(jì)算兩個(gè)圖之間的相似度。Graph Edit Distance 是最常用的測(cè)量?jī)蓚€(gè)圖的不相似性的方法。它將距離計(jì)算為將一個(gè)圖轉(zhuǎn)化為另一個(gè)圖所需的變化（即添加、刪除、替換）的數(shù)量。

應(yīng)用

圖匹配算法在文本推斷任務(wù)中有所應(yīng)用，該任務(wù)旨在決定一個(gè)給定的句子是否可以從文本中推斷出來(lái)。

2.2.4 標(biāo)簽傳播算法（LABEL PROPAGATION ALGORITHMS）

標(biāo)簽傳播算法

標(biāo)簽傳播算法（LPAs）是一類基于圖的半監(jiān)督算法，它將標(biāo)簽從有標(biāo)簽的數(shù)據(jù)點(diǎn)傳播到之前沒(méi)有標(biāo)簽的數(shù)據(jù)點(diǎn)。LPA是通過(guò)在圖上迭代傳播和聚集標(biāo)簽來(lái)操作的。在每次迭代中，每個(gè)節(jié)點(diǎn)都會(huì)根據(jù)其鄰居節(jié)點(diǎn)擁有的標(biāo)簽改變其標(biāo)簽。因此，標(biāo)簽信息會(huì)在圖中擴(kuò)散。

應(yīng)用

LPA在網(wǎng)絡(luò)科學(xué)文獻(xiàn)中被廣泛用于發(fā)現(xiàn)復(fù)雜網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu)。在NLP的文獻(xiàn)中，LPA已經(jīng)成功地應(yīng)用于詞義消歧和情感分析。這些應(yīng)用通常集中在標(biāo)記數(shù)據(jù)稀少的半監(jiān)督學(xué)習(xí)環(huán)境中，并利用LPA算法將標(biāo)簽從有限的標(biāo)記例子傳播到大量類似的未標(biāo)記的例子，并假設(shè)類似的例子應(yīng)該有類似的標(biāo)簽。

2.2.5 局限性以及與GNN的聯(lián)系

局限性

首先，它們的表達(dá)能力有限，主要側(cè)重于捕捉圖的結(jié)構(gòu)信息，但不考慮節(jié)點(diǎn)和邊特征，而這些特征對(duì)許多NLP的應(yīng)用也非常重要。其次，對(duì)于傳統(tǒng)的基于圖的算法，沒(méi)有統(tǒng)一的學(xué)習(xí)框架。不同的基于圖的算法有非常不同的屬性和設(shè)置，并且只適用于一些特定的用例。

與GNN的聯(lián)系

傳統(tǒng)基于圖的算法的上述局限性要求建立一個(gè)統(tǒng)一的基于圖的學(xué)習(xí)框架，該框架對(duì)圖結(jié)構(gòu)和節(jié)點(diǎn)/邊屬性的建模具有強(qiáng)大的表達(dá)能力。GNN作為一類特殊的神經(jīng)網(wǎng)絡(luò)獲得了越來(lái)越多的關(guān)注，它可以為任意的圖結(jié)構(gòu)數(shù)據(jù)建模。大多數(shù)GNN的變體可以被視為一個(gè)基于消息傳遞的學(xué)習(xí)框架。與傳統(tǒng)的基于消息傳遞的算法（如LPA）不同的是，GNN的操作方式是通過(guò)幾個(gè)神經(jīng)層對(duì)節(jié)點(diǎn)/邊特征進(jìn)行轉(zhuǎn)換、傳播和聚合，從而學(xué)習(xí)更好的圖表示。作為一個(gè)通用的基于圖的學(xué)習(xí)框架，GNNs可以應(yīng)用于各種與圖相關(guān)的任務(wù)，如節(jié)點(diǎn)分類、鏈接預(yù)測(cè)和圖分類。

3. 圖神經(jīng)網(wǎng)絡(luò)

在上一章中，已經(jīng)說(shuō)明了各種基于圖的傳統(tǒng)方法在不同的NLP任務(wù)中的應(yīng)用。本章中，將闡述GNNs的基礎(chǔ)理論和方法，能夠直接在圖結(jié)構(gòu)的數(shù)據(jù)上操作。并詳細(xì)介紹了圖濾波器（Spectral-based Graph Filte rs，Spatial-based Graph Filters，Attention-based Graph Filters，Recurrent-based Graph Filters）和圖池化方法（Flat Graph Pooling，Hierarchical Graph Pooling）。

3.1 Foundations

圖神經(jīng)網(wǎng)絡(luò)本質(zhì)上是圖表示學(xué)習(xí)模型，可以應(yīng)用于節(jié)點(diǎn)級(jí)別的任務(wù)和圖級(jí)別的任務(wù)。圖神經(jīng)網(wǎng)絡(luò)為圖中的每個(gè)節(jié)點(diǎn)學(xué)習(xí)嵌入，并將節(jié)點(diǎn)嵌入聚集起來(lái)產(chǎn)生圖的嵌入。一般來(lái)說(shuō)，節(jié)點(diǎn)嵌入的學(xué)習(xí)過(guò)程利用了輸入的節(jié)點(diǎn)嵌入和圖結(jié)構(gòu)，可以總結(jié)為：

即輸入鄰居節(jié)矩陣和層的節(jié)點(diǎn)狀態(tài)，可以更新得到下一層的節(jié)點(diǎn)嵌入，不同的模型在于圖濾波器的選擇和參數(shù)。

池化操作來(lái)聚合節(jié)點(diǎn)嵌入，以生成圖級(jí)別的嵌入。在GNN模型中，圖池化將一個(gè)圖及其節(jié)點(diǎn)嵌入作為輸入，然后生成一個(gè)具有較少節(jié)點(diǎn)的較小的圖及其相應(yīng)的新節(jié)點(diǎn)嵌入。圖池化操作可以總結(jié)為：

3.2 方法

3.2.1 圖濾波器

圖濾波器存在多種實(shí)現(xiàn)方式，大致可分為基于譜域的圖濾波器、基于空間域的圖濾波器、基于注意力的圖濾波器和基于遞歸的圖濾波器。從概念上講，基于譜域的圖濾波器是基于譜圖理論的，而基于空域的方法則是利用圖空間上的鄰居節(jié)點(diǎn)來(lái)計(jì)算節(jié)點(diǎn)嵌入。一些基于譜域的圖濾波器可以被轉(zhuǎn)換為基于空間的圖濾波。基于注意力的圖濾波器受到自注意力機(jī)制的啟發(fā)，對(duì)不同的鄰居節(jié)點(diǎn)分配不同的注意力權(quán)重?；谶f歸的圖濾波器引入了門控機(jī)制，模型參數(shù)在不同的GNN層之間共享。

3.2.2 圖池化

圖池化層用于以圖為重點(diǎn)的下游任務(wù)生成圖級(jí)表示，如基于學(xué)習(xí)到的節(jié)點(diǎn)嵌入進(jìn)行圖分類和預(yù)測(cè)。圖級(jí)別的任務(wù)來(lái)說(shuō)，需要整個(gè)圖的表示。為此，需要對(duì)節(jié)點(diǎn)嵌入信息和圖結(jié)構(gòu)信息進(jìn)行總結(jié)。圖池化層可以分為兩類：flat圖池化和分層圖池化。flat圖池化在單個(gè)步驟中直接從節(jié)點(diǎn)嵌入中生成圖級(jí)別表示。相比之下，分層圖池化包含幾個(gè)圖池化層。

4. 用于NLP任務(wù)的圖構(gòu)建方法

上一章討論了給定圖輸入時(shí)，GNN的基本基礎(chǔ)和方法。不幸的是，對(duì)于大多數(shù)NLP任務(wù)來(lái)說(shuō)，典型的輸入是文本序列而不是圖。為了利用GNN的力量，如何從文本序列中構(gòu)建一個(gè)圖輸入成為一個(gè)艱難的步驟。在本章重點(diǎn)介紹兩種主要的圖構(gòu)建方法，即靜態(tài)圖構(gòu)建（Dependency Graph Construction，Constituency Graph Construction，AMR Graph Construction，Discourse Graph Construction，information extraction graph，Discourse Graph Construction，Knowledge Graph Construction，Knowledge Graph Construction，Similarity Graph Construction，Co-occurrence Graph Construction。Topic Graph Construction，App-driven Graph Construction）和動(dòng)態(tài)圖構(gòu)建，此外介紹了多種圖相似度度量準(zhǔn)則，用于構(gòu)建各種NLP任務(wù)中的圖結(jié)構(gòu)輸入。

4.1 靜態(tài)圖構(gòu)建

靜態(tài)圖構(gòu)建方法的目的是在預(yù)處理期間構(gòu)建圖結(jié)構(gòu)，通常是利用現(xiàn)有的關(guān)系解析工具（如依存分析）或手動(dòng)定義的規(guī)則。從概念上講，靜態(tài)圖包含了隱藏在原始文本序列中的不同領(lǐng)域/外部知識(shí)，它用豐富的結(jié)構(gòu)化信息豐富了原始文本的內(nèi)容。

4.1.1 靜態(tài)圖構(gòu)建方法

依賴圖構(gòu)建（Dependency Graph Construction）

依賴圖被廣泛用于捕捉給定句子中不同對(duì)象之間的依賴關(guān)系。從形式上看，給定一個(gè)段落，可以通過(guò)使用各種NLP解析工具（例如Stanford CoreNLP）獲得依存分析樹(shù)（例如句法依存樹(shù)或語(yǔ)義依存關(guān)系樹(shù)）。然后，從依存分析樹(shù)中提取依賴關(guān)系，并將其轉(zhuǎn)換為依賴性圖。由于給定段落有順序信息，而圖的節(jié)點(diǎn)是無(wú)序的，可以引入順序的 link，在圖結(jié)構(gòu)中保留這種重要信息。有代表性的依存圖構(gòu)建方法，給定輸入段和其提取的分析樹(shù)，包括三個(gè)關(guān)鍵步驟。1）構(gòu)建依賴關(guān)系，2）構(gòu)建順序關(guān)系，3）最終的圖轉(zhuǎn)換。

成分圖構(gòu)建（Constituency Graph Construction）

成分圖是另一個(gè)廣泛使用的靜態(tài)圖，能夠捕捉一個(gè)或多個(gè)句子中基于短語(yǔ)的句法關(guān)系。與依存分析不同的是，依存分析只關(guān)注單個(gè)詞之間一對(duì)一的對(duì)應(yīng)關(guān)系（即詞級(jí)），而構(gòu)成分析則對(duì)一個(gè)或幾個(gè)對(duì)應(yīng)詞的組合進(jìn)行建模（即短語(yǔ)級(jí)）。首先解釋成分關(guān)系的基本概念，然后說(shuō)明成分圖的構(gòu)建過(guò)程。構(gòu)成圖的例子如圖2所示。

在語(yǔ)言學(xué)中，成分關(guān)系是指遵循短語(yǔ)結(jié)構(gòu)語(yǔ)法的關(guān)系，而不是依存關(guān)系和依存語(yǔ)法。一般來(lái)說(shuō)，成分關(guān)系是由主語(yǔ)（名詞短語(yǔ)NP）— 謂語(yǔ)（動(dòng)詞短語(yǔ)VP）關(guān)系衍生出來(lái)的。與依存關(guān)系解析樹(shù)不同的是，所有的節(jié)點(diǎn)都有相同的類型，成分分析樹(shù)區(qū)分了終端節(jié)點(diǎn)和非終端節(jié)點(diǎn)，非終端類別標(biāo)記分析樹(shù)的內(nèi)部節(jié)點(diǎn)，葉子節(jié)點(diǎn)標(biāo)記為終端類別。節(jié)點(diǎn)集可以表示為：1）非終端節(jié)點(diǎn)集2) 終端節(jié)點(diǎn)集。構(gòu)成關(guān)系集合與樹(shù)的邊相關(guān)。成分圖由非終端節(jié)點(diǎn)和終端節(jié)點(diǎn)組成，以及成分邊和序列邊。對(duì)于原文中相鄰的每個(gè)單詞節(jié)點(diǎn)對(duì)，在它們之間添加一條具有特定序列類型的無(wú)向邊，用來(lái)保留順序信息。

抽象語(yǔ)義表示圖構(gòu)建（AMR Graph Construction）

AMR圖是有根、有標(biāo)注、有向、無(wú)環(huán)的圖，它被廣泛用于表示非結(jié)構(gòu)化的具體自然文本的抽象概念之間的高級(jí)語(yǔ)義關(guān)系。與句法上的特異性不同，AMR是高層次的語(yǔ)義抽象。更具體地說(shuō)，在語(yǔ)義上相似的不同句子可能共享相同的AMR解析結(jié)果，例如，"保羅描述自己是一個(gè)戰(zhàn)士 "和 "保羅對(duì)自己的描述：一個(gè)戰(zhàn)士"，如圖3所示。與之前介紹的依賴樹(shù)和成分樹(shù)類似，AMR圖是由AMR解析樹(shù)衍生出來(lái)的。

信息抽取圖構(gòu)建（Information Extraction Graph Construction）

信息抽取圖（IE Graph）旨在提取結(jié)構(gòu)信息來(lái)表示自然句子之間的高級(jí)信息，例如基于文本的文檔。這些提取出來(lái)的關(guān)系，捕捉到遠(yuǎn)距離句子之間的關(guān)系，在許多NLP任務(wù)中很有幫助。在下文中，為給定段落構(gòu)建IE圖的過(guò)程分為三個(gè)基本步驟。1）指代消解，2）構(gòu)建IE關(guān)系，3）圖的構(gòu)建。

話語(yǔ)圖構(gòu)建（Discourse Graph Construction）

當(dāng)候選文檔太長(zhǎng)時(shí)，許多NLP任務(wù)會(huì)受到長(zhǎng)距離依賴性的挑戰(zhàn)。話語(yǔ)圖描述了兩個(gè)句子之間的邏輯聯(lián)系，可以有效地解決這種挑戰(zhàn)。

知識(shí)圖譜構(gòu)建（Knowledge Graph Construction）

捕捉實(shí)體和關(guān)系的知識(shí)圖譜（KG）可以大大促進(jìn)許多NLP應(yīng)用中的學(xué)習(xí)和推理。KG可以表示為G(V, E)，它通常由知識(shí)庫(kù)中的元素構(gòu)建。形式上，定義三元組作為知識(shí)庫(kù)的基本元素，包括是源實(shí)體，目標(biāo)實(shí)體和關(guān)系類型。然后，在知識(shí)庫(kù)中添加兩個(gè)節(jié)點(diǎn)，即源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)，并從節(jié)點(diǎn)v1到節(jié)點(diǎn)v2添加一條邊類型為rel的有向邊。

構(gòu)建KG的第一件事是獲取給定查詢中的術(shù)語(yǔ)實(shí)例。然后，通過(guò)一些匹配算法（如最大子串匹配）將術(shù)語(yǔ)實(shí)例與KG中的概念聯(lián)系起來(lái)。這些概念被看作是提取的子圖中的初始節(jié)點(diǎn)。下一步是獲取初始節(jié)點(diǎn)在KG中的1跳鄰居。此外，人們可以通過(guò)應(yīng)用一些圖節(jié)點(diǎn)相關(guān)性模型，如個(gè)性化的PageRank（PPR）算法，來(lái)計(jì)算鄰居與初始節(jié)點(diǎn)的相關(guān)性。然后根據(jù)結(jié)果，進(jìn)一步修剪出相關(guān)性分?jǐn)?shù)低于置信度閾值的邊，并刪除孤立的鄰居。剩余的最終子圖隨后被用來(lái)給任何圖表示學(xué)習(xí)模塊提供信息。

共指圖構(gòu)建（Coreference Graph Construction）

在語(yǔ)言學(xué)中，當(dāng)某個(gè)段落中的兩個(gè)或多個(gè)術(shù)語(yǔ)指代同一個(gè)對(duì)象時(shí)，就會(huì)出現(xiàn)共指。許多工作表明，這種現(xiàn)象有助于更好地理解語(yǔ)料庫(kù)的復(fù)雜結(jié)構(gòu)和邏輯，解決歧義。為了有效地利用共指信息，共指圖用來(lái)顯式的建模隱性共指關(guān)系。給定一組短語(yǔ)，共指圖可以連接文本語(yǔ)料庫(kù)中指代同一實(shí)體的節(jié)點(diǎn)（短語(yǔ)）。

相似圖構(gòu)建（Similarity Graph Construction）

相似性圖旨在量化節(jié)點(diǎn)之間的相似性，在許多NLP任務(wù)中被廣泛使用。由于相似性圖通常是面向應(yīng)用的，因此我們重點(diǎn)關(guān)注構(gòu)建實(shí)體、句子和文檔等各種類型元素的相似性圖的基本程序，而忽略了具體的應(yīng)用細(xì)節(jié)。相似性圖的構(gòu)建是在預(yù)處理過(guò)程中進(jìn)行的，而不是以端到端的方式與其余學(xué)習(xí)系統(tǒng)共同訓(xùn)練。圖6中顯示了一個(gè)相似性圖的例子。

共現(xiàn)圖構(gòu)建（Co-occurrence Graph Construction）

共現(xiàn)圖旨在捕捉文本中詞與詞之間的共現(xiàn)關(guān)系，這在許多NLP任務(wù)中被廣泛使用，共現(xiàn)關(guān)系描述了在固定大小的上下文窗口內(nèi)共同出現(xiàn)的兩個(gè)詞的頻率，是捕捉語(yǔ)料庫(kù)中詞之間語(yǔ)義關(guān)系的一個(gè)重要特征。共現(xiàn)圖的例子見(jiàn)圖7。

話題圖構(gòu)建（Topic Graph Construction）

話題圖是建立在幾個(gè)文檔上的，其目的是對(duì)不同話題之間的高層次語(yǔ)義關(guān)系進(jìn)行建模。給定一組文檔，首先用一些話題建模算法，如LDA，學(xué)習(xí)潛在的話題。然后構(gòu)建話題圖，只有當(dāng)文檔具有該話題時(shí)，那么在文檔節(jié)點(diǎn)和話題節(jié)點(diǎn)之間構(gòu)建一條無(wú)向邊。

應(yīng)用驅(qū)動(dòng)圖構(gòu)建（App-driven Graph Construction）

應(yīng)用驅(qū)動(dòng)圖指的是為特定的NLP任務(wù)專門設(shè)計(jì)的圖。在一些NLP任務(wù)中，用特定應(yīng)用的方法通過(guò)結(jié)構(gòu)化的形成來(lái)表示非結(jié)構(gòu)化的數(shù)據(jù)是很常見(jiàn)的。例如，SQL語(yǔ)言可以自然地通過(guò)SQL解析樹(shù)來(lái)表示。因此，它可以被轉(zhuǎn)換為SQL圖。由于這些圖在領(lǐng)域知識(shí)的基礎(chǔ)上過(guò)于專業(yè)化，所以沒(méi)有統(tǒng)一的模式來(lái)總結(jié)如何建立一個(gè)應(yīng)用驅(qū)動(dòng)的圖。圖9是這種應(yīng)用驅(qū)動(dòng)圖的一個(gè)例子，如SQL圖。

4.1.2 混合圖構(gòu)建和討論

以前的大多數(shù)靜態(tài)圖構(gòu)建方法只考慮節(jié)點(diǎn)之間的一種特定關(guān)系。盡管得到的圖在某種程度上很好地捕捉了結(jié)構(gòu)信息，但它們?cè)诶貌煌愋偷膱D關(guān)系方面也是有限的。為了解決這一局限性，人們?cè)絹?lái)越關(guān)注通過(guò)將幾個(gè)圖組合在一起構(gòu)建混合圖，以豐富圖中的語(yǔ)義信息。

4.2 動(dòng)態(tài)圖構(gòu)建

盡管靜態(tài)圖的構(gòu)建具有將數(shù)據(jù)的先驗(yàn)知識(shí)編碼到圖結(jié)構(gòu)中的優(yōu)勢(shì)，但它有幾個(gè)局限性：1）為了構(gòu)建一個(gè)性能合理的圖的拓?fù)浣Y(jié)構(gòu)，需要大量的人力和領(lǐng)域知識(shí)；2）人工構(gòu)建的圖結(jié)構(gòu)可能容易出錯(cuò)（例如，有噪音或不完整）；3）由于圖構(gòu)建階段和圖表示學(xué)習(xí)階段是不相干的，在圖構(gòu)建階段引入的錯(cuò)誤不能被糾正，可能會(huì)累積到后面的階段，這可能導(dǎo)致性能下降。4）圖的構(gòu)建過(guò)程往往只由機(jī)器學(xué)習(xí)從業(yè)者的見(jiàn)解來(lái)決定，對(duì)于下游的預(yù)測(cè)任務(wù)來(lái)說(shuō)可能是次優(yōu)的。

為了應(yīng)對(duì)上述挑戰(zhàn)，最近關(guān)于NLP的GNN的嘗試（Chen等人，2020e，f；Liu等人，2021b，2019c）開(kāi)始探索動(dòng)態(tài)圖的構(gòu)建，而不需要借助人工或領(lǐng)域?qū)I(yè)知識(shí)。大多數(shù)動(dòng)態(tài)圖構(gòu)建方法旨在動(dòng)態(tài)學(xué)習(xí)圖結(jié)構(gòu)（即加權(quán)鄰接矩陣），圖構(gòu)建模塊可以與后續(xù)的圖表示學(xué)習(xí)模塊共同優(yōu)化，以端到端的方式面向下游任務(wù)。如圖10所示，這些動(dòng)態(tài)圖構(gòu)建方法通常包括一個(gè)圖相似性度量學(xué)習(xí)組件，用于通過(guò)考慮嵌入空間中的成對(duì)節(jié)點(diǎn)相似性來(lái)學(xué)習(xí)鄰接矩陣，以及一個(gè)圖稀疏化組件，用于從學(xué)到的全連接圖中提取稀疏圖。將固有的圖結(jié)構(gòu)和學(xué)習(xí)到的隱含圖結(jié)構(gòu)結(jié)合起來(lái)，有利于提高學(xué)習(xí)性能。此外，為了有效地進(jìn)行圖結(jié)構(gòu)和表征的聯(lián)合學(xué)習(xí)，人們提出了各種學(xué)習(xí)范式。GNN的圖結(jié)構(gòu)學(xué)習(xí)本身就是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)趨勢(shì)性研究問(wèn)題，并且已經(jīng)在NLP之外被廣泛研究然而，在本綜述將重點(diǎn)介紹其在NLP領(lǐng)域的最新進(jìn)展，將動(dòng)態(tài)圖構(gòu)建和圖結(jié)構(gòu)學(xué)習(xí)交替使用。

4.2.1 圖相似度度量技術(shù)

基于節(jié)點(diǎn)屬性包含學(xué)習(xí)隱式圖結(jié)構(gòu)的有用信息的假設(shè)，最近有工作將圖結(jié)構(gòu)學(xué)習(xí)問(wèn)題作為定義在節(jié)點(diǎn)嵌入空間的相似度量學(xué)習(xí)問(wèn)題。學(xué)習(xí)到的相似性度量函數(shù)以后可以應(yīng)用于未見(jiàn)過(guò)的節(jié)點(diǎn)嵌入集來(lái)推斷圖結(jié)構(gòu)，從而實(shí)現(xiàn)歸納式圖結(jié)構(gòu)學(xué)習(xí)。對(duì)于部署在像圖這樣的非歐幾里得領(lǐng)域的數(shù)據(jù)，歐幾里得距離不一定是衡量節(jié)點(diǎn)相似性的最佳指標(biāo)。各種相似性度量函數(shù)已用于GNN的圖結(jié)構(gòu)學(xué)習(xí)。根據(jù)所利用的信息源的類型，將這些度量函數(shù)分為兩類：基于節(jié)點(diǎn)嵌入的相似性度量學(xué)習(xí)和結(jié)構(gòu)感知的相似性度量學(xué)習(xí)。

基于節(jié)點(diǎn)嵌入的相似度度量學(xué)習(xí)

基于節(jié)點(diǎn)嵌入的相似性度量函數(shù)被設(shè)計(jì)為通過(guò)計(jì)算嵌入空間中的成對(duì)節(jié)點(diǎn)相似性來(lái)學(xué)習(xí)加權(quán)鄰接矩陣。常見(jiàn)的度量函數(shù)包括基于注意力的度量函數(shù)和基于余弦的度量函數(shù)。

基于注意力機(jī)制的相似度度量函數(shù)

迄今為止提出的大多數(shù)相似性度量函數(shù)都是基于注意力機(jī)制的。為了提高基于點(diǎn)積的注意力機(jī)制的學(xué)習(xí)能力，Chen等人通過(guò)引入可學(xué)習(xí)的參數(shù)，提出了一個(gè)改良的點(diǎn)積，表述如下：

是一個(gè)非負(fù)的權(quán)重向量，提升節(jié)點(diǎn)嵌入不同維度的影響力。

Chen et al. 通過(guò)引入一個(gè)可學(xué)習(xí)的權(quán)重矩陣設(shè)計(jì)了一個(gè)更具有表達(dá)能力的點(diǎn)積方式：

Chen等人（2020e）將vanilla余弦相似度擴(kuò)展為多頭加權(quán)余弦相似度，以從多個(gè)角度捕捉成對(duì)的節(jié)點(diǎn)相似度，如下：

基于Cosine相似度的度量函數(shù)

Chen等人（2020e）將香vanilla余弦相似性擴(kuò)展為多頭加權(quán)余弦相似性，以從多個(gè)角度捕捉成對(duì)節(jié)點(diǎn)的相似性：

結(jié)構(gòu)感知的相似度學(xué)習(xí)

受結(jié)構(gòu)感知 transformers 的啟發(fā)，最近的方法采用了結(jié)構(gòu)感知的相似性度量函數(shù)，在節(jié)點(diǎn)信息之外還額外考慮了內(nèi)在圖的現(xiàn)有邊信息。例如，Liu等人（2019c）提出了一個(gè)學(xué)習(xí)成對(duì)節(jié)點(diǎn)相似性的結(jié)構(gòu)感知注意機(jī)制，如下：

是邊的嵌入表示。Liu et al. (2021b) 提出了結(jié)構(gòu)感知的全局注意力機(jī)制：

4.2.2 圖稀疏化技術(shù)

現(xiàn)實(shí)世界中的大多數(shù)圖都是稀疏的圖。相似性度量函數(shù)考慮任何一對(duì)節(jié)點(diǎn)之間的關(guān)系，并返回一個(gè)完全連接的圖，這不僅計(jì)算成本高，而且還可能引入噪音，如不重要的邊。因此，對(duì)所學(xué)的圖結(jié)構(gòu)明確地強(qiáng)制執(zhí)行稀疏性是有益的。除了在相似度量函數(shù)中應(yīng)用ReLU函數(shù)，還采用了各種圖稀疏化技術(shù)來(lái)提高所學(xué)圖形結(jié)構(gòu)的稀疏性。

Chen等人(2020f,d)應(yīng)用kNN式的稀疏化操作，從相似度學(xué)習(xí)函數(shù)計(jì)算的節(jié)點(diǎn)相似度矩陣中獲得稀疏的鄰接矩陣：

其中，對(duì)于每個(gè)節(jié)點(diǎn)，只保留K個(gè)最近的鄰居（包括它自己）和相關(guān)的相似度分?jǐn)?shù)，其余的相似度分?jǐn)?shù)被屏蔽掉。Chen等人（2020e）通過(guò)只考慮每個(gè)節(jié)點(diǎn)的ε-鄰居來(lái)執(zhí)行稀疏的鄰接矩陣：

其中，S中小于非負(fù)閾值ε的元素全部被屏蔽掉（即設(shè)置為零）。

4.2.3 結(jié)合INTRINSIC圖結(jié)構(gòu)和隱式圖結(jié)構(gòu)

最近的研究表明，如果在進(jìn)行動(dòng)態(tài)圖構(gòu)建時(shí)完全丟棄內(nèi)在圖結(jié)構(gòu)，可能會(huì)損害下游任務(wù)的性能。這可能是因?yàn)?intrinsic 圖通常仍然帶有關(guān)于下游任務(wù)的最佳圖結(jié)構(gòu)的豐富和有用的信息。因此，他們提出將學(xué)習(xí)到的隱式圖結(jié)構(gòu)與intrinsic圖結(jié)構(gòu)結(jié)合起來(lái)，基于這樣的假設(shè)：學(xué)習(xí)到的隱式圖有可能是intrinsic圖結(jié)構(gòu)的 "轉(zhuǎn)變"（例如，子結(jié)構(gòu)），是對(duì)intrinsic圖結(jié)構(gòu)的補(bǔ)充。另一個(gè)潛在的好處是納入intrinsic圖結(jié)構(gòu)可能有助于加速訓(xùn)練過(guò)程，提高訓(xùn)練的穩(wěn)定性。

4.2.4 學(xué)習(xí)范式

大多數(shù)現(xiàn)有的GNN動(dòng)態(tài)圖構(gòu)建方法包括兩個(gè)關(guān)鍵的學(xué)習(xí)組件：圖結(jié)構(gòu)學(xué)習(xí)（即相似性度量學(xué)習(xí)）和圖表示學(xué)習(xí)（即GNN模塊），最終目標(biāo)是學(xué)習(xí)與某些下游預(yù)測(cè)任務(wù)相關(guān)的優(yōu)化圖結(jié)構(gòu)和表示。如何優(yōu)化這兩個(gè)獨(dú)立的學(xué)習(xí)組件以達(dá)到相同的最終目標(biāo)成為一個(gè)重要問(wèn)題。這里我們強(qiáng)調(diào)三個(gè)有代表性的學(xué)習(xí)范式。1）最直接的策略（Chen等人，2020f,d；Liu等人，2021b）是以端到端的方式聯(lián)合優(yōu)化整個(gè)學(xué)習(xí)系統(tǒng)，以實(shí)現(xiàn)下游（半）監(jiān)督預(yù)測(cè)任務(wù)；2）另一個(gè)常見(jiàn)的策略（Yang等人，2018b；Liu等人，2019c；Huang等人，2020a）是自適應(yīng)學(xué)習(xí)每個(gè)堆疊GNN層的輸入圖結(jié)構(gòu)以反映中間圖表示的變化。這類似于transformer 如何在每一層學(xué)習(xí)不同的加權(quán)全連接圖；3）與上述兩種范式不同，Chen等人（2020e）提出了一個(gè)迭代式的圖學(xué)習(xí)框架，即在更好的圖表示的基礎(chǔ)上學(xué)習(xí)更好的圖結(jié)構(gòu)，同時(shí)以迭代的方式學(xué)習(xí)更好的圖表示。因此，這種迭代學(xué)習(xí)范式反復(fù)完善圖結(jié)構(gòu)和圖表示，以達(dá)到最佳的下游性能。

5. 用于NLP的圖表示學(xué)習(xí)

上一章介紹了各種圖構(gòu)建方法，包括靜態(tài)圖構(gòu)建和動(dòng)態(tài)圖構(gòu)建。本章將討論各種圖表示學(xué)習(xí)技術(shù)，這些技術(shù)直接在構(gòu)建的圖上操作，用于各種NLP任務(wù)。圖表示學(xué)習(xí)的目標(biāo)是找到一種方法，通過(guò)機(jī)器學(xué)習(xí)模型將圖的結(jié)構(gòu)和屬性信息納入低維嵌入。一般來(lái)說(shuō)，從原始文本數(shù)據(jù)構(gòu)建的圖可能是同質(zhì)圖或異質(zhì)圖。因此，在第5.1節(jié)中，將討論同質(zhì)圖的各種圖表示學(xué)習(xí)方法，包括原始同質(zhì)圖和一些從異質(zhì)圖轉(zhuǎn)換過(guò)來(lái)的方案。在第5.2節(jié)，將討論基于GNN的作用于多關(guān)系圖的方法，在第5.3節(jié)，討論處理異質(zhì)圖的GNN。

數(shù)學(xué)上表示任意圖，是節(jié)點(diǎn)集合，是邊集合，是節(jié)點(diǎn)類型結(jié)合，是邊的類型集合，是任意元素的個(gè)數(shù)，是節(jié)點(diǎn)類型的指示函數(shù)（表示節(jié)點(diǎn) 的類型），是邊類型的指示函數(shù)。

5.1 GNNs for Homogeneous Graphs

根據(jù)定義，對(duì)于圖，當(dāng)滿足被稱為同質(zhì)圖。大多數(shù)圖神經(jīng)網(wǎng)絡(luò)，如GCN、GAT和GraphSage，都是為同質(zhì)圖設(shè)計(jì)的，然而，這并不能很好地適配許多NLP任務(wù)。例如，給定一個(gè)自然語(yǔ)言文本，構(gòu)建的依賴圖是包含多種關(guān)系的任意圖，傳統(tǒng)的GNN方法無(wú)法直接利用。因此，在本小節(jié)中，將首先討論將任意圖轉(zhuǎn)換為同質(zhì)圖的各種策略，包括靜態(tài)圖和動(dòng)態(tài)圖。然后，討論考慮雙向編碼的圖神經(jīng)網(wǎng)絡(luò)。

5.1.1 靜態(tài)圖

處理靜態(tài)圖的GNN通常包括兩個(gè)階段，即轉(zhuǎn)換邊信息和節(jié)點(diǎn)表示學(xué)習(xí)。

將邊信息轉(zhuǎn)換為相鄰矩陣

邊被看作是節(jié)點(diǎn)之間的連接信息。在這種情況下，丟棄邊類型信息，保留連接信息，將異質(zhì)圖轉(zhuǎn)換成同質(zhì)圖。得到這樣的圖后，可以將圖的拓?fù)浣Y(jié)構(gòu)表示為統(tǒng)一的鄰接矩陣A。有向圖可以通過(guò)平均兩個(gè)方向的邊權(quán)重轉(zhuǎn)化為無(wú)向圖。邊權(quán)重被重新縮放，其最大邊緣權(quán)重為1，然后再送入GNN。

節(jié)點(diǎn)表示學(xué)習(xí)

給定初始節(jié)點(diǎn)嵌入X和鄰接矩陣A，基于經(jīng)典的GNNs技術(shù)提取節(jié)點(diǎn)表示。對(duì)于無(wú)向圖，大多數(shù)工作主要采用圖表示學(xué)習(xí)算法，如GCN、GGNN、GAT、GraphSage等，并將它們堆疊起來(lái)，探索圖中的深層語(yǔ)義關(guān)聯(lián)。當(dāng)涉及到有向圖時(shí)，少數(shù)GNN方法如GGNN、GAT仍然有效。而對(duì)于其他不能直接應(yīng)用于有向圖的GNN，簡(jiǎn)單的策略是忽略方向（即把有向圖轉(zhuǎn)換為無(wú)向圖）。然而，這種方法允許信息在沒(méi)有約束的情況下雙向傳播。為了解決這個(gè)問(wèn)題，人們做了很多努力來(lái)使GNN適應(yīng)于有向圖。對(duì)于GCN，一些基于空間的GCN算法是為有向圖設(shè)計(jì)的，如DCNN。GraphSage通過(guò)修改聚合函數(shù)，通過(guò)指定邊方向并分別聚合，可以很容易地?cái)U(kuò)展到有向圖上。

5.1.2 動(dòng)態(tài)圖

動(dòng)態(tài)圖旨在與下游任務(wù)共同學(xué)習(xí)圖結(jié)構(gòu)。早期的工作主要采用遞歸網(wǎng)絡(luò)，將圖節(jié)點(diǎn)嵌入作為RNN的狀態(tài)編碼，這可以看作是GGNN的雛形。然后，經(jīng)典的GNN如GCN、GAT、GGNN 被用來(lái)有效地學(xué)習(xí)圖嵌入。最近的研究者采用基于注意力或基于度量學(xué)習(xí)的機(jī)制，從非結(jié)構(gòu)化文本中學(xué)習(xí)隱含的圖結(jié)構(gòu)。圖結(jié)構(gòu)的學(xué)習(xí)過(guò)程是通過(guò)端到端的方式與下游任務(wù)共同進(jìn)行的。

5.1.3 雙向圖嵌入

前面介紹了從靜態(tài)同質(zhì)圖中構(gòu)建和學(xué)習(xí)節(jié)點(diǎn)嵌入的典型技術(shù)。在本小節(jié)中，詳細(xì)討論了如何處理邊方向。在現(xiàn)實(shí)中，許多圖都是有向無(wú)環(huán)圖（DAG），其信息是沿著特定的邊方向傳播的。一些研究者允許信息在兩個(gè)方向上平等傳播，另一些研究者則拋棄了包含在出邊中的信息，這兩種情況對(duì)于最終的表示學(xué)習(xí)會(huì)損失一些重要結(jié)構(gòu)信息。為了解決這個(gè)問(wèn)題，提出了雙向圖神經(jīng)網(wǎng)絡(luò)（bidirectional GNN），以交錯(cuò)的方式從傳入和傳出的邊上學(xué)習(xí)節(jié)點(diǎn)表示。

5.2 用于多關(guān)系圖的GNN

現(xiàn)實(shí)中許多圖都有各種邊類型，如知識(shí)圖、AMR圖等，代表和學(xué)習(xí)多關(guān)系圖，當(dāng)|R|>1并且|T|=1時(shí)，被定義為多關(guān)系圖。在本節(jié)中將介紹不同的技術(shù)，這些技術(shù)可以表示和學(xué)習(xí)多關(guān)系圖。

5.2.1 多關(guān)系圖的形成

由于異質(zhì)圖在NLP領(lǐng)域普遍存在，如知識(shí)圖譜、AMR圖等，大多數(shù)研究者提出將其轉(zhuǎn)換為多關(guān)系圖，可以通過(guò)5.2.2小節(jié)和5.2.3小節(jié)的關(guān)系GNN學(xué)習(xí)，多關(guān)系圖表示為，并且 . 為了獲得多關(guān)系圖，技術(shù)上我們忽略了節(jié)點(diǎn)類型，設(shè)置初始邊的類型為"default"，對(duì)于每一個(gè)邊，為其添加一個(gè)逆向邊，類型為"reverse"，并為每個(gè)節(jié)點(diǎn)添加自環(huán)"self'，因此就獲得了多關(guān)系圖：且 .

5.2.2 多關(guān)系GNNs

多關(guān)系GNN是經(jīng)典GNN對(duì)多關(guān)系圖的擴(kuò)展，其節(jié)點(diǎn)類型相同，但邊類型不同。它們最初是用來(lái)編碼特定關(guān)系圖的，如知識(shí)圖譜和解析圖，這些圖在相同類型的節(jié)點(diǎn)之間有復(fù)雜的關(guān)系。一般來(lái)說(shuō)，大多數(shù)多關(guān)系GNN采用特定類型的參數(shù)對(duì)關(guān)系進(jìn)行單獨(dú)建模。經(jīng)典的方法有：R-GCN、R-GGNN 和 R-GAT。

R-GCN

R-GCN是消息傳遞GCN框架的自然延伸，該框架在局部圖鄰域運(yùn)行，根據(jù)標(biāo)簽類型對(duì)傳入的節(jié)點(diǎn)進(jìn)行分組，然后對(duì)每一組分別應(yīng)用消息傳遞。因此，節(jié)點(diǎn)vi的鄰居節(jié)點(diǎn)的聚合過(guò)程被定義為：

R-GGNN

關(guān)系型GGNN最初是用于graph-to-sequence問(wèn)題，它能夠捕捉到長(zhǎng)距離的關(guān)系。與R-GCN類似，R-GGNN使用特定關(guān)系的權(quán)重來(lái)更好地捕捉節(jié)點(diǎn)之間特定關(guān)系的相關(guān)性。R-GGNN的傳播過(guò)程可以概括為：

R-GAT

Wang等人提出擴(kuò)展經(jīng)典的GAT以適應(yīng)多關(guān)系圖。直觀地說(shuō)，具有不同關(guān)系的鄰居節(jié)點(diǎn)應(yīng)該具有不同的影響力。Wang等人（2020b）提出用額外的關(guān)系頭來(lái)擴(kuò)展同質(zhì)GAT。從技術(shù)上講，他們提出的關(guān)系結(jié)點(diǎn)表示為：

Gating Mechanism

多關(guān)系圖神經(jīng)網(wǎng)絡(luò)在堆疊若干層以利用遠(yuǎn)處鄰居之間的隱性關(guān)聯(lián)時(shí)也面臨過(guò)平滑問(wèn)題。為了解決這個(gè)問(wèn)題，在多關(guān)系圖神經(jīng)網(wǎng)絡(luò)中引入了門控機(jī)制，即通過(guò)門控將節(jié)點(diǎn)的輸入特征和聚合特征結(jié)合起來(lái)。直觀地說(shuō)，門控機(jī)制可以被看作是原始信號(hào)和學(xué)習(xí)到的信息之間的權(quán)衡。它調(diào)節(jié)了多少更新信息被傳播到下一步，從而防止模型徹底覆蓋過(guò)去的信息。這里以經(jīng)典的R-GCN為例來(lái)介紹門控機(jī)制，它實(shí)際上可以擴(kuò)展到任意的變體。激活之前的表示為：

其中表示聚合函數(shù)。最終，節(jié)點(diǎn)的最終表示是先前嵌入和GNN輸出表示的門控組合：

為門向量。

5.2.3 GRAPH TRANSFORMER

Transformer 架構(gòu)在NLP領(lǐng)域取得了巨大成功，transformer的自注意力機(jī)制是全連接隱式圖學(xué)習(xí)的一個(gè)特殊程序，因此GNN和transformer 的概念產(chǎn)生了連接。然而，傳統(tǒng)的 transformer 未能利用結(jié)構(gòu)信息。在GAT的啟發(fā)下，許多文獻(xiàn)通過(guò)開(kāi)發(fā)結(jié)構(gòu)感知的自注意力機(jī)制，將結(jié)構(gòu)信息納入transformer。

self-attention

在本節(jié)中，將討論多關(guān)系圖的結(jié)構(gòu)感知自注意力技術(shù)。對(duì)自注意力機(jī)制作一個(gè)簡(jiǎn)單的回顧，省略了多頭機(jī)制，只介紹自注意的功能，自注意力的輸入為：，輸出表示為：

對(duì)于圖 transformer 來(lái)說(shuō)，查詢、鍵和值都是指節(jié)點(diǎn)的嵌入：即。有各種結(jié)合了結(jié)構(gòu)知識(shí)的關(guān)系圖的圖 transformer，根據(jù)自注意力的功能可以分為兩類。一類是基于R-GAT的方法，它采用類似關(guān)系GAT的特征聚合方式。另一類是保留全連接圖，同時(shí)將結(jié)構(gòu)感知的關(guān)系信息納入到自注意功能中。

R-GAT Based Graph Transformer

基于GAT的圖 transformer采用了類似GAT的特征聚合，它利用了圖連接性的歸納偏置。在技術(shù)上，首先用特定類型的聚合步驟聚合鄰居，然后通過(guò)前饋層進(jìn)行融合，具體如下：

Structure-aware Self-attention Based Graph Transformer

與基于R-GAT的圖transformer純粹依靠給定的圖結(jié)構(gòu)不同，基于結(jié)構(gòu)感知的自注意的圖transformer保留了原有的自注意架構(gòu)，允許非鄰接節(jié)點(diǎn)的通信。首先討論結(jié)構(gòu)感知的自我注意機(jī)制，然后介紹其獨(dú)特的邊嵌入表示法。

Shaw等人嘗試對(duì)神經(jīng)機(jī)器翻譯任務(wù)中詞（節(jié)點(diǎn)）之間的相對(duì)關(guān)系進(jìn)行建模。在技術(shù)上，他們?cè)谟?jì)算節(jié)點(diǎn)相似度時(shí)考慮了關(guān)系嵌入：

受Shaw等人（2018）的啟發(fā)，Xiao等提出擴(kuò)展傳統(tǒng)的自注意力架構(gòu)，將隱空間中節(jié)點(diǎn)對(duì)之間的關(guān)系嵌入顯式編碼為：

為了采用雙向關(guān)系，Cai和Lam（2020c）對(duì)傳統(tǒng)的自注意力進(jìn)行了如下擴(kuò)展：

給定每種關(guān)系上學(xué)習(xí)到的注意力，邊的嵌入表示是納入結(jié)構(gòu)信息的下一個(gè)關(guān)鍵步驟。Shaw等人（2018）簡(jiǎn)單地學(xué)習(xí)了相對(duì)位置編碼，即節(jié)點(diǎn)的絕對(duì)位置。從技術(shù)上講，他們采用了個(gè)潛在標(biāo)簽，并映射對(duì)節(jié)點(diǎn)對(duì) ，將到一個(gè)特定的標(biāo)簽嵌入，從而得到邊的嵌入。

Zhu等人（2019b）；Cai和Lam（2020c）通過(guò)從節(jié)點(diǎn)到節(jié)點(diǎn) 的路徑來(lái)學(xué)習(xí)邊的表示。Zhu等人（2019b）將路徑視為一個(gè)字符串，將其添加到詞匯表中，使其向量化。還進(jìn)一步提出了其他方法來(lái)學(xué)習(xí)標(biāo)簽沿路徑的嵌入，例如：1）取平均值，2）求和，3）用自注意力來(lái)編碼，4）用CNN濾波器來(lái)編碼。Cai和Lam（2020c）提出了基于最短路徑的關(guān)系編碼器。具體來(lái)說(shuō)，他們首先沿著路徑獲取標(biāo)簽的嵌入序列。然后，他們采用雙向的GRU進(jìn)行序列編碼。前向和后向GRU網(wǎng)絡(luò)的最后一個(gè)隱藏狀態(tài)最終被連接起來(lái)以表示關(guān)系嵌入。

5.3 Graph Neural Networks for Heterogeneous Graph

現(xiàn)實(shí)中的大多數(shù)圖有多種節(jié)點(diǎn)和邊的類型，如知識(shí)圖譜，AMR圖，它們被稱為異質(zhì)圖。從形式上看，對(duì)于一個(gè)圖G，滿足或者 1，那么稱其為異質(zhì)圖。除了將異質(zhì)圖轉(zhuǎn)化為關(guān)系圖外，如上一小節(jié)所介紹的，有時(shí)還需要充分利用節(jié)點(diǎn)和邊的類別信息。因此，在第5.3.1小節(jié)中，首先介紹了異質(zhì)圖的預(yù)處理技術(shù)。然后，在第5.3.2和5.3.3小節(jié)中，將介紹兩種專門針對(duì)異質(zhì)圖的典型圖表示學(xué)習(xí)方法。

5.3.1 LEVI 圖轉(zhuǎn)換技術(shù)

由于大多數(shù)現(xiàn)有的GNN方法只針對(duì)同質(zhì)條件而設(shè)計(jì)，在處理大量的邊類型時(shí)，會(huì)有大量的計(jì)算負(fù)擔(dān)（例如，一個(gè)AMR圖可能包含100多種邊類型），因此，在異質(zhì)圖中有效的做法是將邊視為節(jié)點(diǎn)。最重要的圖轉(zhuǎn)換技術(shù)是Levi Graph Transformation，對(duì)于每一個(gè)具有特定標(biāo)簽的邊，生成一個(gè)新的節(jié)點(diǎn)。得到的圖是一個(gè)簡(jiǎn)化的異質(zhì)levi圖，它具有單一的邊類型，但節(jié)點(diǎn)類型不受限制，然后可以由第5.3小節(jié)中描述的異質(zhì)GNN進(jìn)行學(xué)習(xí)。

5.3.2 基于元路徑的異質(zhì) GNN

Meta-path

元路徑是連接兩個(gè)對(duì)象的復(fù)合關(guān)系，是一種廣泛使用的捕捉語(yǔ)義的結(jié)構(gòu)。以電影數(shù)據(jù)IMDB為例，有三種類型的節(jié)點(diǎn)，包括電影、演員和導(dǎo)演。元路徑Movie → Actor →Movie，涵蓋了兩部電影和一個(gè)演員，描述了co-actor的關(guān)系。因此，異質(zhì)圖中節(jié)點(diǎn)之間的不同關(guān)系可以很容易地通過(guò)元路徑展示出來(lái)。首先提供了異質(zhì)圖的meta-level 描述，以便更好地理解。

遵循異質(zhì)信息網(wǎng)絡(luò)（HIN）的設(shè)定，給出了網(wǎng)絡(luò)模式的概念。網(wǎng)絡(luò)模式是異質(zhì)圖的元模板：節(jié)點(diǎn)類型的映射以及邊類型的映射，將其表示為，網(wǎng)絡(luò)模式上的元路徑表示為：，是模式的節(jié)點(diǎn)，是對(duì)應(yīng)的關(guān)系節(jié)點(diǎn)。元路徑集合為，將其表示為。元路徑是網(wǎng)絡(luò)模式上的一條路徑，表示為異質(zhì)圖G(V, E)的節(jié)點(diǎn)類型映射。V→T和邊類型映射。對(duì)于每一個(gè)元路徑上的節(jié)點(diǎn) ，表示為。然后將網(wǎng)絡(luò)模式與異質(zhì)如圖結(jié)合起來(lái)，對(duì)于每一個(gè)異質(zhì)圖的節(jié)點(diǎn)以及一個(gè)元路徑，定義基于元路徑的鄰居為，其中包含所有節(jié)點(diǎn)，包括由元路徑鏈接的自己。在概念上，鄰居集可以有多跳節(jié)點(diǎn)，這取決于元路徑的長(zhǎng)度。

大多數(shù)基于元路徑的GNN方法采用基于注意力的聚合策略。從技術(shù)上講，它們一般可以分為兩個(gè)階段。1）沿著每條元路徑聚合鄰居，這可以被稱為 "節(jié)點(diǎn)級(jí)聚集"。在這之后，節(jié)點(diǎn)通過(guò)不同的元路徑接收鄰居的信息；2）接下來(lái)，應(yīng)用元路徑級(jí)別的注意力機(jī)制來(lái)學(xué)習(xí)不同元路徑的語(yǔ)義影響。通過(guò)這種方式，他們可以學(xué)習(xí)由多條元路徑連接的鄰居的最佳組合。

HAN

由于圖中節(jié)點(diǎn)的異質(zhì)性，不同的節(jié)點(diǎn)具有不同的特征空間，這給GNN處理各種初始節(jié)點(diǎn)嵌入帶來(lái)了很大挑戰(zhàn)。為解決這一問(wèn)題，采用特定類型的變換，將各種節(jié)點(diǎn)投射到統(tǒng)一的特征空間：

Node-level Aggregation：對(duì)于在元路徑上，節(jié)點(diǎn)的鄰居節(jié)點(diǎn)集合，節(jié)點(diǎn)特征的聚合過(guò)程可以表示為：

Meta-path Level Aggregation：一般來(lái)說(shuō)，不同的元路徑傳達(dá)了不同的語(yǔ)義信息。為此，旨在學(xué)習(xí)每個(gè)元路徑的重要性：從技術(shù)上講，對(duì)于每條元路徑，首先學(xué)習(xí)每個(gè)節(jié)點(diǎn)的語(yǔ)義級(jí)重要性。然后對(duì)它們進(jìn)行平均，得到元路徑級(jí)別的重要性：最終獲得節(jié)點(diǎn)表示：

5.3.3 基于R-GNN的異質(zhì)GNN

盡管元路徑是組織異質(zhì)圖的有效工具，但它需要額外的領(lǐng)域?qū)＜抑R(shí)。為此，大多數(shù)研究人員通過(guò)使用特定類型的聚合，采用了R-GNN的類似想法。為了清楚起見(jiàn)，本文將這些方法命名為基于R-GNN的異質(zhì)GNN，并在下文中介紹這一類的幾個(gè)典型變體。

HGAT

HGAT（Linmei等人，2019）被提出用于編碼包含各種節(jié)點(diǎn)類型但單一邊類型的異質(zhì)圖。換句話說(shuō)，邊只代表連接性。對(duì)于一個(gè)特定的節(jié)點(diǎn)，不同類型的鄰居可能有不同的相關(guān)性。為了充分利用多樣化的結(jié)構(gòu)信息，HGAT首先專注于全局類型的相關(guān)性學(xué)習(xí)，然后學(xué)習(xí)具體節(jié)點(diǎn)的表示。

MHGRN

MHGRN（Feng等人，2020b）是R-GCN的一個(gè)擴(kuò)展，它可以直接在異質(zhì)圖上利用多跳信息。一般來(lái)說(shuō)，它借助關(guān)系路徑（如元路徑）的思想來(lái)建模兩個(gè)不具有k-hop連接節(jié)點(diǎn)的關(guān)系，并將現(xiàn)有的R-GNN擴(kuò)展到基于路徑的異構(gòu)圖表示學(xué)習(xí)范式。

HGT

HGT（Hu等人，2020c）是異質(zhì)圖的圖transformer，它在網(wǎng)絡(luò)模式之上建立節(jié)點(diǎn)之間的元關(guān)系，正如在基于元路徑的異質(zhì)GNN段落中討論的那樣。與之前大多數(shù)假設(shè)圖結(jié)構(gòu)是靜態(tài)的（即與時(shí)間無(wú)關(guān)）的工作不同，他們提出了一個(gè)相對(duì)的時(shí)間編碼策略來(lái)學(xué)習(xí)時(shí)間依賴性。

6. 基于GNN 的編碼器-解碼器模型

編碼器-解碼器架構(gòu)是NLP領(lǐng)域最廣泛使用的機(jī)器學(xué)習(xí)框架之一，如Seq2Seq模型。鑒于GNN在建模圖結(jié)構(gòu)數(shù)據(jù)方面的巨大力量，最近，許多研究開(kāi)發(fā)了基于GNN的編碼器-解碼器框架，包括Graph-to-Tree和Graph-to-Graph模型。在本節(jié)中，首先介紹典型的Seq2Seq模型，然后討論各種基于圖的編碼器-解碼器模型，用于各種NLP任務(wù)。

6.1 Sequence-to-Sequence Models

序列到序列學(xué)習(xí)是NLP領(lǐng)域中最廣泛使用的機(jī)器學(xué)習(xí)范式之一。在這一節(jié)中，首先對(duì)Seq2Seq學(xué)習(xí)進(jìn)行了簡(jiǎn)要的概述，并介紹了一些典型的Seq2Seq技術(shù)。然后，指出Seq2Seq學(xué)習(xí)的一些已知的局限性以及它的解決方案，即納入更多結(jié)構(gòu)化的編碼器-解碼器模型作為原始Seq2Seq模型的替代，以編碼更復(fù)雜的數(shù)據(jù)結(jié)構(gòu)。

6.1.1 介紹

Seq2Seq模型用于解決一般的序列到序列問(wèn)題（如機(jī)器翻譯）。Seq2Seq模型是一個(gè)端到端的編碼器-解碼器框架，它學(xué)習(xí)將一個(gè)可變長(zhǎng)度的輸入序列到一個(gè)可變長(zhǎng)度的輸出序列之間的映射。通常這個(gè)想法是使用一個(gè)基于RNN的編碼器來(lái)讀取輸入序列，建立一個(gè)固定維度的向量表示，然后使用一個(gè)基于RNN的解碼器來(lái)生成以編碼器輸出向量為條件的輸出序列。解碼器本質(zhì)上是一個(gè)RNN語(yǔ)言模型，只不過(guò)它是以輸入序列為條件的。最常見(jiàn)的Seq2Seq變體之一是應(yīng)用雙向LSTM編碼器對(duì)輸入序列進(jìn)行編碼，并應(yīng)用LSTM解碼器對(duì)輸出序列進(jìn)行解碼。其他Seq2Seq變體用門控遞歸單元（GRU）、卷積神經(jīng)網(wǎng)絡(luò)（CNN）或 Transformer模型代替LSTM。

在最初的Seq2Seq架構(gòu)中，中間向量的表示成為信息瓶頸，因?yàn)樗鼘⑤斎胄蛄械呢S富信息總結(jié)為固定維度的嵌入，作為解碼器生成高質(zhì)量輸出序列的唯一知識(shí)源。為了提高原始Seq2Seq模型的學(xué)習(xí)能力，人們提出了許多有效的技術(shù)。

6.1.2 討論

許多NLP應(yīng)用自然地接納了圖結(jié)構(gòu)的輸入數(shù)據(jù)，如依賴圖、構(gòu)成圖，AMR圖，IE圖和知識(shí)圖譜。與序列數(shù)據(jù)相比，圖結(jié)構(gòu)的數(shù)據(jù)能夠編碼對(duì)象之間豐富的句法或語(yǔ)義關(guān)系。此外，即使原始輸入最初是以序列形式表示的，它仍然可以從顯式地合并結(jié)構(gòu)信息中受益。上述情況基本上需要一個(gè)編碼器-解碼器框架來(lái)學(xué)習(xí)圖到X的映射，其中X可以代表序列、樹(shù)或甚至圖?，F(xiàn)有的Seq2Seq模型在學(xué)習(xí)從圖到適當(dāng)目標(biāo)的精確映射方面面臨著巨大的挑戰(zhàn)，因?yàn)樗鼪](méi)有能力對(duì)復(fù)雜的圖結(jié)構(gòu)數(shù)據(jù)進(jìn)行建模。

為了擴(kuò)展Seq2Seq模型以處理輸入為圖結(jié)構(gòu)數(shù)據(jù)的Graph-to-Sequence問(wèn)題，人們進(jìn)行了各種嘗試。一個(gè)簡(jiǎn)單直接的方法是直接將結(jié)構(gòu)化圖數(shù)據(jù)線性化為序列數(shù)據(jù)，并將Seq2Seq模型應(yīng)用于所得到的序列。然而，這種方法遭受了巨大的信息損失，導(dǎo)致了性能的下降。RNN沒(méi)有能力對(duì)復(fù)雜的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行建模的根本原因在于它是一個(gè)線性鏈。鑒于此，一些研究工作已經(jīng)致力于擴(kuò)展Seq2Seq模型。例如，Tree2Seq（Eriguchi等人，2016）通過(guò)采用Tree-LSTM擴(kuò)展了Seq2Seq模型，該模型是鏈?zhǔn)浇Y(jié)構(gòu)LSTM對(duì)樹(shù)式結(jié)構(gòu)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的一種概括。Set2Seq是Seq2Seq模型的一個(gè)擴(kuò)展，它超越了序列，使用注意力機(jī)制處理輸入集。盡管這些Seq2Seq擴(kuò)展在某些類別的問(wèn)題上取得了有希望的結(jié)果，但它們都不能以一種原則性的方式對(duì)任意圖結(jié)構(gòu)的數(shù)據(jù)進(jìn)行建模。

6.2 Graph-to-Sequence Models

為了解決上述Seq2Seq模型在編碼豐富復(fù)雜的數(shù)據(jù)結(jié)構(gòu)上的局限性，最近提出了一些用于NLP任務(wù)的graph-to-sequence的編碼器-解碼器模型。Graph2Seq模型通常采用一個(gè)基于GNN的編碼器和一個(gè)基于RNN/Transformer的解碼器。與Seq2Seq范式相比，Graph2Seq范式更善于捕捉輸入文本的豐富結(jié)構(gòu)信息，可以應(yīng)用于任意的圖結(jié)構(gòu)數(shù)據(jù)。與Seq2Seq模型相比，Graph2Seq模型在廣泛的NLP任務(wù)中顯示出優(yōu)越的性能，包括神經(jīng)機(jī)器翻譯，AMR-to-text、文本摘要、問(wèn)題生成、KG-to-text、SQL-to-text 、code summarization和語(yǔ)義解析。

基于圖的編碼器

早期的Graph2Seq方法及其后續(xù)工作主要使用一些典型的GNN變體作為圖編碼器，包括GCN、GGNN、GraphSAGE和GAT。由于NLP圖中的邊緣向經(jīng)常編碼關(guān)于兩個(gè)頂點(diǎn)之間的語(yǔ)義關(guān)系的關(guān)鍵信息，因此捕獲文本的雙向信息往往是非常有幫助的。在Graph2Seq范式的文獻(xiàn)中，人們做了一些努力來(lái)擴(kuò)展現(xiàn)有的GNN模型以處理有向圖。最常見(jiàn)的策略是在進(jìn)行鄰居聚合時(shí)，為不同的邊方向（即傳入/傳出/自環(huán)邊）引入單獨(dú)的模型參數(shù)。

除了邊方向信息，NLP應(yīng)用中的許多圖實(shí)際上是多關(guān)系圖，其中邊類型信息對(duì)下游任務(wù)非常重要。為了編碼邊類型信息，一些工作通過(guò)為不同的邊類型設(shè)置單獨(dú)的模型參數(shù)來(lái)擴(kuò)展它們。然而，在許多NLP應(yīng)用中（如KG相關(guān)任務(wù)），邊類型的總數(shù)很大，因此上述策略會(huì)有嚴(yán)重的可擴(kuò)展性問(wèn)題。為此，一些工作提出通過(guò)將多關(guān)系圖轉(zhuǎn)換為L(zhǎng)evi圖來(lái)繞過(guò)這個(gè)問(wèn)題，然后利用現(xiàn)有為同質(zhì)圖設(shè)計(jì)的GNN作為編碼器。另一個(gè)普遍采用的技術(shù)是將邊嵌入明確納入消息傳遞機(jī)制。

節(jié)點(diǎn)/邊嵌入初始化

對(duì)于基于GNN的方法，節(jié)點(diǎn)和邊的初始化是非常關(guān)鍵的。雖然CNNs和RNNs都擅長(zhǎng)捕捉文本中連續(xù)詞之間的局部依賴關(guān)系，但GNNs在捕捉圖中相鄰節(jié)點(diǎn)之間的局部依賴關(guān)系方面表現(xiàn)良好。許多關(guān)于Graph2Seq的工作表明，應(yīng)用CNN或雙向RNNs應(yīng)用基于GNN的編碼器之前，對(duì)詞嵌入序列進(jìn)行處理。還有研究探索了用BERT嵌入+BiRNNs或RoBERTa+BiRNNs初始化節(jié)點(diǎn)/邊緣嵌入。

序列解碼技術(shù)

由于Seq2Seq和Graph2Seq模型的主要區(qū)別在于編碼器，Seq2Seq模型中使用的常見(jiàn)解碼技術(shù)，如注意機(jī)制、copying 機(jī)制、coverage 機(jī)制和scheduled sampling也可以在Graph2Seq模型中采用。為了使常見(jiàn)的解碼技術(shù)適應(yīng)Graph2Seq范式，例如，Chen等人（2020g）為了將包含多token序列的整個(gè)節(jié)點(diǎn)屬性從輸入圖復(fù)制到輸出序列，將token級(jí)復(fù)制機(jī)制擴(kuò)展到節(jié)點(diǎn)級(jí)復(fù)制機(jī)制。為了結(jié)合序列編碼器和圖編碼器的優(yōu)點(diǎn)，Pan等人（2020）；Sachan等人（2020）提出在將其輸出送入解碼器之前將其融合為一個(gè)單一的向量。Huang等人（2020b）分別為序列編碼器和圖形編碼器設(shè)計(jì)了獨(dú)立的注意力模塊。

6.3 Graph-to-Tree Models

與Graph2Seq模型考慮輸入端的結(jié)構(gòu)信息相比，許多NLP任務(wù)還包含以復(fù)雜結(jié)構(gòu)表示的輸出，如樹(shù)，在輸出端也有豐富的結(jié)構(gòu)信息，如句法解析，語(yǔ)義解析，math word 問(wèn)題解決，考慮輸出的結(jié)構(gòu)信息是一個(gè)自然的選擇。為此，一些Graph2Tree模型被提出來(lái)，在輸入和輸出端都加入了結(jié)構(gòu)信息，使編碼-解碼過(guò)程中的信息流更加完整。

6.4 Graph-to-Graph Models

graph-to-graph模型通常用于解決圖轉(zhuǎn)換問(wèn)題，是圖編碼器-解碼器模型。圖編碼器生成圖中每個(gè)節(jié)點(diǎn)的潛在表示，或通過(guò)GNNs為整個(gè)圖生成一個(gè)圖級(jí)別表示。然后，圖解碼器根據(jù)來(lái)自編碼器的節(jié)點(diǎn)級(jí)或圖級(jí)潛在表示生成輸出目標(biāo)圖。

Graph-to-Graph for NLP

由于自然語(yǔ)言或信息知識(shí)圖譜可以自然地被形式化為具有一組節(jié)點(diǎn)及其關(guān)系的圖，NLP領(lǐng)域的許多生成任務(wù)可以被形式化為一個(gè)圖的轉(zhuǎn)換問(wèn)題，這可以進(jìn)一步通過(guò)graph-to-graph模型來(lái)解決。這樣一來(lái)，輸入和輸出句子的語(yǔ)義結(jié)構(gòu)信息就可以得到充分的利用和把握。兩個(gè)重要的NLP任務(wù)（即信息抽取和語(yǔ)義解析）可以被形式化為graph-to-graph的問(wèn)題。

7. 應(yīng)用

在本章中，將討論大量使用GNN的典型NLP應(yīng)用，包括自然語(yǔ)言生成、機(jī)器閱讀理解、問(wèn)題回答、對(duì)話系統(tǒng)、文本分類、文本匹配、話題建模、情感分類、知識(shí)圖譜、信息提取、語(yǔ)義和句法解析、推理和語(yǔ)義角色標(biāo)注。表3中提供了所有應(yīng)用的摘要及其子任務(wù)和評(píng)價(jià)指標(biāo)。

7.1 自然語(yǔ)言生成

自然語(yǔ)言生成（NLG）旨在給定各種形式的輸入，如文本、語(yǔ)音等，生成高質(zhì)量、連貫和可理解的自然語(yǔ)言，而我們只關(guān)注語(yǔ)言形式?，F(xiàn)代自然語(yǔ)言生成方法通常采取編碼器-解碼器的形式，將輸入序列編碼到潛在空間，并根據(jù)潛在表征預(yù)測(cè)出一個(gè)詞的集合。大多數(shù)現(xiàn)代NLG方法可以分為兩個(gè)步驟：編碼和解碼，它們由兩個(gè)模塊處理：編碼器和解碼器。在本節(jié)中，對(duì)基于auto-regressive graph-based的方法進(jìn)行了全面的概述，這些方法在這個(gè)蓬勃發(fā)展的領(lǐng)域中利用了編碼器中的圖結(jié)構(gòu)，包括：1）神經(jīng)機(jī)器翻譯，2）摘要，3）問(wèn)題生成，4）structural-data to text。

7.1.1 神經(jīng)機(jī)器翻譯

經(jīng)典的神經(jīng)機(jī)器翻譯（NMT）系統(tǒng)旨在將源語(yǔ)言的句子映射到目標(biāo)語(yǔ)言，而不改變其語(yǔ)義。大多數(shù)先前的工作采用了基于注意力的序列對(duì)序列學(xué)習(xí)圖，特別是基于RNN的語(yǔ)言模型。與傳統(tǒng)的機(jī)器翻譯模型相比，這些方法可以在沒(méi)有特定語(yǔ)言知識(shí)的情況下產(chǎn)生更好的性能。然而，這些方法存在著長(zhǎng)依賴性的問(wèn)題。隨著注意力機(jī)制的發(fā)展，完全基于注意力的模型，如Transformer，通過(guò)自注意力捕捉隱性關(guān)聯(lián)，取得了突破性進(jìn)展，達(dá)到了新的水平。雖然這些取得了巨大的成功，但它們很少考慮到結(jié)構(gòu)信息，如句法結(jié)構(gòu)。最近，在強(qiáng)大的GNN的幫助下，許多研究者通過(guò)挖掘非結(jié)構(gòu)化文本中包含的結(jié)構(gòu)性知識(shí)進(jìn)一步提升了性能。

大多數(shù)基于GNN的NMT方法將傳統(tǒng)的seq2seq圖轉(zhuǎn)換成Graph2Seq架構(gòu)。它們首先將輸入文本轉(zhuǎn)換為圖結(jié)構(gòu)的數(shù)據(jù)，然后采用基于GNN的編碼器來(lái)利用結(jié)構(gòu)信息。

7.1.2 摘要生成

自動(dòng)摘要生成是在保留關(guān)鍵信息內(nèi)容和整體意義的情況下產(chǎn)生一個(gè)簡(jiǎn)明流暢的摘要的任務(wù)。這個(gè)任務(wù)有兩個(gè)主要的經(jīng)典設(shè)置：1）抽取式 2）生成式。傳統(tǒng)的方法只是將輸入視為序列，并應(yīng)用LSTM、Transformer等編碼器來(lái)學(xué)習(xí)潛在的表征，這些方法未能利用自然輸入中隱含的豐富結(jié)構(gòu)信息。許多研究人員發(fā)現(xiàn)，結(jié)構(gòu)知識(shí)有利于解決一些挑戰(zhàn)，例如長(zhǎng)距離依賴性問(wèn)題，因此提出了基于GNN的技術(shù)，明確利用結(jié)構(gòu)信息來(lái)提高性能。

大多數(shù)基于GNN的摘要方法首先是構(gòu)建圖來(lái)表示給定的文本。然后，采用基于GNN的編碼器來(lái)學(xué)習(xí)圖的表示。之后，對(duì)于抽取式摘要模型，采用分類器來(lái)選擇候選子句來(lái)組成最終的總結(jié)。對(duì)于生成式摘要，大多采用語(yǔ)言解碼器，以最大化輸出的可能性來(lái)生成摘要。

7.1.3 結(jié)構(gòu)化數(shù)據(jù)到文本

盡管是自然文本，但許多NLP應(yīng)用都是以明確的圖結(jié)構(gòu)來(lái)表示數(shù)據(jù)，如SQL查詢、知識(shí)圖、AMR等。結(jié)構(gòu)化數(shù)據(jù)的任務(wù)就是要從結(jié)構(gòu)化數(shù)據(jù)輸入中生成自然語(yǔ)言。傳統(tǒng)的工作應(yīng)用線性化機(jī)制，將結(jié)構(gòu)數(shù)據(jù)映射為序列數(shù)據(jù)，并采用Seq2Seq架構(gòu)來(lái)生成文本。為了充分捕捉豐富的結(jié)構(gòu)信息，最近的研究集中在基于GNN的技術(shù)來(lái)處理這一任務(wù)。

大多數(shù)基于GNN的AMR-to-text和SQL-to-text方法通常構(gòu)建特定領(lǐng)域的圖，如AMR圖和基于SQL解析的圖來(lái)組織輸入。之后，應(yīng)用由GNN編碼器和序列解碼器組成的Graph2Seq來(lái)生成神經(jīng)語(yǔ)言輸出。

7.1.4 自然問(wèn)題生成

自然問(wèn)題生成（QG）任務(wù)旨在從某種形式的數(shù)據(jù)中生成自然語(yǔ)言問(wèn)題，如KG、表格、文本或圖像，其中生成的問(wèn)題需要從輸入數(shù)據(jù)中得到答案。大多數(shù)先前的工作采用了Seq2Seq架構(gòu)，將輸入數(shù)據(jù)視為序列數(shù)據(jù)，而不考慮其豐富的結(jié)構(gòu)信息。例如，在對(duì)輸入文本進(jìn)行編碼時(shí)，以前的大多數(shù)方法通常會(huì)忽略與單詞序列相關(guān)的隱藏結(jié)構(gòu)信息，如依賴性解析樹(shù)。即使對(duì)于來(lái)自KG的QG的設(shè)置，大多數(shù)方法通常將KB子圖線性化為一個(gè)序列，并應(yīng)用一個(gè)序列編碼器。未能利用輸入數(shù)據(jù)的圖結(jié)構(gòu)可能會(huì)限制QG模型的有效性。對(duì)于在多個(gè)段落或文檔上進(jìn)行推理的來(lái)自文本的多跳QG，捕捉多個(gè)段落或文檔中不同實(shí)體提及的關(guān)系是有益的?？傊?，**對(duì)輸入數(shù)據(jù)的豐富結(jié)構(gòu)進(jìn)行建模對(duì)許多QG任務(wù)來(lái)說(shuō)是很重要的。**最近，GNN已經(jīng)成功應(yīng)用于QG任務(wù)（Liu et al., 2019b; Chen et al., 2020f; Wang et al., 2020c）。

大多數(shù)基于GNN的QG方法采用Graph2Seq架構(gòu)，其中基于GNN的編碼器用來(lái)對(duì)圖結(jié)構(gòu)的輸入數(shù)據(jù)進(jìn)行建模，序列解碼器被用來(lái)生成自然語(yǔ)言問(wèn)題。

7.2 機(jī)器閱讀理解和問(wèn)題回答

7.2.1 機(jī)器閱讀理解

機(jī)器閱讀理解（MRC）的任務(wù)旨在利用給定的段落回答一個(gè)自然語(yǔ)言問(wèn)題。由于各種注意力機(jī)制的發(fā)展，MRC任務(wù)已經(jīng)取得了重大進(jìn)展，這些機(jī)制可以捕捉到問(wèn)題和上下文之間的相互聯(lián)系?？紤]到傳統(tǒng)的MRC設(shè)置主要集中在相對(duì)簡(jiǎn)單的一跳推理上，最近，更多的研究工作被用于解決更具挑戰(zhàn)性的MRC設(shè)置。例如，多跳MRC任務(wù)是使用多個(gè)段落或文檔來(lái)回答一個(gè)自然語(yǔ)言問(wèn)題，這需要多跳推理能力。Con- versational MRC任務(wù)是在對(duì)話中回答當(dāng)前的自然語(yǔ)言問(wèn)題，并給出一段話和之前的問(wèn)題和答案，這需要對(duì)對(duì)話歷史進(jìn)行建模的能力。數(shù)字性的MRC任務(wù)要求有對(duì)段落進(jìn)行數(shù)字推理的能力。這些具有挑戰(zhàn)性的MRC任務(wù)需要對(duì)對(duì)象之間的復(fù)雜關(guān)系進(jìn)行建模的學(xué)習(xí)能力。例如，在多跳MRC任務(wù)中，對(duì)多個(gè)文檔之間的關(guān)系以及文檔中提到的實(shí)體進(jìn)行建模是非常有益的。最近，GNN已經(jīng)成功應(yīng)用于各種類型的MRC任務(wù)，包括多跳MRC，對(duì)話式MRC，以及numerical MRC。

基于GNN的MRC方法通常是通過(guò)首先構(gòu)建一個(gè)實(shí)體圖或?qū)哟螆D來(lái)捕捉圖中節(jié)點(diǎn)之間的豐富關(guān)系，然后應(yīng)用基于GNN的推理模塊對(duì)圖進(jìn)行復(fù)雜推理。假設(shè)GNN的輸出已經(jīng)編碼了節(jié)點(diǎn)本身及其鄰居結(jié)構(gòu)的語(yǔ)義，最后將應(yīng)用一個(gè)預(yù)測(cè)模塊來(lái)預(yù)測(cè)答案。為解決MRC任務(wù)而開(kāi)發(fā)的圖構(gòu)建技術(shù)和圖表示技術(shù)在不同的方法中有所不同。

7.2.2 知識(shí)庫(kù)問(wèn)題回答

在過(guò)去的幾年里，知識(shí)庫(kù)問(wèn)題回答（KBQA）已經(jīng)成為一個(gè)重要的研究課題。KBQA的目標(biāo)是給定自然語(yǔ)言問(wèn)題自動(dòng)從KG中找到答案。最近，由于其對(duì)對(duì)象之間關(guān)系建模的性質(zhì)能力，GNN已經(jīng)成功地應(yīng)用于執(zhí)行多跳KBQA任務(wù)，這需要對(duì)KG的多條邊進(jìn)行推理以得出正確的答案。一個(gè)相關(guān)的任務(wù)是開(kāi)放領(lǐng)域的QA，其目的是通過(guò)利用包括語(yǔ)料庫(kù)和KG的混合知識(shí)源來(lái)回答開(kāi)放領(lǐng)域的問(wèn)題。本文介紹并總結(jié)了最近KBQA研究中采用的一些有代表性的GNN相關(guān)技術(shù)。

7.2.3 開(kāi)放域的問(wèn)題回答

開(kāi)放域問(wèn)題回答的任務(wù)旨在給定一個(gè)大規(guī)模的開(kāi)放域知識(shí)（如文檔、知識(shí)庫(kù)等），以確定自然問(wèn)題的答案?；谥R(shí)的方法得益于通過(guò)圖結(jié)構(gòu)輕松獲得外部知識(shí)。然而，這些方法在知識(shí)庫(kù)和固定模式的信息缺失方面受到限制。為了回答來(lái)自海量和非結(jié)構(gòu)化文檔的問(wèn)題，與基于知識(shí)庫(kù)的方法相比，這些方法可以獲取更多的信息，但在從冗余的外部文檔中檢索相關(guān)和關(guān)鍵信息方面存在困難。本文介紹并總結(jié)了最近開(kāi)放域問(wèn)題回答研究中一些有代表性的GNN相關(guān)技術(shù)。

7.2.4 社區(qū)問(wèn)題回答

社區(qū)問(wèn)題回答的任務(wù)旨在從QA論壇（如Stack Overflow或Quora）中檢索出相關(guān)答案。與傳統(tǒng)的MRC（QA）任務(wù)不同，CQA系統(tǒng)能夠利用隱性知識(shí)（嵌入在不同的社區(qū)中）或顯性知識(shí)（嵌入在所有解決的問(wèn)題中）來(lái)回答每天發(fā)布的大量新問(wèn)題。然而，越來(lái)越多的新問(wèn)題可能會(huì)使沒(méi)有適當(dāng)協(xié)作支持的CQA系統(tǒng)因用戶的要求而變得超負(fù)荷。本文介紹并總結(jié)了最近CQA研究中采用的一些有代表性的GNN相關(guān)技術(shù)。

7.3 對(duì)話系統(tǒng)

對(duì)話系統(tǒng)是一個(gè)可以連續(xù)與人對(duì)話的計(jì)算機(jī)系統(tǒng)。為了建立一個(gè)成功的對(duì)話系統(tǒng)，對(duì)對(duì)話中不同對(duì)話者或話語(yǔ)之間的依賴關(guān)系進(jìn)行建模很重要。由于能夠?qū)?duì)象之間的復(fù)雜關(guān)系進(jìn)行建模，最近，GNN已經(jīng)成功地應(yīng)用于各種對(duì)話系統(tǒng)相關(guān)的任務(wù)，包括對(duì)話狀態(tài)跟蹤，旨在估計(jì)給定對(duì)話歷史的當(dāng)前對(duì)話狀態(tài)；對(duì)話響應(yīng)生成，旨在給定對(duì)話歷史生成對(duì)話響應(yīng)；以及下一個(gè)話語(yǔ)選擇，旨在給定對(duì)話歷史從候選列表中選擇下一個(gè)話語(yǔ)。本文介紹并總結(jié)了近期對(duì)話系統(tǒng)研究中采用的一些有代表性的GNN相關(guān)技術(shù)。

7.4 文本分類

傳統(tǒng)的文本分類方法嚴(yán)重依賴特征工程（如BOW、TF-IDF或更高級(jí)的基于圖形路徑的特征）進(jìn)行文本表示。為了從數(shù)據(jù)中自動(dòng)學(xué)習(xí) "好的 "文本表征，人們提出了各種無(wú)監(jiān)督的方法來(lái)學(xué)習(xí)單詞或文檔表征，包括word2vec、GloVe、話題模型、自動(dòng)編碼器和doc2vec。這些預(yù)訓(xùn)練的單詞或文檔嵌入可以進(jìn)一步被MLP、CNN或LSTM模塊所消耗，用于訓(xùn)練監(jiān)督下的文本分類器。為了更好地捕捉文本或語(yǔ)料庫(kù)中文件之間的關(guān)系，人們提出了各種基于圖的方法進(jìn)行文本分類。例如，Peng等人（2018）提出首先構(gòu)建一個(gè)詞的圖，然后將CNN應(yīng)用于規(guī)范化的子圖。Tang等人提出了一種基于網(wǎng)絡(luò)嵌入的方法，通過(guò)將部分標(biāo)記的文本語(yǔ)料轉(zhuǎn)換為異質(zhì)文本網(wǎng)絡(luò)，以半監(jiān)督的方式進(jìn)行文本表示學(xué)習(xí)。最近，考慮到強(qiáng)大的表達(dá)能力，GNN已經(jīng)成功應(yīng)用于半監(jiān)督和監(jiān)督文本分類中。

基于GNN的文本分類方法通常是，首先構(gòu)建一個(gè)文檔圖或語(yǔ)料庫(kù)圖來(lái)捕捉圖中節(jié)點(diǎn)之間的豐富關(guān)系，然后應(yīng)用GNN來(lái)學(xué)習(xí)良好的文檔嵌入，這些嵌入隨后將被送入softmax層以產(chǎn)生一類標(biāo)簽的概率分布。為解決文本分類任務(wù)而開(kāi)發(fā)的圖構(gòu)建技術(shù)和圖表示技術(shù)在不同的方法中有所不同。本文介紹并總結(jié)了最近的文本分類方法中采用的一些代表性的GNN相關(guān)技術(shù)。

7.5 文本匹配

現(xiàn)有的大多數(shù)文本匹配方法是通過(guò)一些神經(jīng)網(wǎng)絡(luò)，如CNN或RNN，將每個(gè)文本映射到一個(gè)潛在的嵌入空間，然后根據(jù)文本表征之間的相似性計(jì)算匹配分?jǐn)?shù)。為了在不同的顆粒度水平上對(duì)兩個(gè)文本之間的豐富互動(dòng)進(jìn)行建模，通常會(huì)精心設(shè)計(jì)復(fù)雜的注意力或匹配組件。最近，有一些工作成功地探索了GNNs在文本匹配中對(duì)文本元素之間復(fù)雜的交互作用進(jìn)行建模的問(wèn)題。本文介紹并總結(jié)了近期文本匹配方法中采用的一些有代表性的GNN相關(guān)技術(shù)。

7.6 話題建模

話題建模的任務(wù)旨在發(fā)現(xiàn)語(yǔ)料庫(kù)中出現(xiàn)的抽象的 "話題"。通常情況下，話題模型學(xué)習(xí)將一段文本表示為一個(gè)話題的混合物，而話題本身則表示為詞匯的混合物。經(jīng)典的話題模型包括基于圖模型的方法，基于自回歸模型的方法，以及基于自動(dòng)編碼器的方法。最近的工作通過(guò)明確地對(duì)文檔和詞之間的關(guān)系進(jìn)行建模，探索了基于GNN的方法進(jìn)行話題建模。本文介紹并總結(jié)了近期話題建模方法中采用的一些有代表性的GNN相關(guān)技術(shù)。

7.7 情感分析

情感分析任務(wù)旨在檢測(cè)一段文本的情感（即積極、消極或中立）。方面級(jí)的情感分類旨在識(shí)別文本在特定方面的情感極性，并受到更多關(guān)注。雖然大多數(shù)工作都集中在句子層面和單一領(lǐng)域的情感分類上，但在文檔層面和跨領(lǐng)域的情感分類上也有一些嘗試。早期的情感分類工作主要依賴于特征工程。最近的嘗試?yán)昧烁鞣N神經(jīng)網(wǎng)絡(luò)模型的表達(dá)能力，如LSTM、CNN或記憶網(wǎng)絡(luò)。最近，人們嘗試?yán)肎NN來(lái)更好地模擬文本的句法和語(yǔ)義，以完成情感分類任務(wù)。

基于GNN的情感分類方法通常是通過(guò)首先構(gòu)建文本的圖表示（如依賴樹(shù)），然后應(yīng)用GNN來(lái)學(xué)習(xí)良好的文本嵌入，這些嵌入將被用于預(yù)測(cè)情感的極性。為解決情感分類任務(wù)而開(kāi)發(fā)的圖構(gòu)建技術(shù)和圖表示技術(shù)在不同的方法中有所不同。本文將介紹并總結(jié)最近的情感分類方法中采用的一些有代表性的GNN相關(guān)技術(shù)。

7.8 知識(shí)圖譜

知識(shí)圖譜（KG）以結(jié)構(gòu)化的形式表示現(xiàn)實(shí)世界的知識(shí)，在學(xué)術(shù)界和工業(yè)界引起了很大的關(guān)注。KG可以表示為一組三元組集合。在KG方面有三個(gè)主要任務(wù)，即知識(shí)圖譜嵌入(KGE)，知識(shí)圖譜對(duì)齊(KGA)，知識(shí)圖譜補(bǔ)全(KGC)。本文將對(duì)基于圖的KGC和KGA方法進(jìn)行概述。

7.9 信息抽取

信息抽?。↖E）的目的是提取給定句子或文檔的實(shí)體對(duì)及其關(guān)系。IE是一項(xiàng)重要的任務(wù)，因?yàn)樗兄趶姆墙Y(jié)構(gòu)化文本中自動(dòng)構(gòu)建知識(shí)圖譜。隨著深度神經(jīng)網(wǎng)絡(luò)的成功，基于神經(jīng)網(wǎng)絡(luò)的方法已被應(yīng)用于信息提取。然而，這些方法往往忽略了輸入文本的非局部和非序列化的上下文信息。此外，重疊關(guān)系的預(yù)測(cè)，即共享相同實(shí)體的一對(duì)實(shí)體的關(guān)系預(yù)測(cè)，也不能得到妥善解決。為了這些目的，GNN已經(jīng)被廣泛用于建立文本中實(shí)體和關(guān)系之間的交互模型。信息提取由兩個(gè)子任務(wù)組成：命名實(shí)體識(shí)別（NER）和關(guān)系提?。≧E）。NER為句子中的每個(gè)詞預(yù)測(cè)一個(gè)標(biāo)簽，這通常被認(rèn)為是一個(gè)序列標(biāo)注任務(wù)。RE為文本中的每一對(duì)實(shí)體預(yù)測(cè)一個(gè)關(guān)系類型。當(dāng)輸入文本中的實(shí)體被注釋后，IE任務(wù)就退化為RE任務(wù)。基于GNN的IE方法通常通過(guò)pipeline的方式運(yùn)作。首先，構(gòu)建一個(gè)文本圖。然后，實(shí)體被識(shí)別，實(shí)體對(duì)之間的關(guān)系被預(yù)測(cè)。本文是對(duì)基于GNN的不同技術(shù)的介紹。

7.10 語(yǔ)義語(yǔ)法解析

在本節(jié)中主要討論GNN在解析方面的應(yīng)用，包括與語(yǔ)法相關(guān)的解析和與語(yǔ)義相關(guān)的解析。對(duì)于語(yǔ)法相關(guān)的解析，GNN已經(jīng)被用于依賴性解析和成分解析的任務(wù)。對(duì)于語(yǔ)義相關(guān)的解析，本文簡(jiǎn)要介紹語(yǔ)義解析和AMR解析。

7.11 推理

推理是NLP的一個(gè)重要研究方向。近年來(lái)，GNN開(kāi)始在NLP推理任務(wù)中發(fā)揮重要作用，如數(shù)學(xué)單詞問(wèn)題解決，自然語(yǔ)言推理，常識(shí)推理等。本文將對(duì)這三個(gè)任務(wù)以及圖神經(jīng)網(wǎng)絡(luò)在這些方法中的應(yīng)用做一個(gè)簡(jiǎn)要介紹。

7.12 語(yǔ)義角色標(biāo)注

語(yǔ)義角色標(biāo)注（SRL）問(wèn)題旨在恢復(fù)一個(gè)句子的predicate-argument結(jié)構(gòu)，即基本上確定 "誰(shuí)對(duì)誰(shuí)做了什么"、"何時(shí) "和 "何地"。對(duì)于每個(gè)謂詞，SRL模型必須識(shí)別所有的argument跨度，并為它們標(biāo)注語(yǔ)義角色。這樣的高層結(jié)構(gòu)可以作為語(yǔ)義信息，用于支持各種下游任務(wù)，包括對(duì)話系統(tǒng)、機(jī)器閱讀和翻譯。最近的SRL工作大多可以分為兩類，即根據(jù)是否納入句法知識(shí)，分為句法感知型和句法診斷型方法。大多數(shù)syntax-agnostic的工作采用深度BiLSTM或自注意編碼器來(lái)編碼自然句子的上下文信息，用各種評(píng)分器來(lái)預(yù)測(cè)基于BIO的語(yǔ)義角色的概率或predicate-argument-role元組。在句法和語(yǔ)義之間強(qiáng)烈的相互作用的激勵(lì)下，研究人員探索了各種方法，將句法知識(shí)整合到句法無(wú)關(guān)的模型中，考慮到語(yǔ)義表示與句法表示密切相關(guān)。例如，我們可以觀察到，句法依賴圖中的許多弧在語(yǔ)義依賴圖中都有反映。鑒于這些相似性以及許多語(yǔ)言都有精確的句法分析器，在預(yù)測(cè)語(yǔ)義時(shí)利用句法信息似乎是很自然的。

采用神經(jīng)序列模型，即LSTM，存在以下挑戰(zhàn)：（1）由于句法關(guān)系的復(fù)雜樹(shù)狀結(jié)構(gòu)，很難有效地將句法信息納入神經(jīng)SRL模型；（2）由于錯(cuò)誤的句法輸入的風(fēng)險(xiǎn)，句法分析器是不可靠的，這可能導(dǎo)致錯(cuò)誤傳播和不理想的SRL性能。鑒于這種情況，GNN正在成為捕捉和納入基于深度神經(jīng)網(wǎng)絡(luò)的SRL模型中的語(yǔ)法模式的有力工具。在捕捉結(jié)構(gòu)化數(shù)據(jù)中的復(fù)雜關(guān)系模式方面，GNN的性質(zhì)使其很適合于為句子的句法依賴和成分結(jié)構(gòu)建模。

從形式上看，SRL可以被投射為一個(gè)序列標(biāo)注問(wèn)題，即給定一個(gè)輸入句子，以及謂詞在句子中的位置，目標(biāo)是預(yù)測(cè)句子中的詞的語(yǔ)義角色的BIO序列；另一個(gè)是關(guān)于端到端的語(yǔ)義角色三元組提取，目的是一次性檢測(cè)所有可能的謂詞和它們相應(yīng)的arguments。從技術(shù)上講，給定一個(gè)句子，SRL模型會(huì)預(yù)測(cè)一組標(biāo)記的謂語(yǔ)-參數(shù)-角色三元組，而每個(gè)三元組包含一個(gè)可能的謂語(yǔ)標(biāo)記和兩個(gè)候選標(biāo)記。上述兩個(gè)問(wèn)題都可以基于基于GNN的SRL模型來(lái)解決，它由兩部分組成，即圖的構(gòu)建和圖的表示學(xué)習(xí)。

8. 結(jié)論

在這篇文章中，我們對(duì)各種圖神經(jīng)網(wǎng)絡(luò)演化出的各種NLP問(wèn)題進(jìn)行了全面的概述。具體來(lái)說(shuō)，我們首先提供了典型的GNN模型的初步知識(shí)，包括圖過(guò)濾器和圖池化方法。然后，提出了一個(gè)新的分類法，沿著三個(gè)維度系統(tǒng)地組織GNNs for NLP方法，即圖的構(gòu)造、圖表示學(xué)習(xí)和編碼器-解碼器模型。鑒于這些在NLP應(yīng)用每個(gè)階段的具體技術(shù)，我們從圖構(gòu)建、圖表示學(xué)習(xí)和具體技術(shù)的角度討論了大量的NLP應(yīng)用。最后，為進(jìn)一步釋放GNN在NLP領(lǐng)域的巨大潛力，本文提供了這一思路的大體挑戰(zhàn)和未來(lái)方向。

責(zé)任編輯：lq6

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

nlp

nlp

+關(guān)注

關(guān)注
1

文章
486

瀏覽量
21991
GNN

GNN

+關(guān)注

關(guān)注
1

文章
31

瀏覽量
6325

原文標(biāo)題：萬(wàn)字綜述，GNN在NLP中的應(yīng)用，建議收藏慢慢看

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

搜索歷史

關(guān)于NLP任務(wù)的所有GNN相關(guān)技術(shù)介紹

評(píng)論

NLP技術(shù)在聊天機(jī)器人中的作用

Transformer能代替圖神經(jīng)網(wǎng)絡(luò)嗎

nlp邏輯層次模型的特點(diǎn)

nlp神經(jīng)語(yǔ)言和NLP自然語(yǔ)言的區(qū)別和聯(lián)系

nlp自然語(yǔ)言處理基本概念及關(guān)鍵技術(shù)

nlp自然語(yǔ)言處理框架有哪些

nlp自然語(yǔ)言處理的主要任務(wù)及技術(shù)方法

nlp自然語(yǔ)言處理模型怎么做

nlp自然語(yǔ)言處理的應(yīng)用有哪些

深度學(xué)習(xí)與nlp的區(qū)別在哪

NLP技術(shù)在機(jī)器人中的應(yīng)用

NLP技術(shù)在人工智能領(lǐng)域的重要性

使用Python進(jìn)行自然語(yǔ)言處理

NLP模型中RNN與CNN的選擇

什么是自然語(yǔ)言處理 (NLP)