0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于預(yù)訓(xùn)練語(yǔ)言模型設(shè)計(jì)了一套統(tǒng)一的模型架構(gòu)

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:RUC AI Box ? 2023-04-07 10:38 ? 次閱讀

本文介紹了本小組發(fā)表于ICLR 2023的論文UniKGQA,其基于預(yù)訓(xùn)練語(yǔ)言模型設(shè)計(jì)了一套統(tǒng)一的模型架構(gòu),同時(shí)適用于多跳KBQA檢索和推理,在多個(gè)KBQA數(shù)據(jù)集上取得顯著提升。

f96b6e60-d4e9-11ed-bfe3-dac502259ad0.png

該論文發(fā)表于 ICLR-2023 Main Conference:

論文鏈接:https://arxiv.org/pdf/2212.00959.pdf

開(kāi)源代碼:https://github.com/RUCAIBox/UniKGQA

進(jìn)NLP群—>加入NLP交流群(備注nips/emnlp/nlpcc進(jìn)入對(duì)應(yīng)投稿群)

前言

如何結(jié)合PLM和KG以完成知識(shí)與推理仍然是一大挑戰(zhàn)。我們?cè)贜AACL-22關(guān)于常識(shí)知識(shí)圖譜推理的研究 (SAFE) 中發(fā)現(xiàn),PLM 是執(zhí)行復(fù)雜語(yǔ)義理解的核心。因此,我們深入分析了已有的復(fù)雜 GNN 建模外部 KG 知識(shí)的方法是否存在冗余。最終,基于發(fā)現(xiàn),我們提出使用純 MLP 輕量化建模輔助 PLM 推理的 KG 知識(shí),初步探索了 PLM+KG 的使用方法。

進(jìn)一步,本文研究了在更依賴 KG 的知識(shí)庫(kù)問(wèn)答任務(wù)中如何利用 PLM。已有研究通常割裂地建模檢索-推理兩階段,先從大規(guī)模知識(shí)圖譜上檢索問(wèn)題相關(guān)的小子圖,然后在子圖上推理答案節(jié)點(diǎn),這種方法忽略了兩階段間的聯(lián)系。我們重新審視了兩階段的核心能力,并從數(shù)據(jù)形式,模型架構(gòu),訓(xùn)練策略三個(gè)層面進(jìn)行了統(tǒng)一,提出UniKGQA。同時(shí)受 SAFE 啟發(fā),我們認(rèn)為 KG 僅為執(zhí)行推理的載體,因此 UniKGQA 架構(gòu)的設(shè)計(jì)思考為:核心利用 PLM 匹配問(wèn)題與關(guān)系的語(yǔ)義,搭配極簡(jiǎn) GNN 在 KG 上傳播匹配信息,最終推理答案節(jié)點(diǎn)。針對(duì)這樣的簡(jiǎn)潔架構(gòu),我們同時(shí)設(shè)計(jì)了一套高效的訓(xùn)練方法,使得 UniKGQA 可以將檢索的知識(shí)遷移到推理階段,整體性能更高效地收斂到更好的表現(xiàn)。實(shí)驗(yàn)證明,在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上相較于已有 SOTA,取得顯著提升。

一、研究背景與動(dòng)機(jī)

f981d7e0-d4e9-11ed-bfe3-dac502259ad0.png

1、多跳知識(shí)庫(kù)問(wèn)答

給定一個(gè)自然語(yǔ)言問(wèn)題 和一個(gè)知識(shí)圖譜 ,知識(shí)圖譜問(wèn)答 (KGQA) 旨在從知識(shí)圖譜上尋找答案集合,表示為 。我們?cè)趫D1 (a)中展示了一個(gè)例子。給定問(wèn)題:Who is the wife of the nominee for The Jeff Probst Show?,該任務(wù)的目標(biāo)是從主題實(shí)體 The Jeff Probst Show 開(kāi)始,尋找匹配問(wèn)題語(yǔ)義的推理路徑 nominee --> spouse,最終得到答案實(shí)體 Shelley Wright 和 Lisa Ann Russell。已有研究通常假設(shè)問(wèn)題中提到的實(shí)體 (例如圖1 (a)中的The Jeff Probst Show) 被標(biāo)記并鏈接到知識(shí)圖譜上,即主題實(shí)體,表示為 。

本文關(guān)注多跳 KGQA 任務(wù),即答案實(shí)體和主題實(shí)體在知識(shí)圖譜上距離多跳??紤]到效率和精度之間的平衡,我們遵循已有工作,通過(guò)檢索-推理兩階段框架解決此任務(wù)。具體而言,給定一個(gè)問(wèn)題 和主題實(shí)體 ,檢索階段旨在從超大知識(shí)圖譜 中檢索出一個(gè)小的子圖 ,而推理階段則在檢索子圖 上推理答案實(shí)體 。

2、研究動(dòng)機(jī)

雖然兩個(gè)階段的目的不同,但是兩個(gè)階段都需要評(píng)估候選實(shí)體與問(wèn)題的語(yǔ)義關(guān)聯(lián)性 (用于檢索階段remove或推理階段rerank)。本質(zhì)上,上述過(guò)程可以被視為一個(gè)語(yǔ)義匹配問(wèn)題。由于 KG 中實(shí)體與實(shí)體間的聯(lián)系通過(guò)關(guān)系表示,為了衡量實(shí)體的相關(guān)性,在構(gòu)建語(yǔ)義匹配模型時(shí),基于關(guān)系的特征(直接的一跳關(guān)系或復(fù)合的多跳關(guān)系路徑),都被證明是特別有用的。如圖1 (a)所示,給定問(wèn)題,關(guān)鍵是要在知識(shí)圖譜中識(shí)別出與問(wèn)題語(yǔ)義匹配的關(guān)系及其組成的關(guān)系路徑 (例如nominee --> spouse),以找到答案實(shí)體。

由于兩個(gè)階段處理知識(shí)圖譜時(shí),面臨的搜索空間尺度不同 (例如,檢索時(shí)數(shù)百萬(wàn)個(gè)實(shí)體結(jié)點(diǎn)與推理時(shí)數(shù)千個(gè)實(shí)體結(jié)點(diǎn)),已有方法通常割裂地為兩階段考慮對(duì)應(yīng)的解決方案:前者關(guān)注如何使用更高效的方法提升召回性能,而后者關(guān)注如和利用更細(xì)粒度的匹配信號(hào)增強(qiáng)推理。這種思路僅將檢索到的三元組從檢索階段傳遞到推理階段,而忽略了整個(gè)流程中其他有用的語(yǔ)義匹配信號(hào),整體性能為次優(yōu)解。由于多跳知識(shí)圖譜問(wèn)答是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù),我們需要充分利用兩個(gè)階段習(xí)得的各種能力。

因此,本文探討能否設(shè)計(jì)一個(gè)統(tǒng)一的模型架構(gòu)來(lái)為兩個(gè)階段提供更好的性能?如果這樣,我們可以緊密關(guān)聯(lián)兩階段并增強(qiáng)習(xí)得能力的共享,從而提升整體性能。

二、UniKGQA:適用于檢索和推理的統(tǒng)一架構(gòu)

然而,實(shí)現(xiàn)統(tǒng)一的多跳 KGQA 模型架構(gòu)面臨兩個(gè)主要挑戰(zhàn): (1) 如何應(yīng)對(duì)兩個(gè)階段的搜索空間尺度差異很大的問(wèn)題? (2) 如何在兩個(gè)階段之間有效地共享或傳遞習(xí)得的能力? 考慮到這些挑戰(zhàn),我們從數(shù)據(jù)形式,模型架構(gòu),訓(xùn)練策略三方面進(jìn)行探索,最終對(duì)兩階段的模型架構(gòu)進(jìn)行了統(tǒng)一。

1、數(shù)據(jù)形式

在 KG 中,存在大量的一對(duì)多現(xiàn)象,例如,頭實(shí)體為中國(guó),關(guān)系為城市,那么存在多個(gè)尾實(shí)體,每個(gè)尾實(shí)體又會(huì)存在各自的一對(duì)多現(xiàn)象,使得圖的規(guī)模隨跳數(shù)成指數(shù)級(jí)增長(zhǎng)。實(shí)際上,在檢索階段,我們僅需要通過(guò)關(guān)系或關(guān)系路徑召回一批相關(guān)的實(shí)體,而不需要細(xì)粒度關(guān)注實(shí)體本身的信息。結(jié)合以上思考,我們針對(duì)檢索階段提出了Abstract Subgraph(抽象子圖) 的概念,核心是將同一個(gè)頭實(shí)體和關(guān)系派生出的尾實(shí)體聚合在一起,得到對(duì)應(yīng)的抽象結(jié)點(diǎn),如圖1 (b)即為圖1 (a)的抽象子圖表示,這樣可以顯著降低原始知識(shí)圖譜的規(guī)模。因此,檢索階段通過(guò)關(guān)系或關(guān)系路徑判斷抽象節(jié)點(diǎn)的相關(guān)性,檢索完成后,將含有抽象節(jié)點(diǎn)的子圖進(jìn)行還原,得到包含原始節(jié)點(diǎn)的子圖;推理階段通過(guò)關(guān)系或關(guān)系路徑同時(shí)考慮具體的節(jié)點(diǎn)信息推理最終的答案節(jié)點(diǎn)。這樣,我們就可以減緩兩個(gè)階段面臨的搜索空間尺度過(guò)大的問(wèn)題。

基于抽象子圖,我們針對(duì)兩階段提出一個(gè)評(píng)估實(shí)體相關(guān)性的通用形式,即給定問(wèn)題 和候選實(shí)體的子圖 。對(duì)于檢索階段, 是抽象子圖,包含抽象節(jié)點(diǎn)以合并同一關(guān)系派生的尾實(shí)體。對(duì)于推理階段, 是基于檢索階段的檢索子圖構(gòu)建的,還原后沒(méi)有抽象節(jié)點(diǎn)。這種通用的輸入格式為開(kāi)發(fā)統(tǒng)一的模型架構(gòu)提供了基礎(chǔ)。接下來(lái),我們將以一般方式描述針對(duì)這種統(tǒng)一數(shù)據(jù)形式設(shè)計(jì)的模型架構(gòu),而不考慮特定的檢索或推理階段。

2、模型架構(gòu)

f9ba0b2e-d4e9-11ed-bfe3-dac502259ad0.png

基于上述統(tǒng)一數(shù)據(jù)形式,我們開(kāi)發(fā)的模型架構(gòu)包含兩個(gè)基礎(chǔ)模塊:(1) 語(yǔ)義匹配 (SM) 模塊,利用 PLM 執(zhí)行問(wèn)題和關(guān)系之間的語(yǔ)義匹配;(2) 匹配信息傳播 (MIP) 模塊,在知識(shí)圖譜上傳播語(yǔ)義匹配信息。我們?cè)趫D2中展示了模型架構(gòu)的概覽。

語(yǔ)義匹配 (SM):SM 模塊旨在生成問(wèn)題 與給定子圖 中的三元組間的語(yǔ)義匹配特征。具體而言,我們首先利用 PLM 對(duì)和的文本進(jìn)行編碼,然后使用 [CLS] 令牌的輸出表示作為它們的表示:

基于 和 ,受 NSM 模型的啟發(fā),我們通過(guò)對(duì)應(yīng)的投影層,在第 步獲得問(wèn)題 和三元組間語(yǔ)義匹配特征的向量間語(yǔ)義匹配特征的向量:

其中,, 是第 步投影層的參數(shù), 和 分別是 PLM 和特征向量的隱藏層維度, 是 sigmoid 激活函數(shù),而 是 hadamard 積。

匹配信息傳播 (MIP):基于語(yǔ)義匹配特征,MIP 模塊首先將它們聚合起來(lái)以更新實(shí)體表示,然后利用它來(lái)獲取實(shí)體匹配得分。為了初始化匹配得分,對(duì)于給定問(wèn)題 和子圖 中的每個(gè)實(shí)體 ,我們將 和 之間的匹配分?jǐn)?shù)設(shè)置為:如果 是主題實(shí)體,則 ,否則 。在第 步,我們利用上一步計(jì)算出的頭實(shí)體的匹配分?jǐn)?shù)作為權(quán)重,聚合相鄰三元組的匹配特征,以獲得尾實(shí)體的表示:

其中, 是第 步中實(shí)體 的表示, 是可學(xué)習(xí)的矩陣。在第一步中,由于沒(méi)有匹配分?jǐn)?shù),我們按照NSM模型的方法,直接將其一跳關(guān)系的表示聚合為實(shí)體表示:,其中 是可學(xué)習(xí)的矩陣。基于所有實(shí)體 的表示,我們使用 softmax 函數(shù)更新它們的實(shí)體匹配分?jǐn)?shù):

其中, 是一個(gè)可學(xué)習(xí)的向量。

經(jīng)過(guò) 步迭代,我們可以獲得最終的實(shí)體匹配得分 ,它是子圖 中所有實(shí)體的概率分布。這些匹配分?jǐn)?shù)可以用來(lái)衡量實(shí)體作為給定問(wèn)題 答案的可能性,并將在檢索和推理階段中使用。

訓(xùn)練策略

我們?cè)诙嗵R(shí)圖譜問(wèn)答的推理和檢索階段都使用了前述的模型架構(gòu),分別為推理模型和檢索模型。由于這兩個(gè)模型采用相同的架構(gòu),我們引入 和 來(lái)分別表示用于檢索和推理的模型參數(shù)。如前所述,我們的架構(gòu)包含兩組參數(shù),即基礎(chǔ) PLM 以及用于匹配和傳播的其他參數(shù)。因此, 和 可以分解為 和 ,其中下標(biāo) 和 分別表示我們架構(gòu)中的 PLM 參數(shù)和其他參數(shù)。為了學(xué)習(xí)這些參數(shù),我們基于統(tǒng)一架構(gòu)設(shè)計(jì)了預(yù)訓(xùn)練 (即問(wèn)題-關(guān)系匹配)和微調(diào) (即面向檢索和推理的學(xué)習(xí))策略。下面,我們描述模型訓(xùn)練方法。

問(wèn)題-關(guān)系匹配的預(yù)訓(xùn)練 (QRM): 對(duì)于預(yù)訓(xùn)練,我們主要關(guān)注學(xué)習(xí)基礎(chǔ) PLMs (即 和 ) 的參數(shù)。在實(shí)現(xiàn)中,我們讓兩個(gè)模型共享相同的 PLM 參數(shù),即 。語(yǔ)義匹配模塊的基本功能是對(duì)一個(gè)問(wèn)題和一個(gè)單獨(dú)的關(guān)系進(jìn)行相關(guān)性建模 (式2)。因此,我們?cè)O(shè)計(jì)了一個(gè)基于問(wèn)題-關(guān)系匹配的對(duì)比預(yù)訓(xùn)練任務(wù)。具體來(lái)說(shuō),我們采用對(duì)比學(xué)習(xí)目標(biāo)來(lái)對(duì)齊相關(guān)問(wèn)題-關(guān)系對(duì)的表示,同時(shí)將其他不相關(guān)的對(duì)分開(kāi)。為了收集相關(guān)問(wèn)題-關(guān)系對(duì),對(duì)于一個(gè)由問(wèn)題 、主題實(shí)體 和答案實(shí)體 組成的例子,我們從整個(gè)知識(shí)圖譜中提取 和 之間的所有最短路徑,并將這些路徑中的所有關(guān)系視為與 相關(guān)的關(guān)系,表示為 。這樣,我們就可以獲得許多弱監(jiān)督樣例。在預(yù)訓(xùn)練期間,對(duì)于每個(gè)問(wèn)題 ,我們隨機(jī)采樣一個(gè)相關(guān)的關(guān)系 ,并利用對(duì)比學(xué)習(xí)損失進(jìn)行預(yù)訓(xùn)練:

其中,是一個(gè)溫度超參數(shù),是一個(gè)隨機(jī)采樣的負(fù)關(guān)系,是余弦相似度,、是由SM模塊(式1)中的 PLM 編碼的問(wèn)題和關(guān)系。這樣,通過(guò)預(yù)訓(xùn)練 PLM 參數(shù),問(wèn)題-關(guān)系匹配能力將得到增強(qiáng)。請(qǐng)注意,在預(yù)訓(xùn)練之后,PLM 參數(shù)將被固定。

在抽象子圖上微調(diào)檢索 (RAS):在預(yù)訓(xùn)練之后,我們?cè)跈z索任務(wù)上學(xué)習(xí)參數(shù) ?;貞浺幌拢覀儗⒆訄D轉(zhuǎn)化為一種抽象子圖的形式,其中包含抽象節(jié)點(diǎn),用于合并來(lái)自同一關(guān)系派生的尾實(shí)體。由于我們的 MIP 模塊可以生成子圖中節(jié)點(diǎn)的匹配分?jǐn)?shù) (式4),其中下標(biāo) 表示節(jié)點(diǎn)來(lái)自抽象子圖。此外,我們利用標(biāo)注的答案來(lái)獲取標(biāo)簽向量,表示為 。如果抽象節(jié)點(diǎn)中包含答案實(shí)體,則在 中將抽象節(jié)點(diǎn)設(shè)置為1。接下來(lái),我們最小化學(xué)習(xí)匹配得分向量和標(biāo)簽向量之間的KL散度,如下式所示:

通過(guò)RAS損失微調(diào)后,可以有效地學(xué)習(xí)檢索模型。我們通過(guò)它們的匹配得分選擇排名前 個(gè)節(jié)點(diǎn),利用它們來(lái)檢索給定問(wèn)題 的子圖。請(qǐng)注意,僅選擇與主題實(shí)體距離合理的節(jié)點(diǎn)進(jìn)入子圖,這可以確保推理階段使用的子圖 相對(duì)較小但與問(wèn)題相關(guān)。

在檢索子圖上微調(diào)推理 (RRS):在微調(diào)檢索模型后,我們繼續(xù)微調(diào)推理模型,學(xué)習(xí)參數(shù) 。通過(guò)微調(diào)后的檢索模型,我們可以獲得每個(gè)問(wèn)題 的較小子圖 。在推理階段,我們專注于執(zhí)行準(zhǔn)確的推理,以找到答案實(shí)體。因此,我們還原抽象節(jié)點(diǎn)中的原始節(jié)點(diǎn)及其原始關(guān)系。由于檢索和推理階段高度依賴,我們首先使用檢索模型的參數(shù)來(lái)初始化推理模型的參數(shù): 。然后,根據(jù)式4,我們采用類似的方法使用KL損失函數(shù)來(lái)使學(xué)習(xí)到的匹配得分 (表示為 ) 擬合標(biāo)簽向量 (表示為 ):

其中,下標(biāo) 表示節(jié)點(diǎn)來(lái)自檢索子圖。通過(guò)RRS損失的微調(diào)后,我們可以利用學(xué)習(xí)的推理模型選擇排名前個(gè)實(shí)體。

如圖1 (c)所示,整體的訓(xùn)練過(guò)程由以下三個(gè)步驟組成:(1) 與 共享參數(shù),(2) 使用問(wèn)題-關(guān)系匹配預(yù)訓(xùn)練 ,(2) 使用抽象子圖微調(diào) 以進(jìn)行檢索,(3) 使用子圖微調(diào) 以進(jìn)行推理,其中 使用 進(jìn)行初始化。

討論

f9d4124e-d4e9-11ed-bfe3-dac502259ad0.png

據(jù)我們所知,我們是KGQA領(lǐng)域首次提出使用統(tǒng)一模型在檢索和推理階段共享推理能力。在表格1中,我們總結(jié)了我們的方法和幾種流行的多跳知識(shí)庫(kù)問(wèn)答方法(包括 GraphfNet、PullNet、NSM 和 SR+NSM 之間的區(qū)別。我們可以看到,現(xiàn)有方法通常針對(duì)檢索和推理階段采用不同的模型,而我們的方法更為統(tǒng)一。統(tǒng)一帶來(lái)的一個(gè)主要優(yōu)點(diǎn)是,兩個(gè)階段之間的信息可以有效地共享和復(fù)用,即,我們使用學(xué)習(xí)的檢索模型來(lái)初始化推理模型。

三、實(shí)驗(yàn)結(jié)果

1、主實(shí)驗(yàn)

我們?cè)?個(gè)公開(kāi)的文檔檢索數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),分別是 WebQuestionsSP (WebQSP)、Complex WebQuestions 1.1 (CWQ)、和 MetaQA 數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果如下表所示,通過(guò)對(duì)比可以清晰地看出我們的方法的優(yōu)勢(shì)。例如,在難度較大的數(shù)據(jù)集 WebQSP 和 CWQ 上,我們的方法遠(yuǎn)遠(yuǎn)優(yōu)于現(xiàn)有的最先進(jìn)基線(例如,WebQSP 的 Hits@1 提高了8.1%,CWQ 的 Hits@1 提高了2.0%)。

f9e8e3ea-d4e9-11ed-bfe3-dac502259ad0.png

在我們的方法中,為了提高效率,我們固定了基于 PLM 的編碼器的參數(shù)。實(shí)際上,更新其參數(shù)可以進(jìn)一步提高模型性能。這樣的方法使研究人員在實(shí)際應(yīng)用中可以權(quán)衡效率和精度。因此,我們提出了兩種 UniKGQA 的變體來(lái)研究它:(1) 僅在編碼問(wèn)題時(shí)更新 PLM 編碼器的參數(shù),(2) 同時(shí)在編碼問(wèn)題和關(guān)系時(shí)更新 PLM 編碼器的參數(shù)。事實(shí)上,這兩種變體都可以提高我們的 UniKGQA 的性能。只在編碼問(wèn)題時(shí)更新 PLM 編碼器可以獲得與同時(shí)更新兩者相當(dāng)甚至更好的性能。可能的原因是在編碼問(wèn)題和關(guān)系時(shí)更新 PLM 編碼器可能會(huì)導(dǎo)致過(guò)度擬合下游任務(wù)。因此,僅在編碼問(wèn)題時(shí)更新PLM 編碼器是更有價(jià)值的,因?yàn)樗梢栽谙鄬?duì)較少的額外計(jì)算成本下實(shí)現(xiàn)更好的性能。

2、深入分析

fa2df962-d4e9-11ed-bfe3-dac502259ad0.png

檢索性能:我們從三個(gè)方面評(píng)估檢索性能:子圖大小、答案覆蓋率和最終 QA 性能。可以看到,在檢索出相同大小的子圖的情況下,UniKGQA 和 SR 的答案覆蓋率顯著高于 PPR 的。這證明了訓(xùn)練可學(xué)習(xí)的檢索模型的有效性和必要性。此外,盡管 UniKGQA 和 SR 的曲線非常相似,但我們的 UniKGQA 比 SR+NSM 可以實(shí)現(xiàn)更好的最終 QA 性能。原因是 UniKGQA 可以基于統(tǒng)一體系結(jié)構(gòu)將相關(guān)信息從檢索階段傳遞到推理階段,學(xué)習(xí)更有效的推理模型。這一發(fā)現(xiàn)可以通過(guò)將我們的 UniKGQA 與 UniKGQA+NSM 進(jìn)行比較來(lái)進(jìn)一步驗(yàn)證。

微調(diào)效率:我們比較了 UniKGQA 和較強(qiáng)基線模型 NSM 在相同檢索的子圖上進(jìn)行微調(diào)時(shí),性能隨迭代輪數(shù)的變化。如圖3右側(cè)展示。首先,我們可以看到,在微調(diào)之前(即迭代輪數(shù)為零時(shí)),我們的 UniKGQA 已經(jīng)達(dá)到了與 NSM 最佳結(jié)果相當(dāng)?shù)男阅?。這表明推理模型已經(jīng)成功利用了檢索模型習(xí)得的知識(shí),可以進(jìn)行一定的推理。迭代兩輪之后,我們的 UniKGQA 已經(jīng)達(dá)到接近收斂的性能。表明我們的模型可以實(shí)現(xiàn)高效的微調(diào)。

fa4e6e36-d4e9-11ed-bfe3-dac502259ad0.png

消融實(shí)驗(yàn):我們提出兩個(gè)重要的訓(xùn)練策略以提高性能:(1) 使用問(wèn)題-關(guān)系匹配進(jìn)行預(yù)訓(xùn)練,(2) 使用檢索模型的參數(shù)初始化推理模型。我們通過(guò)消融實(shí)驗(yàn)驗(yàn)證它們的有效性。我們提出了三種變體:(1) 去除預(yù)訓(xùn)練過(guò)程, (2) 去除使用檢索模型參數(shù)初始化,(3) 同時(shí)去除預(yù)訓(xùn)練和初始化過(guò)程。我們?cè)诒砀?中展示了消融研究的結(jié)果??梢钥吹剑羞@些變體的性能都低于完整的 UniKGQA,這表明這兩個(gè)訓(xùn)練策略對(duì)最終性能都很重要。此外,這種觀察還驗(yàn)證了我們的 UniKGQA 確實(shí)能夠轉(zhuǎn)移和重用習(xí)得的知識(shí)以提高最終性能。

四、總結(jié)

在這項(xiàng)工作中,我們提出了一種多跳知識(shí)圖譜問(wèn)答任務(wù)新的模型架構(gòu)。作為主要技術(shù)貢獻(xiàn),UniKGQA 引入了基于 PLMs 的統(tǒng)一模型架構(gòu),可同時(shí)適用于檢索階段與推理階段。為了應(yīng)對(duì)兩個(gè)階段的不同搜索空間規(guī)模,我們提出了檢索階段專用的抽象子圖的概念,它可以顯著減少需要搜索的節(jié)點(diǎn)數(shù)量。此外,我們針對(duì)統(tǒng)一模型架構(gòu),設(shè)計(jì)了一套高效的訓(xùn)練策略,包含預(yù)訓(xùn)練(即問(wèn)題-關(guān)系匹配)和微調(diào)(即面向檢索和推理的學(xué)習(xí))。得益于統(tǒng)一的模型架構(gòu),UniKGQA 可以有效增強(qiáng)兩個(gè)階段之間習(xí)得能力的共享和轉(zhuǎn)移。我們?cè)谌齻€(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,我們提出的統(tǒng)一模型優(yōu)于競(jìng)爭(zhēng)方法,尤其是在更具挑戰(zhàn)性的數(shù)據(jù)集(WebQSP 和 CWQ)上表現(xiàn)更好。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • PLM
    PLM
    +關(guān)注

    關(guān)注

    2

    文章

    91

    瀏覽量

    20781
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    487

    瀏覽量

    10201
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1197

    瀏覽量

    24538
  • 知識(shí)圖譜
    +關(guān)注

    關(guān)注

    2

    文章

    132

    瀏覽量

    7663

原文標(biāo)題:四、總結(jié)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    文詳解知識(shí)增強(qiáng)的語(yǔ)言預(yù)訓(xùn)練模型

    隨著預(yù)訓(xùn)練語(yǔ)言模型(PLMs)的不斷發(fā)展,各種NLP任務(wù)設(shè)置上都取得了不俗的性能。盡管PLMs可以從大量語(yǔ)料庫(kù)中學(xué)習(xí)定的知識(shí),但仍舊存在很
    的頭像 發(fā)表于 04-02 17:21 ?9377次閱讀

    【大語(yǔ)言模型:原理與工程實(shí)踐】探索《大語(yǔ)言模型原理與工程實(shí)踐》

    處理中預(yù)訓(xùn)練架構(gòu)Transformer,以及這些技術(shù)在現(xiàn)實(shí)世界中的如何應(yīng)用。通過(guò)具體案例的分析,作者展示語(yǔ)言
    發(fā)表于 04-30 15:35

    【大語(yǔ)言模型:原理與工程實(shí)踐】核心技術(shù)綜述

    的復(fù)雜模式和長(zhǎng)距離依賴關(guān)系。 預(yù)訓(xùn)練策略: 預(yù)訓(xùn)練是LLMs訓(xùn)練過(guò)程的第階段,
    發(fā)表于 05-05 10:56

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

    模型架構(gòu)奠定基礎(chǔ)。然后,引介些經(jīng)典的預(yù)訓(xùn)練模型,如BERT、GPT等。最后,解讀ChatGPT
    發(fā)表于 05-05 12:17

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型預(yù)訓(xùn)練

    語(yǔ)言模型的核心特點(diǎn)在于其龐大的參數(shù)量,這賦予模型強(qiáng)大的學(xué)習(xí)容量,使其無(wú)需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學(xué)習(xí)容量的增加,對(duì)
    發(fā)表于 05-07 17:10

    預(yù)訓(xùn)練語(yǔ)言模型設(shè)計(jì)的理論化認(rèn)識(shí)

    Language Model)統(tǒng)一個(gè)框架中,并且基于它們的優(yōu)勢(shì)和缺點(diǎn),取長(zhǎng)補(bǔ)短,提出了個(gè)新的預(yù)訓(xùn)練
    的頭像 發(fā)表于 11-02 15:09 ?2597次閱讀

    如何向大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型中融入知識(shí)?

    本文關(guān)注于向大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型(如RoBERTa、BERT等)中融入知識(shí)。
    的頭像 發(fā)表于 06-23 15:07 ?4038次閱讀
    如何向大規(guī)模<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>中融入知識(shí)?

    Multilingual多語(yǔ)言預(yù)訓(xùn)練語(yǔ)言模型的套路

    Facebook在Crosslingual language model pretraining(NIPS 2019)文中提出XLM預(yù)訓(xùn)練語(yǔ)言
    的頭像 發(fā)表于 05-05 15:23 ?2819次閱讀

    種基于亂序語(yǔ)言模型預(yù)訓(xùn)練模型-PERT

    由于亂序語(yǔ)言模型不使用[MASK]標(biāo)記,減輕預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)之間的gap,并由于預(yù)測(cè)空間大小為輸入序列長(zhǎng)度,使得計(jì)算效率高于掩碼
    的頭像 發(fā)表于 05-10 15:01 ?1422次閱讀

    利用視覺(jué)語(yǔ)言模型對(duì)檢測(cè)器進(jìn)行預(yù)訓(xùn)練

    預(yù)訓(xùn)練通常被用于自然語(yǔ)言處理以及計(jì)算機(jī)視覺(jué)領(lǐng)域,以增強(qiáng)主干網(wǎng)絡(luò)的特征提取能力,達(dá)到加速訓(xùn)練和提高模型泛化性能的目的。該方法亦可以用于場(chǎng)景文本
    的頭像 發(fā)表于 08-08 15:33 ?1256次閱讀

    CogBERT:腦認(rèn)知指導(dǎo)的預(yù)訓(xùn)練語(yǔ)言模型

    方面,從語(yǔ)言處理的角度來(lái)看,認(rèn)知神經(jīng)科學(xué)研究人類大腦中語(yǔ)言處理的生物和認(rèn)知過(guò)程。研究人員專門設(shè)計(jì)預(yù)
    的頭像 發(fā)表于 11-03 15:07 ?942次閱讀

    什么是預(yù)訓(xùn)練 AI 模型

    預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用,
    的頭像 發(fā)表于 04-04 01:45 ?1303次閱讀

    一套開(kāi)源的大型語(yǔ)言模型(LLM)—— StableLM

    對(duì)于任何沒(méi)有額外微調(diào)和強(qiáng)化學(xué)習(xí)的預(yù)訓(xùn)練大型語(yǔ)言模型來(lái)說(shuō),用戶得到的回應(yīng)質(zhì)量可能參差不齊,并且可能包括冒犯性的語(yǔ)言和觀點(diǎn)。這有望隨著規(guī)模、更好
    的頭像 發(fā)表于 04-24 10:07 ?2443次閱讀
    <b class='flag-5'>一套</b>開(kāi)源的大型<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>(LLM)—— StableLM

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的個(gè)重要概念,尤其是在自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(jué)(CV)
    的頭像 發(fā)表于 07-03 18:20 ?1432次閱讀

    語(yǔ)言模型預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語(yǔ)言模型預(yù)訓(xùn)練是這技術(shù)發(fā)展的關(guān)鍵步驟,它通過(guò)在海量無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行
    的頭像 發(fā)表于 07-11 10:11 ?249次閱讀