大模型與知識圖譜是知識表達的一體兩面,如何結合兩者是近期業(yè)界關注的焦點。來自英國愛丁堡大學等學者最新《大模型與知識圖譜》的簡述,討論了大模型和知識圖譜的互相促進的方式,值得關注!
大型語言模型(LLMs)已在知識表示領域——以及全球——引起軒然大波。這一轉折點標志著從明確的知識表示到對明確知識和參數知識雙方的混合表示的重新關注。在這篇立場論文中,我們將討論社區(qū)中關于LLMs(參數知識)和知識圖譜(明確知識)的一些常見爭論點,并推測這種重新關注帶來的機會、愿景以及相關的研究主題和挑戰(zhàn)。
大型語言模型與知識圖譜:機遇與挑戰(zhàn)
大型語言模型(LLMs)在知識表示(KR)和整個世界中引起了軒然大波,因為它們在廣泛的自然語言任務中展現出了人類級別的表現,包括一些需要人類知識的任務。在此之后,人們逐漸開始接受某些語言模型的參數中可能存在知識的可能性。LLMs的到來標志著知識計算的時代的開始,在這個時代中,KR內的推理概念擴大到基于各種知識表示的許多計算任務。
這對知識表示領域來說是一個巨大的步驟。長時間以來,人們關注的是明確的知識,例如嵌入在文本中的知識,有時也被稱為非結構化數據,以及以結構化形式存在的知識,例如在數據庫和知識圖譜(KGs)[123]中。從歷史上看,人們長時間使用文本將他們的知識從一代傳遞到另一代,直到大約20世紀60年代,研究者開始研究知識表示以更好地理解自然語言,并開發(fā)了早期系統(tǒng),例如MIT的ELIZA[180]。在21世紀初,知識表示和語義網社區(qū)合作標準化了廣泛使用的知識表示語言,例如RDF[121]和OWL[55],在網絡規(guī)模上,使用它們,大規(guī)模的知識庫被更廣泛地稱為KGs[123],由于它們有用的圖結構,實現了邏輯推理和基于圖的學習。與LLMs的到來相伴的這一轉折點,標志著從明確的知識表示向對明確知識和參數知識兩者的混合表示的重新關注的范式轉變。
作為明確知識表示的流行方法,KGs現在被廣泛研究用于與基于Transformer的LLMs結合,包括像BERT[39]和RoBERTa[104]這樣的預訓練掩碼語言模型(PLMs),以及更近期的生成性LLMs,如GPT系列[23]和LLaMA[165]。一些工作使用LLMs增強KGs,例如,知識提取、KG構建和精煉,而其他工作使用KGs增強LLMs,例如,訓練和提示學習,或知識增強。在本文中,考慮到LLMs用于KGs和KGs用于LLMs的兩個方向,我們提出了一個從明確知識表示到對明確知識和參數知識兩者的混合表示的重新關注的轉變的更好理解。
一個相關的調查論文[204]對使用LLMs進行KG構建和推理進行了全面的審查,而我們的工作為這一轉折點提供了更深入的視角,不僅考慮了關系性KGs,還考慮了使用本體論作為模式的KGs,以及其他維度的結構化知識,包括表格數據[183]和數值[122]。在LLMs和KGs的交叉點上的其他研究與我們論文中涵蓋的主題有輕微的重疊;例如,使用LLMs作為KGs的研究[5],使用KGs增強LLMs的研究[185],或者在三個與知識相關的任務上比較GPT-4、ChatGPT和SOTA微調方法——實體、關系和事件提取,鏈接預測和KG問題回答[204]??偟膩碚f,這些論文中沒有一個深入探討這一轉折點的具體應用的含義。為此,本文總結了社區(qū)內的常見爭議點,介紹了在KGs和LLMs集成的一系列主題上的最新技術,并進一步提出了機會和挑戰(zhàn)。
知識圖譜與大型語言模型
結合參數知識和明確知識的可用性所帶來的機會和愿景,本節(jié)我們將按照四個不同的主題對使用LLMs和KGs的最近發(fā)展進行分類、總結和展示。
1. LLMs 用于KGs:知識提取和規(guī)范化
KG的構建是一個復雜的任務,要求從包括結構化、半結構化和非結構化數據在內的廣泛來源收集和整合信息。傳統(tǒng)方法通常依賴于為處理每種數據類型而特別設計的模塊,并在內容多樣且結構異質時面臨困難。然而,LLMs 是在廣泛的信息來源上訓練的強大的NLP模型,使它們非常適合知識提取任務。本節(jié)介紹了使用LLMs從各種來源進行知識提取的工作。
實體解析與匹配
實體解析(也稱為實體匹配、實體鏈接或實體對齊)是將出現在多個異構數據集中并指向同一個實體的信息片段進行鏈接的過程[46, 50, 126]。過去的研究主要集中在為扁平結構化數據所代表的實體之間開發(fā)方法和相似性度量。然而,針對KGs的半結構化數據的實體解析是一個相對較新的主題,受到的關注明顯較少。
實體對齊的方法可以分為通用方法和基于嵌入的類別。通用方法,例如CG-MuAlign[203],使用圖神經網絡(GNNs)執(zhí)行多類型實體對齊,利用鄰近信息并泛化到未標記的類型,以及REA[129],通過結合對抗性訓練與GNNs來解決多語言實體對齊問題,以應對輸入的噪聲標記數據問題?;谇度氲膶嶓w對齊方法將圖實體之間的符號相似性減少到一個向量空間中,以消除圖組件的異質性并促進推理[156]。具體來說,總共有23種代表性的嵌入對齊方法在性能方面進行了交叉比較,但也顯示它們在標簽階段需要大量的監(jiān)督。
因此,在未來的研究調查中,非監(jiān)督方法和能夠處理大規(guī)模KGs的方法是非常受歡迎的。LLMs在KGs的實體解析和鏈接中有多種用途[7]。首先,LLMs可以幫助標記訓練數據,這通常是一個資源密集且耗時的步驟,阻礙了KGs的實體對齊性能。類似于[146]使用生成對抗網絡(GANs)來減少標記數據的努力,我們認為LLMs可以提供KGs的標記樣本并控制上述基于嵌入的方法的性能。
此外,LLMs可以幫助構建穩(wěn)固的實體匹配規(guī)則語料庫,只要在圖設置中定義了一個聲明性形式化的邏輯語言L。這種邏輯語言的訓練數據應作為輸入提供給LLMs,類似于在文本語料庫中可供消費的SQL語句。然而,需要進行提示工程以產生對于像DBpedia[9]和Wikidata[169]這樣的實際大規(guī)模KGs有意義的規(guī)則語料庫。
可以設想為這些實際的大規(guī)模KGs提供實體匹配規(guī)則日志,與這些KGs的查詢日志類似[18, 19]??傊?,實體對齊和匹配是完整知識推理的必要前處理步驟。將通用實體鏈接方法與基于嵌入的方法相結合,以及利用LLM驅動的規(guī)則和標記數據構造,都可以更好地整合LLMs與知識推理[66]。后者整合LLMs和知識推理也可以提高性能,從而使模型的輸出可解釋和可解釋,并填補符號和統(tǒng)計AI之間的差距。
知識從表格數據中的提取
從數據庫、網頁表格和CSV文件等表格數據中提取知識是構建KG的常見方式。對于已知語義(元信息)的表格,可以定義和使用啟發(fā)式規(guī)則將其數據轉化為KG事實。然而,現實世界的表格通常具有不明確的語義,重要的元信息(如表格名稱和列標題)未明確定義。與此同時,在可以提取預期的知識之前,通常需要檢索、探索、整合和策劃原始數據。
近年來,基于Transformer的LM已被研究用于處理表格,尤其是它們的文本內容。它們可以被應用于表格向量表示作為其他預測任務的基礎[168]。TURL [38] 是一個典型的表格表示學習方法,使用BERT [39],已應用于多個任務,如單元格填充、列類型注釋和關系提取。類似地,RPT [162] 使用BERT和GPT進行表格表示模型的預訓練。Starmie [47] 使用模板將列轉化為序列,并使用可聯(lián)合和不可聯(lián)合的列對作為樣本微調BERT,采用對比學習框架。
在所有表格處理任務中,語義表格注釋,該注釋將表格數據匹配到KG組件(例如,表格列到KG類,表格單元格到KG實體,列間關系到KG屬性)可以直接應用于提取知識,用于KG的構建和填充[103, 76]。已經有幾次嘗試使用LLMs進行這些任務。Doduo [155] 將表格序列化為一個令牌序列,并訓練BERT來預測列類型和列間關系。Korini等人[86]提示ChatGPT來注釋語義列類型。當任務特定的示例極少或不存在時,ChatGPT的性能與RoBERTa模型相似。
盡管已經注意到了利用LLMs進行表格數據處理和KG構建,但仍然有很大的研究空間,特別是面臨以下挑戰(zhàn):
將表格內容轉化為序列:表格或帶有其結構化上下文的表格元素需要被轉化為一個序列,然后才能輸入到LLMs中。對于不同的LLM利用場景,如微調LLMs、帶提示的LLM推斷以及LLM的指導調整,需要不同的轉換方法。
表示和利用非文本的表格數據:表格通常不僅包含長文本和短文本,還包含如數字和日期等其他類型的數據。還有很少的工作考慮這些數據。
提取表格知識:LLMs主要用于處理和理解表格,但很少應用于知識提取的最后步驟。已知OntoGPT[25]使用ChatGPT從文本中提取實例以填充本體,但對于表格沒有對應的工具。除了實例之外,提取關系事實更具挑戰(zhàn)性。
從文本中提取知識
從文本中提取知識通常涉及自動提取實體及其相關關系,傳統(tǒng)的流水線處理大量的句子和文檔。這個過程使原始文本轉化為可行動的知識,有助于各種應用,如信息檢索、推薦系統(tǒng)和KG構建。LLMs的語言理解能力已經增強了這一過程。例如,
命名實體識別 (NER) 和實體鏈接:如4.1.1節(jié)所述,涉及識別和分類文本中的命名實體(如人、組織和地點)并將其鏈接(更多內容參見4.2.1節(jié))到KGs。
關系提?。宏P注識別和分類實體之間的關系,利用LLMs的零射擊和少射擊的上下文學習技術[178, 93]。
事件提?。褐荚?a target="_blank">檢測和分類文本中提到的事件,包括其參與者和屬性[170, 194]。
語義角色標記 (SRL):涉及識別句子中實體所扮演的角色,如主語、賓語和謂語[148, 199]。
這些方法允許LLMs從文本中提取信息,無需在特定領域進行大量的明確培訓,從而提高其多功能性和適應性。此外,LLMs已經證明了在從英語之外的語言中提取知識的能力,包括低資源語言,為跨語言知識提取鋪平了道路,并使LLMs能夠在多種語言環(huán)境中使用[89]。
此外,對LLMs的提示引入了NLP領域的新范式和可能性。LLMs可以生成高質量的合成數據,然后可以用來微調較小的特定任務模型。這種方法,稱為合成數據生成,解決了有限的訓練數據可用性的挑戰(zhàn),并提高了模型的性能[77, 163]。此外,指導調整已經成為一種強大的技術,其中LLMs被訓練在由明確指令描述的數據集上,使得能夠更精確地控制和定制它們的行為以適應特定的任務[178, 174]。
還有,對于構建特定領域的KGs,風險更高,因此對生成的文本(由專家)進行審查是必要的。然而,這仍然是一個進步,因為人工注釋的成本低于人類文本生成。除了訓練和利用這些LLM所需的大量計算資源需求之外,還存在各種挑戰(zhàn),包括在第2節(jié)中提到的挑戰(zhàn)。更具體地說,以下未來的方向仍然是可能的:
從非常長的文檔中有效提?。寒斍暗腖LMs無法一次處理像小說這樣的非常長的文檔。在這方面,可以進一步改進建模長范圍依賴性和執(zhí)行語料級信息提取。
高覆蓋率信息提?。簬缀跛械奶崛×魉€都關注高精度。然而,高回報率被忽視或未被充分探索[152]。建立具有高精度和高回報率的知識提取器將是建立終身信息提取器的一個巨大飛躍。
4.2 LLMs 用于 KGs
知識圖譜構建我們強調了 LLMs 在改進知識圖譜構建中的重要作用,重點關注這個領域的當前趨勢、問題和未回答的問題。我們首先討論鏈接預測,這是根據現有的知識圖譜生成新事實的一種方法。接下來,我們考察歸納鏈接預測,一種預測未見關系的三元組的方法。我們的關注點隨后轉移到一種更為近期的方法,其中三元組直接從 LLM 的參數知識中提取出來。作為這個部分的結論,我們討論了基于 LLM 的知識圖譜構建方法的挑戰(zhàn)。這些挑戰(zhàn)涉及到長尾實體、數值以及這些方法的精確性問題。
4.3 LLMs 用于 KGs 本體模式構建
一個知識圖譜通常配備有一個本體模式(包括規(guī)則、約束和本體)以確保質量,使知識訪問更加容易,支持推理等。同時,一個獨立的本體,通常代表概念性知識有時帶有邏輯,也可以被視為一個知識圖譜。在這部分,我們介紹 LLMs 被應用于學習本體模式和管理本體的主題。
4.4 KGs 為 LLMs 提供支持:訓練與訪問
LLMs在 4.1 到 4.3 節(jié)中,我們討論了使用 LLMs 為 KGs 提供支持的三個不同方面。在本節(jié)中,我們將研究相反的方向,即使用 KGs 為 LLMs 提供支持。這里有幾個維度。首先,KGs 可以用作 LLMs 的訓練數據。其次,KGs 中的三元組可以用于構建提示。最后但同樣重要的是,KGs 可以用作檢索增強語言模型中的外部知識。
4.5 應用
將 KGs 和 LLMs 集成到統(tǒng)一的方法中具有巨大的潛力,因為它們的組合能夠相互增強并以有價值的方式互補。例如,KGs 提供非常準確和明確的知識,這對于某些應用(如醫(yī)療保健)至關重要,而 LLMs 由于缺乏事實知識而被批評導致幻覺和不準確的事實。其次,LLMs 缺乏可解釋性,相反,由于 KGs 具有符號推理能力,它們能夠生成可解釋的結果。另一方面,從非結構化文本構建 KGs 很困難,并且存在不完整性,因此,可以利用 LLMs 通過文本處理來解決這些挑戰(zhàn)。各種應用都采用了這種將 LLMs 與 KGs 結合的方法,如醫(yī)療助手,問題回答系統(tǒng)[188]或 ChatBots,以及可持續(xù)性等。
結論
近年來,大型語言模型(LLMs)的進展為知識圖譜(KG)研究標志了一個重要的轉折點。盡管如何結合它們的優(yōu)勢的重要問題仍然懸而未決,但這為未來的研究提供了令人興奮的機會。社區(qū)已經迅速調整其研究重點,新的論壇如 KBC-LM 工作坊 [79] 和 LM-KBC 挑戰(zhàn) [151] 已經出現,資源大量轉向知識提取、整合和使用的混合方法。我們提出以下建議:
不要因為范式的轉變而丟棄 KG:對于一系列可靠性或安全關鍵的應用,結構化知識仍然是不可或缺的,我們已經概述了 KGs 和 LLMs 如何相互促進的多種方式。KGs 是留下來的,不要僅僅因為時尚而拋棄它們。
殺掉你的寵兒:LLMs 已經大大推進了 KG 和本體構建管道中的許多任務,甚至使一些任務過時。對最為確立的管道組件進行嚴格的審查,并不斷地與基于 LLM 的最新技術進行比較。
保持好奇,保持批判:LLMs 無疑是過去幾年 AI 研究的最令人印象深刻的產物。盡管如此,公眾和研究文獻中都存在大量夸大的聲明和期望,人們應該保持適度的批判反思。特別是,對所謂的幻覺問題的根本解決方法尚未出現。
過去已經結束,讓我們開始新的旅程:由 LLMs 觸發(fā)的進展以前所未有的方式顛覆了這個領域,并使得進入這個領域有了重要的捷徑。在與知識計算相關的領域開始新的征程,現在是最好的時機。盡管目前的轉變方向廣泛開放,但隨著研究者繼續(xù)探索混合方法的潛力和挑戰(zhàn),我們可以期待在知識的表示和處理上看到新的突破,這將對從知識計算到 NLP、AI 乃至其他領域產生深遠的影響。
-
語言模型
+關注
關注
0文章
501瀏覽量
10236 -
自然語言
+關注
關注
1文章
285瀏覽量
13320 -
知識圖譜
+關注
關注
2文章
132瀏覽量
7683
原文標題:大型語言模型與知識圖譜:機遇與挑戰(zhàn)
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論