0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

深度剖析知識圖譜落地的基本原則與最佳實踐

WpOh_rgznai100 ? 來源:lq ? 2019-08-02 09:42 ? 次閱讀

此文內(nèi)容取自肖仰華教授在華為、CCF等場合所做報告,完整內(nèi)容見書籍《知識圖譜:概念與技術》的第15章《知識圖譜實踐》。

摘要:經(jīng)歷了大數(shù)據(jù)時代的洗禮,各行業(yè)積累了前所未有的海量數(shù)據(jù)。但是各行業(yè)的大數(shù)據(jù)猶如鎖在籠中的雄獅,威力難以釋放。知識圖譜為各領域提供了一種便捷的知識表達、積累與沉淀方式,為行業(yè)大數(shù)據(jù)的理解與洞察提供了豐富的背景知識。大數(shù)據(jù)驅動的行業(yè)智能化對知識圖譜這類背景知識提出了廣泛訴求。行業(yè)智能化勢必走上數(shù)據(jù)驅動與知識引領相融合的新型路徑。知識圖譜如何助力各行業(yè)智能化過程涌現(xiàn)出來大量的工程問題?

這些問題需要得到有效解決,需要得到深入理解。過去5-6年的落地實踐也為總結知識圖譜的最佳實踐奠定了基礎。知識圖譜落地過程中的基本原則與最佳實踐的總結已經(jīng)成為了各行業(yè)圖譜落地的迫在眉睫的任務。大量的知識圖譜落地項目走在錯誤的或者曲折的道路上。本報告將結合復旦大學知識工場實驗室十多個典型知識圖譜落地項目,系統(tǒng)論述面向行業(yè)智能化的知識圖譜落地過程中的基本原則與最佳實踐。

1. 概述

知識圖譜技術最終需要在應用與實踐中證明其價值。與知識圖譜實踐相關的問題包括知識圖譜系統(tǒng)、知識圖譜工程以及知識圖譜應用與產(chǎn)業(yè)。知識圖譜系統(tǒng)是一類以知識圖譜建設與應用為核心內(nèi)容的人機協(xié)作系統(tǒng)。知識圖譜系統(tǒng)的建設是知識圖譜應用的主要抓手。知識圖譜工程是以知識圖譜系統(tǒng)的建設與應用為基本內(nèi)容的工程學科,是眾多工程學科的重要分支之一。

隨著知識圖譜技術的應用深入,越來越多的行業(yè)和企業(yè)正在積極推進知識圖譜系統(tǒng)的建設。為了有效支撐知識圖譜的工程實踐,一些企業(yè)推出各類知識圖譜相關的咨詢服務、解決方案、服務平臺、系統(tǒng)軟件、數(shù)據(jù)服務等形態(tài)各異的產(chǎn)品與服務。供應方與需求方,學術界與產(chǎn)業(yè)界共同構成了知識圖譜的產(chǎn)業(yè)生態(tài)。

1.1 知識圖譜應用的推動力

當前,知識圖譜的應用與實踐有著鮮明的中國特色。首先,隨著我國人口紅利消失與人力成本增長,我國的實體企業(yè)有著迫切的智能化升級與轉型需求,對知識圖譜技術的應用提出了強烈需求。傳統(tǒng)實體企業(yè)需要進一步解放勞動力,進一步降低人力成本。將知識賦予機器,實現(xiàn)簡單知識工作(只需簡單知識即可完成的工作)自動化無疑是解決方案之一。

其次,我國有著豐富的應用場景和數(shù)據(jù)基礎,使得知識圖譜在各行業(yè)的大規(guī)模應用成為可能。我國的互聯(lián)網(wǎng)、電信、電商、社交、出行等各行業(yè)都積累了豐富的大數(shù)據(jù),各種面向消費者、企業(yè)、政府的應用模式齊全多樣,這些都為知識圖譜技術的規(guī)?;瘧锰峁┝烁缓B(yǎng)分的土壤。最后,中國一批頭部企業(yè)先行先試為知識圖譜在更大范圍的普及與應用起到了積極示范。我國的很多互聯(lián)網(wǎng)平臺以及IT企業(yè)已經(jīng)建成了數(shù)個世界級平臺,這些平臺積累豐富的知識圖譜應用經(jīng)驗,為知識圖譜在其他行業(yè)的普及與應用起到了良好的示范與帶動作用。

知識圖譜技術在當下中國的實踐呈現(xiàn)以下幾個典型特點。這些特點體現(xiàn)了當前的宏觀發(fā)展環(huán)境以及技術生態(tài)對于知識圖譜技術需求的迫切性。

(1)與行業(yè)智能化升級緊密結合。很多行業(yè)經(jīng)過數(shù)十年的信息化建設,基本上完成數(shù)據(jù)的采集與管理的使命,為各行業(yè)智能化升級與轉型奠定了良好的基礎。對于企業(yè)而言,增加收入、降低成本、提質提效、安全保障都是其業(yè)務核心訴求。知識圖譜技術的應用是進一步滿足這些核心訴求的手段之一。

在行業(yè)智能化的實現(xiàn)過程中,迫切需要將行業(yè)知識賦予機器并且讓機器具備一定程度的行業(yè)認知能力,從而讓機器代替行業(yè)從業(yè)人員從事簡單知識工作。一方面,知識積累與沉淀一直是行業(yè)追求的目標。另一方面,提質提效的壓力迫使企業(yè)積極探索認知智能在企業(yè)各工種中的應用。利用知識圖譜技術,沉淀行業(yè)知識、實現(xiàn)簡單知識工作自動化,是當下以及未來一段時間內(nèi)行業(yè)智能化的核心內(nèi)容。

與行業(yè)智能化的深度融合要求知識圖譜研究與落地從通用知識圖譜轉向了領域、行業(yè)知識圖譜,轉向企業(yè)知識圖譜。領域應用的樣本稀疏、場景多樣、知識表示復雜等問題對于知識圖譜技術均提出了巨大挑戰(zhàn)。

(2)與機器智腦的建設深度融合。隨著我國人工智能戰(zhàn)略的持續(xù)推進,作為人工智能的重要分支的機器人產(chǎn)業(yè)迎來了發(fā)展的黃金期。其中,各種服務機器人,包括客服機器人、陪伴機器人、問診機器人、導購機器人、理財機器人等已經(jīng)日益融入到人們的日常生活中。與工業(yè)機器人相比,服務機器人對機器的認知水平要求更高,而對動作能力要求相對較低。

因此,決定服務機器人服務效果的是大腦而非四肢。建設具有一定認知能力的機器智腦是服務機器人產(chǎn)業(yè)發(fā)展的至關重要環(huán)節(jié),而機器智腦的重要組成部分是知識庫。機器是否具有知識并且能夠利用知識形成認知能力進而解決問題,是服務機器人更好地造福人類社會的關鍵。以知識圖譜為代表的大數(shù)據(jù)知識工程為煉就機器智腦帶來了全新機遇。未來機器智腦的演進過程也將是知識圖譜等知識庫技術不斷賦能機器人以及各類硬件終端的過程。

與機器智腦建設的深度融合要求針對智能終端與智能機器開展相應的知識工程研究,要求從多模態(tài)(語音、圖像、視頻、傳感器等)、類人化(情感、美感、倫理、道德、價值觀等)等角度進一步拓展知識圖譜的表示,深化知識圖譜的應用。

(3)與數(shù)據(jù)治理以及大數(shù)據(jù)價值變現(xiàn)緊密結合。很多行業(yè)和企業(yè)都有大數(shù)據(jù),但是這些大數(shù)據(jù)非但沒有創(chuàng)造價值,反而成為了很多行業(yè)的負擔。阻礙大數(shù)據(jù)價值變現(xiàn)的根本原因在于缺少智能化的手段,具體而言是缺少一個能像人一樣能夠理解行業(yè)數(shù)據(jù)的知識引擎。行業(yè)從業(yè)人員具有相應的行業(yè)知識,才能理解行業(yè)數(shù)據(jù)進而開展行業(yè)工作。

類似地,把同樣的行業(yè)知識賦予機器,構建一個行業(yè)知識引擎,機器才可能提煉、萃取、關聯(lián)、整合數(shù)據(jù)(對應于傳統(tǒng)的數(shù)據(jù)治理),才可能代替人去理解、挖掘、分析、使用數(shù)據(jù)(對應于大數(shù)據(jù)的價值變現(xiàn)),可以代替行業(yè)從業(yè)人員挖掘數(shù)據(jù)中的價值,從而有力支撐大數(shù)據(jù)的價值變現(xiàn)。知識圖譜已經(jīng)成為知識引擎的核心,成為大數(shù)據(jù)價值釋放的關鍵技術之一。

與數(shù)據(jù)治理以及大數(shù)據(jù)價值變現(xiàn)的深度融合要求進一步發(fā)展從大數(shù)據(jù)的統(tǒng)計關聯(lián)篩選語義關聯(lián)的有效手段,需要進一步深化元知識的表示與應用技術(以有效指導數(shù)據(jù)融合與關聯(lián))。

1.2 知識圖譜應用與產(chǎn)業(yè)現(xiàn)狀

當前,知識圖譜應用仍然是以典型項目、典型場景的試點為主,由點及面的普及正蓄勢待發(fā)。當前知識圖譜的產(chǎn)業(yè)已經(jīng)初具形態(tài)。知識圖譜的產(chǎn)業(yè)形態(tài)分為三類典型形態(tài):數(shù)據(jù)與服務、產(chǎn)品與系統(tǒng)、咨詢與解決方案。

(1)數(shù)據(jù)與服務。知識圖譜應用的直接方式建設通用或領域知識圖譜并將知識圖譜中的數(shù)據(jù)對外提供服務。單純的圖譜數(shù)據(jù)服務能力較為有限,往往需要針對應用場景提供深度服務,特別是基于知識圖譜的認知服務。一些通用平臺包括IBM Watson、微軟認知服務、百度大腦等都在嘗試提供基于知識圖譜數(shù)據(jù)與認知服務。

除了通用知識圖譜之外,特定領域或者行業(yè)知識圖譜也對數(shù)據(jù)與認知服務有著強烈需求。在圖書情報、出版?zhèn)髅健?a target="_blank">招聘就業(yè)、知識產(chǎn)權等相關領域,缺乏頭部企業(yè),第三方平臺發(fā)展空間較大。并且這些領域數(shù)據(jù)相對公開、容易獲取,使得構建獨立的第三方服務平臺成為可能。

(2)產(chǎn)品與系統(tǒng)。知識圖譜的大規(guī)模應用與產(chǎn)業(yè)化是需要各類成熟的產(chǎn)品與軟件系統(tǒng)支撐的。比如很多行業(yè)圖譜的建設需要互聯(lián)網(wǎng)數(shù)據(jù)源的補充,這就需要大規(guī)模的分布式爬蟲系統(tǒng)。建好的大規(guī)模知識圖譜通常需要借助圖數(shù)據(jù)管理系統(tǒng)的管理。大量的企業(yè)或者團隊在從事相關系統(tǒng)的研發(fā)。目前涉及知識獲取的產(chǎn)品與系統(tǒng)仍然有很大的發(fā)展空間。知識獲取技術總體上仍在持續(xù)發(fā)展,技術尚未定型,為其固化相應的產(chǎn)品形態(tài)具有一定的難度。

(3)咨詢與解決方案。知識圖譜建設是個典型的系統(tǒng)工程,與建筑工程十分相似,都需要論證、設計、實施、監(jiān)理、驗收等各個環(huán)節(jié)。知識圖譜落地過程中最為重要的環(huán)節(jié)不是實現(xiàn),而是論證與設計,這就給專注于知識圖譜咨詢和解決方案設計與實施的企業(yè)提供了豐富的機會。

這一現(xiàn)狀的原因有以下幾點:第一、對于很多行業(yè)的頭部企業(yè)而言,企業(yè)知識資源建設是自身升級與轉型的命脈。命脈是不可能假手于他人,企業(yè)會牢牢掌握系統(tǒng)建設的主動權與控制權。而咨詢恰是一種企業(yè)具有完全控制的權利又能引入外部智力資源增強建設能力的方式。第二、知識圖譜技術發(fā)展到成熟階段尚需時日,因此,標品化的服務與產(chǎn)品仍然稀缺,在這樣的階段,咨詢與定制化的解決化方案自然更容易落地,更容易滿足用戶需求。

知識圖譜產(chǎn)業(yè)的三種形態(tài)已經(jīng)出現(xiàn)并迅速發(fā)展。知識圖譜技術在2018年8月首次進入了國際知名咨詢公司Gartner的技術成熟度曲線。如圖1所示,知識圖譜技術正處在技術成熟度曲線的上升階段。Gartner預期知識圖譜將成在未來5-10年內(nèi)逐步成熟。這種關注很大程度上是由知識圖譜的應用與產(chǎn)業(yè)的發(fā)展而推動的。伴隨著行業(yè)智能化轉型、簡單知識工作自動化、機器智腦的發(fā)展、感知智能產(chǎn)業(yè)的升級等一系列進程的推進,知識圖譜技術的應用與產(chǎn)業(yè)化將迎來一波熱潮。

圖1 知識圖譜技術成熟曲線

1.3 知識圖譜實踐的系統(tǒng)工程觀念

知識圖譜實踐是一種典型的大規(guī)模知識工程,是典型的系統(tǒng)工程,在實踐過程中應該堅持系統(tǒng)觀與工程觀。

(1)工程觀。所謂知識圖譜的工程觀,是指利用數(shù)學和科學原理提出解決實際問題的有效方案的觀念?;A的自然學科的認識世界為基本使命,而工程學科旨在改造世界。然而工程師們改造世界的過程本身就是通過實踐來認識世界的過程。因而工程與科學又是密切相關的。

特別是隨著人工智能的發(fā)展,我們有機會通過構建具有人類水平的智能機器這樣一種具體實踐去回答“我們從哪里來,又將去往何方”等一系列終極問題。具體到知識圖譜,作為一類大規(guī)模知識工程,其當下的重要使命在于解決各行業(yè)智能化升級轉型過程中涌現(xiàn)的一系列實際問題。能否解決這些問題,如何解決這些問題,是擺在知識工程研究者和實踐者面前迫切需要回答的問題。

工程觀勢必要求實踐者具備優(yōu)化問題的求解思路。工程中的大部分問題是受資源約束的最優(yōu)化問題。任何知識圖譜實踐所能投入的資源(人力、資金、數(shù)據(jù))總是有限的,然而實際問題的解決卻又是迫切的。因而,工程實踐往往需要利用這些有限資源提出最優(yōu)方案。明確優(yōu)化問題中的約束、建立合理的優(yōu)化目標、提出廉價的方案是解決優(yōu)化問題的關鍵。

例如在知識圖譜建設中,目標圖譜的規(guī)模、粒度、精度都是優(yōu)化目標需要考慮的因素,有多少人力(特別是專家)、有多少數(shù)據(jù)往往都是約束。過于宏大、不切實際的目標容易造成巨大困難。有文獻[1]指出,手動構建知識圖譜,每個三元組的成本大約在 2 到 6 美元左右,自動構建成本降低 15 到 250 倍,即便如此每個三元組仍需消耗 1 美分到 15 美分的成本。因此,在知識圖譜相關的工程實踐中需要注重優(yōu)化問題,注意實際約束。

知識圖譜的工程觀要強調(diào)實踐的重要性。知識工程提出之初就注重從實踐中總結知識工程的關鍵問題,并發(fā)展必要的理論以進一步指導工程實踐。工程實踐與理論研究是相輔相成的,不是對立的。質能轉換、航空動力學等等從理論到成熟的實踐經(jīng)歷了數(shù)十年的時間。

在人工智能的理論研究與工程實踐中,實踐絕不是從屬地位?!爸泻弦弧笔侵袊俗非蟮睦硐刖辰?,“知”往往走在“行”之前。但是人工智能的研究與實踐不同,“行”更多地走在“知”之前。當下技術的進步有加速發(fā)展的趨勢,但理論研究的速度仍然保持原有速度,已經(jīng)難以跟上技術發(fā)展的需求。技術的快速發(fā)展反過來要求,理論總結必須提速以適應技術發(fā)展的快速需要。

(2)系統(tǒng)觀。系統(tǒng)觀認為現(xiàn)實世界的大部分復雜系統(tǒng)都是由相互作用、相互依賴的若干組成部分結合而成的具有特定功能的有機整體。知識圖譜系統(tǒng)組件眾多、涉及要素多樣、人機協(xié)作復雜,是一類典型的復雜系統(tǒng)。明確知識圖譜系統(tǒng)的組成及其之間的相互關系是十分重要的。

相比較而言,知識圖譜的部分組件的實現(xiàn),比如實體識別或者關系抽取,其效果取決于一兩個關鍵模型。但是,知識圖譜作為系統(tǒng)的整體不是若干組件的簡單組合,而是復雜策略指引下的有機組合。比如,在當前NLP仍然不能有效完成抽取任務時,能否充分利用各類資源、能否有效利用已經(jīng)積累的業(yè)務知識、能否有效利用人力因素進行驗證或者標注,均對這一問題有著顯著影響。

作為一個復雜系統(tǒng),知識圖譜系統(tǒng)具有涌現(xiàn)性、交互性以及演化性等鮮明特征。系統(tǒng)的涌現(xiàn)性是指系統(tǒng)在整體上體現(xiàn)出其各組成簡單組合所不具備的特性,也就是1+1>2的特性。這一點對于如何在當前NLP技術不成熟的前提下實現(xiàn)知識工程成功落地具有積極意義。很多知識工程在某些場景下要求極高,比如智能醫(yī)療系統(tǒng),有著近乎100%準確率的要求。

雖然每個獨立的NLP模型都難以達到完美的要求,但是各種模型經(jīng)由各種策略組合在一起(比如人機協(xié)同策略)則有可能達到這一苛刻要求。知識圖譜系統(tǒng)與外部數(shù)據(jù)與應用之間存在著復雜的交互,是個動態(tài)開放的系統(tǒng)。隨著環(huán)境的變化,應用需求與數(shù)據(jù)都會發(fā)生變化,從而要求知識圖譜系統(tǒng)作出相應調(diào)整。知識圖譜系統(tǒng)的動態(tài)與演化仍然是個開放問題。

知識圖譜作為大規(guī)模知識工程,與傳統(tǒng)知識工程也存在著本質差別。當下的大數(shù)據(jù)知識工程是以知識的規(guī)?;硎九c應用為其核心標志的。這決定了大數(shù)據(jù)知識工程是以大規(guī)模自動化知識獲取為其根本立足點的。自動化知識獲取勢必要求降低對于專家的依賴。受限于當前人工智能總體發(fā)展水平,高度自動化、少量人干預勢必要以降低知識的描述精度為代價的。而知識描述能力的降低,又進一步削弱了相應的推理能力。大規(guī)模的互聯(lián)網(wǎng)應用催生了知識圖譜這樣的知識表示。

知識圖譜通過二元語義關聯(lián)作為其知識表示的核心,具有簡單普適以及適合從數(shù)據(jù)中高度自動化獲取等優(yōu)點,但也有表達能力較弱的缺點。目前,得以成功應用的知識圖譜推理往往都是基于上下位關系的簡單推理。但是對于傳統(tǒng)知識工程,推理引擎、解釋構件等等都是專家系統(tǒng)的重要組成部分[2]。如何兼具規(guī)模與效用(知識表示與知識推理的能力)仍然是知識圖譜有待進一步深入的研究問題。

1.4 知識圖譜助力行業(yè)智能化的演進路徑

如前文所述,知識圖譜日益承擔起助力行業(yè)智能化的使命。探索基于知識圖譜的行業(yè)智能化演進路徑因而十分關鍵。經(jīng)過多年實踐,這一路徑日漸清晰,呈現(xiàn)出知識資源建設與知識應用迭代式發(fā)展模式,如圖2所示。

在每一輪迭代周期,優(yōu)先選擇預期效果較好的應用場景,建設以知識圖譜為核心的知識資源,并開展相應的知識應用。再根據(jù)來自內(nèi)外部用戶的反饋,完善相應的應用與知識資源建設。當特定應用初現(xiàn)成效之后,再從有限的應用逐步拓展到更多的應用場景,建設更多的知識資源。整個過程持續(xù)迭代下去,直至完成行業(yè)或者企業(yè)全面的智能化。

采取由點及面的迭代式螺旋發(fā)展模式的根本原因有幾點。首先、完整的知識資源建設是一個十分艱巨的任務。知識資源建設任重道遠,很難一蹴而就。任何一個普通人所掌握的知識都可以說是無邊無界的。當前所構建的知識庫離機器達到普通人認知世界所需要的知識水平還十分遙遠。

知識資源建設必定是一個持續(xù)完善的過程,很難畢其功于一役。所以,應當謹慎選擇應用痛點,構建滿足應用場景需要的相應知識資源。知識資源建設的基本原則是適度?!斑m”是指對于特定應用場景的適配,“度”是指合理把控知識的邊界與體量。其次,行業(yè)與企業(yè)的發(fā)展環(huán)境變化迅速,一成不變的知識庫是難以適應快速變化的外部環(huán)境的。

圖2知識圖譜助力行業(yè)智能化的演進路徑

2.知識圖譜系統(tǒng)

知識圖譜技術的落地與實踐以知識圖譜系統(tǒng)的建設、實施與運營為主要內(nèi)容。知識圖譜系統(tǒng)是一類以知識圖譜建設與應用為核心內(nèi)容的人機協(xié)作系統(tǒng)。本節(jié)對知識圖譜系統(tǒng)的外部環(huán)境、系統(tǒng)要素以及基本架構展開介紹。

2.1 知識圖譜系統(tǒng)的外部環(huán)境

作為一類大規(guī)模復雜系統(tǒng),知識圖譜系統(tǒng)是作為企業(yè)更為龐大的信息系統(tǒng)或智能系統(tǒng)的一部分。與傳統(tǒng)的信息系統(tǒng)相比較,知識圖譜構建與應用是知識圖譜系統(tǒng)的基本標志。在當前企業(yè)信息化與智能化建設過程中,知識圖譜系統(tǒng)對于其他信息系統(tǒng),起到了助推與賦能的作用,而不是代替。各類管理信息系統(tǒng)(比如企業(yè)的財務、人事管理信息系統(tǒng))以及智能信息系統(tǒng)(比如智能門禁系統(tǒng)、商務智能系統(tǒng))有其自身存在的不可代替的價值。

沒有這些系統(tǒng)積累的數(shù)據(jù)與業(yè)務知識,知識圖譜系統(tǒng)是建設難以成功。知識圖譜系統(tǒng)給其他信息系統(tǒng)帶來認知能力,這種能力體現(xiàn)為一系列具體的認知服務。知識圖譜系統(tǒng)賦能其他信息系統(tǒng)這種關系決定了知識圖譜建設不是“大破大立”式的另起爐灶與重新建設,而是“和風細雨”式的柔性改造與能力升級。知識圖譜與企業(yè)其他信息系統(tǒng)之間的關系如圖3所示。

圖3知識圖譜系統(tǒng)與其他業(yè)務系統(tǒng)之間的關系

隨著知識圖譜在領域與企業(yè)應用的普及,知識圖譜日益占據(jù)向上支撐應用、向下統(tǒng)攝數(shù)據(jù)的核心地位。如圖4所示,在一個典型的企業(yè)知識圖譜系統(tǒng)中,知識圖譜與數(shù)據(jù)之間的關系是雙向的。一方面各業(yè)務系統(tǒng)的數(shù)據(jù)是知識圖譜構建的知識來源。另一方面,知識圖譜中的關聯(lián)關系也為各業(yè)務數(shù)據(jù)的關聯(lián)與融合提供了支撐,使得自主普適的數(shù)據(jù)關聯(lián)成為可能,例如ID與身份證之間的同義關系可以指導相應字段的映射。

知識圖譜系統(tǒng)與應用之間的關系也是雙向的。一方面知識圖譜系統(tǒng)的各類認知服務支撐企業(yè)的各種典型應用的智能化升級。另一方面,各類應用為知識圖譜系統(tǒng)提供反饋。這里的反饋包含兩個主要內(nèi)容,一是對認知服務能力的效果的反饋,二是對于知識圖譜中的知識質量的反饋。在很多大型企業(yè)中,由于業(yè)務多元、服務多樣,對于技術與服務的平臺化提出了訴求。越來越多的技術中臺與業(yè)務中臺的建設被提上了議事日程。隨著智能化技術的推進,中臺的智能化已經(jīng)成為鮮明趨勢。知識圖譜向上支撐應用、向下統(tǒng)攝數(shù)據(jù)的這一核心地位,決定了知識圖譜系統(tǒng)將成為未來智能化中臺的核心引擎。

圖4 知識圖譜系統(tǒng)向上支撐應用、向下統(tǒng)攝數(shù)據(jù)的核心地位

2.2 知識圖譜系統(tǒng)關鍵要素

知識圖譜系統(tǒng)的核心要素包括人、算法與數(shù)據(jù)。三者相互影響、密不可分,共同構成了知識圖譜系統(tǒng)的堅實基礎。算法需要人定義特征、選擇模型;算法需要標注數(shù)據(jù);數(shù)據(jù)來自人的活動,來自人的標注;算法的結果支撐人的行為與決策。

圖5 知識圖譜系統(tǒng)的三個要素

這里的人是指知識圖譜系統(tǒng)的各類人類角色。人是知識圖譜系統(tǒng)的發(fā)起者、設計者、實施者與評價者,是知識圖譜系統(tǒng)的核心。知識圖譜中的人員涉及眾多角色,按照知識圖譜系統(tǒng)生命周期的三個主要階段可以分為幾類角色。

(1)在分析與論證階段,需要領域專家與知識圖譜系統(tǒng)工程師共同開展需求分析,論述知識圖譜系統(tǒng)建設的必要性與可行性。必要性從應用需求的迫切性與業(yè)務價值等角度進行評判??尚行詮臄?shù)據(jù)資源稟賦、應用要求以及知識表示的復雜程度等角度來評估,并進一步合理規(guī)劃知識圖譜系統(tǒng)建設所需要的數(shù)據(jù)資源、人員投入以及成本投入等等。(2)在設計與實施階段,需要各類工程師完成數(shù)據(jù)治理、知識加工、算法設計以及樣本標注等各環(huán)節(jié)的任務。(3)在運營與評價階段,需要運維工程師對于知識圖譜系統(tǒng)進行長期運維,需要用戶對系統(tǒng)實施效果加以評價。

圖6 知識圖譜系統(tǒng)的人員角色

這里的數(shù)據(jù)是特指作為知識圖譜知識來源的數(shù)據(jù)。數(shù)據(jù)是符號化的記錄,數(shù)據(jù)經(jīng)過知識加工而成為知識,知識是數(shù)據(jù)的結晶。知識圖譜作為的大數(shù)據(jù)知識工程代表,能否實現(xiàn)自動化知識獲取是關鍵。而自動化知識獲取的前提是數(shù)據(jù)。

知識圖譜系統(tǒng)所使用的數(shù)據(jù)類型眾多,可以是事實數(shù)據(jù)、也可以是元數(shù)據(jù)(關于數(shù)據(jù)的數(shù)據(jù));可以按照模態(tài)分為關系數(shù)據(jù)、文本數(shù)據(jù)、多媒體數(shù)據(jù);也按照業(yè)務類型數(shù)據(jù)分為人事、財務、物料等各類數(shù)據(jù);還可以按照來源分為內(nèi)部數(shù)據(jù)與外部數(shù)據(jù)。外部數(shù)據(jù)可以分為百科數(shù)據(jù)、Web數(shù)據(jù)、社交媒體、新聞媒體數(shù)據(jù)、企業(yè)內(nèi)部業(yè)務數(shù)據(jù)等等;從業(yè)務知識的來源角度可以分為領域本體、敘詞表、領域百科、企業(yè)社區(qū)等數(shù)據(jù)。

大數(shù)據(jù)的一個基本特點在于其多樣性(Variety)。知識圖譜的來源同樣是多樣的,這對大規(guī)模知識加工提出可巨大挑戰(zhàn)。大規(guī)模知識工程需要應對來源不同、模式異構的數(shù)據(jù)自動加工整理成為知識的巨大復雜性。面向不同類型、不同來源的數(shù)據(jù),知識獲取、知識驗證等算法都需要定制。因此,大規(guī)模自動化知識獲取在數(shù)據(jù)處理層面就面臨著的巨大挑戰(zhàn)。

這里的算法是對于知識圖譜系統(tǒng)整個生命周期中涉及的自動化計算過程、模型、策略的總稱。知識圖譜構建、管理與應用等各個環(huán)節(jié)均涉及大量算法。知識構建環(huán)節(jié)包括知識的獲取模型、知識的融合策略、知識的驗證機制以及知識的評估方法。知識管理環(huán)節(jié),涉及知識圖譜的存儲模型、組織方法、索引方式、查詢模型、檢索方法等等。知識應用環(huán)節(jié),涉及基于知識圖譜的語言理解模型、語義搜索模型、智能推薦模型、自然語言問答模型、面向知識圖譜的推理機制與解釋方法等等。

2.3 知識圖譜系統(tǒng)的典型架構

知識圖譜系統(tǒng)接受外部數(shù)據(jù)作為輸入,歷經(jīng)數(shù)據(jù)處理、知識加工、知識管理和認知服務,最終為各種場景下的應用提供認知服務能力。其基本過程如圖7所示。數(shù)據(jù)處理層接受原始數(shù)據(jù)作為輸入,經(jīng)過數(shù)據(jù)處理形成高質量的數(shù)據(jù)。高質量的數(shù)據(jù)進入知識加工層,經(jīng)過各種知識加工工序生成高質量的知識圖譜。大規(guī)模高質量的知識圖譜是知識管理層的主要管理對象。知識管理層提供知識圖譜的存儲、索引與檢索能力。這些基本的知識訪問能力進一步支撐基于知識圖譜的認知服務實現(xiàn)。

圖7 知識圖譜系統(tǒng)的主要流程

(1)數(shù)據(jù)處理層

如圖8所示,數(shù)據(jù)處理層主要包括數(shù)據(jù)甄別、數(shù)據(jù)清洗、數(shù)據(jù)轉換和數(shù)據(jù)融合等步驟。數(shù)據(jù)甄別旨在明確建立領域知識圖譜的數(shù)據(jù)來源??赡軄碜曰ヂ?lián)網(wǎng)上的領域百科爬取,可能來自通用百科圖譜的導出,可能來自內(nèi)部業(yè)務數(shù)據(jù)的轉換,也可能來自外部業(yè)務系統(tǒng)的導入。應該盡量選擇結構化程度相對較高、質量較好的數(shù)據(jù)源,以盡可能降低知識獲取代價。

不同來源有著不同的質量,需要不同的數(shù)據(jù)加工方式。數(shù)據(jù)清洗、數(shù)據(jù)轉換與數(shù)據(jù)融合等步驟與傳統(tǒng)構建數(shù)據(jù)倉庫所需要的數(shù)據(jù)處理相類似。數(shù)據(jù)清洗是對數(shù)據(jù)中的噪音,特別是來自互聯(lián)網(wǎng)的錯誤、虛假等信息進行清洗,對表示不規(guī)范的數(shù)據(jù)進行統(tǒng)一與規(guī)范化。數(shù)據(jù)轉換將不同形式、不同格式的數(shù)據(jù)轉換成統(tǒng)一的表達形式。數(shù)據(jù)融合是針對不同來源的數(shù)據(jù)在數(shù)據(jù)層面進行融合。這里的數(shù)據(jù)融合與后續(xù)的知識融合有相似之處,也有不同之處。后續(xù)的知識融合是在識別了實體、屬性等知識要素之后完成的。而此處的數(shù)據(jù)融合是字段、元組等層次的融合,數(shù)據(jù)或信息還未匯聚到實體上。

圖8 數(shù)據(jù)處理層的主要流程

(2)知識加工層

知識加工層是整個知識圖譜系統(tǒng)的核心。它接受數(shù)據(jù)處理層形成的高質量數(shù)據(jù)作為輸入,輸出高質量的知識圖譜。如圖9所示,知識加工的核心有三步:知識表示+知識獲取+知識驗證。知識表示旨在明確應用所需的知識表示形式。知識獲取在相應的知識表示框架下獲取相應的知識實例。知識驗證對獲取的知識質量展開驗證。當存在多個數(shù)據(jù)來源時,往往還需要知識融合針對不同來源的數(shù)據(jù)所獲取的知識進行融合。質量提升可以作為單獨的環(huán)節(jié),也可以融于知識獲取的具體實現(xiàn)中。因此,知識融合與質量提升都是可選的模塊。

圖9給出了知識加工在領域與企業(yè)應用中的具體步驟。在領域知識圖譜應用中,知識表示體現(xiàn)為模式設計,知識獲取通常包含詞匯挖掘、實體發(fā)現(xiàn)、關系發(fā)現(xiàn)等三個主要內(nèi)容。整個流程中的關鍵模塊分別介紹如下:

1、模式設計。這一步與傳統(tǒng)的本體設計極為相似?;灸繕耸前颜J知領域的基本框架賦予機器。內(nèi)容包括指定領域的基本概念,以及概念之間subclassof關系(比如足球領域需要建立“足球運動員”是“運動員”的子類);明確領域的基本屬性;明確屬性的適用概念;明確屬性值的類別或者范圍。比如“效力球隊”這個屬性一般是定義在足球運動員這個概念上,其合理取值是一個球隊。

此外,領域還需定義約束或規(guī)則,比如部分屬性具有單值約束(比如每個實體“出生日期”的取值單一),還有些屬性對是互逆的(比如球隊的“隸屬球員”屬性與球員的“效力球隊”互逆)。這些元數(shù)據(jù)對于消除知識庫不一致、提升知識庫質量具有重要意義。

2、詞匯挖掘。人們從事某個行業(yè)的知識的學習,都是從該行業(yè)的基本詞匯開始的。在傳統(tǒng)圖書情報學領域,領域知識的積累往往是從敘詞表的構建開始的。敘詞表里涵蓋的大都是領域的主題詞,及這些詞匯之間的基本語義關聯(lián)。這一步需要識別領域的高質量詞匯、同義詞、縮寫詞,以及領域的常見情感詞。比如在政治領域,需要知道特朗普又被稱為“川普”,其英文簡稱為Trump。

3、實體發(fā)現(xiàn)。需要指出的是領域詞匯只是識別出領域中的重要短語和詞匯,但是這些短語未必是一個領域實體。從領域文本識別某個領域常見實體是理解領域文本和數(shù)據(jù)的關鍵一步。在實體識別后,還需對實體進行歸類。能否把實體歸到相應的類別(或者說將某個實體與領域類別或概念進行關聯(lián)),是實體歸類的基本目標,是理解實體的關鍵步驟。比如將特朗普歸類到政治人物、美國總統(tǒng)等類別,對于理解特朗普的含義具有重要意義。

4、關系發(fā)現(xiàn)。關系發(fā)現(xiàn)或者知識庫中的關系實例填充,是整個領域知識圖譜構建的重要步驟。關系發(fā)現(xiàn)根據(jù)不同的問題模型又可以分為關系分類、關系抽取和開放關系抽取等不同變種。關系分類旨在將給定的實體對分類到某個已知關系;關系抽取旨在從文本中抽取某個實體對的具體關系;開放關系抽?。∣penIE)從文本中抽取出實體對之間的關系描述。也可以綜合使用這幾種模型與方法,比如根據(jù)開放關系抽取得到的關系描述將實體對分類到知識庫中的已知關系。

5、知識融合。因為知識抽取來源多樣,不同的來源得到的知識不盡相同,這就對知識融合提出了需求。知識融合需要完成實體對齊、屬性融合、值規(guī)范化等步驟。實體對齊是識別不同來源的同一實體。屬性融合是識別同一屬性的不同描述。不同來源的數(shù)據(jù)值通常有不同的格式、不同的單位或者不同的描述形式。比如日期有數(shù)十種表達方式,這些需要規(guī)范化到統(tǒng)一格式。

6、質量提升。知識圖譜的質量是構建的核心問題。作為大規(guī)模知識表示,數(shù)據(jù)驅動的構建方式是當前知識圖譜的基本特點。語料的偏置(bias)以及自動化方法的錯誤勢必導致知識圖譜的質量問題:缺漏、錯誤、陳舊。因此需要對知識圖譜進行補全、糾錯和更新。質量提升對于大規(guī)模知識圖譜的建設是不可或缺的。

7、知識驗證。知識驗證是對知識圖譜的質量最后把關。仍然需要由人來完成最終的驗證。對于數(shù)以億計的大規(guī)模圖譜,全量驗證代價極大,通常通過抽樣完成驗證。也可以通過眾包方式將驗證任務分發(fā)給眾包工人由眾包工人完成驗證。在人工驗證環(huán)節(jié),待驗證知識的組織(比如分組、排序等方式)對驗證效率有著極大的影響,往往需要予以充分考慮。總體而言,知識驗證還有待從心理學、人機交互等多學科角度深入研究這一問題。

經(jīng)歷了上述步驟之后得到一個初步的領域知識圖譜。在實際應用中會得到不少反饋,這些反饋作為輸入進一步指導上述流程的完善,從而形成閉環(huán)。此外,除了上述自動化構建的閉環(huán)流程,還應充分考慮人工的干預。人工補充很多時候是行之有效的方法。比如一旦發(fā)現(xiàn)部分知識缺漏或陳舊,可以通過特定的知識編輯工具實現(xiàn)知識的添加、刪除和修改。也可以利用眾包手段將很多知識獲取任務分發(fā)下去。

圖9 知識加工層的的主要流程與關鍵模塊

(3)認知服務層

認知服務層是基于知識圖譜提供認知能力,包括語言理解和認知服務兩類基本能力以及推理引擎這一核心模塊,其典型架構如圖15.10所示。在語言理解層次,提供從自然語言到知識圖譜中的知識要素的映射,包括實體理解(實體鏈接)、概念理解(概念識別)、屬性理解、主題理解(主題識別)等。在有些應用中需要將自然語言映射到事件描述框架,因此還需要開展框架映射。

基于語言理解的基本能力,形成認知服務,包括語義搜索、智能推薦、問答交互以及解釋生成。這些認知服務都是基于知識圖譜所形成的。比如知識圖譜中的實體與概念可以幫助識別搜索中的實體或概念,從而有助于搜索的意圖識別。

在概念圖譜支撐下,可以實現(xiàn)基于上下位關系的推薦,比如搜索iPhone X,通過其上位詞高端手機推薦華為P20等。問答交互主要實現(xiàn)基于知識圖譜的問答。其中,問題理解、屬性匹配、會話引導與答案生成都可以利用知識圖譜的知識。隨著可解釋需求日益增多,為機器決策生成解釋日益重要。比如從知識圖譜中找到關聯(lián)路徑解釋實體對之間的關系(對應路徑發(fā)現(xiàn));為一個待解釋問題匹配相應的知識圖譜子圖等等(對應解釋匹配)。

圖10 認知服務層的主要架構

此外,在整個認知服務的實現(xiàn)過程中,推理引擎的實現(xiàn)也是十分重要的,推理某種意義上是符號知識存在的最為獨特的價值。知識圖譜上推理引擎的實現(xiàn)可以彌補知識的缺失,提升系統(tǒng)的智能程度。

知識圖譜上的推理有幾種主要的實現(xiàn)方式。第一、另行定義規(guī)則,以知識圖譜作為基本事實,開展推理。比如通過定義“父親的父親是爺爺”這樣的規(guī)則,就可以從“A的父親是B,B的父親是C”,推理出“C是A的爺爺”。第二、基于知識圖譜的分布式推理。隨著深度學習的流行,基于知識圖譜的向量表示成為知識圖譜中實體與關系重要表示方式。給定實體h與t的向量表示(比如h,t),如果向量h,t的距離足夠相近,則推斷h與t語義相近。第三、基于知識圖譜上的顯式推理。這種推理方式將知識圖譜建模為異構信息網(wǎng)絡,當兩個實體h與t在知識圖譜之間存在多條可達路徑,且路徑上的語義關聯(lián)強度足夠大,則推斷h與t語義相近。

顯然基于圖模型的顯式推理可解釋。事實上不難利用顯式推理所找到的路徑作為特征,訓練學習知識圖譜的向量表示。在實際的應用中,往往是多種推理機制并存,最后通過特定協(xié)同機制完成最終推理。比如往往先用分布式推理進行粗篩選,再利用顯式推理和基于規(guī)則的推理生成可解釋結果,并將最終推理結果呈現(xiàn)給終端用戶。

(4)知識管理層

知識管理層旨在實現(xiàn)知識圖譜數(shù)據(jù)的有效管理和高效訪問,其主要模塊如圖11所示。知識圖譜的管理涉及知識圖譜的建模、存儲、索引和查詢。在建模部分明確知識圖譜的數(shù)據(jù)結構。存儲部分完成知識圖譜在磁盤或者分布式環(huán)境下的存儲與組織方式。為了加速大規(guī)模知識圖譜上的查詢通常需要建立相應的索引結構,包括基于子結構的索引和關鍵字索引。最終基于這些索引方式實現(xiàn)各類查詢,包括特定子圖結構的查詢(比如路徑、社區(qū)、一般子圖等等)和關鍵字查詢。

圖11 知識管理層的主流模塊

3.知識圖譜工程

知識圖譜系統(tǒng)的建設是個系統(tǒng)工程,需要謹慎論證、詳盡規(guī)劃、有序推進、持續(xù)運營以及全面保障,這些都必須付諸工程實踐才能實現(xiàn)。知識圖譜工程是以知識圖譜系統(tǒng)的建設為核心內(nèi)容的一類工程實踐。本章首先介紹知識圖譜工程開展的基本原則,再介紹知識圖譜工程的過程模型、可行性分析以及實踐建議。

3.1 基本原則

知識圖譜工程實踐過程中呈現(xiàn)出一些普適的基本原則。堅持這些基本原則是保障知識圖譜工程順利實施的前提。

(1)合理定位。為知識圖譜項目設定合理的定位目標十分重要。期望過高,或者期望明顯高于當前技術水平會帶來不良后果。我們首先必須心懷敬畏。人類的智能是通過數(shù)百萬年進化而成的。即便當前技術進步日新月異,要在有限的數(shù)十年內(nèi)讓機器完全達到人類的認知水平仍然是個足夠偉大的目標。任何一個普通人在知識方面所具有的智能,都是當前機器所無法企及的。

以當前的技術水平,代替專家助理的工作是個合適的目標,代替領域專家的工作仍然十分困難。專家的很多知識是隱性的,難以言明的,難以外化的。專家之所以為專家,是需要經(jīng)年累月的學習與訓練。專家所積累的不單單是簡單的關聯(lián)事實,更涉及思維方式、場景適配、異常處理等知識。

這里涉及大量的元知識(meta-knowledge,也就是有關知識的知識)、涉及大量難以有效表示的知識。這些都是當前機器難以代替的。而專家助理的工作則相對簡單,是規(guī)則性的簡單知識工作,比如查找文件、整理文檔、收發(fā)郵件等等,普通人只需要具備簡單的詞匯知識與基本事實即可勝任,是有可能率先在實際應用場景取得成效的。

(2)應用牽引。應用牽引的發(fā)展思路是與平臺支撐的思路相對而言的。前者從應用出發(fā),明確技術需求。后者從技術能力與平臺出發(fā)去適配應用。在互聯(lián)網(wǎng)飛速發(fā)展的時代,平臺化思維成就了一批優(yōu)秀的企業(yè)。平臺型模式一般較為簡單,因而可以規(guī)模化。

以淘寶這類B2C平臺為例,店家與消費以及平臺之間的關系明確,業(yè)務模式簡單且具有同質化,這就為技術與業(yè)務的平臺化提供了可能。但是當前人工智能的發(fā)展多以場景化應用為主。基于知識圖譜的認知智能還沒發(fā)展到普適、通用智能的階段。不同應用,不同場景所需要的知識表示不同、知識獲取手段不同、數(shù)據(jù)資源稟賦不同,這都決定了知識圖譜技術平臺化發(fā)展的異常艱難。

(3)循序漸進。一顆蘋果樹上的蘋果不可能同時成熟。此時,最簡單的策略就是先摘成熟的果子,坐等其他蘋果自然成熟再行采摘。同樣,知識圖譜技術體系復雜多樣,包括知識表示、知識抽取、知識融合、知識推理、知識存儲和知識檢索等。每類關鍵技術的成熟度不同,有的已進入實用化階段,有的仍處于學術研究階段。

一個產(chǎn)業(yè)的發(fā)展歷程通常呈現(xiàn)出是部分技術先成熟再逐步帶動相關技術發(fā)展的特點。整個產(chǎn)業(yè)技術的成熟是需要經(jīng)過漫長的發(fā)展周期的。企圖速戰(zhàn)速決、畢其功于一役是不現(xiàn)實的。知識圖譜各項技術成熟程度不均衡是當前知識圖譜產(chǎn)業(yè)實踐的基本情形。大部分技術仍然停留在只能在特定測試集上取得一定效果,還難以在廣泛而多樣數(shù)據(jù)上取得穩(wěn)定效果。具有較高產(chǎn)業(yè)成熟度的技術還不多。

(4)先簡后難。在知識圖譜的整個技術棧中,仍然存在一些瓶頸性難題,比如從文本中的知識獲取仍然面臨不少困難,落地困難重重。即便是一個簡單的中文分詞任務仍然需要大量的研究工作,比如對短語“南京市長江大橋”進行分詞,可以是“南京市+長江大橋”,也可以是“南京市長+江大橋”,準確的分詞有賴上下文語義的準確理解。

因此,實際落地過程應遵循先簡后難的原則:先從結構化程度高的數(shù)據(jù)中抽取出易于獲得的語言知識(如敘詞表、上下位概念),再從半結構化數(shù)據(jù)中抽取出世界知識(如<劉德華,職業(yè),演員>),進而總結出業(yè)務知識(比如,體溫達到39度可能感冒了),最后再處理決策知識.

(5)由粗到細。知識表示是有粒度粗細之分的。比如在司法知識表示方面,某個法律條款(比如“機動車變道,應打開相應的變道指示燈”)可作為合適的知識表示粒度,也可以進一步細化為條件(機動車變道)與結果(打開相應的變道指示燈)。條件部分的知識表示還可以進一步細分為實體(機動車)與動作(變道),顯然粒度越細表達越精準。

但是知識獲取的難度也越大,知識的不確定性也越強。比如在概念圖譜中,實例的概念歸屬往往隨著概念粒度的變細而變得越加不確定。例如,堡是個食物幾乎沒有人會有異議,但若說漢堡是個健康食物,則可能會有人反對。因此,知識資源的建設應該遵循由粗到精,逐步求精的基本原則。

(6)求同存異。知識是人們認知世界的結果。不同的認知主體對于同一個世界的認識是有差異的,知識因而具有主觀性。在當前階段去深究知識的主觀性問題可能十分困難。知識的主觀性差異往往是細微的。不同人對于“高個子”到底多高會有量上的細微差別,但是沒有人會認為2.2米還不是高個子。

因此,比較務實的作法是求同存異,擱置爭議。隨著系統(tǒng)的上線,用戶反饋數(shù)據(jù)日益增多,有爭議的事實,可以使用數(shù)據(jù)驅動的方法來加以界定。比如對于搜索“矮個子NBA球星”,如果大部分用戶在這一搜索關鍵詞下,點擊的球星都在1.8米以下,那么1.8米以下對于NBA球星而言或許就是矮個子。知識圖譜落地中,應該暫且擱置爭議,先解決容易解決的問題,剩下的問題在時機成熟時或許就自然能夠解決。

(7)人機協(xié)同。當前知識圖譜的落地,需要機器和人,二者缺一不可。傳統(tǒng)知識工程對于人有著較強的依賴,限制了知識庫的規(guī)模與效用;大數(shù)據(jù)知識工程強調(diào)數(shù)據(jù)驅動的知識獲取,依賴機器實現(xiàn)自動化知識獲取。但是當前的知識獲取自動化仍然需要人的干預,人在環(huán)中仍是常態(tài)。

當前的人工智能總體上是人類指導下的智能(Human supervised AI),機器智能在以下幾點需要人類的指導。機器需要人類特別是領域專家賦予機器以認知世界、認知特定領域的基本概念框架,比如領域本體或者領域模式的定義。其次,機器需要人類標注樣本、反饋結果。一個詞匯是否是合適的領域詞匯。一幅病理圖片是否指征相應的病變,這些都需要有著深刻的業(yè)務知識才能完成。因此,人機協(xié)同時知識圖譜工程推進的基本原則之一。

圖12 人在環(huán)中的人工智能發(fā)展模式

(8) 快速啟動。很多行業(yè)或者企業(yè)在開展知識圖譜項目時,或多或少已經(jīng)存在很多相關知識資源,比如領域本體、敘詞表等等?;ヂ?lián)網(wǎng)上的公開來源也存在不少相關的百科資源,通用百科圖譜已經(jīng)涵蓋了某個領域大量的實體。這些知識資源往往消耗了巨大人工成本經(jīng)過多年持續(xù)積累而得,是相關知識圖譜構建的寶貴財富。充分利用這些資源,提高領域知識圖譜構建的起點,是知識圖譜項目成功落地的關鍵思路之一。

知識資源建設有個很有意思的現(xiàn)象,那就是從無到有的構建代價要顯著高于在不完善的知識庫上的完善代價。此外,跨領域遷移也是降低構建成本的重要思路,因為相近領域的知識是可以復用的,比如在給中國移動建設知識圖譜時可以借鑒中國電信的知識圖譜。這個原則也意味著知識圖譜落地過程中,將來會涌現(xiàn)出一大批面向特定行業(yè)提供知識圖譜解決方案的企業(yè)。因此,復用是知識資源建設的重要策略之一。

3.2 過程模型

知識圖譜工程的生命周期包含三個主要階段:分析與論證、設計與實施以及運營與評價。每個階段作為后續(xù)階段的輸入。三個階段相繼完成后,整個工程過程進入下一輪,如此循環(huán)往復、迭代進行,直至實現(xiàn)智能化。

(1)分析與論證。這一階段的基本目標是明確知識圖譜的應用目標,分析知識圖譜的業(yè)務價值,論證知識圖譜項目上線的必要性;對所設定目標所涉及的數(shù)據(jù)資源、人員投入、資金投入等角度作出可行性評估,以及投資收益分析;對于整個知識圖譜工程項目的進行規(guī)劃。

(2)設計與實施。對知識圖譜系統(tǒng)相關的數(shù)據(jù)庫、數(shù)據(jù)流程、系統(tǒng)架構、關鍵算法、系統(tǒng)選型等等進行設計,制定詳細的設計方案;進行代碼開發(fā),實現(xiàn)相關算法;集成相關系統(tǒng),完成系統(tǒng)上線。

(3)運營與評價。知識圖譜工程是一種典型的智能化工程。智能化相關的系統(tǒng)在建設完成后,仍然要經(jīng)歷多輪運營與優(yōu)化。在每一輪迭代,獲取用戶的使用日志、評估反饋是十分關鍵的。這些反饋與日志是是下一輪建設或優(yōu)化的輸入,知識圖譜工程持續(xù)演進的重要依據(jù)。

圖13 知識圖譜工程過程演進模型

知識圖譜系統(tǒng)的設計與實施環(huán)節(jié)從知識的加工流程角度來看包含四個重要環(huán)節(jié):知識表示、知識獲取、知識管理與知識應用。這四個環(huán)節(jié)循環(huán)迭代。

知識應用環(huán)節(jié)明確應用場景,明確知識的應用方式。知識表示定義了領域的基本認知框架,明確領域有哪些基本的概念,概念之間有哪些基本的語義關聯(lián)。比如企業(yè)家與企業(yè)之間的關系可以是創(chuàng)始人關系,這是認知企業(yè)領域的基本知識。知識表示只提供機器認知的基本骨架,還要通過知識獲取環(huán)節(jié)來充實大量知識實例。比如喬布斯是個企業(yè)家,蘋果公司是家企業(yè),喬布斯與蘋果公司就是“企業(yè)家-創(chuàng)始人-企業(yè)”這個關系的一個具體實例。

知識實例獲取完成之后,就是知識管理。這個環(huán)節(jié)將知識加以存儲與索引,并為上層應用提供高效的檢索與查詢方式,實現(xiàn)高效的知識訪問。四個環(huán)節(jié)環(huán)環(huán)相扣,彼此構成相鄰環(huán)節(jié)的輸入與輸出。在知識的具體應用過程中,會不斷得到用戶的反饋,這些反饋會對知識表示、獲取與管理提出新的要求,因此整個生命周期會不斷迭代持續(xù)演進下去。

3.3 可行性分析

知識圖譜技術仍然是發(fā)展中的技術,很多技術還不成熟,因此做好可行性分析十分重要。知識圖譜落地的可行性與以下幾個因素關系密切。

(1)是否是封閉應用。封閉的對立面就是開放。所謂開放性是指無法預期可能發(fā)生的事態(tài),從而無法有效預設先驗規(guī)則。換言之,在開放環(huán)境中,機器很容易碰到無法合理處理的情形,因為這些情形沒有被定義過、沒有被描述過,使得機器無所適從。開放性問題是知識工程乃至整個人工智能的根本難題。它與一系列我們經(jīng)常提及的人工智能難題諸如常識理解、小樣本學習、元學習都有著密切關系。開放性難題是帶來一次次人工智能寒冬的“罪魁禍首”。

開放性難題對于知識工程的挑戰(zhàn)體現(xiàn)在知識的需求難以閉合。也就是說,實際應用所需要的知識中往往會超出領域所預先設定的知識邊界。比如在金融知識圖譜落地過程中,單單涵蓋公司、法人、機構、產(chǎn)品這些核心往往不足以支撐智能應用。基于金融知識圖譜的關聯(lián)分析往往會牽扯出幾乎萬事萬物。比如,諸如龍卷風等氣候災害,會使得農(nóng)作物產(chǎn)量下降,農(nóng)業(yè)機械的出貨量因而就會下降,農(nóng)機的發(fā)動機產(chǎn)量也就相應要下降,從事農(nóng)機發(fā)動機關鍵部件生產(chǎn)的公司業(yè)績就會下降,相關公司的股票可能就會下跌。

事實上,一切實體都身處在一個復雜的因果網(wǎng)絡中,世界是普遍關聯(lián)的。這就導致沿著任何一個實體開展關聯(lián)分析都極為容易超出預先設定的知識邊界。因此,行業(yè)應用中的知識需求難以封閉于領域知識的邊界范圍內(nèi)。而傳統(tǒng)知識工程成功應用的場景,比如計算機系統(tǒng)配置、數(shù)學定理證明,都是相對封閉的應用。在幾何定理的證明中不會用到推理規(guī)則之外的任何知識。

(2)是否涉及常識。越少涉及常識,越容易成功。常識是我們每個人都知道無需言明即可理解的知識。常識獲取與理解是通用人工智能實現(xiàn)的關鍵基礎問題。常識難以建模、難以獲取、機制不明等問題對大規(guī)模常識獲取與理解提出了嚴峻挑戰(zhàn)。首先、常識難以建模。我們都知道太陽從東邊升起,人是兩條腿走路的,魚是在水里游的,這些都是常識,但是如何嚴格界定則十分困難。至今我們還給不出關于常識的嚴格定義。不同人所言及的“常識”在內(nèi)涵與外延上是存在一定差異的。

本段之初所闡述的“我們每個人都知道無需言明即可理解的知識”,這里的“我們”、“知識”、“言明”、“理解”都是很難再進一步嚴格定義的。比如“我們”是指全體人類么?是否應該包含史前人類?如果界定在當下的人類,那么精神病人呢?兒童呢?幾乎所有的常識定義都會遇到這樣那樣的挑戰(zhàn)。其次,常識難以獲取。我們每個人都理解常識,因而不用掛在嘴邊說明,就能彼此理解。因此,文本或者語料中對于常識鮮有提及,常識因而也就無從抽取。常識缺失也就成了知識庫的常態(tài)。

最后,機制不明。人類究竟是如何形成常識理解的?這是個非常值得深入思考的問題。我們?nèi)祟惖某WR理解大都是以直接的近乎直覺的方式完成的。水灑了,正常人都會及時躲避。因為我們知道水會沾濕衣物。但是,我們沒有任何人是先思及“水會沾濕衣物”,再行躲避的。那么機器是否也有著與人類類似的常識理解機制?機器的常識理解之路與人類是否一致?這些問題均需要進一步深入研究。

(3)是否涉及元知識(Meta-knowledge)。所謂元知識是指有關知識的知識,包括屬性的領域(Domain)與范圍(Range)。比如“父親”作為屬性發(fā)生在人物這個類別的實體上(這是在指定Domain),取值也只能是個人物。包括領域內(nèi)的約束,比如父親都必須比子女年齡大。也可以是如何使用知識的知識,比如吃了不潔凈的物品嘔吐了,我們立即就會判斷有可能是不潔飲食導致的食物中毒??此坪唵蔚呐袛嘟⒃谖覀兡軌蛘{(diào)用醫(yī)學知識形成結論而不是數(shù)學知識的前提之下。為特定場景或應用適配相關知識,越來越多實際應用場景對這種元知識提出了訴求。

總體而言,元知識需求越大,應用越加困難。其根本原因在機器歸納能力有限。任何歸納都是按照既定的認知框架進行的。比如從樣本學習一個分類器,本質上也是在歸納。但是分類器的模型不管是支持向量機還是深度模型都需要預先指定,模型本身就是一類元知識??傮w而言,當前的機器智能還不足以自我發(fā)展出認知世界的框架。

需要說明的是,上述判斷條件都不是絕對的,都是相對的。因此是一種定性判斷,而非定量判斷。滿足上述條件,且程度越深,實現(xiàn)越困難,但并非絕無實現(xiàn)之可能。比如大部分互聯(lián)網(wǎng)應用屬于開放應用,但是知識圖譜率先發(fā)軔于互聯(lián)網(wǎng)搜索,實則是因為應用相對簡單。因此,可行性還可以從復雜性的對立視角加以研判。

(1)簡單知識。知識是否有復雜簡單之分?如果承認這點,知識的復雜性又應該如何度量?這些問題總體上還是開放問題。但是,直覺上我們會覺得某些知識比其他知識簡單。人類學習的先后順序一定程度上就是顧及了知識的簡單與復雜之分。沒有人會否認疾病診斷、司法抗辯用到的知識會比疊個紙飛機用到的知識復雜。

雖然知識的復雜性內(nèi)在機理和評測機制仍不清楚,但是從操作層面來看,可以從特定人群學習某類知識所需要時間來評估。比如考慮完成了基礎教育(比如中國的九年制基礎教育)的人群,對于不同知識,這一人群學習周期不同。顯然對于某個企業(yè)的客服知識,幾乎一周簡單培訓就可以上崗。但是對于治病的知識,即便一個醫(yī)學院學生可能也要學習十多年才能掌握。

在自然語言相關的知識中,詞匯知識的掌握難度小于語法與語義知識。在知識圖譜落地過程中,語言知識相對于業(yè)務知識而言簡單;靜態(tài)關聯(lián)知識比動態(tài)過程知識簡單。這些直接決定了在知識圖譜落地過程中,語言知識以及靜態(tài)關聯(lián)知識往往能優(yōu)先于其知識形態(tài)形成應用效果。

(2)簡單應用。知識的應用也有復雜簡單之分。比如同樣是在醫(yī)療領域,醫(yī)院的導診顯然要比醫(yī)生的看病要簡單很多。導診只需要根據(jù)癥狀進行簡單的分類,即便不夠精準,在具體科室醫(yī)生治療時還有進一步糾正的機會。然而,醫(yī)生看病本身則要復雜很多,一個醫(yī)生要近十年的學習才有可能勝任疾病診治的任務。但是,應用本身的復雜性顯然也是很難量化的,在算法復雜性領域可以根據(jù)問題與輸入規(guī)模之間的關系量化問題以及相應方案的復雜性。但是知識應用的復雜性機制還不明確。直覺上需要用到的知識越多、需要掌握的異常越多、所應用的規(guī)則分支繁復,則相應的應用越復雜。

此外在領域或者企業(yè)知識圖譜落地過程中,數(shù)據(jù)資源稟賦與知識資源積累也是可行性判斷的兩個重要的維度。數(shù)據(jù)資源稟賦包括構建知識圖譜所依賴的數(shù)據(jù)是否完整、數(shù)據(jù)質量是否足夠精良、數(shù)據(jù)是否可用?巧婦難為無米之炊。沒有好的數(shù)據(jù)是提煉不出好的知識圖譜的。很多企業(yè)數(shù)據(jù)完整性存在缺陷,存在數(shù)據(jù)缺失,會對知識圖譜構建造成巨大的障礙。有些數(shù)據(jù)雖然完整,但是來源分散、形態(tài)各異、質量低劣,這些都會對數(shù)據(jù)治理本身提出巨大挑戰(zhàn)。

在另外一些情況下,數(shù)據(jù)可用性較低,比如存在行業(yè)壁壘,數(shù)據(jù)無法分享;存在國家安全與個人隱私的顧慮,數(shù)據(jù)無法公開或者使用。這些障礙都是數(shù)據(jù)層面對于知識圖譜系統(tǒng)提出的挑戰(zhàn)。領域或者行業(yè)知識資源的積累情況也是判斷知識圖譜工程可行性的重要因素。在很多領域,已經(jīng)積累了多年的相關知識資源。比如醫(yī)療領域領域專家耗費了大量資源構建了很多本體、術語庫。不同領域的知識資源積累情況不同。知識資源越豐富,越有利于知識圖譜工程的建設。

表1對于上述提及的可行性判斷要素進行了分類匯總,并給出了相應的問題檢查列表,以方便知識圖譜工程實踐的開展。

表1 知識圖譜工程可行性論證檢查列表

3.4 知識圖譜工程實踐建議

知識圖譜工程屬于工程性學科,不斷總結其最佳實踐是非常有必要的。本小節(jié)根據(jù)當前已經(jīng)落地的知識圖譜工程總結一些有代表性的經(jīng)驗。值得注意的是,這些“經(jīng)驗”隨著時間的推移、環(huán)境的變化,也需要不斷作出調(diào)整。

(1)合理控制知識表示的范圍與粒度。很多場景下知識表示的粒度是個需要仔細斟酌的問題。一般而言,粒度越細表達能力越強,但是其表達與獲取代價也越大。細粒度知識表示一般是領域應用的強需求之一。比如在知識管理領域,粒度粗放已經(jīng)成為阻礙企業(yè)知識管理發(fā)展的根本問題。傳統(tǒng)知識搜索只能搜索到文檔級別,如果不幸這個文檔含有1000頁內(nèi)容,則會給用戶帶來巨大麻煩。但是,凡事過猶不及,太細粒度的知識表示也往往會給知識獲取帶來巨大的復雜性。

合理控制知識表示的粒度,不盲目求精求細,是知識庫技術落地成功的關鍵思路之一。很多落地實踐中過早地陷入細粒度知識獲取的泥潭當中,消耗巨大但收效甚微。但事實上細粒度的知識表示在很多場景下也是不必要的。因此,在實踐中建議緊扣應用需求,從應用出發(fā)反推需要怎樣粒度的知識表示。

(2)合理控制不同視角下的不同圖譜。知識圖譜是認知世界的結果。管理者視角與用戶視角是不同的,不同用戶的視角往往也是不同的。比如龍,在東方人的視角下往往是吉祥的,而在西方人的視角往往是兇惡的、有貶義的;“物美價廉的水果”這個品類對于不同人理解完全不同。因此不同的視角下應該有著不同的圖譜。

一般而言,要針對不同的角色,定制相應的圖譜。因而需要從一份通用圖譜中演化出其不同視角下的不同視圖,如圖14所示。考慮到圖模型的普適性,可以定制不同的權重(比如不同文化的視野下對于“龍”的喜好程度),以體現(xiàn)不同角色對于知識的不同認知。

圖14 知識圖譜的不同視圖

(3)區(qū)別對待冷啟動與熱運營兩個階段。知識圖譜的建設與運營是兩個不同的階段。要區(qū)別對待這兩個階段,兩個不同的階段采用不同的策略,不能一概而論。冷啟動階段的特點是缺乏用戶行為數(shù)據(jù),各類基于用戶反饋的機器學習模型很少能在這一階段發(fā)揮效果,更多地需要借助專家經(jīng)驗與知識,以人工方式設定很多參數(shù)與規(guī)則。在系統(tǒng)運營一段時間后,用戶反饋數(shù)據(jù)日益增多,使得基于反饋日志的學習模型成為可能,比如搜索排序模型、推薦模型等等。表3總結了冷啟動與熱運營的不同思路與策略。

表3 冷啟動與熱運營的不同策略

(4)建設與運營并重。建設與運營是知識圖譜工程兩個重要的階段。受傳統(tǒng)信息化建設思路的影響,很多智能系統(tǒng)陷入了重建設輕運營的誤區(qū)。事實上,任何一個智能系統(tǒng)均需要經(jīng)歷多輪迭代方能成熟,只有持續(xù)運營才能保持系統(tǒng)處于最佳狀態(tài)。

智能系統(tǒng)的運營是數(shù)據(jù)驅動的。數(shù)據(jù)驅動需要不斷收集用戶數(shù)據(jù)。用戶數(shù)據(jù)體現(xiàn)的是用戶興趣與行為。而用戶的興趣與行為是會隨著環(huán)境的變化而變化的。一個有效的智能系統(tǒng)必須隨著用戶的演進而演進,否則容易失效。從長遠看,運營甚至重于建設。建設是一次性的,而運營是持續(xù)的、長期的、周期性的、重復開展的。

(5)合理處理知識的扁平化與縱深化矛盾。在實際知識圖譜工程中,知識的廣度(對應扁平化)與深度(對應縱深化)往往是一對不可調(diào)和的矛盾。為了廣度,往往要犧牲深度;為了深度往往要犧牲廣度。前者以通用知識圖譜為例,通用知識圖譜較為寬廣,但缺乏深度,體現(xiàn)在平均關系數(shù)小于相應的領域知識圖譜。深度知識在風險管控、安全防范等領域十分重要。惡意意圖的行為往往具有隱蔽性等特點,難以通過簡單語義關聯(lián)發(fā)現(xiàn)。因而相關圖譜的建設要往縱深方向發(fā)展。如圖15所示,實際的知識圖譜往往需要在知識的深度與廣度之間進行平衡。

圖15 知識圖譜中知識的廣度與深度的平衡

(6)堅持迭代式演進路徑。螺旋迭代式發(fā)展是知識圖譜工程實踐有序推進的基本模式。在整個知識圖譜工程中,有著大量迭代模型。比如,知識資源建設與知識應用的迭代式演進(見圖2)、知識圖譜工程的三個關鍵步驟的迭代(見圖13)。此外還包括知識庫積累與知識抽取模型的迭代發(fā)展:一方面積累知識庫,另一方面利用積累的知識指導知識抽取,進而利用更先進的抽取模型抽取更多更好的知識。

還包括知識圖譜系統(tǒng)建設與知識圖譜系統(tǒng)運營的迭代:建設完成之后,通過運營得到的用戶反饋數(shù)據(jù)進一步指導知識圖譜系統(tǒng)建設與優(yōu)化。迭代模式之所以重要,其根本原因在于知識圖譜技術的任何單項技術還難以支撐實際應用。實際問題的解決尚需多個單點技術的協(xié)同。迭代式發(fā)展意味知識圖譜的長期發(fā)展過程是迂回曲折的,是漸進式發(fā)展的道路。

(7)區(qū)別對待靜態(tài)知識與動態(tài)知識。人類對世界的認識是在不斷變化的。因此,體現(xiàn)在知識庫中的知識也不應該是一成不變的。知識的動態(tài)變化是絕對的,靜止不變是相對的。但是絕大部分知識在有限時間內(nèi)變化的可能性是極低的,比如地球是圓的,在很長一段時間人們對于這個事實的信念是不會發(fā)生改變的。

對于知識圖譜中的數(shù)據(jù)處理,與之類似,要區(qū)別對待靜態(tài)知識和動態(tài)知識。一般而言事實是相對易變的,而模式是相對不變的。比如機構的領導人過一段時間就會發(fā)生變化,但是人與機構之間的這種任職關系發(fā)生改變的可能性要低很多,屬于相對不變的知識。易變事實的更新十分重要,常常需要依賴數(shù)據(jù)驅動方法。而模式的改變由于更新頻次相對較低,手工維護更為明智。

小結

本章針對知識圖譜技術實踐中的幾個關鍵問題,包括知識圖譜系統(tǒng)、知識圖譜工程以及知識圖譜應用與產(chǎn)業(yè),做了初步探討。隨著知識圖譜技術應用的深化,知識圖譜產(chǎn)業(yè)日益成熟,將會對知識圖譜的工程實踐方面提出更多的需求。

這里對于知識圖譜與系統(tǒng)科學(特別是系統(tǒng)工程和管理信息系統(tǒng))之間的關系做一初步討論。首先,知識圖譜工程非常迫切地需要來自系統(tǒng)科學的理論指引與方法論指導。系統(tǒng)科學作為一般系統(tǒng)的基本原理的科學對于知識圖譜也是具有指導意義的。但是另一方面,傳統(tǒng)的系統(tǒng)科學對于當前大數(shù)據(jù)人工智能系統(tǒng)的實踐缺乏有力的支撐。

應該說,當前的人工智能系統(tǒng)本質上是數(shù)據(jù)驅動的智能系統(tǒng)。這類智能系統(tǒng)在數(shù)據(jù)驅動與人機協(xié)作等方面與傳統(tǒng)信息系統(tǒng)有著根本不同。比如在數(shù)據(jù)驅動方面,智能系統(tǒng)的數(shù)據(jù)大都作為模型訓練之用,傳統(tǒng)信息系統(tǒng)的數(shù)據(jù)大都只作為用戶查詢或者簡單統(tǒng)計分析的來源而已;在人機協(xié)作方面,智能系統(tǒng)的人的作用在于讓機器具備認知框架、給予機器模型學習以適當?shù)姆答伵c引導,而傳統(tǒng)信息系統(tǒng)的人的作用更多地體現(xiàn)為系統(tǒng)語義、規(guī)則的制定,以及系統(tǒng)的使用與反饋。

因此,傳統(tǒng)的系統(tǒng)科學以及信息系統(tǒng)理論仍需進一步發(fā)展以滿足以知識圖譜為代表的智能系統(tǒng)的建設與實施的需要。從系統(tǒng)科學角度從新思考智能系統(tǒng)(特別是大數(shù)據(jù)人工智能系統(tǒng))的一般性原則與方法是個極為迫切的研究問題。

肖仰華教授主編的知識圖譜教材《知識圖譜:概念與技術》即將出版,全面解析知識圖譜的概念與技術。敬請關注。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 智能化
    +關注

    關注

    15

    文章

    4782

    瀏覽量

    55186
  • 大數(shù)據(jù)

    關注

    64

    文章

    8854

    瀏覽量

    137210
  • 知識圖譜
    +關注

    關注

    2

    文章

    132

    瀏覽量

    7683

原文標題:肖仰華:知識圖譜如何解決行業(yè)智能化的工程問題?

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    知識圖譜相關應用

    智慧風控的背后,是知識圖譜深度應用
    發(fā)表于 08-22 14:40

    KGB知識圖譜基于傳統(tǒng)知識工程的突破分析

    知識庫構建主要依靠人工構建、代價高昂、規(guī)模有限,投入極大且效率不高。同時,傳統(tǒng)知識圖譜不具有深度知識結構,無法解決專業(yè)的業(yè)務問題?;ヂ?lián)網(wǎng)時代急需自動化、智能化構建行業(yè)
    發(fā)表于 10-22 15:25

    KGB知識圖譜技術能夠解決哪些行業(yè)痛點?

    層面。在知識表示層面,行業(yè)應用領域知識圖譜的廣度、深度和粒度都和傳統(tǒng)知識圖譜有差別。從廣度來看,傳統(tǒng)知識圖譜廣度更高。從
    發(fā)表于 10-30 15:34

    知識圖譜的三種特性評析

    知識圖譜的應用對技術本身也提出了高要求,KGB知識圖譜現(xiàn)在已經(jīng)在保險行業(yè),為公司分析上市數(shù)據(jù)等行業(yè)得以廣泛應用,知識圖譜能夠在應用中發(fā)揮優(yōu)勢主要體現(xiàn)在哪里呢?(1) 目標的動態(tài)性:考察知識圖
    發(fā)表于 12-13 13:57

    KGB知識圖譜通過智能搜索提升金融行業(yè)分析能力

    費時耗力,利用KGB知識圖譜的智能搜索功能,可以通過簡單的操作,可以快速、精準地找到想要的數(shù)據(jù)、報告等內(nèi)容,從以往低效、重復的信息搜集整理中解脫出來,告別信息過載的困擾。KGB知識圖譜基于深度學習
    發(fā)表于 06-22 21:23

    內(nèi)電層分割基本原則

    內(nèi)電層分割基本原則,內(nèi)電層分割基本原則,內(nèi)電層分割基本原則
    發(fā)表于 12-24 11:02 ?0次下載

    知識圖譜系列干貨,理論+實踐

    第一個部分介紹我們?yōu)槭裁葱枰?b class='flag-5'>知識圖譜知識圖譜的相關概念及其形式化表示;第二個部分將詳細介紹語義網(wǎng)絡、語義網(wǎng)和鏈接數(shù)據(jù)等概念;最后,將結合實例對RDF和RDFS/OWL,這兩種知識圖譜基礎技術作進一步的介紹。
    的頭像 發(fā)表于 07-28 09:55 ?1.2w次閱讀

    領域知識圖譜落地實踐中的問題與對策

    近年來,知識圖譜技術進展迅速,各種領域知識圖譜技術在很多領域或行業(yè)取得了顯著落地效果。在領域知識圖譜技術的落地
    的頭像 發(fā)表于 08-07 08:21 ?1w次閱讀

    深度解析知識圖譜領域幾次發(fā)展的主要技術突破

    作為知識圖譜領域形成過程的親歷者之一,文因互聯(lián)CEO鮑捷對知識圖譜的歷史淵源進行了梳理,深度解析了該領域幾次發(fā)展的主要技術突破,并分析了其工業(yè)落地的幾個關鍵點。
    的頭像 發(fā)表于 08-27 10:41 ?1.2w次閱讀

    一文帶你讀懂知識圖譜

    節(jié)點(Point)和邊(Edge)組成 1.2 每個節(jié)點表示現(xiàn)實世界中存在的“實體”,每條邊為實體與實體之間的“關系” 1.3 知識圖譜是關系的最有效的表示方式 所以,知識圖譜本質上就是語義網(wǎng)絡,是一種基于圖的數(shù)據(jù)結構; 2 知識圖譜
    的頭像 發(fā)表于 12-26 10:23 ?3627次閱讀

    知識圖譜劃分的相關算法及研究

    知識圖譜是人工智能的重要基石,因其包含豐富的圖結構和屬性信息而受到廣泛關注。知識圖譜可以精確語義描述現(xiàn)實世界中的各種實體及其聯(lián)系,其中頂點表示實體,邊表示實體間的聯(lián)系。知識圖譜劃分是大規(guī)模知識
    發(fā)表于 03-18 10:10 ?9次下載
    <b class='flag-5'>知識圖譜</b>劃分的相關算法及研究

    知識圖譜在工程應用中的關鍵技術、應用及案例

    近年來,知識圖譜及其相關技術得到快速發(fā)展,并被廣泛應用于工業(yè)界各種認知智能場景中。在簡述知識圖譜相關研究的基礎上,介紹知識圖譜在工程應用中的關鍵技術,研究工業(yè)級知識圖譜的典型應用場景與
    發(fā)表于 03-30 15:12 ?15次下載
    <b class='flag-5'>知識圖譜</b>在工程應用中的關鍵技術、應用及案例

    知識圖譜是NLP的未來嗎?

    我的看法:知識圖譜不是NLP的未來,因為知識圖譜是另外一種與NLP有很多交集的技術。在目前所有已知的發(fā)展方向中,知識圖譜是最有可能長期和NLP互利共生的技術。
    的頭像 發(fā)表于 04-15 14:36 ?3657次閱讀
    <b class='flag-5'>知識圖譜</b>是NLP的未來嗎?

    知識圖譜Knowledge Graph構建與應用

    一、知識圖譜概論 ? ? ? ? 1.1知識圖譜的起源和歷史 1.2知識圖譜的發(fā)展史——從框架、本體論、語義網(wǎng)、鏈接數(shù)據(jù)到知識圖譜 1.3知識圖譜
    發(fā)表于 09-17 10:12 ?622次閱讀

    知識圖譜知識圖譜的典型應用

    作者:?cooldream2009? 我們構建知識圖譜的目的,在于利用知識圖譜來做一些事情。有效利用知識圖譜,就是要考慮知識圖譜的具備的能力,知識圖
    的頭像 發(fā)表于 10-18 09:26 ?1825次閱讀
    <b class='flag-5'>知識圖譜</b>:<b class='flag-5'>知識圖譜</b>的典型應用