CSDN 出品的《2018-2019 中國人工智能產(chǎn)業(yè)路線圖》V2.0 版即將重磅面世!
V1.0 版發(fā)布以來,我們有幸得到了諸多讀者朋友及行業(yè)專家的鼎力支持,在此表示由衷感謝。此次 V2.0 版路線圖將進(jìn)行新一輪大升級,內(nèi)容包括 3 大 AI 前沿產(chǎn)業(yè)趨勢分析,10 位 AI 特邀專家的深度技術(shù)分析,15 家一線互聯(lián)網(wǎng)企業(yè)的 AI 實力大巡展,以及 20 個 AI 優(yōu)秀應(yīng)用案例,力求為讀者呈現(xiàn)更全面的中國人工智能產(chǎn)業(yè)發(fā)展概況和趨勢判斷。
V2.0 版將于 11 月 8 日舉辦的 2018 AI 開發(fā)者大會上正式發(fā)布,在此之前,我們將不間斷公布精要內(nèi)容,以饗讀者。此為 V2.0 版中深度技術(shù)分析系列稿件第 3 篇,作者為 CSDN 特邀 AI 專家——復(fù)旦大學(xué)教授肖仰華。
一、什么是知識圖譜
▌1.1 知識圖譜的定義
知識圖譜是什么?本質(zhì)上是一種大規(guī)模語義網(wǎng)絡(luò)。理解知識圖譜的概念,有兩個關(guān)鍵詞。
首先是語義網(wǎng)絡(luò)。語義網(wǎng)絡(luò)表達(dá)了各種各樣的實體、概念及其之間的各類語義關(guān)聯(lián)。
圖1. 知識圖譜示例
比如“C羅”是一個實體,“金球獎”也是一個實體,他們倆之間有一個語義關(guān)系就是“獲得獎項”。“運動員”、“足球運動員”都是概念,后者是前者的子類(對應(yīng)于圖中的subclassOf 關(guān)系)。
理解知識圖譜的第二個關(guān)鍵詞是“大規(guī)?!?。語義網(wǎng)絡(luò)并非新鮮事物,早在上個世紀(jì)七八十年代知識工程盛行之時,就已存在。相比較于那個時代的語義網(wǎng)絡(luò),知識圖譜規(guī)模更大。
從2012年Google提出知識圖譜直到今天,知識圖譜技術(shù)發(fā)展迅速,知識圖譜的內(nèi)涵遠(yuǎn)遠(yuǎn)超越了其作為語義網(wǎng)絡(luò)的狹義內(nèi)涵。當(dāng)下,在更多實際場合下,知識圖譜是作為一種技術(shù)體系,指代大數(shù)據(jù)時代知識工程的一系列代表性技術(shù)進(jìn)展的總和。去年我國學(xué)科目錄做了調(diào)整,首次出現(xiàn)了知識圖譜的學(xué)科方向,教育部對于知識圖譜這一學(xué)科的定位是“大規(guī)模知識工程”,這一定位是十分準(zhǔn)確且內(nèi)涵豐富的。這里需要指出的是知識圖譜技術(shù)的發(fā)展是個持續(xù)漸進(jìn)的過程。從上個世紀(jì)七八十年代的知識工程興盛開始,學(xué)術(shù)界和工業(yè)界推出了一系列知識庫,直到2012年Google推出了面向互聯(lián)網(wǎng)搜索的大規(guī)模的知識庫,被稱之為知識圖譜。
▌1.2與傳統(tǒng)知識表示的區(qū)別
理解今天的知識圖譜內(nèi)涵,是不能割裂其歷史臍帶的。上世紀(jì)七八十年代的各種知識表示與我們今天的知識圖譜到底有著本質(zhì)差別。傳統(tǒng)語義網(wǎng)絡(luò)與知識圖譜的差別首先表現(xiàn)在其規(guī)模上。
知識圖譜是一種大規(guī)模語義網(wǎng)絡(luò),與上世紀(jì)七八十年代的各類語義網(wǎng)絡(luò)相比較,最顯著的差異就是規(guī)模差異。推而廣之,以知識圖譜為代表的大數(shù)據(jù)時代的各種知識表示與傳統(tǒng)的知識表示的根本差別首先體現(xiàn)在規(guī)模上。傳統(tǒng)知識工程一系列知識表示都是一種典型的“小知識”(smallknowledge)。
而到了大數(shù)據(jù)時代,受益于海量數(shù)據(jù)、強(qiáng)大計算能力以及群智計算,我們?nèi)缃衲軌蜃詣踊瘶?gòu)建、或者眾包構(gòu)建大規(guī)模、高質(zhì)量知識庫,形成所謂的“大知識”(bigknowledge,合肥工業(yè)大學(xué)的吳興東教授在很多場合下也提到類似觀點)。所以知識圖譜與傳統(tǒng)知識表示在淺層次上的區(qū)別,就是大知識與小知識的差別,是在規(guī)模上的顯而易見的差別。
更深刻地進(jìn)行分析就會發(fā)現(xiàn),這樣的一個知識規(guī)模上的量變帶來了知識效用的質(zhì)變。
知識工程到了上世紀(jì)八十年代之后就銷聲匿跡了。根本原因在于傳統(tǒng)知識庫構(gòu)建主要依靠人工構(gòu)建、代價高昂、規(guī)模有限。舉個例子,我國的詞林辭海是上萬名專家花了10多年編撰而成的,但是它只有十幾萬詞條。而現(xiàn)在任何一個互聯(lián)網(wǎng)上的知識圖譜,比如DBpedia,動輒包含上千萬實體。人工構(gòu)建的知識庫雖然質(zhì)量精良,但是規(guī)模有限。有限的規(guī)模使得傳統(tǒng)知識表示難以適應(yīng)互聯(lián)網(wǎng)時代的大規(guī)模開放應(yīng)用的需求。
互聯(lián)網(wǎng)應(yīng)用的特點在于:
一、規(guī)模巨大,我們永遠(yuǎn)不知道用戶下一個搜索關(guān)鍵詞是什么;
二、精度要求相對不高,搜索引擎從來不需要保證每個搜索的理解和檢索都是正確的;
三、簡單知識推理,大部分搜索理解與回答只需要實現(xiàn)簡單的推理,比如搜索劉德華推薦歌曲,是因為知道劉德華是歌星,至于“姚明老婆的婆婆的兒子有多高”這類的復(fù)雜推理在實際應(yīng)用中所占比率是不高的。
互聯(lián)網(wǎng)上的這種大規(guī)模開放應(yīng)用所需要的知識很容易突破傳統(tǒng)專家系統(tǒng)由專家預(yù)設(shè)好的知識庫的知識邊界。這一定程度上回答了,為何谷歌在2012年這個時間節(jié)點推出知識圖譜,利用一個全新名稱以表達(dá)與傳統(tǒng)知識表示毅然決裂的態(tài)度。
二、知識圖譜的重要性
知識圖譜是實現(xiàn)機(jī)器認(rèn)知智能的基礎(chǔ)。機(jī)器認(rèn)知智能的兩個核心能力:“理解”和“解釋”,均與知識圖譜有著密切關(guān)系。首先需要給機(jī)器“理解與解釋”提出一種解釋。我認(rèn)為機(jī)器理解數(shù)據(jù)的本質(zhì)是建立起從數(shù)據(jù)到知識庫中的知識要素(包括實體、概念和關(guān)系)映射的一個過程。
比如如果我說到“2013年的金球獎得主C羅”這句話,我們之所以說自己理解了這句話,是因為我們把“C羅”這個詞匯關(guān)聯(lián)到我們腦子中的實體“C羅”,把“金球獎”這個詞匯映射到我們腦中的實體“金球獎”,然后把“得主”一詞映射到邊“獲得獎項”這個關(guān)系。我們可以仔細(xì)體會一下我們的文本理解過程,其本質(zhì)是建立從數(shù)據(jù)(包括文本、圖片、語音、視頻等)到知識庫中的實體、概念、屬性映射的過程。
再來看人類是如何“解釋”的。比如我問“C羅為什么那么牛?”,可以通過知識庫中的“C羅獲得獎項金球獎”以及“金球獎地位影響力最大的足球獎項之一”這兩條關(guān)系來解釋這一問題。
這一過程的本質(zhì)就是將知識庫中的知識與問題或者數(shù)據(jù)加以關(guān)聯(lián)的過程。有了知識圖譜,機(jī)器完全可以重現(xiàn)我們的這種理解與解釋過程。有過一定計算機(jī)研究基礎(chǔ)的,是不難完成上述過程的數(shù)學(xué)建模的。知識圖譜對于機(jī)器認(rèn)知智能的重要性也體現(xiàn)在下面幾個具體方面。
▌2.1 知識圖譜使能機(jī)器語言認(rèn)知
知識圖譜對機(jī)器認(rèn)知智能的必要性還可以從若干具體問題來進(jìn)行闡述。首先,我們來看機(jī)器認(rèn)知的核心能力之一:自然語言理解。
我的觀點是機(jī)器理解自然語言需要類似知識圖譜這樣的背景知識。自然語言是異常復(fù)雜的:自然語言有歧義性、多樣性,語義理解有模糊性且依賴上下文。機(jī)器理解自然語言困難的根本原因在于,人類語言理解是建立在人類的認(rèn)知能力基礎(chǔ)之上的,人類的認(rèn)知體驗所形成的背景知識是支撐人類語言理解的根本支柱。
我們?nèi)祟惐舜酥g的語言理解就好比是根據(jù)冰山上浮出水面的一角來揣測冰山下的部分。我們之所以能夠很自然地理解彼此的語言,是因為彼此共享類似的生活體驗、類似的教育背景,從而有著類似的背景知識。冰山下龐大的背景知識使得我們可以彼此理解水面上有限的幾個字符。我們可以做個簡單的思想實驗,假如現(xiàn)在有個外星人坐在這里聽我講報告,他能聽懂么?我想還是很困難的,因為他沒有在地球上生活的經(jīng)歷,沒有與我相類似的教育背景,沒有與我類似的背景知識庫。
再舉個很多人都有體會的例子,我們?nèi)⒓訃H會議時,經(jīng)常遇到一個尷尬的局面,就是西方學(xué)者說的笑話,我們東方人很難產(chǎn)生共鳴。因為我們和他們的背景知識庫不同,我們早餐吃燒餅、油條,西方吃咖啡、面包,不同的背景知識決定了我們對幽默有著不同的理解。所以語言理解需要背景知識,沒有強(qiáng)大的背景知識支撐,是不可能理解語言的。要讓機(jī)器理解我們?nèi)祟惖恼Z言,機(jī)器必需共享與我們類似的背景知識。
實現(xiàn)機(jī)器自然語言理解所需要的背景知識是有著苛刻的條件的:規(guī)模足夠大、語義關(guān)系足夠豐富、結(jié)構(gòu)足夠友好、質(zhì)量足夠精良。
以這四個條件去看知識表示就會發(fā)現(xiàn),只有知識圖譜是滿足所有這些條件的:知識圖譜規(guī)模巨大,動輒包含數(shù)十億實體;關(guān)系多樣,比如在線百科圖譜DBpedia包含數(shù)千種常見語義關(guān)系;結(jié)構(gòu)友好,通常表達(dá)為RDF三元組,這是一種對于機(jī)器而言能夠有效處理的結(jié)構(gòu);質(zhì)量也很精良,因為知識圖譜可以充分利用大數(shù)據(jù)的多源特性進(jìn)行交叉驗證,也可利用眾包保證知識庫質(zhì)量。所以知識圖譜成為了讓機(jī)器理解自然語言所需的背景知識的不二選擇。
▌2.3 知識圖譜使能可解釋人工智能
知識圖譜對于認(rèn)知智能的另一個重要意義在于:知識圖譜讓可解釋人工智能成為可能。
“解釋”這件事情一定是跟符號化知識圖譜密切相關(guān)的。因為解釋的對象是人,人只能理解符號,沒辦法理解數(shù)值,所以一定要利用符號知識開展可解釋人工智能的研究??山忉屝允遣荒芑乇芊栔R的。
我們先來看幾個解釋的具體例子。比如,我若問鯊魚為什么可怕?你可能解釋說:因為鯊魚是食肉動物,這實質(zhì)上是用概念在解釋。若問鳥為什么能飛翔?你可能會解釋因為它有翅膀。這是用屬性在解釋。若問鹿晗關(guān)曉彤前些日子為什么會刷屏?你可能會解釋說因為關(guān)曉彤是鹿晗的女朋友。這是用關(guān)系在解釋。我們?nèi)祟悆A向于利用概念、屬性、關(guān)系這些認(rèn)知的基本元素去解釋現(xiàn)象,解釋事實。而對于機(jī)器而言,概念、屬性和關(guān)系都表達(dá)在知識圖譜里面。因此,解釋離不開知識圖譜。
▌2.4 知識引導(dǎo)將成為解決問題的主要方式
知識圖譜的另一個重要作用體現(xiàn)在知識引導(dǎo)將成為解決問題的主要方式。前面已經(jīng)多次提及用戶對使用統(tǒng)計模型來解決問題的效果越來越不滿意了,統(tǒng)計模型的效果已經(jīng)接近“天花板”,要想突破這個“天花板”,需要知識引導(dǎo)。
舉個例子,實體指代這樣的文本處理難題,沒有知識單純依賴數(shù)據(jù)是難以取得理想效果的。比如“張三把李四打了,他進(jìn)醫(yī)院了”和“張三把李四打了,他進(jìn)監(jiān)獄了”,人類很容易確定這兩個不同的“他”的分別指代。因為人類有知識,有關(guān)于打人這個場景的基本知識,知道打人的往往要進(jìn)監(jiān)獄,而被打的往往會進(jìn)醫(yī)院。但是當(dāng)前機(jī)器缺乏這些知識,所以無法準(zhǔn)確識別代詞的準(zhǔn)確指代。很多任務(wù)是純粹的基于數(shù)據(jù)驅(qū)動的模型所解決不了的,知識在很多任務(wù)里不可或缺。比較務(wù)實的做法是將這兩類方法深度融合。
▌2.5 知識將顯著增加機(jī)器學(xué)習(xí)能力
知識對于認(rèn)知智能又一個很重要的意義就是將顯著增強(qiáng)機(jī)器學(xué)習(xí)的能力。
當(dāng)前的機(jī)器學(xué)習(xí)是一種典型的“機(jī)械式”學(xué)習(xí)方式,與人類的學(xué)習(xí)方式相比顯得比較笨拙。我們的孩童只需要父母告知一兩次:這是貓,那是狗,就能有效識別或者區(qū)分貓狗。而機(jī)器卻需要數(shù)以萬計的樣本才能習(xí)得貓狗的特征。
我們中國人學(xué)習(xí)英語,雖然也要若干年才能小有所成,但相機(jī)器對于語言的學(xué)習(xí)而言要高效的多。機(jī)器學(xué)習(xí)模型落地應(yīng)用中的一個常見問題是與專家知識或判斷不符合,這使我們很快陷入進(jìn)退兩難的境地:是相信學(xué)習(xí)模型還是果斷棄之?機(jī)器學(xué)習(xí)與人類學(xué)習(xí)的根本差異可以歸結(jié)為人是有知識的且能夠有效利用知識的物種。
我相信,未來機(jī)器學(xué)習(xí)能力的顯著增強(qiáng)也要走上充分利用知識的道路。符號知識對于機(jī)器學(xué)習(xí)模型的重要作用會受到越來越多的關(guān)注。這一趨勢還可以從機(jī)器智能解決問題的兩個基本模式方面加以論述。
機(jī)器智能的實現(xiàn)路徑之一是習(xí)得數(shù)據(jù)中的統(tǒng)計模式,以解決一系列實際任務(wù)。另一種是專家系統(tǒng),專家將知識賦予機(jī)器構(gòu)建專家系統(tǒng),讓機(jī)器利用專家知識解決實際問題。如今,這兩種方法有合流的趨勢,無論是專家知識還是通過學(xué)習(xí)模型習(xí)得的知識,都將顯式地表達(dá)并且沉淀到知識庫中。再利用知識增強(qiáng)的機(jī)器學(xué)習(xí)模型解決實際問題。這種知識增強(qiáng)下的學(xué)習(xí)模型,可以顯著降低機(jī)器學(xué)習(xí)模型對于大樣本的依賴,提高學(xué)習(xí)的經(jīng)濟(jì)性;提高機(jī)器學(xué)習(xí)模型對先驗知識的利用率;提升機(jī)器學(xué)習(xí)模型的決策結(jié)果與先驗知識的一致性。
因此,知識將成為比數(shù)據(jù)更為重要的資產(chǎn)。前幾年大數(shù)據(jù)時代到來的時候,大家都說“得數(shù)據(jù)者得天下”。去年,微軟的沈向洋博士曾經(jīng)說過“懂語言者得天下”。而我曾經(jīng)論述過,機(jī)器要懂語言,背景知識不可或缺。因此,在這個意義下,將是“得知識者得天下”。如果說數(shù)據(jù)是石油,那么知識就好比是石油的萃取物。如果我們只滿足賣數(shù)據(jù)盈利,那就好比是直接輸出石油在盈利。但是石油的真正價值蘊含于其深加工的萃取物中。石油萃取的過程與知識加工的過程也極為相像。都有著復(fù)雜流程,都是大規(guī)模系統(tǒng)工程。知識工程的鼻祖,費根鮑姆曾經(jīng)說過的一句話“knowledge is the power inAI”。
三、知識圖譜的生命周期
圖2. 知識圖譜的生命周期
知識圖譜系統(tǒng)的生命周期包含四個重要環(huán)節(jié):知識表示、知識獲取、知識管理與知識應(yīng)用。這四個環(huán)節(jié)循環(huán)迭代。
知識應(yīng)用環(huán)節(jié)明確應(yīng)用場景,明確知識的應(yīng)用方式。
知識表示定義了領(lǐng)域的基本認(rèn)知框架,明確領(lǐng)域有哪些基本的概念,概念之間有哪些基本的語義關(guān)聯(lián)。比如企業(yè)家與企業(yè)之間的關(guān)系可以是創(chuàng)始人關(guān)系,這是認(rèn)知企業(yè)領(lǐng)域的基本知識。知識表示只提供機(jī)器認(rèn)知的基本骨架,還要通過知識獲取環(huán)節(jié)來充實大量知識實例。比如喬布斯是個企業(yè)家,蘋果公司是家企業(yè),喬布斯與蘋果公司就是“企業(yè)家-創(chuàng)始人-企業(yè)”這個關(guān)系的一個具體實例。
知識實例獲取完成之后,就是知識管理。這個環(huán)節(jié)將知識加以存儲與索引,并為上層應(yīng)用提供高效的檢索與查詢方式,實現(xiàn)高效的知識訪問。
四個環(huán)節(jié)環(huán)環(huán)相扣,彼此構(gòu)成相鄰環(huán)節(jié)的輸入與輸出。在知識的具體應(yīng)用過程中,會不斷得到用戶的反饋,這些反饋會對知識表示、獲取與管理提出新的要求,因此整個生命周期會不斷迭代持續(xù)演進(jìn)下去。
▌3.1 知識表示
在知識表示方面,常用三元組(主語、謂詞、賓語)表示知識圖譜。如三元組<七里香,歌曲原唱,周杰倫>表示“七里香這首歌曲的原唱是周杰倫”這一知識。需要強(qiáng)調(diào)一點,知識圖譜只能表達(dá)一些簡單的關(guān)聯(lián)事實,但很多領(lǐng)域應(yīng)用的需求已經(jīng)遠(yuǎn)遠(yuǎn)超出了三元組所能表達(dá)的簡單關(guān)聯(lián)事實,實際應(yīng)用日益對于利用更加多元的知識表示豐富和增強(qiáng)知識圖譜的語義表達(dá)能力提出了需求。
這一趨勢首先體現(xiàn)在對于時間和空間語義的拓展與表達(dá)方面。
有很多知識和事實是有時間和空間條件的,比如說“美國總統(tǒng)是特朗普”這個事實的成立是有時間條件的,十年前美國的總統(tǒng)不是特朗普,十年之后應(yīng)該也不大可能是特朗普。還有很多事實是有空間條件的,比如“早餐是燒餅與油條”這件事,在中國是這樣,但是在西方并非如此,西方的早餐可能是咖啡、面包。
從時空維度拓展知識表示對很多特定領(lǐng)域具有較強(qiáng)的現(xiàn)實意義。比如在位置相關(guān)的應(yīng)用中,如何將POI(Point of Interest)與該POI相關(guān)實體加以關(guān)聯(lián),成為當(dāng)下拓展POI語義表示的重要任務(wù)之一。比如將“邯鄲路220號”(復(fù)旦大學(xué)地址)關(guān)聯(lián)到“復(fù)旦大學(xué)”是十分有意義的。在互聯(lián)網(wǎng)娛樂領(lǐng)域,粉絲們往往不僅僅關(guān)心某個明星的妻子是誰,可能更關(guān)心明星的前任妻子、前任女友等信息,這些應(yīng)用都對事實成立的時間提出了需求。
第二、增強(qiáng)知識圖譜的跨媒體語義表示。
當(dāng)前的知識圖譜主要以文本為主,但是實際應(yīng)用需要有關(guān)某個實體的各種媒體表示方式,包括聲音、圖片、視頻等等。比如對于實體“Tesla Model S”,我們需要將其關(guān)聯(lián)到相應(yīng)圖片和視頻。知識圖譜時空維度拓展在物理實現(xiàn)上可以通過定義四元組或者五元組加以實現(xiàn)。跨媒體表示可以通過定義相關(guān)的屬性加以實現(xiàn)。知識圖譜的語義增強(qiáng)總體上而言將是未來一段時間知識表示的重要任務(wù)。知識圖譜作為語義網(wǎng)絡(luò),側(cè)重于表達(dá)實體、概念之間的語義關(guān)聯(lián),還難以表達(dá)復(fù)雜因果關(guān)聯(lián)與復(fù)雜決策過程。
如何利用傳統(tǒng)知識表示增強(qiáng)知識圖譜,或者說如何融合知識圖譜與傳統(tǒng)知識表示,更充分地滿足實際應(yīng)用需求,是知識圖譜領(lǐng)域值得研究的問題之一。在一些實際應(yīng)用中,研究人員已經(jīng)開始嘗試各種定制的知識表示,在知識圖譜基礎(chǔ)上適當(dāng)擴(kuò)展其他知識表示是一個值得嘗試的思路。
▌3.2 知識獲取
圖3.知識獲取的基本步驟
知識的獲取是個系統(tǒng)工程,流程復(fù)雜,內(nèi)涵豐富,涉及到知識表示、自然語言處理、數(shù)據(jù)庫、數(shù)據(jù)挖掘、眾包等一系列技術(shù)。知識獲取的基本步驟如圖3所示:
第一步是模式(Schema)設(shè)計。這一步是傳統(tǒng)本體設(shè)計所要解決的問題?;灸繕?biāo)是把認(rèn)知領(lǐng)域的基本框架賦予機(jī)器。在所謂認(rèn)知基本框架中需要指定領(lǐng)域的基本概念,以及概念之間subclassof關(guān)系(比如足球領(lǐng)域需要建立“足球運動員”是“運動員”的子類);需要明確領(lǐng)域的基本屬性;明確屬性的適用概念;明確屬性值的類別或者范圍。比如“效力球隊”這個屬性一般是定義在足球運動員這個概念上,其合理取值是一個球隊。
此外,領(lǐng)域還有大量的約束或規(guī)則,比如對于屬性是否可以取得多值的約束(比如“獎項”作為屬性是可以取得多值的),再比如球隊的“隸屬球員”屬性與球員的“效力球隊”是一對互逆屬性。這些元數(shù)據(jù)對于消除知識庫不一致、提升知識庫質(zhì)量具有重要意義。
第二步是明確數(shù)據(jù)來源。在這一步要明確建立領(lǐng)域知識圖譜的數(shù)據(jù)來源??赡軄碜曰ヂ?lián)網(wǎng)上的領(lǐng)域百科爬取,可能來自通用百科圖譜的導(dǎo)出,可能來自內(nèi)部業(yè)務(wù)數(shù)據(jù)的轉(zhuǎn)換,可能來自外部業(yè)務(wù)系統(tǒng)的導(dǎo)入。應(yīng)該盡量選擇結(jié)構(gòu)化程度相對較高、質(zhì)量較好的數(shù)據(jù)源,以盡可能降低知識獲取代價。
第三步是詞匯挖掘。人們從事某個行業(yè)的知識的學(xué)習(xí),都是從該行業(yè)的基本詞匯開始的。在傳統(tǒng)圖書情報學(xué)領(lǐng)域,領(lǐng)域知識的積累往往是從敘詞表的構(gòu)建開始的。敘詞表里涵蓋的大都是領(lǐng)域的主題詞,及這些詞匯之間的基本語義關(guān)聯(lián)。在這一步我們是要識別領(lǐng)域的高質(zhì)量詞匯、同義詞、縮寫詞,以及領(lǐng)域的常見情感詞。比如在政治領(lǐng)域,我們需要知道特朗普又被稱為川普,其英文簡稱為Trump。
第四步是領(lǐng)域?qū)嶓w發(fā)現(xiàn)(或挖掘)。需要指出的是領(lǐng)域詞匯只是識別出領(lǐng)域中的重要短語和詞匯。但是這些短語未必是一個領(lǐng)域?qū)嶓w。從領(lǐng)域文本識別某個領(lǐng)域常見實體是理解領(lǐng)域文本和數(shù)據(jù)的關(guān)鍵一步。在實體識別后,還需對實體進(jìn)行實體歸類。能否把實體歸到相應(yīng)的類別(或者說將某個實體與領(lǐng)域類別或概念進(jìn)行關(guān)聯(lián)),是實體概念化的基本目標(biāo),是理解實體的關(guān)鍵步驟。比如將特朗普歸類到政治人物、美國總統(tǒng)等類別,對于理解特朗普的含義具有重要意義。實體挖掘的另一個重要任務(wù)是實體鏈接,也就是將文本里的實體提及(Mention)鏈接到知識庫中的相應(yīng)實體。實體鏈接是拓展實體理解,豐富實體語義表示的關(guān)鍵步驟。
第五步是關(guān)系發(fā)現(xiàn)。關(guān)系發(fā)現(xiàn),或者知識庫中的關(guān)系實例填充,是整個領(lǐng)域知識圖譜構(gòu)建的重要步驟。關(guān)系發(fā)現(xiàn)根據(jù)不同的問題模型又可以分為關(guān)系分類、關(guān)系抽取和開放關(guān)系抽取等不同變種。關(guān)系分類旨在將給定的實體對分類到某個已知關(guān)系;關(guān)系抽取旨在從文本中抽取某個實體對的具體關(guān)系;開放關(guān)系抽?。∣penIE)從文本中抽取出實體對之間的關(guān)系描述。也可以綜合使用這幾種模型與方法,比如根據(jù)開放關(guān)系抽取得到的關(guān)系描述將實體對分類到知識庫中的已知關(guān)系。
第六步是知識融合。因為知識抽取來源多樣,不同的來源得到的知識不盡相同,這就對知識融合提出了需求。知識融合需要完成實體對齊、屬性融合、值規(guī)范化。實體對齊是識別不同來源的同一實體。屬性融合是識別同一屬性的不同描述。不同來源的數(shù)據(jù)值通常有不同的格式、不同的單位或者不同的描述形式。比如日期有數(shù)十種表達(dá)方式,這些需要規(guī)范化到統(tǒng)一格式。
最后一步是質(zhì)量控制。知識圖譜的質(zhì)量是構(gòu)建的核心問題。知識圖譜的質(zhì)量可能存在幾個基本問題:缺漏、錯誤、陳舊。
先談知識庫的缺漏問題。某種意義上,知識完備對于知識資源建設(shè)而言似乎是個偽命題,我們總能枚舉出知識庫中缺漏的知識。知識缺漏對于自動化方法構(gòu)建的知識庫而言尤為嚴(yán)重。但是即便如此,構(gòu)建一個盡可能全的知識庫仍是任何一個知識工程的首要目標(biāo)。既然自動化構(gòu)建無法做到完整,補全也就成為了提升知識庫質(zhì)量的重要手段。補全可以是基于預(yù)定義規(guī)則(比如一個人出生地是中國,我們可以推斷其國籍也可能是中國),也可以從外部互聯(lián)網(wǎng)文本數(shù)據(jù)進(jìn)行補充(比如很多百科圖譜沒有魯迅身高的信息,需要從互聯(lián)網(wǎng)文本尋找答案進(jìn)行補充)。
其次是糾錯。自動化知識獲取不可避免地會引入錯誤,這就需要糾錯。根據(jù)規(guī)則進(jìn)行糾錯是基本手段,比如A的妻子是B,但B的老公是C,那么根據(jù)妻子和老公是互逆屬性,我們知道這對事實可能有錯。知識圖譜的結(jié)構(gòu)也可以提供一定的信息幫助推斷錯誤關(guān)聯(lián)。比如在由概念和實例構(gòu)成的Taxonomy中,理想情況下應(yīng)該是個有向無環(huán)圖,如果其中存在環(huán),那么有可能存在錯誤關(guān)聯(lián)。
最后一個質(zhì)量控制的重要問題是知識更新。更新是一個具有重大研究價值,卻未得到充分研究的問題。很多領(lǐng)域都有一定的知識積累。但問題的關(guān)鍵在于這些知識無法實時更新。比如電商的商品知識圖譜,往往內(nèi)容陳舊,無法滿足用戶的實時消費需求(比如“戰(zhàn)狼同款飾品”這類與熱點電影相關(guān)的消費需求很難在現(xiàn)有知識庫中涵蓋)。
經(jīng)歷了上述步驟之后得到一個初步的知識圖譜。在實際應(yīng)用中會得到不少反饋,這些反饋作為輸入進(jìn)一步指導(dǎo)上述流程的完善,從而形成閉環(huán)。此外,除了上述自動化構(gòu)建的閉環(huán)流程,還應(yīng)充分考慮人工的干預(yù)。人工補充很多時候是行之有效的方法。比如一旦發(fā)現(xiàn)部分知識缺漏或陳舊,可以通過特定的知識編輯工具實現(xiàn)知識的添加、編輯和修改。也可以利用眾包手段將很多知識獲取任務(wù)分發(fā)下去。如何利用眾包手段進(jìn)行大規(guī)模知識獲取,是個十分有意思的問題,涉及到知識貢獻(xiàn)的激勵機(jī)制,我前幾年有個題為《未來人機(jī)區(qū)分》的報告,專門討論如何利用知識問答形式的驗證碼來做知識獲取,可以搜索此文獲取更多信息。
▌3.3 知識管理
知識圖譜的管理主要圖譜的存儲、檢索等問題。通常這些問題的解決需要數(shù)據(jù)庫系統(tǒng)的支撐,因而系統(tǒng)的選型也是知識圖譜管理的一個重要問題。這里主要討論能用于知識圖譜管理的數(shù)據(jù)庫系統(tǒng)選型以及知識圖譜查詢語言。知識圖譜存儲是個較為專業(yè)化的問題,此處不再深入討論。
知識圖譜管理系統(tǒng)的選型。知識圖譜本質(zhì)上在表達(dá)關(guān)聯(lián),天然地可以用圖加以建模,因而很多人想到用圖數(shù)據(jù)庫對領(lǐng)域知識圖譜加以存儲。圖數(shù)據(jù)庫的確是知識圖譜存儲選型的重要選擇,但是不是唯一選擇。傳統(tǒng)關(guān)系數(shù)據(jù)庫,近幾年充分發(fā)展的其他類型的NoSQL數(shù)據(jù)庫在很多場景下也是合理選擇。那么數(shù)據(jù)庫的選擇考慮的要素是什么呢?有兩類重要的選型要素:圖譜的規(guī)模以及操作復(fù)雜度。
從圖譜的規(guī)模角度來看,百萬、千萬的節(jié)點和關(guān)系規(guī)模(以及以下規(guī)模)的圖譜對于圖數(shù)據(jù)庫的需求并不強(qiáng)烈,圖數(shù)據(jù)庫的必要性在中等或者小規(guī)模知識圖譜上體現(xiàn)并不充分。但是如果圖譜規(guī)模在數(shù)億節(jié)點規(guī)模以上,圖數(shù)據(jù)庫就十分必要了。
從操作復(fù)雜性來看,圖譜上的操作越是復(fù)雜,圖數(shù)據(jù)庫的必要性越是明顯。圖譜上的全局計算(比如平均最短路徑的計算),圖譜上的復(fù)雜遍歷,圖譜上的復(fù)雜子圖查詢等等都涉及圖上的多步遍歷。圖上的多步遍歷操作如果是在關(guān)系數(shù)據(jù)庫上實現(xiàn)需要多個聯(lián)結(jié)(Join)操作。多個聯(lián)結(jié)操作的優(yōu)化一直以來是關(guān)系數(shù)據(jù)庫的難題。圖數(shù)據(jù)庫系統(tǒng)實現(xiàn)時針對多步遍歷做了大量優(yōu)化,能夠?qū)崿F(xiàn)高效圖遍歷操作。
除了上述因素之外,還應(yīng)該充分考慮系統(tǒng)的易用性、普及性與成熟度。總體而言圖數(shù)據(jù)庫還是發(fā)展中的技術(shù),對于復(fù)雜圖數(shù)據(jù)管理系統(tǒng)的優(yōu)化也是只有少部分專業(yè)人員才能從事的工作。在數(shù)據(jù)庫選型時需要充分考慮這些因素。我們實驗室在實現(xiàn)CN-DBpedia(2000萬實體、2.2億關(guān)系)在線服務(wù)系統(tǒng)時先后采用了RelationalDB、Graph DB、MongoDB,最后出于綜合考慮選用的是MongoDB,已經(jīng)穩(wěn)定運行了三年,累計提供10億多次API服務(wù)。
知識圖譜查詢語言。通常對于表達(dá)為RDF形式的知識圖譜,可以使用SPARQL查詢語言。SPARQL語言針對RDF數(shù)據(jù)定義了大量的算子,對于推理操作有著很好支撐,因而能夠適應(yīng)領(lǐng)域中的復(fù)雜查詢與復(fù)雜推理。從應(yīng)用角度來看,也可以將知識圖譜僅僅表達(dá)為無類型的三元組。對于這種輕量級的表示,關(guān)系數(shù)據(jù)庫與傳統(tǒng)NoSQL數(shù)據(jù)庫也是較好選擇。那么此時,SQL語句就是比較好的選擇。SQL十分成熟,語法簡單,用戶眾多且有著幾十年的成功應(yīng)用基礎(chǔ)。
很多領(lǐng)域圖譜上的查詢是相對簡單的,以單步或者兩到三步遍歷居多。此時,SQL完全能夠勝任。但是不排除有一些特定場景,特別是公共安全、風(fēng)控管理等領(lǐng)域,通常需要進(jìn)行復(fù)雜關(guān)聯(lián)分析,需要較長路徑的遍歷,需要開展復(fù)雜子圖挖掘,此時SQL的表達(dá)能力就顯得相對較弱了。
四、知識圖譜的發(fā)展現(xiàn)狀及應(yīng)用
▌4.1知識圖譜的應(yīng)用
知識圖譜的應(yīng)用場景非常廣泛,除了通用應(yīng)用外,在金融、政府、醫(yī)療等領(lǐng)域也有特殊的應(yīng)用。
圖4. 知識圖譜的應(yīng)用
通用領(lǐng)域的應(yīng)用主要包括精準(zhǔn)分析、智能搜索、智能問答、智能推薦等。在精準(zhǔn)分析方面,當(dāng)認(rèn)識到王寶強(qiáng)和寶寶是指同一個人后,就可以合并“王寶強(qiáng)離婚”和“寶寶離婚”兩個事件,得到一個統(tǒng)一的熱點分析。
在智能搜索方面,通過知識圖譜建立起實體及其之間的關(guān)系,可提高搜索引擎的理解能力。例如建立代碼知識圖譜,自動理解代碼的上下文信息,如建立起“quicksort”和“快速排序”、“QS”等的等價關(guān)系,以及“quick sort”是一種排序算法的isA關(guān)系等。這樣一來,當(dāng)用戶搜索“排序算法”時,能把代碼中包含“quick sort”、“快速排序”的內(nèi)容都搜索出來。實現(xiàn)代碼的精準(zhǔn)、高效搜索。
在智能問答方面,系統(tǒng)降低了人機(jī)交互的門檻,非常適合成為互聯(lián)網(wǎng)的新入口。相較于傳統(tǒng)的用戶輸入問題,搜索引擎返回網(wǎng)頁的方式,智能問答系統(tǒng)可以直接通往答案。例如復(fù)旦大學(xué)知識工場實驗室推出的“不倒翁問答”,是一個基于知識圖譜和互聯(lián)網(wǎng)內(nèi)容作為答案來源的問答系統(tǒng),能回答各類事實型問題。系統(tǒng)接收自然語言問句作為輸入,通過深度學(xué)習(xí)的方法,從知識圖譜和互聯(lián)網(wǎng)中找到相應(yīng)的答案進(jìn)行解答。支持單知識問題、是否問題、比較問題、枚舉問題、常識問題以及多知識問題等。
在智能推薦方面,可基于知識圖譜構(gòu)建場景,提供基于場景的推薦。例如在電商領(lǐng)域,通過用戶已購產(chǎn)品推斷其購物場景,并推薦其他相關(guān)場景產(chǎn)品成為一個熱門需求。
金融領(lǐng)域的應(yīng)用主要包括風(fēng)險控制和智能投顧等。在風(fēng)險控制方面,通過構(gòu)建工商知識圖譜,可以將人、公司的信息用可視化的方式清晰的展示出來。一來可以用于人的特征的不一致性檢測;二來可以進(jìn)行異常節(jié)點分析,如正常借貸人只用一個手機(jī)號在一個金融產(chǎn)品中進(jìn)行借貸,而異常借貸人會使用多個手機(jī)號在多個不同的金融產(chǎn)品中進(jìn)行借貸;三來很多欺詐團(tuán)伙組織會通過一系列的復(fù)雜操作來持有公司,利用知識圖譜的可視化可以發(fā)現(xiàn)其中的潛在風(fēng)險。
在智能投顧方面,通過對金融數(shù)據(jù)進(jìn)行結(jié)構(gòu)化提取和智能化分析,根據(jù)客戶自身的理財需求,實現(xiàn)自動理財顧問。
政府領(lǐng)域的應(yīng)用主要包括數(shù)據(jù)治理、司法智能輔助審判和智能情報研判等。在數(shù)據(jù)治理方面,可將所有政務(wù)公開數(shù)據(jù)進(jìn)行融合,構(gòu)建政務(wù)知識圖譜,為用戶提供統(tǒng)一的政務(wù)數(shù)據(jù)訪問服務(wù)。
在司法智能輔助審判方面,通過建立司法知識圖譜,建立了一套智能判案輔助機(jī)器人系統(tǒng)。為當(dāng)事人提供專業(yè)的案件咨詢,案件風(fēng)險評估,法院服務(wù)和法律援助等。提高簡單案件的審判效率,減少寶貴的司法資源的浪費。
在智能情報研判方面,主要對公安情報數(shù)據(jù)進(jìn)行智能整合,將真實世界的海量異構(gòu)碎片化數(shù)據(jù)等價轉(zhuǎn)換為一張唯一的關(guān)系大網(wǎng),與真實世界的人事地物組織對象一一對應(yīng),類似于“公安大腦”。構(gòu)建完成后,每個民警都可以借助這個“公安大腦”來進(jìn)行情報分析,準(zhǔn)確做出判斷。
醫(yī)療領(lǐng)域的主要應(yīng)用包括智能輔助問診和導(dǎo)診和醫(yī)藥研發(fā)等。在智能輔助問診和導(dǎo)診方面,通過構(gòu)建醫(yī)療知識圖譜及相應(yīng)的虛擬助手,實現(xiàn)對患者進(jìn)行自動問診并生成規(guī)范、詳細(xì)的門診電子病歷。同時,根據(jù)患者的病歷,自動對其進(jìn)行導(dǎo)診。
在醫(yī)藥研發(fā)方面,傳統(tǒng)藥物研發(fā)需要經(jīng)歷靶點篩選、藥物挖掘、臨床試驗、藥物優(yōu)化等階段,耗時十分巨大。通過從海量醫(yī)學(xué)文獻(xiàn)、論文、專利、臨床試驗信息等非結(jié)構(gòu)化數(shù)據(jù)中抽取出可用的信息,構(gòu)建生物知識圖譜,可加快醫(yī)藥的研發(fā)速度。
五、知識圖譜面臨的挑戰(zhàn)
知識圖譜技術(shù)的挑戰(zhàn)主要表現(xiàn)在知識表示、知識獲取和知識應(yīng)用等三個方面。
在知識表示層面,越來越多的領(lǐng)域應(yīng)用不僅僅需要關(guān)聯(lián)事實這種簡單知識表示,還要表達(dá)包括邏輯規(guī)則、決策過程在內(nèi)的復(fù)雜知識;需要同時表達(dá)靜態(tài)知識和動態(tài)知識。單單知識圖譜已經(jīng)不足以解決領(lǐng)域的很多實際問題。如何去增強(qiáng)知識圖譜的語義表達(dá)能力,如何綜合使用多種知識表示來解決實際應(yīng)用中的復(fù)雜問題是非常重要的研究課題。
在知識獲取方面,領(lǐng)域知識圖譜一般樣本很小,如果需要構(gòu)建抽取模型,那就需要基于小樣本構(gòu)建有效的模型。目前基于小樣本的機(jī)器學(xué)習(xí)仍然面臨巨大挑戰(zhàn)。解決這一問題的思路之一就是利用知識引導(dǎo)機(jī)器學(xué)習(xí)模型的學(xué)習(xí)過程。具體實現(xiàn)手段已經(jīng)有不少團(tuán)隊在開展相關(guān)的探索工作,比如利用知識增強(qiáng)樣本、利用知識構(gòu)建目標(biāo)函數(shù)的正則項以及利用知識構(gòu)建優(yōu)化目標(biāo)的約束等等??傮w而言,這仍然是個開放問題需要巨大的研究投入。
在知識的深度應(yīng)用方面。如何將領(lǐng)域知識圖譜有效應(yīng)用于各類應(yīng)用場景,特別是推薦、搜索、問答之外的應(yīng)用,包括解釋、推理、決策等方面的應(yīng)用仍然面臨巨大挑戰(zhàn),仍然存在很多開放性問題。
六、知識圖譜未來的發(fā)展趨勢
從2012年發(fā)展至今,知識圖譜技術(shù)發(fā)生了一系列的變革。從兩個方面來講,一方面是應(yīng)用場景,另一個方面就是技術(shù)生態(tài)。隨著應(yīng)用場景和技術(shù)生態(tài)的變化,整個知識圖譜面臨著全新的挑戰(zhàn),以前的技術(shù)手段在應(yīng)對現(xiàn)在智能化大潮給我們提出的挑戰(zhàn)的時候,已經(jīng)有些力不從心,所以我們要研發(fā)一些新技術(shù)。
從應(yīng)用的角度來講,知識圖譜的應(yīng)用趨勢越來越從通用領(lǐng)域走向行業(yè)領(lǐng)域,現(xiàn)在的局面是通用與行業(yè)應(yīng)用百花齊放,各行各業(yè)都在討論適合自己的知識圖譜。
今天展示給大家的是我們自己實驗室的知識圖譜,在通用領(lǐng)域,我們實驗室有CN-DBpedia,Probaseplus。CN-DBpedia是一種通用百科知識圖譜。通用知識庫在通用人工智能中扮演著重要的角色,是未來競爭的戰(zhàn)略制高點,即掌握了通用人工智能技術(shù),可以從一個戰(zhàn)略制高點向下俯沖,這樣收獲領(lǐng)域知識圖譜的成果是相對容易的。但是如果只具備領(lǐng)域人工智能的能力,未必可以掌握通用人工智能能力。
雖然領(lǐng)域/行業(yè)人工智能技術(shù)更容易落地,但是從戰(zhàn)略層面上來講,一定要對通用人工智能予以高度的關(guān)注。領(lǐng)域人工智能在很多領(lǐng)域已經(jīng)落地開花,但領(lǐng)域圖譜的應(yīng)用也不是簡單的事,還具有很多挑戰(zhàn)性的研究問題,領(lǐng)域知識庫構(gòu)建的語料往往比較稀疏,比如在某個領(lǐng)域提到某個事實,某類關(guān)系的樣本非常少,這個時候利用關(guān)系去構(gòu)建有效的抽取模型就會變的十分困難,在樣本稀疏的環(huán)境下去做領(lǐng)域知識圖譜的自動化構(gòu)建仍然是件非常困難的事情。
第二個應(yīng)用場景發(fā)生變化是從搜索延伸至推薦、問答等復(fù)雜任務(wù)。舉個例子,用知識圖譜幫助搜索代碼,如果能利用知識圖譜理解搜索意圖,并返回準(zhǔn)確的代碼,這樣效率將大有提升。用戶搜索輸入關(guān)鍵字,機(jī)器給出答案,還可以為用戶做智能推薦。將來更智能的形式就是直接問答,我們實驗室研發(fā)的“小Cui問答”就是這樣的問答系統(tǒng)。整個知識圖譜將來會在越來越復(fù)雜和多元的場景下發(fā)揮重要的作用。
再進(jìn)一步就是交互方式發(fā)生變化。以前的交互方式更多是基于關(guān)鍵字,現(xiàn)在越來越多的是自然語言的處理,對話式的處理,像GoogleNow,Apple Siri,Amazon Alexa等等,很多大公司都在研發(fā)自然語言交互的產(chǎn)品,這意味著自然語言交互成為未來人機(jī)交互的主流方式。對知識圖譜提出的挑戰(zhàn)就是,對自然語言的認(rèn)知到了一個新的高度,需要能夠利用知識圖譜幫助平臺和系統(tǒng)更好地理解問答,上下文對話等等。
進(jìn)而就是從用戶提的問題來看,呈現(xiàn)出從簡單的陳述類問題到解釋類問題的變化趨勢。以前用戶喜歡問“what”、“who”、“when”、“where”這樣簡單陳述性問題,現(xiàn)在越來越多的問“why”、“how”。用戶對系統(tǒng)智能性的期望越來越高,很多用戶在Google上問why類問題,但是很遺憾,Google還不能進(jìn)行回答,只能回答陳述類問題。隨著“why”、“how”問題越來越多,解釋就變的很重要,可解釋是未來人工智能發(fā)展的核心訴求之一,是人機(jī)互信的前提。
再進(jìn)一步就是,以前在實體之間找到一些簡單關(guān)系就行了,比如王寶強(qiáng)的老婆是馬蓉,但現(xiàn)在不滿足于簡單關(guān)系的揭示,而是希望能夠推理出一些深層關(guān)系,比如王寶強(qiáng)離婚案,為什么王寶強(qiáng)會請張起淮當(dāng)律師?王寶強(qiáng)和馮小剛是好朋友,馮小剛有個御用演員叫徐靜蕾,張起淮是徐靜蕾的法律顧問,所以王寶強(qiáng)會請張起淮當(dāng)律師,這個就是深層關(guān)系推理。隱式關(guān)系發(fā)現(xiàn)、深層關(guān)系推理將成為智能的主要體現(xiàn)之一。
再從技術(shù)生態(tài)的角度來看,人工智能也發(fā)生了很大的變化。從機(jī)器學(xué)習(xí)來看,雖然深度學(xué)習(xí)發(fā)展非常迅速,并且在樣本數(shù)據(jù)豐富的場景下取得了很好的效果,但是機(jī)器學(xué)習(xí)仍然存在很多問題,小樣本學(xué)習(xí)、無監(jiān)督學(xué)習(xí)手段有限,現(xiàn)有模型難以有效利用大量先驗知識。再從自然語言處理角度來看,雖然自然語言處理在深度學(xué)習(xí)的推動下取得了很大的進(jìn)展,但是自然語言處理離實際應(yīng)用需求還很遠(yuǎn),還只是在處理階段,遠(yuǎn)遠(yuǎn)談不上理解。從知識庫本身來看,英文圖譜積累迅速,發(fā)展得相當(dāng)成熟,并且在很多應(yīng)用中發(fā)揮了巨大的作用,但是其他語種的知識圖譜十分缺乏。
雖然現(xiàn)在知識圖譜很多,但是大部分都側(cè)重在簡單事實,對于常識的覆蓋仍然十分有限。很多知識圖譜都是依賴手工構(gòu)建的,如何從大規(guī)模數(shù)據(jù)里用數(shù)據(jù)挖掘的方法自動挖掘出知識圖譜的手段仍然缺乏。
總體而言,知識圖譜技術(shù)的落地應(yīng)用前景是光明的,但是也需要充分意識到知識圖譜落地的巨大挑戰(zhàn)。
-
人工智能
+關(guān)注
關(guān)注
1789文章
46652瀏覽量
237064 -
知識圖譜
+關(guān)注
關(guān)注
2文章
132瀏覽量
7683
原文標(biāo)題:肖仰華談知識圖譜:知識將比數(shù)據(jù)更重要,得知識者得天下
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論