0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

知識圖譜的關(guān)鍵技術(shù)和應(yīng)用

電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-09-10 09:53 ? 次閱讀

本課程從知識圖譜的歷史由來開展,講述知識圖譜與人工智能的關(guān)系與現(xiàn)狀;知識圖譜輻射至各行業(yè)領(lǐng)域的應(yīng)用;在知識圖譜關(guān)鍵技術(shù)概念與工具的實踐應(yīng)用中,本課程也會講解知識圖譜的構(gòu)建經(jīng)驗;以及達(dá)觀在各行業(yè)領(lǐng)域系統(tǒng)中的產(chǎn)品開發(fā)和系統(tǒng)應(yīng)用。

以下是公開課文本版整理

大家晚上好!我是達(dá)觀數(shù)據(jù)的桂洪冠,負(fù)責(zé)達(dá)觀的搜索技術(shù)團(tuán)隊。非常高興今天晚上能給大家做一個分享,分享的主題是“知識圖譜的關(guān)鍵技術(shù)和應(yīng)用”。

達(dá)觀數(shù)據(jù)是一家專注于文本智能處理的人工智能技術(shù)企業(yè),我們?yōu)槠髽I(yè)提供完善的文本挖掘、知識圖譜、搜索引擎、個性化推薦的文本智能處理技術(shù)服務(wù)。

言歸正傳,進(jìn)入今天的演講環(huán)節(jié)。今天的演講主題是“知識圖譜關(guān)鍵技術(shù)與應(yīng)用”,分成幾個環(huán)節(jié):

一、知識圖譜的相關(guān)概述;

二、知識圖譜的基本概念;

三、知識圖譜行業(yè)方面的應(yīng)用和場景介紹,著重講一下知識圖譜構(gòu)建的相關(guān)技術(shù);

四、達(dá)觀在知識圖譜構(gòu)建方面的經(jīng)驗、心得和相關(guān)案例。

最后是與大家的Q&A互動環(huán)節(jié)。

▌一、知識圖譜的概述

我們先直觀的來看一下什么是知識圖譜,下面有一張圖,從這張圖里可以看到,這個圖里圓圈是節(jié)點,節(jié)點之間有一些帶箭頭的邊來連成,這個節(jié)點實際上相當(dāng)于知識圖譜里的實體或者概念,邊連線表示實體之間的關(guān)系。

知識圖譜本質(zhì)上是一種大型的語義網(wǎng)絡(luò),它旨在描述客觀世界的概念實體事件以及及其之間的關(guān)系。以實體概念為節(jié)點,以關(guān)系為邊,提供一種從關(guān)系的視角來看世界。

語義網(wǎng)絡(luò)已經(jīng)不是什么新鮮事,早在上個世紀(jì)就已經(jīng)出現(xiàn)了,但為什么重新又提到知識圖譜?

知識圖譜本質(zhì)上是一種語義網(wǎng)絡(luò),但是它最主要的特點是一個非常大規(guī)模的語義網(wǎng)絡(luò),之前的語義網(wǎng)絡(luò)受限于我們處理的方法,更多是依賴于專家的經(jīng)驗規(guī)則去構(gòu)建,在規(guī)模方面受限于特定領(lǐng)域的數(shù)據(jù)。大規(guī)模網(wǎng)絡(luò),谷歌在2012年首先提出知識圖譜的概念,在freebase的基礎(chǔ)上擴(kuò)展了大量來自互聯(lián)網(wǎng)的實體數(shù)據(jù)和關(guān)系數(shù)據(jù)。據(jù)說目前實體的數(shù)據(jù)已經(jīng)達(dá)到數(shù)十億級,有達(dá)到千億級的實例關(guān)系,規(guī)模是非常巨大的。

我們再看一下,知識圖譜背后是怎么表示的,我們看到的是一個巨大的語義網(wǎng),背后是怎么存儲或者表示的呢?

首先,它是由三元組構(gòu)成的,構(gòu)成知識圖譜的核心其實就是三元組,三元組是由實體、屬性和關(guān)系組成的(由Entity、Attribute、Relation組成)。

具體表示方法為,實體1跟實體2之間有某種關(guān)系,或者是實體屬性、屬性詞。

舉個例子,“達(dá)觀數(shù)據(jù)是一家人工智能公司”,其實就可以表示成這樣的三元組:

<達(dá)觀數(shù)據(jù),is-a,人工智能公司>。

“人工智能公司是一種高科技公司”可以表示成:

<人工智能公司,subclass,高科技公司>。

“達(dá)觀數(shù)據(jù)成立于2015年”,也可以把這個屬性表示成一個三元組,就是:

<達(dá)觀數(shù)據(jù),start-time,2015年>。

基于已有的三元組,它可以推導(dǎo)出新的關(guān)系,這個對構(gòu)建知識圖譜來說是非常重要的。我們知道,知識圖譜要有豐富的實體關(guān)系,才能真正達(dá)到它實用的價值。完全靠人工去做的話是不太現(xiàn)實的,所以內(nèi)部一定有一個自動推理的機(jī)制,可以不斷的去推理出新的關(guān)系數(shù)據(jù)出來,不斷的豐富知識圖譜。

來看一些具體的例子。

“人工智能公司是一種高科技公司”,subclass的關(guān)系。

還有一個三元組是谷歌是一家人工智能公司,,可以由這兩個三元組推導(dǎo)出谷歌是一家高科技公司,。因為subclass的實例之間是一種繼承的關(guān)系。

<翅膀part-of鳥>,<麻雀kind-of鳥>,可以推導(dǎo)出<翅膀part-of麻雀>。

為什么要用三元組來描述知識圖譜?

三元組是一個人和計算機(jī)都易于理解的結(jié)構(gòu),人是可以解讀的,計算機(jī)也可以通過三元組去處理,所以它是一個既容易被人類解讀,又容易被計算機(jī)來處理和加工的結(jié)構(gòu),而且它也足夠的簡單,如果說你擴(kuò)充成四元組、五元組,它整個結(jié)構(gòu)就會變得比較復(fù)雜,那是綜合的一種復(fù)雜性和人的易理解性、和計算機(jī)的易出理性來綜合的考慮,決定用三元組的結(jié)構(gòu)來去作為它的一個存儲。

那么,AI為什么需要知識圖譜?

人工智能分為三個階段,從機(jī)器智能到感知智能,再到認(rèn)知智能。

機(jī)器智能更多強(qiáng)調(diào)這些機(jī)器的運算的能力,大規(guī)模的集群的處理能力,GPU的處理的能力。

在這個基礎(chǔ)之上會有感知智能,感知智能就是語音識別、圖像識別,從圖片里面識別出一個貓,識別人臉,是感知智能。感知智能并非人類所特有,動物也會有這樣的一些感知智能。

再往上一層的認(rèn)知智能,是人類所特有的,是建立在思考的基礎(chǔ)之上的,認(rèn)知的建立是需要思考的能力,而思考是建立在知識的基礎(chǔ)之上,必須有知識的基礎(chǔ)、有一些常識,才能建立一些思考,形成一個推理機(jī)制。

AI需要從感知智能邁向認(rèn)知智能,本質(zhì)上知識是一個基礎(chǔ),然后基于知識的推理,剛好知識圖譜其實是具備這樣的一個屬性。

知識圖譜其實是富含有實體、屬性、概念、事件和關(guān)系等信息,它能夠基于一定的推理。且比較關(guān)鍵的是,它能夠基于一定的推理為AI的可解釋性,帶來全新的一個視角。

可解釋性已被一些領(lǐng)域AI大規(guī)模使用,比如醫(yī)療領(lǐng)域,AI進(jìn)行癌癥的診斷的結(jié)果,如果沒有給出一個合理的一個理由,或者是給出一個解釋的一個方法,醫(yī)生是不敢貿(mào)然的用AI給出的癌癥診斷的結(jié)果去給病人直接做下一步的措施。包括金融領(lǐng)域也一樣,AI如果給投資人推薦了一個投資的方案,但是沒有給出任何的一個解釋跟說明的話,也會存在巨大的一個風(fēng)險。同樣,在司法領(lǐng)域也是一樣,用AI進(jìn)行判案,AI給一個案件判定一個結(jié)果,但是沒有給出任何的一個解釋,也是不能作為結(jié)果來采用的,因為司法強(qiáng)調(diào)的就是一種可解釋性,對法律的解釋性、可推理性。

為什么說知識圖譜可以做這樣一個可解釋性呢?

舉個例子,我們問“C羅為什么那么牛?”

C羅為什么那么牛?這個是一個問題,要解釋回答這個問題,人通常是怎么樣去回答這樣的問題呢?上圖,通過知識圖譜的簡單的推理,就可以回答這樣一個問題,因為C羅獲得過金球獎,C羅跟金球獎之間的關(guān)系是獲得獎項的一個關(guān)系,金球獎跟影響力最大的足球評選獎項之一有這樣一個地位的關(guān)系,它具有這樣的一個非常高的地位,C羅又獲得過這個獎項,所以可以得出,C羅是很牛的。這是一種知識圖譜來解釋、來回答這樣一個“為什么”的一個問題。

同樣還有一些問題,比如,“鱷魚為什么那么可怕?”

人類是有一樣這樣的常識,所有的大型的食肉動物都是很可怕,這是個常識。鱷魚是一種大型的食薄動物,鱷魚跟大型食肉動物概念之間是一種instance的關(guān)系。通過這樣的一個常識和概念之間的關(guān)系,可以推導(dǎo)出鱷魚是很可怕的。同樣的,“鳥兒為什么會飛?”因為它有翅膀,鳥兒這個實體它的屬性是有翅膀,利用一個實體跟屬性之間的關(guān)系,可以做這樣一個推理。

之前微博上關(guān)曉彤跟鹿晗非常的火,經(jīng)常被刷屏,這是為什么?

因為關(guān)曉彤跟鹿晗之間是男女朋友這樣的關(guān)系,明星之間的男女朋友的關(guān)系就最容易被大家追捧,也最容易被刷屏。這個就是通過關(guān)系也好,通過實體的屬性也好,通過實體的概念也好,就可以去解釋、去回答一些問題。這些是知識圖譜在AI在可解釋性方面的一些具體的例子。

深度學(xué)習(xí)的可解釋性非常差的,深度學(xué)習(xí)里面內(nèi)部的語義表達(dá)、向量的表達(dá)都是一些浮點數(shù),人類是非常難以理解的。深度學(xué)習(xí)出來的結(jié)果,它的可解釋性也是非常少的。

盡管我們現(xiàn)在在研究可視化的技術(shù),把中間的它的結(jié)果呈現(xiàn)出來、可視化出來,但是真正能達(dá)到對人有效的解釋性進(jìn)展還是比較緩慢的。知識圖譜實際上是有望能夠消除人類的自然語言跟深度學(xué)習(xí)黑盒之間的語義鴻溝。也就是深度學(xué)習(xí)的底層的特征空間和上層的人的自然語言空間這種巨大的語義鴻溝,通過深度學(xué)習(xí)跟知識圖譜結(jié)合起來,有望能夠消除。這也是為什么AI要結(jié)合知識圖譜的一個原因。

▌二、知識圖譜的典型行業(yè)應(yīng)用介紹

1. 金融行業(yè)的應(yīng)用。

知識圖譜在金融行業(yè)里面比較典型的應(yīng)用就是風(fēng)控反欺詐。

(1). 知識圖譜可以進(jìn)行信息的不一致性檢查,來確定是不是存在可能的借款人欺詐的風(fēng)險,比如第一個圖里面的借款人甲和乙來自于不同的公司,但是他卻非常詭異地留下了相同的公司的電話號碼,這時審核人員就要格外留意了,有可能會存在欺詐的風(fēng)險。

(2). 組團(tuán)欺詐,甲乙丙三個借款人同一天向銀行發(fā)起借款,他們是互不相關(guān)的人,但是他們留了相同的地址,這時有可能是組團(tuán)的欺詐。

(3). 靜態(tài)的異常檢測,它表示的是在某個時間點突然發(fā)現(xiàn)圖中的某幾個節(jié)點的聯(lián)系異常的緊密,原來是互相聯(lián)系都比較少、比較松散的,突然間有幾個點之間密集的聯(lián)系,有可能會出現(xiàn)欺詐組織。

(4). 動態(tài)的異常檢測(第二行中間圖),是隨著時間的變化,它的幾個節(jié)點之間圖的結(jié)構(gòu)發(fā)生明顯的變化,原來它是比較穩(wěn)定的,左邊黑色的上三角、下三角,然后中間連線,但過了一段時間之后,它整個圖的結(jié)構(gòu)變成了右邊的這樣結(jié)構(gòu),此時很可能是異常的關(guān)系的變化,會出現(xiàn)一個欺詐組織。

(5). 客戶關(guān)系管理。怎么樣去做失聯(lián)客戶的管理?圖中的例子有一個借款的用戶,銀行可能現(xiàn)在沒有辦法直接找到他,甚至通過他的直接聯(lián)系人也沒辦法找到他,那這個時候是不是可以再進(jìn)一步的通過他的二度聯(lián)系人來間接的來找到他?通過這樣的圖結(jié)構(gòu)是可以快速找到他的二度聯(lián)系人,比如張小三或者是王二,再去聯(lián)系他們,嘗試把李四這個人給找到。

2.輔助信貸審核和投研分析

左邊是輔助審貸。

知識圖譜會融合多個數(shù)據(jù)源,從多個維度來維護(hù)關(guān)聯(lián)人員的信息,來避免數(shù)據(jù)不全與數(shù)據(jù)孤島,把它整合到一個大的網(wǎng)絡(luò)結(jié)構(gòu)里面去,借助知識圖譜的搜索,審核人員可以快速的獲取到信貸申請人張三的相關(guān)的信息,住址、配偶、就職公司、他的朋友等等。這比原來到各個異構(gòu)且散落的數(shù)據(jù)源去進(jìn)行搜集的效率要高得多,且能夠從整體上來看到關(guān)鍵實體相互之間的關(guān)聯(lián)關(guān)系。

第二個是用于輔助投研的。

知識圖譜能夠?qū)崟r地串聯(lián)起來這個公司相關(guān)的上下游公司,供應(yīng)商的關(guān)系、競爭者的關(guān)系、客戶的關(guān)系、投融資那些關(guān)系等,然后進(jìn)行快速實時的定位。中信通訊這家公司前不久被美國政府進(jìn)行合規(guī)性審查,這個時候投研人員通過知識圖譜搜索到中興通訊公司實體,進(jìn)而可以非??斓氐玫礁信d通訊相關(guān)的上下游公司實體,包括關(guān)聯(lián)的子公司、供應(yīng)商、客戶、競爭對手、合作伙伴,有助于投研人員快速的做決策。

3.精準(zhǔn)營銷應(yīng)用

知識圖譜能夠比較全面的記錄客戶的非常詳細(xì)的信息,包括名字,住址,經(jīng)常和什么樣的人進(jìn)行互動,還認(rèn)識其它什么樣的人,網(wǎng)上的行為習(xí)慣、行為方式是什么樣的,這樣就可以知識圖譜挖掘出更多的用戶的屬性標(biāo)簽和興趣標(biāo)簽,以及社會的屬性標(biāo)簽,形成全面的用戶洞察,基于知識圖譜就可以進(jìn)行個性化的商品或者活動的推送,或者基于用戶的分群分組做定向營銷,從而實現(xiàn)精準(zhǔn)營銷。

4. 知識圖譜在搜索引擎里面的應(yīng)用,最典型的就是在谷歌搜索引擎里面應(yīng)用。

谷歌是在2012年率先提出來知識圖譜的概念。提出這個概念的最主要的目的就是改善它的搜索引擎的體驗。從這個圖就可以看到,用戶搜索的是泰姬陵,泰姬陵是印度的非常著名的,也是世界八大奇跡之一的景點。

不一樣的地方,在搜索引擎的右側(cè),會以知識卡片的形式來呈現(xiàn)跟泰姬陵相關(guān)的結(jié)構(gòu)化的信息,包括泰姬陵的地圖、圖片、景點的描述、開放時間門票等等,甚至在下面會列出跟泰姬陵相類似或者相關(guān)聯(lián)的景點,比如中國的萬里長城,同樣是世界的幾大奇跡,還有金字塔等等。同時,它還可以進(jìn)行知識的擴(kuò)展,比如泰姬陵不光是印度的景點,它還可以是一張音樂專輯,它甚至是國外某城市的街區(qū)街道。這樣通過知識圖譜可以不斷的去探索發(fā)現(xiàn)新的非常新奇的東西,讓用戶在搜索引擎里面能夠不斷的去進(jìn)行知識的關(guān)聯(lián)和發(fā)現(xiàn),激發(fā)起用戶的搜索的欲望。原來我們搜索引擎講究的是說快速的找到它的結(jié)果,然后關(guān)掉就完了,谷歌通過知識圖譜,實際上是把搜索引擎變成了知識的探索和發(fā)現(xiàn)引擎,這是概念和理念上的非常大的變遷與升級。

5.知識圖譜應(yīng)用于推薦系統(tǒng)

我們比較熟悉的是個性化推薦,即所謂的千人千面,比如根據(jù)游戲來推薦游戲的道具。對于小白用戶和骨灰級的用戶,推薦的東西顯然是不一樣的,這是個性化的推薦。個性化推薦之外,還有場景化的推薦,比如用戶購買了沙灘鞋,存在用戶可能要去海邊度假這樣的場景,基于這樣的場景可以繼續(xù)給他推薦游泳衣、防曬霜或者其它的海島旅游度假的產(chǎn)品。

任務(wù)型的推薦。比如用戶買了牛肉卷或者羊肉卷,假設(shè)他實際上是要為了做一頓火鍋。,這時候系統(tǒng)可以給他推薦火鍋底料或者是電磁爐。

冷啟動問題。推薦系統(tǒng)的冷啟動一直是比較難以處理的問題,通常的做法是根據(jù)新用戶的設(shè)備類型,或者他當(dāng)前的時間位置等等,或者外面的關(guān)聯(lián)數(shù)據(jù)來做推薦??梢曰谥R圖譜的語義關(guān)聯(lián)標(biāo)簽進(jìn)行推薦,比如旅游和攝影實際上是語義相近的兩個標(biāo)簽,再比如相同的導(dǎo)演或者相同演員的電影在語義上也是比較相近的。

跨領(lǐng)域的推薦問題。微博的信息流里會推薦淘寶的商品,然而微博和淘寶是兩個不同的領(lǐng)域,它是怎么做到的呢?新浪微博有些用戶會經(jīng)常去曬黃山、九寨溝、泰山等這些照片,這個時候我們就知道他有可能是一位登山的愛好者,這個時候淘寶就會可以給他推薦登山的裝備,登山杖、登山鞋等等這些裝備,利用這些背景知識,能夠打通不同的平臺之間的語義鴻溝。

知識型的推薦,是基于知識的。比如清華大學(xué)、北京大學(xué)都是頂級名校,復(fù)旦大學(xué)也同樣是,這個時候是可以推薦復(fù)旦大學(xué),再比如百度、阿里和騰訊都屬于BAT級互聯(lián)網(wǎng)公司,基于百度、阿里就可以推薦騰訊。

有了知識圖譜以后,我們可以從基于行為的推薦,發(fā)展到行為跟語義相融合的智能推薦。

▌三、如何構(gòu)建知識圖譜

構(gòu)建知識圖譜是包括這樣的生命周期或這樣的部分,包括定義、知識的抽取、知識的融合、存儲、知識的推理、知識的應(yīng)用,這樣的循環(huán)迭代的過程。

我們先來理解一下本體的概念,本體是用于描述事物的本質(zhì)的,維基百科里面對于計算機(jī)科學(xué)領(lǐng)域當(dāng)中的本體給出的定義是這樣的,即:對于特定領(lǐng)域真實存在的實體的類型、屬性,以及它們之間的相互關(guān)系的一種定義。

我們再來看看知識圖譜和本體的關(guān)系,下面這張圖,我們看到有兩個層,就下面是本體層,上面是事實層,那本體層是基于特定領(lǐng)域的概念的定義,包括概念的屬性,概念之間的關(guān)系,一般概念之間的關(guān)系是一種父子關(guān)系,也有叫做上下位的關(guān)系。事實層是具體的真實存在的實體,包括實體的屬性以及實體之間的關(guān)系,每個實體都會映射到本體層相應(yīng)的概念。面向?qū)γ娲蠹叶急容^熟悉,給大家舉例說明一下,本體層的概念就好比面向?qū)ο罄锩娴念惖母拍睿缓笫聦崒拥膶嶓w就好比面向?qū)ο罄锩娴膶ο?,對象是從類?dāng)中派生出來的,同時繼承了類的一些屬性和關(guān)系。這就是本體的概念。

為什么要講本體的概念?一個更直觀的例子,就是要對知識圖譜來進(jìn)行模式或者Schema的定義。這里的領(lǐng)域是科技,在這科技領(lǐng)域下面是我們劃分的若干個主題,比如互聯(lián)網(wǎng)主題、通訊主題、手機(jī)主題,在每個主題下面又有若干的概念,就是下面的概念層,比如互聯(lián)網(wǎng)里面有深度學(xué)習(xí)、人工智能等等這些概念,然后通訊里面有智能手機(jī)這些概念。在概念下面就是具體的事實層面,就是實體層,比如特斯拉modelS、蘋果iPhone7、華為P10等等,這些都是具體的實體,然后實體之間有關(guān)系,它繼承的概念之間的關(guān)系。最下面一層是事件層,這就是整個本體層的例子。

給大家介紹一款比較好的開源本體編輯工具,叫Protégé。這個工具是斯坦福大學(xué)開源的,它的功能非常強(qiáng)大,也是目前最流行的本體編輯工具,有網(wǎng)頁版和桌面版,桌面版是免安裝的,大家直接下載下來就可以試用。

它的好處是什么?它屏蔽了具體的本體描述語言,用戶只需要在概念層次上面進(jìn)行本體的模型構(gòu)建,同時也比較靈活,能夠支持各種插件來擴(kuò)展特定的功能。比如推理的功能可以基于插件來擴(kuò)展。不過這個工具對中文的支持不是很友好。

下面一個非常重要的關(guān)鍵的步驟就是知識的抽取,首先要抽取實體,然后是實體之間的關(guān)系。我們看一下NER實體的抽取,我們知道NER可以轉(zhuǎn)化為序列標(biāo)注的問題,傳統(tǒng)的機(jī)器學(xué)習(xí)的方法,CRF等都可以做,而且CFR做的效果還是不錯的。不過CRF通常只能學(xué)習(xí)到相鄰詞位置比較近的上下文的特征,它無法獲取整個句子甚至更長的上下文的特征。

目前業(yè)界比較主流的,包括學(xué)術(shù)界比較主流的一種做法是什么?是深度循環(huán)神經(jīng)網(wǎng)絡(luò)加上結(jié)合CRF,這樣的做法更多的是雙向的循環(huán)神經(jīng)網(wǎng)絡(luò),它可以分別從前往后以及從后往前這兩個方向來去學(xué)習(xí)上下文的特征,然后進(jìn)行序列信號的記憶和傳遞,這是一種比較常見的做法。

華為發(fā)布了新一代的麒麟處理,通過從前往后就可以推理出最后面的文字,然后從后往前也可以推理出最前面的文字,第一個字“朝”實際上是從后往前去進(jìn)行預(yù)測推理。頂層用CRF對循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)果進(jìn)行約束就可以,對這個輸出進(jìn)行更好的控制。然后輸入層通常是詞向量或者字向量,embedding能可以把單個字或者詞轉(zhuǎn)化為低維的稠密的語義向量。

下面講一下關(guān)系抽取的技術(shù)。它有幾種方法,第一種是基于有監(jiān)督的方法,把關(guān)系抽取當(dāng)做分類問題來看待,根據(jù)訓(xùn)練數(shù)據(jù)設(shè)計有效的特征,來學(xué)習(xí)各種分類模型,這是傳統(tǒng)的分類。這個方法不好的地方,是需要大量的人工標(biāo)注的訓(xùn)練語料,語料的標(biāo)注是非常的耗時耗力的。所以在有監(jiān)督的基礎(chǔ)上,又提出了一種半監(jiān)督的方式,半監(jiān)督的方式主要采用方式進(jìn)行關(guān)系的抽取,具體來說就是要對于要抽取的關(guān)系,首先基于手工設(shè)定若干的種子的實例,然后迭代性的從數(shù)據(jù)當(dāng)中抽取關(guān)系對應(yīng)的關(guān)系模板和更多的實例,通過不斷迭代的方式來抽取越來越多的這些實例。

還有一種是無監(jiān)督的方法。無監(jiān)督的方法本質(zhì)上是一種聚類的方法,用擁有相同語義關(guān)系的實體,它擁有相似上下文的信息是它的假設(shè),因此它可以利用每個實體的上下文的信息來代表實體的語義關(guān)系,對實體進(jìn)行語義關(guān)系的聚類。

這三種方法當(dāng)中,有監(jiān)督的方法能夠抽取出有效的特征,然后在準(zhǔn)確率和召回率方面是更有優(yōu)勢的,半監(jiān)督和無監(jiān)督的方法一般情況下,效果都不是特別的好,所以業(yè)界現(xiàn)在用的比較多的還是有監(jiān)督的學(xué)習(xí)的方法。

我們剛剛提到有監(jiān)督學(xué)習(xí)方法,比較困難的地方就是怎么樣獲取大量分類的訓(xùn)練樣本,完全通過人工去標(biāo)注的方式顯然不是比較好的方式。

有什么樣好的處理的方法?用遠(yuǎn)程監(jiān)督的一種方法,典型的工具Deepdive,也是斯坦福大學(xué)InfoLab實驗室開源的知識抽取的系統(tǒng),通過弱監(jiān)督學(xué)習(xí)的方法,從非結(jié)構(gòu)化的文本當(dāng)中可以抽取出結(jié)構(gòu)化的關(guān)系的數(shù)據(jù)。開發(fā)者不需要理解它里面的具體的算法,只要在概念層次進(jìn)行思考基本的特征就可以了,然后也可以使用已有的領(lǐng)域知識進(jìn)行推理,也能夠?qū)τ脩舻姆答佭M(jìn)行處理,可以進(jìn)行實時反饋的一種機(jī)制,這樣能夠提高整個預(yù)測的質(zhì)量。背后用的是也是一種遠(yuǎn)程監(jiān)督的技術(shù),只要少量的運訓(xùn)練的數(shù)據(jù)就可以了。

我們來具體來看一下它是怎么樣來做這樣一件事情的。首先,下面看到Mention的句子就是“奧巴馬和米歇爾結(jié)婚”,它是句子,但Mention就是這些詞的標(biāo)記,奧巴馬米歇爾都是Mention,我們要推測它之間是不是配偶的關(guān)系。這個時候要對Mention:奧巴馬和米歇爾,去對應(yīng)到知識圖譜里面具體的實體,看一下這兩個實體在知識圖譜里面是不是存在著配偶的關(guān)系?如果是的話,就把它拿過來作為正的訓(xùn)練樣本,如果不是,它就是負(fù)的樣本。前提假設(shè)就是知識圖譜里面的它的實體之間的關(guān)系都是正確的,以這個為依據(jù),去做樣本的標(biāo)注。

目前進(jìn)行實體關(guān)系抽取有兩大類方法,有一類是基于流水線式的抽取,輸入一個句子,首先抽取這實體,再對實體進(jìn)行兩兩組合,然后再進(jìn)行分類,最后識別出實體之間的關(guān)系。這種做法是有缺點的,第一,它容易造成錯誤的傳播,比如在第一步的時候,實體如果識別錯誤了,后面的關(guān)系肯定也是錯誤的。第二,會產(chǎn)生沒有必要冗余的信息,因為要對實體進(jìn)行兩兩的配對,然后再進(jìn)行關(guān)系的分類,很多配對之間實際上就沒有這樣的關(guān)系,就是它會帶來了這樣非常多的冗余的信息,錯誤率也會被放大、被提升。

現(xiàn)在用的比較多的另一種方法,是聯(lián)合學(xué)習(xí)的方法,輸入一個句子,通過實體識別和關(guān)系抽取的聯(lián)合模型,可以直接得到有效的三元組。通常我們是基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合標(biāo)注的學(xué)習(xí)的方法,里面涉及到兩個關(guān)鍵的工作,一個是模型的參數(shù)共享的問題,還有一個就是標(biāo)注策略,怎么樣進(jìn)行有效的標(biāo)注。模型共享是指的是在實體訓(xùn)練的時候能夠進(jìn)行實體識別和關(guān)系分類這兩個任務(wù),都會通過反向傳播來匹配來進(jìn)行關(guān)系的分類,然后同時來實現(xiàn)這兩個參數(shù)之間的依賴,兩個子任務(wù)之間的依賴。參數(shù)共享的方法,它本質(zhì)上還是兩個子任務(wù),只是說它們這兩個任務(wù)之間通過參數(shù)共享有了交互,而且在訓(xùn)練的時候還要預(yù)先進(jìn)行實體識別,識別實體之后再根據(jù)預(yù)測信息進(jìn)行兩兩匹配,來進(jìn)行關(guān)系的分類,所以仍然會產(chǎn)生無關(guān)系時候冗余的信息存在。

現(xiàn)在我們新提出了一種端到端序列標(biāo)注的策略,把原來涉及到序列標(biāo)注和分類的兩個任務(wù)變成了完全的端到端的序列標(biāo)注的問題,通過端到端的神經(jīng)網(wǎng)絡(luò)模型,可以直接得到關(guān)系的三元組,即實體關(guān)系的三元組。

新的標(biāo)注策略是像下面這張圖里面有三個部分來組成的,第一部分是實體中的詞的位置,比如b是表示開始,i表示是在實體的內(nèi)部,e表示是實體的結(jié)尾,s表示是單個的實體。第二部分就是關(guān)系類型的信息,預(yù)定義的關(guān)系類型的編碼,比如里面的CP、CF,CP是國家總統(tǒng),CF是公司創(chuàng)立者,這樣兩種的關(guān)系。還有實體的角色的信息,它表示是實體1還是實體2?實體跟關(guān)系之外的其它的這些字符都用O來表示,這樣就進(jìn)行了實體的標(biāo)注。

接下來我們講一下實體的融合,這里最主要就是實體的對齊。

首先是實體對齊,也叫實體歸一化,是把具有不同的標(biāo)識的實體,但是在現(xiàn)實世界當(dāng)中可能是表達(dá)同樣意思的,把它做歸一化。比如中華人民共和國、中國和China,這個三個指的是同一實體,盡管它的表述方式不一樣,就把它歸一化為具有全局唯一標(biāo)識的實例對象,然后添加到知識圖譜當(dāng)中去。

現(xiàn)在實體對齊普遍采用的還是一種聚類的方法,關(guān)鍵在于定義合適的相似度的閾值,一般從三個維度來依次來考察的,首先會從字符的相似度的維度,基于的假設(shè)是具有相同描述的實體更有可能代表同實體。第二個維度,是從屬性的相似度的維度來看的,就是具有相同屬性的和以及屬性詞的這些實體,有可能會代表是相同的對象。第三個維度,是從結(jié)構(gòu)相似度的維度來看,基于的假設(shè)是具有相同鄰居的實體更有可能指向同對象。

進(jìn)行融合的時候要考慮各個數(shù)據(jù)源的數(shù)據(jù)的可靠性,以及在各個不同數(shù)據(jù)源當(dāng)中出現(xiàn)的頻度來綜合決定選用哪個類別或者哪個屬性詞。還有一種方法就是是用來自LD(LinkedData),LD是很多人工標(biāo)記好的數(shù)據(jù),是非常準(zhǔn)確的,其中有種關(guān)聯(lián)叫owl:sameAs,它表示前后兩個是同實體的,利用這個作為訓(xùn)練數(shù)據(jù)來發(fā)現(xiàn)更多相同的實體對,是比較好的方法。最后要說的是,無論用哪種方法,都不能保證百分之百的準(zhǔn)確率,所以最后也要有人工審核和過濾。

知識存儲,就是如何選擇數(shù)據(jù)庫,從選擇層面,我們有圖數(shù)據(jù)庫,有NoSQL的數(shù)據(jù)庫,也有關(guān)系型數(shù)據(jù)庫,數(shù)據(jù)庫有很多選擇。具體什么樣的情況下選擇什么樣的數(shù)據(jù)庫?通常是如果說知識圖譜的關(guān)系結(jié)構(gòu)非常的復(fù)雜、關(guān)系非常的多,這時候建議使用這個圖數(shù)據(jù)庫,比如Neo4J這樣的數(shù)據(jù)庫。另外一種就是它的關(guān)系并不是很復(fù)雜,關(guān)系可能也就是1度、2度的關(guān)系,更多的它是有非常多的屬性的數(shù)據(jù),這個時候可以考慮關(guān)系式數(shù)據(jù)庫,或者是ES這樣的存儲。如果要考慮到知識圖譜的性能、可擴(kuò)展性、可分布式,是可以結(jié)合NoSQL的數(shù)據(jù)庫,比如TiTan。根據(jù)實際的情況,一般是綜合起來使用的,根據(jù)我們的經(jīng)驗,我們會結(jié)合Neo4J和ES來綜合來使用,同時還結(jié)合這關(guān)系型數(shù)據(jù)庫MySQL等等,根據(jù)不同的數(shù)據(jù)的特點來進(jìn)行選型,而不是說一味的追求圖數(shù)據(jù)庫。

順便了解一下目前主流的幾款圖數(shù)據(jù)庫,Titan、Graph Engine、Neo4J這個三個分別都是開源的,然后Titan是Apache旗下的,Graph Engine是MIT的License,Neo4J是GPL開源的,既有商業(yè)版,也有也有開源免費版。然后它們的平臺,像Titan是Linux,Graph是windows。而數(shù)據(jù)的支撐量級,像Titan是后端存儲,基于Cassandra/Hbase/BDB這樣的分布式存儲引擎,可以支持更大的數(shù)據(jù)量,千億級的數(shù)據(jù)量級;Neo4J商業(yè)版也可以支持到百億級的,但是它的非商業(yè)版在數(shù)據(jù)量級比較大的時候,一般是在幾千萬級的時候就可能會出現(xiàn)一些問題。

再看一下知識推理,知識推理這邊有幾種方法,首先是基于符號推理,我們上面說的三元組的結(jié)構(gòu),比如左邊的RDF,有概念,然后基于概念符號進(jìn)行推理。

這個是基于OWL進(jìn)行本體推理的例子,這個背后是基于OWL本體的推理,最常見的OWL推理工具是Jena, Jena 2支持基于規(guī)則的簡單推理,它的推理機(jī)制支持將推理器(inference reasoners)導(dǎo)入Jena,創(chuàng)建模型時將推理器與模型關(guān)聯(lián)以實現(xiàn)推理。

還有一種是基于圖(PRA)的推理的方法,更直觀的一種方法,思想是比較簡單的,就是以連接兩個實體的已有路徑作為特征構(gòu)建分類器,來預(yù)測它們之間可能存在的潛在關(guān)系。

比如左邊這個圖里面Charlotte Bronte,我們要預(yù)測他的職業(yè)是不是作家。在這個圖里面已知存在關(guān)系是什么呢?他寫過一篇小說,它寫過一篇小說Jane Eyre,然后雙城記也是一部小說,狄更斯是寫了雙城記這部小說,狄更斯是作家,同時它下面還有他的父親職業(yè)也是作家,所以基于這樣圖之間的關(guān)系,就可以較大概率的推理出Charlotte Bronte的職業(yè)很有可能就是作家,這就是基于圖之間的關(guān)系的特征構(gòu)建分類器來進(jìn)行預(yù)測的。 PRA提取特征的方法主要有隨機(jī)游走、廣度優(yōu)先和深度優(yōu)先遍歷,特征值計算方法有隨機(jī)游走probability,路徑出現(xiàn)/不出現(xiàn)的二值特征以及路徑的出現(xiàn)頻次等。PRA方法的優(yōu)點是直觀、解釋性好,但缺點也很明顯,有三個主要缺點:首先,很難處理關(guān)系稀疏的數(shù)據(jù),其次,很難處理低連通度的圖,最后,是路徑特征提取的效率低且耗時。

還有是基于分布式的知識語義表示的方法,比如像Trans系列的模型,在這個模型基礎(chǔ)上進(jìn)行語義的推理。TransE這個模型的思想也比較直觀,它是將每個詞表示成向量,然后向量之間保持一種類比的關(guān)系。比如上面這個圖里面的北京中國,然后類比巴黎法國,就是北京加上首都的關(guān)系就等于中國,然后巴黎加上capital的關(guān)系等于France。所以它是無限的接近于偽實體的embed]ding。這個模型的特點是比較簡單的,但是它只能處理實體之間一對一的關(guān)系,它不能處理多對一與多對多的關(guān)系。

后來提出了TransR的模型了,TransR實際上是解決了上面提到的一對多或者多對一、多對多的問題,它分別將實體和關(guān)系投射到不同的空間里面。一個實體的空間和一個關(guān)系的空間,然后在實體空間和關(guān)系空間來構(gòu)建實體和關(guān)系的嵌入,就對于每個元組首先將實體空間中實體通過Mr向關(guān)系空間進(jìn)行投影得到hr和Tr,然后Hr加上r是不是約等于或者近似的等于Tr,通過它們在關(guān)系空間里面的距離,來判斷在實體空間里面,H和T之間是不是具有這樣的關(guān)系?

除了TransE、TransR,還有更多的Trans系列的,像TransH、TransN、TransG等等這些模型。清華大學(xué)的自然語言處理實驗室發(fā)布了一款這個叫openKE的平臺,openKE它是開源的知識表示學(xué)習(xí)的平臺,是基于Tanserflow的工具包來開發(fā)的。它整合了Trans系列的很多算法,提供統(tǒng)一的接口。它也是面向了預(yù)訓(xùn)練的數(shù)據(jù)來表示模型的。

最后介紹一種基于深度學(xué)習(xí)的推理模型,這個模型利用了卷積神經(jīng)網(wǎng)絡(luò)對實體進(jìn)行關(guān)系的分類的,把句子的依存樹作為輸入,就是將詞在樹中的不同的位置的嵌入式的表示拼接到這個詞向量當(dāng)中來學(xué)習(xí),同時對面相樹結(jié)構(gòu)設(shè)計了獨特的卷積核。這種方法在實體分類的任務(wù)上,相較于未使用位置關(guān)系的信息,效果會有一定的提升。

▌四、達(dá)觀經(jīng)驗與案例

1.知識圖譜在達(dá)觀的知識問答當(dāng)中的應(yīng)用

我們的智能問答是融合了是知識圖譜問答和基于檢索的問答兩種方法進(jìn)行融合。

首先,左邊會把用戶的語音經(jīng)過語音轉(zhuǎn)成文字以后,進(jìn)行一個預(yù)處理,預(yù)處理主要是做了分詞、糾錯、詞性標(biāo)注、實體屬性的識別,對這個句子進(jìn)行依存句法樹的結(jié)構(gòu)分析。

預(yù)處理完了以后,引擎會首先嘗試根據(jù)問句的句法結(jié)構(gòu)進(jìn)行問句模板的匹配,如果說能夠匹配到合適的問句模板,這個時候再根據(jù)在預(yù)處理階段得到的問句的實體屬性和關(guān)系,對匹配到的問題模板進(jìn)行實例化,然后再根據(jù)實例化以后的問句模板來生成知識圖譜的圖數(shù)據(jù)庫的查詢語言,然后在圖數(shù)據(jù)庫里面就可以把這個答案查出來了。

另外一種情況是沒有匹配到合適的問句模板,這個時候會進(jìn)入到基于檢索的問答模塊,最后是把基于知識圖譜和基于檢索的兩種的結(jié)果進(jìn)行融合。

2. 在HR人崗精準(zhǔn)匹配里面的應(yīng)用

HR創(chuàng)建的JD能夠自動的匹配到簡歷庫里面最合適的候選人的簡歷,也即把JD的內(nèi)容和簡歷庫里面簡歷的內(nèi)容做語義的匹配。

這里有一個問題,JD對技能的描述和不同的人的簡歷中對技能的描述存在很多表達(dá)方式造成的語義方面的差異。我們分別對JD和簡歷構(gòu)建技能圖譜,通過技能圖譜的子圖匹配,就可以比較好地來解決語義匹配的問題。

我們在知識圖譜建設(shè)當(dāng)中的一些經(jīng)驗:

第一,界定好范圍,就是要有一個明確的場景和問題的定義,不能說為了知識圖譜而知識圖譜。如果沒有想清楚知識圖譜有什么樣的應(yīng)用的場景,或者能解決什么樣的問題,這樣的知識圖譜是比較難以落地的。一些明確的場景,比如解決商品數(shù)據(jù)的搜索問題,或者從產(chǎn)品說明書里面做相關(guān)問題的回答。

第二,做好schema的定義,就是上面講到的對于schema或者本體的定義。第一步確定好場景和問題以后,就基于這樣的場景或者問題,再進(jìn)行相關(guān)領(lǐng)域的schema的定義。定義這個領(lǐng)域里概念的層次結(jié)構(gòu)、概念之間的關(guān)系的類型,這樣做是確保整個知識圖譜是比較嚴(yán)謹(jǐn)?shù)?,知識的準(zhǔn)確性是比較可靠的。知識的模型的定義,或者schema的定義,大部分情況下是通過這個領(lǐng)域的知識專家的參與,自上而下的方式去定義的。

第三,數(shù)據(jù)是知識圖譜構(gòu)建基礎(chǔ)。數(shù)據(jù)的梳理就比較重要,最需要什么樣的數(shù)據(jù)?依賴于我們要解決的問題是什么,或者我們的應(yīng)用場景是什么?基于問題和場景,梳理出領(lǐng)域相關(guān)的問題、相關(guān)的數(shù)據(jù),包括結(jié)構(gòu)化的數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、無結(jié)構(gòu)化的數(shù)據(jù),結(jié)合百科跟這個領(lǐng)域相關(guān)的數(shù)據(jù),領(lǐng)域的詞典,或者領(lǐng)域?qū)<业慕?jīng)驗的規(guī)則。

第四,不要重復(fù)去造輪子,很多百科的數(shù)據(jù)和開放知識圖譜的數(shù)據(jù),是可以融合到我們的領(lǐng)域知識圖譜中。

第五,要有驗證和反饋機(jī)制,需要有管理后臺,用戶可以不斷的和知識圖譜系統(tǒng)進(jìn)行交互,不斷的進(jìn)行確認(rèn)和驗證,確保知識圖譜每一步推理和計算都是準(zhǔn)確的。

第六,知識圖譜構(gòu)建是持續(xù)迭代的系統(tǒng)工程,不可能一蹴而就。

最后給大家介紹中文開放知識圖譜,達(dá)觀數(shù)據(jù)也是中文開放知識圖譜發(fā)起單位之一,這里面有很多開放的數(shù)據(jù)和開源的工具,其中的文章也是非常好的學(xué)習(xí)材料。

下面是自由提問環(huán)節(jié)。

Q:用知識圖譜來做反欺詐,和深度學(xué)習(xí)的方法相比,或者是其它機(jī)器學(xué)習(xí)的相比,知識圖譜是否有優(yōu)勢?

A:反欺詐是整個風(fēng)控流程中的一個非常重要的環(huán)節(jié)。其主要難點在于如何基于大數(shù)據(jù)把多個不同來源的數(shù)據(jù)(內(nèi)部、外部,格式化、非格式化)有機(jī)整合在一起,并對這些數(shù)據(jù)之間的各種復(fù)雜且動態(tài)變化的關(guān)系進(jìn)行建模,從而構(gòu)建起一個反欺詐引擎。知識圖譜作為關(guān)系的直接表示方式,可以提供一種非常直觀的可視化的手段以及內(nèi)部的推理機(jī)制來有效地分析各種復(fù)雜關(guān)系下可能存在的潛在風(fēng)險。

我們知道深度學(xué)習(xí)的表示是基于一種低維稠密的數(shù)值向量,模型本身是一個“黑盒”,我們無從知道內(nèi)部的各種特征的非線性組合是如何形成的。相比于知識圖譜,深度學(xué)習(xí)的不可解釋性是最大的缺點。此外深度學(xué)習(xí)要真正達(dá)成效果,需要依賴已經(jīng)標(biāo)注過的大樣本數(shù)據(jù)進(jìn)行訓(xùn)練,但在很多領(lǐng)域(包括反欺詐)這樣的數(shù)據(jù)獲取門檻極高。

當(dāng)然,深度學(xué)習(xí)和知識圖譜也是不完全互斥的,知識圖譜的構(gòu)建中的實體、屬性、關(guān)系抽取等關(guān)鍵過程也會用到深度學(xué)習(xí)的循環(huán)神經(jīng)網(wǎng)絡(luò)等自然語言處理技術(shù)。

Q:知識圖譜的查詢跟關(guān)系數(shù)據(jù)庫的查詢感覺都一樣,這兩個有什么樣的關(guān)系?

A:在關(guān)系型數(shù)據(jù)庫里面,如果要聯(lián)合多個表執(zhí)行復(fù)雜查詢,特別在數(shù)據(jù)量比較大的情況下是非常慢的。如果涉及到多種很復(fù)雜的關(guān)聯(lián)關(guān)系,圖數(shù)據(jù)庫是比較好的選擇。圖數(shù)據(jù)庫基于圖的遍歷,內(nèi)置對圖搜索的優(yōu)化算法,可以非??焖龠M(jìn)行子圖的搜索。相較于傳統(tǒng)的關(guān)系數(shù)據(jù)庫,其性能會有多個數(shù)量級的提升。

Q:純文本怎么進(jìn)行抽取?

A:關(guān)于抽取,我在前面講到了有很多的方法,包括實體抽取里面有NER的方法,NER有傳統(tǒng)的CRF的方法,有基于循環(huán)神經(jīng)網(wǎng)絡(luò)+CRF的方法,也有端到端的聯(lián)合標(biāo)注的抽取方法,這種方法同時輸出實體和實體之間關(guān)系的三元組。

Q:知識圖譜怎么和其它算法相結(jié)合,應(yīng)用在搜索推薦上面?

A:在搜索里面,更多的是基于知識圖譜去回答問題,它可以對query所表達(dá)的實體和屬性進(jìn)行識別,比如查詢“華為P10手機(jī)的內(nèi)存是多少?”這就是實體屬性值的查找。華為P10是實體,內(nèi)存是P10這個實體的屬性,對應(yīng)到知識圖譜里面,可以快速定位到這個實體叫P10,就可以直接把P10的內(nèi)存(屬性值)返回出來,就可以直接給出64G或32G這樣的答案。

Q:實體有哪些屬性是怎么定義的?

A: 從如何定義的角度看,主要有兩種方法,一種是自上而下的方法,比如我們進(jìn)行模式(Schema)定義的時候,首先會對其中的各種概念進(jìn)行定義,概念有哪些屬性,概念之間的關(guān)系是什么樣的。后面抽取的各個實體都會映射到模式層的一個概念上去,實體會自動繼承所屬概念的屬性。還有一種是自下而上的方法,實體的屬性是從原始數(shù)據(jù)中不斷抽取提出來的,并對不同數(shù)據(jù)源的屬性與屬性值進(jìn)行融合(歸一化)。實際使用中,這兩種方法往往是同時使用互相補(bǔ)充的。

Q:知識圖譜中的時間和空間關(guān)系怎么表達(dá)?

A:知識圖譜表達(dá)的是動態(tài)的數(shù)據(jù),比如美國總統(tǒng)是特朗普對吧?現(xiàn)在是的,但三年前不是,五年后也不一定是。隨著時間的推移,它的三元組的關(guān)系是會有變化的,那這個時候怎么樣去表達(dá)?通常是在三元組的基礎(chǔ)上再擴(kuò)展一個維度形成四元組這樣的做法,但是它會大大增加系統(tǒng)處理的復(fù)雜度。也有一些其他的方法,比如可以是跟關(guān)系數(shù)據(jù)庫相結(jié)合的方式進(jìn)行擴(kuò)展。

Q:如何衡量一個知識圖譜建立以后的效果?如何有效的進(jìn)行學(xué)習(xí)改進(jìn)?

A:我們建立一個知識圖譜,建立一個機(jī)器學(xué)習(xí)的算法模型,對它的效果進(jìn)行衡量度量是非常關(guān)鍵的。在知識圖譜這里,一定是基于某個場景具體的應(yīng)用,然后再看這個場景或者這個具體的應(yīng)用使用了知識圖譜以后跟原來的做法來做一個比較,或者有一個管理后臺,人可以定期對知識圖譜系統(tǒng)的推理和計算的結(jié)果做一些檢測和驗證,然后對這些驗證的結(jié)果再反饋到這個系統(tǒng)里面去,讓系統(tǒng)重新來進(jìn)行學(xué)習(xí)、改進(jìn),建立人跟系統(tǒng)之間不斷的反饋、驗證和自動學(xué)習(xí)的過程。

Q:可不可以用知識圖譜進(jìn)行分類?

A:這個問題很有意思。上面提到,一方面我們可以基于分類的方式來做知識圖譜中實體關(guān)系的學(xué)習(xí)。另一方面,我們是否可以利用知識圖譜輔助進(jìn)行文本的分類?這樣方面我們有一些經(jīng)驗。對于文本分類中的特征工程,我們的做法是通過知識圖譜進(jìn)行語義的關(guān)聯(lián)擴(kuò)充以獲取更多的語義特征,尤其是對于短文本,對分類效果能有比較好的提升。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1787

    文章

    46060

    瀏覽量

    234958
  • 知識圖譜
    +關(guān)注

    關(guān)注

    2

    文章

    132

    瀏覽量

    7663

原文標(biāo)題:一文詳解知識圖譜關(guān)鍵技術(shù)與應(yīng)用 | 公開課筆記

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    NLPIR大數(shù)據(jù)知識圖譜完美展現(xiàn)文本數(shù)據(jù)內(nèi)容

    要素,知識圖譜能夠?qū)⒊橄笮畔⑿蜗蟮卣宫F(xiàn)出來,可謂“一圖勝萬言”。知識圖譜在科技情報領(lǐng)域得到越來越廣泛的應(yīng)用,能夠引領(lǐng)我們從海量文獻(xiàn)情報中有效把握關(guān)鍵文獻(xiàn),進(jìn)入學(xué)科前沿領(lǐng)域,破解“知識
    發(fā)表于 07-01 11:40

    知識圖譜相關(guān)應(yīng)用

    智慧風(fēng)控的背后,是知識圖譜的深度應(yīng)用
    發(fā)表于 08-22 14:40

    KGB知識圖譜基于傳統(tǒng)知識工程的突破分析

    格式文件,保留文件中表格與文字格式等重要信息。對于圖片信息,OCR可自動識別并抽取圖片中的文字信息。2. 知識抽?。篕GB知識圖譜引擎,可從結(jié)構(gòu)化表格與非結(jié)構(gòu)化文本中自適應(yīng)識別并抽取關(guān)鍵知識
    發(fā)表于 10-22 15:25

    KGB知識圖譜技術(shù)能夠解決哪些行業(yè)痛點?

    `知識圖譜和行業(yè)應(yīng)用相互結(jié)合時,需要充分發(fā)揮其技術(shù)特色,且要適用于現(xiàn)在的企業(yè)應(yīng)用。那么知識圖譜的應(yīng)用可以解決那些行業(yè)問題呢?知識圖譜在行業(yè)應(yīng)用方面實現(xiàn)的突破具體表現(xiàn)在
    發(fā)表于 10-30 15:34

    知識圖譜的三種特性評析

    知識圖譜的應(yīng)用對技術(shù)本身也提出了高要求,KGB知識圖譜現(xiàn)在已經(jīng)在保險行業(yè),為公司分析上市數(shù)據(jù)等行業(yè)得以廣泛應(yīng)用,知識圖譜能夠在應(yīng)用中發(fā)揮優(yōu)勢主要體現(xiàn)在哪里呢?(1) 目標(biāo)的動態(tài)性:考
    發(fā)表于 12-13 13:57

    KGB知識圖譜幫助金融機(jī)構(gòu)進(jìn)行風(fēng)險預(yù)判

    格式文件,保留文件中表格與文字格式等重要信息。對于圖片信息,OCR可自動識別并抽取圖片中的文字信息。2. 知識抽?。篕GB知識圖譜引擎,可從結(jié)構(gòu)化表格與非結(jié)構(gòu)化文本中自適應(yīng)識別并抽取關(guān)鍵知識
    發(fā)表于 06-18 23:07

    KGB知識圖譜通過智能搜索提升金融行業(yè)分析能力

    金融行業(yè)評估風(fēng)險提供底層性支撐作用。對于金融企業(yè)來說,金融行業(yè)中在對借貸資格,反欺詐等行為進(jìn)行評估時,其審核過程和審核數(shù)據(jù)都是極其繁瑣的。KGB知識圖譜具備智能搜索功能,能夠在語義上擴(kuò)展用戶的搜索關(guān)鍵
    發(fā)表于 06-22 21:23

    一文帶你讀懂知識圖譜

    1 什么是知識圖譜? 通俗地講,知識圖譜就是把所有不同種類的信息(Heterogeneous Information)連接在一起而得到的一個關(guān)系網(wǎng)絡(luò)。 知識圖譜這個網(wǎng)絡(luò)具備以下3種特性: 1.1 由
    的頭像 發(fā)表于 12-26 10:23 ?3550次閱讀

    知識圖譜劃分的相關(guān)算法及研究

    知識圖譜是人工智能的重要基石,因其包含豐富的圖結(jié)構(gòu)和屬性信息而受到廣泛關(guān)注。知識圖譜可以精確語義描述現(xiàn)實世界中的各種實體及其聯(lián)系,其中頂點表示實體,邊表示實體間的聯(lián)系。知識圖譜劃分是大規(guī)模知識
    發(fā)表于 03-18 10:10 ?9次下載
    <b class='flag-5'>知識圖譜</b>劃分的相關(guān)算法及研究

    知識圖譜在工程應(yīng)用中的關(guān)鍵技術(shù)、應(yīng)用及案例

    近年來,知識圖譜及其相關(guān)技術(shù)得到快速發(fā)展,并被廣泛應(yīng)用于工業(yè)界各種認(rèn)知智能場景中。在簡述知識圖譜相關(guān)研究的基礎(chǔ)上,介紹知識圖譜在工程應(yīng)用中的關(guān)鍵技術(shù)
    發(fā)表于 03-30 15:12 ?15次下載
    <b class='flag-5'>知識圖譜</b>在工程應(yīng)用中的<b class='flag-5'>關(guān)鍵技術(shù)</b>、應(yīng)用及案例

    知識圖譜是NLP的未來嗎?

    我的看法:知識圖譜不是NLP的未來,因為知識圖譜是另外一種與NLP有很多交集的技術(shù)。在目前所有已知的發(fā)展方向中,知識圖譜是最有可能長期和NLP互利共生的
    的頭像 發(fā)表于 04-15 14:36 ?3586次閱讀
    <b class='flag-5'>知識圖譜</b>是NLP的未來嗎?

    《工程科學(xué)學(xué)報》—知識圖譜的最新進(jìn)展、關(guān)鍵技術(shù)和挑戰(zhàn)

    知識圖譜的最新進(jìn)展、關(guān)鍵技術(shù)和挑戰(zhàn) 人工智能技術(shù)與咨詢? 本文來自《 ?工程科學(xué)學(xué)報? 》,作者馬忠貴等 隨著知識的不斷積累和科學(xué)的飛速發(fā)展,人類社會進(jìn)行了多次改變社會結(jié)構(gòu)的重大生產(chǎn)力
    發(fā)表于 11-20 10:41 ?651次閱讀
    《工程科學(xué)學(xué)報》—<b class='flag-5'>知識圖譜</b>的最新進(jìn)展、<b class='flag-5'>關(guān)鍵技術(shù)</b>和挑戰(zhàn)

    知識圖譜Knowledge Graph構(gòu)建與應(yīng)用

    一、知識圖譜概論 ? ? ? ? 1.1知識圖譜的起源和歷史 1.2知識圖譜的發(fā)展史——從框架、本體論、語義網(wǎng)、鏈接數(shù)據(jù)到知識圖譜 1.3知識圖譜
    發(fā)表于 09-17 10:12 ?579次閱讀

    知識圖譜知識圖譜的典型應(yīng)用

    作者:?cooldream2009? 我們構(gòu)建知識圖譜的目的,在于利用知識圖譜來做一些事情。有效利用知識圖譜,就是要考慮知識圖譜的具備的能力,知識圖
    的頭像 發(fā)表于 10-18 09:26 ?1582次閱讀
    <b class='flag-5'>知識圖譜</b>:<b class='flag-5'>知識圖譜</b>的典型應(yīng)用

    基于本體的金融知識圖譜自動化構(gòu)建技術(shù)

    本評測任務(wù)參考 TAC KBP 中的 Cold Start 評測任務(wù)的方案,圍繞金融研報知識圖譜的自動化圖譜構(gòu)建所展開。評測從預(yù)定義圖譜模式(Schema)和少量的種子知識圖譜開始,從
    的頭像 發(fā)表于 11-24 14:54 ?1021次閱讀