摘要:
摘要: 隨著大數(shù)據(jù)時(shí)代的到來,海量數(shù)據(jù)不斷涌現(xiàn),從中尋找有用信息,抽取對(duì)應(yīng)知識(shí)的需求變得越來越強(qiáng)烈。針對(duì)該需求,知識(shí)圖譜技術(shù)應(yīng)運(yùn)而生,并在實(shí)現(xiàn)知識(shí)互聯(lián)的過程中日益發(fā)揮重要作用。信息抽取作為構(gòu)建知識(shí)圖譜的基礎(chǔ)技術(shù),實(shí)現(xiàn)了從大規(guī)模數(shù)據(jù)中獲取結(jié)構(gòu)化的命名實(shí)體及其屬性或關(guān)聯(lián)信息。同時(shí),由于具有多樣化的實(shí)現(xiàn)方法,擴(kuò)充了信息抽取技術(shù)的應(yīng)用領(lǐng)域和場(chǎng)景,也提升了對(duì)信息抽取技術(shù)研究的價(jià)值和必要性的認(rèn)可度。本文首先以知識(shí)圖譜的構(gòu)建框架為背景。探討信息抽取研究的意義;然后從MUC、ACE和ICDM三個(gè)國(guó)際測(cè)評(píng)會(huì)議的角度回顧信息抽取的發(fā)展歷史;接著,基于面向限定域和開放域兩個(gè)方面,介紹信息抽取的關(guān)鍵技術(shù),包括實(shí)體抽取技術(shù)、關(guān)系抽取技術(shù)和屬性抽取技術(shù)。
1. 引言
隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)的飛速發(fā)展和知識(shí)互聯(lián)時(shí)代的到來,人們期寄著構(gòu)建一個(gè)更加智能的、機(jī)器可理解可計(jì)算的萬(wàn)維網(wǎng)。知識(shí)圖譜(Knowledge Graph)的概念逐漸出現(xiàn)在人們視野中。知識(shí)圖譜在語(yǔ)義處理、開放處理等功能方面都顯現(xiàn)出很強(qiáng)的能力,在智能推薦、問答和對(duì)話系統(tǒng)以及大數(shù)據(jù)分析和決策等應(yīng)用中也體現(xiàn)出越來越重要的價(jià)值。知識(shí)圖譜預(yù)計(jì)將在互聯(lián)網(wǎng)知識(shí)互聯(lián)的實(shí)現(xiàn)過程中起到中流砥柱的作用。
文獻(xiàn) [1] 給出了知識(shí)圖譜的定義:知識(shí)圖譜是一個(gè)用于描述物理世界中的概念及其聯(lián)系的語(yǔ)義網(wǎng)絡(luò),它包含以下三個(gè)重要的因素:1) 概念。概念可以是實(shí)體、屬性,也可以是一個(gè)事實(shí),例如“一個(gè)人有兩只手”。概念通常被描述為節(jié)點(diǎn);2) 關(guān)系。關(guān)系是兩個(gè)概念節(jié)點(diǎn)之間的語(yǔ)義聯(lián)系,例如屬性關(guān)系、擁有關(guān)系等;3) 概念和關(guān)系的背景知識(shí)。因?yàn)橥粋€(gè)概念和關(guān)系都有許多不同的表達(dá)方式,因此需要其背景知識(shí)作為提供查詢的字典或者本體對(duì)多種表現(xiàn)形式進(jìn)行連接。
知識(shí)圖譜是知識(shí)工程在現(xiàn)今大數(shù)據(jù)階段的一個(gè)標(biāo)志性工具。知識(shí)工程是將人工智能的原理和方法 [2] 用于構(gòu)建大規(guī)模知識(shí)庫(kù)。知識(shí)工程創(chuàng)立者費(fèi)根鮑姆(Feigenbaum)給出了知識(shí)工程的確切定義,即將知識(shí)集成到計(jì)算機(jī)系統(tǒng)從而完成只有特定領(lǐng)域?qū)<也拍芡瓿傻膹?fù)雜任務(wù) [3]。知識(shí)工程從以圖靈測(cè)試為代表的前知識(shí)工程開始,經(jīng)歷了以知識(shí)庫(kù)、框架、推理機(jī)為核心的專家系統(tǒng),Web1.0、群體智能Web2.0等發(fā)展階段,隨著2012年知識(shí)圖譜概念的提出以及Dbpedia、Freebase、YAGO等知識(shí)庫(kù)的建立,知識(shí)工程發(fā)展進(jìn)入了一個(gè)新的發(fā)展階段 [4],即大數(shù)據(jù)知識(shí)工程(BigKE)。大數(shù)據(jù)知識(shí)工程實(shí)現(xiàn)了對(duì)數(shù)據(jù)中的語(yǔ)義,包括隱含語(yǔ)義的挖掘,使數(shù)據(jù)成為了智慧數(shù)據(jù)(Smart Data),其目標(biāo)是自動(dòng)或半自動(dòng)地獲取知識(shí),融合碎片化知識(shí),然后建立基于知識(shí)的系統(tǒng) [2],最終達(dá)到為一眾應(yīng)用(例如,語(yǔ)義搜索系統(tǒng)、智能推薦系統(tǒng)、問答和對(duì)話系統(tǒng)以及大數(shù)據(jù)分析與決策)提供互聯(lián)網(wǎng)智能知識(shí)服務(wù)的目的。
知識(shí)圖譜的構(gòu)建經(jīng)歷了人工構(gòu)建和群體構(gòu)建(眾包),現(xiàn)在自動(dòng)構(gòu)建技術(shù)成為了各個(gè)業(yè)界的研究熱點(diǎn) [5]。知識(shí)圖譜構(gòu)建的兩個(gè)基本構(gòu)造是“實(shí)體–關(guān)系–實(shí)體”三元組和“實(shí)體–屬性(值)”鍵值對(duì)的構(gòu)建。實(shí)體通過它們之間的關(guān)系連接在一起形成圖數(shù)據(jù)庫(kù) [1]。知識(shí)圖譜的構(gòu)建從數(shù)據(jù)來源分類,可分為面向結(jié)構(gòu)化數(shù)據(jù)、面向半結(jié)構(gòu)化數(shù)據(jù)以及面向非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)圖譜構(gòu)建。本文主要介紹面向非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)圖譜構(gòu)建過程,以及應(yīng)用的關(guān)鍵信息抽取技術(shù)。吳信東等人在文獻(xiàn) [6] 提出了大數(shù)據(jù)知識(shí)工程模型BigKE,實(shí)現(xiàn)了三層次的知識(shí)建模過程:首先對(duì)大數(shù)據(jù)進(jìn)行三階段處理,進(jìn)行在線挖掘?qū)W習(xí)得到碎片化知識(shí)模型;接著對(duì)碎片化知識(shí)進(jìn)行多個(gè)步驟的知識(shí)融合;最終實(shí)現(xiàn)以需求為導(dǎo)向的知識(shí)服務(wù)。因此,對(duì)應(yīng)于BigKE提出的三層次過程,知識(shí)圖譜的構(gòu)建(Knowledge Graph Construction)技術(shù)按照自底向上的過程也包括三個(gè)層次:信息抽取(Information Extraction)、知識(shí)融合(Knowledge Fusion)和知識(shí)加工(Knowledge Processing) [7]。
基于大數(shù)據(jù)知識(shí)工程下知識(shí)圖譜的構(gòu)建,如吳信東等人在文獻(xiàn) [8] 提出的HACE定理所述,信息抽取可以描述為這樣的一個(gè)過程:首先,第一階段對(duì)大量孤立、模糊、復(fù)雜的動(dòng)態(tài)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行初步處理和計(jì)算;然后,第二階段對(duì)數(shù)據(jù)進(jìn)行深層語(yǔ)義分析、用戶隱私保護(hù)問題分析以及應(yīng)用領(lǐng)域知識(shí)的結(jié)合分析;最后,第三階段選擇合適的挖掘算法和抽取技術(shù)進(jìn)行數(shù)據(jù)抽取和融合 [8]。通過將抽取得到的碎片化知識(shí)存入知識(shí)庫(kù)的數(shù)據(jù)層和模式層,我們最終可以對(duì)數(shù)據(jù)形成本體化表達(dá)。這里的抽取技術(shù)又按照抽取過程分為實(shí)體抽取(Entity Extraction)、關(guān)系抽取(Relation Extraction)、屬性抽取(Attribute Extraction)以及實(shí)體鏈接(Entity Linking)等 [9] [10]。其中,實(shí)體抽取用于發(fā)現(xiàn)文本或者網(wǎng)頁(yè)中的命名實(shí)體,并將其加入現(xiàn)有知識(shí)庫(kù)中。關(guān)系抽取用于自動(dòng)抽取實(shí)體之間存在的語(yǔ)義關(guān)系。屬性抽取屬于一種特殊的關(guān)系抽取。信息抽取的目標(biāo)是自動(dòng)化知識(shí)獲取,即實(shí)現(xiàn)自動(dòng)地從異構(gòu)數(shù)據(jù)源中抽取實(shí)體、關(guān)系、屬性等信息進(jìn)而得到候選知識(shí)單元。
由于知識(shí)圖譜的構(gòu)建過程是通過以結(jié)構(gòu)化形式描述客觀世界中的概念、實(shí)體以及其關(guān)系開始的 [11],概念、實(shí)體、關(guān)系等信息提取的準(zhǔn)確性對(duì)構(gòu)建過程至關(guān)重要,信息丟失、冗余、重疊往往是知識(shí)圖譜構(gòu)建面臨的最大挑戰(zhàn) [1]。作為知識(shí)圖譜構(gòu)建的第一步,信息抽取是得到候選知識(shí)單元的關(guān)鍵。信息抽取的完整度、準(zhǔn)確度直接顯性影響后續(xù)知識(shí)圖譜構(gòu)建步驟的質(zhì)量和效率以及最終知識(shí)圖譜的質(zhì)量。
面向知識(shí)圖譜的信息抽取與傳統(tǒng)信息抽取有很大區(qū)別。面向知識(shí)圖譜的信息抽取大多面向開放域(Open Domain)而不再是限定領(lǐng)域(Closed Domain)。同時(shí),隨著維基百科(Wikipedia)等知識(shí)庫(kù)的出現(xiàn),知識(shí)圖譜的數(shù)據(jù)源從有限的文本類型擴(kuò)展為多源、異構(gòu)、語(yǔ)義結(jié)構(gòu)復(fù)雜的海量數(shù)據(jù)。因此,信息抽取的核心技術(shù)從單一的文本分析變?yōu)閺?fù)雜的知識(shí)發(fā)現(xiàn)、知識(shí)鏈接等,并在新的應(yīng)用場(chǎng)景和領(lǐng)域中對(duì)現(xiàn)有技術(shù)和實(shí)現(xiàn)方法提出了新的挑戰(zhàn)問題。
信息抽取作為構(gòu)建知識(shí)圖譜的基礎(chǔ)技術(shù),實(shí)現(xiàn)了從大規(guī)模數(shù)據(jù)中獲取結(jié)構(gòu)化的命名實(shí)體及其屬性或關(guān)聯(lián)信息。同時(shí),由于具有多樣化的實(shí)現(xiàn)方法,擴(kuò)充了信息抽取技術(shù)的應(yīng)用領(lǐng)域和場(chǎng)景,也提升了對(duì)信息抽取技術(shù)研究的價(jià)值和必要性的認(rèn)可度。
本文首先以知識(shí)圖譜的構(gòu)建框架為背景。探討信息抽取研究的意義;然后從MUC、ACE和ICDM三個(gè)國(guó)際測(cè)評(píng)會(huì)議的角度回顧信息抽取的發(fā)展歷史;接著,基于面向限定域和開放域兩個(gè)方面,介紹信息抽取的關(guān)鍵技術(shù),包括實(shí)體抽取技術(shù)、關(guān)系抽取技術(shù)和屬性抽取技術(shù)。
2. 信息抽取研究的發(fā)展歷史
2.1. 信息抽取相關(guān)概念
信息抽取系統(tǒng)是一種從大量信息源中迅速拋開無(wú)效信息找到有用信息的信息獲取工具。關(guān)于信息抽取的定義有以下幾種。
定義1 信息抽取的目標(biāo)是從海量數(shù)據(jù)中,尤其是本文數(shù)據(jù)中,快速精準(zhǔn)分析抽取出特定的事實(shí)信息(Factual Information),將其轉(zhuǎn)換成可理解可使用的結(jié)構(gòu)化形式信息 [12],最后將條理的結(jié)構(gòu)化信息存儲(chǔ)在數(shù)據(jù)庫(kù)中,等待下一步的分析利用。
定義2 信息抽取是一種自動(dòng)地從結(jié)構(gòu)化(Structured Data)、半結(jié)構(gòu)化(Semi-structured Data)或非結(jié)構(gòu)化(Unstructured Data)數(shù)據(jù)中抽取概念、實(shí)體、事件,以及其相關(guān)的屬性和之間的關(guān)聯(lián)關(guān)系等結(jié)構(gòu)化信息的技術(shù) [13]。
信息抽取帶有一定的文本理解。可以看作深層的信息檢索技術(shù),也可以看作是簡(jiǎn)化的文本理解技術(shù)。信息抽取通常從兩方面進(jìn)行實(shí)現(xiàn):一類是基于知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Databases, KDD)和數(shù)據(jù)挖掘(Data Mining)的方法,通常處理結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù);另一類是基于自然語(yǔ)言處理(Natural Language Processing, NLP)和文本挖掘(Text Mining)的方法 [12],通常處理非結(jié)構(gòu)化數(shù)據(jù)。信息抽取的具體方法可分為三類:第一類是基于規(guī)則(基于專家系統(tǒng))的方法。主要在早期使用,使用人工編制規(guī)則,存在效率低,系統(tǒng)可移植性差等不可忽視的局限性;第二類是基于統(tǒng)計(jì)的方法,可在一定程度彌補(bǔ)第一類方法的缺點(diǎn);第三類是基于機(jī)器學(xué)習(xí)的方法,,它大幅減少了人工干預(yù),并具有處理新文本的能力,是目前常用的方法。
2.2. 信息抽取發(fā)展史
2.2.1. MUC會(huì)議和ACE會(huì)議
到20世紀(jì)80年代末,由于消息理解系列會(huì)議(Message Understanding Conference, MUC)的召開,信息抽取技術(shù)開始飛速發(fā)展,逐漸進(jìn)入蓬勃期,成為了自然語(yǔ)言處理領(lǐng)域的重要分支之一。
MUC會(huì)議自1987年召開第一屆起,一共進(jìn)行了7屆會(huì)議。會(huì)議由美國(guó)國(guó)防高級(jí)計(jì)劃研究局DARPA資助,其主要目的是對(duì)信息抽取系統(tǒng)進(jìn)行評(píng)測(cè) [14],是典型的評(píng)測(cè)驅(qū)動(dòng)會(huì)議。會(huì)前MUC組織會(huì)提供樣例文本和抽取任務(wù)說明,參會(huì)單位進(jìn)行信息抽取系統(tǒng)的開發(fā)。在會(huì)議召開時(shí)參會(huì)單位將對(duì)各自系統(tǒng)進(jìn)行樣例文本集合的測(cè)試,然后通過與手工標(biāo)注結(jié)果進(jìn)行對(duì)比,得到評(píng)測(cè)結(jié)果。最后在會(huì)議中對(duì)評(píng)測(cè)結(jié)果進(jìn)行分享、交流、討論。
MUC會(huì)議在抽取任務(wù)中定義了模板、槽的填充規(guī)則以及模板填充機(jī)制,將信息抽取規(guī)定為模板填充的過程,模板填充即將抽取出的文本信息按照一定規(guī)則填入模板的相應(yīng)槽中 [12]。除此,會(huì)議還定義了一套完整的評(píng)價(jià)指標(biāo),由準(zhǔn)確率(Precision)、召回率(Recall)、F1值以及平均填充錯(cuò)誤率(Error Per Response Fill, EPRF)等進(jìn)行結(jié)果評(píng)價(jià)。
在會(huì)議的逐年開展過程中,信息抽取任務(wù)逐漸細(xì)化、復(fù)雜化:抽取模板由單一的扁平結(jié)構(gòu)變?yōu)槎鄠€(gè)模板的嵌套結(jié)構(gòu);組成模板的槽,從18個(gè)、24個(gè)到47個(gè)的逐漸增加;評(píng)測(cè)任務(wù)也在開始僅有的場(chǎng)景模板(Scenario Templates)填充任務(wù)上進(jìn)行了命名實(shí)體識(shí)別(Named Entity Recognition)任務(wù)、共指消解(Coreference Resolution)、模板元素填充(Template Elements)、模板關(guān)系抽取和事件抽取等的任務(wù)擴(kuò)充。
總之,MUC會(huì)議的召開吸引了世界各地的研究者開始信息抽取系統(tǒng)的開發(fā),在信息抽取研究的實(shí)踐和理論方面都起到了極大的促進(jìn)作用 [15],并確立了信息抽取的各種標(biāo)準(zhǔn)和規(guī)范,以及信息抽取技術(shù)的研究和發(fā)展方向。
繼MUC之后,2000年12月,由美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)學(xué)會(huì)(NIST)、美國(guó)國(guó)家安全局(NSA)以及中央情報(bào)局(CIA)共同主管舉辦的自動(dòng)內(nèi)容抽取(Automatic Content Extraction, ACE)評(píng)測(cè)會(huì)議接著成為了信息抽取研究的又一巨大推動(dòng)力,將信息抽取技術(shù)推向了一個(gè)新的高度。ACE會(huì)議的研究?jī)?nèi)容是開發(fā)自動(dòng)內(nèi)容抽取技術(shù),實(shí)現(xiàn)對(duì)不同來源的語(yǔ)言文本的自動(dòng)處理,尤其對(duì)新聞?wù)Z料中的實(shí)體、關(guān)系、事件進(jìn)行自動(dòng)識(shí)別、抽取和描述。
和MUC相比,ACE不限定某個(gè)領(lǐng)域或場(chǎng)景 [16],增加了對(duì)系統(tǒng)跨文檔處理(Cross-Document Processing)能力的評(píng)價(jià),采用基于漏報(bào)和誤報(bào)的評(píng)價(jià)體系。其中,“漏報(bào)”表示實(shí)際結(jié)果中存在而系統(tǒng)輸出中沒有;“誤報(bào)”表示實(shí)際結(jié)果中不存在而系統(tǒng)輸出中有。
2.2.2. ICDM2019知識(shí)圖譜比賽KGC [6]
2019年IEEE國(guó)際數(shù)據(jù)挖掘大會(huì)ICDM (International Conference on Data Mining)舉辦了知識(shí)圖譜構(gòu)建比賽KGC。該比賽由明略(Mininglamp)科學(xué)院和合肥工業(yè)大學(xué)主辦,旨在對(duì)特定領(lǐng)域或多領(lǐng)域的非結(jié)構(gòu)化文本進(jìn)行自動(dòng)知識(shí)圖譜構(gòu)建。該比賽的目的是生成類似人在閱讀一段文字時(shí)的思維模式的知識(shí)圖譜,因此比賽的評(píng)判由專家進(jìn)行。比賽邀請(qǐng)了學(xué)位授予機(jī)構(gòu)和工業(yè)實(shí)驗(yàn)室的團(tuán)隊(duì)參加,要求參與者首先設(shè)計(jì)模型,以文本作為輸入,以知識(shí)圖譜作為輸出,從文本數(shù)據(jù)中提取知識(shí)三元組,并在比賽方提供的統(tǒng)一測(cè)試集上進(jìn)行測(cè)試,若通過第一輪篩選,則進(jìn)一步提供Web應(yīng)用程序來可視化給定數(shù)據(jù)集的知識(shí)圖譜。比賽規(guī)定知識(shí)圖中的節(jié)點(diǎn)必須是文章中的實(shí)體詞;鏈接必須是實(shí)體之間的關(guān)系詞或?qū)傩?并且節(jié)點(diǎn)必須由原始文本中的單詞或短語(yǔ)表示,且對(duì)同一單詞的同義詞進(jìn)行合并。比賽的數(shù)據(jù)集是涵蓋汽車工程、化妝品、公共安全和餐飲服務(wù)四個(gè)行業(yè)的300篇新聞短文本,其中120篇為專家預(yù)先進(jìn)行手工標(biāo)記的文章。
這個(gè)KGC比賽的新穎之處在于,沒有為實(shí)體或關(guān)系預(yù)先提供任何類型的架構(gòu)。除了ICDM 2019的KGC比賽,還涌現(xiàn)出了不少于信息抽取技術(shù)相關(guān)的國(guó)際學(xué)術(shù)會(huì)議,如國(guó)際信息和知識(shí)管理大會(huì)(International Conference on Information and Knowledge Management, CIKM)。
2.3. 性能衡量指標(biāo)
在衡量信息抽取系統(tǒng)性能的指標(biāo)中最常用的是準(zhǔn)確率(Precision)跟召回率(Recall)。準(zhǔn)確率指的是在抽取的所有結(jié)果中正確抽取結(jié)果所占的比例 [17];召回率指的是所有可能的抽取結(jié)果中正確抽取結(jié)果所占的比例 [12]。通常兩者的調(diào)和平均數(shù)F指數(shù)也常用于性能衡量,F(xiàn)指數(shù)的計(jì)算如下:
其中beta是召回率和準(zhǔn)確率的相對(duì)權(quán)重。beta的取值一般為1、1/2、2。當(dāng)beta = 1/2時(shí)召回率的重要程度是準(zhǔn)確率的2倍;當(dāng)beta = 2時(shí)召回率的重要程度是準(zhǔn)確率的一半;為1時(shí)兩者則同等重要。
3. 信息抽取中的關(guān)鍵技術(shù)
3.1. 命名實(shí)體識(shí)別
3.1.1. 命名實(shí)體識(shí)別相關(guān)概念
除了一些眾所周知的英文縮寫,如IP、CPU、FDA,所有的英文縮寫在文中第一次出現(xiàn)時(shí)都應(yīng)該給出其全稱。文章標(biāo)題中盡量避免使用生僻的英文縮寫。
實(shí)體(Entity)是世界上客觀存在并可相互區(qū)分的對(duì)象或事物。實(shí)體根據(jù)其在現(xiàn)實(shí)世界中的自然劃分,通常分為如下三大類七小類 [18]:實(shí)體類包括人名、地名和機(jī)構(gòu)名類三小類;時(shí)間類包括時(shí)間,日期兩小類;數(shù)字類包括貨幣類和百分比類。
命名實(shí)體識(shí)別(Named Entity Recognition, NER)是信息抽取的第一步,是信息抽取中最為關(guān)鍵和重要的步驟。命名實(shí)體識(shí)別是從文本中識(shí)別出實(shí)體的命名指稱。命名實(shí)體識(shí)別又稱為“專名識(shí)別”、“實(shí)體抽取” [19]。實(shí)體識(shí)別包括兩個(gè)步驟:實(shí)體邊界識(shí)別和實(shí)體分類。邊界識(shí)別的目的是判斷字符串是否是一個(gè)完整實(shí)體,實(shí)體分類將實(shí)體劃分到預(yù)先設(shè)定的不同類別。命名實(shí)體識(shí)別可以看作是識(shí)別出表示命名實(shí)體的短語(yǔ),并對(duì)其進(jìn)行類型指定的過程。
實(shí)體識(shí)別通常與實(shí)體鏈接密不可分。實(shí)體識(shí)別負(fù)責(zé)指定實(shí)體類別,實(shí)體鏈接是將識(shí)別出的實(shí)體通過識(shí)別和消歧等步驟后與數(shù)據(jù)庫(kù)中的實(shí)體進(jìn)行對(duì)應(yīng)。實(shí)體識(shí)別與鏈接將文本轉(zhuǎn)換為結(jié)構(gòu)化的、以實(shí)體為中心的語(yǔ)義表示形式,是問答系統(tǒng)、機(jī)器翻譯、數(shù)據(jù)標(biāo)注、句法分析的基礎(chǔ)前提步驟 [20],是海量文本分析、知識(shí)圖譜構(gòu)建補(bǔ)全的“核心技術(shù)”之一。
3.1.2. 命名實(shí)體識(shí)別經(jīng)典模型方法
命名實(shí)體識(shí)別技術(shù)方法分為基于規(guī)則、基于統(tǒng)計(jì)以及基于機(jī)器學(xué)習(xí)三類 [21]。隨著時(shí)代的變換更新,命名實(shí)體識(shí)別技術(shù)也在不斷革新。從早期面向特定領(lǐng)域,逐漸發(fā)展為面向開放域(Open Domain);從最初基于人工編寫規(guī)則,使用啟發(fā)式算法轉(zhuǎn)變?yōu)榛跅l件隨機(jī)場(chǎng)(Conditional Random Field, CRF)、最大熵(Maximum Entropy, ME)、K-最近鄰(K-Nearest Neighbors)等統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法;從基于有監(jiān)督學(xué)習(xí)逐漸變?yōu)槿醣O(jiān)督學(xué)習(xí),再到無(wú)監(jiān)督機(jī)器學(xué)習(xí)方式。以下是一些經(jīng)典的面向特定領(lǐng)域的實(shí)體識(shí)別方法:
1) 基于規(guī)則的實(shí)體識(shí)別方法
這類方法通常利用一組手工定義的規(guī)則,在文本中搜索與這些規(guī)則匹配的字符串,來抽取人名、地名、組織名等。其中,謝菲爾德大學(xué)提出了用于英語(yǔ)命名實(shí)體識(shí)別的LaSIE-II系統(tǒng) [22] 較為經(jīng)典。除此,文獻(xiàn) [23] 利用啟發(fā)式算法與規(guī)則模板結(jié)合的方法首次實(shí)現(xiàn)了公司名稱抽取系統(tǒng)對(duì)公司實(shí)體進(jìn)行抽取。
這類方法依賴固定的詞法(Lexical)、句法(Syntactic)和語(yǔ)義約束(Semantic Constraints),準(zhǔn)確率較高,但是需要依靠特定專家對(duì)特定領(lǐng)域的規(guī)則進(jìn)行編寫,存在領(lǐng)域性強(qiáng),系統(tǒng)可移植性差等缺點(diǎn)。
2) 最大熵分類模型 [24]
最大熵模型(Maximum Entropy)是一種概率估計(jì)模型,估計(jì)構(gòu)建模型與已有訓(xùn)練集的效果相似度。其基本思想是選擇創(chuàng)建一個(gè)模型使得其與給定的訓(xùn)練數(shù)據(jù)、訓(xùn)練樣本產(chǎn)生效果盡可能一致。比如訓(xùn)練數(shù)據(jù)中命名實(shí)體前面的詞為動(dòng)詞的概率為50%,則最大熵模型得到的結(jié)果中命名實(shí)體前為動(dòng)詞的概率也要為50%。最大熵模型的形式化描述如下:
其中, p′p′ 表示樣本經(jīng)驗(yàn)分布,P表示所有概率模型的集合 [25]。
通過上述表達(dá)式可知,滿足給定訓(xùn)練集的模型并不唯一,而最終尋找的是在約束條件下各種評(píng)價(jià)指標(biāo)分布最均勻的模型,即最符合客觀情況、具有最大熵的模型。
最大熵模型可以用于特征函數(shù)的生成、特征函數(shù)選取、參數(shù)估計(jì),常應(yīng)用于文本分類、數(shù)據(jù)挖掘、詞性標(biāo)注等問題。例如,MENE系統(tǒng)采用最大熵模型實(shí)現(xiàn)英語(yǔ)命名實(shí)體的識(shí)別。MENE使用和比較了多種特征,包括外部系統(tǒng)特征、分類字典特征等等,提高了系統(tǒng)的跨語(yǔ)言可移植性和系統(tǒng)性能,實(shí)現(xiàn)了將文檔中的每個(gè)單詞分類為人名、組織、位置、日期、時(shí)間、金錢價(jià)值、百分比或“以上都不是”。該系統(tǒng)可以用于Internet搜索引擎,機(jī)器翻譯,文檔自動(dòng)索引,也可以作為處理更復(fù)雜的信息提取任務(wù)的基礎(chǔ) [26]。
最大熵模型將實(shí)體識(shí)別的任務(wù)轉(zhuǎn)換為子字符串的分類任務(wù) [11]。該模型的優(yōu)點(diǎn)是結(jié)構(gòu)緊湊,通用性較高,便于自然語(yǔ)言處理,但存在訓(xùn)練復(fù)雜度高,時(shí)間消耗和計(jì)算空間開銷大等缺點(diǎn) [21]。
3) 隱馬爾科夫模型
隱馬爾可夫模型(Hidden Markov Model, HMM)是眾多基于統(tǒng)計(jì)的模型中評(píng)價(jià)性能最佳的一種模型。HMM模型的基本思想就是給定觀測(cè)序列(句子),其數(shù)據(jù)是可以觀測(cè)到的,通過捕獲需要的狀態(tài)轉(zhuǎn)移信息,尋找觀測(cè)值所對(duì)應(yīng)的最佳狀態(tài)序列(句子的標(biāo)記序列) [26],這類數(shù)據(jù)是隱藏的,無(wú)法直接觀測(cè)。
HMM模型采用了Viterbi算法 [27] 求取命名實(shí)體最佳標(biāo)記序列(狀態(tài)序列),顯著提高了模型的訓(xùn)練速度、識(shí)別效率,這是隱馬爾可夫區(qū)別于其他模型的顯著優(yōu)勢(shì),但是HMM模型的準(zhǔn)確率要比期望最大化(Expectation Maximization, EM)模型、CRF模型低一些。因此HMM模型適用于實(shí)時(shí)性要求較高的場(chǎng)合,如語(yǔ)音識(shí)別、詞性標(biāo)注等領(lǐng)域。
HMM由于其輸出獨(dú)立性假設(shè),導(dǎo)致其不能考慮上下文的特征,限制了特征的選擇。雖然之后提出了更為有效的最大熵馬爾可夫模型(Maximum Entropy Markov Model, MEMM),考慮了整個(gè)觀察序列,但仍存在“標(biāo)注偏置”(Label Bias)問題。
4) 條件隨機(jī)場(chǎng)模型
Lafferty等人 [28] 在2001年提出了條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)模型,它是一種判別式概率模型和一種序列分割及標(biāo)記的可區(qū)分訓(xùn)練模型,其狀態(tài)值取值的獨(dú)立性不僅取決于臨近的過去,也取決于未來,相對(duì)于MEMM和HMM更加有效。常用于分詞、命名實(shí)體識(shí)別等預(yù)測(cè)問題。
CRF模型將實(shí)體識(shí)別問題轉(zhuǎn)化為序列標(biāo)注問題。文獻(xiàn) [29] 提出并實(shí)現(xiàn)了從簡(jiǎn)短非正式的Twitter文章中進(jìn)行命名實(shí)體識(shí)別,處理推文的命名實(shí)體識(shí)別所面臨的信息不足以及訓(xùn)練數(shù)據(jù)不可用的挑戰(zhàn)。文章提出在半監(jiān)督的學(xué)習(xí)框架下,將K個(gè)最近鄰(KNN)分類器與線性條件隨機(jī)場(chǎng)(CRF)模型相結(jié)合,基于KNN的分類器進(jìn)行預(yù)標(biāo)記以收集整個(gè)推文中的全局粗略證據(jù),而CRF模型進(jìn)行順序標(biāo)記以捕獲推文中編碼的細(xì)粒度信息。
條件隨機(jī)場(chǎng)模型為命名實(shí)體識(shí)別提供了一個(gè)特征靈活、全局最優(yōu)的標(biāo)注框架 [21],但是也存在收斂速度慢、訓(xùn)練時(shí)間長(zhǎng)、依賴特征多的局限性。
5) 混合模型
基于規(guī)則的方法可移植性差,費(fèi)時(shí)費(fèi)力但是識(shí)別結(jié)果比較理想,基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法性能依賴于訓(xùn)練樣本的規(guī)模,也出現(xiàn)了一定局限性。因此,出現(xiàn)了將兩者相互結(jié)合的方法。Lin等人 [30] 實(shí)現(xiàn)的是從自然語(yǔ)言文本中識(shí)別生物醫(yī)學(xué)命名實(shí)體,提取生物醫(yī)學(xué)信息。文章提出的識(shí)別方法分為兩個(gè)階段:先使用最大熵作為基礎(chǔ)的機(jī)器學(xué)習(xí)方法;然后結(jié)合基于字典和基于規(guī)則的方法進(jìn)行后處理,包括邊界檢測(cè)擴(kuò)展和錯(cuò)誤分類糾正。對(duì)Medine論文摘要的GENIA數(shù)據(jù)集進(jìn)行了實(shí)體抽取測(cè)試,取得了較理想的結(jié)果,召回率和準(zhǔn)確率都得到了提升。
6) 基于深度學(xué)習(xí)的方法
深度學(xué)習(xí)方法的訓(xùn)練是一個(gè)端對(duì)端的過程,無(wú)需人工定義相關(guān)特征 [4],其基本思想是使用訓(xùn)練數(shù)據(jù)學(xué)習(xí)對(duì)命名實(shí)體識(shí)別有用的特征,然后利用學(xué)習(xí)的特征在文本中進(jìn)行命名實(shí)體識(shí)別?;谏疃葘W(xué)習(xí)的方法主要有以下兩類:
i. 神經(jīng)網(wǎng)絡(luò)–條件隨機(jī)場(chǎng)架構(gòu)(Neural Network-Conditional Random Field, NN-CRF) [31]
在這個(gè)架構(gòu)中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks)/長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)用來學(xué)習(xí)每一個(gè)詞的位置的向量表示,然后根據(jù)這個(gè)向量表示NN-CRF模型可以計(jì)算得到這個(gè)位置處的最佳標(biāo)簽。這類方法解決了實(shí)體識(shí)別的序列化標(biāo)記問題。文獻(xiàn) [32] 提出了使用詞向量表示特征的最簡(jiǎn)單、最有效的方法。文章 [33] 提出了一種半監(jiān)督系統(tǒng)(以無(wú)監(jiān)督的方式從大型語(yǔ)料庫(kù)中學(xué)習(xí)單詞表示,并使用這些單詞表示作為有監(jiān)督訓(xùn)練的輸入特征,而不是使用手工制作的輸入特征),從4億個(gè)Twitter微博中自動(dòng)推斷出的單詞嵌入表示形式,作為系統(tǒng)輸入,使用前饋神經(jīng)網(wǎng)絡(luò)(Feed Forward Neural Network, FFNN)進(jìn)行分類,得到多種實(shí)體類別:公司、設(shè)施、地理位置、音樂藝術(shù)家、電影、人物、產(chǎn)品。該篇論文提出的方法沒有加入人工參與,專注于分布式單詞表示,可以應(yīng)用于不同的語(yǔ)料庫(kù),并且得到較好結(jié)果。最近,文獻(xiàn) [34] 提出了一種神經(jīng)半馬爾可夫(Neural Semi-Markov)結(jié)構(gòu)的支持向量機(jī)模型,這是一種訓(xùn)練精度驅(qū)動(dòng)的NER模型,該模型將實(shí)體抽取擴(kuò)展到序列標(biāo)記問題,引入了代價(jià)敏感學(xué)習(xí)(Cost-Sensitive Learning)來控制精度和召回率之間的折衷。
ii. 基于滑動(dòng)窗口分類的方法
該方法使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)句子中的每一個(gè)N-Gram的表示,然后預(yù)測(cè)該N-Gram是否是一個(gè)目標(biāo)實(shí)體 [4]。文獻(xiàn) [35] 實(shí)現(xiàn)了從科學(xué)文章中提取關(guān)鍵字短語(yǔ)并根據(jù)任務(wù)、材料、過程等方面對(duì)其進(jìn)行分類的任務(wù),該文章使用神經(jīng)標(biāo)記模型并引入基于圖的半監(jiān)督算法,將實(shí)體抽取歸結(jié)為序列標(biāo)記問題,對(duì)未標(biāo)注的訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)。這種方法對(duì)單一領(lǐng)域內(nèi)、高數(shù)據(jù)量數(shù)據(jù)比使用跨域、小數(shù)據(jù)量數(shù)據(jù)具有更好的性能。
3.1.3. 面向開放域的實(shí)體抽取方法
在面向開放域的信息抽取中,信息來源不再是特定的知識(shí)領(lǐng)域,成為了全網(wǎng)信息,面向海量Web語(yǔ)料 [36]。例如,KnowItAll系統(tǒng) [37] 處理的是規(guī)模龐大、具有異質(zhì)性的Web語(yǔ)料庫(kù),例如Twitter、Wikipedia等。
開始研究人員采用人工方法進(jìn)行實(shí)體識(shí)別和分類。例如,Sekine等人 [38] 在2002年采用人工預(yù)定義實(shí)體分類體系首次展示了一個(gè)層次結(jié)構(gòu)的命名實(shí)體分類框架,將全網(wǎng)的實(shí)體分為了150個(gè)種類。Ling等人 [39] 在此基礎(chǔ)上接著在2012年提出了112種的分類方法,該方法基于Freebase類型獨(dú)特標(biāo)記方法,先利用Wikipedia文件中的錨鏈接自動(dòng)標(biāo)記實(shí)體段,訓(xùn)練條件隨機(jī)場(chǎng)模型,用來分割識(shí)別到的實(shí)體邊界,接著采用自適應(yīng)感知器算法實(shí)現(xiàn)對(duì)多類多標(biāo)簽實(shí)體的自動(dòng)分類。
實(shí)體分類體系通過人工干預(yù)進(jìn)行構(gòu)建顯得很是困難,因此,出現(xiàn)了通過統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法從數(shù)據(jù)集抽取與當(dāng)前類別實(shí)體具有相似上下文特征的實(shí)體,從而實(shí)現(xiàn)分類和聚類的方法。Jain等人 [40] 提出并實(shí)例化了一種用于通過web搜索查詢?nèi)罩具M(jìn)行公開信息提取的新穎模型。該方法的處理對(duì)象是網(wǎng)頁(yè)中的查詢?nèi)罩?,通過應(yīng)用基于模式的啟發(fā)式方法和統(tǒng)計(jì)方法,使用無(wú)監(jiān)督方法從搜索查詢?nèi)罩局刑崛?shí)體,采用聚類算法對(duì)基于日志搜索得到的實(shí)體進(jìn)行聚類,進(jìn)而得到分類。這是一種面向開放域的無(wú)監(jiān)督學(xué)習(xí)算法,該方法可以應(yīng)用在協(xié)助搜索的關(guān)鍵字生成方面,例如搜索“手機(jī)”出現(xiàn)“華為”“小米”等建議。
由于傳統(tǒng)統(tǒng)計(jì)模型需要進(jìn)行大量語(yǔ)料標(biāo)注、人工構(gòu)造大量特征的局限性,出現(xiàn)了一些新方法,例如,使用基于半監(jiān)督算法 [41] 、遠(yuǎn)距離監(jiān)督算法 [42] 、基于海量數(shù)據(jù)冗余性 [20] 的自學(xué)習(xí)方法等來解決開放式實(shí)體抽取問題。面向開放域的實(shí)體抽取方法常應(yīng)用于基于常識(shí)的新穎的問答系統(tǒng) [24]。
3.2. 關(guān)系抽取
命名實(shí)體識(shí)別是從文本中抽取特定實(shí)體,但僅孤立、離散的實(shí)體是無(wú)法得到語(yǔ)義結(jié)構(gòu)無(wú)法滿足應(yīng)用需求的,這時(shí)候確立實(shí)體之間的關(guān)聯(lián)關(guān)系顯得更為重要。實(shí)體關(guān)系抽取是對(duì)已經(jīng)識(shí)別出的實(shí)體進(jìn)行預(yù)定義的關(guān)系識(shí)別,為更深層次的分析提供資源也是知識(shí)圖譜構(gòu)建的重要環(huán)節(jié)之一。
關(guān)系抽取是一種獲取已經(jīng)識(shí)別出的實(shí)體之間的語(yǔ)法或語(yǔ)義之間連接方式的技術(shù)。和命名實(shí)體識(shí)別類似,關(guān)系抽取中實(shí)體關(guān)系的類型也需要預(yù)先定義,例如人物之間的親屬關(guān)系、組織機(jī)構(gòu)和地點(diǎn)之間的關(guān)系等等。
關(guān)系抽取的范圍分為面向特定領(lǐng)域(Close Domain)、面向開放領(lǐng)域(Open Domain)以及聯(lián)合推理三大類。面向特定領(lǐng)域的關(guān)系抽取方法和實(shí)體識(shí)別相似,前期主要使用基于模式匹配和基于詞典驅(qū)動(dòng)的方法,依靠人工編寫抽取規(guī)則。隨著人工構(gòu)造規(guī)則低效性和領(lǐng)域局限性的明顯化以及研究的深入,現(xiàn)在較多使用的兩類方法是:基于機(jī)器學(xué)習(xí)(Machine Learning)的方法和基于本體(Ontology)的方法。其中,基于機(jī)器學(xué)習(xí)的方法又分為有監(jiān)督、弱監(jiān)督和無(wú)監(jiān)督三類。在面向開放域的關(guān)系抽取發(fā)展中出現(xiàn)了以O(shè)IE系統(tǒng)為基礎(chǔ)的多個(gè)系統(tǒng),例如,WOE系統(tǒng)、OIE ReVerb系統(tǒng)、OILLIE系統(tǒng)等,實(shí)現(xiàn)了動(dòng)詞、非動(dòng)詞的關(guān)系抽取和二元、多元的關(guān)系抽取。同時(shí),為了解決隱含關(guān)系的抽取,產(chǎn)生了將面向開放域的關(guān)系抽取方法與傳統(tǒng)面向特定領(lǐng)域的信息抽取方法相結(jié)合的聯(lián)合推理的思想,是關(guān)系抽取方法上的一個(gè)巨大進(jìn)步。
3.2.1. 基于機(jī)器學(xué)習(xí)(Machine Learning)的辦法
基于機(jī)器學(xué)習(xí)的實(shí)體關(guān)系抽取方法的思想是:首先對(duì)人工標(biāo)注的語(yǔ)料庫(kù)進(jìn)行不斷學(xué)習(xí)不斷訓(xùn)練,獲取特定領(lǐng)域的信息抽取規(guī)則,接著利用機(jī)器學(xué)習(xí)算法進(jìn)行關(guān)系識(shí)別?;跈C(jī)器學(xué)習(xí)的實(shí)體關(guān)系抽取系統(tǒng)一定程度上可以處理新的文本,這是其區(qū)別于以往方法的最大優(yōu)點(diǎn)。基于機(jī)器學(xué)習(xí)的方法根據(jù)是否需要人工標(biāo)注訓(xùn)練集以及對(duì)標(biāo)簽的需求程度又分為有監(jiān)督、弱監(jiān)督和無(wú)監(jiān)督三類 [43]。
1) 有監(jiān)督的學(xué)習(xí)方法
有監(jiān)督的學(xué)習(xí)方法需要人工預(yù)先標(biāo)注大量語(yǔ)料訓(xùn)練集以確保算法的有效性,然后對(duì)訓(xùn)練集進(jìn)行不斷學(xué)習(xí)獲取信息抽取規(guī)則。關(guān)系抽取的有監(jiān)督學(xué)習(xí)可以分為兩大類:基于特征向量的方法和基于核的方法。
最早的有監(jiān)督的學(xué)習(xí)方法是基于特征向量的學(xué)習(xí)方法。該方法將訓(xùn)練語(yǔ)料轉(zhuǎn)換為特征向量形式,使用各種機(jī)器學(xué)習(xí)算法(最大熵模型(Maximum Entropy)、支持向量機(jī)(Support Vector Machine, SVM))為其構(gòu)造分類器,從而對(duì)新數(shù)據(jù)進(jìn)行分類和測(cè)試。基于特征向量的方法將信息抽取問題看作分類問題,對(duì)數(shù)據(jù)的正確分類即對(duì)信息的正確抽取。其研究重點(diǎn)是如何獲取各種有效的詞匯、語(yǔ)法和語(yǔ)義特征進(jìn)行集成。Zhou等人 [44] 使用支持向量機(jī),運(yùn)用了多種詞匯、語(yǔ)法解析樹、依存樹特征,并且加入了各種語(yǔ)義信息,如WordNet、名稱列表name list、分塊短語(yǔ)信息等,實(shí)現(xiàn)了基于特征的關(guān)系提取,使用語(yǔ)言數(shù)據(jù)協(xié)會(huì)(Linguistic Data Consortium, LDC) 1提供的ACE語(yǔ)料,抽取出了ACE 2004定義的7大類關(guān)系類型。這些基于有監(jiān)督的學(xué)習(xí)方法發(fā)現(xiàn)實(shí)體的類別信息特征的提取有助于提高關(guān)系抽取性能。
基于核函數(shù)的方法以核函數(shù)理論為基礎(chǔ),以結(jié)構(gòu)樹為處理對(duì)象,通過直接計(jì)算兩個(gè)離散對(duì)象(如語(yǔ)法結(jié)構(gòu)樹)之間的相似度來進(jìn)行分類,不需要構(gòu)造高維特征向量空間。核函數(shù)方法可以有效地利用句法樹中的結(jié)構(gòu)化信息,已成功應(yīng)用于文本分類和生物信息學(xué)等問題。Liu等人 [45] 借助HowNet提供的本體知識(shí)構(gòu)造語(yǔ)義核函數(shù),在開放數(shù)據(jù)集上對(duì)六類ACE定義的實(shí)體進(jìn)行識(shí)別,準(zhǔn)確率達(dá)到了88%。Zhuang等人 [46] 提出了使用卷積樹核方法進(jìn)行實(shí)體語(yǔ)義抽取,在關(guān)系的結(jié)構(gòu)化信息中加入實(shí)體的語(yǔ)義信息,應(yīng)用樹裁剪策略,在減少冗余信息的同時(shí)擴(kuò)充了原有的樹結(jié)構(gòu),使之包含更豐富的實(shí)體語(yǔ)義信息。通過直接計(jì)算兩個(gè)實(shí)體關(guān)系對(duì)象(即句法樹)的相同子樹的個(gè)數(shù)來比較相似度,也改善了實(shí)體語(yǔ)義關(guān)系識(shí)別抽取的效果。實(shí)驗(yàn)數(shù)據(jù)取自ACE RDC 2004中的347篇新聞報(bào)道,共有4307個(gè)關(guān)系實(shí)例,系統(tǒng)對(duì)ACE所定義的7個(gè)大類進(jìn)行關(guān)系抽取實(shí)驗(yàn)。Zelenko等人 [47] 在淺層句法分析樹基礎(chǔ)上定義了核函數(shù),并設(shè)計(jì)了一個(gè)用于計(jì)算核函數(shù)的動(dòng)態(tài)規(guī)劃算法,然后通過支持向量機(jī)和表決感知器(Voted Perceptron)等分類算法來抽取實(shí)體語(yǔ)義關(guān)系,系統(tǒng)對(duì)200篇新聞文章(語(yǔ)料庫(kù)包含來自不同新聞社和出版物(美聯(lián)社,《華爾街日?qǐng)?bào)》,《華盛頓郵報(bào)》,《洛杉磯時(shí)報(bào)》)進(jìn)行處理,最終提取得到兩種關(guān)系,“人員–隸屬”關(guān)系(一個(gè)特定的人從屬于一個(gè)特定的組織(如“小王是騰訊公司的程序開發(fā)工程師”中在人物“小王”和組織“騰訊公司”之間存在著人員–隸屬關(guān)系)和“組織–位置”關(guān)系。
2) 弱監(jiān)督的方法
弱監(jiān)督學(xué)習(xí)方法又稱為半監(jiān)督學(xué)習(xí),使用預(yù)先定義的關(guān)系類型和關(guān)系實(shí)例的種子來取代大量的人工信息標(biāo)注過程,減輕了對(duì)標(biāo)簽的依賴。在定義了適當(dāng)?shù)膶?shí)體作為種子之后,利用機(jī)器學(xué)習(xí)方法,挖掘?qū)?yīng)關(guān)系描述模式,通過模式匹配抽取新的關(guān)系實(shí)例。關(guān)系抽取的弱監(jiān)督學(xué)習(xí)中基于Bootstrap算法、基于神經(jīng)網(wǎng)絡(luò)模型是經(jīng)典的學(xué)習(xí)方法。
基于Bootstrap算法的半監(jiān)督學(xué)習(xí)方法由Carlson等人 [48] 提出,該算法實(shí)現(xiàn)了自動(dòng)實(shí)體關(guān)系建模,首先利用少量實(shí)例作為初始種子集合,通過Pattern方式迭代學(xué)習(xí)非結(jié)構(gòu)文本以獲取新實(shí)例,接著從新實(shí)例中繼續(xù)學(xué)習(xí)并擴(kuò)展Pattern集合。Wang等人 [49] 以原始文本為輸入,提出使用一個(gè)單一的模型、端到端聯(lián)合識(shí)別邊界、實(shí)體提及的類型和關(guān)系,使用了一種基于結(jié)構(gòu)感知器的增量聯(lián)合框架,利用有效的集束搜索進(jìn)行實(shí)體和關(guān)系的抽取,該框架使用基于半馬爾可夫鏈思想實(shí)現(xiàn)基于分段的解碼算法。此后,Brin等人 [50] 發(fā)布了DIPRE系統(tǒng),該系統(tǒng)使用少量的種子模板,從網(wǎng)絡(luò)上大量非結(jié)構(gòu)文本中抽取實(shí)例,通過新的實(shí)例學(xué)習(xí)新的抽取模板,設(shè)計(jì)了一個(gè)永無(wú)止境學(xué)習(xí)者系統(tǒng)(Never-Ending Language Learner, NELL),用來不間斷抽取學(xué)習(xí)網(wǎng)絡(luò)文本中信息到結(jié)構(gòu)化知識(shí)庫(kù)中,對(duì)數(shù)據(jù)庫(kù)中的事實(shí)、知識(shí)不斷擴(kuò)充。NELL主要學(xué)習(xí)的是兩種類型的知識(shí),一種是表示特定類別的詞匯(比如,公司,家,學(xué)校),另一種是表示特定關(guān)系的名詞對(duì)(比如,表示所屬關(guān)系的(小王,騰訊公司))。通過在前人抽取系統(tǒng)基礎(chǔ)上進(jìn)行大規(guī)模Pattern構(gòu)建或完善對(duì)新抽取實(shí)例、新構(gòu)建Pattern的描述限制,很多系統(tǒng)如Snowball系統(tǒng) [42] 、NELL系統(tǒng) [51] 相繼出現(xiàn),推動(dòng)了知識(shí)圖譜的構(gòu)建進(jìn)度。
斯坦福大學(xué)(Stanford University)的Mintz等人 [52] 于2009提出基于遠(yuǎn)距離監(jiān)督學(xué)習(xí)的無(wú)標(biāo)注文本的關(guān)系抽取方法。該方法以Freebase為訓(xùn)練數(shù)據(jù)進(jìn)行遠(yuǎn)距離監(jiān)督學(xué)習(xí),設(shè)計(jì)面向文本特征的分類器,是融合了有監(jiān)督和無(wú)監(jiān)督的信息抽取方法;何婷婷 [53] 提出了基于種子的自擴(kuò)展命名實(shí)體關(guān)系抽取方法,選取有關(guān)系的命名實(shí)體對(duì)作為初始關(guān)系種子集合,通過弱監(jiān)督學(xué)習(xí)擴(kuò)展關(guān)系種子,接著計(jì)算關(guān)系種子和命名實(shí)體對(duì)之間的上下文相似度,進(jìn)而抽取新的命名實(shí)體對(duì)。
3) 無(wú)監(jiān)督的方法
無(wú)監(jiān)督方法使用未經(jīng)人工標(biāo)注的訓(xùn)練文本集,通過實(shí)體對(duì)聚類的方法,構(gòu)造分類器,給定實(shí)體間的關(guān)系。無(wú)監(jiān)督學(xué)習(xí)主要利用語(yǔ)料中大量冗余信息進(jìn)行聚類分析,進(jìn)而得到實(shí)體間關(guān)系 [5]。無(wú)監(jiān)督方法既可以處理web文檔也可以對(duì)文本文檔進(jìn)行處理。
無(wú)監(jiān)督方法可以用來對(duì)web文檔信息進(jìn)行抽取。Kathrin [54] 實(shí)現(xiàn)了基于無(wú)監(jiān)督學(xué)習(xí)的web文檔信息抽取,過程分為預(yù)處理、關(guān)系抽取和關(guān)系聚類三步;同樣地,Etzioni等人 [37] 實(shí)現(xiàn)了一個(gè)web信息抽取系統(tǒng)KNOWITALL,通過無(wú)監(jiān)督方法實(shí)現(xiàn)了高召回率(Recall)的信息抽取。
實(shí)體之間語(yǔ)義關(guān)系的抽取是web挖掘和自然語(yǔ)言處理,例如信息提取,關(guān)系檢測(cè)和社交網(wǎng)絡(luò)挖掘中各種任務(wù)的重要第一步。Hashimoto等人 [55] 提出了一種詞嵌入的方法對(duì)語(yǔ)義關(guān)系進(jìn)行分類(監(jiān)督學(xué)習(xí)),詞嵌入通過借助大型未標(biāo)注語(yǔ)料庫(kù)中特定關(guān)系的詞匯特征來預(yù)測(cè)得到名詞對(duì)中的特征,接著詞嵌入用于構(gòu)建特征向量,最終特征向量被訓(xùn)練成一個(gè)關(guān)系分類模型。Hashimoto等人 [55] 使用原始Wikipedia文件中提取的8000萬(wàn)個(gè)句子作為訓(xùn)練數(shù)據(jù)進(jìn)行詞嵌入的預(yù)訓(xùn)練,最后將文本中的名詞對(duì)之間的關(guān)系分為9個(gè)特定關(guān)系類(比如原因–結(jié)果、物質(zhì)–來源)和1個(gè)其他關(guān)系類(例如,“養(yǎng)家糊口是人們努力賺錢的很大動(dòng)力之一”中“養(yǎng)家糊口”–“賺錢”之間存在因果關(guān)系)。無(wú)監(jiān)督方法也可以通過協(xié)同聚類算法實(shí)現(xiàn)。Bollegala等人 [56] 提取了實(shí)體之間的語(yǔ)義關(guān)系,使用順序聯(lián)合聚類(co-clustering)算法,從未標(biāo)記數(shù)據(jù)中提取大量有效關(guān)系,包括語(yǔ)義關(guān)系的雙重關(guān)系(比如獲取關(guān)系,房地產(chǎn)公司購(gòu)買了一棟老洋房,同時(shí)可以表示為,老洋房被房地產(chǎn)公司收購(gòu))。該方法使用算法產(chǎn)生的聚類,訓(xùn)練了一個(gè)L1正則化邏輯回歸模型識(shí)別用來描述聚類表達(dá)關(guān)系的模式 [56]。其中提出的模型對(duì)ENT基準(zhǔn)數(shù)據(jù)集中實(shí)體對(duì)之間的關(guān)系相似性進(jìn)行了計(jì)算;對(duì)SENT500基準(zhǔn)數(shù)據(jù)集的500個(gè)手動(dòng)注釋的句子中的四種語(yǔ)義關(guān)系進(jìn)行了開放信息提取;以及對(duì)包含3500萬(wàn)個(gè)節(jié)點(diǎn)的社交網(wǎng)絡(luò)系統(tǒng)中53種不同的關(guān)系進(jìn)行了識(shí)別和分類。
無(wú)監(jiān)督方法可以用來對(duì)文本信息進(jìn)行抽取。文獻(xiàn) [57] 通過將非結(jié)構(gòu)化文本與知識(shí)庫(kù)對(duì)齊來自動(dòng)生成大量訓(xùn)練數(shù)據(jù)。文獻(xiàn) [58] 嘗試將遠(yuǎn)程監(jiān)督納入文本處理中,以通過使語(yǔ)料和文本對(duì)齊來自動(dòng)生成訓(xùn)練樣本,從而提取特征訓(xùn)練分類器。
除了上述方法,Zhang等人 [45] 提出了基于實(shí)例的無(wú)監(jiān)督學(xué)習(xí)方法,能夠?qū)?shí)體之間的雇傭關(guān)系、生產(chǎn)關(guān)系以及位置關(guān)系進(jìn)行準(zhǔn)確的識(shí)別;Ji等人 [59] 提出了一個(gè)句子級(jí)別的注意力機(jī)制模型,該模型選擇多個(gè)有效實(shí)例并充分利用知識(shí)庫(kù)中的監(jiān)督信息,使用傳統(tǒng)CNN從Freebase或Wikipedia中抽取得到的實(shí)體特征信息來豐富實(shí)例的背景知識(shí),提高實(shí)體表示。Qi等人 [45] 使用Riedel 2010開發(fā)通過將NYT語(yǔ)料對(duì)齊知識(shí)庫(kù)得到的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。
4) 深度學(xué)習(xí)方法
深度學(xué)習(xí)方法在自然語(yǔ)言處理(NLP)和圖像識(shí)別方面表現(xiàn)的性能非常強(qiáng)大,使得眾多研究者將其應(yīng)用于解決關(guān)系抽取的問題。深度網(wǎng)絡(luò)的結(jié)構(gòu)有很多種,如RNN (Recurrent Neural Networks) [9],CNNS (Convolutional Neural Networks) [3],CNNs和RNNs的結(jié)合結(jié)構(gòu) [60] [61] 以及LSTMs (Long Short-Term Memories) [62]。基于神經(jīng)網(wǎng)絡(luò)模型不需要加入太多的特征,一般加入詞向量特征、位置特征等就可以。Hsahimoto等人 [45] 利用Word Embedding方法來學(xué)習(xí)給定標(biāo)注預(yù)料中特定名詞對(duì)應(yīng)的上下文特征,將特征加入神經(jīng)網(wǎng)絡(luò)分類器中;JainPoon等人 [63] 使用了用于關(guān)系提取的卷積神經(jīng)網(wǎng)絡(luò)(CNN),針對(duì)不平衡語(yǔ)料庫(kù),自動(dòng)從句子中學(xué)習(xí)特征并最大程度地減少對(duì)外部工具包和資源的依賴,從而擺脫了傳統(tǒng)的復(fù)雜特征工程方法。該模型利用無(wú)監(jiān)督框架自動(dòng)訓(xùn)練詞嵌入作為系統(tǒng)輸入,模型使用預(yù)訓(xùn)練的詞嵌入進(jìn)行初始化,并優(yōu)化詞嵌入和位置嵌入作為模型參數(shù),對(duì)句子中兩個(gè)實(shí)體間的相對(duì)距離進(jìn)行編碼,并且提供了多種窗口大小的卷積過濾器,從而使網(wǎng)絡(luò)適合于n元關(guān)系提取。從文本中提取實(shí)體對(duì)之間的語(yǔ)義關(guān)系可以用于信息抽取、知識(shí)庫(kù)填充、問題解答等等。Zeng等人 [64] 將分段卷積神經(jīng)網(wǎng)絡(luò)(PCNN)與多實(shí)例學(xué)習(xí)一起用于遠(yuǎn)程監(jiān)督關(guān)系提取。此方法中,無(wú)需復(fù)雜的NLP預(yù)處理即可自動(dòng)學(xué)習(xí)特征。Zhang等人 [65] 提出了將LSTM序列模型與實(shí)體位置感知相結(jié)合的關(guān)系抽取神經(jīng)序列模型,通過更好的監(jiān)督數(shù)據(jù)和更合適的大容量模型的結(jié)合實(shí)現(xiàn)了更好的關(guān)系提取性能。
以上四種機(jī)器學(xué)習(xí)方法均可以對(duì)實(shí)體關(guān)系進(jìn)行抽取。有監(jiān)督的信息抽取方法需要預(yù)先人工標(biāo)注大量語(yǔ)料集,對(duì)人工的依賴性較強(qiáng),抽取的準(zhǔn)確率較高,常常用來處理自然語(yǔ)言文本;弱監(jiān)督學(xué)習(xí)減少了對(duì)標(biāo)簽的依賴,降低了對(duì)人工的依賴,其使用了預(yù)先定義的關(guān)系類型和關(guān)系實(shí)例的種子,實(shí)現(xiàn)了很多自動(dòng)關(guān)系抽取模型,推動(dòng)了知識(shí)圖譜的構(gòu)建進(jìn)度;無(wú)監(jiān)督方法使用的文本集不需要進(jìn)行人工標(biāo)注,它使用實(shí)體對(duì)聚類方法實(shí)現(xiàn)關(guān)系抽取。弱監(jiān)督以及無(wú)監(jiān)督學(xué)習(xí)常常用來處理規(guī)模大的web文本。深度學(xué)習(xí)方法通過引入神經(jīng)網(wǎng)絡(luò)模型進(jìn)一步提升了關(guān)系抽取的自動(dòng)化程度,并取得了更優(yōu)秀的關(guān)系提取性能。
3.2.2. 基于本體(Ontology)的方法
基于本體的信息抽取技術(shù),借助預(yù)定義的本體層次結(jié)構(gòu),可有效識(shí)別特定領(lǐng)域的概念、實(shí)體、關(guān)系等知識(shí)。本體可以看作一個(gè)呈樹狀結(jié)構(gòu)的知識(shí)庫(kù)模具,是同一領(lǐng)域內(nèi)不同主體之間進(jìn)行交流、連通的語(yǔ)義基礎(chǔ) [66]。
本體的構(gòu)建是信息抽取的基礎(chǔ),本體的構(gòu)建方法也隨著技術(shù)的發(fā)展逐漸從人工構(gòu)建、半自動(dòng)化構(gòu)建向自動(dòng)構(gòu)建發(fā)展。人工構(gòu)建本體由大量的領(lǐng)域?qū)<蚁嗷f(xié)作完成,Swartout等人 [67] 提出的循環(huán)獲取法(CYC),Nov等人 [68] 提出的Ontology Development 101 (七步法)都是人工構(gòu)建的經(jīng)典方法,其步驟包括確定領(lǐng)域范圍、復(fù)用現(xiàn)有本體、列出概念術(shù)語(yǔ)、定義類與類之間的層次關(guān)系、定義屬性之間關(guān)系、定義屬性的約束和創(chuàng)建實(shí)例。但是七步法存在主觀性強(qiáng),評(píng)價(jià)機(jī)制弱的缺陷,缺少科學(xué)管理和評(píng)價(jià)機(jī)制。
半自動(dòng)化構(gòu)建本體主要是利用相關(guān)領(lǐng)域內(nèi)的專業(yè)詞典、敘詞表等專家知識(shí)從中抽取感興趣的概念和關(guān)系,構(gòu)建需要的實(shí)體 [69]。這類方法復(fù)用了本體中的概念和關(guān)系帶來了不同本體匹配的問題。
自動(dòng)構(gòu)建本體利用知識(shí)獲取技術(shù)、機(jī)器學(xué)習(xí)方法以及統(tǒng)計(jì)的思想和技術(shù)從數(shù)據(jù)資源中自動(dòng)獲取本體知識(shí)。其具體方法分為基于語(yǔ)言規(guī)則和基于機(jī)器學(xué)習(xí)方法兩類。基于語(yǔ)言規(guī)則的方法 [70],通過對(duì)自然域文本的分析,提取候選關(guān)系并將其映射到預(yù)定義的語(yǔ)義表示中實(shí)現(xiàn)本體的構(gòu)建。這類方法中一個(gè)動(dòng)詞可以表示兩個(gè)或多個(gè)概念之間的關(guān)系。但也存在以下缺點(diǎn):1) 不會(huì)發(fā)現(xiàn)新的關(guān)系,只是發(fā)現(xiàn)已知關(guān)系實(shí)例;2) 本體構(gòu)建的效果依賴于語(yǔ)義模式,因而需事先構(gòu)建較完備的語(yǔ)義模式。另一類是基于統(tǒng)計(jì)分析的機(jī)器學(xué)習(xí)方法 [71],基于數(shù)據(jù)聚類對(duì)用于構(gòu)建每個(gè)組的本體樹的文檔進(jìn)行分組,使用模式樹挖掘從部分本體樹構(gòu)建集成本體進(jìn)行結(jié)構(gòu)化的本體構(gòu)建。其中,文檔聚類主要通過潛在語(yǔ)義分析(Latent Semantic Analysis, LSA)和K-Means等檢索關(guān)鍵字關(guān)系矩陣的方法來實(shí)現(xiàn);本體構(gòu)建主要通過形式概念分析和本體集成實(shí)現(xiàn)。機(jī)器學(xué)習(xí)方法比起基于規(guī)則的方法適用于范圍更廣的領(lǐng)域,構(gòu)建的本體傾向于更好地描述概念間的關(guān)系,結(jié)構(gòu)也更加復(fù)雜。但是,缺乏必要的語(yǔ)義邏輯基礎(chǔ),因此抽取概念關(guān)系松散且可信度無(wú)法得到很好的保證。信息抽取可以通過一個(gè)或者多個(gè)本體實(shí)現(xiàn)。Moreno [72] 提出了在一個(gè)獨(dú)立域中基于本體實(shí)現(xiàn)信息抽取的方法,應(yīng)用面向分子生物學(xué)領(lǐng)域,對(duì)大腸桿菌信息進(jìn)行抽取,建立大腸桿菌監(jiān)管網(wǎng)絡(luò),所建設(shè)的系統(tǒng)對(duì)該領(lǐng)域科學(xué)論文的摘要和完整文獻(xiàn)進(jìn)行了測(cè)試,先設(shè)計(jì)領(lǐng)域本體,然后根據(jù)本體所包含的知識(shí)實(shí)現(xiàn)信息抽取。Li等 [73] 人實(shí)現(xiàn)了基于農(nóng)業(yè)本體的農(nóng)業(yè)領(lǐng)域?qū)Y(jié)構(gòu)化的AJAX數(shù)據(jù)的提取。Daya [74] 提出了使用多個(gè)本體進(jìn)行信息抽取,分別在子域的確定和子域的表達(dá)兩種情況下使用多個(gè)本體,所實(shí)現(xiàn)的第一個(gè)基于多本體的系統(tǒng)是針對(duì)大學(xué)領(lǐng)域開發(fā)的,它使用兩種專門針對(duì)子域的本體,語(yǔ)料庫(kù)由100所大學(xué),50所來自北美和50所來自世界其他地區(qū)的網(wǎng)頁(yè)組成文獻(xiàn)。實(shí)現(xiàn)的第二個(gè)系統(tǒng)應(yīng)用在恐怖襲擊的領(lǐng)域和消息理解會(huì)議(MUC)使用的語(yǔ)料庫(kù)實(shí)現(xiàn)子域的表達(dá)。
3.2.3. 基于開放域的關(guān)系抽取
隨著大數(shù)據(jù)時(shí)代的來臨,文本數(shù)據(jù)急劇增多,數(shù)據(jù)規(guī)模增大,傳統(tǒng)的領(lǐng)域受限的、限制語(yǔ)義關(guān)系的信息抽取方法、知識(shí)表示結(jié)構(gòu)出現(xiàn)了很大的局限性。之前的信息抽取方法面向的是特定數(shù)量的文本需要預(yù)先定義好的關(guān)系類別,領(lǐng)域知識(shí)也是由本體(Ontology)結(jié)構(gòu)來表示,隨著處理數(shù)據(jù)的海量化,本體構(gòu)建越來越困難,抽取方法也開始出現(xiàn)問題。并且面向特定領(lǐng)域的抽取方法導(dǎo)致了信息抽取技術(shù)的難以普及和擴(kuò)展,系統(tǒng)的可移植性差。
面向開放域的關(guān)系抽取技術(shù)直接利用語(yǔ)料庫(kù)的中關(guān)系詞匯進(jìn)行實(shí)體關(guān)系分類建模,不再需要預(yù)先指定關(guān)系的分類,就可以實(shí)現(xiàn)數(shù)據(jù)分類。該方法成為了抽取模式上的一個(gè)巨大進(jìn)步。開放式IE系統(tǒng)都采取標(biāo)簽–學(xué)習(xí)–提取三個(gè)步驟的方法:首先使用啟發(fā)式或遠(yuǎn)距離監(jiān)督方法自動(dòng)標(biāo)記句子;接著使用序列標(biāo)記圖形模型(例如CRF)學(xué)習(xí)關(guān)系短語(yǔ)提取器;最后系統(tǒng)將一個(gè)句子作為輸入,從句子中識(shí)別出參數(shù),利用提取器將兩個(gè)自變量之間的每個(gè)單詞標(biāo)記為關(guān)系短語(yǔ)的一部分或不作為關(guān)系短語(yǔ)的一部分。抽取器用于語(yǔ)料庫(kù)中的連續(xù)句子,然后收集所得的抽取內(nèi)容 [11]。
華盛頓圖靈中心的Banko等人 [16] [75] [76] 在2007年提出了面向開放領(lǐng)域的信息抽取框架(Open Information Extraction, OIE),發(fā)布了基于自監(jiān)督學(xué)習(xí)方式的開放信息抽取原型系統(tǒng)TextRunner,標(biāo)志著第一個(gè)OIE系統(tǒng)的問世。TextRunner (O-CRF)首先利用啟發(fā)式規(guī)則來訓(xùn)練樣本,然后采用二階線性鏈條件隨機(jī)場(chǎng)抽取器從開放式文本中自動(dòng)抽取關(guān)系三元組 [16]。TextRunner可以自動(dòng)抽取文本中大量實(shí)體關(guān)系,但是在準(zhǔn)確率跟召回率方面不是很理想。
Wu等人 [77] 2010年在OIE的基礎(chǔ)上提出了基于Wikipedia的WOE (Wikipedia-based Open Extractor)系統(tǒng),將Wikipedia作為數(shù)據(jù)源利用維基百科網(wǎng)頁(yè)信息框(Infobox)中的屬性信息經(jīng)自監(jiān)督學(xué)習(xí)與相應(yīng)語(yǔ)句匹配,自動(dòng)構(gòu)造實(shí)體關(guān)系訓(xùn)練集,然后從樣本中抽取出關(guān)系獨(dú)立的訓(xùn)練數(shù)據(jù)經(jīng)自監(jiān)督學(xué)習(xí)得到抽取器。WOE系統(tǒng)實(shí)現(xiàn)了大批量構(gòu)造高質(zhì)量訓(xùn)練語(yǔ)料的方法,并且在準(zhǔn)確率跟召回率方面都得到了改善,令人遺憾的是它速度方面出現(xiàn)了不足。Fader等人 [20] 在TextRunner系統(tǒng)和WOE系統(tǒng)基礎(chǔ)上引入了語(yǔ)法限制條件和字典約束,進(jìn)行關(guān)系指示詞的預(yù)識(shí)別,消除了不合理實(shí)體關(guān)系三元組的生成。
隨著研究的進(jìn)一步發(fā)展,出現(xiàn)了第二代OIE系統(tǒng)ReVerb [20] [78],基于通用句法和詞法約束實(shí)現(xiàn)了關(guān)系短語(yǔ)識(shí)別器,處理的是隨機(jī)抽取的英語(yǔ)句子,對(duì)其進(jìn)行全面語(yǔ)言分析,使用動(dòng)詞表達(dá)句子中關(guān)系,抽取得到動(dòng)詞關(guān)系短語(yǔ)(例如,句子“Mr. Wang fought against Mr. Li,but finally lost the job”,系統(tǒng)將抽取出兩組元組:(Mr. Wang, fought against, Mr. Li)和(Mr. Li, lost, the job))。Etzioni等人 [11] 通過應(yīng)用淺層句法約束和詞性約束減少了無(wú)意義信息以及錯(cuò)誤信息的產(chǎn)生,所設(shè)計(jì)的Reverb系統(tǒng)主要進(jìn)行動(dòng)詞關(guān)系的抽取,先抽取滿足約束的關(guān)系,然后依據(jù)臨近原則確定左右實(shí)體。REVERB支持學(xué)習(xí)選擇偏好,獲取常識(shí)知識(shí),識(shí)別蘊(yùn)含規(guī)則等等。
Mausam等人 [20] 在第二代OIE基礎(chǔ)上提出了支持非動(dòng)詞性關(guān)系抽取的OILLIE (Open Language Learning for Information Extraction)系統(tǒng),有效彌補(bǔ)了以往OIE系統(tǒng)抽取以動(dòng)詞為主而忽略名詞形容詞的缺陷,開始結(jié)合上下文全局分析而不是僅對(duì)語(yǔ)句局部分析、部分抽取,有效改善了自動(dòng)抽取系統(tǒng)的召回率和準(zhǔn)確率。McCallum等人 [75] 提出了后期采用關(guān)系推理的方法,有效地提高了隱含語(yǔ)義關(guān)系的發(fā)現(xiàn)識(shí)別能力。
以上提到的抽取方法都是二元的開放式關(guān)系抽取。開放式的關(guān)系抽取按抽取關(guān)系的復(fù)雜程度可以分為二元和多元。Alan等人 [79] 提出了基于N元關(guān)系模型的OIE系統(tǒng),對(duì)除了常見二元實(shí)體關(guān)系的高階多元實(shí)體關(guān)系進(jìn)行識(shí)別;文獻(xiàn) [79] 在OIE ReVerb系統(tǒng)上提出了KPAKEN方法,通過輸入Stanford的依存分析結(jié)果,經(jīng)過檢測(cè)事件短語(yǔ)、檢測(cè)實(shí)體主導(dǎo)詞、檢測(cè)全部實(shí)體等步驟,實(shí)現(xiàn)了對(duì)任意英文語(yǔ)句中的N元實(shí)體關(guān)系的抽取。Del等人 [80] 提出了一種新穎的基于條款的開放信息提取方法,稱為ClausIE,該方法從自然語(yǔ)言文本中提取關(guān)系及其參數(shù),ClausIE基于依賴性分析和一小組與域無(wú)關(guān)的詞典,無(wú)需經(jīng)過任何后處理即可逐句操作,并且不需要訓(xùn)練數(shù)據(jù)(無(wú)論是帶標(biāo)簽的還是無(wú)標(biāo)簽的)。ClausIE利用英語(yǔ)語(yǔ)法知識(shí)來首先檢測(cè)輸入句子中的從句,并隨后根據(jù)其組成部分的語(yǔ)法功能識(shí)別每個(gè)從句的類型。根據(jù)此信息,ClausIE能夠生成高精度提取系統(tǒng),在實(shí)驗(yàn)中使用了三個(gè)不同的數(shù)據(jù)集:包含手工標(biāo)記的500句子的Reverb數(shù)據(jù)集;從Wikipedia頁(yè)面中隨機(jī)提取的200個(gè)句子;從《紐約時(shí)報(bào)》合集隨機(jī)提取的200個(gè)隨機(jī)句子。ClausIE依據(jù)依存關(guān)系獲取子句集合,并將其按類型靈活組合來抽取實(shí)體的N元關(guān)系。由于N元關(guān)系具有更加豐富的語(yǔ)義,因此由二元關(guān)系向N元關(guān)系的過渡是必然的,也是以后的研究發(fā)展方向。
隨著理論研究的不斷進(jìn)行,更多面向開放域理論模型的出現(xiàn),更優(yōu)秀的知識(shí)表示結(jié)構(gòu)的出現(xiàn),更多研究成果正不斷投入實(shí)踐應(yīng)用中,信息抽取研究正在不斷取得進(jìn)步,正在獲得更大更開放的發(fā)展空間,為后續(xù)知識(shí)圖譜的高質(zhì)量構(gòu)建提供了有力保障。
3.2.4. 聯(lián)合推理
隱含關(guān)系抽取是關(guān)系抽取的一大難點(diǎn)。因此,為了挖掘文本中的隱含的深層語(yǔ)義信息,一些學(xué)者將面向開放域的關(guān)系抽取方法與傳統(tǒng)面向特定領(lǐng)域(Close Domain)的信息抽取方法相結(jié)合,取長(zhǎng)補(bǔ)短,提出了聯(lián)合推理(Joint Inference)的概念 [25]。JainPoon等人 [63] 提出了一種完全聯(lián)合方法。目前聯(lián)合推理主要包括基于馬爾科夫邏輯網(wǎng)和基于粗略至精細(xì)(Coarse-to-Fine)的本體推理兩種。
1) 基于Markov邏輯網(wǎng)的邏輯推理
基于馬爾可夫邏輯網(wǎng)MLN (Markov Logic Network) [79] [81] 的方法是聯(lián)合推理關(guān)系抽取中的經(jīng)典方法,該方法在OIE中加入了推理,將馬爾可夫網(wǎng)絡(luò)與一階邏輯相結(jié)合,維護(hù)一個(gè)基于一階邏輯的規(guī)則庫(kù),并對(duì)每一個(gè)邏輯規(guī)則附上權(quán)重,構(gòu)建統(tǒng)計(jì)關(guān)系學(xué)習(xí)框架。其中馬爾可夫邏輯是一種強(qiáng)大的新語(yǔ)言,將一階邏輯與概率圖形模型無(wú)縫結(jié)合 [77]。MLN的基本推理任務(wù)是尋找一個(gè)值從而使得可滿足的子句的權(quán)值最大,即MAP (Maximum A Posteriori)推理。MLN可看作一種用一階邏輯公式來實(shí)例化Markov網(wǎng)絡(luò)的模板語(yǔ)言。該方法在語(yǔ)義角色標(biāo)注、共指消解、文本蘊(yùn)含、實(shí)體鏈接消歧等研究方面有很好的應(yīng)用。
微軟公司的人立方(Renlifang)項(xiàng)目基于該方法提出了StatSnowball模型 [59] 實(shí)現(xiàn)了自動(dòng)生成或選擇模板生成抽取器,從web挖掘?qū)嶓w關(guān)系,該模型在小型標(biāo)記數(shù)據(jù)集和大規(guī)模web數(shù)據(jù)中都提現(xiàn)了較好的性能。該方法是一種基于無(wú)監(jiān)督自學(xué)習(xí)的知識(shí)挖掘模型,可以抽取多種實(shí)體關(guān)系,并且可移植性強(qiáng)。人立方系統(tǒng)主要由以下幾個(gè)應(yīng)用:1) 搜索實(shí)體關(guān)系信息;2) 對(duì)話題相關(guān)人物進(jìn)行排序;3) 檢測(cè)某實(shí)體的受歡迎程度,并使用戶可以瀏覽給定時(shí)間段內(nèi)按其在網(wǎng)絡(luò)上的知名度排名的不同類別的實(shí)體;4) 對(duì)人物進(jìn)行排名?;赟tatSnowball文獻(xiàn) [82] 提出了一種實(shí)體識(shí)別與關(guān)系抽取相結(jié)合的ENTSum模型,即將實(shí)體識(shí)別和關(guān)系抽取在一個(gè)模型中聯(lián)合處理同時(shí)實(shí)現(xiàn)。該模型由擴(kuò)展的CFR命名實(shí)體抽取模塊和基于StatSnowball的Bootstrapping關(guān)系抽取模塊組成,兩個(gè)模塊使用迭代方法相結(jié)合,實(shí)體識(shí)別可以利用關(guān)系抽取的模板語(yǔ)法特征和知識(shí)語(yǔ)義特征,使得兩個(gè)模塊準(zhǔn)確率和召回率都得到了改善。文獻(xiàn) [75] [83] 提出了一種簡(jiǎn)易的Markov邏輯TML (Tractable Markov Logic)。Banko等人 [78] 提出了基于條件隨機(jī)場(chǎng)的關(guān)系抽取模型(H-CRF),根據(jù)目標(biāo)數(shù)據(jù)集關(guān)系數(shù)量多少以及有無(wú)預(yù)定義的分類模型選擇機(jī)器學(xué)習(xí)方法或開放域關(guān)系抽取方法。
2) 基于本體推理的聯(lián)合推理
基于本體推理的聯(lián)合推理面向開放域抽取方法形成的知識(shí)庫(kù)基本上都是信息的基本存儲(chǔ)并沒有進(jìn)行內(nèi)容的規(guī)范和組織。為了使抽取結(jié)果形成的知識(shí)庫(kù)成為真正的知識(shí)庫(kù),即能夠推斷文本深層含義進(jìn)而從已有事實(shí)信息包含的隱含信息中推理出新的知識(shí),能夠?yàn)闆Q策和問答所使用。研究者們提出了基于本體推理的信息抽取方法。
Zhang等人 [14] 提出了KOG模型,該方法基于MLN聯(lián)合推理,將Wikipedia的Infobox與WordNet相結(jié)合用于本體結(jié)構(gòu)的構(gòu)建,本體結(jié)構(gòu)是“實(shí)體–屬性–屬性值”的結(jié)構(gòu),為Wikipedia的查詢/專題瀏覽功能提供了輔助作用。Moro等人 [84] 提出的VELVET方法利用聯(lián)合推理以及本體平滑方法實(shí)現(xiàn)了最弱監(jiān)督下實(shí)體關(guān)系的抽取,為結(jié)構(gòu)化知識(shí)庫(kù)的建立奠定了基礎(chǔ)。Domingos等人 [85] 將概率推理(Lifted Probabilistic Inference)與Markov相結(jié)合,提出了簡(jiǎn)易Markov邏輯(Tractable Markov Logic, TML)。在TML邏輯語(yǔ)言中,領(lǐng)域知識(shí)按照層次結(jié)構(gòu)分為若干部分,各部分又按照所屬事物類進(jìn)一步分解為若干部分,以此類推,最終形成了一個(gè)層次化的類/局部結(jié)構(gòu)。TML被證明是目前最為豐富和高效的邏輯語(yǔ)言之一,可能將來在本體知識(shí)推理前進(jìn)中起到推波助瀾的作用。
另外一些學(xué)者提出了采用聯(lián)合抽取模型的方法,典型成果如利用雙層的LSTM-RNN (長(zhǎng)短期記憶–遞歸神經(jīng)網(wǎng)絡(luò))模型通過神經(jīng)網(wǎng)絡(luò)進(jìn)行分類模型的訓(xùn)練 [64] 聯(lián)合推理結(jié)合了面向特定領(lǐng)域和面向開放域的方法,在許多方面展示出了優(yōu)勢(shì)。對(duì)于隱含關(guān)系的抽取和抽取階段的平衡,聯(lián)合推理方法顯現(xiàn)出比主流開放式信息抽取方法更高的性能 [86]。當(dāng)前信息抽取技術(shù)多是順序式抽取,即抽取過程分解為實(shí)體識(shí)別、關(guān)系抽取、屬性抽取等連續(xù)的多個(gè)子任務(wù)再集成。這樣的模式存在些缺陷,比如前一階段無(wú)法識(shí)別的信息在后一階段將不再被處理,從而出現(xiàn)了信息的缺失和不完整。前一階段的錯(cuò)誤信息結(jié)果將無(wú)法在后面階段進(jìn)行修復(fù),從而在所有階段結(jié)束后大大增加了錯(cuò)誤率的積累。此外順序式處理方式使前面階段無(wú)法使用后面階段出現(xiàn)的有用特征,準(zhǔn)確率和效率得到了限制。而聯(lián)合推理方法不僅能夠綜合各個(gè)階段,實(shí)現(xiàn)相互補(bǔ)充和促進(jìn),而且可以實(shí)現(xiàn)文本深層理解,實(shí)現(xiàn)隱含信息的自動(dòng)推理。因此,聯(lián)合處理的方法將成為之后的研究重點(diǎn)。
3.3. 屬性抽取
屬性抽取是為實(shí)體識(shí)別而服務(wù)的,屬性可以很好的對(duì)實(shí)體進(jìn)行刻畫。實(shí)體的屬性可以看作實(shí)體和屬性值之間的名稱性關(guān)系,因此實(shí)體屬性抽取可以視為一種特殊的關(guān)系抽取。屬性抽取的方法之一是從各類百科網(wǎng)站抽取結(jié)構(gòu)化知識(shí)作為屬性抽取的訓(xùn)練集,再將模型運(yùn)用到開放域中的屬性抽取 [12]。例如,Domingos等人 [85] 提出了基于規(guī)則與啟發(fā)式算法的屬性抽取方法,實(shí)現(xiàn)了從Wikipedia和WordNet的半結(jié)構(gòu)網(wǎng)頁(yè)中自動(dòng)抽取相應(yīng)屬性名稱與屬性值,而且達(dá)到了很高的準(zhǔn)確率。另一種方法是利用實(shí)體屬性與屬性值之間的關(guān)系模式直接從開放域的數(shù)據(jù)集上抽取實(shí)體屬性 [87]。Huang等人 [88] 使用DNN架構(gòu)的規(guī)則,模式和約束條件實(shí)現(xiàn)了從大量原始文件中提取給定實(shí)體的某些屬性類型值即Slot Filling (SF)的提取。
4. 信息抽取方法總結(jié)
信息抽取包括實(shí)體抽取、關(guān)系抽取、屬性抽取等多個(gè)子任務(wù)。以下分別以應(yīng)用領(lǐng)域、技術(shù)方法以及數(shù)據(jù)源為分類依據(jù)對(duì)提及的三個(gè)子任務(wù)分別進(jìn)行了介紹。具體的方法和領(lǐng)域分類見表1和表2。
表3. 按處理對(duì)象分類
面向開放領(lǐng)域方法信息抽取方法應(yīng)用范圍廣泛,可以很好的處理大規(guī)模數(shù)據(jù),既可以處理自然語(yǔ)言文本,例如文獻(xiàn) [80] 提出的ClausIE模型,文獻(xiàn) [11] 提出的REVERB系統(tǒng)以及基于本體的系統(tǒng) [74] 都是對(duì)文本進(jìn)行信息抽取;又可以有效處理web文本,例如文獻(xiàn) [79] 提出N元關(guān)系抽取模型KPAKEN來對(duì)網(wǎng)絡(luò)文本進(jìn)行多元關(guān)系抽取。
在面向特定領(lǐng)域的信息抽取關(guān)系抽取方法中,基于有監(jiān)督的抽取方法常用來處理自然語(yǔ)言文本,例如文獻(xiàn) [47] 提出基于核函數(shù)的系統(tǒng),文獻(xiàn) [46] 提出使用卷積樹核方法來對(duì)文本中的關(guān)系進(jìn)行抽取,文獻(xiàn) [44] 使用了ACE語(yǔ)料作為輸入來進(jìn)行信息抽取,其數(shù)據(jù)規(guī)模較小,在人工標(biāo)注預(yù)料訓(xùn)練集方面占有優(yōu)勢(shì),通過學(xué)習(xí)訓(xùn)練集得到抽取規(guī)則因此準(zhǔn)確率也較高;基于弱監(jiān)督和無(wú)監(jiān)督的抽取方法更多的用來處理大規(guī)模web數(shù)據(jù),其減少了對(duì)于人工信息標(biāo)注的需求,實(shí)現(xiàn)了對(duì)Freebase、Wikipedia等web文檔的信息抽取,并且可以得到較準(zhǔn)確的抽取效果,例如文獻(xiàn) [37] 基于無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法提出KNOWITALL系統(tǒng),對(duì)web文檔進(jìn)行實(shí)體和關(guān)系抽取,文獻(xiàn) [48] 基于弱監(jiān)督機(jī)器學(xué)習(xí)方法Bootstrap對(duì)實(shí)體關(guān)系進(jìn)行抽取,文獻(xiàn) [52] 使用Freebase為數(shù)據(jù)源進(jìn)行基于遠(yuǎn)距離監(jiān)督學(xué)習(xí)的無(wú)標(biāo)注文本的關(guān)系抽取,文獻(xiàn) [59] 基于無(wú)監(jiān)督方法提出的句子級(jí)別注意力級(jí)別模型,對(duì)Freebase、Wikipedia數(shù)據(jù)進(jìn)行處理,文獻(xiàn) [55] 基于無(wú)監(jiān)督方法提出的詞嵌入方法處理Wikipedia文件中的信息。
在實(shí)體識(shí)別抽取中,基于規(guī)則以及基于統(tǒng)計(jì)的實(shí)體識(shí)別方法通常用來處理自然語(yǔ)言文本,其針對(duì)性強(qiáng),準(zhǔn)確率高,通常在人工標(biāo)注下可以獲得好的識(shí)別效果,例如文獻(xiàn) [23] 使用基于規(guī)則的方法實(shí)現(xiàn)了以公司名稱為處理對(duì)象的,文獻(xiàn) [79] 將K最近鄰(KNN)分類器與線性條件隨機(jī)場(chǎng)(CRF)模型相結(jié)合實(shí)現(xiàn)了從簡(jiǎn)短非正式Twitter文章中進(jìn)行命名實(shí)體識(shí)別,文獻(xiàn) [30] 使用混合模型將最大熵模型和基于規(guī)則的方法結(jié)合實(shí)現(xiàn)了從自然語(yǔ)言文本中識(shí)別生物醫(yī)學(xué)命名實(shí)體;基于深度學(xué)習(xí)的方法無(wú)需人工定義相關(guān)特征通過訓(xùn)練數(shù)據(jù)自主學(xué)習(xí)有用特征然后利用特征進(jìn)行命名實(shí)體識(shí)別,基于深度學(xué)習(xí)的方法既用來處理單領(lǐng)域自然文本,例如文獻(xiàn) [35] 以科學(xué)文章為處理對(duì)象使用神經(jīng)標(biāo)記模型實(shí)現(xiàn)從科研文章中提取關(guān)鍵字短語(yǔ),深度學(xué)習(xí)也可以用來處理web數(shù)據(jù)例如文獻(xiàn) [33] 提出了一種半監(jiān)督系統(tǒng)對(duì)Twitter微博進(jìn)行實(shí)體識(shí)別和分布式表示。
信息抽取的數(shù)據(jù)來源除了自然語(yǔ)言文本以及web文本這兩種數(shù)據(jù)源外,社交網(wǎng)絡(luò)數(shù)據(jù)也是一種豐富數(shù)據(jù)源。社交網(wǎng)絡(luò)節(jié)點(diǎn)規(guī)模大且關(guān)系種類繁多,文獻(xiàn) [56] 提出了基于無(wú)監(jiān)督方法使用順序聯(lián)合聚類算法對(duì)包含多個(gè)節(jié)點(diǎn)的社交網(wǎng)絡(luò)中的多種關(guān)系進(jìn)行抽取。
5. 結(jié)束語(yǔ)
本文首先根據(jù)知識(shí)圖譜的概念、構(gòu)建技術(shù)框架引出了信息抽取的概念,接著通過三個(gè)國(guó)際評(píng)測(cè)會(huì)議介紹了信息抽取的發(fā)展歷史;后續(xù)詳細(xì)介紹了信息抽取關(guān)鍵技術(shù),包括實(shí)體抽取、關(guān)系抽取和屬性抽取;最后分析了信息抽取的研究趨勢(shì)。我們系統(tǒng)性分析了面向知識(shí)圖譜信息抽取的常用方法,根據(jù)技術(shù)特點(diǎn)分為實(shí)體抽取、關(guān)系抽取以及屬性抽取三類子任務(wù)。其中各個(gè)子任務(wù)根據(jù)其應(yīng)用領(lǐng)域分為面向特定領(lǐng)域和面向開放域兩種,根據(jù)其數(shù)據(jù)來源分為面向文本和面向Web兩種。
在面向特定領(lǐng)域的情境下,信息抽取各個(gè)子任務(wù)的技術(shù)方法較成熟、經(jīng)典,例如在實(shí)體抽取中常用CRF、ME、HMM、NN-CRF等基于統(tǒng)計(jì)的模型;在關(guān)系抽取中常使用基于監(jiān)督、半監(jiān)督或無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法。
在面向開放領(lǐng)域的應(yīng)用中,隨著大數(shù)據(jù)時(shí)代、全網(wǎng)時(shí)代的到來,更多新的優(yōu)秀的方法正在不斷地涌現(xiàn)。具體地,在實(shí)體識(shí)別任務(wù)中,出現(xiàn)了一些基于自學(xué)習(xí)方法的實(shí)體分類模型,從而不再需要通過人工構(gòu)造大量語(yǔ)料標(biāo)注、大量的特征;在關(guān)系抽取中,出現(xiàn)了以O(shè)IE框架為基礎(chǔ)的眾多優(yōu)秀系統(tǒng),基本實(shí)現(xiàn)了各種詞性間的關(guān)系抽取以及隱含關(guān)系的抽取。
審核編輯:湯梓紅
評(píng)論
查看更多