面向知識(shí)圖譜的信息抽取

摘要：

摘要: 隨著大數(shù)據(jù)時(shí)代的到來，海量數(shù)據(jù)不斷涌現(xiàn)，從中尋找有用信息，抽取對(duì)應(yīng)知識(shí)的需求變得越來越強(qiáng)烈。針對(duì)該需求，知識(shí)圖譜技術(shù)應(yīng)運(yùn)而生，并在實(shí)現(xiàn)知識(shí)互聯(lián)的過程中日益發(fā)揮重要作用。信息抽取作為構(gòu)建知識(shí)圖譜的基礎(chǔ)技術(shù)，實(shí)現(xiàn)了從大規(guī)模數(shù)據(jù)中獲取結(jié)構(gòu)化的命名實(shí)體及其屬性或關(guān)聯(lián)信息。同時(shí)，由于具有多樣化的實(shí)現(xiàn)方法，擴(kuò)充了信息抽取技術(shù)的應(yīng)用領(lǐng)域和場(chǎng)景，也提升了對(duì)信息抽取技術(shù)研究的價(jià)值和必要性的認(rèn)可度。本文首先以知識(shí)圖譜的構(gòu)建框架為背景。探討信息抽取研究的意義;然后從MUC、ACE和ICDM三個(gè)國(guó)際測(cè)評(píng)會(huì)議的角度回顧信息抽取的發(fā)展歷史;接著，基于面向限定域和開放域兩個(gè)方面，介紹信息抽取的關(guān)鍵技術(shù)，包括實(shí)體抽取技術(shù)、關(guān)系抽取技術(shù)和屬性抽取技術(shù)。

1. 引言

隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)的飛速發(fā)展和知識(shí)互聯(lián)時(shí)代的到來，人們期寄著構(gòu)建一個(gè)更加智能的、機(jī)器可理解可計(jì)算的萬(wàn)維網(wǎng)。知識(shí)圖譜(Knowledge Graph)的概念逐漸出現(xiàn)在人們視野中。知識(shí)圖譜在語(yǔ)義處理、開放處理等功能方面都顯現(xiàn)出很強(qiáng)的能力，在智能推薦、問答和對(duì)話系統(tǒng)以及大數(shù)據(jù)分析和決策等應(yīng)用中也體現(xiàn)出越來越重要的價(jià)值。知識(shí)圖譜預(yù)計(jì)將在互聯(lián)網(wǎng)知識(shí)互聯(lián)的實(shí)現(xiàn)過程中起到中流砥柱的作用。

文獻(xiàn) [1] 給出了知識(shí)圖譜的定義：知識(shí)圖譜是一個(gè)用于描述物理世界中的概念及其聯(lián)系的語(yǔ)義網(wǎng)絡(luò)，它包含以下三個(gè)重要的因素：1) 概念。概念可以是實(shí)體、屬性，也可以是一個(gè)事實(shí)，例如“一個(gè)人有兩只手”。概念通常被描述為節(jié)點(diǎn);2) 關(guān)系。關(guān)系是兩個(gè)概念節(jié)點(diǎn)之間的語(yǔ)義聯(lián)系，例如屬性關(guān)系、擁有關(guān)系等;3) 概念和關(guān)系的背景知識(shí)。因?yàn)橥粋€(gè)概念和關(guān)系都有許多不同的表達(dá)方式，因此需要其背景知識(shí)作為提供查詢的字典或者本體對(duì)多種表現(xiàn)形式進(jìn)行連接。

知識(shí)圖譜是知識(shí)工程在現(xiàn)今大數(shù)據(jù)階段的一個(gè)標(biāo)志性工具。知識(shí)工程是將人工智能的原理和方法 [2] 用于構(gòu)建大規(guī)模知識(shí)庫(kù)。知識(shí)工程創(chuàng)立者費(fèi)根鮑姆(Feigenbaum)給出了知識(shí)工程的確切定義，即將知識(shí)集成到計(jì)算機(jī)系統(tǒng)從而完成只有特定領(lǐng)域?qū)＜也拍芡瓿傻膹?fù)雜任務(wù) [3]。知識(shí)工程從以圖靈測(cè)試為代表的前知識(shí)工程開始，經(jīng)歷了以知識(shí)庫(kù)、框架、推理機(jī)為核心的專家系統(tǒng)，Web1.0、群體智能Web2.0等發(fā)展階段，隨著2012年知識(shí)圖譜概念的提出以及Dbpedia、Freebase、YAGO等知識(shí)庫(kù)的建立，知識(shí)工程發(fā)展進(jìn)入了一個(gè)新的發(fā)展階段 [4]，即大數(shù)據(jù)知識(shí)工程(BigKE)。大數(shù)據(jù)知識(shí)工程實(shí)現(xiàn)了對(duì)數(shù)據(jù)中的語(yǔ)義，包括隱含語(yǔ)義的挖掘，使數(shù)據(jù)成為了智慧數(shù)據(jù)(Smart Data)，其目標(biāo)是自動(dòng)或半自動(dòng)地獲取知識(shí)，融合碎片化知識(shí)，然后建立基于知識(shí)的系統(tǒng) [2]，最終達(dá)到為一眾應(yīng)用(例如，語(yǔ)義搜索系統(tǒng)、智能推薦系統(tǒng)、問答和對(duì)話系統(tǒng)以及大數(shù)據(jù)分析與決策)提供互聯(lián)網(wǎng)智能知識(shí)服務(wù)的目的。

知識(shí)圖譜的構(gòu)建經(jīng)歷了人工構(gòu)建和群體構(gòu)建(眾包)，現(xiàn)在自動(dòng)構(gòu)建技術(shù)成為了各個(gè)業(yè)界的研究熱點(diǎn) [5]。知識(shí)圖譜構(gòu)建的兩個(gè)基本構(gòu)造是“實(shí)體–關(guān)系–實(shí)體”三元組和“實(shí)體–屬性(值)”鍵值對(duì)的構(gòu)建。實(shí)體通過它們之間的關(guān)系連接在一起形成圖數(shù)據(jù)庫(kù) [1]。知識(shí)圖譜的構(gòu)建從數(shù)據(jù)來源分類，可分為面向結(jié)構(gòu)化數(shù)據(jù)、面向半結(jié)構(gòu)化數(shù)據(jù)以及面向非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)圖譜構(gòu)建。本文主要介紹面向非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)圖譜構(gòu)建過程，以及應(yīng)用的關(guān)鍵信息抽取技術(shù)。吳信東等人在文獻(xiàn) [6] 提出了大數(shù)據(jù)知識(shí)工程模型BigKE，實(shí)現(xiàn)了三層次的知識(shí)建模過程：首先對(duì)大數(shù)據(jù)進(jìn)行三階段處理，進(jìn)行在線挖掘?qū)W習(xí)得到碎片化知識(shí)模型;接著對(duì)碎片化知識(shí)進(jìn)行多個(gè)步驟的知識(shí)融合;最終實(shí)現(xiàn)以需求為導(dǎo)向的知識(shí)服務(wù)。因此，對(duì)應(yīng)于BigKE提出的三層次過程，知識(shí)圖譜的構(gòu)建(Knowledge Graph Construction)技術(shù)按照自底向上的過程也包括三個(gè)層次：信息抽取(Information Extraction)、知識(shí)融合(Knowledge Fusion)和知識(shí)加工(Knowledge Processing) [7]。

基于大數(shù)據(jù)知識(shí)工程下知識(shí)圖譜的構(gòu)建，如吳信東等人在文獻(xiàn) [8] 提出的HACE定理所述，信息抽取可以描述為這樣的一個(gè)過程：首先，第一階段對(duì)大量孤立、模糊、復(fù)雜的動(dòng)態(tài)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行初步處理和計(jì)算;然后，第二階段對(duì)數(shù)據(jù)進(jìn)行深層語(yǔ)義分析、用戶隱私保護(hù)問題分析以及應(yīng)用領(lǐng)域知識(shí)的結(jié)合分析;最后，第三階段選擇合適的挖掘算法和抽取技術(shù)進(jìn)行數(shù)據(jù)抽取和融合 [8]。通過將抽取得到的碎片化知識(shí)存入知識(shí)庫(kù)的數(shù)據(jù)層和模式層，我們最終可以對(duì)數(shù)據(jù)形成本體化表達(dá)。這里的抽取技術(shù)又按照抽取過程分為實(shí)體抽取(Entity Extraction)、關(guān)系抽取(Relation Extraction)、屬性抽取(Attribute Extraction)以及實(shí)體鏈接(Entity Linking)等 [9] [10]。其中，實(shí)體抽取用于發(fā)現(xiàn)文本或者網(wǎng)頁(yè)中的命名實(shí)體，并將其加入現(xiàn)有知識(shí)庫(kù)中。關(guān)系抽取用于自動(dòng)抽取實(shí)體之間存在的語(yǔ)義關(guān)系。屬性抽取屬于一種特殊的關(guān)系抽取。信息抽取的目標(biāo)是自動(dòng)化知識(shí)獲取，即實(shí)現(xiàn)自動(dòng)地從異構(gòu)數(shù)據(jù)源中抽取實(shí)體、關(guān)系、屬性等信息進(jìn)而得到候選知識(shí)單元。

由于知識(shí)圖譜的構(gòu)建過程是通過以結(jié)構(gòu)化形式描述客觀世界中的概念、實(shí)體以及其關(guān)系開始的 [11]，概念、實(shí)體、關(guān)系等信息提取的準(zhǔn)確性對(duì)構(gòu)建過程至關(guān)重要，信息丟失、冗余、重疊往往是知識(shí)圖譜構(gòu)建面臨的最大挑戰(zhàn) [1]。作為知識(shí)圖譜構(gòu)建的第一步，信息抽取是得到候選知識(shí)單元的關(guān)鍵。信息抽取的完整度、準(zhǔn)確度直接顯性影響后續(xù)知識(shí)圖譜構(gòu)建步驟的質(zhì)量和效率以及最終知識(shí)圖譜的質(zhì)量。

面向知識(shí)圖譜的信息抽取與傳統(tǒng)信息抽取有很大區(qū)別。面向知識(shí)圖譜的信息抽取大多面向開放域(Open Domain)而不再是限定領(lǐng)域(Closed Domain)。同時(shí)，隨著維基百科(Wikipedia)等知識(shí)庫(kù)的出現(xiàn)，知識(shí)圖譜的數(shù)據(jù)源從有限的文本類型擴(kuò)展為多源、異構(gòu)、語(yǔ)義結(jié)構(gòu)復(fù)雜的海量數(shù)據(jù)。因此，信息抽取的核心技術(shù)從單一的文本分析變?yōu)閺?fù)雜的知識(shí)發(fā)現(xiàn)、知識(shí)鏈接等，并在新的應(yīng)用場(chǎng)景和領(lǐng)域中對(duì)現(xiàn)有技術(shù)和實(shí)現(xiàn)方法提出了新的挑戰(zhàn)問題。

信息抽取作為構(gòu)建知識(shí)圖譜的基礎(chǔ)技術(shù)，實(shí)現(xiàn)了從大規(guī)模數(shù)據(jù)中獲取結(jié)構(gòu)化的命名實(shí)體及其屬性或關(guān)聯(lián)信息。同時(shí)，由于具有多樣化的實(shí)現(xiàn)方法，擴(kuò)充了信息抽取技術(shù)的應(yīng)用領(lǐng)域和場(chǎng)景，也提升了對(duì)信息抽取技術(shù)研究的價(jià)值和必要性的認(rèn)可度。

本文首先以知識(shí)圖譜的構(gòu)建框架為背景。探討信息抽取研究的意義;然后從MUC、ACE和ICDM三個(gè)國(guó)際測(cè)評(píng)會(huì)議的角度回顧信息抽取的發(fā)展歷史;接著，基于面向限定域和開放域兩個(gè)方面，介紹信息抽取的關(guān)鍵技術(shù)，包括實(shí)體抽取技術(shù)、關(guān)系抽取技術(shù)和屬性抽取技術(shù)。

2. 信息抽取研究的發(fā)展歷史

2.1. 信息抽取相關(guān)概念

信息抽取系統(tǒng)是一種從大量信息源中迅速拋開無(wú)效信息找到有用信息的信息獲取工具。關(guān)于信息抽取的定義有以下幾種。

定義1 信息抽取的目標(biāo)是從海量數(shù)據(jù)中，尤其是本文數(shù)據(jù)中，快速精準(zhǔn)分析抽取出特定的事實(shí)信息(Factual Information)，將其轉(zhuǎn)換成可理解可使用的結(jié)構(gòu)化形式信息 [12]，最后將條理的結(jié)構(gòu)化信息存儲(chǔ)在數(shù)據(jù)庫(kù)中，等待下一步的分析利用。

定義2 信息抽取是一種自動(dòng)地從結(jié)構(gòu)化(Structured Data)、半結(jié)構(gòu)化(Semi-structured Data)或非結(jié)構(gòu)化(Unstructured Data)數(shù)據(jù)中抽取概念、實(shí)體、事件，以及其相關(guān)的屬性和之間的關(guān)聯(lián)關(guān)系等結(jié)構(gòu)化信息的技術(shù) [13]。

信息抽取帶有一定的文本理解。可以看作深層的信息檢索技術(shù)，也可以看作是簡(jiǎn)化的文本理解技術(shù)。信息抽取通常從兩方面進(jìn)行實(shí)現(xiàn)：一類是基于知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Databases, KDD)和數(shù)據(jù)挖掘(Data Mining)的方法，通常處理結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù);另一類是基于自然語(yǔ)言處理(Natural Language Processing, NLP)和文本挖掘(Text Mining)的方法 [12]，通常處理非結(jié)構(gòu)化數(shù)據(jù)。信息抽取的具體方法可分為三類：第一類是基于規(guī)則(基于專家系統(tǒng))的方法。主要在早期使用，使用人工編制規(guī)則，存在效率低，系統(tǒng)可移植性差等不可忽視的局限性;第二類是基于統(tǒng)計(jì)的方法，可在一定程度彌補(bǔ)第一類方法的缺點(diǎn);第三類是基于機(jī)器學(xué)習(xí)的方法，，它大幅減少了人工干預(yù)，并具有處理新文本的能力，是目前常用的方法。

2.2. 信息抽取發(fā)展史

2.2.1. MUC會(huì)議和ACE會(huì)議

到20世紀(jì)80年代末，由于消息理解系列會(huì)議(Message Understanding Conference, MUC)的召開，信息抽取技術(shù)開始飛速發(fā)展，逐漸進(jìn)入蓬勃期，成為了自然語(yǔ)言處理領(lǐng)域的重要分支之一。

MUC會(huì)議自1987年召開第一屆起，一共進(jìn)行了7屆會(huì)議。會(huì)議由美國(guó)國(guó)防高級(jí)計(jì)劃研究局DARPA資助，其主要目的是對(duì)信息抽取系統(tǒng)進(jìn)行評(píng)測(cè) [14]，是典型的評(píng)測(cè)驅(qū)動(dòng)會(huì)議。會(huì)前MUC組織會(huì)提供樣例文本和抽取任務(wù)說明，參會(huì)單位進(jìn)行信息抽取系統(tǒng)的開發(fā)。在會(huì)議召開時(shí)參會(huì)單位將對(duì)各自系統(tǒng)進(jìn)行樣例文本集合的測(cè)試，然后通過與手工標(biāo)注結(jié)果進(jìn)行對(duì)比，得到評(píng)測(cè)結(jié)果。最后在會(huì)議中對(duì)評(píng)測(cè)結(jié)果進(jìn)行分享、交流、討論。

MUC會(huì)議在抽取任務(wù)中定義了模板、槽的填充規(guī)則以及模板填充機(jī)制，將信息抽取規(guī)定為模板填充的過程，模板填充即將抽取出的文本信息按照一定規(guī)則填入模板的相應(yīng)槽中 [12]。除此，會(huì)議還定義了一套完整的評(píng)價(jià)指標(biāo)，由準(zhǔn)確率(Precision)、召回率(Recall)、F1值以及平均填充錯(cuò)誤率(Error Per Response Fill, EPRF)等進(jìn)行結(jié)果評(píng)價(jià)。

在會(huì)議的逐年開展過程中，信息抽取任務(wù)逐漸細(xì)化、復(fù)雜化：抽取模板由單一的扁平結(jié)構(gòu)變?yōu)槎鄠€(gè)模板的嵌套結(jié)構(gòu);組成模板的槽，從18個(gè)、24個(gè)到47個(gè)的逐漸增加;評(píng)測(cè)任務(wù)也在開始僅有的場(chǎng)景模板(Scenario Templates)填充任務(wù)上進(jìn)行了命名實(shí)體識(shí)別(Named Entity Recognition)任務(wù)、共指消解(Coreference Resolution)、模板元素填充(Template Elements)、模板關(guān)系抽取和事件抽取等的任務(wù)擴(kuò)充。

總之，MUC會(huì)議的召開吸引了世界各地的研究者開始信息抽取系統(tǒng)的開發(fā)，在信息抽取研究的實(shí)踐和理論方面都起到了極大的促進(jìn)作用 [15]，并確立了信息抽取的各種標(biāo)準(zhǔn)和規(guī)范，以及信息抽取技術(shù)的研究和發(fā)展方向。

繼MUC之后，2000年12月，由美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)學(xué)會(huì)(NIST)、美國(guó)國(guó)家安全局(NSA)以及中央情報(bào)局(CIA)共同主管舉辦的自動(dòng)內(nèi)容抽取(Automatic Content Extraction, ACE)評(píng)測(cè)會(huì)議接著成為了信息抽取研究的又一巨大推動(dòng)力，將信息抽取技術(shù)推向了一個(gè)新的高度。ACE會(huì)議的研究?jī)?nèi)容是開發(fā)自動(dòng)內(nèi)容抽取技術(shù)，實(shí)現(xiàn)對(duì)不同來源的語(yǔ)言文本的自動(dòng)處理，尤其對(duì)新聞?wù)Z料中的實(shí)體、關(guān)系、事件進(jìn)行自動(dòng)識(shí)別、抽取和描述。

和MUC相比，ACE不限定某個(gè)領(lǐng)域或場(chǎng)景 [16]，增加了對(duì)系統(tǒng)跨文檔處理(Cross-Document Processing)能力的評(píng)價(jià)，采用基于漏報(bào)和誤報(bào)的評(píng)價(jià)體系。其中，“漏報(bào)”表示實(shí)際結(jié)果中存在而系統(tǒng)輸出中沒有;“誤報(bào)”表示實(shí)際結(jié)果中不存在而系統(tǒng)輸出中有。

2.2.2. ICDM2019知識(shí)圖譜比賽KGC [6]

2019年IEEE國(guó)際數(shù)據(jù)挖掘大會(huì)ICDM (International Conference on Data Mining)舉辦了知識(shí)圖譜構(gòu)建比賽KGC。該比賽由明略(Mininglamp)科學(xué)院和合肥工業(yè)大學(xué)主辦，旨在對(duì)特定領(lǐng)域或多領(lǐng)域的非結(jié)構(gòu)化文本進(jìn)行自動(dòng)知識(shí)圖譜構(gòu)建。該比賽的目的是生成類似人在閱讀一段文字時(shí)的思維模式的知識(shí)圖譜，因此比賽的評(píng)判由專家進(jìn)行。比賽邀請(qǐng)了學(xué)位授予機(jī)構(gòu)和工業(yè)實(shí)驗(yàn)室的團(tuán)隊(duì)參加，要求參與者首先設(shè)計(jì)模型，以文本作為輸入，以知識(shí)圖譜作為輸出，從文本數(shù)據(jù)中提取知識(shí)三元組，并在比賽方提供的統(tǒng)一測(cè)試集上進(jìn)行測(cè)試，若通過第一輪篩選，則進(jìn)一步提供Web應(yīng)用程序來可視化給定數(shù)據(jù)集的知識(shí)圖譜。比賽規(guī)定知識(shí)圖中的節(jié)點(diǎn)必須是文章中的實(shí)體詞;鏈接必須是實(shí)體之間的關(guān)系詞或?qū)傩?并且節(jié)點(diǎn)必須由原始文本中的單詞或短語(yǔ)表示，且對(duì)同一單詞的同義詞進(jìn)行合并。比賽的數(shù)據(jù)集是涵蓋汽車工程、化妝品、公共安全和餐飲服務(wù)四個(gè)行業(yè)的300篇新聞短文本，其中120篇為專家預(yù)先進(jìn)行手工標(biāo)記的文章。

這個(gè)KGC比賽的新穎之處在于，沒有為實(shí)體或關(guān)系預(yù)先提供任何類型的架構(gòu)。除了ICDM 2019的KGC比賽，還涌現(xiàn)出了不少于信息抽取技術(shù)相關(guān)的國(guó)際學(xué)術(shù)會(huì)議，如國(guó)際信息和知識(shí)管理大會(huì)(International Conference on Information and Knowledge Management, CIKM)。

2.3. 性能衡量指標(biāo)

在衡量信息抽取系統(tǒng)性能的指標(biāo)中最常用的是準(zhǔn)確率(Precision)跟召回率(Recall)。準(zhǔn)確率指的是在抽取的所有結(jié)果中正確抽取結(jié)果所占的比例 [17];召回率指的是所有可能的抽取結(jié)果中正確抽取結(jié)果所占的比例 [12]。通常兩者的調(diào)和平均數(shù)F指數(shù)也常用于性能衡量，F(xiàn)指數(shù)的計(jì)算如下：

其中beta是召回率和準(zhǔn)確率的相對(duì)權(quán)重。beta的取值一般為1、1/2、2。當(dāng)beta = 1/2時(shí)召回率的重要程度是準(zhǔn)確率的2倍;當(dāng)beta = 2時(shí)召回率的重要程度是準(zhǔn)確率的一半;為1時(shí)兩者則同等重要。

3. 信息抽取中的關(guān)鍵技術(shù)

3.1. 命名實(shí)體識(shí)別

3.1.1. 命名實(shí)體識(shí)別相關(guān)概念

除了一些眾所周知的英文縮寫，如IP、CPU、FDA，所有的英文縮寫在文中第一次出現(xiàn)時(shí)都應(yīng)該給出其全稱。文章標(biāo)題中盡量避免使用生僻的英文縮寫。

實(shí)體(Entity)是世界上客觀存在并可相互區(qū)分的對(duì)象或事物。實(shí)體根據(jù)其在現(xiàn)實(shí)世界中的自然劃分，通常分為如下三大類七小類 [18]：實(shí)體類包括人名、地名和機(jī)構(gòu)名類三小類;時(shí)間類包括時(shí)間，日期兩小類;數(shù)字類包括貨幣類和百分比類。

命名實(shí)體識(shí)別(Named Entity Recognition, NER)是信息抽取的第一步，是信息抽取中最為關(guān)鍵和重要的步驟。命名實(shí)體識(shí)別是從文本中識(shí)別出實(shí)體的命名指稱。命名實(shí)體識(shí)別又稱為“專名識(shí)別”、“實(shí)體抽取” [19]。實(shí)體識(shí)別包括兩個(gè)步驟：實(shí)體邊界識(shí)別和實(shí)體分類。邊界識(shí)別的目的是判斷字符串是否是一個(gè)完整實(shí)體，實(shí)體分類將實(shí)體劃分到預(yù)先設(shè)定的不同類別。命名實(shí)體識(shí)別可以看作是識(shí)別出表示命名實(shí)體的短語(yǔ)，并對(duì)其進(jìn)行類型指定的過程。

實(shí)體識(shí)別通常與實(shí)體鏈接密不可分。實(shí)體識(shí)別負(fù)責(zé)指定實(shí)體類別，實(shí)體鏈接是將識(shí)別出的實(shí)體通過識(shí)別和消歧等步驟后與數(shù)據(jù)庫(kù)中的實(shí)體進(jìn)行對(duì)應(yīng)。實(shí)體識(shí)別與鏈接將文本轉(zhuǎn)換為結(jié)構(gòu)化的、以實(shí)體為中心的語(yǔ)義表示形式，是問答系統(tǒng)、機(jī)器翻譯、數(shù)據(jù)標(biāo)注、句法分析的基礎(chǔ)前提步驟 [20]，是海量文本分析、知識(shí)圖譜構(gòu)建補(bǔ)全的“核心技術(shù)”之一。

3.1.2. 命名實(shí)體識(shí)別經(jīng)典模型方法

命名實(shí)體識(shí)別技術(shù)方法分為基于規(guī)則、基于統(tǒng)計(jì)以及基于機(jī)器學(xué)習(xí)三類 [21]。隨著時(shí)代的變換更新，命名實(shí)體識(shí)別技術(shù)也在不斷革新。從早期面向特定領(lǐng)域，逐漸發(fā)展為面向開放域(Open Domain);從最初基于人工編寫規(guī)則，使用啟發(fā)式算法轉(zhuǎn)變?yōu)榛跅l件隨機(jī)場(chǎng)(Conditional Random Field, CRF)、最大熵(Maximum Entropy, ME)、K-最近鄰(K-Nearest Neighbors)等統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法;從基于有監(jiān)督學(xué)習(xí)逐漸變?yōu)槿醣O(jiān)督學(xué)習(xí)，再到無(wú)監(jiān)督機(jī)器學(xué)習(xí)方式。以下是一些經(jīng)典的面向特定領(lǐng)域的實(shí)體識(shí)別方法：

1) 基于規(guī)則的實(shí)體識(shí)別方法

這類方法通常利用一組手工定義的規(guī)則，在文本中搜索與這些規(guī)則匹配的字符串，來抽取人名、地名、組織名等。其中，謝菲爾德大學(xué)提出了用于英語(yǔ)命名實(shí)體識(shí)別的LaSIE-II系統(tǒng) [22] 較為經(jīng)典。除此，文獻(xiàn) [23] 利用啟發(fā)式算法與規(guī)則模板結(jié)合的方法首次實(shí)現(xiàn)了公司名稱抽取系統(tǒng)對(duì)公司實(shí)體進(jìn)行抽取。

這類方法依賴固定的詞法(Lexical)、句法(Syntactic)和語(yǔ)義約束(Semantic Constraints)，準(zhǔn)確率較高，但是需要依靠特定專家對(duì)特定領(lǐng)域的規(guī)則進(jìn)行編寫，存在領(lǐng)域性強(qiáng)，系統(tǒng)可移植性差等缺點(diǎn)。

2) 最大熵分類模型 [24]

最大熵模型(Maximum Entropy)是一種概率估計(jì)模型，估計(jì)構(gòu)建模型與已有訓(xùn)練集的效果相似度。其基本思想是選擇創(chuàng)建一個(gè)模型使得其與給定的訓(xùn)練數(shù)據(jù)、訓(xùn)練樣本產(chǎn)生效果盡可能一致。比如訓(xùn)練數(shù)據(jù)中命名實(shí)體前面的詞為動(dòng)詞的概率為50%，則最大熵模型得到的結(jié)果中命名實(shí)體前為動(dòng)詞的概率也要為50%。最大熵模型的形式化描述如下：

其中， p′p′ 表示樣本經(jīng)驗(yàn)分布，P表示所有概率模型的集合 [25]。

通過上述表達(dá)式可知，滿足給定訓(xùn)練集的模型并不唯一，而最終尋找的是在約束條件下各種評(píng)價(jià)指標(biāo)分布最均勻的模型，即最符合客觀情況、具有最大熵的模型。

最大熵模型可以用于特征函數(shù)的生成、特征函數(shù)選取、參數(shù)估計(jì)，常應(yīng)用于文本分類、數(shù)據(jù)挖掘、詞性標(biāo)注等問題。例如，MENE系統(tǒng)采用最大熵模型實(shí)現(xiàn)英語(yǔ)命名實(shí)體的識(shí)別。MENE使用和比較了多種特征，包括外部系統(tǒng)特征、分類字典特征等等，提高了系統(tǒng)的跨語(yǔ)言可移植性和系統(tǒng)性能，實(shí)現(xiàn)了將文檔中的每個(gè)單詞分類為人名、組織、位置、日期、時(shí)間、金錢價(jià)值、百分比或“以上都不是”。該系統(tǒng)可以用于Internet搜索引擎，機(jī)器翻譯，文檔自動(dòng)索引，也可以作為處理更復(fù)雜的信息提取任務(wù)的基礎(chǔ) [26]。

最大熵模型將實(shí)體識(shí)別的任務(wù)轉(zhuǎn)換為子字符串的分類任務(wù) [11]。該模型的優(yōu)點(diǎn)是結(jié)構(gòu)緊湊，通用性較高，便于自然語(yǔ)言處理，但存在訓(xùn)練復(fù)雜度高，時(shí)間消耗和計(jì)算空間開銷大等缺點(diǎn) [21]。

3) 隱馬爾科夫模型

隱馬爾可夫模型(Hidden Markov Model, HMM)是眾多基于統(tǒng)計(jì)的模型中評(píng)價(jià)性能最佳的一種模型。HMM模型的基本思想就是給定觀測(cè)序列(句子)，其數(shù)據(jù)是可以觀測(cè)到的，通過捕獲需要的狀態(tài)轉(zhuǎn)移信息，尋找觀測(cè)值所對(duì)應(yīng)的最佳狀態(tài)序列(句子的標(biāo)記序列) [26]，這類數(shù)據(jù)是隱藏的，無(wú)法直接觀測(cè)。

HMM模型采用了Viterbi算法 [27] 求取命名實(shí)體最佳標(biāo)記序列(狀態(tài)序列)，顯著提高了模型的訓(xùn)練速度、識(shí)別效率，這是隱馬爾可夫區(qū)別于其他模型的顯著優(yōu)勢(shì)，但是HMM模型的準(zhǔn)確率要比期望最大化(Expectation Maximization, EM)模型、CRF模型低一些。因此HMM模型適用于實(shí)時(shí)性要求較高的場(chǎng)合，如語(yǔ)音識(shí)別、詞性標(biāo)注等領(lǐng)域。

HMM由于其輸出獨(dú)立性假設(shè)，導(dǎo)致其不能考慮上下文的特征，限制了特征的選擇。雖然之后提出了更為有效的最大熵馬爾可夫模型(Maximum Entropy Markov Model, MEMM)，考慮了整個(gè)觀察序列，但仍存在“標(biāo)注偏置”(Label Bias)問題。

4) 條件隨機(jī)場(chǎng)模型

Lafferty等人 [28] 在2001年提出了條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)模型，它是一種判別式概率模型和一種序列分割及標(biāo)記的可區(qū)分訓(xùn)練模型，其狀態(tài)值取值的獨(dú)立性不僅取決于臨近的過去，也取決于未來，相對(duì)于MEMM和HMM更加有效。常用于分詞、命名實(shí)體識(shí)別等預(yù)測(cè)問題。

CRF模型將實(shí)體識(shí)別問題轉(zhuǎn)化為序列標(biāo)注問題。文獻(xiàn) [29] 提出并實(shí)現(xiàn)了從簡(jiǎn)短非正式的Twitter文章中進(jìn)行命名實(shí)體識(shí)別，處理推文的命名實(shí)體識(shí)別所面臨的信息不足以及訓(xùn)練數(shù)據(jù)不可用的挑戰(zhàn)。文章提出在半監(jiān)督的學(xué)習(xí)框架下，將K個(gè)最近鄰(KNN)分類器與線性條件隨機(jī)場(chǎng)(CRF)模型相結(jié)合，基于KNN的分類器進(jìn)行預(yù)標(biāo)記以收集整個(gè)推文中的全局粗略證據(jù)，而CRF模型進(jìn)行順序標(biāo)記以捕獲推文中編碼的細(xì)粒度信息。

條件隨機(jī)場(chǎng)模型為命名實(shí)體識(shí)別提供了一個(gè)特征靈活、全局最優(yōu)的標(biāo)注框架 [21]，但是也存在收斂速度慢、訓(xùn)練時(shí)間長(zhǎng)、依賴特征多的局限性。

5) 混合模型

基于規(guī)則的方法可移植性差，費(fèi)時(shí)費(fèi)力但是識(shí)別結(jié)果比較理想，基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法性能依賴于訓(xùn)練樣本的規(guī)模，也出現(xiàn)了一定局限性。因此，出現(xiàn)了將兩者相互結(jié)合的方法。Lin等人 [30] 實(shí)現(xiàn)的是從自然語(yǔ)言文本中識(shí)別生物醫(yī)學(xué)命名實(shí)體，提取生物醫(yī)學(xué)信息。文章提出的識(shí)別方法分為兩個(gè)階段：先使用最大熵作為基礎(chǔ)的機(jī)器學(xué)習(xí)方法;然后結(jié)合基于字典和基于規(guī)則的方法進(jìn)行后處理，包括邊界檢測(cè)擴(kuò)展和錯(cuò)誤分類糾正。對(duì)Medine論文摘要的GENIA數(shù)據(jù)集進(jìn)行了實(shí)體抽取測(cè)試，取得了較理想的結(jié)果，召回率和準(zhǔn)確率都得到了提升。

6) 基于深度學(xué)習(xí)的方法

深度學(xué)習(xí)方法的訓(xùn)練是一個(gè)端對(duì)端的過程，無(wú)需人工定義相關(guān)特征 [4]，其基本思想是使用訓(xùn)練數(shù)據(jù)學(xué)習(xí)對(duì)命名實(shí)體識(shí)別有用的特征，然后利用學(xué)習(xí)的特征在文本中進(jìn)行命名實(shí)體識(shí)別?；谏疃葘W(xué)習(xí)的方法主要有以下兩類：

i. 神經(jīng)網(wǎng)絡(luò)–條件隨機(jī)場(chǎng)架構(gòu)(Neural Network-Conditional Random Field, NN-CRF) [31]

在這個(gè)架構(gòu)中，卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks)/長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)用來學(xué)習(xí)每一個(gè)詞的位置的向量表示，然后根據(jù)這個(gè)向量表示NN-CRF模型可以計(jì)算得到這個(gè)位置處的最佳標(biāo)簽。這類方法解決了實(shí)體識(shí)別的序列化標(biāo)記問題。文獻(xiàn) [32] 提出了使用詞向量表示特征的最簡(jiǎn)單、最有效的方法。文章 [33] 提出了一種半監(jiān)督系統(tǒng)(以無(wú)監(jiān)督的方式從大型語(yǔ)料庫(kù)中學(xué)習(xí)單詞表示，并使用這些單詞表示作為有監(jiān)督訓(xùn)練的輸入特征，而不是使用手工制作的輸入特征)，從4億個(gè)Twitter微博中自動(dòng)推斷出的單詞嵌入表示形式，作為系統(tǒng)輸入，使用前饋神經(jīng)網(wǎng)絡(luò)(Feed Forward Neural Network, FFNN)進(jìn)行分類，得到多種實(shí)體類別：公司、設(shè)施、地理位置、音樂藝術(shù)家、電影、人物、產(chǎn)品。該篇論文提出的方法沒有加入人工參與，專注于分布式單詞表示，可以應(yīng)用于不同的語(yǔ)料庫(kù)，并且得到較好結(jié)果。最近，文獻(xiàn) [34] 提出了一種神經(jīng)半馬爾可夫(Neural Semi-Markov)結(jié)構(gòu)的支持向量機(jī)模型，這是一種訓(xùn)練精度驅(qū)動(dòng)的NER模型，該模型將實(shí)體抽取擴(kuò)展到序列標(biāo)記問題，引入了代價(jià)敏感學(xué)習(xí)(Cost-Sensitive Learning)來控制精度和召回率之間的折衷。

ii. 基于滑動(dòng)窗口分類的方法

該方法使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)句子中的每一個(gè)N-Gram的表示，然后預(yù)測(cè)該N-Gram是否是一個(gè)目標(biāo)實(shí)體 [4]。文獻(xiàn) [35] 實(shí)現(xiàn)了從科學(xué)文章中提取關(guān)鍵字短語(yǔ)并根據(jù)任務(wù)、材料、過程等方面對(duì)其進(jìn)行分類的任務(wù)，該文章使用神經(jīng)標(biāo)記模型并引入基于圖的半監(jiān)督算法，將實(shí)體抽取歸結(jié)為序列標(biāo)記問題，對(duì)未標(biāo)注的訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)。這種方法對(duì)單一領(lǐng)域內(nèi)、高數(shù)據(jù)量數(shù)據(jù)比使用跨域、小數(shù)據(jù)量數(shù)據(jù)具有更好的性能。

3.1.3. 面向開放域的實(shí)體抽取方法

在面向開放域的信息抽取中，信息來源不再是特定的知識(shí)領(lǐng)域，成為了全網(wǎng)信息，面向海量Web語(yǔ)料 [36]。例如，KnowItAll系統(tǒng) [37] 處理的是規(guī)模龐大、具有異質(zhì)性的Web語(yǔ)料庫(kù)，例如Twitter、Wikipedia等。

開始研究人員采用人工方法進(jìn)行實(shí)體識(shí)別和分類。例如，Sekine等人 [38] 在2002年采用人工預(yù)定義實(shí)體分類體系首次展示了一個(gè)層次結(jié)構(gòu)的命名實(shí)體分類框架，將全網(wǎng)的實(shí)體分為了150個(gè)種類。Ling等人 [39] 在此基礎(chǔ)上接著在2012年提出了112種的分類方法，該方法基于Freebase類型獨(dú)特標(biāo)記方法，先利用Wikipedia文件中的錨鏈接自動(dòng)標(biāo)記實(shí)體段，訓(xùn)練條件隨機(jī)場(chǎng)模型，用來分割識(shí)別到的實(shí)體邊界，接著采用自適應(yīng)感知器算法實(shí)現(xiàn)對(duì)多類多標(biāo)簽實(shí)體的自動(dòng)分類。

實(shí)體分類體系通過人工干預(yù)進(jìn)行構(gòu)建顯得很是困難，因此，出現(xiàn)了通過統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法從數(shù)據(jù)集抽取與當(dāng)前類別實(shí)體具有相似上下文特征的實(shí)體，從而實(shí)現(xiàn)分類和聚類的方法。Jain等人 [40] 提出并實(shí)例化了一種用于通過web搜索查詢?nèi)罩具M(jìn)行公開信息提取的新穎模型。該方法的處理對(duì)象是網(wǎng)頁(yè)中的查詢?nèi)罩?，通過應(yīng)用基于模式的啟發(fā)式方法和統(tǒng)計(jì)方法，使用無(wú)監(jiān)督方法從搜索查詢?nèi)罩局刑崛?shí)體，采用聚類算法對(duì)基于日志搜索得到的實(shí)體進(jìn)行聚類，進(jìn)而得到分類。這是一種面向開放域的無(wú)監(jiān)督學(xué)習(xí)算法，該方法可以應(yīng)用在協(xié)助搜索的關(guān)鍵字生成方面，例如搜索“手機(jī)”出現(xiàn)“華為”“小米”等建議。

由于傳統(tǒng)統(tǒng)計(jì)模型需要進(jìn)行大量語(yǔ)料標(biāo)注、人工構(gòu)造大量特征的局限性，出現(xiàn)了一些新方法，例如，使用基于半監(jiān)督算法 [41] 、遠(yuǎn)距離監(jiān)督算法 [42] 、基于海量數(shù)據(jù)冗余性 [20] 的自學(xué)習(xí)方法等來解決開放式實(shí)體抽取問題。面向開放域的實(shí)體抽取方法常應(yīng)用于基于常識(shí)的新穎的問答系統(tǒng) [24]。

3.2. 關(guān)系抽取

命名實(shí)體識(shí)別是從文本中抽取特定實(shí)體，但僅孤立、離散的實(shí)體是無(wú)法得到語(yǔ)義結(jié)構(gòu)無(wú)法滿足應(yīng)用需求的，這時(shí)候確立實(shí)體之間的關(guān)聯(lián)關(guān)系顯得更為重要。實(shí)體關(guān)系抽取是對(duì)已經(jīng)識(shí)別出的實(shí)體進(jìn)行預(yù)定義的關(guān)系識(shí)別，為更深層次的分析提供資源也是知識(shí)圖譜構(gòu)建的重要環(huán)節(jié)之一。

關(guān)系抽取是一種獲取已經(jīng)識(shí)別出的實(shí)體之間的語(yǔ)法或語(yǔ)義之間連接方式的技術(shù)。和命名實(shí)體識(shí)別類似，關(guān)系抽取中實(shí)體關(guān)系的類型也需要預(yù)先定義，例如人物之間的親屬關(guān)系、組織機(jī)構(gòu)和地點(diǎn)之間的關(guān)系等等。

關(guān)系抽取的范圍分為面向特定領(lǐng)域(Close Domain)、面向開放領(lǐng)域(Open Domain)以及聯(lián)合推理三大類。面向特定領(lǐng)域的關(guān)系抽取方法和實(shí)體識(shí)別相似，前期主要使用基于模式匹配和基于詞典驅(qū)動(dòng)的方法，依靠人工編寫抽取規(guī)則。隨著人工構(gòu)造規(guī)則低效性和領(lǐng)域局限性的明顯化以及研究的深入，現(xiàn)在較多使用的兩類方法是：基于機(jī)器學(xué)習(xí)(Machine Learning)的方法和基于本體(Ontology)的方法。其中，基于機(jī)器學(xué)習(xí)的方法又分為有監(jiān)督、弱監(jiān)督和無(wú)監(jiān)督三類。在面向開放域的關(guān)系抽取發(fā)展中出現(xiàn)了以O(shè)IE系統(tǒng)為基礎(chǔ)的多個(gè)系統(tǒng)，例如，WOE系統(tǒng)、OIE ReVerb系統(tǒng)、OILLIE系統(tǒng)等，實(shí)現(xiàn)了動(dòng)詞、非動(dòng)詞的關(guān)系抽取和二元、多元的關(guān)系抽取。同時(shí)，為了解決隱含關(guān)系的抽取，產(chǎn)生了將面向開放域的關(guān)系抽取方法與傳統(tǒng)面向特定領(lǐng)域的信息抽取方法相結(jié)合的聯(lián)合推理的思想，是關(guān)系抽取方法上的一個(gè)巨大進(jìn)步。

3.2.1. 基于機(jī)器學(xué)習(xí)(Machine Learning)的辦法

基于機(jī)器學(xué)習(xí)的實(shí)體關(guān)系抽取方法的思想是：首先對(duì)人工標(biāo)注的語(yǔ)料庫(kù)進(jìn)行不斷學(xué)習(xí)不斷訓(xùn)練，獲取特定領(lǐng)域的信息抽取規(guī)則，接著利用機(jī)器學(xué)習(xí)算法進(jìn)行關(guān)系識(shí)別?；跈C(jī)器學(xué)習(xí)的實(shí)體關(guān)系抽取系統(tǒng)一定程度上可以處理新的文本，這是其區(qū)別于以往方法的最大優(yōu)點(diǎn)。基于機(jī)器學(xué)習(xí)的方法根據(jù)是否需要人工標(biāo)注訓(xùn)練集以及對(duì)標(biāo)簽的需求程度又分為有監(jiān)督、弱監(jiān)督和無(wú)監(jiān)督三類 [43]。

1) 有監(jiān)督的學(xué)習(xí)方法

有監(jiān)督的學(xué)習(xí)方法需要人工預(yù)先標(biāo)注大量語(yǔ)料訓(xùn)練集以確保算法的有效性，然后對(duì)訓(xùn)練集進(jìn)行不斷學(xué)習(xí)獲取信息抽取規(guī)則。關(guān)系抽取的有監(jiān)督學(xué)習(xí)可以分為兩大類：基于特征向量的方法和基于核的方法。

最早的有監(jiān)督的學(xué)習(xí)方法是基于特征向量的學(xué)習(xí)方法。該方法將訓(xùn)練語(yǔ)料轉(zhuǎn)換為特征向量形式，使用各種機(jī)器學(xué)習(xí)算法(最大熵模型(Maximum Entropy)、支持向量機(jī)(Support Vector Machine, SVM))為其構(gòu)造分類器，從而對(duì)新數(shù)據(jù)進(jìn)行分類和測(cè)試。基于特征向量的方法將信息抽取問題看作分類問題，對(duì)數(shù)據(jù)的正確分類即對(duì)信息的正確抽取。其研究重點(diǎn)是如何獲取各種有效的詞匯、語(yǔ)法和語(yǔ)義特征進(jìn)行集成。Zhou等人 [44] 使用支持向量機(jī)，運(yùn)用了多種詞匯、語(yǔ)法解析樹、依存樹特征，并且加入了各種語(yǔ)義信息，如WordNet、名稱列表name list、分塊短語(yǔ)信息等，實(shí)現(xiàn)了基于特征的關(guān)系提取，使用語(yǔ)言數(shù)據(jù)協(xié)會(huì)(Linguistic Data Consortium, LDC) 1提供的ACE語(yǔ)料，抽取出了ACE 2004定義的7大類關(guān)系類型。這些基于有監(jiān)督的學(xué)習(xí)方法發(fā)現(xiàn)實(shí)體的類別信息特征的提取有助于提高關(guān)系抽取性能。

基于核函數(shù)的方法以核函數(shù)理論為基礎(chǔ)，以結(jié)構(gòu)樹為處理對(duì)象，通過直接計(jì)算兩個(gè)離散對(duì)象(如語(yǔ)法結(jié)構(gòu)樹)之間的相似度來進(jìn)行分類，不需要構(gòu)造高維特征向量空間。核函數(shù)方法可以有效地利用句法樹中的結(jié)構(gòu)化信息，已成功應(yīng)用于文本分類和生物信息學(xué)等問題。Liu等人 [45] 借助HowNet提供的本體知識(shí)構(gòu)造語(yǔ)義核函數(shù)，在開放數(shù)據(jù)集上對(duì)六類ACE定義的實(shí)體進(jìn)行識(shí)別，準(zhǔn)確率達(dá)到了88%。Zhuang等人 [46] 提出了使用卷積樹核方法進(jìn)行實(shí)體語(yǔ)義抽取，在關(guān)系的結(jié)構(gòu)化信息中加入實(shí)體的語(yǔ)義信息，應(yīng)用樹裁剪策略，在減少冗余信息的同時(shí)擴(kuò)充了原有的樹結(jié)構(gòu)，使之包含更豐富的實(shí)體語(yǔ)義信息。通過直接計(jì)算兩個(gè)實(shí)體關(guān)系對(duì)象(即句法樹)的相同子樹的個(gè)數(shù)來比較相似度，也改善了實(shí)體語(yǔ)義關(guān)系識(shí)別抽取的效果。實(shí)驗(yàn)數(shù)據(jù)取自ACE RDC 2004中的347篇新聞報(bào)道，共有4307個(gè)關(guān)系實(shí)例，系統(tǒng)對(duì)ACE所定義的7個(gè)大類進(jìn)行關(guān)系抽取實(shí)驗(yàn)。Zelenko等人 [47] 在淺層句法分析樹基礎(chǔ)上定義了核函數(shù)，并設(shè)計(jì)了一個(gè)用于計(jì)算核函數(shù)的動(dòng)態(tài)規(guī)劃算法，然后通過支持向量機(jī)和表決感知器(Voted Perceptron)等分類算法來抽取實(shí)體語(yǔ)義關(guān)系，系統(tǒng)對(duì)200篇新聞文章(語(yǔ)料庫(kù)包含來自不同新聞社和出版物(美聯(lián)社，《華爾街日?qǐng)?bào)》，《華盛頓郵報(bào)》，《洛杉磯時(shí)報(bào)》)進(jìn)行處理，最終提取得到兩種關(guān)系，“人員–隸屬”關(guān)系(一個(gè)特定的人從屬于一個(gè)特定的組織(如“小王是騰訊公司的程序開發(fā)工程師”中在人物“小王”和組織“騰訊公司”之間存在著人員–隸屬關(guān)系)和“組織–位置”關(guān)系。

2) 弱監(jiān)督的方法

弱監(jiān)督學(xué)習(xí)方法又稱為半監(jiān)督學(xué)習(xí)，使用預(yù)先定義的關(guān)系類型和關(guān)系實(shí)例的種子來取代大量的人工信息標(biāo)注過程，減輕了對(duì)標(biāo)簽的依賴。在定義了適當(dāng)?shù)膶?shí)體作為種子之后，利用機(jī)器學(xué)習(xí)方法，挖掘?qū)?yīng)關(guān)系描述模式，通過模式匹配抽取新的關(guān)系實(shí)例。關(guān)系抽取的弱監(jiān)督學(xué)習(xí)中基于Bootstrap算法、基于神經(jīng)網(wǎng)絡(luò)模型是經(jīng)典的學(xué)習(xí)方法。

基于Bootstrap算法的半監(jiān)督學(xué)習(xí)方法由Carlson等人 [48] 提出，該算法實(shí)現(xiàn)了自動(dòng)實(shí)體關(guān)系建模，首先利用少量實(shí)例作為初始種子集合，通過Pattern方式迭代學(xué)習(xí)非結(jié)構(gòu)文本以獲取新實(shí)例，接著從新實(shí)例中繼續(xù)學(xué)習(xí)并擴(kuò)展Pattern集合。Wang等人 [49] 以原始文本為輸入，提出使用一個(gè)單一的模型、端到端聯(lián)合識(shí)別邊界、實(shí)體提及的類型和關(guān)系，使用了一種基于結(jié)構(gòu)感知器的增量聯(lián)合框架，利用有效的集束搜索進(jìn)行實(shí)體和關(guān)系的抽取，該框架使用基于半馬爾可夫鏈思想實(shí)現(xiàn)基于分段的解碼算法。此后，Brin等人 [50] 發(fā)布了DIPRE系統(tǒng)，該系統(tǒng)使用少量的種子模板，從網(wǎng)絡(luò)上大量非結(jié)構(gòu)文本中抽取實(shí)例，通過新的實(shí)例學(xué)習(xí)新的抽取模板，設(shè)計(jì)了一個(gè)永無(wú)止境學(xué)習(xí)者系統(tǒng)(Never-Ending Language Learner, NELL)，用來不間斷抽取學(xué)習(xí)網(wǎng)絡(luò)文本中信息到結(jié)構(gòu)化知識(shí)庫(kù)中，對(duì)數(shù)據(jù)庫(kù)中的事實(shí)、知識(shí)不斷擴(kuò)充。NELL主要學(xué)習(xí)的是兩種類型的知識(shí)，一種是表示特定類別的詞匯(比如，公司，家，學(xué)校)，另一種是表示特定關(guān)系的名詞對(duì)(比如，表示所屬關(guān)系的(小王，騰訊公司))。通過在前人抽取系統(tǒng)基礎(chǔ)上進(jìn)行大規(guī)模Pattern構(gòu)建或完善對(duì)新抽取實(shí)例、新構(gòu)建Pattern的描述限制，很多系統(tǒng)如Snowball系統(tǒng) [42] 、NELL系統(tǒng) [51] 相繼出現(xiàn)，推動(dòng)了知識(shí)圖譜的構(gòu)建進(jìn)度。

斯坦福大學(xué)(Stanford University)的Mintz等人 [52] 于2009提出基于遠(yuǎn)距離監(jiān)督學(xué)習(xí)的無(wú)標(biāo)注文本的關(guān)系抽取方法。該方法以Freebase為訓(xùn)練數(shù)據(jù)進(jìn)行遠(yuǎn)距離監(jiān)督學(xué)習(xí)，設(shè)計(jì)面向文本特征的分類器，是融合了有監(jiān)督和無(wú)監(jiān)督的信息抽取方法;何婷婷 [53] 提出了基于種子的自擴(kuò)展命名實(shí)體關(guān)系抽取方法，選取有關(guān)系的命名實(shí)體對(duì)作為初始關(guān)系種子集合，通過弱監(jiān)督學(xué)習(xí)擴(kuò)展關(guān)系種子，接著計(jì)算關(guān)系種子和命名實(shí)體對(duì)之間的上下文相似度，進(jìn)而抽取新的命名實(shí)體對(duì)。

3) 無(wú)監(jiān)督的方法

無(wú)監(jiān)督方法使用未經(jīng)人工標(biāo)注的訓(xùn)練文本集，通過實(shí)體對(duì)聚類的方法，構(gòu)造分類器，給定實(shí)體間的關(guān)系。無(wú)監(jiān)督學(xué)習(xí)主要利用語(yǔ)料中大量冗余信息進(jìn)行聚類分析，進(jìn)而得到實(shí)體間關(guān)系 [5]。無(wú)監(jiān)督方法既可以處理web文檔也可以對(duì)文本文檔進(jìn)行處理。

無(wú)監(jiān)督方法可以用來對(duì)web文檔信息進(jìn)行抽取。Kathrin [54] 實(shí)現(xiàn)了基于無(wú)監(jiān)督學(xué)習(xí)的web文檔信息抽取，過程分為預(yù)處理、關(guān)系抽取和關(guān)系聚類三步;同樣地，Etzioni等人 [37] 實(shí)現(xiàn)了一個(gè)web信息抽取系統(tǒng)KNOWITALL，通過無(wú)監(jiān)督方法實(shí)現(xiàn)了高召回率(Recall)的信息抽取。

實(shí)體之間語(yǔ)義關(guān)系的抽取是web挖掘和自然語(yǔ)言處理，例如信息提取，關(guān)系檢測(cè)和社交網(wǎng)絡(luò)挖掘中各種任務(wù)的重要第一步。Hashimoto等人 [55] 提出了一種詞嵌入的方法對(duì)語(yǔ)義關(guān)系進(jìn)行分類(監(jiān)督學(xué)習(xí))，詞嵌入通過借助大型未標(biāo)注語(yǔ)料庫(kù)中特定關(guān)系的詞匯特征來預(yù)測(cè)得到名詞對(duì)中的特征，接著詞嵌入用于構(gòu)建特征向量，最終特征向量被訓(xùn)練成一個(gè)關(guān)系分類模型。Hashimoto等人 [55] 使用原始Wikipedia文件中提取的8000萬(wàn)個(gè)句子作為訓(xùn)練數(shù)據(jù)進(jìn)行詞嵌入的預(yù)訓(xùn)練，最后將文本中的名詞對(duì)之間的關(guān)系分為9個(gè)特定關(guān)系類(比如原因–結(jié)果、物質(zhì)–來源)和1個(gè)其他關(guān)系類(例如，“養(yǎng)家糊口是人們努力賺錢的很大動(dòng)力之一”中“養(yǎng)家糊口”–“賺錢”之間存在因果關(guān)系)。無(wú)監(jiān)督方法也可以通過協(xié)同聚類算法實(shí)現(xiàn)。Bollegala等人 [56] 提取了實(shí)體之間的語(yǔ)義關(guān)系，使用順序聯(lián)合聚類(co-clustering)算法，從未標(biāo)記數(shù)據(jù)中提取大量有效關(guān)系，包括語(yǔ)義關(guān)系的雙重關(guān)系(比如獲取關(guān)系，房地產(chǎn)公司購(gòu)買了一棟老洋房，同時(shí)可以表示為，老洋房被房地產(chǎn)公司收購(gòu))。該方法使用算法產(chǎn)生的聚類，訓(xùn)練了一個(gè)L1正則化邏輯回歸模型識(shí)別用來描述聚類表達(dá)關(guān)系的模式 [56]。其中提出的模型對(duì)ENT基準(zhǔn)數(shù)據(jù)集中實(shí)體對(duì)之間的關(guān)系相似性進(jìn)行了計(jì)算;對(duì)SENT500基準(zhǔn)數(shù)據(jù)集的500個(gè)手動(dòng)注釋的句子中的四種語(yǔ)義關(guān)系進(jìn)行了開放信息提取;以及對(duì)包含3500萬(wàn)個(gè)節(jié)點(diǎn)的社交網(wǎng)絡(luò)系統(tǒng)中53種不同的關(guān)系進(jìn)行了識(shí)別和分類。

無(wú)監(jiān)督方法可以用來對(duì)文本信息進(jìn)行抽取。文獻(xiàn) [57] 通過將非結(jié)構(gòu)化文本與知識(shí)庫(kù)對(duì)齊來自動(dòng)生成大量訓(xùn)練數(shù)據(jù)。文獻(xiàn) [58] 嘗試將遠(yuǎn)程監(jiān)督納入文本處理中，以通過使語(yǔ)料和文本對(duì)齊來自動(dòng)生成訓(xùn)練樣本，從而提取特征訓(xùn)練分類器。

除了上述方法，Zhang等人 [45] 提出了基于實(shí)例的無(wú)監(jiān)督學(xué)習(xí)方法，能夠?qū)?shí)體之間的雇傭關(guān)系、生產(chǎn)關(guān)系以及位置關(guān)系進(jìn)行準(zhǔn)確的識(shí)別;Ji等人 [59] 提出了一個(gè)句子級(jí)別的注意力機(jī)制模型，該模型選擇多個(gè)有效實(shí)例并充分利用知識(shí)庫(kù)中的監(jiān)督信息，使用傳統(tǒng)CNN從Freebase或Wikipedia中抽取得到的實(shí)體特征信息來豐富實(shí)例的背景知識(shí)，提高實(shí)體表示。Qi等人 [45] 使用Riedel 2010開發(fā)通過將NYT語(yǔ)料對(duì)齊知識(shí)庫(kù)得到的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。

4) 深度學(xué)習(xí)方法

深度學(xué)習(xí)方法在自然語(yǔ)言處理(NLP)和圖像識(shí)別方面表現(xiàn)的性能非常強(qiáng)大，使得眾多研究者將其應(yīng)用于解決關(guān)系抽取的問題。深度網(wǎng)絡(luò)的結(jié)構(gòu)有很多種，如RNN (Recurrent Neural Networks) [9]，CNNS (Convolutional Neural Networks) [3]，CNNs和RNNs的結(jié)合結(jié)構(gòu) [60] [61] 以及LSTMs (Long Short-Term Memories) [62]。基于神經(jīng)網(wǎng)絡(luò)模型不需要加入太多的特征，一般加入詞向量特征、位置特征等就可以。Hsahimoto等人 [45] 利用Word Embedding方法來學(xué)習(xí)給定標(biāo)注預(yù)料中特定名詞對(duì)應(yīng)的上下文特征，將特征加入神經(jīng)網(wǎng)絡(luò)分類器中;JainPoon等人 [63] 使用了用于關(guān)系提取的卷積神經(jīng)網(wǎng)絡(luò)(CNN)，針對(duì)不平衡語(yǔ)料庫(kù)，自動(dòng)從句子中學(xué)習(xí)特征并最大程度地減少對(duì)外部工具包和資源的依賴，從而擺脫了傳統(tǒng)的復(fù)雜特征工程方法。該模型利用無(wú)監(jiān)督框架自動(dòng)訓(xùn)練詞嵌入作為系統(tǒng)輸入，模型使用預(yù)訓(xùn)練的詞嵌入進(jìn)行初始化，并優(yōu)化詞嵌入和位置嵌入作為模型參數(shù)，對(duì)句子中兩個(gè)實(shí)體間的相對(duì)距離進(jìn)行編碼，并且提供了多種窗口大小的卷積過濾器，從而使網(wǎng)絡(luò)適合于n元關(guān)系提取。從文本中提取實(shí)體對(duì)之間的語(yǔ)義關(guān)系可以用于信息抽取、知識(shí)庫(kù)填充、問題解答等等。Zeng等人 [64] 將分段卷積神經(jīng)網(wǎng)絡(luò)(PCNN)與多實(shí)例學(xué)習(xí)一起用于遠(yuǎn)程監(jiān)督關(guān)系提取。此方法中，無(wú)需復(fù)雜的NLP預(yù)處理即可自動(dòng)學(xué)習(xí)特征。Zhang等人 [65] 提出了將LSTM序列模型與實(shí)體位置感知相結(jié)合的關(guān)系抽取神經(jīng)序列模型，通過更好的監(jiān)督數(shù)據(jù)和更合適的大容量模型的結(jié)合實(shí)現(xiàn)了更好的關(guān)系提取性能。

以上四種機(jī)器學(xué)習(xí)方法均可以對(duì)實(shí)體關(guān)系進(jìn)行抽取。有監(jiān)督的信息抽取方法需要預(yù)先人工標(biāo)注大量語(yǔ)料集，對(duì)人工的依賴性較強(qiáng)，抽取的準(zhǔn)確率較高，常常用來處理自然語(yǔ)言文本;弱監(jiān)督學(xué)習(xí)減少了對(duì)標(biāo)簽的依賴，降低了對(duì)人工的依賴，其使用了預(yù)先定義的關(guān)系類型和關(guān)系實(shí)例的種子，實(shí)現(xiàn)了很多自動(dòng)關(guān)系抽取模型，推動(dòng)了知識(shí)圖譜的構(gòu)建進(jìn)度;無(wú)監(jiān)督方法使用的文本集不需要進(jìn)行人工標(biāo)注，它使用實(shí)體對(duì)聚類方法實(shí)現(xiàn)關(guān)系抽取。弱監(jiān)督以及無(wú)監(jiān)督學(xué)習(xí)常常用來處理規(guī)模大的web文本。深度學(xué)習(xí)方法通過引入神經(jīng)網(wǎng)絡(luò)模型進(jìn)一步提升了關(guān)系抽取的自動(dòng)化程度，并取得了更優(yōu)秀的關(guān)系提取性能。

3.2.2. 基于本體(Ontology)的方法

基于本體的信息抽取技術(shù)，借助預(yù)定義的本體層次結(jié)構(gòu)，可有效識(shí)別特定領(lǐng)域的概念、實(shí)體、關(guān)系等知識(shí)。本體可以看作一個(gè)呈樹狀結(jié)構(gòu)的知識(shí)庫(kù)模具，是同一領(lǐng)域內(nèi)不同主體之間進(jìn)行交流、連通的語(yǔ)義基礎(chǔ) [66]。

本體的構(gòu)建是信息抽取的基礎(chǔ)，本體的構(gòu)建方法也隨著技術(shù)的發(fā)展逐漸從人工構(gòu)建、半自動(dòng)化構(gòu)建向自動(dòng)構(gòu)建發(fā)展。人工構(gòu)建本體由大量的領(lǐng)域?qū)＜蚁嗷f(xié)作完成，Swartout等人 [67] 提出的循環(huán)獲取法(CYC)，Nov等人 [68] 提出的Ontology Development 101 (七步法)都是人工構(gòu)建的經(jīng)典方法，其步驟包括確定領(lǐng)域范圍、復(fù)用現(xiàn)有本體、列出概念術(shù)語(yǔ)、定義類與類之間的層次關(guān)系、定義屬性之間關(guān)系、定義屬性的約束和創(chuàng)建實(shí)例。但是七步法存在主觀性強(qiáng)，評(píng)價(jià)機(jī)制弱的缺陷，缺少科學(xué)管理和評(píng)價(jià)機(jī)制。

半自動(dòng)化構(gòu)建本體主要是利用相關(guān)領(lǐng)域內(nèi)的專業(yè)詞典、敘詞表等專家知識(shí)從中抽取感興趣的概念和關(guān)系，構(gòu)建需要的實(shí)體 [69]。這類方法復(fù)用了本體中的概念和關(guān)系帶來了不同本體匹配的問題。

自動(dòng)構(gòu)建本體利用知識(shí)獲取技術(shù)、機(jī)器學(xué)習(xí)方法以及統(tǒng)計(jì)的思想和技術(shù)從數(shù)據(jù)資源中自動(dòng)獲取本體知識(shí)。其具體方法分為基于語(yǔ)言規(guī)則和基于機(jī)器學(xué)習(xí)方法兩類。基于語(yǔ)言規(guī)則的方法 [70]，通過對(duì)自然域文本的分析，提取候選關(guān)系并將其映射到預(yù)定義的語(yǔ)義表示中實(shí)現(xiàn)本體的構(gòu)建。這類方法中一個(gè)動(dòng)詞可以表示兩個(gè)或多個(gè)概念之間的關(guān)系。但也存在以下缺點(diǎn)：1) 不會(huì)發(fā)現(xiàn)新的關(guān)系，只是發(fā)現(xiàn)已知關(guān)系實(shí)例;2) 本體構(gòu)建的效果依賴于語(yǔ)義模式，因而需事先構(gòu)建較完備的語(yǔ)義模式。另一類是基于統(tǒng)計(jì)分析的機(jī)器學(xué)習(xí)方法 [71]，基于數(shù)據(jù)聚類對(duì)用于構(gòu)建每個(gè)組的本體樹的文檔進(jìn)行分組，使用模式樹挖掘從部分本體樹構(gòu)建集成本體進(jìn)行結(jié)構(gòu)化的本體構(gòu)建。其中，文檔聚類主要通過潛在語(yǔ)義分析(Latent Semantic Analysis, LSA)和K-Means等檢索關(guān)鍵字關(guān)系矩陣的方法來實(shí)現(xiàn);本體構(gòu)建主要通過形式概念分析和本體集成實(shí)現(xiàn)。機(jī)器學(xué)習(xí)方法比起基于規(guī)則的方法適用于范圍更廣的領(lǐng)域，構(gòu)建的本體傾向于更好地描述概念間的關(guān)系，結(jié)構(gòu)也更加復(fù)雜。但是，缺乏必要的語(yǔ)義邏輯基礎(chǔ)，因此抽取概念關(guān)系松散且可信度無(wú)法得到很好的保證。信息抽取可以通過一個(gè)或者多個(gè)本體實(shí)現(xiàn)。Moreno [72] 提出了在一個(gè)獨(dú)立域中基于本體實(shí)現(xiàn)信息抽取的方法，應(yīng)用面向分子生物學(xué)領(lǐng)域，對(duì)大腸桿菌信息進(jìn)行抽取，建立大腸桿菌監(jiān)管網(wǎng)絡(luò)，所建設(shè)的系統(tǒng)對(duì)該領(lǐng)域科學(xué)論文的摘要和完整文獻(xiàn)進(jìn)行了測(cè)試，先設(shè)計(jì)領(lǐng)域本體，然后根據(jù)本體所包含的知識(shí)實(shí)現(xiàn)信息抽取。Li等 [73] 人實(shí)現(xiàn)了基于農(nóng)業(yè)本體的農(nóng)業(yè)領(lǐng)域?qū)Y(jié)構(gòu)化的AJAX數(shù)據(jù)的提取。Daya [74] 提出了使用多個(gè)本體進(jìn)行信息抽取，分別在子域的確定和子域的表達(dá)兩種情況下使用多個(gè)本體，所實(shí)現(xiàn)的第一個(gè)基于多本體的系統(tǒng)是針對(duì)大學(xué)領(lǐng)域開發(fā)的，它使用兩種專門針對(duì)子域的本體，語(yǔ)料庫(kù)由100所大學(xué)，50所來自北美和50所來自世界其他地區(qū)的網(wǎng)頁(yè)組成文獻(xiàn)。實(shí)現(xiàn)的第二個(gè)系統(tǒng)應(yīng)用在恐怖襲擊的領(lǐng)域和消息理解會(huì)議(MUC)使用的語(yǔ)料庫(kù)實(shí)現(xiàn)子域的表達(dá)。

3.2.3. 基于開放域的關(guān)系抽取

隨著大數(shù)據(jù)時(shí)代的來臨，文本數(shù)據(jù)急劇增多，數(shù)據(jù)規(guī)模增大，傳統(tǒng)的領(lǐng)域受限的、限制語(yǔ)義關(guān)系的信息抽取方法、知識(shí)表示結(jié)構(gòu)出現(xiàn)了很大的局限性。之前的信息抽取方法面向的是特定數(shù)量的文本需要預(yù)先定義好的關(guān)系類別，領(lǐng)域知識(shí)也是由本體(Ontology)結(jié)構(gòu)來表示，隨著處理數(shù)據(jù)的海量化，本體構(gòu)建越來越困難，抽取方法也開始出現(xiàn)問題。并且面向特定領(lǐng)域的抽取方法導(dǎo)致了信息抽取技術(shù)的難以普及和擴(kuò)展，系統(tǒng)的可移植性差。

面向開放域的關(guān)系抽取技術(shù)直接利用語(yǔ)料庫(kù)的中關(guān)系詞匯進(jìn)行實(shí)體關(guān)系分類建模，不再需要預(yù)先指定關(guān)系的分類，就可以實(shí)現(xiàn)數(shù)據(jù)分類。該方法成為了抽取模式上的一個(gè)巨大進(jìn)步。開放式IE系統(tǒng)都采取標(biāo)簽–學(xué)習(xí)–提取三個(gè)步驟的方法：首先使用啟發(fā)式或遠(yuǎn)距離監(jiān)督方法自動(dòng)標(biāo)記句子;接著使用序列標(biāo)記圖形模型(例如CRF)學(xué)習(xí)關(guān)系短語(yǔ)提取器;最后系統(tǒng)將一個(gè)句子作為輸入，從句子中識(shí)別出參數(shù)，利用提取器將兩個(gè)自變量之間的每個(gè)單詞標(biāo)記為關(guān)系短語(yǔ)的一部分或不作為關(guān)系短語(yǔ)的一部分。抽取器用于語(yǔ)料庫(kù)中的連續(xù)句子，然后收集所得的抽取內(nèi)容 [11]。

華盛頓圖靈中心的Banko等人 [16] [75] [76] 在2007年提出了面向開放領(lǐng)域的信息抽取框架(Open Information Extraction, OIE)，發(fā)布了基于自監(jiān)督學(xué)習(xí)方式的開放信息抽取原型系統(tǒng)TextRunner，標(biāo)志著第一個(gè)OIE系統(tǒng)的問世。TextRunner (O-CRF)首先利用啟發(fā)式規(guī)則來訓(xùn)練樣本，然后采用二階線性鏈條件隨機(jī)場(chǎng)抽取器從開放式文本中自動(dòng)抽取關(guān)系三元組 [16]。TextRunner可以自動(dòng)抽取文本中大量實(shí)體關(guān)系，但是在準(zhǔn)確率跟召回率方面不是很理想。

Wu等人 [77] 2010年在OIE的基礎(chǔ)上提出了基于Wikipedia的WOE (Wikipedia-based Open Extractor)系統(tǒng)，將Wikipedia作為數(shù)據(jù)源利用維基百科網(wǎng)頁(yè)信息框(Infobox)中的屬性信息經(jīng)自監(jiān)督學(xué)習(xí)與相應(yīng)語(yǔ)句匹配，自動(dòng)構(gòu)造實(shí)體關(guān)系訓(xùn)練集，然后從樣本中抽取出關(guān)系獨(dú)立的訓(xùn)練數(shù)據(jù)經(jīng)自監(jiān)督學(xué)習(xí)得到抽取器。WOE系統(tǒng)實(shí)現(xiàn)了大批量構(gòu)造高質(zhì)量訓(xùn)練語(yǔ)料的方法，并且在準(zhǔn)確率跟召回率方面都得到了改善，令人遺憾的是它速度方面出現(xiàn)了不足。Fader等人 [20] 在TextRunner系統(tǒng)和WOE系統(tǒng)基礎(chǔ)上引入了語(yǔ)法限制條件和字典約束，進(jìn)行關(guān)系指示詞的預(yù)識(shí)別，消除了不合理實(shí)體關(guān)系三元組的生成。

隨著研究的進(jìn)一步發(fā)展，出現(xiàn)了第二代OIE系統(tǒng)ReVerb [20] [78]，基于通用句法和詞法約束實(shí)現(xiàn)了關(guān)系短語(yǔ)識(shí)別器，處理的是隨機(jī)抽取的英語(yǔ)句子，對(duì)其進(jìn)行全面語(yǔ)言分析，使用動(dòng)詞表達(dá)句子中關(guān)系，抽取得到動(dòng)詞關(guān)系短語(yǔ)(例如，句子“Mr. Wang fought against Mr. Li，but finally lost the job”，系統(tǒng)將抽取出兩組元組：(Mr. Wang, fought against, Mr. Li)和(Mr. Li, lost, the job))。Etzioni等人 [11] 通過應(yīng)用淺層句法約束和詞性約束減少了無(wú)意義信息以及錯(cuò)誤信息的產(chǎn)生，所設(shè)計(jì)的Reverb系統(tǒng)主要進(jìn)行動(dòng)詞關(guān)系的抽取，先抽取滿足約束的關(guān)系，然后依據(jù)臨近原則確定左右實(shí)體。REVERB支持學(xué)習(xí)選擇偏好，獲取常識(shí)知識(shí)，識(shí)別蘊(yùn)含規(guī)則等等。

Mausam等人 [20] 在第二代OIE基礎(chǔ)上提出了支持非動(dòng)詞性關(guān)系抽取的OILLIE (Open Language Learning for Information Extraction)系統(tǒng)，有效彌補(bǔ)了以往OIE系統(tǒng)抽取以動(dòng)詞為主而忽略名詞形容詞的缺陷，開始結(jié)合上下文全局分析而不是僅對(duì)語(yǔ)句局部分析、部分抽取，有效改善了自動(dòng)抽取系統(tǒng)的召回率和準(zhǔn)確率。McCallum等人 [75] 提出了后期采用關(guān)系推理的方法，有效地提高了隱含語(yǔ)義關(guān)系的發(fā)現(xiàn)識(shí)別能力。

以上提到的抽取方法都是二元的開放式關(guān)系抽取。開放式的關(guān)系抽取按抽取關(guān)系的復(fù)雜程度可以分為二元和多元。Alan等人 [79] 提出了基于N元關(guān)系模型的OIE系統(tǒng)，對(duì)除了常見二元實(shí)體關(guān)系的高階多元實(shí)體關(guān)系進(jìn)行識(shí)別;文獻(xiàn) [79] 在OIE ReVerb系統(tǒng)上提出了KPAKEN方法，通過輸入Stanford的依存分析結(jié)果，經(jīng)過檢測(cè)事件短語(yǔ)、檢測(cè)實(shí)體主導(dǎo)詞、檢測(cè)全部實(shí)體等步驟，實(shí)現(xiàn)了對(duì)任意英文語(yǔ)句中的N元實(shí)體關(guān)系的抽取。Del等人 [80] 提出了一種新穎的基于條款的開放信息提取方法，稱為ClausIE，該方法從自然語(yǔ)言文本中提取關(guān)系及其參數(shù)，ClausIE基于依賴性分析和一小組與域無(wú)關(guān)的詞典，無(wú)需經(jīng)過任何后處理即可逐句操作，并且不需要訓(xùn)練數(shù)據(jù)(無(wú)論是帶標(biāo)簽的還是無(wú)標(biāo)簽的)。ClausIE利用英語(yǔ)語(yǔ)法知識(shí)來首先檢測(cè)輸入句子中的從句，并隨后根據(jù)其組成部分的語(yǔ)法功能識(shí)別每個(gè)從句的類型。根據(jù)此信息，ClausIE能夠生成高精度提取系統(tǒng)，在實(shí)驗(yàn)中使用了三個(gè)不同的數(shù)據(jù)集：包含手工標(biāo)記的500句子的Reverb數(shù)據(jù)集;從Wikipedia頁(yè)面中隨機(jī)提取的200個(gè)句子;從《紐約時(shí)報(bào)》合集隨機(jī)提取的200個(gè)隨機(jī)句子。ClausIE依據(jù)依存關(guān)系獲取子句集合，并將其按類型靈活組合來抽取實(shí)體的N元關(guān)系。由于N元關(guān)系具有更加豐富的語(yǔ)義，因此由二元關(guān)系向N元關(guān)系的過渡是必然的，也是以后的研究發(fā)展方向。

隨著理論研究的不斷進(jìn)行，更多面向開放域理論模型的出現(xiàn)，更優(yōu)秀的知識(shí)表示結(jié)構(gòu)的出現(xiàn)，更多研究成果正不斷投入實(shí)踐應(yīng)用中，信息抽取研究正在不斷取得進(jìn)步，正在獲得更大更開放的發(fā)展空間，為后續(xù)知識(shí)圖譜的高質(zhì)量構(gòu)建提供了有力保障。

3.2.4. 聯(lián)合推理

隱含關(guān)系抽取是關(guān)系抽取的一大難點(diǎn)。因此，為了挖掘文本中的隱含的深層語(yǔ)義信息，一些學(xué)者將面向開放域的關(guān)系抽取方法與傳統(tǒng)面向特定領(lǐng)域(Close Domain)的信息抽取方法相結(jié)合，取長(zhǎng)補(bǔ)短，提出了聯(lián)合推理(Joint Inference)的概念 [25]。JainPoon等人 [63] 提出了一種完全聯(lián)合方法。目前聯(lián)合推理主要包括基于馬爾科夫邏輯網(wǎng)和基于粗略至精細(xì)(Coarse-to-Fine)的本體推理兩種。

1) 基于Markov邏輯網(wǎng)的邏輯推理

基于馬爾可夫邏輯網(wǎng)MLN (Markov Logic Network) [79] [81] 的方法是聯(lián)合推理關(guān)系抽取中的經(jīng)典方法，該方法在OIE中加入了推理，將馬爾可夫網(wǎng)絡(luò)與一階邏輯相結(jié)合，維護(hù)一個(gè)基于一階邏輯的規(guī)則庫(kù)，并對(duì)每一個(gè)邏輯規(guī)則附上權(quán)重，構(gòu)建統(tǒng)計(jì)關(guān)系學(xué)習(xí)框架。其中馬爾可夫邏輯是一種強(qiáng)大的新語(yǔ)言，將一階邏輯與概率圖形模型無(wú)縫結(jié)合 [77]。MLN的基本推理任務(wù)是尋找一個(gè)值從而使得可滿足的子句的權(quán)值最大，即MAP (Maximum A Posteriori)推理。MLN可看作一種用一階邏輯公式來實(shí)例化Markov網(wǎng)絡(luò)的模板語(yǔ)言。該方法在語(yǔ)義角色標(biāo)注、共指消解、文本蘊(yùn)含、實(shí)體鏈接消歧等研究方面有很好的應(yīng)用。

微軟公司的人立方(Renlifang)項(xiàng)目基于該方法提出了StatSnowball模型 [59] 實(shí)現(xiàn)了自動(dòng)生成或選擇模板生成抽取器，從web挖掘?qū)嶓w關(guān)系，該模型在小型標(biāo)記數(shù)據(jù)集和大規(guī)模web數(shù)據(jù)中都提現(xiàn)了較好的性能。該方法是一種基于無(wú)監(jiān)督自學(xué)習(xí)的知識(shí)挖掘模型，可以抽取多種實(shí)體關(guān)系，并且可移植性強(qiáng)。人立方系統(tǒng)主要由以下幾個(gè)應(yīng)用：1) 搜索實(shí)體關(guān)系信息;2) 對(duì)話題相關(guān)人物進(jìn)行排序;3) 檢測(cè)某實(shí)體的受歡迎程度，并使用戶可以瀏覽給定時(shí)間段內(nèi)按其在網(wǎng)絡(luò)上的知名度排名的不同類別的實(shí)體;4) 對(duì)人物進(jìn)行排名?；赟tatSnowball文獻(xiàn) [82] 提出了一種實(shí)體識(shí)別與關(guān)系抽取相結(jié)合的ENTSum模型，即將實(shí)體識(shí)別和關(guān)系抽取在一個(gè)模型中聯(lián)合處理同時(shí)實(shí)現(xiàn)。該模型由擴(kuò)展的CFR命名實(shí)體抽取模塊和基于StatSnowball的Bootstrapping關(guān)系抽取模塊組成，兩個(gè)模塊使用迭代方法相結(jié)合，實(shí)體識(shí)別可以利用關(guān)系抽取的模板語(yǔ)法特征和知識(shí)語(yǔ)義特征，使得兩個(gè)模塊準(zhǔn)確率和召回率都得到了改善。文獻(xiàn) [75] [83] 提出了一種簡(jiǎn)易的Markov邏輯TML (Tractable Markov Logic)。Banko等人 [78] 提出了基于條件隨機(jī)場(chǎng)的關(guān)系抽取模型(H-CRF)，根據(jù)目標(biāo)數(shù)據(jù)集關(guān)系數(shù)量多少以及有無(wú)預(yù)定義的分類模型選擇機(jī)器學(xué)習(xí)方法或開放域關(guān)系抽取方法。

2) 基于本體推理的聯(lián)合推理

基于本體推理的聯(lián)合推理面向開放域抽取方法形成的知識(shí)庫(kù)基本上都是信息的基本存儲(chǔ)并沒有進(jìn)行內(nèi)容的規(guī)范和組織。為了使抽取結(jié)果形成的知識(shí)庫(kù)成為真正的知識(shí)庫(kù)，即能夠推斷文本深層含義進(jìn)而從已有事實(shí)信息包含的隱含信息中推理出新的知識(shí)，能夠?yàn)闆Q策和問答所使用。研究者們提出了基于本體推理的信息抽取方法。

Zhang等人 [14] 提出了KOG模型，該方法基于MLN聯(lián)合推理，將Wikipedia的Infobox與WordNet相結(jié)合用于本體結(jié)構(gòu)的構(gòu)建，本體結(jié)構(gòu)是“實(shí)體–屬性–屬性值”的結(jié)構(gòu)，為Wikipedia的查詢/專題瀏覽功能提供了輔助作用。Moro等人 [84] 提出的VELVET方法利用聯(lián)合推理以及本體平滑方法實(shí)現(xiàn)了最弱監(jiān)督下實(shí)體關(guān)系的抽取，為結(jié)構(gòu)化知識(shí)庫(kù)的建立奠定了基礎(chǔ)。Domingos等人 [85] 將概率推理(Lifted Probabilistic Inference)與Markov相結(jié)合，提出了簡(jiǎn)易Markov邏輯(Tractable Markov Logic, TML)。在TML邏輯語(yǔ)言中，領(lǐng)域知識(shí)按照層次結(jié)構(gòu)分為若干部分，各部分又按照所屬事物類進(jìn)一步分解為若干部分，以此類推，最終形成了一個(gè)層次化的類/局部結(jié)構(gòu)。TML被證明是目前最為豐富和高效的邏輯語(yǔ)言之一，可能將來在本體知識(shí)推理前進(jìn)中起到推波助瀾的作用。

另外一些學(xué)者提出了采用聯(lián)合抽取模型的方法，典型成果如利用雙層的LSTM-RNN (長(zhǎng)短期記憶–遞歸神經(jīng)網(wǎng)絡(luò))模型通過神經(jīng)網(wǎng)絡(luò)進(jìn)行分類模型的訓(xùn)練 [64] 聯(lián)合推理結(jié)合了面向特定領(lǐng)域和面向開放域的方法，在許多方面展示出了優(yōu)勢(shì)。對(duì)于隱含關(guān)系的抽取和抽取階段的平衡，聯(lián)合推理方法顯現(xiàn)出比主流開放式信息抽取方法更高的性能 [86]。當(dāng)前信息抽取技術(shù)多是順序式抽取，即抽取過程分解為實(shí)體識(shí)別、關(guān)系抽取、屬性抽取等連續(xù)的多個(gè)子任務(wù)再集成。這樣的模式存在些缺陷，比如前一階段無(wú)法識(shí)別的信息在后一階段將不再被處理，從而出現(xiàn)了信息的缺失和不完整。前一階段的錯(cuò)誤信息結(jié)果將無(wú)法在后面階段進(jìn)行修復(fù)，從而在所有階段結(jié)束后大大增加了錯(cuò)誤率的積累。此外順序式處理方式使前面階段無(wú)法使用后面階段出現(xiàn)的有用特征，準(zhǔn)確率和效率得到了限制。而聯(lián)合推理方法不僅能夠綜合各個(gè)階段，實(shí)現(xiàn)相互補(bǔ)充和促進(jìn)，而且可以實(shí)現(xiàn)文本深層理解，實(shí)現(xiàn)隱含信息的自動(dòng)推理。因此，聯(lián)合處理的方法將成為之后的研究重點(diǎn)。

3.3. 屬性抽取

屬性抽取是為實(shí)體識(shí)別而服務(wù)的，屬性可以很好的對(duì)實(shí)體進(jìn)行刻畫。實(shí)體的屬性可以看作實(shí)體和屬性值之間的名稱性關(guān)系，因此實(shí)體屬性抽取可以視為一種特殊的關(guān)系抽取。屬性抽取的方法之一是從各類百科網(wǎng)站抽取結(jié)構(gòu)化知識(shí)作為屬性抽取的訓(xùn)練集，再將模型運(yùn)用到開放域中的屬性抽取 [12]。例如，Domingos等人 [85] 提出了基于規(guī)則與啟發(fā)式算法的屬性抽取方法，實(shí)現(xiàn)了從Wikipedia和WordNet的半結(jié)構(gòu)網(wǎng)頁(yè)中自動(dòng)抽取相應(yīng)屬性名稱與屬性值，而且達(dá)到了很高的準(zhǔn)確率。另一種方法是利用實(shí)體屬性與屬性值之間的關(guān)系模式直接從開放域的數(shù)據(jù)集上抽取實(shí)體屬性 [87]。Huang等人 [88] 使用DNN架構(gòu)的規(guī)則，模式和約束條件實(shí)現(xiàn)了從大量原始文件中提取給定實(shí)體的某些屬性類型值即Slot Filling (SF)的提取。

4. 信息抽取方法總結(jié)

信息抽取包括實(shí)體抽取、關(guān)系抽取、屬性抽取等多個(gè)子任務(wù)。以下分別以應(yīng)用領(lǐng)域、技術(shù)方法以及數(shù)據(jù)源為分類依據(jù)對(duì)提及的三個(gè)子任務(wù)分別進(jìn)行了介紹。具體的方法和領(lǐng)域分類見表1和表2。

表3. 按處理對(duì)象分類

面向開放領(lǐng)域方法信息抽取方法應(yīng)用范圍廣泛，可以很好的處理大規(guī)模數(shù)據(jù)，既可以處理自然語(yǔ)言文本，例如文獻(xiàn) [80] 提出的ClausIE模型，文獻(xiàn) [11] 提出的REVERB系統(tǒng)以及基于本體的系統(tǒng) [74] 都是對(duì)文本進(jìn)行信息抽取;又可以有效處理web文本，例如文獻(xiàn) [79] 提出N元關(guān)系抽取模型KPAKEN來對(duì)網(wǎng)絡(luò)文本進(jìn)行多元關(guān)系抽取。

在面向特定領(lǐng)域的信息抽取關(guān)系抽取方法中，基于有監(jiān)督的抽取方法常用來處理自然語(yǔ)言文本，例如文獻(xiàn) [47] 提出基于核函數(shù)的系統(tǒng)，文獻(xiàn) [46] 提出使用卷積樹核方法來對(duì)文本中的關(guān)系進(jìn)行抽取，文獻(xiàn) [44] 使用了ACE語(yǔ)料作為輸入來進(jìn)行信息抽取，其數(shù)據(jù)規(guī)模較小，在人工標(biāo)注預(yù)料訓(xùn)練集方面占有優(yōu)勢(shì)，通過學(xué)習(xí)訓(xùn)練集得到抽取規(guī)則因此準(zhǔn)確率也較高;基于弱監(jiān)督和無(wú)監(jiān)督的抽取方法更多的用來處理大規(guī)模web數(shù)據(jù)，其減少了對(duì)于人工信息標(biāo)注的需求，實(shí)現(xiàn)了對(duì)Freebase、Wikipedia等web文檔的信息抽取，并且可以得到較準(zhǔn)確的抽取效果，例如文獻(xiàn) [37] 基于無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法提出KNOWITALL系統(tǒng)，對(duì)web文檔進(jìn)行實(shí)體和關(guān)系抽取，文獻(xiàn) [48] 基于弱監(jiān)督機(jī)器學(xué)習(xí)方法Bootstrap對(duì)實(shí)體關(guān)系進(jìn)行抽取，文獻(xiàn) [52] 使用Freebase為數(shù)據(jù)源進(jìn)行基于遠(yuǎn)距離監(jiān)督學(xué)習(xí)的無(wú)標(biāo)注文本的關(guān)系抽取，文獻(xiàn) [59] 基于無(wú)監(jiān)督方法提出的句子級(jí)別注意力級(jí)別模型，對(duì)Freebase、Wikipedia數(shù)據(jù)進(jìn)行處理，文獻(xiàn) [55] 基于無(wú)監(jiān)督方法提出的詞嵌入方法處理Wikipedia文件中的信息。

在實(shí)體識(shí)別抽取中，基于規(guī)則以及基于統(tǒng)計(jì)的實(shí)體識(shí)別方法通常用來處理自然語(yǔ)言文本，其針對(duì)性強(qiáng)，準(zhǔn)確率高，通常在人工標(biāo)注下可以獲得好的識(shí)別效果，例如文獻(xiàn) [23] 使用基于規(guī)則的方法實(shí)現(xiàn)了以公司名稱為處理對(duì)象的，文獻(xiàn) [79] 將K最近鄰(KNN)分類器與線性條件隨機(jī)場(chǎng)(CRF)模型相結(jié)合實(shí)現(xiàn)了從簡(jiǎn)短非正式Twitter文章中進(jìn)行命名實(shí)體識(shí)別，文獻(xiàn) [30] 使用混合模型將最大熵模型和基于規(guī)則的方法結(jié)合實(shí)現(xiàn)了從自然語(yǔ)言文本中識(shí)別生物醫(yī)學(xué)命名實(shí)體;基于深度學(xué)習(xí)的方法無(wú)需人工定義相關(guān)特征通過訓(xùn)練數(shù)據(jù)自主學(xué)習(xí)有用特征然后利用特征進(jìn)行命名實(shí)體識(shí)別，基于深度學(xué)習(xí)的方法既用來處理單領(lǐng)域自然文本，例如文獻(xiàn) [35] 以科學(xué)文章為處理對(duì)象使用神經(jīng)標(biāo)記模型實(shí)現(xiàn)從科研文章中提取關(guān)鍵字短語(yǔ)，深度學(xué)習(xí)也可以用來處理web數(shù)據(jù)例如文獻(xiàn) [33] 提出了一種半監(jiān)督系統(tǒng)對(duì)Twitter微博進(jìn)行實(shí)體識(shí)別和分布式表示。

信息抽取的數(shù)據(jù)來源除了自然語(yǔ)言文本以及web文本這兩種數(shù)據(jù)源外，社交網(wǎng)絡(luò)數(shù)據(jù)也是一種豐富數(shù)據(jù)源。社交網(wǎng)絡(luò)節(jié)點(diǎn)規(guī)模大且關(guān)系種類繁多，文獻(xiàn) [56] 提出了基于無(wú)監(jiān)督方法使用順序聯(lián)合聚類算法對(duì)包含多個(gè)節(jié)點(diǎn)的社交網(wǎng)絡(luò)中的多種關(guān)系進(jìn)行抽取。

5. 結(jié)束語(yǔ)

本文首先根據(jù)知識(shí)圖譜的概念、構(gòu)建技術(shù)框架引出了信息抽取的概念，接著通過三個(gè)國(guó)際評(píng)測(cè)會(huì)議介紹了信息抽取的發(fā)展歷史;后續(xù)詳細(xì)介紹了信息抽取關(guān)鍵技術(shù)，包括實(shí)體抽取、關(guān)系抽取和屬性抽取;最后分析了信息抽取的研究趨勢(shì)。我們系統(tǒng)性分析了面向知識(shí)圖譜信息抽取的常用方法，根據(jù)技術(shù)特點(diǎn)分為實(shí)體抽取、關(guān)系抽取以及屬性抽取三類子任務(wù)。其中各個(gè)子任務(wù)根據(jù)其應(yīng)用領(lǐng)域分為面向特定領(lǐng)域和面向開放域兩種，根據(jù)其數(shù)據(jù)來源分為面向文本和面向Web兩種。

在面向特定領(lǐng)域的情境下，信息抽取各個(gè)子任務(wù)的技術(shù)方法較成熟、經(jīng)典，例如在實(shí)體抽取中常用CRF、ME、HMM、NN-CRF等基于統(tǒng)計(jì)的模型;在關(guān)系抽取中常使用基于監(jiān)督、半監(jiān)督或無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法。

在面向開放領(lǐng)域的應(yīng)用中，隨著大數(shù)據(jù)時(shí)代、全網(wǎng)時(shí)代的到來，更多新的優(yōu)秀的方法正在不斷地涌現(xiàn)。具體地，在實(shí)體識(shí)別任務(wù)中，出現(xiàn)了一些基于自學(xué)習(xí)方法的實(shí)體分類模型，從而不再需要通過人工構(gòu)造大量語(yǔ)料標(biāo)注、大量的特征;在關(guān)系抽取中，出現(xiàn)了以O(shè)IE框架為基礎(chǔ)的眾多優(yōu)秀系統(tǒng)，基本實(shí)現(xiàn)了各種詞性間的關(guān)系抽取以及隱含關(guān)系的抽取。

審核編輯：湯梓紅

閱讀全文

互聯(lián)網(wǎng)(100503) 互聯(lián)網(wǎng)(100503)
計(jì)算機(jī)(83912) 計(jì)算機(jī)(83912)
知識(shí)圖譜(7590) 知識(shí)圖譜(7590)

評(píng)論

相關(guān)推薦

這款熱插拔U.2硬盤抽取盒的散熱效果太棒了，實(shí)測(cè)ICY DOCK MB105VP-B靠譜嗎

題。今天將為大家介紹一款既能熱插拔便捷使用U.2硬盤，又能完美解決U.2散熱的硬盤抽取盒，它就是ICYDOCK推出的推MB105VP-B硬盤抽取盒。ICYDOCK的

2024-03-22 14:46:08

這款熱插拔U.2硬盤抽取盒的散熱效果太棒了，實(shí)測(cè)ICY DOCK MB105VP-B靠譜嗎

題。今天將為大家介紹一款既能熱插拔便捷使用U.2硬盤，又能完美解決U.2散熱的硬盤抽取盒，它就是ICYDOCK推出的MB105VP-B硬盤抽取盒。ICYDOCK的產(chǎn)

2024-03-15 15:54:23

熱重分析儀圖譜怎么分析？#熱重分析儀 #tga熱重分析儀 #圖譜分析

分析儀分配圖譜

南京大展檢測(cè)儀器發(fā)布于 2024-02-29 17:08:54

利用知識(shí)圖譜與Llama-Index技術(shù)構(gòu)建大模型驅(qū)動(dòng)的RAG系統(tǒng)（下）

對(duì)于語(yǔ)言模型（LLM）幻覺，知識(shí)圖譜被證明優(yōu)于向量數(shù)據(jù)庫(kù)。知識(shí)圖譜提供更準(zhǔn)確、多樣化、有趣、邏輯和一致的信息，減少了LLM中出現(xiàn)幻覺的可能性。

2024-02-22 14:13:03

207

利用知識(shí)圖譜與Llama-Index技術(shù)構(gòu)建大模型驅(qū)動(dòng)的RAG系統(tǒng)（上）

向量數(shù)據(jù)庫(kù)是一組高維向量的集合，用于表示實(shí)體或概念，例如單詞、短語(yǔ)或文檔。向量數(shù)據(jù)庫(kù)可以根據(jù)實(shí)體或概念的向量表示來度量它們之間的相似性或關(guān)聯(lián)性。

2024-02-22 14:07:57

350

【概念產(chǎn)品 CP133-1】2 盤位 EDSFF E1.S NVMe SSD 硬盤抽取盒

產(chǎn)品介紹CP133-1EDSFFE1.SSSD硬盤抽取盒用于安裝標(biāo)準(zhǔn)的內(nèi)置3.5英寸裝置空間，支持兩個(gè)高度為9.5mm或15mm的硬盤,CP133-1EDSFFE1.SSSD移動(dòng)機(jī)架設(shè)計(jì)用于安裝標(biāo)準(zhǔn)

2024-02-07 10:57:43

105

知識(shí)圖譜基礎(chǔ)知識(shí)應(yīng)用和學(xué)術(shù)前沿趨勢(shì)

知識(shí)圖譜（Knowledge Graph）以結(jié)構(gòu)化的形式描述客觀世界中概念、實(shí)體及其關(guān)系。是融合了認(rèn)知計(jì)算、知識(shí)表示與推理、信息檢索與抽取、自然語(yǔ)言處理、Web技術(shù)、機(jī)器學(xué)習(xí)與大數(shù)據(jù)挖掘等等方向的交叉學(xué)科。人工智能是以傳統(tǒng)符號(hào)派與目前流行的深度神經(jīng)網(wǎng)路為主，如下圖所示，知識(shí)圖譜發(fā)展史。

2024-01-08 10:57:38

206

數(shù)字化轉(zhuǎn)型守護(hù)者丨芯盾時(shí)代入選“2023央國(guó)企數(shù)字化產(chǎn)業(yè)賦能圖譜”多個(gè)領(lǐng)域

近日，在“2024中國(guó)信通院ICT深度觀察報(bào)告會(huì)丨政企數(shù)字化轉(zhuǎn)型分論壇”上，中國(guó)信息通信研究院正式發(fā)布了《2023央國(guó)企數(shù)字化產(chǎn)業(yè)賦能圖譜》，以展示優(yōu)秀央國(guó)企數(shù)字化轉(zhuǎn)型賦能產(chǎn)品和服務(wù)，匯聚數(shù)字化

2023-12-27 10:10:03

415

中軟國(guó)際成功上榜信通院《數(shù)據(jù)治理產(chǎn)業(yè)圖譜2.0》，全面滿足數(shù)據(jù)治理全鏈路需求

2023歲末，中軟國(guó)際再傳捷報(bào)。在中國(guó)信通院、中國(guó)通信標(biāo)準(zhǔn)化協(xié)會(huì)主辦的“2023數(shù)據(jù)資產(chǎn)管理大會(huì)”上，中軟國(guó)際成功入選《數(shù)據(jù)治理產(chǎn)業(yè)圖譜2.0》。這是中軟國(guó)際繼上榜《數(shù)據(jù)治理產(chǎn)業(yè)圖譜1.0

2023-12-25 19:00:02

717

見合八方SOA產(chǎn)品圖譜介紹

電子發(fā)燒友網(wǎng)站提供《見合八方SOA產(chǎn)品圖譜介紹》資料免費(fèi)下載

2023-12-19 16:13:59

在線節(jié)目制播嵌入式設(shè)備的ICY DOCK硬盤抽取盒應(yīng)用

ICY DOCK專注于專業(yè)硬盤及數(shù)位存儲(chǔ)周邊硬體解決方案，提供企業(yè)及專業(yè)用戶高硬盤密度，易維護(hù)，省系統(tǒng)空間及高穩(wěn)定度的內(nèi)外接硬盤盒。ICY DOCK的硬盤抽取盒，設(shè)計(jì)理念就是在有限的機(jī)箱物理空間

2023-12-15 17:30:19

138

在線節(jié)目制播嵌入式設(shè)備的ICY DOCK硬盤抽取盒應(yīng)用

2023-12-11 18:11:03

143

智慧燈桿產(chǎn)業(yè)鏈企業(yè)圖譜

智慧燈桿產(chǎn)業(yè)鏈企業(yè)圖譜智慧燈桿產(chǎn)業(yè)鏈企業(yè)圖譜智慧燈桿產(chǎn)業(yè)鏈企業(yè)圖譜智慧燈桿產(chǎn)業(yè)鏈企業(yè)圖譜智慧燈桿產(chǎn)業(yè)鏈企業(yè)圖譜智慧燈桿產(chǎn)業(yè)鏈企業(yè)圖譜

2023-12-11 17:36:06

自動(dòng)化工程師必須掌握的六大知識(shí)面

對(duì)于電氣工程師來講，圖紙是相當(dāng)重要的，所以制圖軟件是必須要掌握的，這是毫無(wú)疑問的。而且電路設(shè)計(jì)和電氣識(shí)圖這兩個(gè)知識(shí)點(diǎn)是相互關(guān)聯(lián)的，會(huì)畫電氣圖肯定看得懂電氣圖，電氣圖看多了，也能設(shè)計(jì)電氣圖。這個(gè)地方需要根據(jù)項(xiàng)目的實(shí)際經(jīng)驗(yàn)來學(xué)，多看多做自然就會(huì)了。

2023-12-07 09:31:02

288

AD9689芯片DDC抽取濾波器進(jìn)行多芯片同步時(shí)使用什么信號(hào)進(jìn)行復(fù)位同步？

AD9689芯片 DDC抽取濾波器進(jìn)行多芯片同步時(shí)使用什么信號(hào)進(jìn)行復(fù)位同步？是sysref信號(hào)還是什么？datasheet沒有提供說明。

2023-12-07 06:43:42

AD9680中頻f0=930MHz，采樣率fs=720MHz，做8倍抽取應(yīng)該如何配置寄存器？

AD9680 中頻f0=930MHz，采樣率fs=720MHz，做8倍抽取應(yīng)該如何配置寄存器0x5700x200 0x201 0x310 0x330 0x311 0x331 0x314 0x315

2023-12-05 08:08:28

喜訊 | 西井科技榮獲“國(guó)家知識(shí)產(chǎn)權(quán)優(yōu)勢(shì)企業(yè)”稱號(hào)

近日，2023年度國(guó)家知識(shí)產(chǎn)權(quán)優(yōu)勢(shì)企業(yè)名單在國(guó)家知識(shí)產(chǎn)權(quán)局網(wǎng)站正式對(duì)外公布。按照《國(guó)家知識(shí)產(chǎn)權(quán)局辦公室關(guān)于面向企業(yè)開展2023年度知識(shí)產(chǎn)權(quán)強(qiáng)國(guó)建設(shè)示范工作的通知》（國(guó)知辦函運(yùn)字〔2023〕572

2023-12-01 18:30:02

216

AD9082在5G采樣率下，不同抽取倍數(shù)情況下數(shù)據(jù)有采集錯(cuò)誤和隆起怎么解決？

，混頻到1700M, FDDC不混頻 4、IQ模式， ADC LMFS=8222 以5120M采樣率下采集，數(shù)據(jù)有錯(cuò)點(diǎn)和隆起，具體現(xiàn)像為以下3個(gè)現(xiàn)像 1、CDDC設(shè)置2倍抽取，F(xiàn)DDC設(shè)置2倍抽取，采集

2023-12-01 07:01:54

AD9695 1.2288GSPS 6x抽取時(shí)會(huì)有固定409.6M干擾怎么解決？

在1.2288G采樣 6x抽取，DDC設(shè)置374.4M，會(huì)有固定高于底噪大約10db的409.6M的頻點(diǎn)干擾。模擬端沒有信號(hào)輸入，也會(huì)有這個(gè)干擾，周圍時(shí)鐘有102.4M與204.8M，感覺不會(huì)是這兩個(gè)時(shí)鐘的諧波干擾

2023-12-01 06:03:15

如何基于亞馬遜云科技LLM相關(guān)工具打造知識(shí)庫(kù)

了解其核心組件、快速部署指南以及LangChain集成及其在電商的應(yīng)用場(chǎng)景。通用場(chǎng)景：基于企業(yè)內(nèi)部知識(shí)庫(kù)例如IT/HR信息的問答制造行業(yè)：裝備維保知識(shí)庫(kù)問答和售后客服金融行業(yè)：智能客服和智能報(bào)告生成教育行業(yè)：面向學(xué)生和面向學(xué)

2023-11-23 17:53:14

532

【開箱簡(jiǎn)測(cè)】ICY DOCK MB324SP-B，免工具安裝4盤位SATA/SAS硬盤抽取盒

的價(jià)格，于是便有了閑置主機(jī)DIY搭建NAS的這一方案，而硬盤抽取盒正是一個(gè)關(guān)鍵的組成部分。在本文中，我們將對(duì)ICYDOCK旗下的硬盤抽取盒MB324SP-B進(jìn)行詳細(xì)

2023-11-21 13:42:04

245

《電子工程師必備——九大系統(tǒng)電路識(shí)圖寶典》+附錄2化整為零和集零為整電路分析方法

感謝提供的試讀機(jī)會(huì)！感謝作者胡斌！感謝作者胡松！感謝人民郵電出版社！感謝中國(guó)工信出版集團(tuán)！感謝電子發(fā)燒友論壇！接上四篇：《電子工程師必備——九大系統(tǒng)電路識(shí)圖寶典》+視頻講解附錄6

2023-11-18 21:06:29

大模型在代碼缺陷檢測(cè)領(lǐng)域的應(yīng)用實(shí)踐

靜態(tài)代碼掃描(SA)能快速識(shí)別代碼缺陷，如空指針訪問、數(shù)組越界等，以較高ROI保障質(zhì)量及提升交付效率。當(dāng)前掃描能力主要依賴人工經(jīng)驗(yàn)生成規(guī)則，泛化能力弱且迭代滯后，導(dǎo)致漏出。本文提出基于代碼知識(shí)圖譜

2023-11-08 10:27:43

250

ICY DOCK 2盤位SATA/SAS硬盤全金屬帶鎖+拇指螺絲熱插拔硬盤抽取盒

ToughArmor MB492SKL-B 2盤位2.5" 硬盤抽取盒，專門打造給有特殊硬盤安全需求的小型工業(yè)系統(tǒng)；采用符合防火需求和能承受非常嚴(yán)峻工作環(huán)境之金屬材質(zhì)結(jié)構(gòu)；金屬鑰匙鎖扣防止有心人士在

2023-11-07 13:46:52

ICY DOCK U.2 SSD PCIe插槽硬盤抽取盒

ICY DOCK MB111VP-是一款堅(jiān)固耐用可拆卸的U.2/U.3 NVMe SSD硬盤抽取盒，專為安裝到PCIe插槽中而設(shè)計(jì)，支持U.2/U.3 NVMe SSD，支持硬盤高度可達(dá)

2023-11-03 11:49:55

淺談C語(yǔ)言面向對(duì)象編程思想

C語(yǔ)言是一種面向過程的語(yǔ)言，但是也可以用結(jié)構(gòu)體和函數(shù)指針來模擬面向對(duì)象的特性，比如封裝、繼承和多態(tài)。

2023-11-02 12:27:30

232

英碼科技成功入選《2023邊緣計(jì)算產(chǎn)業(yè)圖譜》兩大細(xì)分領(lǐng)域

近日，業(yè)界知名的邊緣計(jì)算行業(yè)研究機(jī)構(gòu)發(fā)布了《2023邊緣計(jì)算產(chǎn)業(yè)圖譜》，展示了全球邊緣計(jì)算產(chǎn)業(yè)的最新發(fā)展態(tài)勢(shì)和前景。在本次發(fā)布的圖譜中，英碼科技作為邊緣計(jì)算領(lǐng)域的領(lǐng)先者，成功入選邊緣計(jì)算一體機(jī)和智能

2023-10-31 08:39:21

199

英碼科技成功入選《2023邊緣計(jì)算產(chǎn)業(yè)圖譜》兩大細(xì)分領(lǐng)域

2023-10-31 08:27:21

436

知識(shí)圖譜與大模型結(jié)合方法概述

本文作者 |? 黃巍《Unifying Large Language Models and Knowledge Graphs: A Roadmap》總結(jié)了大語(yǔ)言模型和知識(shí)圖譜融合的三種路線

2023-10-29 15:50:01

525

手機(jī)電路方框圖識(shí)圖

電子發(fā)燒友網(wǎng)站提供《手機(jī)電路方框圖識(shí)圖.ppt》資料免費(fèi)下載

2023-10-24 14:27:15

MCU上面可以實(shí)現(xiàn)面向對(duì)象編程嗎？

為什么都是用的面向過程編程

2023-10-24 07:39:28

9天練會(huì)電子電路識(shí)圖

電子發(fā)燒友網(wǎng)站提供《9天練會(huì)電子電路識(shí)圖.zip》資料免費(fèi)下載

2023-10-20 11:00:36

寄生參數(shù)抽取只會(huì)StarRC不會(huì)QRC？

寄生參數(shù)抽取只會(huì)StarRC 不會(huì)QRC？本章節(jié)講解下QRC抽取寄生參數(shù)。

2023-10-11 16:01:07

1335

《電子工程師必備——九大系統(tǒng)電路識(shí)圖寶典》+附錄5學(xué)習(xí)方法

感謝提供的試讀機(jī)會(huì)。謝謝胡斌謝謝胡松謝謝人民郵電出版社謝謝中國(guó)工信出版集團(tuán) 謝謝電子發(fā)燒友論壇試讀胡斌胡松編著的《電子工程師必備九大系統(tǒng)電路識(shí)圖寶典第2版》！接上三篇：《電子

2023-10-06 23:25:22

《電子工程師必備——九大系統(tǒng)電路識(shí)圖寶典》+附錄3回路分析法

感謝提供的試讀機(jī)會(huì)。謝謝胡斌謝謝胡松謝謝人民郵電出版社謝謝中國(guó)工信出版集團(tuán) 謝謝電子發(fā)燒友論壇試讀胡斌胡松編著的《電子工程師必備九大系統(tǒng)電路識(shí)圖寶典第2版》！接上兩篇：《電子

2023-10-06 11:27:44

《電子工程師必備——九大系統(tǒng)電路識(shí)圖寶典》+附錄4讀后感

接上一篇：《電子工程師必備——九大系統(tǒng)電路識(shí)圖寶典》+視頻講解附錄6 - 電子元器件論壇 - 電子技術(shù)論壇- 廣受歡迎的專業(yè)電子論壇! https://bbs.elecfans.com

2023-09-28 13:44:23

漲知識(shí)：碳化硅產(chǎn)業(yè)鏈圖譜

由SiC 粉經(jīng)過長(zhǎng)晶、加工、切割、研磨、拋光、清洗環(huán)節(jié)最終形成襯底。其中SiC晶體的生長(zhǎng)為核心工藝，核心難點(diǎn)在提升良率。類型可分為導(dǎo)電型、和半絕緣型襯底，分別用于功率和射頻器件領(lǐng)域。

2023-09-26 16:12:37

1063

AOP知識(shí)詳解

今天我們繼續(xù)看看AOP相關(guān)的知識(shí)，前面說到了Javassit，Spring AOP，通過該篇，讓你對(duì)AOP有更完整的認(rèn)識(shí)。 AOP 再看AOP，這是一種面向切面編程思想，相比面向對(duì)象編程，可以說是

2023-09-25 11:14:03

425

電氣圖的識(shí)圖步驟

一、電氣圖的識(shí)圖要領(lǐng) 1、在閱讀電氣圖時(shí)，必須熟悉圖中各器件的符號(hào)和作用。 2、閱讀主電路時(shí)，應(yīng)該了解主電路有哪些用電設(shè)備，并根據(jù)工藝過程了解各用電設(shè)備之間的相互聯(lián)系，采用的保護(hù)方式等。在完全了解

2023-09-21 11:44:18

1126

優(yōu)立科技入選艾瑞元宇宙營(yíng)銷產(chǎn)業(yè)圖譜

孿生與元宇宙核心技術(shù)提供商，優(yōu)立科技成功入選「元宇宙營(yíng)銷產(chǎn)業(yè)圖譜」板塊。 ? ? ? ? ? 報(bào)告指出，元宇宙營(yíng)銷發(fā)展主要難點(diǎn)，包括行業(yè)待建立，標(biāo)準(zhǔn)待統(tǒng)一，技術(shù)待突破，場(chǎng)景應(yīng)用待落地，參與價(jià)值待提升。 ? ? ? ? ? 其中，技術(shù)方面存在

2023-09-19 17:13:00

526

專業(yè)知識(shí)培訓(xùn)：電感知識(shí)培訓(xùn)！

專業(yè)知識(shí)培訓(xùn)：電感知識(shí)培訓(xùn)！|深圳比創(chuàng)達(dá)EMC

2023-09-05 10:42:04

518

Python的面向對(duì)象編程詳解

一般編程可分為面向過程編程，和面向對(duì)象編程。Python的面向對(duì)象編程，與Java的面向對(duì)象很像。之所以需要面向對(duì)象編程，是為了更好地實(shí)現(xiàn)封裝、繼承、多態(tài)。

2023-09-04 16:35:10

244

華為GPU芯片對(duì)標(biāo)英偉達(dá)！

星火一體機(jī)將提供從底層算力、AI框架、訓(xùn)練算法、推理能力、應(yīng)用成效等全棧AI能力，可用于問答系統(tǒng)、對(duì)話生成、知識(shí)圖譜構(gòu)建、智能推薦等多個(gè)領(lǐng)域的應(yīng)用，具備大模型預(yù)訓(xùn)練、多模態(tài)理解與生成、多任務(wù)學(xué)習(xí)和遷移等能力。

2023-09-01 14:46:56

798

云知聲亮相第十七屆全國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì)

8月24日-27日，第十七屆全國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì)(CCKS 2023)在沈陽(yáng)成功舉辦。大會(huì)聚焦“知識(shí)圖譜賦能通用AI”，邀請(qǐng)國(guó)內(nèi)外知名學(xué)者、產(chǎn)業(yè)界知名發(fā)言人員介紹相關(guān)領(lǐng)域的最新進(jìn)展和發(fā)展趨勢(shì)

2023-08-31 16:02:51

365

2023中國(guó)工業(yè)互聯(lián)網(wǎng)技術(shù)發(fā)展的十大科技趨勢(shì)

知識(shí)圖譜是一種基于語(yǔ)義網(wǎng)技術(shù)的知識(shí)表示方法，它將實(shí)體、屬性和關(guān)系等元素進(jìn)行抽象和建模，形成一個(gè)具有語(yǔ)義表達(dá)能力的圖結(jié)構(gòu)。在工業(yè)領(lǐng)域，知識(shí)圖譜可以將工業(yè)領(lǐng)域的知識(shí)進(jìn)行建

2023-08-31 15:18:49

476

如何利用大模型構(gòu)建知識(shí)圖譜？如何利用大模型操作結(jié)構(gòu)化數(shù)據(jù)？

上圖是之前，我基于大語(yǔ)言模型構(gòu)建知識(shí)圖譜的成品圖，主要是將金融相關(guān)的股票、人物、漲跌幅之類的基金信息抽取出來。

2023-08-24 16:56:51

7102

大型語(yǔ)言模型與知識(shí)圖譜：機(jī)遇與挑戰(zhàn)

這對(duì)知識(shí)表示領(lǐng)域來說是一個(gè)巨大的步驟。長(zhǎng)時(shí)間以來，人們關(guān)注的是明確的知識(shí)，例如嵌入在文本中的知識(shí)，有時(shí)也被稱為非結(jié)構(gòu)化數(shù)據(jù)，以及以結(jié)構(gòu)化形式存在的知識(shí)，例如在數(shù)據(jù)庫(kù)和知識(shí)圖譜（KGs）[123]中。

2023-08-24 14:50:16

391

全球首個(gè)可商用生物醫(yī)藥大模型BioMedGPT-10B開源

作為連接橋梁，BioMedGPT-LM 能夠連接各種生物模態(tài)的編碼，包括分子、蛋白質(zhì)、細(xì)胞和基因表達(dá)數(shù)據(jù)，同時(shí)還能夠整合知識(shí)圖譜、文檔、數(shù)值實(shí)驗(yàn)結(jié)果以及其他格式所體現(xiàn)的專業(yè)知識(shí)。通過跨模態(tài)特征融合模塊集成，不同模態(tài)的生物編碼語(yǔ)言、化學(xué)分子語(yǔ)言與自然語(yǔ)言能夠在同一個(gè)特征空間中實(shí)現(xiàn)統(tǒng)一融合。

2023-08-21 16:49:51

708

自動(dòng)氣象站的基本信息介紹

氣象知識(shí)丨自動(dòng)氣象站的基本信息介紹

2023-08-18 14:56:20

301

六相永磁同步電機(jī)降階模型ECE抽取方法

永磁同步電機(jī)降階模型ECE抽取是通過對(duì)永磁同步電機(jī)有限元結(jié)果進(jìn)行降階抽取，等效抽取的結(jié)果是基于有限元計(jì)算得到的數(shù)據(jù)表，在控制系統(tǒng)聯(lián)合仿真過程中只需通過查表得方法就能得到電機(jī)的性能，因此將抽取后的結(jié)果應(yīng)用到系統(tǒng)仿真中，既保證了精度也提高了速度。

2023-08-14 14:08:34

1415

《電子工程師必備——九大系統(tǒng)電路識(shí)圖寶典》+視頻講解附錄6

感謝提供的試讀機(jī)會(huì)。謝謝胡斌謝謝胡松謝謝人民郵電出版社謝謝中國(guó)工信出版集團(tuán) 謝謝電子發(fā)燒友論壇試讀胡斌胡松編著的《電子工程師必備九大系統(tǒng)電路識(shí)圖寶典第2版》后制作上方視頻，這本書給人的整體感覺還是相當(dāng)不錯(cuò)的！謝謝！

2023-08-11 00:26:19

基于FPGA的速率自適應(yīng)圖像抽取算法

點(diǎn)擊上方藍(lán)字關(guān)注我們荷圖像可視化是深空探測(cè)任務(wù)中的重要需求，但受信道帶寬的限制，無(wú)法實(shí)時(shí)傳輸所有載荷數(shù)據(jù)，因此星載復(fù)接存儲(chǔ)器中圖像的抽取下傳是實(shí)現(xiàn)任務(wù)可視化的關(guān)鍵。本文設(shè)計(jì)了一種載荷圖像抽取

2023-08-05 10:35:02

454

實(shí)時(shí)3D藝術(shù)最佳實(shí)踐-紋理技術(shù)解讀

紋理貼圖獲取2D曲面圖像并將其映射到3D多邊形上。本指南涵蓋了幾種紋理優(yōu)化，可以幫助您的游戲運(yùn)行得更流暢、看起來更好。在本指南的最后，您可以檢查您的知識(shí)。您將了解有關(guān)主題，包括紋理圖譜

2023-08-02 06:12:17

知識(shí)圖譜嵌入模型 (KGE) 的總結(jié)和比較

知識(shí)圖譜嵌入(KGE)是一種利用監(jiān)督學(xué)習(xí)來學(xué)習(xí)嵌入以及節(jié)點(diǎn)和邊的向量表示的模型。它們將“知識(shí)”投射到一個(gè)連續(xù)的低維空間，這些低維空間向量一般只有幾百個(gè)維度（用來表示知識(shí)存儲(chǔ)的內(nèi)存效率）。向量空間中，每個(gè)點(diǎn)代表一個(gè)概念，每個(gè)點(diǎn)在空間中的位置具有語(yǔ)義意義，類似于詞嵌入。

2023-07-31 16:07:55

561

信息是個(gè)啥？

信息

橙群微電子發(fā)布于 2023-07-24 09:21:15

基于人類乳腺細(xì)胞圖譜中各細(xì)胞亞型之間的位置關(guān)系和空間聯(lián)系

? 人類細(xì)胞圖譜計(jì)劃（Human Cell Atlas，HCA）旨在描述人體中每個(gè)細(xì)胞（約37萬(wàn)億個(gè)）的詳細(xì)特征，呈現(xiàn)不同類型細(xì)胞在人體組織的三維結(jié)構(gòu)，勾勒他們?cè)谌梭w系統(tǒng)內(nèi)的聯(lián)系，揭示圖譜變化與健康

2023-07-23 15:02:06

345

中科馭數(shù)成為證券基金行業(yè)信息技術(shù)應(yīng)用創(chuàng)新知識(shí)庫(kù)首批合作廠商！

7月20日，證券基金行業(yè)信息技術(shù)應(yīng)用創(chuàng)新中心與中國(guó)信息通信研究院攜手合作，正式上線了行業(yè)信息技術(shù)應(yīng)用創(chuàng)新知識(shí)庫(kù)，旨在做好對(duì)行業(yè)信息技術(shù)應(yīng)用創(chuàng)新工作的支撐，加強(qiáng)產(chǎn)業(yè)側(cè)和行業(yè)機(jī)構(gòu)之間的緊密聯(lián)系，加強(qiáng)

2023-07-21 18:50:01

295

什么是面向對(duì)象編程（OOP）？面向對(duì)象的程序設(shè)計(jì)

在編程領(lǐng)域，面向對(duì)象編程 (OOP) 是一種強(qiáng)大的范例，使開發(fā)人員能夠構(gòu)建復(fù)雜且可擴(kuò)展的應(yīng)用程序。

2023-07-19 14:57:22

675

喜訊 | 西井科技榮獲2023世界知識(shí)產(chǎn)權(quán)組織全球獎(jiǎng)！

項(xiàng) 。獲此殊榮，西井科技將以此為動(dòng)力，加速科技創(chuàng)新，讓知識(shí)產(chǎn)權(quán)不斷激活創(chuàng)新活力，成為公司發(fā)展的核心競(jìng)爭(zhēng)力，賦能全球可持續(xù)發(fā)展。榮獲世界知識(shí)產(chǎn)權(quán)領(lǐng)域最高獎(jiǎng)項(xiàng) 世界知識(shí)產(chǎn)權(quán)組織全球獎(jiǎng)于2022年啟動(dòng)，是一項(xiàng)主要面向中小企業(yè)開放的獎(jiǎng)項(xiàng)，旨在表彰全球范圍內(nèi)通

2023-07-12 18:05:02

330

中軟國(guó)際解放號(hào)入選中國(guó)信通院《2023大模型和AIGC產(chǎn)業(yè)圖譜》

7月7日，2023世界人工智能大會(huì)（WAIC）期間，中國(guó)信息通信研究院正式發(fā)布《2023大模型和AIGC產(chǎn)業(yè)圖譜》（以下簡(jiǎn)稱“圖譜”）。中軟國(guó)際解放號(hào)憑借多年積累的人工智能技術(shù)能力，以及數(shù)據(jù)治理

2023-07-11 18:05:02

391

最新綜述！當(dāng)大型語(yǔ)言模型（LLM）遇上知識(shí)圖譜：兩大技術(shù)優(yōu)勢(shì)互補(bǔ)

LLM 是黑箱模型，缺乏可解釋性，因此備受批評(píng)。LLM 通過參數(shù)隱含地表示知識(shí)。因此，我們難以解釋和驗(yàn)證 LLM 獲得的知識(shí)。此外，LLM 是通過概率模型執(zhí)行推理，而這是一個(gè)非決斷性的過程。對(duì)于 LLM 用以得出預(yù)測(cè)結(jié)果和決策的具體模式和功能，人類難以直接獲得詳情和解釋。

2023-07-10 11:35:00

1353

知識(shí)圖譜(2)#人工智能

人工智能

未來加油dz發(fā)布于 2023-07-04 15:11:06

知識(shí)圖譜(1)#人工智能

人工智能

未來加油dz發(fā)布于 2023-07-04 15:10:18

ADC數(shù)字下變頻器：抽取濾波器和ADC混疊，第2部分

我們將繼續(xù)以AD9680為例，就像在第1部分中所做的那樣。與DDC的實(shí)際模式操作類似，無(wú)論速度等級(jí)如何，歸一化抽取濾波器響應(yīng)都是相同的。我想再次提到，對(duì)于此處包含的示例濾波器響應(yīng)圖，沒有準(zhǔn)確給出

2023-06-30 15:44:38

936

ADC數(shù)字下變頻器：抽取濾波器和ADC混疊，第1部分

我們將再次以AD9680為例。在這種情況下，無(wú)論速度等級(jí)如何，歸一化抽取濾波器響應(yīng)都是相同的。抽取濾波器響應(yīng)僅隨采樣速率成比例。在此包含的示例濾波器響應(yīng)圖中，沒有準(zhǔn)確給出具體的插入損耗與頻率的關(guān)系

2023-06-30 15:43:41

1667

ADC數(shù)字下變頻器：復(fù)雜抽取示例

MHz的NCO調(diào)諧頻率、半帶濾波器1（HB1）和半帶濾波器2（HB2）（總抽取率等于6）和<>dB增益。

2023-06-30 15:20:25

744

ADC數(shù)字下變頻器：重新審視復(fù)雜的抽取示例

調(diào)諧頻率、半帶濾波器1（HB1）和半帶濾波器2（HB2）（總抽取率等于6）和<>dB增益。由于輸出很復(fù)雜，因此禁用了復(fù)雜到實(shí)際的轉(zhuǎn)換塊。

2023-06-30 15:18:00

717

開源大師兄校園智慧農(nóng)業(yè)系統(tǒng)項(xiàng)目作品

是跨學(xué)科學(xué)習(xí)，信息科技課程標(biāo)準(zhǔn)中更是明確面向未來的核心素養(yǎng)目標(biāo)，如何落實(shí)這樣的信息素養(yǎng)目標(biāo)需要我們每個(gè)學(xué)科老師深入思考。結(jié)合本校校本校情設(shè)計(jì)開發(fā)出更加接地氣的課程內(nèi)容。在信息科技課程標(biāo)準(zhǔn)中的跨學(xué)科案例給了

2023-06-28 14:54:41

東軟面向醫(yī)療領(lǐng)域推出多款A(yù)I+醫(yī)療行業(yè)應(yīng)用

近日，東軟面向醫(yī)療領(lǐng)域推出多款A(yù)I+醫(yī)療行業(yè)應(yīng)用，包括添翼醫(yī)療領(lǐng)域大模型、飛標(biāo)醫(yī)學(xué)影像標(biāo)注平臺(tái)4.0、基于WEB的虛擬內(nèi)窺鏡等。這是東軟憑借深厚的技術(shù)積累、海量的數(shù)據(jù)資源、豐富的行業(yè)應(yīng)用場(chǎng)

2023-06-20 10:42:02

371

為昕PCB設(shè)計(jì)軟件(Mars)的亮點(diǎn)一覽

Mars簡(jiǎn)潔的界面、直觀的交互、流暢的操作使設(shè)計(jì)者能夠迅速上手，搭配為昕自主研發(fā)的原理圖工具Jupiter和在線庫(kù)管理平臺(tái)，結(jié)合工程化設(shè)計(jì)理念，打通整個(gè)設(shè)計(jì)流程，借助人工智能、圖像識(shí)別、知識(shí)圖譜等前沿技術(shù)，助力企業(yè)和設(shè)計(jì)師提高效率和品質(zhì)，縮減開發(fā)周期和成本，始終在競(jìng)爭(zhēng)中獲得領(lǐng)先優(yōu)勢(shì)。

2023-06-19 10:45:45

631

Cadence 知識(shí)挑戰(zhàn)賽開啟！答題贏好禮，好物兌不停！

6 月起，氣溫漸漸升高明媚的夏天就這樣如約而至在悄然步入盛夏之際，一場(chǎng)知識(shí)挑戰(zhàn)賽也火熱開啟…… ? 本次知識(shí)挑戰(zhàn)賽以 Cadence 的六大產(chǎn)品線為脈絡(luò) 圍繞著旗下多款產(chǎn)品展開

2023-06-14 12:15:02

268

聲智私有化部署解決方案加速模型落地

基于在人機(jī)交互領(lǐng)域特別是聊天機(jī)器人的長(zhǎng)期積累，聲智將融合自然語(yǔ)言處理和知識(shí)圖譜的多技能對(duì)話模型全面升級(jí)為AzeroGPT壹元模型，面向行業(yè)用戶提供安全的私有化部署、可信的行業(yè)化訓(xùn)練、專業(yè)的生成式推理

2023-06-12 10:24:10

341

基于知識(shí)圖譜的仿真想定智能生成方法

隨著戰(zhàn)爭(zhēng)復(fù)雜性的不斷加劇，模擬仿真系統(tǒng)已被廣泛應(yīng)用于作戰(zhàn)理論創(chuàng)新、作戰(zhàn)方案設(shè)計(jì)優(yōu)化、作戰(zhàn)能力評(píng)估，以及各類演習(xí)演訓(xùn)和裝備采辦活動(dòng)中[1-2]。作為初始化并驅(qū)動(dòng)模擬仿真系統(tǒng)運(yùn)行的基礎(chǔ)支撐，仿真想定的質(zhì)量直接影響系統(tǒng)運(yùn)行效率和仿真結(jié)果的真實(shí)可信[3]。

2023-06-09 16:39:13

159

MPC5777C抽取濾波器時(shí)間戳的疑問求解

我需要有關(guān)抽取濾波器模塊目前面臨的問題之一的指導(dǎo)。我們需要為基于觸發(fā)的 ADC 通道配置 DF 設(shè)備，這些通道配置有時(shí)間戳功能。 1. eQADC 配置時(shí)間戳功能。ADC0/1_TBSEL[0:1

2023-06-08 08:09:51

巨微文化攜手IBM依托AI共塑知識(shí)圖譜新篇章

知識(shí)圖譜是具有 AI 能力加持的智能“知識(shí)庫(kù)”，借助于基于 AI 的自然語(yǔ)言處理 (NLP) 能力，打造智能搜索、智能問答、個(gè)性化推薦、輔助決策和異常監(jiān)測(cè)等能力。對(duì)于教輔此類知識(shí)密集型行業(yè)，科目復(fù)雜度高，需要多個(gè)專家協(xié)同工作

2023-06-05 16:17:56

540

探索ChatGPT的信息抽取能力

通過人工檢查ChatGPT的回復(fù)，發(fā)現(xiàn)ChatGPT傾向于識(shí)別比標(biāo)注的跨度更長(zhǎng)的sapn，以更接近人類的偏好。因此，之前的硬匹配(hard-matching)策略可能不適合如ChatGPT的LLM，所以本文提出了一種軟匹配(soft-matching)策略，算法流程如下。

2023-06-01 14:45:24

844

如何在噪聲消除應(yīng)用程序中使用連接到PDM輸入的麥克風(fēng)？

我們想在噪聲消除應(yīng)用程序中使用連接到 PDM 輸入的麥克風(fēng)。為了能夠進(jìn)行正確的噪聲計(jì)算，我們需要知道抽取濾波器的相位特性。我們?cè)谀睦锟梢哉业竭@些信息？

2023-05-31 08:38:42

如何在噪聲消除應(yīng)用程序中使用連接到PDM輸入的麥克風(fēng)？

2023-05-30 06:05:52

在級(jí)聯(lián)模式下配置抽取濾波器，無(wú)法在TAP寄存器中看到任何值是怎么回事？

我正在嘗試在級(jí)聯(lián)模式下配置抽取濾波器，Block A 和 B 的基本配置已完成。ADC 觸發(fā)基地。我已將 ACR1 配置為將 ADC 結(jié)果發(fā)送到濾波器塊而不是 RFIFO，轉(zhuǎn)換命令根據(jù) ACR1 使用備用配置命令進(jìn)行更新。我仍然無(wú)法在 TAP 寄存器中看到任何值。

2023-05-25 07:38:45

科技云報(bào)道：ChatGPT的勝利，宣告知識(shí)圖譜的消亡？

為時(shí)尚早

2023-05-24 14:30:36

301

建筑電氣和機(jī)電控制電氣識(shí)圖技巧

路徑。雖形式、作用相似，但圖紙中的符號(hào)器件均隱藏一定的含義、功能信息。所以掌握電氣圖紙需具備一定專業(yè)知識(shí)，下邊內(nèi)容將主要從建筑電氣、機(jī)電控制電氣兩個(gè)維度進(jìn)行識(shí)圖技巧、電氣符號(hào)含義的解析。

2023-05-17 09:14:04

1155

【免費(fèi)送書】電子工程師必備叢書 | 九大系統(tǒng)電路識(shí)圖寶典

好評(píng)如潮！暢銷多年! 全套銷量近12萬(wàn)冊(cè)! 本書從較高的知識(shí)點(diǎn)起步，系統(tǒng)地介紹了九大類數(shù)十種功能電路和上百種單元電路的工作原理。書中對(duì)每一類型的電路均詳細(xì)講解其典型應(yīng)用電路、電路分析的思路和方法

2023-05-16 09:35:02

2186

已結(jié)束-【書籍評(píng)測(cè)活動(dòng)NO.13】電子工程師必備叢書系列——九大系統(tǒng)電路識(shí)圖寶典

銷量近12萬(wàn)冊(cè)! 本書從較高的知識(shí)點(diǎn)起步，系統(tǒng)地介紹了九大類數(shù)十種功能電路和上百種單元電路的工作原理。書中對(duì)每一類型的電路均詳細(xì)講解其典型應(yīng)用電路、電路分析的思路和方法等。對(duì)于同一種電路功能，均給出

2023-05-15 16:23:34

新型數(shù)據(jù)知識(shí)驅(qū)動(dòng)的元宇宙建?？蚣芊桨?/a>

本文采用深度學(xué)習(xí)為主要研究手段，運(yùn)用知識(shí)圖譜、生成式對(duì)抗網(wǎng)絡(luò)、“元宇宙”等相關(guān)理論和方法，結(jié)合提出的數(shù)據(jù)知識(shí)驅(qū)動(dòng)的新型框架，針對(duì)以實(shí)現(xiàn)傳統(tǒng)作戰(zhàn)環(huán)境建模的表現(xiàn)力差、擴(kuò)展性弱的現(xiàn)狀進(jìn)行一種改進(jìn)。

2023-05-11 15:23:24

511

上海和晟五水硫酸銅熱失重試驗(yàn)圖譜

五水硫酸銅是一種無(wú)機(jī)化合物，化學(xué)式為CuSO4·5H2O，俗稱藍(lán)礬、膽礬或銅礬。使用STA分析軟件對(duì)測(cè)得數(shù)據(jù)進(jìn)行分析，研究CuSO45H20的脫水過程。上海和晟五水硫酸銅熱失重試驗(yàn)圖譜上海和晟HS-TGA-101熱重分析儀

2023-05-08 11:38:49

439

首個(gè)中文醫(yī)學(xué)知識(shí)LLM：真正的賽華佗—華駝(HuaTuo)

通過醫(yī)學(xué)知識(shí)圖譜和 GPT 3.5 API 構(gòu)建了中文醫(yī)學(xué)指令數(shù)據(jù)集，并在此基礎(chǔ)上對(duì) LLaMA 進(jìn)行了指令微調(diào)，提高了 LLaMA 在醫(yī)療領(lǐng)域的問答效果。

2023-05-08 11:30:21

1186

解析SDF的Header Section信息與Cell Entries信息

SDF文件是在VCS/NC-Verilog后仿真運(yùn)行時(shí)將STD/IO/Macro門級(jí)verilog中specify的延遲信息替換為QRC/Star-RC抽取的實(shí)際物理延時(shí)信息。

2023-05-06 09:54:00

1603

局部放電特征圖譜繪制

現(xiàn)在有小波去噪夠的局部放電數(shù)據(jù)，怎么繪制q-n圖譜或者是三維的圖譜，prpd圖。

2023-04-26 17:54:28

Instruct-UIE：信息抽取統(tǒng)一大模型

Instruct-UIE 統(tǒng)一了信息抽取任務(wù)訓(xùn)練方法，可以融合不同類型任務(wù)以及不同的標(biāo)注規(guī)范，統(tǒng)一進(jìn)行訓(xùn)練。針對(duì)新的任務(wù)需求，僅需要少量的數(shù)據(jù)進(jìn)行增量式學(xué)習(xí)，即可完成模型的升級(jí)。

2023-04-25 10:46:38

994

TSC峰會(huì)回顧05 | 基于“內(nèi)生需求”的信息安全專業(yè)實(shí)踐教學(xué)

實(shí)踐教學(xué)；利用開源推動(dòng)學(xué)生創(chuàng)新創(chuàng)業(yè)；瞄準(zhǔn)國(guó)內(nèi)自主知識(shí)產(chǎn)權(quán)的核心系統(tǒng)研究；開展多學(xué)科融合的開源生態(tài)建設(shè)。其中，武漢大學(xué)對(duì)OpenHarmony技術(shù)俱樂部建設(shè)給予高度重視，成立了校團(tuán)委領(lǐng)導(dǎo)下的面向全校師生

2023-04-19 15:05:11

【月度盤點(diǎn)】拓維信息3月精彩回顧

“集團(tuán)動(dòng)態(tài)3月30日-31日，第二十五屆中國(guó)高速公路信息化大會(huì)暨技術(shù)產(chǎn)品博覽會(huì)在福建福州盛大召開。拓維信息攜手旗下開鴻智谷集中展出面向隧道、收費(fèi)站等公路場(chǎng)景的軟硬件創(chuàng)新成果，雙方聯(lián)合打造的在鴻控制器

2023-04-11 15:18:05

365

基于預(yù)訓(xùn)練語(yǔ)言模型設(shè)計(jì)了一套統(tǒng)一的模型架構(gòu)

進(jìn)一步，本文研究了在更依賴 KG 的知識(shí)庫(kù)問答任務(wù)中如何利用 PLM。已有研究通常割裂地建模檢索-推理兩階段，先從大規(guī)模知識(shí)圖譜上檢索問題相關(guān)的小子圖，然后在子圖上推理答案節(jié)點(diǎn)，這種方法忽略了兩階段間的聯(lián)系。

2023-04-07 10:38:55

419

成長(zhǎng)計(jì)劃知識(shí)賦能 | 第九期：漸進(jìn)式深入理解OpenHarmony系統(tǒng)

成長(zhǎng)計(jì)劃知識(shí)賦能直播第九期如約而至，面向OpenHarmony初中級(jí)開發(fā)者，解析OpenHarmony系統(tǒng)架構(gòu)和驅(qū)動(dòng)框架，助力開發(fā)者快速上手OpenHarmony系統(tǒng)開發(fā)。詳情見海報(bào)內(nèi)容，資深軟件開發(fā)工程師梁開祝老師帶你一起學(xué)習(xí)進(jìn)步。

2023-03-27 10:45:50

ENISA網(wǎng)絡(luò)威脅圖譜2022

八大網(wǎng)絡(luò)威脅：勒索軟件；惡意軟件；社會(huì)工程；針對(duì)數(shù)據(jù)的威脅；針對(duì)可用性的威脅（DoS拒絕服務(wù)攻擊）；針對(duì)互聯(lián)網(wǎng)可用性的威脅；虛假信息和錯(cuò)誤信息；供應(yīng)鏈攻擊。

2023-03-25 10:17:03

1019

已全部加載完成

搜索歷史

面向知識(shí)圖譜的信息抽取

評(píng)論