0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

自然語言基礎(chǔ)技術(shù)之命名實體識別相對全面的介紹

8g3K_AI_Thinker ? 來源:lp ? 2019-04-17 10:12 ? 次閱讀

本文對自然語言基礎(chǔ)技術(shù)之命名實體識別進行了相對全面的介紹,包括定義、發(fā)展歷史、常見方法、以及相關(guān)數(shù)據(jù)集,最后推薦一大波 Python 實戰(zhàn)利器,并且包括工具的用法。

01

定義

先來看看維基百科上的定義:Named-entity recognition (NER) (also known as entity identification, entity chunking and entity extraction) is a subtask of information extraction that seeks to locate and classify named entity mentions in unstructured text into pre-defined categories such as the person names, organizations, locations, medical codes, time expressions, quantities, monetary values, percentages, etc.

命名實體識別(Named Entity Recognition,簡稱NER),又稱作“專名識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機構(gòu)名、專有名詞等。簡單的講,就是識別自然文本中的實體指稱的邊界和類別。

02

發(fā)展歷史

命名實體識別這個術(shù)語首次出現(xiàn)在 MUC-6(Message Understanding Conferences),這個會議關(guān)注的主要問題是信息抽?。↖nformation Extraction),第六屆 MUC 除了信息抽取評測任務(wù)還開設(shè)了新評測任務(wù)即命名實體識別任務(wù)。

除此之外,其他相關(guān)的評測會議包括CoNLL(Conference on Computational Natural Language Learning)、ACE(Automatic Content Extraction)和IEER(Information Extraction-Entity Recognition Evaluation)等。

在MUC-6之前,大家主要是關(guān)注人名、地名和組織機構(gòu)名這三類專業(yè)名詞的識別。自MUC-6起,后面有很多研究對類別進行了更細致的劃分,比如地名被進一步細化為城市、州和國家,也有人將人名進一步細分為政治家、藝人等小類。

此外,一些評測還擴大了專業(yè)名詞的范圍,比如CoNLL某年組織的評測中包含了產(chǎn)品名的識別。一些研究也涉及電影名、書名、項目名、研究領(lǐng)域名稱、電子郵件地址、電話號碼以及生物信息學(xué)領(lǐng)域的專有名詞(如蛋白質(zhì)、DNA、RNA等)。甚至有一些工作不限定“實體”的類型,而是將其當(dāng)做開放域的命名實體識別和分類。

03

常見方法

早期的命名實體識別方法基本都是基于規(guī)則的。之后由于基于大規(guī)模的語料庫的統(tǒng)計方法在自然語言處理各個方面取得不錯的效果之后,一大批機器學(xué)習(xí)的方法也出現(xiàn)在命名實體類識別任務(wù)。宗成慶老師在統(tǒng)計自然語言處理一書粗略的將這些基于機器學(xué)習(xí)的命名實體識別方法劃分為以下幾類:

有監(jiān)督的學(xué)習(xí)方法:這一類方法需要利用大規(guī)模的已標(biāo)注語料對模型進行參數(shù)訓(xùn)練。目前常用的模型或方法包括隱馬爾可夫模型、語言模型、最大熵模型、支持向量機、決策樹和條件隨機場等。值得一提的是,基于條件隨機場的方法是命名實體識別中最成功的方法。

半監(jiān)督的學(xué)習(xí)方法:這一類方法利用標(biāo)注的小數(shù)據(jù)集(種子數(shù)據(jù))自舉學(xué)習(xí)。

無監(jiān)督的學(xué)習(xí)方法:這一類方法利用詞匯資源(如 WordNet)等進行上下文聚類。

混合方法:幾種模型相結(jié)合或利用統(tǒng)計方法和人工總結(jié)的知識庫。

值得一提的是,由于深度學(xué)習(xí)在自然語言的廣泛應(yīng)用,基于深度學(xué)習(xí)的命名實體識別方法也展現(xiàn)出不錯的效果,此類方法基本還是把命名實體識別當(dāng)做序列標(biāo)注任務(wù)來做,比較經(jīng)典的方法是 LSTM+CRF、BiLSTM+CRF。

04

相關(guān)數(shù)據(jù)集

1. CCKS2017 開放的中文的電子病例測評相關(guān)的數(shù)據(jù)。

評測任務(wù)一:

https://biendata.com/competition/CCKS2017_1/

評測任務(wù)二:

https://biendata.com/competition/CCKS2017_2/

2. CCKS2018 開放的音樂領(lǐng)域的實體識別任務(wù)。

評測任務(wù):

https://biendata.com/competition/CCKS2018_2/

3. (CoNLL 2002)Annotated Corpus for Named Entity Recognition。

地址:

https://www.kaggle.com/abhinavwalia95/entity-annotated-corpus

4. NLPCC2018 開放的任務(wù)型對話系統(tǒng)中的口語理解評測。

地址:

http://tcci.ccf.org.cn/conference/2018/taskdata.php

5. 一家公司提供的數(shù)據(jù)集,包含人名、地名、機構(gòu)名、專有名詞。

下載地址:

https://bosonnlp.com/dev/resource

05

工具推薦

1. Stanford NER

斯坦福大學(xué)開發(fā)的基于條件隨機場的命名實體識別系統(tǒng),該系統(tǒng)參數(shù)是基于 CoNLL、MUC-6、MUC-7 和 ACE 命名實體語料訓(xùn)練出來的。

地址:

https://nlp.stanford.edu/software/CRF-NER.shtml

Python 實現(xiàn)的 Github 地址:

https://github.com/Lynten/stanford-corenlp

2 .MALLET

麻省大學(xué)開發(fā)的一個統(tǒng)計自然語言處理的開源包,其序列標(biāo)注工具的應(yīng)用中能夠?qū)崿F(xiàn)命名實體識別。

官方地址:

http://mallet.cs.umass.edu/

3. Hanlp

HanLP 是一系列模型與算法組成的 NLP 工具包,由大快搜索主導(dǎo)并完全開源,目標(biāo)是普及自然語言處理在生產(chǎn)環(huán)境中的應(yīng)用。支持命名實體識別。

Github 地址:

https://github.com/hankcs/pyhanlp

官網(wǎng):

http://hanlp.linrunsoft.com/

4. NLTK

NLTK 是一個高效的 Python 構(gòu)建的平臺,用來處理人類自然語言數(shù)據(jù)。

Github 地址:

https://github.com/nltk/nltk

官網(wǎng):

http://www.nltk.org/

5. SpaCy

工業(yè)級的自然語言處理工具,遺憾的是不支持中文。

Gihub 地址:

https://github.com/explosion/spaCy

官網(wǎng):https://spacy.io/

6. Crfsuite

可以載入自己的數(shù)據(jù)集去訓(xùn)練 CRF 實體識別模型。

文檔地址:

https://sklearn-crfsuite.readthedocs.io/en/latest/?badge=latest

代碼已上傳:

https://github.com/yuquanle/StudyForNLP/blob/master/NLPbasic/NER.ipynb

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8353

    瀏覽量

    132315
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1200

    瀏覽量

    24621
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    600

    瀏覽量

    13484

原文標(biāo)題:一文讀懂命名實體識別

文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    python自然語言

    最近,python自然語言是越來越火了,那么什么是自然語言。自然語言(Natural Language )廣納了眾多技術(shù),對自然或人類
    發(fā)表于 05-02 13:50

    自然語言處理技術(shù)介紹

    ,包括:分詞、詞性標(biāo)注、句法分析、命名實體識別,以及信息抽取領(lǐng)域的實體關(guān)系抽取等。2.1.分詞分詞是自然語言處理技術(shù)的基礎(chǔ)構(gòu)成之一,并且是其
    發(fā)表于 09-27 09:57

    hanlp漢語自然語言處理入門基礎(chǔ)知識介紹

    人工智能。自然語言處理涉及的幾個層次:作為輸入一共有兩個來源,語音與文本。所以第一級是語音識別和OCR或分詞(事實上,跳過分詞雖然理所當(dāng)然地不能做句法分析,但字符級也可以直接做不少應(yīng)用)。接下來是形態(tài)學(xué)
    發(fā)表于 01-02 14:43

    HanLP分詞命名實體提取詳解

    名、地名等都稱之為實體。在工程領(lǐng)域,招投標(biāo)文件里的這些實體信息至關(guān)重要。利用自然語言處理技術(shù)從形式各異的文件中提取出這些實體,能有效提高工作
    發(fā)表于 01-11 14:32

    HanLP-命名實體識別總結(jié)

    的中國人名自動識別研究》,大家可以百度一下看看 地名識別 理論指導(dǎo)文章為:《基于層疊隱馬爾可夫模型的中文命名實體識別》 機構(gòu)名識別 機構(gòu)名的
    發(fā)表于 07-31 13:11

    【推薦體驗】騰訊云自然語言處理

    `相信大家對NLP自然語言處理的技術(shù)都不陌生,它是計算機科學(xué)領(lǐng)域和AI領(lǐng)域中的一個分支,它與計算機和人類之間使用自然語言進行交互密切相關(guān),而NLP的最終目標(biāo)是使計算機能夠像人類一樣理解語言
    發(fā)表于 10-09 15:28

    什么是自然語言處理

    什么是自然語言處理?自然語言處理任務(wù)有哪些?自然語言處理的方法是什么?
    發(fā)表于 09-08 06:51

    基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在命名實體識別中應(yīng)用的分析與總結(jié)

    近年來,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法在自然語言處理領(lǐng)域已經(jīng)取得了不少進展。作為NLP領(lǐng)域的基礎(chǔ)任務(wù)—命名實體識別(Named Entity Recognition,NER)也不例外,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在
    的頭像 發(fā)表于 01-18 09:24 ?4611次閱讀
    基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在<b class='flag-5'>命名實體</b><b class='flag-5'>識別</b>中應(yīng)用的分析與總結(jié)

    思必馳中文命名實體識別任務(wù)助力AI落地應(yīng)用

    數(shù)據(jù)集基于清華大學(xué)開源的文本分類數(shù)據(jù)集THUCTC[2],選出部分進行細粒度命名實體標(biāo)注。原數(shù)據(jù)來源于Sina News RSS[3]。這項測評是中文自然語言處理領(lǐng)域的大規(guī)模賽事,有眾多知名企業(yè)同臺競技
    的頭像 發(fā)表于 02-22 18:27 ?1849次閱讀

    命名實體識別的遷移學(xué)習(xí)相關(guān)研究分析

    命名實體識別(NER)是自然語言處理的核心應(yīng)用任務(wù)之一。傳統(tǒng)和深度命名實體識別方法嚴重依賴于大量具有相同分布的標(biāo)注訓(xùn)練數(shù)據(jù),模型可移植性差。
    發(fā)表于 04-02 15:15 ?8次下載
    <b class='flag-5'>命名實體</b><b class='flag-5'>識別</b>的遷移學(xué)習(xí)相關(guān)研究分析

    基于字語言模型的中文命名實體識別系統(tǒng)

    造成的數(shù)據(jù)稀缺問題,以及傳統(tǒng)字向量不能解決的一字多義問題,文中使用在大規(guī)模無監(jiān)督數(shù)據(jù)上預(yù)訓(xùn)練的基于上下文相關(guān)的字向量,即利用語言模型生成上下文相關(guān)字向量以改進中文NER模型的性能。同時,為解決命名實體識別中的未登
    發(fā)表于 04-08 14:36 ?14次下載
    基于字<b class='flag-5'>語言</b>模型的中文<b class='flag-5'>命名實體</b><b class='flag-5'>識別</b>系統(tǒng)

    關(guān)于邊界檢測增強的中文命名實體識別

    引言 命名實體識別(Named Entity Recognition,NER)是自然語言處理領(lǐng)域的一個基礎(chǔ)任務(wù),是信息抽取等許多任務(wù)的子任務(wù),旨在識別非結(jié)構(gòu)化文本中屬于預(yù)先定義的類別的
    的頭像 發(fā)表于 09-22 16:05 ?3051次閱讀

    自然語言列舉法描述法各自的特點

    自然語言文本。在自然語言處理中,列舉法和描述法是兩種常見的方法。 列舉法 列舉法是一種基于規(guī)則的方法,它通過列舉所有可能的情況來解決問題。在自然語言處理中,列舉法通常用于詞性標(biāo)注、命名實體
    的頭像 發(fā)表于 07-03 14:13 ?925次閱讀

    nlp自然語言處理的主要任務(wù)及技術(shù)方法

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學(xué)領(lǐng)域的一個分支,它研究如何讓計算機能夠理解、生成和處理人類語言。NLP技術(shù)在許多領(lǐng)域
    的頭像 發(fā)表于 07-09 10:26 ?775次閱讀

    圖像識別技術(shù)包括自然語言處理嗎

    圖像識別技術(shù)自然語言處理是人工智能領(lǐng)域的兩個重要分支,它們在很多方面有著密切的聯(lián)系,但也存在一些區(qū)別。 一、圖像識別技術(shù)
    的頭像 發(fā)表于 07-16 10:54 ?582次閱讀