日本黄在免,5060网午夜一级毛片免费看,一区二区三区免费在线观看

什么是命名實(shí)體識(shí)別（NER）?

命名實(shí)體識(shí)別(NER)是自然語言處理(NLP)中的基本任務(wù)之一。NLP的一般流程如下：

句法分析是NLP任務(wù)的核心，NER是句法分析的基礎(chǔ)。NER任務(wù)用于識(shí)別文本中的人名（PER）、地名（LOC）等具有特定意義的實(shí)體。非實(shí)體用O來表示。我們以人名來舉例：

王 B-PER

文 I-PER

和 O

小 B-PER

麗 I-PER

結(jié) O

婚 O

了。 O

（IOB是塊標(biāo)記的一種表示。B-表示開始，I-表示內(nèi)部，O-表示外部）

首先明確的是NER是個(gè)分類任務(wù),具體稱為序列標(biāo)注任務(wù)，即文本中不同的實(shí)體對(duì)應(yīng)不同的標(biāo)簽，人名-PER，地名-LOC，等等，相似的序列標(biāo)注任務(wù)還有詞性標(biāo)注、語義角色標(biāo)注。傳統(tǒng)的解決此類問題的方法，包括：(1)基于規(guī)則的方法。根據(jù)語言學(xué)上預(yù)定義的規(guī)則。但是由于語言結(jié)構(gòu)本身的不確定性，規(guī)則的制定上難度較大。(2)基于統(tǒng)計(jì)學(xué)的方法。利用統(tǒng)計(jì)學(xué)找出文本中存在的規(guī)律。主要有隱馬爾可夫(HMM)、條件隨機(jī)場(chǎng)(CRF)模型和Viterbi算法。文末會(huì)簡要介紹比較流行的CRF模型。(3)神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)(多層神經(jīng)網(wǎng)絡(luò))這么流行，當(dāng)然不會(huì)放過nlp，之前我的一篇帖子(《深度學(xué)習(xí)在機(jī)器翻譯中的應(yīng)用》)里提到過循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及其變種LSTM。因?yàn)槲谋镜纳舷挛囊蕾囆裕琇STM這種能夠存儲(chǔ)上下文信息的序列模型是較好的選擇(本文側(cè)重于CRF，LSTM的基本知識(shí)可參考《深度學(xué)習(xí)在機(jī)器翻譯中的應(yīng)用》)。

LSTM+CRF模型

語言文本的特殊之處在于其具有一定的結(jié)構(gòu)，主謂賓定狀補(bǔ)，狀語后置，非限制性定語從句等等。這些結(jié)構(gòu)的存在代表著每個(gè)單詞的前后是有著一定的詞性限制的。比如：

我現(xiàn)在回家 //這是常見的（主+狀+謂+賓）結(jié)構(gòu)的句子

我今天家 //這樣的文本就不能稱為一個(gè)句子，少了必要的語法結(jié)構(gòu)

LSTM網(wǎng)絡(luò)是整體思路同樣是先對(duì)給定的訓(xùn)練樣本進(jìn)行學(xué)習(xí)，確定模型中的參數(shù)，再利用該模型對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè)得到最后的輸出。由于測(cè)試輸出的準(zhǔn)確性現(xiàn)階段達(dá)不到100%，這就意味著，肯定存在一部分錯(cuò)誤的輸出，這些輸出里很可能就包含類似于上述第二句話這種不符合語法規(guī)則的文本。因此，這就是為什么要將CRF模型引入進(jìn)來的原因。條件隨機(jī)場(chǎng)（CRF）是一種統(tǒng)計(jì)方法。其用于文本序列標(biāo)注的優(yōu)點(diǎn)就是上文所說的對(duì)于輸出變量可以進(jìn)行約束，使其符合一定的語法規(guī)則。常見的神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練樣本的學(xué)習(xí)，只考慮訓(xùn)練樣本的輸入，并不考慮訓(xùn)練樣本的輸出之間的關(guān)系。

LSTM+CRF 網(wǎng)絡(luò)

LSTM 網(wǎng)絡(luò)可以看作是一個(gè)多分類問題，給定B、I、O等標(biāo)簽作為訓(xùn)練輸出，”john goes to school”等句子作為輸入，根據(jù)網(wǎng)絡(luò)模型計(jì)算的概率大小確定句子中的每個(gè)單詞屬于哪個(gè)標(biāo)簽(類別)，概率最大的即為該單詞最后所屬的標(biāo)簽(類別)，標(biāo)簽與標(biāo)簽之間是獨(dú)立的。LSTM+CRF則是在分類問題的基礎(chǔ)上，加上輸出之間的約束關(guān)系。比如”B”標(biāo)簽之后還是”B”，這種不符合語法規(guī)則的情況，通過CRF機(jī)制是可以排除的。目前，tensorflow 已支持LSTM+CRF的配置。(LSTM+CRF是深度學(xué)習(xí)中比較經(jīng)典的模型，當(dāng)前還有LSTM+cnn+CRF等其他的經(jīng)過優(yōu)化的模型)。

附：條件隨機(jī)場(chǎng)(CRF)原理

要完全搞懂CRF的原理，可以參考李航的《統(tǒng)計(jì)學(xué)習(xí)方法》的第11章。這里作簡要說明。CRF的基礎(chǔ)是馬爾可夫隨機(jī)場(chǎng)，或者稱為概率無向圖。

延伸

概率無向圖：用無向圖表示隨機(jī)變量的概率分布。

上圖就是滿足局部馬爾可夫性的概率無向圖。每個(gè)結(jié)點(diǎn)都代表著一個(gè)隨機(jī)變量，邊代表著隨機(jī)變量之間的關(guān)系。

局部馬爾可夫性：P(Yu|Yv)=P(Yu|Yv,Yw)簡單理解，因?yàn)閅u和Yw之間沒有邊連接，則在給定隨機(jī)變量Yv條件下的Yu的概率，跟多加了一個(gè)Yw無關(guān)。

CRF的理解

CRF可以理解為在給定隨機(jī)變量X的條件下，隨機(jī)變量Y的馬爾可夫隨機(jī)場(chǎng)。其中，線性鏈CRF（一種特殊的CRF）可以用于序列標(biāo)注問題。CRF模型在訓(xùn)練時(shí)，給定訓(xùn)練序列樣本集(X,Y)，通過極大似然估計(jì)、梯度下降等方法確定CRF模型的參數(shù)；預(yù)測(cè)時(shí)，給定輸入序列X，根據(jù)模型，求出P(Y|X)最大的序列y（這里注意，LSTM輸出的是一個(gè)個(gè)獨(dú)立的類別，CRF輸出的是最優(yōu)的類別序列，也就是CRF全局的優(yōu)化要更好一些）。

線性鏈條件隨機(jī)場(chǎng)(可以比較一下與上面LSTM+CRF網(wǎng)絡(luò)圖的區(qū)別與聯(lián)系)

為何CRF可以表示輸出序列內(nèi)各元素(Y1,Y2,…,Yi,Yi+1)之間的聯(lián)系？這里就是要聯(lián)系到馬爾可夫性。這也就是為什么CRF的基礎(chǔ)是馬爾可夫隨機(jī)場(chǎng)。CRF如何求解P(Y|X)，有具體的數(shù)學(xué)公式，這里就不詳細(xì)列出了。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5466

瀏覽量
120891
自然語言

自然語言

+關(guān)注

關(guān)注
1

文章
285

瀏覽量
13320
nlp

nlp

+關(guān)注

關(guān)注
1

文章
486

瀏覽量
21987

原文標(biāo)題：干貨 | 深度學(xué)習(xí)在NLP的命名實(shí)體識(shí)別中(NER)的應(yīng)用

文章出處：【微信號(hào)：ZTEdeveloper，微信公眾號(hào)：中興開發(fā)者社區(qū)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

自然語言基礎(chǔ)技術(shù)之命名實(shí)體識(shí)別相對(duì)全面的介紹

早期的命名實(shí)體識(shí)別方法基本都是基于規(guī)則的。之后由于基于大規(guī)模的語料庫的統(tǒng)計(jì)方法在自然語言處理各個(gè)方面取得不錯(cuò)的效果之后，一大批機(jī)器學(xué)習(xí)的方法

發(fā)表于 04-17 10:12 ?4906次閱讀

<b class='flag-5'>自然語言</b>基礎(chǔ)技術(shù)之<b class='flag-5'>命名實(shí)體</b><b class='flag-5'>識(shí)別</b>相對(duì)全面的介紹

自然語言處理技術(shù)介紹

，包括：分詞、詞性標(biāo)注、句法分析、命名實(shí)體識(shí)別，以及信息抽取領(lǐng)域的實(shí)體關(guān)系抽取等。2.1.分詞分詞是自然語言處理技術(shù)的基礎(chǔ)構(gòu)成

發(fā)表于 09-27 09:57

基于結(jié)構(gòu)化感知機(jī)的詞性標(biāo)注與命名實(shí)體識(shí)別框架

`上周就關(guān)于《結(jié)構(gòu)化感知機(jī)標(biāo)注框架的內(nèi)容》已經(jīng)分享了一篇《分詞工具Hanlp基于感知機(jī)的中文分詞框架》，本篇接上一篇內(nèi)容，繼續(xù)分享詞性標(biāo)注與命名實(shí)體識(shí)別框架的內(nèi)容。詞性標(biāo)注訓(xùn)練詞性標(biāo)注

發(fā)表于 04-08 14:57

HanLP-命名實(shí)體識(shí)別總結(jié)

的中國人名自動(dòng)識(shí)別研究》，大家可以百度一下看看地名識(shí)別 理論指導(dǎo)文章為：《基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別》機(jī)構(gòu)名

發(fā)表于 07-31 13:11

【推薦體驗(yàn)】騰訊云自然語言處理

結(jié)構(gòu)化抽取，有效輔助人工，降低人力參與成本。因?yàn)楝F(xiàn)在騰訊云自然語言處理產(chǎn)品公測(cè)免費(fèi)，所以我注冊(cè)了騰訊云賬號(hào)去專門體驗(yàn)了一下，最直觀的感受就是確實(shí)如產(chǎn)品介紹中說的：開箱即用的

發(fā)表于 10-09 15:28

基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在命名實(shí)體識(shí)別中應(yīng)用的分析與總結(jié)

近年來，基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法在自然語言處理領(lǐng)域已經(jīng)取得了不少進(jìn)展。作為NLP領(lǐng)域的基礎(chǔ)任務(wù)—命名實(shí)體

發(fā)表于 01-18 09:24 ?4611次閱讀

基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在<b class='flag-5'>命名實(shí)體</b><b class='flag-5'>識(shí)別</b><b class='flag-5'>中</b>應(yīng)用的分析與總結(jié)

自然語言處理（NLP）的學(xué)習(xí)方向

自然語言處理（Natural Language Processing，NLP）是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究人與計(jì)算機(jī)之間用

發(fā)表于 07-06 16:30 ?1.3w次閱讀

思必馳中文命名實(shí)體識(shí)別任務(wù)助力AI落地應(yīng)用

，已成為一項(xiàng)重要研究課題。命名實(shí)體識(shí)別（Named Entity Recognition，NER）任務(wù)的目標(biāo)是

發(fā)表于 02-22 18:27 ?1849次閱讀

命名實(shí)體識(shí)別的遷移學(xué)習(xí)相關(guān)研究分析

命名實(shí)體識(shí)別（NER）是自然語言處理的核心應(yīng)用任務(wù)之一

發(fā)表于 04-02 15:15 ?8次下載

基于字語言模型的中文命名實(shí)體識(shí)別系統(tǒng)

造成的數(shù)據(jù)稀缺問題，以及傳統(tǒng)字向量不能解決的一字多義問題，文中使用在大規(guī)模無監(jiān)督數(shù)據(jù)上預(yù)訓(xùn)練的基于上下文相關(guān)的字向量，即利用語言模型生成上下文相關(guān)字向量以改進(jìn)中文NER模型的性能。同時(shí)，為解決

發(fā)表于 04-08 14:36 ?14次下載

入門自然語言處理的基本任務(wù)——文本匹配

半個(gè)月的努力，最終結(jié)果勉強(qiáng)不錯(cuò)（第6），收割了一臺(tái)Kindle。 2021年1月，疫情形勢(shì)依然嚴(yán)峻，幸運(yùn)的是國家不僅及時(shí)穩(wěn)住了疫情，還研發(fā)出了有效的疫苗。借助疫情主題的比賽，我希望幫助更多讀者，入門自然語言處理的

發(fā)表于 05-31 11:51 ?3074次閱讀

關(guān)于邊界檢測(cè)增強(qiáng)的中文命名實(shí)體識(shí)別

引言 命名實(shí)體識(shí)別（Named Entity Recognition，NER）是自然語言處理領(lǐng)域的一

發(fā)表于 09-22 16:05 ?3051次閱讀

研究人員為多模態(tài)NER任務(wù)提出新穎的關(guān)系增強(qiáng)圖卷積網(wǎng)絡(luò)

命名實(shí)體識(shí)別（NER）是信息抽取的一項(xiàng)基本任務(wù)，它的目的是識(shí)別文本片段

發(fā)表于 09-28 11:41 ?1646次閱讀

什么是自然語言處理 (NLP)

自然語言處理（Natural Language Processing, NLP）是人工智能領(lǐng)域中的一個(gè)重要分支，它專注于構(gòu)建能夠理解和生成人類語言

發(fā)表于 07-02 18:16 ?872次閱讀

nlp自然語言處理的主要任務(wù)及技術(shù)方法

自然語言處理（Natural Language Processing，簡稱NLP）是人工智能和語言學(xué)領(lǐng)域的一個(gè)分支，它研究如何讓計(jì)算機(jī)能夠理

發(fā)表于 07-09 10:26 ?775次閱讀

搜索歷史

命名實(shí)體識(shí)別(NER)是自然語言處理(NLP)中的基本任務(wù)之一

評(píng)論

自然語言基礎(chǔ)技術(shù)之命名實(shí)體識(shí)別相對(duì)全面的介紹

自然語言處理技術(shù)介紹

基于結(jié)構(gòu)化感知機(jī)的詞性標(biāo)注與命名實(shí)體識(shí)別框架

HanLP-命名實(shí)體識(shí)別總結(jié)

【推薦體驗(yàn)】騰訊云自然語言處理

基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在命名實(shí)體識(shí)別中應(yīng)用的分析與總結(jié)

自然語言處理（NLP）的學(xué)習(xí)方向

思必馳中文命名實(shí)體識(shí)別任務(wù)助力AI落地應(yīng)用

命名實(shí)體識(shí)別的遷移學(xué)習(xí)相關(guān)研究分析

基于字語言模型的中文命名實(shí)體識(shí)別系統(tǒng)

入門自然語言處理的基本任務(wù)——文本匹配

關(guān)于邊界檢測(cè)增強(qiáng)的中文命名實(shí)體識(shí)別

研究人員為多模態(tài)NER任務(wù)提出新穎的關(guān)系增強(qiáng)圖卷積網(wǎng)絡(luò)

什么是自然語言處理 (NLP)

nlp自然語言處理的主要任務(wù)及技術(shù)方法