引言
命名實體識別(Named Entity Recognition,NER)是自然語言處理領域的一個基礎任務,是信息抽取等許多任務的子任務,旨在識別非結構化文本中屬于預先定義的類別的命名實體,例如人名、組織、地點等。命名實體識別通常被視為一個序列標注任務。
在 ACL-IJCNLP 2021 收錄的論文中,共有30余篇論文與命名實體識別相關,其中4篇論文關注中文命名實體識別。本次推送將分享 ACL-IJCNLP 2021 中與中文命名實體識別相關的3篇論文。
文章概覽
增強實體邊界檢測以提升中文命名實體識別
Enhancing Entity Boundary Detection for Better Chinese Named Entity Recognition
論文地址:https://aclanthology.org/2021.acl-short.4/
這篇文章研究了中文命名實體識別中的邊界檢測增強方法,探索從兩個方面來增強實體邊界信息:一是增加一個圖注意力網(wǎng)絡層來捕捉句子中詞之間的依賴關系;二是將實體首尾詞匯的預測看作是兩個獨立的二分類問題,作為輔助任務加入訓練。實驗證明,文章所提出的邊界增強模型對于實體邊界和實體類型的識別有提升,并且在書面與非書面文本上都有效果,在OntoNotes4、OntoNotes5等數(shù)據(jù)集上達到了SOTA效果。
帶有語音線索的大規(guī)模中文多模態(tài)NER數(shù)據(jù)集
A Large-Scale Chinese Multimodal NER Dataset with Speech Clues
論文地址:https://aclanthology.org/2021.acl-long.218/
這篇文章對于融合文本和語音多模態(tài)的中文命名實體識別進行了探索。文章首先構建了一個大規(guī)模的中文多模態(tài)嵌套命名實體識別數(shù)據(jù)集CNERTA,并提出了一個多模態(tài)多任務的模型,通過引入一個speech-to-text對齊的輔助任務來利用語音模態(tài)中蘊含的停頓信息進而有助于分詞。實驗顯示論文提出的模型在CNERTA上達到了SOTA效果。
提高模型泛化能力:中文命名實體識別案例研究
Improving Model Generalization: A Chinese Named Entity Recognition Case Study
論文地址:https://aclanthology.org/2021.acl-short.125/
這篇論文主要研究了數(shù)據(jù)集中的數(shù)據(jù)偏差對于模型泛化能力的影響。文章通過分析五個基準中文NER數(shù)據(jù)集,確定了兩種可能影響模型泛化能力的數(shù)據(jù)偏差,并提出一種實體重新平衡法來改進訓練集,從而提升模型泛化能力。
論文細節(jié)
1
論文動機
命名實體識別需要對實體在句子中的邊界和實體類別進行識別。與英文相比,中文沒有顯性的詞邊界、實體邊界以及時態(tài)信息,因此中文命名實體識別更具挑戰(zhàn)性。目前中文命名實體識別的SOTA性能與英文差了將近10%的F1值。
這篇文章試圖從增強實體邊界的識別的角度來更好地進行中文命名實體識別??紤]到Star-Transformer獨特的星形拓撲結構能夠減少冗余連接,同時保留近似模擬長程依賴關系的能力,因此使用Star-Transformer來構建一個輕量級的命名實體識別基線系統(tǒng)。
在這個基線系統(tǒng)的基礎上,文章從兩個角度來增強實體的邊界信息:一是添加了一個圖注意力網(wǎng)絡層來捕捉句子、短語、實體內(nèi)部的依賴,從而隱式地區(qū)分邊界;二是將實體首尾的預測作為輔助任務,從而顯式地區(qū)分邊界。
方法
這篇文章提出的模型將命名實體識別視作一個序列標注任務,模型整體架構如下圖所示,包括Token embedding layer,Encoder和Decoder三個部分。模型Decoder為條件隨機場。
1. Token embedding layer
模型以中文詞匯作為token單位??紤]到缺少明確的詞邊界信息,為了防止分詞錯誤的傳播,將詞的表示與字符表示相結合。從預訓練詞向量中獲得詞匯和漢字的向量,然后將漢字向量的序列通過一個雙向GRU層,獲取雙向GRU的輸出作為漢字的表示。
最終token的表示由詞向量、字向量經(jīng)過雙向GRU的輸出以及詞性標注拼接而成。
2. Encoder
模型的Encoder主要由三個部分構成:作為基線的Star-Transformer、圖注意力網(wǎng)絡和基于兩個GRU的實體首尾表示層。
Star-Transformer
文章認為對于命名實體識別任務而言,實體是稀疏的,因此沒必要總是關注所有token之間的關系。經(jīng)典的Transformer的token之間實際上是全連接的,Star-Transformer通過引入一個中繼節(jié)點,減少潛在的冗余連接,同時保留了近似模擬長程依賴關系的能力。
Star-Transformer的拓撲結構由一個中繼節(jié)點和多個衛(wèi)星節(jié)點構成,第i個衛(wèi)星節(jié)點的狀態(tài)表示句子中第i個token,中繼節(jié)點充當一個虛擬樞紐從所有的衛(wèi)星節(jié)點收集信息并分發(fā)信息。對于NER這種序列標注任務,取衛(wèi)星節(jié)點的狀態(tài)作為Star-Transformer的序列輸出。初始化時,每個衛(wèi)星節(jié)點的狀態(tài)都由對應token的表示初始化,中繼節(jié)點被初始化為所有token的均值。各節(jié)點更新過程如下式所示。
在更新的過程中,每個衛(wèi)星節(jié)點狀態(tài)的更新只與其有共邊的節(jié)點的上輪狀態(tài)以及該位置對應token的表示有關。中繼節(jié)點的更新則取決于這一輪更新后的所有衛(wèi)星節(jié)點狀態(tài),以及上一輪自身的狀態(tài)。
文章在衛(wèi)星節(jié)點的更新過程中還加入了一個Highway Network,通過門控機制來緩解潛在的梯度問題,從而減輕star-transformer的深度和復雜性。
此處 相當于一個門,對于衛(wèi)星節(jié)點的上輪狀態(tài)一部分進行仿射變換,剩余部分直接通過,再與star-transformer的多頭注意力結果相加,作為衛(wèi)星節(jié)點的最終更新結果。
圖注意力網(wǎng)絡
文章用于增強實體邊界的第一個做法是使用圖注意力網(wǎng)絡來建模詞之間的依賴關系,從而將句子、短語的結構信息納入到表示中,也有助于捕捉實體內(nèi)部詞語之間的依賴關系,從而隱式地增強實體的邊界信息。圖注意力網(wǎng)絡利用注意力計算,來為與某個節(jié)點有關聯(lián)的所有節(jié)點分配不同的重要性。具體的多頭圖注意力網(wǎng)絡計算過程如下式。
基于GRU的實體首尾表示層
文章用于增強實體邊界的第二個做法是將實體邊界的檢測看作兩個二分類任務,亦即詞匯是否為實體之首、是否為實體之尾。使用兩個獨立的GRU層進行這兩個輔助的二分類任務的預測,從而清晰、顯式地直接提供實體的邊界信息。
模型的Encoder輸出如下式。
而損失函數(shù)便是多任務的損失之和,包括實體標簽序列分類預測的交叉熵損失和兩個實體首尾分類預測的交叉熵損失。
實驗
實驗語料庫包括三個常見的中文NER數(shù)據(jù)集:OntoNotes4、OntoNotes5和Weibo。對于兩個增強邊界信息的方法進行了消融實驗,并將實體識別的錯誤分成了類型錯誤、未識別錯誤和邊界錯誤這三類。
對于配合了Highway Network的Star-Transformer,它在較小的社交媒體Weibo數(shù)據(jù)集上較為有效,優(yōu)于前面所有現(xiàn)有模型。
考慮到OntoNotes的結構特性,它的實體都具有相似的組成,利用圖注意力網(wǎng)絡來建模實體內(nèi)部的依賴將OntoNotes的Precision分別提高了3.93%和1.62%。而引入實體首尾預測的二分類輔助任務顯著減少了OntoNotes上的邊界錯誤數(shù)量。同時考慮兩個增強方法的模型在OntoNotes的各種評價指標上基本都達到了最好的效果,也進一步減少了邊界錯誤的數(shù)量。因此,所提出的邊界增強模型對于實體邊界和實體類型的識別都有所提升。
對于Weibo的標準Named Entity數(shù)據(jù)集,也有與OnteNotes相似的表現(xiàn)。說明這個邊界增強模型對于書面與非書面文本都有效果。
2
論文動機
大多數(shù)關于命名實體識別的研究只依靠文本來推斷標簽,當文本噪聲多或是較短時,僅憑文本信息不足以準確定位和分類命名實體,因此可以考慮引入其他模態(tài)作為文本模態(tài)的補充。而目前已有的多模態(tài)命名實體識別多是在融合文本模態(tài)與視覺模態(tài),且研究大多局限于英語。目前的中文命名實體識別研究都完全忽略了有價值的多模態(tài)信息。
文章認為語音模態(tài)在中文命名實體識別中能夠起到獨特作用,特別是能提供精確的分詞信息。因為語音模態(tài)所包含的線索有相鄰詞匯之間的停頓,從而可以幫助模型確定詞邊界。例如在“南京市長江大橋”這個句子中,傳統(tǒng)中文NER模型可能打出地點“南京市”和地點“長江大橋”的標簽,也可能打出地點“南京”和人名“江大橋”的標簽;
而這兩種標簽所對應的句子發(fā)音與停頓實際上是大有不同的,如果有對應的語音信息的輔助,模型便能夠更好地確定分詞信息,繼而更好地確定實體邊界。文章試圖在訓練過程中將文本和對應的語音進行對齊,找到每個漢字在語音中的位置,從而利用語音中的停頓等信息來輔助詞邊界的確定。
方法
中文多模態(tài)NER數(shù)據(jù)集構建
由于以往沒有融合語音信息的NER研究,也沒有中文多模態(tài)NER研究,文章首先構建了一個大規(guī)模的中文語音多模態(tài)NER數(shù)據(jù)集CNERTA。CNERTA包含文本及其命名實體標注,以及文本對應的語音。CNERTA中標注了人名、地點和組織這三類命名實體,也對所有嵌套實體進行了標注。
基線系統(tǒng)
文章選取了三類基線系統(tǒng):
基于字符的模型:BiLSTM-CRF、BERT-CRF、MacBERT-CRF
詞匯增強模型:Lattice-LSTM、ZEN
多模態(tài)模型:Cross-Modal Attention Module (CMA)、Multimodal Interaction Module (MMI)
多模態(tài)多任務NER模型M3T
在語音嵌入方面,首先將語音信號進行特定的處理,包括預加重、分幀加窗、短時傅立葉變換STFT等,并計算filter banks等特征。然后經(jīng)過兩個在時間和頻率上的卷積對語音特征進行下采樣,并通過一個Transformer的Encoder來建模依賴,最后得到語音的特征序列。
M3T使用了一個CMA模塊(Cross-Modal Attention Module)來融合文本與語音的信息。將文本特征序列作為query,語音特征序列作為key和value計算多頭注意力,從而得到經(jīng)過語音特征增強的新的文本表示。具體計算如下式。
其中LN為層歸一化,F(xiàn)FN為全連接的前饋神經(jīng)網(wǎng)絡,由兩個帶有ReLU激活的線性變換組成。CMA的輸出即可送入條件隨機場進行解碼推斷NER標簽。
CMA雖然能夠融合文本和語音模態(tài),但并沒有對文本和語音進行對齊。因此論文還引入了一個CTC(Connectionist Temporal Classification)層作為輔助任務,來幫助進行文本和語音的對齊,找到每個漢字在語音中的位置。
在CTC層中,每一幀的語音先被映射到字典+空格的空間上,然后經(jīng)過一個logit函數(shù)得到一個(|V|+1)*t維的矩陣G,其中|V|是字典規(guī)模,t為語音幀數(shù),并將對應文本中沒有出現(xiàn)過的字進行mask。
CTC的解碼過程取每幀上概率最大的字作為該幀上預測的輸出,可能是漢字、標點也可能是空格。然后CTC將沒有被空格隔開的相同的字合并,最后將空格移除得到預測的漢字序列,最終實現(xiàn)從語音到文本的對齊,進而納入語音中的停頓等信息。
這個masked G可以計算出CTC loss。整個模型使用的混合損失便由條件隨機場損失和CTC損失組成,如下式,其中為超參數(shù)。
實驗
引入語音模態(tài)可以顯著提高基于字符的模型的性能,即使是使用簡單的CMA也能在所有Flat NER和嵌套NER中帶來超過1.6%的F1提升,而使用M3T則能夠帶來超過3%的提升;
引入語音模態(tài)也可以提高詞匯增強模型的性能,例如對于ZEN。使用CMA能夠在Flat NER和嵌套NER中帶來1.38%和1.73%的F1提升,而M3T模型能讓它們的性能提升2.93%和3.19%。雖然提升沒有基于字符的模型那么顯著,但仍證明了語音模態(tài)可以提供一些大規(guī)模詞典中未包含的信息;
論文所提出的M3T模型能夠在CNERTA數(shù)據(jù)集中實現(xiàn)SOTA效果,論文推測這些改進來源于CTC捕捉到的語音模態(tài)與文本模態(tài)之間的單調(diào)對齊關系,有了對齊信息,模型就可以利用語音中包含的顯性詞邊界信息。
文章也進一步分析了命名實體識別的錯誤來源,將錯誤分為類型錯誤和邊界錯誤,類型錯誤指邊界正確但預測類型錯誤,其余情況都被歸為邊界錯誤。
可見通過論文的M3T模型來融合語音模態(tài)可以有效地減少邊界錯誤的數(shù)量。
3
論文動機
通過分析五個常用的中文NER數(shù)據(jù)集,文章提出在中文NER數(shù)據(jù)集中廣泛存在著兩類數(shù)據(jù)偏差問題:
中文NER驗證集/測試集中50-70%的實體都在訓練集中出現(xiàn)過,因而驗證集/測試集實際上難以評估模型的真實泛化能力。論文定義了一個稱為實體覆蓋率的度量來量化驗證集/測試集中可見實體的程度,
其中是一個獲取實體列表的函數(shù)。五個中文NER數(shù)據(jù)集中實體覆蓋率情況如表所示,可見實體占了很大的比例。
大多數(shù)NER數(shù)據(jù)集都由少數(shù)fat-head實體主導,即出現(xiàn)頻率異常高的實體。例如在Cluener的組織類別中,曼聯(lián)出現(xiàn)了59次,而法蘭克福只出現(xiàn)了1次。這樣可能鼓勵模型單純記住這些出現(xiàn)頻率高的實體,而不是在訓練過程中利用上下文學習該實體類別的模式。
論文提到這是因為在給定相同實體和不同上下文的情況下,模型收斂最簡單的方式是記住實體,而非從不同的上下文中提取模式。論文使用實體出現(xiàn)頻率的峰度度量數(shù)據(jù)集的fat-head程度,如下表所示。數(shù)據(jù)集中絕大部分類別的峰度超過3,部分類別峰度極高乃至超過1000??傮w來說,頻率最高的前1%的實體貢獻了21%的出現(xiàn)次數(shù)。fat-head實體的現(xiàn)象在中文NER數(shù)據(jù)集中很嚴重。
方法
文章首先通過從驗證集和測試集中排除所有可見實體來改進驗證集與測試集。然后提出了一種實體重新平衡方法,使同一類別內(nèi)的實體均勻分布,從而避免該類別的實體模式被fat-head實體主導。
論文提出實體重新平衡法主要是出于認為多數(shù)情況下同一類別內(nèi)的不同實體在語義上可互換,使得實體均勻分布后將鼓勵模型利用上下文信息,因為不再有來自分布不均勻的簡單規(guī)律可利用。
在實體重新平衡法中,首先對需要平衡的類別構建一個實體counter,然后將其轉化為一個balanced counter,使得出現(xiàn)次數(shù)最多和最少的實體次數(shù)之間最大差值僅為1。隨機替換fat-head實體,將該類別的原始實體分布轉化為balanced counter中的均勻分布。具體步驟見下方偽代碼。
實驗
實驗使用的統(tǒng)一模型架構為BERT+CRF。實驗結果見下表,其中Baseline列使用原始訓練數(shù)據(jù),Proposed列使用實體重新平衡后的訓練數(shù)據(jù),它們都在排除所有可見實體的驗證集和測試集上進行調(diào)參與測試。
在五個數(shù)據(jù)集的大部分類別中,文章提出的實體平衡算法都能夠提高模型識別不可見實體的能力。但也有例外,例如Cluener中的address,論文給出的解釋是address類別可能包含特定的地緣政治實體,它們在語義上不可互換,因此算法會失效;在Resume數(shù)據(jù)集上效果也不佳,論文給出的解釋是簡歷的結構串聯(lián)性不強,可利用的上下文知識很少。
因此,論文也總結了提出的實體平衡算法有效的條件:首先,同一類別的實體需要在語義上可以互換;其次,實體應當依賴上下文信息。
來自:復旦DISC
作者:石靄青
編輯:jq
-
語音
+關注
關注
3文章
383瀏覽量
37977 -
Gru
+關注
關注
0文章
12瀏覽量
7471 -
數(shù)據(jù)集
+關注
關注
4文章
1201瀏覽量
24622
原文標題:【ACL2021】基于邊界檢測增強的中文命名實體識別
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論