0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于中文數(shù)據(jù)的標(biāo)簽詞構(gòu)造過程

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:深度學(xué)習(xí)自然語言 ? 2022-08-19 16:14 ? 次閱讀

一、簡介

在UIE出來以前,小樣本NER主要針對的是英文數(shù)據(jù)集,目前主流的小樣本NER方法大多是基于prompt,在英文上效果好的方法,在中文上不一定適用,其主要原因可能是:

中文長實體相對英文較多,英文是按word進(jìn)行切割,很多實體就是一個詞;邊界相對來說更清晰;

生成方法對于長實體來說更加困難。但是隨著UIE的出現(xiàn),中文小樣本NER 的效果得到了突破。

二、主流小樣本NER方法

2.1、EntLM

EntLM該方法核心思想:拋棄模板,把NER作為語言模型任務(wù),實體的位置預(yù)測為label word,非實體位置預(yù)測為原來的詞,該方法速度較快。模型結(jié)果圖如圖2-1所示:

a5f6bcb4-1f7f-11ed-ba43-dac502259ad0.png圖2-1 EntLM模型

論文重點在于如何構(gòu)造label word:在中文數(shù)據(jù)上本實驗做法與論文稍有區(qū)別,但整體沿用論文思想:下面介紹了基于中文數(shù)據(jù)的標(biāo)簽詞構(gòu)造過程;

采用領(lǐng)域數(shù)據(jù)構(gòu)造實體詞典;

基于實體詞典和已有的實體識別模型對中文數(shù)據(jù)(100 000)進(jìn)行遠(yuǎn)程監(jiān)督,構(gòu)造偽標(biāo)簽數(shù)據(jù);

采用預(yù)訓(xùn)練的語言模型對計算LM的輸出,取實體部分概率較高的top3個詞;

根據(jù)偽標(biāo)簽數(shù)據(jù)和LM的輸出結(jié)果,計算詞頻;由于可能出現(xiàn)在很多類中都出現(xiàn)的高頻標(biāo)簽詞,因此需要去除沖突,該做法沿用論文思想;

使用均值向量作為類別的原型,選擇top6高頻詞的進(jìn)行求平均得到均值向量;

2.2、TemplateNER

TemplateNER的核心思想就是采用生成模型的方法來解決NER問題,訓(xùn)練階段通過構(gòu)造模板,讓模型學(xué)習(xí)哪些span是實體,哪些span不是實體,模板集合為:$T=[T+,T+ ...T+,T-]$,T+為xx is aentity,T-為 xx is not aentity,訓(xùn)練時采用目標(biāo)實體作為正樣本,負(fù)樣本采用隨機非實體進(jìn)行構(gòu)造,負(fù)樣本的個數(shù)是正樣本的1.5倍。推理階段,原始論文中是 n-gram 的數(shù)量限制在 1 到 8 之間,作為實體候選,但是中文的實體往往過長,所以實驗的時候是將,n-gram的長度限制在15以內(nèi),推理階段就是對每個模板進(jìn)行打分,選擇得分最大的作為最終實體。

這篇論文在應(yīng)用中的需要注意的主要有二個方面:

模板有差異,對結(jié)果影響很大,模板語言越復(fù)雜,準(zhǔn)確率越低;

隨著實體類型的增加,會導(dǎo)致候選實體量特別多,訓(xùn)練,推理時間更,尤其在句子較長的時候,可能存在效率問題,在中文數(shù)據(jù)中,某些實體可能涉及到15個字符(公司名),導(dǎo)致每個句子的候選span增加,線上使用困難,一條樣本推理時間大概42s

a61096a2-1f7f-11ed-ba43-dac502259ad0.png圖2-2 TemplateNER抽取模型

2.3、LightNER

LightNER的核心思想采用生成模型進(jìn)行實體識別,預(yù)訓(xùn)練模型采用 BART通過 prompt 指導(dǎo)注意力層來重新調(diào)整注意力并適應(yīng)預(yù)先訓(xùn)練的權(quán)重, 輸入一個句子,輸出是:實體的序列,每個實體包括:實體 span 在輸入句子中的 start index,end index ,以及實體類型 ,該方法的思想具有一定的通用性,可以用于其他信息抽取任務(wù)。

a623d546-1f7f-11ed-ba43-dac502259ad0.png圖2-3 LightNER抽取模型

2.4、UIE

UIE(通用信息抽取框架)真正的實現(xiàn)其實是存在兩個版本,最初是中科院聯(lián)合百度發(fā)的ACL2022的一篇論文,Unified Structure Generation for Universal Information Extraction,這個版本采用的是T5模型來進(jìn)行抽取,采用的是生成模型,后來百度推出的UIE信息抽取框架,采用的是span抽取方式,直接抽取實體的開始位置和結(jié)束位置,其方法和原始論文并不相同,但是大方向相同。

輸入形同:UIE采用的是前綴prompt的形式,采用的是Schema+Text的形式作為輸入,文本是NER任務(wù),所以Schema為實體類別,比如:人名、地名等。

采用的訓(xùn)練形式相同,都是采用預(yù)訓(xùn)練加微調(diào)的形式

不同點:

百度UIE是把NER作為抽取任務(wù),分別預(yù)測實體開始和結(jié)束的位置,要針對schema進(jìn)行多次解碼,比如人名進(jìn)行一次抽取,地名要進(jìn)行一次抽取,以次類推,也就是一條文本要進(jìn)行n次,n為schema的個數(shù),原始UIE是生成任務(wù),一次可以生成多個schema對應(yīng)的結(jié)果

百度UIE是在ernie基礎(chǔ)上進(jìn)行預(yù)訓(xùn)練的,原始的UIE是基于T5模型。

a637e5ea-1f7f-11ed-ba43-dac502259ad0.png圖2-4 UIE抽取模型

三、實驗結(jié)果

該部分主要采用主流小樣本NER模型在中文數(shù)據(jù)上的實驗效果。

通用數(shù)據(jù)1測試效果:

Method 5-shot 10-shot 20-shot 50-shot
BERT-CRF - 0.56 0.66 0.74
LightNER 0.21 0.42 0.57 0.73
TemplateNER 0.24 0.44 0.51 0.61
EntLM 0.46 0.54 0.56 -

從實驗結(jié)果來看,其小樣本NER模型在中文上的效果都不是特別理想,沒有達(dá)到Bert-CRF的效果,一開始懷疑結(jié)果過擬了,重新?lián)Q了測試集,發(fā)現(xiàn)BERT-CRF效果依舊變化不大,就是比其他的小樣本學(xué)習(xí)方法好。

3.1、UIE實驗結(jié)果

UIE部分做的實驗相對較多,首先是消融實驗,明確UIE通用信息抽取的能力是因為預(yù)訓(xùn)練模型的原因,還是因為模型本身的建模方式讓其效果好,其中,BERTUIE,采用BERT作為預(yù)訓(xùn)練語言模型,pytorch實現(xiàn),抽取方式采用UIE的方式,抽取實體的開始和結(jié)束位置。

領(lǐng)域數(shù)據(jù)1測試結(jié)果(實體類型7類):

預(yù)訓(xùn)練模型 框架 F1 Epoch
Ernie3.0 Paddle 0.71 200
Uie-base paddle 0.72 100
BERT pytorch 0.705 30

從本部分實驗可以確定的是,預(yù)訓(xùn)練模型其實就是一個錦上添花的作用, UIE的本身建模方式更重要也更有效。

領(lǐng)域數(shù)據(jù)1測試結(jié)果(實體類型7類):

5-shot 10-shot 20-shot 50-shot
BERT-CRF 0.697 0.75 0.82 0.85
百度UIE 0.76 0.81 0.84 0.87
BERTUIE 0.73 0.79 0.82 0.87
T5(放寬后評價) 0.71 0.75 0.79 0.81

領(lǐng)域數(shù)據(jù)3測試效果(實體類型6類),20-shot實驗結(jié)果:

BERT-CRF LightNER EntLM 百度UIE BERTUIE
F1 0.69 0.57 0.58 0.72 0.69

UIE在小樣本下的效果相較于BERT-CRF之類的抽取模型要好,但是UIE的速度較于BERT-CRF慢很多,大家可以根據(jù)需求決定用哪個模型。如果想進(jìn)一步提高效果,可以針對領(lǐng)域數(shù)據(jù)做預(yù)訓(xùn)練,本人也做了預(yù)訓(xùn)練,效果確實有提高。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 百度
    +關(guān)注

    關(guān)注

    9

    文章

    2234

    瀏覽量

    89840
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    487

    瀏覽量

    10201
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1197

    瀏覽量

    24538

原文標(biāo)題:中文小樣本NER模型方法總結(jié)和實戰(zhàn)

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    [討論]提高網(wǎng)站關(guān)鍵排名的28個SEO小技巧

    提高網(wǎng)站關(guān)鍵排名的28個SEO小技巧關(guān)鍵位置、密度、處理 URL中出現(xiàn)關(guān)鍵(英文) 網(wǎng)頁標(biāo)題中出現(xiàn)關(guān)鍵(1-3個) 關(guān)鍵
    發(fā)表于 12-01 17:08

    為什么要添加標(biāo)簽呢?添加標(biāo)簽對你有什么好處

    為什么要添加標(biāo)簽呢?1、什么是標(biāo)簽?標(biāo)簽是——描述主題內(nèi)容的關(guān)鍵。2、標(biāo)簽有什么作用?優(yōu)質(zhì)的標(biāo)簽
    發(fā)表于 09-29 17:11

    標(biāo)簽不能輸入中文,應(yīng)該怎么解決?

    標(biāo)簽中輸入中文時候突然跳出對話框,如下圖所示然后發(fā)現(xiàn)所有控件的標(biāo)簽都不能輸入中文,只能是創(chuàng)建后默認(rèn)的中文名字,修改的話只能輸入非
    發(fā)表于 12-26 13:38

    關(guān)鍵優(yōu)化有哪些實用的方法

    的排名。還有一些實用的方法就是網(wǎng)站的一個關(guān)鍵布局,這里應(yīng)該設(shè)計seo算法中的頁面相關(guān)匹配程度,這樣來提升網(wǎng)站頁面的整體相關(guān)性,其次是重要的位置部署好我們要做的關(guān)鍵,比如重要的一些標(biāo)簽來添加我們做
    發(fā)表于 08-11 01:19

    中文分詞研究難點-詞語切分和語言規(guī)范

    ,我們在進(jìn)行數(shù)據(jù)挖掘、精準(zhǔn)推薦和自然語言處理工作中也會經(jīng)常用到中文分詞技術(shù)。是最小的能夠獨立活動的有意義的語言成分,英文單詞之間是以空格作為自然分界符的,而漢語是以字為基本的書寫單位,詞語之間沒有
    發(fā)表于 09-04 17:39

    開發(fā)語音產(chǎn)品時設(shè)計喚醒和命令的技巧

    在實際開發(fā)語音產(chǎn)品過程中,要達(dá)到好的語音識別效果,除了語音算法要給力外,設(shè)計出好的喚醒和命令也能起到事倍功半的效果。所以下面介紹一下如何設(shè)計中文的英文的喚醒
    發(fā)表于 10-25 15:09

    量子Fourier變換構(gòu)造FQT電路

    摘要:利用量子Fourier變換,給出構(gòu)造3個量子位的量子Fourier變換電路的方法,利用該方法可構(gòu)造出n個量子住的QFT電路。關(guān)鍵:量子位;量子Fourier變換;FQT電路
    發(fā)表于 05-31 10:58 ?12次下載

    鋁電解的構(gòu)造和生產(chǎn)過程

    鋁電解的構(gòu)造和生產(chǎn)過程 鋁電解基本由正極箔+氧化膜(不能獨立于正極箔存在)+電解紙(浸有電解液)+負(fù)極箔+外殼+膠塞+引線+
    發(fā)表于 10-07 15:35 ?1590次閱讀

    計算機程序的構(gòu)造和解釋中文

    電子發(fā)燒友網(wǎng)站提供《計算機程序的構(gòu)造和解釋中文版.txt》資料免費下載
    發(fā)表于 01-04 17:24 ?0次下載

    基于強度熵解決中文關(guān)鍵識別

    文本的關(guān)鍵識別是文本挖掘中的基本問題之一。在研究現(xiàn)有基于復(fù)雜網(wǎng)絡(luò)的關(guān)鍵識別方法的基礎(chǔ)上,從整個復(fù)雜網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特征的信息缺失角度來考察各節(jié)點的重要程度。提出強度熵測度來量化評估各節(jié)點重要程度,用于解決中文關(guān)鍵
    發(fā)表于 11-24 09:54 ?7次下載
    基于強度熵解決<b class='flag-5'>中文</b>關(guān)鍵<b class='flag-5'>詞</b>識別

    基于標(biāo)簽優(yōu)先的抽取排序方法

    針對微博關(guān)鍵抽取準(zhǔn)確率不高的問題,提出一種基于標(biāo)簽優(yōu)先的抽取排序方法。該方法利用微博本身具有的社交特征標(biāo)簽,從微博內(nèi)容集中抽取關(guān)鍵。該方法首先根據(jù)微博自身建立初始
    發(fā)表于 12-25 15:04 ?0次下載
    基于<b class='flag-5'>標(biāo)簽</b>優(yōu)先的抽取排序方法

    Python數(shù)據(jù)挖掘:WordCloud云配置過程及詞頻分析

    下面這部分代碼參考老曹的,希望對你有所幫助。 老曹說:什么是云呢?云又叫文字云,是對文本數(shù)據(jù)中出現(xiàn)頻率較高的“關(guān)鍵”在視覺上的突出呈現(xiàn),形成關(guān)鍵
    的頭像 發(fā)表于 09-14 14:55 ?3857次閱讀

    Chrome新增一項功能 部分標(biāo)簽頁可顯示該頁面關(guān)鍵

    作為全球最受歡迎的互聯(lián)網(wǎng)瀏覽器,Chrome的功能仍在不斷豐富,從而為用戶提供更無縫的使用體驗。近日谷歌在Chrome瀏覽器中新增了一項新功能,在部分標(biāo)簽頁預(yù)覽中能夠顯示該頁面的關(guān)鍵。例如在搜索“cnBeta”的標(biāo)簽頁切換時候
    的頭像 發(fā)表于 04-15 08:38 ?3218次閱讀

    面向短文本的中文錯誤檢測與修復(fù)

    在線學(xué)習(xí)社區(qū)中的中文錯誤會給中文文本語義的理解帶來困難,從而影響基于在線學(xué)習(xí)社區(qū)文本的學(xué)習(xí)分析效果。為此,提出一種針對在線學(xué)習(xí)社區(qū)短文本的真錯誤檢測與修復(fù)方法。構(gòu)建混淆
    發(fā)表于 06-08 14:47 ?6次下載

    面向短文本的中文錯誤檢測與修復(fù)

    在線學(xué)習(xí)社區(qū)中的中文錯誤會給中文文本語義的理解帶來困難,從而影響基于在線學(xué)習(xí)社區(qū)文本的學(xué)習(xí)分析效果。為此,提出一種針對在線學(xué)習(xí)社區(qū)短文本的真錯誤檢測與修復(fù)方法。構(gòu)建混淆
    發(fā)表于 06-08 14:47 ?2次下載