国产成人AⅤ在线免播放观看,国产美女a做受大片观看

一、簡介

在UIE出來以前，小樣本NER主要針對的是英文數(shù)據(jù)集，目前主流的小樣本NER方法大多是基于prompt，在英文上效果好的方法，在中文上不一定適用，其主要原因可能是：

中文長實體相對英文較多，英文是按word進(jìn)行切割，很多實體就是一個詞；邊界相對來說更清晰；

生成方法對于長實體來說更加困難。但是隨著UIE的出現(xiàn)，中文小樣本NER 的效果得到了突破。

二、主流小樣本NER方法

2.1、EntLM

EntLM該方法核心思想：拋棄模板，把NER作為語言模型任務(wù)，實體的位置預(yù)測為label word,非實體位置預(yù)測為原來的詞，該方法速度較快。模型結(jié)果圖如圖2-1所示：

圖2-1 EntLM模型

論文重點在于如何構(gòu)造label word：在中文數(shù)據(jù)上本實驗做法與論文稍有區(qū)別，但整體沿用論文思想：下面介紹了基于中文數(shù)據(jù)的標(biāo)簽詞構(gòu)造過程；

采用領(lǐng)域數(shù)據(jù)構(gòu)造實體詞典；

基于實體詞典和已有的實體識別模型對中文數(shù)據(jù)(100 000)進(jìn)行遠(yuǎn)程監(jiān)督，構(gòu)造偽標(biāo)簽數(shù)據(jù)；

采用預(yù)訓(xùn)練的語言模型對計算LM的輸出，取實體部分概率較高的top3個詞；

根據(jù)偽標(biāo)簽數(shù)據(jù)和LM的輸出結(jié)果，計算詞頻；由于可能出現(xiàn)在很多類中都出現(xiàn)的高頻標(biāo)簽詞，因此需要去除沖突，該做法沿用論文思想；

使用均值向量作為類別的原型，選擇top6高頻詞的進(jìn)行求平均得到均值向量；

2.2、TemplateNER

TemplateNER的核心思想就是采用生成模型的方法來解決NER問題，訓(xùn)練階段通過構(gòu)造模板，讓模型學(xué)習(xí)哪些span是實體,哪些span不是實體，模板集合為：$T=[T+,T+ ...T+,T-]$,T+為xx is aentity，T-為 xx is not aentity,訓(xùn)練時采用目標(biāo)實體作為正樣本，負(fù)樣本采用隨機非實體進(jìn)行構(gòu)造，負(fù)樣本的個數(shù)是正樣本的1.5倍。推理階段，原始論文中是 n-gram 的數(shù)量限制在 1 到 8 之間，作為實體候選，但是中文的實體往往過長，所以實驗的時候是將，n-gram的長度限制在15以內(nèi)，推理階段就是對每個模板進(jìn)行打分，選擇得分最大的作為最終實體。

這篇論文在應(yīng)用中的需要注意的主要有二個方面：

模板有差異，對結(jié)果影響很大，模板語言越復(fù)雜，準(zhǔn)確率越低；

隨著實體類型的增加，會導(dǎo)致候選實體量特別多，訓(xùn)練，推理時間更，尤其在句子較長的時候，可能存在效率問題，在中文數(shù)據(jù)中，某些實體可能涉及到15個字符（公司名），導(dǎo)致每個句子的候選span增加，線上使用困難,一條樣本推理時間大概42s

圖2-2 TemplateNER抽取模型

2.3、LightNER

LightNER的核心思想采用生成模型進(jìn)行實體識別，預(yù)訓(xùn)練模型采用 BART通過 prompt 指導(dǎo)注意力層來重新調(diào)整注意力并適應(yīng)預(yù)先訓(xùn)練的權(quán)重，輸入一個句子，輸出是：實體的序列，每個實體包括：實體 span 在輸入句子中的 start index，end index ，以及實體類型，該方法的思想具有一定的通用性，可以用于其他信息抽取任務(wù)。

圖2-3 LightNER抽取模型

2.4、UIE

UIE(通用信息抽取框架)真正的實現(xiàn)其實是存在兩個版本，最初是中科院聯(lián)合百度發(fā)的ACL2022的一篇論文，Unified Structure Generation for Universal Information Extraction，這個版本采用的是T5模型來進(jìn)行抽取，采用的是生成模型，后來百度推出的UIE信息抽取框架，采用的是span抽取方式，直接抽取實體的開始位置和結(jié)束位置，其方法和原始論文并不相同，但是大方向相同。

輸入形同：UIE采用的是前綴prompt的形式，采用的是Schema+Text的形式作為輸入，文本是NER任務(wù)，所以Schema為實體類別，比如：人名、地名等。

采用的訓(xùn)練形式相同，都是采用預(yù)訓(xùn)練加微調(diào)的形式

不同點：

百度UIE是把NER作為抽取任務(wù)，分別預(yù)測實體開始和結(jié)束的位置，要針對schema進(jìn)行多次解碼，比如人名進(jìn)行一次抽取，地名要進(jìn)行一次抽取，以次類推，也就是一條文本要進(jìn)行n次，n為schema的個數(shù)，原始UIE是生成任務(wù)，一次可以生成多個schema對應(yīng)的結(jié)果

百度UIE是在ernie基礎(chǔ)上進(jìn)行預(yù)訓(xùn)練的，原始的UIE是基于T5模型。

圖2-4 UIE抽取模型

三、實驗結(jié)果

該部分主要采用主流小樣本NER模型在中文數(shù)據(jù)上的實驗效果。

通用數(shù)據(jù)1測試效果：

Method	5-shot	10-shot	20-shot	50-shot
BERT-CRF	-	0.56	0.66	0.74
LightNER	0.21	0.42	0.57	0.73
TemplateNER	0.24	0.44	0.51	0.61
EntLM	0.46	0.54	0.56	-

從實驗結(jié)果來看，其小樣本NER模型在中文上的效果都不是特別理想，沒有達(dá)到Bert-CRF的效果，一開始懷疑結(jié)果過擬了，重新?lián)Q了測試集，發(fā)現(xiàn)BERT-CRF效果依舊變化不大，就是比其他的小樣本學(xué)習(xí)方法好。

3.1、UIE實驗結(jié)果

UIE部分做的實驗相對較多，首先是消融實驗，明確UIE通用信息抽取的能力是因為預(yù)訓(xùn)練模型的原因，還是因為模型本身的建模方式讓其效果好，其中，BERTUIE，采用BERT作為預(yù)訓(xùn)練語言模型，pytorch實現(xiàn)，抽取方式采用UIE的方式，抽取實體的開始和結(jié)束位置。

領(lǐng)域數(shù)據(jù)1測試結(jié)果（實體類型7類）：

預(yù)訓(xùn)練模型	框架	F1	Epoch
Ernie3.0	Paddle	0.71	200
Uie-base	paddle	0.72	100
BERT	pytorch	0.705	30

從本部分實驗可以確定的是，預(yù)訓(xùn)練模型其實就是一個錦上添花的作用， UIE的本身建模方式更重要也更有效。

領(lǐng)域數(shù)據(jù)1測試結(jié)果（實體類型7類）：

	5-shot	10-shot	20-shot	50-shot
BERT-CRF	0.697	0.75	0.82	0.85
百度UIE	0.76	0.81	0.84	0.87
BERTUIE	0.73	0.79	0.82	0.87
T5（放寬后評價）	0.71	0.75	0.79	0.81

領(lǐng)域數(shù)據(jù)3測試效果（實體類型6類），20-shot實驗結(jié)果：

	BERT-CRF	LightNER	EntLM	百度UIE	BERTUIE
F1	0.69	0.57	0.58	0.72	0.69

UIE在小樣本下的效果相較于BERT-CRF之類的抽取模型要好，但是UIE的速度較于BERT-CRF慢很多，大家可以根據(jù)需求決定用哪個模型。如果想進(jìn)一步提高效果，可以針對領(lǐng)域數(shù)據(jù)做預(yù)訓(xùn)練，本人也做了預(yù)訓(xùn)練，效果確實有提高。

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

百度

百度

+關(guān)注

關(guān)注
9

文章
2234

瀏覽量
89840
語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
487

瀏覽量
10201
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1197

瀏覽量
24538

原文標(biāo)題：中文小樣本NER模型方法總結(jié)和實戰(zhàn)

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

[討論]提高網(wǎng)站關(guān)鍵詞排名的28個SEO小技巧

提高網(wǎng)站關(guān)鍵詞排名的28個SEO小技巧關(guān)鍵詞位置、密度、處理 URL中出現(xiàn)關(guān)鍵詞（英文）網(wǎng)頁標(biāo)題中出現(xiàn)關(guān)鍵詞（1-3個）關(guān)鍵詞

發(fā)表于 12-01 17:08

為什么要添加標(biāo)簽呢？添加標(biāo)簽對你有什么好處

為什么要添加標(biāo)簽呢？1、什么是標(biāo)簽？標(biāo)簽是——描述主題內(nèi)容的關(guān)鍵詞。2、標(biāo)簽有什么作用？優(yōu)質(zhì)的標(biāo)簽

發(fā)表于 09-29 17:11

標(biāo)簽不能輸入中文，應(yīng)該怎么解決？

在標(biāo)簽中輸入中文時候突然跳出對話框，如下圖所示然后發(fā)現(xiàn)所有控件的標(biāo)簽都不能輸入中文，只能是創(chuàng)建后默認(rèn)的中文名字，修改的話只能輸入非

發(fā)表于 12-26 13:38

關(guān)鍵詞優(yōu)化有哪些實用的方法

的排名。還有一些實用的方法就是網(wǎng)站的一個關(guān)鍵詞布局，這里應(yīng)該設(shè)計seo算法中的頁面相關(guān)匹配程度，這樣來提升網(wǎng)站頁面的整體相關(guān)性，其次是重要的位置部署好我們要做的關(guān)鍵詞，比如重要的一些標(biāo)簽來添加我們做

發(fā)表于 08-11 01:19

中文分詞研究難點-詞語切分和語言規(guī)范

，我們在進(jìn)行數(shù)據(jù)挖掘、精準(zhǔn)推薦和自然語言處理工作中也會經(jīng)常用到中文分詞技術(shù)。詞是最小的能夠獨立活動的有意義的語言成分，英文單詞之間是以空格作為自然分界符的，而漢語是以字為基本的書寫單位，詞語之間沒有

發(fā)表于 09-04 17:39

開發(fā)語音產(chǎn)品時設(shè)計喚醒詞和命令詞的技巧

在實際開發(fā)語音產(chǎn)品過程中，要達(dá)到好的語音識別效果，除了語音算法要給力外，設(shè)計出好的喚醒詞和命令詞也能起到事倍功半的效果。所以下面介紹一下如何設(shè)計中文的英文的喚醒

發(fā)表于 10-25 15:09

量子Fourier變換構(gòu)造FQT電路

摘要：利用量子Fourier變換，給出構(gòu)造3個量子位的量子Fourier變換電路的方法，利用該方法可構(gòu)造出n個量子住的QFT電路。關(guān)鍵詞：量子位；量子Fourier變換；FQT電路

發(fā)表于 05-31 10:58 ?12次下載

鋁電解的構(gòu)造和生產(chǎn)過程

鋁電解的構(gòu)造和生產(chǎn)過程鋁電解基本由正極箔+氧化膜（不能獨立于正極箔存在）+電解紙（浸有電解液）+負(fù)極箔+外殼+膠塞+引線+

發(fā)表于 10-07 15:35 ?1590次閱讀

計算機程序的構(gòu)造和解釋中文版

電子發(fā)燒友網(wǎng)站提供《計算機程序的構(gòu)造和解釋中文版.txt》資料免費下載

發(fā)表于 01-04 17:24 ?0次下載

基于強度熵解決中文關(guān)鍵詞識別

文本的關(guān)鍵詞識別是文本挖掘中的基本問題之一。在研究現(xiàn)有基于復(fù)雜網(wǎng)絡(luò)的關(guān)鍵詞識別方法的基礎(chǔ)上，從整個復(fù)雜網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特征的信息缺失角度來考察各節(jié)點的重要程度。提出強度熵測度來量化評估各節(jié)點重要程度，用于解決中文關(guān)鍵

發(fā)表于 11-24 09:54 ?7次下載

基于標(biāo)簽優(yōu)先的抽取排序方法

針對微博關(guān)鍵詞抽取準(zhǔn)確率不高的問題，提出一種基于標(biāo)簽優(yōu)先的抽取排序方法。該方法利用微博本身具有的社交特征標(biāo)簽，從微博內(nèi)容集中抽取關(guān)鍵詞。該方法首先根據(jù)微博自身建立初始

發(fā)表于 12-25 15:04 ?0次下載

Python數(shù)據(jù)挖掘：WordCloud詞云配置過程及詞頻分析

下面這部分代碼參考老曹的，希望對你有所幫助。老曹說：什么是詞云呢？詞云又叫文字云，是對文本數(shù)據(jù)中出現(xiàn)頻率較高的“關(guān)鍵詞”在視覺上的突出呈現(xiàn)，形成關(guān)鍵

發(fā)表于 09-14 14:55 ?3857次閱讀

Chrome新增一項功能部分標(biāo)簽頁可顯示該頁面關(guān)鍵詞

作為全球最受歡迎的互聯(lián)網(wǎng)瀏覽器，Chrome的功能仍在不斷豐富，從而為用戶提供更無縫的使用體驗。近日谷歌在Chrome瀏覽器中新增了一項新功能，在部分標(biāo)簽頁預(yù)覽中能夠顯示該頁面的關(guān)鍵詞。例如在搜索“cnBeta”的標(biāo)簽頁切換時候

發(fā)表于 04-15 08:38 ?3218次閱讀

面向短文本的中文真詞錯誤檢測與修復(fù)

在線學(xué)習(xí)社區(qū)中的中文真詞錯誤會給中文文本語義的理解帶來困難，從而影響基于在線學(xué)習(xí)社區(qū)文本的學(xué)習(xí)分析效果。為此，提出一種針對在線學(xué)習(xí)社區(qū)短文本的真詞錯誤檢測與修復(fù)方法。構(gòu)建混淆

發(fā)表于 06-08 14:47 ?6次下載

面向短文本的中文真詞錯誤檢測與修復(fù)

在線學(xué)習(xí)社區(qū)中的中文真詞錯誤會給中文文本語義的理解帶來困難，從而影響基于在線學(xué)習(xí)社區(qū)文本的學(xué)習(xí)分析效果。為此，提出一種針對在線學(xué)習(xí)社區(qū)短文本的真詞錯誤檢測與修復(fù)方法。構(gòu)建混淆

發(fā)表于 06-08 14:47 ?2次下載

搜索歷史

基于中文數(shù)據(jù)的標(biāo)簽詞構(gòu)造過程

評論

[討論]提高網(wǎng)站關(guān)鍵詞排名的28個SEO小技巧

為什么要添加標(biāo)簽呢？添加標(biāo)簽對你有什么好處

標(biāo)簽不能輸入中文，應(yīng)該怎么解決？

關(guān)鍵詞優(yōu)化有哪些實用的方法

中文分詞研究難點-詞語切分和語言規(guī)范

開發(fā)語音產(chǎn)品時設(shè)計喚醒詞和命令詞的技巧

量子Fourier變換構(gòu)造FQT電路

鋁電解的構(gòu)造和生產(chǎn)過程

計算機程序的構(gòu)造和解釋中文版

基于強度熵解決中文關(guān)鍵詞識別

基于標(biāo)簽優(yōu)先的抽取排序方法

Python數(shù)據(jù)挖掘：WordCloud詞云配置過程及詞頻分析

Chrome新增一項功能部分標(biāo)簽頁可顯示該頁面關(guān)鍵詞

面向短文本的中文真詞錯誤檢測與修復(fù)

面向短文本的中文真詞錯誤檢測與修復(fù)