0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種將信息直接編碼到預(yù)訓(xùn)練的語(yǔ)言模型中的結(jié)構(gòu)

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:船長(zhǎng)尼莫 ? 作者:船長(zhǎng)尼莫 ? 2022-12-05 10:15 ? 次閱讀

邊界信息的挖掘,對(duì)于NER的任務(wù)是非常重要的,這種類(lèi)似于分詞的功能,能夠很好的挖掘到詞語(yǔ),并且把一個(gè)句子拆分成多個(gè)詞語(yǔ)的構(gòu)成。

以目前世界杯火的例子來(lái)說(shuō):“葡萄牙有望得到冠軍”,可以按照邊界信息,分割成為以下的組成,接著有了這種邊界信息,我們可以用來(lái)做很多的上游任務(wù)。

在之前的工業(yè)技術(shù)分享中,NER的上一步就是由分割任務(wù)來(lái)做的。

NLP基礎(chǔ)任務(wù)的極限在哪里?一文告訴你工業(yè)界是如何做NER的

下面我們進(jìn)行本次論文的分享:

Unsupervised Boundary-Aware Language Model Pretraining for ChineseSequence Labeling | EMNLP2022

在這項(xiàng)工作中,提出了無(wú)監(jiān)督的計(jì)算邊界,并提出了一種將信息直接編碼到預(yù)訓(xùn)練的語(yǔ)言模型中的結(jié)構(gòu),從而產(chǎn)生了邊界感知BERT(BABERT)。船長(zhǎng)在此處辯證的分析一下,無(wú)監(jiān)督有什么好處,有什么壞處?

好處:

可以節(jié)省大量的人力,本模型可以直接用于中文的邊界信息計(jì)算任務(wù)中。

壞處:

有監(jiān)督的結(jié)果一般都比無(wú)監(jiān)督的結(jié)果要好,從結(jié)果的角度來(lái)看,肯定是受限的。

實(shí)際上這里最好是利用半監(jiān)督學(xué)習(xí),使用到之前標(biāo)注的詞庫(kù)信息,在進(jìn)而進(jìn)行無(wú)監(jiān)督的訓(xùn)練,這點(diǎn)才是值得肯定的地方。

模型結(jié)構(gòu)

0f5fb8a8-73b4-11ed-8abf-dac502259ad0.png

圖1:邊界感知預(yù)訓(xùn)練語(yǔ)言模型的總體架構(gòu)??偣灿扇糠纸M成:(a) 邊界信息提取器;(b)邊界感知表示;(c) 邊界感知BERT學(xué)習(xí)。

邊界信息提取器

其實(shí)為什么第一個(gè)部分是邊界信息提取器呢?因?yàn)槲覀兊哪P托枰炔乱粋€(gè)結(jié)果,然后再判斷他是否“正確”,再進(jìn)行迭代來(lái)不斷地進(jìn)行學(xué)習(xí)。那么具體如何提取邊界信息,本文分成了兩個(gè)步驟。

從原始語(yǔ)料庫(kù)中收集所有N-grams,以建立一個(gè)詞典,在其中我們統(tǒng)計(jì)每個(gè)詞的頻率,并過(guò)濾掉低頻項(xiàng),去除掉噪聲詞語(yǔ)。

考慮到詞頻不足以表示漢語(yǔ)上下文中的靈活邊界關(guān)系,本文進(jìn)一步計(jì)算了兩個(gè)無(wú)監(jiān)督指標(biāo),這兩個(gè)指標(biāo)可以捕獲語(yǔ)料庫(kù)中的大部分邊界信息。在下文中,我們將詳細(xì)描述這兩個(gè)指標(biāo)。

公式預(yù)警,讀者覺(jué)得復(fù)雜可以直接調(diào)到邊界信息感知的BERT學(xué)習(xí)

點(diǎn)交互信息 PMI

給定一個(gè)N-gram,將其分成兩個(gè)子字符串,并計(jì)算它們之間的互信息(MI)作為候選。然后,我們枚舉所有子字符串對(duì),并選擇最小MI作為總PMI,以估計(jì)緊密性。設(shè)g={c1…cm}是由m個(gè)字符組成的N-gram,使用以下公式計(jì)算PMI:

0f83bbf4-73b4-11ed-8abf-dac502259ad0.png

p()代表了文章中出現(xiàn)的概率。當(dāng)m等于1的時(shí)候PMI這時(shí)也是最大的,即為1。除去這種情況后,如果PMI指數(shù)很高,也就意味著總字符串和子字符串有著同時(shí)出現(xiàn)的概率,例如總字符串“貝克漢姆”和子字符串“貝克”+“漢姆”,這時(shí)就讓N-Gram “貝克”和“漢姆”更像是兩個(gè)實(shí)體。

左右交叉熵

給定一個(gè)N-gram g,我們首先收集到左邊的鄰接字符集合Sl,之后我們用g和Sl的條件概率來(lái)計(jì)算左交叉熵:

0fb0015a-73b4-11ed-8abf-dac502259ad0.png

右交叉熵是同理的:

0fc5f398-73b4-11ed-8abf-dac502259ad0.png

直觀地說(shuō),左右交叉熵(LRE)代表了N-gram中相鄰字符的數(shù)量。對(duì)于較低的LRE“漢姆”,表示它更可能是短語(yǔ)或?qū)嶓w的一部分。相反,具有更高LRE(例如,“貝克漢姆”),說(shuō)明和上下文的交互很多,那么它很可能是單獨(dú)的一個(gè)實(shí)體,這點(diǎn)是毋庸置疑的,越高說(shuō)明當(dāng)前的詞語(yǔ)是單個(gè)實(shí)體的概率更大。作者使用的指標(biāo)能夠感知到什么是上下文,什么是實(shí)體,從而更好的做好邊界計(jì)算的邏輯。

最后,我們利用PMI和LRE來(lái)測(cè)量中文上下文中的靈活邊界關(guān)系,然后用上面的無(wú)監(jiān)督統(tǒng)計(jì)指標(biāo)更新每個(gè)N-gram。

邊界信息表示

邊界信息計(jì)算的核心就是上下文和實(shí)體之間的差別,針對(duì)于字符Ci,我們抽取出和Ci相關(guān)的N-Gram來(lái)代表Ci的上下文。設(shè)計(jì)一種組合方法,通過(guò)使用特定的條件和規(guī)則來(lái)集成S中N個(gè)詞的統(tǒng)計(jì)特征,旨在避免統(tǒng)計(jì)信息的稀疏性和上下文獨(dú)立性限制。

具體地,我們將信息合成方法分為PMI和熵表示。首先,我們連接了所有和字符Ci相關(guān)的N-Gram,去形成PMI的表達(dá):

0fd7a502-73b4-11ed-8abf-dac502259ad0.png

a=1+2+··+N是包含ci的N-Gram的數(shù)量。注意,在PMI表示中,每個(gè)N的位置是固定的。我們嚴(yán)格遵循N-gram長(zhǎng)度的順序和ci在N-gram中的位置來(lái)連接它們對(duì)應(yīng)的PMI,確保位置和上下文信息可以被編碼到交叉熵信息中:

0fed50dc-73b4-11ed-8abf-dac502259ad0.png

從而也就有了公式5,就是左右交叉熵。那么最終,我們就有了邊界信息的表示,通過(guò)PMI和左右交叉熵的整合可以得到:

101e516e-73b4-11ed-8abf-dac502259ad0.png

公式6很有意思,作者在文中提到,三個(gè)表達(dá)方式的順序是很特殊的,左邊的交叉熵放在了最左面,而右邊的交叉熵放在了最右邊,中間的是用來(lái)計(jì)算當(dāng)前是否是實(shí)體的概率。那么我們可以這么理解這個(gè)公式,ei代表了 前文+實(shí)體+后文,也就是一種清晰的解決方案。

這個(gè)地方關(guān)于公式的地方讀者可以自行跳過(guò),下面我們來(lái)舉一個(gè)具體的例子幫助理解,詳見(jiàn)圖2:

10389830-73b4-11ed-8abf-dac502259ad0.png

圖2:字符邊界感知表示的“長(zhǎng)”在文本中“南京市長(zhǎng)江大橋”

圖2顯示了邊界感知表示的示例。首先整句話呢,會(huì)按照N-Gram (N=3)來(lái)進(jìn)行拆分,所以我們有了下面的字符串序列,接著,我們?nèi)齻€(gè)公式開(kāi)始計(jì)算各自的數(shù)值,LE包含了三個(gè)詞,而PMI包含了所有詞,RE包含了三個(gè)詞,最終會(huì)把三個(gè)計(jì)算的數(shù)值并在一起作為邊界信息感知的表達(dá)方式。

邊界信息感知的BERT學(xué)習(xí)

邊界信息感知的BERT是BERT預(yù)訓(xùn)練模型中的一種,在這節(jié)中,我們主要描述了如何把邊界信息引入到BERT的訓(xùn)練中。

邊界信息感知的目標(biāo)訓(xùn)練

那么如何讓BERT擁有這種信息的感知呢?實(shí)際上用MSE來(lái)規(guī)范BERT的hidden states,讓這個(gè)和公式6中的ei來(lái)不斷地接近。詳細(xì)公式如公式7所示,其中h代表了BERT中某一層的隱狀態(tài),W是可學(xué)習(xí)參數(shù)矩陣。

1079e57e-73b4-11ed-8abf-dac502259ad0.png

不過(guò)話說(shuō)回來(lái),船長(zhǎng)平日做實(shí)驗(yàn)的時(shí)候,很少有發(fā)現(xiàn)MSE loss針對(duì)這種回歸有效的,因?yàn)閮蓚€(gè)向量本身就在不同的向量空間,如何讓他們兩個(gè)接近呢?其實(shí)很難。

最終BERT的預(yù)訓(xùn)練損失函數(shù),由兩部分組成,也即公式7+完形填空任務(wù)。完形填空任務(wù)類(lèi)似于把某一個(gè)單詞挖空,然后讓BERT去預(yù)測(cè)這個(gè)單詞,這種方式能夠加強(qiáng)BERT對(duì)于上下文的感知能力。

序列標(biāo)注任務(wù)的微調(diào)

微調(diào)的方法是很簡(jiǎn)單粗暴的,對(duì)于序列標(biāo)注的任務(wù),只需要序列標(biāo)注的信號(hào),輸入文本,模型的輸出層加上CRF進(jìn)行預(yù)測(cè)。因?yàn)楸灸P秃虰ERT的結(jié)構(gòu)幾乎一樣,所以在使用起來(lái)可以完全按照BERT+CRF的框架來(lái)走。

如何引入詞語(yǔ)?

回到了我們做NER的初心,如何利用好詞語(yǔ)的信息,是增強(qiáng)NER的關(guān)鍵之一,那么本文的方式就是利用Adapter的方式來(lái)引入詞語(yǔ)的信息,他的方法和我之前分析過(guò)的論文是類(lèi)似的,感興趣的讀者可以看看我之前發(fā)的文章。

如何把單詞插入到預(yù)訓(xùn)練模型?達(dá)摩院研究告訴你答案


數(shù)據(jù)集

1088b68a-73b4-11ed-8abf-dac502259ad0.png

圖3:基準(zhǔn)數(shù)據(jù)集的句子數(shù)統(tǒng)計(jì)。對(duì)于沒(méi)有測(cè)試部分的數(shù)據(jù)集,我們從相應(yīng)的訓(xùn)練集中隨機(jī)選擇10%的句子作為測(cè)試集。

本文的數(shù)據(jù)集有三種類(lèi)型,分別是NER (Named Entity Recognition), POS (Part-Of-Speech Tagging),CWS (Chinese Word Segmentation)。

結(jié)果

109e538c-73b4-11ed-8abf-dac502259ad0.png

從結(jié)果的角度來(lái)講,提升是比較明顯的,相對(duì)于原始的BERT,很多數(shù)值都已經(jīng)刷到了SOTA,確實(shí)是一篇很容易借鑒的工作。

寫(xiě)在最后

在本文,提出了BABERT,一種用于中文序列標(biāo)記的新的無(wú)監(jiān)督邊界感知預(yù)訓(xùn)練模型。在BABERT中,給定一個(gè)中文句子,使用無(wú)監(jiān)督統(tǒng)計(jì)信息計(jì)算邊界感知表示以捕獲邊界信息,并在預(yù)訓(xùn)練期間將這些信息直接注入BERT的參數(shù)學(xué)習(xí)。與之前的工作不同,BABERT開(kāi)發(fā)了一種以無(wú)監(jiān)督方式利用邊界信息的有效方法,從而減輕了基于監(jiān)督詞典的方法的局限性。在三個(gè)不同任務(wù)的十個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,方法非常有效,并且優(yōu)于其他中文的預(yù)訓(xùn)練模型。此外,與監(jiān)督詞典擴(kuò)展相結(jié)合可以在大多數(shù)任務(wù)上實(shí)現(xiàn)進(jìn)一步的改進(jìn)和最先進(jìn)的結(jié)果。

接下來(lái)船長(zhǎng)提幾個(gè)問(wèn)題,讀者可以思考一下:

我想用這個(gè)模型,如何使用呢?

首先,先拿論文的框架訓(xùn)練出BABERT,然后在自己的語(yǔ)料上訓(xùn)練/微調(diào),最終可以當(dāng)做一個(gè)普通BERT來(lái)使用,我們可以做NER任務(wù),也可以去做CWS任務(wù)。

這個(gè)模型好用嗎?

客觀的來(lái)說(shuō),這個(gè)模型有一些地方很難調(diào)參,比如說(shuō)MSE Loss,還有MSE Loss中的隱狀態(tài)的層數(shù),我們并不知道哪一層的結(jié)果最好。總不能每次實(shí)驗(yàn)都去確定層數(shù)吧?這點(diǎn)很困難。除了上述的,其他的都比較好復(fù)現(xiàn)。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • SCWS技術(shù)
    +關(guān)注

    關(guān)注

    0

    文章

    2

    瀏覽量

    5820
  • PMI
    PMI
    +關(guān)注

    關(guān)注

    0

    文章

    14

    瀏覽量

    9160
  • NER
    NER
    +關(guān)注

    關(guān)注

    0

    文章

    7

    瀏覽量

    6197

原文標(biāo)題:如何將邊界信息融入到預(yù)訓(xùn)練模型中?最新頂會(huì)告訴你答案

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    的表達(dá)方式和生成能力。通過(guò)預(yù)測(cè)文本缺失的部分或下個(gè)詞,模型逐漸掌握語(yǔ)言的規(guī)律和特征。 常用的模型結(jié)
    發(fā)表于 08-02 11:03

    語(yǔ)言模型預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語(yǔ)言模型預(yù)訓(xùn)練是這技術(shù)發(fā)展的關(guān)鍵步驟,它通過(guò)在海量無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行
    的頭像 發(fā)表于 07-11 10:11 ?249次閱讀

    LLM預(yù)訓(xùn)練的基本概念、基本原理和主要優(yōu)勢(shì)

    在人工智能和自然語(yǔ)言處理(NLP)領(lǐng)域,大型語(yǔ)言模型(Large Language Model,簡(jiǎn)稱LLM)的興起極大地推動(dòng)了技術(shù)的進(jìn)步和應(yīng)用的發(fā)展。LLM通過(guò)在大規(guī)模文本數(shù)據(jù)上進(jìn)行預(yù)
    的頭像 發(fā)表于 07-10 11:03 ?724次閱讀

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的個(gè)重要概念,尤其是在自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(jué)(CV)
    的頭像 發(fā)表于 07-03 18:20 ?1436次閱讀

    CNN模型的基本原理、結(jié)構(gòu)、訓(xùn)練過(guò)程及應(yīng)用領(lǐng)域

    CNN模型的基本原理、結(jié)構(gòu)、訓(xùn)練過(guò)程以及應(yīng)用領(lǐng)域。 卷積神經(jīng)網(wǎng)絡(luò)的基本原理 1.1 卷積運(yùn)算 卷積運(yùn)算是CNN模型的核心,它是一種數(shù)學(xué)運(yùn)算
    的頭像 發(fā)表于 07-02 15:26 ?1617次閱讀

    語(yǔ)言模型:原理與工程時(shí)間+小白初識(shí)大語(yǔ)言模型

    語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練,此處預(yù)訓(xùn)練為自然
    發(fā)表于 05-12 23:57

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

    輸出的關(guān)鍵詞或短語(yǔ)。對(duì)于任何輸入,大語(yǔ)言模型都會(huì)根據(jù)提示詞提供相應(yīng)的輸出。例如,“天空是”就是個(gè)提示詞,引導(dǎo)模型輸出關(guān)于天空的描述。提示詞的完善度和
    發(fā)表于 05-07 17:21

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型預(yù)訓(xùn)練

    數(shù)據(jù)格式的轉(zhuǎn)換、數(shù)據(jù)字段的匹配和整合等。通過(guò)數(shù)據(jù)級(jí)凈化,可以進(jìn)步提高數(shù)據(jù)的質(zhì)量和可用性,為后續(xù)的數(shù)據(jù)分析和建模提供更有價(jià)值的數(shù)據(jù)支持。 在得到了大語(yǔ)言模型的數(shù)據(jù)之后,就是對(duì)其進(jìn)行預(yù)
    發(fā)表于 05-07 17:10

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

    就無(wú)法修改,因此難以靈活應(yīng)用于下游文本的挖掘。 詞嵌入表示:每個(gè)詞映射為個(gè)低維稠密的實(shí)值向量。不同的是,基于預(yù)訓(xùn)練的詞嵌入表示先在語(yǔ)
    發(fā)表于 05-05 12:17

    【大語(yǔ)言模型:原理與工程實(shí)踐】核心技術(shù)綜述

    我也不打算把網(wǎng)上相關(guān)的信息在總結(jié)下,這樣的話,工作量很大。 我主要看了-大語(yǔ)言模型基礎(chǔ)技術(shù)這節(jié) 大語(yǔ)言
    發(fā)表于 05-05 10:56

    【大語(yǔ)言模型:原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

    學(xué)習(xí)能力。這些模型以生成能力強(qiáng)和靈活性強(qiáng)為特點(diǎn),逐漸演變成一種通用計(jì)算平臺(tái)。其參數(shù)多樣性、生成能力和涌現(xiàn)性使其不僅在自然語(yǔ)言處理領(lǐng)域表現(xiàn)出色,還能適應(yīng)多種復(fù)雜任務(wù)。參數(shù)多樣性讓模型能學(xué)
    發(fā)表于 05-04 23:55

    【大語(yǔ)言模型:原理與工程實(shí)踐】探索《大語(yǔ)言模型原理與工程實(shí)踐》

    處理預(yù)訓(xùn)練架構(gòu)Transformer,以及這些技術(shù)在現(xiàn)實(shí)世界的如何應(yīng)用。通過(guò)具體案例的分析,作者展示了大語(yǔ)言
    發(fā)表于 04-30 15:35

    谷歌模型訓(xùn)練軟件有哪些功能和作用

    谷歌模型訓(xùn)練軟件主要是指ELECTRA,這是一種新的預(yù)訓(xùn)練方法,源自谷歌AI。ELECTRA不僅擁有BERT的優(yōu)勢(shì),而且在效率上更勝
    的頭像 發(fā)表于 02-29 17:37 ?640次閱讀

    語(yǔ)言模型語(yǔ)言與知識(shí):一種神秘的分離現(xiàn)象

    自然語(yǔ)言處理領(lǐng)域存在著個(gè)非常有趣的現(xiàn)象:在多語(yǔ)言模型,不同的語(yǔ)言之間似乎存在著
    發(fā)表于 02-20 14:53 ?364次閱讀
    大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b><b class='flag-5'>中</b>的<b class='flag-5'>語(yǔ)言</b>與知識(shí):<b class='flag-5'>一種</b>神秘的分離現(xiàn)象

    語(yǔ)言模型推斷的批處理效應(yīng)

    隨著開(kāi)源預(yù)訓(xùn)練大型語(yǔ)言模型(Large Language Model, LLM )變得更加強(qiáng)大和開(kāi)放,越來(lái)越多的開(kāi)發(fā)者
    的頭像 發(fā)表于 01-04 12:32 ?492次閱讀
    大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>推斷<b class='flag-5'>中</b>的批處理效應(yīng)