最近最新中文字幕大全高清4 ,亚洲人成网亚洲欧洲无码,欧美成人精品三级网站下载

來自：圓圓的算法筆記

今天給大家介紹3篇EMNLP 2022中語言模型訓(xùn)練方法優(yōu)化的工作，這3篇工作分別是：

針對檢索優(yōu)化語言模型：優(yōu)化語言模型訓(xùn)練過程，使能夠生成更合適的句子表示用于檢索——RetroMAE: Pre-training Retrieval-oriented Transformers via Masked Auto-Encoder；

針對事實(shí)知識(shí)提取優(yōu)化語言模型：在語言模型訓(xùn)練過程中引入知識(shí)庫，提升語言模型對事實(shí)知識(shí)的抽取能力——Pre-training Language Models with Deterministic Factual Knowledge；

針對目標(biāo)域效果優(yōu)化語言模型：將語言模型在目標(biāo)domain繼續(xù)訓(xùn)練，在不遺忘原始知識(shí)的情況下學(xué)到目標(biāo)doman新知識(shí)——Continual Training of Language Models for Few-Shot Learning。

后臺(tái)回復(fù)【語言模型】，可以獲取14種深度學(xué)習(xí)語言模型的梳理資料。

1 針對檢索優(yōu)化語言模型

在query-document檢索任務(wù)中，核心是獲取到query和document的句子表征，然后利用向量檢索的方式完成檢索任務(wù)。BERT已經(jīng)成為提取句子表示向量的主流方法。然而，BERT在預(yù)訓(xùn)練階段的主要任務(wù)是MLM，缺少對句子整體表示提取的優(yōu)化目標(biāo)，導(dǎo)致句子表示提取能力不足。

RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder這篇文章對BERT的訓(xùn)練方式進(jìn)行了優(yōu)化，使得BERT能提取更高質(zhì)量的句子表示，進(jìn)而提升檢索效果。RetroMAE的整體結(jié)構(gòu)如下圖所示，包括一個(gè)Encoder和一個(gè)Decoder。對于每一個(gè)樣本，Encoder的輸入隨機(jī)mask掉15%的token，和原始BERT類似，利用Encoder得到整體的句子表示。在Decoder側(cè)，輸入Encoder的句子表示，以及mask掉70%的token的樣本，讓Decoder還原整個(gè)句子。Encoder是一個(gè)比較復(fù)雜的BERT模型，Decoder則使用一個(gè)比較簡單的單層Transformer模型。

本文的模型設(shè)計(jì)思路是，Decoder提供的信息盡可能少、模型的復(fù)雜度盡可能低，這樣可以迫使Encoder生成的句子表示包含更完整的句子信息，保障了Encoder生成的句子embedding的質(zhì)量。相比對比學(xué)習(xí)學(xué)習(xí)句子表示的方法，RetroMAE的優(yōu)勢是效果不依賴于數(shù)據(jù)增強(qiáng)方法和正負(fù)樣本構(gòu)造方法的選擇。

2 針對事實(shí)知識(shí)提取優(yōu)化語言模型

隨著prompt的興起，預(yù)訓(xùn)練語言模型經(jīng)常被用于進(jìn)行知識(shí)抽取。構(gòu)造一個(gè)prompt模板，以完形填空的形式讓模型預(yù)測空缺位置的token，實(shí)現(xiàn)知識(shí)抽取。然而，預(yù)訓(xùn)練語言模型的抽取結(jié)果有時(shí)會(huì)很大程度上受到prompt選擇的影響，如下表所示，魯棒性較差。一個(gè)核心原因是，在訓(xùn)練語言模型的過程中，有些被mask掉的部分并不一定只有唯一一個(gè)正確答案。當(dāng)被mask部分存在多個(gè)正確答案，而模型在訓(xùn)練過程中被要求只預(yù)測一個(gè)正確答案時(shí)，就會(huì)導(dǎo)致其他本來正確的答案被強(qiáng)行設(shè)置成為負(fù)樣本，進(jìn)而影響了模型效果。

Pre-training Language Models with Deterministic Factual Knowledge針對這個(gè)問題，提出了在構(gòu)造預(yù)訓(xùn)練樣本時(shí)，引入知識(shí)庫對數(shù)據(jù)進(jìn)行過濾。核心是在KG中查找知識(shí)信息，看樣本中被mask掉的實(shí)體是否這段文本的描述中唯一確定的正確答案。如果是，那么這個(gè)樣本不會(huì)給語言模型帶來歧義，正常參與訓(xùn)練；否則就是一個(gè)多答案樣本，從訓(xùn)練數(shù)據(jù)中去除掉。通過這種數(shù)據(jù)過濾的方式，讓模型在訓(xùn)練階段見到的預(yù)測任務(wù)都是只有一個(gè)確定答案的，解決了多答案mask token預(yù)測的影響。

為了進(jìn)一步提升模型能力，文中提出了Clue Contrastive Learning和Clue Classification兩個(gè)任務(wù)。Clue Contrastive Learning的目標(biāo)是讓模型具備一種能力：當(dāng)上下文指向的答案是確定性的時(shí)候，就預(yù)測一個(gè)更有信心一些。通過構(gòu)造確定性樣本和非確定性樣本，以這對樣本的對比關(guān)系進(jìn)行學(xué)習(xí)。Clue Classification讓語言模型知道上下文信息中存在什么樣的線索。通過保留決定性線索、刪除決定性線索、刪除其他非決定性線性構(gòu)造三種樣本用于分類。

3 針對目標(biāo)域效果優(yōu)化語言模型

在使用預(yù)訓(xùn)練語言模型解決下游NLP任務(wù)時(shí)，如果目標(biāo)任務(wù)的有l(wèi)abel數(shù)據(jù)較少，一種能提升效果的方法是先將語言模型在目標(biāo)任務(wù)domain上無監(jiān)督語料上繼續(xù)訓(xùn)練，讓語言模型適應(yīng)目標(biāo)任務(wù)的文本分布。在面對下游各類、持續(xù)增加的任務(wù)時(shí)，我們需要不斷的使用新任務(wù)domain的語言訓(xùn)練語言模型。這樣做的風(fēng)險(xiǎn)可能會(huì)破壞原來語言模型學(xué)到的知識(shí)，導(dǎo)致信息遺忘等問題，帶來老任務(wù)上效果的下降。

Continual Training of Language Models for Few-Shot Learning提出了一種語言模型連續(xù)學(xué)習(xí)的方法解決上述問題。核心思路是借鑒了Adapter，在語言模型中插入多個(gè)CL組件（全連接層），模型在目標(biāo)domain語言上繼續(xù)學(xué)習(xí)的過程中，只更新這些CL組件，原始的語言模型保持參數(shù)不變。在具體任務(wù)上finetune時(shí)，語言模型和CL組件一起更新。

這里面的一個(gè)關(guān)鍵模塊是使用task id生成CL組件中的mask，每個(gè)任務(wù)的mask代表了哪些神經(jīng)元對于當(dāng)前任務(wù)最重要，這些神經(jīng)元會(huì)在后續(xù)新任務(wù)的訓(xùn)練中被mask掉，不進(jìn)行梯度更新，防止新任務(wù)對老任務(wù)已經(jīng)學(xué)到的信息造成影響。每次訓(xùn)練一個(gè)新任務(wù)時(shí)，會(huì)把老任務(wù)的mask匯總起來控制住不更新的神經(jīng)元，并且對新的task也學(xué)習(xí)一套mask。

4 總結(jié)

本文主要介紹了3篇EMNLP 2022中和語言模型優(yōu)化相關(guān)的工作，涉及檢索、知識(shí)提取、持續(xù)學(xué)習(xí)等方面。語言模型在很多場景有各種各樣的應(yīng)用，學(xué)術(shù)界對于語言模型的優(yōu)化方向，逐漸從原來的大規(guī)模預(yù)訓(xùn)練方式、模型結(jié)構(gòu)優(yōu)化，轉(zhuǎn)向到細(xì)領(lǐng)域的針對性優(yōu)化。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

算法

算法

+關(guān)注

關(guān)注
23

文章
4587

瀏覽量
92501
nlp

nlp

+關(guān)注

關(guān)注
1

文章
484

瀏覽量
21987

原文標(biāo)題：介紹幾篇EMNLP'22的語言模型訓(xùn)練方法優(yōu)化工作

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

【大語言模型：原理與工程實(shí)踐】揭開大語言模型的面紗

復(fù)用和優(yōu)化效果。這些趨勢共同推動(dòng)了大語言模型在深度學(xué)習(xí)研究和應(yīng)用中的重要地位。數(shù)據(jù)效應(yīng)指出大型模型需要更多數(shù)據(jù)進(jìn)行訓(xùn)練，以提高性能。其次，表

發(fā)表于 05-04 23:55

【大語言模型：原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

全面剖析大語言模型的核心技術(shù)與基礎(chǔ)知識(shí)。首先，概述自然語言的基本表示，這是理解大語言模型技術(shù)的前提。接著，詳細(xì)

發(fā)表于 05-05 12:17

【大語言模型：原理與工程實(shí)踐】大語言模型的預(yù)訓(xùn)練

大語言模型的核心特點(diǎn)在于其龐大的參數(shù)量，這賦予了模型強(qiáng)大的學(xué)習(xí)容量，使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù)，而更傾向于培養(yǎng)通用的處理能力。然而，隨著學(xué)習(xí)容量的增加，對預(yù)訓(xùn)練數(shù)據(jù)的需求也相

發(fā)表于 05-07 17:10

Pytorch模型訓(xùn)練實(shí)用PDF教程【中文】

本教程以實(shí)際應(yīng)用、工程開發(fā)為目的，著重介紹模型訓(xùn)練過程中遇到的實(shí)際問題和方法。在機(jī)器學(xué)習(xí)模型開發(fā)中，主要涉及三大部分，分別是數(shù)據(jù)、

發(fā)表于 12-21 09:18

優(yōu)化神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法有哪些？

優(yōu)化神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法有哪些？

發(fā)表于 09-06 09:52

基于粒子群優(yōu)化的條件概率神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法

的訓(xùn)練方法。我們將這種基于粒子群優(yōu)化的條件概率神經(jīng)網(wǎng)絡(luò)用于人臉年齡估計(jì)，實(shí)驗(yàn)結(jié)果表明這種網(wǎng)絡(luò)能夠顯著地提高識(shí)別的準(zhǔn)確率。

發(fā)表于 01-08 16:35 ?0次下載

微軟在ICML 2019上提出了一個(gè)全新的通用預(yù)訓(xùn)練方法MASS

專門針對序列到序列的自然語言生成任務(wù)，微軟亞洲研究院提出了新的預(yù)訓(xùn)練方法：屏蔽序列到序列預(yù)訓(xùn)練（MASS: Masked Sequence to Sequence Pre-training

發(fā)表于 05-11 09:19 ?3453次閱讀

微軟在ICML 2019上提出了一個(gè)全新的通用預(yù)<b class='flag-5'>訓(xùn)練方法</b>MASS

新的預(yù)訓(xùn)練方法——MASS！MASS預(yù)訓(xùn)練幾大優(yōu)勢！

專門針對序列到序列的自然語言生成任務(wù)，微軟亞洲研究院提出了新的預(yù)訓(xùn)練方法：屏蔽序列到序列預(yù)訓(xùn)練（MASS: Masked Sequence to Sequence Pre-training）。MASS對句子隨機(jī)屏蔽一個(gè)長度為k的

發(fā)表于 05-11 09:34 ?7051次閱讀

新的預(yù)<b class='flag-5'>訓(xùn)練方法</b>——MASS！MASS預(yù)<b class='flag-5'>訓(xùn)練</b>幾大優(yōu)勢！

關(guān)于語言模型和對抗訓(xùn)練的工作

訓(xùn)練方法不僅能夠在BERT上有提高，而且在RoBERTa這種已經(jīng)預(yù)訓(xùn)練好的模型上也能有所提高，說明對抗訓(xùn)練的確可以幫助模型糾正易錯(cuò)點(diǎn)。

發(fā)表于 11-02 15:26 ?2053次閱讀

關(guān)于<b class='flag-5'>語言</b><b class='flag-5'>模型</b>和對抗<b class='flag-5'>訓(xùn)練</b>的<b class='flag-5'>工作</b>

一種側(cè)重于學(xué)習(xí)情感特征的預(yù)訓(xùn)練方法

在大規(guī)模無監(jiān)督語料上預(yù)訓(xùn)練的語言模型正逐漸受到自然語言處理領(lǐng)琙硏究者的關(guān)注?，F(xiàn)有模型在預(yù)訓(xùn)練階段

發(fā)表于 04-13 11:40 ?4次下載

一種側(cè)重于學(xué)習(xí)情感特征的預(yù)<b class='flag-5'>訓(xùn)練方法</b>

現(xiàn)代交互技術(shù)下的兒童語言表達(dá)訓(xùn)練方法

現(xiàn)代交互技術(shù)下的兒童語言表達(dá)訓(xùn)練方法

發(fā)表于 06-27 11:27 ?3次下載

Multilingual多語言預(yù)訓(xùn)練語言模型的套路

Facebook在Crosslingual language model pretraining（NIPS 2019）一文中提出XLM預(yù)訓(xùn)練多語言模型，整體思路基于BERT，并提出了針對多語言

發(fā)表于 05-05 15:23 ?2909次閱讀

訓(xùn)練大語言模型帶來的硬件挑戰(zhàn)

生成式AI和大語言模型（LLM）正在以難以置信的方式吸引全世界的目光，本文簡要介紹了大語言模型，訓(xùn)練

發(fā)表于 09-01 17:14 ?1490次閱讀

混合專家模型 (MoE)核心組件和訓(xùn)練方法介紹

) 的 Transformer 模型在開源人工智能社區(qū)引起了廣泛關(guān)注。在本篇博文中，我們將深入探討 MoEs 的核心組件、訓(xùn)練方法，以及在推理過程中需要考量的各種因素。讓我們開始吧！簡短總結(jié) 混合專家模型 (MoEs

發(fā)表于 01-13 09:37 ?1144次閱讀

ai大模型訓(xùn)練方法有哪些？

AI大模型訓(xùn)練方法是一個(gè)復(fù)雜且不斷發(fā)展的領(lǐng)域。以下是ai大模型訓(xùn)練方法：數(shù)據(jù)預(yù)處理和增強(qiáng) 數(shù)據(jù)清洗：去除噪聲和不完整的數(shù)據(jù)。數(shù)據(jù)標(biāo)準(zhǔn)化：將數(shù)據(jù)縮放到統(tǒng)一的范圍。數(shù)據(jù)增強(qiáng)：通過旋轉(zhuǎn)

發(fā)表于 07-16 10:11 ?1287次閱讀

搜索歷史

介紹幾篇EMNLP'22的語言模型訓(xùn)練方法優(yōu)化工作

評論