日韩欧美国产高清在线观看,国产色诱美女免费视频,性做久久久久久蜜桃花

數(shù)據(jù)的標簽錯誤隨處可見，如何在噪聲數(shù)據(jù)集上學習到一個好的分類器，是很多研究者探索的話題。在 Learning With Noisy Labels 這個大背景下，很多方法在圖像數(shù)據(jù)集上表現(xiàn)出了非常好的效果。

而文本的標簽錯誤有時很難鑒別。比如對于一段文本，可能專家對于其主旨類別的看法都不盡相同。這些策略是否在語言模型，在文本數(shù)據(jù)集上表現(xiàn)好呢？本文探索了文本噪聲標簽在預訓練語言模型（PLMs）上的特性，提出了一種新的學習策略 SelfMix，并機器視覺上常用的方法應用于預訓練語言模型作為 baseline。

為什么選 PLMs

我們對于常見語言分類模型在帶噪文本數(shù)據(jù)集上做了一些前期實驗，結(jié)果如下：

首先，毫無疑問，預訓練模型（BERT，RoBERTa）的表現(xiàn)更好。其次，文章提到，預訓練模型已經(jīng)在大規(guī)模的預訓練語料上獲得了一定的類別先驗知識。故而在有限輪次訓練之后，依然具有較高的準確率，如何高效利用預訓練知識處理標簽噪聲，也是一個值得探索的話題。

預訓練模型雖然有一定的抗噪學習能力，但在下游任務的帶噪數(shù)據(jù)上訓練時也會受到噪聲標簽的影響，這種現(xiàn)象在少樣本，高噪聲比例的設(shè)置下更加明顯。

方法

由此，我們提出了 SelfMix，一種對抗文本噪聲標簽的學習策略。

基礎(chǔ)模型上，我們采用了 BERT encoder + MLP 這一常用的分類范式。

針對帶噪學習策略，主要可以分為兩個部分

Sample Selection

Semi-supervised Learning

Sample Selection

Sample Selection 部分對于原始數(shù)據(jù)集，經(jīng)過模型的一次傳播，根據(jù)每個樣本對應的 loss，通過 2 核的 GMM 擬合將數(shù)據(jù)集分為干凈和帶噪聲的兩個部分，分別為和。因為其中被認為是噪聲數(shù)據(jù)集，所以其標簽全部被去除，認為是無標簽數(shù)據(jù)集。

這里的 GMM，簡單的來講其實可以看作是根據(jù)整體的 loss 動態(tài)擬合出一個閾值（而不是規(guī)定一個閾值，因為在訓練過程中這個閾值會變化），將 loss 位于閾值兩邊的分別分為 clean samples 和 noise samples。

Semi-supervised Learning

關(guān)于 Semi-supervised Learning 部分，SelfMix 首先利用模型給給無標簽的數(shù)據(jù)集打偽標簽（這里采用了 soft label 的形式），得到。因為打偽標簽需要模型在這個下游任務上有一定的判別能力，所以模型需要預先 warmup 的少量的步數(shù)。

「Textual Mixup」：文中采用了句子 [CLS] embedding 做 mixup。Mixup 也是半監(jiān)督和魯棒學習中經(jīng)常采用的一個策略。

「Pseudo-Loss」：文中的解釋比較拗口，其實本質(zhì)也是一種在半監(jiān)督訓練過程中常用的對模型輸出墑的約束。

「Self-consistency Regularization」：其他的很多帶噪學習方法大都是多模型集成決策的想法，但我們認為可以利用 dropout 機制來使得單個模型做自集成。噪聲數(shù)據(jù)因為與標簽的真實分布相悖，往往會導致子模型之間產(chǎn)生很大的分歧，我們不希望在高噪聲環(huán)境下子模型的分歧越來越大，故而采用了 R-Drop 來約束子模型。具體的做法是，計算兩次傳播概率分布之間的 KL 散度，作為 loss 的一部分，并且消融實驗證明這個方法是十分有效的。

實驗

我們在 IDN (Instance-Dependent Noise) 和 Asym (Asymmetric Noise) 做了實驗，并且對數(shù)據(jù)集做了切分來擬合數(shù)據(jù)充分和數(shù)據(jù)補充的情況，并設(shè)置了不同比例的標簽噪聲來擬合微量噪聲至極端噪聲下的情況，上圖！

ASYM 噪聲實驗結(jié)果

ASYM 噪聲按照一個特定的噪聲轉(zhuǎn)移矩陣將一個類別樣本的標簽隨機轉(zhuǎn)換為一個特定類別的標簽，來形成類別之間的混淆。

IDN 噪聲實驗結(jié)果

為了擬合基于樣本特征的錯標情況，我們訓練了一個LSTM文本分類，對于一個樣本，將LSTM對于其預測結(jié)果中更容易錯的類別作為其可能的噪聲標簽。

其他的一些討論

GMM 是否有效：從 a-c, d-f 可看出高斯混合模型能夠比較充分得擬合 clean 和 noise 樣本的 loss 分布。

SelfMix 對防止模型過擬合噪聲的效果是否明顯：d, h 兩張圖中，BERT-base 和 SelfMix 的 warmup 過程是完全一致的，warmup 過后 SelfMix 確實給模型的性能帶來了一定的提升，并且趨于穩(wěn)定，有效避免了過擬合噪聲的現(xiàn)象。

考慮到模型最終的優(yōu)化目標包括三個項，我們做了消融實驗，分別去掉其中一個約束來看看模型表現(xiàn)如何，最終證明每個約束確實對于處理噪聲標簽有幫助。

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

噪聲

噪聲

+關(guān)注

關(guān)注
13

文章
1115

瀏覽量
47341
語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
502

瀏覽量
10236
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1201

瀏覽量
24622

原文標題：COLING'22 | SelfMix：針對帶噪數(shù)據(jù)集的半監(jiān)督學習方法

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一文詳解知識增強的語言預訓練模型

隨著預訓練語言模型(PLMs)的不斷發(fā)展，各種NLP任務設(shè)置上都取得了不俗的性能。盡管

發(fā)表于 04-02 17:21 ?9509次閱讀

【大語言模型：原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

之后，成為文本建模領(lǐng)域的熱門架構(gòu)。不僅如此，它還對自然語言處理領(lǐng)域產(chǎn)生了深遠的影響?；赥ransformer的預訓練模型，如GPT系列和B

發(fā)表于 05-05 12:17

【大語言模型：原理與工程實踐】大語言模型的預訓練

大語言模型的核心特點在于其龐大的參數(shù)量，這賦予了模型強大的學習容量，使其無需依賴微調(diào)即可適應各種下游任務，而更傾向于培養(yǎng)通用的處理能力。然而，隨著學習容量的增加，對預

發(fā)表于 05-07 17:10

基于BERT的中文科技NLP預訓練模型

深度學習模型應用于自然語言處理任務時依賴大型、高質(zhì)量的人工標注數(shù)據(jù)集。為降低深度學習模型對大型數(shù)據(jù)集的依賴，提出一種基于BERT的中文科技自然語言處理

發(fā)表于 05-07 10:08 ?14次下載

如何向大規(guī)模預訓練語言模型中融入知識？

本文關(guān)注于向大規(guī)模預訓練語言模型（如RoBERTa、BERT等）中融入知識。

發(fā)表于 06-23 15:07 ?4159次閱讀

如何向大規(guī)模<b class='flag-5'>預</b><b class='flag-5'>訓練</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>中融入知識？

如何實現(xiàn)更綠色、經(jīng)濟的NLP預訓練模型遷移

NLP中，預訓練大模型Finetune是一種非常常見的解決問題的范式。利用在海量文本上預

發(fā)表于 03-21 15:33 ?2152次閱讀

Multilingual多語言預訓練語言模型的套路

Facebook在Crosslingual language model pretraining（NIPS 2019）一文中提出XLM預訓練多語言模型，整體思路基于BERT，并提出了針

發(fā)表于 05-05 15:23 ?2910次閱讀

一種基于亂序語言模型的預訓練模型-PERT

由于亂序語言模型不使用[MASK]標記，減輕了預訓練任務與微調(diào)任務之間的gap，并由于預測空間大小為輸入序列長度，使得計算效率高于掩碼語言

發(fā)表于 05-10 15:01 ?1487次閱讀

利用視覺語言模型對檢測器進行預訓練

預訓練通常被用于自然語言處理以及計算機視覺領(lǐng)域，以增強主干網(wǎng)絡的特征提取能力，達到加速訓練和提高模型泛化性能的目的。該方法亦可以用于場景

發(fā)表于 08-08 15:33 ?1338次閱讀

CogBERT：腦認知指導的預訓練語言模型

另一方面，從語言處理的角度來看，認知神經(jīng)科學研究人類大腦中語言處理的生物和認知過程。研究人員專門設(shè)計了預訓練的模型來捕捉大腦如何表示

發(fā)表于 11-03 15:07 ?1021次閱讀

復旦&微軟提出?OmniVL：首個統(tǒng)一圖像、視頻、文本的基礎(chǔ)預訓練模型

根據(jù)輸入數(shù)據(jù)和目標下游任務的不同，現(xiàn)有的VLP方法可以大致分為兩類：圖像-文本預訓練和視頻-文本預訓練

發(fā)表于 12-14 15:26 ?860次閱讀

預訓練數(shù)據(jù)大小對于預訓練模型的影響

BERT類模型的工作模式簡單，但取得的效果也是極佳的，其在各項任務上的良好表現(xiàn)主要得益于其在大量無監(jiān)督文本上學習到的文本表征能力。那么如何從語言

發(fā)表于 03-03 11:20 ?1343次閱讀

基于預訓練模型和語言增強的零樣本視覺學習

Stable Diffusion 多模態(tài)預訓練模型考慮多標簽圖像分類任務——每幅圖像大于一個類別如果已有圖文對齊模型——能否用

發(fā)表于 06-15 16:36 ?529次閱讀

預訓練模型的基本原理和應用

預訓練模型（Pre-trained Model）是深度學習和機器學習領(lǐng)域中的一個重要概念，尤其是在自然語言處理（NLP）和計算機視覺（CV）等領(lǐng)域中得到了廣泛應用。

發(fā)表于 07-03 18:20 ?2148次閱讀

大語言模型的預訓練

能力，逐漸成為NLP領(lǐng)域的研究熱點。大語言模型的預訓練是這一技術(shù)發(fā)展的關(guān)鍵步驟，它通過在海量無標簽數(shù)據(jù)上進行

發(fā)表于 07-11 10:11 ?368次閱讀

搜索歷史

文本噪聲標簽在預訓練語言模型（PLMs）上的特性

評論