亚洲欧洲无码精品一区二区三区,91国在线精品国内播放,动漫精品专区一区二区三区不卡

摘要

作為一種有效的策略，數(shù)據(jù)增強(qiáng) (data augmentation, DA) 緩解了深度學(xué)習(xí)技術(shù)可能失敗的數(shù)據(jù)稀缺情況。

它廣泛應(yīng)用于計(jì)算機(jī)視覺，然后引入自然語言處理，并在許多任務(wù)中取得了改進(jìn)。DA方法的主要重點(diǎn)之一是提高訓(xùn)練數(shù)據(jù)的多樣性，從而幫助模型更好地泛化到看不見的測試數(shù)據(jù)。

在本次綜述中，我們根據(jù)增強(qiáng)數(shù)據(jù)的多樣性將 DA 方法分為三類，包括改寫（paraphrasing）、噪聲（noising）和采樣（sampling）。我們的論文著手根據(jù)上述類別詳細(xì)分析 DA 方法。此外，我們還介紹了它們在 NLP 任務(wù)中的應(yīng)用以及面臨的挑戰(zhàn)。

介紹

數(shù)據(jù)擴(kuò)充是指通過添加對現(xiàn)有數(shù)據(jù)稍作修改的副本或從現(xiàn)有數(shù)據(jù)中新創(chuàng)建的合成數(shù)據(jù)來增加數(shù)據(jù)量的方法。這些方法緩解了深度學(xué)習(xí)技術(shù)可能失敗的數(shù)據(jù)稀缺情況，因此 DA 最近受到了積極的關(guān)注和需求。數(shù)據(jù)增強(qiáng)廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域，例如翻轉(zhuǎn)和旋轉(zhuǎn)，然后引入自然語言處理（NLP）。與圖像不同，自然語言是離散的，這使得在 NLP 中采用 DA 方法更加困難且探索不足。

最近提出了大量的 DA 方法，對現(xiàn)有方法的調(diào)查有利于研究人員跟上創(chuàng)新的速度。之前的兩項(xiàng)調(diào)查都提供了 NLP DA 的鳥瞰圖。他們直接按照方法來劃分類別。因此，這些類別往往過于有限或過于籠統(tǒng)，例如，反向翻譯和基于模型的技術(shù)。Baier在 DA 上發(fā)布僅用于文本分類的綜述。在本次調(diào)研中，我們將全面概述 NLP 中的 DA 方法。我們的主要目標(biāo)之一是展示 DA 的本質(zhì)，即為什么數(shù)據(jù)增強(qiáng)有效。為了促進(jìn)這一點(diǎn)，我們根據(jù)增強(qiáng)數(shù)據(jù)的多樣性對 DA 方法進(jìn)行分類，因?yàn)樘岣哂?xùn)練數(shù)據(jù)的多樣性是 DA 有效性的主要推動(dòng)力之一。我們將 DA 方法分為三類，包括改寫、噪聲和采樣。

該論文著手根據(jù)上述類別詳細(xì)分析 DA 方法。此外，還介紹了它們在 NLP 任務(wù)中的應(yīng)用以及面臨的挑戰(zhàn)。

具體內(nèi)容

一共分為五大部分。

全面回顧了這三個(gè)類別，并分析了這些類別中的每一種方法。還介紹了方法的特征，例如粒度和級(jí)別：

基于改寫（paraphrasing）的方法

基于對句子的適當(dāng)和有限制的更改，生成與原始數(shù)據(jù)具有有限語義差異的增強(qiáng)數(shù)據(jù)。增強(qiáng)數(shù)據(jù)傳達(dá)與原始形式非常相似的信息。

基于噪聲（noising）的方法

在保證有效性的前提下加入離散或連續(xù)的噪聲。這些方法的重點(diǎn)是提高模型的魯棒性。

基于抽樣（sampling）的方法

掌握數(shù)據(jù)分布并對其中的新數(shù)據(jù)進(jìn)行抽樣。這些方法輸出更多樣化的數(shù)據(jù)，滿足基于人工啟發(fā)式和訓(xùn)練模型的下游任務(wù)的更多需求。

改寫數(shù)據(jù)增強(qiáng)技術(shù)包括三個(gè)層次：詞級(jí)、短語級(jí)和句子級(jí)

使用語言模型進(jìn)行改寫

使用規(guī)則進(jìn)行改寫

機(jī)器翻譯改寫

通過模型生成進(jìn)行改寫

五種基于噪聲的方法的示例

基于采樣的模型

不同DA方法的特點(diǎn)。Learnable表示方法是否涉及模型訓(xùn)練；online 和 offline 表示 DA 過程是在模型訓(xùn)練期間還是之后

總結(jié)了提高增強(qiáng)數(shù)據(jù)質(zhì)量的常用策略和技巧，包括方法堆疊、優(yōu)化和過濾策略。

影響每個(gè) DA 方法中增強(qiáng)效果的超參數(shù)

分析了上述方法在 NLP 任務(wù)中的應(yīng)用,還通過時(shí)間線展示了 DA 方法的發(fā)展。

介紹了數(shù)據(jù)增強(qiáng)的一些相關(guān)主題，包括預(yù)訓(xùn)練語言模型、對比學(xué)習(xí)、相似數(shù)據(jù)操作方法、生成對抗網(wǎng)絡(luò)和對抗攻擊。目標(biāo)是將數(shù)據(jù)增強(qiáng)與其他主題聯(lián)系起來，同時(shí)展示它們的不同之處。

列出了在 NLP 數(shù)據(jù)增強(qiáng)中觀察到的一些挑戰(zhàn)，包括理論敘述和通用方法,揭示了數(shù)據(jù)增強(qiáng)未來的發(fā)展方向。

公開資源

一些有用的api：

除了英語，也有其他語種的工具資源：

總結(jié)

在本文中，作者對自然語言處理的數(shù)據(jù)增強(qiáng)進(jìn)行了全面和結(jié)構(gòu)化的調(diào)研。為了檢驗(yàn) DA 的性質(zhì)，根據(jù)增強(qiáng)數(shù)據(jù)的多樣性將 DA 方法分為三類，包括改寫、噪聲和采樣。這些類別有助于理解和開發(fā) DA 方法。

還介紹了 DA 方法的特點(diǎn)及其在 NLP 任務(wù)中的應(yīng)用，然后通過時(shí)間線對其進(jìn)行了分析。

此外，還介紹了一些技巧和策略，以便研究人員和從業(yè)者可以參考以獲得更好的模型性能。最后，我們將 DA 與一些相關(guān)主題區(qū)分開來，并概述了當(dāng)前的挑戰(zhàn)以及未來研究的機(jī)遇。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴