0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NLP數(shù)據(jù)增強(qiáng)的最新綜述

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 2023-03-16 09:13 ? 次閱讀

摘要

作為一種有效的策略,數(shù)據(jù)增強(qiáng) (data augmentation, DA) 緩解了深度學(xué)習(xí)技術(shù)可能失敗的數(shù)據(jù)稀缺情況。

它廣泛應(yīng)用于計(jì)算機(jī)視覺,然后引入自然語言處理,并在許多任務(wù)中取得了改進(jìn)。DA方法的主要重點(diǎn)之一是提高訓(xùn)練數(shù)據(jù)的多樣性,從而幫助模型更好地泛化到看不見的測試數(shù)據(jù)。

在本次綜述中,我們根據(jù)增強(qiáng)數(shù)據(jù)的多樣性將 DA 方法分為三類,包括改寫(paraphrasing)、噪聲(noising)和采樣(sampling)。我們的論文著手根據(jù)上述類別詳細(xì)分析 DA 方法。此外,我們還介紹了它們在 NLP 任務(wù)中的應(yīng)用以及面臨的挑戰(zhàn)。

介紹

數(shù)據(jù)擴(kuò)充是指通過添加對現(xiàn)有數(shù)據(jù)稍作修改的副本或從現(xiàn)有數(shù)據(jù)中新創(chuàng)建的合成數(shù)據(jù)來增加數(shù)據(jù)量的方法。這些方法緩解了深度學(xué)習(xí)技術(shù)可能失敗的數(shù)據(jù)稀缺情況,因此 DA 最近受到了積極的關(guān)注和需求。數(shù)據(jù)增強(qiáng)廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域,例如翻轉(zhuǎn)和旋轉(zhuǎn),然后引入自然語言處理(NLP)。與圖像不同,自然語言是離散的,這使得在 NLP 中采用 DA 方法更加困難且探索不足。

最近提出了大量的 DA 方法,對現(xiàn)有方法的調(diào)查有利于研究人員跟上創(chuàng)新的速度。之前的兩項(xiàng)調(diào)查都提供了 NLP DA 的鳥瞰圖。他們直接按照方法來劃分類別。因此,這些類別往往過于有限或過于籠統(tǒng),例如,反向翻譯和基于模型的技術(shù)。Baier在 DA 上發(fā)布僅用于文本分類的綜述。在本次調(diào)研中,我們將全面概述 NLP 中的 DA 方法。我們的主要目標(biāo)之一是展示 DA 的本質(zhì),即為什么數(shù)據(jù)增強(qiáng)有效。為了促進(jìn)這一點(diǎn),我們根據(jù)增強(qiáng)數(shù)據(jù)的多樣性對 DA 方法進(jìn)行分類,因?yàn)樘岣哂?xùn)練數(shù)據(jù)的多樣性是 DA 有效性的主要推動(dòng)力之一。我們將 DA 方法分為三類,包括改寫、噪聲和采樣。

該論文著手根據(jù)上述類別詳細(xì)分析 DA 方法。此外,還介紹了它們在 NLP 任務(wù)中的應(yīng)用以及面臨的挑戰(zhàn)。

具體內(nèi)容

一共分為五大部分。

全面回顧了這三個(gè)類別,并分析了這些類別中的每一種方法。還介紹了方法的特征,例如粒度和級(jí)別:

582b35b2-c378-11ed-bfe3-dac502259ad0.png

基于改寫(paraphrasing)的方法

基于對句子的適當(dāng)和有限制的更改,生成與原始數(shù)據(jù)具有有限語義差異的增強(qiáng)數(shù)據(jù)。增強(qiáng)數(shù)據(jù)傳達(dá)與原始形式非常相似的信息

基于噪聲(noising)的方法

在保證有效性的前提下加入離散或連續(xù)的噪聲。這些方法的重點(diǎn)是提高模型的魯棒性。

基于抽樣(sampling)的方法

掌握數(shù)據(jù)分布并對其中的新數(shù)據(jù)進(jìn)行抽樣。這些方法輸出更多樣化的數(shù)據(jù),滿足基于人工啟發(fā)式和訓(xùn)練模型的下游任務(wù)的更多需求。

585d9d7c-c378-11ed-bfe3-dac502259ad0.png58cd04d2-c378-11ed-bfe3-dac502259ad0.png

改寫數(shù)據(jù)增強(qiáng)技術(shù)包括三個(gè)層次:詞級(jí)、短語級(jí)和句子級(jí)

58e82c3a-c378-11ed-bfe3-dac502259ad0.png

使用語言模型進(jìn)行改寫

5929c14a-c378-11ed-bfe3-dac502259ad0.png

使用規(guī)則進(jìn)行改寫

5939ebba-c378-11ed-bfe3-dac502259ad0.png

機(jī)器翻譯改寫

595107be-c378-11ed-bfe3-dac502259ad0.png

通過模型生成進(jìn)行改寫

596b45ac-c378-11ed-bfe3-dac502259ad0.png

五種基于噪聲的方法的示例

5990bd28-c378-11ed-bfe3-dac502259ad0.png

基于采樣的模型

59a3474a-c378-11ed-bfe3-dac502259ad0.png

不同DA方法的特點(diǎn)。Learnable表示方法是否涉及模型訓(xùn)練;online 和 offline 表示 DA 過程是在模型訓(xùn)練期間還是之后

總結(jié)了提高增強(qiáng)數(shù)據(jù)質(zhì)量的常用策略和技巧,包括方法堆疊、優(yōu)化和過濾策略。

59bd1328-c378-11ed-bfe3-dac502259ad0.png

影響每個(gè) DA 方法中增強(qiáng)效果的超參數(shù)

分析了上述方法在 NLP 任務(wù)中的應(yīng)用,還通過時(shí)間線展示了 DA 方法的發(fā)展。

59e54820-c378-11ed-bfe3-dac502259ad0.png

5a1f8f30-c378-11ed-bfe3-dac502259ad0.png5a306922-c378-11ed-bfe3-dac502259ad0.png5a48bca2-c378-11ed-bfe3-dac502259ad0.png

介紹了數(shù)據(jù)增強(qiáng)的一些相關(guān)主題,包括預(yù)訓(xùn)練語言模型、對比學(xué)習(xí)、相似數(shù)據(jù)操作方法、生成對抗網(wǎng)絡(luò)和對抗攻擊。目標(biāo)是將數(shù)據(jù)增強(qiáng)與其他主題聯(lián)系起來,同時(shí)展示它們的不同之處。

列出了在 NLP 數(shù)據(jù)增強(qiáng)中觀察到的一些挑戰(zhàn),包括理論敘述和通用方法,揭示了數(shù)據(jù)增強(qiáng)未來的發(fā)展方向。

公開資源

一些有用的api

5a590260-c378-11ed-bfe3-dac502259ad0.png

除了英語,也有其他語種的工具資源:

5a69f6b0-c378-11ed-bfe3-dac502259ad0.png

總結(jié)

在本文中,作者對自然語言處理的數(shù)據(jù)增強(qiáng)進(jìn)行了全面和結(jié)構(gòu)化的調(diào)研。為了檢驗(yàn) DA 的性質(zhì),根據(jù)增強(qiáng)數(shù)據(jù)的多樣性將 DA 方法分為三類,包括改寫、噪聲和采樣。這些類別有助于理解和開發(fā) DA 方法。

還介紹了 DA 方法的特點(diǎn)及其在 NLP 任務(wù)中的應(yīng)用,然后通過時(shí)間線對其進(jìn)行了分析。

此外,還介紹了一些技巧和策略,以便研究人員和從業(yè)者可以參考以獲得更好的模型性能。最后,我們將 DA 與一些相關(guān)主題區(qū)分開來,并概述了當(dāng)前的挑戰(zhàn)以及未來研究的機(jī)遇。







審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 計(jì)算機(jī)視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1694

    瀏覽量

    45901
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    596

    瀏覽量

    13483
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    484

    瀏覽量

    21987

原文標(biāo)題:NLP中關(guān)于數(shù)據(jù)增強(qiáng)的最新綜述

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    NLP的面試題目

    NLP面試題目6-10
    發(fā)表于 05-21 15:02

    全面擁抱Transformer:NLP三大特征抽取器(CNNRNNTF)比較

    放棄幻想,全面擁抱Transformer:NLP三大特征抽取器(CNNRNNTF)比較
    發(fā)表于 05-29 10:43

    NLP的tfidf作詞向量

    NLP之tfidf作詞向量
    發(fā)表于 06-01 17:28

    MOS管驅(qū)動(dòng)電路綜述

      一、MOS管驅(qū)動(dòng)電路綜述  在使用MOS管設(shè)計(jì)開關(guān)電源或者馬達(dá)驅(qū)動(dòng)電路的時(shí)候,大部分人都會(huì)考慮MOS的導(dǎo)通電阻,最大電壓等,最大電流等,也有很多人僅僅考慮這些因素。這樣的電路也許是可以工作的,但
    發(fā)表于 11-12 09:19

    數(shù)據(jù)融合技術(shù)綜述

    文章綜述了多傳感器數(shù)據(jù)融合的歷史、發(fā)展及應(yīng)用, 討論了多傳感器數(shù)據(jù)融合的基本原理、相關(guān)技術(shù)及方法、存在的問題、研究方向, 最后介紹了數(shù)據(jù)融合的應(yīng)用領(lǐng)域, 特別是智能機(jī)
    發(fā)表于 06-22 11:30 ?12次下載

    NLP的介紹和如何利用機(jī)器學(xué)習(xí)進(jìn)行NLP以及三種NLP技術(shù)的詳細(xì)介紹

    本文用簡潔易懂的語言,講述了自然語言處理(NLP)的前世今生。從什么是NLP到為什么要學(xué)習(xí)NLP,再到如何利用機(jī)器學(xué)習(xí)進(jìn)行NLP,值得一讀。這是該系列的第一部分,介紹了三種
    的頭像 發(fā)表于 06-10 10:26 ?7.7w次閱讀
    <b class='flag-5'>NLP</b>的介紹和如何利用機(jī)器學(xué)習(xí)進(jìn)行<b class='flag-5'>NLP</b>以及三種<b class='flag-5'>NLP</b>技術(shù)的詳細(xì)介紹

    NLP-Progress庫NLP的最新數(shù)據(jù)集、論文和代碼

    方向是自然語言處理的同學(xué)們有福啦,為了跟蹤自然語言處理(NLP)的進(jìn)展,有大量仁人志士在 Github 上維護(hù)了一個(gè)名為 NLP-Progress 的庫。它記錄了幾乎所有NLP任務(wù)的 baseline 和 標(biāo)準(zhǔn)
    的頭像 發(fā)表于 11-17 09:21 ?2528次閱讀

    NLP 2019 Highlights 給NLP從業(yè)者的一個(gè)參考

    2019年遇到的與機(jī)器學(xué)習(xí)和NLP相關(guān)的最重要的故事。我將主要關(guān)注NLP,但我還將重點(diǎn)介紹一些與AI相關(guān)的有趣故事。標(biāo)題沒有特別的順序。故事可能包括論文,工程工作,年度報(bào)告,教育資源的發(fā)布等。 論文刊物 ML / NLP創(chuàng)造力與
    的頭像 發(fā)表于 09-25 16:56 ?1682次閱讀

    一種單獨(dú)適配于NER的數(shù)據(jù)增強(qiáng)方法

    ? 本文首先介紹傳統(tǒng)的數(shù)據(jù)增強(qiáng)在NER任務(wù)中的表現(xiàn),然后介紹一種單獨(dú)適配于NER的數(shù)據(jù)增強(qiáng)方法,這種方法生成的數(shù)據(jù)更具豐富性、
    的頭像 發(fā)表于 01-18 16:28 ?3019次閱讀

    NLP事件抽取綜述之挑戰(zhàn)與展望

    本系列文章主要分享近年來事件抽取方法總結(jié),包括中文事件抽取、開放域事件抽取、事件數(shù)據(jù)生成、跨語言事件抽取、小樣本事件抽取、零樣本事件抽取等。主要包括以下幾大部分: 定義(Define) 綜述
    的頭像 發(fā)表于 01-18 16:33 ?3759次閱讀
    <b class='flag-5'>NLP</b>事件抽取<b class='flag-5'>綜述</b>之挑戰(zhàn)與展望

    Windows編程之數(shù)據(jù)類型綜述

    Windows編程之數(shù)據(jù)類型綜述
    發(fā)表于 08-24 15:03 ?5次下載

    基于圖像的數(shù)據(jù)增強(qiáng)方法發(fā)展現(xiàn)狀綜述

    基于圖像的數(shù)據(jù)增強(qiáng)能夠增加訓(xùn)練樣本的多樣性,如通過翻轉(zhuǎn)、添加噪聲等基礎(chǔ)圖像處理操作或根據(jù)現(xiàn)有數(shù)據(jù)生成新的樣本進(jìn)行數(shù)據(jù)集擴(kuò)充、數(shù)據(jù)質(zhì)量的
    發(fā)表于 03-23 17:17 ?1695次閱讀
    基于圖像的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>增強(qiáng)</b>方法發(fā)展現(xiàn)狀<b class='flag-5'>綜述</b>

    幾種常用的NLP數(shù)據(jù)增強(qiáng)方法

    因?yàn)橹苯訉υ俏谋具M(jìn)行數(shù)據(jù)增強(qiáng),很難保證維持原始的文本語義,因此可以通過在語義空間上進(jìn)行隱式數(shù)據(jù)增強(qiáng),簡單列出幾種方法:
    的頭像 發(fā)表于 09-15 14:54 ?1692次閱讀

    人工智能nlp是什么方向

    人工智能nlp是什么方向? 人工智能(AI)已經(jīng)日益普及,正在改變我們的方法和方式。AI 涵蓋了許多領(lǐng)域,其中包括機(jī)器學(xué)習(xí),計(jì)算機(jī)視覺,自然語言處理(NLP)等。在這些方向之中,NLP 是最引人注目
    的頭像 發(fā)表于 08-22 16:45 ?1857次閱讀

    nlp神經(jīng)語言和NLP自然語言的區(qū)別和聯(lián)系

    來改變我們的行為和情感。NLP的目標(biāo)是幫助人們實(shí)現(xiàn)自我改進(jìn),提高溝通技巧,增強(qiáng)領(lǐng)導(dǎo)力和解決問題的能力。 NLP的主要組成部分包括: 感知:了解我們?nèi)绾谓邮蘸吞幚硇畔ⅰ?語言:研究我們?nèi)绾问褂谜Z言來表達(dá)我們的思想和情感。 編程:研
    的頭像 發(fā)表于 07-09 10:35 ?679次閱讀