0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NeurIPS 2023 | 如何從理論上研究生成式數(shù)據(jù)增強的效果?

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2023-11-05 20:15 ? 次閱讀

wKgaomVHiHWAIPX3AAELXgVPVYM448.png

論文鏈接:https://arxiv.org/abs/2305.17476

代碼鏈接:

https://github.com/ML-GSAI/Understanding-GDA

wKgaomVHiHWAF1oQAAAl6LOgh3c275.png

概述

生成式數(shù)據(jù)擴增通過條件生成模型生成新樣本來擴展數(shù)據(jù)集,從而提高各種學(xué)習(xí)任務(wù)的分類性能。然而,很少有人從理論上研究生成數(shù)據(jù)增強的效果。為了填補這一空白,我們在這種非獨立同分布環(huán)境下構(gòu)建了基于穩(wěn)定性的通用泛化誤差界?;谕ㄓ玫姆夯?,我們進一步了探究了高斯混合模型和生成對抗網(wǎng)絡(luò)的學(xué)習(xí)情況。

在這兩種情況下,我們證明了,雖然生成式數(shù)據(jù)增強并不能享受更快的學(xué)習(xí)率,但當(dāng)訓(xùn)練集較小時,它可以在一個常數(shù)的水平上提高學(xué)習(xí)保證,這在發(fā)生過擬合時是非常重要的。最后,高斯混合模型的仿真結(jié)果和生成式對抗網(wǎng)絡(luò)的實驗結(jié)果都支持我們的理論結(jié)論。

wKgaomVHiHaAWhR6AAAuhh9-KLM150.png

主要的理論結(jié)果

2.1 符號與定義

作為數(shù)據(jù)輸入空間, 作為標(biāo)簽空間。定義 上的真實分布。給定集合 ,我們定義 為去掉第 個數(shù)據(jù)后剩下的集合, 為把第 個數(shù)據(jù)換成 后的集合。我們用 表示 total variation distance。

我們讓 為所有從 的所有可測函數(shù), 為學(xué)習(xí)算法,從數(shù)據(jù)集 中學(xué)到的映射。對于一個學(xué)到的映射 和損失函數(shù),真實誤差 被定義。相應(yīng)的經(jīng)驗的誤差 被定義。

我們文章理論推導(dǎo)采用的是穩(wěn)定性框架,我們稱算法 相對于損失函數(shù) 是一致 穩(wěn)定的,如果

wKgaomVHiHaAFnd0AAAz9Dvxuko037.png

2.2 生成式數(shù)據(jù)增強

給定帶有 個 i.i.d. 樣本的 數(shù)據(jù)集,我們能訓(xùn)練一個條件生成模型 ,并將學(xué)到的分布定義為 ?;谟?xùn)練得到的條件生成模型,我們能生成一個新的具有 個 i.i.d. 樣本的數(shù)據(jù)集 。我們記增廣后的數(shù)據(jù)集 大小為 。我們可以在增廣后的數(shù)據(jù)集上學(xué)到映射 。為了理解生成式數(shù)據(jù)增強,我們關(guān)心泛化誤差 。據(jù)我們所知,這是第一個理解生成式數(shù)據(jù)增強泛化誤差的工作。

2.3 一般情況

我們可以對于任意的生成器和一致 穩(wěn)定的分類器,推得如下的泛化誤差:wKgaomVHiHaAHCBWAAKzlDp-QcM311.png▲ general一般來說,我們比較關(guān)心泛化誤差界關(guān)于樣本數(shù) 的收斂率。將 看成超參數(shù),并將后面兩項記為 generalization error w.r.t. mixed distribution,我們可以定義如下的“最有效的增強數(shù)量”:

wKgaomVHiHaAWSEFAAA431R2LDc421.png

在這個設(shè)置下,并和沒有數(shù)據(jù)增強的情況進行對比(),我們可以得到如下的充分條件,它刻畫了生成式數(shù)據(jù)增強何時(不)能夠促進下游分類任務(wù),這和生成模型學(xué)習(xí)分的能力息息相關(guān):

wKgaomVHiHaADuBdAAGRk94Vijc927.png

▲ corollary

2.4 高斯混合模型為了驗證我們理論的正確性,我們先考慮了一個簡單的高斯混合模型的 setting。 混合高斯分布。我們考慮二分類任務(wù) 。我們假設(shè)真實分布滿足 and 。我們假設(shè) 的分布是已知的。 線性分類器。我們考慮一個被 參數(shù)化的分類器,預(yù)測函數(shù)為 。給定訓(xùn)練集, 通過最小化負(fù)對數(shù)似然損失函數(shù)得到,即最小化

wKgaomVHiHaAQ8KHAAAsqSi2TVI092.png

學(xué)習(xí)算法將會推得 ,which satisfies 條件生成模型。我們考慮參數(shù)為 的條件生成模型,其中 以及 。給定訓(xùn)練集,讓 為第 類的樣本量,條件生成模型學(xué)到

wKgaomVHiHaATVbZAAA1KPe_-gQ666.png

它們是 的無偏估計。我們可以從這個條件模型中進行采樣,即 ,,其中 。 我們在高斯混合模型的場景下具體計算 Theorem 3.1 中的各個項,可以推得

wKgaomVHiHeANFfaAAKrroYCtMc232.png

▲ GMM
  1. 當(dāng)數(shù)據(jù)量 足夠時,即使我們采用“最有效的增強數(shù)量”,生成式數(shù)據(jù)增強也難以提高下游任務(wù)的分類性能。
  2. 當(dāng)數(shù)據(jù)量 較小的,此時主導(dǎo)泛化誤差的是維度等其他項,此時進行生成式數(shù)據(jù)增強可以常數(shù)級降低泛化誤差,這意味著在過擬合的場景下,生成式數(shù)據(jù)增強是很有必要的。

2.5 生成對抗網(wǎng)絡(luò)

我們也考慮了深度學(xué)習(xí)的情況。我們假設(shè)生成模型為 MLP 生成對抗網(wǎng)絡(luò),分類器為 層 MLP 或者 CNN。損失函數(shù)為二元交叉熵,優(yōu)化算法為 SGD。我們假設(shè)損失函數(shù)平滑,并且第 層的神經(jīng)網(wǎng)絡(luò)參數(shù)可以被 控制。我們可以推得如下的結(jié)論:

wKgaomVHiHeAWBT7AAMhGLp_Mz4284.png

▲ GAN
  1. 當(dāng)數(shù)據(jù)量 足夠時,生成式數(shù)據(jù)增強也難以提高下游任務(wù)的分類性能,甚至?xí)夯?/span>
  2. 當(dāng)數(shù)據(jù)量 較小的,此時主導(dǎo)泛化誤差的是維度等其他項,此時進行生成式數(shù)據(jù)增強可以常數(shù)級降低泛化誤差,同樣地,這意味著在過擬合的場景下,生成式數(shù)據(jù)增強是很有必要的。

wKgaomVHiHeAKZIiAAAtJ0fTuoM406.png

實驗

3.1 高斯混合模型模擬實驗

我們在混合高斯分布上驗證我們的理論,我們調(diào)整數(shù)據(jù)量 ,數(shù)據(jù)維度 以及 。實驗結(jié)果如下圖所示:

wKgaomVHiHeAYt00AAPmkD4BAPc854.png

simulation

  1. 觀察圖(a),我們可以發(fā)現(xiàn)當(dāng) 相對于 足夠大的時候,生成式數(shù)據(jù)增強的引入并不能明顯改變泛化誤差。
  2. 觀察圖(d),我們可以發(fā)現(xiàn)當(dāng) 固定時,真實的泛化誤差確實是 階的,且隨著增強數(shù)量 的增大,泛化誤差呈現(xiàn)常數(shù)級的降低。
  3. 另外 4 張圖,我們選取了兩種情況,驗證了我們的 bound 能在趨勢上一定程度上預(yù)測泛化誤差。
這些結(jié)果支持了我們理論的正確性。3.2 深度生成模型實驗我們使用 ResNet 作為分類器,cDCGAN、StyleGANv2-ADA 和 EDM 作為深度生成模型,在 CIFAR-10 數(shù)據(jù)集上進行了實驗。實驗結(jié)果如下所示。由于訓(xùn)練集上訓(xùn)練誤差都接近 0,所以測試集上的錯誤率是泛化誤差的一個比較好的估計。我們利用是否做額外的數(shù)據(jù)增強(翻轉(zhuǎn)等)來近似 是否充足。

wKgaomVHiHeAFLvEAATLiWid_qI427.png

▲ deep

  1. 在沒有額外數(shù)據(jù)增強的時候, 較小,分類器陷入了嚴(yán)重的過擬合。此時,即使選取的 cDCGAN 很古早(bad GAN),生成式數(shù)據(jù)增強都能帶來明顯的提升。
  2. 在有額外數(shù)據(jù)增強的時候, 充足。此時,即使選取的 StyleGAN 很先進(SOTA GAN),生成式數(shù)據(jù)增強都難以帶來明顯的提升,在 50k 和 100k 增強的情況下甚至都造成了一致的損害。
  3. 我們也測試了一個 SOTA 的擴散模型 EDM,發(fā)現(xiàn)即使在有額外數(shù)據(jù)增強的時候,生成式數(shù)據(jù)增強也能提升分類效果。這意味著擴散模型學(xué)習(xí)分布的能力可能會優(yōu)于 GAN。


原文標(biāo)題:NeurIPS 2023 | 如何從理論上研究生成式數(shù)據(jù)增強的效果?

文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:NeurIPS 2023 | 如何從理論上研究生成式數(shù)據(jù)增強的效果?

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    生成AI工具作用

    生成AI工具是指那些能夠自動生成文本、圖像、音頻、視頻等多種類型數(shù)據(jù)的人工智能技術(shù)。在此,petacloud.ai小編為您整理生成
    的頭像 發(fā)表于 10-28 11:19 ?144次閱讀

    運放THS4551理論上輸入是線性的,DC掃描,輸出也是線性的,為什么我們的輸出不是線性的?

    運放THS4551 理論上輸入是線性的,DC掃描,輸出也是線性的,為什么我們的輸出不是線性的?是哪里存在問題嗎?請幫忙解決,謝謝
    發(fā)表于 08-15 07:20

    美日聯(lián)手研究生成AI,將建立合作框架

    近期,美國和日本政府宣布將聯(lián)手研究生成人工智能(AI),并計劃建立一個合作框架以共同推進該領(lǐng)域的技術(shù)進步。
    的頭像 發(fā)表于 04-18 15:15 ?575次閱讀

    檢索增強生成(RAG)如何助力企業(yè)為各種企業(yè)用例創(chuàng)建高質(zhì)量的內(nèi)容?

    生成 AI 時代,機器不僅要從數(shù)據(jù)中學(xué)習(xí),還要生成類似人類一樣的文本、圖像、視頻等。檢索增強生成(RAG)則是可以實現(xiàn)的一種突破性方法。
    的頭像 發(fā)表于 03-29 15:09 ?824次閱讀

    NVIDIA生成AI研究實現(xiàn)在1秒內(nèi)生成3D形狀

    NVIDIA 研究人員使 LATTE3D (一款最新文本轉(zhuǎn) 3D 生成 AI 模型)實現(xiàn)雙倍加速。
    的頭像 發(fā)表于 03-27 10:28 ?452次閱讀
    NVIDIA<b class='flag-5'>生成</b><b class='flag-5'>式</b>AI<b class='flag-5'>研究</b>實現(xiàn)在1秒內(nèi)<b class='flag-5'>生成</b>3D形狀

    名單公布!【書籍評測活動NO.30】大規(guī)模語言模型:理論到實踐

    。 為了使更多的自然語言處理研究人員和對大語言模型感興趣的讀者能夠快速了解大模型的理論基礎(chǔ),并開展大模型實踐,復(fù)旦大學(xué)張奇教授團隊結(jié)合他們在自然語言處理領(lǐng)域的研究經(jīng)驗,以及分布系統(tǒng)和
    發(fā)表于 03-11 15:16

    請問下stm32G0系列理論上的外部中斷響應(yīng)時間是多少?

    大佬們,請問下stm32G0系列理論上的外部中斷響應(yīng)時間是多少?我在spec里面沒有找到對這塊的詳細(xì)描述,只有如下描述; 看之前的帖子stm32F103的外部中斷響應(yīng)時間是12個時鐘周期,實際應(yīng)該會比這個時間長,G0也是一樣的嗎?
    發(fā)表于 03-08 07:41

    生成人工智能和感知人工智能的區(qū)別

    生成新的內(nèi)容和信息的人工智能系統(tǒng)。這些系統(tǒng)能夠利用已有的數(shù)據(jù)和知識來生成全新的內(nèi)容,如圖片、音樂、文本等。生成人工智能通?;谏疃葘W(xué)習(xí)技術(shù)
    的頭像 發(fā)表于 02-19 16:43 ?1467次閱讀

    亞馬遜云科技全面發(fā)力生成AI 2023 re:Invent中國行開啟

    北京2023年12月12日 /美通社/ --?亞馬遜云科技在2023 re:Invent全球大會上圍繞底層基礎(chǔ)設(shè)施、生成人工智能(AI)、數(shù)據(jù)
    的頭像 發(fā)表于 12-12 16:13 ?562次閱讀

    英特爾研究院將在NeurIPS大會上展示業(yè)界領(lǐng)先的AI研究成果

    市舉辦。 在NeurIPS 2023,英特爾研究院將展示其最新AI研究成果,并和產(chǎn)業(yè)界、學(xué)術(shù)界分享英特爾“讓AI無處不在”的愿景。大會期間
    的頭像 發(fā)表于 12-08 19:15 ?511次閱讀

    英特爾研究院將在NeurIPS大會上展示業(yè)界領(lǐng)先的AI研究成果

    人員和學(xué)界人士,這一AI和計算機視覺領(lǐng)域的全球頂會將于12月10日至16日在美國新奧爾良市舉辦。 ? ? ? ?在NeurIPS 2023,英特爾研究院將展示其最新AI
    的頭像 發(fā)表于 12-08 09:17 ?663次閱讀

    NeurIPS 2023 | AI Agents先行者CAMEL:首個基于大模型的多智能體框架

    的群體智能效果。本文介紹了來自 KAUST 研究團隊的大模型心智交互 CAMEL 框架(“駱駝”),CAMEL 框架是最早基于 ChatGPT 的 autonomous agents 知名項目,目前已被
    的頭像 發(fā)表于 11-26 21:25 ?923次閱讀
    <b class='flag-5'>NeurIPS</b> <b class='flag-5'>2023</b> | AI Agents先行者CAMEL:首個基于大模型的多智能體框架

    HumanEval到CoderEval: 你的代碼生成模型真的work嗎?

    本文主要介紹了一個名為CoderEval的代碼生成大模型評估基準(zhǔn),并對三個代碼生成模型(CodeGen、PanGu-Coder和ChatGPT)在該基準(zhǔn)的表現(xiàn)進行了評估和比較。研究
    的頭像 發(fā)表于 11-25 15:55 ?1536次閱讀
    <b class='flag-5'>從</b>HumanEval到CoderEval: 你的代碼<b class='flag-5'>生成</b>模型真的work嗎?

    制造行業(yè)應(yīng)該怎樣生成AI這項新興技術(shù)中獲益呢?

    對于2023年的科技領(lǐng)域來說,生成AI(Artificial Intelligence Generated Content,也稱AIGC)絕對是最熱門的焦點話題,沒有之一。
    的頭像 發(fā)表于 11-21 09:33 ?727次閱讀

    什么是檢索增強生成?

    檢索增強 生成是一種使用外部來源獲 取的事實,來提高生成 AI 模型準(zhǔn)確性和可靠性的技術(shù)。 為了理解這一
    的頭像 發(fā)表于 11-16 21:15 ?943次閱讀
    什么是檢索<b class='flag-5'>增強生成</b>?