0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

生成對抗網(wǎng)絡(luò)GAN的七大開放性問題

jf_78858299 ? 來源:Distill 機器之心 ? 作者:Augustus Odena ? 2023-03-17 11:18 ? 次閱讀

關(guān)于生成對抗網(wǎng)絡(luò)的七個開放性問題,個個都是靈魂追問。

生成對抗網(wǎng)絡(luò)在過去一年仍是研究重點,我們不僅看到可以生成高分辨率(1024×1024)圖像的模型,還可以看到那些以假亂真的生成圖像。此外,我們還很興奮能看到一些新的生成模型,它們能生成與 GAN 相媲美的圖像,其主要代表就是流模型 Glow。

從 DeepMind 提出的 BigGAN,到英偉達的 Style-based Generator,它們生成的圖像質(zhì)量都令人驚嘆。盡管還有很多問題沒有解決,但圖像生成已經(jīng)能騙過一般人類了。不信的話,你可以試試區(qū)分生成的圖像與真實圖像。

Style-based Generator 的生成效果,很明顯感覺生成對抗網(wǎng)絡(luò)在過去 2 年中已經(jīng)取得了顯著的進展。其實,從 16 年到 18 年圖像合成的質(zhì)量越來越高,看論文的速度都快趕不上 GAN 的發(fā)展了。

但是在另一些方面,GAN 的提升并不是那么顯著。例如,關(guān)于如何評估 GAN 的效果,現(xiàn)在仍有很多分歧。因為目前圖像合成基準(zhǔn)已經(jīng)非常多了,所以反思子領(lǐng)域的研究目標(biāo)顯得更有意義。

在這篇文章中,谷歌大腦團隊的 Augustus Odena 就針對 GAN 的七大開放性問題作出了介紹。

  • 問題 1:如何在 GAN 和其它生成模型之間進行挑選?
  • 問題 2:GAN 能建模哪些分布?
  • 問題 3:除了圖像合成外,GAN 還能用于哪些地方?
  • 問題 4:GAN 的全局收斂性如何?訓(xùn)練動態(tài)過程又是怎樣的?
  • 問題 5:我們該如何評估 GAN 的好壞,什么時候又該使用 GAN 這種生成模型?
  • 問題 6:如何擴展訓(xùn)練 GAN 的批量大小?
  • 問題 7:GAN 和對抗樣本之間有什么關(guān)系?

Augustus 對每一個問題都做了很詳細的討論,包括問題背景、問題內(nèi)容以及如何解決等等。這篇文章發(fā)布在 Distill 上,機器之心簡要對六大問題做了介紹,更詳細的內(nèi)容與相關(guān)引用文獻可閱讀原文。

谷歌大腦和其他很多研究者都在致力于解決這些 GAN 的開放性研究問題。這篇文章也引用了近來非常多的生成對抗網(wǎng)絡(luò)研究,因此并不能面面俱到地描述細節(jié),所以讀者有一定的基礎(chǔ)、對這些問題有一定的直觀了解就最好了。

如何在 GAN 和其它生成模型之間進行挑選

除了 GAN,另外兩種生成模型現(xiàn)在也很流行:流模型和自回歸模型。粗略來說,流模型將一堆可逆變換應(yīng)用于先驗樣本,以計算觀測值的精確對數(shù)似然性。另一方面,自回歸模型將觀測值的分布分解為條件分布,并一次處理觀測值的一個組件(對于圖像,可能是一次處理一個像素)。最近的研究表明,這些模型具有不同的性能特點和權(quán)衡。準(zhǔn)確描述這些權(quán)衡并確定它們是否為模型的固有特性是一個有趣的開放性問題。

具體來說,我們先暫時把重點放在 GAN 和流模型之間計算成本的差異上,訓(xùn)練 GAN 和流模型的計算成本之間似乎存在巨大差異。GLOW 模型是用 40 個 GPU 花兩周訓(xùn)練的,以生成 256x256 的名人面部圖像,其使用的參數(shù)為 2 億。相比之下,自回歸 GAN 是在相似的面部數(shù)據(jù)集上用 8 個 GPU 花 4 天訓(xùn)練的,以生成 1024x1024 的圖像,它使用了 4600 萬參數(shù)。流模型大概需要 17 倍多的 GPU 天數(shù)和 4 倍多的參數(shù)來生成像素少 16 倍的圖像。

為什么流模型效率更低?有兩個可能的原因:首先,最大似然訓(xùn)練可能比對抗訓(xùn)練的計算難度更大。其次,歸一化流可能無法有效代表特定函數(shù)。論文《Parallel WaveNet: Fast High-Fidelity Speech Synthesis》第 6.1 節(jié)對表達性做了一些小實驗,但目前我們還沒看到任何對這個問題的深入分析。

前面已經(jīng)討論過了 GAN 和流模型之間的權(quán)衡,那自回歸模型呢?事實證明,自回歸模型可以看做不可并行化的流模型(因為它們都可逆)。

因此,GAN 是并行且有效的,但不可逆;流模型是可逆且并行的,但比較低效;自回歸模型是可逆且有效的,但不可并行化。

圖片

由此引出第一個開放性問題:

圖片

解決這個問題的方法之一是研究更多由多種模型混合而成的模型。這種方法已經(jīng)用于混合 GAN/流模型研究,但它仍然沒有被充分開發(fā)。

我們也不確定最大似然訓(xùn)練是否一定比 GAN 訓(xùn)練更難。的確,在 GAN 訓(xùn)練損失下,將 zero mass 置于訓(xùn)練數(shù)據(jù)點上沒有被明確禁止,但面對這種情況,強大的判別器的確會比生成器做得更好。不過,看起來 GAN 確實在實踐中學(xué)習(xí)低支持度的分布。

最終,我們懷疑流模型每個參數(shù)的表達不如任意解碼器函數(shù),而且這在特定假設(shè)下是可以證明的。

GAN 能建模哪些分布?

大多數(shù) GAN 都側(cè)重于圖像合成,具體而言,研究者會在一些標(biāo)準(zhǔn)圖像數(shù)據(jù)集上訓(xùn)練 GAN,例如 MNIST、CIFAR-10、STL-10、CelebA 和 Imagenet 等。這些數(shù)據(jù)集也是有難易之分的,而且生成的效果也有好有壞。經(jīng)驗表明,CelebA 上最先進的圖像合成模型生成的圖像似乎比 Imagenet 上最先進的圖像合成模型生成的圖像更有說服力。

與任何科學(xué)一樣,我們也希望有一個簡單的理論來解釋實驗觀察。理想情況下,我們可以查看數(shù)據(jù)集,并執(zhí)行一些計算而不實際訓(xùn)練生成模型,然后就可以判斷「這個數(shù)據(jù)集對于 GAN 來說比較容易建模,但是對于 VAE 來說比較難」。這些都是經(jīng)驗理解,不過目前在這個領(lǐng)域上也有一些研究。由此引出下面這個問題:

圖片

我們可能問「建模分布」到底是什么意思,會有一些 GAN 并不能學(xué)習(xí)到的分布嗎?會不會有一些 GAN 理論上能學(xué)習(xí)的分布,但是在給定合理的計算資源下它學(xué)習(xí)的效率并不高?對于 GAN 來說,這些問題的答案和其他模型給出的會不會存在差別,現(xiàn)在很多都遠沒有解決。

Augustus 認為我們有兩種策略來回答這些問題:

  • 合成數(shù)據(jù)集:我們可以研究合成數(shù)據(jù)集來探討到底哪些特征會影響數(shù)據(jù)集的可學(xué)習(xí)性。例如在論文《Are GANs Created Equal? A Large-Scale Study》中,研究者就創(chuàng)建了一個合成三角形的數(shù)據(jù)集。
  • 修正現(xiàn)有的理論結(jié)果:我們可以利用現(xiàn)有的理論結(jié)果,并嘗試修改假設(shè)以考慮數(shù)據(jù)集的不同屬性。

除了圖像合成外,GAN 還能用于哪些地方?

除了圖像到圖像的轉(zhuǎn)換和領(lǐng)域的自適應(yīng)等應(yīng)用外,大多數(shù) GAN 的成功應(yīng)用都在圖像合成中。而 GAN 在圖像外的探索主要分為三個領(lǐng)域:

  • 文本:文本的離散屬性使其很難應(yīng)用 GAN。因為 GAN 會依賴判別器的梯度信號,且它會通過生成內(nèi)容反向傳播給生成器,所以離散的字符難以更新。目前有兩種方法解決這個困難,第一種是令 GAN 只對離散數(shù)據(jù)的連續(xù)表征起作用,第二種則是用梯度估計和實際離散的模型來訓(xùn)練 GAN。
  • 結(jié)構(gòu)化數(shù)據(jù):GAN 能用于其它非歐氏空間的結(jié)構(gòu)化數(shù)據(jù)(例如圖)嗎?這類數(shù)據(jù)的研究被稱為幾何深度學(xué)習(xí)。GAN 在這個領(lǐng)域的進展也不是非常顯著,但其它深度學(xué)習(xí)方法取得的進步也比較有限,因此很難說是 GAN 自身的問題。
  • 音頻:音頻是 GAN 除了圖像外最成功的領(lǐng)域,將 GAN 應(yīng)用于無監(jiān)督音頻合成是第一次嚴格的嘗試,研究人員對各種實際音頻操作做出了特殊的限制。

除了這些領(lǐng)域的嘗試,圖像一直是應(yīng)用 GAN 最簡單的領(lǐng)域,這就會引起一些問題:

圖片

我們最終希望 GAN 能在其它連續(xù)數(shù)據(jù)上獲得類似圖像合成方面的成功,但它需要更好的隱式先驗知識。尋找這些先驗可能需要仔細思考到底哪些特征才是有意義的,并且領(lǐng)域中的哪些特征是可計算的。

對于結(jié)構(gòu)化數(shù)據(jù)或離散數(shù)據(jù),我們暫時還沒有比較好的解決方案。一種方法可能是令生成器和判別器都采用強化學(xué)習(xí)的智能體,并以 RL 的方式進行訓(xùn)練。但這樣又需要大量計算資源,這個問題可能還是需要基礎(chǔ)研究的進展。

我們該如何評估 GAN 的好壞,什么時候又該使用 GAN 這種生成模型?

說到評估 GAN,目前有很多方法,但是并沒有一種統(tǒng)一的度量方法:

  • Inception Score 和 FID:這兩個分數(shù)都使用預(yù)訓(xùn)練的圖像分類器,都存在已知問題。常見的批評是這些分數(shù)測量「樣本質(zhì)量」而沒有真正捕獲「樣本多樣性」。
  • MS-SSIM:可以使用 MS-SSIM 單獨評估多樣性,但該技術(shù)也存在一些問題,并沒有真正流行起來。
  • AIS:它建議在 GAN 的輸出上應(yīng)用高斯觀測值模型(Gaussian observation),并使用退火重要性采樣來評估該模型下的對數(shù)似然。但事實證明,當(dāng) GAN 生成器也是流模型時,這種計算方式并不準(zhǔn)確。
  • 幾何分數(shù):這種方法建議計算生成數(shù)據(jù)流形的幾何屬性,并將這些屬性與真實數(shù)據(jù)進行比較。
  • 精度和召回率:該方法嘗試計算 GAN 的精度和召回率。
  • 技能評級:該方法以證明,訓(xùn)練好的 GAN 判別器能夠包含用來評估的有用信息。

這些還只是一小部分 GAN 評估方案。雖然 Inception Score 和 FID 相對比較流行,但 GAN 評估顯然還不是一個確定性問題。最終,我們認為關(guān)于如何評估 GAN 的困惑源于何時使用 GAN。因此,我們將這兩個問題合二為一:

圖片

我們應(yīng)該用 GAN 來做什么?如果你想要真正的密集型模型,GAN 可能不是最好的選擇。已有實驗表明,GAN 學(xué)習(xí)了目標(biāo)數(shù)據(jù)集的「low support」表征,這意味著 GAN(隱式地)將測試集的大部分分配為零似然度。

我們沒有太擔(dān)心這一點,而是將 GAN 研究的重點放在支撐集沒問題甚至有幫助的任務(wù)上。GAN 可能很適合感知性的任務(wù),如圖像合成、圖像轉(zhuǎn)換、圖像修復(fù)和屬性操作等圖形應(yīng)用。

最后,雖然花費巨大,但也可以通過人力進行評估,這使得我們可以測量那些真正在乎的東西。通過建模預(yù)測人類答案,可以減少這種方法的成本。

如何擴展訓(xùn)練 GAN 的批量大?。?/strong>

大的 minibatch 已經(jīng)幫助擴展了圖像分類任務(wù)——這些 minibatch 能幫助我們擴展 GAN 嗎?對于有效地使用高度并行硬件加速器,大的 minibatch 可能非常重要。

乍一看,答案好像是肯定的——畢竟,多數(shù) GAN 中的判別器只是個圖像分類器而已。如果梯度噪聲成為瓶頸,大的批量可以加速訓(xùn)練。然而,GAN 有一個分類器沒有的獨特瓶頸:訓(xùn)練步驟可能存在差異。因此,我們提出以下問題:

圖片

有證據(jù)表明,提高 minibatch 大小可以改進量化結(jié)果并減少訓(xùn)練時間。如果這一現(xiàn)象是魯棒的,說明梯度噪聲是非常重要的一個因素。然而,這一結(jié)論還沒有得到系統(tǒng)性的驗證,因此我們相信這一問題還有待解答。

交替訓(xùn)練步驟能否更好地利用大批量?理論上來看,最優(yōu)傳輸 GAN 比一般 GAN 具有更好的收斂性,但需要一個大的批量,因為這種 GAN 需要對齊樣本和訓(xùn)練數(shù)據(jù)批量。因此,最優(yōu)傳輸 GAN 似乎是擴展到非常大的批量的潛在候選方法。

最后,異步 SGD 可以成為利用新硬件的不錯備選項。在這種設(shè)定下,限制因素往往是:梯度更新是在參數(shù)的「陳舊」副本上計算的。但 GAN 實際上似乎是從在過去參數(shù)快照(snapshots)上進行的訓(xùn)練中獲益,所以我們可能會問,異步 SGD 是否以一種特殊的方式與 GAN 訓(xùn)練交互。

GAN 和對抗樣本之間有什么關(guān)系?

眾所周知,對抗樣本是圖像分類任務(wù)需要克服的一大難題:人類難以察覺的干擾可以導(dǎo)致分類器給出錯誤的輸出。我們還知道,有些分類問題通??梢杂行W(xué)習(xí),但魯棒地學(xué)習(xí)卻極其困難。

由于 GAN 判別器是一種圖像分類器,有人可能擔(dān)心其遭遇對抗樣本。研究 GAN 和對抗樣本的文獻不在少數(shù),但研究二者關(guān)系的文獻卻少得可憐。因此,我們不禁要問:

圖片

我們?nèi)绾伍_始考慮這一問題?假設(shè)有一個固定判別器 D。如果有一個生成器樣本 G(z) 被正確分類為假樣本,并且有一個小的擾動 p,G(z)+p 就被分類為真樣本,那么 D 就有了一個對抗樣本。使用一個 GAN 要考慮的是,生成器的梯度更新將產(chǎn)生一個新的生成器 G',其中,G'(z) = G(z) + p。

這種擔(dān)心是現(xiàn)實存在的嗎?我們更擔(dān)心一種叫做「對抗攻擊」的東西。我們有理由相信這些對抗攻擊發(fā)生的可能性較小。首先,在判別器再次更新之前,生成器只能進行一次梯度更新。其次,從先驗分布中抽取一批樣本,生成器得以優(yōu)化,這批樣本的每個梯度更新步都是不同的。

最后,優(yōu)化是在生成器的參數(shù)空間(而不是像素空間)中進行的。然而,這些論點都沒有完全排除生成器創(chuàng)建對抗樣本的可能。這將是一個值得深度探討且富有成果的話題

原文鏈接: https: //distill.pub/2019/gan-open-problems/

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4717

    瀏覽量

    99996
  • GaN
    GaN
    +關(guān)注

    關(guān)注

    19

    文章

    1883

    瀏覽量

    71018
收藏 人收藏

    評論

    相關(guān)推薦

    圖像生成對抗生成網(wǎng)絡(luò)gan_GAN生成汽車圖像 精選資料推薦

    圖像生成對抗生成網(wǎng)絡(luò)ganHello there! This is my story of making a GAN that would generate images of cars
    發(fā)表于 08-31 06:48

    圖像生成對抗生成網(wǎng)絡(luò)

    圖像生成對抗生成網(wǎng)絡(luò)ganby Thalles Silva 由Thalles Silva暖身 (Warm up)Let’s say there’s a very cool party going
    發(fā)表于 09-15 09:29

    生成對抗網(wǎng)絡(luò)模型綜述

    ,開創(chuàng)性地提出了生成對抗網(wǎng)絡(luò)GAN)。生成對抗網(wǎng)絡(luò)包含一個生成模型和一個判別模型。其中,
    發(fā)表于 04-03 10:48 ?1次下載
    <b class='flag-5'>生成對抗</b><b class='flag-5'>網(wǎng)絡(luò)</b>模型綜述

    生成對抗網(wǎng)絡(luò)GAN,正在成為新的“深度學(xué)習(xí)”

    生成對抗網(wǎng)絡(luò)由一個生成網(wǎng)絡(luò)(Generator)與一個判別網(wǎng)絡(luò)(Discriminator)組成。生成
    的頭像 發(fā)表于 06-11 16:04 ?4684次閱讀
    <b class='flag-5'>生成對抗</b><b class='flag-5'>網(wǎng)絡(luò)</b><b class='flag-5'>GAN</b>,正在成為新的“深度學(xué)習(xí)”

    生成對抗網(wǎng)絡(luò)在計算機視覺領(lǐng)域有什么應(yīng)用

    生成對抗網(wǎng)絡(luò)GAN, Generative Adversarial Networks)的出現(xiàn)是計算機視覺領(lǐng)域又一里程碑式的發(fā)展,它為解決各種圖像預(yù)測問題提供了新型工具。以此為目的,本文通過相關(guān)文獻
    發(fā)表于 12-06 15:29 ?22次下載
    <b class='flag-5'>生成對抗</b><b class='flag-5'>網(wǎng)絡(luò)</b>在計算機視覺領(lǐng)域有什么應(yīng)用

    如何使用生成對抗網(wǎng)絡(luò)進行信息隱藏方案資料說明

    針對信息隱藏中含密栽體會留有修改痕跡,從根本上難以抵抗基于統(tǒng)計的隱寫分析算法檢測的問題,提出一種基于生成對抗網(wǎng)絡(luò)GAN)的信息隱藏方案。該方案首先利用生成對抗
    發(fā)表于 12-12 16:57 ?6次下載
    如何使用<b class='flag-5'>生成對抗</b><b class='flag-5'>網(wǎng)絡(luò)</b>進行信息隱藏方案資料說明

    如何使用深度殘差生成對抗網(wǎng)絡(luò)設(shè)計醫(yī)學(xué)影像超分辨率算法

    針對醫(yī)學(xué)影像超分辨率重建過程中細節(jié)丟失導(dǎo)致的模糊問題,提出了一種基于深度殘差生成對抗網(wǎng)絡(luò)GAN)的醫(yī)學(xué)影像超分辨率算法。首先,算法包括生成網(wǎng)絡(luò)
    發(fā)表于 01-02 16:59 ?5次下載
    如何使用深度殘差<b class='flag-5'>生成對抗</b><b class='flag-5'>網(wǎng)絡(luò)</b>設(shè)計醫(yī)學(xué)影像超分辨率算法

    必讀!生成對抗網(wǎng)絡(luò)GAN論文TOP 10

    這篇 GAN 論文來自 NVIDIA Research,提出以一種漸進增大(progressive growing)的方式訓(xùn)練 GAN,通過使用逐漸增大的 GAN 網(wǎng)絡(luò)(稱為 PG-
    的頭像 發(fā)表于 03-20 09:02 ?6423次閱讀
    必讀!<b class='flag-5'>生成對抗</b><b class='flag-5'>網(wǎng)絡(luò)</b><b class='flag-5'>GAN</b>論文TOP 10

    生成對抗網(wǎng)絡(luò)與其他生成模型之間的權(quán)衡取舍是什么?

    根據(jù)一些指標(biāo)顯示,關(guān)于生成對抗網(wǎng)絡(luò)GAN)的研究在過去兩年間取得了本質(zhì)的進步。
    的頭像 發(fā)表于 04-29 11:01 ?3731次閱讀

    基于自注意力機制的條件生成對抗網(wǎng)絡(luò)模型

    近年來,越來越多的生成對抗網(wǎng)絡(luò)出現(xiàn)在深度學(xué)習(xí)的各個領(lǐng)域中。條件生成對抗網(wǎng)絡(luò)( Conditional generative Adverarial Networks,cG∧N)開創(chuàng)性地將
    發(fā)表于 04-20 14:26 ?11次下載
    基于自注意力機制的條件<b class='flag-5'>生成對抗</b><b class='flag-5'>網(wǎng)絡(luò)</b>模型

    基于密集卷積生成對抗網(wǎng)絡(luò)的圖像修復(fù)方法

    差等問題。針對上述問題,文中提出了一種基于密集卷積生成對抗網(wǎng)絡(luò)的圖像修復(fù)算法。該算法采用生成對抗網(wǎng)絡(luò)作為圖像修復(fù)的基本框架。首先,利用密集卷積塊構(gòu)建具有編解碼結(jié)枃的
    發(fā)表于 05-13 14:39 ?15次下載

    基于像素級生成對抗網(wǎng)絡(luò)的圖像彩色化模型

    基于像素級生成對抗網(wǎng)絡(luò)的圖像彩色化模型
    發(fā)表于 06-27 11:02 ?4次下載

    GAN生成對抗網(wǎng)絡(luò) Generative Adversarial Networks

    原文鏈接 1 原理 對于生成對抗網(wǎng)絡(luò)GAN,一個簡單的理解是可以將其看做博弈的過程,我們可以將生成模型和判別模型看作博弈的雙方,比如在犯罪分子造假幣和警察識別假幣的過程中:
    的頭像 發(fā)表于 01-12 09:45 ?749次閱讀

    PyTorch教程20.2之深度卷積生成對抗網(wǎng)絡(luò)

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程20.2之深度卷積生成對抗網(wǎng)絡(luò).pdf》資料免費下載
    發(fā)表于 06-05 10:21 ?2次下載
    PyTorch教程20.2之深度卷積<b class='flag-5'>生成對抗</b><b class='flag-5'>網(wǎng)絡(luò)</b>

    生成對抗網(wǎng)絡(luò)(GANs)的原理與應(yīng)用案例

    生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GANs)是一種由蒙特利爾大學(xué)的Ian Goodfellow等人在2014年提出的深度學(xué)習(xí)算法。GANs通過構(gòu)建兩個
    的頭像 發(fā)表于 07-09 11:34 ?438次閱讀