0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

當(dāng)前生成圖像最逼真的BigGAN被谷歌超越!造假效果更為逼真

傳感器技術(shù) ? 來源:楊湘祁 ? 作者:電子發(fā)燒友 ? 2019-03-11 15:28 ? 次閱讀

當(dāng)前生成圖像最逼真的BigGAN被超越了!

出手的,是谷歌大腦和蘇黎世聯(lián)邦理工學(xué)院。他們提出了新一代GAN:S3GAN。

它們生成的照片,都是真假難辨。

下面這兩只蝴蝶,哪只更生動(dòng)?

兩張風(fēng)景照片,哪張更真實(shí)?

難以抉擇也正常,反正都是假的。上面的照騙,都是左邊出自S3GAN,右邊的出自BigGAN之手。

它們還有更多作品:

至于哪些是S3GAN,答案文末揭曉。

肉眼難分高下,就用數(shù)據(jù)說話。跑個(gè)FID(Frechet Inception Distance)得分,分值越低,就表示這些照騙,越接近人類認(rèn)識(shí)里的真實(shí)照片——

S3GAN是8.0分,而BigGAN是8.4分。新選手略微勝出。

你可還記得BigGAN問世之初,直接將圖像生成的逼真度提高了一個(gè)Level,引來Twitter上花樣贊賞?

如今它不止被超越,而且是被輕松超越。

“輕松”在哪呢?

S3GAN達(dá)到這么好的效果,只用了10%的人工標(biāo)注數(shù)據(jù)。而老前輩BigGAN,訓(xùn)練所用的數(shù)據(jù)100%是人工標(biāo)注過的。

如果用上20%的標(biāo)注數(shù)據(jù),S3GAN的效果又會(huì)更上一層樓。

標(biāo)注數(shù)據(jù)的缺乏,已經(jīng)是幫GAN提高生成能力,拓展使用場(chǎng)景的一大瓶頸。如今,這個(gè)瓶頸已經(jīng)幾乎被打破。

現(xiàn)在的S3GAN,只經(jīng)過了ImageNet的實(shí)驗(yàn),是實(shí)現(xiàn)用更少標(biāo)注數(shù)據(jù)訓(xùn)練生成高保真圖像的第一步。

接下來,作者們想要把這種技術(shù)應(yīng)用到“更大”和“更多樣化”的數(shù)據(jù)集中。

不用標(biāo)注那么多

為什么訓(xùn)練GAN生成圖像,需要大量數(shù)據(jù)標(biāo)注呢?

GAN有生成器、判別器兩大組件。

其中判別器要不停地識(shí)破假圖像,激勵(lì)生成器拿出更逼真的圖像。

而圖像的標(biāo)注,就是給判別器做判斷依據(jù)的。比如,這是真的貓,這是真的狗,這是真的漢堡……這是假圖。

可是,沒有那么多標(biāo)注數(shù)據(jù)怎么辦?

谷歌和ETH蘇黎世的研究人員,決定訓(xùn)練AI自己標(biāo)注圖像,給判別器食用。

自監(jiān)督 vs 半監(jiān)督

要讓判別器自己標(biāo)注圖像,有兩種方法。

一是自監(jiān)督方法,就是給判別器加一個(gè)特征提取器 (Feature Extractor) ,從沒有標(biāo)注的真實(shí)訓(xùn)練數(shù)據(jù)里面,學(xué)到它們的表征 (Feature Representation) 。

對(duì)這個(gè)表征做聚類 (Clustering) ,然后把聚類的分配結(jié)果,當(dāng)成標(biāo)注來用。

這里的訓(xùn)練,用的是自監(jiān)督損失函數(shù)。

二是半監(jiān)督方法,也要做特征提取器,但比上一種方法復(fù)雜一點(diǎn)點(diǎn)。

在訓(xùn)練集的一個(gè)子集已經(jīng)標(biāo)注過的情況下,根據(jù)這些已知信息來學(xué)習(xí)表征,同時(shí)訓(xùn)練一個(gè)線性分類器 (Linear Classifier) 。

這樣,損失函數(shù)會(huì)在自監(jiān)督的基礎(chǔ)上,再加一項(xiàng)半監(jiān)督的交叉熵?fù)p失 (Cross-Entropy Loss) 。

預(yù)訓(xùn)練了特征提取器,就可以拿去訓(xùn)練GAN了。這個(gè)用一小部分已知標(biāo)注養(yǎng)成的GAN,叫做S2GAN。

不過,預(yù)訓(xùn)練也不是唯一的方法。

想要雙管齊下,可以用協(xié)同訓(xùn)練 (Co-Training) :

直接在判別器的表征上面,訓(xùn)練一個(gè)半監(jiān)督的線性分類器,用來預(yù)測(cè)沒有標(biāo)注的圖像。這個(gè)過程,和GAN的訓(xùn)練一同進(jìn)行。

這樣就有了S2GAN的協(xié)同版,叫S2GAN-CO。

升級(jí)一波

然后,團(tuán)隊(duì)還想讓S2GAN變得更強(qiáng)大,就在GAN訓(xùn)練的穩(wěn)定性上面花了心思。

研究人員說,判別器自己就是一個(gè)分類器嘛,如果把這個(gè)分類器擴(kuò)增 (Augmentation) 一下,可能療效上佳。

于是,他們給了分類器一個(gè)額外的自監(jiān)督任務(wù),就是為旋轉(zhuǎn)擴(kuò)增過的訓(xùn)練集 (包括真圖和假圖) ,做個(gè)預(yù)測(cè)。

再把這個(gè)步驟,和前面的半監(jiān)督模型結(jié)合起來,GAN的訓(xùn)練變得更加穩(wěn)定,就有了升級(jí)版S3GAN:

架構(gòu)脫胎于BigGAN

不管是S2GAN還是S3GAN,都借用了前輩BigGAN的網(wǎng)絡(luò)架構(gòu),用的優(yōu)化超參數(shù)也和前輩一樣。

不同的是,這個(gè)研究中,沒有使用正交正則化 (Orthogonal Regularization) ,也沒有使用截?cái)?(Truncation) 技巧。

△BigGAN的生成器和鑒別器架構(gòu)圖

訓(xùn)練的數(shù)據(jù)集,來自ImageNet,其中有130萬訓(xùn)練圖像和5萬測(cè)試圖像,圖像中共有1000個(gè)類別。

圖像尺寸被調(diào)整成了128×128×3,在每個(gè)類別中隨機(jī)選擇k%的樣本,來獲取半監(jiān)督方法中的使用的部分標(biāo)注數(shù)據(jù)集。

最后,在128核的Google TPU v3 Pod進(jìn)行訓(xùn)練。

超越BigGAN

研究對(duì)比的基線,是DeepMind的BigGAN,當(dāng)前記錄的保持者,F(xiàn)ID得分為7.4。

不過,他們?cè)贗mageNet上自己實(shí)現(xiàn)的BigGAN,F(xiàn)ID為8.4,IS為75,并以此作為了標(biāo)準(zhǔn)。

在這個(gè)圖表中,S2GAN是半監(jiān)督的預(yù)訓(xùn)練方法。S2GAN-CO是半監(jiān)督的協(xié)同訓(xùn)練方法。

S3GAN,是S2GAN加上一個(gè)自監(jiān)督的線性分類器 (把數(shù)據(jù)集旋轉(zhuǎn)擴(kuò)增之后再拿給它分類) 。

其中,效果最好的是S3GAN,只使用10%由人工標(biāo)注的數(shù)據(jù),F(xiàn)ID得分達(dá)到8.0,IS得分為78.7,表現(xiàn)均優(yōu)于BigGAN。

如果你對(duì)這項(xiàng)研究感興趣,請(qǐng)收好傳送門:

論文:

High-Fidelity Image Generation With Fewer Labels

https://arxiv.org/abs/1903.02271

文章開頭的這些照騙展示,就出自論文之中:

第一行是BigGAN作品,第二行是S3GAN新品,你猜對(duì)了嗎?

另外,他們還在GitHub上開源了論文中實(shí)驗(yàn)所用全部代碼:

https://github.com/google/compare_gan

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6080

    瀏覽量

    104378
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1075

    瀏覽量

    40278

原文標(biāo)題:史上最強(qiáng)GAN被谷歌超越!標(biāo)注數(shù)據(jù)少用90%,造假效果卻更逼真

文章出處:【微信號(hào):WW_CGQJS,微信公眾號(hào):傳感器技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    深入理解渲染引擎:打造逼真圖像的關(guān)鍵

    在數(shù)字世界中,圖像渲染是創(chuàng)造逼真視覺效果的核心技術(shù)。渲染引擎,作為這一過程中的關(guān)鍵組件,負(fù)責(zé)將二維或三維的模型、紋理、光照等數(shù)據(jù)轉(zhuǎn)化為人們?nèi)庋劭梢姷亩S圖像。本文將深入探討渲染引擎的工
    的頭像 發(fā)表于 06-29 08:28 ?188次閱讀
    深入理解渲染引擎:打造<b class='flag-5'>逼真</b><b class='flag-5'>圖像</b>的關(guān)鍵

    谷歌和Meta希望與好萊塢合作獲得授權(quán)內(nèi)容

    據(jù)知情人士透露,谷歌母公司Alphabet和Meta正與好萊塢主要電影公司洽談,旨在獲得電影IP的授權(quán),用于其人工智能視頻生成軟件。這兩家科技巨頭正積極開發(fā)新技術(shù),能夠根據(jù)文本提示創(chuàng)建逼真的場(chǎng)景。
    的頭像 發(fā)表于 05-27 09:52 ?307次閱讀

    谷歌發(fā)布AI文生圖大模型Imagen

    近日,谷歌在人工智能領(lǐng)域取得新突破,正式推出了Imagen文生圖模型。這款模型以其卓越的細(xì)節(jié)調(diào)整功能、逼真的光線效果以及從草圖快速生成高分辨率圖像
    的頭像 發(fā)表于 05-16 09:30 ?405次閱讀

    深度學(xué)習(xí)生成對(duì)抗網(wǎng)絡(luò)(GAN)全解析

    GANs真正的能力來源于它們遵循的對(duì)抗訓(xùn)練模式。生成器的權(quán)重是基于判別器的損失所學(xué)習(xí)到的。因此,生成生成圖像所推動(dòng)著進(jìn)行訓(xùn)練,很難知
    發(fā)表于 03-29 14:42 ?3899次閱讀
    深度學(xué)習(xí)<b class='flag-5'>生成</b>對(duì)抗網(wǎng)絡(luò)(GAN)全解析

    麻省理工與Adobe新技術(shù)DMD提升圖像生成速度

    2023年3月27日,據(jù)傳,新型文生圖算法雖然使得圖像生成無比逼真,但奈何運(yùn)行速度較慢。近期,美國麻省理工學(xué)院聯(lián)合Adobe推出新型DMD方法,僅略微犧牲圖像質(zhì)量就大幅度提高
    的頭像 發(fā)表于 03-27 14:17 ?392次閱讀

    谷歌Gemini AI模型因人物圖像生成問題暫停運(yùn)行

    據(jù)報(bào)道,部分用戶發(fā)現(xiàn)Gemini生成的圖片存在明顯錯(cuò)誤,如特斯拉創(chuàng)始人和其他名人變成了黑人模樣。谷歌已決定暫停該模型的人物圖像生成功能以待改善。
    的頭像 發(fā)表于 02-25 09:59 ?448次閱讀

    鴻蒙開發(fā)圖形圖像——@ohos.effectKit (圖像效果)

    圖像效果提供處理圖像的一些基礎(chǔ)能力,包括對(duì)當(dāng)前圖像的亮度調(diào)節(jié)、模糊化、灰度調(diào)節(jié)、智能取色等。 該模塊提供以下
    的頭像 發(fā)表于 02-22 16:08 ?284次閱讀
    鴻蒙開發(fā)圖形<b class='flag-5'>圖像</b>——@ohos.effectKit (<b class='flag-5'>圖像</b><b class='flag-5'>效果</b>)

    OpenAI發(fā)布文生視頻模型Sora,引領(lǐng)AI視頻生成新紀(jì)元

    在人工智能(AI)領(lǐng)域掀起新一輪革命浪潮的,正是OpenAI最新推出的文生視頻大模型——Sora。這款業(yè)界廣泛贊譽(yù)的模型,以其“逼真”和“富有想象力”的視頻生成能力,徹底顛覆了傳統(tǒng)視頻生成
    的頭像 發(fā)表于 02-19 11:03 ?784次閱讀

    谷歌地圖引入生成式AI功能

    谷歌近日宣布,在其廣受歡迎的谷歌地圖應(yīng)用中引入了全新的生成式AI功能。這一創(chuàng)新功能利用大型模型,深入分析了地圖上超過2.5億個(gè)地點(diǎn)的詳細(xì)信息,并結(jié)合了超過3億貢獻(xiàn)者的社區(qū)意見,為用戶提供更為
    的頭像 發(fā)表于 02-06 16:42 ?4242次閱讀

    谷歌推出圖像生成新工具ImageFX,提升圖像質(zhì)量

    作為實(shí)驗(yàn)室的新興工具,ImageFX 允許用戶借助簡(jiǎn)潔的文字指令來創(chuàng)作圖像。經(jīng)過前期試驗(yàn),該團(tuán)隊(duì)認(rèn)為對(duì)生成型人工智能工具來說最關(guān)鍵的是如何啟發(fā)并鼓勵(lì)用戶挖掘和實(shí)踐創(chuàng)意想法。
    的頭像 發(fā)表于 02-02 14:18 ?529次閱讀

    Adobe提出DMV3D:3D生成只需30秒!讓文本、圖像都動(dòng)起來的新方法!

    因此,本文研究者的目標(biāo)是實(shí)現(xiàn)快速、逼真和通用的 3D 生成。為此,他們提出了 DMV3D。DMV3D 是一種全新的單階段的全類別擴(kuò)散模型,能直接根據(jù)模型文字或單張圖片的輸入,生成 3D NeRF。在單個(gè) A100 GPU 上,僅
    的頭像 發(fā)表于 01-30 16:20 ?683次閱讀
    Adobe提出DMV3D:3D<b class='flag-5'>生成</b>只需30秒!讓文本、<b class='flag-5'>圖像</b>都動(dòng)起來的新方法!

    何愷明新作RCG:無自條件圖像生成新SOTA!與MIT首次合作!

    它有望超越條件圖像生成,并推動(dòng)諸如分子設(shè)計(jì)或藥物發(fā)現(xiàn)這種不需要人類給注釋的應(yīng)用往前發(fā)展(這也是為什么條件生成圖像發(fā)展得這么好,我們還要重視無
    的頭像 發(fā)表于 12-10 10:24 ?802次閱讀
    何愷明新作RCG:無自條件<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>新SOTA!與MIT首次合作!

    阿迪達(dá)斯與 Covision Media 使用 AI 和 NVIDIA RTX 創(chuàng)建逼真的 3D 內(nèi)容

    Covision 的基于 AI 的 3D 技術(shù)可幫助企業(yè)掃描數(shù)千種產(chǎn)品,為網(wǎng)站和移動(dòng)應(yīng)用創(chuàng)建逼真的 3D 圖像、視頻和 AR 體驗(yàn)。 將實(shí)體產(chǎn)品掃描成 3D 模型是一項(xiàng)十分耗時(shí)的工作。企業(yè)通常
    的頭像 發(fā)表于 11-28 18:45 ?545次閱讀
    阿迪達(dá)斯與 Covision Media 使用 AI 和 NVIDIA RTX 創(chuàng)建<b class='flag-5'>逼真的</b> 3D 內(nèi)容

    香港大學(xué)最新提出!實(shí)現(xiàn)超現(xiàn)實(shí)的人類圖像生成:HyperHuman

    最后,為了進(jìn)一步提高視覺質(zhì)量,我們提出了一種結(jié)構(gòu)引導(dǎo)細(xì)化器來組合預(yù)測(cè)條件,以更詳細(xì)地生成更高分辨率。大量的實(shí)驗(yàn)表明,我們的框架具有最先進(jìn)的性能,可以在不同的場(chǎng)景下生成逼真的人類圖像。
    的頭像 發(fā)表于 11-27 16:03 ?617次閱讀
    香港大學(xué)最新提出!實(shí)現(xiàn)超現(xiàn)實(shí)的人類<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>:HyperHuman

    CVPR2023 RobustNeRF: 從單張圖像生成3D形狀

    在通常使用的nerf數(shù)據(jù)中,一個(gè)場(chǎng)景往往無法從同一視角捕捉多幅圖像,這使得數(shù)學(xué)建模干擾物變得困難。更具體地說,雖然視角相關(guān)效應(yīng)(View-Dependent)是使NeRF看起來逼真的因素,但模型如何區(qū)分干擾物和視角相關(guān)效果呢?
    的頭像 發(fā)表于 11-09 16:35 ?770次閱讀
    CVPR2023 RobustNeRF: 從單張<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>3D形狀