0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

頂刊TPAMI 2023!生成式AI與圖像合成綜述發(fā)布!

CVer ? 來(lái)源:CVer ? 2023-09-05 16:06 ? 次閱讀

生成式AI作為當(dāng)前人工智能領(lǐng)域的前沿技術(shù),已被廣泛的應(yīng)用于各類(lèi)視覺(jué)合成任務(wù)。

隨著DALL-E2,Stable Diffusion和DreamFusion的發(fā)布,AI作畫(huà)和3D合成實(shí)現(xiàn)了令人驚嘆的視覺(jué)效果并且在全球范圍內(nèi)的爆炸式增長(zhǎng)。這些生成式AI技術(shù)深刻地拓展了人們對(duì)于AI圖像生成能力的認(rèn)識(shí),那么這些生成式AI方法是如何生成以假亂真的視覺(jué)效果?又是如何利用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)技術(shù)來(lái)實(shí)現(xiàn)畫(huà)作、3D生成以及其他創(chuàng)造性任務(wù)的呢?我們的綜述論文將會(huì)給您提供這些問(wèn)題的答案。

在第一章節(jié),該綜述描述了多模態(tài)圖像合成與編輯任務(wù)的意義和整體發(fā)展,以及本論文的貢獻(xiàn)與總體結(jié)構(gòu)。

在第二章節(jié),根據(jù)引導(dǎo)圖片合成與編輯的數(shù)據(jù)模態(tài),該綜述論文介紹了比較常用的視覺(jué)引導(dǎo),文字引導(dǎo),語(yǔ)音引導(dǎo),還有近期DragGAN提出的控制點(diǎn)引導(dǎo)等,并且介紹了相應(yīng)模態(tài)數(shù)據(jù)的處理方法。

0f2b7d1c-4baa-11ee-a25d-92fbcf53809c.png

在第三章節(jié),根據(jù)圖像合成與編輯的模型框架,該論文對(duì)目前的各種方法進(jìn)行了分類(lèi),包括基于GAN的方法,擴(kuò)散模型方法,自回歸方法,和神經(jīng)輻射場(chǎng)(NeRF)方法。

0f740ab4-4baa-11ee-a25d-92fbcf53809c.png

由于基于GAN的方法一般使用條件GAN和 GAN 反演,因此該論文進(jìn)一步根據(jù) 控制條件的融合方式,模型的結(jié)構(gòu),損失函數(shù)設(shè)計(jì),多模態(tài)對(duì)齊,和跨模態(tài)監(jiān)督進(jìn)行了詳細(xì)描述。

0f9677de-4baa-11ee-a25d-92fbcf53809c.png

近期,火熱的擴(kuò)散模型也被廣泛應(yīng)用于多模態(tài)合成與編輯任務(wù)。例如效果驚人的DALLE-2和Imagen都是基于擴(kuò)散模型實(shí)現(xiàn)的。相比于GAN,擴(kuò)散式生成模型擁有一些良好的性質(zhì),比如靜態(tài)的訓(xùn)練目標(biāo)和易擴(kuò)展性。該論文依據(jù)條件擴(kuò)散模型和預(yù)訓(xùn)練擴(kuò)散模型對(duì)現(xiàn)有方法進(jìn)行了分類(lèi)與詳細(xì)分析。

0fc94f24-4baa-11ee-a25d-92fbcf53809c.png

0fe73688-4baa-11ee-a25d-92fbcf53809c.png

相比于基于GAN和擴(kuò)散模型的方法,自回歸模型方法能夠更加自然的處理多模態(tài)數(shù)據(jù),以及利用目前流行的Transformer模型。自回歸方法一般先學(xué)習(xí)一個(gè)向量量化編碼器將圖片離散地表示為token序列,然后自回歸式地建模token的分布。由于文本和語(yǔ)音等數(shù)據(jù)都能表示為token并作為自回歸建模的條件,因此各種多模態(tài)圖片合成與編輯任務(wù)都能統(tǒng)一到一個(gè)框架當(dāng)中。

1022b80c-4baa-11ee-a25d-92fbcf53809c.png

以上方法主要聚焦于2D圖像的多模態(tài)合成與編輯。近期隨著神經(jīng)輻射場(chǎng)(NeRF)的迅速發(fā)展,3D感知的多模態(tài)合成與編輯也吸引了越來(lái)越多的關(guān)注。由于需要考慮多視角一致性,3D感知的多模態(tài)合成與編輯是更具挑戰(zhàn)性的任務(wù)。本文針對(duì)單場(chǎng)景優(yōu)化NeRF,生成式NeRF兩種方法對(duì)現(xiàn)有工作進(jìn)行了分類(lèi)與總結(jié)。

104b6d92-4baa-11ee-a25d-92fbcf53809c.png

隨后,該綜述對(duì)以上四種模型方法的進(jìn)行了比較和討論??傮w而言,相比于GAN,目前最先進(jìn)的模型更加偏愛(ài)自回歸模型和擴(kuò)散模型。而NeRF在多模態(tài)合成與編輯任務(wù)的應(yīng)用為這個(gè)領(lǐng)域的研究打開(kāi)了一扇新的窗戶(hù)。

10867eb4-4baa-11ee-a25d-92fbcf53809c.png

在第四章節(jié),該綜述匯集了多模態(tài)合成與編輯領(lǐng)域流行的數(shù)據(jù)集以及相應(yīng)的模態(tài)標(biāo)注,并且針對(duì)各模態(tài)典型任務(wù)(語(yǔ)義圖像合成,文字到圖像合成,語(yǔ)音引導(dǎo)圖像編輯)對(duì)當(dāng)前方法進(jìn)行了定量的比較。同時(shí)也對(duì)多種模態(tài)同時(shí)控制生成的結(jié)果進(jìn)行了可視化。

10a7b61a-4baa-11ee-a25d-92fbcf53809c.png

在第五章節(jié),該綜述對(duì)此領(lǐng)域目前的挑戰(zhàn)和未來(lái)方向進(jìn)行了探討和分析,包括大規(guī)模的多模態(tài)數(shù)據(jù)集,準(zhǔn)確可靠的評(píng)估指標(biāo),高效的網(wǎng)絡(luò)架構(gòu),以及3D感知的發(fā)展方向。

在第六和第七章節(jié),該綜述分別闡述了此領(lǐng)域潛在的社會(huì)影響和總結(jié)了文章的內(nèi)容與貢獻(xiàn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1075

    瀏覽量

    40269
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1197

    瀏覽量

    24538
  • 生成式AI
    +關(guān)注

    關(guān)注

    0

    文章

    463

    瀏覽量

    411

原文標(biāo)題:頂刊TPAMI 2023!生成式AI與圖像合成綜述發(fā)布!

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    生成 AI 制作動(dòng)畫(huà):周期短、成本低!

    工作室和特效公司正廣泛采用生成AI技術(shù)進(jìn)行背景生成、角色創(chuàng)作和動(dòng)作合成。這種技術(shù)的應(yīng)用不僅提高了動(dòng)畫(huà)制作的效率,還使得動(dòng)畫(huà)作品在視覺(jué)效果和
    的頭像 發(fā)表于 03-18 08:19 ?3134次閱讀
    <b class='flag-5'>生成</b><b class='flag-5'>式</b> <b class='flag-5'>AI</b> 制作動(dòng)畫(huà):周期短、成本低!

    搜狗與新華社聯(lián)合發(fā)布全球首個(gè)站立式AI合成主播

    ,新版的AI合成主播采用了“搜狗分身”領(lǐng)先的wavernn波形建模技術(shù),可以實(shí)現(xiàn)逼真的語(yǔ)音合成效果,讓AI的聲音更具有真實(shí)情感和表現(xiàn)力?! 《?b class='flag-5'>圖像
    發(fā)表于 02-25 09:28

    Stability AI開(kāi)源圖像生成模型Stable Diffusion

    Stable Diffusion 的很多用戶(hù)已經(jīng)公開(kāi)發(fā)布生成圖像的樣例,Stability AI 的首席開(kāi)發(fā)者 Katherine Crowson 在推特上分享了許多
    的頭像 發(fā)表于 09-21 15:37 ?2819次閱讀

    英偉達(dá) GTC 2023上黃仁勛談生成AI

    英偉達(dá) GTC 2023上黃仁勛談生成AI 黃教主在GTC 2023上大談特談生成
    的頭像 發(fā)表于 03-22 17:14 ?1801次閱讀
    英偉達(dá) GTC <b class='flag-5'>2023</b>上黃仁勛談<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>

    什么是生成AI生成AI的四大優(yōu)勢(shì)

    生成AI是一種特定類(lèi)型的AI,專(zhuān)注于生成新內(nèi)容,如文本、圖像和音樂(lè)。這些系統(tǒng)在大型數(shù)據(jù)集上進(jìn)行
    發(fā)表于 05-29 14:12 ?4234次閱讀

    虹軟圖像深度恢復(fù)技術(shù)與生成AI的創(chuàng)新 生成AI助力

    當(dāng)前,生成人工智能(AI)技術(shù)的快速發(fā)展令人矚目。它能夠理解人類(lèi)的描述,并在短時(shí)間內(nèi)生成逼真的圖像和視頻。在
    發(fā)表于 06-21 09:06 ?398次閱讀

    SIGGRAPH 2023 | 生成 AI 開(kāi)啟汽車(chē)行業(yè)新時(shí)代,為設(shè)計(jì)、工程、生產(chǎn)和銷(xiāo)售帶來(lái)改進(jìn)

    AI 技術(shù)的進(jìn)步將改變汽車(chē)生命周期,大大提高生產(chǎn)力,并激發(fā)創(chuàng)新。 生成內(nèi)容和代碼、創(chuàng)建圖像和視頻、使用合成數(shù)據(jù)測(cè)試算法等生成
    的頭像 發(fā)表于 08-14 17:20 ?584次閱讀
    SIGGRAPH <b class='flag-5'>2023</b> | <b class='flag-5'>生成</b><b class='flag-5'>式</b> <b class='flag-5'>AI</b> 開(kāi)啟汽車(chē)行業(yè)新時(shí)代,為設(shè)計(jì)、工程、生產(chǎn)和銷(xiāo)售帶來(lái)改進(jìn)

    解決醫(yī)療大模型訓(xùn)練數(shù)據(jù)難題,商湯最新研究成果登「Nature」子

    生成AI正為醫(yī)療大模型迭代按下加速鍵。 近日,商湯科技聯(lián)合行業(yè)合作伙伴,結(jié)合生成人工智能和醫(yī)療圖像
    的頭像 發(fā)表于 09-12 18:50 ?800次閱讀
    解決醫(yī)療大模型訓(xùn)練數(shù)據(jù)難題,商湯最新研究成果登「Nature」子<b class='flag-5'>刊</b>

    在線(xiàn)研討會(huì) | 9 月 19 日,利用 GPU 加速生成 AI 圖像內(nèi)容生成

    的工作效率,也為社會(huì)發(fā)展帶來(lái)了巨大的推動(dòng)力。 在本次課程中,我們將深入介紹生成 AI,特別是文字生成圖像的技術(shù)。我們希望你在此學(xué)習(xí)過(guò)程中找
    的頭像 發(fā)表于 09-14 17:40 ?430次閱讀
    在線(xiàn)研討會(huì) | 9 月 19 日,利用 GPU 加速<b class='flag-5'>生成</b><b class='flag-5'>式</b> <b class='flag-5'>AI</b> <b class='flag-5'>圖像</b>內(nèi)容<b class='flag-5'>生成</b>

    德勤中國(guó)與亞馬遜云科技聯(lián)合成立生成AI聯(lián)合實(shí)驗(yàn)室

    北京2023年11月16日??/美通社/ -- 德勤中國(guó)與亞馬遜云科技共同宣布創(chuàng)建生成AI聯(lián)合實(shí)驗(yàn)室。雙方將整合優(yōu)勢(shì)資源,圍繞"1+3"展開(kāi)合作。"1" 是以亞馬遜云科技的堅(jiān)實(shí)技術(shù)為
    的頭像 發(fā)表于 11-17 09:43 ?617次閱讀

    UL Procyon AI 發(fā)布圖像生成基準(zhǔn)測(cè)試,基于Stable Diffusion

    UL去年發(fā)布的首個(gè)Windows版Procyon AI推理基準(zhǔn)測(cè)試,以計(jì)算機(jī)視覺(jué)工作負(fù)載評(píng)估AI推理性能。新推出的圖像生成測(cè)試將提供統(tǒng)一、精
    的頭像 發(fā)表于 03-25 16:16 ?710次閱讀

    商湯集團(tuán)2023全年業(yè)績(jī)亮眼,生成AI業(yè)務(wù)爆發(fā)式增長(zhǎng)

    商湯集團(tuán)近日發(fā)布了截至2023年12月31日的經(jīng)審核全年業(yè)績(jī)報(bào)告,展現(xiàn)了集團(tuán)在AI領(lǐng)域的強(qiáng)勁增長(zhǎng)勢(shì)頭。在全新的戰(zhàn)略布局下,商湯明確了三大業(yè)務(wù)板塊:生成
    的頭像 發(fā)表于 03-27 09:14 ?479次閱讀

    OpenAI發(fā)布圖像檢測(cè)分類(lèi)器,可區(qū)分AI生成圖像與實(shí)拍照片

    據(jù)OpenAI介紹,初步測(cè)試結(jié)果表明,該分類(lèi)器在辨別非AI生成圖像與DALL·E 3生成圖像時(shí),成功率高達(dá)近98%,僅有不到0.5%的非
    的頭像 發(fā)表于 05-09 09:57 ?334次閱讀

    生成AI的定義和特征

    行為,生成全新的、具有實(shí)際意義的數(shù)據(jù)或內(nèi)容。這種技術(shù)已經(jīng)在自然語(yǔ)言處理、圖像生成、音頻合成等多個(gè)領(lǐng)域展現(xiàn)出巨大的潛力和應(yīng)用價(jià)值。本文將詳細(xì)探討生成
    的頭像 發(fā)表于 07-05 17:33 ?557次閱讀

    Freepik攜手Magnific AI推出AI圖像生成

    近日,設(shè)計(jì)資源巨頭Freepik攜手Magnific AI,共同推出了革命性的AI圖像生成器——Freepik Mystic,這一里程碑
    的頭像 發(fā)表于 08-30 16:23 ?948次閱讀