0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

讓GAN再次偉大!拽一拽關(guān)鍵點(diǎn)就能讓獅子張嘴&大象轉(zhuǎn)身

OpenCV學(xué)堂 ? 來(lái)源:量子位 ? 2023-05-24 15:28 ? 次閱讀

這兩天,一段AI修圖視頻在國(guó)內(nèi)外社交媒體上傳瘋了。

不僅直接躥升B站關(guān)鍵詞聯(lián)想搜索第一,視頻播放上百萬(wàn),微博推特也是火得一塌糊涂,轉(zhuǎn)發(fā)者紛紛直呼“PS已死”。

e9ff026e-f8f4-11ed-90ce-dac502259ad0.png

怎么回事?

原來(lái),現(xiàn)在P圖真的只需要“輕輕點(diǎn)兩下”,AI就能徹底理解你的想法!

小到豎起狗子的耳朵:

ea4c2062-f8f4-11ed-90ce-dac502259ad0.gif

大到讓整只狗子蹲下來(lái),甚至讓馬岔開(kāi)腿“跑跑步”,都只需要設(shè)置一個(gè)起始點(diǎn)和結(jié)束點(diǎn),外加拽一拽就能搞定:

ea59d586-f8f4-11ed-90ce-dac502259ad0.gif

不止是動(dòng)物的調(diào)整,連像汽車這樣的“非生物”,也能一鍵拉升底座,甚至升級(jí)成“加長(zhǎng)豪華車”:

eb9002cc-f8f4-11ed-90ce-dac502259ad0.gif

這還只是AI修圖的“基操”。

要是想對(duì)圖像實(shí)現(xiàn)更精準(zhǔn)的控制,只需畫(huà)個(gè)圈給指定區(qū)域“涂白”,就能讓狗子轉(zhuǎn)個(gè)頭看向你:

ed972ac8-f8f4-11ed-90ce-dac502259ad0.gif

或是讓照片中的小姐姐“眨眨眼”:

f8c026de-f8f4-11ed-90ce-dac502259ad0.gif

甚至是讓獅子張大嘴,連牙齒都不需要作為素材放入,AI自動(dòng)就能給它“安上”:

f8fd2ab6-f8f4-11ed-90ce-dac502259ad0.gif

f91171f6-f8f4-11ed-90ce-dac502259ad0.png

如此“有手就能做”的修圖神器,來(lái)自一個(gè)MIT、谷歌、馬普所等機(jī)構(gòu)聯(lián)手打造的DragGAN新模型,論文已入選SIGGRAPH 2023。

f93be5d0-f8f4-11ed-90ce-dac502259ad0.png

沒(méi)錯(cuò),在擴(kuò)散模型獨(dú)領(lǐng)風(fēng)騷的時(shí)代,竟然還能有人把GAN玩出新花樣!

f99a34f0-f8f4-11ed-90ce-dac502259ad0.png

f9b98d00-f8f4-11ed-90ce-dac502259ad0.gif

目前這個(gè)項(xiàng)目在GitHub上已經(jīng)有5k+ Star,熱度還在不斷上漲中(盡管一行代碼還沒(méi)發(fā))。

f9d4ca8e-f8f4-11ed-90ce-dac502259ad0.png

所以,DragGAN模型究竟長(zhǎng)啥樣?它又如何實(shí)現(xiàn)上述“神一般的操作”?

f9ee9b26-f8f4-11ed-90ce-dac502259ad0.gif

拽一拽關(guān)鍵點(diǎn),就能修改圖像細(xì)節(jié)

這個(gè)名叫DragGAN的模型,本質(zhì)上是為各種GAN開(kāi)發(fā)的一種交互式圖像操作方法。

論文以StyleGAN2架構(gòu)為基礎(chǔ),實(shí)現(xiàn)了點(diǎn)點(diǎn)鼠標(biāo)、拽一拽關(guān)鍵點(diǎn)就能P圖的效果。

具體而言,給定StyleGAN2生成的一張圖像,用戶只需要設(shè)置幾個(gè)控制點(diǎn)(紅點(diǎn))和目標(biāo)點(diǎn)(藍(lán)點(diǎn)),以及圈出將要移動(dòng)的區(qū)域(比如狗轉(zhuǎn)頭,就圈狗頭)。

fabe604a-f8f4-11ed-90ce-dac502259ad0.png

然后模型就將迭代執(zhí)行運(yùn)動(dòng)監(jiān)督和點(diǎn)跟蹤這兩個(gè)步驟,其中運(yùn)動(dòng)監(jiān)督會(huì)驅(qū)動(dòng)紅色的控制點(diǎn)向藍(lán)色的目標(biāo)點(diǎn)移動(dòng),點(diǎn)跟蹤則用于更新控制點(diǎn)來(lái)跟蹤圖像中的被修改對(duì)象。

這個(gè)過(guò)程一直持續(xù)到控制點(diǎn)到達(dá)它們對(duì)應(yīng)的目標(biāo)點(diǎn)。

faf726b4-f8f4-11ed-90ce-dac502259ad0.png

不錯(cuò),運(yùn)動(dòng)監(jiān)督和點(diǎn)跟蹤就是我們今天要講的重點(diǎn),它是DragGAN模型中最主要的兩個(gè)組件。

先說(shuō)運(yùn)動(dòng)監(jiān)督。在此之前,業(yè)界還沒(méi)有太多關(guān)于如何監(jiān)督GAN生成圖像的點(diǎn)運(yùn)動(dòng)的研究。

在這項(xiàng)研究中,作者提出了一種不依賴于任何額外神經(jīng)網(wǎng)絡(luò)的運(yùn)動(dòng)監(jiān)督損失(loss)。

其關(guān)鍵思想是,生成器的中間特征具有很強(qiáng)的鑒別能力,因此一個(gè)簡(jiǎn)單的損失就足以監(jiān)督運(yùn)動(dòng)。

所以,DragGAN的運(yùn)動(dòng)監(jiān)督是通過(guò)生成器特征圖上的偏移補(bǔ)丁損失(shifted patch loss)來(lái)實(shí)現(xiàn)的。

如下圖所示,要移動(dòng)控制點(diǎn)p到目標(biāo)點(diǎn)t,就要監(jiān)督p點(diǎn)周圍的一小塊patch(紅圈)向前移動(dòng)的一小步(藍(lán)圈)。

faff489e-f8f4-11ed-90ce-dac502259ad0.png

再看點(diǎn)跟蹤。

先前的運(yùn)動(dòng)監(jiān)督會(huì)產(chǎn)生一個(gè)新的latent code、一個(gè)新特征圖和新圖像。

由于運(yùn)動(dòng)監(jiān)督步驟不容易提供控制點(diǎn)的精確新位置,因此我們的目標(biāo)是更新每個(gè)手柄點(diǎn)p使其跟蹤上對(duì)象上的對(duì)應(yīng)點(diǎn)。

此前,點(diǎn)跟蹤通常通過(guò)光流估計(jì)模型或粒子視頻方法實(shí)現(xiàn)。

但同樣,這些額外的模型可能會(huì)嚴(yán)重影響效率,并且在GAN模型中存在偽影的情況下可能使模型遭受累積誤差。

因此,作者提供了一種新方法,該方法通過(guò)最近鄰檢索在相同的特征空間上進(jìn)行點(diǎn)跟蹤。

而這主要是因?yàn)镚AN模型的判別特征可以很好地捕捉到密集對(duì)應(yīng)關(guān)系。

基于這以上兩大組件,DragGAN就能通過(guò)精確控制像素的位置,來(lái)操縱不同類別的對(duì)象完成姿勢(shì)、形狀、布局等方面的變形。

作者表示,由于這些變形都是在GAN學(xué)習(xí)的圖像流形上進(jìn)行的,它遵從底層的目標(biāo)結(jié)構(gòu),因此面對(duì)一些復(fù)雜的任務(wù)(比如有遮擋),DragGAN也能產(chǎn)生逼真的輸出。

單張3090幾秒鐘出圖

所以,要實(shí)現(xiàn)幾秒鐘“精準(zhǔn)控圖”的效果,是否需要巨大的算力?

nonono。大部分情況下,每一步拖拽修圖,單張RTX 3090 GPU在數(shù)秒鐘內(nèi)就能搞定。

fb5c5674-f8f4-11ed-90ce-dac502259ad0.png

具體到生成圖像的效果上,實(shí)際評(píng)估(均方誤差MSE、感知損失LPIPS)也超越了一系列類似的“AI修圖”模型,包括RAFT和PIPs等等:

fb77141e-f8f4-11ed-90ce-dac502259ad0.png

如果說(shuō)文字的還不太直觀,具體到視覺(jué)效果上就能感受到差異了:

fba846e2-f8f4-11ed-90ce-dac502259ad0.png

值得一提的是,DragGAN的“潛力”還不止于此。

一方面,如果增加關(guān)鍵點(diǎn)的數(shù)量,還能實(shí)現(xiàn)更加精細(xì)的AI修圖效果,用在人臉這類對(duì)修圖要求比較嚴(yán)格的照片上,也是完全沒(méi)問(wèn)題:

fbb3bcf2-f8f4-11ed-90ce-dac502259ad0.png

另一方面,不止開(kāi)頭展示的人物和動(dòng)物,放在汽車、細(xì)胞、風(fēng)景和天氣等不同類型的圖像上,DragGAN也都能精修搞定。

fc41f0bc-f8f4-11ed-90ce-dac502259ad0.png

除了不同的照片類型,從站到坐、從直立到跑步、從跨站到并腿站立這種姿勢(shì)變動(dòng)較大的圖像,也能通過(guò)DragGAN實(shí)現(xiàn):

fc88679a-f8f4-11ed-90ce-dac502259ad0.png

也難怪網(wǎng)友會(huì)調(diào)侃“遠(yuǎn)古的PS段子成真”,把大象轉(zhuǎn)個(gè)身這種甲方需求也能實(shí)現(xiàn)了。

fda8e65e-f8f4-11ed-90ce-dac502259ad0.png

不過(guò),也有網(wǎng)友指出了DragGAN目前面臨的一些問(wèn)題。

例如,由于它是基于StyleGAN2生成的圖像進(jìn)行P圖的,而后者訓(xùn)練成本很高,因此距離真正商業(yè)落地可能還有一段距離。

fdb19b28-f8f4-11ed-90ce-dac502259ad0.png

除此之外,在論文中提到的“單卡幾秒鐘修圖”的效果,主要還是基于256×256分辨率圖像:

fdcd008e-f8f4-11ed-90ce-dac502259ad0.png

至于模型是否能擴(kuò)展到256×256以外圖像,生成的效果又是如何,都還是未知數(shù)。

有網(wǎng)友表示“至少高分辨率圖像從生成時(shí)間來(lái)看,肯定還要更長(zhǎng)”。

fdef08e6-f8f4-11ed-90ce-dac502259ad0.png

實(shí)際上手的效果究竟如何,我們可以等6月論文代碼開(kāi)源后,一測(cè)見(jiàn)真章。

團(tuán)隊(duì)介紹

DragGAN的作者一共6位,分別來(lái)自馬克斯?普朗克計(jì)算機(jī)科學(xué)研究,薩爾布呂肯視覺(jué)計(jì)算、交互與AI研究中心,MIT,賓夕法尼亞大學(xué)和谷歌AR/VR部門(mén)。

fe09d5d6-f8f4-11ed-90ce-dac502259ad0.png

其中包括兩位華人:

一作潘新鋼,他本科畢業(yè)于清華大學(xué)(2016年),博士畢業(yè)于香港中文大學(xué)(2021年),師從湯曉鷗教授。

現(xiàn)在是馬普計(jì)算機(jī)科學(xué)研究所的博士后,今年6月,他將進(jìn)入南洋理工大學(xué)擔(dān)任助理教授(正在招收博士學(xué)生)。

fe1298a6-f8f4-11ed-90ce-dac502259ad0.png

另一位是Liu Lingjie,香港大學(xué)博士畢業(yè)(2019年),后在馬普信息學(xué)研究所做博士后研究,現(xiàn)在是賓夕法尼亞大學(xué)助理教授(也在招學(xué)生),領(lǐng)導(dǎo)該校計(jì)算機(jī)圖形實(shí)驗(yàn)室,也是通用機(jī)器人、自動(dòng)化、傳感與感知 (GRASP)實(shí)驗(yàn)室成員。

fe86264a-f8f4-11ed-90ce-dac502259ad0.png

值得一提的是,為了展示DragGAN的可控性,一作還親自上陣,演示了生發(fā)、瘦臉和露齒笑的三連P圖效果:

fed26ee2-f8f4-11ed-90ce-dac502259ad0.png

是時(shí)候給自己的主頁(yè)照片“修修圖”了(手動(dòng)狗頭)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28877

    瀏覽量

    266228
  • GaN
    GaN
    +關(guān)注

    關(guān)注

    19

    文章

    1884

    瀏覽量

    71050
  • GitHub
    +關(guān)注

    關(guān)注

    3

    文章

    461

    瀏覽量

    16235

原文標(biāo)題:讓GAN再次偉大!拽一拽關(guān)鍵點(diǎn)就能讓獅子張嘴&大象轉(zhuǎn)身,DragGAN爆火

文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【直播預(yù)告】ADI & WT·世健MCU痛點(diǎn)問(wèn)題探索季:MCU應(yīng)用難題全力擊破!

    ;ADI&WT?世健MCU痛點(diǎn)探索季"活動(dòng),吸引了眾多工程師熱議。針對(duì)工程師關(guān)心的問(wèn)題,WT文曄科技將邀請(qǐng)ADI講師在9月19日開(kāi)啟直播分享,幫助工程師們?nèi)羝芃CU應(yīng)用難題~直播時(shí)
    的頭像 發(fā)表于 09-19 08:05 ?106次閱讀
    【直播預(yù)告】ADI &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; WT·世健MCU痛<b class='flag-5'>點(diǎn)</b>問(wèn)題探索季:MCU應(yīng)用難題全力擊破!

    從邊緣到云端,合宙DTU&amp;amp;amp;RTU打造無(wú)縫物聯(lián)網(wǎng)解決方案

    DTU(數(shù)據(jù)傳輸單元)與RTU(遠(yuǎn)程終端單元)是連接邊緣與云端的橋梁,是實(shí)現(xiàn)數(shù)據(jù)無(wú)縫流動(dòng)的關(guān)鍵。 合宙推出的 DTU&amp;RTU成功推動(dòng)了眾多企業(yè)實(shí)現(xiàn)了生產(chǎn)設(shè)備的遠(yuǎn)程監(jiān)控和智能控制。
    的頭像 發(fā)表于 09-12 15:27 ?719次閱讀
    從邊緣到云端,合宙DTU&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;RTU打造無(wú)縫物聯(lián)網(wǎng)解決方案

    Allegro X 23.11 版本更新 I PCB 設(shè)計(jì):鍵移除評(píng)審內(nèi)容 &amp;amp;amp; 導(dǎo)入ODB++

    ,助力您提升設(shè)計(jì)質(zhì)量和設(shè)計(jì)效率。legroXPCBDesigner系統(tǒng)級(jí)PCB設(shè)計(jì)鍵移除評(píng)審內(nèi)容&amp;導(dǎo)入ODB++在23.
    的頭像 發(fā)表于 08-30 12:21 ?161次閱讀
    Allegro X 23.11 版本更新 I PCB 設(shè)計(jì):<b class='flag-5'>一</b>鍵移除評(píng)審內(nèi)容 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; 導(dǎo)入ODB++

    OC7201C資料(PCB &amp;amp; 原理圖)

    電子發(fā)燒友網(wǎng)站提供《OC7201C資料(PCB &amp; 原理圖).zip》資料免費(fèi)下載
    發(fā)表于 07-18 16:19 ?1次下載

    FS201資料(pcb &amp;amp; DEMO &amp;amp; 原理圖)

    電子發(fā)燒友網(wǎng)站提供《FS201資料(pcb &amp; DEMO &amp; 原理圖).zip》資料免費(fèi)下載
    發(fā)表于 07-16 11:24 ?0次下載

    北美運(yùn)營(yíng)商AT&amp;amp;amp;T認(rèn)證入庫(kù)產(chǎn)品范圍名單相關(guān)

    AT&amp;T作為全球領(lǐng)先的通信服務(wù)運(yùn)營(yíng)商之,通過(guò)AT&amp;T認(rèn)證不僅是對(duì)產(chǎn)品質(zhì)量的認(rèn)可,更是產(chǎn)品打開(kāi)北美市場(chǎng)大門(mén)的重要憑證。然而,或許您還不清楚AT&amp;T認(rèn)證入庫(kù)的產(chǎn)品
    的頭像 發(fā)表于 06-28 16:58 ?254次閱讀
    北美運(yùn)營(yíng)商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認(rèn)證入庫(kù)產(chǎn)品范圍名單相關(guān)

    室外抗拉防鎧裝單模光纜4芯詳情介紹

    室外抗拉防鎧裝單模光纜4芯是種具有特定性能和設(shè)計(jì)的光纜,主要用于室外環(huán)境的通信傳輸。以下是對(duì)其特點(diǎn)、結(jié)構(gòu)和應(yīng)用場(chǎng)景的詳細(xì)解釋: 特點(diǎn): 抗拉防:該光纜具有優(yōu)異的抗拉和防性能,能
    的頭像 發(fā)表于 06-19 09:46 ?339次閱讀

    解讀北美運(yùn)營(yíng)商,AT&amp;amp;amp;T的認(rèn)證分類與認(rèn)證內(nèi)容分享

    在數(shù)字化日益深入的今天,通信技術(shù)的穩(wěn)定與安全對(duì)于個(gè)人、企業(yè)乃至整個(gè)國(guó)家都至關(guān)重要。作為北美通信領(lǐng)域的領(lǐng)軍者,AT&amp;T直致力于為用戶提供高效、可靠的通信服務(wù)。而在這背后,AT&amp;T
    的頭像 發(fā)表于 06-05 17:27 ?331次閱讀
    解讀北美運(yùn)營(yíng)商,AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T的認(rèn)證分類與認(rèn)證內(nèi)容分享

    國(guó)顯科技榮獲“深圳知名品牌&amp;amp;amp;灣區(qū)知名品牌”

    近日,深圳知名品牌評(píng)價(jià)委員會(huì)公布第二十一屆“深圳知名品牌”評(píng)審結(jié)果,在此次評(píng)審中,深圳市國(guó)顯科技有限公司再次成功通過(guò)復(fù)審,并榮獲“深圳知名品牌&amp;灣區(qū)知名品牌”的稱號(hào)。
    的頭像 發(fā)表于 05-24 09:55 ?371次閱讀
    國(guó)顯科技榮獲“深圳知名品牌&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;灣區(qū)知名品牌”

    Open RAN的未來(lái)及其對(duì)AT&amp;amp;T的意義

    3月14日消息,在“Connected America 2024”會(huì)議上,AT&amp;T高級(jí)副總裁兼網(wǎng)絡(luò)首席技術(shù)官Yigal Elbaz討論了Open RAN 的未來(lái)及其對(duì)AT&amp;T的意義。
    的頭像 發(fā)表于 03-14 14:40 ?524次閱讀

    【電磁兼容技術(shù)文檔分享】頻譜儀應(yīng)用案例&amp;amp;amp;簡(jiǎn)易探頭的制作

    【電磁兼容技術(shù)文檔分享】頻譜儀應(yīng)用案例&amp;簡(jiǎn)易探頭的制作
    的頭像 發(fā)表于 02-19 13:20 ?601次閱讀
    【電磁兼容技術(shù)文檔分享】頻譜儀應(yīng)用案例&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;簡(jiǎn)易探頭的制作

    電機(jī)不跳閘,還有電流是為什么?

    臺(tái)3KW潛水泵安裝于水池中,前兩天使用時(shí)發(fā)現(xiàn)不上水,開(kāi)啟接觸器正常,卡表側(cè)電流2A.就是不上水。按照正常應(yīng)該是電機(jī)與泵連接處壞了,電機(jī)空轉(zhuǎn)。把泵撈上來(lái)吧--沒(méi)有別的辦法。撈泵時(shí)輕輕一拽電纜,既然把
    發(fā)表于 12-11 07:20

    開(kāi)關(guān)模式下的電源電流如何檢測(cè)?這12個(gè)電路&amp;amp;10個(gè)知識(shí)點(diǎn)講明白了

    開(kāi)關(guān)模式下的電源電流如何檢測(cè)?這12個(gè)電路&amp;10個(gè)知識(shí)點(diǎn)講明白了
    的頭像 發(fā)表于 12-06 16:04 ?660次閱讀
    開(kāi)關(guān)模式下的電源電流如何檢測(cè)?這12個(gè)電路&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;10個(gè)知識(shí)<b class='flag-5'>點(diǎn)</b>講明白了

    森木磊石CPEEC&amp;amp;amp;CPSSC 2023 展會(huì)圓滿收官!

    2023中國(guó)電力電子與能量轉(zhuǎn)換大會(huì)暨中國(guó)電源學(xué)會(huì)第二十六屆學(xué)術(shù)年會(huì)及展覽會(huì)(CPEEC&amp;CPSSC2023)是中國(guó)電源學(xué)會(huì)成立40周年紀(jì)念活動(dòng)的重要環(huán)節(jié)。會(huì)議旨在促進(jìn)電源、電力電子與能量轉(zhuǎn)換
    的頭像 發(fā)表于 11-16 08:22 ?427次閱讀
    森木磊石CPEEC&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;CPSSC 2023 展會(huì)圓滿收官!

    開(kāi)關(guān)模式下的電源電流如何檢測(cè)?這12個(gè)電路&amp;amp;10個(gè)知識(shí)點(diǎn)講明白了

    開(kāi)關(guān)模式下的電源電流如何檢測(cè)?這12個(gè)電路&amp;10個(gè)知識(shí)點(diǎn)講明白了
    的頭像 發(fā)表于 10-17 16:09 ?689次閱讀
    開(kāi)關(guān)模式下的電源電流如何檢測(cè)?這12個(gè)電路&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;10個(gè)知識(shí)<b class='flag-5'>點(diǎn)</b>講明白了