大佬何愷明還未正式入職MIT,但和MIT的第一篇合作研究已經(jīng)出來了:
他和MIT師生一起開發(fā)了一個自條件圖像生成框架,名叫RCG(代碼已開源)。
這個框架結(jié)構(gòu)非常簡單但效果拔群,直接在ImageNet-1K數(shù)據(jù)集上實現(xiàn)了無條件圖像生成的新SOTA。
它生成的圖像不需要任何人類注釋(也就是提示詞、類標簽什么的),就能做到既保真又具有多樣性。
這樣的它不僅顯著提高了無條件圖像生成的水平,還能跟當前最好的條件生成方法一較高下。
用何愷明團隊自己的話來說:
有條件和無條件生成任務之間長期存在的性能差距,終于在這一刻被彌補了。
那么,它究竟是如何做到的呢?
類似自監(jiān)督學習的自條件生成
首先,所謂無條件生成,就是模型在沒有輸入信號幫助的情況下直接捕獲數(shù)據(jù)分布生成內(nèi)容。
這種方式比較難以訓練,所以一直和條件生成有很大性能差距——就像無監(jiān)督學習比不過監(jiān)督學習一樣。
但就像自監(jiān)督學習的出現(xiàn),扭轉(zhuǎn)了這一局面一樣。
在無條件圖像生成領(lǐng)域,也有一個類似于自監(jiān)督學習概念的自條件生成方法。
相比傳統(tǒng)的無條件生成簡單地將噪聲分布映射到圖像分布,這種方法主要將像素生成過程設置在從數(shù)據(jù)分布本身導出的表示分布上。
它有望超越條件圖像生成,并推動諸如分子設計或藥物發(fā)現(xiàn)這種不需要人類給注釋的應用往前發(fā)展(這也是為什么條件生成圖像發(fā)展得這么好,我們還要重視無條件生成)。
現(xiàn)在,基于這個自條件生成概念,何愷明團隊首先開發(fā)了一個表示擴散模型RDM。
它主要用于生成低維自監(jiān)督圖像表示,方法是通過自監(jiān)督圖像編碼器從圖像中截取:
它的核心架構(gòu)如下:
首先是輸入層,它負責將表征投射到隱藏維度C,接著是N個全連接塊,最后是一個輸出層,負責把隱藏層的潛在特征重新投射(轉(zhuǎn)換)到原始表征維度。
其中每一層都包含一個LayerNorm層、一個SiLU層以及一個線性層。
這樣的RDM具有兩個優(yōu)點:
一是多樣性強,二是計算開銷小。
接著,利用RDM,團隊就提出了今天的主角:表示條件圖像生成架構(gòu)RCG。
它是一個簡單的自條件生成框架,由三個組件組成:
一個是SSL圖像編碼器,用于將圖像分布轉(zhuǎn)換為緊湊的表示分布。
一個是RDM,用于對該分布進行建模和采樣。
最后是一個像素生成器MAGE,用于根據(jù)表示來處理圖像像。
MAGE的工作方式主要是向token化的圖像中添加隨機掩碼,并要求網(wǎng)絡以從同一圖像中提取的表示為條件來重建丟失的token。
最終,測試表明,這個自條件生成框架雖結(jié)構(gòu)簡單但效果非凡:
在ImageNet 256×256上,RCG實現(xiàn)了3.56的FID和186.9的IS(Inception Score)得分。
相比之下,在它之前最厲害的無條件生成方法FID分數(shù)為7.04,IS得分為123.5。
以及,相比條件生成,RCG也絲毫不遜色,可以達到相當甚至超過該領(lǐng)域基準模型的水平。
最后,在無分類器引導的情況下,RCG的成績還能進一步提高到3.31(FID)和253.4(IS)。
團隊表示:
這些結(jié)果表明,自條件圖像生成模型擁有巨大潛力,可能預示這一領(lǐng)域新時代的到來。
團隊介紹
本文一共三位作者:
代碼:https://github.com/LTH14/rcg
論文:https://arxiv.org/abs/2312.03701
一作是MIT博士生黎天鴻,本科畢業(yè)于清華姚班,研究方向為跨模態(tài)集成傳感技術(shù)。
他的主頁很有意思,還專門放了一個菜譜合集——做研究和做飯是他最熱愛的兩件事。
另一位作者是MIT電氣工程與計算機科學系(EECS)教授、MIT無線網(wǎng)絡和移動計算中心主任Dina Katabi,她是今年斯隆獎的獲得者,并已當選美國國家科學院院士。
最后,通訊作者為何愷明,他將在明年正式回歸學界、離開Meta加入MIT電氣工程和計算機科學系,與Dina Katabi成為同事。
-
圖像
+關(guān)注
關(guān)注
2文章
1075瀏覽量
40270 -
MIT
+關(guān)注
關(guān)注
3文章
253瀏覽量
23312 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1197瀏覽量
24538
原文標題:何愷明新作RCG:無自條件圖像生成新SOTA!與MIT首次合作!
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論