【導讀】數(shù)據(jù)獲取最新解,便是從生成模型中學習。
獲取高質(zhì)量數(shù)據(jù),已經(jīng)成為當前大模型訓練的一大瓶頸。
前幾天,OpenAI被《紐約時報》起訴,并要求索賠數(shù)十億美元。訴狀中,列舉了GPT-4抄襲的多項罪證。
甚至,《紐約時報》還呼吁摧毀幾乎所有的GPT等大模型。
一直以來,AI界多位大佬認為「合成數(shù)據(jù)」或許是解決這個問題的最優(yōu)解。
此前,谷歌團隊還提出了用LLM代替人類標記偏好的方法RLAIF,效果甚至不輸人類。
現(xiàn)如今,谷歌MIT的研究人員發(fā)現(xiàn),從大模型中學習可以得到使用真實數(shù)據(jù)訓練的最佳模型的表征。
這一最新方法稱SynCLR,一種完全從合成圖像和合成描述學習虛擬表征的方法,無需任何真實數(shù)據(jù)。
論文地址:https://arxiv.org/abs/2312.17742
實驗結(jié)果表明,通過SynCLR方法學習到的表征,能夠與OpenAI的CLIP在ImageNet 上的傳輸效果一樣好。
從生成模型中學習
目前表現(xiàn)最好的「視覺表征」學習方法依賴于大規(guī)模的實際數(shù)據(jù)集。然而,真實數(shù)據(jù)的收集卻有不少的困難。
為了降低收集數(shù)據(jù)的成本,研究人員本文中提出了一個問題:
從現(xiàn)成的生成模型中采樣的合成數(shù)據(jù),是否是一條通往大規(guī)模策劃數(shù)據(jù)集的可行之路,從而訓練出最先進的視覺表征?
與直接從數(shù)據(jù)中學習不同,谷歌研究人員稱這種模式為「從模型中學習」。作為建立大規(guī)模訓練集的數(shù)據(jù)源,模型有幾個優(yōu)勢:
- 通過其潛在變量、條件變量和超參數(shù),為數(shù)據(jù)管理提供了新的控制方法。
- 模型也更容易共享和存儲(因為模型比數(shù)據(jù)更容易壓縮),并且可以產(chǎn)生無限數(shù)量的數(shù)據(jù)樣本。
越來越多的文獻研究了生成模型的這些特性和其他優(yōu)點和缺點,并將其作為訓練下游模型的數(shù)據(jù)源。
其中一些方法采用混合模式,即混合真實數(shù)據(jù)集和合成數(shù)據(jù)集,或需要一個真實數(shù)據(jù)集來生成另一個合成數(shù)據(jù)集。
其他方法試圖從純粹的「合成數(shù)據(jù)」中學習表征,但遠遠落后于表現(xiàn)最好的模型。
論文中,研究人員提出的最新方法,使用生成模型重新定義可視化類的粒度。
如圖2所示,使用2個提示生成了四張圖片「一只戴著墨鏡和沙灘帽的金毛獵犬騎著自行車」和「一只可愛的金毛獵犬坐在壽司做成的房子里」。
傳統(tǒng)的自監(jiān)督方法(如Sim-CLR)會將這些圖像視為不同的類,不同圖像的嵌入會被分開,而不會明確考慮圖像之間的共享語義。
另一個極端是,監(jiān)督學習方法(即SupCE)會將所有這些圖像視為單一類(如「金毛獵犬」)。這就忽略了這些圖像在語義上的細微差別,例如在一對圖像中狗在騎自行車,而在另一對圖像中狗坐在壽司屋內(nèi)。
相反,SynCLR方法將描述視為類,即每個描述一個可視化類。
這樣,我們就可以按照「騎自行車」和「坐在壽司店里」這兩個概念對圖片進行分組。
這種粒度很難在真實數(shù)據(jù)中挖掘,因為收集由給定描述的多張圖片并非易事,尤其是當描述數(shù)量增加時。
然而,文本到圖像的擴散模型從根本上就具備這種能力。
只需對相同的描述設(shè)定條件,并使用不同的噪聲輸入,文本到圖像的擴散模型就能生成與相同描述相匹配的不同圖像。
具體來說,作者研究了在沒有真實圖像或文本數(shù)據(jù)的情況下,學習視覺編碼器的問題。
最新方法依賴3個關(guān)鍵資源的利用:一個語言生成模型(g1),一個文本到圖像的生成模型(g2),以及一個經(jīng)過整理的視覺概念列表(c)。
前處理包括三個步驟:
(1)使用(g1)合成一組全面的圖像描述T,其中涵蓋了C中的各種視覺概念;
(2)對于T中的每個標題,使用(g2)生成多個圖像,最終生成一個廣泛的合成圖像數(shù)據(jù)集X;
(3)在X上進行訓練,以獲得視覺表示編碼器f。
然后,分別使用llama-27b和Stable Diffusion 1.5作為(g1)和(g2),因為其推理速度很快。
合成描述
為了利用強大的文本到圖像模型的能力,來生成大量的訓練圖像數(shù)據(jù)集,首先需要一個不僅精確描述圖像而且展示多樣性的描述集合,以包含廣泛的視覺概念。
對此,作者開發(fā)了一種可擴展的方法來創(chuàng)建如此大量的描述集,利用大模型的上下文學習能力。
如下展示了三個合成模板的示例。
如下是使用Llama-2生成上下文描述,研究人員在每次推理運行中隨機抽取三個上下文示例。
合成圖像
對于每個文本描述,研究人員都會用不同的隨機噪聲啟動反向擴散過程,從而生成各種圖像。
在此過程中,無分類器引導(CFG)比例是一個關(guān)鍵因素。
CFG標度越高,樣本的質(zhì)量和文本與圖像之間的一致性就越好,而標度越低,樣本的多樣性就越大,也就越符合基于給定文本的圖像原始條件分布。
表征學習
論文中,表征學習的方法建立在StableRep的基礎(chǔ)上。
作者提出的方法的關(guān)鍵組成部分是多正對比學習損失,它的工作原理是對齊(在嵌入空間)從同一描述生成的圖像。
另外,研究中還結(jié)合了其他自監(jiān)督學習方法的多種技術(shù)。
與OpenAI的CLIP相媲美
實驗評估中,研究人員首先進行消融研究,以評估管道內(nèi)各種設(shè)計和模塊的有效性,然后繼續(xù)擴大合成數(shù)據(jù)的量。
下圖是不同描述合成策略的比較。
研究人員報告了9個細粒度數(shù)據(jù)集的ImageNet線性評估準確性和平均準確性。這里的每個項目包括1000萬個描述和每個描述4張圖片。
下表是ImageNet線性評估與細粒度分類的比較。
盡管只使用了合成數(shù)據(jù),但SynCLR與OpenAI的CLIP和DINO v2模型取得了不相上下的結(jié)果。
下表是在相同的合成數(shù)據(jù)上比較SynCLR和CLIP,可以看出,SynCLR明顯優(yōu)于CLIP。
具體設(shè)置為,每個標題生成4個圖像,SynCaps-150M為SynCLR和CLIP提供了更好的表示。
PCA可視化如下。按照DINO v2,研究人員計算了同一組圖像的斑塊之間的PCA,并根據(jù)其前3個分量進行著色。
與DINO v2相比,SynCLR對汽車和飛機的繪制的圖更為準確,而對能繪制的圖則稍差一些。
圖6和圖7中,分別展示了不同訓練規(guī)模下的ImageNet線性準確率,以及不同訓練參數(shù)規(guī)模下的精細分類。
為什么要從生成模型中學習?
一個令人信服的原因是,生成模型可以像數(shù)百個數(shù)據(jù)集一樣同時運作,能夠為策劃訓練數(shù)據(jù)提供了一種方便有效的方法。
總而言之,最新論文研究了視覺表征學習的新范式——從生成模型中學習。
在沒有使用任何實際數(shù)據(jù)的情況下,SynCLR學習到的視覺表征,與最先進的通用視覺表征學習器學習到的視覺表征不相上下。
-
模型
+關(guān)注
關(guān)注
1文章
3116瀏覽量
48661 -
GPT
+關(guān)注
關(guān)注
0文章
351瀏覽量
15285 -
OpenAI
+關(guān)注
關(guān)注
9文章
1034瀏覽量
6378 -
大模型
+關(guān)注
關(guān)注
2文章
2279瀏覽量
2363
原文標題:谷歌MIT最新研究證明:高質(zhì)量數(shù)據(jù)獲取不難,大模型就是歸途
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論