過去的兩年時(shí)間里,AI界的大型生成模型發(fā)布呈井噴之勢,尤其是Stable Diffusion開源和ChatGPT開放接口后,更加激發(fā)了業(yè)界對(duì)生成式模型的熱情。
但生成式模型種類繁多,發(fā)布速度也非??欤圆涣羯窬陀锌赡苠e(cuò)過了sota
最近,來自西班牙科米利亞斯主教大學(xué)的研究人員全面回顧了各個(gè)領(lǐng)域內(nèi)AI的最新進(jìn)展,將生成式模型按照任務(wù)模態(tài)、領(lǐng)域分為了九大類,并總結(jié)了2022年發(fā)布的21個(gè)生成式模型,一次看明白生成式模型的發(fā)展脈絡(luò)!
生成式AI分類
模型可以按照輸入和輸出的數(shù)據(jù)類型進(jìn)行分類,目前主要包括9類。
有趣的是,在這些已發(fā)布大模型的背后,只有六個(gè)組織(OpenAI, Google, DeepMind, Meta, runway, Nvidia)參與部署了這些最先進(jìn)的模型。
其主要原因是,為了能夠估計(jì)這些模型的參數(shù),必須擁有極其龐大的計(jì)算能力,以及在數(shù)據(jù)科學(xué)和數(shù)據(jù)工程方面高度熟練且經(jīng)驗(yàn)豐富的團(tuán)隊(duì)。
因此,也只有這些公司,在收購的初創(chuàng)公司和與學(xué)術(shù)界合作的幫助下,能夠成功部署生成式人工智能模型。
在大公司參與初創(chuàng)企業(yè)方面,可以看到微軟向OpenAI投資了10億美元,并幫助他們開發(fā)模型;同樣,谷歌在2014年收購了Deepmind。
在大學(xué)方面,VisualGPT是由阿卜杜拉國王科技大學(xué)(KAUST)、卡內(nèi)基梅隆大學(xué)和南洋理工大學(xué)開發(fā)的,Human Motion Diffusion模型是由以色列特拉維夫大學(xué)開發(fā)的。
同樣,其他項(xiàng)目也是由一家公司與一所大學(xué)合作開發(fā)的,比如Stable Diffusion由Runway、Stability AI和慕尼黑大學(xué)合作開發(fā);Soundify由Runway和卡內(nèi)基梅隆大學(xué)合作開發(fā);DreamFusion由谷歌和加州大學(xué)伯克利分校合作。
Text-to-image模型
DALL-E 2
由OpenAI開發(fā)的DALL-E 2能夠從由文本描述組成的提示中生成原始、真實(shí)、逼真的圖像和藝術(shù),而且OpenAI已經(jīng)對(duì)外提供了API來訪問該模型。
DALL-E 2特別之處在于它能夠?qū)⒏拍?、屬性和不同風(fēng)格結(jié)合起來,其能力源于語言-圖像預(yù)訓(xùn)練模型CLIP神經(jīng)網(wǎng)絡(luò),從而可以用自然語言來指示最相關(guān)的文本片段。
具體來說,CLIP embedding有幾個(gè)理想的屬性:能夠?qū)D像分布進(jìn)行穩(wěn)定的轉(zhuǎn)換;具有強(qiáng)大的zero-shot能力;并且在微調(diào)后實(shí)現(xiàn)了最先進(jìn)的結(jié)果。
為了獲得一個(gè)完整的圖像生成模型,CLIP圖像embedding解碼器模塊與一個(gè)先驗(yàn)?zāi)P拖嘟Y(jié)合,從一個(gè)給定的文本標(biāo)題中生成相關(guān)CLIP圖像embedding
其他的模型還包括Imagen,Stable Diffusion,Muse
Text-to-3D模型
對(duì)于某些行業(yè),僅能生成2D圖像還無法完成自動(dòng)化,比如游戲領(lǐng)域就需要生成3D模型。
Dreamfusion
DreamFusion由Google Research開發(fā),使用預(yù)先訓(xùn)練好的2D文本到圖像的擴(kuò)散模型來進(jìn)行文本到3D的合成。
Dreamfusion使用一個(gè)從二維擴(kuò)散模型的蒸餾中得到的損失取代了CLIP技術(shù),即擴(kuò)散模型可以作為一個(gè)通用的連續(xù)優(yōu)化問題中的損失來生成樣本。
相比其他方法主要是對(duì)像素進(jìn)行采樣,在參數(shù)空間的采樣比在像素空間的采樣要難得多,DreamFusion使用了一個(gè)可微的生成器,專注于創(chuàng)建從隨機(jī)角度渲染圖像的三維模型。
Image-to-Text模型
獲得一個(gè)描述圖像的文本也是很有用的,相當(dāng)于圖像生成的逆版本。
Flamingo
該模型由Deepmind開發(fā),在開放式的視覺語言任務(wù)上,只需通過一些輸入/輸出例子的提示,即可進(jìn)行few-shot學(xué)習(xí)。
具體來說,F(xiàn)lamingo的輸入包含視覺條件下的自回歸文本生成模型,能夠接收與圖像或視頻交錯(cuò)的文本token序列,并生成文本作為輸出。
用戶可以向模型輸入query,并附上一張照片或一段視頻,模型就會(huì)用文本答案來回答。
Flamingo模型利用了兩個(gè)互補(bǔ)的模型:一個(gè)是分析視覺場景的視覺模型,一個(gè)是執(zhí)行基本推理形式的大型語言模型。
VisualGPT
VisualGPT是一個(gè)由OpenAI開發(fā)的圖像描述模型,能夠利用預(yù)訓(xùn)練語言模型GPT-2中的知識(shí)。
為了彌合不同模態(tài)之間的語義差距,研究人員設(shè)計(jì)了一個(gè)全新的編碼器-解碼器注意力機(jī)制,具有整流門控功能。
VisualGPT最大的優(yōu)點(diǎn)是它不需要像其他圖像到文本模型那樣多的數(shù)據(jù),能夠提高圖像描述模型的數(shù)據(jù)效率,能夠在小眾領(lǐng)域得到應(yīng)用或?qū)ι僖姷奈矬w的進(jìn)行描述。
Text-to-Video模型
Phenaki
該模型由Google Research開發(fā)制作,可以在給定一連串文字提示的情況下,進(jìn)行真實(shí)的視頻合成。
Phenaki是第一個(gè)能夠從開放域時(shí)間變量提示中生成視頻的模型。
為了解決數(shù)據(jù)問題,研究人員在一個(gè)大型的圖像-文本對(duì)數(shù)據(jù)集以及數(shù)量較少的視頻-文本例子上進(jìn)行聯(lián)合訓(xùn)練,最終獲得了超越視頻數(shù)據(jù)集中的泛化能力。
主要是圖像-文本數(shù)據(jù)集往往有數(shù)十億的輸入數(shù)據(jù),而文本-視頻數(shù)據(jù)集則小得多,并且對(duì)不同長度的視頻進(jìn)行計(jì)算也是一個(gè)難題。
Phenaki模型包含三個(gè)部分:C-ViViT編碼器、訓(xùn)練Transformer和視頻生成器。
將輸入token轉(zhuǎn)換為embedding后,接著經(jīng)過時(shí)序Transformer和空間Transformer,再使用一個(gè)沒有激活的單一線性投影,將token映射回像素空間。
最終模型可以生成以開放域提示為條件的時(shí)間連貫性和多樣性的視頻,甚至能夠處理一些數(shù)據(jù)集中不存在的新概念。
相關(guān)模型包括Soundify.
Text-to-Audio模型
對(duì)于視頻生成來說,聲音也是必不可缺的部分。
AudioLM
該模型是由谷歌開發(fā),可用于生成高質(zhì)量的音頻,并具有長距離一致性。
AudioLM的特別之處在于將輸入的音頻映射成一個(gè)離散的token序列,并將音頻生成作為該表示空間的語言建模任務(wù)。
通過對(duì)原始音頻波形的大型語料庫進(jìn)行訓(xùn)練,AudioLM成功學(xué)會(huì)了在簡短的提示下生成自然和連貫的連續(xù)的語音。這種方法甚至可以擴(kuò)展到人聲之外的語音,比如連續(xù)的鋼琴音樂等等,而不需要在訓(xùn)練時(shí)添加符號(hào)表示。
由于音頻信號(hào)涉及多個(gè)尺度(scale)的抽象,所以音頻合成時(shí)使得多尺度在顯示一致性的同時(shí)實(shí)現(xiàn)高音頻質(zhì)量非常具有挑戰(zhàn)性。AudioLM模型通過結(jié)合神經(jīng)音頻壓縮、自監(jiān)督表示學(xué)習(xí)和語言建模方面的最新進(jìn)展來實(shí)現(xiàn)。
在主觀評(píng)價(jià)方面,評(píng)分者被要求聽一個(gè)10秒的樣本,并決定它是人類講話還是合成的語音?;谑占降?000個(gè)評(píng)分,比率為51.2%,與隨機(jī)分配標(biāo)簽沒有統(tǒng)計(jì)學(xué)差異,即人類無法區(qū)分合成和真實(shí)的樣本。
其他相關(guān)模型包括Jukebox和Whisper
Text-to-Text模型
問答任務(wù)常用。
ChatGPT
廣受歡迎的ChatGPT由OpenAI開發(fā),以對(duì)話的方式與用戶進(jìn)行互動(dòng)。
用戶提出一個(gè)問題,或是提示文本的前半部分,模型會(huì)補(bǔ)全后續(xù)部分,并且能夠識(shí)別出不正確的輸入前提并拒絕不恰當(dāng)?shù)恼?qǐng)求。
具體來說,ChatGPT背后的算法是Transformer,訓(xùn)練過程主要是人類反饋的強(qiáng)化學(xué)習(xí)。
最初的模型是使用監(jiān)督學(xué)習(xí)下的微調(diào)來訓(xùn)練的,然后由人類來提供對(duì)話,在對(duì)話中他們互相扮演用戶和人工智能助理,然后由人修正模型返回的回復(fù),并用正確的答案幫助模型改進(jìn)。
將制作的數(shù)據(jù)集與InstructGPT的數(shù)據(jù)集混合在一起,轉(zhuǎn)換為對(duì)話格式。
其他相關(guān)模型包括LaMDA和PEER
Text-to-Code模型
和text-to-text類似,只不過生成的是特殊類型的文本,即代碼。
Codex
該模型由OpenAI開發(fā),可以將文本翻譯成代碼。
Codex是一種通用的編程模型,基本上可以應(yīng)用于任何編程任務(wù)。
人類在編程時(shí)的活動(dòng)可以分為兩部分:1)將一個(gè)問題分解成更簡單的問題;2)將這些問題映射到已經(jīng)存在的現(xiàn)有代碼(庫、API或函數(shù))中。
其中第二部分是對(duì)程序員來說最浪費(fèi)時(shí)間的部分,也是Codex最擅長的地方。
訓(xùn)練數(shù)據(jù)于2020年5月從GitHub上托管的公共軟件庫中進(jìn)行收集,包含179GB的Python文件,并在GPT-3的基礎(chǔ)上進(jìn)行微調(diào),其中已經(jīng)包含了強(qiáng)大的自然語言表征。
相關(guān)模型還包括Alphacode
Text-to-Science模型
科研文字也是AI文本生成的目標(biāo)之一,但要取得成果仍然有很長的路要走。
Galactica
該模型是由Meta AI和Papers with Code聯(lián)合開發(fā)的,可用于自動(dòng)組織科學(xué)文本的大型模型。
Galactica的主要優(yōu)勢在于即便進(jìn)行多個(gè)episode的訓(xùn)練后,模型仍然不會(huì)過擬合,并且上游和下游的性能會(huì)隨著token的重復(fù)使用而提高。
并且數(shù)據(jù)集的設(shè)計(jì)對(duì)該方法至關(guān)重要,因?yàn)樗械臄?shù)據(jù)都是以通用的markdown格式處理的,從而能夠混合不同來源的知識(shí)。
引文(citations)通過一個(gè)特定的token來處理,使得研究人員可以在任何輸入上下文中預(yù)測一個(gè)引文。Galactica模型預(yù)測引文的能力會(huì)隨著規(guī)模的提升而提高。
此外,該模型在僅有解碼器的設(shè)置中使用了一個(gè)Transformer架構(gòu),對(duì)所有尺寸的模型進(jìn)行了GeLU激活,從而可以執(zhí)行涉及SMILES化學(xué)公式和蛋白質(zhì)序列的多模態(tài)任務(wù),
Minerva
Minerva的主要目的就是解決決數(shù)學(xué)和科學(xué)問題,為此收集了大量的訓(xùn)練數(shù)據(jù),并解決了定量推理問題,大規(guī)模模型開發(fā)問題,還采用了一流的推理技術(shù)。
Minerva采樣語言模型架構(gòu)通過使用step-by-step推理來解決輸入的問題,即輸入是需要包含計(jì)算和符號(hào)操作,而不用引入外部工具。
其他模型
還有一些模型不屬于前面提到的類別。
AlphaTensor
由Deepmind公司開發(fā),因其發(fā)現(xiàn)新算法的能力,在業(yè)界是一個(gè)完全革命性的模型。
在已公布的例子中,AlphaTensor創(chuàng)造了一種更有效的矩陣乘法算法。這種算法非常重要,從神經(jīng)網(wǎng)絡(luò)到科學(xué)計(jì)算程序都可以從這種高效率的乘法計(jì)算中受益。
該方法基于深度強(qiáng)化學(xué)習(xí)方法,其中智能體AlphaTensor的訓(xùn)練過程就是玩一個(gè)單人游戲,目標(biāo)是在有限的因子空間內(nèi)尋找張量分解。
在TensorGame的每一步,玩家需要選擇如何結(jié)合矩陣的不同entries來進(jìn)行乘法,并根據(jù)達(dá)到正確的乘法結(jié)果所需的操作數(shù)量來獲得獎(jiǎng)勵(lì)分?jǐn)?shù)。AlphaTensor使用一種特殊的神經(jīng)網(wǎng)絡(luò)架構(gòu)來利用合成訓(xùn)練游戲(synthetic training game)的對(duì)稱性。
GATO
該模型是由Deepmind開發(fā)的通用智能體,它可以作為一個(gè)多模態(tài)、多任務(wù)或多embodiment泛化策略來使用。
具有相同權(quán)重的同一個(gè)網(wǎng)絡(luò)可以承載非常不同的能力,從玩雅達(dá)利游戲、描述圖片、聊天、堆積木等等。
在所有任務(wù)中使用單一的神經(jīng)序列模型有很多好處,減少了手工制作具有自身歸納偏見策略模型的需要,并增加了訓(xùn)練數(shù)據(jù)的數(shù)量和多樣性。
這種通用智能體在大量任務(wù)中都取得了成功,并且可以用很少的額外數(shù)據(jù)進(jìn)行調(diào)整,以便在更多的任務(wù)中取得成功。
目前GATO大約有1.2B個(gè)參數(shù),可以實(shí)時(shí)控制現(xiàn)實(shí)世界機(jī)器人的模型規(guī)模。
其他已發(fā)表的生成性人工智能模型包括生成human motion等。
參考資料:
https://arxiv.org/abs/2301.04655
-
AI
+關(guān)注
關(guān)注
87文章
29806瀏覽量
268106 -
開源
+關(guān)注
關(guān)注
3文章
3215瀏覽量
42329 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1546瀏覽量
7359
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論