過去的兩年時(shí)間里，AI界的大型生成模型發(fā)布呈井噴之勢，尤其是Stable Diffusion開源和ChatGPT開放接口后，更加激發(fā)了業(yè)界對(duì)生成式模型的熱情。

但生成式模型種類繁多，發(fā)布速度也非?？欤圆涣羯窬陀锌赡苠e(cuò)過了sota

最近，來自西班牙科米利亞斯主教大學(xué)的研究人員全面回顧了各個(gè)領(lǐng)域內(nèi)AI的最新進(jìn)展，將生成式模型按照任務(wù)模態(tài)、領(lǐng)域分為了九大類，并總結(jié)了2022年發(fā)布的21個(gè)生成式模型，一次看明白生成式模型的發(fā)展脈絡(luò)！

生成式AI分類

模型可以按照輸入和輸出的數(shù)據(jù)類型進(jìn)行分類，目前主要包括9類。

有趣的是，在這些已發(fā)布大模型的背后，只有六個(gè)組織（OpenAI, Google, DeepMind, Meta, runway, Nvidia）參與部署了這些最先進(jìn)的模型。

其主要原因是，為了能夠估計(jì)這些模型的參數(shù)，必須擁有極其龐大的計(jì)算能力，以及在數(shù)據(jù)科學(xué)和數(shù)據(jù)工程方面高度熟練且經(jīng)驗(yàn)豐富的團(tuán)隊(duì)。

因此，也只有這些公司，在收購的初創(chuàng)公司和與學(xué)術(shù)界合作的幫助下，能夠成功部署生成式人工智能模型。

在大公司參與初創(chuàng)企業(yè)方面，可以看到微軟向OpenAI投資了10億美元，并幫助他們開發(fā)模型；同樣，谷歌在2014年收購了Deepmind。

在大學(xué)方面，VisualGPT是由阿卜杜拉國王科技大學(xué)（KAUST）、卡內(nèi)基梅隆大學(xué)和南洋理工大學(xué)開發(fā)的，Human Motion Diffusion模型是由以色列特拉維夫大學(xué)開發(fā)的。

同樣，其他項(xiàng)目也是由一家公司與一所大學(xué)合作開發(fā)的，比如Stable Diffusion由Runway、Stability AI和慕尼黑大學(xué)合作開發(fā)；Soundify由Runway和卡內(nèi)基梅隆大學(xué)合作開發(fā)；DreamFusion由谷歌和加州大學(xué)伯克利分校合作。

Text-to-image模型

DALL-E 2

由OpenAI開發(fā)的DALL-E 2能夠從由文本描述組成的提示中生成原始、真實(shí)、逼真的圖像和藝術(shù)，而且OpenAI已經(jīng)對(duì)外提供了API來訪問該模型。

DALL-E 2特別之處在于它能夠?qū)⒏拍?、屬性和不同風(fēng)格結(jié)合起來，其能力源于語言-圖像預(yù)訓(xùn)練模型CLIP神經(jīng)網(wǎng)絡(luò)，從而可以用自然語言來指示最相關(guān)的文本片段。

具體來說，CLIP embedding有幾個(gè)理想的屬性：能夠?qū)D像分布進(jìn)行穩(wěn)定的轉(zhuǎn)換；具有強(qiáng)大的zero-shot能力；并且在微調(diào)后實(shí)現(xiàn)了最先進(jìn)的結(jié)果。

為了獲得一個(gè)完整的圖像生成模型，CLIP圖像embedding解碼器模塊與一個(gè)先驗(yàn)?zāi)Ｐ拖嘟Y(jié)合，從一個(gè)給定的文本標(biāo)題中生成相關(guān)CLIP圖像embedding

其他的模型還包括Imagen，Stable Diffusion，Muse

Text-to-3D模型

對(duì)于某些行業(yè)，僅能生成2D圖像還無法完成自動(dòng)化，比如游戲領(lǐng)域就需要生成3D模型。

Dreamfusion

DreamFusion由Google Research開發(fā)，使用預(yù)先訓(xùn)練好的2D文本到圖像的擴(kuò)散模型來進(jìn)行文本到3D的合成。

Dreamfusion使用一個(gè)從二維擴(kuò)散模型的蒸餾中得到的損失取代了CLIP技術(shù)，即擴(kuò)散模型可以作為一個(gè)通用的連續(xù)優(yōu)化問題中的損失來生成樣本。

相比其他方法主要是對(duì)像素進(jìn)行采樣，在參數(shù)空間的采樣比在像素空間的采樣要難得多，DreamFusion使用了一個(gè)可微的生成器，專注于創(chuàng)建從隨機(jī)角度渲染圖像的三維模型。

其他模型如Magic3D由英偉達(dá)公司開發(fā)。

Image-to-Text模型

獲得一個(gè)描述圖像的文本也是很有用的，相當(dāng)于圖像生成的逆版本。

Flamingo

該模型由Deepmind開發(fā)，在開放式的視覺語言任務(wù)上，只需通過一些輸入/輸出例子的提示，即可進(jìn)行few-shot學(xué)習(xí)。

具體來說，F(xiàn)lamingo的輸入包含視覺條件下的自回歸文本生成模型，能夠接收與圖像或視頻交錯(cuò)的文本token序列，并生成文本作為輸出。

用戶可以向模型輸入query，并附上一張照片或一段視頻，模型就會(huì)用文本答案來回答。

Flamingo模型利用了兩個(gè)互補(bǔ)的模型：一個(gè)是分析視覺場景的視覺模型，一個(gè)是執(zhí)行基本推理形式的大型語言模型。

VisualGPT

VisualGPT是一個(gè)由OpenAI開發(fā)的圖像描述模型，能夠利用預(yù)訓(xùn)練語言模型GPT-2中的知識(shí)。

為了彌合不同模態(tài)之間的語義差距，研究人員設(shè)計(jì)了一個(gè)全新的編碼器-解碼器注意力機(jī)制，具有整流門控功能。

VisualGPT最大的優(yōu)點(diǎn)是它不需要像其他圖像到文本模型那樣多的數(shù)據(jù)，能夠提高圖像描述模型的數(shù)據(jù)效率，能夠在小眾領(lǐng)域得到應(yīng)用或?qū)ι僖姷奈矬w的進(jìn)行描述。

Text-to-Video模型

Phenaki

該模型由Google Research開發(fā)制作，可以在給定一連串文字提示的情況下，進(jìn)行真實(shí)的視頻合成。

Phenaki是第一個(gè)能夠從開放域時(shí)間變量提示中生成視頻的模型。

為了解決數(shù)據(jù)問題，研究人員在一個(gè)大型的圖像-文本對(duì)數(shù)據(jù)集以及數(shù)量較少的視頻-文本例子上進(jìn)行聯(lián)合訓(xùn)練，最終獲得了超越視頻數(shù)據(jù)集中的泛化能力。

主要是圖像-文本數(shù)據(jù)集往往有數(shù)十億的輸入數(shù)據(jù)，而文本-視頻數(shù)據(jù)集則小得多，并且對(duì)不同長度的視頻進(jìn)行計(jì)算也是一個(gè)難題。

Phenaki模型包含三個(gè)部分：C-ViViT編碼器、訓(xùn)練Transformer和視頻生成器。

將輸入token轉(zhuǎn)換為embedding后，接著經(jīng)過時(shí)序Transformer和空間Transformer，再使用一個(gè)沒有激活的單一線性投影，將token映射回像素空間。

最終模型可以生成以開放域提示為條件的時(shí)間連貫性和多樣性的視頻，甚至能夠處理一些數(shù)據(jù)集中不存在的新概念。

相關(guān)模型包括Soundify.

Text-to-Audio模型

對(duì)于視頻生成來說，聲音也是必不可缺的部分。

AudioLM

該模型是由谷歌開發(fā)，可用于生成高質(zhì)量的音頻，并具有長距離一致性。

AudioLM的特別之處在于將輸入的音頻映射成一個(gè)離散的token序列，并將音頻生成作為該表示空間的語言建模任務(wù)。

通過對(duì)原始音頻波形的大型語料庫進(jìn)行訓(xùn)練，AudioLM成功學(xué)會(huì)了在簡短的提示下生成自然和連貫的連續(xù)的語音。這種方法甚至可以擴(kuò)展到人聲之外的語音，比如連續(xù)的鋼琴音樂等等，而不需要在訓(xùn)練時(shí)添加符號(hào)表示。

由于音頻信號(hào)涉及多個(gè)尺度（scale）的抽象，所以音頻合成時(shí)使得多尺度在顯示一致性的同時(shí)實(shí)現(xiàn)高音頻質(zhì)量非常具有挑戰(zhàn)性。AudioLM模型通過結(jié)合神經(jīng)音頻壓縮、自監(jiān)督表示學(xué)習(xí)和語言建模方面的最新進(jìn)展來實(shí)現(xiàn)。

在主觀評(píng)價(jià)方面，評(píng)分者被要求聽一個(gè)10秒的樣本，并決定它是人類講話還是合成的語音?；谑占降?000個(gè)評(píng)分，比率為51.2%，與隨機(jī)分配標(biāo)簽沒有統(tǒng)計(jì)學(xué)差異，即人類無法區(qū)分合成和真實(shí)的樣本。

其他相關(guān)模型包括Jukebox和Whisper

Text-to-Text模型

問答任務(wù)常用。

ChatGPT

廣受歡迎的ChatGPT由OpenAI開發(fā)，以對(duì)話的方式與用戶進(jìn)行互動(dòng)。

用戶提出一個(gè)問題，或是提示文本的前半部分，模型會(huì)補(bǔ)全后續(xù)部分，并且能夠識(shí)別出不正確的輸入前提并拒絕不恰當(dāng)?shù)恼?qǐng)求。

具體來說，ChatGPT背后的算法是Transformer，訓(xùn)練過程主要是人類反饋的強(qiáng)化學(xué)習(xí)。

最初的模型是使用監(jiān)督學(xué)習(xí)下的微調(diào)來訓(xùn)練的，然后由人類來提供對(duì)話，在對(duì)話中他們互相扮演用戶和人工智能助理，然后由人修正模型返回的回復(fù)，并用正確的答案幫助模型改進(jìn)。

將制作的數(shù)據(jù)集與InstructGPT的數(shù)據(jù)集混合在一起，轉(zhuǎn)換為對(duì)話格式。

其他相關(guān)模型包括LaMDA和PEER

Text-to-Code模型

和text-to-text類似，只不過生成的是特殊類型的文本，即代碼。

Codex

該模型由OpenAI開發(fā)，可以將文本翻譯成代碼。

Codex是一種通用的編程模型，基本上可以應(yīng)用于任何編程任務(wù)。

人類在編程時(shí)的活動(dòng)可以分為兩部分：1）將一個(gè)問題分解成更簡單的問題；2）將這些問題映射到已經(jīng)存在的現(xiàn)有代碼（庫、API或函數(shù)）中。

其中第二部分是對(duì)程序員來說最浪費(fèi)時(shí)間的部分，也是Codex最擅長的地方。

訓(xùn)練數(shù)據(jù)于2020年5月從GitHub上托管的公共軟件庫中進(jìn)行收集，包含179GB的Python文件，并在GPT-3的基礎(chǔ)上進(jìn)行微調(diào)，其中已經(jīng)包含了強(qiáng)大的自然語言表征。

相關(guān)模型還包括Alphacode

Text-to-Science模型

科研文字也是AI文本生成的目標(biāo)之一，但要取得成果仍然有很長的路要走。

Galactica

該模型是由Meta AI和Papers with Code聯(lián)合開發(fā)的，可用于自動(dòng)組織科學(xué)文本的大型模型。

Galactica的主要優(yōu)勢在于即便進(jìn)行多個(gè)episode的訓(xùn)練后，模型仍然不會(huì)過擬合，并且上游和下游的性能會(huì)隨著token的重復(fù)使用而提高。

并且數(shù)據(jù)集的設(shè)計(jì)對(duì)該方法至關(guān)重要，因?yàn)樗械臄?shù)據(jù)都是以通用的markdown格式處理的，從而能夠混合不同來源的知識(shí)。

引文（citations）通過一個(gè)特定的token來處理，使得研究人員可以在任何輸入上下文中預(yù)測一個(gè)引文。Galactica模型預(yù)測引文的能力會(huì)隨著規(guī)模的提升而提高。

此外，該模型在僅有解碼器的設(shè)置中使用了一個(gè)Transformer架構(gòu)，對(duì)所有尺寸的模型進(jìn)行了GeLU激活，從而可以執(zhí)行涉及SMILES化學(xué)公式和蛋白質(zhì)序列的多模態(tài)任務(wù)，

Minerva

Minerva的主要目的就是解決決數(shù)學(xué)和科學(xué)問題，為此收集了大量的訓(xùn)練數(shù)據(jù)，并解決了定量推理問題，大規(guī)模模型開發(fā)問題，還采用了一流的推理技術(shù)。

Minerva采樣語言模型架構(gòu)通過使用step-by-step推理來解決輸入的問題，即輸入是需要包含計(jì)算和符號(hào)操作，而不用引入外部工具。

其他模型

還有一些模型不屬于前面提到的類別。

AlphaTensor

由Deepmind公司開發(fā)，因其發(fā)現(xiàn)新算法的能力，在業(yè)界是一個(gè)完全革命性的模型。

在已公布的例子中，AlphaTensor創(chuàng)造了一種更有效的矩陣乘法算法。這種算法非常重要，從神經(jīng)網(wǎng)絡(luò)到科學(xué)計(jì)算程序都可以從這種高效率的乘法計(jì)算中受益。

該方法基于深度強(qiáng)化學(xué)習(xí)方法，其中智能體AlphaTensor的訓(xùn)練過程就是玩一個(gè)單人游戲，目標(biāo)是在有限的因子空間內(nèi)尋找張量分解。

在TensorGame的每一步，玩家需要選擇如何結(jié)合矩陣的不同entries來進(jìn)行乘法，并根據(jù)達(dá)到正確的乘法結(jié)果所需的操作數(shù)量來獲得獎(jiǎng)勵(lì)分?jǐn)?shù)。AlphaTensor使用一種特殊的神經(jīng)網(wǎng)絡(luò)架構(gòu)來利用合成訓(xùn)練游戲（synthetic training game）的對(duì)稱性。

GATO

該模型是由Deepmind開發(fā)的通用智能體，它可以作為一個(gè)多模態(tài)、多任務(wù)或多embodiment泛化策略來使用。

具有相同權(quán)重的同一個(gè)網(wǎng)絡(luò)可以承載非常不同的能力，從玩雅達(dá)利游戲、描述圖片、聊天、堆積木等等。

在所有任務(wù)中使用單一的神經(jīng)序列模型有很多好處，減少了手工制作具有自身歸納偏見策略模型的需要，并增加了訓(xùn)練數(shù)據(jù)的數(shù)量和多樣性。

這種通用智能體在大量任務(wù)中都取得了成功，并且可以用很少的額外數(shù)據(jù)進(jìn)行調(diào)整，以便在更多的任務(wù)中取得成功。

目前GATO大約有1.2B個(gè)參數(shù)，可以實(shí)時(shí)控制現(xiàn)實(shí)世界機(jī)器人的模型規(guī)模。

其他已發(fā)表的生成性人工智能模型包括生成human motion等。

參考資料：

https://arxiv.org/abs/2301.04655

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
29806

瀏覽量
268106
開源

開源

+關(guān)注

關(guān)注
3

文章
3215

瀏覽量
42329
ChatGPT

ChatGPT

+關(guān)注

關(guān)注
29

文章
1546

瀏覽量
7359

評(píng)論

相關(guān)推薦

PSPICE 生成的模型和datasheet對(duì)應(yīng)不上

我要建立的是PA92的模型，源代碼在官網(wǎng)下的，PA92引腳如附件，生成的模型如附件2.其中PA92實(shí)際上只有9個(gè)有效引腳（不算連在一起的），

發(fā)表于 04-23 11:08

Simulink模型生成代碼

本文首先通過一個(gè)簡單的Simulink模型生成代碼，然后將代碼copy到一個(gè)STM32工程中去編譯軟件。最后將軟件下載到STM32F407中，通過串口輸出Simulink計(jì)算的結(jié)果。閱

發(fā)表于 08-11 07:56

為什么生成模型值得研究

1.Why study generative modeling? 人們可能很自然地想知道為什么生成模型值得研究，尤其是那些只能夠生成數(shù)據(jù)而不能提供密度函數(shù)估計(jì)的生成

發(fā)表于 09-15 06:03

在Arm虛擬硬件上部署PP-PicoDet模型

。PP-PicoDet模型通過創(chuàng)新SOTA模塊，例如ESNet、CSP-PAN、SimOTA等，不僅第一個(gè)實(shí)現(xiàn)了在1M參數(shù)量之內(nèi)mAP（0.5:0.95）超越30+（輸入416像素時(shí)），而且其性能優(yōu)于同類算法

發(fā)表于 09-16 14:42

在Arm虛擬硬件上部署PP-PicoDet模型的設(shè)計(jì)方案

。PP-PicoDet 模型通過創(chuàng)新 SOTA 模塊，例如 ESNet、CSP-PAN、SimOTA 等，不僅第一個(gè)實(shí)現(xiàn)了在 1M 參數(shù)量之內(nèi) mAP（0.5:0.95）超越 30+ （輸入 416 像素時(shí)），而且其性能優(yōu)于同

發(fā)表于 09-23 15:02

AN-715: 走近IBIS模型：什么是IBIS模型？它們是如何生成的？

發(fā)表于 03-21 13:59 ?10次下載

AN-715: 走近IBIS<b class='flag-5'>模型</b>：什么是IBIS<b class='flag-5'>模型</b>？它們是如何<b class='flag-5'>生成</b>的？

基于條件生成式對(duì)抗網(wǎng)絡(luò)的面部表情遷移模型

面部表情遷移是計(jì)算機(jī)視覺角色動(dòng)畫領(lǐng)域的關(guān)鍵技術(shù)，但現(xiàn)有面部表情遷移方法存在生成表情不自然、缺乏真實(shí)感、遷移模型復(fù)雜以及訓(xùn)練難度大等問題。為此，構(gòu)建一種基于條件生成式對(duì)抗網(wǎng)絡(luò)的面部表情遷

發(fā)表于 05-13 15:31 ?6次下載

使用NVIDIA DGX SuperPOD訓(xùn)練SOTA大規(guī)模視覺模型

在這篇文章中，我們展示了在大規(guī)模人工智能超級(jí)計(jì)算機(jī)上訓(xùn)練 SOTA 大規(guī)模視覺 transformer 模型（如 VOLO \ u D5 ）的主要技術(shù)和程序，如基于 NVIDIA DGX A100 的 DGX SuperPOD 。

發(fā)表于 05-30 10:17 ?2328次閱讀

使用NVIDIA DGX SuperPOD訓(xùn)練<b class='flag-5'>SOTA</b>大規(guī)模視覺<b class='flag-5'>模型</b>

NVIDIA 為全球企業(yè)帶來生成式 AI 推出用于創(chuàng)建大型語言模型和視覺模型的云服務(wù)

為AI驅(qū)動(dòng)的應(yīng)用構(gòu)建自定義模型 ? 加利福尼亞州圣克拉拉 – GTC – 太平洋時(shí)間 2023年3月21日 – 為了加速企業(yè)應(yīng)用生成式AI，NVIDIA今日宣布推出一套云服務(wù)，使企業(yè)能

發(fā)表于 03-22 13:45 ?378次閱讀

NVIDIA 為全球企業(yè)帶來<b class='flag-5'>生成</b><b class='flag-5'>式</b> AI 推出用于創(chuàng)建大型語言<b class='flag-5'>模型</b>和視覺<b class='flag-5'>模型</b>的云服務(wù)

GTC23 | NVIDIA 為全球企業(yè)帶來生成式 AI，推出用于創(chuàng)建大型語言模型和視覺模型的云服務(wù)

Foundations 云服務(wù)為 AI 驅(qū)動(dòng)的應(yīng)用構(gòu)建自定義模型加利福尼亞州圣克拉拉 – GTC – 太平洋時(shí)間 2023年3月21日 – 為了加速企業(yè)應(yīng)用生成式 AI，NVID

發(fā)表于 03-23 06:50 ?504次閱讀

華為盤古大模型四個(gè)類別和五大優(yōu)點(diǎn)

華為盤古大模型四個(gè)類別和五大優(yōu)點(diǎn) OpenAI推出的大模型chatGPT帶火了人工智能，到現(xiàn)在GPT-4、多模態(tài)、AI生成圖片、AI

發(fā)表于 07-07 18:53 ?2709次閱讀

基于大語言模型的共情回復(fù)生成：實(shí)證研究和改進(jìn)

對(duì)以ChatGPT為代表的LLMs在共情回復(fù)生成上的表現(xiàn)進(jìn)行了全面的實(shí)證研究，LLMs在現(xiàn)有的基準(zhǔn)數(shù)據(jù)集上，對(duì)比以往的SOTA模型，表現(xiàn)極其優(yōu)越。

發(fā)表于 11-21 09:25 ?1049次閱讀

基于大語言<b class='flag-5'>模型</b>的共情回復(fù)<b class='flag-5'>生成</b>：實(shí)證研究和改進(jìn)

生成式 AI 進(jìn)入模型驅(qū)動(dòng)時(shí)代

隨著ChatGPT和大型語言模型(LLM)呈現(xiàn)爆炸式增長，生成式人工智能(GenerativeAI)成為近來的一大熱詞。由此引發(fā)了一場爭論：哪種AI

發(fā)表于 04-13 08:12 ?470次閱讀

生成式AI與神經(jīng)網(wǎng)絡(luò)模型的區(qū)別和聯(lián)系

生成式AI與神經(jīng)網(wǎng)絡(luò)模型是現(xiàn)代人工智能領(lǐng)域的兩個(gè)核心概念，它們在推動(dòng)技術(shù)進(jìn)步和應(yīng)用拓展方面發(fā)揮著至關(guān)重要的作用。本文將詳細(xì)探討生成

發(fā)表于 07-02 15:03 ?555次閱讀

聲智完成多項(xiàng)生成式算法和大模型服務(wù)備案

2024年7月20日，北京聲智科技有限公司依據(jù)國家《生成式人工智能服務(wù)管理暫行辦法》，順利完成了壹元大模型的生成式人工智能（大語言

發(fā)表于 07-23 15:25 ?578次閱讀

搜索歷史

SOTA生成式模型：9大類別21個(gè)模型合集