0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

SOTA生成式模型:9大類別21個(gè)模型合集

jf_78858299 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:深度學(xué)習(xí)自然語言 ? 2023-02-23 11:22 ? 次閱讀

過去的兩年時(shí)間里,AI界的大型生成模型發(fā)布呈井噴之勢,尤其是Stable Diffusion開源和ChatGPT開放接口后,更加激發(fā)了業(yè)界對(duì)生成式模型的熱情。

但生成式模型種類繁多,發(fā)布速度也非??欤圆涣羯窬陀锌赡苠e(cuò)過了sota

最近,來自西班牙科米利亞斯主教大學(xué)的研究人員全面回顧了各個(gè)領(lǐng)域內(nèi)AI的最新進(jìn)展,將生成式模型按照任務(wù)模態(tài)、領(lǐng)域分為了九大類,并總結(jié)了2022年發(fā)布的21個(gè)生成式模型,一次看明白生成式模型的發(fā)展脈絡(luò)!

生成式AI分類

模型可以按照輸入和輸出的數(shù)據(jù)類型進(jìn)行分類,目前主要包括9類。

有趣的是,在這些已發(fā)布大模型的背后,只有六個(gè)組織(OpenAI, Google, DeepMind, Meta, runway, Nvidia)參與部署了這些最先進(jìn)的模型。

其主要原因是,為了能夠估計(jì)這些模型的參數(shù),必須擁有極其龐大的計(jì)算能力,以及在數(shù)據(jù)科學(xué)和數(shù)據(jù)工程方面高度熟練且經(jīng)驗(yàn)豐富的團(tuán)隊(duì)。

因此,也只有這些公司,在收購的初創(chuàng)公司和與學(xué)術(shù)界合作的幫助下,能夠成功部署生成式人工智能模型。

在大公司參與初創(chuàng)企業(yè)方面,可以看到微軟向OpenAI投資了10億美元,并幫助他們開發(fā)模型;同樣,谷歌在2014年收購了Deepmind。

在大學(xué)方面,VisualGPT是由阿卜杜拉國王科技大學(xué)(KAUST)、卡內(nèi)基梅隆大學(xué)和南洋理工大學(xué)開發(fā)的,Human Motion Diffusion模型是由以色列特拉維夫大學(xué)開發(fā)的。

同樣,其他項(xiàng)目也是由一家公司與一所大學(xué)合作開發(fā)的,比如Stable Diffusion由Runway、Stability AI和慕尼黑大學(xué)合作開發(fā);Soundify由Runway和卡內(nèi)基梅隆大學(xué)合作開發(fā);DreamFusion由谷歌和加州大學(xué)伯克利分校合作。

Text-to-image模型

DALL-E 2

由OpenAI開發(fā)的DALL-E 2能夠從由文本描述組成的提示中生成原始、真實(shí)、逼真的圖像和藝術(shù),而且OpenAI已經(jīng)對(duì)外提供了API來訪問該模型。

DALL-E 2特別之處在于它能夠?qū)⒏拍?、屬性和不同風(fēng)格結(jié)合起來,其能力源于語言-圖像預(yù)訓(xùn)練模型CLIP神經(jīng)網(wǎng)絡(luò),從而可以用自然語言來指示最相關(guān)的文本片段。

具體來說,CLIP embedding有幾個(gè)理想的屬性:能夠?qū)D像分布進(jìn)行穩(wěn)定的轉(zhuǎn)換;具有強(qiáng)大的zero-shot能力;并且在微調(diào)后實(shí)現(xiàn)了最先進(jìn)的結(jié)果。

為了獲得一個(gè)完整的圖像生成模型,CLIP圖像embedding解碼器模塊與一個(gè)先驗(yàn)?zāi)P拖嘟Y(jié)合,從一個(gè)給定的文本標(biāo)題中生成相關(guān)CLIP圖像embedding

其他的模型還包括Imagen,Stable Diffusion,Muse

Text-to-3D模型

對(duì)于某些行業(yè),僅能生成2D圖像還無法完成自動(dòng)化,比如游戲領(lǐng)域就需要生成3D模型。

Dreamfusion

DreamFusion由Google Research開發(fā),使用預(yù)先訓(xùn)練好的2D文本到圖像的擴(kuò)散模型來進(jìn)行文本到3D的合成。

Dreamfusion使用一個(gè)從二維擴(kuò)散模型的蒸餾中得到的損失取代了CLIP技術(shù),即擴(kuò)散模型可以作為一個(gè)通用的連續(xù)優(yōu)化問題中的損失來生成樣本。

相比其他方法主要是對(duì)像素進(jìn)行采樣,在參數(shù)空間的采樣比在像素空間的采樣要難得多,DreamFusion使用了一個(gè)可微的生成器,專注于創(chuàng)建從隨機(jī)角度渲染圖像的三維模型。

其他模型如Magic3D由英偉達(dá)公司開發(fā)。

Image-to-Text模型

獲得一個(gè)描述圖像的文本也是很有用的,相當(dāng)于圖像生成的逆版本。

Flamingo

該模型由Deepmind開發(fā),在開放式的視覺語言任務(wù)上,只需通過一些輸入/輸出例子的提示,即可進(jìn)行few-shot學(xué)習(xí)。

具體來說,F(xiàn)lamingo的輸入包含視覺條件下的自回歸文本生成模型,能夠接收與圖像或視頻交錯(cuò)的文本token序列,并生成文本作為輸出。

用戶可以向模型輸入query,并附上一張照片或一段視頻,模型就會(huì)用文本答案來回答。

Flamingo模型利用了兩個(gè)互補(bǔ)的模型:一個(gè)是分析視覺場景的視覺模型,一個(gè)是執(zhí)行基本推理形式的大型語言模型。

VisualGPT

VisualGPT是一個(gè)由OpenAI開發(fā)的圖像描述模型,能夠利用預(yù)訓(xùn)練語言模型GPT-2中的知識(shí)。

為了彌合不同模態(tài)之間的語義差距,研究人員設(shè)計(jì)了一個(gè)全新的編碼器-解碼器注意力機(jī)制,具有整流門控功能。

VisualGPT最大的優(yōu)點(diǎn)是它不需要像其他圖像到文本模型那樣多的數(shù)據(jù),能夠提高圖像描述模型的數(shù)據(jù)效率,能夠在小眾領(lǐng)域得到應(yīng)用或?qū)ι僖姷奈矬w的進(jìn)行描述。

Text-to-Video模型

Phenaki

該模型由Google Research開發(fā)制作,可以在給定一連串文字提示的情況下,進(jìn)行真實(shí)的視頻合成。

Phenaki是第一個(gè)能夠從開放域時(shí)間變量提示中生成視頻的模型。

為了解決數(shù)據(jù)問題,研究人員在一個(gè)大型的圖像-文本對(duì)數(shù)據(jù)集以及數(shù)量較少的視頻-文本例子上進(jìn)行聯(lián)合訓(xùn)練,最終獲得了超越視頻數(shù)據(jù)集中的泛化能力。

主要是圖像-文本數(shù)據(jù)集往往有數(shù)十億的輸入數(shù)據(jù),而文本-視頻數(shù)據(jù)集則小得多,并且對(duì)不同長度的視頻進(jìn)行計(jì)算也是一個(gè)難題。

Phenaki模型包含三個(gè)部分:C-ViViT編碼器、訓(xùn)練Transformer和視頻生成器。

將輸入token轉(zhuǎn)換為embedding后,接著經(jīng)過時(shí)序Transformer和空間Transformer,再使用一個(gè)沒有激活的單一線性投影,將token映射回像素空間。

最終模型可以生成以開放域提示為條件的時(shí)間連貫性和多樣性的視頻,甚至能夠處理一些數(shù)據(jù)集中不存在的新概念。

相關(guān)模型包括Soundify.

Text-to-Audio模型

對(duì)于視頻生成來說,聲音也是必不可缺的部分。

AudioLM

該模型是由谷歌開發(fā),可用于生成高質(zhì)量的音頻,并具有長距離一致性。

AudioLM的特別之處在于將輸入的音頻映射成一個(gè)離散的token序列,并將音頻生成作為該表示空間的語言建模任務(wù)。

通過對(duì)原始音頻波形的大型語料庫進(jìn)行訓(xùn)練,AudioLM成功學(xué)會(huì)了在簡短的提示下生成自然和連貫的連續(xù)的語音。這種方法甚至可以擴(kuò)展到人聲之外的語音,比如連續(xù)的鋼琴音樂等等,而不需要在訓(xùn)練時(shí)添加符號(hào)表示。

由于音頻信號(hào)涉及多個(gè)尺度(scale)的抽象,所以音頻合成時(shí)使得多尺度在顯示一致性的同時(shí)實(shí)現(xiàn)高音頻質(zhì)量非常具有挑戰(zhàn)性。AudioLM模型通過結(jié)合神經(jīng)音頻壓縮、自監(jiān)督表示學(xué)習(xí)和語言建模方面的最新進(jìn)展來實(shí)現(xiàn)。

在主觀評(píng)價(jià)方面,評(píng)分者被要求聽一個(gè)10秒的樣本,并決定它是人類講話還是合成的語音?;谑占降?000個(gè)評(píng)分,比率為51.2%,與隨機(jī)分配標(biāo)簽沒有統(tǒng)計(jì)學(xué)差異,即人類無法區(qū)分合成和真實(shí)的樣本。

其他相關(guān)模型包括Jukebox和Whisper

Text-to-Text模型

問答任務(wù)常用。

ChatGPT

廣受歡迎的ChatGPT由OpenAI開發(fā),以對(duì)話的方式與用戶進(jìn)行互動(dòng)。

用戶提出一個(gè)問題,或是提示文本的前半部分,模型會(huì)補(bǔ)全后續(xù)部分,并且能夠識(shí)別出不正確的輸入前提并拒絕不恰當(dāng)?shù)恼?qǐng)求。

具體來說,ChatGPT背后的算法是Transformer,訓(xùn)練過程主要是人類反饋的強(qiáng)化學(xué)習(xí)。

最初的模型是使用監(jiān)督學(xué)習(xí)下的微調(diào)來訓(xùn)練的,然后由人類來提供對(duì)話,在對(duì)話中他們互相扮演用戶和人工智能助理,然后由人修正模型返回的回復(fù),并用正確的答案幫助模型改進(jìn)。

將制作的數(shù)據(jù)集與InstructGPT的數(shù)據(jù)集混合在一起,轉(zhuǎn)換為對(duì)話格式。

其他相關(guān)模型包括LaMDA和PEER

Text-to-Code模型

和text-to-text類似,只不過生成的是特殊類型的文本,即代碼。

Codex

該模型由OpenAI開發(fā),可以將文本翻譯成代碼。

Codex是一種通用的編程模型,基本上可以應(yīng)用于任何編程任務(wù)。

人類在編程時(shí)的活動(dòng)可以分為兩部分:1)將一個(gè)問題分解成更簡單的問題;2)將這些問題映射到已經(jīng)存在的現(xiàn)有代碼(庫、API或函數(shù))中。

其中第二部分是對(duì)程序員來說最浪費(fèi)時(shí)間的部分,也是Codex最擅長的地方。

訓(xùn)練數(shù)據(jù)于2020年5月從GitHub上托管的公共軟件庫中進(jìn)行收集,包含179GB的Python文件,并在GPT-3的基礎(chǔ)上進(jìn)行微調(diào),其中已經(jīng)包含了強(qiáng)大的自然語言表征。

相關(guān)模型還包括Alphacode

Text-to-Science模型

科研文字也是AI文本生成的目標(biāo)之一,但要取得成果仍然有很長的路要走。

Galactica

該模型是由Meta AI和Papers with Code聯(lián)合開發(fā)的,可用于自動(dòng)組織科學(xué)文本的大型模型。

Galactica的主要優(yōu)勢在于即便進(jìn)行多個(gè)episode的訓(xùn)練后,模型仍然不會(huì)過擬合,并且上游和下游的性能會(huì)隨著token的重復(fù)使用而提高。

并且數(shù)據(jù)集的設(shè)計(jì)對(duì)該方法至關(guān)重要,因?yàn)樗械臄?shù)據(jù)都是以通用的markdown格式處理的,從而能夠混合不同來源的知識(shí)。

引文(citations)通過一個(gè)特定的token來處理,使得研究人員可以在任何輸入上下文中預(yù)測一個(gè)引文。Galactica模型預(yù)測引文的能力會(huì)隨著規(guī)模的提升而提高。

此外,該模型在僅有解碼器的設(shè)置中使用了一個(gè)Transformer架構(gòu),對(duì)所有尺寸的模型進(jìn)行了GeLU激活,從而可以執(zhí)行涉及SMILES化學(xué)公式和蛋白質(zhì)序列的多模態(tài)任務(wù),

Minerva

Minerva的主要目的就是解決決數(shù)學(xué)和科學(xué)問題,為此收集了大量的訓(xùn)練數(shù)據(jù),并解決了定量推理問題,大規(guī)模模型開發(fā)問題,還采用了一流的推理技術(shù)。

Minerva采樣語言模型架構(gòu)通過使用step-by-step推理來解決輸入的問題,即輸入是需要包含計(jì)算和符號(hào)操作,而不用引入外部工具。

其他模型

還有一些模型不屬于前面提到的類別。

AlphaTensor

由Deepmind公司開發(fā),因其發(fā)現(xiàn)新算法的能力,在業(yè)界是一個(gè)完全革命性的模型。

在已公布的例子中,AlphaTensor創(chuàng)造了一種更有效的矩陣乘法算法。這種算法非常重要,從神經(jīng)網(wǎng)絡(luò)到科學(xué)計(jì)算程序都可以從這種高效率的乘法計(jì)算中受益。

該方法基于深度強(qiáng)化學(xué)習(xí)方法,其中智能體AlphaTensor的訓(xùn)練過程就是玩一個(gè)單人游戲,目標(biāo)是在有限的因子空間內(nèi)尋找張量分解。

在TensorGame的每一步,玩家需要選擇如何結(jié)合矩陣的不同entries來進(jìn)行乘法,并根據(jù)達(dá)到正確的乘法結(jié)果所需的操作數(shù)量來獲得獎(jiǎng)勵(lì)分?jǐn)?shù)。AlphaTensor使用一種特殊的神經(jīng)網(wǎng)絡(luò)架構(gòu)來利用合成訓(xùn)練游戲(synthetic training game)的對(duì)稱性。

GATO

該模型是由Deepmind開發(fā)的通用智能體,它可以作為一個(gè)多模態(tài)、多任務(wù)或多embodiment泛化策略來使用。

具有相同權(quán)重的同一個(gè)網(wǎng)絡(luò)可以承載非常不同的能力,從玩雅達(dá)利游戲、描述圖片、聊天、堆積木等等。

在所有任務(wù)中使用單一的神經(jīng)序列模型有很多好處,減少了手工制作具有自身歸納偏見策略模型的需要,并增加了訓(xùn)練數(shù)據(jù)的數(shù)量和多樣性。

這種通用智能體在大量任務(wù)中都取得了成功,并且可以用很少的額外數(shù)據(jù)進(jìn)行調(diào)整,以便在更多的任務(wù)中取得成功。

目前GATO大約有1.2B個(gè)參數(shù),可以實(shí)時(shí)控制現(xiàn)實(shí)世界機(jī)器人的模型規(guī)模。

其他已發(fā)表的生成性人工智能模型包括生成human motion等。

參考資料

https://arxiv.org/abs/2301.04655

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29806

    瀏覽量

    268106
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3215

    瀏覽量

    42329
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1546

    瀏覽量

    7359
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    PSPICE 生成模型和datasheet對(duì)應(yīng)不上

    我要建立的是PA92的模型,源代碼在官網(wǎng)下的,PA92引腳如附件,生成模型如附件2.其中PA92實(shí)際上只有9個(gè)有效引腳(不算連在一起的),
    發(fā)表于 04-23 11:08

    Simulink模型生成代碼

    本文首先通過一個(gè)簡單的Simulink模型生成代碼,然后將代碼copy到一個(gè)STM32工程中去編譯軟件。最后將軟件下載到STM32F407中,通過串口輸出Simulink計(jì)算的結(jié)果。閱
    發(fā)表于 08-11 07:56

    為什么生成模型值得研究

    1.Why study generative modeling? 人們可能很自然地想知道為什么生成模型值得研究,尤其是那些只能夠生成數(shù)據(jù)而不能提供密度函數(shù)估計(jì)的生成
    發(fā)表于 09-15 06:03

    在Arm虛擬硬件上部署PP-PicoDet模型

    。PP-PicoDet模型通過創(chuàng)新SOTA模塊,例如ESNet、CSP-PAN、SimOTA等,不僅第一個(gè)實(shí)現(xiàn)了在1M參數(shù)量之內(nèi)mAP(0.5:0.95)超越30+(輸入416像素時(shí)),而且其性能優(yōu)于同類算法
    發(fā)表于 09-16 14:42

    在Arm虛擬硬件上部署PP-PicoDet模型的設(shè)計(jì)方案

    。PP-PicoDet 模型通過創(chuàng)新 SOTA 模塊,例如 ESNet、CSP-PAN、SimOTA 等,不僅第一個(gè)實(shí)現(xiàn)了在 1M 參數(shù)量之內(nèi) mAP(0.5:0.95) 超越 30+ (輸入 416 像素時(shí)),而且其性能優(yōu)于同
    發(fā)表于 09-23 15:02

    AN-715: 走近IBIS模型:什么是IBIS模型?它們是如何生成的?

    AN-715: 走近IBIS模型:什么是IBIS模型?它們是如何生成的?
    發(fā)表于 03-21 13:59 ?10次下載
    AN-715: 走近IBIS<b class='flag-5'>模型</b>:什么是IBIS<b class='flag-5'>模型</b>?它們是如何<b class='flag-5'>生成</b>的?

    基于條件生成對(duì)抗網(wǎng)絡(luò)的面部表情遷移模型

    面部表情遷移是計(jì)算機(jī)視覺角色動(dòng)畫領(lǐng)域的關(guān)鍵技術(shù),但現(xiàn)有面部表情遷移方法存在生成表情不自然、缺乏真實(shí)感、遷移模型復(fù)雜以及訓(xùn)練難度大等問題。為此,構(gòu)建一種基于條件生成對(duì)抗網(wǎng)絡(luò)的面部表情遷
    發(fā)表于 05-13 15:31 ?6次下載

    使用NVIDIA DGX SuperPOD訓(xùn)練SOTA大規(guī)模視覺模型

    在這篇文章中,我們展示了在大規(guī)模人工智能超級(jí)計(jì)算機(jī)上訓(xùn)練 SOTA 大規(guī)模視覺 transformer 模型(如 VOLO \ u D5 )的主要技術(shù)和程序,如基于 NVIDIA DGX A100 的 DGX SuperPOD 。
    的頭像 發(fā)表于 05-30 10:17 ?2328次閱讀
    使用NVIDIA DGX SuperPOD訓(xùn)練<b class='flag-5'>SOTA</b>大規(guī)模視覺<b class='flag-5'>模型</b>

    NVIDIA 為全球企業(yè)帶來生成 AI 推出用于創(chuàng)建大型語言模型和視覺模型的云服務(wù)

    為AI驅(qū)動(dòng)的應(yīng)用構(gòu)建自定義模型 ? 加利福尼亞州圣克拉拉 – GTC – 太平洋時(shí)間 2023年3月21日 – 為了加速企業(yè)應(yīng)用生成AI,NVIDIA今日宣布推出一套云服務(wù),使企業(yè)能
    發(fā)表于 03-22 13:45 ?378次閱讀
    NVIDIA 為全球企業(yè)帶來<b class='flag-5'>生成</b><b class='flag-5'>式</b> AI  推出用于創(chuàng)建大型語言<b class='flag-5'>模型</b>和視覺<b class='flag-5'>模型</b>的云服務(wù)

    GTC23 | NVIDIA 為全球企業(yè)帶來生成 AI,推出用于創(chuàng)建大型語言模型和視覺模型的云服務(wù)

    Foundations 云服務(wù)為 AI 驅(qū)動(dòng)的應(yīng)用構(gòu)建 自定義模型 加利福尼亞州圣克拉拉 – GTC – 太平洋時(shí)間 2023年3月21日 – 為了加速企業(yè)應(yīng)用生成 AI,NVID
    的頭像 發(fā)表于 03-23 06:50 ?504次閱讀

    華為盤古大模型個(gè)類別和五大優(yōu)點(diǎn)

    華為盤古大模型個(gè)類別和五大優(yōu)點(diǎn) OpenAI推出的大模型chatGPT帶火了人工智能,到現(xiàn)在GPT-4、多模態(tài)、AI生成圖片、AI
    的頭像 發(fā)表于 07-07 18:53 ?2709次閱讀

    基于大語言模型的共情回復(fù)生成:實(shí)證研究和改進(jìn)

    對(duì)以ChatGPT為代表的LLMs在共情回復(fù)生成上的表現(xiàn)進(jìn)行了全面的實(shí)證研究,LLMs在現(xiàn)有的基準(zhǔn)數(shù)據(jù)集上,對(duì)比以往的SOTA模型,表現(xiàn)極其優(yōu)越。
    的頭像 發(fā)表于 11-21 09:25 ?1049次閱讀
    基于大語言<b class='flag-5'>模型</b>的共情回復(fù)<b class='flag-5'>生成</b>:實(shí)證研究和改進(jìn)

    生成 AI 進(jìn)入模型驅(qū)動(dòng)時(shí)代

    隨著ChatGPT和大型語言模型(LLM)呈現(xiàn)爆炸增長,生成人工智能(GenerativeAI)成為近來的一大熱詞。由此引發(fā)了一場爭論:哪種AI
    的頭像 發(fā)表于 04-13 08:12 ?470次閱讀
    <b class='flag-5'>生成</b><b class='flag-5'>式</b> AI 進(jìn)入<b class='flag-5'>模型</b>驅(qū)動(dòng)時(shí)代

    生成AI與神經(jīng)網(wǎng)絡(luò)模型的區(qū)別和聯(lián)系

    生成AI與神經(jīng)網(wǎng)絡(luò)模型是現(xiàn)代人工智能領(lǐng)域的兩個(gè)核心概念,它們在推動(dòng)技術(shù)進(jìn)步和應(yīng)用拓展方面發(fā)揮著至關(guān)重要的作用。本文將詳細(xì)探討生成
    的頭像 發(fā)表于 07-02 15:03 ?555次閱讀

    聲智完成多項(xiàng)生成算法和大模型服務(wù)備案

    2024年7月20日,北京聲智科技有限公司依據(jù)國家《生成人工智能服務(wù)管理暫行辦法》,順利完成了壹元大模型生成人工智能(大語言
    的頭像 發(fā)表于 07-23 15:25 ?578次閱讀
    聲智完成多項(xiàng)<b class='flag-5'>生成</b><b class='flag-5'>式</b>算法和大<b class='flag-5'>模型</b>服務(wù)備案