0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Stability AI開源圖像生成模型Stable Diffusion

倩倩 ? 來源:AI前線 ? 作者:Anthony Alford ? 2022-09-21 15:37 ? 次閱讀

Stability AI 對(duì)外發(fā)布了 Stable Diffusion 的預(yù)訓(xùn)練模型權(quán)重,這是一個(gè)文本至圖像的 AI 模型。根據(jù)文本提示,Stable Diffusion 能夠生成逼真的 512x512 像素的圖像以描述提示中的場景。

在模型權(quán)重公開發(fā)布之前,它的代碼已經(jīng)發(fā)布,模型權(quán)重也有限發(fā)布給了研究社區(qū)。在最新的版本中,任何用戶都可以在消費(fèi)者級(jí)別的硬件下載并運(yùn)行 Stable Diffusion。除了文本至圖像的生成,該模型還支持圖像至圖像的風(fēng)格轉(zhuǎn)換以及圖像質(zhì)量提升。在發(fā)布該版本的同時(shí),Stable AI 還發(fā)布了 beta 版本的 API 以及模型的 Web UI,名為 DreamStudio。Stable AI 這樣說到:

Stable Diffusion 是一個(gè)文本至圖像的模型,它能讓數(shù)十億人在幾秒鐘內(nèi)創(chuàng)建出令人贊嘆的藝術(shù)品。在速度和質(zhì)量方面,它都有所突破,這意味著它能在消費(fèi)者級(jí)別的 GPU 上運(yùn)行……這能夠讓研究人員和……公眾在各種條件下運(yùn)行,使圖像生成技術(shù)走向大眾。我們期待圍繞該模型和其他模型出現(xiàn)一個(gè)開放的生態(tài)系統(tǒng),以探索潛在空間的邊界。

Stable Diffusion 基于名為潛在擴(kuò)散模型(latent diffusion models,LDMs)的圖像生成技術(shù)。與其他的流行的圖像合成方法不同,如生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GANs)和 DALL-E 使用的自動(dòng)回歸技術(shù),LDMs 通過在一個(gè)潛在表示空間中迭代“去噪”數(shù)據(jù)來生成圖像,然后將表示結(jié)果解碼為完整的圖像。LDM 是由 Ludwig Maximilian University of Munich 的機(jī)器視覺與學(xué)習(xí)(Machine Vision and Learning)研究組開發(fā)的,并在最近的 IEEE / CVF 計(jì)算機(jī)視覺和模式識(shí)別會(huì)議(Computer Vision and Pattern Recognition Conference)上發(fā)表的一篇論文中進(jìn)行了闡述。在今年早些時(shí)候,InfoQ 曾經(jīng)報(bào)道過谷歌的 Imagen 模型,它是另一個(gè)基于擴(kuò)散的圖像生成 AI。

Stable Diffusion 模型支持多種操作。與 DALL-E 類似,它能夠根據(jù)所需圖像的文本描述,生成符合匹配該描述的高質(zhì)量圖像。它還可以根據(jù)一個(gè)簡單的草圖再加上所需圖像的文本描述,生成一個(gè)看起來更逼真的圖像。Meta AI 最近發(fā)布了名為 Make-A-Scene 的模型,具有類似的圖像至圖像的功能。

Stable Diffusion 的很多用戶已經(jīng)公開發(fā)布了生成圖像的樣例,Stability AI 的首席開發(fā)者 Katherine Crowson 在推特上分享了許多圖像?;?AI 的圖像合成可能會(huì)對(duì)藝術(shù)家和藝術(shù)領(lǐng)域帶來一定的影響,有些評(píng)論者對(duì)此感到不安。就在 Stable Diffusion 發(fā)布的同一周,一幅由 AI 生成的藝術(shù)品在科羅拉多州博覽會(huì)的藝術(shù)比賽中獲得了一等獎(jiǎng)。Django 框架的共同創(chuàng)建者 Simon Williamson 認(rèn)為:

我見過一種說法,認(rèn)為 AI 藝術(shù)沒有資格獲得版權(quán)保護(hù),因?yàn)椤八仨殮w功于全人類”——如果基于文本生成的設(shè)計(jì)尚不足以說服公眾的話,那 [圖像至圖像] 技術(shù)可能會(huì)打破這種平衡。

Stable AI 的創(chuàng)始人 Emad Mostaque 在推特上回答了一些關(guān)于該模型的問題。在回答一位試圖估算訓(xùn)練模型所需的計(jì)算資源和成本的用戶時(shí),Mostaque 說到:

實(shí)際上,我們?yōu)檫@個(gè)模型使用了 256 個(gè) A100 顯卡,總共 15 萬小時(shí),所以按市場價(jià)格計(jì)算為 60 萬美元。

Mostaque 給出了 Reddit 上一篇文章的鏈接,其中給出了如何最好地使用該模型來生成圖像的技巧。

Stable Diffusion 的代碼可以在 GitHub 上找到。模型的權(quán)重以及 Colab notebook 和示例 Web UI 都可以在 HuggingFace 上找到。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28875

    瀏覽量

    266215
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3032

    瀏覽量

    48351
  • 圖像生成
    +關(guān)注

    關(guān)注

    0

    文章

    22

    瀏覽量

    6875

原文標(biāo)題:Stability AI 開源圖像生成模型 Stable Diffusion

文章出處:【微信號(hào):AI前線,微信公眾號(hào):AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Freepik攜手Magnific AI推出AI圖像生成

    近日,設(shè)計(jì)資源巨頭Freepik攜手Magnific AI,共同推出了革命性的AI圖像生成器——Freepik Mystic,這一里程碑式的發(fā)布標(biāo)志著
    的頭像 發(fā)表于 08-30 16:23 ?947次閱讀

    實(shí)操: 如何在AirBox上跑Stable Diffusion 3

    使用StableDiffusion3Medium開源模型,通過SOPHONSDK移植到SG2300X處理器系列產(chǎn)品上進(jìn)行本地TPU硬件加速推理,實(shí)現(xiàn)在radxaAirbox上離線快速生成
    的頭像 發(fā)表于 07-23 08:34 ?166次閱讀
    實(shí)操: 如何在AirBox上跑<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b> 3

    如何用C++創(chuàng)建簡單的生成AI模型

    生成AI(Generative AI)是一種人工智能技術(shù),它通過機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)技術(shù),從大量歷史數(shù)據(jù)中學(xué)習(xí)對(duì)象的特征和規(guī)律,從而能夠生成
    的頭像 發(fā)表于 07-05 17:53 ?504次閱讀

    [技術(shù)干貨]?AI 助手全套開源解決方案,自帶運(yùn)營管理后臺(tái),開箱即用

    ,自帶運(yùn)營管理后臺(tái),開箱即用。集成了 OpenAI, Azure, ChatGLM,訊飛星火,文心一言等多個(gè)平臺(tái)的大語言模型。集成了 MidJourney 和 Stable Diffusion
    的頭像 發(fā)表于 04-05 23:23 ?994次閱讀
    [技術(shù)干貨]?<b class='flag-5'>AI</b> 助手全套<b class='flag-5'>開源</b>解決方案,自帶運(yùn)營管理后臺(tái),開箱即用

    Stability AI發(fā)布Stable Code Instruct 3B大語言模型,可編譯多種編程語言

    據(jù)報(bào)道,Stability AI公司近期推出了適配程序員使用的Stable Code Instruct 3B大語言模型,此款模型的顯著特點(diǎn)是
    的頭像 發(fā)表于 03-27 10:04 ?333次閱讀

    UL Procyon AI 發(fā)布圖像生成基準(zhǔn)測試,基于Stable Diffusion

    UL去年發(fā)布的首個(gè)Windows版Procyon AI推理基準(zhǔn)測試,以計(jì)算機(jī)視覺工作負(fù)載評(píng)估AI推理性能。新推出的圖像生成測試將提供統(tǒng)一、精確且易于理解的工作負(fù)載,用以保證各支持硬件間
    的頭像 發(fā)表于 03-25 16:16 ?710次閱讀

    Stability AI推出全新Stable Video 3D模型

    近日,Stability AI 推出了全新的 Stable Video 3D 模型,該模型以其獨(dú)特的功能吸引了眾多關(guān)注。此
    的頭像 發(fā)表于 03-22 10:30 ?650次閱讀

    韓國科研團(tuán)隊(duì)發(fā)布新型AI圖像生成模型KOALA,大幅優(yōu)化硬件需求

    由此模型的核心在于其運(yùn)用了“知識(shí)蒸餾”(knowledge distillation)技術(shù),這使得開源圖像生成工具Stable
    的頭像 發(fā)表于 03-01 14:10 ?473次閱讀

    Stability AI試圖通過新的圖像生成人工智能模型保持領(lǐng)先地位

    Stability AI的最新圖像生成模型Stable Cascade承諾比其業(yè)界領(lǐng)先的前身
    的頭像 發(fā)表于 02-19 16:03 ?780次閱讀
    <b class='flag-5'>Stability</b> <b class='flag-5'>AI</b>試圖通過新的<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>人工智能<b class='flag-5'>模型</b>保持領(lǐng)先地位

    Stability AI推出迄今為止更小、更高效的1.6B語言模型

    Stability AI 宣布推出迄今為止最強(qiáng)大的小語言模型之一 Stable LM 2 1.6B。
    的頭像 發(fā)表于 01-23 10:11 ?629次閱讀
    <b class='flag-5'>Stability</b> <b class='flag-5'>AI</b>推出迄今為止更小、更高效的1.6B語言<b class='flag-5'>模型</b>

    Stability AI推出商業(yè)版會(huì)員計(jì)劃 對(duì)AI模型的商業(yè)使用收費(fèi)

    該公司在一篇博客文章中表示:“隨著我們公司的不斷成熟和規(guī)?;?,Stability AI會(huì)員將在助力我們未來的核心模型研發(fā)方面發(fā)揮關(guān)鍵作用?!?The Verge聯(lián)系了Stability
    的頭像 發(fā)表于 12-26 16:48 ?721次閱讀

    免費(fèi)開源圖像修復(fù)工具lama-cleaner介紹

    Lama Cleaner 是由 SOTA AI 模型提供支持的免費(fèi)開源圖像修復(fù)工具??梢詮膱D片中移除任何不需要的物體、缺陷和人,或者擦除并替換(powered by
    的頭像 發(fā)表于 12-04 10:23 ?2038次閱讀
    免費(fèi)<b class='flag-5'>開源</b><b class='flag-5'>圖像</b>修復(fù)工具lama-cleaner介紹

    模型進(jìn)手機(jī),軟件、硬件、生態(tài)全部不可或缺!

    芯片首發(fā)。 到底是怎么回事? 究其原因,還是智能終端已經(jīng)成為了各類AIGC應(yīng)用的落地“新灘頭”。 先是圖像生成模型接二連三地被塞進(jìn)手機(jī),從十億參數(shù)的Stable
    的頭像 發(fā)表于 11-17 10:56 ?523次閱讀
    大<b class='flag-5'>模型</b>進(jìn)手機(jī),軟件、硬件、生態(tài)全部不可或缺!

    利用 NVIDIA Jetson 實(shí)現(xiàn)生成AI

    的無限可能性。不同于其他嵌入式平臺(tái),Jetson 能夠在本地運(yùn)行大語言模型(LLM)、視覺 Transformer 和 stable diffusion,包括在 Jetson AGX Orin 上以
    的頭像 發(fā)表于 11-07 21:25 ?771次閱讀
    利用 NVIDIA Jetson 實(shí)現(xiàn)<b class='flag-5'>生成</b>式 <b class='flag-5'>AI</b>

    投票選出你喜歡的生成AI 賀卡!

    NVIDIA NGC Stable Diffusion XL ?是一款根據(jù)用戶提供的文本內(nèi)容巧妙生成相應(yīng)圖像作品的模型。在剛剛過去的假期,我
    的頭像 發(fā)表于 10-09 19:50 ?349次閱讀