搜索歷史

清空

搜索熱詞

0

聊天消息
系統(tǒng)消息
評(píng)論與回復(fù)

查看更多

查看更多

查看更多

VIP于到期續(xù)費(fèi)

登錄后你可以

下載海量資料
學(xué)習(xí)在線課程
觀看技術(shù)視頻
寫文章/發(fā)帖/加入社區(qū)

會(huì)員中心

創(chuàng)作中心

發(fā)布

創(chuàng)作活動(dòng)

完善資料讓更多小伙伴認(rèn)識(shí)你，還能領(lǐng)取20積分哦，立即完善>

3天內(nèi)不再提示

DALL-E和生成式AI的未來(lái)

DALL-E 等生成式模型的「高光時(shí)刻」已經(jīng)出現(xiàn)，作為發(fā)明者，Ramesh 表示：「我們第一次嘗試這個(gè)研究方向，是想看看能有什么作為?，F(xiàn)在想來(lái)，恍如昨日?！?/p>

在 DALL-E 2、Stable Diffusion 和 Midjourney 出現(xiàn)之前，該領(lǐng)域僅有一篇論文，即《零樣本文本到圖像生成》（Zero-Shot Text-to-Image Generation）。

2021 年 1 月 5 日，也就是兩年前，隨著這篇論文和網(wǎng)站演示的發(fā)布，OpenAI 推出了 DALL-E—— 可以「根據(jù)文本說(shuō)明為各種用自然語(yǔ)言表達(dá)的概念創(chuàng)建圖像」的神經(jīng)網(wǎng)絡(luò)。而據(jù)報(bào)道，OpenAI 近日正在就「估值為 290 億美元的收購(gòu)要約」進(jìn)行談判。

圖源自 DALL-E。

經(jīng)過(guò)訓(xùn)練，Transformer 語(yǔ)言模型 GPT-3 的 120 億參數(shù)版本可以使用文本圖像對(duì)數(shù)據(jù)集從文本描述中生成圖像。VentureBeat 記者 Khari Johnson 在描述時(shí)說(shuō)，其「旨在喚起藝術(shù)家 Salvador Dali 和機(jī)器人 WALL-E」，并附上了 DALL-E 生成的「穿著芭蕾舞裙的小白蘿卜遛狗」的插圖。

OpenAI 研究員、DALL-E 的發(fā)明者和 DALL-E 2 的聯(lián)合開發(fā)者 Aditya Ramesh 表示，自那以后，整個(gè)領(lǐng)域便取得了飛速的發(fā)展。鑒于過(guò)去一年生成式 AI 領(lǐng)域取得了飛速的發(fā)展，這算是一種很保守的說(shuō)辭。隨后便是擴(kuò)散模型的迅速崛起，其出現(xiàn)改變了去年 4 月發(fā)布的 DALL-E 2，以及它的開源對(duì)手：Diffusion 和 Midjourney 原有的格局。

Ramesh 告訴 VentureBeat：「我們第一次嘗試這個(gè)研究方向，想看看能有什么作為，現(xiàn)在感覺恍如昨日。我知道這項(xiàng)技術(shù)將會(huì)對(duì)消費(fèi)者產(chǎn)生影響，也會(huì)幫助到并對(duì)許多不同的應(yīng)用程序，但我仍然對(duì)其發(fā)展速度之快感到驚訝?！?/p>

如今，生成式模型正在逐漸發(fā)展到「圖像生成和多種模態(tài)的高光時(shí)刻」。他說(shuō)：「我很高興能夠?yàn)樗羞@些即將出現(xiàn)的應(yīng)用做點(diǎn)什么?！?/p>

與 CLIP 合作開發(fā)的原創(chuàng)研究

CLIP 是與 DALL-E 1 研究共同開發(fā)和公布的，它是一個(gè)基于零樣本學(xué)習(xí)的獨(dú)立模型，實(shí)際上算是 DALL-E 的秘密武器。CLIP 從互聯(lián)網(wǎng)上獲取了 4 億對(duì)帶有文字說(shuō)明的圖像進(jìn)行訓(xùn)練，能夠使用自然語(yǔ)言進(jìn)行分類基準(zhǔn)測(cè)試并對(duì) DALL-E 結(jié)果進(jìn)行排名。

當(dāng)然，很多早期跡象表明，當(dāng)前即將迎來(lái)文字到圖像的進(jìn)步。英屬哥倫比亞大學(xué)（University of British Columbia）的計(jì)算機(jī)科學(xué)副教授 Jeff Clune 說(shuō)道：「多年來(lái)的研究顯示，這種未來(lái)近在咫尺?！?016 年，他的團(tuán)隊(duì)制作出了他所說(shuō)的第一批與真實(shí)圖像難以分辨的合成圖像。

他說(shuō)：「我的意思是，幾年后，人們可以描述任何想要的圖像，然后由 AI 來(lái)生成它，比如特朗普面帶假笑地接受普京的賄賂?！?/p>

Air Street Capital 的合伙人 Nathan Benaich 認(rèn)為，生成式 AI 自始至終都是 AI 的核心部分。他在接受 VentureBeat 采訪時(shí)表示：「值得一提的是，2014 年生成式對(duì)抗網(wǎng)絡(luò)（GANs）的開發(fā)和 DeepMind 2016 年的 WaveNet 等研究已經(jīng)開始展示 AI 模型如何分別從頭生成新的圖像和音頻?！?/p>

盡管如此，最初的 DALL-E 論文「在當(dāng)時(shí)給人留下了深刻的印象」，未來(lái)學(xué)家、作家和 AI 研究員 Matt White 補(bǔ)充道。他說(shuō)：「雖然這不是文本到圖像合成領(lǐng)域的首項(xiàng)工作，但 OpenAI 不僅僅向 AI 研究領(lǐng)域推廣他們工作的方法，更是將推廣范圍擴(kuò)大到公眾層面，這自然也是其頗受關(guān)注的原因所在。」

盡可能地推動(dòng) DALL-E 研究

Ramesh 說(shuō)，他的初心始終是盡可能地推動(dòng)這項(xiàng)研究。

他說(shuō)：「我們覺得文本到圖像的生成很有意思，作為人類，我們能夠通過(guò)一句話來(lái)描述我們?cè)诂F(xiàn)實(shí)生活中可能遇到的任何情況，也可以是不可能發(fā)生的幻想場(chǎng)景，或者是瘋狂的幻想。所以我們想看看我們訓(xùn)練的模型是否能得當(dāng)?shù)貜奈谋局猩蓤D像，并且和人類一樣做出推斷?！?/p>

Ramesh 還補(bǔ)充道，對(duì)原始 DALL-E 的主要研究影響之一是 VQ-VAE，這是一種由 DeepMind 研究人員 Aaron van den Oord 首創(chuàng)的技術(shù)：像語(yǔ)言模型所訓(xùn)練的 token 一樣，將圖像也分解為 token。

他解釋說(shuō)：「所以我們可以采用像 GPT 這樣的 transformer，訓(xùn)練它的目的是為了預(yù)測(cè)下一個(gè)單詞，并用這些額外的圖像 token 來(lái)增強(qiáng)它的語(yǔ)言 token。這讓我們可以應(yīng)用同樣的技術(shù)來(lái)生成圖像?！?/p>

他說(shuō)，DALL-E 會(huì)帶給人們驚喜，因?yàn)椤冈谡Z(yǔ)言模型中看到泛化的例子是一回事，但當(dāng)在圖像生成中看到它時(shí)，它就會(huì)更加直觀且具有更深的影響力?！?/p>

DALL-E 2 向擴(kuò)散模型的轉(zhuǎn)變

但最初 DALL-E 研究發(fā)表時(shí)，Ramesh 的 DALL-E 2 合著者 Alex Nichol 和 Prafulla Dhariwal 已經(jīng)在研究在 GLIDE（一種新的 OpenAI 擴(kuò)散模型）的修改版本中使用擴(kuò)散模型。

這導(dǎo)致 DALL-E 2 的架構(gòu)與第一次迭代的 DALL-E 完全不同。正如 Vasclav Kosar 解釋的那樣，「DALL-E 1 使用離散變分自編碼器（dVAE）、下一個(gè) token 預(yù)測(cè)和 CLIP 模型重新排序，而 DALL-E 2 直接使用 CLIP 嵌入，并通過(guò)類似 GLIDE 的擴(kuò)散來(lái)解碼圖像?！?/p>

Ramesh 說(shuō)：「將擴(kuò)散模型和 DALL-E 結(jié)合起來(lái)，看似是一件自然而然的事，因?yàn)閿U(kuò)散模型有很多優(yōu)點(diǎn)，其中最明顯的特點(diǎn)是用擴(kuò)散模型能夠利落而又巧妙地修復(fù)圖像?！?/p>

他解釋道，在 DALL-E 2 中加入了在開發(fā) GLIDE 時(shí)使用的一種特殊技術(shù) —— 無(wú)分類器指導(dǎo) —— 這大大改進(jìn)了字幕的匹配度以及真實(shí)感。

「當(dāng) Alex 第一次嘗試時(shí)，沒有人想到結(jié)果會(huì)有這么大的改善。我最初只期望 DALL-E 2 能成為 DALL-E 的更新版本，但讓我驚訝的是，它已經(jīng)開始讓用戶受益了?！?/p>

2022 年 4 月 6 日，當(dāng) AI 社群和普通用戶第一次看到 DALL-E 2 的圖像輸出時(shí)，他們中的大部分都驚嘆于圖像質(zhì)量的差異。

「競(jìng)爭(zhēng)激烈，喜憂參半」

Hugging Face 的首席倫理科學(xué)家 Margaret Mitchell 在電子郵件告訴 VentureBeat，2021 年 1 月發(fā)布的 DALL-E 是第一波文本到圖像研究的浪潮，這些研究建立在語(yǔ)言和圖像處理的基本進(jìn)展之上，包括變分自動(dòng)編碼器和 autoregressive transformers。DALL-E 2 發(fā)布時(shí)，「擴(kuò)散是我們行內(nèi)人意料之外的突破，它切實(shí)地提升了游戲質(zhì)量，」她說(shuō)。

她補(bǔ)充說(shuō)，自從最初的 DALL-E 研究論文發(fā)表以來(lái)，過(guò)去兩年一直是「競(jìng)爭(zhēng)激烈，喜憂參半」。

「對(duì)如何建立語(yǔ)言和圖像模型的關(guān)注是以如何最好地獲取模型的數(shù)據(jù)為代價(jià)的，」她還指出，在現(xiàn)代文本到圖像的進(jìn)展中，個(gè)人權(quán)利和同意「幾乎被拋棄了」。目前的系統(tǒng)「基本上是在竊取藝術(shù)家的概念，而沒有為藝術(shù)家提供任何追索權(quán)，」她如此總結(jié)道。

DALL-E 沒有公開源代碼，這導(dǎo)致其他系統(tǒng)開發(fā)了開源的文本轉(zhuǎn)圖像選項(xiàng)，這在 2022 年夏天前引起了轟動(dòng)。

最初的 DALL-E「很有意思，但無(wú)法使用」，Stability AI 的創(chuàng)始人 Emad Mostaque 說(shuō)，他在 8 月發(fā)布了開源文本到圖像生成器 Stable Diffusion 的第一個(gè)迭代，并說(shuō)「只有我的團(tuán)隊(duì)訓(xùn)練的模型可以稱作開源」。Mostaque 補(bǔ)充說(shuō)：「我們從 2021 年夏天開始積極資助和支持它?！?/p>

展望未來(lái)，White 認(rèn)為，即使不久將要迎來(lái)新一代，DALL-E 的未來(lái)依舊任重而道遠(yuǎn)。

「DALL-E 2 在穩(wěn)定性、質(zhì)量和道德層面都存在問題，」，他指出，這些問題是相互交織且互相影響的，像「一只棕色的狗穿著紅襯衫」這樣的 prompt 可能會(huì)產(chǎn)生屬性顛倒的結(jié)果（即紅狗穿棕色襯衫，紅狗穿紅色襯衫或完全不同的顏色）。此外，他補(bǔ)充道，DALL-E 2 在面部和身體構(gòu)造、圖像文本生成的一致性方面仍然存在困難，「特別是當(dāng)遇到較長(zhǎng)的單詞時(shí)?！?/p>

DALL-E 和生成式 AI 的未來(lái)

Ramesh 希望更多的人了解到 DALL-E 2 的技術(shù)工作原理，這樣可以消除很多誤解。

他說(shuō)：「在大眾眼里。這個(gè)模型的工作方式是：它在某處有個(gè)圖像數(shù)據(jù)庫(kù)，它生成圖像的方式是將這些圖像片段剪切粘貼在一起，從而創(chuàng)造出新的東西。但實(shí)際上，它的工作方式更接近于人類，當(dāng)模型接受圖像訓(xùn)練時(shí)，它會(huì)學(xué)習(xí)所有這些概念的抽象表征。」

他還解釋道：「在我們從頭開始生成圖像時(shí)，我們不再使用訓(xùn)練數(shù)據(jù)。擴(kuò)散模型從他們?cè)噲D生成物的模糊近似開始，經(jīng)過(guò)多重步驟，逐步添加細(xì)節(jié)，就像藝術(shù)家總是從一個(gè)粗略的草圖開始發(fā)揮，隨著時(shí)間的推移再慢慢充實(shí)他的作品?！?/p>

他說(shuō)，助藝術(shù)家創(chuàng)作一臂之力也是 DALL-E 自始至終的目標(biāo)。

「過(guò)去，我們熱切地希望這些模型能成為藝術(shù)家的得力助手 —— 成為可以讓許多日常任務(wù)變得更簡(jiǎn)單、更有效率的得力工具，就像 Codex 是程序員的副駕駛一樣。據(jù)我們所知，一些藝術(shù)家認(rèn)為在創(chuàng)建想法原型時(shí)，DALL-E 非常有用，因?yàn)樗麄兺ǔ?huì)花幾個(gè)小時(shí)甚至幾天的時(shí)間來(lái)探索某個(gè)概念，隨后才決定采用它，而 DALL-E 可以將這個(gè)過(guò)程縮短至幾個(gè)小時(shí)甚至是幾分鐘?！?/p>

Ramesh 說(shuō)，他希望越來(lái)越多的人能夠在學(xué)習(xí)和探索過(guò)程中逐漸學(xué)會(huì)應(yīng)用 DALL-E 和其他生成式 AI 工具。

「通過(guò)（OpenAI 的）ChatGPT，我認(rèn)為我們已經(jīng)極大地?cái)U(kuò)展了這些 AI 工具的功能，并讓很多人接觸到它。希望隨著時(shí)間的推移，那些想運(yùn)用我們的技術(shù)做事的人可以很毫不費(fèi)力地通過(guò)我們的網(wǎng)站獲取它，并找到方法來(lái)使用其構(gòu)建出他們心中所想?！?/p>

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

圖像

圖像

+關(guān)注

關(guān)注
2

文章
1078

瀏覽量
40375
數(shù)據(jù)庫(kù)

數(shù)據(jù)庫(kù)

+關(guān)注

關(guān)注
7

文章
3752

瀏覽量
64229
生成式AI

生成式AI

+關(guān)注

關(guān)注
0

文章
480

瀏覽量
446

原文標(biāo)題：DALL-E發(fā)明者：我對(duì)其兩年來(lái)產(chǎn)生的影響感到驚訝

文章出處：【微信號(hào)：CVer，微信公眾號(hào)：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

IDC生成式AI白皮書亮點(diǎn)速遞

在數(shù)字化浪潮中，生成式 AI 正成為推動(dòng)創(chuàng)新和變革的關(guān)鍵力量。本文將分享由 IDC 發(fā)布的《技術(shù)革新引領(lǐng)未來(lái)——生成

的頭像

發(fā)表于 11-04 10:12 ?127次閱讀

生成式AI工具作用

生成式AI工具是指那些能夠自動(dòng)生成文本、圖像、音頻、視頻等多種類型數(shù)據(jù)的人工智能技術(shù)。在此，petacloud.ai小編為您整理

的頭像

發(fā)表于 10-28 11:19 ?140次閱讀

STAR AI進(jìn)軍美股科技星智能領(lǐng)跑生成式AI賽道

正在改變著人類的生存方式，基于生成式AI的工具導(dǎo)致了內(nèi)容生產(chǎn)的爆炸性增長(zhǎng)。據(jù)Bloomberg Intelligence報(bào)告預(yù)測(cè)，預(yù)計(jì)到2035年，全球生成

的頭像

發(fā)表于 08-22 08:56 ?249次閱讀

STAR <b class='flag-5'>AI</b>進(jìn)軍美股科技星智能領(lǐng)跑<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>賽道

生成式AI與傳統(tǒng)AI的主要區(qū)別

隨著人工智能技術(shù)的飛速發(fā)展，生成式AI（Generative AI）逐漸嶄露頭角，并與傳統(tǒng)AI（也稱為“規(guī)則驅(qū)動(dòng)的

的頭像

發(fā)表于 07-05 17:35 ?1797次閱讀

商湯發(fā)布《2024生成式AI賦能教育未來(lái)》白皮書

生成式AI正在各個(gè)行業(yè)中展現(xiàn)出巨大的應(yīng)用前景。在關(guān)系國(guó)計(jì)民生的教育行業(yè)，生成式AI能夠催生哪些創(chuàng)

的頭像

發(fā)表于 06-29 09:48 ?727次閱讀

原來(lái)這才是【生成式AI】?。?/a>

隨著ChatGPT、文心一言等AI產(chǎn)品的火爆，生成式AI已經(jīng)成為了大家茶余飯后熱議的話題?？墒牵瑸槭裁匆?b class='flag-5'>AI前面加上“

的頭像

發(fā)表于 06-05 08:04 ?290次閱讀

原來(lái)這才是【<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>】??！

OpenAI發(fā)布圖像檢測(cè)分類器，可區(qū)分AI生成圖像與實(shí)拍照片

據(jù)OpenAI介紹，初步測(cè)試結(jié)果表明，該分類器在辨別非AI生成圖像與DALL·E 3生成圖像時(shí)，成功率高達(dá)近98%，僅有不到0.5%的非

的頭像

發(fā)表于 05-09 09:57 ?407次閱讀

生成式AI的「七宗罪」！

面對(duì)生成式AI日漸增長(zhǎng)的「罪惡」，我們?cè)撊绾谓鉀Q問題？

的頭像

發(fā)表于 05-07 16:34 ?1711次閱讀

<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>的「七宗罪」！

聯(lián)發(fā)科聯(lián)合生態(tài)伙伴推出《生成式AI手機(jī)產(chǎn)業(yè)白皮書》，生成式AI手機(jī)發(fā)展路線明確了！

近日，聯(lián)發(fā)科天璣開發(fā)者大會(huì)2024（MDDC）在深圳盛大召開，會(huì)議以“AI予萬(wàn)物”為主題，吸引了眾多移動(dòng)生態(tài)領(lǐng)域的先鋒廠商和開發(fā)者參與。與會(huì)者圍繞端側(cè)生成式AI技術(shù)與

的頭像

發(fā)表于 05-07 16:34 ?393次閱讀

聯(lián)發(fā)科聯(lián)合生態(tài)伙伴推出《<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>手機(jī)產(chǎn)業(yè)白皮書》，<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>手機(jī)發(fā)展路線明確了！

讓交通運(yùn)輸更安全、更高效，人工智能可以做些什么？

一、前言您或許已經(jīng)嘗試過(guò)在ChatGPT和Dall-E等生成式人工智能服務(wù)中創(chuàng)建一些酷炫的圖片或優(yōu)美的文章。在交通運(yùn)輸方面，工程師們也借助AI工具構(gòu)思了一些關(guān)于自行車安全氣囊或其他道

的頭像

發(fā)表于 03-25 14:17 ?389次閱讀

讓交通運(yùn)輸更安全、更高效，人工智能可以做些什么？

微軟封禁員工討論OpenAI DALL-E 3模型漏洞

瓊斯去年底在進(jìn)行自主研究時(shí)，發(fā)現(xiàn)OpenAI的圖像生成模型DALL-E 3存在一個(gè)漏洞，漏洞利用者可以越過(guò)AI保護(hù)墻來(lái)制作色情內(nèi)容。他將此情況報(bào)告給微軟和OpenAI，并發(fā)文警示這種攻擊可能給公眾帶來(lái)危害，要求他們暫停使用

的頭像

發(fā)表于 02-02 14:38 ?516次閱讀

CES亮點(diǎn)：AI賦能與產(chǎn)業(yè)創(chuàng)新 | DALL-E 3、SD等20+圖像生成模型綜述

隨著科技飛速發(fā)展，CES（國(guó)際消費(fèi)電子展）已然成為全球科技產(chǎn)業(yè)的風(fēng)向標(biāo)，每年的CES大會(huì)都是業(yè)界矚目的盛事。回顧2024年CES大會(huì)，不難發(fā)現(xiàn)其亮點(diǎn)紛呈，其中以人工智能的深度賦能為最引人注目之處。AI技術(shù)的深入應(yīng)用成為CES大會(huì)上的一大亮點(diǎn)，各大廠商紛紛展示了在AI領(lǐng)域的

的頭像

發(fā)表于 01-25 10:07 ?963次閱讀

CES亮點(diǎn)：<b class='flag-5'>AI</b>賦能與產(chǎn)業(yè)創(chuàng)新 | <b class='flag-5'>DALL-E</b> 3、SD等20+圖像<b class='flag-5'>生成</b>模型綜述

生成式AI對(duì)智能家居的影響

電子發(fā)燒友網(wǎng)站提供《生成式AI對(duì)智能家居的影響.pdf》資料免費(fèi)下載

發(fā)表于 01-02 14:50 ?17次下載

駕馭創(chuàng)造的力量: 生成式 AI 時(shí)代的 MLOps 演進(jìn)

的生命周期管理、自動(dòng)化部署、監(jiān)控和故障排除、數(shù)據(jù)管理和安全合規(guī)等功能，幫助團(tuán)隊(duì)更好地開發(fā)、部署和管理生成式 AI 模型，實(shí)現(xiàn)更加高效、可靠的運(yùn)行。本期視頻將為您介紹如何根據(jù)生成

的頭像

發(fā)表于 12-21 18:05 ?306次閱讀

生成式AI技術(shù)的應(yīng)用前景

生成式 AI（人工智能）與我們熟知的 AI 有何不同？這篇文章將為我們一探究竟！

的頭像

發(fā)表于 11-29 12:20 ?1262次閱讀

<sub id="yqfuc"></sub>

<style id="yqfuc"><tbody id="yqfuc"><dfn id="yqfuc"></dfn></tbody></style>

<source id="yqfuc"></source>

^{<style id="yqfuc"></style>}

<sub id="yqfuc"><tr id="yqfuc"></tr></sub>

<center id="yqfuc"></center>

<style id="yqfuc"></style>