国精产品一区二区三区有限,成年无码动漫av片在线尤物

擴(kuò)散模型雖好，但如何保證生成的圖像準(zhǔn)確高質(zhì)量？GPT-4或許能幫上忙。

文本到圖像生成領(lǐng)域近兩年取得了很大的突破，從 GAN 到 Stable Diffusion，圖像生成的速度越來越快，生成效果越來越好。然而，AI 模型生成的圖像在細(xì)節(jié)上還有很多瑕疵，并且使用自然語言指定對象的確切位置、大小或形狀存在一定的困難。為了生成精準(zhǔn)、高質(zhì)量的圖像，現(xiàn)有方法通常依賴于廣泛的提 prompt 工程或手動(dòng)創(chuàng)建圖像草圖。這些方法需要大量的人工工作，因此非常低效。

最近，來自加州大學(xué)伯克利分校（UC 伯克利）和微軟研究院的研究者從編程的角度思考了這個(gè)問題。當(dāng)前，用戶能夠使用大型語言模型較好地控制代碼生成，這讓該研究看到了編寫程序來控制生成圖像細(xì)節(jié)的可能，包括物體的形狀、大小、位置等等?；诖?，該研究提出利用大型語言模型（LLM）生成代碼的功能實(shí)現(xiàn)可控型文本到圖像生成。

Controllable Text-to-Image Generation with GPT-4

論文地址：https://arxiv.org/abs/2305.18583

該研究提出了一個(gè)簡單而有效的框架 Control-GPT，它利用 LLM 的強(qiáng)大功能根據(jù)文本 prompt 生成草圖。Control-GPT 的工作原理是首先使用 GPT-4 生成 TikZ 代碼形式的草圖。如下圖 1 (c) 所示，程序草圖（programmatic sketch）是按照準(zhǔn)確的文本說明繪制的，隨后這些草圖被輸入 Control-GPT。Control-GPT 是 Stable Diffusion 的一種變體，它能接受額外的輸入，例如參考圖像、分割圖等等。這些草圖會(huì)充當(dāng)擴(kuò)散模型的參考點(diǎn)，使擴(kuò)散模型能夠更好地理解空間關(guān)系和特殊概念，而不是僅僅依賴于文本 prompt。這種方法使得 prompt 工程和草圖創(chuàng)建過程不再需要人為干預(yù)，并提高了擴(kuò)散模型的可控性。

我們來看一下 Control-GPT 方法的具體細(xì)節(jié)。

方法

對圖像生成來說，訓(xùn)練過程的一個(gè)較大挑戰(zhàn)是缺乏包含對齊文本和圖像的數(shù)據(jù)集。為了解決這個(gè)難題，該研究將現(xiàn)有實(shí)例分割數(shù)據(jù)集（例如 COCO 和 LVIS）中的實(shí)例掩碼轉(zhuǎn)換為多邊形的表示形式，這與 GPT-4 生成的草圖類似。

然后，該研究構(gòu)建了一個(gè)包含圖像、文本描述和多邊形草圖的三元數(shù)據(jù)集，并微調(diào)了 ControlNet。該研究發(fā)現(xiàn)這種方法有助于更好地理解 GPT 生成的草圖，并且可以幫助模型更好地遵循文本 prompt 指令。

ControlNet 是擴(kuò)散模型的一種變體，它需要額外的輸入條件。該研究使用 ControlNet 作為基礎(chǔ)圖像生成模型，并通過編程草圖和 grounding token 的路徑對其進(jìn)行擴(kuò)展。

框架

如下圖 2 所示，在 Control-GPT 中，首先 GPT-4 會(huì)根據(jù)文本描述生成 TikZ 代碼形式的草圖，并輸出圖像中物體的位置。然后該研究用 LATEX 編譯 TikZ 代碼，將草圖轉(zhuǎn)換為圖像格式，再將編程草圖、文本描述和物體位置的 grounding token 提供給經(jīng)過調(diào)優(yōu)的 ControlNet 模型，最終生成符合條件的圖像。

使用 GPT-4 生成的草圖訓(xùn)練 ControlNet 是必要的，因?yàn)轭A(yù)訓(xùn)練的 ControlNet 不理解生成的草圖，不能將其轉(zhuǎn)換為現(xiàn)實(shí)圖像。為了 prompt GPT-4，該研究要求用戶遵循如下的 prompt 樣本，以讓 GPT-4 請求 TikZ 代碼片段的結(jié)構(gòu)化輸出，以及相關(guān)物體的名稱和位置。然后，該研究使用 GPT-4 的輸出來編譯草圖圖像并獲得 grounding token。

LLM 繪制草圖的準(zhǔn)確性如何

Control-GPT 的精度取決于 LLM 生成草圖時(shí)的準(zhǔn)確性和可控性。因此，該研究對 LLM 在草圖生成方面的性能進(jìn)行了基準(zhǔn)測試。實(shí)驗(yàn)結(jié)果表明 GPT 系列模型在草圖生成方面明顯優(yōu)于 LLaMa 等開源模型，并且 GPT-4 在遵循文本指令方面表現(xiàn)出驚人的高準(zhǔn)確性（約 97%）。

該研究對 Control-GPT 和一些經(jīng)典模型的生成結(jié)果進(jìn)行了人工評(píng)估，結(jié)果表明當(dāng)圖像中包含兩個(gè)不相關(guān)的罕見物體組合時(shí)，一些模型的生成效果比較差，而 Control-GPT 的生成結(jié)果相對較好，如下表 2 所示：

查詢 LLMs，生成一個(gè) TikZ 代碼片段來描述給定的文本，進(jìn)而檢查 LLMs 的性能。如下表 1 所示，GPT-series 模型的大多數(shù)代碼片段都可以編譯為有效的草圖，而 LLaMA 和 Alpaca 的輸出要么是空的，要么不可運(yùn)行。在 GPT-series 模型中，最新的 GPT-4 在 95 個(gè)查詢中只有 3 次失敗，這些查詢成功地生成了有效草圖，在遵循文本指令方面的成功率大約有 97%。ChatGPT 是 GPT-3.5 的 RLHF 微調(diào)版本，其性能明顯低于原始 GPT-3.5。在調(diào)優(yōu)過程中，聊天能力和代碼生成之間可能存在著權(quán)衡。

在下圖 4 中，研究者提供了一個(gè)來自 GPT 系列模型的可視化草圖例子。雖然生成的草圖不如照片那樣逼真，但它們往往能捕捉到語義，并正確推理出物體的空間關(guān)系。生成的草圖經(jīng)常出人意料地通過簡單的代碼片斷來正確處理物體形狀。

下圖最后一行展示了 GPT-4 的一個(gè)失敗案例，即模型無法生成物體形狀，而 GPT-3.5 卻能給出一個(gè)正確的草圖。GPT-4 在草圖生成方面的高精度帶來的啟發(fā)是：可以使用它來提高圖像生成模型的可控性。

實(shí)驗(yàn)

基于 Visor 數(shù)據(jù)集，研究者對 Control-GPT 進(jìn)行了一系列實(shí)驗(yàn)設(shè)置的評(píng)估，測試其在空間關(guān)系、物體位置和大小方面的可控性。他們還將評(píng)估擴(kuò)展到多個(gè)物體和分布外的 prompt。廣泛的實(shí)驗(yàn)表明，Control-GPT 可以大大提升擴(kuò)散模型的可控性。

下表 3 中列出了定量評(píng)估結(jié)果?？梢钥吹剑珻ontrol-GPT 模型可以在給定的一些規(guī)格下更好地控制物體的大小和位置。與幾乎無法控制物體位置和尺寸的 Stable Diffusion 模型（SD-v1.5）相比，Control-GPT 將總體精度從 0% 提高到 14.18%。與現(xiàn)成的 ControlNet 相比，Control-GPT 在所有指標(biāo)上也取得了更好的表現(xiàn)，獲得了從 8.46% 到 4.18% 的整體改善。這些結(jié)果展示了本文的 LLM 集成框架在更細(xì)化和精確控制圖像生成過程方面的潛力。

視覺化。下圖 6 展示了定性評(píng)估結(jié)果，可以看到，ControlGPT 可以按照物體位置和尺寸的規(guī)范繪制物體。相比之下，ControlNet 也能遵循，但卻很難生成正確的物體，而 Stable Diffusion 則無法遵循規(guī)范。

對空間關(guān)系的消融實(shí)驗(yàn)。研究者還探討了模型是否對不同類型的空間關(guān)系（如左 / 右 / 上 / 下）有偏好，作為空間關(guān)系基準(zhǔn)分析的一部分。從下表 4 中可以看出，Control-GPT 在 Visor Score 和物體準(zhǔn)確性方面一直比所有的基線模型工作得更好。

多個(gè)物體之間的關(guān)系。研究者對 Control-GPT 生成多個(gè)物體的能力進(jìn)行了進(jìn)一步的評(píng)估，這些物體的空間關(guān)系由 prompt 指定。下圖 7 展示了一些例子，Control-GPT 能理解不同物體之間的空間關(guān)系，并在 GPT-4 的幫助下將它們放入布局中，表現(xiàn)出了更好的性能。

可控性與圖像逼真度。通常，在生成逼真圖像與遵循精確布局之間往往存在著妥協(xié)，特別是對于分布外的文字 prompt。如下圖 8 所示，（a）是一個(gè)例子，生成的圖像完全遵循布局，但這導(dǎo)致了圖像中的一些偽影；而在（b）中，照片往往看起來很逼真，但沒有很好地遵循草圖。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

圖像

圖像

+關(guān)注

關(guān)注
2

文章
1078

瀏覽量
40375
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1200

瀏覽量
24619
GPT

GPT

+關(guān)注

關(guān)注
0

文章
351

瀏覽量
15281

原文標(biāo)題：微軟提出Control-GPT：用GPT-4實(shí)現(xiàn)可控文本到圖像生成！

文章出處：【微信號(hào)：CVer，微信公眾號(hào)：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

評(píng)論

相關(guān)推薦

ChatGPT升級(jí)　OpenAI史上最強(qiáng)大模型GPT-4發(fā)布

是 Generative Pre-trained Transformer 4 的縮寫，即生成型預(yù)訓(xùn)練變換模型 4，是一個(gè)多模態(tài)大型語言模型。根據(jù)OpenAI的描述，GPT-4 支持接

發(fā)表于 03-15 18:15 ?2752次閱讀

OpenAI正式發(fā)布GPT-4：支持圖像和文本的輸入、處理中文的準(zhǔn)確度大幅提升

ChatGPT 的經(jīng)驗(yàn)教訓(xùn)迭代調(diào)整 GPT-4，從而在真實(shí)性和可控性等方面取得了有史以來最好的結(jié)果（盡管遠(yuǎn)非完美）。

發(fā)表于 03-16 09:46 ?1813次閱讀

GPT-4多模態(tài)模型發(fā)布，對ChatGPT的升級(jí)和斷崖式領(lǐng)先

而且 GPT-4 是多模態(tài)的，同時(shí)支持文本和圖像輸入功能。此外，GPT-4 比以前的版本“更大”，這意味著其已經(jīng)在更多的數(shù)據(jù)上進(jìn)行了訓(xùn)練，并且在模型文件中有更多的權(quán)重，這也使得它的運(yùn)行

發(fā)表于 03-17 10:31 ?3368次閱讀

語言模型GPT-4在北京高考題目上的測試結(jié)果

計(jì)算符號(hào)的表示。針對數(shù)學(xué)和物理中的公式，我們發(fā)現(xiàn)不管用文本類輸入（如，t_0)還是用latex輸入（如，）都不影響GPT-4的理解。為了統(tǒng)一，我們都盡可能采用latex表達(dá)問題，因此所有考試題目都由作者手敲公式輸入，不可避免

發(fā)表于 03-22 14:13 ?1338次閱讀

關(guān)于GPT-4的產(chǎn)品化狂想

GPT-4是條件，而不是結(jié)果

發(fā)表于 03-26 10:48 ?2928次閱讀

關(guān)于<b class='flag-5'>GPT-4</b>的產(chǎn)品化狂想

GPT-4是這樣搞電機(jī)的

GPT-4寫電機(jī)基礎(chǔ)程序沒問題

發(fā)表于 04-17 09:41 ?941次閱讀

微軟GPT-4搜索引擎重大升級(jí) 新Bing開放AI能力

GPT-4，GPT-4有更強(qiáng)悍的能力可以提供創(chuàng)意性文章創(chuàng)作和圖像識(shí)別功能。微軟馬上跟進(jìn)，宣布旗下的Bing Chat已經(jīng)升級(jí)使用了OpenAI提供的

發(fā)表于 05-05 17:15 ?2550次閱讀

GPT-4 Copilot X震撼來襲！AI寫代碼效率10倍提升，碼農(nóng)遭降維打擊

來源：新智元【導(dǎo)讀】GPT-4加強(qiáng)版Copilot來了！剛剛，GitHub發(fā)布了新一代代碼生成工具GitHubCopilotX，動(dòng)嘴寫代碼不再是夢。微軟真的殺瘋了！上周，微軟剛

發(fā)表于 04-04 16:35 ?844次閱讀

GPT-4已經(jīng)會(huì)自己設(shè)計(jì)芯片了嗎？

對話，紐約大學(xué)Tandon工程學(xué)院的研究人員就通過GPT-4造出了一個(gè)芯片。具體來說，GPT-4通過來回對話，就生成了可行的Verilog。隨后將基準(zhǔn)測試和處理器發(fā)送到Skywater 130 nm

發(fā)表于 06-20 11:51 ?926次閱讀

GPT-3.5 vs GPT-4：ChatGPT Plus 值得訂閱費(fèi)嗎國內(nèi)怎么付費(fèi)？

GPT-3.5 vs GPT-4：ChatGPT Plus值得訂閱費(fèi)嗎？ChatGPT Plus國內(nèi)如何付費(fèi)？? ChatGPT-3.5一切都很好，但ChatGPT-4（通過ChatGPT Plus

發(fā)表于 08-02 12:09 ?4132次閱讀

GPT-4沒有推理能力嗎？

今年三月，OpenAI 重磅發(fā)布了 GPT-4 大模型，帶來了比 ChatGPT 背后 GPT-3.5 更強(qiáng)的推理、計(jì)算、邏輯能力，也引發(fā)了全民使用的熱潮。在各行各領(lǐng)域研究人員、開發(fā)者、設(shè)計(jì)師的使用過程中，「GPT-4 是最為領(lǐng)

發(fā)表于 08-11 14:20 ?863次閱讀

微軟Copilot（Bing Chat）將升級(jí)至GPT-4 Turbo

微軟Copilot（Bing Chat）將升級(jí)至GPT-4 Turbo 微軟廣告和網(wǎng)絡(luò)服務(wù)負(fù)責(zé)人Mikhail Parakhin在X平臺(tái)透露，Copilot（Bing Chat）目前還在解決一些問題

發(fā)表于 11-28 18:37 ?1129次閱讀

OpenAI發(fā)布的GPT-4 Turbo版本ChatGPT plus有什么功能？

GPT-4的最新版本。OpenAI憑借承諾增強(qiáng)功能和成本效率的模型實(shí)現(xiàn)了巨大飛躍，為人工智能行業(yè)樹立了新標(biāo)準(zhǔn)。我們來看看OpenAI帶來了什么：文本和圖像理解

發(fā)表于 12-05 17:57 ?2368次閱讀

微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

起初，Copilot作為Bing Chat AI助手推出，初期采用GPT-3.5模型，隨后升級(jí)至GPT-4取得顯著進(jìn)步，如今再次更新至性能卓越的GPT-4 Turbo模型，這無疑將使得Copilot功能再上新臺(tái)階。

發(fā)表于 03-13 13:42 ?656次閱讀

阿里云發(fā)布通義千問2.5大模型，多項(xiàng)能力超越GPT-4

阿里云隆重推出了通義千問 2.5 版，宣稱其“技術(shù)進(jìn)步，全面超越GPT-4”，尤其是在中文環(huán)境中的多種任務(wù)（如文本理解、文本生成、知識(shí)問答及生活建議、臨時(shí)聊天及對話以及安全風(fēng)險(xiǎn)評(píng)估）方面表現(xiàn)出色，超越了

發(fā)表于 05-09 14:17 ?901次閱讀