抱姝姝a片亚洲综合久久国产,2023天堂视频精品免费观看

隨著科技飛速發(fā)展，CES（國際消費電子展）已然成為全球科技產(chǎn)業(yè)的風(fēng)向標(biāo)，每年的CES大會都是業(yè)界矚目的盛事?；仡?024年CES大會，不難發(fā)現(xiàn)其亮點紛呈，其中以人工智能的深度賦能為最引人注目之處。AI技術(shù)的深入應(yīng)用成為CES大會上的一大亮點，各大廠商紛紛展示了在AI領(lǐng)域的最新成果。

關(guān)鍵詞：CES；AI；VR；消費電子；生成式AI；NVIDIA；Copilot；Rabbit R1；Vision Pro；Micro LED；GeForce RTX 40 SUPER

AI深度賦能

產(chǎn)業(yè)創(chuàng)新紛呈

各大芯片公司圍繞生成式AI展開激烈競爭。英偉達RTX 40 SUPER系列表現(xiàn)優(yōu)秀，不僅提高性能還節(jié)約成本；AMD銳龍8000G系列突出AI能力；英特爾已經(jīng)開始與OEM企業(yè)合作，率先構(gòu)建AI PC生態(tài)系統(tǒng)。這些的芯片制造商通過不懈努力，有望加速AI及AI PC在不同行業(yè)中的應(yīng)用，并推動AI技術(shù)為各行各業(yè)注入新活力。

一、英偉達

1、芯片

在本屆CES大會上，英偉達發(fā)布基于Ada Lovelace架構(gòu)的GeForce RTX 40 SUPER系列顯卡，型號涵蓋RTX 4080 SUPER、RTX 4070 Ti SUPER和 RTX 4070 SUPER三款產(chǎn)品（均可應(yīng)用于筆記本電腦）。RTX 4080 SUPER憑借AD103芯片和強大的CUDA核心數(shù)，736 GB/s的內(nèi)存帶寬，可輕松應(yīng)對4K全景光線追蹤游戲。在游戲圖形高性能需求情況下，RTX 4080 SUPER速度是RTX 3080 Ti的1.4倍。此外，借助836 TOPSAI算力和DLSS幀生成功能，RTX 4080 SUPER的性能可達到RTX 3080 Ti的2倍。

英偉達 RTX 4080 SUPER 性能對比

英偉達RTX 4070 Ti SUPER在核心數(shù)量和顯存容量上優(yōu)于RTX 4070 Ti，顯存容量提升至16GB，顯存位寬為256 bit，帶寬增加至672 GB/s。相較于上代RTX 3070 Ti，其性能提升1.6倍，在開啟DLSS 3技術(shù)后，性能可提升至RTX 3070 Ti的2.5倍。

英偉達 RTX 4070 Ti SUPER 性能對比

RTX 4070 SUPER的核心數(shù)量比RTX 4070高出20%，并且僅用RTX 3090部分功耗情況下，就已經(jīng)超越RTX 3090性能表現(xiàn)。當(dāng)使用DLSS 3時，其性能優(yōu)勢可擴大到1.5倍。

英偉達 RTX 4070 SUPER 性能對比

2、AI軟件服務(wù)

英偉達首次將AI應(yīng)用到游戲虛擬人物生成上，該服務(wù)包括NVIDIA Audio2 Face（A2F）和NVIDIA Riva 自動語音識別（ASR）。前者依據(jù)聲音來源制作富有表情的面部動畫，后者能為虛擬數(shù)字人物開發(fā)多語言語音和翻譯應(yīng)用。

3、智能駕駛領(lǐng)域

在CES2024展會上，梅賽德斯-奔馳發(fā)布一系列軟件驅(qū)動功能以及基于NVIDIA DRIVE Orin芯片的CLA級智能駕駛輔助系統(tǒng)。

英偉達近日宣布，理想汽車等一系列廠商選擇使用NVIDIA DRIVE Thor集中式車載計算平臺。此外，電動汽車制造商如長城汽車、極氪和小米汽車已決定在其新一代自動駕駛系統(tǒng)中采用NVIDIA DRIVE Orin平臺。

二、AMD

AMD引入基于Zen 3架構(gòu)的四款新品，包括銳龍7 5700X3D、銳龍7 5700、銳龍5 5600GT和銳龍5 5500GT：

- 銳龍7 5700X3D具有8核16線程設(shè)計，最大加速頻率為4.1GHz，并支持3D V-CACHE技術(shù)，游戲性能十分突出；

- 銳龍7 5700是8核16線程，最大加速頻率4.6GHz，無核顯；

- 銳龍5 5600GT和銳龍5 5500GT都是6核12線程，最大加速頻率分別為4.6GHz和4.4GHz，并帶有Radeon核顯。

銳龍 7 5700X3D 游戲性能優(yōu)秀

AMD發(fā)布新顯卡Radeon RX 7600 XT，配備RDNA 3圖形核心和16GB內(nèi)存，專門優(yōu)化1080p高畫質(zhì)游戲，并可以處理一些1440p游戲。該顯卡支持HYPR-RX、Ray Tracing、AV1、FSR3等軟件，提供更順暢的游戲體驗。此外，16GB內(nèi)存使Radeon RX 7600 XT能夠支持AI大語言模型，顯著提高處理和創(chuàng)作速度。

Radeon RX 7600 XT 16GB 顯卡的游戲性能得到較大提升

三、英特爾

英特爾推出14代酷睿移動和臺式機處理器系列，包括升級版的HX系列移動處理器，以及適用于移動平臺的低壓酷睿移動處理器系列。14代酷睿HX系列提升游戲和多任務(wù)創(chuàng)作性能，支持最高192GB DDR5-5600內(nèi)存和Thunderbolt 5，并配備超頻功能以及增強的聯(lián)網(wǎng)能力?？犷9-14900HX是14代移動處理器家族的頂級產(chǎn)品，擁有24核心32線程，最高頻率為5.8 GHz。

英特爾 14 代酷睿 HX 系列移動處理器

四、群聯(lián)

群聯(lián)電子推出全球首款7納米制程的PCIe 5.0 DRAM-Less 4CH client SSD 控制芯片E31T，標(biāo)志著其在PC OEM和主流SSD市場開展業(yè)務(wù)。這顆新芯片在現(xiàn)有的3600MT/s NAND時代下，SSD效能可達到10.8GB/s，最高容量可達8TB。未來4800MT/s NAND發(fā)布后，其速度可能提升至14GB/s。此外，群聯(lián)還展示其他新產(chǎn)品，如PCIe 5.0 SSD PS5026-E26、PCIe 4.0 DRAM-Less SSD PS5027-E27T和USB 4.0 PS2251-21 (U21)。

CES 2024大會亮點

CES作為頗具影響力的科技展覽，展示芯片硬件到終端應(yīng)用的全方位科技成果，涉及AI、VR、消費電子、汽車電子和智能家居等領(lǐng)域，標(biāo)志著未來科技的方向。

一、AI PC

AI PC作為本次盛會主角，集結(jié)全鏈條科技力量，包括芯片、系統(tǒng)和終端，預(yù)示著AI PC元年來臨。戴爾、惠普、華碩、三星等知名廠商的AI PC產(chǎn)品勢如破竹，在硬件提升、AI助手整合和性能優(yōu)化方面展示出其領(lǐng)先地位。特別是大多數(shù)AI PC都增加AI專用啟動鍵。英偉達、AMD、英特爾等核心元件制造商的最新AI PC芯片部署，使整體計算能力有了顯著的提升。在CES 2024引領(lǐng)下，全球PC產(chǎn)業(yè)正在以更快的速度進入AI時代。

二、生成式AI與筆記本電腦完美結(jié)合：開啟智能辦公新時代

2023年，生成式AI成為科技領(lǐng)域的大熱話題。因此在CES展上，生成式AI大放光彩。

戴爾Windows 11筆記本將配備微軟自然語言AI助手，即通過Windows for Copilot按鈕實現(xiàn)更智能操作。NVIDIA首次推出Chat with RTX展示應(yīng)用程序，可以在Windows RTX個人電腦或工作站上搜索包括聊天、文檔和視頻在內(nèi)的各種內(nèi)容。

在零售商業(yè)領(lǐng)域，生成型AI也在2024年的CES展上大放異彩。如沃爾瑪首次亮相Shop With Friends社交商務(wù)平臺。大眾汽車正在嘗試將ChatGPT技術(shù)融入到汽車產(chǎn)品中。目前不能確定這些功能是否會像語言AI助手一樣受歡迎，從長遠角度來看，都是值得密切關(guān)注的重要發(fā)展趨勢。

三、生產(chǎn)力小工具強調(diào)速度和易用性

在2024年CES展覽會上Rabbit R1是另外一個令人矚目的焦點，這是一款基于生成式AI的手持設(shè)備。其可以改變?nèi)藗兣c應(yīng)用程序的互動方式，甚至可以取代智能手機。例如，通過用戶簡單口頭指令，Rabbit R1能完成如“預(yù)訂航班”等任務(wù)。

此外，屏幕顯示技術(shù)也取得重大突破。如聯(lián)想ThinkVision 27 3D顯示器能快速將2D圖像轉(zhuǎn)換為3D內(nèi)容，滿足用戶多樣化的需求。

值得一提的是，Wi-Fi 7認證推出意味著更多設(shè)備將具備更高的數(shù)據(jù)處理能力，為虛擬現(xiàn)實等應(yīng)用領(lǐng)域帶來無限可能。在展會上，眾多制造商如TP-Link、UniFi、MSI和Acer都發(fā)布適配Wi-Fi 7的路由器產(chǎn)品。

四、多合一筆記本電腦為專業(yè)人士提供選擇

在CES 2024上，能夠輕松轉(zhuǎn)換為平板電腦的筆記本成為焦點，其中惠普Spectre x360和戴爾新款XPS系列備受矚目。華碩的Zenbook DUO（2024）UX8406更是獨樹一幟，憑借其獨特的雙屏設(shè)計和靈活的變形模式，為用戶提供豐富的功能。

五、高通、汽車制造商和其他公司推廣虛擬現(xiàn)實和混合現(xiàn)實產(chǎn)品

預(yù)計一月底，三星將推出一款搭載高通驍龍XR2+ Gen 2芯片的虛擬混合現(xiàn)實耳機，與蘋果的Vision Pro展開競爭。在CES展覽會上，除三星和寶馬之外，混合現(xiàn)實和虛擬現(xiàn)實還在其他領(lǐng)域得到展示。

六、曲面透明的電視屏幕引人注目

在家庭辦公環(huán)境中，透明電視屏幕已從單純的電視設(shè)備轉(zhuǎn)變?yōu)榱钊梭@嘆的藝術(shù)品。三星透明Micro LED和LG Signature OLED T就是杰出代表。此外，許多大型曲面顯示器也在展現(xiàn)游戲市場的吸引力。不僅提升電視的觀感體驗，也進一步拓寬顯示技術(shù)的應(yīng)用領(lǐng)域。

DALL-E、Stable Diffusion

等 20+ 圖像生成模型綜述

近兩年圖像生成模型如Stable Diffusion和DALL-E系列模型的不斷發(fā)展引起廣大關(guān)注。為深入理解 Stable Diffusion 和 DALL-E 3 等最新圖像生成模型，從頭開始探索這些模型的演變過程就顯得至關(guān)重要。下面主要通過任務(wù)場景、評估指標(biāo)、模型類型、效率優(yōu)化、局限性等11個方面為大家進行講解。

一、任務(wù)場景

1、無條件生成

無條件生成是一種生成模型不受任何額外條件影響，只根據(jù)訓(xùn)練數(shù)據(jù)分布生成圖像。其適用于不需要額外信息或上下文的場景，如根據(jù)隨機噪聲生成逼真的人臉圖像。舉列來說：CelebA-HQ和FFHQ是高質(zhì)量的人臉數(shù)據(jù)集，分別包含30,000和70,000張1024x1024分辨率的人臉圖像。而LSUN是一款場景類別數(shù)據(jù)集，包括臥室、廚房、教堂等類別，每個圖像的大小為256x256分辨率，每個類別包含12萬到300萬張圖像。這些都是常用的無條件評估任務(wù)。

2、有條件生成

有條件生成是一種生成模型，在形成圖像時會受到額外條件或上下文的影響，如類別標(biāo)簽、文本描述或特定屬性等。廣泛應(yīng)用于需要按特定條件生成結(jié)果的任務(wù)。如根據(jù)給定的文本描述生成相應(yīng)的圖像或在生成特定類別圖像時提供相應(yīng)類別標(biāo)簽。

1）類別條件生成

類別條件生成常用于圖像生成領(lǐng)域，ImageNet 是其常見的實例，主要用于圖像分類任務(wù)，擁有1000個類別標(biāo)簽。在生成圖像時，可以指定對應(yīng)的類別標(biāo)簽，讓模型按照類別進行圖像生成。

2）文本條件生成

文本條件生成是目前最流行的圖像生成方法，其模型可根據(jù)輸入的自然語言描述來生成相應(yīng)的圖像。

3）位置條件

當(dāng)對圖像的物體布局或主體位置有特定需求時，可以結(jié)合使用類別條件和文本條件指導(dǎo)模型生成過程。

4）圖像擴充

圖像條件經(jīng)常被用于按需處理圖像，如圖像擴充（Outpainting）。

5）圖像內(nèi)編輯

圖像內(nèi)編輯（Inpainting）是另一個以圖像為條件的常見生成方式，結(jié)合文本輸入進行操作。

6）圖像內(nèi)文字生成

需要圖片中包含特定文本內(nèi)容，也可以條件形式輸入。

7）多種條件生成

有些場景會包含多種條件，如給定圖像、文本等，模型要綜合考量這些條件才能生成滿足要求的圖像。

三、評估指標(biāo)

1、IS

IS（Inception Score）一個評估生成圖像質(zhì)量和多樣性的標(biāo)準(zhǔn)，主要考慮生成圖像的真實性與多樣性。其計算過程通過分類模型確定各類別的概率分布，再計算概率分布的KL散度，最后以指數(shù)平均值形式表達。

2、FID

FID（Frechet Inception Distance）即衡量生成圖片與真實圖片距離指標(biāo)，其值越小代表越優(yōu)秀。計算方法包括提取真實圖像和生成圖像的特征向量，并計算二者的Frechet距離。在實踐中通常利用IS評估真實性，而FID則用來評估多樣性。

3、CLIP Score

OpenAI發(fā)布的CLIP模型包含圖像和文本編碼器，主要目的是實現(xiàn)圖文特征的匹配。其工作方式是分別提取文本和圖片的嵌入值計算相似性，距離大則說明相似性低，圖片和文本不相關(guān)。

4、DrawBench

在 Imagen 中，Google 提出 DrawBench，是一個全面且具有挑戰(zhàn)性的文本生成圖片模型評測基準(zhǔn)。

DrawBench 基準(zhǔn)包含 11 個類別的 200 個文本提示

針對各類別進行獨立人工評估，評估員對兩組模型A和B生成的圖像進行評分。每組有8個隨機生成結(jié)果。評分員需要回答：哪組圖像質(zhì)量更高，以及哪組圖像與文本描述更匹配。每個問題都有三個選項：更喜歡A，無法確定，更喜歡B。

四、常用模型

1、模型結(jié)構(gòu)

圖像生成任務(wù)通常由多個子模型組成，包括常見的 CNN、AutoEncoder、U-Net、Transformer等。其中，AutoEncoder 和 U-Net等模型相似，都是各種模型的主要組成部分。主要的差別在于AutoEncoder由編碼器和解碼器組成，可以單獨使用，編碼器壓縮輸入，比如把圖像映射到隱空間，解碼器用編碼重構(gòu)輸入，即從隱空間恢復(fù)圖像。而U-Net模型在編碼器和解碼器之間添加Skip Connection，使得解碼器不僅依賴隱空間編碼，還依賴輸入，因此不能單獨使用。

2、預(yù)訓(xùn)練模型

1）CLIP 模型

OpenAI的CLIP是一個強大的圖文對齊模型，利用對比學(xué)習(xí)在海量圖文數(shù)據(jù)對（4億）上進行預(yù)訓(xùn)練。在訓(xùn)練過程中，將配對的圖文特征視為正面，將圖片特征與其他文本特征視為負面。由于其強大的表征能力，CLIP的文本和圖像編碼器常常被其他模型用于圖像或文本編碼。

2）CoCa 模型

CoCa模型在CLIP模型基礎(chǔ)上，增加多模態(tài)文本解碼器。訓(xùn)練過程中，除使用原來CLIP模型對比損失，增加描述損失。

五、模型類型

1、VAE 系列

VAE系列模型發(fā)展從最初自編碼器（AE）發(fā)展到變分自編碼器（VAE），然后出現(xiàn)向量量化VAE（VQ-VAE）、VQ-VAE-2以及VQ-GAN、ViT-VQGAN和MaskGIT等。但這些通常只用于無條件生成或簡單類別和圖像條件，對文本輸入支持能力不足。

1）AE

自編碼器（AE）是一種人工神經(jīng)網(wǎng)絡(luò)技術(shù)，用于實現(xiàn)無標(biāo)簽數(shù)據(jù)的有效編碼學(xué)習(xí)。該過程涉及將高維度數(shù)據(jù)做低維度表示，進而實現(xiàn)數(shù)據(jù)壓縮，因此主要應(yīng)用于降維任務(wù)。AE主要由兩部分組成：編碼器（負責(zé)將輸入數(shù)據(jù)編碼，即壓縮）和解碼器（負責(zé)使用這些編碼重構(gòu)輸入，即解壓）。

2）VAE

變分自編碼器（VAE）在自編碼器（AE）的基礎(chǔ)上，引入概率生成模型思想，通過設(shè)置隱空間概率分布，生成多樣樣本，同時更好地理解數(shù)據(jù)的分布性質(zhì)。

3）VQ-VAE

向量量化變分自編碼器（VQ-VAE）在變分自編碼器（VAE）基礎(chǔ)上加入離散、可度量的隱空間表示形式，有利于模型理解數(shù)據(jù)中的離散結(jié)構(gòu)和語義信息，同時可以避免過擬合。VQ-VAE與VAE的工作原理相通，只是在中間步驟中，沒有學(xué)習(xí)概率分布，而是利用向量量化（VQ）學(xué)習(xí)代碼書（Codebook）。

4）VQ-GAN

向量量化生成對抗網(wǎng)絡(luò)（VQ-GAN）的主要改進是使用生成對抗網(wǎng)絡(luò)（GAN）策略，將變分自編碼器（VAE）作為生成器，并配合一個判別器對生成圖像進行質(zhì)量評估。該模型引入感知重建損失方案，不僅關(guān)注像素差異，同時也關(guān)注特征圖差異，以此來生成更高保真度的圖片，從而使學(xué)習(xí)的代碼書更加豐富。

5）ViT-VQGAN

圖像轉(zhuǎn)換器 VQ-GAN (ViT-VQGAN)的模型結(jié)構(gòu)保持VQGAN的基礎(chǔ)結(jié)構(gòu)，關(guān)鍵差異在于將編解碼器的CNN框架切換為ViT模型。首先，編碼器對每8x8像素塊進行獨立編碼，從而產(chǎn)生1024個 token 序列。再者通過量化過程，這1024個token序列被映射到大小為8192的codebook空間。然后，解碼器從1024個離散的潛在編碼中復(fù)原原始圖像。最后，自回歸轉(zhuǎn)換器被應(yīng)用于生成離散潛在編碼。訓(xùn)練期間，可以直接使用由編碼器生成的離線潛在編碼作為目標(biāo)，計算交叉熵損失。

6）Parti

相較于VQ-GAN或ViT-VQGAN僅使用解碼器（Decoder Only）形式的Transformer來生成離散的潛在編碼，Parti的作者采取編碼器+解碼器（Encoder + Decoder）的模式。這樣做的好處就在于可以使用編碼器對文本進行編碼，生成文本嵌入（Text Embedding），再將這個文本嵌入作為條件引入解碼器中，通過交叉注意力機制（Cross Attention）與視覺Token產(chǎn)生交互。

7）MaskGIT

MaskGIT模型采用VQGAN范式，但在實現(xiàn)上有所不同。VQGAN中的Transformer通過序列生成方式預(yù)測圖像Token，一次只預(yù)測一個，效率不高。相比之下，MaskGIT采用蒙面視覺Token建模法（Masked Visual Token Modeling）進行訓(xùn)練，這種方法使用類似BERT的雙向Transformer模型，訓(xùn)練時會隨機遮擋部分圖像Token，目標(biāo)就是預(yù)測這些被遮擋的Token。

8）DALL-E

DALL-E訓(xùn)練過程和VQ-GAN相似，但DALL-E并未使用VQ-VAE，而是選擇Discrete VAE（dVAE），其的總體概念相似。dVAE的主要不同之處在于引入Gumbel Softmax進行訓(xùn)練，有效避免VQ-VAE訓(xùn)練中由于ArgMin操作不能求導(dǎo)而產(chǎn)生的問題。

9）DALL-E mini

DALL-E mini是社區(qū)對DALL-E的開源復(fù)現(xiàn)。其使用VQ-GAN替代dVAE，用具有編碼器和解碼器的BART替代DALL-E中僅解碼器的Transformer。此外，會用VQ-GAN的解碼器生成多張候選圖像，利用CLIP提取這些圖像和文本嵌入，進行比較排序，以挑選出最匹配的生成結(jié)果。

10）VQGAN-CLIP

VQGAN-CLIP的實現(xiàn)思路直接明了，通過VQ-GAN將初始圖像轉(zhuǎn)化成一幅新圖像，然后使用CLIP對這個生成圖像以及目標(biāo)文本提取embedding，計算它們之間的相似性，并將誤差反饋到隱空間的Z-vector上進行迭代更新。

2、Diffusion 系列

Diffusion模型雖在2015年首次被提出，但因效果不佳未受到廣泛關(guān)注。直到2020年06月OpenAI發(fā)布DDPM后，該模型才逐漸為人所知。Diffusion模型的發(fā)展路徑主要包括OpenAI系列模型，Stable Diffusion系列模型，以及Google的Imagen和Imagen 2。

1）DDPM

在擴散模型中存在兩個關(guān)鍵步驟：前向過程（或稱為擴散過程）以及逆向過程。簡單來說前向過程的要點在于不斷向圖片添加高斯噪聲，而逆向過程的主旨則在于通過逐步去除高斯噪聲以重建圖像。

2）Diffusion Model Beat GANs

主要有兩個亮點：首先對無條件圖像生成中不同模型結(jié)構(gòu)對生成效果的影響進行大量的消融實驗驗證。其次引入分類器引導(dǎo)以提升生成質(zhì)量。

模型結(jié)構(gòu)主要變動包括在保持模型大小不變的前提下增加深度、減小寬度，以及增加Attention頭的數(shù)量，并擴大Attention的應(yīng)用范圍至16x16、32x32和8x8的分辨率上。結(jié)果表明，更多和更廣泛的Attention應(yīng)用范圍以及采用BigGAN的residual block都可以幫助提升模型表現(xiàn)。這些工作不僅創(chuàng)建了一種新的模型--ADM（Ablate Diffusion Model）, 為OpenAI后續(xù)的生成模型打下堅實基礎(chǔ)，同時也為Stable Diffusion的模型開發(fā)提供參考。

3）GLIDE

在GLIDE模型中，將Diffusion模型應(yīng)用于文本條件圖像生成，主要包含兩個子模型：

- 文本條件的擴散模型

由一個文本編碼的變壓器（1.2B，24個殘差塊，寬度2048)以及一個在Diffusion Model Beat GANs中的ADM（Ablated Diffusion Model）的擴散模型組成，后者的分辨率為64x64，參數(shù)為2.3B，寬度擴展至512通道，并在該基礎(chǔ)上擴展文本條件信息。

- 文本條件+上采樣模型

包括類似于前述文本變壓器模型，但是寬度減少到1024，還有一種同樣源自ADM-U的上采樣模型，分辨率從64x64擴展到256x256，通道數(shù)從192擴展到384。

4）DALL-E 2

GLIDE模型對文本引導(dǎo)圖像生成進行全新的嘗試，并取得優(yōu)秀成果。在這項工作中，利用強大的CLIP模型，構(gòu)建一個兩階段圖像生成模型，該模型主要由四個部分構(gòu)成。

- 一個對應(yīng)CLIP模型的圖像編碼器，其生成的圖像嵌入在訓(xùn)練階段被用做prior目標(biāo)，要求prior生成嵌入盡可能與其相似。

- 一個在訓(xùn)練和生成階段對文本編碼的文本編碼器，生成的嵌入作為prior的輸入。

- prior根據(jù)這個嵌入生成圖像嵌入。

- 根據(jù)圖像嵌入生成最終圖像解碼器，其可以選擇是否考慮文本條件。

在訓(xùn)練階段，圖像編碼器和文本編碼器保持不變，而在生成階段則不再需要圖像編碼器。

5）DALL-E 3

OpenAI的DALL-E 3是一款先進的文生圖模型，針對傳統(tǒng)模型在遵循詳細圖像描述方面的不足進行優(yōu)化。由于傳統(tǒng)模型常常會忽略或混淆語義提示，為解決該問題，需要先訓(xùn)練一個圖像描述器，并生成一組高度描述性的圖像描述，用于訓(xùn)練文生圖模型，從而顯著提高模型的指令跟隨能力。

DALL-E 3的圖像解碼器借鑒穩(wěn)定擴散的實現(xiàn)，采用一個三階段的隱擴散模型。其VAE和穩(wěn)定擴散相同，都采用8倍的下采樣，訓(xùn)練的圖像分辨率為256x256，并生成32x32的隱向量。為處理時間步長條件，模型采用GroupNorm并學(xué)規(guī)模和偏差。對文本條件的處理，則是使用T5 XXL作為文本編碼器，然后將輸出的embedding和xfnet進行交叉注意。

6）Stable Diffusion（LDM）

LDM模型與其他擴散生成模型類似，主要由三個部分組成：

-自動編碼器

包括編碼器和解碼器兩部分。編碼器主要用于生成目標(biāo)z，而解碼器則用于從潛在編碼中恢復(fù)圖像。

-調(diào)節(jié)部分

用于對各種條件信息進行編碼，其生成的嵌入將在擴散模型U-Net中使用。不同的條件需利用不同的編碼器模型以及使用方法。

-去噪U-Net

該部分主要用于從隨機噪聲zT生成潛在編碼，然后利用解碼器恢復(fù)圖像。各種條件信息會通過交叉注意機制進行融合。

7）SDXL

SDXL模型針對SD模型作出一些關(guān)鍵的改進（總參數(shù)量為26億，其中文本編碼器有8.17億的參數(shù)）:

- 增加一個Refiner模型，用于進一步精細化圖像。

- 使用兩個文本編碼器，即CLIP ViT-L和OpenCLIP ViT-bigG。

- 基于OpenCLIP的文本嵌入中添加一個匯集文本嵌入。

8）SDXL-Turbo

SDXL-Turbo模型的主要改進在于引入蒸餾技術(shù)減少生成步數(shù)并提升生成速度。其主要流程包括：

- 從Tstudent模型中選擇步長s進行前向擴散，生成加噪圖像。

- 使用學(xué)生模型對加噪圖像進行去噪，得到去噪后的圖像。

- 基于原始圖像和去噪后的圖像計算對抗損失。

- 從Tteacher模型中選擇步長t對去噪后的圖像進行前向擴散，生成新圖像。

- 使用教師模型對新生成的圖像進行去噪，得到新的去噪圖像。

- 基于學(xué)生模型和教師模型的去噪圖像計算蒸餾損失。

- 根據(jù)損失進行反向傳播，注意教師模型不會進行更新。

9）Imagen

Google推出的Imagen模型是一個復(fù)雜且強大的基于擴散模型的文生圖模型，能生成極其逼真的圖像并深度理解語言。該模型主要由四個部分組成：

- Frozen Text Encoder

將文本進行編碼得到嵌入，經(jīng)過比較后，選擇T5-XXL模型。

- Text-to-Image Diffusion Model

該模塊使用U-Net結(jié)構(gòu)的擴散模型，把步數(shù)t和前一步的文本嵌入作為條件，總共有20億參數(shù)。

- 第一Super-Resolution Diffusion Model

采用優(yōu)化過的高效U-Net，把64x64的圖像超分為256x256的圖像，用文本嵌入作為條件，總共有6億參數(shù)。

- 第二Super-Resolution Diffusion Model

利用優(yōu)化過的高效U-Net，將256x256的圖像超分為1024x1024的圖像，以文本嵌入作為條件，總共有4億參數(shù)。

六、Guidance

1、Class Guidance

在Diffusion Model Beat GANs中，采用額外訓(xùn)練分類器的Classifier Guidance方式會增加復(fù)雜性和成本。這種方法有以下幾個主要問題：

- 需要增訓(xùn)一個分類器，使生成模型訓(xùn)練流程變得更復(fù)雜。

- 必須在噪聲數(shù)據(jù)上進行分類器的訓(xùn)練，無法使用已經(jīng)預(yù)訓(xùn)練好的分類器。

- 在采樣過程中，需要進行分?jǐn)?shù)估計值和分類器梯度的混合，虛假地提高了基于分類器的指標(biāo)，如FID和IS。

2、Class Free Guidance

Classifier Free Guidance的主要理念是不再采用圖像分類器的梯度方向進行采樣，而是同時訓(xùn)練有條件和無條件的擴散模型，并將他們的分?jǐn)?shù)估計混合。通過調(diào)整混合權(quán)重，實現(xiàn)Classifier Guidance類似的FID和IS平衡。

在生成過程中，模型同時使用有條件和無條件生成，并通過權(quán)重w來調(diào)節(jié)二者的影響：

- 如果w值較大，那么有條件生成的作用就更大，因此生成的圖像看起來更為逼真（IS分?jǐn)?shù)更高）。

- 如果w值較小，那么無條件生成的作用就更為明顯，從而生成的圖像具有更好的多樣性（FID分?jǐn)?shù)更低）。

七、VQ-VAE 不可導(dǎo)

1、梯度拷貝

VQ-VAE和VAE結(jié)構(gòu)相似，只是VQ-VAE在中間部分使用VQ（矢量量化）來學(xué)習(xí)碼本，而非學(xué)習(xí)概率分布。然而，在VQ中為獲取距離最小值，使用非微分的Argmin操作，就造成無法聯(lián)合訓(xùn)練解碼器和編碼器的問題。為解決這個問題，可以采取直接將量化后的表示梯度復(fù)制到量化前表示，使其可以持續(xù)進行微分。

2、Gumbel Softmax

Gumbel Softmax是一種將離散采樣問題轉(zhuǎn)化為可微分操作的技巧，廣泛應(yīng)用于深度學(xué)習(xí)中的生成模型，如VAE和GAN等。Gumbel Softmax運用Gumbel分布來模擬離散分布的采樣，具體來說，它生成一組噪聲樣本，然后用Softmax函數(shù)將這些樣本映射為類別分布。

表現(xiàn)在圖像中，一個圖像經(jīng)過編碼器編碼后會生成32x32個嵌入向量，與碼本（8192個）進行內(nèi)積，再經(jīng)過Softmax函數(shù)處理，就落實每個碼本向量的概率。

通過應(yīng)用Gumbel Softmax采樣，得到新的概率分布。再以此作為權(quán)重，累加對應(yīng)的碼本向量，獲得潛在向量。然后，解碼器基于潛在向量來重建輸出圖像。

上述過程中，使用Gumbel噪聲實現(xiàn)離散采樣，能夠近似選擇概率最大的類別，為處理離散采樣問題提供一種可微分的解決方案。其中，gi是從Gumbel(0, 1)分布中得到的噪聲，τ是溫度系數(shù)。τ小的時候，Softmax函數(shù)更接近ArgMax，而τ大時，更接近于均勻分布。

八、擴大分辨率

1、圖像超分

圖像超分是提高圖像分辨率的有效手段，被很多熱門的圖像生成模型，像Imagen、Parti、Stable Diffusion、DALL-E等所采用。就像圖Figure A.4所展示，Imagen使用兩個圖像超分模型，將分辨率從64x64提升到256x256，然后再進一步提升到1024x1024。

2、多級 Latent code

在VQ-VAE-2模型中，采用多級潛在編碼方案。以256x256的圖像為例，在訓(xùn)練階段，圖像首先被編碼壓縮到64x64大小的底層，然后進一步壓縮到32x32大小的頂層。重建階段，32x32的表征通過VQ量化轉(zhuǎn)換為潛在編碼，然后通過解碼器重建為64x64的壓縮圖像，再進一步通過VQ和解碼器重建為256x256大小的圖像。而在推理階段，首先使用PixelCNN生成頂層的離散潛在編碼，然后作為輸入條件生成更高分辨率的底層離散潛在編碼。

3、多級 Latent code + 圖像超分

在Muse模型中，直接預(yù)測512x512分辨率的圖像可能會過度關(guān)注低級細節(jié)，而采用級聯(lián)模型更有效。模型首先生成16x16的潛在地圖（對應(yīng)256x256分辨率的圖像），然后基于這個潛在地圖使用超分模型采樣到64x64的潛在地圖（對應(yīng)512x512分辨率的圖像）。

訓(xùn)練分為兩階段，首先訓(xùn)練Base模型生成16x16的潛在地圖；然后基于此訓(xùn)練超分模型，用于生成64x64的潛在地圖和最終的512x512圖像。

九、指令遵循

1、更大的 Text Encoder

在Imagen模型中，擴大語言模型的規(guī)模比增大圖像擴散模型的規(guī)模更能提高生成樣本的逼真度和圖像-文本的對齊效果。

2、多個 Text Encoder

在SDXL模型中，為增強文本編碼能力，采用兩個文本編碼器，具體來說，同時使用CLIP ViT-L和OpenCLIP ViT-bigG中的文本編碼器。

3、數(shù)據(jù)增強

OpenAI的新模型DALL-E 3是一款文本生成圖像模型，解決傳統(tǒng)模型不能精準(zhǔn)遵循圖像描述和忽視或混淆語義提示的問題。

十、效率優(yōu)化

1、滑動窗口 Attention

在VQ-GAN模型中，自回歸Transformer模型用于預(yù)測離散的latent code，然后通過解碼器使用latent code恢復(fù)圖像。通常離散latent code相比原始圖像有16x16或8x8的壓縮率。例如要生成一個分辨率為1024x1024的圖像，相應(yīng)的離散latent code為64x64。但是，由于Transformer模型的推理計算量與序列長度成二次方關(guān)系，計算量較大。具體來說，預(yù)測每個位置的code時只考慮局部code，而不是全局code，例如使用16x16的窗口，計算量將降低到原來的1/16。對于邊界區(qū)域，將窗口向圖像中心偏移，以保持窗口大小。

2、Sparse Transformer

在DALL-E中，采用參數(shù)量達到12B的Sparse Transformer，利用三種不同的注意力遮罩來加速推理過程。這些注意力遮罩保證所有的圖像令牌都可以觀察到所有的文本令牌，但只能觀察到部分圖像令牌。具體來說，行注意力用于(i-2)%4不等于0的層，如第2層和第6層，列注意力用于(i-2)%4等于0的層，如第1層和第3層，而卷積性注意力則僅在最后一層使用。

3、Efficient U-Net

在Imagen中，在兩個超分辨模型中使用高效的U-Net。具體調(diào)整包括：在低分辨率添加更多殘差塊，將高分辨率的模型參數(shù)轉(zhuǎn)移到低分辨率，從而增加模型容量，但無需更多計算和內(nèi)存；使用大量低分辨率殘差塊時，將Skip connection縮放到1/sqrt(2)，以提升收斂速度；將下采樣和上采樣塊的順序交換，以提高前向傳播速度，且不降低性能。同時，在256x256至1024x1024的超分模型中，刪除自注意力模塊，僅保留交叉注意力模塊。

4、并行解碼-推理效率

Google在圖像生成模型MaskGIT和Muse中采用并行解碼的策略，與VQGAN中使用的序列解碼方式不同，該并行解碼方案只需要8個解碼步驟就能生成16x16=256個圖像token，相比之下，VQGAN需要256次解碼才能生成同樣數(shù)量的token。

并行解碼過程主要包括四個步驟：

- Predict

給定一個遮罩的token序列（已確定的token未被遮罩，待生成的token被遮罩）的情況下，預(yù)測每個token位置可能的token概率。

- Sample

在每個遮罩的token位置執(zhí)行采樣，采樣后的概率直接作為token的置信度，而已生成的token的置信度則為1。

- Mask Schedule

根據(jù)遮罩調(diào)度函數(shù)、當(dāng)前步數(shù)、總步數(shù)以及總token數(shù)，計算當(dāng)前需要采納的token數(shù)。

- Mask

根據(jù)Sample步驟獲得的置信度以及Mask Schedule步驟得到的待采納的token數(shù)，對置信度進行排序，并采納置信度最高的token。

5、子圖訓(xùn)練-訓(xùn)練效率

當(dāng)前圖像生成模型處理的圖像越來越大，計算量因此呈指數(shù)級增長，同時需要在大型數(shù)據(jù)集上進行訓(xùn)練，進一步增大成本。因此一些優(yōu)化方案應(yīng)運而生。例如，在LDM中利用全卷積網(wǎng)絡(luò)支持可變分辨率的特性，選擇在較小分辨率上訓(xùn)練，但在推理時應(yīng)用在較大分辨率。此外，如Imagen和DALL-E 2等后續(xù)工作也采用相似策略，主要應(yīng)用在超分辨模型。以Imagen為例，在訓(xùn)練超分辨模型時，移除自注意力功能，僅在文本嵌入融合時使用交叉注意力；同時，從高分辨率圖像中裁剪出低分辨率的子圖進行訓(xùn)練，從而大大提高效率。

6、Denoising蒸餾-推理效率

由于擴散模型需要大量迭代來生成滿意結(jié)果，對資源消耗極大，因此有研究者試圖減少生成步驟以提高生成速度。例如，DPM Solver通過大幅降低迭代步數(shù)，實現(xiàn)4到16倍的加速。OpenAI的Consistency Models進一步將迭代步數(shù)降至1到4步，其后的LCM和LCM-LoRA（Latent Consistency Models）也沿用這一策略。在SDXL-Turbo中，將迭代步數(shù)進一步減至1到4步甚至只需要1步，也可以得到優(yōu)秀的生成結(jié)果。在與各種蒸餾方案的比較中，作者的方法在只需一步的情況下就能獲得最優(yōu)的FID和CLIP得分。

十一、局限性

1、場景內(nèi)文本

DALL-E 2的作者發(fā)現(xiàn)模型在圖像生成正確文本方面存在問題，可能是由于BPE文本編碼的問題。然而，Google的Parti和Imagen 2已經(jīng)比較有效地解決了這個問題。

2、細節(jié)、空間位置、屬性關(guān)聯(lián)

模型在處理物體的細節(jié)和空間關(guān)系時，往往出現(xiàn)錯誤且容易混淆不同物體。例如，處理手指細節(jié)時常有錯誤；在設(shè)計lion和giraffe在電視里的任務(wù)時，位置未能準(zhǔn)確控制；在請求將長凳設(shè)置為白色時，鋼琴也被誤設(shè)為白色；要求車門為白色時，錯誤地在引擎蓋等位置生成白色。

在DALL-E 2中，如圖Figure 15所示，模型可能會混淆不同物體的顏色，如在“創(chuàng)建一個紅色的方塊在藍色的方塊之上”的任務(wù)上，無法完成顏色屬性的準(zhǔn)確賦予。另外，模型可能在重建對象的相對大小關(guān)系上存在問題，這可能是由于使用CLIP模型的影響。

十二、其他

1、BSR 退化

許多模型在超分模型訓(xùn)練中采用BSR退化技術(shù)，如Stable Diffusion和DALL-E 2等模型。BSR退化流程包括JPEG壓縮噪聲、相機傳感器噪聲，下采樣的不同圖像插值方法，以及高斯模糊核和高斯噪聲，這些處理按隨即順序?qū)D像進行應(yīng)用。具體的退化方式和順序可以在提供的代碼鏈接中找到。

2、采樣+排序

模型在生成圖像的過程中都有一定隨機性，因此每次采樣生成的圖像可能不一樣，因此就有工作嘗試每次多生成幾個圖像，然后挑選和文本最匹配的輸出，比如 DALL-E mini，每次都生成多個圖像，然后通過 CLIP Score 獲得最匹配的一個。

在 DALL-E 2 中，為提升采樣階段的生成質(zhì)量，會同時生成兩個圖像 embedding zi，然后選擇一個與文本 embedding zt 內(nèi)積更大的（相似性更高）使用。

3、多分辨率訓(xùn)練

在SDXL中，對模型進行微調(diào)，以適應(yīng)不同的長寬比，應(yīng)對真實世界圖像的多樣性。首先將數(shù)據(jù)劃分為不同長寬比的桶，保證總像素接近1024x1024，同時高寬需是64的整數(shù)倍。在訓(xùn)練時，每次從相同類型的桶里選擇一個批次，并在不同的桶中輪流進行。還將桶的高度和寬度（h, w）作為條件，通過傅立葉編碼后，添加到時間步驟嵌入中。

藍海大腦集成StableDiffusion

PC集群解決方案

AIGC和ChatGPT4技術(shù)的爆燃和狂飆，讓文字生成、音頻生成、圖像生成、視頻生成、策略生成、GAMEAI、虛擬人等生成領(lǐng)域得到了極大的提升。不僅可以提高創(chuàng)作質(zhì)量，還能降低成本，增加效率。同時，對GPU和算力的需求也越來越高，因此GPU服務(wù)器廠商開始涌向該賽道，為這一領(lǐng)域提供更好的支持。在許多領(lǐng)域，如科學(xué)計算、金融分析、天氣預(yù)報、深度學(xué)習(xí)、高性能計算、大模型構(gòu)建等領(lǐng)域，需要大量的計算資源來支持。為了滿足這些需求，藍海大腦PC集群解決方案應(yīng)運而生。

PC集群是一種由多臺計算機組成的系統(tǒng)，這些計算機通過網(wǎng)絡(luò)連接在一起，共同完成計算任務(wù)。PC集群解決方案是指在PC集群上運行的軟件和硬件系統(tǒng)，用于管理和優(yōu)化計算資源，提高計算效率和可靠性。

藍海大腦PC集群解決方案提供高密度部署的服務(wù)器和PC節(jié)點，采用機架式設(shè)計，融合PC高主頻和高性價比以及服務(wù)器穩(wěn)定性的設(shè)計，實現(xiàn)遠程集中化部署和便捷運維管理。采用模塊化可插拔設(shè)計，簡化維護和升級的流程。有效降低網(wǎng)絡(luò)延遲，提高游戲的流暢性。GPU圖像渲染加速，減少畫面卡頓和延遲。同時動態(tài)調(diào)度算法，實現(xiàn)負載均衡；大幅降低運營成本。高品質(zhì)的游戲體驗增加用戶的粘度，大大提升游戲運營商收益。

同時，集成Stable Diffusion AI模型，可以輕松地安裝和使用，無需進行任何額外的配置或設(shè)置。與傳統(tǒng)的人工創(chuàng)作方式相比，Stable Diffusion Al模型可以更快地生成高品質(zhì)的創(chuàng)作內(nèi)容。通過集成這個模型，可以使創(chuàng)作者利用人工智能技術(shù)來優(yōu)化創(chuàng)作流程。另外，藍海大腦PC集群解決方案還具有開箱即用的特點，不僅易于安裝和使用，而且能夠快速適應(yīng)各種創(chuàng)作工作流程。這意味著用戶可以在短時間內(nèi)開始創(chuàng)作，并且在整個創(chuàng)作過程中得到更好的體驗。

一、客戶收益

Stable Diffusion技術(shù)對游戲產(chǎn)業(yè)帶來了極大的影響和改變。它提升了游戲圖像的質(zhì)量和真實感、增強了游戲體驗和沉浸感、優(yōu)化了游戲制作流程、擴展了游戲應(yīng)用領(lǐng)域，并推動了游戲產(chǎn)業(yè)的發(fā)展和創(chuàng)新。這些都表明，Stable Diffusion技術(shù)在游戲產(chǎn)業(yè)中的應(yīng)用前景十分廣闊，有助于進一步推動游戲行業(yè)的發(fā)展，提高用戶體驗和娛樂價值。

1、提升游戲圖像質(zhì)量和真實感

Stable Diffusion可以在保證渲染速度的前提下，提高游戲圖像的細節(jié)和真實感。傳統(tǒng)的光線追蹤方法需要檢查和模擬每條光線，這樣會消耗大量計算資源，并放緩渲染速度。而Stable Diffusion則利用深度學(xué)習(xí)技術(shù)對光線的擴散過程進行建模，使得處理數(shù)百萬條光線所需的計算時間更短，同時還能夠生成更為精準(zhǔn)的光線路徑。這意味著，Stable Diffusion可以讓計算機產(chǎn)生更加逼真的景觀、人物、物品等元素，在視覺效果上得到質(zhì)的飛躍。

2、增強游戲體驗和沉浸感

游戲是一個交互式體驗，它的目標(biāo)是盡可能地讓玩家沉浸到虛構(gòu)的世界中。Stable Diffusion可以使游戲環(huán)境變得更加真實，并增添一些更具有交互性和觀賞性的場景。例如，利用Stable Diffusion技術(shù)，游戲可以在水面上添加波紋、落葉，或者使搖曳的草叢更逼真。這些改善能夠讓玩家更好地感受游戲中所處的環(huán)境，增強沉浸感。

3、優(yōu)化游戲制作流程

Stable Diffusion的應(yīng)用可以提高游戲開發(fā)的效率和質(zhì)量，減少手動制作和修改的工作量。渲染過程的快速執(zhí)行還可以加速開發(fā)周期，甚至使一些在過去被看做是計算機圖形學(xué)難題的事情變得可能。例如，在模擬復(fù)雜的自然現(xiàn)象或在大范圍內(nèi)生成游戲元素時，使用Stable Diffusion可有效降低游戲開發(fā)的成本和時間，讓開發(fā)者有更多的精力關(guān)注其他方面的設(shè)計和創(chuàng)意。

4、擴展游戲的應(yīng)用領(lǐng)域

Stable Diffusion的應(yīng)用使得游戲在更多的領(lǐng)域得到應(yīng)用。例如，在心理治療、教育、文化傳播等領(lǐng)域中，人工智能游戲可以根據(jù)用戶的情緒和行為變化來調(diào)整游戲內(nèi)容和策略，為用戶提供更符合需求和娛樂性的游戲體驗。此外，利用Stable Diffusion技術(shù)，游戲可以生成不同類型的場景，包括虛擬現(xiàn)實和增強現(xiàn)實等體驗，開發(fā)出更豐富更多變的游戲內(nèi)容。

5、推動游戲產(chǎn)業(yè)的發(fā)展和創(chuàng)新

Stable Diffusion作為先進的計算機圖形學(xué)技術(shù)之一，進一步推動了游戲產(chǎn)業(yè)的發(fā)展和創(chuàng)新。利用人工智能技術(shù)渲染的游戲?qū)a(chǎn)生更高品質(zhì)、更廣泛的游戲類別，從而吸引更多領(lǐng)域的玩家參與，并且會推動相關(guān)行業(yè)的發(fā)展，如文化傳媒行業(yè)、數(shù)字娛樂業(yè)等。同時，穩(wěn)定性更好、性能更高的Stable Diffusion技術(shù)還具有在未來制造更復(fù)雜的虛擬世界的潛力，例如更多樣化、更逼真、更具交互性的虛擬現(xiàn)實環(huán)境和游戲。

二、PC集群解決方案的優(yōu)勢

1、高性能

PC集群解決方案可將多臺計算機的計算能力整合起來，形成一個高性能的計算系統(tǒng)?？芍С衷诙虝r間內(nèi)完成大量的計算任務(wù)，提高計算效率。

2、可擴展性

可以根據(jù)需要進行擴展，增加計算節(jié)點，提高計算能力。這種擴展可以是硬件的，也可以是軟件的，非常靈活。

3、可靠性

PC集群可以通過冗余設(shè)計和備份策略來提高系統(tǒng)的可靠性。當(dāng)某個節(jié)點出現(xiàn)故障時，其他節(jié)點可以接管其任務(wù)，保證計算任務(wù)的順利進行。

4、低成本

相比于傳統(tǒng)的超級計算機，PC集群的成本更低。這是因為PC集群采用的是普通的PC硬件，而不是專門的高性能計算硬件。

三、PC集群解決方案的應(yīng)用領(lǐng)域有哪些？

PC集群是指將多臺個人電腦連接在一起，通過網(wǎng)絡(luò)協(xié)同工作，實現(xiàn)高性能計算的一種方式。它的應(yīng)用領(lǐng)域非常廣泛，以下是一些常見的應(yīng)用領(lǐng)域：

1、科學(xué)計算

PC集群可以用于各種科學(xué)計算，如天文學(xué)、生物學(xué)、物理學(xué)、化學(xué)等領(lǐng)域的計算模擬和數(shù)據(jù)分析。

2、工程計算

PC集群可以用于工程領(lǐng)域的計算，如飛機設(shè)計、汽車設(shè)計、建筑結(jié)構(gòu)分析等。

3、金融計算

PC集群可以用于金融領(lǐng)域的計算，如股票交易、風(fēng)險評估、投資組合優(yōu)化等。

4、大數(shù)據(jù)處理

PC集群可以用于大數(shù)據(jù)處理，如數(shù)據(jù)挖掘、機器學(xué)習(xí)、人工智能等領(lǐng)域的數(shù)據(jù)處理和分析。

5、圖像處理

PC集群可以用于圖像處理，如視頻編碼、圖像識別、虛擬現(xiàn)實等領(lǐng)域的圖像處理和渲染。

四、常用配置推薦

1、處理器CPU：

i9-13900 24C/32T/2.00GHz/32MB/65W

i7-13700 16C/24T/2.10GHz/30MB/65W

i5 13400 10C/16T/1.80GHz/20MB/65W

i3 13100 4C/8T/3.40GHz/12MB/60W

G6900 2C/2T/3.40GHz/4MB/46W

G7400 2C/4T/3.70GHz/6MB/46W

i3 12100 4C/8T/3.30GHz/12MB/60W

i5 12400 6C/12T/2.50GHz/18MB/65W

i7 12700 12C/20T/2.10GHz/25MB/65W

i9 12900 16C/24T/2.40GHz/30MB/65W

2、顯卡GPU:

NVIDIA RTX GeForce 3070 8GB

NVIDIA RTX GeForce 3080 10GB

NVIDIA RTX GeForce 4070 12GB

NVIDIA RTX GeForce 4060Ti 8GB or 16GB

3、內(nèi)存：

32GB×2

4、系統(tǒng)盤：

M.2 500GB

5、數(shù)據(jù)盤：

500GB 7200K

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

芯片

芯片

+關(guān)注

關(guān)注
450

文章
49622

瀏覽量
417093
顯示器

顯示器

+關(guān)注

關(guān)注
21

文章
4862

瀏覽量
139348
CES

CES

+關(guān)注

關(guān)注
4

文章
1013

瀏覽量
70586
AI

AI

+關(guān)注

關(guān)注
87

文章
28862

瀏覽量
266183
英偉達

英偉達

+關(guān)注

關(guān)注
22

文章
3634

瀏覽量
89827

英碼科技精彩亮相火爆的IOTE 2023，多面賦能AIoT產(chǎn)業(yè)發(fā)展！

產(chǎn)品，包括覆蓋多層次算力的智能工作站（邊緣計算盒子）、AI加速卡等；同時向大家展示自研的AI技術(shù)服務(wù)——“深元”0代碼移植工具鏈和創(chuàng)新性的行業(yè)解決方案，

發(fā)表于 09-25 10:03

OpenAI推出兩套多模態(tài)人工智能系統(tǒng)模型

據(jù)外媒，知名機器學(xué)習(xí)公司OpenAI近日推出兩套多模態(tài)人工智能系統(tǒng)模型DALL-E和CLIP，DALL-E可以基于文本直接生成圖像，CLIP

發(fā)表于 01-07 11:13 ?4704次閱讀

AI新模型可將文本轉(zhuǎn)換為生動的圖像

如今人工智能越來越強大，比如可以實現(xiàn)生成音樂、改變圖片藝術(shù)風(fēng)格等等。最近，人工智能非營利組織OpenAI發(fā)布了一個名為DALL-E的神經(jīng)網(wǎng)絡(luò)，可以將文本轉(zhuǎn)換成與內(nèi)容相關(guān)的圖像。

發(fā)表于 01-07 16:37 ?1774次閱讀

給一個文本提示就能生成3D模型！

想要直接訓(xùn)練一個text-to-3D的模型非常困難，因為DALL-E 2等模型的訓(xùn)練需要吞噬數(shù)十億個圖像

發(fā)表于 10-19 14:51 ?943次閱讀

DALL-E 2的錯誤揭示出人工智能的局限性

OpenAI在論文預(yù)印本網(wǎng)站ArXiv上發(fā)布的一篇論文表明，DALL-E 2接受了從互聯(lián)網(wǎng)上截取的約6.5億個圖像-文本對的訓(xùn)練。通過這個龐大的數(shù)據(jù)集，它學(xué)習(xí)圖像與描述這些圖像的文字之

發(fā)表于 11-16 15:31 ?606次閱讀

DALL-E和生成式AI的未來

OpenAI 研究員、DALL-E 的發(fā)明者和 DALL-E 2 的聯(lián)合開發(fā)者 Aditya Ramesh 表示，自那以后，整個領(lǐng)域便取得了飛速的發(fā)展。鑒于過去一年生成式 AI 領(lǐng)域取

發(fā)表于 01-30 15:47 ?641次閱讀

AIGC能掀起人工智能的產(chǎn)業(yè)革命嗎？

那么，以DALL-E、ChatGPT等為代表的生成式大模型真能掀起人工智能的產(chǎn)業(yè)革命嗎？如果是歷經(jīng)了人工智能各流派興衰的

發(fā)表于 02-07 15:00 ?1212次閱讀

英偉達GTC：云服務(wù)新模型、Omniverse Audio2Face、專業(yè)設(shè)計卡等亮點迭出

、生命科學(xué)、物理學(xué)和可持續(xù)計算等都在應(yīng)用。 AI 新版本 Omniverse Audio2Face 應(yīng)用程序也已經(jīng)面世。特別要說一下的是NVIDIA 為全球企業(yè)帶來生成式 AI ，推

發(fā)表于 03-23 17:21 ?1805次閱讀

語音領(lǐng)域的GPT時刻：Meta 發(fā)布「突破性」生成式語音系統(tǒng)，一個通用模型解決多項任務(wù)

繼開源 LLaMA 之后，Meta 在生成式 AI 方向又公布一項重大研究。我們知道，GPT、DALL-E 等大規(guī)模生成

發(fā)表于 06-18 21:30 ?570次閱讀

伯克利AI實驗室開源圖像編輯模型InstructPix2Pix，簡化生成圖像編輯并提供一致結(jié)果

之前的 AI 圖像編輯能力通常是進行風(fēng)格轉(zhuǎn)換，流行的文本到圖像生成模型（如 DALL-E 和 S

發(fā)表于 08-28 15:45 ?729次閱讀

【AI簡報20230922期】華人AI芯片挑戰(zhàn)英偉達，深入淺出理解Transformer

，OpenAI 的文生圖 AI 工具 DALL-E 系列迎來了最新版本 DALL?E 3，而上個版本 D

發(fā)表于 09-23 12:15 ?787次閱讀

OpenAI發(fā)布第三版DALL-E

DALL-E于2021年1月首次發(fā)布，先于Stability AI和Midtravel的其他文本到圖像生成AI藝術(shù)平臺。到2022年

發(fā)表于 09-25 16:39 ?704次閱讀

【AI簡報20231020期】出自華人之手：DALL-E 3論文公布、上線ChatGPT！超火迷你GPT-4

3 相關(guān)論文后，一位網(wǎng)友感嘆說。DALL?E 3 是 OpenAI 在 2023 年 9 月份發(fā)布的一個文生圖模型。與上一代

發(fā)表于 10-21 16:35 ?893次閱讀

微軟封禁員工討論OpenAI DALL-E 3模型漏洞

瓊斯去年底在進行自主研究時，發(fā)現(xiàn)OpenAI的圖像生成模型DALL-E 3存在一個漏洞，漏洞利用者可以越過

發(fā)表于 02-02 14:38 ?440次閱讀

OpenAI發(fā)布圖像檢測分類器，可區(qū)分AI生成圖像與實拍照片

據(jù)OpenAI介紹，初步測試結(jié)果表明，該分類器在辨別非AI生成圖像與DALL·E 3

發(fā)表于 05-09 09:57 ?334次閱讀