0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

CES亮點:AI賦能與產(chǎn)業(yè)創(chuàng)新 | DALL-E 3、SD等20+圖像生成模型綜述

GPU視覺識別 ? 來源:GPU視覺識別 ? 作者:GPU視覺識別 ? 2024-01-25 10:07 ? 次閱讀

隨著科技飛速發(fā)展,CES(國際消費電子展)已然成為全球科技產(chǎn)業(yè)的風(fēng)向標(biāo),每年的CES大會都是業(yè)界矚目的盛事?;仡?024年CES大會,不難發(fā)現(xiàn)其亮點紛呈,其中以人工智能的深度賦能為最引人注目之處。AI技術(shù)的深入應(yīng)用成為CES大會上的一大亮點,各大廠商紛紛展示了在AI領(lǐng)域的最新成果。

關(guān)鍵詞:CES;AI;VR;消費電子;生成式AI;NVIDIA;Copilot;Rabbit R1;Vision Pro;Micro LED;GeForce RTX 40 SUPER

AI深度賦能

產(chǎn)業(yè)創(chuàng)新紛呈

各大芯片公司圍繞生成式AI展開激烈競爭。英偉達RTX 40 SUPER系列表現(xiàn)優(yōu)秀,不僅提高性能還節(jié)約成本;AMD銳龍8000G系列突出AI能力;英特爾已經(jīng)開始與OEM企業(yè)合作,率先構(gòu)建AI PC生態(tài)系統(tǒng)。這些的芯片制造商通過不懈努力,有望加速AI及AI PC在不同行業(yè)中的應(yīng)用,并推動AI技術(shù)為各行各業(yè)注入新活力。

圖片 1.png

一、英偉達

1、芯片

在本屆CES大會上,英偉達發(fā)布基于Ada Lovelace架構(gòu)的GeForce RTX 40 SUPER系列顯卡,型號涵蓋RTX 4080 SUPER、RTX 4070 Ti SUPER和 RTX 4070 SUPER三款產(chǎn)品(均可應(yīng)用于筆記本電腦)。RTX 4080 SUPER憑借AD103芯片和強大的CUDA核心數(shù),736 GB/s的內(nèi)存帶寬,可輕松應(yīng)對4K全景光線追蹤游戲。在游戲圖形高性能需求情況下,RTX 4080 SUPER速度是RTX 3080 Ti的1.4倍。此外,借助836 TOPSAI算力和DLSS幀生成功能,RTX 4080 SUPER的性能可達到RTX 3080 Ti的2倍。

圖片 2.png

英偉達 RTX 4080 SUPER 性能對比

英偉達RTX 4070 Ti SUPER在核心數(shù)量和顯存容量上優(yōu)于RTX 4070 Ti,顯存容量提升至16GB,顯存位寬為256 bit,帶寬增加至672 GB/s。相較于上代RTX 3070 Ti,其性能提升1.6倍,在開啟DLSS 3技術(shù)后,性能可提升至RTX 3070 Ti的2.5倍。

圖片1.png

英偉達 RTX 4070 Ti SUPER 性能對比

RTX 4070 SUPER的核心數(shù)量比RTX 4070高出20%,并且僅用RTX 3090部分功耗情況下,就已經(jīng)超越RTX 3090性能表現(xiàn)。當(dāng)使用DLSS 3時,其性能優(yōu)勢可擴大到1.5倍。

圖片 4.png

英偉達 RTX 4070 SUPER 性能對比

2、AI軟件服務(wù)

英偉達首次將AI應(yīng)用到游戲虛擬人物生成上,該服務(wù)包括NVIDIA Audio2 Face(A2F)和NVIDIA Riva 自動語音識別(ASR)。前者依據(jù)聲音來源制作富有表情的面部動畫,后者能為虛擬數(shù)字人物開發(fā)多語言語音和翻譯應(yīng)用。

圖片 5.png

3、智能駕駛領(lǐng)域

在CES2024展會上,梅賽德斯-奔馳發(fā)布一系列軟件驅(qū)動功能以及基于NVIDIA DRIVE Orin芯片的CLA級智能駕駛輔助系統(tǒng)。

英偉達近日宣布,理想汽車等一系列廠商選擇使用NVIDIA DRIVE Thor集中式車載計算平臺。此外,電動汽車制造商如長城汽車、極氪和小米汽車已決定在其新一代自動駕駛系統(tǒng)中采用NVIDIA DRIVE Orin平臺。

二、AMD

AMD引入基于Zen 3架構(gòu)的四款新品,包括銳龍7 5700X3D、銳龍7 5700、銳龍5 5600GT和銳龍5 5500GT:

- 銳龍7 5700X3D具有8核16線程設(shè)計,最大加速頻率為4.1GHz,并支持3D V-CACHE技術(shù),游戲性能十分突出;

- 銳龍7 5700是8核16線程,最大加速頻率4.6GHz,無核顯;

- 銳龍5 5600GT和銳龍5 5500GT都是6核12線程,最大加速頻率分別為4.6GHz和4.4GHz,并帶有Radeon核顯。

圖片 7.png

銳龍 7 5700X3D 游戲性能優(yōu)秀

AMD發(fā)布新顯卡Radeon RX 7600 XT,配備RDNA 3圖形核心和16GB內(nèi)存,專門優(yōu)化1080p高畫質(zhì)游戲,并可以處理一些1440p游戲。該顯卡支持HYPR-RX、Ray Tracing、AV1、FSR3等軟件,提供更順暢的游戲體驗。此外,16GB內(nèi)存使Radeon RX 7600 XT能夠支持AI大語言模型,顯著提高處理和創(chuàng)作速度。

圖片 8.png

Radeon RX 7600 XT 16GB 顯卡的游戲性能得到較大提升

三、英特爾

英特爾推出14代酷睿移動和臺式機處理器系列,包括升級版的HX系列移動處理器,以及適用于移動平臺的低壓酷睿移動處理器系列。14代酷睿HX系列提升游戲和多任務(wù)創(chuàng)作性能,支持最高192GB DDR5-5600內(nèi)存和Thunderbolt 5,并配備超頻功能以及增強的聯(lián)網(wǎng)能力??犷9-14900HX是14代移動處理器家族的頂級產(chǎn)品,擁有24核心32線程,最高頻率為5.8 GHz。

圖片 9.png

英特爾 14 代酷睿 HX 系列移動處理器

四、群聯(lián)

群聯(lián)電子推出全球首款7納米制程的PCIe 5.0 DRAM-Less 4CH client SSD控制芯片E31T,標(biāo)志著其在PC OEM和主流SSD市場開展業(yè)務(wù)。這顆新芯片在現(xiàn)有的3600MT/s NAND時代下,SSD效能可達到10.8GB/s,最高容量可達8TB。未來4800MT/s NAND發(fā)布后,其速度可能提升至14GB/s。此外,群聯(lián)還展示其他新產(chǎn)品,如PCIe 5.0 SSD PS5026-E26、PCIe 4.0 DRAM-Less SSD PS5027-E27T和USB 4.0 PS2251-21 (U21)。

CES 2024大會亮點

CES作為頗具影響力的科技展覽,展示芯片硬件到終端應(yīng)用的全方位科技成果,涉及AI、VR、消費電子、汽車電子智能家居等領(lǐng)域,標(biāo)志著未來科技的方向。

一、AI PC

AI PC作為本次盛會主角,集結(jié)全鏈條科技力量,包括芯片、系統(tǒng)和終端,預(yù)示著AI PC元年來臨。戴爾、惠普、華碩、三星知名廠商的AI PC產(chǎn)品勢如破竹,在硬件提升、AI助手整合和性能優(yōu)化方面展示出其領(lǐng)先地位。特別是大多數(shù)AI PC都增加AI專用啟動鍵。英偉達、AMD、英特爾等核心元件制造商的最新AI PC芯片部署,使整體計算能力有了顯著的提升。在CES 2024引領(lǐng)下,全球PC產(chǎn)業(yè)正在以更快的速度進入AI時代。

二、生成式AI與筆記本電腦完美結(jié)合:開啟智能辦公新時代

2023年,生成式AI成為科技領(lǐng)域的大熱話題。因此在CES展上,生成式AI大放光彩。

戴爾Windows 11筆記本將配備微軟自然語言AI助手,即通過Windows for Copilot按鈕實現(xiàn)更智能操作。NVIDIA首次推出Chat with RTX展示應(yīng)用程序,可以在Windows RTX個人電腦或工作站上搜索包括聊天、文檔和視頻在內(nèi)的各種內(nèi)容。

在零售商業(yè)領(lǐng)域,生成型AI也在2024年的CES展上大放異彩。如沃爾瑪首次亮相Shop With Friends社交商務(wù)平臺。大眾汽車正在嘗試將ChatGPT技術(shù)融入到汽車產(chǎn)品中。目前不能確定這些功能是否會像語言AI助手一樣受歡迎,從長遠角度來看,都是值得密切關(guān)注的重要發(fā)展趨勢。

三、生產(chǎn)力小工具強調(diào)速度和易用性

在2024年CES展覽會上Rabbit R1是另外一個令人矚目的焦點,這是一款基于生成式AI的手持設(shè)備。其可以改變?nèi)藗兣c應(yīng)用程序的互動方式,甚至可以取代智能手機。例如,通過用戶簡單口頭指令,Rabbit R1能完成如“預(yù)訂航班”等任務(wù)。

wKgZomWxwj2AMa4KAAAAK9URceg788.gif ?

此外,屏幕顯示技術(shù)也取得重大突破。如聯(lián)想ThinkVision 27 3D顯示器能快速將2D圖像轉(zhuǎn)換為3D內(nèi)容,滿足用戶多樣化的需求。

值得一提的是,Wi-Fi 7認證推出意味著更多設(shè)備將具備更高的數(shù)據(jù)處理能力,為虛擬現(xiàn)實等應(yīng)用領(lǐng)域帶來無限可能。在展會上,眾多制造商如TP-Link、UniFi、MSI和Acer都發(fā)布適配Wi-Fi 7的路由器產(chǎn)品。

四、多合一筆記本電腦為專業(yè)人士提供選擇

在CES 2024上,能夠輕松轉(zhuǎn)換為平板電腦的筆記本成為焦點,其中惠普Spectre x360和戴爾新款XPS系列備受矚目。華碩的Zenbook DUO(2024)UX8406更是獨樹一幟,憑借其獨特的雙屏設(shè)計和靈活的變形模式,為用戶提供豐富的功能。

wKgZomWxwj2AMa4KAAAAK9URceg788.gif

五、高通、汽車制造商和其他公司推廣虛擬現(xiàn)實和混合現(xiàn)實產(chǎn)品

預(yù)計一月底,三星將推出一款搭載高通驍龍XR2+ Gen 2芯片的虛擬混合現(xiàn)實耳機,與蘋果的Vision Pro展開競爭。在CES展覽會上,除三星和寶馬之外,混合現(xiàn)實和虛擬現(xiàn)實還在其他領(lǐng)域得到展示。

六、曲面透明的電視屏幕引人注目

在家庭辦公環(huán)境中,透明電視屏幕已從單純的電視設(shè)備轉(zhuǎn)變?yōu)榱钊梭@嘆的藝術(shù)品。三星透明Micro LED和LG Signature OLED T就是杰出代表。此外,許多大型曲面顯示器也在展現(xiàn)游戲市場的吸引力。不僅提升電視的觀感體驗,也進一步拓寬顯示技術(shù)的應(yīng)用領(lǐng)域。

wKgZomWxwj2AMa4KAAAAK9URceg788.gif ?

DALL-E、Stable Diffusion

等 20+ 圖像生成模型綜述

近兩年圖像生成模型如Stable Diffusion和DALL-E系列模型的不斷發(fā)展引起廣大關(guān)注。為深入理解 Stable Diffusion 和 DALL-E 3 等最新圖像生成模型,從頭開始探索這些模型的演變過程就顯得至關(guān)重要。下面主要通過任務(wù)場景、評估指標(biāo)、模型類型、效率優(yōu)化、局限性等11個方面為大家進行講解。

圖片 14.png

一、任務(wù)場景

1、無條件生成

無條件生成是一種生成模型不受任何額外條件影響,只根據(jù)訓(xùn)練數(shù)據(jù)分布生成圖像。其適用于不需要額外信息或上下文的場景,如根據(jù)隨機噪聲生成逼真的人臉圖像。舉列來說:CelebA-HQ和FFHQ是高質(zhì)量的人臉數(shù)據(jù)集,分別包含30,000和70,000張1024x1024分辨率的人臉圖像。而LSUN是一款場景類別數(shù)據(jù)集,包括臥室、廚房、教堂等類別,每個圖像的大小為256x256分辨率,每個類別包含12萬到300萬張圖像。這些都是常用的無條件評估任務(wù)。

2、有條件生成

有條件生成是一種生成模型,在形成圖像時會受到額外條件或上下文的影響,如類別標(biāo)簽、文本描述或特定屬性等。廣泛應(yīng)用于需要按特定條件生成結(jié)果的任務(wù)。如根據(jù)給定的文本描述生成相應(yīng)的圖像或在生成特定類別圖像時提供相應(yīng)類別標(biāo)簽。

1)類別條件生成

類別條件生成常用于圖像生成領(lǐng)域,ImageNet 是其常見的實例,主要用于圖像分類任務(wù),擁有1000個類別標(biāo)簽。在生成圖像時,可以指定對應(yīng)的類別標(biāo)簽,讓模型按照類別進行圖像生成。

2)文本條件生成

文本條件生成是目前最流行的圖像生成方法,其模型可根據(jù)輸入的自然語言描述來生成相應(yīng)的圖像。

圖片 17.png

3)位置條件

當(dāng)對圖像的物體布局或主體位置有特定需求時,可以結(jié)合使用類別條件和文本條件指導(dǎo)模型生成過程。

4)圖像擴充

圖像條件經(jīng)常被用于按需處理圖像,如圖像擴充(Outpainting)。

圖片 20.png

5)圖像內(nèi)編輯

圖像內(nèi)編輯(Inpainting)是另一個以圖像為條件的常見生成方式,結(jié)合文本輸入進行操作。

6)圖像內(nèi)文字生成

需要圖片中包含特定文本內(nèi)容,也可以條件形式輸入。

7)多種條件生成

有些場景會包含多種條件,如給定圖像、文本等,模型要綜合考量這些條件才能生成滿足要求的圖像。

三、評估指標(biāo)

1、IS

IS(Inception Score)一個評估生成圖像質(zhì)量和多樣性的標(biāo)準(zhǔn),主要考慮生成圖像的真實性與多樣性。其計算過程通過分類模型確定各類別的概率分布,再計算概率分布的KL散度,最后以指數(shù)平均值形式表達。

2、FID

FID(Frechet Inception Distance)即衡量生成圖片與真實圖片距離指標(biāo),其值越小代表越優(yōu)秀。計算方法包括提取真實圖像和生成圖像的特征向量,并計算二者的Frechet距離。在實踐中通常利用IS評估真實性,而FID則用來評估多樣性。

3、CLIP Score

OpenAI發(fā)布的CLIP模型包含圖像和文本編碼器,主要目的是實現(xiàn)圖文特征的匹配。其工作方式是分別提取文本和圖片的嵌入值計算相似性,距離大則說明相似性低,圖片和文本不相關(guān)。

4、DrawBench

在 Imagen 中,Google 提出 DrawBench,是一個全面且具有挑戰(zhàn)性的文本生成圖片模型評測基準(zhǔn)。

圖片 24.png

DrawBench 基準(zhǔn)包含 11 個類別的 200 個文本提示

針對各類別進行獨立人工評估,評估員對兩組模型A和B生成的圖像進行評分。每組有8個隨機生成結(jié)果。評分員需要回答:哪組圖像質(zhì)量更高,以及哪組圖像與文本描述更匹配。每個問題都有三個選項:更喜歡A,無法確定,更喜歡B。

四、常用模型

1、模型結(jié)構(gòu)

圖像生成任務(wù)通常由多個子模型組成,包括常見的 CNN、AutoEncoder、U-Net、Transformer等。其中,AutoEncoder 和 U-Net等模型相似,都是各種模型的主要組成部分。主要的差別在于AutoEncoder由編碼器和解碼器組成,可以單獨使用,編碼器壓縮輸入,比如把圖像映射到隱空間,解碼器用編碼重構(gòu)輸入,即從隱空間恢復(fù)圖像。而U-Net模型在編碼器和解碼器之間添加Skip Connection,使得解碼器不僅依賴隱空間編碼,還依賴輸入,因此不能單獨使用。

圖片 26.png

2、預(yù)訓(xùn)練模型

1)CLIP 模型

OpenAI的CLIP是一個強大的圖文對齊模型,利用對比學(xué)習(xí)在海量圖文數(shù)據(jù)對(4億)上進行預(yù)訓(xùn)練。在訓(xùn)練過程中,將配對的圖文特征視為正面,將圖片特征與其他文本特征視為負面。由于其強大的表征能力,CLIP的文本和圖像編碼器常常被其他模型用于圖像或文本編碼。

圖片 27.png

2)CoCa 模型

CoCa模型在CLIP模型基礎(chǔ)上,增加多模態(tài)文本解碼器。訓(xùn)練過程中,除使用原來CLIP模型對比損失,增加描述損失。

圖片 28.png

五、模型類型

1、VAE 系列

VAE系列模型發(fā)展從最初自編碼器(AE)發(fā)展到變分自編碼器(VAE),然后出現(xiàn)向量量化VAE(VQ-VAE)、VQ-VAE-2以及VQ-GAN、ViT-VQGAN和MaskGIT等。但這些通常只用于無條件生成或簡單類別和圖像條件,對文本輸入支持能力不足。

圖片 29.png

1)AE

自編碼器(AE)是一種人工神經(jīng)網(wǎng)絡(luò)技術(shù),用于實現(xiàn)無標(biāo)簽數(shù)據(jù)的有效編碼學(xué)習(xí)。該過程涉及將高維度數(shù)據(jù)做低維度表示,進而實現(xiàn)數(shù)據(jù)壓縮,因此主要應(yīng)用于降維任務(wù)。AE主要由兩部分組成:編碼器(負責(zé)將輸入數(shù)據(jù)編碼,即壓縮)和解碼器(負責(zé)使用這些編碼重構(gòu)輸入,即解壓)。

圖片 30.png

2)VAE

變分自編碼器(VAE)在自編碼器(AE)的基礎(chǔ)上,引入概率生成模型思想,通過設(shè)置隱空間概率分布,生成多樣樣本,同時更好地理解數(shù)據(jù)的分布性質(zhì)。

圖片 31.png

3)VQ-VAE

向量量化變分自編碼器(VQ-VAE)在變分自編碼器(VAE)基礎(chǔ)上加入離散、可度量的隱空間表示形式,有利于模型理解數(shù)據(jù)中的離散結(jié)構(gòu)和語義信息,同時可以避免過擬合。VQ-VAE與VAE的工作原理相通,只是在中間步驟中,沒有學(xué)習(xí)概率分布,而是利用向量量化(VQ)學(xué)習(xí)代碼書(Codebook)。

圖片 32.png

4)VQ-GAN

向量量化生成對抗網(wǎng)絡(luò)(VQ-GAN)的主要改進是使用生成對抗網(wǎng)絡(luò)(GAN)策略,將變分自編碼器(VAE)作為生成器,并配合一個判別器對生成圖像進行質(zhì)量評估。該模型引入感知重建損失方案,不僅關(guān)注像素差異,同時也關(guān)注特征圖差異,以此來生成更高保真度的圖片,從而使學(xué)習(xí)的代碼書更加豐富。

圖片 33.png

5)ViT-VQGAN

圖像轉(zhuǎn)換器 VQ-GAN (ViT-VQGAN)的模型結(jié)構(gòu)保持VQGAN的基礎(chǔ)結(jié)構(gòu),關(guān)鍵差異在于將編解碼器的CNN框架切換為ViT模型。首先,編碼器對每8x8像素塊進行獨立編碼,從而產(chǎn)生1024個 token 序列。再者通過量化過程,這1024個token序列被映射到大小為8192的codebook空間。然后,解碼器從1024個離散的潛在編碼中復(fù)原原始圖像。最后,自回歸轉(zhuǎn)換器被應(yīng)用于生成離散潛在編碼。訓(xùn)練期間,可以直接使用由編碼器生成的離線潛在編碼作為目標(biāo),計算交叉熵損失。

圖片 34.png

6)Parti

相較于VQ-GAN或ViT-VQGAN僅使用解碼器(Decoder Only)形式的Transformer來生成離散的潛在編碼,Parti的作者采取編碼器+解碼器(Encoder + Decoder)的模式。這樣做的好處就在于可以使用編碼器對文本進行編碼,生成文本嵌入(Text Embedding),再將這個文本嵌入作為條件引入解碼器中,通過交叉注意力機制(Cross Attention)與視覺Token產(chǎn)生交互。

圖片 35.png

7)MaskGIT

MaskGIT模型采用VQGAN范式,但在實現(xiàn)上有所不同。VQGAN中的Transformer通過序列生成方式預(yù)測圖像Token,一次只預(yù)測一個,效率不高。相比之下,MaskGIT采用蒙面視覺Token建模法(Masked Visual Token Modeling)進行訓(xùn)練,這種方法使用類似BERT的雙向Transformer模型,訓(xùn)練時會隨機遮擋部分圖像Token,目標(biāo)就是預(yù)測這些被遮擋的Token。

圖片 36.png

8)DALL-E

DALL-E訓(xùn)練過程和VQ-GAN相似,但DALL-E并未使用VQ-VAE,而是選擇Discrete VAE(dVAE),其的總體概念相似。dVAE的主要不同之處在于引入Gumbel Softmax進行訓(xùn)練,有效避免VQ-VAE訓(xùn)練中由于ArgMin操作不能求導(dǎo)而產(chǎn)生的問題。

圖片 37.png

9)DALL-E mini

DALL-E mini是社區(qū)對DALL-E的開源復(fù)現(xiàn)。其使用VQ-GAN替代dVAE,用具有編碼器和解碼器的BART替代DALL-E中僅解碼器的Transformer。此外,會用VQ-GAN的解碼器生成多張候選圖像,利用CLIP提取這些圖像和文本嵌入,進行比較排序,以挑選出最匹配的生成結(jié)果。

圖片 38.png

10)VQGAN-CLIP

VQGAN-CLIP的實現(xiàn)思路直接明了,通過VQ-GAN將初始圖像轉(zhuǎn)化成一幅新圖像,然后使用CLIP對這個生成圖像以及目標(biāo)文本提取embedding,計算它們之間的相似性,并將誤差反饋到隱空間的Z-vector上進行迭代更新。

圖片 39.png

2、Diffusion 系列

Diffusion模型雖在2015年首次被提出,但因效果不佳未受到廣泛關(guān)注。直到2020年06月OpenAI發(fā)布DDPM后,該模型才逐漸為人所知。Diffusion模型的發(fā)展路徑主要包括OpenAI系列模型,Stable Diffusion系列模型,以及Google的Imagen和Imagen 2。

圖片 40.png

1)DDPM

在擴散模型中存在兩個關(guān)鍵步驟:前向過程(或稱為擴散過程)以及逆向過程。簡單來說前向過程的要點在于不斷向圖片添加高斯噪聲,而逆向過程的主旨則在于通過逐步去除高斯噪聲以重建圖像。

圖片 41.png

2)Diffusion Model Beat GANs

主要有兩個亮點:首先對無條件圖像生成中不同模型結(jié)構(gòu)對生成效果的影響進行大量的消融實驗驗證。其次引入分類器引導(dǎo)以提升生成質(zhì)量。

模型結(jié)構(gòu)主要變動包括在保持模型大小不變的前提下增加深度、減小寬度,以及增加Attention頭的數(shù)量,并擴大Attention的應(yīng)用范圍至16x16、32x32和8x8的分辨率上。結(jié)果表明,更多和更廣泛的Attention應(yīng)用范圍以及采用BigGAN的residual block都可以幫助提升模型表現(xiàn)。這些工作不僅創(chuàng)建了一種新的模型--ADM(Ablate Diffusion Model), 為OpenAI后續(xù)的生成模型打下堅實基礎(chǔ),同時也為Stable Diffusion的模型開發(fā)提供參考。

圖片 42.png

3)GLIDE

在GLIDE模型中,將Diffusion模型應(yīng)用于文本條件圖像生成,主要包含兩個子模型:

- 文本條件的擴散模型

由一個文本編碼的變壓器(1.2B,24個殘差塊,寬度2048)以及一個在Diffusion Model Beat GANs中的ADM(Ablated Diffusion Model)的擴散模型組成,后者的分辨率為64x64,參數(shù)為2.3B,寬度擴展至512通道,并在該基礎(chǔ)上擴展文本條件信息。

- 文本條件+上采樣模型

包括類似于前述文本變壓器模型,但是寬度減少到1024,還有一種同樣源自ADM-U的上采樣模型,分辨率從64x64擴展到256x256,通道數(shù)從192擴展到384。

4)DALL-E 2

GLIDE模型對文本引導(dǎo)圖像生成進行全新的嘗試,并取得優(yōu)秀成果。在這項工作中,利用強大的CLIP模型,構(gòu)建一個兩階段圖像生成模型,該模型主要由四個部分構(gòu)成。

- 一個對應(yīng)CLIP模型的圖像編碼器,其生成的圖像嵌入在訓(xùn)練階段被用做prior目標(biāo),要求prior生成嵌入盡可能與其相似。

- 一個在訓(xùn)練和生成階段對文本編碼的文本編碼器,生成的嵌入作為prior的輸入。

- prior根據(jù)這個嵌入生成圖像嵌入。

- 根據(jù)圖像嵌入生成最終圖像解碼器,其可以選擇是否考慮文本條件。

在訓(xùn)練階段,圖像編碼器和文本編碼器保持不變,而在生成階段則不再需要圖像編碼器。

圖片 43.png

5)DALL-E 3

OpenAI的DALL-E 3是一款先進的文生圖模型,針對傳統(tǒng)模型在遵循詳細圖像描述方面的不足進行優(yōu)化。由于傳統(tǒng)模型常常會忽略或混淆語義提示,為解決該問題,需要先訓(xùn)練一個圖像描述器,并生成一組高度描述性的圖像描述,用于訓(xùn)練文生圖模型,從而顯著提高模型的指令跟隨能力。

DALL-E 3的圖像解碼器借鑒穩(wěn)定擴散的實現(xiàn),采用一個三階段的隱擴散模型。其VAE和穩(wěn)定擴散相同,都采用8倍的下采樣,訓(xùn)練的圖像分辨率為256x256,并生成32x32的隱向量。為處理時間步長條件,模型采用GroupNorm并學(xué)規(guī)模和偏差。對文本條件的處理,則是使用T5 XXL作為文本編碼器,然后將輸出的embedding和xfnet進行交叉注意。

圖片 45.png

6)Stable Diffusion(LDM)

LDM模型與其他擴散生成模型類似,主要由三個部分組成:

-自動編碼器

包括編碼器和解碼器兩部分。編碼器主要用于生成目標(biāo)z,而解碼器則用于從潛在編碼中恢復(fù)圖像。

-調(diào)節(jié)部分

用于對各種條件信息進行編碼,其生成的嵌入將在擴散模型U-Net中使用。不同的條件需利用不同的編碼器模型以及使用方法。

-去噪U-Net

該部分主要用于從隨機噪聲zT生成潛在編碼,然后利用解碼器恢復(fù)圖像。各種條件信息會通過交叉注意機制進行融合。

圖片 46.png

7)SDXL

SDXL模型針對SD模型作出一些關(guān)鍵的改進(總參數(shù)量為26億,其中文本編碼器有8.17億的參數(shù)):

- 增加一個Refiner模型,用于進一步精細化圖像。

- 使用兩個文本編碼器,即CLIP ViT-L和OpenCLIP ViT-bigG。

- 基于OpenCLIP的文本嵌入中添加一個匯集文本嵌入。

圖片 47.png

8)SDXL-Turbo

SDXL-Turbo模型的主要改進在于引入蒸餾技術(shù)減少生成步數(shù)并提升生成速度。其主要流程包括:

- 從Tstudent模型中選擇步長s進行前向擴散,生成加噪圖像。

- 使用學(xué)生模型對加噪圖像進行去噪,得到去噪后的圖像。

- 基于原始圖像和去噪后的圖像計算對抗損失。

- 從Tteacher模型中選擇步長t對去噪后的圖像進行前向擴散,生成新圖像。

- 使用教師模型對新生成的圖像進行去噪,得到新的去噪圖像。

- 基于學(xué)生模型和教師模型的去噪圖像計算蒸餾損失。

- 根據(jù)損失進行反向傳播,注意教師模型不會進行更新。

圖片 48.png

9)Imagen

Google推出的Imagen模型是一個復(fù)雜且強大的基于擴散模型的文生圖模型,能生成極其逼真的圖像并深度理解語言。該模型主要由四個部分組成:

- Frozen Text Encoder

將文本進行編碼得到嵌入,經(jīng)過比較后,選擇T5-XXL模型。

- Text-to-Image Diffusion Model

該模塊使用U-Net結(jié)構(gòu)的擴散模型,把步數(shù)t和前一步的文本嵌入作為條件,總共有20億參數(shù)。

- 第一Super-Resolution Diffusion Model

采用優(yōu)化過的高效U-Net,把64x64的圖像超分為256x256的圖像,用文本嵌入作為條件,總共有6億參數(shù)。

- 第二Super-Resolution Diffusion Model

利用優(yōu)化過的高效U-Net,將256x256的圖像超分為1024x1024的圖像,以文本嵌入作為條件,總共有4億參數(shù)。

圖片 49.png

六、Guidance

1、Class Guidance

在Diffusion Model Beat GANs中,采用額外訓(xùn)練分類器的Classifier Guidance方式會增加復(fù)雜性和成本。這種方法有以下幾個主要問題:

- 需要增訓(xùn)一個分類器,使生成模型訓(xùn)練流程變得更復(fù)雜。

- 必須在噪聲數(shù)據(jù)上進行分類器的訓(xùn)練,無法使用已經(jīng)預(yù)訓(xùn)練好的分類器。

- 在采樣過程中,需要進行分?jǐn)?shù)估計值和分類器梯度的混合,虛假地提高了基于分類器的指標(biāo),如FID和IS。

2、Class Free Guidance

Classifier Free Guidance的主要理念是不再采用圖像分類器的梯度方向進行采樣,而是同時訓(xùn)練有條件和無條件的擴散模型,并將他們的分?jǐn)?shù)估計混合。通過調(diào)整混合權(quán)重,實現(xiàn)Classifier Guidance類似的FID和IS平衡。

圖片 49.png

在生成過程中,模型同時使用有條件和無條件生成,并通過權(quán)重w來調(diào)節(jié)二者的影響:

- 如果w值較大,那么有條件生成的作用就更大,因此生成的圖像看起來更為逼真(IS分?jǐn)?shù)更高)。

- 如果w值較小,那么無條件生成的作用就更為明顯,從而生成的圖像具有更好的多樣性(FID分?jǐn)?shù)更低)。

圖片 51.png

七、VQ-VAE 不可導(dǎo)

1、梯度拷貝

VQ-VAE和VAE結(jié)構(gòu)相似,只是VQ-VAE在中間部分使用VQ(矢量量化)來學(xué)習(xí)碼本,而非學(xué)習(xí)概率分布。然而,在VQ中為獲取距離最小值,使用非微分的Argmin操作,就造成無法聯(lián)合訓(xùn)練解碼器和編碼器的問題。為解決這個問題,可以采取直接將量化后的表示梯度復(fù)制到量化前表示,使其可以持續(xù)進行微分。

圖片 53.png

2、Gumbel Softmax

Gumbel Softmax是一種將離散采樣問題轉(zhuǎn)化為可微分操作的技巧,廣泛應(yīng)用于深度學(xué)習(xí)中的生成模型,如VAE和GAN等。Gumbel Softmax運用Gumbel分布來模擬離散分布的采樣,具體來說,它生成一組噪聲樣本,然后用Softmax函數(shù)將這些樣本映射為類別分布。

表現(xiàn)在圖像中,一個圖像經(jīng)過編碼器編碼后會生成32x32個嵌入向量,與碼本(8192個)進行內(nèi)積,再經(jīng)過Softmax函數(shù)處理,就落實每個碼本向量的概率。

圖片 54.png

通過應(yīng)用Gumbel Softmax采樣,得到新的概率分布。再以此作為權(quán)重,累加對應(yīng)的碼本向量,獲得潛在向量。然后,解碼器基于潛在向量來重建輸出圖像。

圖片 55.png

上述過程中,使用Gumbel噪聲實現(xiàn)離散采樣,能夠近似選擇概率最大的類別,為處理離散采樣問題提供一種可微分的解決方案。其中,gi是從Gumbel(0, 1)分布中得到的噪聲,τ是溫度系數(shù)。τ小的時候,Softmax函數(shù)更接近ArgMax,而τ大時,更接近于均勻分布。

圖片 56.png

八、擴大分辨率

1、圖像超分

圖像超分是提高圖像分辨率的有效手段,被很多熱門的圖像生成模型,像Imagen、Parti、Stable Diffusion、DALL-E等所采用。就像圖Figure A.4所展示,Imagen使用兩個圖像超分模型,將分辨率從64x64提升到256x256,然后再進一步提升到1024x1024。

圖片 57.png

2、多級 Latent code

在VQ-VAE-2模型中,采用多級潛在編碼方案。以256x256的圖像為例,在訓(xùn)練階段,圖像首先被編碼壓縮到64x64大小的底層,然后進一步壓縮到32x32大小的頂層。重建階段,32x32的表征通過VQ量化轉(zhuǎn)換為潛在編碼,然后通過解碼器重建為64x64的壓縮圖像,再進一步通過VQ和解碼器重建為256x256大小的圖像。而在推理階段,首先使用PixelCNN生成頂層的離散潛在編碼,然后作為輸入條件生成更高分辨率的底層離散潛在編碼。

圖片 58.png

3、多級 Latent code + 圖像超分

在Muse模型中,直接預(yù)測512x512分辨率的圖像可能會過度關(guān)注低級細節(jié),而采用級聯(lián)模型更有效。模型首先生成16x16的潛在地圖(對應(yīng)256x256分辨率的圖像),然后基于這個潛在地圖使用超分模型采樣到64x64的潛在地圖(對應(yīng)512x512分辨率的圖像)。


訓(xùn)練分為兩階段,首先訓(xùn)練Base模型生成16x16的潛在地圖;然后基于此訓(xùn)練超分模型,用于生成64x64的潛在地圖和最終的512x512圖像。

圖片 59.png

九、指令遵循

1、更大的 Text Encoder

在Imagen模型中,擴大語言模型的規(guī)模比增大圖像擴散模型的規(guī)模更能提高生成樣本的逼真度和圖像-文本的對齊效果。

圖片 60.png

2、多個 Text Encoder

在SDXL模型中,為增強文本編碼能力,采用兩個文本編碼器,具體來說,同時使用CLIP ViT-L和OpenCLIP ViT-bigG中的文本編碼器。

圖片 61.png

3、數(shù)據(jù)增強

OpenAI的新模型DALL-E 3是一款文本生成圖像模型,解決傳統(tǒng)模型不能精準(zhǔn)遵循圖像描述和忽視或混淆語義提示的問題。

圖片 62.png

十、效率優(yōu)化

1、滑動窗口 Attention

在VQ-GAN模型中,自回歸Transformer模型用于預(yù)測離散的latent code,然后通過解碼器使用latent code恢復(fù)圖像。通常離散latent code相比原始圖像有16x16或8x8的壓縮率。例如要生成一個分辨率為1024x1024的圖像,相應(yīng)的離散latent code為64x64。但是,由于Transformer模型的推理計算量與序列長度成二次方關(guān)系,計算量較大。具體來說,預(yù)測每個位置的code時只考慮局部code,而不是全局code,例如使用16x16的窗口,計算量將降低到原來的1/16。對于邊界區(qū)域,將窗口向圖像中心偏移,以保持窗口大小。

圖片 63.png

2、Sparse Transformer

在DALL-E中,采用參數(shù)量達到12B的Sparse Transformer,利用三種不同的注意力遮罩來加速推理過程。這些注意力遮罩保證所有的圖像令牌都可以觀察到所有的文本令牌,但只能觀察到部分圖像令牌。具體來說,行注意力用于(i-2)%4不等于0的層,如第2層和第6層,列注意力用于(i-2)%4等于0的層,如第1層和第3層,而卷積性注意力則僅在最后一層使用。

圖片 64.png

3、Efficient U-Net

在Imagen中,在兩個超分辨模型中使用高效的U-Net。具體調(diào)整包括:在低分辨率添加更多殘差塊,將高分辨率的模型參數(shù)轉(zhuǎn)移到低分辨率,從而增加模型容量,但無需更多計算和內(nèi)存;使用大量低分辨率殘差塊時,將Skip connection縮放到1/sqrt(2),以提升收斂速度;將下采樣和上采樣塊的順序交換,以提高前向傳播速度,且不降低性能。同時,在256x256至1024x1024的超分模型中,刪除自注意力模塊,僅保留交叉注意力模塊。

圖片 65.png

4、并行解碼-推理效率

Google在圖像生成模型MaskGIT和Muse中采用并行解碼的策略,與VQGAN中使用的序列解碼方式不同,該并行解碼方案只需要8個解碼步驟就能生成16x16=256個圖像token,相比之下,VQGAN需要256次解碼才能生成同樣數(shù)量的token。

圖片 66.png

并行解碼過程主要包括四個步驟:

- Predict

給定一個遮罩的token序列(已確定的token未被遮罩,待生成的token被遮罩)的情況下,預(yù)測每個token位置可能的token概率。

- Sample

在每個遮罩的token位置執(zhí)行采樣,采樣后的概率直接作為token的置信度,而已生成的token的置信度則為1。

- Mask Schedule

根據(jù)遮罩調(diào)度函數(shù)、當(dāng)前步數(shù)、總步數(shù)以及總token數(shù),計算當(dāng)前需要采納的token數(shù)。

- Mask

根據(jù)Sample步驟獲得的置信度以及Mask Schedule步驟得到的待采納的token數(shù),對置信度進行排序,并采納置信度最高的token。

5、子圖訓(xùn)練-訓(xùn)練效率

當(dāng)前圖像生成模型處理的圖像越來越大,計算量因此呈指數(shù)級增長,同時需要在大型數(shù)據(jù)集上進行訓(xùn)練,進一步增大成本。因此一些優(yōu)化方案應(yīng)運而生。例如,在LDM中利用全卷積網(wǎng)絡(luò)支持可變分辨率的特性,選擇在較小分辨率上訓(xùn)練,但在推理時應(yīng)用在較大分辨率。此外,如Imagen和DALL-E 2等后續(xù)工作也采用相似策略,主要應(yīng)用在超分辨模型。以Imagen為例,在訓(xùn)練超分辨模型時,移除自注意力功能,僅在文本嵌入融合時使用交叉注意力;同時,從高分辨率圖像中裁剪出低分辨率的子圖進行訓(xùn)練,從而大大提高效率。

6、Denoising蒸餾-推理效率

由于擴散模型需要大量迭代來生成滿意結(jié)果,對資源消耗極大,因此有研究者試圖減少生成步驟以提高生成速度。例如,DPM Solver通過大幅降低迭代步數(shù),實現(xiàn)4到16倍的加速。OpenAI的Consistency Models進一步將迭代步數(shù)降至1到4步,其后的LCM和LCM-LoRA(Latent Consistency Models)也沿用這一策略。在SDXL-Turbo中,將迭代步數(shù)進一步減至1到4步甚至只需要1步,也可以得到優(yōu)秀的生成結(jié)果。在與各種蒸餾方案的比較中,作者的方法在只需一步的情況下就能獲得最優(yōu)的FID和CLIP得分。

圖片 67.png

十一、局限性

1、場景內(nèi)文本

DALL-E 2的作者發(fā)現(xiàn)模型在圖像生成正確文本方面存在問題,可能是由于BPE文本編碼的問題。然而,Google的Parti和Imagen 2已經(jīng)比較有效地解決了這個問題。

2、細節(jié)、空間位置、屬性關(guān)聯(lián)

模型在處理物體的細節(jié)和空間關(guān)系時,往往出現(xiàn)錯誤且容易混淆不同物體。例如,處理手指細節(jié)時常有錯誤;在設(shè)計lion和giraffe在電視里的任務(wù)時,位置未能準(zhǔn)確控制;在請求將長凳設(shè)置為白色時,鋼琴也被誤設(shè)為白色;要求車門為白色時,錯誤地在引擎蓋等位置生成白色。

在DALL-E 2中,如圖Figure 15所示,模型可能會混淆不同物體的顏色,如在“創(chuàng)建一個紅色的方塊在藍色的方塊之上”的任務(wù)上,無法完成顏色屬性的準(zhǔn)確賦予。另外,模型可能在重建對象的相對大小關(guān)系上存在問題,這可能是由于使用CLIP模型的影響。

十二、其他

1、BSR 退化

許多模型在超分模型訓(xùn)練中采用BSR退化技術(shù),如Stable Diffusion和DALL-E 2等模型。BSR退化流程包括JPEG壓縮噪聲、相機傳感器噪聲,下采樣的不同圖像插值方法,以及高斯模糊核和高斯噪聲,這些處理按隨即順序?qū)D像進行應(yīng)用。具體的退化方式和順序可以在提供的代碼鏈接中找到。

圖片 71.png

2、采樣+排序

模型在生成圖像的過程中都有一定隨機性,因此每次采樣生成的圖像可能不一樣,因此就有工作嘗試每次多生成幾個圖像,然后挑選和文本最匹配的輸出,比如 DALL-E mini,每次都生成多個圖像,然后通過 CLIP Score 獲得最匹配的一個。

圖片 72.png

在 DALL-E 2 中,為提升采樣階段的生成質(zhì)量,會同時生成兩個圖像 embedding zi,然后選擇一個與文本 embedding zt 內(nèi)積更大的(相似性更高)使用。

3、多分辨率訓(xùn)練

在SDXL中,對模型進行微調(diào),以適應(yīng)不同的長寬比,應(yīng)對真實世界圖像的多樣性。首先將數(shù)據(jù)劃分為不同長寬比的桶,保證總像素接近1024x1024,同時高寬需是64的整數(shù)倍。在訓(xùn)練時,每次從相同類型的桶里選擇一個批次,并在不同的桶中輪流進行。還將桶的高度和寬度(h, w)作為條件,通過傅立葉編碼后,添加到時間步驟嵌入中。

圖片 73.png

藍海大腦集成StableDiffusion

PC集群解決方案

AIGC和ChatGPT4技術(shù)的爆燃和狂飆,讓文字生成、音頻生成、圖像生成、視頻生成、策略生成、GAMEAI、虛擬人等生成領(lǐng)域得到了極大的提升。不僅可以提高創(chuàng)作質(zhì)量,還能降低成本,增加效率。同時,對GPU和算力的需求也越來越高,因此GPU服務(wù)器廠商開始涌向該賽道,為這一領(lǐng)域提供更好的支持。在許多領(lǐng)域,如科學(xué)計算、金融分析、天氣預(yù)報、深度學(xué)習(xí)、高性能計算、大模型構(gòu)建等領(lǐng)域,需要大量的計算資源來支持。為了滿足這些需求,藍海大腦PC集群解決方案應(yīng)運而生。

PC集群是一種由多臺計算機組成的系統(tǒng),這些計算機通過網(wǎng)絡(luò)連接在一起,共同完成計算任務(wù)。PC集群解決方案是指在PC集群上運行的軟件和硬件系統(tǒng),用于管理和優(yōu)化計算資源,提高計算效率和可靠性。

藍海大腦PC集群解決方案提供高密度部署的服務(wù)器和PC節(jié)點,采用機架式設(shè)計,融合PC高主頻和高性價比以及服務(wù)器穩(wěn)定性的設(shè)計,實現(xiàn)遠程集中化部署和便捷運維管理。采用模塊化可插拔設(shè)計,簡化維護和升級的流程。有效降低網(wǎng)絡(luò)延遲,提高游戲的流暢性。GPU圖像渲染加速,減少畫面卡頓和延遲。同時動態(tài)調(diào)度算法,實現(xiàn)負載均衡;大幅降低運營成本。高品質(zhì)的游戲體驗增加用戶的粘度,大大提升游戲運營商收益。

同時,集成Stable Diffusion AI模型,可以輕松地安裝和使用,無需進行任何額外的配置或設(shè)置。與傳統(tǒng)的人工創(chuàng)作方式相比,Stable Diffusion Al模型可以更快地生成高品質(zhì)的創(chuàng)作內(nèi)容。通過集成這個模型,可以使創(chuàng)作者利用人工智能技術(shù)來優(yōu)化創(chuàng)作流程。另外,藍海大腦PC集群解決方案還具有開箱即用的特點,不僅易于安裝和使用,而且能夠快速適應(yīng)各種創(chuàng)作工作流程。這意味著用戶可以在短時間內(nèi)開始創(chuàng)作,并且在整個創(chuàng)作過程中得到更好的體驗。

圖片 74.png

一、客戶收益

Stable Diffusion技術(shù)對游戲產(chǎn)業(yè)帶來了極大的影響和改變。它提升了游戲圖像的質(zhì)量和真實感、增強了游戲體驗和沉浸感、優(yōu)化了游戲制作流程、擴展了游戲應(yīng)用領(lǐng)域,并推動了游戲產(chǎn)業(yè)的發(fā)展和創(chuàng)新。這些都表明,Stable Diffusion技術(shù)在游戲產(chǎn)業(yè)中的應(yīng)用前景十分廣闊,有助于進一步推動游戲行業(yè)的發(fā)展,提高用戶體驗和娛樂價值。

1、提升游戲圖像質(zhì)量和真實感

Stable Diffusion可以在保證渲染速度的前提下,提高游戲圖像的細節(jié)和真實感。傳統(tǒng)的光線追蹤方法需要檢查和模擬每條光線,這樣會消耗大量計算資源,并放緩渲染速度。而Stable Diffusion則利用深度學(xué)習(xí)技術(shù)對光線的擴散過程進行建模,使得處理數(shù)百萬條光線所需的計算時間更短,同時還能夠生成更為精準(zhǔn)的光線路徑。這意味著,Stable Diffusion可以讓計算機產(chǎn)生更加逼真的景觀、人物、物品等元素,在視覺效果上得到質(zhì)的飛躍。

2、增強游戲體驗和沉浸感

游戲是一個交互式體驗,它的目標(biāo)是盡可能地讓玩家沉浸到虛構(gòu)的世界中。Stable Diffusion可以使游戲環(huán)境變得更加真實,并增添一些更具有交互性和觀賞性的場景。例如,利用Stable Diffusion技術(shù),游戲可以在水面上添加波紋、落葉,或者使搖曳的草叢更逼真。這些改善能夠讓玩家更好地感受游戲中所處的環(huán)境,增強沉浸感。

3、優(yōu)化游戲制作流程

Stable Diffusion的應(yīng)用可以提高游戲開發(fā)的效率和質(zhì)量,減少手動制作和修改的工作量。渲染過程的快速執(zhí)行還可以加速開發(fā)周期,甚至使一些在過去被看做是計算機圖形學(xué)難題的事情變得可能。例如,在模擬復(fù)雜的自然現(xiàn)象或在大范圍內(nèi)生成游戲元素時,使用Stable Diffusion可有效降低游戲開發(fā)的成本和時間,讓開發(fā)者有更多的精力關(guān)注其他方面的設(shè)計和創(chuàng)意

4、擴展游戲的應(yīng)用領(lǐng)域

Stable Diffusion的應(yīng)用使得游戲在更多的領(lǐng)域得到應(yīng)用。例如,在心理治療、教育、文化傳播等領(lǐng)域中,人工智能游戲可以根據(jù)用戶的情緒和行為變化來調(diào)整游戲內(nèi)容和策略,為用戶提供更符合需求和娛樂性的游戲體驗。此外,利用Stable Diffusion技術(shù),游戲可以生成不同類型的場景,包括虛擬現(xiàn)實和增強現(xiàn)實等體驗,開發(fā)出更豐富更多變的游戲內(nèi)容。

5、推動游戲產(chǎn)業(yè)的發(fā)展和創(chuàng)新

Stable Diffusion作為先進的計算機圖形學(xué)技術(shù)之一,進一步推動了游戲產(chǎn)業(yè)的發(fā)展和創(chuàng)新。利用人工智能技術(shù)渲染的游戲?qū)a(chǎn)生更高品質(zhì)、更廣泛的游戲類別,從而吸引更多領(lǐng)域的玩家參與,并且會推動相關(guān)行業(yè)的發(fā)展,如文化傳媒行業(yè)、數(shù)字娛樂業(yè)等。同時,穩(wěn)定性更好、性能更高的Stable Diffusion技術(shù)還具有在未來制造更復(fù)雜的虛擬世界的潛力,例如更多樣化、更逼真、更具交互性的虛擬現(xiàn)實環(huán)境和游戲。

二、PC集群解決方案的優(yōu)勢

1、高性能

PC集群解決方案可將多臺計算機的計算能力整合起來,形成一個高性能的計算系統(tǒng)??芍С衷诙虝r間內(nèi)完成大量的計算任務(wù),提高計算效率。

2、可擴展性

可以根據(jù)需要進行擴展,增加計算節(jié)點,提高計算能力。這種擴展可以是硬件的,也可以是軟件的,非常靈活。

3、可靠性

PC集群可以通過冗余設(shè)計和備份策略來提高系統(tǒng)的可靠性。當(dāng)某個節(jié)點出現(xiàn)故障時,其他節(jié)點可以接管其任務(wù),保證計算任務(wù)的順利進行。

4、低成本

相比于傳統(tǒng)的超級計算機,PC集群的成本更低。這是因為PC集群采用的是普通的PC硬件,而不是專門的高性能計算硬件。

三、PC集群解決方案的應(yīng)用領(lǐng)域有哪些?

PC集群是指將多臺個人電腦連接在一起,通過網(wǎng)絡(luò)協(xié)同工作,實現(xiàn)高性能計算的一種方式。它的應(yīng)用領(lǐng)域非常廣泛,以下是一些常見的應(yīng)用領(lǐng)域:

1、科學(xué)計算

PC集群可以用于各種科學(xué)計算,如天文學(xué)、生物學(xué)、物理學(xué)、化學(xué)等領(lǐng)域的計算模擬和數(shù)據(jù)分析。

2、工程計算

PC集群可以用于工程領(lǐng)域的計算,如飛機設(shè)計、汽車設(shè)計、建筑結(jié)構(gòu)分析等。

3、金融計算

PC集群可以用于金融領(lǐng)域的計算,如股票交易、風(fēng)險評估、投資組合優(yōu)化等。

4、大數(shù)據(jù)處理

PC集群可以用于大數(shù)據(jù)處理,如數(shù)據(jù)挖掘、機器學(xué)習(xí)、人工智能等領(lǐng)域的數(shù)據(jù)處理和分析。

5、圖像處理

PC集群可以用于圖像處理,如視頻編碼、圖像識別、虛擬現(xiàn)實等領(lǐng)域的圖像處理和渲染。

四、常用配置推薦

1、處理器CPU

i9-13900 24C/32T/2.00GHz/32MB/65W

i7-13700 16C/24T/2.10GHz/30MB/65W

i5 13400 10C/16T/1.80GHz/20MB/65W

i3 13100 4C/8T/3.40GHz/12MB/60W

G6900 2C/2T/3.40GHz/4MB/46W

G7400 2C/4T/3.70GHz/6MB/46W

i3 12100 4C/8T/3.30GHz/12MB/60W

i5 12400 6C/12T/2.50GHz/18MB/65W

i7 12700 12C/20T/2.10GHz/25MB/65W

i9 12900 16C/24T/2.40GHz/30MB/65W

2、顯卡GPU:

NVIDIA RTX GeForce 3070 8GB

NVIDIA RTX GeForce 3080 10GB

NVIDIA RTX GeForce 4070 12GB

NVIDIA RTX GeForce 4060Ti 8GB or 16GB

3、內(nèi)存:

32GB×2

4、系統(tǒng)盤:

M.2 500GB

5、數(shù)據(jù)盤:

500GB 7200K

圖片 75.png

審核編輯 黃宇
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關(guān)注

    關(guān)注

    450

    文章

    49622

    瀏覽量

    417093
  • 顯示器
    +關(guān)注

    關(guān)注

    21

    文章

    4862

    瀏覽量

    139348
  • CES
    CES
    +關(guān)注

    關(guān)注

    4

    文章

    1013

    瀏覽量

    70586
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28862

    瀏覽量

    266183
  • 英偉達
    +關(guān)注

    關(guān)注

    22

    文章

    3634

    瀏覽量

    89827
收藏 人收藏

    評論

    相關(guān)推薦

    英碼科技精彩亮相火爆的IOTE 2023,多面能AIoT產(chǎn)業(yè)發(fā)展!

    產(chǎn)品,包括覆蓋多層次算力的智能工作站(邊緣計算盒子)、AI加速卡;同時向大家展示自研的AI技術(shù)服務(wù)——“深元”0代碼移植工具鏈和創(chuàng)新性的行業(yè)解決方案,
    發(fā)表于 09-25 10:03

    OpenAI推出兩套多模態(tài)人工智能系統(tǒng)模型

    據(jù)外媒,知名機器學(xué)習(xí)公司OpenAI近日推出兩套多模態(tài)人工智能系統(tǒng)模型DALL-E和CLIP,DALL-E可以基于文本直接生成圖像,CLIP
    的頭像 發(fā)表于 01-07 11:13 ?4704次閱讀

    AI模型可將文本轉(zhuǎn)換為生動的圖像

    如今人工智能越來越強大,比如可以實現(xiàn)生成音樂、改變圖片藝術(shù)風(fēng)格等等。最近,人工智能非營利組織OpenAI發(fā)布了一個名為DALL-E的神經(jīng)網(wǎng)絡(luò),可以將文本轉(zhuǎn)換成與內(nèi)容相關(guān)的圖像。
    的頭像 發(fā)表于 01-07 16:37 ?1774次閱讀

    給一個文本提示就能生成3D模型!

    想要直接訓(xùn)練一個text-to-3D的模型非常困難,因為DALL-E 2模型的訓(xùn)練需要吞噬數(shù)十億個圖像
    的頭像 發(fā)表于 10-19 14:51 ?943次閱讀

    DALL-E 2的錯誤揭示出人工智能的局限性

    OpenAI在論文預(yù)印本網(wǎng)站ArXiv上發(fā)布的一篇論文表明,DALL-E 2接受了從互聯(lián)網(wǎng)上截取的約6.5億個圖像-文本對的訓(xùn)練。通過這個龐大的數(shù)據(jù)集,它學(xué)習(xí)圖像與描述這些圖像的文字之
    的頭像 發(fā)表于 11-16 15:31 ?606次閱讀

    DALL-E生成AI的未來

    OpenAI 研究員、DALL-E 的發(fā)明者和 DALL-E 2 的聯(lián)合開發(fā)者 Aditya Ramesh 表示,自那以后,整個領(lǐng)域便取得了飛速的發(fā)展。鑒于過去一年生成AI 領(lǐng)域取
    的頭像 發(fā)表于 01-30 15:47 ?641次閱讀

    AIGC能掀起人工智能的產(chǎn)業(yè)革命嗎?

    那么,以DALL-E、ChatGPT為代表的生成式大模型真能掀起人工智能的產(chǎn)業(yè)革命嗎?如果是歷經(jīng)了人工智能各流派興衰的
    的頭像 發(fā)表于 02-07 15:00 ?1212次閱讀

    英偉達GTC:云服務(wù)新模型、Omniverse Audio2Face、專業(yè)設(shè)計卡亮點迭出

    、生命科學(xué)、物理學(xué)和可持續(xù)計算都在應(yīng)用。 AI 新版本 Omniverse Audio2Face 應(yīng)用程序也已經(jīng)面世。 特別要說一下的是NVIDIA 為全球企業(yè)帶來生成AI ,推
    的頭像 發(fā)表于 03-23 17:21 ?1805次閱讀
    英偉達GTC:云服務(wù)新<b class='flag-5'>模型</b>、Omniverse Audio2Face、專業(yè)設(shè)計卡<b class='flag-5'>等</b><b class='flag-5'>亮點</b>迭出

    語音領(lǐng)域的GPT時刻:Meta 發(fā)布「突破性」生成式語音系統(tǒng),一個通用模型解決多項任務(wù)

    繼開源 LLaMA 之后,Meta 在生成AI 方向又公布一項重大研究。 我們知道,GPT、DALL-E 大規(guī)模生成
    的頭像 發(fā)表于 06-18 21:30 ?570次閱讀
    語音領(lǐng)域的GPT時刻:Meta 發(fā)布「突破性」<b class='flag-5'>生成</b>式語音系統(tǒng),一個通用<b class='flag-5'>模型</b>解決多項任務(wù)

    伯克利AI實驗室開源圖像編輯模型InstructPix2Pix,簡化生成圖像編輯并提供一致結(jié)果

    之前的 AI 圖像編輯能力通常是進行風(fēng)格轉(zhuǎn)換,流行的文本到圖像生成模型(如 DALL-E 和 S
    的頭像 發(fā)表于 08-28 15:45 ?729次閱讀
    伯克利<b class='flag-5'>AI</b>實驗室開源<b class='flag-5'>圖像</b>編輯<b class='flag-5'>模型</b>InstructPix2Pix,簡化<b class='flag-5'>生成</b><b class='flag-5'>圖像</b>編輯并提供一致結(jié)果

    AI簡報20230922期】華人AI芯片挑戰(zhàn)英偉達,深入淺出理解Transformer

    ,OpenAI 的文生圖 AI 工具 DALL-E 系列迎來了最新版本 DALL?E 3,而上個版本 D
    的頭像 發(fā)表于 09-23 12:15 ?787次閱讀
    【<b class='flag-5'>AI</b>簡報20230922期】華人<b class='flag-5'>AI</b>芯片挑戰(zhàn)英偉達,深入淺出理解Transformer

    OpenAI發(fā)布第三版DALL-E

    DALL-E于2021年1月首次發(fā)布,先于Stability AI和Midtravel的其他文本到圖像生成AI藝術(shù)平臺。到2022年
    的頭像 發(fā)表于 09-25 16:39 ?704次閱讀

    AI簡報20231020期】出自華人之手:DALL-E 3論文公布、上線ChatGPT!超火迷你GPT-4

    3 相關(guān)論文后,一位網(wǎng)友感嘆說。DALL?E 3 是 OpenAI 在 2023 年 9 月份發(fā)布的一個文生圖模型。與上一代
    的頭像 發(fā)表于 10-21 16:35 ?893次閱讀
    【<b class='flag-5'>AI</b>簡報20231020期】出自華人之手:<b class='flag-5'>DALL-E</b> <b class='flag-5'>3</b>論文公布、上線ChatGPT!超火迷你GPT-4

    微軟封禁員工討論OpenAI DALL-E 3模型漏洞

    瓊斯去年底在進行自主研究時,發(fā)現(xiàn)OpenAI的圖像生成模型DALL-E 3存在一個漏洞,漏洞利用者可以越過
    的頭像 發(fā)表于 02-02 14:38 ?440次閱讀

    OpenAI發(fā)布圖像檢測分類器,可區(qū)分AI生成圖像與實拍照片

    據(jù)OpenAI介紹,初步測試結(jié)果表明,該分類器在辨別非AI生成圖像DALL·E 3
    的頭像 發(fā)表于 05-09 09:57 ?334次閱讀