0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

1530億晶體管,AMD發(fā)布史上最大、最強(qiáng)芯片!多項(xiàng)指標(biāo)數(shù)倍于H100,打響挑戰(zhàn)英偉達(dá)第一槍!

芯通社 ? 來源:芯通社 ? 2023-12-08 17:23 ? 次閱讀

AMD在7日凌晨 2 點(diǎn)舉辦“Advancing AI”活動中,發(fā)布了Instinct MI300X人工智能加速器和全球首款數(shù)據(jù)中心APU--Instinct MI300A,以充分利用蓬勃發(fā)展的人工智能和高性能計算市場。 受此消息影響,昨日AMD美股收盤大漲9.89%。

4f91cfd4-95a9-11ee-8b88-92fbcf53809c.png

AMD 利用有史以來最先進(jìn)的量產(chǎn)技術(shù)打造了 MI300 系列產(chǎn)品,采用 "3.5D "封裝等新技術(shù)生產(chǎn)出兩款多芯片巨型處理器,并稱可在各種 AI 工作負(fù)載中提供與 Nvidia 不相上下的性能。其中有多項(xiàng)性能指標(biāo)評測數(shù)倍于競爭對手英偉達(dá)的H100。AMD 沒有透露其新的奇特芯片的價格,但這些產(chǎn)品現(xiàn)已向眾多 OEM 合作伙伴發(fā)貨。

4f9d81c6-95a9-11ee-8b88-92fbcf53809c.png

Instinct MI300 是一種改變游戲規(guī)則的設(shè)計 - 數(shù)據(jù)中心 APU 混合了總共 13 個小芯片,其中許多是 3D 堆疊的,以創(chuàng)建一個具有 24 個 Zen 4 CPU 內(nèi)核并融合了 CDNA 3 圖形引擎和 8 個堆棧的芯片HBM3。總體而言,該芯片擁有 1530 億個晶體管,是 AMD 迄今為止制造的最大芯片。AMD 聲稱該芯片在某些工作負(fù)載中的性能比 Nvidia H100 GPU 高出 4 倍,并宣稱其每瓦性能是其兩倍。

AMD 表示,其 Instinct MI300X GPU 在人工智能推理工作負(fù)載中的性能比 Nidia H100 高出 1.6 倍,并在訓(xùn)練工作中提供類似的性能,從而為業(yè)界提供了急需的 Nvidia GPU 的高性能替代品。此外,這些加速器的 HBM3 內(nèi)存容量是 Nvidia GPU的兩倍以上(每個 192 GB 令人難以置信),使其 MI300X 平臺能夠支持每個系統(tǒng)兩倍以上的 LLM 數(shù)量,并運(yùn)行比 Nvidia H100 HGX 更大的模型。

AMD Instinct MI300X

MI300X代表了 AMD 基于小芯片的設(shè)計方法的頂峰,將八個 12Hi 堆棧的 HBM3 內(nèi)存與八個 3D 堆棧的 5nm CDNA 3 GPU 小芯片(稱為 XCD)融合在四個底層 6nm I/O 芯片上,這些芯片使用 AMD 現(xiàn)已成熟的技術(shù)進(jìn)行連接混合鍵合技術(shù)。

4fb0f08a-95a9-11ee-8b88-92fbcf53809c.png

4fc50570-95a9-11ee-8b88-92fbcf53809c.png

4fd9b790-95a9-11ee-8b88-92fbcf53809c.png

4feca56c-95a9-11ee-8b88-92fbcf53809c.png

4ffa9410-95a9-11ee-8b88-92fbcf53809c.png

50041698-95a9-11ee-8b88-92fbcf53809c.png

501aa49e-95a9-11ee-8b88-92fbcf53809c.png

結(jié)果是創(chuàng)造出了一個 750W 的加速器,擁有 304 個計算單元、192GB HBM3 容量和 5.3 TB/s 帶寬。該加速器還具有 256MB Infinity Cache,用作共享 L3 緩存層,以促進(jìn)小芯片之間的通信。AMD 將其將小芯片綁定在一起的封裝技術(shù)稱為“3.5D”,表示 3D 堆疊 GPU 和 I/O 芯片通過混合鍵合融合在一起,并與模塊其余部分的標(biāo)準(zhǔn) 2.5D 封裝(水平連接)相結(jié)合。。我們將更深入地研究下面的架構(gòu)組件。 MI300X 加速器設(shè)計用于在 AMD 的生成式 AI 平臺中以 8 個為一組工作,GPU 之間通過 Infinity Fabric 互聯(lián)實(shí)現(xiàn) 896 GB/s 的吞吐量。該系統(tǒng)擁有 1.5TB 的 HBM3 內(nèi)存,性能高達(dá) 10.4 Petaflops(BF16/FP16)。該系統(tǒng)基于開放計算項(xiàng)目(OCP)通用底板(UBB)設(shè)計標(biāo)準(zhǔn)構(gòu)建,從而簡化了采用過程,特別是對于超大規(guī)模用戶而言。
與 Nvidia 的 H100 HGX 平臺(BF16/FP16)相比,AMD 的 MI300X 平臺內(nèi)存容量增加了 2.4 倍,計算能力提高了 1.3 倍,同時還保持了相當(dāng)?shù)碾p向和單節(jié)點(diǎn)環(huán)帶寬。AMD 為 MI300X 平臺配備了 400GbE 網(wǎng)絡(luò),并支持多種網(wǎng)卡,而 Nvidia 則傾向于使用其收購 Mellanox 后生產(chǎn)的自有網(wǎng)絡(luò)產(chǎn)品。

5031ebb8-95a9-11ee-8b88-92fbcf53809c.png

50436604-95a9-11ee-8b88-92fbcf53809c.png

505dea24-95a9-11ee-8b88-92fbcf53809c.png

506cd8b8-95a9-11ee-8b88-92fbcf53809c.png

5077e15e-95a9-11ee-8b88-92fbcf53809c.png

一如既往,我們應(yīng)該謹(jǐn)慎對待供應(yīng)商的基準(zhǔn)測試。AMD分享了一系列性能指標(biāo),顯示其在HPC工作負(fù)載方面的FP64和FP32向量矩陣吞吐量峰值理論值是H100的2.4倍,在人工智能工作負(fù)載方面的TF32、FP16、BF16、FP8和INT8吞吐量峰值理論值是H100的1.3倍,所有這些都是在沒有稀疏性的情況下預(yù)測的(不過MI300X確實(shí)支持稀疏性)。 MI300X 的大內(nèi)存容量和帶寬非常適合推理。AMD 使用 1760 億參數(shù)的 Flash Attention 2 模型聲稱在令牌/秒吞吐量方面比 Nvidia H100 具有 1.6 倍的性能優(yōu)勢,并使用 700 億參數(shù)的 Llama 2 模型來強(qiáng)調(diào) 1.4 倍的聊天延遲優(yōu)勢(從2K 序列長度/128 個令牌工作負(fù)載的開始到結(jié)束)。

AMD 的 MI300X 平臺在 300 億參數(shù) MPT 訓(xùn)練工作負(fù)載中提供的性能與 H100 HGX 系統(tǒng)大致相同,但需要注意的是,此測試并不是加速器的一對一比較。相反,該測試讓八個加速器組相互競爭,因此平臺級功能更像是一個限制因素。無論哪種情況,這種性能都會很快引起受到 Nvidia GPU短缺困擾的行業(yè)的興趣。
在平臺功能方面,AMD 還宣稱,MI300X 平臺的內(nèi)存容量優(yōu)勢允許托管的 300 億參數(shù)訓(xùn)練模型和 700 億數(shù)推理模型數(shù)量是 H100 系統(tǒng)的兩倍。此外,MI300X 平臺還可支持多達(dá) 70B 的訓(xùn)練模型和 2900 億參數(shù)的推理模型,兩者都是 H100 HGX 所支持模型的兩倍。 當(dāng)然,Nvidia 即將推出的 H200 GPU在內(nèi)存容量和帶寬方面將更具競爭力,而計算性能將與現(xiàn)有的 H100 保持相似。Nvidia 要到明年才會開始發(fā)貨 H200,因此與 MI300X 的競爭仍然存在。

AMD Instinct MI300A

AMD Instinct MI300A 是全球首款數(shù)據(jù)中心 APU,這意味著它將 CPU 和 GPU 結(jié)合在同一個封裝中。它將直接與Nvidia 的 Grace Hopper Superchips競爭,后者的 CPU 和 GPU 位于單獨(dú)的芯片封裝中,可以協(xié)同工作。MI300A 已經(jīng)在El Capitan 超級計算機(jī)中取得了顯著的勝利,AMD 已經(jīng)將該芯片運(yùn)送給其合作伙伴。

50851b30-95a9-11ee-8b88-92fbcf53809c.png

5092c6e0-95a9-11ee-8b88-92fbcf53809c.png

509e4c7c-95a9-11ee-8b88-92fbcf53809c.png

50b5679a-95a9-11ee-8b88-92fbcf53809c.png

50c18e58-95a9-11ee-8b88-92fbcf53809c.png

50cd7c72-95a9-11ee-8b88-92fbcf53809c.png

MI300A使用與 MI300X 相同的基本設(shè)計和方法,但替換為三個 5nm 核心計算芯片 (CCD),每個核心具有八個 Zen 4 CPU 核心,與 EPYC 和 Ryzen 處理器上的相同,從而取代了兩個 XCD GPU 小芯片。 這使得 MI300A 配備了 24 個線程 CPU 內(nèi)核和分布在 6 個 XCD GPU 小芯片上的 228 個 CDNA 3 計算單元。與 MI300X 一樣,所有計算小芯片均采用混合鍵合方式與四個底層 I/O 芯片 (IOD) 進(jìn)行 3D 堆疊,以實(shí)現(xiàn)遠(yuǎn)超標(biāo)準(zhǔn)芯片封裝技術(shù)所能實(shí)現(xiàn)的帶寬、延遲和能源效率。 AMD 壓縮了內(nèi)存容量,使用了 8 個 8Hi HBM3 堆棧,而不是 MI300X 使用的 8 個 12Hi 堆棧,因此容量從 192GB 降至 128GB。不過,內(nèi)存帶寬仍為 5.3 TB/s。AMD 告訴我們,減少內(nèi)存容量的決定并不是因?yàn)楣幕蛏嵯拗疲幌喾矗@是為目標(biāo) HPC 和 AI 工作負(fù)載量身定制的芯片。無論如何,128GB 的容量和 5.3 TB/s 的吞吐量仍比 Nvidia 的 H100 SXM GPU 高出 1.6 倍。
MI300A 的默認(rèn) TDP 為 350W,但可配置為最高 760W。AMD 根據(jù)使用情況在芯片的 CPU 和 GPU 部分之間動態(tài)分配功率,從而優(yōu)化性能和效率。AMD 盡可能巧妙地重復(fù)利用:MI300A 插入 AMD 的標(biāo)準(zhǔn) LGA6096 插槽,就像 EPYC Genoa 處理器一樣,但該插槽的 SH5 版本與使用 SP5 的 AMD EPYC 處理器在電氣上不兼容。 內(nèi)存空間在 CPU 和 GPU 之間共享,從而消除了數(shù)據(jù)傳輸。該技術(shù)通過消除單元之間的數(shù)據(jù)傳輸來提高性能和能源效率,同時還減少編碼負(fù)擔(dān)。與 MI300X 一樣,該芯片具有中央 256MB Infinity Cache,有助于確保流經(jīng)芯片的數(shù)據(jù)的帶寬和延遲。 AMD 聲稱 FP64 Matrix/DGEMM 和 FP64/FP32 Vector TFLOPS 比 H100 高出 1.8 倍。該公司還聲稱 TF32、FP16、BF16、FP8 和 INT8 與 H100 相同。

50d87172-95a9-11ee-8b88-92fbcf53809c.png

50e3173a-95a9-11ee-8b88-92fbcf53809c.png

50f330f2-95a9-11ee-8b88-92fbcf53809c.png

AMD聲稱,在OpenFOAM HPCmotorbike測試中,其MI300A比Nvidia的H100快4倍,但這種比較并不理想:H100是GPU,而MI300A的CPU和GPU混合計算通過共享內(nèi)存尋址空間,在這種內(nèi)存密集型、有時是串行的工作負(fù)載中提供了固有優(yōu)勢。如果與Nvidia Grace Hopper GH200超級芯片進(jìn)行比較,效果會更好,該芯片也是將CPU和GPU緊密耦合在一起實(shí)現(xiàn)的,但AMD表示無法找到Nvidia GH200的任何公開OpenFOAM結(jié)果。 AMD 確實(shí)提供了與 Nvidia GH200 的每瓦性能比較數(shù)據(jù),以強(qiáng)調(diào) 2 倍的優(yōu)勢,這些結(jié)果基于有關(guān) H200 的公開信息。AMD 還強(qiáng)調(diào)了與 H100 在 Mini-Nbody、HPCG 和 Gromacs 基準(zhǔn)測試中的比較,聲稱分別領(lǐng)先 1.2 倍、1.1 倍和 1.1 倍。同樣,對于這組基準(zhǔn)測試,與 GH200 進(jìn)行比較會更理想。

AMD Instinct MI300X 和 MI300A 架構(gòu)

我們介紹了上面設(shè)計的基礎(chǔ)知識,這些細(xì)節(jié)為理解下面的部分提供了重要的視角。

51062f2c-95a9-11ee-8b88-92fbcf53809c.png

5111442a-95a9-11ee-8b88-92fbcf53809c.png

511a0d9e-95a9-11ee-8b88-92fbcf53809c.png

5127376c-95a9-11ee-8b88-92fbcf53809c.png

AMD利用臺積電的 3D 混合鍵合 SoIC集成電路上硅)技術(shù),在四個底層 I/O 芯片之上對各種計算元件進(jìn)行 3D 堆疊,無論是 CPU CCD(核心計算芯片)還是 GPU XCD。每個 I/O 芯片可以容納兩個 XCD 或三個 CCD。每個 CCD 與現(xiàn)有 EPYC 芯片中使用的 CCD 相同,每個 CCD 擁有八個超線程 Zen 4 核心。MI300A 使用了其中的三個 CCD 和六個 XCD,而 MI300X 使用了八個 XCD。 HBM 堆棧使用采用 2.5D 封裝技術(shù)的標(biāo)準(zhǔn)中介層進(jìn)行連接。AMD 將 2.5D 和 3D 封裝技術(shù)相結(jié)合,使該公司創(chuàng)造了“3.5D”封裝的綽號。每個 I/O 芯片都包含一個 32 通道 HBM3 內(nèi)存控制器,用于托管 8 個 HBM 堆棧中的兩個,從而為該設(shè)備提供了總共 128 個 16 位內(nèi)存通道。MI300X 采用 12Hi HBM3 堆棧,容量為 192GB,而 MI300A 使用 8Hi 堆棧,容量為 128GB。 AMD 還增加了 256MB 的無限緩存總?cè)萘?,分布在所有四個 I/O 芯片上,通過預(yù)取器緩存數(shù)據(jù)流量,從而提高命中率和電源效率,同時減少總線爭用和延遲。這為 CPU 增加了新級別的緩存(概念上是共享 L4),同時為 GPU 提供共享 L3 緩存。Infinity Fabric NoC(片上網(wǎng)絡(luò))被稱為 AMD Infinity Fabric AP(高級封裝)互連,用于連接 HBM、I/O 子系統(tǒng)和計算。 該芯片總共具有 128 個 PCIe 5.0 連接通道,分布在四個 I/O 芯片上。它們被分為兩組:一組是四個 x16 PCIe 5.0 + 第四代 Infinity Fabric 鏈路的組合,而另一組則有四個專門用于 Infinity Fabric 的 x16 鏈路。后者僅用于將 MI300 相互連接(跨套接字流量)。 MI300X 純粹用作端點(diǎn)設(shè)備 - 它連接到外部 CPU - 因此其 PCIe 根節(jié)點(diǎn)需要充當(dāng)端點(diǎn)設(shè)備。相比之下,MI300A 由于其本機(jī) CPU 內(nèi)核而采用自托管,因此 PCIe 根聯(lián)合體必須充當(dāng)主機(jī)。為了適應(yīng)這兩種場景,AMD 定制的 MI300 I/O 裸片支持來自同一 PCIe 5.0 根節(jié)點(diǎn)的兩種模式,該根節(jié)點(diǎn)是該公司 IP 產(chǎn)品組合的新成員。 AMD 的 CPU CCD 通過 3D 混合鍵合到底層 I/O 芯片,需要新的接口。雖然這與 EPYC 服務(wù)器處理器中的 CCD 相同,但這些芯片通過利用標(biāo)準(zhǔn) 2.5D 封裝的GMI3 (Global Memory Interconnect 3) 接口進(jìn)行通信。對于 MI300,AMD 添加了一個新的焊盤通孔接口,可繞過 GMI3 鏈路,從而提供垂直堆疊芯片所需的 TSV(通過硅通孔)。該接口在雙鏈路寬模式下運(yùn)行。
5nm XCD GPU 芯片標(biāo)志著 AMD GPU 設(shè)計的全面小芯片化。與 MI200 中使用的小芯片表現(xiàn)為兩個獨(dú)立的設(shè)備不同,MI300 小芯片則是表現(xiàn)為一個單片 GPU。

每個 XCD 有 40 個物理 CDNA3 計算單元,但只有 38 個被激活(這有助于解決良率問題)。每個 38-CU 小芯片都有 4MB 共享 L2 (16x 256KB)。XCD 和 IOD 具有硬件輔助機(jī)制,可將作業(yè)分解為更小的部分、分派它們并保持它們同步,從而減少主機(jī)系統(tǒng)開銷。這些單元還具有硬件輔助的緩存一致性。 上圖中的最后一張PPT展示了 CDNA 3 計算單元的增強(qiáng)功能和性能。

513f237c-95a9-11ee-8b88-92fbcf53809c.png

514c4e76-95a9-11ee-8b88-92fbcf53809c.png

515fee9a-95a9-11ee-8b88-92fbcf53809c.png

516b349e-95a9-11ee-8b88-92fbcf53809c.png

每個I/O裸片上連接有兩個XCD,然后連接到兩個HBM3堆棧。這樣,GPU就能與兩個連接的堆棧進(jìn)行私密通信,以緩解帶寬、延遲和一致性問題。不過,每個XCD都可以與任何內(nèi)存堆棧通信(I/O裸片之間的Infinity Fabric連接在PPT的前兩張圖片中以彩色條形直觀顯示)。 當(dāng)然,尋址遠(yuǎn)程堆棧會帶來延遲損失。內(nèi)存事務(wù)傳輸?shù)迷竭h(yuǎn),就會產(chǎn)生越長的延遲。AMD 指出,直接連接到 IOD 和 XCD 的 HBM 是零跳事務(wù)(zero-hop),而訪問 IOD 上的不同內(nèi)存堆棧則需要兩跳。最后,訪問相鄰 IOD 上的內(nèi)存堆棧是三跳跳轉(zhuǎn)。兩跳跳轉(zhuǎn)的延遲大約增加 30%,而三跳跳轉(zhuǎn)的延遲則增加 60%。

第三張PPT顯示了 NoC 提供的帶寬,在整個封裝的垂直部分,I/O Dies 之間的帶寬為 1.2 TB/s/dir,而水平數(shù)據(jù)路徑提供的帶寬略高,為 1.5 TB/s/dir,以幫助容納來自 I/O 設(shè)備的額外流量,從而允許 I/O 流量與內(nèi)存流量分開處理。封裝右側(cè)和左側(cè)的 PCIe可從每個 I/O 芯片提供 64 GB/s/dir 的吞吐量。在封裝的頂部和底部,可以看到每個 HBM 堆棧提供 665 GB/s 的吞吐量。

AMD 有多種分區(qū)方案,可將計算單元劃分為不同的邏輯域,就像 EPYC 處理器的 NPS 設(shè)置一樣。這允許將不同的 XCD 分成不同的組以優(yōu)化帶寬,從而最大限度地提高性能并限制“NUMAness”的影響。多種配置范圍從將單元尋址為一個邏輯設(shè)備到將它們尋址為八個不同的設(shè)備,以及多種中間選項(xiàng),為各種工作負(fù)載提供了足夠的靈活性。

51765c2a-95a9-11ee-8b88-92fbcf53809c.png

5183a27c-95a9-11ee-8b88-92fbcf53809c.png

518f426c-95a9-11ee-8b88-92fbcf53809c.png

51a341b8-95a9-11ee-8b88-92fbcf53809c.png

AMD確定 3D 混合鍵合 (SoIC) 是在計算單元和 I/O 芯片之間提供足夠帶寬的唯一現(xiàn)實(shí)途徑。公司在該技術(shù)方面擁有豐富的經(jīng)驗(yàn);它已經(jīng)應(yīng)用于數(shù)百萬個配備 3D V-Cache的 PC 處理器中。 該公司在這種現(xiàn)已成熟的混合鍵合技術(shù)方面積累的長期經(jīng)驗(yàn)使其有信心在 MI300 處理器中繼續(xù)采用該技術(shù)。與由 3D V-Cache和標(biāo)準(zhǔn)型號組成的 AMD 消費(fèi)類 PC 芯片系列相比,MI300 處理器代表該公司首次在整個產(chǎn)品堆棧中完全依賴該技術(shù)。

總體而言,SoC 連接可在各種 3D 堆疊單元中提供高達(dá) 17 TB/s 的垂直帶寬。SoIC 尺寸為 13x29mm。

專輯最后一張PPT中的剖面圖展示了 3.5D 封裝方法的復(fù)雜性和美妙之處。。它說明了如何從底部使用有機(jī)基板、上方具有金屬布線和 TSV 的 CoWos 無源硅中介層,以及采用混合鍵合(9 微米間距)的 3D 堆疊 IOD 和 XCD 來構(gòu)建封裝。將有機(jī)基板與硅中介層(底部)配合的巨大銅凸塊突出了 3D 堆疊部分的頂部和底部芯片(靠近頂部)之間幾乎不可見的混合鍵合連接是多么小和密集。芯片)。

混合鍵合技術(shù)需要減薄芯片以暴露 TSV,以便它們可以配對。因此,AMD 必須在封裝頂部采用硅墊片以保持結(jié)構(gòu)完整性,就像其他配備 3D V-Cache 的處理器一樣。

51d368fc-95a9-11ee-8b88-92fbcf53809c.png

51e1708c-95a9-11ee-8b88-92fbcf53809c.png

51e98ee8-95a9-11ee-8b88-92fbcf53809c.png

51f3390c-95a9-11ee-8b88-92fbcf53809c.png

52078cd6-95a9-11ee-8b88-92fbcf53809c.png

AMD高級副總裁、AMD公司院士兼產(chǎn)品技術(shù)架構(gòu)師Sam Naffziger介紹了團(tuán)隊(duì)在設(shè)計階段遇到的一些挑戰(zhàn)。 巧妙的IP重用一直是AMD小芯片戰(zhàn)略的基石,MI300也不例外。MI300 團(tuán)隊(duì)沒有資源為 MI300 構(gòu)建全新的 CPU CCD,因此他們要求該公司的 CCD 團(tuán)隊(duì)在設(shè)計階段的早期將 3D 接口 (TSV) 添加到 EPYC CCD。令人驚訝的是,工程團(tuán)隊(duì)找到了一種將連接塞入現(xiàn)有 GMI 接口之間的方法。

在第一張幻燈片中,您可以看到兩個小藍(lán)點(diǎn)代表 TSV 的總面積,而點(diǎn)兩側(cè)的大橙色矩形塊是用于 2.5D 封裝的標(biāo)準(zhǔn) GMI3 接口。這說明了 SoIC 技術(shù)的密度和面積效率是多么令人難以置信。AMD 還添加了一些門、開關(guān)和多路復(fù)用器,以允許信號從 GMI3 接口重新路由到 3D 接口。

AMD創(chuàng)建了 I/O Die的鏡像版本,以確保它們可以旋轉(zhuǎn)到正確的位置,同時確保 XCD 中的內(nèi)存控制器和其他接口仍然正確對齊。工程團(tuán)隊(duì)對稱地設(shè)計了接口/信號和電源連接,從而允許小芯片旋轉(zhuǎn),如第二張圖所示。

然而,雖然 AMD 專門為 MI300 從頭開始設(shè)計了 I/O Die,但該團(tuán)隊(duì)必須采用 EPYC 的現(xiàn)有 CCD 設(shè)計。他們不想為 CCD 創(chuàng)建鏡面掩模組,這在此類設(shè)計中通常是必需的,以確保正確的接口對齊,因?yàn)檫@會增加設(shè)計的成本和復(fù)雜性。然而,其中兩個 CCD 需要旋轉(zhuǎn) 180 度才能確保正確對齊。然而,CCD的外部接口設(shè)計不對稱,因此帶來了挑戰(zhàn)。

如第三張幻燈片所示,AMD 通過在 I/O Die上的鍵合焊盤通孔 (BPV) 連接點(diǎn)添加一些冗余來克服這一挑戰(zhàn),從而允許 CCD 僅旋轉(zhuǎn)而不是鏡像。

不過,供電輸送仍然是一個挑戰(zhàn)。TSV 是非常小的銅插頭,AMD 需要為位于 I/O Die頂部的計算芯片提供數(shù)百安培的電源。細(xì)小的 TSV 不太適合這項(xiàng)工作,因此它們需要大量的連接來供電。AMD 設(shè)計了一種新的電網(wǎng)來克服這個問題,它滿足了 IR 壓降目標(biāo),并且沒有超過電流密度限制。

最后,由于 3D 堆疊設(shè)計,該設(shè)計提出了一些新的熱挑戰(zhàn)。通過熱建模,AMD 確定了兩種類型的極端操作條件 - 內(nèi)存密集型和 GPU 密集型 - 然后利用其基于使用模式在單元之間動態(tài)轉(zhuǎn)移功率的行之有效的策略來幫助緩解這些問題。

因此,一個令人難以置信的處理器誕生了。AMD的MI300在相當(dāng)長的一段時間內(nèi)對Nvidia在AI和HPC工作負(fù)載方面的性能主導(dǎo)地位提出了第一次真正的挑戰(zhàn),AMD堅稱自己有能力滿足需求。在 GPU 短缺的時代,這是一種競爭優(yōu)勢,并且肯定會刺激行業(yè)的快速發(fā)展。AMD 現(xiàn)在正在向其合作伙伴運(yùn)送 MI300 處理器。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • amd
    amd
    +關(guān)注

    關(guān)注

    25

    文章

    5421

    瀏覽量

    133808
  • 晶體管
    +關(guān)注

    關(guān)注

    77

    文章

    9609

    瀏覽量

    137659
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    4630

    瀏覽量

    71888
  • 人工智能
    +關(guān)注

    關(guān)注

    1789

    文章

    46652

    瀏覽量

    237090

原文標(biāo)題:1530億晶體管,AMD發(fā)布史上最大、最強(qiáng)芯片!多項(xiàng)指標(biāo)數(shù)倍于H100,打響挑戰(zhàn)英偉達(dá)第一槍!

文章出處:【微信號:semiwebs,微信公眾號:芯通社】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    AMD最強(qiáng)AI芯片,性能強(qiáng)過英偉達(dá)H200,但市場仍不買賬,生態(tài)是最大短板?

    顯示,該芯片多項(xiàng)性能優(yōu)于英偉達(dá)H200。 ? 不過,對于AMD
    的頭像 發(fā)表于 10-14 01:32 ?3149次閱讀
    <b class='flag-5'>AMD</b><b class='flag-5'>最強(qiáng)</b>AI<b class='flag-5'>芯片</b>,性能強(qiáng)過<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b><b class='flag-5'>H</b>200,但市場仍不買賬,生態(tài)是<b class='flag-5'>最大</b>短板?

    英偉達(dá)發(fā)布H200,搭載HBM3e,推理速度是H100兩倍!

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)日前,英偉達(dá)正式宣布,在目前最強(qiáng)AI芯片H100的基礎(chǔ)上進(jìn)行次大
    的頭像 發(fā)表于 11-15 01:15 ?3390次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b><b class='flag-5'>發(fā)布</b>新<b class='flag-5'>一</b>代<b class='flag-5'>H</b>200,搭載HBM3e,推理速度是<b class='flag-5'>H100</b>兩倍!

    英偉達(dá)H100芯片市場降溫

    隨著英偉達(dá)代AI芯片GB200需求的不斷攀升,其上代明星產(chǎn)品H100
    的頭像 發(fā)表于 10-28 15:42 ?257次閱讀

    英特爾的最強(qiáng)AI芯片要來了,聲稱性能完勝英偉達(dá)H100

    增加了近1.5倍。 與競爭對手的正面對標(biāo)也不落下風(fēng)。英特爾聲稱Gaudi3已全面超越英偉達(dá)去年發(fā)布H100芯片:運(yùn)行
    的頭像 發(fā)表于 04-11 23:36 ?405次閱讀

    英偉達(dá)H200顯卡價格

    英偉達(dá)H200顯卡的具體價格尚未公布。根據(jù)上H100顯卡的價格范圍,預(yù)計H200的單片價格將
    的頭像 發(fā)表于 03-07 16:09 ?3740次閱讀

    英偉達(dá)H200和H100的比較

    英偉達(dá)H200和H100是兩款不同的AI芯片,它們各自具有獨(dú)特的特點(diǎn)和優(yōu)勢。以下是關(guān)于這兩款芯片
    的頭像 發(fā)表于 03-07 15:53 ?4039次閱讀

    AI計算需求激增,英偉達(dá)H100功耗成挑戰(zhàn)

    根據(jù)預(yù)測,若H100的年利用率保持在61%,那么單臺設(shè)備每年將耗電3740千瓦小時左右。如果英偉達(dá)在2023年售出150萬塊H100,2024年再增加至200萬塊,那么到2024年底,
    的頭像 發(fā)表于 12-28 09:29 ?2145次閱讀

    AMD正式發(fā)布 MI300X AI 加速器,力壓英偉達(dá)H100

    爭奪剩余的市場而戰(zhàn)。然而,MI300X對英偉達(dá)H100構(gòu)成了有力的競爭,甚至微軟的首席技術(shù)官最近都表示,他認(rèn)為AMD最終在這個市場上將非常有競爭力。
    的頭像 發(fā)表于 12-10 11:30 ?899次閱讀
    <b class='flag-5'>AMD</b>正式<b class='flag-5'>發(fā)布</b> MI300X AI 加速器,力壓<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b><b class='flag-5'>H100</b>

    英偉達(dá)推出用于人工智能工作的頂級芯片HGX H200

    近日,英偉達(dá)推出了款用于人工智能工作的頂級芯片HGX H200。新的GPU升級了需求巨大的H100
    的頭像 發(fā)表于 11-15 14:34 ?1430次閱讀

    英偉達(dá)推出新款A(yù)I芯片H200 性能飆升90%但是估計依然被出口管制

    生成式AI火爆全球之后,英偉達(dá)的AI芯片張難求,就在英偉達(dá)重量級選手
    的頭像 發(fā)表于 11-14 16:45 ?1463次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>推出新款A(yù)I<b class='flag-5'>芯片</b><b class='flag-5'>H</b>200 性能飆升90%但是估計依然被出口管制

    英偉達(dá)推升級版AI芯片H200 亞馬遜、Google、甲骨文明年采用

    報告稱,雖然對被稱為“ai加速器芯片”的英偉達(dá)h100的最新版本的需求很大,但amd表示,將在第四季度推出本公司的競爭產(chǎn)品mi300,而英特
    的頭像 發(fā)表于 11-14 11:18 ?828次閱讀

    世界最強(qiáng)AI芯H200發(fā)布,英偉達(dá):性能提升90%

    在備受關(guān)注的人工智能領(lǐng)域,英偉達(dá)表示,h200將進(jìn)步提高性能。llama 2(700個llm)的推理速度是
    的頭像 發(fā)表于 11-14 10:49 ?1105次閱讀

    英偉達(dá)特供版芯片將上市:性能最高不到H100的20%

    本周四,些媒體首次報道了英偉達(dá)特供芯片的消息。報道稱,這三款新產(chǎn)品是在 H100 GPU 的基礎(chǔ)版本基礎(chǔ)上進(jìn)行修改的,采用的是最新架構(gòu),但
    的頭像 發(fā)表于 11-13 16:44 ?915次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>特供版<b class='flag-5'>芯片</b>將上市:性能最高不到<b class='flag-5'>H100</b>的20%

    揭秘:英偉達(dá)H100最強(qiáng)替代者

    目前,用于高端推理的 GPU 主要有三種:NVIDIA A100、NVIDIA H100 和新的 NVIDIA L40S。我們將跳過NVIDIA L4 24GB,因?yàn)樗袷堑投送评砜ā?/div>
    的頭像 發(fā)表于 11-13 16:13 ?1525次閱讀
    揭秘:<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b><b class='flag-5'>H100</b><b class='flag-5'>最強(qiáng)</b>替代者

    英偉達(dá)新AI芯片H20綜合算力比H100降80%

    但據(jù)悉,三種新型AI芯片不是“改良型”,而是“縮小型”。用于ai模型教育的hgx h20的帶寬和計算速度是有限的。整體計算能力理論上比nvidia的h100 gpu芯片低80%左右。
    的頭像 發(fā)表于 11-13 09:41 ?1636次閱讀