AMD能在服務(wù)器領(lǐng)域?qū)崿F(xiàn)領(lǐng)跑嗎?
由于驗(yàn)證周期長(zhǎng),服務(wù)器行業(yè)轉(zhuǎn)向新供應(yīng)商的速度很慢。安全的選擇是堅(jiān)持現(xiàn)有的供應(yīng)商,無(wú)論是幾十年前的 IBM,還是現(xiàn)在的英特爾。不過(guò),AMD表示“堅(jiān)持使用至強(qiáng)并不安全”。
第四代 Epyc Genoa 的發(fā)布標(biāo)志著 AMD 在大多數(shù)性能指標(biāo)上連續(xù)三代擊敗英特爾。Rome和Milan讓云玩家開(kāi)始大量購(gòu)買(mǎi) AMD,而Genoa可能會(huì)征服剩余的大多數(shù)市場(chǎng)和終端用戶(hù)。SemiAnalysis 認(rèn)為,Genoa和Sapphire Rapids的差距大于Milan和Ice Lake之間的差距。這種差距只會(huì)持續(xù)擴(kuò)大到 2024 年底,但可能會(huì)在 2025 年出現(xiàn) Sierra Forrest 和 Granite Rapids之間減少。
AMD 正在推出越來(lái)越多的 CPU 變體。雖然 CPU 用于通用工作負(fù)載,但針對(duì)各種終端市場(chǎng)的定制正在增加。在第 4 代中,有 4 個(gè)變體。Genoa是通用的和主流的。
Bergamo 適用于云原生工作負(fù)載。IO die 和平臺(tái)與 Genoa 共享,所以很多方面都相似,只是將 Zen 4 核心替換為 Zen 4C 核心,它具有相同的核心架構(gòu)和 L2 緩存,每個(gè)核心只有一半的 L3 緩存。Zen 4C 的內(nèi)核布局以犧牲頻率為代價(jià)實(shí)現(xiàn)密度最大化。
Genoa還將有另一個(gè)名為 Genoa X 的變體,用于“技術(shù)”。這是一個(gè)奇怪的定義,但它適用于計(jì)算流體動(dòng)力學(xué)、EDA 和其他需要更多緩存的工作負(fù)載。Genoa X 將是 Genoa具有 3D V-Cache 和多個(gè)潛在的變體。
Siena是給電信公司和邊緣的。由于較低的功率和資本支出需求,我們還會(huì)說(shuō)它適用于某些企業(yè)部署。從內(nèi)存到核心數(shù)量,Siena大概是Genoa或Bergamo的 1/2。
最后,AMD 的下一代被稱(chēng)為 Turin,預(yù)計(jì)將在 2024 年上半年推出。它有更多的系列和變體。
總結(jié)一下, Genoa 的性能是 Milan 的 2 倍左右,而功耗只有適度的增加。由于增加了 AVX512 和超大的內(nèi)存帶寬提升,浮點(diǎn)增益更大
規(guī)格沒(méi)有什么大的改變,96 個(gè)內(nèi)核、12 個(gè) DDR5 通道和 160 個(gè) PCIe Gen 5 通道(其中 64 個(gè)支持 CXL)。附加 CXL 的內(nèi)存加密對(duì)于多租戶(hù)云架構(gòu)的安全性至關(guān)重要。CXL 內(nèi)存 ASIC/設(shè)備不需要支持來(lái)支持加密,這不依賴(lài)于任何特定的 ASIC。
Genoa 的核心是 Zen 4 核心。性能大幅提升,IPC 提高了 14%,由于 L2 大小增加了 2 倍,顯著提高了頻率和平均延遲。前端占 IPC 改進(jìn)的 40%,加載/存儲(chǔ)改進(jìn)占 24%,分支預(yù)測(cè)占 20%,L2 緩存/執(zhí)行引擎每個(gè)是 8%。
AVX512是一個(gè)浮點(diǎn)向量指令庫(kù)。英特爾以 512 位寬實(shí)現(xiàn)它,但這也意味著它在芯片層面的成本太高,而且英特爾沒(méi)有在客戶(hù)端芯片上包含該功能。此外,當(dāng) AVX512 點(diǎn)亮?xí)r,芯片的時(shí)鐘速度會(huì)下降,芯片上的其他工作負(fù)載也會(huì)受到影響。AMD 通過(guò)將其拆分為跨 256 位單元的多個(gè)周期,走了一條更加智能的路線(xiàn)。這意味著不存在noisy neighbor問(wèn)題,并且芯片面積影響仍然很小。
安全性總是很重要, AMD 比英特爾具有優(yōu)勢(shì)的多個(gè)核心和 SOC 級(jí)別的安全功能。最值得注意的一個(gè)與 SMT 或超線(xiàn)程有關(guān)。Ampere Computing 喜歡提出每個(gè)內(nèi)核運(yùn)行多個(gè)線(xiàn)程是不安全的論點(diǎn)。帶有 SEV-SNP 的 AMD 正在應(yīng)對(duì)這個(gè)問(wèn)題。如果實(shí)現(xiàn)此功能,安全客戶(hù)線(xiàn)程可以選擇在共享核心上有活動(dòng)的同級(jí)線(xiàn)程時(shí)不運(yùn)行。這可以防止旁通道攻擊,例如 Spectre 和 Meltdown。
隨著第四代 Epyc 的推出,IO Die 可以說(shuō)是一個(gè)更大、更重要的變化。它建立在 N6 進(jìn)程節(jié)點(diǎn)上,而不是像 CPU 小芯片那樣的 N5。IO 芯片現(xiàn)在得到了加強(qiáng),可以通過(guò)一個(gè)更大的、具有更多層的封裝與 12 個(gè)小芯片通信。
另一個(gè)值得注意的點(diǎn)是插座完全重新設(shè)計(jì)。安裝機(jī)制更堅(jiān)固,引腳間距更窄,為 0.94 x 0.81mm。尺寸從 58mm x 75mm 增加到 72mm x 75mm。對(duì)于像 Unimicron 這樣的公司來(lái)說(shuō),更大的封裝和更多的層是一件大事
AMD 的 IO 可擴(kuò)展性非常值得關(guān)注。他們使用具有組合功能的 SerDes。從本質(zhì)上講,這些 SerDes 可以具有多種特性,使得所連接的選項(xiàng)非??膳渲?。該平臺(tái)可以配置 3 個(gè)或 Infinity 結(jié)構(gòu)通道,從而在 2S 配置中實(shí)現(xiàn)可擴(kuò)展的 PCIe 通道數(shù)。每臺(tái) 2S 服務(wù)器可以有 3 個(gè) Infinity 結(jié)構(gòu)通道和 160 個(gè) PCIe 通道以及另外 12 個(gè)用于平臺(tái)的 PCIe 鏈路,或者用于平臺(tái)的 4 個(gè) IFIS、128 個(gè) PCIe 和 12 個(gè) PCIe。每個(gè) 16x PCIe 根聯(lián)合體可以縮減為 9 個(gè) PCIe 設(shè)備,其中 1 個(gè) 8x 設(shè)備 + 8 個(gè) 1x 設(shè)備。
鑒于Genoa大幅提高 IO 速度,正確利用該帶寬至關(guān)重要。增強(qiáng)的 AVIC 減少了虛擬化 IO 設(shè)備的開(kāi)銷(xiāo)。這可以實(shí)現(xiàn)更高的帶寬利用率和更少的 CPU 開(kāi)銷(xiāo)。Milan有一個(gè)更早的版本,但它更像是原型?,F(xiàn)在使用 Genoa,IO 設(shè)備具有接近原生的性能。使用運(yùn)行 InfiniBand 的 Nvidia 的 Mellanox Connect X7 進(jìn)行的測(cè)試。
Genoa在內(nèi)存成本方面進(jìn)行了關(guān)鍵改進(jìn),這是服務(wù)器 BOM 的 50%,這一點(diǎn)不容小覷。
值得注意的是對(duì) 72 位和 80 位 DIMM 的支持。大多數(shù)服務(wù)器將使用 80 位 ECC,但一些超大規(guī)模服務(wù)器希望減少到 72 位。相對(duì)于非 ECC 內(nèi)存所具有的 64 位,仍有一些 ECC 功能,但比廣泛使用的關(guān)鍵任務(wù) 80 位要少。這里的優(yōu)點(diǎn)是用于奇偶校驗(yàn)檢查的 DRAM 裸片減少了 1 個(gè)?!坝薪绻收稀惫δ芤灿兄诮鉀Q此問(wèn)題,因?yàn)槿绻诖鎯?chǔ)設(shè)備中檢測(cè)到錯(cuò)誤,則可以映射這些問(wèn)題。
另一個(gè)重要特征是雙列與單列內(nèi)存。Milan 和大多數(shù) Intel 平臺(tái),雙列內(nèi)存對(duì)于最大化性能至關(guān)重要。例如,Milan有 25% 的性能增量。在Genoa,這一比例降至 4.5%。這是另一個(gè)可觀(guān)的成本改進(jìn),因?yàn)榭梢允褂酶阋说膯瘟袃?nèi)存。
Genoa的內(nèi)存延遲比Milan高,Genoa為 118ns,而Milan為 105ns。AMD 表示,其中只有 3ns 來(lái)自更大的 IO 芯片,Genoa為 73ns,而Milan為 70ns。大多數(shù)內(nèi)存延遲影響來(lái)自 DDR5 內(nèi)存設(shè)備本身。DDR5 上為 35ns,而 DDR4 上為 25ns。這是由于 DDR5 不成熟、更大的存儲(chǔ)庫(kù)大小以及架構(gòu)中的其他變化導(dǎo)致的更寬松的時(shí)序。內(nèi)存延遲影響很大,但 SOC 級(jí)別的微小增加令人驚訝。
IO Die 到 Core Complex Die 的連接得到了極大的改進(jìn)。每比特傳輸?shù)墓β式抵?pj/bit 以下。作為參考,EMIB 聲稱(chēng)為 ~0.5pj/bit。最值得注意的方面是有一個(gè)新的 GMI3-Wide 格式。對(duì)于客戶(hù)Zen 4 和前幾代 Zen 小芯片,IOD 和 CCD 之間有 1 個(gè) GMI 鏈接。使用 Genoa,在較低的核心數(shù)、較低的 CCD SKU 中,可以將多個(gè) GMI 鏈路連接到 CCD。這是可用于較低核心數(shù) SKU 的帶寬的大幅增加。具體來(lái)說(shuō),這將有助于關(guān)系數(shù)據(jù)庫(kù)和高頻 SKU,其中每核許可成本很高。
電源管理得到增強(qiáng)。Genoa 有 2 種基本的電源管理模式,性能確定性或電源確定性。由于熱和硅的變化,不同芯片上的不同工作負(fù)載之間可能存在許多差異??紤]到制造涉及數(shù)千個(gè)工藝步驟,硅不是確定性的。
性能決定論適用于希望獲得持續(xù)性能的公司。它在允許的情況下消耗更少的功率,并且性能保持穩(wěn)定。大多數(shù)客戶(hù)會(huì)選擇此選項(xiàng),因?yàn)榉€(wěn)定性至關(guān)重要。
功率確定性是為了保持功耗穩(wěn)定并提高和降低性能??紤]到硅抽簽、熱預(yù)算和工作負(fù)載等因素,芯片將提高和降低時(shí)鐘速度。
除了電源管理模式外,Genoa 芯片還有一個(gè)可配置的 TDP。峰值提升行為將根據(jù)選擇的選項(xiàng)而有所不同。時(shí)鐘提升基于可靠性和峰值功率傳輸。高活動(dòng)工作負(fù)載將以較低的頻率運(yùn)行??紤]了系統(tǒng)和芯片裕量。與消費(fèi)級(jí)平臺(tái)相比,功率預(yù)算不會(huì)長(zhǎng)期超出。TDP 只能超過(guò) 10 毫秒。
AMD 通常支持 CXL 1.1,但支持 Type 3 內(nèi)存設(shè)備的 CXL 2.0。
值得一提的是,CXL 的 64 個(gè)通道可以分成 16 個(gè) 4x 器件。Sapphire Rapids不具備 CXL 通道分叉的能力。如果一個(gè)連接 4x 或 8x CXL 設(shè)備,這將消耗所有 16 個(gè)通道。Emerald Rapids 修復(fù)了該功能,但那是一年之后的事情。虛擬機(jī)管理程序無(wú)法更改來(lái)賓的內(nèi)存分配,這對(duì)于在云中使用 CXL 附加內(nèi)存的用戶(hù)來(lái)說(shuō)是巨大的。
AMD 的性能支柱是每插槽性能領(lǐng)先、每核心性能領(lǐng)先、所有工作負(fù)載和細(xì)分市場(chǎng)的領(lǐng)先地位,以及 TCO 和可持續(xù)性方面的領(lǐng)先地位。
中端 Genoa 芯片與 2 個(gè)高端 Xeon 芯片的 1 個(gè)比較最好地說(shuō)明了這一點(diǎn)。AMD 具有更高的性能、更低的功耗、更低的 CPU 成本、更少的內(nèi)核。
AMD 的領(lǐng)先優(yōu)勢(shì)是開(kāi)創(chuàng)性的。需要注意的一件事是,當(dāng)每個(gè)內(nèi)核的軟件許可成本開(kāi)始發(fā)揮作用時(shí),這種領(lǐng)先優(yōu)勢(shì)在 TCO 方面會(huì)進(jìn)一步擴(kuò)大。這在運(yùn)行 VMMark 的企業(yè)基準(zhǔn)測(cè)試中得到了最好的體現(xiàn)。VMMark 每個(gè)磁貼運(yùn)行 19 個(gè)具有代表性的 VM,然后查看可以運(yùn)行多少磁貼以及速度。Genoa速度更快,可以處理更多的虛擬機(jī)。
SKU 命名非常簡(jiǎn)單明了,每個(gè)數(shù)字都表示關(guān)鍵信息。
AMD 使 SKU 堆棧保持簡(jiǎn)單。與英特爾不同,沒(méi)有一堆 SKU 鎖定功能。有3個(gè)通用類(lèi)別和18個(gè)SKU。核心性能 (F)、核心密度和平衡/TCO 優(yōu)化。他們基于 1 個(gè)插槽與 2 個(gè)插槽支持進(jìn)行細(xì)分。每個(gè)核心的價(jià)格也保持相對(duì)平穩(wěn)。
在 Genoa 中,AMD 在整數(shù)工作負(fù)載上的每核性能領(lǐng)先通常約為 50%,在浮點(diǎn)上則高達(dá) 96%,后者大部分是由于內(nèi)存帶寬和緩存。
SQL 基準(zhǔn)測(cè)試值得注意,因?yàn)樵谝恍?shù)據(jù)庫(kù)基準(zhǔn)測(cè)試中,AMD 由于其較高的核心到核心延遲而落后。他們?nèi)匀粫?huì)在其中許多方面落后,但在一些常用的方面差距正在縮小。Sapphire Rapids 的單片和 4 管芯高級(jí)封裝方法的優(yōu)勢(shì)在于,這些海量關(guān)系數(shù)據(jù)庫(kù)將大大降低內(nèi)核之間的延遲。
在 HPC 性能比較中,96C 顯示它仍然受到內(nèi)存帶寬的限制,但 32C 與 32C 顯示Genoa的帶寬優(yōu)勢(shì)是巨大的。
服務(wù)器整合是這里的重頭戲。
如果使用 2P 與 2P 或 2P 與 1P 服務(wù)器,數(shù)字會(huì)有所不同,但結(jié)果是相似的。通常 3 個(gè) CPU 合并為 1 個(gè) CPU。
過(guò)去,AMD面對(duì)著一些問(wèn)題,如工作負(fù)載不會(huì)在其中擴(kuò)展,一些應(yīng)用程序甚至?xí)罎?。Genoa擁有如此多的核心,能夠訪(fǎng)問(wèn)大多數(shù)軟件 ISV,因此Genoa結(jié)束了過(guò)去時(shí)期大部分痛苦。
最后一個(gè)點(diǎn)是關(guān)于機(jī)密計(jì)算。機(jī)密計(jì)算意味著軟件不需要信任擁有硬件的所有者,同時(shí)能夠保證數(shù)據(jù)安全。靜態(tài)和動(dòng)態(tài)數(shù)據(jù),加密是一個(gè)很好理解的答案,但在使用中,答案很復(fù)雜。雖然Genoa并沒(méi)有完全實(shí)現(xiàn)機(jī)密計(jì)算的愿景,但它在該領(lǐng)域帶來(lái)了許多創(chuàng)新,使其更加接近。
審核編輯:郭婷
-
amd
+關(guān)注
關(guān)注
25文章
5376瀏覽量
133379 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
8701瀏覽量
84546
原文標(biāo)題:詳解AMD Genoa
文章出處:【微信號(hào):ICViews,微信公眾號(hào):半導(dǎo)體產(chǎn)業(yè)縱橫】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論