在經(jīng)過多次的延期以后,英特爾首個基于Chiplet設(shè)計的第四代至強(qiáng)可擴(kuò)展服務(wù)器處理器Sapphire Rapids終于正式發(fā)布。據(jù)介紹,該系列處理器包括了包括常規(guī)版本和注入 HBM 的Max版本。這一領(lǐng)域是不是聽起來很吸引人?“你的起點(diǎn)并不重要,但要眼光長遠(yuǎn),了解相鄰學(xué)科或互補(bǔ)學(xué)科?!笔┠螤栆园踩?jīng)濟(jì)學(xué)的為例。“我開設(shè)了安全經(jīng)濟(jì)學(xué)課程,還有安全心理學(xué)課程。如果你是一名安全工程師,但不了解自己想解決的問題中的經(jīng)濟(jì)學(xué)因素,那么你采取的舉措可能是完全錯誤的,你制造的工外媒tomshardware更是直言,英特爾擁有 52 款全新 CPU 的龐大產(chǎn)品組合將與去年首次亮相的 AMD EPYC Genoa系列展開激烈競爭。據(jù)報道,雖然 AMD 的芯片以單個芯片上最多 96 個內(nèi)核保持核心數(shù)量領(lǐng)先,但英特爾的 Sapphire Rapids 芯片使該公司最多達(dá)到 60 個內(nèi)核,比之前第三代Ice Lake至強(qiáng)的 40 個內(nèi)核的峰值提高了 50%冰。
英特爾聲稱這將使通用計算能力比其上一代芯片提高 53%,但在演示期間,他們基本上避免與 AMD 的芯片進(jìn)行直接比較。然而,英特爾已向媒體提供樣品以供不受限制的第三方審查,因此它并沒有回避競爭。Sapphire Rapids非常依賴新的加速技術(shù),這些技術(shù)可以直接購買,也可以通過新的現(xiàn)收現(xiàn)付模式購買。芯片的這些新的專用加速器區(qū)域旨在從根本上提高多種類型工作的性能,例如壓縮、加密、數(shù)據(jù)移動和數(shù)據(jù)分析,這些工作通常需要獨(dú)立的加速器才能實現(xiàn)最佳性能。盡管擁有明顯的核心數(shù)量領(lǐng)先優(yōu)勢,但AMD的Genoa處理器并沒有類似的加速功能。在使用新加速器時,英特爾聲稱在某些工作負(fù)載中,每瓦性能比其上一代模型平均提高2.9倍。
英特爾還聲稱AI推理和訓(xùn)練提高了10倍,數(shù)據(jù)分析工作負(fù)載提高了3倍。英特爾的Sapphire Rapids采用“Intel 7”工藝制造,還帶來了一系列新的連接技術(shù),例如對PCIe 5.0、DDR5內(nèi)存和CXL 1.1接口(type 1 and 2 devices)的支持,為公司提供了對AMD的Genoa站穩(wěn)腳跟。英特爾的Sapphire Rapids產(chǎn)品堆棧涵蓋52個型號,分為“性能”和“主流”雙插槽芯片,用于通用型號。還有用于液冷、單路、網(wǎng)絡(luò)、云、HPC和存儲/HCI系統(tǒng)的專用型號。結(jié)果,感覺幾乎每個工作負(fù)載都有一個專門的芯片,這就創(chuàng)建了一個令人困惑的產(chǎn)品堆棧。然后,這些芯片被分為各種Max、Platinum、Gold、Silver 和 Bronze子層(sub-tiers),每個子層表示不同級別的插槽可擴(kuò)展性、對Optane持久內(nèi)存的支持、RAS功能、SGX 飛地容量等。
Sapphire Rapids 芯片現(xiàn)在還配備了不同數(shù)量的板載啟用加速器設(shè)備。目前,重要的是要知道每個芯片都可以啟用可變數(shù)量的加速器“設(shè)備”(在上面的規(guī)格表中列出——將“設(shè)備”的數(shù)量視為類似于加速器“內(nèi)核”)。您可以購買完全支持所有加速器的四個設(shè)備的芯片,或者您可以選擇支持設(shè)備數(shù)量較少的較便宜的芯片型號。如果芯片未完全啟用,您可以稍后通過稱為Intel on Demand的新的現(xiàn)收現(xiàn)付機(jī)制激活加速器。
“+”模型默認(rèn)啟用每種類型的至少一個加速器。但是,有兩類芯片具有兩種不同的加速器分配。我們將在下面深入探討這些細(xì)節(jié)以及不同類型的加速器。新處理器都支持AVX-512、深度學(xué)習(xí)提升 (DLBoost) 和新的高級矩陣擴(kuò)展 (AMX) 指令,后者通過使用一組稱為圖塊的新二維寄存器在AI工作負(fù)載中提供爆炸性的性能提升。英特爾的AMX實施將主要用于提高AI訓(xùn)練和推理操作的性能。和以前一樣,英特爾的第4代至強(qiáng)可擴(kuò)展平臺支持1、2、4和8插槽配置,而AMD的Genoa僅可擴(kuò)展到兩個插槽。AMD在PCIe連接選項方面處于領(lǐng)先地位,提供多達(dá)128個PCIe 5.0 通道,而Sapphire Rapids最高提供80個PCIe 5.0通道。Sapphire Rapids還支持高達(dá)1.5TB的DDR5-4800內(nèi)存分布在每個插槽的八個通道中,而AMD的Genoa支持高達(dá)6TB的DDR5-4800內(nèi)存分布在每個插槽的12個通道中。英特爾已將其2DPC(每通道 DIMM 數(shù))配置指定為DDR5-4400,而AMD尚未完成其2DPC傳輸速率的資格認(rèn)證(該公司預(yù)計將在本季度發(fā)布2DPC規(guī)格)。
Sapphire Rapids處理器能提供從八核型號到60核型號等不等的SKU,旗艦 Xeon Scalable Platinum 8490H的起價為415美元,最高價為17,000美元。8490H有60個內(nèi)核和120個線程,所有四種加速器類型都已完全啟用。該芯片還具有112.5 MB的L3緩存和350W TDP額定值。Sapphire Rapids TDP envelopes span從 120W 到 350W。350W 的額定功率明顯高于英特爾上一代 Ice Lake Xeon 系列的 280W 峰值,但對更高性能的不懈追求使整個行業(yè)都在推向更高的極限。例如,AMD 的 Genoa 以類似的360W TDP達(dá)到頂峰,盡管是針對96核型號,甚至可以配置為高達(dá)400W。8490H 是唯一的 60 核型號,并且僅在啟用所有加速引擎的情況下才可用?;氐?6核Platinum 8480+將花費(fèi)10,710美元,但每種類型的加速設(shè)備中只有一個處于活動狀態(tài)。該處理器具有3.8 GHz升壓時鐘、350W TDP和105MB的三級緩存。
英特爾的新型片上(on-die )加速器是其Sapphire Rapids處理器的關(guān)鍵新組件。如上所述,您可以購買已激活所有加速器選項的芯片,也可以選擇更便宜的型號并根據(jù)需要通過Intel On Demand服務(wù)購買加速器許可證。并非所有芯片都具有相同的加速器選項,我們將在下面介紹。英特爾尚未提供加速器的定價指南,但許可證將通過服務(wù)器OEM提供,并通過軟件和許可API激活。
無需直接購買完整許可證,您還可以選擇按使用量計費(fèi)的現(xiàn)收現(xiàn)付功能,以衡量您使用了多少服務(wù)。此功能可能會在CSP中流行。Intel On Demand服務(wù)背后的想法是讓客戶只激活他們需要的功能并支付費(fèi)用,同時還提供了不需要購買新服務(wù)器或處理器的未來升級路徑。相反,客戶可以選擇使用加速引擎來提高性能。這也讓英特爾及其合作伙伴能夠從同一個功能芯片中“雕刻”出多種類型的SKU,從而簡化供應(yīng)鏈并降低成本。這些功能代表了英特爾將固定功能加速器引入處理器裸片的悠久歷史的延續(xù)。盡管如此,Sapphire Rapids上強(qiáng)大的單元仍需要軟件支持才能發(fā)揮全部性能。英特爾已經(jīng)與多家軟件供應(yīng)商合作,以支持廣泛的應(yīng)用程序,您可以在上面的相冊中看到其中的許多應(yīng)用程序。
英特爾有四種類型的加速器可用于Sapphire Rapids。數(shù)據(jù)流加速器 (DSA:Data Streaming Accelerator) 通過卸載CPU的數(shù)據(jù)復(fù)制和數(shù)據(jù)轉(zhuǎn)換操作來改進(jìn)數(shù)據(jù)移動。當(dāng)系統(tǒng)負(fù)載波動時,動態(tài)負(fù)載平衡器 (DLB:Dynamic Load Balancer) 加速器介入以提供數(shù)據(jù)包優(yōu)先級并動態(tài)平衡CPU內(nèi)核之間的網(wǎng)絡(luò)流量。英特爾還有一個內(nèi)存分析加速器 (IAA:In-Memory Analytics Accelerator),可以加速分析性能并卸載CPU內(nèi)核,從而提高數(shù)據(jù)庫查詢吞吐量和其他功能。
英特爾還將其快速輔助技術(shù) (QAT:Quick Assist Technology) 加速器帶入了CPU。此功能過去駐留在芯片組上。該硬件卸載加速器增強(qiáng)了加密和壓縮/解壓縮性能。英特爾使用QAT加速器已有一段時間,因此該技術(shù)已經(jīng)享有廣泛的軟件支持。
不幸的是,這些芯片具有不同的加速能力——你不能在所有型號上購買四個“設(shè)備”。Sapphire Rapids處理器由兩種類型的設(shè)計(Die Chops)組成,如SKU表中所列。XCC芯片由四個die組成,每個die都有一個加速器(IAA、QAT、DSA、DLB)。這意味著您最多可以在這些芯片上激活每種類型的四個加速器(例如,4個IAA、4個QAT、4個DSA、4個DLB)。相比之下,一些芯片使用單個MCC die,因此它們只有一個IAA和DSA加速器以及兩個QAT和DLB加速器(2個QAT、2個DLB、1個IAA、1個 DSA)。
Intel Max CPU 系列和 Ponte Vecchio Max GPU 系列
英特爾最近公布了有關(guān)其即將推出的至強(qiáng)Max系列CPU和英特爾數(shù)據(jù)中心GPU Max系列(Ponte Vecchio) 的詳細(xì)信息。今天標(biāo)志著正式啟動。英特爾配備HBM2e的Max CPU型號上市,具有32至56個內(nèi)核,并基于標(biāo)準(zhǔn)的Sapphire Rapids設(shè)計。這些芯片是第一批采用HBM2e內(nèi)存封裝的x86處理器,從而為處理器提供了更大的64GB本地內(nèi)存池。HBM內(nèi)存將有助于處理對內(nèi)核數(shù)量不那么敏感的內(nèi)存綁定工作負(fù)載,因此Max型號的內(nèi)核數(shù)量少于標(biāo)準(zhǔn)型號。目標(biāo)工作負(fù)載包括計算流體動力學(xué)、氣候和天氣預(yù)報、人工智能訓(xùn)練和推理、大數(shù)據(jù)分析、內(nèi)存數(shù)據(jù)庫和存儲應(yīng)用程序。
Max CPU可以在多種配置下運(yùn)行,例如將HBM內(nèi)存用于所有內(nèi)存操作(僅HBM-不需要DDR5內(nèi)存),將HBM呈現(xiàn)為單獨(dú)內(nèi)存區(qū)域的HBM“平面模式”(這需要廣泛的軟件支持),或者在使用HBM2e作為DRAM支持的緩存的HBM“緩存模式”中。后者不需要更改代碼,很可能是最常用的操作模式。Xeon Max CPU將與AMD的EPYC Milan-X處理器相抗衡,后者帶有一個稱為3D V-Cache的3D堆疊L3緩存。Milan-X模型每個芯片具有高達(dá)768MB的總L3緩存,可提供令人難以置信的帶寬量,但它提供的容量不如英特爾的HBM2e方法。
這兩種方法各有優(yōu)缺點(diǎn),因此我們迫不及待地想對Xeon Max處理器進(jìn)行測試。值得注意的是,富士通的A64FX Arm處理器使用了類似的HBM技術(shù)。配備HBM的A64FX處理器為Fugaku超級計算機(jī)提供動力,該超級計算機(jī)多年來一直是世界上最快的(直到去年由AMD驅(qū)動的百億億級Frontier接管)。Fugaku仍然保持在Top500的第二位。英特爾還推出了之前代號為Ponte Vecchio 的 Max GPU系列。英特爾此前推出了三種不同的GPU型號,它們均采用標(biāo)準(zhǔn)PCIe和OAM外形規(guī)格。
英特爾傲騰持久內(nèi)存 (PMem) 300
作為Sapphire Rapids發(fā)布的一部分,英特爾悄悄推出了最后一個系列的傲騰持久內(nèi)存DIMM。最后一代代號為Crow‘s Pass 但正式名稱為Intel Optane Persistent Memory 300,將提供128、256和512 GB容量,并以DDR5-4400運(yùn)行。這比之前的DDR4-3200峰值有了很大的改進(jìn),但這也意味著如果Sapphire Rapids系統(tǒng)計劃使用傲騰,則必須將標(biāo)準(zhǔn)內(nèi)存從支持的DDR5-4800降頻到DDR5-4400。英特爾聲稱300系列在隨機(jī)工作負(fù)載中提供的順序帶寬增加了56%,帶寬增加了214%,同時支持每個插槽高達(dá)4TB的Optane,或系統(tǒng)總?cè)萘繛?TB。
就像上一代Optane 200系列一樣,DIMM的運(yùn)行功率為15W。但是,他們現(xiàn)在升級到DDR-T2接口和AES-XTS 256位加密。在2015年首次亮相時,英特爾和合作伙伴美光吹捧其底層技術(shù)3D XPoint,其性能和耐用性是NAND存儲的1000倍,同時密度是DRAM的10倍,但該技術(shù)現(xiàn)在即將走到盡頭。英特爾已經(jīng)停止生產(chǎn)用于客戶端PC的Optane存儲產(chǎn)品,這是有道理的,因為它是將其NAND業(yè)務(wù)出售給SK海力士。然而,英特爾保留了其數(shù)據(jù)中心的內(nèi)存業(yè)務(wù),包括其持久內(nèi)存DIMM ,它可以作為主內(nèi)存的附件——只有英特爾提供的功能。在300系列模塊之后,這些產(chǎn)品也不會出現(xiàn)任何后代。英特爾將行業(yè)轉(zhuǎn)向基于CXL的架構(gòu)作為結(jié)束Optane業(yè)務(wù)的原因,反映了英特爾前合作伙伴美光去年退出該業(yè)務(wù)時的情緒。 Sapphire Rapids同時支持Optane DIMM 和CXL接口,但這將是最后一次看到兩者同時出現(xiàn)——CXL將成為未來業(yè)界將奇異存儲器連接到芯片的首選方法。
英特爾延遲交付旗艦芯片的內(nèi)幕
去年5月,芯片巨頭英特爾的高管桑德拉里維拉 (Sandra Rivera)得到了一些令人震驚的消息。
工程師們花了五年多的時間來開發(fā)一種功能強(qiáng)大的新型微處理器,以在數(shù)據(jù)中心執(zhí)行計算任務(wù),并且確信他們最終得到了正確的產(chǎn)品。但在討論該項目的例行早會上,出現(xiàn)了潛在嚴(yán)重技術(shù)缺陷的跡象。這個問題非常麻煩,以至于微處理器的代號Sapphire Rapids不得不推遲發(fā)布——這是英特爾多年來最重要的產(chǎn)品之一遭遇的一系列挫折中的最新一次?!拔覀兎浅>趩剩必?fù)責(zé)英特爾數(shù)據(jù)中心和人工智能集團(tuán)的執(zhí)行副總裁里維拉女士說?!斑@是一個痛苦的決定?!盨apphire Rapids的發(fā)布時間最終從2022年年中推遲到本周二,比預(yù)期晚了近兩年。該產(chǎn)品的長期開發(fā)——在一個封裝中結(jié)合了四個芯片——凸顯了在美國試圖確立其在基礎(chǔ)計算機(jī)技術(shù)領(lǐng)域的主導(dǎo)地位時英特爾扭虧為盈所面臨的一些挑戰(zhàn)。自1970年代以來,英特爾一直是運(yùn)行大多數(shù)電子設(shè)備的小硅片領(lǐng)域的領(lǐng)先者,最著名的是一種稱為微處理器的品種,它在大多數(shù)計算機(jī)中充當(dāng)電子大腦。但這家硅谷公司近年來失去了在制造技術(shù)方面的長期領(lǐng)先優(yōu)勢,而這有助于決定芯片的計算速度。
2021年成為英特爾首席執(zhí)行官的帕特里克·蓋爾辛格 ( Patrick Gelsinger ) 誓言要恢復(fù)其制造優(yōu)勢并在美國建立新工廠。Sapphire Rapids的坎坷發(fā)展對英特爾能否反彈以按時交付未來芯片具有影響。這是一個可能會影響許多計算機(jī)制造商和云服務(wù)提供商的問題,更不用說數(shù)百萬使用可能由英特爾技術(shù)提供支持的在線服務(wù)的消費(fèi)者了?!拔覀兿胍氖且粋€可預(yù)測的穩(wěn)定節(jié)奏,”聯(lián)想負(fù)責(zé)服務(wù)器銷售的執(zhí)行副總裁柯克斯考根說,這家中國公司計劃推出25個基于新處理器的新系統(tǒng)?!癝apphire Rapids是旅程的開始?!睂τ⑻貭杹碚f,壓力還在。隨著對用于個人電腦的芯片的需求下降,該公司在其最賺錢的業(yè)務(wù)服務(wù)器芯片方面面臨著激烈的競爭。這個問題令華爾街感到擔(dān)憂,自從Gelsinger上任以來,英特爾的市值暴跌超過 1200 億美元。
在周二的在線活動中討論以科羅拉多河的一部分命名的Sapphire Rapids,英特爾客戶描述了使用該處理器的計劃,他們表示這將為人工智能任務(wù)帶來特別的好處。該產(chǎn)品的正式名稱為第4代英特爾至強(qiáng)可擴(kuò)展處理器,與至強(qiáng)芯片系列的另一個延遲添加一起推出。該產(chǎn)品以前的代號為 Ponte Vecchio,旨在加速特殊用途的工作,并與Sapphire Rapids一起用于高性能計算機(jī)。Gelsinger先生在接受采訪時說,盡管有延誤,但 Sapphire Rapids 已經(jīng)具備了成功的條件。
他在 2021 年選擇里維拉女士接管開發(fā)它的部門,她正在利用經(jīng)驗教訓(xùn)改變英特爾設(shè)計和測試其產(chǎn)品的方式。他說英特爾已經(jīng)對Sapphire Rapids發(fā)生的事情進(jìn)行了幾次內(nèi)部審查。Sapphire Rapids始于2015年,由一小群英特爾工程師進(jìn)行討論。該產(chǎn)品是該公司首次嘗試采用新的芯片設(shè)計方法。公司現(xiàn)在通常在每塊硅片上封裝數(shù)百億個微型晶體管,但像Advanced Micro Devices和其他公司這樣的競爭對手已經(jīng)開始用塑料封裝中捆綁在一起的多個芯片制造處理器。
英特爾工程師提出了一種包含四個裸片的設(shè)計,每個裸片都有15個處理器“內(nèi)核”,就像用于通用計算工作的獨(dú)立計算器一樣。該公司還決定為特殊任務(wù)(包括人工智能和加密)添加額外的電路塊,并與其他組件通信,例如存儲數(shù)據(jù)的芯片。共同領(lǐng)導(dǎo)英特爾設(shè)計工程團(tuán)隊的Shlomit Weiss說,這么多元素之間的相互作用“非常復(fù)雜”?!皬?fù)雜性通常會帶來問題?!盨apphire Rapids團(tuán)隊努力解決由設(shè)計人員錯誤或制造故障引起的缺陷、缺陷,這些缺陷可能導(dǎo)致芯片進(jìn)行錯誤計算、工作緩慢或停止運(yùn)行。
他們還受到產(chǎn)品制造過程延遲的影響。但月,工程師們達(dá)到了一個里程碑,稱為“流片”。那時,包含完整設(shè)計的電子文件會被轉(zhuǎn)移到工廠制作樣品芯片。由于Covid-19迫使封鎖,樣品芯片于2020年初運(yùn)抵。工程師們很快就讓Sapphire Rapids上的計算核心相互通信,該項目的總工程師Nevine Nassif說。但比預(yù)期更多的工作仍然存在。一項關(guān)鍵的雜務(wù)是“驗證”,這是一個測試過程,英特爾及其客戶在樣本芯片上運(yùn)行軟件以模擬計算雜務(wù)并發(fā)現(xiàn)錯誤。一旦發(fā)現(xiàn)并修復(fù)缺陷,設(shè)計可能會返回工廠制造新的測試芯片,這通常需要一個多月的時間。
重復(fù)該過程導(dǎo)致錯過最后期限。Nassif女士說,Sapphire Rapids旨在對抗AMD的Milan處理器,該處理器于2021年3月推出。但到6月它仍未準(zhǔn)備就緒,當(dāng)時英特爾宣布推遲到明年進(jìn)行更多驗證。就在那時,里維拉女士介入了。這位長期擔(dān)任英特爾高管的人在2019年被任命為首席人力資源官之前,已經(jīng)成功地建立了網(wǎng)絡(luò)產(chǎn)品業(yè)務(wù)?!拔覀儽仨毣謴?fù)執(zhí)行力,”基辛格先生說?!拔倚枰腥四軌蛲ι矶?,為我解決這個問題?!?021年10月,Rivera女士和一位高級設(shè)計主管建立了每周一次的Sapphire Rapids狀態(tài)會議,每周一早上 7 點(diǎn)舉行。她說,這些會議表明在查找和修復(fù)錯誤方面取得了穩(wěn)步進(jìn)展,這增強(qiáng)了人們對2022年第二季度開始生產(chǎn)的信心。然后是去年五月發(fā)現(xiàn)的缺陷。里維拉女士不愿詳細(xì)描述,但表示它影響了處理器的性能。
6月,她利用一次投資者活動宣布延遲至少四分之一,這將Sapphire Rapids推遲到了11月?!拔覀円呀?jīng)準(zhǔn)備好發(fā)貨了,”納西夫女士說。最后的延遲“考慮到已經(jīng)付出的所有努力,真是太令人難過了?!崩锞S拉女士從挫折中看到了一系列教訓(xùn)。一個原因很簡單,英特爾在Sapphire Rapids中包含了太多的創(chuàng)新,而不是更早地提供一個不那么雄心勃勃的產(chǎn)品。她還得出結(jié)論,該團(tuán)隊?wèi)?yīng)該花更多時間使用計算機(jī)模擬來完善和測試其設(shè)計。里維拉女士說,在樣品芯片出現(xiàn)錯誤之前發(fā)現(xiàn)錯誤成本較低,并且可以刪除功能以簡化產(chǎn)品。此后,她轉(zhuǎn)而加強(qiáng)英特爾的模擬和驗證能力?!拔覀冊?jīng)有很多這樣的肌肉,我們?nèi)纹湮s,”里維拉女士說?!艾F(xiàn)在我們正在重建?!彼€確定英特爾安排的產(chǎn)品數(shù)量超過了其工程師和客戶能夠輕松處理的數(shù)量。因此,她簡化了產(chǎn)品路線圖,包括將Sapphire Rapids的繼任者從2023年推遲到2024 年。更廣泛地說,里維拉女士和其他英特爾高管推動該組織開發(fā)更好的流程來記錄技術(shù)問題,并在公司內(nèi)外共享該信息。
編輯:黃飛
評論
查看更多