知名媒體nextplatform表示,仍在仔細(xì)研究最近在同一時(shí)間舉行的 Hot Interconnects、Hot Chips、Google Cloud Next 和 Meta Networking @ Scale 會(huì)議上的大量演示。他們打算采取通常的、有條理的方法來(lái)尋找有趣的部分并對(duì)我們所聽(tīng)到和看到的內(nèi)容進(jìn)行一些分析。
這一次,其將目光投向了即將重新上市的 Arm Ltd. 正式推出的“Demeter”Neoverse V2 內(nèi)核。
如果 Demeter 核心設(shè)計(jì)發(fā)生在五年前,或者更好的是十年前,這將是一件非常大的事情,因?yàn)閷?duì)于許多想要制造 Arm 服務(wù)器芯片的組織來(lái)說(shuō),設(shè)計(jì)好的核心非常困難。正如今年 Hot Chips 發(fā)布的“Genesis”計(jì)算子系統(tǒng) (CSS) 所示,設(shè)計(jì)一款好的處理器也許也很困難。超大規(guī)模廠商和云構(gòu)建者一直想做的是針對(duì)其工作負(fù)載大量定制處理器,而不是設(shè)計(jì)處理器。大型企業(yè)有時(shí)也希望如此,并且具有特定工作負(fù)載需求的各種規(guī)模的企業(yè)類別也希望如此。
但處理器銷(xiāo)售商(并非所有銷(xiāo)售商都是制造商,也并非所有制造商都是銷(xiāo)售商)無(wú)法提供大規(guī)模定制,因?yàn)槊恳淮圃於鄠€(gè)變體的成本非常昂貴。我們確實(shí)看到的變化實(shí)際上是關(guān)于打開(kāi)和關(guān)閉一些設(shè)計(jì)中固有的功能,這是由硅片部分的良率所迫使的,因?yàn)樗峭ㄟ^(guò)功率門(mén)控功能人為地創(chuàng)建變化并收取零件費(fèi)用。
Demeter 核心是第一個(gè)實(shí)現(xiàn) 2021 年 3 月宣布的 Armv9 架構(gòu)的核心,是迄今為止 Arm 為服務(wù)器設(shè)計(jì)的最好的核心,這就是為什么 Nvidia 能夠僅授權(quán)該核心和其他組件其72 核“Grace”服務(wù)器 CPU,它是 Nvidia 系統(tǒng)架構(gòu)不可或缺的一部分,支持傳統(tǒng) HPC 仿真和建模工作負(fù)載的全 CPU 計(jì)算,并提供輔助內(nèi)存和計(jì)算能力。憑借四個(gè) 128 位 SVE2 矢量引擎,Demeter 核心肯定會(huì)有一個(gè)強(qiáng)大的引擎來(lái)運(yùn)行經(jīng)典的 HPC 工作負(fù)載以及某些 AI 推理工作負(fù)載(那些不太胖的工作負(fù)載,可能不包括大多數(shù)LLM),甚至可能是在某些情況下重新訓(xùn)練人工智能模型。如果設(shè)計(jì)中可能有 16 到 256 個(gè)內(nèi)核,那么觸發(fā)器當(dāng)然可以堆疊起來(lái)。
我們只是想知道除了 Nvidia 之外,還有誰(shuí)會(huì)在他們的 CPU 設(shè)計(jì)中使用 Demeter 核心。
AWS 很可能會(huì)在其未來(lái)的 Graviton4 服務(wù)器處理器中采用 V2 內(nèi)核,并在其當(dāng)前的 Graviton3 處理器中使用“Zeus”V1 內(nèi)核。
目前尚不清楚谷歌在傳聞中正在開(kāi)發(fā)的一對(duì)定制 Arm 服務(wù)器芯片中使用了什么內(nèi)核——其中一個(gè)是與 Marvell 合作,如果傳聞屬實(shí)的話,另一個(gè)是與自己的團(tuán)隊(duì)合作——但如果我們知道的話,我們也不會(huì)感到驚訝。其中之一是使用 V2 內(nèi)核。
AmpereComputing 已在其 192 核“Siryn”AmpereOne 芯片中從 Arm 的“Ares”N1 內(nèi)核切換為自己的內(nèi)核(我們稱之為 A1)。
印度高級(jí)計(jì)算發(fā)展中心 (C-DAC) 正在為 HPC 工作負(fù)載構(gòu)建自己的“Aum”處理器,并且它基于Arm的Neoverse V1核心。
正如我們之前指出的,富士通、Arm 和日本 RIKEN 實(shí)驗(yàn)室聯(lián)合為“Fugaku”超級(jí)計(jì)算機(jī)使用的48 核 A64FX 處理器打造的定制 Arm 內(nèi)核中的 512 位向量可以被視為一種Neoverse V0 核心在于 SVE 設(shè)計(jì)最初是為 A64FX 創(chuàng)建的。
我們還想知道,除了Arm在Hot Chips 2023上推出的N2核心芯片之外,為什么沒(méi)有立即推出基于V2核心的CSS服務(wù)器芯片設(shè)計(jì)。為什么CSS設(shè)計(jì)中不能同時(shí)使用N2和V2核心呢?我們意識(shí)到一些數(shù)據(jù)中心運(yùn)營(yíng)商需要更多的性價(jià)比優(yōu)化,并且認(rèn)為他們不需要那么多向量;軟件和工作負(fù)載是否正確還有待觀察。
但 AWS 選擇 V1 和 Nvidia 選擇 V2 是一個(gè)非常有力的指標(biāo)。AmpereComputing計(jì)算 A1 核心在矢量方面更像是 N2 核心,有兩個(gè) 128 位引擎,因此云上胖矢量核心的這種行為并不普遍。
V2 就像火箭
Arm 于 2020 年 9 月將其 Neoverse 核心和 CPU 設(shè)計(jì)分為三部分,將 V 系列高性能核心(具有雙倍向量引擎)從主線 N 系列核心(專注于整數(shù)性能)中分離出來(lái),并添加到 E 系列(入門(mén)級(jí))重點(diǎn)關(guān)注能源效率和邊緣的芯片。多年來(lái),該路線圖已經(jīng)擴(kuò)展和更新了很多次,最新的路線圖(帶有 N2 平臺(tái)添加的 CSS 子系統(tǒng)變體)已在 Hot Chips 上展示:
我們?cè)谖覀兪煜さ暮诵暮推脚_(tái)代號(hào)中添加了它們,因?yàn)槲覀兿矚g同義詞。
Arm 院士兼首席 CPU 架構(gòu)師 Magnus Bruce 在 Hot Chips 上介紹了 V2 平臺(tái),談?wù)摿嗽摷軜?gòu)以及與 Zeus V1 平臺(tái)相比的變化。這張圖表很好地總結(jié)了這一點(diǎn):
“這個(gè)管道的基礎(chǔ)是一個(gè)提前運(yùn)行分支預(yù)測(cè)器,這個(gè)分支預(yù)測(cè)器充當(dāng)指令預(yù)取器,它將提取與分支分離,”Bruce解釋道?!按笮头种ьA(yù)測(cè)結(jié)構(gòu)可以覆蓋非常大的現(xiàn)實(shí)服務(wù)器工作負(fù)載。我們使用在發(fā)出后讀取的物理寄存器文件,允許非常大的發(fā)出隊(duì)列,而無(wú)需存儲(chǔ)數(shù)據(jù)的負(fù)擔(dān)。這是解鎖 ILP [指令級(jí)并行性]。我們使用低延遲和私有 L2 緩存、低延遲 L1 和私有 L2 緩存以及最先進(jìn)的預(yù)取算法和積極的存儲(chǔ)到加載轉(zhuǎn)發(fā),以保持內(nèi)核的氣泡和停頓最少( bubbles and stalls)。系統(tǒng)的動(dòng)態(tài)反饋機(jī)制允許內(nèi)核調(diào)節(jié)攻擊性并主動(dòng)防止系統(tǒng)擁塞。這些基本概念使我們能夠擴(kuò)大機(jī)器的寬度和深度,同時(shí)保持快速錯(cuò)誤預(yù)測(cè)恢復(fù)所需的短管道?!?/p>
重要的是,這是一個(gè) Armv9 實(shí)現(xiàn),它旨在顛覆該架構(gòu),與十多年來(lái)定義 Arm 芯片的多代 Armv8 架構(gòu)相比,它帶來(lái)了性能、安全性和可擴(kuò)展性增強(qiáng)。
V2 芯片的架構(gòu)調(diào)整很微妙,但顯然很有效。但同樣明顯的是,13% 的性能提升距離 Arm 早在 2019 年設(shè)定的每時(shí)鐘指令數(shù) (IPC) 30% 的提升目標(biāo)還有很長(zhǎng)的路要走:
無(wú)論如何,這里是對(duì) V2 核心的分支預(yù)測(cè)器和獲取單元以及 L1 緩存的深入分析:
正如您所看到的,V1 核心的很多功能都轉(zhuǎn)移到了 V2 核心,但 V2 核心也有一些更新。許多隊(duì)列、表和帶寬都增加了一倍,但微操作緩存實(shí)際上在轉(zhuǎn)向 V2 設(shè)計(jì)時(shí)減少了。根據(jù)使用芯片模擬器為 V1 和 V2 建模的 SPEC CPU 2017 整數(shù)基準(zhǔn),對(duì) V2 內(nèi)核的調(diào)整使每個(gè)時(shí)鐘指令增加了約 2.9%。
值得一提的是,V1 內(nèi)核在解碼和指令分派方面的一些微架構(gòu)優(yōu)點(diǎn)直接傳遞到 V2 內(nèi)核,但解碼器通道和隊(duì)列有所提升。總體效果是 IPC 提高了 2.9%,這也是通過(guò) SPEC CPU 2017 整數(shù)測(cè)試來(lái)衡量的。(IPC 通常是使用混合測(cè)試來(lái)計(jì)算的,而不僅僅是 SPEC CPU 評(píng)級(jí)。但這就是我們得到的。)
借助 V2 內(nèi)核,Arm 架構(gòu)師又添加了兩個(gè)單周期算術(shù)邏輯單元 (ALU),并增加了問(wèn)題隊(duì)列的大小,并將謂詞運(yùn)算符的帶寬加倍,這些調(diào)整加上其他一些調(diào)整,又增加了 3.3%核心性能在 2.8 GHz 下歸一化。
與 V1 核心一樣,V2 核心有兩個(gè)加載/存儲(chǔ)管道和一個(gè)加載管道,但表后備緩沖區(qū) (TLB) 上的條目增加了 — 從 40 個(gè)條目增加到 48 個(gè)條目 — 并且各種存儲(chǔ)和讀取隊(duì)列也增加了變得更大。
這一變化和其他變化使 V2 核心性能又增加了 3%。
Arm 架構(gòu)師通過(guò)硬件預(yù)取數(shù)據(jù)的變化獲得了最大的性能提升:
“Neoverse V1 已經(jīng)具備了最先進(jìn)的預(yù)取功能,”Bruce 解釋道,我們將讓他帶您了解預(yù)取增強(qiáng)功能的低級(jí)解釋。深吸一口氣。。。。“通過(guò)對(duì) L1 和 L2 misses進(jìn)行多引擎訓(xùn)練并預(yù)取到 L1 和 L2 緩存中,我們的預(yù)取器通常使用虛擬地址來(lái)允許頁(yè)面交叉(page crossing),這使得它們也可以充當(dāng) TLB 預(yù)取。預(yù)取器使用來(lái)自互連的動(dòng)態(tài)反饋以及 CPU 內(nèi)部的準(zhǔn)確性和及時(shí)性測(cè)量來(lái)調(diào)節(jié)其主動(dòng)性。
V2 建立在 V1 硬件的基礎(chǔ)上,改進(jìn)了訓(xùn)練,通過(guò)更好的過(guò)濾和訓(xùn)練操作提高準(zhǔn)確性,并在更多預(yù)取器中使用程序計(jì)數(shù)器以實(shí)現(xiàn)更好的關(guān)聯(lián)和更好地防止混疊。還添加了新的預(yù)取引擎。L2 獲得了全局空間內(nèi)存流引擎,增加了它可以覆蓋的預(yù)取器的偏移范圍,并且比舊的標(biāo)準(zhǔn) SMS 引擎有了很大的改進(jìn)。我們添加了一個(gè)采樣間接預(yù)取器( sampling indirect prefetcher),用于處理指針解除引用場(chǎng)景。
這不是數(shù)據(jù)預(yù)測(cè),而是學(xué)習(xí)數(shù)據(jù)消耗模式作為其他負(fù)載的指針。我們還添加了一個(gè)表遍歷預(yù)取器(table walk prefetcher),可以將頁(yè)表?xiàng)l目預(yù)?。╬age table entries)到二級(jí)緩存中。現(xiàn)在,所有這些添加的預(yù)取器及其攻擊性都會(huì)造成系統(tǒng)擁塞。特別是在系統(tǒng)級(jí)緩存DRAM等共享資源上。我們?yōu)樾枨蠛皖A(yù)取提供差異化的 QoS 級(jí)別。這使我們能夠進(jìn)行積極的預(yù)取,而不會(huì)影響需求請(qǐng)求的加載延遲。
動(dòng)態(tài)預(yù)取動(dòng)態(tài)反饋將預(yù)取器的攻擊性調(diào)節(jié)到可持續(xù)的水平。這些變化加起來(lái)使規(guī)格管理器增加了 5.3%,但更重要的是,我們同時(shí)看到 SLC 缺失減少了 8.2%,因此我們可以用更少的 DRAM 流量獲得更高的性能?!?/p>
以下是二級(jí)緩存如何發(fā)揮其魔力:
二級(jí)緩存加倍對(duì)性能來(lái)說(shuō)并沒(méi)有太大變化,但系統(tǒng)級(jí)緩存misses的減少確實(shí)間接提高了性能。
以下是 IPC 的總和:
這些是加法效應(yīng),而不是乘法效應(yīng),V2 核心的整數(shù)性能提高了 13%——這也是經(jīng)過(guò)建模的,而且這只是使用 SPEC CPU 2017 整數(shù)測(cè)試——同時(shí)將系統(tǒng)級(jí)緩存缺失減少了 10.5%總體百分比。
每當(dāng)新的核心或芯片問(wèn)世時(shí),該核心或芯片都會(huì)根據(jù)性能、功耗和面積的相互作用進(jìn)行分級(jí)。以下是 V1 和 V2 核心的堆疊方式:
采用 7 納米工藝實(shí)現(xiàn)的 V1 核心面積為 2.5 平方毫米,二級(jí)緩存為 1 MB,功耗約為 1.2 瓦。V2 核心的面積稍小一些,L2 緩存是 2 MB 的兩倍,功耗提高了 17%。這些比較均以 2.8 GHz 時(shí)鐘速度進(jìn)行標(biāo)準(zhǔn)化。
當(dāng)然,V2 不僅僅是一個(gè)核心,而是一個(gè)可以授權(quán)的平臺(tái)規(guī)范:
借助 CMN-700 互連,Arm 被許可人可以構(gòu)建可擴(kuò)展至 256 個(gè)內(nèi)核和 512 MB 系統(tǒng)級(jí)緩存的 V2 CPU,該互連可在所有內(nèi)核、內(nèi)存和內(nèi)存中提供 4 TB/秒的橫截面帶寬。位于網(wǎng)格上的 I/O 控制器。
V2 核心的很多演示都集中在整數(shù)方面,但在演講的問(wèn)答中,Bruce 確實(shí)說(shuō)了一些關(guān)于矢量性能的有趣內(nèi)容。V1 核心有一對(duì) 256 位 SVE1 矢量引擎,但 V2 核心有四個(gè) 128 位 SVE2 矢量引擎。正如布魯斯所說(shuō),這樣做是因?yàn)閷⒒旌暇葦?shù)學(xué)分散到四個(gè)單元比嘗試分散到兩個(gè)單元更容易(而且我們認(rèn)為更有效)。
但正如我們所說(shuō),除了 Nvidia 和可能的 AWS 之外,誰(shuí)將獲得 V2 核心的許可?也許任何打算使用 V2 的人都已經(jīng)在進(jìn)行自定義設(shè)計(jì),因此沒(méi)有理由制作 CSS 變體?
編輯:黃飛
-
處理器
+關(guān)注
關(guān)注
68文章
19100瀏覽量
228814 -
ARM
+關(guān)注
關(guān)注
134文章
9027瀏覽量
366479 -
cpu
+關(guān)注
關(guān)注
68文章
10804瀏覽量
210829 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
8958瀏覽量
85082 -
人工智能
+關(guān)注
關(guān)注
1789文章
46652瀏覽量
237073
原文標(biāo)題:Arm最強(qiáng)處理來(lái)襲,誰(shuí)會(huì)用
文章出處:【微信號(hào):wc_ysj,微信公眾號(hào):旺材芯片】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論