0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Arm最強(qiáng)處理器架構(gòu)技術(shù)解析

旺材芯片 ? 來(lái)源:半導(dǎo)體行業(yè)觀察 ? 2023-09-29 06:44 ? 次閱讀

知名媒體nextplatform表示,仍在仔細(xì)研究最近在同一時(shí)間舉行的 Hot Interconnects、Hot Chips、Google Cloud Next 和 Meta Networking @ Scale 會(huì)議上的大量演示。他們打算采取通常的、有條理的方法來(lái)尋找有趣的部分并對(duì)我們所聽(tīng)到和看到的內(nèi)容進(jìn)行一些分析。

這一次,其將目光投向了即將重新上市的 Arm Ltd. 正式推出的“Demeter”Neoverse V2 內(nèi)核。

如果 Demeter 核心設(shè)計(jì)發(fā)生在五年前,或者更好的是十年前,這將是一件非常大的事情,因?yàn)閷?duì)于許多想要制造 Arm 服務(wù)器芯片的組織來(lái)說(shuō),設(shè)計(jì)好的核心非常困難。正如今年 Hot Chips 發(fā)布的“Genesis”計(jì)算子系統(tǒng) (CSS) 所示,設(shè)計(jì)一款好的處理器也許也很困難。超大規(guī)模廠商和云構(gòu)建者一直想做的是針對(duì)其工作負(fù)載大量定制處理器,而不是設(shè)計(jì)處理器。大型企業(yè)有時(shí)也希望如此,并且具有特定工作負(fù)載需求的各種規(guī)模的企業(yè)類別也希望如此。

但處理器銷(xiāo)售商(并非所有銷(xiāo)售商都是制造商,也并非所有制造商都是銷(xiāo)售商)無(wú)法提供大規(guī)模定制,因?yàn)槊恳淮圃於鄠€(gè)變體的成本非常昂貴。我們確實(shí)看到的變化實(shí)際上是關(guān)于打開(kāi)和關(guān)閉一些設(shè)計(jì)中固有的功能,這是由硅片部分的良率所迫使的,因?yàn)樗峭ㄟ^(guò)功率門(mén)控功能人為地創(chuàng)建變化并收取零件費(fèi)用。

Demeter 核心是第一個(gè)實(shí)現(xiàn) 2021 年 3 月宣布的 Armv9 架構(gòu)的核心,是迄今為止 Arm 為服務(wù)器設(shè)計(jì)的最好的核心,這就是為什么 Nvidia 能夠僅授權(quán)該核心和其他組件其72 核“Grace”服務(wù)器 CPU,它是 Nvidia 系統(tǒng)架構(gòu)不可或缺的一部分,支持傳統(tǒng) HPC 仿真和建模工作負(fù)載的全 CPU 計(jì)算,并提供輔助內(nèi)存和計(jì)算能力。憑借四個(gè) 128 位 SVE2 矢量引擎,Demeter 核心肯定會(huì)有一個(gè)強(qiáng)大的引擎來(lái)運(yùn)行經(jīng)典的 HPC 工作負(fù)載以及某些 AI 推理工作負(fù)載(那些不太胖的工作負(fù)載,可能不包括大多數(shù)LLM),甚至可能是在某些情況下重新訓(xùn)練人工智能模型。如果設(shè)計(jì)中可能有 16 到 256 個(gè)內(nèi)核,那么觸發(fā)器當(dāng)然可以堆疊起來(lái)。

我們只是想知道除了 Nvidia 之外,還有誰(shuí)會(huì)在他們的 CPU 設(shè)計(jì)中使用 Demeter 核心。

AWS 很可能會(huì)在其未來(lái)的 Graviton4 服務(wù)器處理器中采用 V2 內(nèi)核,并在其當(dāng)前的 Graviton3 處理器中使用“Zeus”V1 內(nèi)核。

目前尚不清楚谷歌在傳聞中正在開(kāi)發(fā)的一對(duì)定制 Arm 服務(wù)器芯片中使用了什么內(nèi)核——其中一個(gè)是與 Marvell 合作,如果傳聞屬實(shí)的話,另一個(gè)是與自己的團(tuán)隊(duì)合作——但如果我們知道的話,我們也不會(huì)感到驚訝。其中之一是使用 V2 內(nèi)核。

AmpereComputing 已在其 192 核“Siryn”AmpereOne 芯片中從 Arm 的“Ares”N1 內(nèi)核切換為自己的內(nèi)核(我們稱之為 A1)。

印度高級(jí)計(jì)算發(fā)展中心 (C-DAC) 正在為 HPC 工作負(fù)載構(gòu)建自己的“Aum”處理器,并且它基于Arm的Neoverse V1核心。

正如我們之前指出的,富士通、Arm 和日本 RIKEN 實(shí)驗(yàn)室聯(lián)合為“Fugaku”超級(jí)計(jì)算機(jī)使用的48 核 A64FX 處理器打造的定制 Arm 內(nèi)核中的 512 位向量可以被視為一種Neoverse V0 核心在于 SVE 設(shè)計(jì)最初是為 A64FX 創(chuàng)建的。

我們還想知道,除了Arm在Hot Chips 2023上推出的N2核心芯片之外,為什么沒(méi)有立即推出基于V2核心的CSS服務(wù)器芯片設(shè)計(jì)。為什么CSS設(shè)計(jì)中不能同時(shí)使用N2和V2核心呢?我們意識(shí)到一些數(shù)據(jù)中心運(yùn)營(yíng)商需要更多的性價(jià)比優(yōu)化,并且認(rèn)為他們不需要那么多向量;軟件和工作負(fù)載是否正確還有待觀察。

但 AWS 選擇 V1 和 Nvidia 選擇 V2 是一個(gè)非常有力的指標(biāo)。AmpereComputing計(jì)算 A1 核心在矢量方面更像是 N2 核心,有兩個(gè) 128 位引擎,因此云上胖矢量核心的這種行為并不普遍。

V2 就像火箭

Arm 于 2020 年 9 月將其 Neoverse 核心和 CPU 設(shè)計(jì)分為三部分,將 V 系列高性能核心(具有雙倍向量引擎)從主線 N 系列核心(專注于整數(shù)性能)中分離出來(lái),并添加到 E 系列(入門(mén)級(jí))重點(diǎn)關(guān)注能源效率和邊緣的芯片。多年來(lái),該路線圖已經(jīng)擴(kuò)展和更新了很多次,最新的路線圖(帶有 N2 平臺(tái)添加的 CSS 子系統(tǒng)變體)已在 Hot Chips 上展示:

5fd8beb8-52e0-11ee-a25d-92fbcf53809c.jpg

我們?cè)谖覀兪煜さ暮诵暮推脚_(tái)代號(hào)中添加了它們,因?yàn)槲覀兿矚g同義詞。

Arm 院士兼首席 CPU 架構(gòu)師 Magnus Bruce 在 Hot Chips 上介紹了 V2 平臺(tái),談?wù)摿嗽摷軜?gòu)以及與 Zeus V1 平臺(tái)相比的變化。這張圖表很好地總結(jié)了這一點(diǎn):

5ff39300-52e0-11ee-a25d-92fbcf53809c.jpg

“這個(gè)管道的基礎(chǔ)是一個(gè)提前運(yùn)行分支預(yù)測(cè)器,這個(gè)分支預(yù)測(cè)器充當(dāng)指令預(yù)取器,它將提取與分支分離,”Bruce解釋道?!按笮头种ьA(yù)測(cè)結(jié)構(gòu)可以覆蓋非常大的現(xiàn)實(shí)服務(wù)器工作負(fù)載。我們使用在發(fā)出后讀取的物理寄存器文件,允許非常大的發(fā)出隊(duì)列,而無(wú)需存儲(chǔ)數(shù)據(jù)的負(fù)擔(dān)。這是解鎖 ILP [指令級(jí)并行性]。我們使用低延遲和私有 L2 緩存、低延遲 L1 和私有 L2 緩存以及最先進(jìn)的預(yù)取算法和積極的存儲(chǔ)到加載轉(zhuǎn)發(fā),以保持內(nèi)核的氣泡和停頓最少( bubbles and stalls)。系統(tǒng)的動(dòng)態(tài)反饋機(jī)制允許內(nèi)核調(diào)節(jié)攻擊性并主動(dòng)防止系統(tǒng)擁塞。這些基本概念使我們能夠擴(kuò)大機(jī)器的寬度和深度,同時(shí)保持快速錯(cuò)誤預(yù)測(cè)恢復(fù)所需的短管道?!?/p>

重要的是,這是一個(gè) Armv9 實(shí)現(xiàn),它旨在顛覆該架構(gòu),與十多年來(lái)定義 Arm 芯片的多代 Armv8 架構(gòu)相比,它帶來(lái)了性能、安全性和可擴(kuò)展性增強(qiáng)。

V2 芯片的架構(gòu)調(diào)整很微妙,但顯然很有效。但同樣明顯的是,13% 的性能提升距離 Arm 早在 2019 年設(shè)定的每時(shí)鐘指令數(shù) (IPC) 30% 的提升目標(biāo)還有很長(zhǎng)的路要走:

6013b6bc-52e0-11ee-a25d-92fbcf53809c.jpg

無(wú)論如何,這里是對(duì) V2 核心的分支預(yù)測(cè)器和獲取單元以及 L1 緩存的深入分析:

60283c90-52e0-11ee-a25d-92fbcf53809c.jpg

正如您所看到的,V1 核心的很多功能都轉(zhuǎn)移到了 V2 核心,但 V2 核心也有一些更新。許多隊(duì)列、表和帶寬都增加了一倍,但微操作緩存實(shí)際上在轉(zhuǎn)向 V2 設(shè)計(jì)時(shí)減少了。根據(jù)使用芯片模擬器為 V1 和 V2 建模的 SPEC CPU 2017 整數(shù)基準(zhǔn),對(duì) V2 內(nèi)核的調(diào)整使每個(gè)時(shí)鐘指令增加了約 2.9%。

60555950-52e0-11ee-a25d-92fbcf53809c.jpg

值得一提的是,V1 內(nèi)核在解碼和指令分派方面的一些微架構(gòu)優(yōu)點(diǎn)直接傳遞到 V2 內(nèi)核,但解碼器通道和隊(duì)列有所提升。總體效果是 IPC 提高了 2.9%,這也是通過(guò) SPEC CPU 2017 整數(shù)測(cè)試來(lái)衡量的。(IPC 通常是使用混合測(cè)試來(lái)計(jì)算的,而不僅僅是 SPEC CPU 評(píng)級(jí)。但這就是我們得到的。)

606e38a8-52e0-11ee-a25d-92fbcf53809c.jpg

借助 V2 內(nèi)核,Arm 架構(gòu)師又添加了兩個(gè)單周期算術(shù)邏輯單元 (ALU),并增加了問(wèn)題隊(duì)列的大小,并將謂詞運(yùn)算符的帶寬加倍,這些調(diào)整加上其他一些調(diào)整,又增加了 3.3%核心性能在 2.8 GHz 下歸一化。

與 V1 核心一樣,V2 核心有兩個(gè)加載/存儲(chǔ)管道和一個(gè)加載管道,但表后備緩沖區(qū) (TLB) 上的條目增加了 — 從 40 個(gè)條目增加到 48 個(gè)條目 — 并且各種存儲(chǔ)和讀取隊(duì)列也增加了變得更大。

60736ae4-52e0-11ee-a25d-92fbcf53809c.jpg

這一變化和其他變化使 V2 核心性能又增加了 3%。

Arm 架構(gòu)師通過(guò)硬件預(yù)取數(shù)據(jù)的變化獲得了最大的性能提升:

609dfc50-52e0-11ee-a25d-92fbcf53809c.jpg

“Neoverse V1 已經(jīng)具備了最先進(jìn)的預(yù)取功能,”Bruce 解釋道,我們將讓他帶您了解預(yù)取增強(qiáng)功能的低級(jí)解釋。深吸一口氣。。。。“通過(guò)對(duì) L1 和 L2 misses進(jìn)行多引擎訓(xùn)練并預(yù)取到 L1 和 L2 緩存中,我們的預(yù)取器通常使用虛擬地址來(lái)允許頁(yè)面交叉(page crossing),這使得它們也可以充當(dāng) TLB 預(yù)取。預(yù)取器使用來(lái)自互連的動(dòng)態(tài)反饋以及 CPU 內(nèi)部的準(zhǔn)確性和及時(shí)性測(cè)量來(lái)調(diào)節(jié)其主動(dòng)性。

V2 建立在 V1 硬件的基礎(chǔ)上,改進(jìn)了訓(xùn)練,通過(guò)更好的過(guò)濾和訓(xùn)練操作提高準(zhǔn)確性,并在更多預(yù)取器中使用程序計(jì)數(shù)器以實(shí)現(xiàn)更好的關(guān)聯(lián)和更好地防止混疊。還添加了新的預(yù)取引擎。L2 獲得了全局空間內(nèi)存流引擎,增加了它可以覆蓋的預(yù)取器的偏移范圍,并且比舊的標(biāo)準(zhǔn) SMS 引擎有了很大的改進(jìn)。我們添加了一個(gè)采樣間接預(yù)取器( sampling indirect prefetcher),用于處理指針解除引用場(chǎng)景。

這不是數(shù)據(jù)預(yù)測(cè),而是學(xué)習(xí)數(shù)據(jù)消耗模式作為其他負(fù)載的指針。我們還添加了一個(gè)表遍歷預(yù)取器(table walk prefetcher),可以將頁(yè)表?xiàng)l目預(yù)?。╬age table entries)到二級(jí)緩存中。現(xiàn)在,所有這些添加的預(yù)取器及其攻擊性都會(huì)造成系統(tǒng)擁塞。特別是在系統(tǒng)級(jí)緩存DRAM等共享資源上。我們?yōu)樾枨蠛皖A(yù)取提供差異化的 QoS 級(jí)別。這使我們能夠進(jìn)行積極的預(yù)取,而不會(huì)影響需求請(qǐng)求的加載延遲。

動(dòng)態(tài)預(yù)取動(dòng)態(tài)反饋將預(yù)取器的攻擊性調(diào)節(jié)到可持續(xù)的水平。這些變化加起來(lái)使規(guī)格管理器增加了 5.3%,但更重要的是,我們同時(shí)看到 SLC 缺失減少了 8.2%,因此我們可以用更少的 DRAM 流量獲得更高的性能?!?/p>

以下是二級(jí)緩存如何發(fā)揮其魔力:

60b0b80e-52e0-11ee-a25d-92fbcf53809c.jpg

二級(jí)緩存加倍對(duì)性能來(lái)說(shuō)并沒(méi)有太大變化,但系統(tǒng)級(jí)緩存misses的減少確實(shí)間接提高了性能。

以下是 IPC 的總和:

60c24380-52e0-11ee-a25d-92fbcf53809c.jpg

這些是加法效應(yīng),而不是乘法效應(yīng),V2 核心的整數(shù)性能提高了 13%——這也是經(jīng)過(guò)建模的,而且這只是使用 SPEC CPU 2017 整數(shù)測(cè)試——同時(shí)將系統(tǒng)級(jí)緩存缺失減少了 10.5%總體百分比。

每當(dāng)新的核心或芯片問(wèn)世時(shí),該核心或芯片都會(huì)根據(jù)性能、功耗和面積的相互作用進(jìn)行分級(jí)。以下是 V1 和 V2 核心的堆疊方式:

60d9ff66-52e0-11ee-a25d-92fbcf53809c.jpg

采用 7 納米工藝實(shí)現(xiàn)的 V1 核心面積為 2.5 平方毫米,二級(jí)緩存為 1 MB,功耗約為 1.2 瓦。V2 核心的面積稍小一些,L2 緩存是 2 MB 的兩倍,功耗提高了 17%。這些比較均以 2.8 GHz 時(shí)鐘速度進(jìn)行標(biāo)準(zhǔn)化。

當(dāng)然,V2 不僅僅是一個(gè)核心,而是一個(gè)可以授權(quán)的平臺(tái)規(guī)范:

610302a8-52e0-11ee-a25d-92fbcf53809c.jpg

借助 CMN-700 互連,Arm 被許可人可以構(gòu)建可擴(kuò)展至 256 個(gè)內(nèi)核和 512 MB 系統(tǒng)級(jí)緩存的 V2 CPU,該互連可在所有內(nèi)核、內(nèi)存和內(nèi)存中提供 4 TB/秒的橫截面帶寬。位于網(wǎng)格上的 I/O 控制器。

V2 核心的很多演示都集中在整數(shù)方面,但在演講的問(wèn)答中,Bruce 確實(shí)說(shuō)了一些關(guān)于矢量性能的有趣內(nèi)容。V1 核心有一對(duì) 256 位 SVE1 矢量引擎,但 V2 核心有四個(gè) 128 位 SVE2 矢量引擎。正如布魯斯所說(shuō),這樣做是因?yàn)閷⒒旌暇葦?shù)學(xué)分散到四個(gè)單元比嘗試分散到兩個(gè)單元更容易(而且我們認(rèn)為更有效)。

但正如我們所說(shuō),除了 Nvidia 和可能的 AWS 之外,誰(shuí)將獲得 V2 核心的許可?也許任何打算使用 V2 的人都已經(jīng)在進(jìn)行自定義設(shè)計(jì),因此沒(méi)有理由制作 CSS 變體?

編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19100

    瀏覽量

    228814
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    134

    文章

    9027

    瀏覽量

    366479
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    10804

    瀏覽量

    210829
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    12

    文章

    8958

    瀏覽量

    85082
  • 人工智能
    +關(guān)注

    關(guān)注

    1789

    文章

    46652

    瀏覽量

    237073

原文標(biāo)題:Arm最強(qiáng)處理來(lái)襲,誰(shuí)會(huì)用

文章出處:【微信號(hào):wc_ysj,微信公眾號(hào):旺材芯片】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    ARM 架構(gòu)/特性(處理器)全解

    ARM 架構(gòu)是構(gòu)建每個(gè) ARM 處理器的基礎(chǔ)。ARM 架構(gòu)隨著時(shí)間的推移不斷發(fā)展,其中包含的
    發(fā)表于 07-26 17:53 ?5205次閱讀

    ARM處理器簡(jiǎn)介及RISC設(shè)計(jì)要點(diǎn)

    ARM是一個(gè)32位RISC(精簡(jiǎn)指令集)處理器架構(gòu),ARM處理器則是ARM
    的頭像 發(fā)表于 04-01 08:17 ?9225次閱讀
    <b class='flag-5'>ARM</b><b class='flag-5'>處理器</b>簡(jiǎn)介及RISC設(shè)計(jì)要點(diǎn)

    淺談ARM處理器架構(gòu)

    ,新的 Cortex-M處理器家族設(shè)計(jì)的非常容易使用。因此,ARM 微控制處理器在單片機(jī)和深度嵌入式系統(tǒng)市場(chǎng)非常成功和受歡迎。二、ARM
    發(fā)表于 08-18 12:04

    Cortex系列處理器是從ARM哪個(gè)架構(gòu)開(kāi)始的?

    Cortex系列處理器是從ARM哪個(gè)架構(gòu)開(kāi)始的?arm架構(gòu)和x86架構(gòu)有什么區(qū)別?體系結(jié)構(gòu)、指令
    發(fā)表于 07-06 10:49

    ARM處理器簡(jiǎn)介

    ARM處理器是一個(gè)32位元精簡(jiǎn)指令集(RISC)處理器架構(gòu),其廣泛地使用在許多嵌入式系統(tǒng)設(shè)計(jì)。ARM全稱為Acorn RISC Machin
    發(fā)表于 08-23 07:45

    ARM處理器架構(gòu)及命名規(guī)則是什么?

    ARM具有哪幾種模式?ARM里寄存、MMU是什么意思?ARM920T中有哪幾類地址?ARM處理器
    發(fā)表于 10-21 06:40

    基于ARm架構(gòu)的嵌入式微處理器

    目錄第一講 簡(jiǎn)單介紹第二講 嵌入式系統(tǒng)結(jié)構(gòu)第三講 基于ARm架構(gòu)的嵌入式微處理器?第四講 SOC第五講 嵌入式系統(tǒng)的設(shè)計(jì)過(guò)程第六講 開(kāi)發(fā)環(huán)境構(gòu)建第七講 嵌入式軟件編程技術(shù)第八講 嵌入式
    發(fā)表于 10-27 07:50

    什么是ARM處理器?

    廠商的x86架構(gòu)處理器,有IBM的power架構(gòu)處理器,高通蘋(píng)果海思有ARM架構(gòu)
    發(fā)表于 11-24 07:05

    ARM處理器的特點(diǎn)及其架構(gòu)解析

    - 基于 ARMv5 架構(gòu)的常用處理器? ARM7? 系列- 面向通用應(yīng)用的經(jīng)典處理器ARM 經(jīng)典處理
    發(fā)表于 04-13 12:08

    ARM,ARM處理器是什么意思

    ARM,ARM處理器是什么意思 ARM處理器簡(jiǎn)介 ARM(Advanced RISC Mach
    發(fā)表于 03-26 10:53 ?5246次閱讀

    ARM_架構(gòu)_特性(處理器)全解

    電子專業(yè)單片機(jī)相關(guān)知識(shí)學(xué)習(xí)教材資料——ARM_架構(gòu)_特性(處理器)全解
    發(fā)表于 10-25 18:27 ?0次下載

    ARM公版架構(gòu) 真的是麒麟處理器的槽點(diǎn)嗎?

    只要出現(xiàn)麒麟處理器,那么必定會(huì)有很多人糾結(jié)于其使用的是ARM的公版架構(gòu),或者用之作為麒麟處理器的弱點(diǎn)進(jìn)行攻擊。那么,在筆者看來(lái),拿采用ARM
    發(fā)表于 01-04 16:24 ?3042次閱讀
    <b class='flag-5'>ARM</b>公版<b class='flag-5'>架構(gòu)</b> 真的是麒麟<b class='flag-5'>處理器</b>的槽點(diǎn)嗎?

    解答arm是什么/arm處理器采用什么技術(shù)

    隨著移動(dòng)設(shè)備平臺(tái)的日益壯大,甚至有取代桌面平臺(tái)的勢(shì)頭,“ARM”這個(gè)詞越來(lái)越多地出現(xiàn)在人們的視野中,特別是手機(jī)或平板處理器上,然而卻從不見(jiàn)ARM處理器,而是“采用
    發(fā)表于 10-26 09:46 ?8175次閱讀

    詳解ARM架構(gòu)處理器系列命名規(guī)則

    處理器的命名應(yīng)該包含兩類:指令集架構(gòu)命名規(guī)則和處理器系列規(guī)則。 ARM 架構(gòu)是構(gòu)建每個(gè) ARM
    發(fā)表于 02-11 10:44 ?8次下載
    詳解<b class='flag-5'>ARM</b><b class='flag-5'>架構(gòu)</b>和<b class='flag-5'>處理器</b>系列命名規(guī)則

    華為鯤鵬處理器架構(gòu)介紹 ARM架構(gòu)處理器應(yīng)用領(lǐng)域

    華為鯤鵬處理器基于Arm架構(gòu)。Arm是一種CPU架構(gòu),有別于Intel、AMD CPU采用的CISC復(fù)雜指令集,
    發(fā)表于 11-02 09:53 ?1.3w次閱讀