久久综合一色综合久久小蛇,韩国上边一面亲下边一面膜短刷场 ,91成人在线视频

知名媒體nextplatform表示，仍在仔細(xì)研究最近在同一時(shí)間舉行的 Hot Interconnects、Hot Chips、Google Cloud Next 和 Meta Networking @ Scale 會(huì)議上的大量演示。他們打算采取通常的、有條理的方法來(lái)尋找有趣的部分并對(duì)我們所聽(tīng)到和看到的內(nèi)容進(jìn)行一些分析。

這一次，其將目光投向了即將重新上市的 Arm Ltd. 正式推出的“Demeter”Neoverse V2 內(nèi)核。

如果 Demeter 核心設(shè)計(jì)發(fā)生在五年前，或者更好的是十年前，這將是一件非常大的事情，因?yàn)閷?duì)于許多想要制造 Arm 服務(wù)器芯片的組織來(lái)說(shuō)，設(shè)計(jì)好的核心非常困難。正如今年 Hot Chips 發(fā)布的“Genesis”計(jì)算子系統(tǒng) (CSS) 所示，設(shè)計(jì)一款好的處理器也許也很困難。超大規(guī)模廠商和云構(gòu)建者一直想做的是針對(duì)其工作負(fù)載大量定制處理器，而不是設(shè)計(jì)處理器。大型企業(yè)有時(shí)也希望如此，并且具有特定工作負(fù)載需求的各種規(guī)模的企業(yè)類別也希望如此。

但處理器銷(xiāo)售商（并非所有銷(xiāo)售商都是制造商，也并非所有制造商都是銷(xiāo)售商）無(wú)法提供大規(guī)模定制，因?yàn)槊恳淮圃於鄠€(gè)變體的成本非常昂貴。我們確實(shí)看到的變化實(shí)際上是關(guān)于打開(kāi)和關(guān)閉一些設(shè)計(jì)中固有的功能，這是由硅片部分的良率所迫使的，因?yàn)樗峭ㄟ^(guò)功率門(mén)控功能人為地創(chuàng)建變化并收取零件費(fèi)用。

Demeter 核心是第一個(gè)實(shí)現(xiàn) 2021 年 3 月宣布的 Armv9 架構(gòu)的核心，是迄今為止 Arm 為服務(wù)器設(shè)計(jì)的最好的核心，這就是為什么 Nvidia 能夠僅授權(quán)該核心和其他組件其72 核“Grace”服務(wù)器 CPU，它是 Nvidia 系統(tǒng)架構(gòu)不可或缺的一部分，支持傳統(tǒng) HPC 仿真和建模工作負(fù)載的全 CPU 計(jì)算，并提供輔助內(nèi)存和計(jì)算能力。憑借四個(gè) 128 位 SVE2 矢量引擎，Demeter 核心肯定會(huì)有一個(gè)強(qiáng)大的引擎來(lái)運(yùn)行經(jīng)典的 HPC 工作負(fù)載以及某些 AI 推理工作負(fù)載（那些不太胖的工作負(fù)載，可能不包括大多數(shù)LLM），甚至可能是在某些情況下重新訓(xùn)練人工智能模型。如果設(shè)計(jì)中可能有 16 到 256 個(gè)內(nèi)核，那么觸發(fā)器當(dāng)然可以堆疊起來(lái)。

我們只是想知道除了 Nvidia 之外，還有誰(shuí)會(huì)在他們的 CPU 設(shè)計(jì)中使用 Demeter 核心。

AWS 很可能會(huì)在其未來(lái)的 Graviton4 服務(wù)器處理器中采用 V2 內(nèi)核，并在其當(dāng)前的 Graviton3 處理器中使用“Zeus”V1 內(nèi)核。

目前尚不清楚谷歌在傳聞中正在開(kāi)發(fā)的一對(duì)定制 Arm 服務(wù)器芯片中使用了什么內(nèi)核——其中一個(gè)是與 Marvell 合作，如果傳聞屬實(shí)的話，另一個(gè)是與自己的團(tuán)隊(duì)合作——但如果我們知道的話，我們也不會(huì)感到驚訝。其中之一是使用 V2 內(nèi)核。

AmpereComputing 已在其 192 核“Siryn”AmpereOne 芯片中從 Arm 的“Ares”N1 內(nèi)核切換為自己的內(nèi)核（我們稱之為 A1）。

印度高級(jí)計(jì)算發(fā)展中心 (C-DAC) 正在為 HPC 工作負(fù)載構(gòu)建自己的“Aum”處理器，并且它基于Arm的Neoverse V1核心。

正如我們之前指出的，富士通、Arm 和日本 RIKEN 實(shí)驗(yàn)室聯(lián)合為“Fugaku”超級(jí)計(jì)算機(jī)使用的48 核 A64FX 處理器打造的定制 Arm 內(nèi)核中的 512 位向量可以被視為一種Neoverse V0 核心在于 SVE 設(shè)計(jì)最初是為 A64FX 創(chuàng)建的。

我們還想知道，除了Arm在Hot Chips 2023上推出的N2核心芯片之外，為什么沒(méi)有立即推出基于V2核心的CSS服務(wù)器芯片設(shè)計(jì)。為什么CSS設(shè)計(jì)中不能同時(shí)使用N2和V2核心呢？我們意識(shí)到一些數(shù)據(jù)中心運(yùn)營(yíng)商需要更多的性價(jià)比優(yōu)化，并且認(rèn)為他們不需要那么多向量；軟件和工作負(fù)載是否正確還有待觀察。

但 AWS 選擇 V1 和 Nvidia 選擇 V2 是一個(gè)非常有力的指標(biāo)。AmpereComputing計(jì)算 A1 核心在矢量方面更像是 N2 核心，有兩個(gè) 128 位引擎，因此云上胖矢量核心的這種行為并不普遍。

V2 就像火箭

Arm 于 2020 年 9 月將其 Neoverse 核心和 CPU 設(shè)計(jì)分為三部分，將 V 系列高性能核心（具有雙倍向量引擎）從主線 N 系列核心（專注于整數(shù)性能）中分離出來(lái)，并添加到 E 系列（入門(mén)級(jí)）重點(diǎn)關(guān)注能源效率和邊緣的芯片。多年來(lái)，該路線圖已經(jīng)擴(kuò)展和更新了很多次，最新的路線圖（帶有 N2 平臺(tái)添加的 CSS 子系統(tǒng)變體）已在 Hot Chips 上展示：

我們?cè)谖覀兪煜さ暮诵暮推脚_(tái)代號(hào)中添加了它們，因?yàn)槲覀兿矚g同義詞。

Arm 院士兼首席 CPU 架構(gòu)師 Magnus Bruce 在 Hot Chips 上介紹了 V2 平臺(tái)，談?wù)摿嗽摷軜?gòu)以及與 Zeus V1 平臺(tái)相比的變化。這張圖表很好地總結(jié)了這一點(diǎn)：

“這個(gè)管道的基礎(chǔ)是一個(gè)提前運(yùn)行分支預(yù)測(cè)器，這個(gè)分支預(yù)測(cè)器充當(dāng)指令預(yù)取器，它將提取與分支分離，”Bruce解釋道?！按笮头种ьA(yù)測(cè)結(jié)構(gòu)可以覆蓋非常大的現(xiàn)實(shí)服務(wù)器工作負(fù)載。我們使用在發(fā)出后讀取的物理寄存器文件，允許非常大的發(fā)出隊(duì)列，而無(wú)需存儲(chǔ)數(shù)據(jù)的負(fù)擔(dān)。這是解鎖 ILP [指令級(jí)并行性]。我們使用低延遲和私有 L2 緩存、低延遲 L1 和私有 L2 緩存以及最先進(jìn)的預(yù)取算法和積極的存儲(chǔ)到加載轉(zhuǎn)發(fā)，以保持內(nèi)核的氣泡和停頓最少（ bubbles and stalls）。系統(tǒng)的動(dòng)態(tài)反饋機(jī)制允許內(nèi)核調(diào)節(jié)攻擊性并主動(dòng)防止系統(tǒng)擁塞。這些基本概念使我們能夠擴(kuò)大機(jī)器的寬度和深度，同時(shí)保持快速錯(cuò)誤預(yù)測(cè)恢復(fù)所需的短管道?！?/p>

重要的是，這是一個(gè) Armv9 實(shí)現(xiàn)，它旨在顛覆該架構(gòu)，與十多年來(lái)定義 Arm 芯片的多代 Armv8 架構(gòu)相比，它帶來(lái)了性能、安全性和可擴(kuò)展性增強(qiáng)。

V2 芯片的架構(gòu)調(diào)整很微妙，但顯然很有效。但同樣明顯的是，13% 的性能提升距離 Arm 早在 2019 年設(shè)定的每時(shí)鐘指令數(shù) (IPC) 30% 的提升目標(biāo)還有很長(zhǎng)的路要走：

無(wú)論如何，這里是對(duì) V2 核心的分支預(yù)測(cè)器和獲取單元以及 L1 緩存的深入分析：

正如您所看到的，V1 核心的很多功能都轉(zhuǎn)移到了 V2 核心，但 V2 核心也有一些更新。許多隊(duì)列、表和帶寬都增加了一倍，但微操作緩存實(shí)際上在轉(zhuǎn)向 V2 設(shè)計(jì)時(shí)減少了。根據(jù)使用芯片模擬器為 V1 和 V2 建模的 SPEC CPU 2017 整數(shù)基準(zhǔn)，對(duì) V2 內(nèi)核的調(diào)整使每個(gè)時(shí)鐘指令增加了約 2.9%。

值得一提的是，V1 內(nèi)核在解碼和指令分派方面的一些微架構(gòu)優(yōu)點(diǎn)直接傳遞到 V2 內(nèi)核，但解碼器通道和隊(duì)列有所提升。總體效果是 IPC 提高了 2.9%，這也是通過(guò) SPEC CPU 2017 整數(shù)測(cè)試來(lái)衡量的。（IPC 通常是使用混合測(cè)試來(lái)計(jì)算的，而不僅僅是 SPEC CPU 評(píng)級(jí)。但這就是我們得到的。）

借助 V2 內(nèi)核，Arm 架構(gòu)師又添加了兩個(gè)單周期算術(shù)邏輯單元 (ALU)，并增加了問(wèn)題隊(duì)列的大小，并將謂詞運(yùn)算符的帶寬加倍，這些調(diào)整加上其他一些調(diào)整，又增加了 3.3%核心性能在 2.8 GHz 下歸一化。

與 V1 核心一樣，V2 核心有兩個(gè)加載/存儲(chǔ)管道和一個(gè)加載管道，但表后備緩沖區(qū) (TLB) 上的條目增加了 — 從 40 個(gè)條目增加到 48 個(gè)條目 — 并且各種存儲(chǔ)和讀取隊(duì)列也增加了變得更大。

這一變化和其他變化使 V2 核心性能又增加了 3%。

Arm 架構(gòu)師通過(guò)硬件預(yù)取數(shù)據(jù)的變化獲得了最大的性能提升：

“Neoverse V1 已經(jīng)具備了最先進(jìn)的預(yù)取功能，”Bruce 解釋道，我們將讓他帶您了解預(yù)取增強(qiáng)功能的低級(jí)解釋。深吸一口氣。。。。“通過(guò)對(duì) L1 和 L2 misses進(jìn)行多引擎訓(xùn)練并預(yù)取到 L1 和 L2 緩存中，我們的預(yù)取器通常使用虛擬地址來(lái)允許頁(yè)面交叉（page crossing），這使得它們也可以充當(dāng) TLB 預(yù)取。預(yù)取器使用來(lái)自互連的動(dòng)態(tài)反饋以及 CPU 內(nèi)部的準(zhǔn)確性和及時(shí)性測(cè)量來(lái)調(diào)節(jié)其主動(dòng)性。

V2 建立在 V1 硬件的基礎(chǔ)上，改進(jìn)了訓(xùn)練，通過(guò)更好的過(guò)濾和訓(xùn)練操作提高準(zhǔn)確性，并在更多預(yù)取器中使用程序計(jì)數(shù)器以實(shí)現(xiàn)更好的關(guān)聯(lián)和更好地防止混疊。還添加了新的預(yù)取引擎。L2 獲得了全局空間內(nèi)存流引擎，增加了它可以覆蓋的預(yù)取器的偏移范圍，并且比舊的標(biāo)準(zhǔn) SMS 引擎有了很大的改進(jìn)。我們添加了一個(gè)采樣間接預(yù)取器（ sampling indirect prefetcher），用于處理指針解除引用場(chǎng)景。

這不是數(shù)據(jù)預(yù)測(cè)，而是學(xué)習(xí)數(shù)據(jù)消耗模式作為其他負(fù)載的指針。我們還添加了一個(gè)表遍歷預(yù)取器（table walk prefetcher），可以將頁(yè)表?xiàng)l目預(yù)?。╬age table entries）到二級(jí)緩存中。現(xiàn)在，所有這些添加的預(yù)取器及其攻擊性都會(huì)造成系統(tǒng)擁塞。特別是在系統(tǒng)級(jí)緩存DRAM等共享資源上。我們?yōu)樾枨蠛皖A(yù)取提供差異化的 QoS 級(jí)別。這使我們能夠進(jìn)行積極的預(yù)取，而不會(huì)影響需求請(qǐng)求的加載延遲。

動(dòng)態(tài)預(yù)取動(dòng)態(tài)反饋將預(yù)取器的攻擊性調(diào)節(jié)到可持續(xù)的水平。這些變化加起來(lái)使規(guī)格管理器增加了 5.3%，但更重要的是，我們同時(shí)看到 SLC 缺失減少了 8.2%，因此我們可以用更少的 DRAM 流量獲得更高的性能?！?/p>

以下是二級(jí)緩存如何發(fā)揮其魔力：

二級(jí)緩存加倍對(duì)性能來(lái)說(shuō)并沒(méi)有太大變化，但系統(tǒng)級(jí)緩存misses的減少確實(shí)間接提高了性能。

以下是 IPC 的總和：

這些是加法效應(yīng)，而不是乘法效應(yīng)，V2 核心的整數(shù)性能提高了 13%——這也是經(jīng)過(guò)建模的，而且這只是使用 SPEC CPU 2017 整數(shù)測(cè)試——同時(shí)將系統(tǒng)級(jí)緩存缺失減少了 10.5%總體百分比。

每當(dāng)新的核心或芯片問(wèn)世時(shí)，該核心或芯片都會(huì)根據(jù)性能、功耗和面積的相互作用進(jìn)行分級(jí)。以下是 V1 和 V2 核心的堆疊方式：

采用 7 納米工藝實(shí)現(xiàn)的 V1 核心面積為 2.5 平方毫米，二級(jí)緩存為 1 MB，功耗約為 1.2 瓦。V2 核心的面積稍小一些，L2 緩存是 2 MB 的兩倍，功耗提高了 17%。這些比較均以 2.8 GHz 時(shí)鐘速度進(jìn)行標(biāo)準(zhǔn)化。

當(dāng)然，V2 不僅僅是一個(gè)核心，而是一個(gè)可以授權(quán)的平臺(tái)規(guī)范：

借助 CMN-700 互連，Arm 被許可人可以構(gòu)建可擴(kuò)展至 256 個(gè)內(nèi)核和 512 MB 系統(tǒng)級(jí)緩存的 V2 CPU，該互連可在所有內(nèi)核、內(nèi)存和內(nèi)存中提供 4 TB/秒的橫截面帶寬。位于網(wǎng)格上的 I/O 控制器。

V2 核心的很多演示都集中在整數(shù)方面，但在演講的問(wèn)答中，Bruce 確實(shí)說(shuō)了一些關(guān)于矢量性能的有趣內(nèi)容。V1 核心有一對(duì) 256 位 SVE1 矢量引擎，但 V2 核心有四個(gè) 128 位 SVE2 矢量引擎。正如布魯斯所說(shuō)，這樣做是因?yàn)閷⒒旌暇葦?shù)學(xué)分散到四個(gè)單元比嘗試分散到兩個(gè)單元更容易（而且我們認(rèn)為更有效）。

但正如我們所說(shuō)，除了 Nvidia 和可能的 AWS 之外，誰(shuí)將獲得 V2 核心的許可？也許任何打算使用 V2 的人都已經(jīng)在進(jìn)行自定義設(shè)計(jì)，因此沒(méi)有理由制作 CSS 變體？

編輯：黃飛

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

處理器

處理器

+關(guān)注

關(guān)注
68

文章
19100

瀏覽量
228814
ARM

ARM

+關(guān)注

關(guān)注
134

文章
9027

瀏覽量
366479
cpu

cpu

+關(guān)注

關(guān)注
68

文章
10804

瀏覽量
210829
服務(wù)器

服務(wù)器

+關(guān)注

關(guān)注
12

文章
8958

瀏覽量
85082
人工智能

人工智能

+關(guān)注

關(guān)注
1789

文章
46652

瀏覽量
237073

原文標(biāo)題：Arm最強(qiáng)處理來(lái)襲，誰(shuí)會(huì)用

文章出處：【微信號(hào)：wc_ysj，微信公眾號(hào)：旺材芯片】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

ARM 架構(gòu)/特性（處理器）全解

ARM 架構(gòu)是構(gòu)建每個(gè) ARM 處理器的基礎(chǔ)。ARM 架構(gòu)隨著時(shí)間的推移不斷發(fā)展，其中包含的

發(fā)表于 07-26 17:53 ?5205次閱讀

ARM處理器簡(jiǎn)介及RISC設(shè)計(jì)要點(diǎn)

ARM是一個(gè)32位RISC（精簡(jiǎn)指令集）處理器架構(gòu)，ARM處理器則是ARM

發(fā)表于 04-01 08:17 ?9225次閱讀

<b class='flag-5'>ARM</b><b class='flag-5'>處理器</b>簡(jiǎn)介及RISC設(shè)計(jì)要點(diǎn)

淺談ARM處理器架構(gòu)

，新的 Cortex-M處理器家族設(shè)計(jì)的非常容易使用。因此，ARM 微控制器處理器在單片機(jī)和深度嵌入式系統(tǒng)市場(chǎng)非常成功和受歡迎。二、ARM三

發(fā)表于 08-18 12:04

Cortex系列處理器是從ARM哪個(gè)架構(gòu)開(kāi)始的？

Cortex系列處理器是從ARM哪個(gè)架構(gòu)開(kāi)始的？arm架構(gòu)和x86架構(gòu)有什么區(qū)別？體系結(jié)構(gòu)、指令

發(fā)表于 07-06 10:49

ARM處理器簡(jiǎn)介

ARM處理器是一個(gè)32位元精簡(jiǎn)指令集(RISC)處理器架構(gòu),其廣泛地使用在許多嵌入式系統(tǒng)設(shè)計(jì)。ARM全稱為Acorn RISC Machin

發(fā)表于 08-23 07:45

ARM處理器的架構(gòu)及命名規(guī)則是什么？

ARM具有哪幾種模式？ARM里寄存器、MMU是什么意思？ARM920T中有哪幾類地址？ARM處理器

發(fā)表于 10-21 06:40

基于ARm架構(gòu)的嵌入式微處理器

目錄第一講簡(jiǎn)單介紹第二講嵌入式系統(tǒng)結(jié)構(gòu)第三講基于ARm架構(gòu)的嵌入式微處理器?第四講 SOC第五講嵌入式系統(tǒng)的設(shè)計(jì)過(guò)程第六講開(kāi)發(fā)環(huán)境構(gòu)建第七講嵌入式軟件編程技術(shù)第八講嵌入式

發(fā)表于 10-27 07:50

什么是ARM處理器？

廠商的x86架構(gòu)處理器，有IBM的power架構(gòu)處理器，高通蘋(píng)果海思有ARM架構(gòu)

發(fā)表于 11-24 07:05

ARM微處理器的特點(diǎn)及其架構(gòu)解析

- 基于 ARMv5 架構(gòu)的常用處理器? ARM7? 系列- 面向通用應(yīng)用的經(jīng)典處理器ARM 經(jīng)典處理

發(fā)表于 04-13 12:08

ARM,ARM處理器是什么意思

ARM,ARM處理器是什么意思 ARM處理器簡(jiǎn)介 ARM(Advanced RISC Mach

發(fā)表于 03-26 10:53 ?5246次閱讀

ARM_架構(gòu)_特性（處理器）全解

電子專業(yè)單片機(jī)相關(guān)知識(shí)學(xué)習(xí)教材資料——ARM_架構(gòu)_特性（處理器）全解

發(fā)表于 10-25 18:27 ?0次下載

ARM公版架構(gòu) 真的是麒麟處理器的槽點(diǎn)嗎？

只要出現(xiàn)麒麟處理器，那么必定會(huì)有很多人糾結(jié)于其使用的是ARM的公版架構(gòu)，或者用之作為麒麟處理器的弱點(diǎn)進(jìn)行攻擊。那么，在筆者看來(lái)，拿采用ARM

發(fā)表于 01-04 16:24 ?3042次閱讀

解答arm是什么/arm處理器采用什么技術(shù)

隨著移動(dòng)設(shè)備平臺(tái)的日益壯大，甚至有取代桌面平臺(tái)的勢(shì)頭，“ARM”這個(gè)詞越來(lái)越多地出現(xiàn)在人們的視野中，特別是手機(jī)或平板處理器上，然而卻從不見(jiàn)ARM的處理器，而是“采用

發(fā)表于 10-26 09:46 ?8175次閱讀

詳解ARM架構(gòu)和處理器系列命名規(guī)則

處理器的命名應(yīng)該包含兩類：指令集架構(gòu)命名規(guī)則和處理器系列規(guī)則。 ARM 架構(gòu)是構(gòu)建每個(gè) ARM

發(fā)表于 02-11 10:44 ?8次下載

華為鯤鵬處理器架構(gòu)介紹 ARM架構(gòu)處理器應(yīng)用領(lǐng)域

華為鯤鵬處理器基于Arm架構(gòu)。Arm是一種CPU架構(gòu)，有別于Intel、AMD CPU采用的CISC復(fù)雜指令集，

發(fā)表于 11-02 09:53 ?1.3w次閱讀

搜索歷史

Arm最強(qiáng)處理器架構(gòu)技術(shù)解析

評(píng)論

ARM 架構(gòu)/特性（處理器）全解

ARM處理器簡(jiǎn)介及RISC設(shè)計(jì)要點(diǎn)

淺談ARM處理器架構(gòu)

Cortex系列處理器是從ARM哪個(gè)架構(gòu)開(kāi)始的？

ARM處理器簡(jiǎn)介

ARM處理器的架構(gòu)及命名規(guī)則是什么？

基于ARm架構(gòu)的嵌入式微處理器

什么是ARM處理器？

ARM微處理器的特點(diǎn)及其架構(gòu)解析

ARM,ARM處理器是什么意思

ARM_架構(gòu)_特性（處理器）全解

ARM公版架構(gòu) 真的是麒麟處理器的槽點(diǎn)嗎？

解答arm是什么/arm處理器采用什么技術(shù)

詳解ARM架構(gòu)和處理器系列命名規(guī)則

華為鯤鵬處理器架構(gòu)介紹 ARM架構(gòu)處理器應(yīng)用領(lǐng)域