亚洲AV无码片区一区二区三区,免费在线观看黄色毛片,久久这里只精品国产99热8

電子發(fā)燒友網報道（文/黃晶晶）去年，Arm基于Armv9.2架構推出了Cortex-X4內核，更早前還有Cortex-X3/2/1內核。今年，Arm推出了第二代Armv9.2 CPU 集群，其中包括Cortex- X925，這一次并沒有延用單個數(shù)字，如Cortex-X5這樣的命名方式。在最近包括電子發(fā)燒友在內參與的Arm技術媒體分享日期間，Arm技術專家表示，Cortex-X925是Cortex-X推出以來取得最高IPC同比增幅的CPU，Arm想以此來清楚呈現(xiàn)其與前代產品的不同。與此同時，Cortex-X925 CPU與Immortalis-G925 GPU進行命名上的統(tǒng)一，以表明這些是真正的旗艦高端 IP，也是Arm終端CSS的基石。

Arm 終端計算子系統(tǒng) (CSS) 作為最新的Arm計算平臺，首次在終端領域為Arm CPU和GPU交付物理實現(xiàn)。此舉也將使構建基于 Arm 架構的解決方案變得更加簡單，確保萬無一失。

聯(lián)發(fā)科將基于Arm Cortex- X925 CPU和 Arm Immortalis-G925 GPU推出新一代天璣9400手機SoC。同時， Arm 也在與生態(tài)系統(tǒng)合作伙伴緊密合作，計劃推出面向AI PC的處理器。前不久，Arm CEO公開表示希望Arm在5年內拿下50%的Windows PC 市場。這一切都將基于Arm最新的CPU和GPU以及著眼于未來數(shù)年發(fā)展的CSS來實現(xiàn)。

一個平臺助力3nm芯片量產、端側AI：Arm終端計算子系統(tǒng)

AI時代，生產力應用需要高性能平臺來為高分辨率屏幕提供高刷新率；高端游戲應用已經采用了計算復雜型技術，為用戶帶來視覺震撼的游戲體驗；創(chuàng)意工作者正在不斷開辟將手機用于專業(yè)攝影用例的無盡可能。這些用例需要強大的計算能力作為支撐，并且正在通過 AI 得到進一步增強。在終端設備上打造新一波具有突破性的端側生成式 AI 體驗，全新的計算平臺能力必不可少。Arm最新推出的終端計算子系統(tǒng)（CSS）聚焦于實現(xiàn)平臺能力的重大飛躍，優(yōu)先考慮了四個關鍵領域：突破性能邊界以處理要求苛刻的安卓實際工作負載；針對生成式 AI 以及更廣泛的 AI/ML 和計算機視覺工作負載提高性能；持續(xù)專注于實現(xiàn)兩位數(shù)的系統(tǒng)能效提升；擴展平臺以獲得更高的性能點，滿足新一代 AI PC 設備的需求（包括筆記本電腦和平板電腦）。

Arm終端CSS包括第二代 Armv9.2 CPU 集群，內含性能最強的 Arm Cortex-X — Cortex-X925 CPU 以及效率最高的 Cortex-A 核心——Cortex-A725 和更新后的 Cortex-A520 CPU，讓三納米工藝上的性能和效率達到全新水平?；诘谖宕?Arm GPU架構的全新GPU系列包括專為旗艦移動設備設計的 Arm Immortalis-G925，以及面向大眾行業(yè)市場移動設備的 Arm Mali-G725和Mali-G625。

新的Arm終端CSS 物理實現(xiàn)面向超過3.6GHz的運行頻率，并在先進的三納米工藝上實現(xiàn)了一流的平臺功耗、性能和面積 (PPA)。這些實現(xiàn)在多家代工廠可用，為合作伙伴提供更大的靈活性。適用于安卓系統(tǒng)的 CSS 參考軟件棧搭配固定虛擬平臺 (Fixed Virtual Platform, FVP)，助力合作伙伴加速流片前的軟件開發(fā)。

此外，全新 Arm Performance Studio 提供了全方位工具環(huán)境，幫助開發(fā)者簡化開發(fā)流程，充分發(fā)揮 Arm 終端 CSS 的潛力。

Arm 終端事業(yè)部產品管理總監(jiān)Steve Hopper詳細解析了基于FPGA為終端CSS構建的內部參考平臺上運行安卓軟件棧的性能表現(xiàn)。他表示，作為Arm最快的安卓平臺，終端CSS在基于 2+4+2（2個Cortex-X925 + 4個Cortex-A725 + 2個Cortex-A520）的CPU集群配置的表現(xiàn)來看，配置上包含第二個Cortex-X925是為了提高CSS 平臺上重要用例的性能，如應用啟動和 AI 性能。并且通過將 L3 緩存大小從 8MB 增加到 16MB，并在集群中所有核心之間共享，計算量大的工作負載實現(xiàn)進一步加速。

相比去年基于FPGA的安卓旗艦配置實現(xiàn)，2+4+2 CPU 集群將應用啟動提速約 33%。通過集群的升級，包括額外的 Cortex-X 核心，并將 L3 緩存增加到 16MB，性能提升了約10%。對于 AI 大語言模型 (LLM)，測量到終端 CSS 平臺上詞元 (Token) 首次響應時間，結果顯著提升46%和42%。

Arm 終端 CSS同時致力于進一步推動移動端 LLM 性能的提升，使其成為端側生成式 AI 體驗的最佳平臺。詞元首次響應時間 (TTFT) 指標用以衡量生成首個響應詞元的速度。通過終端 CSS、Cortex-X925 和 KleidiAI 技術，對于具有 3.8B 參數(shù)模型的 Phi-3 的 TTFT，實現(xiàn)46%的顯著提升；而對于具有 8B 參數(shù)的更大模型 Llama 3，TTFT 性能提高了驚人的42%。

對于 Immortalis-G925，在17 個主流 AI 網絡（使用 fp16 數(shù)據類型）上觀察到 AI 推理速度平均提高了 36%。Cortex-X925 CPU的推理速度與上一代 Cortex-X4 相比提升59%。通過利用一顆額外的 Cortex-X925 CPU，在 17 個主流 AI 網絡中 int8 和 fp16 數(shù)據類型的 AI 推理時間大幅提升了170%。

可以說，作為一個可擴展平臺，Arm 終端 CSS 為CPU 和 GPU 上的 AI 推理工作負載帶來了顯著的性能飛躍。這是硬件進步與 Arm Compute Library 優(yōu)化相結合所產生的強大效果。

70%的第三方ML/AI應用運行在CPU上

Arm Cortex-X系列自2020年推出以來主要聚焦于優(yōu)化提高單線程性能。Cortex-X1到X4的迭代都是如此。今年推出的Cortex-X925 CPU設計更具創(chuàng)新性。

“要實現(xiàn)優(yōu)異性能，并非只涉及單個因素，要綜合考慮每時鐘周期指令數(shù) (IPC)、頻率、編譯器、操作系統(tǒng) (OS)、封裝等多個方面。因此，我們革新設計理念，通過協(xié)同設計IP與物理解決方案，不僅實現(xiàn)量產就緒，而且具備領先的性能、功耗和面積 (PPA) 表現(xiàn)?！盇rm終端事業(yè)部高級產品經理Manish Pandey說道。

基于以上設計理念，Arm正在改變Cortex-X CPU性能的發(fā)展軌跡。具體來看Arm Cortex-X925，它是Arm推出的迄今為止速度最快、性能最強的CPU。

通過結合前沿的微架構功能、可配置性和先進的物理解決方案，Cortex-X性能表現(xiàn)得到大幅提升。Cortex-X925的單線程性能提升36%（這有賴于對緩存大小、先進的功耗與熱管理技術，以及更新運行時Runtime選擇上的進一步投入），AI 性能提高46%。

在先進的3nm工藝節(jié)點上Cortex-X925實現(xiàn)3.8GHz運行頻率，使得下一代設備的 Geekbench得分提高30%以上。

Cortex-X925核心對端側AI能力的提升顯著，該核心優(yōu)化AI的響應速度、網頁瀏覽、圖像和視頻，以及更出色的高幀率游戲體驗等。

在大語言模型 (LLM) 上，詞元 (Token) 首次響應時間縮短約40%，同時在熱門的 AI 網絡中，推理速度提升高達 35%。這還只是ISO配置提升，再計入額外的緩存投入和工藝節(jié)點遷移提供的更高頻率，能讓設備實現(xiàn)更加出色的性能。

在功耗改進方面，在DVFS曲線的操作點上端，Cortex-X925在關鍵時刻達到峰值性能，這表現(xiàn)在設備響應速度顯著提升。在操作點的中段范圍內，Cortex-X925在給定的功耗范圍內提升了性能，也就是在功耗和熱設計受限的設備中能夠實現(xiàn)更多功能。此外，在固定的計算需求下，Cortex-X925 降低了功耗，有助于延長電池續(xù)航時間。

Cortex-A700所對應的產品系列已經發(fā)展了14代，整個團隊過去曾開發(fā)Cortex-A9（大約20年前的首個亂序執(zhí)行 CPU）和 Cortex-A73（迄今出貨量最高的亂序執(zhí)行CPU）?，F(xiàn)在，這個團隊全面專注于 Cortex-A700 系列的性能效率。

今年推出的Arm Cortex-A725，在性能效率設計上主要是滿足持續(xù)的AI和游戲體驗，以及為這條產品線在三納米工藝上實現(xiàn)最佳的物理解決方案。Cortex-A725與去年的產品相比，能效提高25%。AI是高度線程化的，可以非常有效地在多核上運行更多的計算。通過提升25%的能效，可為整個核心提供余量。

Cortex-A520也做了更新。針對三納米工藝的實現(xiàn)，對于Cortex-A520 來說同樣比較復雜。通過更新實現(xiàn)流程，并與專用集成電路 (ASIC)/芯片團隊緊密合作，以確保在保持微架構不變的情況下，Arm為合作伙伴提供最佳的三納米工藝解決方案。

依據不同的終端應用，Cortex-X925、Cortex-A725、Cortex-A520這幾個核在設計時可進行組合。DSU就起到將CPU IP高效協(xié)同的集群作用，同時DSU具有可擴展性。DSU作為一款特別的IP，它的性能指標包括緩存大小、帶寬、延遲、漏電和動態(tài)功耗。今年，DSU-120 針對多個新用例進行了重點更新，聚焦在 PPA 和功耗方面的改善。

例如，機器學習 (ML)/AAA 游戲等用例對于緩存大小和緩存吞吐量較為敏感。而 AI 智能攝像頭等用例則對緩存大小敏感度低，但對內存延遲更為敏感。而低強度線程的工作負載則對漏電比較敏感。DSU可以通過單個實現(xiàn)，達到動態(tài)應對不同用例的效果。

今年Arm在DSU中推出半切片斷電模式 (Half Slice Powerdown)，還為面向 RAM 新增了Quick Nap (QNap) 模式，QNap 模式是介于RAM運作 (Functional) 模式和保留 (Retention) 模式之間，可在不影響性能的前提下有效降低漏電。

Arm 終端事業(yè)部產品管理總監(jiān) Steve Hopper表示，由于CPU的易訪問性，其通常是運行AI工作負載的首選目標，以安卓平臺來看，目前70%的第三方 ML/AI 應用運行在CPU上。未來，在高端設備中 CPU、GPU和NPU三者相輔相成。但對于一些較低級別的設備來說，廠商可能很難承擔NPU的費用，因此，CPU 往往是一個很好的運行此類工作負載的選擇。

GPU：游戲與AI/ML兼得

Arm Immortalis-G925是Arm目前性能最強、效率最高的GPU，也是Arm終端計算子系統(tǒng) (CSS) 的組成部分。

與Immortalis-G720相比，Arm終端CSS參考平臺中的 Immortalis-G925在各種圖形應用中的性能提高了37%；在運行AI/ML網絡方面，性能顯著提高了 36%。在提供與2023年參考平臺相當?shù)挠螒蛐阅軙r，Arm終端CSS中的 Immortalis-G925 能節(jié)省高達 30% 的功耗；而在對復雜對象進行光線追蹤，其性能提升高達 52%。

安謀科技 (Arm China) 市場總監(jiān)王剛分析，Immortalis-G925主要關注三個方面：實際環(huán)境中的游戲性能、AI/ML 性能，以及與生態(tài)合作伙伴的緊密協(xié)作。

在游戲性能方面，主流手游運行在采用 Immortalis-G925的Arm 終端 CSS 參考平臺時，與去年的解決方案相比，性能平均提升了46%。以米哈游的《原神》為例，Arm 終端 CSS 使其性能提高49%。由騰訊光子工作室群和 KRAFTON 公司聯(lián)合開發(fā)的《絕地求生手游》運行速度提升36%，《Roblox》更是大幅提升46%。此外，其他熱門手游的性能也提升29% 到72%。這種代際的性能飛躍令人驚嘆，對開發(fā)者和最終玩家來說具有重大意義。

前面提到許多AI運行在CPU上，但對于某些工作負載，如圖像分割或物體檢測，ML很適合在GPU上運行。Arm 持續(xù)提升GPU對 AI/ML 性能和效率的支持。

在圖像處理（如分割或分類）方面，與去年的全面計算解決方案 (TCS) 相比，采用 Immortalis-G925的Arm 終端 CSS性能顯著提升41%。在超級采樣任務中，使用神經網絡放大圖像時，性能提升將近30%；在自然語言處理和語音轉文本方面，獲得50%性能提升。
????????????

現(xiàn)代手游愈發(fā)復雜，不僅在于著色器的復雜度，場景中的幾何圖形數(shù)量也呈爆炸式增長。過度繪制是場景中模糊不清的重疊像素數(shù)量，即在最終圖像中實際不會看見的部分。Arm GPU具備多種技術以減少過度繪制，進而減少到達片段著色階段的原語數(shù)量。

此前為了有助于從 GPU 上獲得更好的性能，一些應用可能會從前向后對不透明對象進行排序，這會增加CPU負載。Immortalis-G925引入了片段預處理 (Fragment Prepass) 的新機制，使得應用無需進行任何對象或原語排序。由于無需對象排序，渲染線程周期縮短了高達 43%。此外，片段預處理還可以更高效地減少過度繪制，進而提高性能和能效，同時減少應用的 CPU負載。

Immortatis-G925還改進了光線追蹤技術。在保持視覺準確性的同時，性能提高27%。開發(fā)者也可選擇稍微降低場景處理中的透明度準確性，由此可帶來 52% 的性能提升，并且降低 57% 的內存訪問，進而能夠大幅降低功耗。

Immortalis-G925 所支持的著色器核心數(shù)量增加50%，達到24個核心的最大配置，而上一代最多只有16個。為了實現(xiàn)這一性能目標，并確保能夠支持所有著色器核心，Tiler 和命令流前端 (Command Stream Front-end, CSF) 等頂級單元都經過了調整和優(yōu)化，以充分發(fā)揮 GPU 的性能。

Immortalis-G925具備硬件光線追蹤，可配置10個以上的核心，適用于旗艦智能手機等設備。面向高端手機市場推出Mali-G725，可在6至9個核心之間擴展。此外，它還能提供與旗艦產品相同的API支持，同時為其他級別設備提供引人入勝的游戲體驗。而適用于智能手表和入門級移動設備的Mali-G625可在1至5個核心之間擴展，提供廣泛的性能支持。

小結：

Arm CPU內核性能的提升從Cortex-X925這個產品開始進行了設計理念的改變，這將影響未來數(shù)年的內核設計。同樣，Arm Immortalis-G925 GPU也實現(xiàn)了大幅提升。更重要的是當處理器進入3nm工藝制程時，Arm終端CSS的發(fā)布為客戶的芯片從設計到量產提供全方位的支持。這背后的一個巨大動力自然是AI，更確切地說是Arm要引領端側AI，這一次不僅是手機，還將有PC以及其他未來可能的智能終端。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

ARM

ARM

+關注

關注
134

文章
9027

瀏覽量
366419
AI

AI

+關注

關注
87

文章
29731

瀏覽量
268032
AI PC

AI PC

+關注

關注
0

文章
123

瀏覽量
174

AI PC芯片X86與Arm六四分？乾坤未定，競爭焦灼

推進，其背后是手機廠商與手機SoC廠商的聯(lián)合研發(fā)，畢竟在手機領域主芯片供應商相對比較固定。 ? 然而在AI PC領域，

發(fā)表于 10-27 07:44 ?2543次閱讀

<b class='flag-5'>AI</b> <b class='flag-5'>PC</b>芯片X86與<b class='flag-5'>Arm</b>六四分？乾坤未定，競爭焦灼

Arm推出GitHub平臺AI工具，簡化開發(fā)者AI應用開發(fā)部署流程

專為 GitHub Copilot 設計的 Arm 擴展程序，可加速從云到邊緣側基于 Arm 平臺的開發(fā)。 Arm 原生運行器為部署云

發(fā)表于 10-31 18:51 ?661次閱讀

AI for Science：人工智能驅動科學創(chuàng)新》第4章-AI與生命科學讀后感

了傳統(tǒng)學科界限，使得科學家們能夠從更加全面和深入的角度理解生命的奧秘。同時，AI技術的引入也催生了一種全新的科學研究范式，即數(shù)據驅動的研究范式，這種范式強調從大量數(shù)據中提取有價值的信息，從而推動科學研究

發(fā)表于 10-14 09:21

《AI for Science：人工智能驅動科學創(chuàng)新》第二章AI for Science的技術支撐學習心得

和數(shù)量直接影響到模型的準確性和可靠性。因此，數(shù)據獲取、處理、分析和質量控制在AI for Science中至關重要。此外，數(shù)據驅動的研究范式也促使科學家從傳統(tǒng)的假設驅動轉向更加靈活和開放的研究方法

發(fā)表于 10-14 09:16

云開發(fā)AI助手

草帽王路飛

發(fā)布于 :2024年07月22日 14:41:54

AI PC:真正的AI PC,敢于下場

在過去的半年里，我們無一不在聆聽關于人工智能（AI）PC的種種聲音，然而當步入現(xiàn)實生活時，恐怕仍有眾多讀者對此感到迷茫：這些AI PC究竟具有哪些A

發(fā)表于 06-11 15:02 ?639次閱讀

risc-v多核芯片在AI方面的應用

處理器的性能，使其在處理復雜的AI任務時具有更高的效率。同時，RISC-V允許任何人免費設計、制造和銷售RISC-V芯片和軟件，無需像ARM那樣購買昂貴的架構許可證，這進一步降低了RISC-V多核芯片在AI

發(fā)表于 04-28 09:20

AI終端發(fā)展態(tài)勢：AI手機崛起，AIPC漸成主流

百度內核AI芯片推動AI手機全面普及，2024年被視作“AI手機元年”。眾多手機廠商包括三星、O

發(fā)表于 04-23 09:37 ?530次閱讀

開發(fā)者手機 AI - 目標識別 demo

Lite的API接口實現(xiàn)主要功能； Mindspore Lite為Openharmony AI推理框架，為上層應用提供統(tǒng)一的AI推理接口，可以完成在手機等端側設備中的模型推理過程； Neural

發(fā)表于 04-11 16:14

AI PC產品密集發(fā)布，預計2025年AI PC占全球PC出貨量40%

%。Canalys預計，2025年全球AI PC出貨量將超1億臺，占PC出貨總量的40%；到2028年，全球AI

發(fā)表于 03-20 01:15 ?3831次閱讀

NanoEdge AI的技術原理、應用場景及優(yōu)勢

NanoEdge AI 是一種基于邊緣計算的人工智能技術，旨在將人工智能算法應用于物聯(lián)網（IoT）設備和傳感器。這種技術的核心思想是將數(shù)據處理和分析從云端轉移到設備本身，從而減少數(shù)據傳輸延遲、降低

發(fā)表于 03-12 08:09

什么是AI PC、AI手機？AI PC和AI手機出現(xiàn)的來龍去脈

相信大家現(xiàn)在每天經?？梢栽趫笳旅襟w上看到“AI PC”、“AI 手機” 這兩個詞吧？特別是財經新聞，這幾個月時不時就可以看見哪一只股票又因是AI

發(fā)表于 01-18 10:43 ?1651次閱讀

AI PC是什么？如何變革PC產業(yè)（2023）

AI PC整合了輕量化AI模型，將實現(xiàn)各種生成式AI應用的離線穩(wěn)態(tài)運行。作為設備、邊緣計算和云技術的混合體，AI

發(fā)表于 12-27 17:37 ?1421次閱讀

AI PC 靈魂拷問

AI PC橫空出世，我們匯總7個最受大家關注的問題。有請英特爾技術部總經理高宇為我們逐一解答。問題1：誰率先“喊出”了AI PC？答：英特爾最先提出了

發(fā)表于 12-08 19:15 ?493次閱讀

AI PC：深入變革PC產業(yè)（2023）

軟件方面，AI PC整合了輕量化AI模型，將實現(xiàn)各種生成式AI應用的離線穩(wěn)態(tài)運行。作為設備、邊緣計算和云技術的混合體，AI

發(fā)表于 11-22 17:48 ?1903次閱讀

搜索歷史

從AI手機到AI PC，Arm拿什么打造AI盛宴？

評論

AI PC芯片X86與Arm六四分？乾坤未定，競爭焦灼

Arm推出GitHub平臺AI工具，簡化開發(fā)者AI應用開發(fā)部署流程

AI for Science：人工智能驅動科學創(chuàng)新》第4章-AI與生命科學讀后感

《AI for Science：人工智能驅動科學創(chuàng)新》第二章AI for Science的技術支撐學習心得

云開發(fā)AI助手

AI PC:真正的AI PC,敢于下場

risc-v多核芯片在AI方面的應用

AI終端發(fā)展態(tài)勢：AI手機崛起，AIPC漸成主流

開發(fā)者手機 AI - 目標識別 demo

AI PC產品密集發(fā)布，預計2025年AI PC占全球PC出貨量40%

NanoEdge AI的技術原理、應用場景及優(yōu)勢

什么是AI PC、AI手機？AI PC和AI手機出現(xiàn)的來龍去脈

AI PC是什么？如何變革PC產業(yè)（2023）

AI PC 靈魂拷問

AI PC：深入變革PC產業(yè)（2023）

搜索歷史

從AI手機到AI PC，Arm拿什么打造AI盛宴？

評論

從AI手機到AI PC，Arm拿什么打造AI盛宴？