欧美在线看费视频在线,色欲久久久天天天综合网

英特爾在自己最擅長的 CPU 上完成了一次 AI 計算的革新。

人工智能技術(shù)改變了我們的生活，而說到 AI 背后的算力，人們經(jīng)常會先想到 GPU。從 2019 年英特爾為其第二代至強可擴展處理器增添了內(nèi)置的深度學(xué)習(xí)加速技術(shù)后，原本定位通用計算的 CPU 芯片，也加入了為 AI 加速的行列。

今天，代號為「Sapphire Rapids」的第四代至強可擴展處理器也在中國迎來發(fā)布首秀，除了一系列微架構(gòu)的革新和技術(shù)規(guī)格的升級外，新 CPU 對 AI 運算「更上層樓」的支持也格外引人關(guān)注，其背后的技術(shù)助力，也是英特爾在這代產(chǎn)品中增添的全新內(nèi)置 AI 加速器 —— 英特爾高級矩陣擴展（AMX）技術(shù)自然也成為了焦點。

作為焦點，當然要拿出實力來證明自己的價值 —— 在發(fā)布會上，英特爾透露的第四代至強可擴展處理器的基礎(chǔ)算力平均提升值為 53%，而在 AMX 的助推下，其在 PyTorch 上的 AI 實時推理速度，可提升至上一代產(chǎn)品（FP32）的 5.7-10 倍，訓(xùn)練性能提升最高也能提升到上一代產(chǎn)品的 10 倍…… 這意味著，這款新至強，把業(yè)界頂級 CPU 的性能門檻一下子提高了不少。

新一代英特爾 CPU 為 AI 任務(wù)處理找到了新方向?，F(xiàn)在，英特爾可以通過新 CPU 和 GPU 實現(xiàn)對各類 AI 任務(wù)的加速。為實現(xiàn)這些提升，英特爾引入了一系列內(nèi)置加速單元。

多種加速器加持，

提升 AI 訓(xùn)練、推理及端到端性能

AI 的熱度，從 AlphaGo 一鳴驚人后，一直就沒有減退。最近一段時間，人們都在談?wù)?ChatGPT 等「大模型」帶來的革命性體驗。由預(yù)訓(xùn)練模型方法推動的 AI 技術(shù)正在向跨任務(wù)、跨模態(tài)的方向演進，已成為當下 AI 技術(shù)發(fā)展的重要趨勢。

然而，大模型雖然帶來了前所未有的 AI 能力，又對算力提出了無窮無盡的需求。芯片制造商和科技公司一直在尋找提升 AI 應(yīng)用效率的方法。GPU 更多解決的，是訓(xùn)練效率，是探索 AI 算法邊界的能力，而 CPU，似乎更適合在 AI 應(yīng)用的規(guī)?；渴鸷蛯嵺`上發(fā)揮重要作用。

自從四五年前開始在 CPU 中內(nèi)置針對 AI 進行加速的專用運算單元或指令集后，英特爾就一直相信，如果想要在更為廣泛的行業(yè)中真正推進 AI 應(yīng)用的普及，那么就應(yīng)該充分利用現(xiàn)階段應(yīng)用和部署最為廣泛的 IT 基礎(chǔ)設(shè)施和架構(gòu)，也就是要更加充分地利用 CPU 的資源。畢竟使用 GPU 和其他專用加速器的成本以及知識和人才門檻都非常高。相比之下，CPU 內(nèi)置 AI 加速能力，主攻 AI 推理加速，并搭配以更為簡單易用、能夠部署和優(yōu)化難度的軟件工具，會是一條更為行之有效的路徑。

它是這么想，也是這么做的 —— 首先，從 2017 年第一代至強可擴展芯片開始，英特爾就開始利用英特爾高級矢量擴展 512 技術(shù)（AVX-512 指令集）的矢量運算能力對 AI 進行加速上的嘗試，到 2018 年英特爾在第二代至強可擴展芯片導(dǎo)入深度學(xué)習(xí)加速（DL Boost）技術(shù)，更是讓至強成為了首款集成 AI 加速有力的主流數(shù)據(jù)中心級 CPU，或者說：CPU 加速 AI 的代名詞。

2020 年通過擴展出 bfloat16 加速功能，面向多路服務(wù)器的第三代至強可擴展處理器在推理加速能力之外，又增加了訓(xùn)練加速能力，已被證明可以幫助業(yè)界大量 AI 工作負載實現(xiàn)更優(yōu)的性能和功耗比。

就在大家認為英特爾在 CPU 加速 AI 的技術(shù)創(chuàng)新和投入會止步于此的時候，第四代至強可擴展芯片，又帶來了矩陣化的算力支持 ——AMX。

第四代英特爾至強可擴展處理器。

這種全新內(nèi)置 AI 加速器的出現(xiàn)，進一步驗證了「與其增加 CPU 內(nèi)核數(shù)和時鐘頻率，加入和更新專用計算單元對提升 AI 工作負載性能更有效」這一思路。正如前文所述，第四代至強可擴展芯片不僅可借助 AMX 實現(xiàn)相當于上一代芯片（FP32）10 倍的 AI 性能提升，與前兩代產(chǎn)品使用的深度學(xué)習(xí)加速技術(shù)相比，其理論性能（每秒操作量）最高也可以達到其 8 倍之多。

機器學(xué)習(xí)包含大量的矩陣計算，在主打通用計算的 CPU 上，此類任務(wù)會被轉(zhuǎn)換為效率較低的向量計算，而在加入專用的矩陣計算單元后，至強 CPU 的 AI 能力有了巨大的提升。因此，AMX 可以被視為至強 CPU 上的「TensorCore」—— 從原理上看，CPU 上的 AI 加速器實現(xiàn)的目的和 GPU、移動端處理器上的類似。由于 AMX 單元對底層矩陣計算進行加速，理論上它對于所有基于深度學(xué)習(xí)的 AI 應(yīng)用都能起到效果。

如果說 AMX 為至強 CPU 帶來的是直觀的推理和訓(xùn)練加速，那么第四代至強可擴展芯片內(nèi)置的其他幾種加速器，就是為 AI 端到端應(yīng)用加速帶來的驚喜。

這是因為在真正完整的 AI 應(yīng)用流水線中，任務(wù)往往會從數(shù)據(jù)的處理和準備開始，在這一階段，第四代至強可擴展芯片內(nèi)置的數(shù)據(jù)流加速器（DSA），可讓數(shù)據(jù)存儲與傳輸性能提升到上一代產(chǎn)品的 2 倍，而專門針對數(shù)據(jù)庫和數(shù)據(jù)分析加速的英特爾存內(nèi)分析加速器（IAA），也可將相關(guān)應(yīng)用的性能提升到上一代產(chǎn)品的三倍（RocksDB）；數(shù)據(jù)保護與壓縮加速技術(shù)（QAT），則能在內(nèi)核用量減少多達 95% 的情況下將一級壓縮吞吐量提升至原來的兩倍。這些技術(shù)的使用，也有助于 AI 端到端應(yīng)用性能的整體躍升。

此外，隨著 AI 應(yīng)用在更多行業(yè)，包括金融、醫(yī)療等數(shù)據(jù)敏感型行業(yè)的落地，人們對于數(shù)據(jù)安全合規(guī)的要求逐漸提高，聯(lián)邦學(xué)習(xí)等技術(shù)逐漸獲得應(yīng)用。在這一方面，至強可擴展處理器集成的專攻數(shù)據(jù)安全強化的加速器 —— 軟件防護擴展（SGX），也是大有用武之地，它的突出優(yōu)勢就是可以為處理中或運行中的敏感數(shù)據(jù)和應(yīng)用代碼提供與其他系統(tǒng)組件和軟件隔離的安全飛地，實現(xiàn)更小的信任邊界。

這種技術(shù)對于 AI 而言，最核心的價值就是可以讓有多方數(shù)據(jù)交互、協(xié)作的 AI 訓(xùn)練過程變得更加安全，各方數(shù)據(jù)都可以在其擁有者的本地參與訓(xùn)練，用于訓(xùn)練的數(shù)據(jù)和模型會被安全飛地所保護，最終模型可以在這種保護下提升精度和效率，但為其演進做出了關(guān)鍵貢獻的數(shù)據(jù)則會一直處于「可用而不可見」的狀態(tài)下，以確保其中的敏感和隱私信息的安全性。

在這么多內(nèi)置加速器的支持下，可以說，從數(shù)據(jù)預(yù)處理，到訓(xùn)練，再到推理，最后到整個 AI 應(yīng)用的安全保護層面，第四代至強可擴展處理器都實現(xiàn)了更全面的功能覆蓋和重點增強。與此同時，英特爾還在進一步強化 AI 加速的開箱即用優(yōu)勢：通過與大量第三方進行合作，英特爾共同優(yōu)化了 SAP HANA、Microsoft SQL Server、Oracle、VMware Cloud Foundation、Red Hat OpenShift 等主流應(yīng)用，很多主流軟件庫和開源機器學(xué)習(xí)框架，以及大多數(shù)云服務(wù)也對這款英特爾架構(gòu)上的新品做好了優(yōu)化，開發(fā)者可以直接使用新硬件開發(fā)和部署 AI 算法。

從開發(fā)者的角度看，使用第四代至強可擴展處理器實現(xiàn)優(yōu)化加速的門檻也確實很低：人們只需使用集成在 TensorFlow 和 PyTorch 中的庫，無需任何額外工作即可激活至強芯片內(nèi)置 AI 加速的能力。此外，只需更改幾行代碼，開發(fā)人員就可以無縫地加速單節(jié)點和多節(jié)點配置中的 Scikit-learn 應(yīng)用。

全能服務(wù)器 CPU

除了有加速器傍身專攻特定應(yīng)用負載外，第四代至強可擴展處理器在基礎(chǔ)性能上也是可圈可點。

例如，它采用了與英特爾第 12、13 代酷睿同款的 Intel 7 制造工藝（改進版 10nm 制程）和 Golden Cove CPU 架構(gòu)，同時首次引入 chiplet 小芯片封裝方式，最多可搭載 60 個核心，改用新的 Socket E LGA4677 封裝接口，集成了 112MB 三級緩存，功耗最高達到 350W。

新一代至強還帶來了對八通道 DDR5-4800 和 PCIe 5.0 的支持，并包含 CXL 1.1 高速互連總線，可選集成最多 64GB HBM2e 內(nèi)存。

上述這些針對 IO 和存儲的新技術(shù)的引入，使得第四代至強可擴展處理器具備了能夠打破帶寬瓶頸的 I/O 能力，讓使用者可以充分利用處理器的代際性能提升滿足 AI 平臺等業(yè)務(wù)對于通用算力的苛刻需求。

四代至強可擴展處理器平臺特性。

綜合這些基礎(chǔ)芯片架構(gòu)規(guī)模上的升級和革新，以及各種加速器的特定加成效果，第四代至強可擴展處理器的基礎(chǔ)算力相比上一代產(chǎn)品可提升 53%，而其能效，或者說每瓦性能，相比上一代產(chǎn)品也提升了 2.9 倍，這意味著更高的效率，更低的功耗和更優(yōu)的投資回報率。

英特爾表示，新一代 CPU 還可以催生出前所未有的應(yīng)用，幫助 AI 算法直接利用非結(jié)構(gòu)化數(shù)據(jù)進行實時分析。在金融、醫(yī)療、零售等行業(yè)中，人們可以利用機器學(xué)習(xí)作出更加精確的投資決策，降低術(shù)后并發(fā)癥風(fēng)險，更好地理解消費者的需求。

構(gòu)建下一代異構(gòu) AI 算力

在不斷尋求創(chuàng)新業(yè)務(wù)的過程中，人們對于算力的需求相比以往正變得更加迫切。而且這種算力也必須要兼顧到通用和專用的不同方向。因此英特爾架構(gòu)也正在就此有針對性的演進，這在本次第四代至強可擴展處理器的發(fā)布會上就可見一斑 —— 對科學(xué)計算和 AI 加速有更苛刻要求的用戶，也等來了英特爾數(shù)據(jù)中心 GPU 旗艦產(chǎn)品 ——MAX 系列的發(fā)布。

其實在過去幾年里，英特爾已經(jīng)陸續(xù)推出了一些異構(gòu)產(chǎn)品，例如 2022 年英特爾旗下的 Habana Labs 正式發(fā)布了用于深度學(xué)習(xí)訓(xùn)練的 Gaudi2，隨之被應(yīng)用在 AWS 上。同年夏天主打視覺云應(yīng)用的數(shù)據(jù)中心 GPU Flex 系列也在視頻處理、云游戲和視覺 AI 推理應(yīng)用中初露頭腳，但很多「發(fā)燒級」用戶最期待的還是數(shù)據(jù)中心 GPU Max 系列，今天，這款采用了突破性設(shè)計，采用多芯片集合的方式，混合 5 種工藝，晶體管數(shù)量超過千億的「怪獸」，終于來了！

GPU 產(chǎn)品線的完善，也使得英特爾成為業(yè)界唯一一家能提供橫跨 CPU、GPU、ASIC、FPGA 四大類型芯片計算解決方案的供應(yīng)商，可為智能數(shù)據(jù)中心提供基于任何場景、需求的產(chǎn)品組合。

強大的硬件之外，英特爾還利用 oneAPI 軟件體系實現(xiàn)了對異構(gòu)硬件的統(tǒng)一編程和管理，構(gòu)建了能夠靈活調(diào)配、無縫協(xié)作和低門檻的 AI 開發(fā)工具。通過 XPU 硬件、oneAPI 軟件及 UCIe 開放標準的布局，英特爾已經(jīng)打造出了軟硬一體化的完整生態(tài)。

隨著新一代芯片發(fā)布，我們或許將看到未來 AI 計算的形態(tài)發(fā)生重要轉(zhuǎn)變。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

處理器

處理器

+關(guān)注

關(guān)注
68

文章
18948

瀏覽量
227383
英特爾

英特爾

+關(guān)注

關(guān)注
60

文章
9771

瀏覽量
170728
cpu

cpu

+關(guān)注

關(guān)注
68

文章
10721

瀏覽量
209572
gpu

gpu

+關(guān)注

關(guān)注
27

文章
4603

瀏覽量
128192
AI

AI

+關(guān)注

關(guān)注
87

文章
29012

瀏覽量
266404

原文標題：新至強訓(xùn)練推理增效十倍，英特爾CPU加速AI更上一層樓

文章出處：【微信號：英特爾中國，微信公眾號：英特爾中國】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

開箱即用，AISBench測試展示英特爾至強處理器的卓越推理性能

。中國電子技術(shù)標準化研究院賽西實驗室依據(jù)國家標準《人工智能服務(wù)器系統(tǒng)性能測試規(guī)范》（征求意見稿）相關(guān)要求，使用AISBench?2.0測試工具，完成了第五代英特爾至強可擴展處理器的AI大模型

發(fā)表于 09-06 15:33 ?164次閱讀

巧了不是，原來你也不知道啥是去耦電容的“濾波半徑”??！

電源設(shè)計中的網(wǎng)紅用語：電容去耦半徑，大多數(shù)人都聽過，但能講出來原理的人估計不多；看完這篇文章，讓你們理論知識和實際設(shè)計更上一層樓！

發(fā)表于 08-19 14:54 ?215次閱讀

英特爾助力京東云用CPU加速AI推理，以大模型構(gòu)建數(shù)智化供應(yīng)鏈

英特爾助力京東云用CPU加速AI推理，以大模型構(gòu)建數(shù)智化供應(yīng)鏈

發(fā)表于 05-27 11:50 ?393次閱讀

第五代英特爾至強處理器，AI特化的通用服務(wù)器CPU

? 電子發(fā)燒友網(wǎng)報道（文/周凱揚）隨著AI已經(jīng)成了數(shù)據(jù)中心與服務(wù)器市場的主流應(yīng)用，就連通用服務(wù)器CPU，也開始著重加強AI計算能力。為此，英特爾于去年年底發(fā)布了第五代

發(fā)表于 03-18 08:14 ?3833次閱讀

英特爾至強處理器優(yōu)化升級，助力打造未來高能效數(shù)據(jù)中心

%。與此同時，英特爾還對該處理器進行了大量優(yōu)化，以滿足日益增長的AI算力需求。該適用于企業(yè)級服務(wù)器的英特爾高端CPU受到了眾多行業(yè)專家們的好評。 ?第五代

發(fā)表于 02-26 17:39 ?594次閱讀

英特爾專家為您揭秘第五代英特爾? 至強? 可擴展處理器如何為AI加速

% 1 ，AI 推理性能提升42% 2 。這一系列性能提升的背后，存在著怎樣的創(chuàng)新與突破？第五代英特爾 至強可擴展處理器為什么要強調(diào)為

發(fā)表于 12-23 12:20 ?638次閱讀

64核+高內(nèi)存帶寬！英特爾發(fā)布第五代至強服務(wù)器，加速AI原生應(yīng)用落地

使用第五代至強開發(fā)新品服務(wù)器和大模型訓(xùn)練的案例。這款產(chǎn)品是英特爾最強AI性能的CPU，采用了Intel7工藝，該處理器擁有多達64 核，具

發(fā)表于 12-20 00:26 ?1869次閱讀

64核+高內(nèi)存帶寬！英特爾發(fā)布第五代至強可擴展處理器，加速AI原生應(yīng)用落地

第五代至強可擴展處理器是英特爾最強AI性能的CPU，采用了Intel7工藝，該處理器擁有多達64 核，具備8 條 DDR5 通道，支持高達5,600 MT/s的傳輸速率，三級緩存是上

發(fā)表于 12-19 09:45 ?4252次閱讀

英特爾推出新一代強大產(chǎn)品，加速實現(xiàn) “AI 無處不在 ”

英特爾? 酷睿? Ultra 和第五代英特爾? 至強? 可擴展處理器豐富了英特爾出色的AI產(chǎn)品組合，加速

發(fā)表于 12-16 16:27 ?373次閱讀

CPU如何加速AI部署與應(yīng)用？第五代英特爾? 至強? 給你支招！

屬于各自所有者資產(chǎn)。 12月15日｜2023英特爾新品發(fā)布會暨AI技術(shù)創(chuàng)新派對等你來！平臺賦能，算力共建，智貫東西 “2023 英特爾算力大會暨東數(shù)西算大會”成功舉辦 2023 英特爾

發(fā)表于 12-16 16:15 ?412次閱讀

AI 無處不在，英特爾酷睿Ultra 和第五代英特爾至強可擴展處理器正式發(fā)布

英特爾 ?酷睿?Ultra處理器和第五代英特爾 ? 至強 ? 可擴展處理器支持的AI產(chǎn)品亮相，展現(xiàn)了英特爾從云到端全方位的

發(fā)表于 12-16 16:05 ?593次閱讀

第五代英特爾至強可擴展處理器，為AI加速而生

今日，在以“AI無處不在創(chuàng)芯無所不及”為主題的2023英特爾新品發(fā)布會暨AI技術(shù)創(chuàng)新派對上，英特爾正式推出第五代英特爾?

發(fā)表于 12-16 15:53 ?277次閱讀

用上這個工具包，大模型推理性能加速達40倍

工具包中的LLM Runtime為諸多模型顯著降低時延，且首個token和下一個token的推理速度分別提升多達40倍和2.68倍，還能滿足更多場景應(yīng)用需求。

發(fā)表于 12-01 20:40 ?984次閱讀

便捷高效的安全保障！AI盒子報警預(yù)錄像讓安防更智能

AI盒子中的報警預(yù)錄像功能不僅提升了安防管理的效率和精準度，同時也為用戶提供了更加便捷和智能的安全保障。通過實時錄像、云端存儲、智能分析和識別等多種技術(shù)手段的有機結(jié)合，為用戶帶來了更上一層樓的智能安防體驗

發(fā)表于 12-01 09:10 ?307次閱讀

1000萬Tokens免費領(lǐng)，訊飛星火API賦能千行百業(yè)

作為國內(nèi)大模型的頭部標桿產(chǎn)品，8月15日訊飛星火V2.0發(fā)布，代碼和多模態(tài)能力更上一層樓，完整構(gòu)建了“多模態(tài)、代碼生成、語言理解與邏輯推理”等7大核心能力，在多項權(quán)威評測中得分位居首位。

發(fā)表于 10-11 16:47 ?1247次閱讀