0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA CPU+GPU超級(jí)芯片終于量產(chǎn)

硬件世界 ? 來(lái)源:硬件世界 ? 2023-05-30 14:45 ? 次閱讀

2022年3月,NVIDIA發(fā)布了首款數(shù)據(jù)中心CPU Grace、新一代高性能計(jì)算GPU Hopper,同時(shí)利用它們打造了兩顆“超級(jí)芯片”(Super Chip),一是Grace CPU二合一,二是Grace CPU+Hopper GPU二合一,看起來(lái)都極為酷炫。

現(xiàn)在,足足14個(gè)月過(guò)去了,NVIDIA終于宣布,GH200 Grace Hopper超級(jí)芯片已經(jīng)全面投產(chǎn),將為復(fù)雜AI、HPC工作負(fù)載提供澎湃的動(dòng)力。

再加上Grace CPU、Hopper GPU、Ada Lovelace GPU、BlueField DPU等全套系統(tǒng)方案,NVIDIA現(xiàn)在已經(jīng)有400多種配置,可滿足市場(chǎng)對(duì)生成式AI的激增需求。

歐洲和美國(guó)的超大規(guī)模云服務(wù)商、超算中心,將會(huì)成為接入GH200系統(tǒng)的首批客戶。

同時(shí),黃仁勛還公布了Grace Hopper的更多細(xì)節(jié),尤其是它的CPU、GPU之間使用NVLink-C2C互連技術(shù),總帶寬高達(dá)900GB/s,相比傳統(tǒng)的PCIe 5.0通道超出足足7倍,能夠滿足要求最苛刻的生成式AI和HPC應(yīng)用,功耗也降低了超過(guò)80%。

Grace Hopper是一塊CPU+GPU合體的超級(jí)芯片,CPU是NVIDIA自研的72核處理器,Neoverse V2內(nèi)核,擁有480GB LPDDR5內(nèi)存,512GB/s帶寬。

GPU部分是H100,F(xiàn)P64性能34TFLOPS,但更強(qiáng)的是INT8性能,AI運(yùn)算能力達(dá)到了3958TFLOPS,帶96GB HBM3內(nèi)存。

同時(shí),NVIDIA發(fā)布了針對(duì)AI推出的大內(nèi)存DGX GH200超算系統(tǒng),配備了256個(gè)Grace Hopper芯片,總計(jì)1.8萬(wàn)CPU核心,144TB內(nèi)存,相比之前漲了500倍。

AI運(yùn)算對(duì)內(nèi)存容量的要求更高,所以DGX GH200通過(guò)最新的NVLink、NVLink Switch等技術(shù)連接了256塊Grace Hooper超級(jí)芯片,實(shí)現(xiàn)了極為夸張的性能及內(nèi)存。

GH200總計(jì)有256塊Grace Hooper芯片,因此總計(jì)18432個(gè)CPU核心,144TB HBM3內(nèi)存,AI性能達(dá)到了1 exaFLOPS,也就是100億億次。

這是什么概念?當(dāng)前最強(qiáng)的TOP500超算也就是百億億次性能,只不過(guò)這個(gè)性能是HPC計(jì)算的,NVIDIA的是百億億次AI性能。

45b302e0-fe68-11ed-90ce-dac502259ad0.jpg

為了讓256個(gè)超級(jí)芯片互聯(lián),GH200還使用了256塊單口400Gb/s InfiniBand互聯(lián)芯片,256個(gè)雙口200Gb/s InfiniBand芯片,還有96組L1 NVLink、36組L2 NVLink開(kāi)關(guān)等等,設(shè)計(jì)非常復(fù)雜。

NVIDIA表示,谷歌、Meta及微軟是首批獲得DGX H200系統(tǒng)的公司,后續(xù)他們還會(huì)開(kāi)放給更多客戶,運(yùn)行客戶定制。

不過(guò)DGX H200還不是最強(qiáng)的,NVIDIA今年晚些時(shí)候會(huì)推出名為NVIDIA Helios的AI超算系統(tǒng),由4組GH200組成,總計(jì)1024個(gè)Grace Hooper超級(jí)芯片,576TB HBM內(nèi)存。

黃仁勛還向傳統(tǒng)的CPU服務(wù)器集群發(fā)起“挑戰(zhàn)”,認(rèn)為在人工智能加速計(jì)算這一未來(lái)方向上,GPU服務(wù)器有著更為強(qiáng)大的優(yōu)勢(shì)。

根據(jù)黃仁勛在演講上展示的范例,訓(xùn)練一個(gè)LLM大語(yǔ)言模型,將需要960個(gè)CPU組成的服務(wù)器集群,這將耗費(fèi)大約1000萬(wàn)美元(約合人民幣7070萬(wàn)元),并消耗11千兆瓦時(shí)的電力。

45ce1166-fe68-11ed-90ce-dac502259ad0.png

相比之下,同樣以1000萬(wàn)美元的成本去組建GPU服務(wù)器集群,將以僅3.2千兆瓦時(shí)的電力消耗,訓(xùn)練44個(gè)LLM大模型。

45fca774-fe68-11ed-90ce-dac502259ad0.png

如果同樣消耗11千兆瓦時(shí)的電量,那么GPU服務(wù)器集群能夠?qū)崿F(xiàn)150倍的加速,訓(xùn)練150個(gè)LLM大模型,且占地面積更小。

而當(dāng)用戶僅僅想訓(xùn)練一個(gè)LLM大模型時(shí),則只需要一個(gè)40萬(wàn)美元左右,消耗0.13千兆瓦時(shí)電力的GPU服務(wù)器即可。

換言之,相比CPU服務(wù)器,GPU服務(wù)器能夠以4%的成本和1.2%的電力消耗來(lái)訓(xùn)練一個(gè)LLM,這將帶來(lái)巨大的成本節(jié)省。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4793

    瀏覽量

    102433
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    27

    文章

    4591

    瀏覽量

    128155
  • 超級(jí)芯片
    +關(guān)注

    關(guān)注

    0

    文章

    33

    瀏覽量

    8855

原文標(biāo)題:領(lǐng)先幾光年!NVIDIA CPU+GPU超級(jí)芯片終于量產(chǎn)

文章出處:【微信號(hào):hdworld16,微信公眾號(hào):硬件世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【書(shū)籍評(píng)測(cè)活動(dòng)NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析

    的高質(zhì)量和專(zhuān)業(yè)網(wǎng)絡(luò)媒體的信息更新速度。 算力芯片在最近15年有著巨大性能突破,這些年Intel的CPU芯片從雙核128位SIMD到眾核512位SIMD;NVIDIA
    發(fā)表于 09-02 10:09

    NVIDIA GB200超級(jí)芯片引領(lǐng)液冷散熱新紀(jì)元

    ,特別是其單顆B200芯片功耗高達(dá)1000W,以及由一顆Grace CPU與兩顆Blackwell GPU組成的超級(jí)芯片GB200功耗驚人地
    的頭像 發(fā)表于 08-01 16:35 ?534次閱讀

    NVIDIA GB200 CPU+GPU超級(jí)芯片功耗達(dá)2700W

    7月31日,集邦咨詢發(fā)布的最新報(bào)告揭示了AI服務(wù)器領(lǐng)域的一個(gè)重要趨勢(shì):隨著計(jì)算能力與功耗的同步攀升,特別是NVIDIA計(jì)劃在年底推出的下一代Blackwell平臺(tái)將帶來(lái)顯著的功耗增長(zhǎng),液冷散熱技術(shù)正逐步成為行業(yè)標(biāo)配,預(yù)計(jì)今年底其市場(chǎng)滲透率將達(dá)到10%。
    的頭像 發(fā)表于 07-31 13:02 ?573次閱讀

    超級(jí)猛獸 GPU ?NVIDIA GeForce RTX 5090 基本頻率接近 2.9 GHz

    ABSTRACT摘要根據(jù)最新傳言,旗艦級(jí)NVIDIAGeForceRTX5090GPU看起來(lái)將是一款超級(jí)猛獸。據(jù)稱(chēng),顯卡的基本時(shí)鐘速度將設(shè)定在2.9GHz左右,幾乎達(dá)到3GHz的門(mén)檻
    的頭像 發(fā)表于 07-12 08:26 ?238次閱讀
    <b class='flag-5'>超級(jí)</b>猛獸 <b class='flag-5'>GPU</b> ?<b class='flag-5'>NVIDIA</b> GeForce RTX 5090 基本頻率接近 2.9 GHz

    進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

    CPU和72個(gè)Blackwell GPU,并通過(guò)NVIDIA NVLink技術(shù)連接。DGX SuperPOD可以通過(guò)NVIDIA Quantum InfiniBand連接多個(gè)機(jī)架,實(shí)
    發(fā)表于 05-13 17:16

    利用NVIDIA組件提升GPU推理的吞吐

    本實(shí)踐中,唯品會(huì) AI 平臺(tái)與 NVIDIA 團(tuán)隊(duì)合作,結(jié)合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)將推理的稠密網(wǎng)絡(luò)和熱 Embedding 全置于
    的頭像 發(fā)表于 04-20 09:39 ?508次閱讀

    AI服務(wù)器異構(gòu)計(jì)算深度解讀

    AI服務(wù)器按芯片類(lèi)型可分為CPU+GPU、CPU+FPGA、CPU+ASIC等組合形式,CPU+GPU是目前國(guó)內(nèi)的主要選擇(占比91.9%)
    發(fā)表于 04-12 12:27 ?453次閱讀
    AI服務(wù)器異構(gòu)計(jì)算深度解讀

    NVIDIA推出搭載GB200 Grace Blackwell超級(jí)芯片NVIDIA DGX SuperPOD?

    NVIDIA 于太平洋時(shí)間 3 月 18 日發(fā)布新一代 AI 超級(jí)計(jì)算機(jī) —— 搭載 NVIDIA GB200 Grace Blackwell 超級(jí)
    的頭像 發(fā)表于 03-21 09:49 ?561次閱讀

    NVIDIA 推出 Blackwell 架構(gòu) DGX SuperPOD,適用于萬(wàn)億參數(shù)級(jí)的生成式 AI 超級(jí)計(jì)算

    基于先進(jìn)的 NVIDIA 網(wǎng)絡(luò)、NVIDIA 全棧 AI 軟件和存儲(chǔ)技術(shù),可將集群中 Grace Blackwell 超級(jí)芯片的數(shù)量擴(kuò)展至數(shù)萬(wàn)個(gè),通過(guò)
    發(fā)表于 03-19 10:56 ?301次閱讀
    <b class='flag-5'>NVIDIA</b> 推出 Blackwell 架構(gòu) DGX SuperPOD,適用于萬(wàn)億參數(shù)級(jí)的生成式 AI <b class='flag-5'>超級(jí)</b>計(jì)算

    深度解讀Nvidia AI芯片路線圖

    Nvidia是一個(gè)同時(shí)擁有 GPU、CPU和DPU的計(jì)算芯片和系統(tǒng)公司。Nvidia通過(guò)NVLink、NVSwitch和NVLink C2C
    發(fā)表于 03-13 09:25 ?732次閱讀
    深度解讀<b class='flag-5'>Nvidia</b> AI<b class='flag-5'>芯片</b>路線圖

    Nvidia與AMD新芯片,突破PCIe瓶頸

    AMD 和 NvidiaGPU 都依賴(lài) PCI 總線與 CPU 進(jìn)行通信。CPUGPU 有兩個(gè)不同的內(nèi)存域,數(shù)據(jù)必須通過(guò) PCI
    的頭像 發(fā)表于 03-08 14:15 ?481次閱讀
    <b class='flag-5'>Nvidia</b>與AMD新<b class='flag-5'>芯片</b>,突破PCIe瓶頸

    為什么GPUCPU更快?

    GPUCPU更快的原因并行處理能力:GPU可以同時(shí)處理多個(gè)任務(wù)和數(shù)據(jù),而CPU通常只能一次處理一項(xiàng)任務(wù)。這是因?yàn)?b class='flag-5'>GPU的架構(gòu)使得它可以同時(shí)
    的頭像 發(fā)表于 01-26 08:30 ?1786次閱讀
    為什么<b class='flag-5'>GPU</b>比<b class='flag-5'>CPU</b>更快?

    亞馬遜云科技與 NVIDIA 宣布開(kāi)展戰(zhàn)略合作,為生成式 AI 提供全新超級(jí)計(jì)算基礎(chǔ)架構(gòu)、軟件和服務(wù)

    亞馬遜云科技將提供首款搭載 NVIDIA Grace Hopper 超級(jí)芯片 和亞馬遜云科技可擴(kuò)展性 UltraCluster 的云? AI 超級(jí)計(jì)算機(jī)。 首款采用
    的頭像 發(fā)表于 11-29 21:00 ?539次閱讀
    亞馬遜云科技與 <b class='flag-5'>NVIDIA</b> 宣布開(kāi)展戰(zhàn)略合作,為生成式 AI 提供全新<b class='flag-5'>超級(jí)</b>計(jì)算基礎(chǔ)架構(gòu)、軟件和服務(wù)

    大模型算驅(qū)動(dòng)AI服務(wù)器行業(yè)報(bào)告

    AI服務(wù)器按芯片類(lèi)型可分為CPU+GPU、CPU+FPGA、CPU+ASIC等組合形式,CPU+GPU是目前國(guó)內(nèi)的主要選擇(占比91.9%)
    發(fā)表于 11-28 09:18 ?204次閱讀
    大模型算驅(qū)動(dòng)AI服務(wù)器行業(yè)報(bào)告

    NVIDIA GPU的核心架構(gòu)及架構(gòu)演進(jìn)

    在探討 NVIDIA GPU 架構(gòu)之前,我們先來(lái)了解一些相關(guān)的基本知識(shí)。GPU 的概念,是由 NVIDIA 公司在 1999 年發(fā)布 Geforce256 圖形處理
    發(fā)表于 11-21 09:40 ?1162次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b>的核心架構(gòu)及架構(gòu)演進(jìn)