0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用NVIDIA HGX H100加速計算數(shù)據(jù)中心平臺應(yīng)用

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:William Tsu ? 2022-04-20 10:54 ? 次閱讀

NVIDIA 的使命是加快我們的時代達(dá)芬奇和愛因斯坦的工作,并賦予他們解決社會的巨大挑戰(zhàn)。隨著 人工智能AI )、 高性能計算 ( HPC )和數(shù)據(jù)分析的復(fù)雜性呈指數(shù)級增長,科學(xué)家需要一個先進(jìn)的計算平臺,能夠在一個十年內(nèi)實現(xiàn)百萬次的加速,以解決這些非同尋常的挑戰(zhàn)。

為了回答這個需求,我們介紹了NVIDIA HGX H100 ,一個由 NVIDIA Hopper 架構(gòu) 供電的密鑰 GPU 服務(wù)器構(gòu)建塊。這一最先進(jìn)的平臺安全地提供了低延遲的高性能,并集成了從網(wǎng)絡(luò)到數(shù)據(jù)中心級計算(新的計算單元)的全套功能。

在這篇文章中,我將討論NVIDIA HGX H100 是如何幫助我們加速計算數(shù)據(jù)中心平臺的下一個巨大飛躍。

HGX H100 8-GPU

HGX H100 8- GPU 是新一代 Hopper GPU 服務(wù)器的關(guān)鍵組成部分。它擁有八個 H100 張量核 GPU 和四個第三代 NV 交換機(jī)。每個 H100 GPU 都有多個第四代 NVLink 端口,并連接到所有四個 NVLink 交換機(jī)。每個 NVSwitch 都是一個完全無阻塞的交換機(jī),完全連接所有八個 H100 Tensor Core GPU 。

The HGX H100 8-GPU represents the key building block of the new Hopper generation GPU server and hosts eight H100 Tensor Core GPUs and four third generation NVSwitch.

圖 1 。 HGX H100 8-GPU 的高級框圖

NVSwitch 的這種完全連接的拓?fù)浣Y(jié)構(gòu)使任何 H100 都可以同時與任何其他 H100 通話。值得注意的是,這種通信以每秒 900 千兆字節(jié)( GB / s )的 NVLink 雙向速度運行,這是當(dāng)前 PCIe Gen4 x16 總線帶寬的 14 倍多。

第三代 NVSwitch 還為集體運營提供了新的硬件加速,多播和 NVIDIA 的網(wǎng)絡(luò)規(guī)模大幅縮減。結(jié)合更快的 NVLink 速度,像all-reduce這樣的普通人工智能集體操作的有效帶寬比 HGX A100 增加了 3 倍。集體的 NVSwitch 加速也顯著降低了 GPU 上的負(fù)載。

表 1 。將 HGX A100 8- GPU 與新的 HGX H100 8-GPU 進(jìn)行比較

*注: FP 性能包括稀疏性

HGX H100 8- GPU 支持 NVLink 網(wǎng)絡(luò)

新興的 exascale HPC 和萬億參數(shù)人工智能模型(用于精確對話人工智能等任務(wù))需要數(shù)月的訓(xùn)練,即使是在超級計算機(jī)上。將其壓縮到業(yè)務(wù)速度并在數(shù)小時內(nèi)完成培訓(xùn)需要服務(wù)器集群中每個 GPU 之間的高速、無縫通信。

為了解決這些大的使用案例,新的 NVLink 和 NVSwitch 旨在使 HGX H100 8- GPU 能夠通過新的 NVLink 網(wǎng)絡(luò)擴(kuò)展并支持更大的 NVLink 域。 HGX H100 8- GPU 的另一個版本具有這種新的 NVLink 網(wǎng)絡(luò)支持。

The HGX H100 8-GPU was designed to scale up to support a larger NVLink domain with the new NVLink-Network.

圖 2 。支持 NVLink 網(wǎng)絡(luò)的 HGX H100 8- GPU 的高級框圖

使用 HGX H100 8- GPU 和 NVLink 網(wǎng)絡(luò)支持構(gòu)建的系統(tǒng)節(jié)點可以通過八進(jìn)制小尺寸可插拔( OSFP ) LinkX 電纜和新的外部 NVLink 交換機(jī)完全連接到其他系統(tǒng)。此連接最多支持 256 個 GPU NVLink 域。圖 3 顯示了集群拓?fù)洹?/p>

表 2 。比較 256 個 A100 GPU 吊艙和 256 個 H100 GPU 吊艙

*注: FP 性能包括稀疏性

目標(biāo)用例和性能優(yōu)勢

隨著 HGX H100 計算和網(wǎng)絡(luò)能力的大幅增加, AI 和 HPC 應(yīng)用程序的性能得到了極大的提高。

今天的主流 AI 和 HPC 模型可以完全駐留在單個節(jié)點的聚合 GPU 內(nèi)存中。例如, BERT -Large 、 Mask R-CNN 和 HGX H100 是最高效的培訓(xùn)解決方案。

對于更先進(jìn)、更大的 AI 和 HPC 模型,該模型需要多個聚合 GPU 內(nèi)存節(jié)點才能適應(yīng)。例如,具有 TB 級嵌入式表的深度學(xué)習(xí)推薦模型( DLRM )、大量混合專家( MoE )自然語言處理模型,以及具有 NVLink 網(wǎng)絡(luò)的 HGX H100 加速了關(guān)鍵通信瓶頸,是此類工作負(fù)載的最佳解決方案。

圖 4 來自 NVIDIA H100 GPU 體系結(jié)構(gòu) 白皮書顯示了 NVLink 網(wǎng)絡(luò)帶來的額外性能提升。

所有性能數(shù)據(jù)都是基于當(dāng)前預(yù)期的初步數(shù)據(jù),可能會隨著運輸產(chǎn)品的變化而變化。 A100 集群: HDR IB 網(wǎng)絡(luò)。 H100 集群: NDR IB 網(wǎng)絡(luò)和 NVLink 網(wǎng)絡(luò),如圖所示。

# GPU :氣候建模 1K , LQCD 1K ,基因組學(xué) 8 , 3D-FFT 256 , MT-NLG 32 (批次大小: A100 為 4 , 1 秒 H100 為 60 , A100 為 8 , 1.5 和 2 秒 H100 為 64 ), MRCNN 8 (批次 32 ), GPT-3 16B 512 (批次 256 ), DLRM 128 (批次 64K ), GPT-3 16K (批次 512 ), MoE 8K (批次 512 ,每個 GPU 一名專家)?

HGX H100 4-GPU

除了 8- GPU 版本外, HGX 系列還具有一個 4-GPU 版本,該版本直接與第四代 NVLink 連接。

H100 對 H100 點對點對等 NVLink 帶寬為 300 GB / s 雙向,比今天的 PCIe Gen4 x16 總線快約 5 倍。

HGX H100 4- GPU 外形經(jīng)過優(yōu)化,可用于密集 HPC 部署:

多個 HGX H100 4- GPU 可以裝在 1U 高液體冷卻系統(tǒng)中,以最大化每個機(jī)架的 GPU 密度。

帶有 HGX H100 4- GPU 的完全無 PCIe 交換機(jī)架構(gòu)直接連接到 CPU ,降低了系統(tǒng)材料清單并節(jié)省了電源。

對于 CPU 更密集的工作負(fù)載, HGX H100 4- GPU 可以與兩個 CPU 插槽配對,以提高 CPU 與 GPU 的比率,從而實現(xiàn)更平衡的系統(tǒng)配置。

人工智能和高性能計算的加速服務(wù)器平臺

NVIDIA 正與我們的生態(tài)系統(tǒng)密切合作,在今年晚些時候?qū)⒒?HGX H100 的服務(wù)器平臺推向市場。我們期待著把這個強(qiáng)大的計算工具交給你們,使你們能夠以人類歷史上最快的速度創(chuàng)新和完成你們一生的工作。

關(guān)于作者

William Tsu NVIDIA HGX 數(shù)據(jù)中心產(chǎn)品線的產(chǎn)品管理。他與客戶和合作伙伴合作,將世界上性能最高的人工智能、深度學(xué)習(xí)和 HPC 服務(wù)器平臺推向市場。威廉最初加入NVIDIA 是作為一名圖形處理器芯片設(shè)計師。他是最初的 PCI Express 行業(yè)標(biāo)準(zhǔn)規(guī)范的共同作者,也是 12 項專利的共同發(fā)明人。威廉獲得了他的學(xué)士學(xué)位,碩士學(xué)位在計算機(jī)科學(xué)和 MBA 從加利福尼亞大學(xué),伯克利。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4796

    瀏覽量

    102467
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    4532

    瀏覽量

    71675
  • 人工智能
    +關(guān)注

    關(guān)注

    1787

    文章

    46130

    瀏覽量

    235464
  • H100
    +關(guān)注

    關(guān)注

    0

    文章

    31

    瀏覽量

    264
收藏 人收藏

    評論

    相關(guān)推薦

    利用NVIDIA RAPIDS加速DolphinDB Shark平臺提升計算性能

    DolphinDB 是一家高性能數(shù)據(jù)庫研發(fā)企業(yè),也是 NVIDIA 初創(chuàng)加速計劃成員,其開發(fā)的產(chǎn)品基于高性能分布式時序數(shù)據(jù)庫,是支持復(fù)雜計算
    的頭像 發(fā)表于 09-09 09:57 ?296次閱讀
    <b class='flag-5'>利用</b><b class='flag-5'>NVIDIA</b> RAPIDS<b class='flag-5'>加速</b>DolphinDB Shark<b class='flag-5'>平臺</b>提升<b class='flag-5'>計算</b>性能

    Supermicro推出適配NVIDIA Blackwell和NVIDIA HGX H100/H200的機(jī)柜級即插即用液冷AI SuperCluster

    制造商,推出可立即部署式液冷型AI數(shù)據(jù)中心。此數(shù)據(jù)中心專為云原生解決方案而設(shè)計,通過SuperCluster加速各界企業(yè)對生成式AI的運用,并針對NVIDIA AI Enterpris
    發(fā)表于 06-07 15:12 ?197次閱讀
    Supermicro推出適配<b class='flag-5'>NVIDIA</b> Blackwell和<b class='flag-5'>NVIDIA</b> <b class='flag-5'>HGX</b> <b class='flag-5'>H100</b>/<b class='flag-5'>H</b>200的機(jī)柜級即插即用液冷AI SuperCluster

    首批1024塊H100 GPU,正崴集團(tuán)將建中國臺灣最大AI計算中心

    中國臺灣當(dāng)?shù)卣思瘓F(tuán)5月27日宣布,將與日本公司Ubitus共同打造人工智能(AI)計算中心,其中第一期將導(dǎo)入128個機(jī)柜,共計1024張英偉達(dá)H100旗艦計算卡,旨在構(gòu)建臺灣最大的AI計算中
    的頭像 發(fā)表于 05-29 10:05 ?790次閱讀

    進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級芯片

    冷卻技術(shù),提高計算密度,減少占地面積,并通過高帶寬、低延遲的GPU通信,有效減少數(shù)據(jù)中心的碳足跡和能源消耗。相較于傳統(tǒng)的NVIDIA H100風(fēng)冷基礎(chǔ)設(shè)施,GB200在相同功耗下實現(xiàn)2
    發(fā)表于 05-13 17:16

    NVIDIA 通過 CUDA-Q 平臺為全球各地的量子計算中心提供加速

    德國、日本和波蘭的超級計算機(jī)利用 Grace-Hopper 和量子-經(jīng)典加速超算平臺推進(jìn)量子計算研究 ? ? 德國漢堡 —— 國際超算大會(
    發(fā)表于 05-13 15:21 ?156次閱讀
    <b class='flag-5'>NVIDIA</b> 通過 CUDA-Q <b class='flag-5'>平臺</b>為全球各地的量子<b class='flag-5'>計算中心</b>提供<b class='flag-5'>加速</b>

    AI計算需求激增,英偉達(dá)H100功耗成挑戰(zhàn)

    根據(jù)預(yù)測,若H100的年利用率保持在61%,那么單臺設(shè)備每年將耗電3740千瓦小時左右。如果英偉達(dá)在2023年售出150萬塊H100,2024年再增加至200萬塊,那么到2024年底,將有350萬塊
    的頭像 發(fā)表于 12-28 09:29 ?1905次閱讀

    淺談云數(shù)據(jù)中心、智算數(shù)據(jù)中心、超算數(shù)據(jù)中心區(qū)別,分布式電源是趨勢

    數(shù)據(jù)中心、智算數(shù)據(jù)中心、超算數(shù)據(jù)中心三者區(qū)別,分布式電源是趨勢 大家都在聊云數(shù)據(jù)中心、智算數(shù)據(jù)中心、超
    的頭像 發(fā)表于 11-29 14:20 ?1710次閱讀
    淺談云<b class='flag-5'>數(shù)據(jù)中心</b>、智<b class='flag-5'>算數(shù)據(jù)中心</b>、超<b class='flag-5'>算數(shù)據(jù)中心</b>區(qū)別,分布式電源是趨勢

    英偉達(dá)H100,沒那么缺貨了 !RTX 4090 ,大漲

    這樣,在云端使用 H100 GPU 的排隊時間可能會縮短。數(shù)據(jù)中心提供商和前比特幣挖礦公司正在開設(shè)具有 H100 集群的數(shù)據(jù)中心。這些公司承諾以大型云提供商成本的一小部分提供
    的頭像 發(fā)表于 11-23 15:59 ?1457次閱讀

    英偉達(dá)推出用于人工智能工作的頂級芯片HGX H200

    近日,英偉達(dá)推出了一款用于人工智能工作的頂級芯片HGX H200。新的GPU升級了需求巨大的H100,內(nèi)存帶寬增加了1.4倍,內(nèi)存容量增加了1.8倍,提高了其處理密集生成人工智能工作的能力。 在
    的頭像 發(fā)表于 11-15 14:34 ?1305次閱讀

    SC23 | NVIDIA 為全球領(lǐng)先的 AI 計算平臺 Hopper 再添新動力

    世界頂級服務(wù)器制造商和云服務(wù)提供商即將推出 HGX H200 系統(tǒng)與云實例。 11月13日,NVIDIA 宣布推出 NVIDIA HGX
    的頭像 發(fā)表于 11-14 20:05 ?384次閱讀
    SC23 | <b class='flag-5'>NVIDIA</b> 為全球領(lǐng)先的 AI <b class='flag-5'>計算</b><b class='flag-5'>平臺</b> Hopper 再添新動力

    NVIDIA 為全球領(lǐng)先的 AI 計算平臺 Hopper 再添新動力

    NVIDIA HGX? H200,為 Hopper 這一全球領(lǐng)先的 AI 計算平臺再添新動力。NVID
    發(fā)表于 11-14 14:30 ?201次閱讀
    <b class='flag-5'>NVIDIA</b> 為全球領(lǐng)先的 AI <b class='flag-5'>計算</b><b class='flag-5'>平臺</b> Hopper 再添新動力

    揭秘:英偉達(dá)H100最強(qiáng)替代者

    目前,用于高端推理的 GPU 主要有三種:NVIDIA A100NVIDIA H100 和新的 NVIDIA L40S。我們將跳過
    的頭像 發(fā)表于 11-13 16:13 ?1295次閱讀
    揭秘:英偉達(dá)<b class='flag-5'>H100</b>最強(qiáng)替代者

    傳英偉達(dá)新AI芯片H20綜合算力比H100降80%

    但據(jù)悉,三種新型AI芯片不是“改良型”,而是“縮小型”。用于ai模型教育的hgx h20的帶寬和計算速度是有限的。整體計算能力理論上比nvidia
    的頭像 發(fā)表于 11-13 09:41 ?1483次閱讀

    英偉達(dá)H100的最強(qiáng)替代者

    首先,我們首先要說的是,如果您現(xiàn)在想要訓(xùn)練基礎(chǔ)模型(例如 ChatGPT),那么 NVIDIA H100 80GB SXM5 仍然是首選 GPU。一旦基礎(chǔ)模型經(jīng)過訓(xùn)練,通??梢栽诔杀竞凸娘@著降低的部件上根據(jù)特定領(lǐng)域的數(shù)據(jù)或推理
    的頭像 發(fā)表于 11-08 15:35 ?882次閱讀
    英偉達(dá)<b class='flag-5'>H100</b>的最強(qiáng)替代者

    美國AI公司將打造漂浮在海上的計算平臺

    bsfcc是一個海洋平臺,可容納10,000個nvidia h100 (hoper)數(shù)據(jù)中心gpu。這是漂浮在海面上的超級電腦。利用海水放出
    的頭像 發(fā)表于 11-03 12:18 ?705次閱讀