0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DGX-2為什么被稱為全球最大GPU

NVIDIA英偉達企業(yè)解決方案 ? 來源:未知 ? 作者:胡薇 ? 2018-10-25 15:07 ? 次閱讀

今年早些時候,NVIDIA首席執(zhí)行官黃仁勛發(fā)布了NVIDIA? DGX-2?服務(wù)器,并稱其為“全球最大GPU”。DGX-2在單一系統(tǒng)中包含了16個NVIDIA Tesla? V100 32 GB GPU和其他頂級組件(兩個24核Xeon CPU、1.5 TB DDR4 DRAM內(nèi)存和30 TB NVMe存儲),通過基于NVSwitch的NVLink結(jié)構(gòu)連接,可提供2 petaFLOPS的性能,堪稱最強大的超級計算機之一。

NVSwitch使DGX-2成為了最大的GPU,這意味著其總體并非各部分的簡單加成。事實證明,讓DGX-2服務(wù)器能夠稱得上“全球最大GPU”的,正是其中看似最不起眼的部分。讓我們來看看創(chuàng)新NVIDIA NVSwitch?芯片及其他工程特性如何使DGX-2成為了全球最大的GPU。

注:本文中的信息來自于Alex Ishii 和 Denis Foley 在Hot Chip 2018大會上的專題演示“NVSwitch and DGX?2 – NVIDIA NVLink-Switching Chip and Scale-Up GPU-Compute Server”。

單一GPU

讓我們先看看單一多核GPU如何與CPU交互,如圖1所示。程序員通過NVIDIA CUDA?技術(shù)明確地展現(xiàn)了并行工作。工作流經(jīng)PCIe I / O端口進入GPU,其中數(shù)據(jù)由GPU驅(qū)動程序分發(fā)到可用的圖形處理群集(GPC)和流式多處理器(SM)內(nèi)核。XBAR的采用讓GPU / SM內(nèi)核能夠在L2高速緩存和高帶寬GPU內(nèi)存(HBM2)上交換數(shù)據(jù)。

GPC和GPU內(nèi)存之間的高帶寬可實現(xiàn)大規(guī)模計算能力和快速同步,但規(guī)模受限,因其要求數(shù)據(jù)必須適合本地GPU內(nèi)存,才能有效使用XBAR提供的高帶寬。

圖1. 連接到CPU的單一GPU

雙GPU(PCIe和NVLink)

圖2顯示了添加另一個GPU是如何增加可用GPU內(nèi)存量的。在所示配置中,GPU只能以PCIe提供的32 GBps的最大雙向帶寬,訪問其他GPU上的內(nèi)存。此外,這些交互會與總線上的CPU操作競爭,甚至進一步占用可用帶寬。

圖2. 通過PCIe總線連接的雙GPU

NVIDIA NVLink?技術(shù)使GPC無需通過PCIe總線即可訪問遠程GPU內(nèi)存,如圖3所示。NVLinks實現(xiàn)了XBAR之間的有效橋接。V100 GPU上最多可采用六個NVLink,GPU之間的雙向帶寬可達300 GBps。但是,在具有兩個以上GPU的系統(tǒng)中,六個可用的NVLink必須先分成較小的鏈接組,每個組專用于訪問不同的特定單一GPU。這就限制了可使用直接連接來構(gòu)建的機器規(guī)模,并降低了每對GPU之間的帶寬。

圖3. 通過NVLink技術(shù)連接的雙GPU

Super Crossbar將GPU連接在一起

理想的情況是提供某種交叉,讓更多GPU能夠訪問所有GPU內(nèi)存,所有GPU都可能在單一GPU驅(qū)動程序?qū)嵗目刂葡拢鐖D4所示。有了這樣的交叉,可在沒有其他進程干預(yù)的情況對GPU內(nèi)存進行訪問,且可用帶寬將足夠高,可提供類似于上文所述的雙GPU情況下的性能擴展。

圖4. 尋找交叉開關(guān)設(shè)備

最終目標(biāo)是提供以下所有內(nèi)容:

更大的問題規(guī)模容量。大小受整個GPU集合的GPU內(nèi)存容量限制,而非單一GPU容量。

強大的可擴展性。與現(xiàn)有解決方案相比,NUMA效應(yīng)將大大降低??們?nèi)存帶寬實際上會隨GPU數(shù)量而增長。

使用便利。針對較少數(shù)量的GPU編寫的應(yīng)用程序?qū)⒏子谝浦病4送?,豐富的資源可助力快速開展實驗。

以上16-GPU配置(假設(shè)有32GB V100 GPU)產(chǎn)生的總?cè)萘渴蛊淠軌蚯八从械剡\行“一個超強GPU”的計算。

NVIDIA NVSwitch介紹

NVSwitch(圖5)是一款GPU橋接設(shè)備,可提供所需的NVLink交叉網(wǎng)絡(luò)。端口邏輯模塊中的數(shù)據(jù)包轉(zhuǎn)換使得進出多GPU的流量看似是通過單一GPU的。

圖5. 帶有標(biāo)注的NVSwitch芯片裸片

NVSwitch芯片并行運行,以支持?jǐn)?shù)量日益增加的GPU之間的互連??墒褂萌齻€NVSwitch芯片構(gòu)建一個8 GPU封閉系統(tǒng)。兩條NVLink路徑將每個GPU連接至每臺交換機,流量在所有NVLink和NVSwitch之間交叉。 GPU使用任意對之間的300 GBps雙向帶寬成對通信,因為NVSwitch芯片提供了從任何源到任何目的地的唯一路徑。

圖6. NVSwitch框圖

實現(xiàn)了對分帶寬

讓每個GPU從另一個GPU讀取數(shù)據(jù),而不會有兩個GPU從同一遠程GPU讀取數(shù)據(jù),就實現(xiàn)了無干擾的成對通信能力。使用16個GPU實現(xiàn)的1.98 TBps讀取帶寬與128B傳輸在理論上80%的雙向NVLink效率相匹配。

圖7. 實現(xiàn)的對分帶寬結(jié)果

使用cuFFT(16K X 16K)

實現(xiàn)更強大的可擴展性

通過在越來越多的GPU上(更高的GFLOPS,相應(yīng)的總運行時間卻更短)、以及搭載V100 GPU的NVIDIA DGX-1服務(wù)器上運行“iso-problem instance”計算進行對比,即能證明其強大的可擴展性能,如圖8所示。如果沒有NVSwitch網(wǎng)絡(luò)提供的NVLink交叉,由于問題分散在更多GPU上,傳輸數(shù)據(jù)所需的時間要長于在本地對相同數(shù)據(jù)進行簡單計算所需的時間。

圖8. 使用NVLink與Hybrid Cube Mesh的cuFFT結(jié)果

全歸約基準(zhǔn)測試

圖9也體現(xiàn)了NVLink交叉的優(yōu)勢。全歸約基準(zhǔn)測試是對機器學(xué)習(xí)應(yīng)用程序中采用的重要通信原語進行的測量。與兩臺配備八個GPU的服務(wù)器(通過InfiniBand連接)相比,NVLink交叉讓16 GPU DGX-2服務(wù)器能夠提供更高帶寬和更低延遲。 針對較小的信息,NVLink網(wǎng)絡(luò)的效率明顯優(yōu)于InfiniBand。

圖9. 全歸約基準(zhǔn)測試結(jié)果顯示NVLink與InfiniBand帶寬效率的顯著差異

HPC和AI訓(xùn)練基準(zhǔn)測試的加速

圖10所示,與總GPU數(shù)相同的兩臺DGX-1(采用V100)服務(wù)器相比,HPC和AI訓(xùn)練基準(zhǔn)測試性能得以提升,速度達到了其2到2.7倍。對比所用的DGX-1服務(wù)器各采用了8個Tesla V100 32 GB GPU和雙槽Xeon E5 2698v4處理器。服務(wù)器通過四個EDR IB / GbE端口連接。

圖10. HPC和AI訓(xùn)練基準(zhǔn)測試的加速

總結(jié)

正因有了NVSwitch芯片,DGX-2才可謂全球最大GPU。NVSwitch是一種暢通無阻的設(shè)備,具有18個NVLink端口,每端口51.5 GBps,聚合雙向帶寬達928 GBps。采用了NVSwitch芯片的DGX-2可提供512 GB的總?cè)萘?,針對特定?yīng)用的性能表現(xiàn)超過InfiniBand連接的一對DGX-1服務(wù)器的兩倍。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4855

    瀏覽量

    102711
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4673

    瀏覽量

    128592

原文標(biāo)題:全球最大GPU 背后的秘密:NVSwitch如何實現(xiàn)NVIDIA DGX-2的超強功力?

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    【一文看懂】大白話解釋“GPUGPU算力”

    GPUGPU算力1.GPU是什么?2.GPU與CPU的區(qū)別?3.GPU算力是什么?4.哪些因素影響了G
    的頭像 發(fā)表于 10-29 08:05 ?153次閱讀
    【一文看懂】大白話解釋“<b class='flag-5'>GPU</b>與<b class='flag-5'>GPU</b>算力”

    為什么被稱為超級電容?超級電容怎么用?

    說起電容的作用,很多電子人脫口而出:濾波。沒錯,這是大部分電容在電路中的作用,但有一種電容生而不是為了濾波,那就是超級電容。本期貿(mào)澤科普實驗室,momo就為大家說一說超級電容。
    的頭像 發(fā)表于 10-24 10:15 ?203次閱讀
    為什么<b class='flag-5'>被稱為</b>超級電容?超級電容怎么用?

    NVIDIA DGX B200首次面向零售市場:配備8塊B200 GPU

    10月13日最新消息,NVIDIA的DGX B200 AI服務(wù)器近期已在Broadberry上架,標(biāo)價515,410美元(相當(dāng)于約364.2萬元人民幣)。   自發(fā)布以來,Blackwell架構(gòu)就備受業(yè)界矚目,NVIDIA首席執(zhí)行官黃仁勛對其贊譽有加,微軟、Meta等科技巨頭也迅速跟進采用。
    的頭像 發(fā)表于 10-14 14:34 ?477次閱讀

    TI TDA2x SoC上基于GPU的環(huán)視優(yōu)化

    電子發(fā)燒友網(wǎng)站提供《TI TDA2x SoC上基于GPU的環(huán)視優(yōu)化.pdf》資料免費下載
    發(fā)表于 10-10 09:14 ?0次下載
    TI TDA<b class='flag-5'>2</b>x SoC上基于<b class='flag-5'>GPU</b>的環(huán)視優(yōu)化

    3DP工藝最大的優(yōu)勢是什么

    3DP(Three Dimensional Printing and Gluing)工藝,也被稱為三維打印黏結(jié)成型、噴墨沉積或粘合噴射、噴墨粉末打印,是一種先進的3D打印技術(shù)。其最大的優(yōu)勢主要體現(xiàn)在以下幾個方面:
    的頭像 發(fā)表于 09-16 15:37 ?548次閱讀

    被稱為“小號HBM”,華邦電子CUBE進階邊緣AI存儲

    電子發(fā)燒友網(wǎng)報道(文/黃晶晶)與AI訓(xùn)練以GPU搭配HBM不同,邊緣AI采用何種內(nèi)存方式,DDR、GDDR、LPDDR等適用于不同的場景。日前,華邦電子產(chǎn)品總監(jiān)朱迪接受包括電子發(fā)燒友網(wǎng)在內(nèi)的媒體采訪
    的頭像 發(fā)表于 07-01 16:21 ?2849次閱讀

    聚徽觸控-GPU 工控機是什么產(chǎn)品

    圖像處理器(Graphics Processing Unit,簡稱 GPU),又被稱為視覺處理單元、圖形核心,其設(shè)計專注于特定的任務(wù),主要用于加速幀緩沖區(qū)中實時的 3D 圖像構(gòu)建以及顯示相關(guān)的電子運算。通常,GPU 與中央處理器
    的頭像 發(fā)表于 06-14 09:57 ?266次閱讀

    進一步解讀英偉達 Blackwell 架構(gòu)、NVlink及GB200 超級芯片

    百億億次計算和萬億參數(shù)模型提供基礎(chǔ) NVIDIA推出世界首個高速GPU互連技術(shù)NVLink?,提供的速度遠超基于PCIe的解決方案,是多GPU系統(tǒng)擴展內(nèi)存和性能的理想選擇。NVLink為處理最大視覺
    發(fā)表于 05-13 17:16

    OpenAI聯(lián)手Nvidia發(fā)布首臺Nvidia DGX H200

    OpenAI總裁兼聯(lián)合創(chuàng)始人Greg Brockman分享了他與山姆?阿爾特曼(Sam Altman)、黃仁勛以及自己的合影,他們的眼前正是這臺首次亮相的DGX H200。
    的頭像 發(fā)表于 04-25 13:50 ?383次閱讀

    聊聊GPU背后的大贏家-HBM

    HBM全稱為High Bandwidth Memory,直接翻譯即是高帶寬內(nèi)存,是一款新型的CPU/GPU內(nèi)存芯片。
    的頭像 發(fā)表于 04-20 15:27 ?1437次閱讀
    聊聊<b class='flag-5'>GPU</b>背后的大贏家-HBM

    NVIDIA Blackwell DGX SuperPOD助力萬億級生成式AI計算

    全新 DGX SuperPOD 采用新型高效液冷機架級擴展架構(gòu),基于 NVIDIA DGX GB200 系統(tǒng)構(gòu)建而成,在 FP4 精度下可提供 11.5 exaflops 的 AI 超級計算性能和 240 TB 的快速顯存,且可通過增加機架來擴展性能。
    發(fā)表于 03-21 09:49 ?184次閱讀

    英偉達推出百億參數(shù)AI模型處理方案——DGX SuperPOD

    據(jù)悉,新型DGX SuperPOD采用全新的高效水冷機架式設(shè)計,搭載英偉達DGX GB200系統(tǒng),F(xiàn)P4精度下具備11.5 exaflops的人工智能超級計算力以及240 terabytes的高速內(nèi)存。用戶可以通過加裝機架進行持續(xù)擴充。
    的頭像 發(fā)表于 03-19 14:35 ?676次閱讀

    為什么單顆裸芯會被稱為die呢?

    Wafer、die、chip是半導(dǎo)體領(lǐng)域常見的術(shù)語,但是為什么單顆裸芯會被稱為die呢?
    的頭像 發(fā)表于 01-24 09:14 ?2693次閱讀
    為什么單顆裸芯會<b class='flag-5'>被稱為</b>die呢?

    全球市值最大的十家芯片公司

    根據(jù)Companies Market Cap的最新統(tǒng)計,全球市值最大十家芯片公司如下所示。
    的頭像 發(fā)表于 01-05 16:02 ?2178次閱讀
    <b class='flag-5'>全球</b>市值<b class='flag-5'>最大</b>的十家芯片公司

    蔚來5納米自動駕駛芯片神璣NX9031分析

    英偉達DGX系統(tǒng)有8個GPU也就是8張顯卡級聯(lián),首先GPU是無法單獨工作的,必須配合CPU才能工作。GPU之間是通過NVLink連接的,CPU與GP
    發(fā)表于 01-02 10:20 ?7239次閱讀
    蔚來5納米自動駕駛芯片神璣NX9031分析