0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

異構計算的初步創(chuàng)新

jh18616091022 ? 來源:AIOT大數據 ? 2023-06-19 11:26 ? 次閱讀

1. 網絡的價值在于延續(xù)了集群算力摩爾定律

芯片層面網絡:chip-to-chip場景,從PCIe到高速連接

(一)通用/傳統(tǒng)場景:PCIe是服務 器內部通信的總線標準,制約了電口 通信速率的提升。 經典的通用服務器內,CPU、圖形卡、 硬盤驅動器、SSD、Wi-Fi 、以太網 設備等主要基于PCIe(PCI express) 協(xié)議相互連接。 相較于4.0版本,PCIe 5.0傳輸速度更 高,x16帶寬(雙向)從64 GB/s提 升到了128 GB/s;目前規(guī)范制定已迭 代至6.0版本,帶寬再翻倍。

異構計算的初步創(chuàng)新:在PCIe物 理架構和電氣接口的基礎上,英特 爾等牽頭成立CXL聯盟并最新推出 CXL 2.0-3.0規(guī)范,用于AI、高性 能計算等場景中CPU與GPU等的 互聯,通過“內存池化”等方式優(yōu) 化內存調用,進而提升系統(tǒng)整體性 能。

(二)Nvidia代表,已對標PCIe推出NVLink解決異構計算與AI算力網絡瓶頸。 NVLink是Nvidia專門設計用于點對點鏈路高速互聯的網絡方案(例如GPU to GPU連 接)。據Nvidia白皮書,NVLink的開銷比傳統(tǒng)網絡更低。 傳統(tǒng)網絡中復雜網絡功能(例如端到端重試、自適應路由、數據包重新排序等),在NVLink體系 下可以在增加端口數的情況下進行權衡。 此外,基于NVLink的網絡接口更加簡單,允許將應用程序層、表示層和會話層功能直接嵌入到 CUDA本身中,從而進一步減少通信開銷。

此外Nvidia發(fā)布適用于超算服務器內部的NVSwitch芯片(最早2018 GTC大會發(fā)布第一代, 作用類似于交換機ASIC),進一步通過上述NVLink協(xié)議接口將多個GPU高速互聯到一起。 據技術文檔,在H100芯片+NVLink gen4協(xié)議這一代,Nvidia配套了NVSwitch gen3芯 片方案,采用臺積電4N工藝,滿足GPU間的點對點連接,內嵌ALU使NVSwitch提供FP32 的400GFLOPS計算吞吐,每個芯片64個NVLink 4接口。 依據技術文檔,NVSwitch3芯片大小50mm*50mm,包括一個 SHARP 控制器,可并行管理多達 128 個 SHARP 組;內嵌ALU可幫助NVSwitch提供FP32的400GFLOPS計算吞吐,并且支持FP16、 FP32、FP64和BF16等精度計算。 NVSwitch3芯片提供64個NVLink4接口,每個NVLink4通道x2即200Gbps單向帶寬,單個芯片可提 供64 x 200Gbps=12.8Tbps(1.6TB/s)單向帶寬、或3.2TB/s雙工帶寬。

設備層面網絡:InfiniBand、NVLink等正迭代通用 算力下的以太網需求

結合實際情況,我們認為:單SoC性能提升,不意味著算力集群整體性能的提升;單純“堆 砌”集群芯片數量,而不優(yōu)化網絡連接,集群性能提升很快就會遇到瓶頸。 傳統(tǒng)云計算場景下,算力設備以同構計算和簡單的異構計算為主,通用的以太網很難滿足大 規(guī)模GPU集群的連接需求。

英偉達解決集群性能瓶頸的方式 是引入 InfiniBand 網 絡 , 并 將 C2C場景下應用的NVLink延伸至 設備間互聯。據Nvidia,2020年公司以69億美 元 的 價 格 收 購 網 絡 芯 片 廠 商 Mellanox,后者致力于數據中心 InfiniBand和以太網互聯產品的 研發(fā)。 2022-2023 年 DGX H100 SuperPOD集群完善,重要變化 體現在NVLink從板上/片間互聯 走向不同Server或板卡的互聯, 同時Nvidia也相應發(fā)布了NVLink 交換機(Hot chip等公開資料)。

據Nvidia設計,每套SuperPOD集群32臺服務器折合256個H100 GPU,AI性能高達 1EFlops;每套系統(tǒng)配18臺NVLink交換機,系統(tǒng)雙向帶寬57.6TB/s;(網絡需求增加) 。依照技術文檔推薦方案,每套系統(tǒng)的32臺DGX H100服務器中的400Gb/s ConnectX-7網 卡對外與IB交換機連接,用于連接多套SuperPOD系統(tǒng)。 兩層NVSwitch芯片設計:一層交換芯片位于服務器內,二層交換芯片位于交換機內。128個L1層芯片(32臺服務器,每臺4個)+36個L2層芯片(18臺NVLink交換機,每臺2個)。一 個集群內所有256個GPU的互聯,都通過NVLink和NVLink交換機單獨完成,不經過CX-7 PCIe網絡。 我們認為,從通信網絡角度看, DGX H100 SuperPOD高算力、高吞吐升級的精髓,在于: 將過去A100及之前用于服務器內部GPU高效連接的NVLink,外化到整個集群,借助新的 NVLink交換機,搭建L1、L2兩層網絡,實現跨服務器、跨機柜的GPU to GPU連接。

IDC層面網絡:AI與通用云計算架構核心差異在于組網

依據實際情況,數據中心中,擁有較大外部客戶群、提供XaaS的數據中心更可能由南北向 的流量主導;另一方面,對計算和存儲有大量內部需求時,在服務器之間看到更多的東西向 流量,可以將他們的數據中心運營成具有較高徑向的巨大集群。 兩種主要的典型數據中心架構類型: 1)超大規(guī)模數據中心。這些架構相對龐大,層與層之間有一定的收斂性,例如3:1,并且在spine層 以上依靠相干ZR光模塊互連(DCI)。800G網絡的一個重要邊界約束是,在服務器到TOR層使用 200G互連。而TOR-leaf/spine層通常使用PSA;spine層通常依靠PSM4 4x200G。 (層層匯聚,類似毛細血管到主靜脈,帶寬匯聚、連接數減少、網絡架構金字塔形。)

2)AI的數據中心網絡以胖樹fat-tree架構為主。比超大規(guī)模網絡的層數少、在各層之間幾乎無收斂。 fat-tree是業(yè)界普遍認可的實現無阻塞網絡的技術,對于任意的通信模式,總有路徑讓他們的通信帶 寬達到網卡帶寬,且用到的所有交換機都是相同的;fat-tree無帶寬收斂:傳統(tǒng)的樹形網絡拓撲中,帶寬是逐層收斂的,樹根處的網絡帶寬要遠小于各個 葉子處所有帶寬的總和。而fat-tree則更像是真實的樹,越到樹根,枝干越粗,即:從葉子到樹根, 網絡帶寬不收斂。尤其在訓練側,數據、算力以內部流轉為主,較多依賴內部徑向流量的統(tǒng)一高帶 寬。高速網絡設備/器件的需求量更大。

2. Nvidia:H100到GH200,網絡價值陡增

AIGC“前夜”,Nvidia A100的網絡架構與設備需求以 200G為基礎。

Nvidia的A100體系是典型的200G網絡結構。 DGX A100的核心網卡Mellanox ConnectX-6主要基于200Gb/s HDR InfiniBand網絡。因此底層 網絡帶寬即200G。DGX A100服務器背板明確擁有8個用于Compute的200G QSFP56接口。另外 擁有2個用于Storage的接口。 據技術文檔,A100的DGX SuperPOD集群,服務器與交換設備數量之比大致在1 : 1左右。 A100 SuperPOD設計單集群20臺DGX A100,搭配12臺用于Compute的IB交換機以及6 臺用于Storage的IB交換機(IB交換機QM8790為40 ports x 200 Gb規(guī)格)。

當前“算力之巔”:英偉達H100的網絡架構與設備需求 提升至400G/800G基準

在Chapter 1中我們已經討論過,H100網絡架 構基礎是 InfiniBand NDR 400Gb 網 絡 + NVLink 800Gb網絡。 一個標準的DGX H100 SuperPOD由32臺DGX H100、8個機柜組成。同時搭配8個Leaf交換機和 4個Spine交換機,均為IB NDR 400。 另外搭配若干Storage交換機、Management、 UFM、In-Band、Out-of-Band設備。與A100相 比,H100主板接口明顯減少,尤其Compute接口 由8個減少為4個,但單口總帶寬提升4倍至800Gb (服務器廠商定制版本也有8×400G選擇)。 同理于A100之測算,一個128 DGX H100服務器 集群(4x SuperPOD,實際127臺服務器,預留 1臺空位替換UFM)為例,搭載1016個GPU、32 個Leaf交換機、26臺Spine交換機(InfiniBand 網絡需求); 線纜數超2000條。1個SuperPOD對應8 Leaf、4 Spine;線纜數超500條。此外In-Band、Out-ofBand交換機主要需要100G、400G網絡。

GH200的設計精髓:最大化利用NVLink和InfiniBand 網絡,光連接更優(yōu)先

GH200體系的交換機需求,以256 片Grace CPU+H100 GPU為例: 96+36 = 132臺 NVLink交換機 (800G) ;24臺 InfiniBand交換機(預計 400G/800G) ;42臺 以太網交換機(預計 100G/200G,用于存儲、管理等); 相比“256 GPUs的DGX SuperPOD集群,交換機用量不超 過50臺”,GH200系統(tǒng)的交換機 需求大幅提升。

因此我們預計,Nvidia未來將越來越重視在AI體系中引入NVLink網絡,通過網絡連接來 降低系統(tǒng)成本、提升整體性能: DGX H100服務器的架構設計,仍可見傳統(tǒng)PC與通用服務器一路沿襲的思路,例如 motherboard、gpu tray等結構;而GH200則基于NVLink和AI需求對“芯片-設備IDC”的網絡架構做了重新設計。從系統(tǒng)復雜度、投資強度、整體性能提升三方面看,網 絡設備與器件(包括交換機、光模塊等)在系統(tǒng)中的重要性顯著提升。

3. 谷歌:TPU v4背后,是OCS與更激進的光 網絡設計

谷歌TPU:迭代至v4,ASIC 3D組網適配AI需求

谷歌自研TPU可追溯至2014年;據谷歌論文(TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings),最新TPU v4集群 采用激進的全光組網方案。據歷代發(fā)布數據: TPU v1主要用于推理場景,單向架構,發(fā)布于2015年; TPU v2則定位于訓練場景,單板4顆芯片,64G HBM替代DDR3,Interconnect Router提供4個 ICI Link做芯片互聯、分別496Gbps帶寬(類似NVLink),發(fā)布于2017年; TPU v3同樣單板4顆芯片,128G HBM,ICI Link帶寬提升至656Gbps,發(fā)布于2018年; TPU v4的128G HBM帶寬升級至1200GBps,ICI Link則迭代為6路448Gbps。

谷歌OCS:全光交換、WDM等光通信技術,算力 與網絡同行

OCS即Optical circuit switches,是谷歌TPU v4網絡連接的核心交換機。 通常數據中心內數據交換是光電混合網絡,設備之間的主要互聯通過光纜/銅纜/光電轉換 器件、以及交換機ASIC/Serdes/PCIE/NVLink等鏈路實現。 與過去在網絡層之間多次將信號“從電轉換為光再到電”不同,OCS是一種全光學的連接 方案,通過MEMS陣列結合光環(huán)路器、波分復用光模塊實現光路的靈活切換、以達到直接 通過光信號組建交換網絡的目的。

4. AMD、Amazon等:芯片亦持續(xù)迭代

AMD:MI300系列2.5D-3D封裝,板上帶寬顯著增加

據AMD發(fā)布會,MI300系列方案內存 容量與帶寬顯著提升:MI300X擁有192GB的HBM3、 5.2TBps的帶寬和896GBps的Infinity Fabric帶寬; AMD Infinity 架構將 8 個MI300X 加 速器連接在一個系統(tǒng)中,提供合計1.5 TB的HBM3內存。

Amazon:自研Trainium芯片支撐Trn1等訓練云服務

Amazon發(fā)布由自研芯片 Trainuim支持的AWS EC2 Trn1: 每臺Trn1最多可搭配16顆 Trainium芯片,芯片內Neuron Link專用連接并搭配HBM內存, 調用800 Gbps的Elastic Fabric Adapter網絡接口,可橫向拓展 至1萬顆以上的Trainium芯片。 進階版本Trn1n的EFA帶寬將達到 1600 Gbps。

5. 結論

結合上文: 1)系統(tǒng)復雜度、投資強度、整體性能提升效果三方面看,網絡設備與器件(包括交換機、光模塊等)在 AI系統(tǒng)中的重要性顯著提升:Nvidia H100到GH200系統(tǒng),官方標準配置下800G光模塊用量可提升 30%-275%,同樣256GPU集群的交換機需求從不足50臺提升至150臺以上。 2)谷歌自研TPU v4背后,是矩陣計算、OCS光交換與更激進的光網絡設計。3D組網是TPU v4系統(tǒng)最 大亮點,網絡起重要作用,導入全光交換、WDM等光通信技術后,算力與網絡需求同步提升。 3)AMD最新MI300體系和AWS自研Trn訓練芯片,同樣重視帶寬、拓展性的價值。

我們認為: 在AI領域,網絡的價值在于延續(xù)了集群算力的摩爾定律。 1)吞吐帶寬與連接架構是算力性能不可忽視的決定因素。 2)芯片層面,高速c2c連接方案(如NVLink、CXL等)的推廣,是宏觀設備/數據中心層高速網絡、光 網絡等需求爆發(fā)的底層邏輯。 3)設備層面,單SoC性能提升+芯片“堆量”,不意味著算力集群整體性能的線性提升;而Nvidia、 Google、AMD、AWS等算力大廠正應用InfiniBand、OCS等新架構替代通用算力下的以太網,帶來 增量網絡需求。

報告節(jié)選:

d51db8de-0db9-11ee-962d-dac502259ad0.jpg

d5478164-0db9-11ee-962d-dac502259ad0.jpg

d583a6e4-0db9-11ee-962d-dac502259ad0.jpg

d5bb472a-0db9-11ee-962d-dac502259ad0.jpg

d5eebf6a-0db9-11ee-962d-dac502259ad0.jpg

d61fd55a-0db9-11ee-962d-dac502259ad0.jpg

d64aac30-0db9-11ee-962d-dac502259ad0.jpg

d67a25dc-0db9-11ee-962d-dac502259ad0.jpg

d6bd28a0-0db9-11ee-962d-dac502259ad0.jpg

d6ea281e-0db9-11ee-962d-dac502259ad0.jpg

d71d1d14-0db9-11ee-962d-dac502259ad0.jpg

d7530438-0db9-11ee-962d-dac502259ad0.jpg

d7841438-0db9-11ee-962d-dac502259ad0.jpg

d7b79272-0db9-11ee-962d-dac502259ad0.jpg

d7f4848e-0db9-11ee-962d-dac502259ad0.jpg

d81a71d0-0db9-11ee-962d-dac502259ad0.jpg

d8423f6c-0db9-11ee-962d-dac502259ad0.jpg

d8649594-0db9-11ee-962d-dac502259ad0.jpg

d8a0131c-0db9-11ee-962d-dac502259ad0.jpg

d8db7876-0db9-11ee-962d-dac502259ad0.jpg

d91d2fc8-0db9-11ee-962d-dac502259ad0.jpg

d948a5e0-0db9-11ee-962d-dac502259ad0.jpg

d975d47a-0db9-11ee-962d-dac502259ad0.jpg

d9c45140-0db9-11ee-962d-dac502259ad0.jpg

da062b9c-0db9-11ee-962d-dac502259ad0.jpg

da37f8e8-0db9-11ee-962d-dac502259ad0.jpg

da68473c-0db9-11ee-962d-dac502259ad0.jpg

daa49b2e-0db9-11ee-962d-dac502259ad0.jpg

dad0e26a-0db9-11ee-962d-dac502259ad0.jpg

db117e74-0db9-11ee-962d-dac502259ad0.jpg

db475a58-0db9-11ee-962d-dac502259ad0.jpg

db7829c6-0db9-11ee-962d-dac502259ad0.jpg

dba02462-0db9-11ee-962d-dac502259ad0.jpg

dbd6d624-0db9-11ee-962d-dac502259ad0.jpg

dc03bd9c-0db9-11ee-962d-dac502259ad0.jpg

dc26030c-0db9-11ee-962d-dac502259ad0.jpg
責任編輯:彭菁

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 接口
    +關注

    關注

    33

    文章

    8256

    瀏覽量

    149948
  • 服務器
    +關注

    關注

    12

    文章

    8700

    瀏覽量

    84539
  • 異構計算
    +關注

    關注

    2

    文章

    98

    瀏覽量

    16217

原文標題:數據中心的通訊連接方式選擇

文章出處:【微信號:AIOT大數據,微信公眾號:AIOT大數據】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    異構計算的前世今生

    異構計算已經成了半導體業(yè)界不得不思考的一個話題,傳統(tǒng)通用計算的性能捉襟見肘,過去承諾的每隔一段時間芯片性能翻倍的豪言壯語已經沒有人再提了。如今我們用到的手機中,各種除CPU以外的計算單元層出不窮
    的頭像 發(fā)表于 12-17 09:35 ?4194次閱讀

    「深圳云棲大會」大數據時代以及人工智能推動下的阿里云異構計算

    摘要: 最近幾年,在大數據和人工智能的推動下,異構計算有了長足的發(fā)展。無論是在產品形態(tài)上,還是在應用領域上,阿里云異構計算都取得了累累碩果。最近幾年,在大數據和人工智能的推動下,異構計算有了長足
    發(fā)表于 04-04 13:44

    異構計算在人工智能什么作用?

    異構計算平臺應用于各種復雜的人工智能負載。除了算法,數據外,異構計算將會為AI應用帶來更強大的支持。異構計算,特別是加速器的發(fā)展和創(chuàng)新,將會為業(yè)界、最終用戶和創(chuàng)業(yè)公司帶來更無限的商機
    發(fā)表于 08-07 08:39

    什么是異構并行計算

    先了解什么是異構并行計算同構計算是使用相同類型指令集和體系架構的計算單元組成系統(tǒng)的計算方式。而異構計算
    發(fā)表于 07-19 08:27

    異構計算的前世今生

    異構計算已經成了半導體業(yè)界不得不思考的一個話題,傳統(tǒng)通用計算的性能捉襟見肘,過去承諾的每隔一段時間芯片性能翻倍的豪言壯語已經沒有人再提了。如今我們用到的手機中,各種除CPU以外的計算單元層出不窮
    發(fā)表于 12-26 08:00

    異構計算場景下構建可信執(zhí)行環(huán)境

    本文轉載自 OpenHarmony TSC 《峰會回顧第4期 | 異構計算場景下構建可信執(zhí)行環(huán)境》 演講嘉賓 | 金意兒 回顧整理 | 廖濤 排版校對 | 李萍萍 嘉賓簡介 金意兒,華為可信計算
    發(fā)表于 08-15 17:35

    請問模型推理只用到了kpu嗎?可以cpu,kpu,fft異構計算嗎?

    請問模型推理只用到了kpu嗎?可以cpu,kpu,fft異構計算嗎?
    發(fā)表于 09-14 08:13

    異構計算芯片的機遇與挑戰(zhàn)

    異構計算的機遇與挑戰(zhàn) 異構計算是指不同類型的指令集和體系架構的計算單元組成的系統(tǒng)的計算方式,目前 CPU+GPU以及CPU+FPGA 都是最受業(yè)界關注的
    發(fā)表于 09-27 10:22 ?26次下載

    基于FPGA的異構計算是趨勢

    目前處于AI大爆發(fā)時期,異構計算的選擇主要在FPGA和GPU之間。盡管目前異構計算使用最多的是利用GPU來加速,FPGA作為一種高性能、低功耗的可編程芯片,在處理海量數據時,FPGA計算效率更高,優(yōu)勢更為突出,尤其在大量服務器部
    的頭像 發(fā)表于 04-25 09:17 ?1.1w次閱讀

    異構計算的兩大派別 為什么需要異構計算

    20世紀80年代,異構計算技術就已經誕生了。所謂的異構,就是CPU、DSP、GPU、ASIC、協(xié)處理器、FPGA等各種計算單元、使用不同的類型指令集、不同的體系架構的計算單元,組成一個
    發(fā)表于 04-28 11:41 ?2.3w次閱讀

    異構計算:架構與技術

    如果您希望創(chuàng)建優(yōu)秀的移動體驗,那么,優(yōu)化就不是可有可無的事情,而是關鍵之舉。它可以幫助您將好的想法實現得更加出彩。在上一篇“使用QDN異構計算工具開發(fā)項目”文章中,我們討論了異構計算的概念
    發(fā)表于 09-18 19:18 ?807次閱讀

    異構計算,你準備好了么?

    摩爾定律失靈了,已是不爭的事實。單純的提升一種芯片性能變的代價越來越高,與此同時,異構計算成為提高計算力的主流方向。 什么是異構計算異構計算的前景怎么樣? OpenPOWER系統(tǒng)上
    發(fā)表于 09-25 17:27 ?429次閱讀

    OPPO開發(fā)者大會2021 關于異構計算

    關于異構計算系統(tǒng)級性能功耗優(yōu)化方案的異構部署、異構內核、易購底座等相關內容。
    的頭像 發(fā)表于 10-27 17:56 ?3141次閱讀
    OPPO開發(fā)者大會2021 關于<b class='flag-5'>異構計算</b>

    異構計算真就完美無缺嗎

    異構計算已經成了半導體業(yè)界不得不思考的一個話題,傳統(tǒng)通用計算的性能捉襟見肘,過去承諾的每隔一段時間芯片性能翻倍的豪言壯語已經沒有人再提了。如今我們用到的手機中,各種除CPU以外的計算單元層出不窮
    的頭像 發(fā)表于 12-21 09:25 ?1830次閱讀

    異構計算:解鎖算力潛能的新途徑

    在這個數據爆炸的時代,計算力是推動社會與科技創(chuàng)新的核心。從日常智能設備的流暢運行到超級計算機的尖端模擬,均依賴強大的計算能力。但面對多樣化的復雜計算
    的頭像 發(fā)表于 07-18 08:28 ?7266次閱讀
    <b class='flag-5'>異構計算</b>:解鎖算力潛能的新途徑