久久精品阿娇,亚洲中文无码线在线观看

AI 時(shí)代 GPU 成為核心處理器，分布式訓(xùn)練訴求提升。GPU 采用并行計(jì)算方式，擅長(zhǎng)處理大量、簡(jiǎn)單的運(yùn)算，因此多適用于圖像圖形處理和 AI 推理。但是大模型復(fù)雜度日益提升，單卡 GPU 顯存有限，無(wú)法滿足訓(xùn)練需求，比如百度文心一言大模型有 2600 億個(gè)參數(shù)，但是實(shí)際上一個(gè) 80G 顯存的 A800，算上訓(xùn)練中間的計(jì)算狀態(tài)，只能存放 10-20 億參數(shù)，存放 2600 億的模型就需要 100-200 塊 GPU；此外，后續(xù)大模型訓(xùn)練需要更多參數(shù)和更多計(jì)算，由此產(chǎn)生的 GPU 需求更為龐大。為適應(yīng)算力需求，需要聯(lián)合多張 GPU 甚至多臺(tái)服務(wù)器協(xié)同工作，分布式訓(xùn)練成為核心訓(xùn)練方式。

網(wǎng)絡(luò)連接在分布式系統(tǒng)中擔(dān)任重要角色。網(wǎng)絡(luò)在分布式系統(tǒng)中提供了連接作用，可以根據(jù)連接層級(jí)區(qū)分為單卡、多卡、多機(jī)互聯(lián)，單卡內(nèi)的網(wǎng)絡(luò)為計(jì)算用的神經(jīng)網(wǎng)，多卡之間的連接（即 GPU 互聯(lián)）通常采用 PCIe 或各種高帶寬通信網(wǎng)絡(luò)，多機(jī)之間的連接（即服務(wù)器互聯(lián)）通常采用 RDMA 網(wǎng)絡(luò)。

總線是數(shù)據(jù)通信必備管道，PCIe 是最泛使用的總線協(xié)議?？偩€是服務(wù)器主板上不同硬件互相進(jìn)行數(shù)據(jù)通信的管道，對(duì)數(shù)據(jù)傳輸速度起到?jīng)Q定性作用，目前最普及的總線協(xié)議為英特爾 2001 年提出的 PCIe（PCI-Express）協(xié)議，PCIe 主要用于連接 CPU 與其他高速設(shè)備如 GPU、SSD、網(wǎng)卡、顯卡等，2003 年 PCIe1.0 版本發(fā)布，后續(xù)大致每過(guò)三年會(huì)更新一代，目前已經(jīng)更新到6.0版本，傳輸速率高達(dá)64GT/s，16通道的帶寬達(dá)到256GB/s，性能和可擴(kuò)展性不斷提高。

PCIe 總線樹(shù)形拓?fù)浜投说蕉藗鬏敺绞较拗屏诉B接數(shù)量和速度，PCIe Switch 誕生。PCIe采用端對(duì)端數(shù)據(jù)傳輸鏈路，PCIe 鏈路的兩端只能各接入一個(gè)設(shè)備，設(shè)備識(shí)別數(shù)量有限，無(wú)法滿足有大量設(shè)備連接或需要高速數(shù)據(jù)傳輸?shù)膱?chǎng)景，因此 PCIe Switch 誕生。PCIe Switch 具備連接和交換雙重功能，可以讓一個(gè) PCIe 端口識(shí)別和連接更多設(shè)備，解決通道數(shù)量不夠的問(wèn)題，并可以將多條 PCIe 總線連接在一起，從而形成一個(gè)高速網(wǎng)絡(luò)，實(shí)現(xiàn)多設(shè)備通信，簡(jiǎn)言之 PCIe Switch 相當(dāng)于 PCIe 的拓展器。

GPU 互聯(lián) 時(shí) 代， PCIe 傳輸速率和網(wǎng) 絡(luò) 延遲無(wú) 法滿足需求，NVLINK、CAPI、GenZ、CCIX、CXL 等“百家爭(zhēng)鳴”時(shí)代開(kāi)啟。AIGC 的發(fā)展極大刺激算力需求的增加，GPU 多卡組合成為趨勢(shì)，GPU 互聯(lián)的帶寬通常需要在數(shù)百 GB/S以上，PCIe 的數(shù)據(jù)傳輸速率成為瓶頸，鏈路接口的串并轉(zhuǎn)換會(huì)網(wǎng)絡(luò)延時(shí)，影響 GPU 并行計(jì)算效率，還由于 GPU 發(fā)出的信號(hào)需要先傳遞到 PCIe Switch，PCIe Switch 涉及到數(shù)據(jù)的處理又會(huì)造成額外的網(wǎng)絡(luò)延時(shí)，此外 PCIe 總線與存儲(chǔ)器地址分離，每次訪問(wèn)內(nèi)存會(huì)加重網(wǎng)絡(luò)延遲，因此 PCIe 協(xié)議在 GPU 多卡通信中效率并不高。為了將總線通信效率提升，降低延時(shí)，各家紛紛推出替代協(xié)議：

CAPI 協(xié)議：由 IBM 最早推出，后逐漸演化成 Open CAPI，本質(zhì)是現(xiàn)有高速 I/O 標(biāo)準(zhǔn)之上的應(yīng)用程序擴(kuò)展，添加了緩存一致性和更低延遲等內(nèi)容，但由于 IBM 服務(wù)器份額的持續(xù)下降，CAPI 協(xié)議缺少用戶基礎(chǔ)，最終未能廣泛流傳。

GenZ 協(xié)議：GenZ 是不依賴于任何芯片平臺(tái)的開(kāi)放性組織，眾多廠家參與其中包括AMD、ARM、IBM、Nvidia、Xilinx 等，GenZ 將總線協(xié)議拓展成交換式網(wǎng)絡(luò)并加入GenZSwitch 提高了拓展性。

CXL 協(xié)議（陸續(xù)兼并上述兩個(gè)協(xié)議）：2019 年由 Intel 推出，與 CAPI 協(xié)議思路類似，2021 年底吸收 GenZ 協(xié)議共同發(fā)展，2022 年兼并 Open CAPI 協(xié)議，CXL 具備內(nèi)存接口，逐漸成長(zhǎng)為設(shè)備互連標(biāo)準(zhǔn)的重要主導(dǎo)協(xié)議之一。

CCIX 協(xié)議：ARM 加入的另一個(gè)開(kāi)放協(xié)議，功能類似 GenZ 但未被吸收兼并。

NVLINK 協(xié)議：英偉達(dá)提出的高速 GPU 互聯(lián)協(xié)議，對(duì)比傳統(tǒng) PCIe 總線協(xié)議，NVLINK主要在三個(gè)方面做出較大改變：1）支持網(wǎng)狀拓?fù)淠?，解決通道有限問(wèn)題；2）統(tǒng)一內(nèi)存，允許 GPU 共享公共內(nèi)存池，減少 GPU 之間復(fù)制數(shù)據(jù)的需要，從而提高效率；3）直接內(nèi)存訪問(wèn)，不需要 CPU 參與，GPU 可直接讀取彼此的內(nèi)存，從而降低網(wǎng)絡(luò)延遲。此外，為解決 GPU 之間通訊不均衡問(wèn)題，英偉達(dá)還引入 NVSwitch，一種類似交換機(jī) ASIC 的物理芯片，通過(guò) NVLink 接口將多個(gè) GPU 高速互聯(lián)，創(chuàng)建高帶寬多節(jié)點(diǎn) GPU 集群。2023 年 5 月 29 日，英偉達(dá)推出 AI 超級(jí)計(jì)算機(jī) DGX GH200，通過(guò) NVLink 和 NVSwitch 連接 256 個(gè) GH200 芯片，所有 GPU 連接成一個(gè)整體協(xié)同運(yùn)行，可訪問(wèn)內(nèi)存突破 100TB。

多機(jī)互聯(lián)：IB 網(wǎng)絡(luò)與以太網(wǎng)絡(luò)并存

分布式訓(xùn)練下 RDMA 網(wǎng)絡(luò)成為最佳選擇，包含 IB 網(wǎng)絡(luò)和以太網(wǎng)絡(luò)。傳統(tǒng)的 TCP/IP 網(wǎng)絡(luò)通信是通過(guò)內(nèi)核發(fā)送消息，涉及較多數(shù)據(jù)移動(dòng)和數(shù)據(jù)復(fù)制，不適用高性能計(jì)算、大數(shù)據(jù)分析等需要 IO 高并發(fā)、低時(shí)延的場(chǎng)景。RDMA 是一種計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)，可以直接遠(yuǎn)程訪問(wèn)內(nèi)存數(shù)據(jù)，無(wú)需操作系統(tǒng)內(nèi)核介入，不占用 CPU 資源，可以顯著提高數(shù)據(jù)傳輸?shù)男阅懿⑶医档脱舆t，因此更適配于大規(guī)模并行計(jì)算機(jī)集群的網(wǎng)絡(luò)需求。目前有三種 RDMA：Infiniband、RoCE、iWARP，后兩者是基于以太網(wǎng)的技術(shù):

Infiniband：是專為 RDMA 設(shè)計(jì)的網(wǎng)絡(luò)，從硬件級(jí)別保證可靠傳輸，具備更高的帶寬和更低的時(shí)延。但是成本高，需要配套 IB 網(wǎng)卡和 IB 交換機(jī)。

RoCE：基于以太網(wǎng)做 RDMA，可以使用普通的以太網(wǎng)交換機(jī)，成本較低，但是需要支持 RoCE 的網(wǎng)卡。

iWARP：基于 TCP 的 RDMA 網(wǎng)絡(luò)，利用 TCP 達(dá)到可靠傳輸。相比 RoCE，在大型組網(wǎng)的情況下，iWARP 的大量 TCP 連接會(huì)占用大量的內(nèi)存資源，對(duì)系統(tǒng)規(guī)格要求更高?？梢允褂闷胀ǖ囊蕴W(wǎng)交換機(jī)，但是需要支持 iWARP 的網(wǎng)卡。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴