關(guān)于智算中心高性能網(wǎng)絡(luò)
你需要知道的...
以GPT-4和Llama3為代表的大語言模型實現(xiàn)了突破性進展,引爆了高性能計算。由于大語言模型爆炸增長的存儲和算力需求,其分布式計算需要芯片間進行高頻通信,網(wǎng)絡(luò)流量急劇增加。所以對通信網(wǎng)絡(luò)提出超大規(guī)模組網(wǎng)、超高帶寬、超低時延、超高穩(wěn)定性和網(wǎng)絡(luò)自動化部署新需求,典型網(wǎng)絡(luò)架構(gòu)轉(zhuǎn)向多核心、少收斂形態(tài)。
以下這些關(guān)鍵詞帶你更快了解高性能網(wǎng)絡(luò)的通信及互聯(lián)需求。
RDMA技術(shù)解析
RDMA(RemoteDirect Memory Access)技術(shù)全稱遠程直接內(nèi)存訪問,就是為了解決網(wǎng)絡(luò)傳輸中服務(wù)器端數(shù)據(jù)處理的延遲而產(chǎn)生的。RDMA技術(shù)能直接通過網(wǎng)絡(luò)接口訪問內(nèi)存數(shù)據(jù),無需操作系統(tǒng)內(nèi)核的介入。這允許高吞吐、低延遲的網(wǎng)絡(luò)通信,尤其適合在大規(guī)模并行計算機集群中使用。
RDMA的三大分類
目前支持RDMA的網(wǎng)絡(luò)協(xié)議主要有三種,Infiniband, RoCE和iWARP。Infiniband是一種專為RDMA設(shè)計的網(wǎng)絡(luò),從硬件級別保證可靠傳輸,技術(shù)先進,但是成本高昂。
iWARP和RoCE都是基于以太網(wǎng)的RDMA技術(shù),但是iWARP是基于TCP/IP協(xié)議,相比于基于硬件的RoCE解決方案有更高的性能損失,在高性能網(wǎng)絡(luò)的環(huán)境表現(xiàn)中不如RoCE。
高速、超低延時、極低CPU使用率的基于RoCE的RDMA技術(shù)部署在目前使用最廣泛的以太網(wǎng)上。RoCE協(xié)議有RoCEv1和RoCEv2兩個版本,RoCEv1基于以太網(wǎng)鏈路層,使用以太網(wǎng)幀進行數(shù)據(jù)傳輸。RoCEv1沒有IP層,因此在傳輸數(shù)據(jù)時不使用IP地址,而RoCEv2基于IP層,使用UDP/IP進行數(shù)據(jù)傳輸。
RoCEv2將RDMA流量封裝在UDP包中,并使用標準的IP地址進行路由。這使得RoCEv2可以在路由器和交換機之間穿越,使其更適用于大規(guī)模的數(shù)據(jù)中心環(huán)境。
關(guān)于異構(gòu)計算
高性能計算類應(yīng)用的發(fā)展,驅(qū)動算力需求不斷攀升,但目前單一計算類型和架構(gòu)的處理器已經(jīng)無法處理日趨復(fù)雜、多樣化的計算任務(wù)。數(shù)據(jù)中心如何在增強算力和性能的同時,具備應(yīng)對多種類型任務(wù)的處理能力,成為全球性的技術(shù)難題。在計算領(lǐng)域芯片企業(yè)的不斷探索和研究中,異構(gòu)計算成為公認的算力突破“抓手”。
DSA 領(lǐng)域特定加速
隨著人工智能及高性能計算的高速發(fā)展,模型的訓(xùn)練需要大量的存儲資源和計算資源,這些硬件資源的利用率需要通過有效的任務(wù)分配和數(shù)據(jù)處理來優(yōu)化。在分布式人工智能及高性能計算系統(tǒng)中,多個計算節(jié)點之間需要頻繁通信,要求網(wǎng)絡(luò)具有低延遲和高帶寬,以避免通信瓶頸。針對網(wǎng)絡(luò)加速的DSA專用單元對任務(wù)卸載、加速,減少節(jié)點之間的數(shù)據(jù)延遲,提升數(shù)據(jù)傳輸效率,使CPU,GPU,NPU專注于核心計算任務(wù),加速各項計算、存儲任務(wù)。
-
計算機
+關(guān)注
關(guān)注
19文章
7360瀏覽量
87631 -
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7485瀏覽量
88540 -
人工智能
+關(guān)注
關(guān)注
1789文章
46652瀏覽量
237054 -
RDMA
+關(guān)注
關(guān)注
0文章
75瀏覽量
8912
原文標題:KiwiLab 集合篇 | 關(guān)于智算中心高性能網(wǎng)絡(luò),你需要知道這些...
文章出處:【微信號:奇異摩爾,微信公眾號:奇異摩爾】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論