AI集群訓(xùn)練過程中,參數(shù)通過高速互聯(lián)網(wǎng)絡(luò)在不同的服務(wù)器間進(jìn)行同步交互,這些通信流量具有共同的特征:流量成周期性、流數(shù)量少、流量長連接、并行任務(wù)間有強實時同步性要求,通信效率取決于最慢的節(jié)點,并且AI集群訓(xùn)練場景下,傳輸?shù)臄?shù)據(jù)量較大。上述的流量特征導(dǎo)致網(wǎng)絡(luò)較易出現(xiàn)負(fù)載分擔(dān)不均、整網(wǎng)吞吐下降的問題,從而影響AI集群訓(xùn)練的性能。
當(dāng)前網(wǎng)絡(luò)均衡的主流技術(shù)有三種,逐流(Flow-based)ECMP均衡、基于子流flowlet均衡和逐包(Packet-based)ECMP均衡。逐流ECMP均衡,是當(dāng)前最為常用的負(fù)載均衡算法,基于流量的五元組進(jìn)行HASH負(fù)載均衡,在流鏈接數(shù)量較多的場景下適用,它優(yōu)勢在于無亂序,劣勢在于流數(shù)量較少時,例如AI訓(xùn)練場景下,存在HASH沖突問題,網(wǎng)絡(luò)均衡效果不佳。基于子流flowlet均衡技術(shù),它依賴于子流之間時間間隔GAP值的正確配置來實現(xiàn)均衡,但由于網(wǎng)路中全局路徑級時延信息不可知,因此GAP值無法準(zhǔn)確配置。同時,該技術(shù)存在接收端側(cè)亂序的問題。逐包(Packet-based)ECMP均衡,理論上均衡度最好,但實際在接收端側(cè)存在大量亂序問題,現(xiàn)實中幾乎無使用案例。
現(xiàn)有創(chuàng)新的網(wǎng)絡(luò)均衡技術(shù)NSLB是面向AI訓(xùn)練場景量身打造的,根據(jù)該場景下的流量特征,將搜集到的整網(wǎng)信息作為創(chuàng)新算路算法的輸入,從而得到最優(yōu)的流量轉(zhuǎn)發(fā)路徑,實現(xiàn)AI訓(xùn)練場景下整網(wǎng)流量100%的均衡度和AI訓(xùn)練性能的提升。
利用12臺GPU服務(wù)器(每臺服務(wù)器包含1塊型號為Tesla v100S PCIe 32GB的GPU卡),4臺華為交換機(jī)組成2級CLOS網(wǎng)絡(luò)(其中2臺交換機(jī)作為接入層交換機(jī),每臺下掛6臺服務(wù)器,使用100GE單端口接入,2臺交換機(jī)作為匯聚交換機(jī),每臺與接入層交換機(jī)之間使用6個100GE端口互聯(lián))的AI訓(xùn)練集群,運行開源Tensorflow深度學(xué)習(xí)平臺上的VGG16深度學(xué)習(xí)網(wǎng)絡(luò)模型。以下為采用NSLB技術(shù)運行單計算任務(wù)和多計算任務(wù)時,AI訓(xùn)練性能的提升結(jié)果。
Ring算法場景,運行單個計算任務(wù)下,使用NSLB技術(shù)對比典型ECMP負(fù)載分擔(dān)技術(shù),AI訓(xùn)練集性能最高提升113.41%。
Ring算法場景,運行兩個計算任務(wù)下,使用NSLB技術(shù)對比典型ECMP負(fù)載分擔(dān)技術(shù),AI訓(xùn)練集性能最高提升57.29%。
高性能計算、AI模型訓(xùn)練等應(yīng)用場景,以及數(shù)據(jù)中心網(wǎng)絡(luò)/云網(wǎng)絡(luò)在架構(gòu)上的發(fā)展(資源池化),均要求網(wǎng)絡(luò)傳輸排隊時延和吞吐上的進(jìn)一步性能提升。例如,為了保證性能損失在5%以內(nèi),數(shù)據(jù)庫集群系統(tǒng)要求至少40Gbps的吞吐和3us的網(wǎng)絡(luò)RTT。為了達(dá)到極低時延的傳輸,應(yīng)當(dāng)盡力降低網(wǎng)絡(luò)設(shè)備上的排隊時延,同時維持接近瓶頸鏈路滿吞吐。
隨著業(yè)務(wù)發(fā)放速度的不斷加快,以及引入了VM、容器等虛擬化技術(shù),網(wǎng)絡(luò)流量的不確定性增加。而當(dāng)前運維手段有限,仍然依靠傳統(tǒng)網(wǎng)管和命令行方式進(jìn)行查看、監(jiān)控,分鐘級的網(wǎng)絡(luò)監(jiān)控已經(jīng)無法滿足業(yè)務(wù)秒級體驗保障的要求,往往被動感知故障。故障發(fā)生后,定位仍主要依賴專家經(jīng)驗,利用多種輔助工具,逐段定界、逐流分析、抓包定位,效率十分低下。
為了解決上述故障收斂慢的問題,提出了一種基于網(wǎng)絡(luò)設(shè)備數(shù)據(jù)面的鏈路故障快速自愈技術(shù),稱為DPFF(Data Plane Fast Failover)。該技術(shù)基于轉(zhuǎn)發(fā)芯片的硬件可編程能力構(gòu)建。DPFF從傳統(tǒng)的基于控制面軟件協(xié)議的收斂方式演進(jìn)到基于數(shù)據(jù)面硬件極速感知故障和快速換路的收斂方式,并且基于數(shù)據(jù)面硬件實現(xiàn)遠(yuǎn)程通告和快速換路,可達(dá)到亞毫秒級(<1ms)的收斂速度,將對業(yè)務(wù)性能的影響降至最低。該技術(shù)為高性能數(shù)據(jù)庫、存儲以及超算等關(guān)鍵應(yīng)用提供了極致的高可靠性保證和穩(wěn)定性體驗。
實驗室采用4臺華為交換機(jī)組成2級CLOS網(wǎng)絡(luò)(其中2臺交換機(jī)作為接入層交換機(jī),每臺下掛>2臺服務(wù)器,2臺交換機(jī)作為匯聚交換機(jī)),利用vdbench 測試套件,客戶端服務(wù)器與存儲陣列建立兩個連接,每連接8個qp,并發(fā)訪問8個SSD磁盤。通過拔光纖模擬鏈路故障。256KB message size,16 threads,write IO , 觀察鏈路故障發(fā)送后的IOPS指標(biāo)。
測試結(jié)論:DPFF方案下鏈路故障對IOPS性能幾乎沒有影響,而OSPF協(xié)議收斂方案下IOPS出現(xiàn)多秒跌零情況。
利用Benchmarksql測試套件進(jìn)行在線事務(wù)處理模型的測試,又稱TPC-C測試。統(tǒng)計每百毫秒周期內(nèi)完成的在線事務(wù)的數(shù)量,通過查看該數(shù)量值的變化測試收斂性能對業(yè)務(wù)性能的影響。模擬鏈路故障,重復(fù)測試4次, 觀察在線交易事務(wù)受影響情況。
測試結(jié)論:DPFF收斂方案比傳統(tǒng)的OSPF收斂方案在鏈路故障下,每100ms周期內(nèi)完成交易事務(wù)數(shù)量下降減少60%~80%。
計算集群網(wǎng)絡(luò)傳統(tǒng)采用CLOS架構(gòu),以業(yè)界常見的64口盒式交換機(jī)為例,3級CLOS架構(gòu),最大可支持6.5萬服務(wù)器接口,不滿足10E級計算集群規(guī)模訴求。如果增加網(wǎng)絡(luò)層數(shù)則會帶來網(wǎng)絡(luò)跳數(shù)增加,通信時延不滿足業(yè)務(wù)需求。
業(yè)界針對該問題開展了多樣的架構(gòu)研究和新拓?fù)涞脑O(shè)計。直連拓?fù)湓诔笠?guī)模組網(wǎng)場景下,因為網(wǎng)絡(luò)直徑短,具備低成本、端到端通信跳數(shù)少的特點。以64口盒式交換機(jī)構(gòu)建10萬個節(jié)點超大規(guī)模集群為例,傳統(tǒng)的CLOS架構(gòu)需要部署4層組網(wǎng),端到端通信最大需要跨7跳交換機(jī)。使用無阻塞直連拓?fù)浣M網(wǎng),端到端交換機(jī)轉(zhuǎn)發(fā)跳數(shù)最少只3跳,交換機(jī)臺數(shù)(整體投資)下降40%。
采用12臺GPU服務(wù)器,每臺服務(wù)器2塊GPU卡,型號Tesla v100s;2塊CX6-Dx網(wǎng)卡,網(wǎng)卡是100G單端口接入。OSU MPI Benchmark測試AllReduce集合通信操作,DF相對FT組網(wǎng),任務(wù)完成時間最高提升39.47%,總體提升21.63%。
OSU MPI Benchmark測試Alltoall集合通信操作, DF相對FT組網(wǎng),任務(wù)完成時間最高提升56.53%,總體提升49.71%。
隨著高性能網(wǎng)絡(luò)的全以太化發(fā)展,超融合以太網(wǎng)絡(luò)同時承載計算、存儲、管理和虛擬化等多種業(yè)務(wù)流量。為了追求更極致的性能,不同業(yè)務(wù)流量之間,極易出現(xiàn)互相干擾現(xiàn)象,競爭網(wǎng)絡(luò)側(cè)有限的端口轉(zhuǎn)發(fā)資源。
為了解決這個難題,提出超融合智能無損網(wǎng)絡(luò)方案,將業(yè)務(wù)級SLA智能保障技術(shù)引入到交換機(jī)中,用iLoss-less智能無損算法代替專家經(jīng)驗,對網(wǎng)絡(luò)流量的變化進(jìn)行基于隊列級捕獲和預(yù)測,實現(xiàn)細(xì)粒度動態(tài)差異化優(yōu)化。結(jié)合不同業(yè)務(wù)的流量變化情況以及業(yè)務(wù)特征,實現(xiàn)不同業(yè)務(wù)流量差異化動態(tài)優(yōu)化保障。
根據(jù)實驗室測試,采用3臺華為交換機(jī)組成2級Spine-Leaf組網(wǎng),每臺接入層交換機(jī)下掛16臺100GE服務(wù)器,Spine與每個Leaf之間采用4個400G互聯(lián)(1:1收斂)。在計算和存儲benchmark流量混跑的測試環(huán)境下,智能無損算法相比于傳統(tǒng)算法配置,在保持存儲持平前提下,能夠有效降低計算任務(wù)的總體完成時間,在測試場景中實現(xiàn)最高20%以上的計算時延降低。
審核編輯:湯梓紅
-
負(fù)載
+關(guān)注
關(guān)注
2文章
529瀏覽量
34132 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
8701瀏覽量
84559 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4517瀏覽量
71637 -
AI
+關(guān)注
關(guān)注
87文章
28877瀏覽量
266239 -
均衡技術(shù)
+關(guān)注
關(guān)注
0文章
11瀏覽量
6646
原文標(biāo)題:數(shù)據(jù)中心超融合以太技術(shù)(2023)
文章出處:【微信號:架構(gòu)師技術(shù)聯(lián)盟,微信公眾號:架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論