2022年7月,在山東濟(jì)南舉行的2022中國算力大會(huì)上,紫金山實(shí)驗(yàn)室研究員高新平作了“基于無損數(shù)據(jù)中心的AI訓(xùn)練網(wǎng)絡(luò)均衡技術(shù)實(shí)踐”的主題演講。
紫金山實(shí)驗(yàn)室是江蘇省和南京市共同推進(jìn)建設(shè)的重大科技創(chuàng)新平臺(tái)。紫金山實(shí)驗(yàn)室面向網(wǎng)絡(luò)通信與安全領(lǐng)域國家重大戰(zhàn)略需求,以引領(lǐng)全球信息科技發(fā)展方向、解決行業(yè)重大科技問題為使命,通過聚集全球高端人才,開展前瞻性、基礎(chǔ)性研究,力圖突破關(guān)鍵核心技術(shù),開展重大示范應(yīng)用,促進(jìn)成果在國家經(jīng)濟(jì)建設(shè)中落地。紫金山實(shí)驗(yàn)室力圖成為國家科技創(chuàng)新的重要力量,建成具有世界一流水平的戰(zhàn)略科技創(chuàng)新基地。
紫金山實(shí)驗(yàn)室與華為依托紫金山實(shí)驗(yàn)室無損數(shù)據(jù)中心展開面向AI訓(xùn)練場景的網(wǎng)絡(luò)均衡技術(shù)的聯(lián)合創(chuàng)新,解決AI集群中網(wǎng)絡(luò)負(fù)載不均而導(dǎo)致的AI訓(xùn)練任務(wù)性能下降的問題。
高新平研究員指出AI訓(xùn)練使用的集合通信算法,當(dāng)前主流的有Ring算法、Tree算法和Halving Doubling算法等,在運(yùn)行時(shí)通信流量都呈現(xiàn)出了共同的特征:周期性、流數(shù)量少、長連接,并行任務(wù)間有強(qiáng)實(shí)時(shí)同步性要求,通信效率取決于最慢的節(jié)點(diǎn)。同時(shí),AI訓(xùn)練時(shí),各節(jié)點(diǎn)之間傳輸?shù)臄?shù)據(jù)量大。以上這些流量特性使計(jì)算集群網(wǎng)絡(luò)容易出現(xiàn)負(fù)載不均導(dǎo)致AI訓(xùn)練任務(wù)性能下降的問題。
現(xiàn)有網(wǎng)絡(luò)均衡的主流技術(shù)大體分為三種,逐流ECMP均衡、基于子流flowlet均衡和逐包的負(fù)載分擔(dān)均衡。逐流ECMP均衡技術(shù),是當(dāng)前最為常用的負(fù)載均衡算法,適用于流鏈接較多場景,它優(yōu)勢(shì)在于無亂序,劣勢(shì)在于流數(shù)量較少時(shí),例如AI訓(xùn)練場景下,存在HASH沖突問題,網(wǎng)絡(luò)均衡效果不佳?;谧恿鱢lowlet均衡技術(shù),它依賴于子流之間的時(shí)間間隔GAP值的正確配置來實(shí)現(xiàn)均衡,但全局路徑級(jí)時(shí)延信息不可知、無法配置,且存在接收端側(cè)亂序的問題。逐包的負(fù)載分擔(dān)均衡技術(shù),理論均衡度最好,但實(shí)際在接收端側(cè)存在大量報(bào)文亂序問題,現(xiàn)實(shí)中幾乎無使用案例。
發(fā)表“基于無損數(shù)據(jù)中心的AI訓(xùn)練網(wǎng)絡(luò)均衡技術(shù)實(shí)踐”主題演講
在紫金山實(shí)驗(yàn)室無損數(shù)據(jù)中心AI訓(xùn)練集群中驗(yàn)證了華為創(chuàng)新的網(wǎng)絡(luò)均衡技術(shù)NSLB(Network Service Load Balance)?;谌A為交換芯片高精度telemetry能力,采集流量矩陣作為路由算法輸入,用以控制AI流量的轉(zhuǎn)發(fā)路徑,避免負(fù)載不均,提升AI訓(xùn)練效率。
Ring算法場景,運(yùn)行單個(gè)計(jì)算任務(wù)下,使用NSLB技術(shù)對(duì)比典型ECMP負(fù)載分擔(dān)技術(shù),網(wǎng)絡(luò)實(shí)現(xiàn)100%均衡、平均鏈路利用率34%、比ECMP提升35%,AI訓(xùn)練集性能最高提升113.41%;
Ring算法場景,同時(shí)運(yùn)行兩個(gè)計(jì)算任務(wù)下,使用NSLB技術(shù)對(duì)比典型ECMP負(fù)載分擔(dān)技術(shù),網(wǎng)絡(luò)實(shí)現(xiàn)100%均衡、平均鏈路利用率29%、比ECMP提升15.6%,AI訓(xùn)練集性能最高提升57.29%;
Tree算法場景下,運(yùn)行單個(gè)計(jì)算任務(wù)下,使用NSLB技術(shù)對(duì)比典型ECMP負(fù)載分擔(dān)技術(shù),網(wǎng)絡(luò)實(shí)現(xiàn)100%均衡、平均鏈路利用率13.8%、比ECMP提升1%,AI訓(xùn)練集性能最高提升6.50%;
Tree算法場景下,運(yùn)行兩個(gè)計(jì)算任務(wù)下,使用NSLB技術(shù)對(duì)比典型ECMP負(fù)載分擔(dān)技術(shù),網(wǎng)絡(luò)實(shí)現(xiàn)100%均衡、平均鏈路利用率14%、比ECMP提升10.5%,AI訓(xùn)練集性能最高提升15.81%。
未來,紫金山實(shí)驗(yàn)將與華為在無損數(shù)據(jù)中心網(wǎng)絡(luò)領(lǐng)域就網(wǎng)絡(luò)新拓?fù)洹?a target="_blank">DCN高性能互聯(lián)等方向展開持續(xù)的聯(lián)合創(chuàng)新,推動(dòng)無損數(shù)據(jù)中心網(wǎng)絡(luò)在低時(shí)延、高吞吐等方向進(jìn)一步的發(fā)展,為高算力提供強(qiáng)有力的底座。
-
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4517瀏覽量
71630 -
AI
+關(guān)注
關(guān)注
87文章
28877瀏覽量
266220 -
網(wǎng)絡(luò)通信
+關(guān)注
關(guān)注
4文章
770瀏覽量
29693
原文標(biāo)題:2022中國算力大會(huì) | 基于無損數(shù)據(jù)中心的AI訓(xùn)練網(wǎng)絡(luò)均衡技術(shù)實(shí)踐
文章出處:【微信號(hào):Huawei_Fixed,微信公眾號(hào):華為數(shù)據(jù)通信】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論