0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于無損數(shù)據(jù)中心的AI訓(xùn)練網(wǎng)絡(luò)均衡技術(shù)實(shí)踐

華為數(shù)據(jù)通信 ? 來源:華為數(shù)據(jù)通信 ? 作者:華為數(shù)據(jù)通信 ? 2022-08-03 10:06 ? 次閱讀

2022年7月,在山東濟(jì)南舉行的2022中國算力大會(huì)上,紫金山實(shí)驗(yàn)室研究員高新平作了“基于無損數(shù)據(jù)中心AI訓(xùn)練網(wǎng)絡(luò)均衡技術(shù)實(shí)踐”的主題演講。

紫金山實(shí)驗(yàn)室是江蘇省和南京市共同推進(jìn)建設(shè)的重大科技創(chuàng)新平臺(tái)。紫金山實(shí)驗(yàn)室面向網(wǎng)絡(luò)通信與安全領(lǐng)域國家重大戰(zhàn)略需求,以引領(lǐng)全球信息科技發(fā)展方向、解決行業(yè)重大科技問題為使命,通過聚集全球高端人才,開展前瞻性、基礎(chǔ)性研究,力圖突破關(guān)鍵核心技術(shù),開展重大示范應(yīng)用,促進(jìn)成果在國家經(jīng)濟(jì)建設(shè)中落地。紫金山實(shí)驗(yàn)室力圖成為國家科技創(chuàng)新的重要力量,建成具有世界一流水平的戰(zhàn)略科技創(chuàng)新基地。

紫金山實(shí)驗(yàn)室與華為依托紫金山實(shí)驗(yàn)室無損數(shù)據(jù)中心展開面向AI訓(xùn)練場景的網(wǎng)絡(luò)均衡技術(shù)的聯(lián)合創(chuàng)新,解決AI集群中網(wǎng)絡(luò)負(fù)載不均而導(dǎo)致的AI訓(xùn)練任務(wù)性能下降的問題。

高新平研究員指出AI訓(xùn)練使用的集合通信算法,當(dāng)前主流的有Ring算法、Tree算法和Halving Doubling算法等,在運(yùn)行時(shí)通信流量都呈現(xiàn)出了共同的特征:周期性、流數(shù)量少、長連接,并行任務(wù)間有強(qiáng)實(shí)時(shí)同步性要求,通信效率取決于最慢的節(jié)點(diǎn)。同時(shí),AI訓(xùn)練時(shí),各節(jié)點(diǎn)之間傳輸?shù)臄?shù)據(jù)量大。以上這些流量特性使計(jì)算集群網(wǎng)絡(luò)容易出現(xiàn)負(fù)載不均導(dǎo)致AI訓(xùn)練任務(wù)性能下降的問題。

現(xiàn)有網(wǎng)絡(luò)均衡的主流技術(shù)大體分為三種,逐流ECMP均衡、基于子流flowlet均衡和逐包的負(fù)載分擔(dān)均衡。逐流ECMP均衡技術(shù),是當(dāng)前最為常用的負(fù)載均衡算法,適用于流鏈接較多場景,它優(yōu)勢(shì)在于無亂序,劣勢(shì)在于流數(shù)量較少時(shí),例如AI訓(xùn)練場景下,存在HASH沖突問題,網(wǎng)絡(luò)均衡效果不佳?;谧恿鱢lowlet均衡技術(shù),它依賴于子流之間的時(shí)間間隔GAP值的正確配置來實(shí)現(xiàn)均衡,但全局路徑級(jí)時(shí)延信息不可知、無法配置,且存在接收端側(cè)亂序的問題。逐包的負(fù)載分擔(dān)均衡技術(shù),理論均衡度最好,但實(shí)際在接收端側(cè)存在大量報(bào)文亂序問題,現(xiàn)實(shí)中幾乎無使用案例。

發(fā)表“基于無損數(shù)據(jù)中心的AI訓(xùn)練網(wǎng)絡(luò)均衡技術(shù)實(shí)踐”主題演講

在紫金山實(shí)驗(yàn)室無損數(shù)據(jù)中心AI訓(xùn)練集群中驗(yàn)證了華為創(chuàng)新的網(wǎng)絡(luò)均衡技術(shù)NSLB(Network Service Load Balance)?;谌A為交換芯片高精度telemetry能力,采集流量矩陣作為路由算法輸入,用以控制AI流量的轉(zhuǎn)發(fā)路徑,避免負(fù)載不均,提升AI訓(xùn)練效率。

Ring算法場景,運(yùn)行單個(gè)計(jì)算任務(wù)下,使用NSLB技術(shù)對(duì)比典型ECMP負(fù)載分擔(dān)技術(shù),網(wǎng)絡(luò)實(shí)現(xiàn)100%均衡、平均鏈路利用率34%、比ECMP提升35%,AI訓(xùn)練集性能最高提升113.41%;

Ring算法場景,同時(shí)運(yùn)行兩個(gè)計(jì)算任務(wù)下,使用NSLB技術(shù)對(duì)比典型ECMP負(fù)載分擔(dān)技術(shù),網(wǎng)絡(luò)實(shí)現(xiàn)100%均衡、平均鏈路利用率29%、比ECMP提升15.6%,AI訓(xùn)練集性能最高提升57.29%;

Tree算法場景下,運(yùn)行單個(gè)計(jì)算任務(wù)下,使用NSLB技術(shù)對(duì)比典型ECMP負(fù)載分擔(dān)技術(shù),網(wǎng)絡(luò)實(shí)現(xiàn)100%均衡、平均鏈路利用率13.8%、比ECMP提升1%,AI訓(xùn)練集性能最高提升6.50%;

Tree算法場景下,運(yùn)行兩個(gè)計(jì)算任務(wù)下,使用NSLB技術(shù)對(duì)比典型ECMP負(fù)載分擔(dān)技術(shù),網(wǎng)絡(luò)實(shí)現(xiàn)100%均衡、平均鏈路利用率14%、比ECMP提升10.5%,AI訓(xùn)練集性能最高提升15.81%。

未來,紫金山實(shí)驗(yàn)將與華為在無損數(shù)據(jù)中心網(wǎng)絡(luò)領(lǐng)域就網(wǎng)絡(luò)新拓?fù)洹?a target="_blank">DCN高性能互聯(lián)等方向展開持續(xù)的聯(lián)合創(chuàng)新,推動(dòng)無損數(shù)據(jù)中心網(wǎng)絡(luò)在低時(shí)延、高吞吐等方向進(jìn)一步的發(fā)展,為高算力提供強(qiáng)有力的底座。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    4517

    瀏覽量

    71630
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28877

    瀏覽量

    266220
  • 網(wǎng)絡(luò)通信
    +關(guān)注

    關(guān)注

    4

    文章

    770

    瀏覽量

    29693

原文標(biāo)題:2022中國算力大會(huì) | 基于無損數(shù)據(jù)中心的AI訓(xùn)練網(wǎng)絡(luò)均衡技術(shù)實(shí)踐

文章出處:【微信號(hào):Huawei_Fixed,微信公眾號(hào):華為數(shù)據(jù)通信】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    AI時(shí)代,我們需要怎樣的數(shù)據(jù)中心AI重新定義數(shù)據(jù)中心

    超過60%的中國企業(yè)計(jì)劃在未來12至24個(gè)月內(nèi)部署生成式人工智能。AI、模型的構(gòu)建,將顛覆數(shù)據(jù)中心基礎(chǔ)設(shè)施的建設(shè)、運(yùn)維和運(yùn)營。一個(gè)全新的數(shù)據(jù)中心智能化時(shí)代已經(jīng)拉開序幕。
    發(fā)表于 07-16 11:33 ?287次閱讀
    <b class='flag-5'>AI</b>時(shí)代,我們需要怎樣的<b class='flag-5'>數(shù)據(jù)中心</b>?<b class='flag-5'>AI</b>重新定義<b class='flag-5'>數(shù)據(jù)中心</b>

    數(shù)據(jù)中心液冷需求、技術(shù)及實(shí)際應(yīng)用

    夏日炎炎,數(shù)據(jù)中心制冷技術(shù)全新升級(jí),液冷散熱,讓服務(wù)器清涼一夏。本文將帶您一起探索數(shù)據(jù)中心液冷需求、技術(shù)及實(shí)際應(yīng)用。 1 數(shù)據(jù)中心液冷需求
    的頭像 發(fā)表于 06-19 11:12 ?521次閱讀
    <b class='flag-5'>數(shù)據(jù)中心</b>液冷需求、<b class='flag-5'>技術(shù)</b>及實(shí)際應(yīng)用

    數(shù)據(jù)中心布線標(biāo)準(zhǔn)有什么

    數(shù)據(jù)中心布線標(biāo)準(zhǔn)是現(xiàn)代IT基礎(chǔ)設(shè)施的基石。它們?yōu)榻M織建立可靠和有效的網(wǎng)絡(luò)提供了指導(dǎo)方針和框架。了解這些標(biāo)準(zhǔn)對(duì)于尋求優(yōu)化其數(shù)據(jù)中心運(yùn)營和確保無縫連接的組織至關(guān)重要。 什么是數(shù)據(jù)中心布線標(biāo)
    的頭像 發(fā)表于 06-14 10:51 ?315次閱讀

    華為聯(lián)合IEEE面向全球發(fā)布L4數(shù)據(jù)中心自動(dòng)駕駛網(wǎng)絡(luò)白皮書

    在華為數(shù)據(jù)通信創(chuàng)新峰會(huì)2024期間,華為聯(lián)合IEEE面向全球發(fā)布L4數(shù)據(jù)中心自動(dòng)駕駛網(wǎng)絡(luò)白皮書,全面闡述了數(shù)據(jù)中心網(wǎng)絡(luò)
    的頭像 發(fā)表于 05-16 09:09 ?321次閱讀
    華為聯(lián)合IEEE面向全球發(fā)布L4<b class='flag-5'>數(shù)據(jù)中心</b>自動(dòng)駕駛<b class='flag-5'>網(wǎng)絡(luò)</b>白皮書

    HNS 2024:星河AI數(shù)據(jù)中心網(wǎng)絡(luò),賦AI時(shí)代新動(dòng)能

    華為數(shù)據(jù)通信創(chuàng)新峰會(huì)2024在巴庫隆重舉辦,在“星河AI數(shù)據(jù)中心網(wǎng)絡(luò),賦AI時(shí)代新動(dòng)能”主題論壇中,華為面向中東中亞地區(qū)發(fā)布星河
    的頭像 發(fā)表于 05-15 09:15 ?438次閱讀
    HNS 2024:星河<b class='flag-5'>AI</b><b class='flag-5'>數(shù)據(jù)中心</b><b class='flag-5'>網(wǎng)絡(luò)</b>,賦<b class='flag-5'>AI</b>時(shí)代新動(dòng)能

    #mpo極性 #數(shù)據(jù)中心mpo

    數(shù)據(jù)中心MPO
    jf_51241005
    發(fā)布于 :2024年04月07日 10:05:13

    華為聯(lián)合中國信通院發(fā)布《華為星河AI數(shù)據(jù)中心網(wǎng)絡(luò)測(cè)試報(bào)告》

    2024 開放數(shù)據(jù)中心委員會(huì)(以下簡稱ODCC)春季全會(huì)在江西婺源順利召開,全會(huì)由ODCC副主席李潔博士主持。全會(huì)期間,華為聯(lián)合中國信通院云大所數(shù)據(jù)中心團(tuán)隊(duì)發(fā)布《華為星河AI數(shù)據(jù)中心
    的頭像 發(fā)表于 04-02 09:25 ?1286次閱讀

    一圖看懂星河AI數(shù)據(jù)中心網(wǎng)絡(luò),全面釋放AI時(shí)代算力

    華為中國合作伙伴大會(huì) | 一圖看懂星河AI數(shù)據(jù)中心網(wǎng)絡(luò),以網(wǎng)強(qiáng)算,全面釋放AI時(shí)代算力
    的頭像 發(fā)表于 03-22 10:28 ?590次閱讀
    一圖看懂星河<b class='flag-5'>AI</b><b class='flag-5'>數(shù)據(jù)中心</b><b class='flag-5'>網(wǎng)絡(luò)</b>,全面釋放<b class='flag-5'>AI</b>時(shí)代算力

    是德科技推出AI數(shù)據(jù)中心測(cè)試平臺(tái)旨在加速AI/ML網(wǎng)絡(luò)驗(yàn)證和優(yōu)化的創(chuàng)新

    2024年2月29日,是德科技(Keysight Technologies,Inc.)宣布,針對(duì)人工智能(AI)和機(jī)器學(xué)習(xí)(ML)基礎(chǔ)設(shè)施生態(tài)系統(tǒng),推出了 AI數(shù)據(jù)中心測(cè)試平臺(tái),旨在加速AI
    的頭像 發(fā)表于 02-29 09:32 ?498次閱讀
    是德科技推出<b class='flag-5'>AI</b><b class='flag-5'>數(shù)據(jù)中心</b>測(cè)試平臺(tái)旨在加速<b class='flag-5'>AI</b>/ML<b class='flag-5'>網(wǎng)絡(luò)</b>驗(yàn)證和優(yōu)化的創(chuàng)新

    Microchip CEO博文《AI將如何重新定義數(shù)據(jù)中心?》

    訓(xùn)練和運(yùn)行的模型的大小,生成式AI的基礎(chǔ)設(shè)施需求預(yù)計(jì)將比早期AI模型高出10到100倍。事實(shí)上,所有數(shù)據(jù)中心基礎(chǔ)設(shè)施都受到這一趨勢(shì)的影響,包括電力、HVAC、
    的頭像 發(fā)表于 12-11 14:50 ?1187次閱讀
    Microchip CEO博文《<b class='flag-5'>AI</b>將如何重新定義<b class='flag-5'>數(shù)據(jù)中心</b>?》

    華為聯(lián)合信通院成功立項(xiàng)《AI數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)指導(dǎo)意見》

    近日,2023開放數(shù)據(jù)中心冬季全會(huì)(簡稱:ODCC 2023)在銀川召開,華為聯(lián)合信通院在新技術(shù)與測(cè)試組共同申報(bào)的《AI數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)指導(dǎo)
    的頭像 發(fā)表于 11-29 18:15 ?556次閱讀

    適用于數(shù)據(jù)中心AI 時(shí)代的網(wǎng)絡(luò)

    十多年來,傳統(tǒng)的云數(shù)據(jù)中心一直是計(jì)算基礎(chǔ)設(shè)施的基石,滿足了各種用戶和應(yīng)用程序的需求。然而,近年來,為了跟上技術(shù)的進(jìn)步和對(duì) AI 驅(qū)動(dòng)的計(jì)算需求的激增,數(shù)據(jù)中心進(jìn)行了發(fā)展。 本文探討了
    的頭像 發(fā)表于 10-27 20:05 ?446次閱讀
    適用于<b class='flag-5'>數(shù)據(jù)中心</b>和 <b class='flag-5'>AI</b> 時(shí)代的<b class='flag-5'>網(wǎng)絡(luò)</b>

    HNS 2023 | 華為數(shù)據(jù)中心網(wǎng)絡(luò)軟硬實(shí)力全新升級(jí),賦AI時(shí)代新動(dòng)能

    、意大利、西班牙等多個(gè)國家和地區(qū)的100多位客戶和伙伴共聚一堂,共同討論未來數(shù)據(jù)中心網(wǎng)絡(luò)的發(fā)展和技術(shù)創(chuàng)新。會(huì)上,華為全新升級(jí)CloudFabric3.0超融合數(shù)據(jù)中心
    的頭像 發(fā)表于 10-27 19:35 ?413次閱讀
    HNS 2023 | 華為<b class='flag-5'>數(shù)據(jù)中心</b><b class='flag-5'>網(wǎng)絡(luò)</b>軟硬實(shí)力全新升級(jí),賦<b class='flag-5'>AI</b>時(shí)代新動(dòng)能

    GITEX Global 2023 | 超融合數(shù)據(jù)中心網(wǎng)絡(luò),賦AI時(shí)代新動(dòng)能

    發(fā)表了“超融合數(shù)據(jù)中心網(wǎng)絡(luò),賦AI時(shí)代新動(dòng)能”的主題演講,他指出,隨著AI應(yīng)用加速、云化架構(gòu)不斷升級(jí),數(shù)據(jù)中心已經(jīng)邁入了智能算力和通用算力基
    的頭像 發(fā)表于 10-17 23:30 ?445次閱讀

    華為星河AI網(wǎng)絡(luò)解決方案榮獲AI訓(xùn)練場景最佳實(shí)踐沙利文“全球技術(shù)領(lǐng)導(dǎo)獎(jiǎng)”

    ” (Global Technology Leadership Award) ,代表了沙利文對(duì)華為星河AI網(wǎng)絡(luò)解決方案的技術(shù)創(chuàng)新能力的認(rèn)可,彰顯解決方案領(lǐng)先性。 華為數(shù)據(jù)通信產(chǎn)品線
    的頭像 發(fā)表于 09-28 21:35 ?594次閱讀
    華為星河<b class='flag-5'>AI</b><b class='flag-5'>網(wǎng)絡(luò)</b>解決方案榮獲<b class='flag-5'>AI</b><b class='flag-5'>訓(xùn)練</b>場景最佳<b class='flag-5'>實(shí)踐</b>沙利文“全球<b class='flag-5'>技術(shù)</b>領(lǐng)導(dǎo)獎(jiǎng)”