近日,2023開放數(shù)據(jù)中心冬季全會(huì)(簡稱:ODCC 2023)在銀川召開,華為聯(lián)合信通院在新技術(shù)與測試組共同申報(bào)的《AI數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)指導(dǎo)意見》立項(xiàng)成功,該項(xiàng)目旨在促進(jìn)行業(yè)數(shù)智化轉(zhuǎn)型、推動(dòng)產(chǎn)業(yè)升級(jí)合作,為各行業(yè)構(gòu)建面向AI時(shí)代的數(shù)據(jù)中心網(wǎng)絡(luò)提供參考。
華為數(shù)據(jù)通信產(chǎn)品線數(shù)據(jù)中心網(wǎng)絡(luò)領(lǐng)域
產(chǎn)業(yè)營銷副總監(jiān)胡秀麗
AI算法邁入萬億參數(shù)大模型時(shí)代,算力需求增長近十萬倍,大規(guī)模計(jì)算需要高效協(xié)同數(shù)萬張AI處理器,網(wǎng)絡(luò)基礎(chǔ)設(shè)施是長穩(wěn)訓(xùn)練的關(guān)鍵之一。國內(nèi)外已有對(duì)傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)的指導(dǎo)和規(guī)范,但AI業(yè)務(wù)與傳統(tǒng)數(shù)據(jù)中心業(yè)務(wù)對(duì)網(wǎng)絡(luò)訴求差異較大,亟待優(yōu)化網(wǎng)絡(luò)架構(gòu),革新網(wǎng)絡(luò)技術(shù),《AI數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)指導(dǎo)意見》指出,AI數(shù)據(jù)中心網(wǎng)絡(luò)的建設(shè)可從組網(wǎng)規(guī)模、通信效率、高可用性三方面著手:
傳統(tǒng)三層網(wǎng)絡(luò)存在網(wǎng)絡(luò)層數(shù)多,網(wǎng)絡(luò)吞吐率低的問題,建議優(yōu)化網(wǎng)絡(luò)架構(gòu),采用兩層框盒或框框組網(wǎng),規(guī)模提升4倍以上,可滿足大規(guī)模萬卡AI集群,大幅度降低組網(wǎng)成本約30%。華為打造端到端200GE/400GE設(shè)備,構(gòu)建大帶寬AI無損網(wǎng)絡(luò),4倍于業(yè)界規(guī)模,完美匹配AI場景訴求。
組網(wǎng)規(guī)模從千卡向萬卡演進(jìn),大流量模型下網(wǎng)絡(luò)負(fù)載不均衡,嚴(yán)重影響AI訓(xùn)練效率。解決流量負(fù)載不均,可將AI訓(xùn)練場景下搜集到的整網(wǎng)信息作為創(chuàng)新算路算法的輸入,從而得到最優(yōu)的流量轉(zhuǎn)發(fā)路徑,實(shí)現(xiàn)AI訓(xùn)練場景下整網(wǎng)流量100%的均衡度,提升網(wǎng)絡(luò)帶寬利用率。華為獨(dú)創(chuàng)網(wǎng)絡(luò)負(fù)載均衡技術(shù),提升網(wǎng)絡(luò)吞吐至98%,同等服務(wù)器規(guī)模下AI訓(xùn)練效率提升20%。
AI任務(wù)的訓(xùn)練要求網(wǎng)絡(luò)具有超高的穩(wěn)定性,訓(xùn)練過程中一旦鏈路異常就可能導(dǎo)致任務(wù)訓(xùn)練中斷,要保證網(wǎng)絡(luò)有足夠的容錯(cuò)能力,不影響AI相關(guān)業(yè)務(wù),高可用網(wǎng)絡(luò)需要考慮:訓(xùn)前主動(dòng)識(shí)別鏈路亞健康,確保訓(xùn)前網(wǎng)絡(luò)0風(fēng)險(xiǎn);訓(xùn)中出現(xiàn)任務(wù)異常后,需要能一鍵自動(dòng)識(shí)別卡間的路徑和路況,做到分鐘級(jí)診斷網(wǎng)絡(luò)問題點(diǎn),提升排障效率。華為網(wǎng)絡(luò)數(shù)字地圖提供可視化運(yùn)維方案,高精度采集數(shù)據(jù),實(shí)現(xiàn)網(wǎng)絡(luò)一鍵式故障診斷,訓(xùn)中排障效率提升90%。
本次立項(xiàng)將針對(duì)AI場景下的網(wǎng)絡(luò)新需求,于2024年上半年完成不同集群規(guī)模選項(xiàng)、網(wǎng)絡(luò)負(fù)載均衡、網(wǎng)絡(luò)高可用等技術(shù)的探索,并輸出建設(shè)原則指導(dǎo)書,為構(gòu)建面向AI時(shí)代的高性能網(wǎng)絡(luò)建設(shè)提供參考。華為也希望與眾多合作伙伴一起,推動(dòng)技術(shù)的發(fā)展和應(yīng)用場景的拓展,實(shí)現(xiàn)人工智能技術(shù)的可持續(xù)發(fā)展和社會(huì)的共同繁榮。
原文標(biāo)題:華為聯(lián)合信通院成功立項(xiàng)《AI數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)指導(dǎo)意見》
文章出處:【微信公眾號(hào):華為數(shù)據(jù)通信】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
華為
+關(guān)注
關(guān)注
215文章
34125瀏覽量
249437
原文標(biāo)題:華為聯(lián)合信通院成功立項(xiàng)《AI數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)指導(dǎo)意見》
文章出處:【微信號(hào):Huawei_Fixed,微信公眾號(hào):華為數(shù)據(jù)通信】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論