去年以來,以ChatGPT為代表的大模型迅速紅遍全球,展現(xiàn)出變革經(jīng)濟(jì)社會(huì)的巨大潛能。全球主流科技公司紛紛參與其中,推動(dòng)智能算力需求高速增長。華為公司去年曾預(yù)測,到2025年,智能算力需求將增長100倍。
與之相呼應(yīng)的,是蓬勃興起的智算中心。從政策面看,我國2022年全面啟動(dòng)“東數(shù)西算”工程建設(shè),在京津冀、長三角、粵港澳大灣區(qū)、成渝、內(nèi)蒙古、貴州、甘肅、寧夏建設(shè)8個(gè)國家算力樞紐,并規(guī)劃了10個(gè)國家數(shù)據(jù)中心集群。從產(chǎn)業(yè)來看,運(yùn)營商資本開支重心正在向算力偏移,并大規(guī)模采購智算設(shè)備。
智算中心的未來將如何演變?構(gòu)建跨數(shù)據(jù)中心的AI訓(xùn)練集群是其中一個(gè)重要研究方向, “Region Scale Al”,已經(jīng)成為業(yè)界關(guān)注的熱點(diǎn)話題。
ODCC(開放數(shù)據(jù)中心委員會(huì))攜手華為公司,在2024年3月28日召開的ODCC春季全會(huì)-新技術(shù)與測試工作組會(huì)議上提出了“Region Scale AI”研究項(xiàng)目。華為2012網(wǎng)絡(luò)技術(shù)實(shí)驗(yàn)室專家李映輝做了《Region Scale AI 場景與挑戰(zhàn)》主題報(bào)告,介紹了AI大模型訓(xùn)練對(duì)算力需求不斷增加的背景下,多數(shù)據(jù)中心聯(lián)合訓(xùn)練的發(fā)展趨勢與業(yè)界實(shí)踐,深入分析了該場景下面臨的組網(wǎng)和通信挑戰(zhàn),通過現(xiàn)網(wǎng)實(shí)驗(yàn)數(shù)據(jù)初步論證了AI集群跨AZ、跨Region聯(lián)合訓(xùn)練的可行性,并給出了“Region Scale AI”研究項(xiàng)目的工作計(jì)劃。李映輝因?yàn)榇隧?xiàng)目立項(xiàng),榮獲ODCC2024年春季全會(huì)MVP演講嘉賓稱號(hào)。
報(bào)告中,還介紹了該場景下的創(chuàng)新技術(shù)探索和研究工作,包括跨AZ的模型切分算法、集合通信算法,以及如何在長距網(wǎng)絡(luò)上實(shí)現(xiàn)高吞吐傳輸、高性能加解密協(xié)議等等。同時(shí)指出,隨著AI模型的增大以及芯片算力的增強(qiáng),未來跨AZ訓(xùn)練對(duì)網(wǎng)絡(luò)帶寬的需求還會(huì)進(jìn)一步增長,需要進(jìn)一步考慮DCN和DCI網(wǎng)絡(luò)架構(gòu)的演進(jìn)。
單集群AI訓(xùn)練存在極限,跨DC AI訓(xùn)練成趨勢
業(yè)內(nèi)人士都能感受到AI大模型發(fā)展的加速度。主流科技公司正在盡可能快地開發(fā)大模型并迭代新版本,以期在這個(gè)全新的產(chǎn)業(yè)中占據(jù)先機(jī)。大模型的訓(xùn)練參數(shù)在過去5年增長百倍,已經(jīng)達(dá)到萬億級(jí),預(yù)計(jì)未來5年參數(shù)將再增長百倍,達(dá)到百萬億量級(jí)!
智算能力也隨之快速升級(jí),目前單一數(shù)據(jù)中心已經(jīng)達(dá)到萬卡集群規(guī)模,以盡力滿足幾乎永無止境的AI計(jì)算需求。公開消息顯示,華為昇騰AI集群2023年升級(jí)為萬卡AI集群;螞蟻基礎(chǔ)大模型已具備萬卡AI集群;中國電信宣布推出了首個(gè)國產(chǎn)單池萬卡液冷算力集群。
AI集群是通過將多個(gè)計(jì)算機(jī)節(jié)點(diǎn)連接起來,形成協(xié)同工作的計(jì)算環(huán)境,從而為人工智能應(yīng)用提供強(qiáng)大的計(jì)算能力和數(shù)據(jù)處理能力。據(jù)了解,其技術(shù)門檻隨著訓(xùn)練量快速增長而不斷抬高,絕非簡單的算力設(shè)備堆砌。僅有少數(shù)幾家廠商能夠提供萬卡AI集群,面對(duì)大模型參數(shù)的指數(shù)級(jí)增長,壓力巨大。
然而,任何具體事物都存在極限,算力集群同樣如此。單一AI集群不可能無限制擴(kuò)張,會(huì)受到電力供應(yīng)等因素影響,比如一些公司甚至考慮將數(shù)據(jù)中心建設(shè)在核電站附近。預(yù)計(jì)今后一個(gè)十萬卡級(jí)別的AI集群,需要上百M(fèi)W的電力供應(yīng)。跨數(shù)據(jù)中心AI訓(xùn)練可以有效解決單集群供電不足問題,引起業(yè)界廣泛關(guān)注。
此外,云計(jì)算有峰谷效應(yīng),單集群算力面臨部署碎片化問題,難以承載云上大規(guī)模AI訓(xùn)練業(yè)務(wù),導(dǎo)致資源利用率下降。采用多個(gè)數(shù)據(jù)中心組成的跨AZ、跨Region AI訓(xùn)練集群,可有效支撐十萬卡甚至百萬卡級(jí)別的訓(xùn)練任務(wù),同時(shí)提高資源利用率,將是智算產(chǎn)業(yè)發(fā)展和探索的重要方向。
業(yè)界大型科技公司紛紛啟動(dòng)跨DC訓(xùn)練技術(shù)研究
面向云上AI資源碎片化問題,微軟提出了“Singularity”框架,Planet-scale可搶占、可遷移、可彈性伸縮的AI任務(wù)調(diào)度。該框架可實(shí)現(xiàn)資源調(diào)度高彈性和可遷移性,增加云上AI資源利用率,但缺乏關(guān)注跨集群的訓(xùn)練性能。面向公有云AI訓(xùn)練網(wǎng)絡(luò)異構(gòu)問題,AWS提出了MiCS方案,能夠充分利用異構(gòu)網(wǎng)絡(luò)帶寬,通過減少較慢鏈路上的網(wǎng)絡(luò)流量,攤銷昂貴的全局梯度同步開銷。為了解決AI訓(xùn)練集群造價(jià)昂貴問題,Meta提出去中心化異構(gòu)訓(xùn)練。利用分布式、異構(gòu)和低帶寬互聯(lián)的AI訓(xùn)練資源來訓(xùn)練基礎(chǔ)大模型,降低訓(xùn)練成本。
Region Scale AI研究計(jì)劃啟動(dòng),已制定進(jìn)度表
華為云技術(shù)專家楊永強(qiáng)近日在交流中向SDNLAB表示,數(shù)字經(jīng)濟(jì)是根本,東數(shù)西算是實(shí)施的第一步,華為云大力支持國家的東數(shù)西算戰(zhàn)略,積極布局Regionless等技術(shù)創(chuàng)新,其中東數(shù)西訓(xùn)自不必說,而跨AZ、跨Region、線上線下跨集群的AI訓(xùn)練等高階訴求也日益顯現(xiàn)。參數(shù)交換會(huì)大幅提升跨Region的數(shù)據(jù)流量,弱網(wǎng)長距下的Regionless確定性高速傳輸需求迫切,有機(jī)會(huì)打造成東數(shù)西算的 “特高壓”。
“Region Scale AI研究”項(xiàng)目旨在通過跨數(shù)據(jù)中心聯(lián)合訓(xùn)練,突破單集群建設(shè)限制,靈活高效利用算力資源。未來幾個(gè)月,ODCC將與業(yè)界針對(duì)Region Scale AI面臨的技術(shù)挑戰(zhàn)展開具體研究,探索技術(shù)方向,期望在年內(nèi)形成研究成果,并在9月份ODDC年度大會(huì)進(jìn)行成果發(fā)布。
數(shù)字經(jīng)濟(jì)時(shí)代,算力就是生產(chǎn)力。尤其是智能算力,在復(fù)雜的國際政經(jīng)形勢下,能否取得突破,關(guān)系到新型數(shù)字技術(shù)的產(chǎn)業(yè)競爭力。ODCC跨AZ訓(xùn)練立項(xiàng)已經(jīng)走出了第一步,探索智算產(chǎn)業(yè)的發(fā)展路徑。未來華為公司會(huì)繼續(xù)在產(chǎn)業(yè)界開展分布式AI訓(xùn)練的聯(lián)合創(chuàng)新、認(rèn)證測試、標(biāo)準(zhǔn)制定等系列工作,也愿意與業(yè)界伙伴一起,賦能我國數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)的高質(zhì)量發(fā)展。
-
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4648瀏覽量
71909 -
AI
+關(guān)注
關(guān)注
87文章
29882瀏覽量
268171
原文標(biāo)題:AI訓(xùn)練集群從單DC擴(kuò)展至多DC,智算中心的未來將如何演變?
文章出處:【微信號(hào):SDNLAB,微信公眾號(hào):SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論