0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

轉載 | 高性能計算與AI網(wǎng)絡大融合,如何重塑網(wǎng)絡智能時代?

華為數(shù)據(jù)通信 ? 來源:未知 ? 2023-08-31 12:45 ? 次閱讀

wKgaomTwG_qATWR-AABYb2B4C6Q886.png

近年來,數(shù)據(jù)中心網(wǎng)絡技術一直在不斷發(fā)展,以滿足日益增長的數(shù)據(jù)處理需求。從最初的傳統(tǒng)結構,到軟件定義網(wǎng)絡(SDN),再到云原生網(wǎng)絡(CN-NFV),數(shù)據(jù)中心網(wǎng)絡技術已經(jīng)走過了一個漫長的發(fā)展歷程。AI時代,高性能計算需求正呈現(xiàn)爆發(fā)性增長態(tài)勢,數(shù)據(jù)中心網(wǎng)絡面臨更為復雜的挑戰(zhàn),技術將會有哪些新的變化?是否有合適的解決之道?

wKgaomTwG_uAcCX4AAAAjgjvZ2U503.png

wKgaomTwG_uAZjFuABAUaoSDmqk775.png

華為數(shù)據(jù)通信產(chǎn)品線數(shù)據(jù)中心網(wǎng)絡領域副總裁 張白

2023年8月23日-25日,全國高性能計算學術年會(CCF HPC China 2023)在青島舉辦,CCF HPC China是高性能計算領域全球最具影響力的三大超算盛會之一,有著“中國超算風向標”的稱號。本次大會上,華為數(shù)據(jù)通信產(chǎn)品線數(shù)據(jù)中心網(wǎng)絡領域副總裁張白分享隨著AI時代的到來,高性能計算對網(wǎng)絡新的訴求,以及如何依靠星河AI網(wǎng)絡解決方案去解決智能時代網(wǎng)絡面臨的新的挑戰(zhàn)。

高性能計算需要什么樣的互聯(lián)網(wǎng)絡?

當前,新一輪科技革命和產(chǎn)業(yè)變革加速演進,高性能計算正帶領人類從“信息時代”走向“算力時代”。據(jù)中國電子信息產(chǎn)業(yè)發(fā)展研究院發(fā)布的《2022中國數(shù)字經(jīng)濟發(fā)展研究報告》顯示,目前中國算力規(guī)模約占全球的27%,排名第二。我國算力進入高速發(fā)展階段,到2025年總算力規(guī)模將達到300EFlops,同比2020年增長120%。

數(shù)據(jù)的爆炸性增長需要算力去解決,一方面需要更高效的算力結構,另一方面需要好的算力網(wǎng)絡。高性能計算主要關注如何利用大規(guī)模計算的資源來解決科學、工程和商業(yè)問題。HPC應用程序通常需要使用并行計算,億級、10億級的超算,它的并行計算帶給網(wǎng)絡非常大的挑戰(zhàn)。比如,并行通信、數(shù)據(jù)同步、大規(guī)模穩(wěn)定運行等。同時,隨著AI人工智能快速發(fā)展,HPC和AI結合的研究,HPC和AI應用程序通常需要處理大量的數(shù)據(jù),并且在計算節(jié)點之間進行數(shù)據(jù)傳輸和存儲,對網(wǎng)絡的吞吐及負載均衡也提出了新的挑戰(zhàn)。

以當前火爆的大模型來說,其對數(shù)據(jù)中心網(wǎng)絡要求更為苛刻,可以說,大規(guī)模算力環(huán)境下的網(wǎng)絡問題已成為當今數(shù)據(jù)中心所面臨的“緊箍咒”之一。

官網(wǎng)顯示,ChatGPT-4輸入參數(shù)已經(jīng)達到萬億,2.5年增長了570倍,1.5萬張A100卡來支撐訓練,大量服務器通過高速網(wǎng)絡組成算力集群,共同完成訓練任務。但是大規(guī)模不等于大帶寬,AI大模型的訓練場景中會存在負載不均衡的情況,而且設備網(wǎng)絡規(guī)模越大,傳統(tǒng)負載方式?jīng)_突會越嚴重。類似于要想提高車輛運行速度,在拓寬道路的基礎上,還需要解決堵車的難題。大規(guī)模的網(wǎng)絡不僅讓業(yè)務調優(yōu)復雜,后期運維也是雪上加霜,無法采用傳統(tǒng)手段運維,據(jù)統(tǒng)計50%的迭代過程會被迫中斷,定位時長平均1天以上。由此可見,AI訓練對于網(wǎng)絡的訴求可以用三個詞來歸納:大規(guī)模,高吞吐,高可靠。

如何釋放高性能計算100%算力?

加大高性能計算供給,必須增加算力網(wǎng)絡可靠性。自2020年至今,大模型引領AI進入新的發(fā)展階段,但大模型訓練是個復雜的系統(tǒng)工程,網(wǎng)絡基礎設施正是長穩(wěn)訓練的關鍵之一。對于用戶來說,其需要投入大量的資金和人才戰(zhàn)略來施行其智能化戰(zhàn)略,要怎樣才能進行數(shù)據(jù)中心的創(chuàng)新,建立其符合未來需求的數(shù)據(jù)中心網(wǎng)絡呢?

針對當前業(yè)界火爆的AI大模型,華為在2023CCF全國高性能計算學術年會(CCF HPC China 2023)上帶來星河AI網(wǎng)絡解決方案,提供“運得多、運得快,運得穩(wěn)”的高運力數(shù)據(jù)中心網(wǎng)絡,為客戶提供大規(guī)模、高吞吐、高可靠的網(wǎng)絡建設。

AI場景下對網(wǎng)絡的第一要求是大規(guī)模,適配萬卡集群是網(wǎng)絡最基本的要求。華為采用業(yè)界最高密200/400GE交換機,匹配大模型訓練基本硬件算力訴求,支持超大帶寬組網(wǎng),支持萬億參數(shù)量,規(guī)模可以達到IB的2-4倍。

網(wǎng)絡的另一個要求是高吞吐,面對大規(guī)模網(wǎng)絡采用算網(wǎng)一體化的方式部署,效率可以提升10倍以上。在AI場景中網(wǎng)絡時延不是關鍵指標,而網(wǎng)絡吞吐才是業(yè)務性能的關鍵因素,華為獨創(chuàng)AI智能加速器,提高網(wǎng)絡吞吐,訓練效率提升20%。

高可靠同樣是客戶對網(wǎng)絡的重要要求,華為采用智能化運維的方式來保證訓練實時可視分鐘級識別慢主機,保證訓練的過程不中斷。通過采用網(wǎng)絡的控制器,包括網(wǎng)絡以及計算強強聯(lián)手,實現(xiàn)“算網(wǎng)一體的融合”,最終實現(xiàn)算力網(wǎng)絡“運得多,運得快,運得穩(wěn)”的目標,從而實現(xiàn)算力100%釋放。

進入AI時代,數(shù)據(jù)中心的使命正在從聚焦業(yè)務快速發(fā)放向聚焦數(shù)據(jù)高效處理進行轉變,計算、存儲、網(wǎng)絡等這些IT基礎設施的核心組成部分,正在融入更多的AI元素。企業(yè)如果想要打造未來型數(shù)據(jù)中心,就必須尋找優(yōu)秀的技術合作伙伴,致力于提供一套更好的網(wǎng)絡基礎設施。華為星河AI網(wǎng)絡解決方案通過構建支持AI業(yè)務的網(wǎng)絡,實現(xiàn)從大型模型訓練到推理的全過程。目前,華為星河AI網(wǎng)絡解決方案已在成全球100+企業(yè)部署商用。

如何打造面向未來的AI 網(wǎng)絡?

到2030年,全球聯(lián)接數(shù)預計將達到2000億,數(shù)據(jù)中心流量10年增長100倍,IPv6地址滲透率將達到90%,AI算力將增長500倍。當前及未來的數(shù)據(jù)中心將如何應對這些趨勢和發(fā)展要求?這就需要構建一個立體超寬、滿足確定性時延的智能原生AI網(wǎng)絡。在華為看來,AI網(wǎng)絡的所有技術手段,都需要以業(yè)務為本,核心指標就是減少模型的訓練時間。

首先,大模型需要規(guī)模算力,需要非常大的GPU集群。而把大規(guī)模的GPU集群連起來,需要大規(guī)模的網(wǎng)絡。對于數(shù)據(jù)中心網(wǎng)絡而言,大規(guī)模網(wǎng)絡本身不是問題,更重要的是要考量建網(wǎng)的成本。華為主張采用大容量的交換設備組網(wǎng)降低網(wǎng)絡的層次,由原來的三層合適組網(wǎng)變成兩層寬河組網(wǎng),從而來降低組網(wǎng)的成本。

其次,大規(guī)模的集群只是把AI物理服務器物理上連接在一起,要發(fā)揮效果還需要釋放集群算力。網(wǎng)絡在提高集群的加速比上需要發(fā)揮更加關鍵的作用。

最后,AI訓練的本質是并行計算,有典型的木桶效應,水桶的盛水量是由幾塊木板中最短的一塊決定的。一個環(huán)節(jié)出問題,會拉慢整個系統(tǒng)甚至讓整個系統(tǒng)癱瘓。網(wǎng)絡需要盡可能多的保障服務器之間的連通性,對網(wǎng)絡的高可靠需求更高。未來網(wǎng)絡要提高集群的整體可用性,做到在99%的情況下都不會因為網(wǎng)絡導致訓練中斷。

在過去20年,網(wǎng)絡技術獲得了長足發(fā)展——2000年開始的ALL IP技術推動了互聯(lián)網(wǎng)的大規(guī)模應用,2010年開始的All Cloud技術驅動了企業(yè)IT基礎設施的大規(guī)模云化。而今天,AI浪潮正撲面而來,持續(xù)演進的AI對網(wǎng)絡的需求將會處于指數(shù)級增長的態(tài)勢,網(wǎng)絡也需要全面擁抱人工智能時代。在這個過程中,華為將繼續(xù)攜手伙伴開放合作與持續(xù)創(chuàng)新,在算力領域的發(fā)展和應用中作出更大的貢獻。

wKgaomTwG_yANRmPAAEQIydIJUA826.png

wKgaomTwG_yANHPHAABH79rerUY833.gif 點擊“閱讀原文”,了解更多華為數(shù)據(jù)通信資訊!


原文標題:轉載 | 高性能計算與AI網(wǎng)絡大融合,如何重塑網(wǎng)絡智能時代?

文章出處:【微信公眾號:華為數(shù)據(jù)通信】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 華為
    +關注

    關注

    215

    文章

    34128

    瀏覽量

    249454

原文標題:轉載 | 高性能計算與AI網(wǎng)絡大融合,如何重塑網(wǎng)絡智能時代?

文章出處:【微信號:Huawei_Fixed,微信公眾號:華為數(shù)據(jù)通信】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    AI云服務器:開啟智能計算時代

    ,旨在為人工智能應用提供堅實的支持。 特點 高性能:配備先進的處理器,如多核CPU和高性能GPU,能夠快速處理大量復雜的計算任務,滿足深度學習和機器學習模型訓練及推理的需求。 可擴展性
    的頭像 發(fā)表于 08-09 16:08 ?400次閱讀

    燧原科技與銳捷網(wǎng)絡攜手共筑AI數(shù)據(jù)中心高性能網(wǎng)絡新紀元

    近日,燧原科技與知名網(wǎng)絡解決方案提供商銳捷網(wǎng)絡正式簽署戰(zhàn)略合作協(xié)議,雙方宣布將共同研發(fā)面向未來人工智能數(shù)據(jù)中心的高性能網(wǎng)絡互聯(lián)解決方案。此次
    的頭像 發(fā)表于 07-29 11:27 ?411次閱讀

    芯品# 高性能計算芯片

    (LSE:AWE)是全球技術基礎設施高速連接和計算芯片的全球領導者,與Arm合作開發(fā)基于Arm ? Neoverse?計算子系統(tǒng)(CSS)的高級計算芯片,用于人工智能/機器學習(
    的頭像 發(fā)表于 06-27 10:28 ?2241次閱讀

    HNS 2024:星河AI數(shù)據(jù)中心網(wǎng)絡,賦AI時代新動能

    華為數(shù)據(jù)通信創(chuàng)新峰會2024在巴庫隆重舉辦,在“星河AI數(shù)據(jù)中心網(wǎng)絡,賦AI時代新動能”主題論壇中,華為面向中東中亞地區(qū)發(fā)布星河AI數(shù)據(jù)中心
    的頭像 發(fā)表于 05-15 09:15 ?437次閱讀
    HNS 2024:星河<b class='flag-5'>AI</b>數(shù)據(jù)中心<b class='flag-5'>網(wǎng)絡</b>,賦<b class='flag-5'>AI</b><b class='flag-5'>時代</b>新動能

    NVIDIA InfiniBand和UFM平臺賦能高性能AI計算

    在數(shù)據(jù)驅動的時代,AI網(wǎng)絡解決方案需要在保障數(shù)據(jù)安全的前提下,實現(xiàn)對龐大數(shù)據(jù)流的快速處理和對復雜AI模型的高效訓練與推理。
    的頭像 發(fā)表于 03-27 13:49 ?632次閱讀

    性能領先|憶聯(lián)×新華三,打造超融合架構下的高性能存儲方案

    為助力企業(yè)用戶構建超融合架構的現(xiàn)代化數(shù)據(jù)中心,滿足業(yè)務發(fā)展需求,憶聯(lián)聯(lián)合新華三集團在超融合架構下打造高性能存儲方案,以此提高數(shù)據(jù)中心的管理效率和資源利用率。一、背景介紹超融合架構是通過
    的頭像 發(fā)表于 12-27 18:21 ?519次閱讀
    <b class='flag-5'>性能</b>領先|憶聯(lián)×新華三,打造超<b class='flag-5'>融合</b>架構下的<b class='flag-5'>高性能</b>存儲方案

    騰訊云與 IBM 共同打造“高性能計算服務解決方案”

    在今天的“人工智能時代”,與 AI 技術并駕齊驅的是服務于 AI 算法訓練及推理的“高性能計算
    的頭像 發(fā)表于 12-22 18:55 ?494次閱讀
    騰訊云與 IBM 共同打造“<b class='flag-5'>高性能</b><b class='flag-5'>計算</b>服務解決方案”

    Achronix提供由FPGA賦能的智能網(wǎng)卡(SmartNIC)解決方案來打破智能網(wǎng)絡性能極限

    隨著人工智能/機器學習(AI/ML)和其他復雜的、以數(shù)據(jù)為中心的工作負載被廣泛部署,市場對高性能計算的需求持續(xù)飆升,對高性能
    的頭像 發(fā)表于 12-21 14:52 ?505次閱讀

    Achronix提供由FPGA賦能的智能網(wǎng)卡來打破智能網(wǎng)絡性能極限

    隨著人工智能/機器學習(AI/ML)和其他復雜的、以數(shù)據(jù)為中心的工作負載被廣泛部署,市場對高性能計算的需求持續(xù)飆升,對高性能
    的頭像 發(fā)表于 12-19 11:10 ?797次閱讀

    態(tài)路小課堂丨InfiniBand與以太網(wǎng):AI時代網(wǎng)絡差異

    今年以來,InfiniBand因其在AI領域中的應用而備受矚目。 InfiniBand介紹 InfiniBand (也稱為“無限帶寬”,縮寫為IB)是一種高速網(wǎng)絡技術,具有高性能、低延遲、可靠和靈活的數(shù)據(jù)傳輸功能,適用于要求高速
    的頭像 發(fā)表于 11-29 18:16 ?749次閱讀
    態(tài)路小課堂丨InfiniBand與以太網(wǎng):<b class='flag-5'>AI</b><b class='flag-5'>時代</b>的<b class='flag-5'>網(wǎng)絡</b>差異

    華山論劍:AI大模型時代高性能網(wǎng)絡如何演進?

    靈駿集群內的流量則完全不同,因為訓練任務是周期性迭代的,導致網(wǎng)絡上的流量也是周期性的突發(fā),并且每次突發(fā)都可以打滿網(wǎng)絡帶寬。這就給網(wǎng)絡設計帶來了很大的挑戰(zhàn),因為網(wǎng)工們都知道“少量大象流”是ECMP的噩夢,非常容易導致Hash不均的
    的頭像 發(fā)表于 11-06 16:43 ?2111次閱讀

    HNS 2023 | 華為數(shù)據(jù)中心網(wǎng)絡軟硬實力全新升級,賦AI時代新動能

    、意大利、西班牙等多個國家和地區(qū)的100多位客戶和伙伴共聚一堂,共同討論未來數(shù)據(jù)中心網(wǎng)絡的發(fā)展和技術創(chuàng)新。會上,華為全新升級CloudFabric3.0超融合數(shù)據(jù)中心網(wǎng)絡,為客戶提供超強性能
    的頭像 發(fā)表于 10-27 19:35 ?413次閱讀
    HNS 2023 | 華為數(shù)據(jù)中心<b class='flag-5'>網(wǎng)絡</b>軟硬實力全新升級,賦<b class='flag-5'>AI</b><b class='flag-5'>時代</b>新動能

    AI技術助力網(wǎng)絡革新,讓企業(yè)更智能

    AI技術正迅速滲透到各個企業(yè)領域,為企業(yè)帶來了廣泛的應用機會。在這個數(shù)字化時代,AI技術正在改變我們看待和管理網(wǎng)絡的方式,其中AI
    的頭像 發(fā)表于 10-27 17:56 ?455次閱讀
    <b class='flag-5'>AI</b>技術助力<b class='flag-5'>網(wǎng)絡</b>革新,讓企業(yè)更<b class='flag-5'>智能</b>

    華為星河AI網(wǎng)絡亮相2023AI創(chuàng)新網(wǎng)絡大會,斬獲“璀璨技術獎”大獎

    [中國,北京,10月21日] 2023AI網(wǎng)絡創(chuàng)新大會在北京舉行。大會圍繞AI網(wǎng)絡互連架構、AI網(wǎng)絡
    的頭像 發(fā)表于 10-21 16:20 ?1124次閱讀
    華為星河<b class='flag-5'>AI</b><b class='flag-5'>網(wǎng)絡</b>亮相2023<b class='flag-5'>AI</b>創(chuàng)新<b class='flag-5'>網(wǎng)絡</b>大會,斬獲“璀璨技術獎”大獎

    GITEX Global 2023 | 超融合數(shù)據(jù)中心網(wǎng)絡,賦AI時代新動能

    發(fā)表了“超融合數(shù)據(jù)中心網(wǎng)絡,賦AI時代新動能”的主題演講,他指出,隨著AI應用加速、云化架構不斷升級,數(shù)據(jù)中心已經(jīng)邁入了
    的頭像 發(fā)表于 10-17 23:30 ?445次閱讀