0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

CCF HPC China 2023 | 武漢超算:超級(jí)算力背后的“超級(jí)網(wǎng)絡(luò)”

華為數(shù)據(jù)通信 ? 來源:未知 ? 2023-08-29 18:15 ? 次閱讀

wKgZomTtxlKAaCZ6AABYb2B4C6Q831.png

8月25日,在青島舉行的全國高性能計(jì)算學(xué)術(shù)年會(huì)大會(huì)(CCF HPC China 2023)上,2023華為高性能計(jì)算解決方案分論壇同步舉辦。來自武漢超算中心的運(yùn)營負(fù)責(zé)人陳斌分享了“武漢超算全棧國產(chǎn)HPC解決方案方法與運(yùn)營”。

wKgZomTtxlKALdjPAAjUcRxh9Hg531.png

武漢超算運(yùn)營負(fù)責(zé)人 陳斌 現(xiàn)場分享

數(shù)字經(jīng)濟(jì)時(shí)代,算力就是生產(chǎn)力。

提及武漢和湖北,總離不開“樞紐”二字,湖北地處中國南北連接中心,素有“九省通衢”之稱,武漢又是位于長江黃金水道的中心城市。得益于獨(dú)特的地理區(qū)位優(yōu)勢,湖北正努力從區(qū)位交通樞紐躍升數(shù)字經(jīng)濟(jì)樞紐,而其中的關(guān)鍵正是算力。

《湖北數(shù)字經(jīng)濟(jì)強(qiáng)省三年行動(dòng)計(jì)劃(2022-2024年)》提出打造新型基礎(chǔ)設(shè)施中部樞紐節(jié)點(diǎn)的發(fā)展目標(biāo),建設(shè)全國一體化算力網(wǎng)絡(luò)國家樞紐中部節(jié)點(diǎn)成為重要行動(dòng)。毫無疑問,算力已成為推動(dòng)數(shù)字經(jīng)濟(jì)發(fā)展的核心力量。

超級(jí)計(jì)算,該配什么樣的超級(jí)網(wǎng)絡(luò)?

wKgZomTtxlKAUMwqAAAG5GHQZWM552.png

兩年前,武漢超算中心啟動(dòng)建設(shè),作為國內(nèi)最大的集裝箱超算中心,整體規(guī)劃設(shè)計(jì)算力為200P,首期算力達(dá)到50P。武漢超算中心與緊鄰的武漢人工智能計(jì)算中心投運(yùn)形成合力,助力武漢成為國內(nèi)為數(shù)不多的擁有超算和智算雙中心城市的同時(shí),也在助力湖北打造成為國家算力網(wǎng)絡(luò)中部樞紐目標(biāo)中發(fā)揮著重要的推動(dòng)作用。

值得一說的是,無論是HPC還是AI計(jì)算,算力的極致釋放離不開高吞吐、低延遲的網(wǎng)絡(luò)加持,就像一輛汽車從一城快速駛向另一城,除了自身具備高性能的發(fā)動(dòng)機(jī)等特性外,還離不開更高效、更高質(zhì)量的網(wǎng)絡(luò)進(jìn)行高速互聯(lián)。

過去數(shù)年,InfiniBand網(wǎng)絡(luò)在HPC系統(tǒng)中占據(jù)了絕對領(lǐng)先份額,原因無他,通過引入RDMA協(xié)議,InfiniBand網(wǎng)絡(luò)大大降低了數(shù)據(jù)傳輸時(shí)延,成為高性能網(wǎng)絡(luò)的代表。不過,其也有著明顯的弊端,不同于TCP/IP協(xié)議棧,Infiniband擁有自己的網(wǎng)絡(luò)層和傳輸層協(xié)議,所以體系相對封閉,并且運(yùn)維復(fù)雜、價(jià)格昂貴。

為了釋放極致算力,武漢超算中心在建設(shè)實(shí)踐中則選擇了開放的RoCE(RDMA over Converged Ethernet)路線,基于華為超融合以太網(wǎng)絡(luò)解決方案構(gòu)建面向HPC和AI計(jì)算的智能無損高性能計(jì)算網(wǎng)絡(luò),不僅滿足高性能計(jì)算需求,同時(shí)提升了投資回報(bào)率。

釋放極致算力,湖北超算攜手華為
構(gòu)建智能無損高性能計(jì)算網(wǎng)絡(luò)

wKgZomTtxlKAUMwqAAAG5GHQZWM552.png

高性能計(jì)算實(shí)現(xiàn)的前提是計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)端到端的高性能,任何一方成為系統(tǒng)性能的短木板,都將導(dǎo)致整體系統(tǒng)性能發(fā)揮面臨瓶頸。

武漢超算中心之所以選擇華為超融合以太解決方案,首要原因是看到了其實(shí)現(xiàn)網(wǎng)絡(luò)高性能的三個(gè)核心指標(biāo):0丟包、低時(shí)延、高吞吐。華為智能無損高性能計(jì)算網(wǎng)絡(luò)實(shí)現(xiàn)從“盡力而為”連通型網(wǎng)絡(luò)向“提供確定性SLA保障”性能型網(wǎng)絡(luò)演進(jìn),將網(wǎng)絡(luò)高性能提升至新的高度,從而100%釋放算力。

實(shí)現(xiàn)這一核心能力的背后,源于華為獨(dú)創(chuàng)的iLossless智能無損算法,華為智能無損高性能計(jì)算網(wǎng)絡(luò)通過流量控制技術(shù)、擁塞控制技術(shù)、流量調(diào)度技術(shù)和應(yīng)用加速等技術(shù)的結(jié)合,解決發(fā)送端與接收端的速率匹配問題、網(wǎng)絡(luò)擁塞時(shí)對流量的速率控制問題、業(yè)務(wù)流量與網(wǎng)絡(luò)鏈路的負(fù)載均衡性等問題,從而讓0丟包、低時(shí)延、高吞吐成為可能,并通過對超算網(wǎng)絡(luò)的流量模型進(jìn)行分析,進(jìn)而支持各種計(jì)算密集型和數(shù)據(jù)密集型應(yīng)用的高效運(yùn)行。

無論是預(yù)防PFC死鎖的發(fā)生、緩解/解除擁塞、進(jìn)行負(fù)載分擔(dān)/網(wǎng)絡(luò)均衡,還是差異化SLA動(dòng)態(tài)優(yōu)化保障,一個(gè)真正的智能無損高性能計(jì)算網(wǎng)絡(luò)就此形成,這也為武漢超算中心帶來了顯著價(jià)值。

一是滿足了網(wǎng)絡(luò)高性能的建設(shè)訴求。武漢超算中心在項(xiàng)目部署前通過對96節(jié)點(diǎn)集群規(guī)模進(jìn)行全面的對比測試,在MPI、Benchmark和HPC典型應(yīng)用測試中,華為智能無損高性能計(jì)算網(wǎng)絡(luò)性能與InfiniBand網(wǎng)絡(luò)整體基本持平,局部小幅領(lǐng)先,完全滿足業(yè)務(wù)的高性能需求。

wKgZomTtxlOALuZUAALqPRHo74M085.png

二是顯著降低了網(wǎng)絡(luò)的建設(shè)、運(yùn)維成本?;跇?biāo)準(zhǔn)的以太網(wǎng)架構(gòu),華為超融合以太網(wǎng)絡(luò)解決方案帶來了一張統(tǒng)一融合的網(wǎng)絡(luò)。通過將通用計(jì)算、存儲(chǔ)和高性能計(jì)算統(tǒng)一承載在0丟包以太網(wǎng)技術(shù)棧上,打破傳統(tǒng)分散架構(gòu)限制,實(shí)現(xiàn)從三張網(wǎng)到一張網(wǎng)的融合部署。從而降低了網(wǎng)絡(luò)的建設(shè)成本,而不必再進(jìn)行計(jì)算和存儲(chǔ)網(wǎng)絡(luò)的獨(dú)立建設(shè),同時(shí)降低了運(yùn)維成本,支持SDN云網(wǎng)自動(dòng)化,提升了運(yùn)維效率。

整體看來,武漢超算中心為釋放極致算力,打造了一張性能、兼容性、成本效益和靈活性兼具的高性能網(wǎng)絡(luò)。目前,超融合以太網(wǎng)絡(luò)解決方案正在成為越來越多政企構(gòu)建HPC和AI極致算力的選擇。

多云異構(gòu)算力演進(jìn),
無損以太網(wǎng)絡(luò)迎來廣闊發(fā)展空間

wKgZomTtxlKAUMwqAAAG5GHQZWM552.png

《湖北省加快發(fā)展算力與大數(shù)據(jù)產(chǎn)業(yè)三年行動(dòng)方案(2023—2025年)》提出,力爭到2025年成為國家算力網(wǎng)絡(luò)中部樞紐,建成全國算力與大數(shù)據(jù)創(chuàng)新發(fā)展的核心區(qū)?;诔诤弦蕴鉀Q方案打造領(lǐng)先的超算和人工智能計(jì)算中心,攜手華為構(gòu)建面向HPC和AI計(jì)算的智能無損高性能計(jì)算網(wǎng)絡(luò),湖北正全力向算力、存力、運(yùn)力的全國第一梯隊(duì)邁近,由“九省通衢”邁向“數(shù)字通衢”。

面向未來,數(shù)據(jù)中心正快速朝著多云異構(gòu)算力演進(jìn),隨著HPC和AI應(yīng)用的不斷發(fā)展,網(wǎng)絡(luò)帶寬吞吐的需求也越來越大,以太網(wǎng)絡(luò)正從100GE向200GE、400GE和800GE等更高速率發(fā)展。在可預(yù)見的將來,低時(shí)延、高吞吐的無損以太全球生態(tài)將會(huì)更加成熟,為多元算力提供強(qiáng)大的網(wǎng)絡(luò)底座,超融合以太網(wǎng)絡(luò)解決方案也將迎來更廣闊的發(fā)展空間。

wKgZomTtxlSAJtXVAAEeyHFS5w4584.png

wKgZomTtxlSAIlesAABH79rerUY388.gif 點(diǎn)擊“閱讀原文”,了解更多華為數(shù)據(jù)通信資訊!


原文標(biāo)題:CCF HPC China 2023 | 武漢超算:超級(jí)算力背后的“超級(jí)網(wǎng)絡(luò)”

文章出處:【微信公眾號(hào):華為數(shù)據(jù)通信】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 華為
    +關(guān)注

    關(guān)注

    215

    文章

    34128

    瀏覽量

    249468

原文標(biāo)題:CCF HPC China 2023 | 武漢超算:超級(jí)算力背后的“超級(jí)網(wǎng)絡(luò)”

文章出處:【微信號(hào):Huawei_Fixed,微信公眾號(hào):華為數(shù)據(jù)通信】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    【書籍評測活動(dòng)NO.43】 芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析

    范圍內(nèi),對于推動(dòng)科技進(jìn)步、經(jīng)濟(jì)發(fā)展及社會(huì)整體的運(yùn)作具有至關(guān)重要的作用。隨著信息技術(shù)的高速發(fā)展,高性能計(jì)算(HPC)和人工智能(AI)等技術(shù)在多個(gè)領(lǐng)域的應(yīng)用變得日益廣泛,芯片成為支持這些技術(shù)
    發(fā)表于 09-02 10:09

    淺析三大之異同

    隨著一年多前ChatGPT的出現(xiàn)引爆人工智能(AI)浪潮,支撐大模型背后的“”概念突然闖進(jìn)我們的視野,成為科技圈炙手可熱的新詞,引領(lǐng)著最新潮流。作為數(shù)字經(jīng)濟(jì)時(shí)代新生產(chǎn),也許不少人
    的頭像 發(fā)表于 08-30 12:56 ?314次閱讀
    淺析三大<b class='flag-5'>算</b><b class='flag-5'>力</b>之異同

    超高“質(zhì)”量——CCF HPC China 2024主題論壇正式公布

    積蓄點(diǎn)點(diǎn)星火,以待磅礴進(jìn)發(fā),第 20 屆 CCF 全國高性能計(jì)算學(xué)術(shù)年會(huì)(以下簡稱“CCF HPC China 2024”)攜超高“質(zhì)”量的學(xué)術(shù)陣容及精彩議題,如期而來。大會(huì)將于 20
    的頭像 發(fā)表于 07-19 09:55 ?197次閱讀
    超高“質(zhì)”量——<b class='flag-5'>CCF</b> <b class='flag-5'>HPC</b> <b class='flag-5'>China</b> 2024主題論壇正式公布

    馬斯克欲建xAI超級(jí)工廠

    在最近的一次投資者演講中,人工智能創(chuàng)業(yè)公司xAI的創(chuàng)始人馬斯克公布了公司的最新宏大計(jì)劃。他宣布,xAI計(jì)劃打造一個(gè)由數(shù)萬個(gè)專用芯片組成的超級(jí)計(jì)算機(jī),命名為“
    的頭像 發(fā)表于 05-27 10:29 ?467次閱讀

    “本源悟空”已受邀成功聯(lián)機(jī)中國三個(gè)中心

    繼上線量融合先進(jìn)計(jì)算平臺(tái)入駐國家互聯(lián)網(wǎng)平臺(tái)后近日,我國第三代自主超導(dǎo)量子計(jì)算機(jī)“本源悟空”成功聯(lián)機(jī)長三角樞紐蕪湖集群公共服務(wù)平臺(tái)該
    的頭像 發(fā)表于 05-08 08:22 ?412次閱讀
    “本源悟空”已受邀成功聯(lián)機(jī)中國三個(gè)<b class='flag-5'>超</b><b class='flag-5'>算</b>中心

    軟通動(dòng)力亮相2024中國移動(dòng)網(wǎng)絡(luò)大會(huì),共繪網(wǎng)絡(luò)新藍(lán)圖

    4月28日至29日,以“網(wǎng)絡(luò)點(diǎn)亮AI新時(shí)代”為主題的2024中國移動(dòng)網(wǎng)絡(luò)大會(huì)在蘇州隆重舉
    的頭像 發(fā)表于 05-06 10:20 ?358次閱讀
    軟通動(dòng)力亮相2024中國移動(dòng)<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>網(wǎng)絡(luò)</b>大會(huì),共繪<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>網(wǎng)絡(luò)</b>新藍(lán)圖

    一文詳解中的InfiniBand網(wǎng)絡(luò)、HDR與IB

    InfiniBand技術(shù)被認(rèn)為是面向未來的高性能計(jì)算(HPC)標(biāo)準(zhǔn),在超級(jí)計(jì)算機(jī)、存儲(chǔ)甚至LAN網(wǎng)絡(luò)HPC連接方面享有很高的聲譽(yù)。
    的頭像 發(fā)表于 04-16 10:18 ?3912次閱讀
    一文詳解<b class='flag-5'>超</b><b class='flag-5'>算</b>中的InfiniBand<b class='flag-5'>網(wǎng)絡(luò)</b>、HDR與IB

    十問:,通存比

    鄔賀銓指出,現(xiàn)有測算方法難以精準(zhǔn)衡量。國內(nèi)企業(yè)服務(wù)器的出貨量并不等于國內(nèi)市場的使用量,而且進(jìn)口國外的服務(wù)器未統(tǒng)計(jì)在內(nèi);服務(wù)器出貨量也不等于上架量,更不等于已經(jīng)加電使用量。通常服務(wù)器集群的
    的頭像 發(fā)表于 04-13 11:40 ?3614次閱讀

    “捷智”正式入駐國家互聯(lián)網(wǎng)平臺(tái)

    ABSTRACT摘要2024年4月2日,本公司旗下服務(wù)品牌“捷智”正式入駐國家互聯(lián)網(wǎng)平臺(tái),開設(shè)云gpu旗艦店。我們將借助國家
    的頭像 發(fā)表于 04-12 08:26 ?314次閱讀
    “捷智<b class='flag-5'>算</b>”正式入駐國家<b class='flag-5'>超</b><b class='flag-5'>算</b>互聯(lián)網(wǎng)平臺(tái)

    智能規(guī)模通用,大模型對智能提出高要求

    的縮寫,即每秒所能夠進(jìn)行的浮點(diǎn)運(yùn)算數(shù)目(每秒浮點(diǎn)運(yùn)算量)。 ? 可以分為通用、智能
    的頭像 發(fā)表于 02-06 00:08 ?5459次閱讀

    大茉莉X16-P,5800M大稱王稱霸

    Rykj365
    發(fā)布于 :2024年01月25日 14:54:52

    國產(chǎn)ARM建設(shè)歷程 Arm計(jì)算在領(lǐng)域的實(shí)踐

    ARM 指令集兼容架構(gòu)已成為HPC 主流技術(shù)與未來發(fā)展的重要趨勢,可滿足大型系統(tǒng)與商用HPC 系統(tǒng)的技術(shù)需求。
    的頭像 發(fā)表于 01-25 14:06 ?1098次閱讀
    國產(chǎn)ARM<b class='flag-5'>超</b><b class='flag-5'>算</b>建設(shè)歷程 Arm計(jì)算在<b class='flag-5'>超</b><b class='flag-5'>算</b>領(lǐng)域的實(shí)踐

    網(wǎng)絡(luò)面臨三大挑戰(zhàn)

    2024年,以AIGC為代表的人工智能技術(shù)將進(jìn)一步激發(fā)需求,網(wǎng)絡(luò)、智中心、
    的頭像 發(fā)表于 01-12 10:39 ?790次閱讀

    平臺(tái)賦能,共建,智貫東西 “2023 英特爾大會(huì)暨東數(shù)西大會(huì)”成功舉辦

    近日,以“共建,智貫東西”為主題的2023 英特爾大會(huì)暨東數(shù)西大會(huì)在麗江成功舉辦。大會(huì)
    的頭像 發(fā)表于 12-08 19:15 ?659次閱讀
    平臺(tái)賦能,<b class='flag-5'>算</b><b class='flag-5'>力</b>共建,智貫東西 “<b class='flag-5'>2023</b> 英特爾<b class='flag-5'>算</b><b class='flag-5'>力</b>大會(huì)暨東數(shù)西<b class='flag-5'>算</b>大會(huì)”成功舉辦

    什么是?如何衡量?

    簡而言之就是設(shè)備的計(jì)算能力(Computing Power)。小至手機(jī)、PC,大到超級(jí)計(jì)算機(jī),支撐各種軟硬件的正常應(yīng)用,為生活、生產(chǎn)提供計(jì)算能力。以PC而言,搭載的CPU、顯卡、內(nèi)存配置越高,一般來說就越高。
    的頭像 發(fā)表于 11-02 10:23 ?1.6w次閱讀