0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA助力百度智能云落地新一代高性能AI計(jì)算集群

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:NVIDIA ? 2022-05-20 15:00 ? 次閱讀

案例簡(jiǎn)介

百度智能云是中國(guó) AI 公有云服務(wù)市場(chǎng)的領(lǐng)先企業(yè)。近日,百度智能云落地新一代高性能AI計(jì)算集群,提供EFLOPS級(jí)算力支持,并發(fā)布了新一代GPU服務(wù)器實(shí)例GPU-H5-8NA100-IB01。該集群基于NVIDIA A100-80GB GPU和NVIDIA InfiniBand網(wǎng)絡(luò)構(gòu)建,成為領(lǐng)先的AI原生云算力底座。研究人員可基于全新發(fā)布的實(shí)例組建上千節(jié)點(diǎn)規(guī)模的超高性能計(jì)算集群,成倍縮短超大AI模型的訓(xùn)練時(shí)間,激發(fā)AI業(yè)務(wù)創(chuàng)新想象力。

客戶挑戰(zhàn)

隨著 AI 的發(fā)展,創(chuàng)新業(yè)務(wù)層出不窮,業(yè)務(wù)復(fù)雜性不斷提升,大模型、超大模型成為必然趨勢(shì),對(duì)于快速訓(xùn)練與部署應(yīng)用提出了前所未有的緊迫要求。百度智能云早在 2020 年就預(yù)見到這一發(fā)展態(tài)勢(shì),啟動(dòng)規(guī)劃與方案設(shè)計(jì),并參考 NVIDIA 高性能分布式集群參考架構(gòu),設(shè)計(jì)落地新一代高性能 AI 集群,通過基礎(chǔ)架構(gòu)的升級(jí),釋放技術(shù)使能想象力,幫助百度以及客戶的業(yè)務(wù)創(chuàng)新更上一層樓。

應(yīng)用方案

NVIDIA 提出的高性能分布式集群參考架構(gòu)基于 NVIDIA A100 GPU 和 NVIDIA HDR 200Gb/s ConnectX-6 網(wǎng)卡組建,采用模塊化設(shè)計(jì),能支持不同規(guī)模大小的設(shè)計(jì),以 20 臺(tái)為一個(gè)可擴(kuò)展單元(Scalable Unit), 可以任意擴(kuò)展到 100 臺(tái)、 200 臺(tái)、400 臺(tái)或更大的規(guī)模,通過 InfiniBand 交換機(jī)采用胖樹結(jié)構(gòu)全互聯(lián)起來(lái)。此集群架構(gòu)旨在幫助 AI 研究人員快速搭建強(qiáng)大、靈活、高效的系統(tǒng),以滿足工業(yè)界日益復(fù)雜、多變的模型對(duì)計(jì)算資源不同程度的需求。尤其對(duì)于超大語(yǔ)言模型預(yù)訓(xùn)練而言,此架構(gòu)尤為重要。

基于同樣的設(shè)計(jì)思路,百度智能云的新一代高性能 AI 集群采用百度自研的 X-MAN 架構(gòu)超級(jí) AI 計(jì)算機(jī)為硬件平臺(tái)。

X-MAN 自 2016 年推出以來(lái),已在鳳巢、自動(dòng)駕駛、自然語(yǔ)言處理等百度內(nèi)部業(yè)務(wù)進(jìn)行大規(guī)模應(yīng)用多年,申請(qǐng)六項(xiàng)專利,包括 PCIe Fabric 架構(gòu)、液冷技術(shù)、最大支持 64 GPU 卡擴(kuò)展等,是百度 AI 業(yè)務(wù)快速落地的重要基礎(chǔ)設(shè)施。

目前, X-MAN 已經(jīng)全面升級(jí)到第四代 X-MAN 4.0 ,為 AI 和 HPC 等計(jì)算場(chǎng)景進(jìn)行了新的優(yōu)化設(shè)計(jì)。配置方面,每臺(tái) X-MAN 4.0 包含8張搭載 NVLink 互聯(lián)技術(shù)的 NVIDIA A100-80GB GPU , 并可支持 8 張 200Gb/s 的 InfiniBand 網(wǎng)卡,實(shí)現(xiàn)了高速存儲(chǔ)、高速無(wú)阻網(wǎng)絡(luò)、高性能計(jì)算于一體的超級(jí) AI 計(jì)算機(jī)。架構(gòu)方面, X-MAN 4.0 全新設(shè)計(jì)的架構(gòu)縮短了數(shù)據(jù)傳輸延遲,提高了數(shù)據(jù)傳輸帶寬,有效解決本地?cái)?shù)據(jù)傳輸?shù)?a target="_blank">通信瓶頸,降低 AI 作業(yè)中 GPU 的閑置時(shí)間。在 MLCommons 1.1 榜單中, X-MAN 4.0 在同配置單機(jī)硬件性能名列 TOP2 。

為了實(shí)現(xiàn)更高的集群運(yùn)行性能,百度智能云專門設(shè)計(jì)了適用于超大規(guī)模集群的 InfiniBand 網(wǎng)絡(luò)架構(gòu)。這個(gè)架構(gòu)優(yōu)化了網(wǎng)絡(luò)收斂比,提升了網(wǎng)絡(luò)吞吐能力。并結(jié)合容錯(cuò)、交換機(jī)親和,拓?fù)溆成涞仁侄?,得以?EFLOPS 級(jí)算力的計(jì)算集群性能發(fā)揮到極致。

應(yīng)用效果

經(jīng)過百度內(nèi)部 NLP 研究團(tuán)隊(duì)的驗(yàn)證,在這個(gè)網(wǎng)絡(luò)環(huán)境下的超大規(guī)模集群上提交千億模型訓(xùn)練作業(yè)時(shí),同等機(jī)器規(guī)模下整體訓(xùn)練效率是普通 GPU 集群的 3.87 倍。

2022 年 3 月 1 日百度發(fā)布的 Q4 及 2021 全年財(cái)報(bào)顯示,百度智能云2021年實(shí)現(xiàn)全年總營(yíng)收 151 億元,同比增長(zhǎng) 64% 。高速增長(zhǎng)的背后,是百度智能云在研發(fā)能力上的持續(xù)投入,以保持云智一體的技術(shù)引領(lǐng),為客戶提供堅(jiān)實(shí)的基礎(chǔ)架構(gòu)與服務(wù)平臺(tái)。

百度副總裁謝廣軍先生表示:“AI原生云是推動(dòng)企業(yè)智能化升級(jí)的核心驅(qū)動(dòng)力。作為中國(guó)AI公有云服務(wù)市場(chǎng)領(lǐng)跑企業(yè),百度智能云一直在優(yōu)化提升智能計(jì)算的核心能力。X-MAN 4.0助力百度內(nèi)部業(yè)務(wù)發(fā)展的同時(shí),我們也愿意將這一領(lǐng)先的架構(gòu)開放給百度智能云的眾多客戶,幫助大家一起更高效地進(jìn)行AI研發(fā)與探索,驅(qū)動(dòng)業(yè)務(wù)創(chuàng)新,邁向AI原生?!?/p>

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4673

    瀏覽量

    128594
  • 計(jì)算機(jī)
    +關(guān)注

    關(guān)注

    19

    文章

    7372

    瀏覽量

    87635
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29819

    瀏覽量

    268111
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    英特爾攜手百度智能加速AI落地

    在2024年9月25日-26日舉辦的2024百度智大會(huì)上,作為大會(huì)的聯(lián)合主辦方,英特爾帶來(lái)了AI全棧軟硬件方案,深入講解了如何基于英特爾 至強(qiáng) 處理器和新一代極具性價(jià)比的加速卡高效地
    的頭像 發(fā)表于 10-12 10:08 ?402次閱讀

    英特爾與百度共同為AI時(shí)代打造高性能基礎(chǔ)設(shè)施

    2024年9月25日,北京 ?——?在2024百度智大會(huì)上,英特爾應(yīng)邀出席并披露基于英特爾?至強(qiáng)?6處理器的新一代實(shí)例即將在百度
    的頭像 發(fā)表于 09-27 09:48 ?239次閱讀
    英特爾與<b class='flag-5'>百度</b>共同為<b class='flag-5'>AI</b>時(shí)代打造<b class='flag-5'>高性能</b>基礎(chǔ)設(shè)施

    百度AI計(jì)算平臺(tái)4.0震撼發(fā)布

    在2024年百度智大會(huì)的璀璨舞臺(tái)上,百度智能重磅推出了
    的頭像 發(fā)表于 09-26 14:46 ?360次閱讀

    百度智能推出“千帆行業(yè)增強(qiáng)版”

    在近日于北京舉辦的2024智能經(jīng)濟(jì)論壇上,百度集團(tuán)執(zhí)行副總裁、百度智能事業(yè)群總裁沈抖分享了百度
    的頭像 發(fā)表于 05-30 09:30 ?525次閱讀

    高性能計(jì)算集群的能耗優(yōu)化

    、人工智能、大數(shù)據(jù)分析等。隨著高性能計(jì)算集群的規(guī)模和性能的不斷提升,其能耗問題也日益突出。高性能
    的頭像 發(fā)表于 05-25 08:27 ?337次閱讀
    <b class='flag-5'>高性能</b><b class='flag-5'>計(jì)算</b><b class='flag-5'>集群</b>的能耗優(yōu)化

    百度副總裁、小CEO李瑩正式發(fā)布了小新一代操作系統(tǒng)DuerOS X

    4月16日,以“創(chuàng)造未來(lái)”為主題的2024百度Create AI開發(fā)者大會(huì)在深圳舉辦。百度集團(tuán)副總裁、小科技CEO李瑩正式發(fā)布了小
    的頭像 發(fā)表于 04-18 09:27 ?562次閱讀
    <b class='flag-5'>百度</b>副總裁、小<b class='flag-5'>度</b>CEO李瑩正式發(fā)布了小<b class='flag-5'>度</b><b class='flag-5'>新一代</b>操作系統(tǒng)DuerOS X

    百度沈抖沈抖正式發(fā)布新一代智能計(jì)算操作系統(tǒng)—萬(wàn)源

    4月16日,Create 2024 百度AI開發(fā)者大會(huì)在深圳召開。期間,百度集團(tuán)執(zhí)行副總裁、百度智能
    的頭像 發(fā)表于 04-18 09:22 ?395次閱讀
    <b class='flag-5'>百度</b>沈抖沈抖正式發(fā)布<b class='flag-5'>新一代</b><b class='flag-5'>智能</b><b class='flag-5'>計(jì)算</b>操作系統(tǒng)—萬(wàn)源

    百度沈抖:傳統(tǒng)計(jì)算不再是主角,智能計(jì)算呼喚新一代“操作系統(tǒng)”

    4月16日,Create 2024 百度AI開發(fā)者大會(huì)在深圳召開。期間,百度集團(tuán)執(zhí)行副總裁、百度智能
    發(fā)表于 04-16 16:26 ?310次閱讀
    <b class='flag-5'>百度</b>沈抖:傳統(tǒng)<b class='flag-5'>云</b><b class='flag-5'>計(jì)算</b>不再是主角,<b class='flag-5'>智能</b><b class='flag-5'>計(jì)算</b>呼喚<b class='flag-5'>新一代</b>“操作系統(tǒng)”

    百度智能攜手烏鎮(zhèn)共建AI數(shù)據(jù)產(chǎn)業(yè)基地

    近日,百度智能與桐鄉(xiāng)市烏鎮(zhèn)大數(shù)據(jù)高新技術(shù)產(chǎn)業(yè)園區(qū)簽署合作協(xié)議,雙方將發(fā)揮各自優(yōu)勢(shì),以人工智能標(biāo)注產(chǎn)業(yè)為基礎(chǔ),共建百度
    的頭像 發(fā)表于 04-01 16:12 ?576次閱讀

    百度智能正式發(fā)布了《百度智能水業(yè)大模型白皮書》

    3月28日,由E20環(huán)境平臺(tái)主辦的2024(第二十二屆)水業(yè)戰(zhàn)略論壇在北京召開。會(huì)上,百度智能正式發(fā)布了《百度智能
    的頭像 發(fā)表于 03-29 09:20 ?1290次閱讀
    <b class='flag-5'>百度</b><b class='flag-5'>智能</b><b class='flag-5'>云</b>正式發(fā)布了《<b class='flag-5'>百度</b><b class='flag-5'>智能</b><b class='flag-5'>云</b>水業(yè)大模型白皮書》

    東莞與百度簽署戰(zhàn)略合作協(xié)議,推動(dòng)人工智能的全場(chǎng)景應(yīng)用落地

    3月22日,東莞市人民政府與百度簽署戰(zhàn)略合作協(xié)議,雙方將緊密圍繞人工智能產(chǎn)業(yè)發(fā)展,充分發(fā)揮百度AI 算法、
    的頭像 發(fā)表于 03-25 10:05 ?797次閱讀

    百度智能大模型應(yīng)用產(chǎn)品發(fā)布會(huì)定檔

    百度智能官方宣布,備受矚目的“AI Cloud Day:百度智能
    的頭像 發(fā)表于 03-21 11:37 ?768次閱讀

    首屆百度智能全球生態(tài)大會(huì),4月9日成都見!

    為了加快人工智能的發(fā)展步伐,進(jìn)步推動(dòng)大模型產(chǎn)業(yè)的實(shí)際落地,促進(jìn)AI原生應(yīng)用的全面繁榮,百度智能
    的頭像 發(fā)表于 03-12 09:43 ?589次閱讀

    【有獎(jiǎng)】 百度智能目推出首款多模態(tài) AI 模組,應(yīng)用場(chǎng)景有獎(jiǎng)?wù)骷?/a>

    他來(lái)了,他來(lái)了 大模型時(shí)代悄然到來(lái) 百度首款大模型落地的硬件產(chǎn)品 目多模態(tài)AI模組LUCA系列正式亮相 目LUCA深度集成
    的頭像 發(fā)表于 02-26 15:19 ?494次閱讀

    三星電子與百度智能達(dá)成合作

    近日,三星電子與百度智能宣布了項(xiàng)重要的合作,將百度的文心大模型集成至三星全新的AI手機(jī)Gal
    的頭像 發(fā)表于 01-26 17:14 ?1121次閱讀