法國云服務(wù)提供商 Scaleway 正在基于 NVIDIA 的 Hopper GPU和 Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)平臺(tái)構(gòu)建區(qū)域性 GPU 集群,為用戶提供 AI 按需服務(wù)業(yè)務(wù)。
Scaleway 是法國的一家擁有高性能基礎(chǔ)設(shè)施的云服務(wù)提供商,創(chuàng)立于 1999 年,擁有 80+ 云產(chǎn)品及服務(wù),為全球 25,000+ 客戶提供云服務(wù),客戶包括 Mistral AI、Aternos、Hugging Face、Golem.ai 等。Scaleway 提供一站式的云服務(wù),以開發(fā)創(chuàng)新解決方案并幫助用戶從零開始構(gòu)建和擴(kuò)展 AI 項(xiàng)目,目前 Scaleway 正在構(gòu)建區(qū)域 AI 云,提供 GPU 基礎(chǔ)設(shè)施,用于大規(guī)模的 AI 模型訓(xùn)練、推理及部署。
客戶挑戰(zhàn)
云 AI 工作負(fù)載需求正以前所未有的速度增長,同時(shí)生成式 AI 應(yīng)用也在激增。為滿足客戶部署生成式 AI 應(yīng)用程序、訓(xùn)練基礎(chǔ) AI 大模型的需求,云服務(wù)提供商面臨巨大挑戰(zhàn),需要構(gòu)建 AI 云,使用加速計(jì)算技術(shù)和高性能網(wǎng)絡(luò)來支持 AI 業(yè)務(wù)。
Scaleway 的核心需求包括:
對(duì)于分布式 AI 訓(xùn)練任務(wù),單個(gè)任務(wù)的訓(xùn)練時(shí)間由最慢的計(jì)算節(jié)點(diǎn)的運(yùn)行時(shí)間決定,這使得尾部延遲至關(guān)重要。AI 云需要一個(gè)高吞吐、低延遲、低抖動(dòng)、易擴(kuò)展的高性能網(wǎng)絡(luò),來確保 GPU 間快速、高效的通信,尤其是在大規(guī)模部署的場景下。
在多個(gè) AI 任務(wù)同時(shí)運(yùn)行的多租戶環(huán)境中,性能隔離對(duì)于保護(hù)一個(gè)租戶的 AI 任務(wù)免受其他租戶業(yè)務(wù)的影響是必不可少的。由此提出了對(duì)多租戶多任務(wù)場景下性能隔離的需求。
對(duì)于復(fù)雜的 AI 云環(huán)境,需要專門適用于 AI 網(wǎng)絡(luò)的監(jiān)控管理工具,提供細(xì)粒度的網(wǎng)絡(luò)可視化功能、同時(shí)具備網(wǎng)絡(luò)監(jiān)控和故障定位能力。
為實(shí)現(xiàn) AI 云數(shù)據(jù)中心的高效、快速部署,需要強(qiáng)大的網(wǎng)絡(luò)仿真及自動(dòng)化平臺(tái)。
隨著云上用戶、數(shù)據(jù)、應(yīng)用的快速增長,網(wǎng)絡(luò)安全威脅不容忽視,需要提供私有的、安全的零信任基礎(chǔ)設(shè)施,保障用戶的業(yè)務(wù)安全。
解決方案
Scaleway 采用了 NVIDIA 的 Hopper GPU 和 Spectrum-X 網(wǎng)絡(luò)平臺(tái)應(yīng)對(duì)以上挑戰(zhàn)。
Scaleway 將 HGX Hopper GPU 服務(wù)器加入其 GPU 集群陣容中,以覆蓋廣泛的計(jì)算需求,利用 GPU 的速度和效率加速 AI 分布式工作負(fù)載。
對(duì)于 Scale-Out AI 網(wǎng)絡(luò),Scaleway 采用了基于 BlueField-3 SuperNIC 和 Spectrum SN5600 交換機(jī)構(gòu)建的 Spectrum-X 網(wǎng)絡(luò)平臺(tái)。NVIDIA 的 Spectrum-X 網(wǎng)絡(luò)平臺(tái)是全球首個(gè)專為 AI 構(gòu)建的以太網(wǎng)端到端解決方案,與傳統(tǒng)以太網(wǎng)相比,其生成式 AI 訓(xùn)練的網(wǎng)絡(luò)通信效率提高了 1.6 倍。
同時(shí) Spectrum-X 部署將利用以下網(wǎng)絡(luò)軟件堆棧:
NVIDIA Air 用于 AI 網(wǎng)絡(luò)仿真,NVIDIA Air 是一個(gè)云托管的數(shù)據(jù)中心網(wǎng)絡(luò)仿真平臺(tái),其行為類似于真實(shí)世界的生產(chǎn)環(huán)境。使用 NVIDIA Air 創(chuàng)建數(shù)據(jù)中心的數(shù)字孿生,可以驗(yàn)證網(wǎng)絡(luò)配置、網(wǎng)絡(luò)功能以及自動(dòng)化部署代碼,提升數(shù)據(jù)中心的部署效率。
NetQ 用于 AI 網(wǎng)絡(luò)監(jiān)控,通過高頻遙測技術(shù)監(jiān)控 AI 工作負(fù)載,NetQ 提供有關(guān)數(shù)據(jù)中心運(yùn)行狀況的數(shù)據(jù)和統(tǒng)計(jì)信息,關(guān)聯(lián)配置和運(yùn)行狀態(tài),并跟蹤狀態(tài)變化?;谶b測信息,NetQ 提供動(dòng)態(tài)路由監(jiān)控,RoCE 流量計(jì)數(shù)器,交換機(jī)隊(duì)列直方圖等功能,以識(shí)別和應(yīng)對(duì)網(wǎng)絡(luò)微突發(fā)、擁塞場景,方便網(wǎng)絡(luò)故障定位。
Cumulus Linux 用于軟件驅(qū)動(dòng)的數(shù)據(jù)中心網(wǎng)絡(luò)自動(dòng)化,Cumulus Linux 是創(chuàng)新的開放網(wǎng)絡(luò)操作系統(tǒng),支持 BGP/OSPF 路由協(xié)議,以太網(wǎng)虛擬專用網(wǎng)絡(luò) EVPN,虛擬路由和轉(zhuǎn)發(fā)。
DOCA SDK 和庫用于增強(qiáng) BlueField-3 SuperNIC 性能,DOCA SDK 提供行業(yè)標(biāo)準(zhǔn)的開放 API 和軟件框架,包括針對(duì) RDMA、網(wǎng)絡(luò)、安全、存儲(chǔ)、數(shù)據(jù)路徑加速的 SDK,幫助開發(fā)者快速創(chuàng)建軟件定義、SuperNIC 加速的服務(wù)。
使用的 NVIDIA 產(chǎn)品
硬件:
NVIDIA HGX Hopper 服務(wù)器
NVIDIA Spectrum-4 SN5600 以太網(wǎng)交換機(jī)
NVIDIA BlueField-3 B3140H SuperNICs
軟件:
Cumulus Linux 網(wǎng)絡(luò)操作系統(tǒng)
NetQ 監(jiān)控管理平臺(tái)
NVIDIA Air 仿真平臺(tái)
DOCA SDK
實(shí)際效果
采用 NVIDIA 的整體解決方案后,極大地提升了 AI 計(jì)算能力,縮短了 AI 訓(xùn)練時(shí)間,同時(shí)加速了 AI 解決方案的開發(fā)、部署和上市時(shí)間,有效提高了投資回報(bào)率。
Scaleway 客戶可以從幾個(gè) GPU 擴(kuò)展到幾千個(gè) GPU,以適應(yīng)任何 AI 用例
Spectrum-X 提供多租戶、多任務(wù)的 AI 環(huán)境所需的高性能和安全性, 借助動(dòng)態(tài)路由、擁塞控制、全局共享緩沖區(qū)等多種機(jī)制,實(shí)現(xiàn)了多任務(wù)的性能隔離。
NetQ 提供對(duì) AI 網(wǎng)絡(luò)健康狀況的深度可視性,具有 RoCE 流量計(jì)數(shù)器、事件和 WJH(What Just Happened)警報(bào)等豐富的儀表板,實(shí)現(xiàn) AI 網(wǎng)絡(luò)可視化、故障排除和驗(yàn)證功能。
NVIDIA Air 和 Cumulus Linux 支持 API 原生網(wǎng)絡(luò)環(huán)境,該環(huán)境可集成到 DevOps 工具鏈中,實(shí)現(xiàn)了第 0 天、第 1 天 和第 2 天操作的無縫銜接。
NVIDIA 網(wǎng)絡(luò)高級(jí)副總裁 Gilad Shainer 表示:
“生成式 AI 等開創(chuàng)性技術(shù)的飛速發(fā)展,使每家企業(yè)都必須把網(wǎng)絡(luò)創(chuàng)新放在第一位,從而獲得競爭優(yōu)勢(shì)。NVIDIA Spectrum-X 是對(duì)以太網(wǎng)絡(luò)的一次革命,讓企業(yè)能夠充分利用其 AI 基礎(chǔ)設(shè)施的強(qiáng)大力量來改變其運(yùn)營方式,甚至顛覆他們的行業(yè)?!?/p>
Scaleway 首席執(zhí)行官 Damien Lucas 表示:
“NVIDIA Spectrum-X 網(wǎng)絡(luò)技術(shù)為我們的‘GPU 集群按需服務(wù)’提供了更快的網(wǎng)絡(luò)連接和更高效的 GPU 通信,使我們的客戶能夠加速開發(fā)和部署他們的 AI 解決方案。”
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4855瀏覽量
102711 -
AI
+關(guān)注
關(guān)注
87文章
29806瀏覽量
268106 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3720瀏覽量
90687
原文標(biāo)題:應(yīng)用 NVIDIA Spectrum-X 網(wǎng)絡(luò)構(gòu)建新型主權(quán) AI 云
文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論