0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA SuperNIC推進現(xiàn)代AI基礎設施發(fā)展

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 2024-11-06 13:59 ? 次閱讀

在生成式 AI 時代,加速網(wǎng)絡對于為大規(guī)模分布式 AI 工作負載構建高性能計算平臺至關重要。NVIDIA 在加速網(wǎng)絡領域繼續(xù)保持領先地位,提供先進的以太網(wǎng)和 InfiniBand 解決方案,可最大限度地提高 AI 工廠和云數(shù)據(jù)中心的性能和效率。

這些解決方案的核心是NVIDIA SuperNIC,一種專為超大規(guī)模 AI 工作負載而優(yōu)化的新型網(wǎng)絡加速器。這些 SuperNIC 是NVIDIA Spectrum-X 以太網(wǎng)和Quantum-X800 InfiniBand 網(wǎng)絡平臺的關鍵組件,旨在提供前所未有的可擴展性和性能。

ConnectX-8 SuperNIC 是 NVIDIA SuperNIC 產(chǎn)品系列中的新成員,與 BlueField-3 SuperNIC 一起,共同推動加速的大規(guī)模 AI 計算網(wǎng)絡的新一輪創(chuàng)新浪潮。ConnectX-8 SuperNIC 的總數(shù)據(jù)吞吐量為 800 Gb/s,可為萬億級參數(shù)的 AI 模型提供所需的速度、網(wǎng)絡健壯性和可擴展性,并與 NVIDIA 交換機無縫集成,以實現(xiàn)最佳性能。

本文將探討 NVIDIA SuperNIC 的獨特屬性及其在推進現(xiàn)代 AI 基礎設施發(fā)展方面的關鍵作用。

RoCE 對于 AI 工作負載的重要性

對于 AI 模型訓練來說,在數(shù)據(jù)中心內的 GPU 之間高速傳輸龐大的數(shù)據(jù)集是 AI 方案縮短訓練時間和加快上市時間的關鍵。

NVIDIA SuperNIC 具備了出色的硬件 RoCE 加速功能,可實現(xiàn)高達 800 Gb/s 的 GPUDirect RDMA 通信速度,解決了旁路 CPU 在 GPU 之間實現(xiàn)直接數(shù)據(jù)傳輸面臨的挑戰(zhàn)。

這種直接通信的方法可最大限度地減少 CPU 開銷并降低延遲,在 GPU 顯存之間實現(xiàn)更快、更高效的數(shù)據(jù)傳輸。在實際應用中,此功能可實現(xiàn)更高的并行度,在 AI 工作負載多節(jié)點擴展時,不會出現(xiàn)傳統(tǒng)的基于 CPU 的數(shù)據(jù)傳輸常見的的通信瓶頸。

通過 Spectrum-X RoCE 動態(tài)路由

提升 AI 性能

NVIDIA SuperNIC 的直接數(shù)據(jù)放置(DDP)功能是 Spectrum-X 平臺提升 AI 網(wǎng)絡性能的關鍵之一。

隨著生成式 AI 工作負載擴展到了數(shù)千個節(jié)點以上,以等價多路徑(ECMP)為代表的傳統(tǒng) IP 路由協(xié)議再難以處理 AI 模型生成的大規(guī)模、持續(xù)的數(shù)據(jù)流(俗稱大象流)。這些流可能會使網(wǎng)絡資源不堪重負,并導致?lián)砣?,從而降低整體網(wǎng)絡性能。

Spectrum-X RoCE 動態(tài)路由可以在可用的網(wǎng)絡路徑中動態(tài)調整流量的分配,確保需要高帶寬的流以最佳方式路由,以防止網(wǎng)絡擁塞。該方法利用 NVIDIA Spectrum-4 以太網(wǎng)交換機可在多個路徑上均勻分發(fā)數(shù)據(jù)包的負載均衡功能,避免了傳統(tǒng)靜態(tài)路由機制造成的瓶頸。

然而,使用這樣的數(shù)據(jù)包分發(fā)的方式,可能會導致數(shù)據(jù)包亂序問題的出現(xiàn)。

NVIDIA SuperNIC 通過在數(shù)據(jù)包到達接收端時將其直接按序放入緩沖區(qū)來解決了這一問題,確保了應用能收到正確順序的數(shù)據(jù)。這種 NVIDIA 交換機和 SuperNIC 之間的緊密合作,實現(xiàn)了高效、高速的 AI 工作負載通信,確保大規(guī)模 AI 模型能夠持續(xù)地處理數(shù)據(jù),而不會中斷或降低性能。

解決 AI 網(wǎng)絡的擁塞問題

由于 AI 工作負載的突發(fā)性,因此極易受到網(wǎng)絡擁塞的影響。AI 模型訓練(尤其是通過集合通信在多個 GPU 之間進行同步和共享數(shù)據(jù)時)會產(chǎn)生頻繁且短暫流量峰值,這需要先進的擁塞管理機制來保持網(wǎng)絡的性能。傳統(tǒng)的擁塞控制方法(例如基于 TCP 的流量控制)無法處理這種 AI 獨特的流量模型。

為了解決這一問題,Spectrum-X 采用了基于 Spectrum-4 交換機的實時遙測功能的先進擁塞控制機制,使得 SuperNIC 能夠根據(jù)當前的網(wǎng)絡利用率主動地調整數(shù)據(jù)發(fā)送的速率,防止擁塞,避免問題的發(fā)生。

通過使用帶內高頻遙測數(shù)據(jù),SuperNIC 可以以微秒級精度作出反應,確保即使在高流量條件下也能優(yōu)化網(wǎng)絡帶寬并盡可能降低延遲。

使用增強的可編程 I/O 加速 AI 網(wǎng)絡

隨著 AI 工作負載日益復雜,網(wǎng)絡基礎設施不僅必須在速度上不斷發(fā)展,還需要在適應性方面進步,以支持數(shù)千個節(jié)點之間的各種通信模式。

NVIDIA SuperNIC 處于這項創(chuàng)新的前沿,提供增強的可編程 I/O 功能,這些功能對于現(xiàn)代 AI 數(shù)據(jù)中心環(huán)境至關重要。這些 SuperNIC 具有加速數(shù)據(jù)包處理管線,能夠以線速運行,吞吐量高達 800 Gb/s。

通過將數(shù)據(jù)包處理任務從 CPU 卸載到 SuperNIC,此管道可顯著降低網(wǎng)絡延遲并提高整體系統(tǒng)效率。管道的可編程性由 NVIDIA DOCA 軟件框架提供支持,為網(wǎng)絡專業(yè)人員提供了大規(guī)模構建和優(yōu)化網(wǎng)絡的靈活性。

NVIDIA SuperNIC 采用數(shù)據(jù)路徑加速器(DPA),可增強可編程性。DPA 是一種高度并行的 I/O 處理器,配備 16 個超線程核心,專為處理 I/O 密集型工作負載而設計。它可以通過 DOCA 針對設備仿真、擁塞控制和流量管理等各種低代碼應用程序輕松進行編程。這種可編程性使組織能夠根據(jù)其 AI 工作負載的特定需求定制網(wǎng)絡基礎設施,確保數(shù)據(jù)在保持峰值性能的同時跨網(wǎng)絡高效流動。

保護 AI 網(wǎng)絡連接

保護 AI 模型對于保護敏感數(shù)據(jù)和知識產(chǎn)權免遭潛在的漏洞和對抗性攻擊至關重要。當您的組織構建 AI 工廠和云數(shù)據(jù)中心時,您需要有效的安全解決方案來解決可能損害模型性能和可信度的漏洞,最終保護競爭優(yōu)勢和用戶隱私。

傳統(tǒng)的網(wǎng)絡加密方法通常難以擴展到 100 Gb/s 以上,從而使關鍵數(shù)據(jù)處于危險之中。相比之下,NVIDIA SuperNIC 可提供加速網(wǎng)絡和在線加密加速,速度高達 800 Gb/s,確保數(shù)據(jù)在傳輸過程中保持加密狀態(tài),同時實現(xiàn)峰值 AI 性能。

NVIDIA SuperNIC 為 IPsec、TLS 和可擴展的 PSP 加密操作提供硬件加速支持,為保護人工智能網(wǎng)絡環(huán)境提供成熟的解決方案。

PSP 由 Google 開發(fā),并為開源社區(qū)做出了貢獻。PSP 從一開始就采用無狀態(tài)設計,非常適合支持超大規(guī)模數(shù)據(jù)中心環(huán)境的需求。該架構允許獨立處理每個請求,從而增強在分布式系統(tǒng)中管理加密操作的可擴展性和彈性。

結束語

在生成式 AI 的動態(tài)格局中,NVIDIA SuperNIC 作為 NVIDIA Spectrum-X 和 Quantum-X800 網(wǎng)絡平臺不可或缺的一部分,為網(wǎng)絡的變革時代奠定了基礎。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    4846

    瀏覽量

    102697
  • 網(wǎng)絡
    +關注

    關注

    14

    文章

    7479

    瀏覽量

    88526
  • AI
    AI
    +關注

    關注

    87

    文章

    29707

    瀏覽量

    268018

原文標題:NVIDIA SuperNIC 驅動新一代 AI 網(wǎng)絡發(fā)展

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    英偉達與信實集團攜手在印度建設AI基礎設施

    英偉達(NVIDIA)近日宣布了一項重大合作計劃,與印度第二大財團、亞洲首富安巴尼旗下的信實集團(Reliance Industries)建立合作伙伴關系,旨在共同推動印度的人工智能(AI基礎設施建設。
    的頭像 發(fā)表于 10-28 16:08 ?178次閱讀

    NVIDIA助力印度打造AI基礎設施

    在孟買舉辦的 NVIDIA AI Summit 上,黃仁勛和穆克什·安巴尼(Mukesh Ambani)探討了關于 AI 基礎設施的投資,這些投資有望為各行各業(yè)帶來變革。
    的頭像 發(fā)表于 10-27 09:44 ?185次閱讀

    智能駕駛所需的基礎設施

    以及路側基礎設施之間的實時通信。未來,隨著6G網(wǎng)絡的發(fā)展,通信性能將進一步提升。 車聯(lián)網(wǎng)平臺 :車聯(lián)網(wǎng)平臺是連接車輛、云端和路側基礎設施的橋梁。它負責收集、處理和分析來自車輛和路側基礎設施
    的頭像 發(fā)表于 10-23 16:05 ?470次閱讀

    NVIDIA與思科合作打造企業(yè)級生成式AI基礎設施

    NVIDIA 加速計算平臺、NVIDIA AI Enterprise 軟件和 NVIDIA NIM 推理微服務加持的思科 Nexus HyperFabric
    的頭像 發(fā)表于 10-10 09:35 ?248次閱讀

    微軟貝萊德成立AI基礎設施投資基金

    微軟與全球頂尖資產(chǎn)管理公司貝萊德攜手,共同發(fā)起了一項名為“全球人工智能基礎設施投資伙伴關系”的宏偉計劃。該基金旨在匯聚超過300億美元的私募股權力量,以撬動高達1000億美元的巨額投資,專注于構建支撐人工智能發(fā)展基礎設施。
    的頭像 發(fā)表于 09-19 16:55 ?288次閱讀

    Sam Altman的全球AI基礎設施建設計劃加速推進

    Altman正密鑼緊鼓地籌備一項雄心勃勃的計劃,旨在吸引全球投資者的目光與資金,共同推動人工智能基礎設施的全面建設。這一計劃的輪廓日益清晰,預示著AI時代的新篇章即將開啟。
    的頭像 發(fā)表于 09-04 16:13 ?492次閱讀

    借助NVIDIA DOCA 2.7增強AI 云數(shù)據(jù)中心和NVIDIA Spectrum-X

    NVIDIA DOCA 加速框架為開發(fā)者提供了豐富的庫、驅動和 API,以便為 NVIDIA BlueField DPU 和 SuperNIC 創(chuàng)建高性能的應用程序和服務。
    的頭像 發(fā)表于 05-29 09:22 ?440次閱讀

    中國電動汽車充電基礎設施發(fā)展年報

    電子發(fā)燒友網(wǎng)站提供《中國電動汽車充電基礎設施發(fā)展年報.pdf》資料免費下載
    發(fā)表于 04-18 14:24 ?16次下載

    垂直起降機場:飛行基礎設施的未來是綠色的

    電動垂直起降(eVTOL)飛機的日益發(fā)展為建立一個新的網(wǎng)絡來支持它們提供了理由,這將推動開發(fā)綠色基礎設施新模式的機會。這些電氣化的“短途”客運和貨運飛機通常被描述為飛行汽車,是區(qū)域飛行和城市出租車
    發(fā)表于 03-25 06:59

    NVIDIA 發(fā)布全新交換機,全面優(yōu)化萬億參數(shù)級 GPU 計算和 AI 基礎設施

    NVIDIA Quantum-X800 InfiniBand 網(wǎng)絡,打造性能最強大的 AI 專用基礎設施 NVIDIA Spectrum-X800 以太網(wǎng)絡,數(shù)據(jù)中心必備的優(yōu)化
    發(fā)表于 03-19 10:05 ?303次閱讀
    <b class='flag-5'>NVIDIA</b> 發(fā)布全新交換機,全面優(yōu)化萬億參數(shù)級 GPU 計算和 <b class='flag-5'>AI</b> <b class='flag-5'>基礎設施</b>

    基于NVIDIA DOCA 2.6實現(xiàn)高性能和安全的AI云設計

    作為專為 NVIDIA? BlueField? 網(wǎng)絡平臺而設計的數(shù)據(jù)中心基礎設施軟件框架,NVIDIA? DOCA? 使廣大開發(fā)者能夠利用其行業(yè)標準 API 在 NVIDIA Blue
    的頭像 發(fā)表于 02-23 10:02 ?414次閱讀

    高通推出面向5G基礎設施的智能計算解決方案

    開放式、虛擬化無線接入網(wǎng)絡(開放式vRAN)正迎來商用設計和部署的強勁發(fā)展勢頭,智能計算創(chuàng)新和AI對5G基礎設施的重要性也在快速增加。作為通信和AI技術的領軍企業(yè),高通技術公司一直處于
    的頭像 發(fā)表于 02-21 09:11 ?419次閱讀

    《數(shù)據(jù)處理器:DPU編程入門》讀書筆記

    ,實現(xiàn)了由傳統(tǒng)基礎設施現(xiàn)代基于“零信任”環(huán)境的轉型,可對數(shù)據(jù)中心的每個用戶進行身份認證,保障了企業(yè)從云到核心數(shù)據(jù)中心,再到邊緣的安全性,同時在效率和性能上有了更大的提升。 卸載AI、機器學習、安全
    發(fā)表于 12-21 10:47

    什么是 BlueField SuperNIC?

    技術是一個新術語: BlueField SuperNIC 。 什么是 BlueField SuperNIC? BlueField SuperNIC 是一類新型網(wǎng)絡加速器,旨在為基于以太網(wǎng)的 A
    的頭像 發(fā)表于 11-21 21:50 ?564次閱讀
    什么是 BlueField <b class='flag-5'>SuperNIC</b>?

    Azure AI 基礎設施強勢升級!進一步擴展人工智能能力

    微軟 Azure AI 基礎設施是微軟擴展產(chǎn)品和服務的核心支柱,為開發(fā)人員提供在 Azure 平臺上 構建下一代 AI 驅動的應用程序所需的系統(tǒng)、工具和資源。 微軟在硬件和 AI
    的頭像 發(fā)表于 11-21 08:15 ?483次閱讀
    Azure <b class='flag-5'>AI</b> <b class='flag-5'>基礎設施</b>強勢升級!進一步擴展人工智能能力