0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA引入云原生超級計算架構(gòu)

NVIDIA英偉達 ? 來源:NVIDIA英偉達 ? 作者:NVIDIA英偉達 ? 2021-11-21 10:43 ? 次閱讀

超級計算機是一項重要的投資,對于研究人員和科學家來說,它們是必不可少的寶貴工具。為了有效和安全地共享這些數(shù)據(jù)中心的計算能力, NVIDIA 引入了云原生超級計算架構(gòu)。它結(jié)合了裸機性能、多租戶和性能隔離統(tǒng)一為超級計算服務(wù)。

Magnum IO 是數(shù)據(jù)中心的 I / O 子系統(tǒng),它引入了新的增強功能,以加速多租戶數(shù)據(jù)中心的 I / O 和通信。我們將這些增強功能稱為 Magnum IO ,用于云原生超級計算架構(gòu)。

它由 NVIDIA Quantum-2 InfiniBand 平臺提供,該平臺包括 NVIDIA Quantum-2 交換機系列、BlueField-3 DPU 和 ConnectX-7 網(wǎng)卡。

這種進化環(huán)境的挑戰(zhàn)是什么?

基于 GPU 的高性能計算已經(jīng)通過機器學習模擬計算大幅改變了科學和實驗。在GPU 上運行的這些深度學習框架和模擬工具可能會消耗 PB 級的數(shù)據(jù),并在整個數(shù)據(jù)中心內(nèi)造成擁塞和瓶頸。更復雜的是,這些應(yīng)用程序的多個實例在共享的超級計算設(shè)施上常常同時運行并互相影響,因而造成運行性能的抖動,從而導致無法預測的運行時間。

面向云原生超級計算體系結(jié)構(gòu)設(shè)計的 Magnum IO 帶來新的增強功能,以減輕最終用戶在多租戶環(huán)境中運行應(yīng)用帶來的性能負面影響。它提供確定性的性能,就好像它們的應(yīng)用程序是獨占網(wǎng)絡(luò)運行。

第三代 NVIDIA SHARP

(可擴展分層聚合和規(guī)約協(xié)議)

通過將集合操作從主機 CPU 卸載到交換機網(wǎng)絡(luò),SHARP 技術(shù)有效消除了端點之間多次發(fā)送數(shù)據(jù)的需求,從而提高了 MPI 操作的性能。這種方法大幅減少了到達聚合節(jié)點的網(wǎng)絡(luò)流量,并顯著減少了 MPI 操作時間。

在網(wǎng)絡(luò)中實現(xiàn)集合通信算法還有其他好處,例如釋放寶貴的 CPU 資源用于計算,而不是使用它們來處理通信。

最近發(fā)布的 NVIDIA Quantum-2 InfiniBand 交換機為大型數(shù)據(jù)聚合提供了強大的可擴展性。由于每個交換機支持幾乎無限的小消息聚合和多個大消息聚合流,在共享系統(tǒng)上運行多租戶應(yīng)用程序可以充分利用 SHARP 的優(yōu)勢。

性能隔離

多租戶超級計算實現(xiàn)在共享資源上運行很多用戶的應(yīng)用程序,可能造成物理服務(wù)器、存儲、網(wǎng)絡(luò)以及I / O流量模型的復用 。

NVIDIA Quantum InfiniBand 一直以來支持擁塞控制管理,當檢測到網(wǎng)絡(luò)擁塞時在源端實施控制以緩解擁塞。但在多租戶場景,用戶應(yīng)用可能無意識地與相鄰用戶流量產(chǎn)生干擾,因此需要隔離以提供可預期的性能級別。

借助最新的 NVIDIA Quantum-2 InfiniBand 平臺和 Magnum IO ,創(chuàng)新的主動監(jiān)控和擁塞管理提供了良好的流量隔離。這幾乎完全消除了性能抖動,并確保了預期的性能,就像應(yīng)用程序運行在專用系統(tǒng)上一樣。

專為安全、多租戶、裸機性能而打造

NVIDIA Cloud-Native Supercomputing 體系結(jié)構(gòu)使用 Magnum IO 在多租戶環(huán)境中實現(xiàn)最高的性能、安全性和編排。

此外,實現(xiàn)這種架構(gòu)轉(zhuǎn)換的另一個核心元素是數(shù)據(jù)處理器( DPU ),也即 BlueField 。作為一個完全集成的片上數(shù)據(jù)中心平臺, BlueField 從主機處理器卸載和管理數(shù)據(jù)中心基礎(chǔ)設(shè)施,實現(xiàn)超級計算機的安全和編排。

它還能夠提供額外的通信框架卸載,可達到 100% 的通信計算重疊,實現(xiàn) MPI _ Alltoall 44% 的性能提升和 MPI _ iAllgather 36% 的性能提升。當結(jié)合最新的 NVIDIA Quantum-2 平臺時,該體系結(jié)構(gòu)在安全的多節(jié)點體系結(jié)構(gòu)中展示性能隔離實現(xiàn)裸金屬性能。

Magnum IO 消除了 I / O 瓶頸,拓展了硬件級加速引擎、網(wǎng)絡(luò)計算和擁塞控制等最新技術(shù),成為支持當今高性能裸金屬多租戶數(shù)據(jù)中心的必備利器。

責任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4855

    瀏覽量

    102709
  • 云計算
    +關(guān)注

    關(guān)注

    39

    文章

    7701

    瀏覽量

    137112
  • 人工智能
    +關(guān)注

    關(guān)注

    1789

    文章

    46652

    瀏覽量

    237070

原文標題:使用 Magnum IO 加速云原生超級計算

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    NVIDIA助力丹麥發(fā)布首臺AI超級計算

    這臺丹麥最大的超級計算機由該國政府與丹麥 AI 創(chuàng)新中心共同建設(shè),是一臺 NVIDIA DGX SuperPOD 超級計算機。
    的頭像 發(fā)表于 10-27 09:42 ?348次閱讀

    云原生和非云原生哪個好?六大區(qū)別詳細對比

    云原生和非云原生各有優(yōu)劣,具體選擇取決于應(yīng)用場景。云原生利用云計算的優(yōu)勢,通過微服務(wù)、容器化和自動化運維等技術(shù),提高了應(yīng)用的可擴展性、更新速度和成本效益。非
    的頭像 發(fā)表于 09-13 09:53 ?294次閱讀

    基于Arm架構(gòu)的Azure虛擬機助力云原生應(yīng)用開發(fā)

    子系統(tǒng) (CSS) 所構(gòu)建的解決方案專為運行現(xiàn)代通用云工作負載而設(shè)計,并且通過優(yōu)化,為云原生產(chǎn)品提供更高的效率和性能。
    的頭像 發(fā)表于 09-05 15:54 ?1658次閱讀

    京東云原生安全產(chǎn)品重磅發(fā)布

    “安全產(chǎn)品那么多,我怎么知道防住了?”“大家都說自己是云原生的,我看都是換湯不換藥”在與客戶溝通云原生安全方案的時候,經(jīng)常會遇到這樣的吐槽。越來越的客戶已經(jīng)開始了云原生化的技術(shù)架構(gòu)改造
    的頭像 發(fā)表于 07-26 10:36 ?401次閱讀
    京東<b class='flag-5'>云原生</b>安全產(chǎn)品重磅發(fā)布

    從積木式到裝配式云原生安全

    云原生安全風險 隨著云原生架構(gòu)的快速發(fā)展,核心能力逐漸穩(wěn)定,安全問題日趨緊急。在云原生安全領(lǐng)域不但有新技術(shù)帶來的新風險,傳統(tǒng)IT基礎(chǔ)設(shè)施下的安全威脅也依然存在。要想做好
    的頭像 發(fā)表于 07-26 10:35 ?250次閱讀
    從積木式到裝配式<b class='flag-5'>云原生</b>安全

    借助NVIDIA超級計算機加速量子計算發(fā)展

    科學期刊《自然》(Nature)本月早些時候發(fā)表了一項研究,通過使用 NVIDIA 驅(qū)動的超級計算機,驗證了量子計算的商業(yè)化途徑。
    的頭像 發(fā)表于 07-25 09:55 ?475次閱讀

    基于DPU與SmartNic的云原生SDN解決方案

    隨著云計算,大數(shù)據(jù)和人工智能等技術(shù)的蓬勃發(fā)展,數(shù)據(jù)中心面臨著前所未有的數(shù)據(jù)洪流和計算壓力,這對SDN提出了更高的性能和效率要求。自云原生概念被提出以來,Kubernetes為云原生應(yīng)用
    的頭像 發(fā)表于 07-22 11:44 ?610次閱讀
    基于DPU與SmartNic的<b class='flag-5'>云原生</b>SDN解決方案

    進一步解讀英偉達 Blackwell 架構(gòu)、NVlink及GB200 超級芯片

    計算平臺,為處理最復雜的大型模型提供前所未有的計算能力。 GB200 NVL72 的 Blackwell 架構(gòu)通過引入硬件解壓縮引擎,具備大規(guī)模本地解壓縮壓縮數(shù)據(jù)能力,優(yōu)化端到端的分析
    發(fā)表于 05-13 17:16

    NVIDIA 推出 Blackwell 架構(gòu) DGX SuperPOD,適用于萬億參數(shù)級的生成式 AI 超級計算

    ——? NVIDIA 于今日發(fā)布新一代 AI 超級計算機 —— 搭載 NVIDIA GB200 Grace Blackwell 超級芯片的
    發(fā)表于 03-19 10:56 ?356次閱讀
    <b class='flag-5'>NVIDIA</b> 推出 Blackwell <b class='flag-5'>架構(gòu)</b> DGX SuperPOD,適用于萬億參數(shù)級的生成式 AI <b class='flag-5'>超級</b><b class='flag-5'>計算</b>

    云原生是大模型“降本增效”的解藥嗎?

    云原生AI正當時
    的頭像 發(fā)表于 02-20 09:31 ?340次閱讀

    米哈游大數(shù)據(jù)云原生實踐

    近年來,容器、微服務(wù)、Kubernetes 等各項云原生技術(shù)的日漸成熟,越來越多的公司開始選擇擁抱云原生,并開始將 AI、大數(shù)據(jù)等類型的企業(yè)應(yīng)用部署運行在云原生之上。以 Spark 為例,在云上運行
    的頭像 發(fā)表于 01-09 10:41 ?551次閱讀
    米哈游大數(shù)據(jù)<b class='flag-5'>云原生</b>實踐

    云原生數(shù)據(jù)庫GaiaDB架構(gòu)設(shè)計解析

    目前,云原生數(shù)據(jù)庫已經(jīng)被各行各業(yè)大規(guī)模投入到實際生產(chǎn)中,最終的目標都是「單機 + 分布式一體化」。但在演進路線上,當前主要有兩個略有不同的路徑。
    的頭像 發(fā)表于 12-14 14:48 ?533次閱讀
    <b class='flag-5'>云原生</b>數(shù)據(jù)庫GaiaDB<b class='flag-5'>架構(gòu)</b>設(shè)計解析

    誠邀報名|在開發(fā)者大會,洞悉云原生技術(shù)落地最佳實踐

    2023開放原子開發(fā)者大會 . OPENATOM DEVELOPERS CONFERENCE 云原生技術(shù)前沿落地實踐分論壇 2023.12.16 隨著云原生技術(shù)的蓬勃發(fā)展,云原生已成為企業(yè)數(shù)字化轉(zhuǎn)型
    的頭像 發(fā)表于 12-09 18:45 ?591次閱讀

    亞馬遜云科技與 NVIDIA 宣布開展戰(zhàn)略合作,為生成式 AI 提供全新超級計算基礎(chǔ)架構(gòu)、軟件和服務(wù)

    亞馬遜云科技將提供首款搭載 NVIDIA Grace Hopper 超級芯片 和亞馬遜云科技可擴展性 UltraCluster 的云? AI 超級計算機。 首款采用
    的頭像 發(fā)表于 11-29 21:00 ?595次閱讀
    亞馬遜云科技與 <b class='flag-5'>NVIDIA</b> 宣布開展戰(zhàn)略合作,為生成式 AI 提供全新<b class='flag-5'>超級</b><b class='flag-5'>計算</b>基礎(chǔ)<b class='flag-5'>架構(gòu)</b>、軟件和服務(wù)

    ABI發(fā)布電信云原生平臺及運維白皮書

    通過研究云原生平臺的發(fā)展和演變,對云原生平臺在標準和容器化的演進方向進行了展望,并建議運營商跟上行業(yè)變化,擁抱新技術(shù),無縫過渡到云原生網(wǎng)絡(luò)架構(gòu)。 云化一直是電信行業(yè)數(shù)字化轉(zhuǎn)型的驅(qū)動力,
    的頭像 發(fā)表于 11-17 19:40 ?532次閱讀
    ABI發(fā)布電信<b class='flag-5'>云原生</b>平臺及運維白皮書