超級計算機是一項重要的投資,對于研究人員和科學家來說,它們是必不可少的寶貴工具。為了有效和安全地共享這些數(shù)據(jù)中心的計算能力, NVIDIA 引入了云原生超級計算架構(gòu)。它結(jié)合了裸機性能、多租戶和性能隔離統(tǒng)一為超級計算服務(wù)。
Magnum IO 是數(shù)據(jù)中心的 I / O 子系統(tǒng),它引入了新的增強功能,以加速多租戶數(shù)據(jù)中心的 I / O 和通信。我們將這些增強功能稱為 Magnum IO ,用于云原生超級計算架構(gòu)。
它由 NVIDIA Quantum-2 InfiniBand 平臺提供,該平臺包括 NVIDIA Quantum-2 交換機系列、BlueField-3 DPU 和 ConnectX-7 網(wǎng)卡。
這種進化環(huán)境的挑戰(zhàn)是什么?
基于 GPU 的高性能計算已經(jīng)通過機器學習和模擬計算大幅改變了科學和實驗。在GPU 上運行的這些深度學習框架和模擬工具可能會消耗 PB 級的數(shù)據(jù),并在整個數(shù)據(jù)中心內(nèi)造成擁塞和瓶頸。更復雜的是,這些應(yīng)用程序的多個實例在共享的超級計算設(shè)施上常常同時運行并互相影響,因而造成運行性能的抖動,從而導致無法預測的運行時間。
面向云原生超級計算體系結(jié)構(gòu)設(shè)計的 Magnum IO 帶來新的增強功能,以減輕最終用戶在多租戶環(huán)境中運行應(yīng)用帶來的性能負面影響。它提供確定性的性能,就好像它們的應(yīng)用程序是獨占網(wǎng)絡(luò)運行。
第三代 NVIDIA SHARP
(可擴展分層聚合和規(guī)約協(xié)議)
通過將集合操作從主機 CPU 卸載到交換機網(wǎng)絡(luò),SHARP 技術(shù)有效消除了端點之間多次發(fā)送數(shù)據(jù)的需求,從而提高了 MPI 操作的性能。這種方法大幅減少了到達聚合節(jié)點的網(wǎng)絡(luò)流量,并顯著減少了 MPI 操作時間。
在網(wǎng)絡(luò)中實現(xiàn)集合通信算法還有其他好處,例如釋放寶貴的 CPU 資源用于計算,而不是使用它們來處理通信。
最近發(fā)布的 NVIDIA Quantum-2 InfiniBand 交換機為大型數(shù)據(jù)聚合提供了強大的可擴展性。由于每個交換機支持幾乎無限的小消息聚合和多個大消息聚合流,在共享系統(tǒng)上運行多租戶應(yīng)用程序可以充分利用 SHARP 的優(yōu)勢。
性能隔離
多租戶超級計算實現(xiàn)在共享資源上運行很多用戶的應(yīng)用程序,可能造成物理服務(wù)器、存儲、網(wǎng)絡(luò)以及I / O流量模型的復用 。
NVIDIA Quantum InfiniBand 一直以來支持擁塞控制管理,當檢測到網(wǎng)絡(luò)擁塞時在源端實施控制以緩解擁塞。但在多租戶場景,用戶應(yīng)用可能無意識地與相鄰用戶流量產(chǎn)生干擾,因此需要隔離以提供可預期的性能級別。
借助最新的 NVIDIA Quantum-2 InfiniBand 平臺和 Magnum IO ,創(chuàng)新的主動監(jiān)控和擁塞管理提供了良好的流量隔離。這幾乎完全消除了性能抖動,并確保了預期的性能,就像應(yīng)用程序運行在專用系統(tǒng)上一樣。
專為安全、多租戶、裸機性能而打造
NVIDIA Cloud-Native Supercomputing 體系結(jié)構(gòu)使用 Magnum IO 在多租戶環(huán)境中實現(xiàn)最高的性能、安全性和編排。
此外,實現(xiàn)這種架構(gòu)轉(zhuǎn)換的另一個核心元素是數(shù)據(jù)處理器( DPU ),也即 BlueField 。作為一個完全集成的片上數(shù)據(jù)中心平臺, BlueField 從主機處理器卸載和管理數(shù)據(jù)中心基礎(chǔ)設(shè)施,實現(xiàn)超級計算機的安全和編排。
它還能夠提供額外的通信框架卸載,可達到 100% 的通信計算重疊,實現(xiàn) MPI _ Alltoall 44% 的性能提升和 MPI _ iAllgather 36% 的性能提升。當結(jié)合最新的 NVIDIA Quantum-2 平臺時,該體系結(jié)構(gòu)在安全的多節(jié)點體系結(jié)構(gòu)中展示性能隔離實現(xiàn)裸金屬性能。
Magnum IO 消除了 I / O 瓶頸,拓展了硬件級加速引擎、網(wǎng)絡(luò)計算和擁塞控制等最新技術(shù),成為支持當今高性能裸金屬多租戶數(shù)據(jù)中心的必備利器。
責任編輯:haq
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4855瀏覽量
102709 -
云計算
+關(guān)注
關(guān)注
39文章
7701瀏覽量
137112 -
人工智能
+關(guān)注
關(guān)注
1789文章
46652瀏覽量
237070
原文標題:使用 Magnum IO 加速云原生超級計算
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論