国产在线观看免费,成人自拍视频

高性能計(jì)算（ HPC ）和人工智能已經(jīng)將超級(jí)計(jì)算機(jī)作為主要的數(shù)據(jù)處理引擎，廣泛應(yīng)用于商業(yè)領(lǐng)域，使研究、科學(xué)發(fā)現(xiàn)和產(chǎn)品開發(fā)成為可能。這些系統(tǒng)可以進(jìn)行復(fù)雜的模擬，開啟軟件編寫軟件的人工智能新時(shí)代。

超級(jí)計(jì)算領(lǐng)導(dǎo)力是指科學(xué)和創(chuàng)新領(lǐng)導(dǎo)力，它解釋了許多政府、研究機(jī)構(gòu)和企業(yè)為構(gòu)建更快、更強(qiáng)大的超級(jí)計(jì)算平臺(tái)而進(jìn)行的投資。從超級(jí)計(jì)算系統(tǒng)中提取盡可能高的性能，同時(shí)實(shí)現(xiàn)高效利用，傳統(tǒng)上與現(xiàn)代云計(jì)算的安全、多租戶體系結(jié)構(gòu)不兼容。

一個(gè)云本地超級(jí)計(jì)算平臺(tái)首次提供了兩全其美，將峰值性能和集群效率與安全隔離和多租戶的現(xiàn)代零信任模型結(jié)合起來(lái)。實(shí)現(xiàn)這種架構(gòu)轉(zhuǎn)換的關(guān)鍵元素是 NVIDIA BlueField 數(shù)據(jù)處理單元（ DPU ）。 DPU 是一個(gè)完全集成的片上數(shù)據(jù)中心平臺(tái)，為每個(gè)超級(jí)計(jì)算節(jié)點(diǎn)注入了兩種新功能：

基礎(chǔ)設(shè)施控制平面處理器 – 保護(hù)用戶訪問(wèn)、存儲(chǔ)訪問(wèn)、網(wǎng)絡(luò)和計(jì)算節(jié)點(diǎn)的生命周期編排，減輕主計(jì)算處理器的負(fù)擔(dān)并實(shí)現(xiàn)裸機(jī)多租戶。

帶硬件加速的隔離線速率數(shù)據(jù)通路 – 實(shí)現(xiàn)裸機(jī)性能。

HPC 和 AI 通信框架和庫(kù)對(duì)延遲和帶寬敏感，它們?cè)跊Q定應(yīng)用程序性能方面起著關(guān)鍵作用。將庫(kù)從主機(jī) CPU 或 GPU 卸載到 BlueField DPU 為通信和計(jì)算的并行進(jìn)程創(chuàng)建了最高程度的重疊。它還減少了操作系統(tǒng)抖動(dòng)的負(fù)面影響，顯著提高了應(yīng)用程序性能。

云本地超級(jí)計(jì)算機(jī)體系結(jié)構(gòu)的開發(fā)基于開放社區(qū)開發(fā)，包括商業(yè)公司、學(xué)術(shù)組織和政府機(jī)構(gòu)。這個(gè)不斷增長(zhǎng)的社區(qū)對(duì)于開發(fā)下一代超級(jí)計(jì)算至關(guān)重要。

我們?cè)诒疚闹蟹窒淼囊粋€(gè)例子是 MVAPICH2- DPU 庫(kù)，由 X-ScaleSolutions 設(shè)計(jì)和開發(fā)。 MVAPICH2- DPU 庫(kù)包含了消息傳遞接口（ MPI ）標(biāo)準(zhǔn)的非阻塞集合的卸載。這篇文章概述了這種卸載背后的基本概念，以及最終用戶如何使用 MVAPICH2- DPU MPI 庫(kù)來(lái)加速科學(xué)應(yīng)用程序的執(zhí)行，特別是使用密集的非阻塞 all-to-all 操作。

BlueField DPU

圖 1 顯示了 BlueField DPU 體系結(jié)構(gòu)及其與主機(jī)計(jì)算平臺(tái)的連接的概述。 DPU 通過(guò) ConnectX-6 適配器具有 InfiniBand 網(wǎng)絡(luò)連接。此外，它還有一組 Arm 內(nèi)核。 Bluefield-2 DPU 有一組 8 個(gè) Arm 內(nèi)核，每個(gè)內(nèi)核的工作頻率為 2 。 0ghz 。 Arm 內(nèi)核還有 16GB 的共享內(nèi)存。

MVAPICH2- DPU MPI 庫(kù)

MVAPICH2- DPU MPI 庫(kù)是 MVMPI 庫(kù) 的派生。該庫(kù)經(jīng)過(guò)優(yōu)化，可利用 InfiniBand 網(wǎng)絡(luò)充分發(fā)揮 BlueField DPU 的潛力。

圖 1 BlueField DPU 的體系結(jié)構(gòu)及其與主機(jī)平臺(tái)的連接

最新的 MVAPICH2- DPU 2021 。 06 版本具有以下功能：

基于 MVAPICH2 2 。 3 。 6 ，符合 MPI 3 。 1 標(biāo)準(zhǔn)

支持 MV2 。 3 。 6 版本提供的所有功能

將非阻塞集合卸載到 DPU 的新框架

將非阻塞 Alltoall （ MPI \ Ialltoall ）卸載到 DPU

所有非阻塞集合的計(jì)算重疊率為 100%

使用 MPI Ialltoall 非阻塞集合加速科學(xué)應(yīng)用

MVAPICH2- DPU MPI 庫(kù)入門

MVAPICH2- DPU 庫(kù)可從 X-ScaleSolutions 獲得：

發(fā)送電子郵件至 contactus@x-scalesolutions.com

填寫聯(lián)系人形式

有關(guān)更多信息，請(qǐng)參閱 MVAPICH2-DPU 產(chǎn)品頁(yè)。

OSU 微基準(zhǔn)的示例執(zhí)行

OSU MPI 微基準(zhǔn) 的副本與 MVAPICH2- DPU MPI 包集成在一起。 OMB 基準(zhǔn)套件由非阻塞集體操作的基準(zhǔn)組成。這些基準(zhǔn)旨在評(píng)估非阻塞 MPI 集合使用的計(jì)算和通信之間的重疊能力。

可以執(zhí)行 OMB 包中的非阻塞集體基準(zhǔn)，以評(píng)估以下指標(biāo)：

重疊功能

啟動(dòng)非阻塞集合后立即合并計(jì)算步驟時(shí)的總執(zhí)行時(shí)間

在 HPC-AI 咨詢委員會(huì)集群上運(yùn)行了一組 OMB 實(shí)驗(yàn)，其中 32 個(gè)節(jié)點(diǎn)與支持 HDR 200Gb / s InfiniBand 連接的 32 個(gè) BlueField DPU s 相連。每個(gè)主機(jī)節(jié)點(diǎn)都有雙插槽 Intel Xeon 16 核 CPU E5-2697A V4 @ 2 。 60 GHz 。每個(gè) Bluefield-2 DPU 有 8 個(gè) Arm 核@ 2 。 0ghz 和 16gb 內(nèi)存。

圖 2 顯示了分別運(yùn)行 512 個(gè)（ 32 個(gè)節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)有 16 個(gè)進(jìn)程（ PPN ））和 1024 個(gè)（ 32 個(gè)節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)有 32 個(gè) PPN ） MPI 進(jìn)程的 MPI \ u ialtoall 非阻塞集合基準(zhǔn)的性能結(jié)果。隨著消息大小的增加， MVAPICH2- DPU 庫(kù)可以顯示計(jì)算和 MPI Ialltoall 非阻塞集合之間的峰值（ 100% ）重疊。相比之下，沒(méi)有這種 DPU 卸載功能的 MVAPICH2 默認(rèn)庫(kù)可以在計(jì)算和 MPI （所有非阻塞）集合之間提供很少的重疊。

圖 2 MVAPICH2- DPU 庫(kù)提取主機(jī)和服務(wù)器上發(fā)生的計(jì)算之間的峰值重疊的能力 MPI_Ialltoall 通信

當(dāng) MPI 應(yīng)用程序中的計(jì)算步驟以重疊方式與 MPI Ialltoall 非阻塞集合操作一起使用時(shí)， MVAPICH2- DPU MPI 庫(kù)在整個(gè)程序執(zhí)行時(shí)間內(nèi)提供了顯著的性能優(yōu)勢(shì)。這是可能的，因?yàn)?DPU 中的 Arm 內(nèi)核可以實(shí)現(xiàn)非阻塞的 all-to-all 操作，而主機(jī)上的 Xeon 內(nèi)核正在執(zhí)行峰值重疊的計(jì)算（圖 2 ）。

圖 3 顯示，與基本的 MVAPICH2 MPI 庫(kù)相比， MVAPICH2- DPU MPI 庫(kù)可以提供高達(dá) 23% 的性能優(yōu)勢(shì)。這是在 32 節(jié)點(diǎn)的 OMB-MPI-Iall 基準(zhǔn)測(cè)試中跨消息大小和 ppn 的測(cè)試。

圖 3 當(dāng)計(jì)算步驟與 MPI_Ialltoall 以重疊方式進(jìn)行非阻塞集體操作

加速 P3DFFT 應(yīng)用程序內(nèi)核

P3DFFT 是一種常見的 MPI 內(nèi)核，用于許多使用快速傅立葉變換（ FFT ）的終端應(yīng)用程序。這個(gè) MPI 內(nèi)核的一個(gè)版本是由 P3DFFT 開發(fā)人員設(shè)計(jì)的，它使用非阻塞的 all-to-all 集合操作和計(jì)算步驟來(lái)利用最大的重疊。

P3DFFT MPI 內(nèi)核的增強(qiáng)版本在 32 節(jié)點(diǎn) HPC-AI 集群上使用 MVAPICH2- DPU MPI 庫(kù)進(jìn)行了評(píng)估。圖 4 顯示了 MVAPICH2- DPU MPI 庫(kù)將 P3DFFT 應(yīng)用程序內(nèi)核的總體執(zhí)行時(shí)間減少了 21% ，適用于各種網(wǎng)格大小和 ppn 。

圖 4 MVAPICH2- DPU 庫(kù)減少 P3DFFT 應(yīng)用程序總執(zhí)行時(shí)間的能力。

概括

NVIDIA DPU 體系結(jié)構(gòu)提供了新的功能，可以將任何中間件的功能卸載到 DPU 上的可編程 Arm 內(nèi)核。必須重新設(shè)計(jì) MPI 庫(kù)，以利用這些功能加速科學(xué)應(yīng)用。

MVAPICH2- DPU MPI 庫(kù)是利用這種 DPU 功能的領(lǐng)先庫(kù)。 MVAPICH2- DPU 庫(kù)的初始版本提供了對(duì) MPI \ u ialtoall nonblocking collectives 的卸載支持，顯示了計(jì)算和非阻塞 alltoall collective 之間 100% 的重疊。在 1024mpi 進(jìn)程運(yùn)行時(shí)，它可以將 P3DFFT 應(yīng)用程序內(nèi)核執(zhí)行時(shí)間縮短 21% 。

這項(xiàng)研究證明了使用 MVAPICH2- DPU MPI 庫(kù)的 DPU 體系結(jié)構(gòu)具有很強(qiáng)的 ROI 。隨著 DPU 體系結(jié)構(gòu)的進(jìn)步，即將發(fā)布的其他 MPI 功能的附加卸載功能將顯著加快云本地超級(jí)計(jì)算系統(tǒng)上的科學(xué)應(yīng)用。

關(guān)于作者

Gilad Shainer 擔(dān)任 NVIDIA Mellanox networking 的營(yíng)銷高級(jí)副總裁，專注于高性能計(jì)算、人工智能和 InfiniBand 技術(shù)。

Dhabaleswar K （DK） Panda 是 X-SaleSalOffice 的創(chuàng)始人和 CEO ，也是俄亥俄州立大學(xué)計(jì)算機(jī)科學(xué)教授和杰出學(xué)者。

Nick Sarkauskas 是俄亥俄州立大學(xué)計(jì)算機(jī)科學(xué)與工程系博士學(xué)位的軟件工程師。他目前在 X-ScaleSolutions 的工作是設(shè)計(jì)和開發(fā) MVAPICH2- DPU 軟件堆棧。他的研究興趣包括高性能計(jì)算、高性能互連和并行算法。 Nick Sarkauskas 于 2020 年從 OSU 獲得計(jì)算機(jī)科學(xué)與工程學(xué)士學(xué)位。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
4862

瀏覽量
102725
人工智能

人工智能

+關(guān)注

關(guān)注
1791

文章
46704

瀏覽量
237219
應(yīng)用程序

應(yīng)用程序

+關(guān)注

關(guān)注
37

文章
3238

瀏覽量
57555

評(píng)論

相關(guān)推薦

NVIDIA 以太網(wǎng)加速 xAI 構(gòu)建的全球最大 AI 超級(jí)計(jì)算機(jī)

市的 Colossus 超級(jí)計(jì)算機(jī)集群達(dá)到了 10 萬(wàn)顆 NVIDIA? Hopper? GPU 的巨大規(guī)模。該集群使用了 NVIDIA Spectrum-X? 以太網(wǎng)網(wǎng)絡(luò)平臺(tái)，該平臺(tái)

發(fā)表于 10-30 09:33 ?104次閱讀

<b class='flag-5'>NVIDIA</b> 以太網(wǎng)<b class='flag-5'>加速</b> xAI 構(gòu)建的全球最大 AI 超級(jí)計(jì)算機(jī)

科研計(jì)算HPC平臺(tái)是什么

高性能計(jì)算平臺(tái)（HPC平臺(tái)）是一個(gè)利用由成千上萬(wàn)個(gè)處理器核心組成的超級(jí)計(jì)算機(jī)或計(jì)算機(jī)集群來(lái)執(zhí)行復(fù)雜計(jì)算任務(wù)的平臺(tái)。

發(fā)表于 10-21 10:43 ?110次閱讀

NVIDIA與思科合作打造企業(yè)級(jí)生成式AI基礎(chǔ)設(shè)施

由 NVIDIA 加速計(jì)算平臺(tái)、NVIDIA AI Enterprise 軟件和 NVIDIA NIM 推理微服務(wù)加持的思科 Nexus HyperFabric AI

發(fā)表于 10-10 09:35 ?261次閱讀

NVIDIA突破美國(guó)禁令,將在中東部署其高性能AI/HPC GPU加速卡

Ooredoo達(dá)成合作協(xié)議，將在中東地區(qū)部署其高性能AI/HPC GPU加速卡。這一舉動(dòng)不僅標(biāo)志著NVIDIA在中東市場(chǎng)的戰(zhàn)略布局取得了重大突破，也引發(fā)了外界對(duì)于如何防止這些先進(jìn)技術(shù)流向中國(guó)的廣泛討論。

發(fā)表于 06-24 14:47 ?796次閱讀

借助NVIDIA DOCA 2.7增強(qiáng)AI 云數(shù)據(jù)中心和NVIDIA Spectrum-X

NVIDIA DOCA 加速框架為開發(fā)者提供了豐富的庫(kù)、驅(qū)動(dòng)和 API，以便為 NVIDIA BlueField DPU 和 SuperNIC 創(chuàng)建高性能的應(yīng)用程序和服務(wù)。

發(fā)表于 05-29 09:22 ?450次閱讀

NVIDIA DPU編程入門開課儀式在澳門科技大學(xué)成功舉辦

5 月 24 日，NVIDIA DPU 編程入門開課儀式在澳門科技大學(xué)成功舉辦。作為首個(gè)在中國(guó)開設(shè) NVIDIA DPU 編程相關(guān)課程的高校，來(lái)自澳門科技大學(xué)不同院系的師生共同見證了本

發(fā)表于 05-28 09:40 ?348次閱讀

高性能計(jì)算集群的能耗優(yōu)化

高性能計(jì)算（HighPerformanceComputing，HPC）是指利用大規(guī)模并行計(jì)算機(jī)集群來(lái)解決復(fù)雜的科學(xué)和工程問(wèn)題的技術(shù)。高性能計(jì)算集群的應(yīng)用領(lǐng)域非常廣泛，包括天氣預(yù)報(bào)、生物

發(fā)表于 05-25 08:27 ?347次閱讀

高性能計(jì)算<b class='flag-5'>集群</b>的能耗優(yōu)化

助力科學(xué)發(fā)展，NVIDIA AI加速HPC研究

科學(xué)家和研究人員正在利用 NVIDIA 技術(shù)將生成式 AI 應(yīng)用于代碼生成、天氣預(yù)報(bào)、遺傳學(xué)和材料科學(xué)領(lǐng)域的 HPC 工作。

發(fā)表于 05-14 09:17 ?373次閱讀

助力<b class='flag-5'>科學(xué)</b>發(fā)展，<b class='flag-5'>NVIDIA</b> AI<b class='flag-5'>加速</b><b class='flag-5'>HPC</b>研究

SAP與NVIDIA攜手加速生成式AI在企業(yè)應(yīng)用中的普及

SAP SE 和 NVIDIA 宣布深化合作，致力于加速企業(yè)客戶在 SAP 云解決方案和應(yīng)用組合中利用數(shù)據(jù)和生成式 AI 的變革力量。

發(fā)表于 03-22 10:02 ?557次閱讀

使用NVIDIA Triton推理服務(wù)器來(lái)加速AI預(yù)測(cè)

這家云計(jì)算巨頭的計(jì)算機(jī)視覺(jué)和數(shù)據(jù)科學(xué)服務(wù)使用 NVIDIA Triton 推理服務(wù)器來(lái)加速 AI 預(yù)測(cè)。

發(fā)表于 02-29 14:04 ?535次閱讀

什么是HPC高性能計(jì)算

高性能計(jì)算（HighPerformanceComputing，簡(jiǎn)稱HPC），是指利用集群、網(wǎng)格、超算等計(jì)算機(jī)技術(shù)，通過(guò)合理地組織計(jì)算機(jī)資源以及運(yùn)用適合的算法和程序，提高計(jì)算效率和處理能力，實(shí)現(xiàn)對(duì)大量

發(fā)表于 02-19 13:27 ?775次閱讀

《數(shù)據(jù)處理器：DPU編程入門》DPU計(jì)算入門書籍測(cè)評(píng)

，數(shù)據(jù)加速應(yīng)用實(shí)踐。分別介紹了DPU技術(shù)和英偉達(dá)DPU技術(shù)： DPU的誕生現(xiàn)代計(jì)算架構(gòu)及問(wèn)題數(shù)據(jù)解耦及大帶寬數(shù)據(jù)應(yīng)用英偉達(dá)DPU

發(fā)表于 12-24 10:54

《數(shù)據(jù)處理器：DPU編程入門》讀書筆記

首先感謝電子發(fā)燒友論壇提供的試讀機(jī)會(huì)。第一周先閱讀了DPU的技術(shù)發(fā)展背景，了解到DPU是結(jié)合了高性能及軟件可編程的多核CPU、高性能網(wǎng)絡(luò)接口，以及各種靈活和可編程的加速引擎。DPU的

發(fā)表于 12-21 10:47

《數(shù)據(jù)處理器：DPU編程入門》+初步熟悉這本書的結(jié)構(gòu)和主要內(nèi)容

，并提高系統(tǒng)的響應(yīng)速度和隱私保護(hù)。 4. 高性能計(jì)算：DPU可以在高性能計(jì)算領(lǐng)域中使用，例如科學(xué)研究、天氣預(yù)報(bào)、金融模擬和大規(guī)模數(shù)據(jù)處理等。它可以提供更大的并行性和計(jì)算能力，加速復(fù)雜計(jì)算任務(wù)的執(zhí)行。 3

發(fā)表于 12-08 18:03

NVIDIA 初創(chuàng)加速計(jì)劃 Omniverse 加速營(yíng)

的重要力量?；?NVIDIA 全棧式 AI 計(jì)算平臺(tái)和 Omniverse TM 平臺(tái)上的生成式 AI 創(chuàng)作實(shí)踐，讓企業(yè)、開發(fā)者能夠了解可落地的生成式 AI 內(nèi)容創(chuàng)作技術(shù)及其技術(shù)趨勢(shì)與當(dāng)前邊界。 NVIDIA 初創(chuàng)加速計(jì)劃是

發(fā)表于 12-04 20:35 ?607次閱讀

搜索歷史

使用NVIDIA多個(gè)DPU加速HPC集群中的科學(xué)應(yīng)用