0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

LANL與NVIDIA合作打造出云原生超級計(jì)算平臺(tái)

科技綠洲 ? 來源:NVIDIA英偉達(dá) ? 作者:NVIDIA英偉達(dá) ? 2022-06-01 14:33 ? 次閱讀

在歐洲和美國,HPC 開發(fā)者正在利用 NVIDIA BlueField-2 DPU 內(nèi)的 Arm 核和加速器的強(qiáng)大功能為超級計(jì)算機(jī)提供強(qiáng)大助力。

美國洛斯阿拉莫斯國家實(shí)驗(yàn)室(LANL)正在與 NVIDIA 進(jìn)行一項(xiàng)為期多年的廣泛合作,這項(xiàng)合作旨在將計(jì)算型多物理應(yīng)用的性能提高 30 倍。

LANL 研究人員預(yù)計(jì),使用在 NVIDIA Quantum InfiniBand 網(wǎng)絡(luò)上運(yùn)行的 DPU(數(shù)據(jù)處理器)可顯著提升性能。這將使利用 BlueField 以及 NVIDIA DOCA 軟件框架在計(jì)算存儲(chǔ)、模式匹配等領(lǐng)域?qū)崿F(xiàn)技術(shù)創(chuàng)新。

面向 DPU 的開放式 API

這些努力還將有助于進(jìn)一步定義 OpenSNAPI ,任何人都可通過該應(yīng)用接口來控制 DPU 。這是統(tǒng)計(jì)計(jì)算框架(Unified Communication Framework)的一個(gè)項(xiàng)目,Unified Communication Framework 是一個(gè)旨在實(shí)現(xiàn) HPC 應(yīng)用異構(gòu)計(jì)算的聯(lián)盟,成員包括 Arm 、IBM 、NVIDIA 、美國國家實(shí)驗(yàn)室和美國的一些大學(xué)。

LANL 已經(jīng)感受到網(wǎng)絡(luò)計(jì)算的強(qiáng)大功能,這要?dú)w功于其創(chuàng)建的 DPU 賦能的存儲(chǔ)系統(tǒng)。

加速閃存盒(ABoF,如下圖所示)將固態(tài)存儲(chǔ)與 DPU 和 InfiniBand 加速器相結(jié)合,可為 Linux 文件系統(tǒng)的關(guān)鍵性能部分提供加速。它的性能高達(dá)同類存儲(chǔ)系統(tǒng)的 30 倍,并將成為 LANL 基礎(chǔ)架構(gòu)中的關(guān)鍵組件。

一位研究人員在近期的 LANL 博客中表示:“ABoF 讓計(jì)算靠近存儲(chǔ),可更大限度減少數(shù)據(jù)移動(dòng),從而提高仿真和數(shù)據(jù)分析工作流程的效率?!?/p>

德克薩斯州打造出云原生超級計(jì)算平臺(tái)

德克薩斯高級計(jì)算中心(TACC)近期也開始在 Dell PowerEdge 服務(wù)器中采用 BlueField-2 。它將在 InfiniBand 網(wǎng)絡(luò)上使用 DPU,使其 Lonestar6 系統(tǒng)成為云原生超級計(jì)算的開發(fā)平臺(tái)。

TACC 的 Lonestar6 為德州農(nóng)工大學(xué)、德州理工大學(xué)和北德克薩斯大學(xué)的眾多 HPC 開發(fā)者,以及一些研究中心和教職人員提供服務(wù)。

MPI 獲得加速

在距 TACC 東北部 1200 英里的地方,俄亥俄州立大學(xué)的研究人員展示了 DPU 如何將一個(gè) HPC 熱門編程模型的運(yùn)行速度提高 26%。

他們通過卸載消息傳遞接口(MPI)的關(guān)鍵部分,加速了 P3DFFT ,這是一個(gè)用于眾多大規(guī)模 HPC 仿真的數(shù)學(xué)庫。

俄亥俄州立大學(xué)計(jì)算機(jī)科學(xué)與工程專業(yè)的教授 Dhabaleswar K. (DK) Panda 在其帶領(lǐng)的 MVAPICH 開源軟件團(tuán)隊(duì)推動(dòng) DPU 工作,他表示:“DPU 就像是為忙碌的高管處理工作的助手,它們將成為主流,因?yàn)樗鼈兛梢约铀龠\(yùn)行各種工作負(fù)載?!?/p>

HPC 中心和云中的 DPU

對于運(yùn)行藥物研發(fā)或飛機(jī)設(shè)計(jì)等 HPC 仿真應(yīng)用的超級計(jì)算機(jī)而言,高達(dá)兩位數(shù)的性能加速是驚人的。Panda 表示,云服務(wù)可以利用這些加速提高客戶的生產(chǎn)力,他已收到多個(gè) HPC 中心的代碼請求。

Quantum InfiniBand 網(wǎng)絡(luò)以及 NVIDIA SHARP 特性,助力他高效完成工作。

他說:“其他人還在談?wù)摼W(wǎng)絡(luò)計(jì)算,而 InfiniBand 已經(jīng)在為它提供支持?!?/p>

達(dá)勒姆開發(fā)負(fù)載均衡

歐洲的多個(gè)研究團(tuán)隊(duì)正利用 BlueField DPU 加速 MPI 和其他 HPC 工作負(fù)載。

例如,英格蘭北部的達(dá)勒姆大學(xué)正在開發(fā)一款軟件,用于在 16 個(gè)節(jié)點(diǎn)的 Dell PowerEdge 集群上使用 BlueField DPU 以實(shí)現(xiàn) MPI 作業(yè)的負(fù)載均衡。該項(xiàng)目的首席調(diào)查員 Tobias Weinzierl 表示,該軟件將為全球各地的 HPC 設(shè)施更高效地處理更好算法鋪平道路。

劍橋大學(xué)和慕尼黑的 DPU 應(yīng)用

劍橋大學(xué)、倫敦和慕尼黑的研究人員也在使用 DPU 。

倫敦大學(xué)學(xué)院正在探索如何在 BlueField-2 DPU 上為主機(jī)系統(tǒng)調(diào)度作業(yè)。例如,可以使用它的能力在主機(jī)處理器之間移動(dòng)數(shù)據(jù),以便在需要時(shí)數(shù)據(jù)已然就位。

Dell PowerEdge 服務(wù)器內(nèi)的 BlueField DPU 可為 Cambridge Service for Data Driven Discovery 服務(wù)卸載主機(jī) CPU 的安全策略、存儲(chǔ)框架和其他作業(yè),從而更大限度地提高系統(tǒng)性能。

與此同時(shí),慕尼黑工業(yè)大學(xué)計(jì)算機(jī)體系架構(gòu)和并行系統(tǒng)組的研究人員正在尋找方法,使用 DPU 來卸載 MPI 和操作系統(tǒng)任務(wù),這是 EuroHPC 項(xiàng)目的一部分。

在美國,佐治亞理工學(xué)院的研究人員正在與桑迪亞國家實(shí)驗(yàn)室合作,利用 BlueField-2 DPU 加速分子動(dòng)力學(xué)研究。一篇論文描述了他們目前的工作成果,其中表明,算法可以加速高達(dá) 20% ,且不會(huì)損失模擬的準(zhǔn)確性。

不斷擴(kuò)展的網(wǎng)絡(luò)

本月早些時(shí)候,日本研究人員宣布將推出一款采用新版 NVIDIA H100 Tensor Core GPU 的系統(tǒng),該系統(tǒng)將搭載速度更快、更智能的 NVIDIA Quantum-2 InfiniBand 網(wǎng)絡(luò)平臺(tái)。

NEC 將使用 H100 的為筑波大學(xué)計(jì)算科學(xué)中心構(gòu)建算力大約為 6 PFLOPS 超級計(jì)算機(jī)。研究人員將使用該系統(tǒng)實(shí)現(xiàn)氣候?qū)W、天體物理學(xué)、大數(shù)據(jù)、AI 和更多方面的研究。

與此同時(shí),Panda 等研究人員已經(jīng)開始考慮如何使用 BlueField-3 DPU 的核心功能。

他打趣道:“這就像雇傭擁有大學(xué)學(xué)位的行政助理,而不是那些擁有高中文憑的行政助理一樣,所以我希望能夠完成越來越多的工作卸載?!?/p>

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19087

    瀏覽量

    228754
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4846

    瀏覽量

    102699
  • 軟件
    +關(guān)注

    關(guān)注

    69

    文章

    4686

    瀏覽量

    87070
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8852

    瀏覽量

    137186
收藏 人收藏

    評論

    相關(guān)推薦

    NVIDIA助力xAI打造全球最大AI超級計(jì)算機(jī)

    NVIDIA 宣布,xAI 位于田納西州孟菲斯市的Colossus 超級計(jì)算機(jī)集群達(dá)到了 10 萬顆 NVIDIA Hopper GPU 的巨大規(guī)模。該集群使用了
    的頭像 發(fā)表于 10-30 11:38 ?221次閱讀

    NVIDIA 以太網(wǎng)加速 xAI 構(gòu)建的全球最大 AI 超級計(jì)算機(jī)

    市的 Colossus 超級計(jì)算機(jī)集群達(dá)到了 10 萬顆 NVIDIA? Hopper? GPU 的巨大規(guī)模。該集群使用了 NVIDIA Spectrum-X? 以太網(wǎng)網(wǎng)絡(luò)
    發(fā)表于 10-30 09:33 ?93次閱讀
    <b class='flag-5'>NVIDIA</b> 以太網(wǎng)加速 xAI 構(gòu)建的全球最大 AI <b class='flag-5'>超級</b><b class='flag-5'>計(jì)算</b>機(jī)

    NVIDIA助力丹麥發(fā)布首臺(tái)AI超級計(jì)算機(jī)

    這臺(tái)丹麥最大的超級計(jì)算機(jī)由該國政府與丹麥 AI 創(chuàng)新中心共同建設(shè),是一臺(tái) NVIDIA DGX SuperPOD 超級計(jì)算機(jī)。
    的頭像 發(fā)表于 10-27 09:42 ?328次閱讀

    云原生和非云原生哪個(gè)好?六大區(qū)別詳細(xì)對比

    云原生和非云原生各有優(yōu)劣,具體選擇取決于應(yīng)用場景。云原生利用云計(jì)算的優(yōu)勢,通過微服務(wù)、容器化和自動(dòng)化運(yùn)維等技術(shù),提高了應(yīng)用的可擴(kuò)展性、更新速度和成本效益。非
    的頭像 發(fā)表于 09-13 09:53 ?289次閱讀

    京東云原生安全產(chǎn)品重磅發(fā)布

    “安全產(chǎn)品那么多,我怎么知道防住了?”“大家都說自己是云原生的,我看都是換湯不換藥”在與客戶溝通云原生安全方案的時(shí)候,經(jīng)常會(huì)遇到這樣的吐槽。越來越的客戶已經(jīng)開始了云原生化的技術(shù)架構(gòu)改造,也意識(shí)到
    的頭像 發(fā)表于 07-26 10:36 ?399次閱讀
    京東<b class='flag-5'>云原生</b>安全產(chǎn)品重磅發(fā)布

    從積木式到裝配式云原生安全

    云原生安全風(fēng)險(xiǎn) 隨著云原生架構(gòu)的快速發(fā)展,核心能力逐漸穩(wěn)定,安全問題日趨緊急。在云原生安全領(lǐng)域不但有新技術(shù)帶來的新風(fēng)險(xiǎn),傳統(tǒng)IT基礎(chǔ)設(shè)施下的安全威脅也依然存在。要想做好云原生安全,就要
    的頭像 發(fā)表于 07-26 10:35 ?249次閱讀
    從積木式到裝配式<b class='flag-5'>云原生</b>安全

    借助NVIDIA超級計(jì)算機(jī)加速量子計(jì)算發(fā)展

    科學(xué)期刊《自然》(Nature)本月早些時(shí)候發(fā)表了一項(xiàng)研究,通過使用 NVIDIA 驅(qū)動(dòng)的超級計(jì)算機(jī),驗(yàn)證了量子計(jì)算的商業(yè)化途徑。
    的頭像 發(fā)表于 07-25 09:55 ?469次閱讀

    基于DPU與SmartNic的云原生SDN解決方案

    隨著云計(jì)算,大數(shù)據(jù)和人工智能等技術(shù)的蓬勃發(fā)展,數(shù)據(jù)中心面臨著前所未有的數(shù)據(jù)洪流和計(jì)算壓力,這對SDN提出了更高的性能和效率要求。自云原生概念被提出以來,Kubernetes為云原生應(yīng)用
    的頭像 發(fā)表于 07-22 11:44 ?607次閱讀
    基于DPU與SmartNic的<b class='flag-5'>云原生</b>SDN解決方案

    首批認(rèn)證!拓維信息梧桐云原生平臺(tái)獲鯤鵬原生開發(fā)技術(shù)認(rèn)證

    7月10日,拓維信息梧桐云原生平臺(tái)V3.0獲得華為鯤鵬原生開發(fā)技術(shù)首批認(rèn)證。作為華為鯤鵬戰(zhàn)略合作伙伴,拓維信息以28年行業(yè)數(shù)字化經(jīng)驗(yàn)和持續(xù)技術(shù)創(chuàng)新能力,攜手華為共同繁榮鯤鵬原生應(yīng)用生態(tài)
    的頭像 發(fā)表于 07-19 08:15 ?398次閱讀
    首批認(rèn)證!拓維信息梧桐<b class='flag-5'>云原生平臺(tái)</b>獲鯤鵬<b class='flag-5'>原生</b>開發(fā)技術(shù)認(rèn)證

    Green500全球最節(jié)能超級計(jì)算機(jī)榜單:采用NVIDIA技術(shù)包攬前三

    NVIDIA 系統(tǒng)在 Green500 榜單上的強(qiáng)勢表現(xiàn)進(jìn)一步驗(yàn)證了 NVIDIA 平臺(tái)為節(jié)能型計(jì)算機(jī)所打造
    的頭像 發(fā)表于 05-24 10:59 ?491次閱讀

    云原生是大模型“降本增效”的解藥嗎?

    云原生AI正當(dāng)時(shí)
    的頭像 發(fā)表于 02-20 09:31 ?339次閱讀

    米哈游大數(shù)據(jù)云原生實(shí)踐

    近年來,容器、微服務(wù)、Kubernetes 等各項(xiàng)云原生技術(shù)的日漸成熟,越來越多的公司開始選擇擁抱云原生,并開始將 AI、大數(shù)據(jù)等類型的企業(yè)應(yīng)用部署運(yùn)行在云原生之上。以 Spark 為例,在云上運(yùn)行
    的頭像 發(fā)表于 01-09 10:41 ?546次閱讀
    米哈游大數(shù)據(jù)<b class='flag-5'>云原生</b>實(shí)踐

    鴻蒙千帆起】《開心消消樂》完成鴻蒙原生應(yīng)用開發(fā),創(chuàng)新多端聯(lián)動(dòng)用戶體驗(yàn)

    技術(shù)還為用戶打造出創(chuàng)新的分布式游戲玩法。通過與 HarmonyOS 分布式有機(jī)結(jié)合,可實(shí)現(xiàn)多設(shè)備協(xié)同的分布式 PK 場景。在此場景下,用戶操作各自的 HarmonyOS 設(shè)備,使用智慧屏實(shí)時(shí)顯示對戰(zhàn)
    發(fā)表于 01-03 10:22

    亞馬遜云科技與 NVIDIA 宣布開展戰(zhàn)略合作,為生成式 AI 提供全新超級計(jì)算基礎(chǔ)架構(gòu)、軟件和服務(wù)

    NVL32 的 NVIDIA DGX 云 即將登陸亞馬遜云科技。 兩家公司聯(lián)合開展“Project Ceiba”合作項(xiàng)目,即全球最快的 GPU 驅(qū)動(dòng) AI 超級計(jì)算機(jī)和最新
    的頭像 發(fā)表于 11-29 21:00 ?590次閱讀
    亞馬遜云科技與 <b class='flag-5'>NVIDIA</b> 宣布開展戰(zhàn)略<b class='flag-5'>合作</b>,為生成式 AI 提供全新<b class='flag-5'>超級</b><b class='flag-5'>計(jì)算</b>基礎(chǔ)架構(gòu)、軟件和服務(wù)

    ABI發(fā)布電信云原生平臺(tái)及運(yùn)維白皮書

    近日,由Informa Tech主辦的5G核心網(wǎng)峰會(huì)在伊斯坦布爾舉行。ABI Research高級分析師 Don Alusha在峰會(huì)上發(fā)布了《云原生平臺(tái)和管理趨勢:標(biāo)準(zhǔn)和容器展望》白皮書。該白皮書
    的頭像 發(fā)表于 11-17 19:40 ?528次閱讀
    ABI發(fā)布電信<b class='flag-5'>云原生平臺(tái)</b>及運(yùn)維白皮書