0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

InfiniBand網(wǎng)絡(luò)內(nèi)計(jì)算的關(guān)鍵技術(shù)和應(yīng)用

智能計(jì)算芯世界 ? 來源:智能計(jì)算芯世界 ? 2024-10-23 11:33 ? 次閱讀

InfiniBand在高性能計(jì)算(HPC)和人工智能AI)應(yīng)用中發(fā)揮著關(guān)鍵作用,體現(xiàn)在它提供了高速、低延遲的網(wǎng)絡(luò)通信能力,以支持大規(guī)模數(shù)據(jù)傳輸和復(fù)雜計(jì)算任務(wù)。而InfiniBand的重要性還延伸至網(wǎng)絡(luò)內(nèi)計(jì)算領(lǐng)域,其在此領(lǐng)域的應(yīng)用正在逐步擴(kuò)大。通過在網(wǎng)絡(luò)內(nèi)部執(zhí)行計(jì)算任務(wù),InfiniBand進(jìn)一步降低了延遲并提升了整體系統(tǒng)效率,有力推動(dòng)了HPC和AI領(lǐng)域向更高性能和更強(qiáng)智能邁進(jìn)。

InfiniBand網(wǎng)絡(luò)內(nèi)計(jì)算:它是什么?

InfiniBand網(wǎng)絡(luò)內(nèi)計(jì)算(INC)是InfiniBand技術(shù)的一種延伸設(shè)計(jì),旨在通過將計(jì)算能力引入網(wǎng)絡(luò)來提升系統(tǒng)性能。在網(wǎng)絡(luò)計(jì)算領(lǐng)域中,它有效地解決了AI和HPC應(yīng)用中的集體通信問題以及點(diǎn)對點(diǎn)瓶頸問題,為數(shù)據(jù)中心的可擴(kuò)展性提供了新穎的視角和解決方案。。

In-Network Computing的理念在于將計(jì)算功能集成到InfiniBand網(wǎng)絡(luò)中的交換機(jī)和InfiniBand適配器中。這樣一來,可以在數(shù)據(jù)傳輸?shù)耐瑫r(shí)執(zhí)行簡單的計(jì)算任務(wù),無需將數(shù)據(jù)傳輸至服務(wù)器等終端節(jié)點(diǎn)進(jìn)行處理,從而消除了這一環(huán)節(jié)的需求

數(shù)據(jù)中心中的InfiniBand網(wǎng)絡(luò)內(nèi)計(jì)算

近年來,現(xiàn)代數(shù)據(jù)中心的發(fā)展體現(xiàn)為一種新型的分布式并行處理架構(gòu),這一趨勢由云計(jì)算、大數(shù)據(jù)、高性能計(jì)算和人工智能驅(qū)動(dòng)。CPU、內(nèi)存和存儲(chǔ)等資源在整個(gè)數(shù)據(jù)中心中分散,并通過諸如InfiniBand、以太網(wǎng)、光纖通道以及Omni-Path等高速網(wǎng)絡(luò)技術(shù)相互連接。協(xié)同設(shè)計(jì)與分工合作共同實(shí)現(xiàn)了數(shù)據(jù)處理任務(wù)的集體完成,構(gòu)建了一個(gè)圍繞業(yè)務(wù)數(shù)據(jù)為核心、平衡的系統(tǒng)架構(gòu)。

InfiniBand網(wǎng)絡(luò)內(nèi)計(jì)算通過在網(wǎng)絡(luò)內(nèi)部執(zhí)行計(jì)算任務(wù),將數(shù)據(jù)處理職責(zé)從CPU轉(zhuǎn)移到網(wǎng)絡(luò),從而實(shí)現(xiàn)集成化的網(wǎng)絡(luò)內(nèi)計(jì)算,減少延遲并提升系統(tǒng)性能。借助網(wǎng)絡(luò)協(xié)議卸載、遠(yuǎn)程直接內(nèi)存訪問(RDMA)、GPUDirect等關(guān)鍵技術(shù),InfiniBand實(shí)現(xiàn)了在線計(jì)算、通信延遲降低及數(shù)據(jù)傳輸效率優(yōu)化等功能。這種深度集成的網(wǎng)絡(luò)內(nèi)計(jì)算為高性能計(jì)算和人工智能應(yīng)用提供了有力的支持。

InfiniBand網(wǎng)絡(luò)內(nèi)計(jì)算的關(guān)鍵技術(shù)

網(wǎng)絡(luò)協(xié)議卸載

網(wǎng)絡(luò)協(xié)議卸載是指通過將與網(wǎng)絡(luò)相關(guān)的協(xié)議處理任務(wù)轉(zhuǎn)移到專用硬件上,從而減輕CPU的處理負(fù)擔(dān)。

InfiniBand網(wǎng)絡(luò)適配器和InfiniBand交換機(jī)負(fù)責(zé)處理整個(gè)網(wǎng)絡(luò)通信協(xié)議棧的處理工作,涵蓋物理層、鏈路層、網(wǎng)絡(luò)層以及傳輸層。這種卸載技術(shù)在數(shù)據(jù)傳輸過程中消除了對額外軟件和CPU處理資源的需求,顯著提升了通信性能。

RDMA

遠(yuǎn)程直接內(nèi)存訪問(RDMA)技術(shù)是為了解決網(wǎng)絡(luò)傳輸中服務(wù)器端數(shù)據(jù)處理延遲的問題而開發(fā)的。RDMA允許從一臺(tái)計(jì)算機(jī)的內(nèi)存直接將數(shù)據(jù)傳輸?shù)搅硪慌_(tái)計(jì)算機(jī)的內(nèi)存,無需CPU介入,從而降低數(shù)據(jù)處理延遲并提升網(wǎng)絡(luò)傳輸效率。

RDMA使得用戶應(yīng)用程序可以直接將數(shù)據(jù)傳輸至服務(wù)器存儲(chǔ)區(qū)域,這些數(shù)據(jù)隨后能夠通過網(wǎng)絡(luò)快速傳送到遠(yuǎn)程系統(tǒng)的存儲(chǔ)區(qū)域。這一過程消除了傳輸過程中多次數(shù)據(jù)復(fù)制和文本交換操作的需求,從而顯著降低了CPU負(fù)載。

GPUDirect RDMA

GPUDirect RDMA是一項(xiàng)利用RDMA能力促進(jìn)GPU節(jié)點(diǎn)之間直接通信的技術(shù),從而提升GPU集群的通信效率。

在集群內(nèi)部不同節(jié)點(diǎn)上的兩個(gè)GPU進(jìn)程需要進(jìn)行通信的情況下,GPUDirect RDMA技術(shù)允許RDMA網(wǎng)絡(luò)適配器直接在兩個(gè)節(jié)點(diǎn)的GPU內(nèi)存之間傳輸數(shù)據(jù)。這消除了CPU參與數(shù)據(jù)復(fù)制的需求,減少了對PCIe總線的訪問次數(shù),最大限度地減少了不必要的數(shù)據(jù)復(fù)制操作,并顯著提高了通信性能。

SHARP

可擴(kuò)展層級聚合與減少協(xié)議(SHARP)是一種針對涉及集體通信的高性能計(jì)算和人工智能應(yīng)用而設(shè)計(jì)的集體通信網(wǎng)絡(luò)卸載技術(shù),旨在優(yōu)化效率。

SHARP將計(jì)算引擎單元集成到InfiniBand交換機(jī)芯片中,支持各種定點(diǎn)或浮點(diǎn)計(jì)算。在包含多個(gè)交換機(jī)的集群環(huán)境中,SHARP在物理拓?fù)浣Y(jié)構(gòu)上建立一個(gè)邏輯樹形結(jié)構(gòu),使得多個(gè)交換機(jī)能夠并行且分布式地處理集體通信操作。這種SHARP樹狀結(jié)構(gòu)的并行和分布式處理極大地減少了集體通信的延遲,減輕了網(wǎng)絡(luò)擁塞,并提高了集群系統(tǒng)的可擴(kuò)展性。該協(xié)議支持諸如屏障(Barrier)、Reduce、All-Reduce等操作,從而提升了大規(guī)模計(jì)算環(huán)境中的集體通信效率。

InfiniBand網(wǎng)絡(luò)內(nèi)計(jì)算應(yīng)用:HPC與AI

由于其能夠提升整體系統(tǒng)性能和效率,InfiniBand網(wǎng)絡(luò)內(nèi)計(jì)算在HPC和AI領(lǐng)域得到了顯著的應(yīng)用。

InfiniBand在網(wǎng)絡(luò)內(nèi)計(jì)算在高性能計(jì)算中的應(yīng)用

在以計(jì)算密集型任務(wù)為主的高性能計(jì)算(HPC)領(lǐng)域中,InfiniBand對于緩解CPU/GPU資源競爭至關(guān)重要。高性能計(jì)算任務(wù)的通信密集特性,包括點(diǎn)對點(diǎn)通信和集體通信,需要有效的通信協(xié)議支持。在此背景下,卸載技術(shù)、RDMA、GPUDirect以及SHARP等技術(shù)被廣泛采用,以優(yōu)化計(jì)算性能。

InfiniBand網(wǎng)絡(luò)內(nèi)計(jì)算在人工智能中的應(yīng)用

作為前沿技術(shù)的人工智能,極大程度上依賴于InfiniBand網(wǎng)絡(luò)內(nèi)計(jì)算來加快訓(xùn)練過程并獲得高精度模型。在當(dāng)前環(huán)境下,GPU或?qū)S肁I芯片是AI訓(xùn)練平臺(tái)的計(jì)算核心。這些平臺(tái)利用InfiniBand加速訓(xùn)練過程,眾所周知這是一個(gè)計(jì)算密集型的過程。卸載應(yīng)用程序通信協(xié)議對于減少AI訓(xùn)練期間的延遲至關(guān)重要。GPUDirect RDMA技術(shù)被用于提升GPU集群之間的通信帶寬,有效減少了通信延遲。

結(jié)論

InfiniBand網(wǎng)絡(luò)內(nèi)計(jì)算作為一種創(chuàng)新的網(wǎng)絡(luò)計(jì)算技術(shù),為HPC和AI領(lǐng)域提供了高效且可靠的計(jì)算支持。作為信息技術(shù)領(lǐng)域的重要?jiǎng)?chuàng)新之一,InfiniBand網(wǎng)絡(luò)內(nèi)計(jì)算將持續(xù)引領(lǐng)網(wǎng)絡(luò)計(jì)算技術(shù)的進(jìn)步和發(fā)展。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 網(wǎng)絡(luò)
    +關(guān)注

    關(guān)注

    14

    文章

    7480

    瀏覽量

    88532
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    4628

    瀏覽量

    71879
  • InfiniBand
    +關(guān)注

    關(guān)注

    1

    文章

    29

    瀏覽量

    9175
  • HPC
    HPC
    +關(guān)注

    關(guān)注

    0

    文章

    309

    瀏覽量

    23646

原文標(biāo)題:InfiniBand網(wǎng)絡(luò)內(nèi)計(jì)算知多少?

文章出處:【微信號:AI_Architect,微信公眾號:智能計(jì)算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    InfiniBand 連接現(xiàn)在和未來

    Cisco、IBM、HP、Sun、NEC、Intel等。可以說,InfiniBand已經(jīng)成為目前主流的高性能計(jì)算機(jī)互連技術(shù)之一。而且,目前基于InfiniBand
    發(fā)表于 11-13 21:57

    汽車總線及其關(guān)鍵技術(shù)的研究

    汽車總線及其關(guān)鍵技術(shù)的研究
    發(fā)表于 07-10 11:33

    CDMA原理與關(guān)鍵技術(shù)

    CDMA原理與關(guān)鍵技術(shù)
    發(fā)表于 08-16 20:25

    詳解5G的六大關(guān)鍵技術(shù)

    場景下,全雙工技術(shù)的應(yīng)用難度更大。關(guān)鍵技術(shù)4:D2D傳統(tǒng)的蜂窩通信系統(tǒng)的組網(wǎng)方式是以基站為中心實(shí)現(xiàn)小區(qū)覆蓋,而基站及中繼站無法移動(dòng),其網(wǎng)絡(luò)結(jié)構(gòu)在靈活度上有一定的限制。隨著無線多媒體業(yè)務(wù)不斷增多,傳統(tǒng)
    發(fā)表于 12-07 18:40

    鯤鵬920芯片是布局云端計(jì)算關(guān)鍵技術(shù)

    華為推出鯤鵬920芯片:布局云端計(jì)算關(guān)鍵技術(shù)之一
    發(fā)表于 01-25 07:05

    利用CAN總線構(gòu)建一個(gè)車內(nèi)網(wǎng)絡(luò),需要解決的關(guān)鍵技術(shù)問題有哪些?

    CAN-BUS系統(tǒng)主要包括哪些部件?車載網(wǎng)絡(luò)的應(yīng)用分類有哪幾種?利用CAN總線構(gòu)建一個(gè)車內(nèi)網(wǎng)絡(luò),需要解決的關(guān)鍵技術(shù)問題有哪些?
    發(fā)表于 05-13 06:07

    數(shù)字家庭網(wǎng)絡(luò)關(guān)鍵技術(shù)是什么?

    數(shù)字家庭網(wǎng)絡(luò)提供的業(yè)務(wù)類別以及需求有哪些?數(shù)字家庭網(wǎng)絡(luò)關(guān)鍵技術(shù)是什么?
    發(fā)表于 05-26 06:20

    WCDMA中的關(guān)鍵技術(shù)網(wǎng)絡(luò)規(guī)劃中的應(yīng)用是什么

    WCDMA中的關(guān)鍵技術(shù)網(wǎng)絡(luò)規(guī)劃中的應(yīng)用是什么
    發(fā)表于 05-27 06:15

    ASON網(wǎng)絡(luò)關(guān)鍵技術(shù)有哪些?

    ASON光網(wǎng)絡(luò)由哪幾部分組成?ASON網(wǎng)絡(luò)關(guān)鍵技術(shù)有哪些?ASON的亮點(diǎn)是什么?
    發(fā)表于 05-28 06:48

    車載移動(dòng)異構(gòu)無線網(wǎng)絡(luò)架構(gòu)及關(guān)鍵技術(shù)是什么?

    車載移動(dòng)異構(gòu)無線網(wǎng)絡(luò)架構(gòu)及關(guān)鍵技術(shù)是什么?
    發(fā)表于 06-07 06:29

    POE的關(guān)鍵技術(shù)有哪些?

    使用以太網(wǎng)線供電的優(yōu)勢是什么?PoE設(shè)備是怎么供電的?POE的關(guān)鍵技術(shù)有哪些?
    發(fā)表于 06-10 09:26

    CatM的關(guān)鍵技術(shù)有哪些?CatNB和CatM有什么區(qū)別?

    物聯(lián)網(wǎng)市場的網(wǎng)絡(luò)特性是什么?CatNB和CatM有什么區(qū)別?CatM的關(guān)鍵技術(shù)有哪些?
    發(fā)表于 06-30 08:02

    LCD顯示的關(guān)鍵技術(shù)

    可以用硬件電路或軟件程序?qū)崿F(xiàn)B.只能用濾波電路或雙穩(wěn)態(tài)電路實(shí)現(xiàn)C.只能用軟件程序?qū)崿F(xiàn)D.只能用延時(shí)程序?qū)崿F(xiàn)2.LCD顯示的關(guān)鍵技術(shù)是解決驅(qū)動(dòng)問題,正確的作法是(D)。A.采用固定的交流電壓驅(qū)動(dòng)B.采用直流電...
    發(fā)表于 09-10 08:39

    視覺導(dǎo)航關(guān)鍵技術(shù)及應(yīng)用

    由于視覺導(dǎo)航技術(shù)的應(yīng)用越來越普及 ,因此 ,有必要對視覺導(dǎo)航中的關(guān)鍵技術(shù)及應(yīng)用進(jìn)行研究。文章對其中的圖像處理技術(shù)和定位與跟蹤技術(shù)進(jìn)行了詳細(xì)研究 ,并與此相對應(yīng) ,介紹的相關(guān)的應(yīng)用。
    發(fā)表于 09-25 08:09

    未來網(wǎng)絡(luò)關(guān)鍵技術(shù)

    未來網(wǎng)絡(luò)架構(gòu)的核心要點(diǎn),一是網(wǎng)絡(luò)自身的能力要提升(確定性承載、內(nèi)生安全等);二是這種能力要能夠向兩端延伸,向應(yīng)用開放;三是控制面增強(qiáng)、轉(zhuǎn)發(fā)面簡潔。下面的章節(jié)將基于這個(gè)參考架構(gòu),對未來網(wǎng)絡(luò)
    的頭像 發(fā)表于 02-01 16:53 ?1749次閱讀