在日新月異的網(wǎng)絡(luò)技術(shù)領(lǐng)域中,遠(yuǎn)程直接內(nèi)存訪問(wèn)(RDMA)技術(shù)已成為優(yōu)化數(shù)據(jù)傳輸流程、提升整體網(wǎng)絡(luò)效能的關(guān)鍵驅(qū)動(dòng)力。其中,以太網(wǎng)融合RDMA技術(shù)——RoCE(RDMA over Converged Ethernet),其第二代版本RoCE v2憑借顯著的性能提升與更強(qiáng)的靈活性脫穎而出。
什么是RoCE v2技術(shù)?
RoCE v2是一種專(zhuān)為實(shí)現(xiàn)以太網(wǎng)環(huán)境下低延遲、高吞吐量數(shù)據(jù)傳輸而設(shè)計(jì)的RDMA協(xié)議。相較于涉及多重處理層次的傳統(tǒng)數(shù)據(jù)傳輸方式,RoCE v2實(shí)現(xiàn)了系統(tǒng)間的直接內(nèi)存訪問(wèn)機(jī)制,最大限度地減少了CPU的參與和降低通信延遲。這一特性賦予了RoCE v2在對(duì)數(shù)據(jù)交換速度及效率有著極高要求的應(yīng)用場(chǎng)景中無(wú)可比擬的優(yōu)勢(shì),例如高性能計(jì)算(HPC)環(huán)境、數(shù)據(jù)中心以及云計(jì)算架構(gòu)。
RoCE v2是在前一代RoCE v1的基礎(chǔ)上演進(jìn)而來(lái)的,通過(guò)引入一系列改進(jìn)措施有效解決了原有局限性問(wèn)題,并全面提升了性能表現(xiàn)。該協(xié)議充分利用了融合以太網(wǎng)基礎(chǔ)設(shè)施,使得傳統(tǒng)以太網(wǎng)流量與RDMA流量能夠在同一網(wǎng)絡(luò)結(jié)構(gòu)中共存共榮。這種創(chuàng)新性的融合設(shè)計(jì)不僅簡(jiǎn)化了網(wǎng)絡(luò)管理操作,還消除了搭建獨(dú)立RDMA架構(gòu)的需求,從而極大地增強(qiáng)了RoCE v2的易用性和經(jīng)濟(jì)效益。
RoCE網(wǎng)卡
在RoCE v2技術(shù)體系中,核心硬件設(shè)備之一是RoCE網(wǎng)絡(luò)接口卡(簡(jiǎn)稱(chēng)RoCE網(wǎng)卡),這種專(zhuān)門(mén)設(shè)計(jì)的網(wǎng)卡旨在高效支持RDMA操作。作為系統(tǒng)間直接內(nèi)存訪問(wèn)的關(guān)鍵實(shí)現(xiàn)載體,RoCE網(wǎng)卡集成了必要的硬件特性,能夠?qū)PU從繁重的RDMA任務(wù)中解脫出來(lái),從而顯著降低數(shù)據(jù)傳輸延遲,并有力提升整個(gè)系統(tǒng)的運(yùn)行性能。
而構(gòu)建高性能網(wǎng)絡(luò)交換機(jī)的核心基礎(chǔ)在于其采用的轉(zhuǎn)發(fā)芯片技術(shù)。值得一提的是,Tomahawk3系列芯片已廣泛應(yīng)用于各類(lèi)交換機(jī)產(chǎn)品之中,且隨著市場(chǎng)趨勢(shì)的發(fā)展,越來(lái)越多的交換機(jī)開(kāi)始支持更新一代的Tomahawk4系列芯片。這種向更先進(jìn)芯片技術(shù)的過(guò)渡進(jìn)一步突顯了這些芯片在當(dāng)前商業(yè)領(lǐng)域中的重要地位,它們被普遍用于高速、大容量的數(shù)據(jù)包轉(zhuǎn)發(fā)處理。
RoCE v2與InfiniBand技術(shù)對(duì)比
RoCE v2(基于以太網(wǎng)融合的RDMA第二版)和InfiniBand均為針對(duì)數(shù)據(jù)中心及高性能計(jì)算環(huán)境設(shè)計(jì),旨在提供高速、低延遲通信解決方案的技術(shù)。以下從不同層面剖析兩者的關(guān)鍵差異。
物理層架構(gòu)
RoCE v2:依托于現(xiàn)有的以太網(wǎng)基礎(chǔ)設(shè)施,允許在同一網(wǎng)絡(luò)中整合存儲(chǔ)數(shù)據(jù)流和常規(guī)數(shù)據(jù)流量,因此更易于融入既有的數(shù)據(jù)中心架構(gòu)。 InfiniBand:采用獨(dú)立于以太網(wǎng)之外的專(zhuān)有通訊結(jié)構(gòu),通常需要專(zhuān)門(mén)構(gòu)建的InfiniBand網(wǎng)絡(luò),并可能涉及獨(dú)立的線纜布設(shè)和專(zhuān)用交換機(jī)設(shè)備。
協(xié)議棧與網(wǎng)絡(luò)協(xié)議兼容性
RoCE v2:通過(guò)以太網(wǎng)實(shí)現(xiàn)RDMA(遠(yuǎn)程直接內(nèi)存訪問(wèn))功能,其能夠與傳統(tǒng)的TCP/IP協(xié)議棧無(wú)縫集成,從而確保了對(duì)標(biāo)準(zhǔn)網(wǎng)絡(luò)協(xié)議的兼容性。 InfiniBand:配備了一套專(zhuān)為高速、低延遲傳輸優(yōu)化定制的自有協(xié)議棧和網(wǎng)絡(luò)架構(gòu),使用時(shí)可能需要安裝特定的驅(qū)動(dòng)程序和進(jìn)行相應(yīng)的配置調(diào)整。
交換機(jī)制
RoCE v2:能夠在支持?jǐn)?shù)據(jù)中心橋接(DCB)特性的標(biāo)準(zhǔn)以太網(wǎng)交換機(jī)上運(yùn)行,從而實(shí)現(xiàn)無(wú)損以太網(wǎng)的數(shù)據(jù)傳輸。 InfiniBand:則依賴(lài)于專(zhuān)為追求最低延遲和最高吞吐量而設(shè)計(jì)的InfiniBand交換機(jī),以保證極致性能表現(xiàn)。
擁塞管理與控制
RoCE v2:
擁塞管理:RoCE v2依賴(lài)于以太網(wǎng)交換機(jī)所支持的數(shù)據(jù)中心橋接(DCB)特性來(lái)有效應(yīng)對(duì)網(wǎng)絡(luò)擁塞狀況。通過(guò)啟用DCB,RoCE v2能夠創(chuàng)建一個(gè)無(wú)損以太網(wǎng)環(huán)境,從而避免因擁塞導(dǎo)致的數(shù)據(jù)包丟失問(wèn)題。
擁塞控制:RoCE v2本身并不具備內(nèi)置的專(zhuān)門(mén)解決方案,而是主要依靠底層以太網(wǎng)基礎(chǔ)設(shè)施所提供的功能來(lái)管理和緩解擁塞現(xiàn)象。
InfiniBand:
擁塞管理:InfiniBand具備原生的擁塞控制能力。它運(yùn)用信用流控等機(jī)制,確保即使在網(wǎng)絡(luò)流量高峰時(shí)期也能防止擁塞發(fā)生,保障通信過(guò)程中的數(shù)據(jù)完整性。
擁塞控制:InfiniBand還整合了自適應(yīng)路由和先進(jìn)的擁塞控制算法,這些算法能夠根據(jù)實(shí)時(shí)網(wǎng)絡(luò)狀況動(dòng)態(tài)調(diào)整數(shù)據(jù)傳輸路徑,從而有效地預(yù)防和減輕網(wǎng)絡(luò)內(nèi)的擁塞問(wèn)題。
路由機(jī)制與拓?fù)浣Y(jié)構(gòu)
RoCE v2:
路由機(jī)制:RoCE v2通常采用傳統(tǒng)的以太網(wǎng)路由協(xié)議進(jìn)行路由決策,如路由信息協(xié)議(RIP)或開(kāi)放最短路徑優(yōu)先(OSPF)。這意味著RoCE v2網(wǎng)絡(luò)中的數(shù)據(jù)傳輸路徑選擇是基于這些成熟的標(biāo)準(zhǔn)路由協(xié)議實(shí)現(xiàn)的。
拓?fù)浣Y(jié)構(gòu):RoCE v2普遍應(yīng)用于標(biāo)準(zhǔn)以太網(wǎng)環(huán)境之中,其路由策略的制定和執(zhí)行受到底層以太網(wǎng)基礎(chǔ)設(shè)施的制約和影響。這意味著在設(shè)計(jì)和實(shí)施RoCE v2網(wǎng)絡(luò)時(shí),需要考慮現(xiàn)有的以太網(wǎng)架構(gòu),并根據(jù)該架構(gòu)的特點(diǎn)來(lái)進(jìn)行路由優(yōu)化。
InfiniBand:
路由機(jī)制:InfiniBand具備針對(duì)低延遲、高吞吐量通信特別優(yōu)化的路由機(jī)制,它能夠支持多路徑設(shè)定以實(shí)現(xiàn)網(wǎng)絡(luò)冗余及負(fù)載均衡,確保高效穩(wěn)定的傳輸性能。
拓?fù)浣Y(jié)構(gòu):InfiniBand網(wǎng)絡(luò)支持豐富的配置方式,包括但不限于胖樹(shù)形(Fat Tree)、超立方體以及多路配置等多樣化布局。不同的拓?fù)浣Y(jié)構(gòu)選擇對(duì)路由決策有著直接影響,可根據(jù)實(shí)際應(yīng)用場(chǎng)景和需求靈活構(gòu)建高度可擴(kuò)展且適應(yīng)性強(qiáng)的高性能網(wǎng)絡(luò)。
在選擇RoCE v2與InfiniBand這兩種技術(shù)時(shí),決策依據(jù)主要源于現(xiàn)有的基礎(chǔ)設(shè)施條件、特定應(yīng)用需求以及實(shí)際環(huán)境的具體性能指標(biāo)。RoCE v2的一大優(yōu)勢(shì)在于能夠更加平滑地整合到已有的以太網(wǎng)網(wǎng)絡(luò)架構(gòu)中,這對(duì)于希望在不改變現(xiàn)有網(wǎng)絡(luò)基礎(chǔ)的前提下提升數(shù)據(jù)通信效率的用戶(hù)尤為適用。 相反,對(duì)于那些追求極致性能表現(xiàn)和高度可擴(kuò)展性的高性能計(jì)算場(chǎng)景,InfiniBand則因其專(zhuān)為低延遲、高吞吐量設(shè)計(jì)的特性及內(nèi)置優(yōu)化的路由與擁塞控制機(jī)制而可能成為更優(yōu)的選擇。簡(jiǎn)而言之,RoCE v2更適合于充分利用現(xiàn)有資源進(jìn)行高效升級(jí),而InfiniBand則更傾向于滿(mǎn)足對(duì)性能有嚴(yán)格要求且不吝嗇投入獨(dú)立專(zhuān)用網(wǎng)絡(luò)設(shè)施的高端應(yīng)用場(chǎng)景。
UEC推出新型傳輸協(xié)議
在2023年7月19日,超高速以太網(wǎng)聯(lián)盟(UEC)正式宣告成立,集結(jié)了AMD、Arista、Broadcom、Cisco、Eviden、HPE、Intel、Meta和Microsoft等一眾行業(yè)領(lǐng)軍企業(yè)作為創(chuàng)始成員。這些公司在網(wǎng)絡(luò)基礎(chǔ)設(shè)施構(gòu)建、人工智能技術(shù)開(kāi)發(fā)、云計(jì)算解決方案以及高性能計(jì)算部署等領(lǐng)域積累了深厚且長(zhǎng)達(dá)數(shù)十年的專(zhuān)業(yè)經(jīng)驗(yàn)。該聯(lián)盟明確指出,盡管遠(yuǎn)程直接內(nèi)存訪問(wèn)(RDMA)技術(shù)自數(shù)十年前確立以來(lái),在數(shù)據(jù)傳輸領(lǐng)域取得了顯著成果,但隨著當(dāng)前AI與ML應(yīng)用對(duì)網(wǎng)絡(luò)流量需求的急劇增長(zhǎng)與復(fù)雜化,傳統(tǒng)的RDMA已無(wú)法充分滿(mǎn)足其嚴(yán)苛的標(biāo)準(zhǔn)。尤其當(dāng)RDMA傾向于采用大塊數(shù)據(jù)傳輸模式時(shí),可能導(dǎo)致鏈路負(fù)載不均衡,并加劇網(wǎng)絡(luò)負(fù)擔(dān)過(guò)重的問(wèn)題。 鑒于此,UEC倡導(dǎo)并著手啟動(dòng)一項(xiàng)旨在研發(fā)集成RDMA特性的現(xiàn)代傳輸協(xié)議計(jì)劃,以適應(yīng)新興應(yīng)用對(duì)高效率、低延遲和更優(yōu)化資源分配的需求,從而推動(dòng)網(wǎng)絡(luò)通信技術(shù)實(shí)現(xiàn)新的跨越。
總結(jié)
RoCE v2在RDMA技術(shù)領(lǐng)域扮演著舉足輕重的角色,為追求高性能與低延遲數(shù)據(jù)傳輸?shù)慕M織提供了一種有力的解決方案。通過(guò)巧妙融合以太網(wǎng)基礎(chǔ)設(shè)施,并結(jié)合超高速以太網(wǎng)聯(lián)盟(UEC)所推動(dòng)的新型傳輸協(xié)議的發(fā)展成果,RoCE v2成功適應(yīng)了從高性能計(jì)算環(huán)境直至云計(jì)算等各種復(fù)雜應(yīng)用場(chǎng)景,展現(xiàn)出其靈活且經(jīng)濟(jì)高效的特性。 盡管相較于InfiniBand比較中凸顯出RoCE v2的諸多優(yōu)勢(shì),但在選擇最為合適的RDMA技術(shù)方案時(shí),各組織仍需充分考慮自身的特殊需求及現(xiàn)有的基礎(chǔ)架構(gòu)條件。隨著技術(shù)持續(xù)演進(jìn),RoCE v2及其相關(guān)的技術(shù)創(chuàng)新將繼續(xù)在塑造未來(lái)高性能網(wǎng)絡(luò)格局中扮演決定性角色。
審核編輯:黃飛
?
評(píng)論
查看更多