0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)中心以太網(wǎng)和RDMA:超大規(guī)模環(huán)境下的問(wèn)題

SDNLAB ? 來(lái)源:Andy730 ? 2023-07-14 16:41 ? 次閱讀

摘要

我們觀察到新興的人工智能、高性能計(jì)算和存儲(chǔ)工作負(fù)載對(duì)大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)提出了新的挑戰(zhàn)?;谌诤?a target="_blank">以太網(wǎng)的RDMA協(xié)議(RoCE,RDMA over Converged Ethernet) 是將現(xiàn)代的遠(yuǎn)程直接內(nèi)存訪問(wèn)(RDMA,Remote Direct Memory Access)功能引入現(xiàn)有以太網(wǎng)的一種嘗試。十年過(guò)去了,我們重新審視了RoCE的設(shè)計(jì)要點(diǎn),并得出結(jié)論認(rèn)為必須解決其幾個(gè)缺點(diǎn),以滿(mǎn)足超大規(guī)模數(shù)據(jù)中心的需求。我們預(yù)測(cè),數(shù)據(jù)中心和高性能計(jì)算市場(chǎng)將會(huì)融合,并在未來(lái)十年內(nèi)采用現(xiàn)代化以太網(wǎng)為基礎(chǔ)的高性能網(wǎng)絡(luò)解決方案,取代TCP和RoCE。

數(shù)據(jù)中心以太網(wǎng)的新環(huán)境

以太網(wǎng)在有線局域網(wǎng)(LAN)領(lǐng)域占據(jù)主導(dǎo)地位已經(jīng)幾十年了,從私人住宅的部署到最大的數(shù)據(jù)中心。在過(guò)去的十年里,數(shù)據(jù)中心經(jīng)歷了巨大的增長(zhǎng),連接的機(jī)器數(shù)量超過(guò)了目前最大的超級(jí)計(jì)算機(jī)規(guī)模。雖然仍然存在一些差異,但這類(lèi)超大規(guī)模的超級(jí)計(jì)算機(jī)和數(shù)據(jù)中心的網(wǎng)絡(luò)需求非常相似[1]。然而,超級(jí)計(jì)算機(jī)通常使用專(zhuān)用的互連方式進(jìn)行連接,而數(shù)據(jù)中心則建立在以太網(wǎng)之上。由于相似的需求和規(guī)模經(jīng)濟(jì)效益,隨著每一代新技術(shù)的出現(xiàn),二者繼續(xù)趨近于融合。我們認(rèn)為現(xiàn)在是重新思考融合互連的基本假設(shè)和架構(gòu)的合適時(shí)機(jī)。

多種技術(shù)趨勢(shì)加速了高性能互連的融合。主要的是,不斷增加的網(wǎng)絡(luò)性能要求推動(dòng)了更高效的主機(jī)堆棧的發(fā)展,以支持新興的數(shù)據(jù)密集型應(yīng)用,如人工智能(AI),所需的Tb帶寬、每秒數(shù)億次的事務(wù)和個(gè)位數(shù)微秒級(jí)的延遲[2]。這些極端需求要求所有的協(xié)議和硬件盡可能高效,排除了許多傳統(tǒng)驅(qū)動(dòng)數(shù)據(jù)中心網(wǎng)絡(luò)的類(lèi)似TCP/IP的堆棧。遠(yuǎn)程直接內(nèi)存訪問(wèn)(RDMA)是近30年來(lái)為高性能計(jì)算(HPC)工作負(fù)載開(kāi)發(fā)的,并且后來(lái)擴(kuò)展到目標(biāo)存儲(chǔ)與InfiniBand(IB)Verbs RDMA。RDMA使CPU可以通過(guò)網(wǎng)絡(luò)進(jìn)行硬件加速的直接內(nèi)存訪問(wèn)。在過(guò)去的10年里,RDMA成為低開(kāi)銷(xiāo)和高速網(wǎng)絡(luò)的事實(shí)標(biāo)準(zhǔn)。幾乎所有的超級(jí)計(jì)算機(jī)架構(gòu)以及領(lǐng)先的數(shù)據(jù)中心供應(yīng)商都在生產(chǎn)環(huán)境中使用RDMA。

幾十年前確定的負(fù)載平衡、擁塞控制和錯(cuò)誤處理方面的簡(jiǎn)單假設(shè),對(duì)于今天的網(wǎng)絡(luò)來(lái)說(shuō)已經(jīng)不適用,現(xiàn)在的網(wǎng)絡(luò)帶寬高出100倍以上,消息速率高出10倍以上。此外,簡(jiǎn)單的RDMA網(wǎng)絡(luò)接口卡(NIC)通常會(huì)增加額外的功能。由此產(chǎn)生的“智能NIC”通常會(huì)卸載重要服務(wù)并實(shí)現(xiàn)專(zhuān)門(mén)的網(wǎng)絡(luò)協(xié)議。現(xiàn)代網(wǎng)絡(luò)交換機(jī)還具備改進(jìn)的能力,包括先進(jìn)的網(wǎng)絡(luò)遙測(cè)、網(wǎng)絡(luò)計(jì)算能力以及網(wǎng)絡(luò)負(fù)載均衡或擁塞控制[3]。我們認(rèn)為當(dāng)前現(xiàn)有的標(biāo)準(zhǔn)和部署基礎(chǔ)設(shè)施存在根本性的差距,必須在不久的將來(lái)加以解決,以支持高效的高性能網(wǎng)絡(luò)。

以太網(wǎng)RDMA簡(jiǎn)史

RDMA最初是為高性能計(jì)算系統(tǒng)開(kāi)發(fā)的,早期應(yīng)用包括Paragon、Cray的T3D/T3E和ASCI Red等。后來(lái),InfiniBand Verbs RDMA成為超級(jí)計(jì)算領(lǐng)域中的標(biāo)準(zhǔn)解決方案。隨后,在數(shù)據(jù)中心環(huán)境中采用了“RDMA over Converged Ethernet”(RoCE)來(lái)在向后兼容的以太網(wǎng)環(huán)境中提供RDMA的優(yōu)勢(shì)。另一個(gè)協(xié)議iWARP(參見(jiàn)IETF 2007年,RFC 5040-5044、6580、6581、7306)將RDMA語(yǔ)義層置于TCP或SCTCP之上。iWARP和RoCE都使用InfiniBand的Verbs與用戶(hù)軟件堆棧進(jìn)行接口,因此對(duì)用戶(hù)而言基本透明。盡管iWARP一開(kāi)始就支持互聯(lián)網(wǎng)兼容的路由,但并沒(méi)有廣泛采用。這可能是因?yàn)橄鄬?duì)于RoCE所基于的非常簡(jiǎn)單的協(xié)議,一個(gè)完整的TCP/IP堆棧在硬件上的卸載是復(fù)雜而昂貴的。事實(shí)上,RoCEv1只是在以太網(wǎng)的L2報(bào)頭之上采用了類(lèi)似InfiniBand的傳輸層(即Base Transport Header,BTH)。后來(lái),RoCEv2添加了IP/UDP L3報(bào)頭以支持?jǐn)?shù)據(jù)中心內(nèi)部和跨數(shù)據(jù)中心的路由。目前,RoCEv2 NIC的部署數(shù)量超過(guò)了InfiniBand NIC。

RoCE - 融合還是臨時(shí)應(yīng)急?

RoCE的核心設(shè)計(jì)是繼承自20年前為簡(jiǎn)單硬件開(kāi)發(fā)的技術(shù),對(duì)于今天的以太網(wǎng)環(huán)境來(lái)說(shuō)并不是最優(yōu)解。例如,RoCE使用基于InfiniBand的簡(jiǎn)單傳輸層,它在很大程度上依賴(lài)于按順序傳遞和回退N(go-back-n)重傳語(yǔ)義,這基本上需要一個(gè)高度可靠的按順序傳遞的基礎(chǔ)架構(gòu)才能實(shí)現(xiàn)高效的運(yùn)行。因此,RoCE在無(wú)丟包的有序傳輸環(huán)境(如InfiniBand)中運(yùn)行效果最佳。傳統(tǒng)上,以太網(wǎng)在交換機(jī)緩沖區(qū)已滿(mǎn)時(shí)會(huì)丟棄數(shù)據(jù)包,并依賴(lài)端到端的重傳機(jī)制。為了支持RoCE,"融合以太網(wǎng)"(CE,Converged Ethernet)引入了優(yōu)先流控制(PFC,Priority Flow Control)來(lái)實(shí)現(xiàn)鏈路級(jí)無(wú)丟包操作。PFC重新利用了以太網(wǎng)中的PAUSE幀,以支持具有不同鏈路傳輸速率的網(wǎng)絡(luò)。PFC通過(guò)增強(qiáng)PAUSE幀來(lái)停止(或限制)特定優(yōu)先級(jí)類(lèi)別的流量,以避免數(shù)據(jù)包丟失。不幸的是,這一復(fù)雜的協(xié)議集干擾了網(wǎng)絡(luò)中的不同層次,并降低了對(duì)一些當(dāng)今最重要的工作負(fù)載的效率。

RoCE的語(yǔ)義、負(fù)載平衡和擁塞控制機(jī)制都是繼承自InfiniBand。這意味著所有的消息應(yīng)該按照順序到達(dá)目的地,就像它們是通過(guò)靜態(tài)路由傳輸一樣,這本質(zhì)上禁止了許多分組級(jí)別的負(fù)載平衡機(jī)制。對(duì)于長(zhǎng)期流程的AI訓(xùn)練工作負(fù)載,多路徑機(jī)制可以極大地提高作業(yè)完成時(shí)間。此外,RoCEv2使用基于IP的簡(jiǎn)化擁塞控制機(jī)制,基于明確擁塞通知(ECN,Explicit Congestion Notification)的機(jī)制。當(dāng)檢測(cè)到擁塞時(shí),ECN兼容的交換機(jī)會(huì)標(biāo)記數(shù)據(jù)包,并將該信息傳回接收方,接收方再將其傳遞給發(fā)送方,發(fā)送方根據(jù)一個(gè)參數(shù)減少注入速率。在無(wú)擁塞期之后,速率會(huì)自動(dòng)增加,使用第二個(gè)配置參數(shù)。ECN使用二進(jìn)制標(biāo)志表示經(jīng)歷過(guò)擁塞,缺乏細(xì)粒度的指示會(huì)導(dǎo)致需要許多往返時(shí)間(RTTs,Round Trip Times)來(lái)確定正確的速率。這種簡(jiǎn)單的機(jī)制與InfiniBand最初的前向和后向明確擁塞通知(FECN/BECN)非常相似。它承諾可以與其它流量共存,但在實(shí)踐中很難進(jìn)行配置[4],[5],[6]。

現(xiàn)在我們簡(jiǎn)要討論一些高性能計(jì)算(HPC)和數(shù)據(jù)中心流量中的重要流量模式,然后詳細(xì)討論RoCE的缺點(diǎn)。

指導(dǎo)流量模式

為了討論方便,我們將確定三種流量模式,代表了當(dāng)前大部分RDMA工作負(fù)載。不幸的是,這些模式也凸顯了RoCE的不足之處。在這里,我們重點(diǎn)關(guān)注在HPC、AI訓(xùn)練和分布式推理、存儲(chǔ)以及一般微服務(wù)或函數(shù)即服務(wù)(FaaS)流量中使用的東西(內(nèi)部)數(shù)據(jù)中心流量。

Incast(IN)

當(dāng)多個(gè)源進(jìn)程以可能不協(xié)調(diào)但同時(shí)的流量模式針對(duì)同一目標(biāo)進(jìn)程時(shí),就會(huì)發(fā)生incast流量模式。它的特點(diǎn)是具有多個(gè)源進(jìn)程和一個(gè)事務(wù)大小。實(shí)際中,當(dāng)服務(wù)在同一時(shí)間被許多不協(xié)調(diào)的客戶(hù)端請(qǐng)求時(shí),這種模式通常會(huì)隨機(jī)出現(xiàn)。例如,假設(shè)有100個(gè)客戶(hù)端想要向同一個(gè)存儲(chǔ)服務(wù)器提交一個(gè)10kiB的寫(xiě)事務(wù)。所有客戶(hù)端可能會(huì)以滿(mǎn)帶寬發(fā)送,因?yàn)樗麄儾恢兰磳l(fā)生的擁塞。數(shù)據(jù)包將快速填滿(mǎn)網(wǎng)絡(luò)緩沖區(qū),可能妨礙其它流量,并最終違反服務(wù)級(jí)別協(xié)議(SLA)。最具挑戰(zhàn)性的incast模式是由于事務(wù)小于帶寬-延遲乘積而導(dǎo)致?lián)砣刂茩C(jī)制在事務(wù)完成之前無(wú)法獲得可靠的信號(hào)。我們指出,不斷增長(zhǎng)的帶寬將越來(lái)越多的工作負(fù)載推入這個(gè)關(guān)鍵區(qū)域。

Oblivious bulk synchronous(OBS)

許多HPC和AI訓(xùn)練工作負(fù)載可以采用無(wú)感知的批量同步模型(OBS)表示,其中計(jì)算步驟與通信步驟交替進(jìn)行,通常同步進(jìn)程。無(wú)感知意味著應(yīng)用程序的通信模式取決于少量參數(shù)(如大小或進(jìn)程數(shù)),并且不依賴(lài)于被處理的數(shù)據(jù)。它通??梢栽趹?yīng)用程序啟動(dòng)之前靜態(tài)確定。例如,消息傳遞接口(MPI)標(biāo)準(zhǔn)[7]中的所有集合操作都是無(wú)感知的。因此,OBS工作負(fù)載可以在算法上避免incast!深度學(xué)習(xí)訓(xùn)練中的三維并行性[2]是一個(gè)典型的例子。OBS可以通過(guò)進(jìn)程數(shù)、計(jì)算持續(xù)時(shí)間和通信大?。總€(gè)端點(diǎn))建模。如果計(jì)算和通信都很小,那么整體工作負(fù)載對(duì)延遲敏感,這種模式在HPC和AI推理中經(jīng)常出現(xiàn)。大型通信在AI訓(xùn)練工作負(fù)載中通常具有帶寬敏感性。

Latency-sensitive (LS)

對(duì)于某些工作負(fù)載,消息延遲(有時(shí)也包括消息速率)起著核心作用。其中一些屬于OBS類(lèi)別,但其它工作負(fù)載具有復(fù)雜的、數(shù)據(jù)相關(guān)的消息鏈,形成應(yīng)用程序中的關(guān)鍵性能路徑。這些通常是強(qiáng)可伸縮性的工作負(fù)載,解決方案的時(shí)間很重要,必須容忍低效的執(zhí)行。嚴(yán)格遵守截止日期的大規(guī)模模擬,如天氣預(yù)報(bào)和石油勘探,屬于這一類(lèi)別,但也包括一些事務(wù)處理或搜索/推理工作負(fù)載。在這種情況下,通常具有嚴(yán)格的(個(gè)位數(shù)微秒)延遲要求。

部署特性

除了流量類(lèi)型外,部署環(huán)境也在發(fā)生變化。新出現(xiàn)的機(jī)密計(jì)算理念要求所有流量在傳輸過(guò)程中進(jìn)行加密。理想情況下,流量在安全隔離環(huán)境中端到端進(jìn)行加密和解密,不信任任何網(wǎng)絡(luò)設(shè)備(網(wǎng)卡或交換機(jī))。此外,新出現(xiàn)的多租戶(hù)場(chǎng)景要求從單個(gè)主機(jī)管理數(shù)以萬(wàn)計(jì)的連接。這些通常由管理資源(如帶寬和安全性)的智能網(wǎng)卡通過(guò)速率限制和過(guò)濾來(lái)支持。此外,新的成本效益高的低直徑和專(zhuān)用拓?fù)浣Y(jié)構(gòu)對(duì)于極高帶寬部署而言,更高級(jí)的負(fù)載平衡和路由成為必要條件[8],[2]。這些要求的許多組合對(duì)下一代高性能網(wǎng)絡(luò)提出了重大挑戰(zhàn)。

RoCE需要改進(jìn)的方面

RoCE的許多問(wèn)題已經(jīng)在過(guò)去進(jìn)行了討論[9],并且已經(jīng)有許多研究工作提出了各種解決方案[10]。在這里,我們概述了我們認(rèn)為可以進(jìn)行改進(jìn)的潛在措施,并將其與上述關(guān)鍵工作負(fù)載和部署用例聯(lián)系起來(lái)。我們現(xiàn)在提供一個(gè)列舉的問(wèn)題列表,可以改進(jìn)以實(shí)現(xiàn)在基于以太網(wǎng)的高性能RDMA或智能網(wǎng)卡系統(tǒng)中更高效的操作。

1)PFC需要過(guò)多的緩沖區(qū)來(lái)實(shí)現(xiàn)無(wú)丟包傳輸

優(yōu)先流控制(PFC)是實(shí)現(xiàn)融合以太網(wǎng)上無(wú)丟包傳輸?shù)暮诵?。通過(guò)PFC,接收方監(jiān)視可用輸入緩沖區(qū)空間。一旦此緩沖區(qū)空間降低到與帶寬-延遲乘積BWRTT相關(guān)的某個(gè)閾值以下,它會(huì)向發(fā)送方發(fā)送一個(gè)PAUSE幀。此時(shí),已經(jīng)有BWRTT/2字節(jié)在傳入線上,但在發(fā)送方接收到PAUSE幀之前,它將發(fā)送另外BWRTT/2字節(jié)。完全無(wú)丟包傳輸所需的最小緩沖區(qū)要求將是BWRTT + MTU,其中MTU是數(shù)據(jù)包的最大大小。然而,這僅適用于數(shù)據(jù)包立即被接收方處理的情況。即使是最輕微的轉(zhuǎn)發(fā)延遲也可能顯著降低鏈路利用率。

BWRTT緩沖區(qū)空間用于覆蓋PAUSE消息的傳輸延遲,通常被稱(chēng)為“剩余緩沖區(qū)”,類(lèi)似于InfiniBand或光纖通道中使用的基于credit的流量控制方案所需的緩沖區(qū)。在這些方案中,接收方主動(dòng)向發(fā)送方發(fā)送credit(緩沖區(qū)分配),以保持輸入緩沖區(qū)空間處于均衡狀態(tài),而不是在PFC使其過(guò)于充滿(mǎn)之后才作出反應(yīng)。這兩種方案都有其優(yōu)點(diǎn):credit可以主動(dòng)地向源端傳遞,而PFC方案在為不同源鏈路分配共享緩沖區(qū)空間時(shí)可以更具反應(yīng)性(延遲綁定)。這兩種方案基本上需要為每條鏈路保留BWRTT的空間,僅用于覆蓋鏈路的往返控制延遲,這樣就會(huì)導(dǎo)致有效轉(zhuǎn)發(fā)的空間減少。

實(shí)際上,緩沖區(qū)空間對(duì)于吸收不斷變化的流量峰值以進(jìn)行時(shí)間和空間負(fù)載平衡非常寶貴。此外,僅僅是所需的剩余緩沖區(qū),如果不冒著丟包的風(fēng)險(xiǎn),無(wú)法用于其它用途,對(duì)于下一代交換機(jī)的擴(kuò)展構(gòu)成了重大挑戰(zhàn)。圖1a顯示了在三層Fat Tree上,假設(shè)平均延遲為600ns(包括仲裁、前向糾錯(cuò)(FEC)和導(dǎo)線延遲)的9kB數(shù)據(jù)包和8個(gè)流量?jī)?yōu)先級(jí)類(lèi)別(每個(gè)類(lèi)別具有單獨(dú)的緩沖區(qū))的情況下,各種交換機(jī)世代所需的剩余空間(不包括其它緩沖區(qū)?。kS著高性能地理復(fù)制數(shù)據(jù)中心的普及,覆蓋較長(zhǎng)距離(從而引起延遲)也具有挑戰(zhàn)性。圖1b顯示了相同配置情況下,每個(gè)端口所需的剩余緩沖區(qū),假設(shè)端口速率為800G,導(dǎo)線延遲為5ns/m,以及不同的部署類(lèi)型。

5cdc0fb6-2221-11ee-962d-dac502259ad0.png

人們可能會(huì)考慮使用有丟失的鏈路層協(xié)議來(lái)重新利用這些緩沖區(qū)進(jìn)行轉(zhuǎn)發(fā)功能。然而,這會(huì)與錯(cuò)誤處理協(xié)議發(fā)生交互,我們很快將看到。無(wú)論如何,浪費(fèi)的緩沖區(qū)空間是影響所有可能受益于附加緩沖區(qū)的工作負(fù)載的一般問(wèn)題,如果這些空間可用于數(shù)據(jù)包轉(zhuǎn)發(fā),將會(huì)提供幫助。

2)受害者流、擁塞樹(shù)、PFC風(fēng)暴和死鎖

另一個(gè)問(wèn)題源于PFC停止整個(gè)流量類(lèi)別(僅使用三個(gè)比特進(jìn)行編碼)以及其中的所有流量。這可能導(dǎo)致受阻的受害者流:假設(shè)我們有兩個(gè)流A和B共享一個(gè)鏈路L。流A沒(méi)有擁塞,可以以滿(mǎn)帶寬發(fā)送。然而,流B在下游端口某處被阻塞,并填滿(mǎn)了鏈路L的輸入緩沖區(qū)。最終,鏈路L的分配緩沖區(qū)將被流B的數(shù)據(jù)包填滿(mǎn),并發(fā)送一個(gè)PAUSE幀。該幀還會(huì)停止流A的傳輸,而流A本來(lái)可以獨(dú)立進(jìn)行。因此,未擁塞的流可能會(huì)受到其它擁塞流的影響。這種現(xiàn)象也被稱(chēng)為排頭堵塞(Head of Line blocking)。

由于下游端口的任何擁塞都會(huì)填滿(mǎn)上游緩沖區(qū),除非端點(diǎn)的擁塞控制協(xié)議作出反應(yīng),因此PFC事件可以快速形成逆向“擁塞樹(shù)”,跟隨網(wǎng)絡(luò)中受害流量的流動(dòng)。擁塞樹(shù)是無(wú)丟包網(wǎng)絡(luò)中的一個(gè)普遍問(wèn)題,有時(shí)被稱(chēng)為PFC風(fēng)暴。可以通過(guò)更細(xì)粒度地跟蹤擁塞情況來(lái)解決這個(gè)問(wèn)題,例如在個(gè)別流量而不是優(yōu)先級(jí)的基礎(chǔ)上。然而,這要求網(wǎng)絡(luò)交換機(jī)維護(hù)流狀態(tài)以識(shí)別個(gè)別流量。另一種方法是嘗試將擁塞流動(dòng)態(tài)地移動(dòng)到擁塞優(yōu)先級(jí)中,以避免受害者(參見(jiàn)擁塞隔離,P802.1Qcz)。另一個(gè)問(wèn)題是無(wú)丟包通道現(xiàn)在消耗了已經(jīng)稀缺的流量類(lèi)別(獨(dú)立的緩沖區(qū)空間)。這從數(shù)據(jù)中心提供商那里奪取了一個(gè)重要的資源,他們已經(jīng)將這些流量類(lèi)別用于差異化服務(wù),如大流備份、低延遲視頻會(huì)議等。用于RoCE(或其它無(wú)丟包)流量的任何流量類(lèi)別都會(huì)在整個(gè)網(wǎng)絡(luò)中丟失。

這種擁塞樹(shù)對(duì)于incast工作負(fù)載尤其成問(wèn)題,它們可能會(huì)阻塞整個(gè)網(wǎng)絡(luò),特別是在包級(jí)自適應(yīng)或無(wú)感知路由的背景下。然而,在incast鏈路上,每個(gè)流量的帶寬非常低,這意味著理論上這些流量只需要很少的網(wǎng)絡(luò)緩沖區(qū)就可以飽和鏈路。RoCE擁塞控制的純速率特性允許源端注入(過(guò)多)的數(shù)據(jù)包,這些數(shù)據(jù)包會(huì)迅速填滿(mǎn)網(wǎng)絡(luò)緩沖區(qū)。例如,基于窗口的方案將允許管理員直接控制每個(gè)流的網(wǎng)絡(luò)范圍內(nèi)的緩沖區(qū)占用情況。

任何具有有限緩沖區(qū)的無(wú)丟包方案都會(huì)遇到死鎖問(wèn)題,如果路由允許形成循環(huán)。可以通過(guò)無(wú)環(huán)路由方案或特殊緩沖策略來(lái)避免死鎖,但這都會(huì)帶來(lái)一定的(小)成本。即使路由通常是無(wú)死鎖的,鏈路故障后發(fā)生的瞬態(tài)狀態(tài)也可能導(dǎo)致死鎖。避免這些情況更加困難,但可以通過(guò)在交換機(jī)中配置數(shù)據(jù)包超時(shí)來(lái)動(dòng)態(tài)解決這個(gè)問(wèn)題。

3)回退N(Go-back-N)重傳

RoCE的設(shè)計(jì)針對(duì)的是非常簡(jiǎn)單的硬件,遵循InfiniBand的有序和基于credit的無(wú)丟包傳輸。這意味著數(shù)據(jù)包只有在被位錯(cuò)誤破壞時(shí)才會(huì)丟失,這是非常罕見(jiàn)的事件。因此,重傳邏輯可以很簡(jiǎn)單:如果接收方檢測(cè)到數(shù)據(jù)包流中的間隙(即跳過(guò)的序列號(hào)),它向發(fā)送方發(fā)送負(fù)確認(rèn)(NACK)并丟棄所有后續(xù)數(shù)據(jù)包。然后發(fā)送方從丟失的數(shù)據(jù)包開(kāi)始重新發(fā)送所有數(shù)據(jù)包。這個(gè)方案實(shí)際上丟棄并重傳了一個(gè)完整的端到端的BW*RTT(帶寬延遲乘積)的數(shù)據(jù)。

假設(shè)一個(gè)具有800Gb/s鏈路速度和最壞情況下每跳延遲為600ns的三層Fat Tree網(wǎng)絡(luò)。端點(diǎn)觀察到的總往返時(shí)間(RTT)將為3.6微秒。每條鏈路上的有效誤碼率可以高達(dá)1e-12(根據(jù)以太網(wǎng)規(guī)范提出的建議) ,我們假設(shè)使用9kiB的幀,單個(gè)幀丟失的概率為3.3e-8(有關(guān)推導(dǎo)請(qǐng)參見(jiàn)附錄A)。因此,由于回退N重傳而造成的總帶寬損失可以忽略不計(jì),僅為0.00013%。

簡(jiǎn)單的回退N重傳方案的一個(gè)更大問(wèn)題是它不支持多路徑傳輸或無(wú)序傳輸。任何兩個(gè)經(jīng)過(guò)的數(shù)據(jù)包都會(huì)觸發(fā)一次昂貴的重傳事件,導(dǎo)致整個(gè)BW*RTT傳輸丟失。最新一代的RoCE網(wǎng)絡(luò)接口卡引入了選擇性重傳來(lái)緩解這個(gè)問(wèn)題。然而,這些功能通常是有限的。例如,NVIDIA的ConnectX6適配器不支持啟用選擇性重傳的標(biāo)簽匹配的自適應(yīng)路由。然而,回退N重傳具有一個(gè)有趣的優(yōu)勢(shì):如果發(fā)生了位錯(cuò)誤并且數(shù)據(jù)包在較低層次被(悄悄地)丟棄,一旦下一個(gè)數(shù)據(jù)包到達(dá),錯(cuò)誤就會(huì)立即被檢測(cè)到。而支持無(wú)序傳輸?shù)钠渌桨感枰却l(fā)送方的超時(shí)到期,這可能導(dǎo)致更長(zhǎng)的恢復(fù)時(shí)間和抖動(dòng)。因此,在設(shè)計(jì)新的傳輸協(xié)議時(shí),需要仔細(xì)考慮所有這些權(quán)衡。

4)擁塞控制與其它流量的協(xié)同

RoCE的默認(rèn)擁塞控制依賴(lài)于與無(wú)丟包傳輸假設(shè)密切相關(guān)的非常簡(jiǎn)單的速率控制。許多研究人員已經(jīng)意識(shí)到,這種簡(jiǎn)單的機(jī)制與TCP/IP等其它流量集成不良,并且在數(shù)據(jù)中心環(huán)境中通常可以改進(jìn)。諸如DCQCN [5]、TIMELY [6]和HPCC [4]之類(lèi)的機(jī)制構(gòu)建在RoCE之上,以改善流量的傳輸。目前大多數(shù)RoCE部署使用非標(biāo)準(zhǔn)的擁塞控制機(jī)制,這導(dǎo)致不同供應(yīng)商之間甚至同一供應(yīng)商的不同硬件版本之間的互操作性困難。這是因?yàn)閾砣刂迫匀皇且粋€(gè)棘手的問(wèn)題,不同的工作負(fù)載可能需要協(xié)議的不同調(diào)優(yōu)版本。

例如,在無(wú)感知同步工作負(fù)載中,通常重復(fù)的端點(diǎn)非擁塞自由的大規(guī)模數(shù)據(jù)傳輸可以基于預(yù)期的流量模式進(jìn)行快速學(xué)習(xí)甚至靜態(tài)配置[2],[13]。高度動(dòng)態(tài)的incast場(chǎng)景需要通過(guò)接收方或網(wǎng)絡(luò)信號(hào)協(xié)調(diào)多個(gè)發(fā)送方。小于帶寬延遲乘積的小消息的延遲敏感工作負(fù)載可能是最棘手的,特別是如果它們以不可預(yù)測(cè)的數(shù)據(jù)驅(qū)動(dòng)通信模式出現(xiàn)。這些可能需要依靠交換機(jī)緩沖區(qū)來(lái)吸收網(wǎng)絡(luò)級(jí)的臨時(shí)負(fù)載不平衡。總的來(lái)說(shuō),擁塞控制方案是并將繼續(xù)是研究的重點(diǎn),即使在部署后也需要不斷進(jìn)行調(diào)優(yōu)。與TCP或QUIC等不同類(lèi)型的流量共存還需要不斷的采用。因此,這些方案不僅需要在硬件上快速和廉價(jià),還需要靈活并支持廣泛的參數(shù)化設(shè)置。

另一方面的論點(diǎn)考慮了交換機(jī)的隊(duì)列大小和占用情況。數(shù)據(jù)中心交換機(jī)傳統(tǒng)上具有大容量(深度)的緩沖區(qū),以適應(yīng)流量突發(fā)情況,而無(wú)需進(jìn)行丟包來(lái)適應(yīng)慢速的端到端速率調(diào)整。另一方面,用于HPC的交換機(jī)通常使用非常淺的緩沖區(qū)并具有嚴(yán)格的反向壓力,這是由于它們可靠的鏈路級(jí)流控制機(jī)制所決定的[3]。此外,HPC網(wǎng)絡(luò)拓?fù)渫ǔ>哂斜葦?shù)據(jù)中心部署更低的直徑[14]。因此,HPC部署支持較低延遲操作,因?yàn)樾〉臄?shù)據(jù)包不太可能在較長(zhǎng)的流量后面的緩沖區(qū)中等待。采用RoCE的數(shù)據(jù)中心網(wǎng)絡(luò)通常在效率上結(jié)合了這兩者:它們使用了帶有所有問(wèn)題的無(wú)丟包傳輸,而交換機(jī)的緩沖區(qū)相對(duì)較大。因此,許多現(xiàn)代擁塞控制機(jī)制的目標(biāo)是保持緩沖區(qū)占用率較低,使這個(gè)非常昂貴的資源不被利用!

5)報(bào)頭大小、數(shù)據(jù)包速率、可擴(kuò)展性

RoCEv2除了InfiniBand的基本傳輸頭(BTH)外,還使用了完整的以太網(wǎng)L2和UDP/IP報(bào)頭。因此,每個(gè)數(shù)據(jù)包的報(bào)頭開(kāi)銷(xiāo)相當(dāng)大:22字節(jié)的L2報(bào)頭、20字節(jié)的IP報(bào)頭、8字節(jié)的UDP報(bào)頭、12字節(jié)的BTH報(bào)頭和4字節(jié)的ICRC,總共為66字節(jié)。例如,本地路由的InfiniBand只有總報(bào)頭大小為20字節(jié):8字節(jié)用于本地路由報(bào)頭,12字節(jié)用于BTH報(bào)頭。其它HPC協(xié)議的報(bào)頭大小小于40字節(jié)。

這既影響原始數(shù)據(jù)包速率,也影響處理開(kāi)銷(xiāo)和成本,因?yàn)閺?fù)雜的報(bào)頭需要更多的報(bào)頭處理。僅僅對(duì)于小有效載荷的數(shù)據(jù)包速率可能是有問(wèn)題的。假設(shè)我們以8字節(jié)消息為例,用于共軛梯度求解器的單元素約簡(jiǎn)操作或精細(xì)全局圖更新。在800Gb/s的鏈路上,最大速率(不包括報(bào)頭)將達(dá)到12.5千億數(shù)據(jù)包每秒(Gpps)。使用InfiniBand報(bào)頭,速率將下降到3.5Gpps,使用RoCEv2報(bào)頭將下降到1.4Gpps。數(shù)據(jù)包中將近90%是報(bào)頭開(kāi)銷(xiāo)!而我們忽略了用于MPI或RDMA終端的其它協(xié)議報(bào)頭。然而,鑒于目前的NIC數(shù)據(jù)包處理速度較慢(每個(gè)NIC小于1Gpps),報(bào)頭大小可能不是最大的問(wèn)題。此外,NIC需要處理確認(rèn)數(shù)據(jù)包,這對(duì)于選擇性確認(rèn)和重傳協(xié)議可能是特別具有挑戰(zhàn)性的。高用戶(hù)級(jí)和協(xié)議消息速率要求在NIC中進(jìn)行并行處理,考慮到時(shí)鐘速率的停滯。

RoCE的數(shù)據(jù)包格式與InfiniBand的傳輸層謂詞緊密相關(guān),它的基本概念是隊(duì)列對(duì)(QP)之間的連接。單個(gè)連接的上下文狀態(tài)大小取決于實(shí)現(xiàn)細(xì)節(jié),但是大型集群的全互聯(lián)可能會(huì)有問(wèn)題。每個(gè)隊(duì)列對(duì)至少需要保持連接信息和狀態(tài),如序列號(hào)、目標(biāo)地址和隊(duì)列對(duì)號(hào)碼。連接狀態(tài)可能相對(duì)較大,在某些實(shí)現(xiàn)中可達(dá)1kB每個(gè)連接。

在對(duì)延遲敏感的工作負(fù)載中,小數(shù)據(jù)包通常很重要,其中一些工作負(fù)載受限于NIC發(fā)出新消息的速率。更精簡(jiǎn)的報(bào)頭潛在地降低延遲并增加消息速率,同時(shí)允許更高效的帶寬利用率。

6)不支持智能堆棧

隨著網(wǎng)絡(luò)開(kāi)銷(xiāo)在數(shù)據(jù)中心工作負(fù)載中變得更加重要,設(shè)計(jì)了更智能的堆棧。例如,QUIC協(xié)議允許將傳輸處理推向應(yīng)用程序,應(yīng)用程序可以定義特定于應(yīng)用程序的協(xié)議。這使得可以為不同的服務(wù)需求運(yùn)行不同的協(xié)議,例如對(duì)延遲不敏感的視頻流,對(duì)延遲敏感的音頻會(huì)議,或者通常具有彈性但大型備份流量。RoCE的硬件加速哲學(xué)不支持不同的傳輸協(xié)議,即使用戶(hù)級(jí)堆棧能夠指定流量的其它屬性(例如,將消息標(biāo)記為對(duì)亂序傳遞具有彈性)。

新興的智能網(wǎng)卡在這一領(lǐng)域帶來(lái)了新的機(jī)會(huì),用戶(hù)可配置的內(nèi)核可以在網(wǎng)卡上執(zhí)行數(shù)據(jù)包和協(xié)議處理[15]。此外,網(wǎng)絡(luò)中的遙測(cè)(INT)可以為這些協(xié)議提供額外的信號(hào)以做出相應(yīng)的反應(yīng)。因此,即使堆棧對(duì)流量類(lèi)型有額外的了解,當(dāng)前的RoCE也將其限制在相對(duì)簡(jiǎn)單且不靈活的協(xié)議中,無(wú)法充分利用這些知識(shí)。

7)安全性

RoCE已知存在一些安全問(wèn)題[16],[17],特別是在多租戶(hù)環(huán)境中。其中許多問(wèn)題源于協(xié)議的安全性、身份驗(yàn)證和加密在設(shè)計(jì)時(shí)的次要地位。然而,今天,這些屬性變得更加重要。

IPSEC可以用于保護(hù)L3報(bào)頭和有效載荷,但需要基于每個(gè)隊(duì)列對(duì)啟用,以確保沒(méi)有兩個(gè)租戶(hù)共享一組密鑰。這在連接上下文開(kāi)銷(xiāo)和性能方面可能相當(dāng)昂貴。此外,RoCE不支持將內(nèi)存區(qū)域子委托給其它節(jié)點(diǎn)。這兩個(gè)問(wèn)題可以通過(guò)現(xiàn)代密鑰派生協(xié)議來(lái)解決[16]。

8)鏈路級(jí)可靠性

向更高的收發(fā)器速度邁進(jìn)導(dǎo)致了在不斷增長(zhǎng)的頻率下運(yùn)行的更復(fù)雜的編碼和調(diào)制方案。在50G通道上,以太網(wǎng)從簡(jiǎn)單的兩電平NRZ轉(zhuǎn)移到了四電平PAM4編碼。如今的100G通道以25GHz運(yùn)行,接收器需要在納秒級(jí)內(nèi)區(qū)分四個(gè)電平。電纜和連接器中的信號(hào)衰減以及越來(lái)越復(fù)雜的模擬電路導(dǎo)致比特錯(cuò)誤率(BER)很快會(huì)達(dá)到1e-4的高水平。

前向糾錯(cuò)(FEC)被引入以避免由于網(wǎng)絡(luò)中丟棄損壞的數(shù)據(jù)包而導(dǎo)致過(guò)多的端到端重傳。以太網(wǎng)在鏈路層目標(biāo)為1e-12的誤碼率(BER),目前使用Reed-Solomon編碼,使用包含514個(gè)這樣的符號(hào)的塊,以及30個(gè)附加的編碼符號(hào)(RS544)。這使得接收器能夠糾正15個(gè)隨機(jī)比特錯(cuò)誤和最多150個(gè)連續(xù)(突發(fā))比特錯(cuò)誤。其它FEC編碼,如LLFEC(RS272,RS544的一半大?。┖虵irecode提供較低的延遲,但對(duì)比特錯(cuò)誤的保護(hù)也較低。

一般來(lái)說(shuō),F(xiàn)EC帶來(lái)的延遲和能耗成本分為兩類(lèi):(1)累積5,140比特的數(shù)據(jù)和(2)編碼和解碼編碼符號(hào)。前者隨著鏈路帶寬的增加而減少,后者取決于實(shí)現(xiàn),實(shí)際上的延遲在20到100納秒之間。圖2顯示了不同鏈路帶寬下的預(yù)期RS544 FEC情況。

5d094756-2221-11ee-962d-dac502259ad0.png

對(duì)于固定的RS544 FEC,延遲隨著更快的鏈路帶寬而減少,但不會(huì)低于FEC計(jì)算開(kāi)銷(xiāo)。然而,更快的通道可能導(dǎo)致顯著更高的比特錯(cuò)誤率。事實(shí)上,RS544可能無(wú)法將預(yù)期的1e-4的BER糾正到所需的1e-12。因此,未來(lái)的以太網(wǎng)標(biāo)準(zhǔn)可能采用更復(fù)雜的FEC機(jī)制,這可能會(huì)顯著增加延遲。

在PCIe中使用了一種替代方法,它也涉及由于復(fù)雜連接器而導(dǎo)致的相對(duì)較高的BER,但它被設(shè)計(jì)為低延遲的本地互連,目標(biāo)延遲約為5納秒。例如,即將推出的PCIe 6.0規(guī)范使用6個(gè)字節(jié)的FEC來(lái)保護(hù)242字節(jié)的塊,還有額外的8字節(jié)CRC。接收器首先使用FEC來(lái)糾正一些比特錯(cuò)誤,然后檢查CRC。如果此檢查失敗,它將啟動(dòng)一個(gè)簡(jiǎn)單的鏈路層重傳協(xié)議以再次請(qǐng)求數(shù)據(jù)。FEC將比特錯(cuò)誤率從1e-4降低到1e-6,然后CRC觸發(fā)的重傳概率小于1e-5。由于FEC導(dǎo)致的延遲增加不到2納秒,由于重傳導(dǎo)致的帶寬減少不到2%。以太網(wǎng)面臨的挑戰(zhàn)是更長(zhǎng)的鏈路導(dǎo)致更高的鏈路延遲。

系統(tǒng)問(wèn)題

不斷增長(zhǎng)的鏈路級(jí)和因此的端到端延遲可能導(dǎo)致系統(tǒng)級(jí)問(wèn)題增加。較高的延遲導(dǎo)致更高的緩沖區(qū)占用和能耗。不太明顯的是,較高的延遲導(dǎo)致?lián)砣刂菩式档停簜鬏斔俣瓤煊趩蝹€(gè)往返時(shí)間(RTT)的消息無(wú)法從依賴(lài)接收器通知的擁塞控制機(jī)制中受益。因此,對(duì)于具有小消息的不良incast情況來(lái)說(shuō),情況變得更糟或至少更常見(jiàn),因?yàn)椤靶∠ⅰ钡拇笮≡黾?。圖3顯示了當(dāng)前數(shù)據(jù)中心中一些實(shí)際延遲下的帶寬延遲乘積的大小,顯示即使對(duì)于1 MiB的消息,通過(guò)限制發(fā)送者的速度來(lái)有效處理incast仍然被認(rèn)為“太小”。因此,具有較高延遲的問(wèn)題性incast模式可能會(huì)變得更加常見(jiàn)!

5d27edaa-2221-11ee-962d-dac502259ad0.png

換句話說(shuō),如果系統(tǒng)可以快速地限制發(fā)送者的速度,那么可以將消息大小降低到incast成為問(wèn)題的下限以下。這可以通過(guò)降低延遲或讓交換機(jī)直接向源報(bào)告incast擁塞(而不經(jīng)過(guò)接收器)來(lái)實(shí)現(xiàn)。此外,如果只有非常小的消息會(huì)導(dǎo)致糟糕的incast情況,那么交換機(jī)緩沖區(qū)可能在常見(jiàn)情況下僅吸收它們,而不會(huì)耗盡資源。當(dāng)沿著incast樹(shù)傳播時(shí),多組交換機(jī)緩沖區(qū)可以吸收瞬態(tài)incast消息,當(dāng)然,這可能導(dǎo)致網(wǎng)絡(luò)中的擁塞樹(shù)。這樣的整體系統(tǒng)問(wèn)題仍然是一個(gè)開(kāi)放的討論話題,但似乎較低的延遲通常會(huì)簡(jiǎn)化這些問(wèn)題。

還需要關(guān)注整體堆棧的其它方面,這些方面可能相當(dāng)復(fù)雜。例如,簡(jiǎn)單而清晰的(遠(yuǎn)程)內(nèi)存語(yǔ)義很難定義、推理和正確實(shí)現(xiàn)[19]。此外,將進(jìn)程本地虛擬地址暴露給遠(yuǎn)程主機(jī)可能會(huì)對(duì)安全性和性能造成問(wèn)題??梢钥紤]使用相對(duì)于內(nèi)存區(qū)域的尋址方案[20]。從安全性的角度來(lái)看,這兩種方案都有其弱點(diǎn):暴露地址可以了解遠(yuǎn)程進(jìn)程的信息,然而對(duì)于攻擊者來(lái)說(shuō),固定偏移量更容易猜測(cè)[17]。我們指出,這些問(wèn)題是所有RDMA系統(tǒng)的普遍問(wèn)題,而不僅僅是RoCE。

路由和負(fù)載均衡仍然是一個(gè)開(kāi)放性挑戰(zhàn)-大多數(shù)HPC網(wǎng)絡(luò)使用具有相對(duì)先進(jìn)的網(wǎng)絡(luò)內(nèi)部機(jī)制的分組級(jí)自適應(yīng)路由[3],而大多數(shù)數(shù)據(jù)中心網(wǎng)絡(luò)使用簡(jiǎn)單的由端點(diǎn)驅(qū)動(dòng)的無(wú)感知ECMP,它通過(guò)更改頭字段以非常簡(jiǎn)單的方式指導(dǎo)路徑選擇。數(shù)據(jù)中心中這種ECMP負(fù)載均衡的粒度從傳統(tǒng)上的完整流量到最近考慮的流塊都有。流塊是具有足夠間隙的連續(xù)數(shù)據(jù)包序列,即使沿不同路徑發(fā)送,它們也無(wú)法相互交錯(cuò)。這種間隙可以通過(guò)延遲數(shù)據(jù)包或自然產(chǎn)生。最近,數(shù)據(jù)中心網(wǎng)絡(luò)正朝著更細(xì)粒度的負(fù)載均衡機(jī)制發(fā)展。另一個(gè)挑戰(zhàn)是一些應(yīng)用程序要求按順序傳遞消息??偟膩?lái)說(shuō),亂序的粒度和能力嚴(yán)重依賴(lài)于應(yīng)用程序的要求和端點(diǎn)NIC的能力。更細(xì)粒度和更好的亂序能力簡(jiǎn)化了網(wǎng)絡(luò)負(fù)載均衡。

預(yù)測(cè)

基于所有這些觀點(diǎn),我們預(yù)測(cè)學(xué)術(shù)界和行業(yè)將重新審視數(shù)據(jù)中心以太網(wǎng)。下一代以太網(wǎng)可能會(huì)支持有損和無(wú)損的RDMA連接傳輸模式,以允許智能交換機(jī)緩沖區(qū)管理。這將使提供預(yù)留空間緩沖區(qū)成為可選項(xiàng),并避免無(wú)損網(wǎng)絡(luò)的其它問(wèn)題,如受害流和擁塞樹(shù)。下一代以太網(wǎng)也不太可能采用Go-Back-N的重傳語(yǔ)義,而是選擇更細(xì)粒度的機(jī)制,如選擇性確認(rèn)。此外,它可能會(huì)將擁塞管理作為規(guī)范的一部分。對(duì)于與其它流共存的情況,將特別注意,尤其是在有損流量類(lèi)別中。這些協(xié)議將以靈活的方式設(shè)計(jì),以支持智能的網(wǎng)絡(luò)堆棧,安全性將最終成為重要的一環(huán)。我們還可能在報(bào)頭和可靠性方法方面看到創(chuàng)新。

這些現(xiàn)代化將推動(dòng)人工智能、高性能計(jì)算和存儲(chǔ)系統(tǒng)的新一代高性能網(wǎng)絡(luò)生態(tài)系統(tǒng),這些系統(tǒng)是超大規(guī)模數(shù)據(jù)中心的核心。這種發(fā)展將結(jié)束HPC和數(shù)據(jù)中心網(wǎng)絡(luò)的融合!







審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 以太網(wǎng)
    +關(guān)注

    關(guān)注

    40

    文章

    5288

    瀏覽量

    169679
  • 人工智能
    +關(guān)注

    關(guān)注

    1787

    文章

    46061

    瀏覽量

    235039
  • 有線局域網(wǎng)
    +關(guān)注

    關(guān)注

    0

    文章

    4

    瀏覽量

    5962
  • RDMA
    +關(guān)注

    關(guān)注

    0

    文章

    74

    瀏覽量

    8896
  • TCP通信
    +關(guān)注

    關(guān)注

    0

    文章

    146

    瀏覽量

    4184

原文標(biāo)題:數(shù)據(jù)中心以太網(wǎng)和RDMA:超大規(guī)模環(huán)境下的問(wèn)題

文章出處:【微信號(hào):SDNLAB,微信公眾號(hào):SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Zettabyte與緯創(chuàng)攜手打造臺(tái)灣首個(gè)超大規(guī)模AI數(shù)據(jù)中心

    在推動(dòng)亞太地區(qū)AI計(jì)算領(lǐng)域邁向新紀(jì)元的征程中,Zettabyte與緯創(chuàng)資通(Wistron Corporation)攜手宣布了一項(xiàng)重大合作——共同建設(shè)臺(tái)灣地區(qū)首個(gè)超大規(guī)模AI數(shù)據(jù)中心,這一里程碑式的項(xiàng)目不僅標(biāo)志著臺(tái)灣AI基礎(chǔ)設(shè)施的飛躍,也預(yù)示著亞太區(qū)AI計(jì)算格局的深刻變革
    的頭像 發(fā)表于 09-05 16:26 ?229次閱讀

    谷歌正在考慮在越南建設(shè)超大規(guī)模數(shù)據(jù)中心

    據(jù)可靠消息透露,Alphabet集團(tuán)旗下的谷歌公司正積極籌劃在越南南部的經(jīng)濟(jì)樞紐胡志明市周邊建設(shè)一座“超大規(guī)模數(shù)據(jù)中心。此舉標(biāo)志著美國(guó)科技巨頭首次在東南亞國(guó)家進(jìn)行此類(lèi)重大投資,盡管具體的投資金額尚待揭曉。
    的頭像 發(fā)表于 08-30 14:55 ?427次閱讀

    新思科技1.6T以太網(wǎng)IP解決方案推動(dòng)數(shù)據(jù)中心發(fā)展

    我們每天都在搜索引擎中搜尋大量信息,并期望在短短幾秒鐘內(nèi)得到大量的相關(guān)信息,超大規(guī)模數(shù)據(jù)中心需要處理海量數(shù)據(jù)、經(jīng)歷復(fù)雜的流程和完成各種各樣的處理工作。如果您是設(shè)計(jì)數(shù)據(jù)中心SoC的開(kāi)發(fā)者,肯定會(huì)敏銳地
    的頭像 發(fā)表于 08-12 10:29 ?264次閱讀
    新思科技1.6T<b class='flag-5'>以太網(wǎng)</b>IP解決方案推動(dòng)<b class='flag-5'>數(shù)據(jù)中心</b>發(fā)展

    有哪些技術(shù)影響超大規(guī)模數(shù)據(jù)中心建設(shè)

    從AWS的百億美元投資到Meta的八億美元布局,再到微軟在德國(guó)的數(shù)十億歐元承諾,以及Alphabet在英國(guó)的新數(shù)據(jù)中心擴(kuò)張,這些科技巨頭正競(jìng)相構(gòu)建數(shù)字世界的堅(jiān)實(shí)基石。
    的頭像 發(fā)表于 07-30 11:15 ?380次閱讀

    SAS 24G+規(guī)范發(fā)布,為超大規(guī)模數(shù)據(jù)中心HDD和SSD

    在當(dāng)前超大規(guī)模數(shù)據(jù)中心的演進(jìn)歷程中,盡管固態(tài)硬盤(pán)正日益向支持NVMe協(xié)議的PCIe接口轉(zhuǎn)型,但串行連接SCSI(SAS)技術(shù)依然是眾多關(guān)鍵應(yīng)用不可或缺的支柱。SAS存儲(chǔ)技術(shù)的生命力遠(yuǎn)未枯竭,這一點(diǎn)從
    的頭像 發(fā)表于 07-25 15:13 ?546次閱讀

    華為云華東(蕪湖)數(shù)據(jù)中心正式開(kāi)服

    近日,華為云華東(蕪湖)數(shù)據(jù)中心正式投入運(yùn)營(yíng),這一里程碑事件不僅標(biāo)志著華為云全國(guó)存算網(wǎng)樞紐節(jié)點(diǎn)布局的全面完成,更意味著“東數(shù)西算”戰(zhàn)略在長(zhǎng)三角區(qū)域迎來(lái)了重要的發(fā)展節(jié)點(diǎn)。該數(shù)據(jù)中心作為關(guān)鍵樞紐,將向華東及中部區(qū)域提供前所未有的
    的頭像 發(fā)表于 06-15 09:45 ?406次閱讀

    智算中心出現(xiàn)帶寬缺口,1.6T以太網(wǎng)力大磚飛

    隨著AI計(jì)算大量的數(shù)據(jù)訓(xùn)練與推理負(fù)載,我們對(duì)于擴(kuò)張和建設(shè)大型數(shù)據(jù)中心瓶頸的認(rèn)知,也早已經(jīng)歷了數(shù)個(gè)階段的變化。首先是算力的空缺,接著是內(nèi)存墻,最后我們到了網(wǎng)絡(luò)性能上。多年以來(lái),以太網(wǎng)作為互聯(lián)網(wǎng)的主心骨
    的頭像 發(fā)表于 04-22 16:22 ?788次閱讀

    新思科技發(fā)布1.6T以太網(wǎng)IP集成方案,助推AI與HPC網(wǎng)絡(luò)芯片市場(chǎng)發(fā)展

    是德科技(Keysight)網(wǎng)絡(luò)測(cè)量與安全解決方案副總裁拉姆·帕里卡魯潘(Ram Periakaruppan)表示:“隨著大規(guī)模AI及機(jī)器學(xué)習(xí)任務(wù)的興起,數(shù)據(jù)中心對(duì)1.6T以太網(wǎng)的需求激增。
    的頭像 發(fā)表于 03-13 16:00 ?372次閱讀

    數(shù)據(jù)中心市場(chǎng)的關(guān)鍵以太網(wǎng)解決方案

    了解數(shù)據(jù)中心市場(chǎng)動(dòng)態(tài)的關(guān)鍵在于以太網(wǎng)解決方案。Synopsys負(fù)責(zé)產(chǎn)品管理和高性能計(jì)算IP的副總裁Michael Posner說(shuō):“以太網(wǎng)數(shù)據(jù)中心中根深蒂固……雖然它并不廣為人知,但
    發(fā)表于 03-12 09:53 ?289次閱讀
    <b class='flag-5'>數(shù)據(jù)中心</b>市場(chǎng)的關(guān)鍵<b class='flag-5'>以太網(wǎng)</b>解決方案

    超大規(guī)模數(shù)據(jù)中心采用三星FDP SSD降低存儲(chǔ)成本

    主機(jī)數(shù)據(jù)放置技術(shù)一直是超大規(guī)模數(shù)據(jù)中心關(guān)注的話題,因?yàn)樗绊懰渴鸬腟SD的總體擁有成本(TCO)。
    的頭像 發(fā)表于 03-07 15:39 ?1402次閱讀
    <b class='flag-5'>超大規(guī)模數(shù)據(jù)中心</b>采用三星FDP SSD降低存儲(chǔ)成本

    晶晟微納發(fā)布N800超大規(guī)模AI算力芯片測(cè)試探針卡

    近日,上海韜盛科技旗下的蘇州晶晟微納宣布推出其最新研發(fā)的N800超大規(guī)模AI算力芯片測(cè)試探針卡。這款高性能探針卡采用了前沿的嵌入式合金納米堆疊技術(shù),旨在滿(mǎn)足當(dāng)前超大規(guī)模AI算力芯片的高精度測(cè)試需求。
    的頭像 發(fā)表于 03-04 13:59 ?734次閱讀

    中國(guó)電信規(guī)劃在上海建設(shè)首個(gè)國(guó)產(chǎn)超大規(guī)模算力液冷集群

    中國(guó)電信規(guī)劃建設(shè)首個(gè)國(guó)產(chǎn)超大規(guī)模算力液冷集群 人工智能技術(shù)的快速發(fā)展催生了巨大的算力需求;中國(guó)電信規(guī)劃在上海規(guī)劃建設(shè)可支持萬(wàn)億參數(shù)大模型訓(xùn)練的智算集群中心。其中會(huì)搭載液冷技術(shù),單池新建國(guó)產(chǎn)算力達(dá)10000卡,也是首個(gè)支持單池萬(wàn)卡的國(guó)產(chǎn)
    的頭像 發(fā)表于 02-22 18:48 ?1226次閱讀

    6G超大規(guī)模多天線的技術(shù)演進(jìn)歷程

    從3G到5G時(shí)代,天線規(guī)模發(fā)生了顯著的變化,5G超大規(guī)模天線技術(shù)具有許多優(yōu)勢(shì),但面向6G的極致性能要求還需持續(xù)演進(jìn)
    發(fā)表于 11-21 09:19 ?664次閱讀
    6G<b class='flag-5'>超大規(guī)模</b>多天線的技術(shù)演進(jìn)歷程

    RDMA(遠(yuǎn)程直接內(nèi)存訪問(wèn))傳輸協(xié)議概述和應(yīng)用案例

    人工智能 (AI) 的興起極大地提高了對(duì)強(qiáng)大、高效和可擴(kuò)展的網(wǎng)絡(luò)傳輸協(xié)議的需求。本文深入探討了 RDMA(遠(yuǎn)程直接內(nèi)存訪問(wèn))傳輸協(xié)議,并重點(diǎn)討論 ROCEv2 協(xié)議,目前基于 ROCEv2 的 RDMA已經(jīng)在一些超大規(guī)模數(shù)據(jù)中心
    的頭像 發(fā)表于 10-25 10:19 ?2024次閱讀
    <b class='flag-5'>RDMA</b>(遠(yuǎn)程直接內(nèi)存訪問(wèn))傳輸協(xié)議概述和應(yīng)用案例

    降低112G以太網(wǎng)PHY IP集成風(fēng)險(xiǎn)的5種方法

    為了滿(mǎn)足人工智能(AI)、高性能計(jì)算(HPC)、電信、4K視頻流媒體等各種高帶寬、低延遲應(yīng)用的需求,超大規(guī)模數(shù)據(jù)中心正在快速發(fā)展。此類(lèi)應(yīng)用依托新一代Multi-Die系統(tǒng)、AI加速器和機(jī)器學(xué)習(xí)(ML
    的頭像 發(fā)表于 10-18 13:59 ?692次閱讀
    降低112G<b class='flag-5'>以太網(wǎng)</b>PHY IP集成風(fēng)險(xiǎn)的5種方法