自20世紀(jì)80年代以來(lái),以太網(wǎng)一直是一項(xiàng)基礎(chǔ)技術(shù)。早期,工作站和個(gè)人電腦使用同軸電纜以10Mbps速率的共享局域網(wǎng)連接到現(xiàn)場(chǎng)服務(wù)器。此后,以太網(wǎng)不斷發(fā)展,不僅支持雙絞線和光纖布線,速率也從100Mbps發(fā)展到100Gbps,甚至是最新的1.6Tbps標(biāo)準(zhǔn)。
隨著以太網(wǎng)速度的提高,其應(yīng)用越發(fā)多樣化,從音、視頻流到多房間音頻、工控網(wǎng)絡(luò),甚至車載網(wǎng)絡(luò)。這一進(jìn)展對(duì)數(shù)據(jù)傳輸提出了更高的安全可靠性要求。尤其是對(duì)丟失和延遲特別敏感的數(shù)據(jù)流來(lái)說(shuō),定義服務(wù)質(zhì)量是至關(guān)重要的。
本文將深入探討為什么需要1.6T數(shù)據(jù)傳輸、IEEE802.3dj小組的標(biāo)準(zhǔn)化工作、對(duì)1.6T以太網(wǎng)子系統(tǒng)組件的概述以及處理所有這些數(shù)據(jù)所需的以太網(wǎng)控制器的FEC考慮因素等內(nèi)容。
我們?yōu)槭裁葱枰绱烁叩膫鬏斔俣龋?/strong>
以太網(wǎng)的發(fā)展主要有兩個(gè)維度:
1.
傳輸和存儲(chǔ)海量數(shù)據(jù)的性能得到了提升;
2.
網(wǎng)絡(luò)的可預(yù)測(cè)性和可靠性得到了提高,即使是要求最苛刻的控制系統(tǒng)也能被滿足。
如今,互聯(lián)網(wǎng)的帶寬估計(jì)可達(dá)到500Tbps,這對(duì)數(shù)據(jù)中心內(nèi)的后端流量提出了驚人的要求。雖然數(shù)據(jù)中心內(nèi)的總流量已經(jīng)能夠達(dá)到每秒太比特的水平,但是單個(gè)服務(wù)器還無(wú)法達(dá)到這個(gè)速度。
單個(gè)設(shè)備的處理能力是有限的,即使使用了最先進(jìn)的處理器或?qū)?a href="http://ttokpm.com/v/tag/557/" target="_blank">機(jī)器學(xué)習(xí)優(yōu)化的加速器,其性能也會(huì)受限于芯片的實(shí)際制造尺寸。然而,一旦多個(gè)芯片聯(lián)合起來(lái),我們便有可能極大地?cái)U(kuò)展計(jì)算能力。因此,太比特級(jí)速度和極低延遲的新一代以太網(wǎng)技術(shù)的出現(xiàn),讓這一技術(shù)突破成為可能,處理器間通信成為了1.6T以太網(wǎng)的首個(gè)應(yīng)用場(chǎng)景。繼這一代應(yīng)用之后,預(yù)計(jì)數(shù)據(jù)中心將推出交換機(jī)間的直連技術(shù),實(shí)現(xiàn)高性能處理器和內(nèi)存資源的集中利用,大幅提升云計(jì)算的擴(kuò)展性和運(yùn)行效率。
802.3dj:為1.6T以太網(wǎng)標(biāo)準(zhǔn)化奠定基礎(chǔ)
要實(shí)現(xiàn)有效通信,網(wǎng)絡(luò)上的每個(gè)節(jié)點(diǎn)都必須遵守同一套標(biāo)準(zhǔn)所定義的規(guī)則。電氣和電子工程師協(xié)會(huì)(IEEE)自成立以來(lái)一直負(fù)責(zé)制定以太網(wǎng)標(biāo)準(zhǔn)。目前,802.3dj小組正在制定以太網(wǎng)標(biāo)準(zhǔn)的最新版本,其中概述了以每秒200G、400G、800G和1.6T速度運(yùn)行的物理層和管理參數(shù)。
1.6Tbps的以太網(wǎng)MAC數(shù)據(jù)傳輸速率需滿足以下條件:
MAC層的最大誤碼率(BER)為10-13
可選16和8通道附件單元接口(AUI),適用于芯片到模塊(C2M)和芯片到芯片應(yīng)用(C2C),使用112G和224G SerDes。
在物理層方面,1.6Tbps的傳輸規(guī)格包括:
在每個(gè)方向上傳輸8對(duì)銅雙軸電纜,傳輸范圍至少為1米;
在8對(duì)光纖上傳輸,最長(zhǎng)可達(dá)500米
在8對(duì)光纖上傳輸,最長(zhǎng)可達(dá)2千米
預(yù)計(jì)該標(biāo)準(zhǔn)將于2026年春季確定。不過(guò),我們預(yù)計(jì)2024年底即可完成基線功能。
1.6T以太網(wǎng)子系統(tǒng)剖析
我們來(lái)深入了解下1.6Tbps以太網(wǎng)子系統(tǒng)的組件,尤其是一些用于在ASIC或ASSP硅芯片中實(shí)現(xiàn)以太網(wǎng)接口的元件。
圖2:1.6T以太網(wǎng)子系統(tǒng)組件的示意圖
網(wǎng)絡(luò)應(yīng)用
最頂層是網(wǎng)絡(luò)應(yīng)用程序,既可以安裝在客戶端機(jī)器上,也可以安裝在電腦或文件服務(wù)器上。它們既是所有以太網(wǎng)流量的來(lái)源,也是其目的地。但以太網(wǎng)橋或第二層交換機(jī)比較特殊,按照802.1d的定義規(guī)則,它是轉(zhuǎn)發(fā)數(shù)據(jù)包的中間點(diǎn)。
隊(duì)列連接
各個(gè)應(yīng)用程序或?qū)嵗ㄟ^(guò)一個(gè)或多個(gè)隊(duì)列與以太網(wǎng)控制器相連接。隊(duì)列很可能正在緩沖與應(yīng)用程序之間的流量,平衡客戶端與服務(wù)器端的網(wǎng)絡(luò)性能。為實(shí)現(xiàn)最高性能,網(wǎng)絡(luò)速度應(yīng)與流量產(chǎn)生或消耗的速度相匹配。這樣,我們就能最大限度地減少數(shù)據(jù)包在應(yīng)用程序之間端到端交換時(shí)的延遲。
控制器、物理層和布線
以太網(wǎng)控制器通常由一個(gè)MAC和一個(gè)PCS組成,但一般我們會(huì)稱之為“以太網(wǎng)MAC”。在PCS下方是附件單元接口(AUI)——有些讀者可能還記得工作站背面的D型連接器,AUI電纜就插在上面。在今天的以太網(wǎng)中,這種接口依然存在,并且速度更快了。最后,在堆棧的更下面,我們可以找到負(fù)責(zé)控制和管理網(wǎng)絡(luò)物理元素的模塊,這些模塊可能是光纖、銅纜或者背板。
1.6T以太網(wǎng)控制器:深入了解MAC、PCS和高級(jí)FEC機(jī)制
如圖3所示,在應(yīng)用程序和隊(duì)列下面是介質(zhì)訪問(wèn)控制器(MAC)。MAC負(fù)責(zé)管理以太網(wǎng)成幀——查看源地址和目標(biāo)地址、管理幀的長(zhǎng)度、在必要時(shí)添加填充(在有效載荷很短的情況下)以及添加/檢查幀校驗(yàn)序列(FCS),以確保幀的完整性。
圖3:MAC幀格式和長(zhǎng)度:八進(jìn)制分解
MAC的變體可分為兩大類:
一、網(wǎng)絡(luò)接口卡(NIC)中的MAC
這種MAC位于客戶端、服務(wù)器或路由器中的網(wǎng)卡上。它們?cè)谟行лd荷向下和向上傳遞堆棧時(shí),通過(guò)添加和刪除以太網(wǎng)的特定任務(wù)來(lái)完成終止以太網(wǎng)層的重要任務(wù)。其中一個(gè)不可或缺的功能是添加和檢查幀校驗(yàn)序列(FCS),以確保數(shù)據(jù)完整性。如果在接收時(shí)檢測(cè)到任何損壞,幀將被丟棄。此外,網(wǎng)卡中的MAC將檢查幀的目標(biāo)地址,確保在網(wǎng)絡(luò)內(nèi)準(zhǔn)確傳輸。有效載荷很可能是一個(gè)IP(互聯(lián)網(wǎng)協(xié)議)數(shù)據(jù)包。
NIC以前是一種插入式網(wǎng)卡,因此被稱為"網(wǎng)絡(luò)接口卡"。網(wǎng)卡執(zhí)行MAC、PCS和PHY,而隊(duì)列和任何其他智能功能則由主機(jī)處理器處理。如今,我們看到的智能網(wǎng)卡可以卸載許多網(wǎng)絡(luò)功能,但仍保持相同的MAC層。
二、交換/橋接MAC
交換或橋接MAC采用了不同的方法。在這里,整個(gè)以太網(wǎng)幀在MAC和上層之間傳遞。MAC負(fù)責(zé)添加和檢查FCS,并為支持遠(yuǎn)程網(wǎng)絡(luò)監(jiān)控(RMON)收集統(tǒng)計(jì)數(shù)據(jù)。從概念上講,以太網(wǎng)交換機(jī)可被視為為此目的而設(shè)計(jì)的專用應(yīng)用程序。盡管以太網(wǎng)交換機(jī)主要由硬件實(shí)現(xiàn),以保證最佳線速性能,但其每個(gè)端口都包含一個(gè)專用的MAC。盡管這些端口可能以不同的速度運(yùn)行,但任何速率適應(yīng)都是在MAC層以上的隊(duì)列中進(jìn)行管理的。
圖4:MAC、PCS和PMA與AUI連接示意圖
從基本編碼到RS-FEC
對(duì)于較低的以太網(wǎng)速率,物理編碼子層(PCS)只需對(duì)數(shù)據(jù)流進(jìn)行編碼,即可開(kāi)始檢測(cè)數(shù)據(jù)包,并確保信號(hào)平衡,即使在長(zhǎng)的0或1數(shù)據(jù)流中也是如此。然而,隨著以太網(wǎng)速度的提高,PCS的復(fù)雜性也在增加。如今,由于每個(gè)物理鏈路上都有高速信號(hào),因此有必要使用前向糾錯(cuò)(FEC)來(lái)克服固有的信號(hào)衰減,即使在很短的鏈路上也會(huì)遇到這種情況。
與其他高速以太網(wǎng)變體的PCS一樣,1.6T以太網(wǎng)采用了里德-所羅門前向糾錯(cuò)(RS-FEC)技術(shù)。這種方法建立的編碼字由514個(gè)10位符號(hào)組成,編碼成544個(gè)符號(hào)塊,因此帶寬開(kāi)銷為6%。這些FEC編解碼字分布在AUI物理鏈路上,因此每個(gè)物理鏈路(1.6T以太網(wǎng)為8個(gè))不會(huì)攜帶整個(gè)編解碼字。這種方法不僅能提供額外的錯(cuò)誤突發(fā)保護(hù),還能在遠(yuǎn)端解碼器上實(shí)現(xiàn)并行化,從而減少延遲。
圖5:1.6T以太網(wǎng)子系統(tǒng)的控制器、物理層和電纜組件示意圖
在1.6T以太網(wǎng)中實(shí)現(xiàn)最佳比特誤碼率
雖然以太網(wǎng)PHY層包括PCS,但通常將PCS與以太網(wǎng)控制器內(nèi)的MAC聯(lián)系起來(lái)。物理介質(zhì)附件(PMA)具有齒輪箱和SerDes,可將以太網(wǎng)信號(hào)傳輸?shù)絺鬏斖ǖ郎?。?duì)于1.6T以太網(wǎng),8個(gè)通道以212Gbps的速度運(yùn)行,F(xiàn)EC編碼擴(kuò)展率為6%。值得注意的是,PMA的上半部分位于控制器內(nèi),然后將比特流交給AUI。PHY的每個(gè)物理鏈路都使用4級(jí)脈沖幅度調(diào)制(PAM-4)。這種方法為每個(gè)傳輸符號(hào)編碼兩個(gè)數(shù)據(jù)位,與傳統(tǒng)的非歸零(NRZ)傳輸相比,帶寬增加了一倍。發(fā)送器采用數(shù)模轉(zhuǎn)換器(DAC)對(duì)數(shù)據(jù)進(jìn)行調(diào)制,而遠(yuǎn)端接收器則使用模數(shù)轉(zhuǎn)換器(ADC)和DSP來(lái)提取原始信號(hào)。
以太網(wǎng)PCS在以太網(wǎng)鏈路端到端使用的數(shù)據(jù)流中增加了FEC,在長(zhǎng)距離以太網(wǎng)鏈路中通常稱為"外部FEC"。IEEE正在為單個(gè)物理線路定義額外的糾錯(cuò)級(jí)別,以實(shí)現(xiàn)更長(zhǎng)的傳輸距離。在需要糾錯(cuò)的地方,光收發(fā)器模塊將支持這種額外的糾錯(cuò)(可能是一種漢明碼)。圖6顯示了使用串聯(lián)FEC擴(kuò)展傳輸距離時(shí)增加的開(kāi)銷。
讓我們看一下圖6中的系統(tǒng)示例,其中MAC和PCS的光發(fā)射器和接收器被一段光纖隔開(kāi):
圖6:用一段光纖分隔MAC和PCS光TX/RX的示意圖
在與光模塊相連的鏈路上,PCS的誤碼率為10^-5,加上在光鏈路上引入的額外誤碼。如果我們只在該系統(tǒng)中端對(duì)端實(shí)施單個(gè)RS-FEC,則產(chǎn)生的誤碼率將無(wú)法滿足10^-13以太網(wǎng)要求。該鏈路將被歸類為不可靠鏈路。另一種方法是在每一跳上實(shí)施單獨(dú)的RSFEC,RSFEC將進(jìn)行三次編碼和解碼。一次在發(fā)送PCS,然后在光模塊,最后在從光模塊到遠(yuǎn)程PCS的遠(yuǎn)端鏈路。這樣做的成本很高,而且會(huì)增加端到端延遲。
將串聯(lián)漢明碼FEC集成到光鏈路中是一種最佳解決方案,既能滿足以太網(wǎng)要求,又能很好地處理光連接中遇到的隨機(jī)誤差。內(nèi)部FEC層將線路速率從212Gbps提高到226Gbps,因此SerDes必須能夠支持這一線路速率。
從發(fā)送到接收:了解以太網(wǎng)應(yīng)用中的延遲狀況
簡(jiǎn)單地說(shuō),以太網(wǎng)延遲是指從一個(gè)應(yīng)用程序通過(guò)以太網(wǎng)傳輸信息到另一個(gè)應(yīng)用程序接收信息之間的延遲。往返延遲測(cè)量的是從發(fā)送信息到收到響應(yīng)所需的時(shí)間。當(dāng)然,這種延遲取決于遠(yuǎn)端應(yīng)用程序的響應(yīng)時(shí)間,在考慮以太網(wǎng)延遲時(shí),可以忽略這一點(diǎn),因?yàn)樗且蕴W(wǎng)的外部延遲。以太網(wǎng)延遲的組成部分包括發(fā)送隊(duì)列、信息處理時(shí)間、傳輸持續(xù)時(shí)間、介質(zhì)穿越時(shí)間、信息接收時(shí)間、結(jié)束處理時(shí)間和接收隊(duì)列中的時(shí)間。
圖7:描述完整1.6T以太網(wǎng)子系統(tǒng)和延遲路徑的示意圖
在關(guān)注最大限度減少以太網(wǎng)子系統(tǒng)(特別是以太網(wǎng)接口級(jí),而非整個(gè)網(wǎng)絡(luò))中的延遲時(shí),考慮具體情況至關(guān)重要,例如,當(dāng)數(shù)據(jù)包源和數(shù)據(jù)包匯以匹配的高數(shù)據(jù)速率運(yùn)行時(shí)。相反,在中繼連接(如交換機(jī)之間的連接)中,由于較慢的客戶端鏈路會(huì)產(chǎn)生較明顯的延遲,因此延遲就不那么重要了。同樣,在處理較長(zhǎng)距離時(shí),距離造成的固有延遲將占主導(dǎo)地位。
此外,值得注意的是,時(shí)間敏感網(wǎng)絡(luò)(TSN)解決的是確定性延遲問(wèn)題。在這種情況下,關(guān)鍵任務(wù)應(yīng)用的最大延遲上限已被確定,尤其是對(duì)于低速網(wǎng)絡(luò)或共享基礎(chǔ)設(shè)施網(wǎng)絡(luò)。當(dāng)然,這并不意味著我們應(yīng)該忽視其他情況下的延遲。最大限度地減少延遲仍然是一個(gè)不變的目標(biāo)。首先,端到端的累計(jì)延遲會(huì)隨著每一次連續(xù)跳轉(zhuǎn)而增加。其次,延遲的增加往往表明控制器中增加了電路或處理功能,這可能會(huì)導(dǎo)致系統(tǒng)功耗增加。
延遲洞察:剖析以太網(wǎng)子系統(tǒng)層
首先,我們拋開(kāi)任何隊(duì)列延遲不談,假設(shè)從應(yīng)用程序到以太網(wǎng)控制器之間有一條清晰的路徑,沒(méi)有任何帶寬競(jìng)爭(zhēng)。帶寬差異會(huì)導(dǎo)致數(shù)據(jù)包排隊(duì)延遲,當(dāng)延遲至關(guān)重要時(shí),應(yīng)避免這種情況。當(dāng)數(shù)據(jù)包通過(guò)傳輸控制器時(shí),以太網(wǎng)幀會(huì)即時(shí)建立或修改。值得注意的是,線路編碼和傳輸FEC階段不需要大量存儲(chǔ)。
傳輸報(bào)文處理延遲取決于具體的實(shí)現(xiàn)方式,但可以通過(guò)良好的設(shè)計(jì)實(shí)踐將其最小化。傳輸信息所需的時(shí)間取決于以太網(wǎng)速率和幀大小。對(duì)于1.6T以太網(wǎng),傳輸一個(gè)最小大小的數(shù)據(jù)包需要0.4ns-基本上是2.5GHz時(shí)鐘每跳動(dòng)一下就傳輸一個(gè)以太網(wǎng)幀。標(biāo)準(zhǔn)最大以太網(wǎng)幀的傳輸時(shí)間為8ns,巨型幀的傳輸時(shí)間延長(zhǎng)至48ns。
考慮到穿越介質(zhì)的時(shí)間,光纖延遲大約為每米5ns,而銅纜稍快,為每米4ns。雖然信息接收時(shí)間與發(fā)送時(shí)間相同,但由于這兩個(gè)過(guò)程同時(shí)進(jìn)行,因此通常會(huì)被忽略。
大部分延遲發(fā)生在接收器控制器上
即使是最優(yōu)化的設(shè)計(jì),RSFEC解碼器造成的延遲也是不可避免的。開(kāi)始糾錯(cuò)時(shí),必須接收并存儲(chǔ)4個(gè)編碼字,以1.6Tbps的速率計(jì)算,這需要12.8ns的時(shí)間。隨后的流程,如執(zhí)行FEC算法、糾錯(cuò)(必要時(shí))、緩沖和時(shí)鐘域管理,都會(huì)進(jìn)一步增加控制器的接收延遲。雖然FEC編解碼存儲(chǔ)時(shí)間是一個(gè)恒定因素,但信息接收過(guò)程中的延遲與具體實(shí)施有關(guān),但可以通過(guò)良好的數(shù)字設(shè)計(jì)實(shí)踐進(jìn)行優(yōu)化。
從本質(zhì)上講,由于FEC機(jī)制和物理距離或電纜長(zhǎng)度,存在固有的、不可避免的延遲。除了這些因素外,良好的設(shè)計(jì)實(shí)踐在最大限度地減少以太網(wǎng)控制器造成的延遲方面也發(fā)揮著關(guān)鍵作用。利用集成的完整解決方案(包括MAC、PCS和PHY)以及專業(yè)的設(shè)計(jì)團(tuán)隊(duì),可為最高效、低延遲的實(shí)施鋪平道路。
?總結(jié)?
1.6Tbps以太網(wǎng)可滿足帶寬最密集、時(shí)延最敏感的應(yīng)用需求。隨著224GSerDes技術(shù)的出現(xiàn)以及MAC和PCSIP的開(kāi)發(fā),可提供符合不斷發(fā)展的1.6T以太網(wǎng)標(biāo)準(zhǔn)的完整現(xiàn)成解決方案??刂破餮舆t在1.6Tbps應(yīng)用中至關(guān)重要。除了協(xié)議和糾錯(cuò)機(jī)制造成的固有延遲外,IP數(shù)字設(shè)計(jì)還必須由專業(yè)設(shè)計(jì)團(tuán)隊(duì)精心設(shè)計(jì),以防止數(shù)據(jù)通路增加不必要的延遲。
經(jīng)過(guò)硅驗(yàn)證的解決方案需要優(yōu)化的架構(gòu)和精確的數(shù)字設(shè)計(jì),強(qiáng)調(diào)能效并減少硅足跡,從而使1.6T數(shù)據(jù)速率成為現(xiàn)實(shí)。新思科技經(jīng)過(guò)硅驗(yàn)證的224G以太網(wǎng)PHYIP為1.6TMAC/PCS的實(shí)現(xiàn)奠定了基礎(chǔ)。利用領(lǐng)先的設(shè)計(jì)、分析、仿真和測(cè)量技術(shù),新思科技將繼續(xù)提供卓越的信號(hào)完整性和抖動(dòng)性能,以及包括MAC+PCS+PHY在內(nèi)的完整以太網(wǎng)解決方案。
審核編輯:黃飛
?
評(píng)論
查看更多