0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

以太網(wǎng)存儲網(wǎng)絡(luò)的擁塞管理連載案例(七)

Linux閱碼場 ? 來源:Linux閱碼場 ? 2024-03-08 09:29 ? 次閱讀

本文節(jié)選自《DetectingTroubleshooting, and PreventingCongestion in Storage Networks 存儲網(wǎng)絡(luò)中擁塞處理》

MAC Address Learning

學(xué)習(xí)連接到遠(yuǎn)程VTEP 的設(shè)備的MAC 地址有兩種常見方法。第一種方法使用基于組播的泛洪學(xué)習(xí)機(jī)制。第二種方法使用多協(xié)議邊界網(wǎng)關(guān)協(xié)議(MPBGP)以太網(wǎng)VPN(EVPN)。無論VTEP 如何學(xué)習(xí)MAC 地址,數(shù)據(jù)路徑保持不變,因此擁塞管理也保持不變。

Lossless Traffic over VXLAN

VXLAN 可根據(jù)IP 標(biāo)頭中的DSCP 字段對流量進(jìn)行分類,并將其分配到無損隊(duì)列,從而傳輸無損流量。前面有關(guān)第3 層PFC 的章節(jié)詳細(xì)介紹了這一方案。

根據(jù)以太網(wǎng)CoS 字段對流量進(jìn)行分類以實(shí)現(xiàn)第2 層PFC 的分類方案不足以通過VXLAN 傳輸無損流量,因?yàn)镮EEE 802.1Q VLAN 標(biāo)頭不會在VXLAN 隧道中保留,因此會丟失CoS 值。

VXLAN Encapsulation

如圖7-25 所示,入口VTEP 會將原始IP 報(bào)頭中的DSCP 值復(fù)制到VXLAN 封裝數(shù)據(jù)包的外部報(bào)頭中。對于沒有IP 報(bào)頭的第2 層幀,外部數(shù)據(jù)包的DSCP 字段來自表7-1 中說明的CoS 到DSCP 映射。

VXLAN Decapsulation

如圖7-25 所示,出口VTEP 會將外部VXLAN 數(shù)據(jù)包中的DSCP 值復(fù)制到解封裝報(bào)頭的IP 報(bào)頭中。這被稱為統(tǒng)一模式,是Cisco Nexus 9000 交換機(jī)的默認(rèn)行為。如果需要,DSCP 字段值可以從內(nèi)部IP 包頭復(fù)制到解封裝數(shù)據(jù)包。這稱為管道模式。

2465df3c-dc8d-11ee-a297-92fbcf53809c.png

Figure 7-25DSCP and ECN values during VXLAN encapsulation and decapsulation

Congestion Notification over VXLAN

在入口VTEP,入口數(shù)據(jù)包的ECN 值被復(fù)制到VXLAN 封裝數(shù)據(jù)包的外部報(bào)頭。在出口VTEP,ECN 值總是從外部VXLAN 數(shù)據(jù)包復(fù)制到解封裝報(bào)頭的IP 報(bào)頭,而不管是統(tǒng)一模式還是管道模式。

Flow Control and Congestion Notification with VXLAN

對于VXLAN 來說,無損流量有兩個(gè)考慮因素。首先是實(shí)現(xiàn)無損網(wǎng)絡(luò)功能的逐跳流量控制(PFC)。這是強(qiáng)制性的。第二個(gè)可選考慮因素是,當(dāng)檢測到入口和出口VTEP 之間出現(xiàn)擁塞時(shí),通知終端設(shè)備(ECN)。

請參見圖7-26。目標(biāo)-1(源)向主機(jī)-1(目的)發(fā)送流量。通過將無損流量分類為CS3 的DSCP 值并將其分配到無損隊(duì)列,使用PFC 啟用了逐跳流量控制。由于入口VTEP-1 會將原始數(shù)據(jù)包中的DSCP 值復(fù)制到外層報(bào)頭,因此將CS3 標(biāo)記的流量分配到脊柱交換機(jī)上的無損隊(duì)列可在流量被封裝到VXLAN 隧道時(shí)實(shí)現(xiàn)無損行為。

在出口VTEP-6 上,外部報(bào)頭中的DSCP 值會被復(fù)制到解封裝數(shù)據(jù)包中。因此,將CS3 標(biāo)記的流量分配到所有設(shè)備上的無損隊(duì)列可實(shí)現(xiàn)無損行為。這與非VXLAN 環(huán)境或非路由第2 層網(wǎng)絡(luò)的行為相同。與VXLAN 的唯一區(qū)別在于如何將流量分類以分配到無損隊(duì)列。

24878b78-dc8d-11ee-a297-92fbcf53809c.png

Figure 7-26PFC and ECN with VXLAN

對于擁塞通知,入口VTEP-1 會將原始報(bào)頭中的ECN 值保留到封裝數(shù)據(jù)包中。如果骨干交換機(jī)(或VXLAN 隧道路徑中的任何交換機(jī))發(fā)生擁塞,它會在外報(bào)頭中用CE 標(biāo)志(b'11')標(biāo)記有ECN 功能的數(shù)據(jù)包(b'01'或b'10')。骨干交換機(jī)可能不知道IP 數(shù)據(jù)包屬于VXLAN 隧道,也不知道數(shù)據(jù)包中還有另一個(gè)IP 報(bào)頭。

因此,它們只標(biāo)記外部報(bào)頭。出口VTEP 會將外部報(bào)頭中的ECN 值復(fù)制到解封裝數(shù)據(jù)包中。當(dāng)目的地收到這個(gè)CE 標(biāo)記的數(shù)據(jù)包時(shí),它會根據(jù)上層協(xié)議(如RCM)的功能做出反應(yīng)。

Congestion Management in VXLAN

如上一節(jié)所述,將流量分類并分配到無損隊(duì)列可保持流量的無損行為。這種配置必須在所有設(shè)備上保持一致,以保持端到端的無損行為。

Note the following points:請注意以下幾點(diǎn):

1. 了解擁塞:啟用PFC 后,擁塞會在VXLAN 中蔓延,如前幾節(jié)所述。當(dāng)出口VTEP(或葉子交換機(jī))的隊(duì)列開始填滿時(shí),它會通過發(fā)送"暫停"幀來減緩不丟棄類中的入口流量。因此,骨干交換機(jī)會減慢該流量類中的所有流量,無論其是否采用VXLAN 封裝?;仡櫼幌?,對于PFC 來說,數(shù)據(jù)包中添加多少報(bào)頭并不重要。它只是使用DSCP 字段對流量進(jìn)行分類和流量控制。擁塞擴(kuò)散的最終狀態(tài)與圖7-8 中的解釋類似。

2. 檢測擁塞:擁塞檢測方法與前一節(jié)中的解釋類似。檢測命令應(yīng)考慮到VTEP 上的DSCP-CoS 映射。

3. 擁塞故障排除:擁塞故障排除方法仍與前一節(jié)所述類似。在查找擁塞源的同時(shí),要關(guān)注交換端口接口上的流量類別。特別是在骨干交換機(jī)上,不要被IP 地址誤導(dǎo),因?yàn)閂XLAN 封裝數(shù)據(jù)包的外層報(bào)頭中包含入口和出口VTEP 的IP 地址。在同一VXLAN 隧道中傳輸多個(gè)流量(源IP 和目的IP)。因此,應(yīng)重點(diǎn)監(jiān)控?zé)o丟棄流量類的流量和暫停幀,而不是流量。

4. 擁塞預(yù)防:前面介紹的擁塞預(yù)防功能也適用于VXLAN。如果終端設(shè)備支持基于ECN 值的操作,那么無論VXLAN 底層網(wǎng)絡(luò)如何,它都能發(fā)揮同樣的作用。例如,RoCEv2 流量可通過VXLAN 傳輸,如果終端設(shè)備支持RCM,它也可與VXLAN 一起工作。

Summary

默認(rèn)情況下,以太網(wǎng)通過丟棄幀(稱為有損以太網(wǎng))來處理擁塞,并依靠上層協(xié)議(如TCP)重傳丟失的數(shù)據(jù)包。相反,無損以太網(wǎng)使用逐跳流量控制機(jī)制,通過發(fā)送暫停幀來減慢或停止傳輸。以太網(wǎng)鏈路上的所有流量都可以使用LLFC 進(jìn)行流量控制?;蛘?,PFC 可以選擇性地只對特定流量類別進(jìn)行流量控制。PFC 允許在同一鏈路上傳輸無損和有損流量,為融合以太網(wǎng)網(wǎng)絡(luò)奠定了基礎(chǔ)。

此外,ETS 為不同流量類別提供最低帶寬保證,DCBX 簡化了終端設(shè)備和交換機(jī)的配置。通過使用OSI 模型第2 層以太網(wǎng)VLAN 標(biāo)頭中的PCP/CoS 字段對流量進(jìn)行分類,可以啟用PFC。這種第2 層PFC 適用于FCoE 和RoCE。另外,對于RoCEv2(可路由RoCE),可在第3 層使用IP 標(biāo)頭中的DSCP 字段對流量進(jìn)行分類,從而啟用PFC。

無損以太網(wǎng)網(wǎng)絡(luò)容易出現(xiàn)與光纖通道結(jié)構(gòu)類似的擁塞,因?yàn)閮烧叨际褂弥鹛髁靠刂?。由于慢排空、鏈路利用率過高、比特錯(cuò)誤或缺乏足夠的緩沖區(qū),擁塞也會在無損類中蔓延。同樣的擁塞檢測、故障排除和預(yù)防方法也適用于無損以太網(wǎng)網(wǎng)絡(luò)。但無損以太網(wǎng)交換機(jī)可能不會報(bào)告所有相關(guān)指標(biāo)。

值得注意的例子是TxWait 和RxWait 指標(biāo),在撰寫本文時(shí),Cisco Nexus 9000 交換機(jī)和UCS 服務(wù)器上還沒有提供這些指標(biāo)。下一個(gè)辦法是使用暫停幀數(shù)來檢測擁塞情況。但是,由于這些指標(biāo)不會以時(shí)間和日期戳存儲在交換機(jī)上,因此使用外部監(jiān)控平臺可以簡化擁塞檢測和故障排除。

在使用融合以太網(wǎng)網(wǎng)絡(luò)時(shí),有損類中的流量可能會影響無損類中的流量,這取決于問題是如何出現(xiàn)的。無論使用專用還是共享存儲網(wǎng)絡(luò),都要監(jiān)控每個(gè)端口級別和每個(gè)類別級別的流量利用率和擁塞指標(biāo)。

利用暫停超時(shí)和PFC 看門狗可以實(shí)現(xiàn)無損以太網(wǎng)網(wǎng)絡(luò)擁塞恢復(fù)。這些功能可在超時(shí)間隔后無法發(fā)送到目的地時(shí)丟棄幀,從而幫助釋放緩沖區(qū),使受害設(shè)備擺脫擁塞影響。

如果終端設(shè)備支持RoCEv2 擁塞管理,RoCEv2 網(wǎng)絡(luò)還能通過向終端設(shè)備發(fā)出網(wǎng)絡(luò)擁塞通知而獲益,從而降低發(fā)送方的流量速率。無論采用哪種預(yù)防機(jī)制,都不應(yīng)將這些機(jī)制作為長期解決方案。監(jiān)控網(wǎng)絡(luò),找到根本原因,并盡快做出修正。

最后,請注意許多無損以太網(wǎng)網(wǎng)絡(luò)相對較新。隨著網(wǎng)絡(luò)的發(fā)展和/或成熟,擁塞會變得更加嚴(yán)重。由于光纖通道Fabric 已大規(guī)模使用了幾十年,因此必須從中吸取經(jīng)驗(yàn)教訓(xùn),并將這些知識應(yīng)用到無損以太網(wǎng)網(wǎng)絡(luò)中,以主動預(yù)防擁塞問題。




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 以太網(wǎng)
    +關(guān)注

    關(guān)注

    40

    文章

    5287

    瀏覽量

    169630
  • 交換機(jī)
    +關(guān)注

    關(guān)注

    20

    文章

    2571

    瀏覽量

    98224
  • DSCP
    +關(guān)注

    關(guān)注

    0

    文章

    2

    瀏覽量

    1329
  • 存儲網(wǎng)絡(luò)
    +關(guān)注

    關(guān)注

    0

    文章

    31

    瀏覽量

    8043
  • VxLAN
    +關(guān)注

    關(guān)注

    0

    文章

    23

    瀏覽量

    3803

原文標(biāo)題:以太網(wǎng)存儲網(wǎng)絡(luò)的擁塞管理連載(七)

文章出處:【微信號:LinuxDev,微信公眾號:Linux閱碼場】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    以太網(wǎng)存儲網(wǎng)絡(luò)擁塞管理連載方案(一)

    鏈路級流量控制(LLFC):LLFC 可在直接連接的設(shè)備之間對鏈路上的所有流量進(jìn)行流量控制。LLFC 是一項(xiàng) IEEE 標(biāo)準(zhǔn)(IEEE 802.3x)。
    的頭像 發(fā)表于 02-26 10:52 ?915次閱讀
    <b class='flag-5'>以太網(wǎng)</b><b class='flag-5'>存儲</b><b class='flag-5'>網(wǎng)絡(luò)</b>的<b class='flag-5'>擁塞</b><b class='flag-5'>管理</b><b class='flag-5'>連載</b>方案(一)

    以太網(wǎng)存儲網(wǎng)絡(luò)擁塞管理連載方案(二)

    本節(jié)將從學(xué)術(shù)角度解釋如何計(jì)算無損以太網(wǎng)鏈路的headroom大小。該解釋基于 IEEE 802.1Qbb 優(yōu)先級流量控制標(biāo)準(zhǔn)。
    的頭像 發(fā)表于 02-27 09:12 ?760次閱讀
    <b class='flag-5'>以太網(wǎng)</b><b class='flag-5'>存儲</b><b class='flag-5'>網(wǎng)絡(luò)</b>的<b class='flag-5'>擁塞</b><b class='flag-5'>管理</b><b class='flag-5'>連載</b>方案(二)

    以太網(wǎng)存儲網(wǎng)絡(luò)擁塞管理連載方案(三)

    在 OSI 模型的第 3 層,流量由 IPv4 或 IPv6 源地址和目標(biāo)地址標(biāo)識。如圖 7-5 所示,IP 標(biāo)頭(v4 和 v6)包含一個(gè) 6 位 DSCP 字段,允許多達(dá) 64 種分類,但并非所有分類都被使用。
    的頭像 發(fā)表于 02-28 09:16 ?894次閱讀
    <b class='flag-5'>以太網(wǎng)</b><b class='flag-5'>存儲</b><b class='flag-5'>網(wǎng)絡(luò)</b>的<b class='flag-5'>擁塞</b><b class='flag-5'>管理</b><b class='flag-5'>連載</b>方案(三)

    以太網(wǎng)存儲網(wǎng)絡(luò)擁塞管理連載案例(五)

    解決無損以太網(wǎng)網(wǎng)絡(luò)擁塞問題的方法與光纖通道結(jié)構(gòu)相同。兩者都使用逐跳流量控制機(jī)制,只是實(shí)現(xiàn)方式不同而已。
    的頭像 發(fā)表于 03-04 11:17 ?668次閱讀
    <b class='flag-5'>以太網(wǎng)</b><b class='flag-5'>存儲</b><b class='flag-5'>網(wǎng)絡(luò)</b>的<b class='flag-5'>擁塞</b><b class='flag-5'>管理</b><b class='flag-5'>連載</b>案例(五)

    以太網(wǎng)存儲網(wǎng)絡(luò)擁塞管理連載案例(六)

    消除或減少無損以太網(wǎng)網(wǎng)絡(luò)擁塞的高級方法與光纖通道結(jié)構(gòu)相同。幾十年來,不同的傳輸類型都采用了類似的方法,只是略有不同。
    的頭像 發(fā)表于 03-06 16:35 ?702次閱讀
    <b class='flag-5'>以太網(wǎng)</b><b class='flag-5'>存儲</b><b class='flag-5'>網(wǎng)絡(luò)</b>的<b class='flag-5'>擁塞</b><b class='flag-5'>管理</b><b class='flag-5'>連載</b>案例(六)

    以太網(wǎng)和工業(yè)以太網(wǎng)的不同

    以太網(wǎng)媒體訪問控制的物理層和數(shù)據(jù)鏈路層。這些標(biāo)準(zhǔn)也說明子配置以太網(wǎng)網(wǎng)絡(luò)的規(guī)則,以及各種網(wǎng)絡(luò)元件如何彼此協(xié)作。以太網(wǎng)支持多臺計(jì)算機(jī)通過一個(gè)網(wǎng)絡(luò)
    發(fā)表于 10-23 14:20

    ATM與千兆以太網(wǎng)的區(qū)別

    ATM與千兆以太網(wǎng)的區(qū)別 1.快速以太網(wǎng)擋住了ATM向桌面擴(kuò)張?jiān)贠SI網(wǎng)絡(luò)體系結(jié)構(gòu)的層模式中,ATM和千兆以太網(wǎng)只涉及低二層,而第
    發(fā)表于 05-25 08:48 ?5125次閱讀

    以太網(wǎng)供電新標(biāo)準(zhǔn)促熱網(wǎng)絡(luò)化電源管理應(yīng)用市場

    以太網(wǎng)供電新標(biāo)準(zhǔn)促熱網(wǎng)絡(luò)化電源管理應(yīng)用市場 日前,相關(guān)國際標(biāo)準(zhǔn)組織批準(zhǔn)了IEEE802.3at以太網(wǎng)供電(PoE)技術(shù)標(biāo)準(zhǔn),使遠(yuǎn)程電源通過以
    發(fā)表于 12-29 15:25 ?450次閱讀

    以太網(wǎng)光纖通道(FCoE)技術(shù)問答

    以太網(wǎng)光纖通道技術(shù)(FCoE),能壓縮光纖通道存儲數(shù)據(jù),使之通向以太網(wǎng)的LAN(局域網(wǎng)),消除了數(shù)據(jù)中心分離存儲
    發(fā)表于 12-01 15:51 ?1047次閱讀

    以太網(wǎng)的分類及靜態(tài)以太網(wǎng)交換和動態(tài)以太網(wǎng)交換、介紹

    以太網(wǎng)交換技術(shù)具有許多類型,各自宣傳其具有不同的優(yōu)點(diǎn);通過簡單的鼠標(biāo)即可增加、移動和改變往來落的結(jié)構(gòu);比網(wǎng)橋和路由器更為有效地進(jìn)行網(wǎng)絡(luò)分段;為高性能工作站或服務(wù)器提供高寬帶。網(wǎng)絡(luò)管理
    的頭像 發(fā)表于 10-07 10:06 ?6237次閱讀

    萬兆以太網(wǎng)和IP SAN的融合

    IP SAN存儲網(wǎng)融合到萬兆以太網(wǎng)絡(luò)中,將大大增加了IP SAN網(wǎng)絡(luò)的通信帶寬,提高主機(jī)訪問存儲的速度,同時(shí)由于
    的頭像 發(fā)表于 01-24 15:16 ?3078次閱讀

    光纖通道到以太網(wǎng)存儲結(jié)構(gòu)解析

    行業(yè)專家認(rèn)為,以太網(wǎng)存儲結(jié)構(gòu)(ESF)是下一代存儲網(wǎng)絡(luò)的理想選擇,因?yàn)槠渚哂凶吭降男阅?、智能和效率?/div>
    發(fā)表于 07-21 15:59 ?1115次閱讀

    如何快速分辨以太網(wǎng)與千兆以太網(wǎng)

    本文解釋并比較了兩種類型的以太網(wǎng):快速以太網(wǎng)與千兆以太網(wǎng)??焖?b class='flag-5'>以太網(wǎng)和千兆以太網(wǎng)之間的最大區(qū)別在于速度。
    的頭像 發(fā)表于 05-06 16:35 ?4179次閱讀
    如何快速分辨<b class='flag-5'>以太網(wǎng)</b>與千兆<b class='flag-5'>以太網(wǎng)</b>

    以太網(wǎng)光模你了解多少

    什么是以太網(wǎng)光模塊? 用于以太網(wǎng)的光模塊。什么是以太網(wǎng)?通過信息管理(MIB)與公共物理媒介地址控制(MAC)可支持局域網(wǎng)(LAN)的
    的頭像 發(fā)表于 02-14 09:27 ?1102次閱讀

    優(yōu)化網(wǎng)絡(luò)管理與監(jiān)控——工業(yè)以太網(wǎng)交換機(jī)的智能化之路

    隨著工業(yè)互聯(lián)網(wǎng)的迅速發(fā)展,工業(yè)以太網(wǎng)交換機(jī)在現(xiàn)代工業(yè)網(wǎng)絡(luò)中扮演著越來越重要的角色。作為工業(yè)網(wǎng)絡(luò)的核心設(shè)備,工業(yè)以太網(wǎng)交換機(jī)不僅需要支持高速、穩(wěn)定的數(shù)據(jù)傳輸,還需要具備智能化的
    的頭像 發(fā)表于 11-21 10:24 ?551次閱讀
    優(yōu)化<b class='flag-5'>網(wǎng)絡(luò)</b><b class='flag-5'>管理</b>與監(jiān)控——工業(yè)<b class='flag-5'>以太網(wǎng)</b>交換機(jī)的智能化之路