EVPN已成為現(xiàn)代數(shù)據(jù)中心架構(gòu)的標(biāo)準(zhǔn)解決方案。對于終端用戶來說,受益于基于BGP的控制平面所具有的穩(wěn)定性,EVPN提供了擴(kuò)展其廣播域的靈活性。但這些增加的益處是以提高配置的復(fù)雜性為代價(jià)的。
當(dāng)前所面對的不再是相對固定、簡單,可以通過維護(hù)人員直觀分析來發(fā)現(xiàn)錯(cuò)誤的網(wǎng)絡(luò)配置。真正的生產(chǎn)性EVPN配置可能包括多個(gè)深度嵌套結(jié)構(gòu),而且隨網(wǎng)絡(luò)中的租戶數(shù)量成比例增長。
EVPN配置復(fù)雜性可以且必須通過適當(dāng)?shù)淖詣?dòng)化解決方案予以解決,這可以減少人為出錯(cuò)的可能性,而NVIDIA Cumulus Linux正是解決該問題的合適解決方案。但僅有自動(dòng)化還不夠,錯(cuò)誤仍然可以通過數(shù)據(jù)源引入系統(tǒng),例如配置管理數(shù)據(jù)庫(CMDB)的人為錯(cuò)誤。
可觀察性的重要性
這就是為什么對于任何具有合理復(fù)雜程度的基礎(chǔ)設(shè)施,用戶應(yīng)該有辦法來采集各類日志、指標(biāo),并且調(diào)試、輸出、匯總、關(guān)聯(lián)和處理這些信息,從而嘗試推斷系統(tǒng)的內(nèi)部狀態(tài)。實(shí)現(xiàn)這一點(diǎn)的能力通常被稱為系統(tǒng)的“可觀察性”,而且隨著底層基礎(chǔ)設(shè)施復(fù)雜性的增加,它正變得日益重要。在CNCF云原生環(huán)境 中,“可觀察性和分析”部分不斷增長的項(xiàng)目數(shù)量已證明了這一全行業(yè)趨勢。對此,NVIDIA也持同樣的觀點(diǎn)。
圖 1 數(shù)據(jù)中心演進(jìn)
通過NetQ實(shí)現(xiàn)的全網(wǎng)可觀察性
長期以來,整個(gè)網(wǎng)絡(luò)的可觀察性僅限于拓?fù)湟晥D——有些圖包括從物理鏈接到L2,L3接口再到控制平面協(xié)議等不同層次的細(xì)節(jié)。但這些代表高層次意圖的圖只有在有人維護(hù)時(shí)才能保證準(zhǔn)確。它們永遠(yuǎn)無法反映每個(gè)設(shè)備中所包含的網(wǎng)絡(luò)的實(shí)際狀態(tài)。NetQ在設(shè)計(jì)上解決了這些問題并為整個(gè)網(wǎng)絡(luò)的運(yùn)行狀態(tài)提供了一個(gè)統(tǒng)一的觀察窗口。
一方面,NetQ從其遠(yuǎn)程代理處收集和匯總多項(xiàng)指標(biāo),這些代理可能運(yùn)行在網(wǎng)絡(luò)交換機(jī)、通用計(jì)算服務(wù)器等任何位置。這些指標(biāo)包括但不限于:接口統(tǒng)計(jì)和利用率、LLDP、MAC、ARP/ND和IP路由表、BGP、MLAG和OSPF的控制面狀態(tài),以及用于幫助診斷任一數(shù)據(jù)平面丟包的故障快照(What Just Happened)事件。
另一方面,NetQ使用這些指標(biāo)來推斷網(wǎng)絡(luò)的內(nèi)部狀態(tài)并作出針對協(xié)議的診斷。這些檢查包括從簡單的MTU和鏈路狀態(tài)一致性到BGP和EVPN狀態(tài)驗(yàn)證再到端到端連接性測試。
故障排除演示
在這篇文章中,將演示如何使用NetQ來排除一些使用以下拓?fù)浣Y(jié)構(gòu)的常見配置錯(cuò)誤。葉節(jié)點(diǎn)被配置為MLAG對,并且該結(jié)構(gòu)內(nèi)部正在運(yùn)行帶有對稱IRB的EVPN和基于PIM的BUM復(fù)制 。
圖 2 NVIDIA 空氣中的拓?fù)?/p>
環(huán)境設(shè)置
該測試拓?fù)浣Y(jié)構(gòu)可以在名為NVIDIA Air的云基礎(chǔ)設(shè)施模擬平臺(tái)上啟動(dòng)。如要了解更多信息,請參閱《NVIDIA Air用戶指南》。
1、選擇創(chuàng)建模擬、演示市場和使用NetQ的網(wǎng)絡(luò)故障排除選項(xiàng)卡。
在接下來的部分中,將討論各種故障排除情景,并展示NetQ如何幫助確定問題的來源。
情景1:服務(wù)器01無法與服務(wù)器02通信
第一個(gè)問題很簡單:兩臺(tái)服務(wù)器都連接到同一對葉節(jié)點(diǎn)交換機(jī)上,因此需要檢查的地方僅限于以下幾個(gè)方面:
所有服務(wù)器鏈接的L1和Bond接口配置
peerlink的MLAG狀態(tài)和配置
通過NetQ,只需點(diǎn)擊幾下就可以完成所有這些檢查。
1、在模擬頁面,選擇啟動(dòng)NetQ,輸入用戶名和密碼
2、在工作臺(tái)標(biāo)題中,選擇驗(yàn)證并創(chuàng)建一個(gè)新的MLAG驗(yàn)證。
圖 3 情景 1 結(jié)果
當(dāng)驗(yàn)證完成后,NetQ發(fā)現(xiàn)雙宿設(shè)備有四個(gè)錯(cuò)誤。對于每一個(gè)出現(xiàn)錯(cuò)誤的檢查,用戶都可以查看更詳細(xì)的信息并了解NetQ認(rèn)為的錯(cuò)誤是什么。
圖 4 場景# 1 詳細(xì)信息
在本情景中,NetQ清楚地指向接口bond1的VLAN配置,現(xiàn)在可以通過登錄和比較兩臺(tái)葉節(jié)點(diǎn)交換機(jī)上的配置來進(jìn)行快速驗(yàn)證和糾正。
用戶可按照實(shí)驗(yàn)指導(dǎo)來依次解決問題。
第二個(gè)情景涉及VXLAN EVPN結(jié)構(gòu)上的VLAN內(nèi)通信。這種故障的常用故障排除流程可能涉及以下步驟:
1、確認(rèn)所有BGP會(huì)話都已建立,并且所有對等層的EVPN地址族都已啟用。
2、確認(rèn)所有四個(gè)葉節(jié)點(diǎn)交換機(jī)上的VLAN至VNI映射是一致的。
3、確保導(dǎo)出和導(dǎo)入所需的Type-2路由使用同一組路由目標(biāo)。
4、檢查BGP是否被配置為發(fā)布所有已配置的VNI。
必須在所有葉節(jié)點(diǎn)交換機(jī)上比較這些數(shù)值。下面將展示用NetQ檢查上述信息有多么簡單。
1、在主工作臺(tái)標(biāo)題選擇選項(xiàng)卡并打開EVPN會(huì)話選項(xiàng)卡。
2、在全屏視圖中打開此選項(xiàng)卡,查看所有會(huì)話屏幕(圖5)。
情景2:服務(wù)器01無法與服務(wù)器04通信
圖 5 場景# 2 詳細(xì)信息
現(xiàn)在可以在屏幕上看到所有的相關(guān)值,這些值以表格的形式呈現(xiàn)并且可以進(jìn)行排序及過濾以縮小搜索范圍。在該情景中,很容易發(fā)現(xiàn)葉節(jié)點(diǎn)01/02和葉節(jié)點(diǎn)03/04之間Vlan10的VNI映射差異。
用戶可按照實(shí)驗(yàn)指導(dǎo)依次解決問題。
情景3:服務(wù)器01無法與服務(wù)器05通信
最后一個(gè)情景涉及VXLAN EVPN的VLAN間對稱路由。這次,需要驗(yàn)證的內(nèi)容有所增加,包括以下額外步驟:
每個(gè)VRF的BGP配置和會(huì)話狀態(tài)
EVPN 5型路由在葉節(jié)點(diǎn)交換機(jī)之間的傳播
檢查L3 VNI的配置是否一致以及每個(gè)MLAG對是否有唯一的Router MAC
L3 VNI到VRF在所有交換機(jī)上的映射
通過NetQ EVPN驗(yàn)證功能,所有這些假設(shè)都可以在幾秒鐘內(nèi)得到驗(yàn)證。
1、在主工作臺(tái)標(biāo)題中選擇驗(yàn)證并創(chuàng)建一個(gè)新的按需EVPN驗(yàn)證。幾秒鐘后,用戶即可看到結(jié)果(圖6)
圖 6 情景# 3 結(jié)果
通過點(diǎn)擊VRF一致性警告,用戶可以清楚地看到錯(cuò)誤位置。解決問題的時(shí)間縮短到幾秒鐘,管理員現(xiàn)在可以繼續(xù)糾正葉節(jié)點(diǎn)03/04上的VNI至VRF映射。
圖 7 場景# 3 詳細(xì)信息
請查看實(shí)驗(yàn)室指南,了解解決這個(gè)問題所需的具體指令。
總結(jié)
在這篇文章中,展示了NetQ根據(jù)管理設(shè)備采集的各種指標(biāo)來分析和推斷網(wǎng)絡(luò)狀態(tài)的能力。以上三個(gè)情景展示了如何利用NetQ的驗(yàn)證和協(xié)議專用選項(xiàng)卡將根本原因分析的時(shí)長從幾分鐘或幾小時(shí)縮短到幾秒鐘。這些驗(yàn)證可以按需求運(yùn)行,也可以定期運(yùn)行,甚至可以在過去的數(shù)據(jù)上運(yùn)行,這是因?yàn)樗腥罩径即鎯?chǔ)在一個(gè)時(shí)間序列數(shù)據(jù)庫中。
NetQ的能力遠(yuǎn)遠(yuǎn)超出了這篇文章中所展示和討論的內(nèi)容,并且其功能還包含設(shè)備庫存、軟件生命周期管理、基于閾值的警報(bào)以及與第三方平臺(tái)(如Slack、PagerDuty和Grafana)的集成。NetQ將繼續(xù)擴(kuò)展并增加更多的功能和第三方集成,在未來為用戶創(chuàng)造更多價(jià)值。
關(guān)于作者
Michael Kashin 是 NVIDIA 網(wǎng)絡(luò)組的解決方案架構(gòu)師,專注于數(shù)據(jù)中心、自動(dòng)化和可觀測性。他對軟件開發(fā)、網(wǎng)絡(luò)和云本地技術(shù)有著濃厚的興趣,并熱衷于利用自己的知識(shí)和專長幫助客戶解決業(yè)務(wù)問題。在 2021 年加入 NVIDIA 之前, Michael 曾為多家技術(shù)供應(yīng)商工作,幫助他們的客戶構(gòu)建云并開發(fā)基礎(chǔ)設(shè)施管理軟件。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4862瀏覽量
102725 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
8982瀏覽量
85107 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4648瀏覽量
71909
發(fā)布評(píng)論請先 登錄
相關(guān)推薦
評(píng)論