近期,招商銀行和歐拉開源社區(qū)聯(lián)創(chuàng)了A-Ops智能運維項目,并在招行coremail郵件系統(tǒng)中完成測試。測試結(jié)果顯示,A-Ops極大地提升了網(wǎng)絡連接丟包、錯包、重傳以及時延增大等系統(tǒng)網(wǎng)絡問題的界定效率。
背景隨著業(yè)務系統(tǒng)規(guī)模的增長,對于配置和架構(gòu)的管理,難度也指數(shù)級上升。對于配置管理,個體對配置的修改無法主動發(fā)現(xiàn),不合規(guī)項掃描不全,為系統(tǒng)運行帶來隱患;對于架構(gòu)管理,自身及三方軟件間的關系主要依賴管理員的經(jīng)驗,變更影響難以評估,排障困難。我們希望有一套機制,能夠自動溯源配置,識別配置管理的不合規(guī)項以及非預期修改;同時自動感知架構(gòu),識別完整的架構(gòu)圖,包括組件、實例、訪問關系等,在系統(tǒng)異常時及時發(fā)現(xiàn)并定界,快速消除風險。
團隊介紹參與本次聯(lián)創(chuàng)的團隊來自招商銀行信息技術(shù)部數(shù)據(jù)中心,招商銀行為A-Ops智能運維項目提供了真實的業(yè)務場景進行原型驗證,團隊和openEuler A-Ops SIG組成員共同完成了包括前期的需求調(diào)研、功能確認,以及之后的問題解決、聯(lián)調(diào)測試等過程。
聯(lián)創(chuàng)成果檢查配置差異
在coremail郵件系統(tǒng)集群環(huán)境中修改某些主機的配置文件,A-Ops能夠獲取實際配置和預期配置的差異,并獲取差異內(nèi)容;幫助運維人員快速判斷問題邊界是否由配置引起,如果是則下發(fā)正確配置到指定主機上,快速解決配置異常導致的系統(tǒng)問題。
某主機配置與預期配置差異圖
實時繪制系統(tǒng)拓撲:
在coremail郵件系統(tǒng)測試系統(tǒng)登錄、發(fā)信、收信等流程,通過A-Ops能夠?qū)崟r捕獲系統(tǒng)連接情況并繪制郵件系統(tǒng)業(yè)務流拓撲圖(已和相關人確認符合預期);運維人員能夠快速識別系統(tǒng)中的實例以及依賴關系等。
登錄系統(tǒng)的實時拓撲圖
快速問題界定:
我們在郵件系統(tǒng)注入了時延增大、丟包等故障,由實時拓撲圖可以看出可能的問題鏈路已經(jīng)被標紅;運維人員因而能夠快速界定問題節(jié)點,并根據(jù)異常信息進一步進行問題定位解決。
注入故障后的實時拓撲圖
現(xiàn)在的異常檢測是基于閾值(專家經(jīng)驗)的,后續(xù)會增加基于AI算法的的異常檢測功能,并支持算法擴展。后續(xù)招商銀行將和A-Ops項目組一起,在現(xiàn)有基礎上完善異常檢測能力、增加根因定位功能,實現(xiàn)自動問題根因定位;并在招行其他系統(tǒng)推廣運行,實現(xiàn)系統(tǒng)問題快速定位定界。
A-Ops簡介A-Ops智能運維平臺專為企業(yè)簡化云系統(tǒng)治理復雜度,加速企業(yè)數(shù)字化改造過程。主要特征包括:
智能觀測,能夠基于AI精準觀測基礎設施;
平臺化,能夠?qū)崿F(xiàn)系統(tǒng)全棧的智能觀測與分析;
覆蓋廣泛,能夠覆蓋openEuler系任意類型的基礎設施。
A-OPS智能運維平臺包括:智能探針、架構(gòu)感知、異常感知、異常森林、配置溯源等特性,并提供SaaS服務。通過對基礎設施的精準觀測,實現(xiàn)對軟件系統(tǒng)架構(gòu)的實時全息感知,實現(xiàn)云環(huán)境下OS因素引起的業(yè)務性能問題1分鐘定界、3分鐘定位。
原文標題:招商銀行基于A-Ops智能運維構(gòu)建快速定位定界能力
文章出處:【微信公眾號:openEuler】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
-
AI
+關注
關注
87文章
29876瀏覽量
268171 -
數(shù)字化
+關注
關注
8文章
8558瀏覽量
61590 -
openEuler
+關注
關注
2文章
302瀏覽量
5814
原文標題:招商銀行基于A-Ops智能運維構(gòu)建快速定位定界能力
文章出處:【微信號:openEulercommunity,微信公眾號:openEuler】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論