本文來自“數(shù)據(jù)中心服務(wù)器智能故障診斷系統(tǒng)”,從云和數(shù)據(jù)中心的發(fā)展趨勢(shì)、產(chǎn)業(yè)互聯(lián)網(wǎng)時(shí)代的智能化運(yùn)營(yíng)需求和TIFDS故障診斷系統(tǒng)進(jìn)行分析。
隨著云技術(shù)的普及,尤其是“新基建”,“數(shù)字化轉(zhuǎn)型”等需求驅(qū)動(dòng)著數(shù)字經(jīng)濟(jì)的高速發(fā)展,服務(wù)器在CDC數(shù)據(jù)中心的部署規(guī)模也呈指數(shù)級(jí)增長(zhǎng)。隨之而來的運(yùn)維管理復(fù)雜度和難度也越來越大,而傳統(tǒng)的海量服務(wù)器數(shù)據(jù)中心的故障運(yùn)營(yíng)也面臨著更大的挑戰(zhàn)和更高昂的成本,從最初的腳本運(yùn)維、工具運(yùn)維到平臺(tái)運(yùn)維演進(jìn)至今,人力已接近極限,越來越無法滿足快速修復(fù)故障和恢復(fù)業(yè)務(wù)運(yùn)行的要求。
大規(guī)模數(shù)據(jù)中心運(yùn)維存在如下的痛點(diǎn)問題:
1. 機(jī)器故障后,重要的日志信息不全,無法自動(dòng)準(zhǔn)確進(jìn)行故障部件定位;
2. 故障診斷效能較低,服務(wù)器出現(xiàn)問題后主要基于人工分析和經(jīng)驗(yàn)判斷結(jié)果,自動(dòng)化與智能化程度不高。
3. 成本高時(shí)效性差,人工經(jīng)驗(yàn)分析依賴大量運(yùn)維人力投入并導(dǎo)致較長(zhǎng)的運(yùn)維時(shí)間(MTTR),影響業(yè)務(wù)的快速恢復(fù)。
4. 由于診斷結(jié)果的明確化率低,引起二次故障維修比例較高,導(dǎo)致額外數(shù)據(jù)遷移成本和業(yè)務(wù)影響。
TIFDS (Tencent&Inspur Fault Diagnosis System) 故障診斷系統(tǒng)是服務(wù)器健康監(jiān)管技術(shù)及故障預(yù)警診斷技術(shù)的總稱,旨在實(shí)現(xiàn)運(yùn)維工作任務(wù)由人工離線分析向自動(dòng)智能在線識(shí)別的方向發(fā)展,建立一套以帶外BMC為中心的自動(dòng)化故障診斷系統(tǒng),提升服務(wù)器故障預(yù)警能力、故障診斷明確率、以及停機(jī)維護(hù)效率,減少非計(jì)劃停機(jī)時(shí)間,提升服務(wù)器全生命周期的健壯的RAS特性(可靠性,可用性及可維護(hù)性)。
該系統(tǒng)依托騰訊超過100萬臺(tái)服務(wù)器的維護(hù)數(shù)據(jù),深度定制了服務(wù)器事件日志,通過AI技術(shù)對(duì)服務(wù)器運(yùn)營(yíng)數(shù)據(jù)進(jìn)行實(shí)時(shí)的分析,從而實(shí)現(xiàn)了對(duì)CPU,內(nèi)存、硬盤,PCIe等設(shè)備的自動(dòng)化預(yù)警,將服務(wù)器故障診斷自動(dòng)明確化率提升至95%以上。
宕機(jī)類故障診斷
TIFDS可以覆蓋由于IERR(Internal Error)和非IERR造成的系統(tǒng)宕機(jī)故障,并精準(zhǔn)地定位出故障部件,如CPU,內(nèi)存,主板,PCIe外插卡,存儲(chǔ)等設(shè)備。服務(wù)器運(yùn)行過程中一旦發(fā)生異常,TIFDS系統(tǒng)會(huì)立刻響應(yīng)并準(zhǔn)確診斷出故障的部件,將故障問題原因、故障部件具體位置、部件型號(hào)信息、維修建議等信息及時(shí)上報(bào)至運(yùn)維管理系統(tǒng)。運(yùn)維管理系統(tǒng)可自動(dòng)生成維修工單,運(yùn)維人員根據(jù)維修建議,需要更換部件信息,快捷更換故障部件或者依據(jù)TIFDS指導(dǎo)排除故障,迅速使機(jī)器恢復(fù)健康狀態(tài)。傳統(tǒng)的以小時(shí)計(jì)算維修時(shí)間級(jí)別壓縮至分鐘級(jí)別。極大提升運(yùn)維效率,實(shí)現(xiàn)云業(yè)務(wù)快速恢復(fù)。
非宕機(jī)類故障診斷
TIFDS系統(tǒng)通過BMC實(shí)時(shí)監(jiān)控服務(wù)器系統(tǒng)上遍布各處的電壓、電流、溫度傳感器信息,實(shí)時(shí)監(jiān)控電源、風(fēng)扇、以及各部件的工作狀態(tài)和工作負(fù)荷情況;根據(jù)可在線更新的告警閾值、預(yù)警閾值和故障判定規(guī)則,可實(shí)現(xiàn)對(duì)服務(wù)器中存在風(fēng)險(xiǎn)的位置進(jìn)行故障預(yù)警、故障告警或故障判定,并時(shí)刻上報(bào)智能運(yùn)維系統(tǒng)。
故障預(yù)警與隔離
TIFDS可以對(duì)服務(wù)器內(nèi)所有部件進(jìn)行全生命周期的壽命和運(yùn)行狀態(tài)進(jìn)行跟蹤,通過機(jī)器學(xué)習(xí)的算法對(duì)高風(fēng)險(xiǎn)的部件提前進(jìn)行預(yù)警,降低服務(wù)器在高負(fù)荷運(yùn)行狀態(tài)下的突然失效。另外對(duì)已發(fā)生故障的部件,TIFDS可以按部件類別做出相應(yīng)的隔離措施處理,避免單一非必要部件故障影響整機(jī)系統(tǒng)的運(yùn)行。
TIFDS是騰訊云運(yùn)維監(jiān)控系統(tǒng)中的重要組成部分,是服務(wù)器帶外數(shù)據(jù)的主要來源,在內(nèi)存,CPU,PCIe等部件的故障監(jiān)控,失效預(yù)測(cè),大規(guī)模告警上有極大貢獻(xiàn)。通過定制化的日志自動(dòng)適配騰訊云備件系統(tǒng),給騰訊云健康管理系統(tǒng)增加參考維度,并基于帶內(nèi)帶外日志開發(fā)出線上診斷系統(tǒng),深度的定制化模式和簡(jiǎn)單易用的維護(hù)工具使整個(gè)運(yùn)維系統(tǒng)能更加智能,高效。
編輯:黃飛
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
8963瀏覽量
85087 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4632瀏覽量
71899
原文標(biāo)題:數(shù)據(jù)中心服務(wù)器智能故障診斷系統(tǒng)
文章出處:【微信號(hào):AI_Architect,微信公眾號(hào):智能計(jì)算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論