0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)中心服務(wù)器運(yùn)維存在哪些痛點(diǎn)

智能計(jì)算芯世界 ? 來源:智能計(jì)算芯世界 ? 作者:智能計(jì)算芯世界 ? 2022-07-25 16:22 ? 次閱讀

本文來自“數(shù)據(jù)中心服務(wù)器智能故障診斷系統(tǒng)”,從云和數(shù)據(jù)中心的發(fā)展趨勢(shì)、產(chǎn)業(yè)互聯(lián)網(wǎng)時(shí)代的智能化運(yùn)營(yíng)需求和TIFDS故障診斷系統(tǒng)進(jìn)行分析。

f4b4f944-06f5-11ed-ba43-dac502259ad0.png

隨著云技術(shù)的普及,尤其是“新基建”,“數(shù)字化轉(zhuǎn)型”等需求驅(qū)動(dòng)著數(shù)字經(jīng)濟(jì)的高速發(fā)展,服務(wù)器在CDC數(shù)據(jù)中心的部署規(guī)模也呈指數(shù)級(jí)增長(zhǎng)。隨之而來的運(yùn)維管理復(fù)雜度和難度也越來越大,而傳統(tǒng)的海量服務(wù)器數(shù)據(jù)中心的故障運(yùn)營(yíng)也面臨著更大的挑戰(zhàn)和更高昂的成本,從最初的腳本運(yùn)維、工具運(yùn)維到平臺(tái)運(yùn)維演進(jìn)至今,人力已接近極限,越來越無法滿足快速修復(fù)故障和恢復(fù)業(yè)務(wù)運(yùn)行的要求。

大規(guī)模數(shù)據(jù)中心運(yùn)維存在如下的痛點(diǎn)問題:

1. 機(jī)器故障后,重要的日志信息不全,無法自動(dòng)準(zhǔn)確進(jìn)行故障部件定位;

2. 故障診斷效能較低,服務(wù)器出現(xiàn)問題后主要基于人工分析和經(jīng)驗(yàn)判斷結(jié)果,自動(dòng)化與智能化程度不高。

3. 成本高時(shí)效性差,人工經(jīng)驗(yàn)分析依賴大量運(yùn)維人力投入并導(dǎo)致較長(zhǎng)的運(yùn)維時(shí)間(MTTR),影響業(yè)務(wù)的快速恢復(fù)。

4. 由于診斷結(jié)果的明確化率低,引起二次故障維修比例較高,導(dǎo)致額外數(shù)據(jù)遷移成本和業(yè)務(wù)影響。

TIFDS (Tencent&Inspur Fault Diagnosis System) 故障診斷系統(tǒng)是服務(wù)器健康監(jiān)管技術(shù)及故障預(yù)警診斷技術(shù)的總稱,旨在實(shí)現(xiàn)運(yùn)維工作任務(wù)由人工離線分析向自動(dòng)智能在線識(shí)別的方向發(fā)展,建立一套以帶外BMC為中心的自動(dòng)化故障診斷系統(tǒng),提升服務(wù)器故障預(yù)警能力、故障診斷明確率、以及停機(jī)維護(hù)效率,減少非計(jì)劃停機(jī)時(shí)間,提升服務(wù)器全生命周期的健壯的RAS特性(可靠性,可用性及可維護(hù)性)。

該系統(tǒng)依托騰訊超過100萬臺(tái)服務(wù)器的維護(hù)數(shù)據(jù),深度定制了服務(wù)器事件日志,通過AI技術(shù)對(duì)服務(wù)器運(yùn)營(yíng)數(shù)據(jù)進(jìn)行實(shí)時(shí)的分析,從而實(shí)現(xiàn)了對(duì)CPU,內(nèi)存、硬盤,PCIe等設(shè)備的自動(dòng)化預(yù)警,將服務(wù)器故障診斷自動(dòng)明確化率提升至95%以上。

f4d7a5d4-06f5-11ed-ba43-dac502259ad0.png

宕機(jī)類故障診斷

TIFDS可以覆蓋由于IERR(Internal Error)和非IERR造成的系統(tǒng)宕機(jī)故障,并精準(zhǔn)地定位出故障部件,如CPU,內(nèi)存,主板,PCIe外插卡,存儲(chǔ)等設(shè)備。服務(wù)器運(yùn)行過程中一旦發(fā)生異常,TIFDS系統(tǒng)會(huì)立刻響應(yīng)并準(zhǔn)確診斷出故障的部件,將故障問題原因、故障部件具體位置、部件型號(hào)信息、維修建議等信息及時(shí)上報(bào)至運(yùn)維管理系統(tǒng)。運(yùn)維管理系統(tǒng)可自動(dòng)生成維修工單,運(yùn)維人員根據(jù)維修建議,需要更換部件信息,快捷更換故障部件或者依據(jù)TIFDS指導(dǎo)排除故障,迅速使機(jī)器恢復(fù)健康狀態(tài)。傳統(tǒng)的以小時(shí)計(jì)算維修時(shí)間級(jí)別壓縮至分鐘級(jí)別。極大提升運(yùn)維效率,實(shí)現(xiàn)云業(yè)務(wù)快速恢復(fù)。

f4f4e98c-06f5-11ed-ba43-dac502259ad0.png

非宕機(jī)類故障診斷

TIFDS系統(tǒng)通過BMC實(shí)時(shí)監(jiān)控服務(wù)器系統(tǒng)上遍布各處的電壓、電流、溫度傳感器信息,實(shí)時(shí)監(jiān)控電源、風(fēng)扇、以及各部件的工作狀態(tài)和工作負(fù)荷情況;根據(jù)可在線更新的告警閾值、預(yù)警閾值和故障判定規(guī)則,可實(shí)現(xiàn)對(duì)服務(wù)器中存在風(fēng)險(xiǎn)的位置進(jìn)行故障預(yù)警、故障告警或故障判定,并時(shí)刻上報(bào)智能運(yùn)維系統(tǒng)。

f505cd88-06f5-11ed-ba43-dac502259ad0.png

故障預(yù)警與隔離

TIFDS可以對(duì)服務(wù)器內(nèi)所有部件進(jìn)行全生命周期的壽命和運(yùn)行狀態(tài)進(jìn)行跟蹤,通過機(jī)器學(xué)習(xí)算法對(duì)高風(fēng)險(xiǎn)的部件提前進(jìn)行預(yù)警,降低服務(wù)器在高負(fù)荷運(yùn)行狀態(tài)下的突然失效。另外對(duì)已發(fā)生故障的部件,TIFDS可以按部件類別做出相應(yīng)的隔離措施處理,避免單一非必要部件故障影響整機(jī)系統(tǒng)的運(yùn)行。

f5271786-06f5-11ed-ba43-dac502259ad0.png

TIFDS是騰訊云運(yùn)維監(jiān)控系統(tǒng)中的重要組成部分,是服務(wù)器帶外數(shù)據(jù)的主要來源,在內(nèi)存,CPU,PCIe等部件的故障監(jiān)控,失效預(yù)測(cè),大規(guī)模告警上有極大貢獻(xiàn)。通過定制化的日志自動(dòng)適配騰訊云備件系統(tǒng),給騰訊云健康管理系統(tǒng)增加參考維度,并基于帶內(nèi)帶外日志開發(fā)出線上診斷系統(tǒng),深度的定制化模式和簡(jiǎn)單易用的維護(hù)工具使整個(gè)運(yùn)維系統(tǒng)能更加智能,高效。

編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    12

    文章

    8963

    瀏覽量

    85087
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    4632

    瀏覽量

    71899

原文標(biāo)題:數(shù)據(jù)中心服務(wù)器智能故障診斷系統(tǒng)

文章出處:【微信號(hào):AI_Architect,微信公眾號(hào):智能計(jì)算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    銳捷助互聯(lián)網(wǎng)數(shù)據(jù)中心網(wǎng)絡(luò)自動(dòng)化、可視化運(yùn)

    數(shù)據(jù),目前我國(guó)規(guī)劃在建數(shù)據(jù)中心達(dá)到246個(gè),總設(shè)計(jì)機(jī)架數(shù)約為103萬個(gè),總設(shè)計(jì)服務(wù)器規(guī)模約1326萬臺(tái)。在用超大型、大型數(shù)據(jù)中心達(dá)37個(gè),總設(shè)計(jì)機(jī)架數(shù)約為20萬個(gè),總設(shè)計(jì)
    發(fā)表于 01-25 09:42

    基于數(shù)據(jù)中心服務(wù)器的新接口測(cè)試設(shè)計(jì)

    本文檔中介紹了基于數(shù)據(jù)中心服務(wù)器的新接口測(cè)試設(shè)計(jì),包含了系統(tǒng)框圖及電路圖。
    發(fā)表于 09-12 11:10 ?5次下載
    基于<b class='flag-5'>數(shù)據(jù)中心服務(wù)器</b>的新接口測(cè)試設(shè)計(jì)

    基于大數(shù)據(jù)的高能效數(shù)據(jù)中心服務(wù)器研究

    分析ARM服務(wù)器的發(fā)展以及應(yīng)用現(xiàn)狀,結(jié)合數(shù)據(jù)中心的特點(diǎn),設(shè)計(jì)基于ARMv8架構(gòu)的高能效數(shù)據(jù)中心服務(wù)器,選取目前工業(yè)界具有代表性的ARMv8服務(wù)器參數(shù),使用典型的
    發(fā)表于 01-29 13:56 ?0次下載
    基于大<b class='flag-5'>數(shù)據(jù)</b>的高能效<b class='flag-5'>數(shù)據(jù)中心服務(wù)器</b>研究

    自動(dòng)化運(yùn)重要里程碑,騰訊數(shù)據(jù)中心服務(wù)臺(tái)的正式啟用

    騰訊數(shù)據(jù)中心服務(wù)臺(tái)是騰訊數(shù)據(jù)中心基礎(chǔ)設(shè)施管理的“大腦”——基礎(chǔ)設(shè)施運(yùn)中心,集呈現(xiàn)“全球園區(qū)與網(wǎng)絡(luò)資源視圖”、“機(jī)架、機(jī)位、
    發(fā)表于 07-27 17:16 ?1956次閱讀

    數(shù)據(jù)中心服務(wù)器接口測(cè)試方案

    本文檔內(nèi)容介紹了基于數(shù)據(jù)中心服務(wù)器接口測(cè)試方案,供參考
    發(fā)表于 03-16 16:26 ?3次下載

    如何才能提高數(shù)據(jù)中心服務(wù)器的效率

    研究表明,雖然數(shù)據(jù)中心的能耗成本高昂,但服務(wù)器效率也越來越高。每個(gè)數(shù)據(jù)中心都擁有運(yùn)行各種工作負(fù)載的大量服務(wù)器。無論是企業(yè)數(shù)據(jù)中心、托管
    發(fā)表于 06-01 08:00 ?1次下載
    如何才能提高<b class='flag-5'>數(shù)據(jù)中心服務(wù)器</b>的效率

    數(shù)據(jù)中心正從云時(shí)代向AI時(shí)代進(jìn)化

    隨著數(shù)據(jù)中心服務(wù)器規(guī)模的不斷增加,以及計(jì)算網(wǎng)絡(luò)、存儲(chǔ)網(wǎng)絡(luò)、數(shù)據(jù)網(wǎng)絡(luò)的三網(wǎng)融合,數(shù)據(jù)中心運(yùn)人員也迎來了更大的問題,這也讓傳統(tǒng)的人工運(yùn)
    的頭像 發(fā)表于 07-09 11:48 ?1981次閱讀

    傳統(tǒng)香港服務(wù)器數(shù)據(jù)中心正在面臨哪些挑戰(zhàn)

    數(shù)據(jù)中心維護(hù)管理重要工種之一,IT運(yùn)出現(xiàn)的問題也映射了傳統(tǒng)數(shù)據(jù)中心正面臨的問題。 今天,恒訊科技小編就給大家分析一下傳統(tǒng)香港服務(wù)器
    的頭像 發(fā)表于 04-12 15:13 ?1362次閱讀

    數(shù)據(jù)中心服務(wù)器安全白皮書

    電子發(fā)燒友網(wǎng)站提供《數(shù)據(jù)中心服務(wù)器安全白皮書.pdf》資料免費(fèi)下載
    發(fā)表于 08-23 09:25 ?0次下載
    <b class='flag-5'>數(shù)據(jù)中心服務(wù)器</b>安全白皮書

    超聚變獲TüV南德全球首個(gè)數(shù)據(jù)中心服務(wù)器智能認(rèn)證標(biāo)志

    數(shù)據(jù)中心服務(wù)器智能化 深圳2024年1月15日?/美通社/ --?1月15日,TüV南德意志集團(tuán)(以下簡(jiǎn)稱"TüV南德")為超聚變數(shù)字技術(shù)有限公司(以下簡(jiǎn)稱"超聚變")的數(shù)據(jù)中心液冷整機(jī)柜服務(wù)器產(chǎn)品
    的頭像 發(fā)表于 01-15 20:58 ?475次閱讀
    超聚變獲TüV南德全球首個(gè)<b class='flag-5'>數(shù)據(jù)中心服務(wù)器</b>智能認(rèn)證標(biāo)志

    數(shù)據(jù)中心服務(wù)器功率一般多大 數(shù)據(jù)中心服務(wù)器操作系統(tǒng)三大類包括

    數(shù)據(jù)中心服務(wù)器功率一般多大: 數(shù)據(jù)中心服務(wù)器的功率大小可以根據(jù)具體的需求和規(guī)模而定。一般來說,數(shù)據(jù)中心服務(wù)器的功率會(huì)相對(duì)較大,以應(yīng)對(duì)大量數(shù)據(jù)處理和存儲(chǔ)的需求。根據(jù)統(tǒng)計(jì)
    的頭像 發(fā)表于 01-25 10:10 ?2354次閱讀

    數(shù)據(jù)中心機(jī)房建設(shè)的點(diǎn):投資與運(yùn)之間的博弈

    在數(shù)字化浪潮的推動(dòng)下,數(shù)據(jù)中心機(jī)房建設(shè)成為企業(yè)發(fā)展不可或缺的一環(huán)。然而,這一過程中存在一系列的點(diǎn),其中投資與運(yùn)
    的頭像 發(fā)表于 02-03 09:54 ?649次閱讀

    韓國(guó)大帶寬服務(wù)器數(shù)據(jù)中心位置

    很多用戶會(huì)選擇韓國(guó)大寬帶服務(wù)器,那么韓國(guó)大帶寬服務(wù)器數(shù)據(jù)中心位置在哪,rak小編為您整理發(fā)布韓國(guó)大帶寬服務(wù)器
    的頭像 發(fā)表于 03-15 10:47 ?375次閱讀

    分布式運(yùn)管理平臺(tái)解決大型數(shù)據(jù)中心運(yùn)難題的案例

    。因此,某大型數(shù)據(jù)中心決定引入分布式運(yùn)管理平臺(tái),以解決運(yùn)過程中的諸多難題。 來百度APP暢享高清圖片 二、平臺(tái)實(shí)施與功能 資源整合與統(tǒng)一
    的頭像 發(fā)表于 03-26 16:10 ?392次閱讀
    分布式<b class='flag-5'>運(yùn)</b><b class='flag-5'>維</b>管理平臺(tái)解決大型<b class='flag-5'>數(shù)據(jù)中心</b><b class='flag-5'>運(yùn)</b><b class='flag-5'>維</b>難題的案例

    如何選擇數(shù)據(jù)中心服務(wù)

    在選擇數(shù)據(jù)中心服務(wù)時(shí),需要考慮多個(gè)關(guān)鍵因素以確保選擇的服務(wù)能夠滿足業(yè)務(wù)需求并確保數(shù)據(jù)的安全、可靠性和性能。以下是一些關(guān)鍵步驟和考慮因素: 一、明確業(yè)務(wù)需求 首先,需要明確自己的業(yè)務(wù)需求,包括數(shù)
    的頭像 發(fā)表于 10-24 16:14 ?131次閱讀