0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

實(shí)現(xiàn)故障自愈要攻克的3個(gè)問(wèn)題以及開(kāi)箱即用的方案

馬哥Linux運(yùn)維 ? 來(lái)源:未知 ? 作者:易水寒 ? 2018-05-19 10:59 ? 次閱讀

產(chǎn)品設(shè)計(jì)理念剖析企業(yè)建設(shè)故障自動(dòng)化處理方案的思路

人工處理告警,一直是運(yùn)維心中的痛。大年初一拜年、結(jié)婚、和老婆孩子外出過(guò)周末等美好時(shí)光,作為運(yùn)維的你,好像一直心系IT系統(tǒng),保持與筆記本的安全距離。

為什么這么多年過(guò)去了,還是這么苦逼,不是說(shuō)運(yùn)維行業(yè)轉(zhuǎn) AIOps了,我竟然還在手工處理告警,我該怎么辦?

今天就和大家聊聊實(shí)現(xiàn)故障自愈要攻克的3個(gè)問(wèn)題,以及獻(xiàn)上開(kāi)箱即用的方案。

1. 故障自愈的基本流程

自動(dòng)化的要點(diǎn)是什么?把人的經(jīng)驗(yàn)抽象、固化為程序處理,工業(yè)(第3次工業(yè)革命)或互聯(lián)網(wǎng)都是如此。

舉個(gè)例子,磁盤(pán)出現(xiàn)告警,運(yùn)維首先想到的是登陸服務(wù)器清理磁盤(pán)。

實(shí)現(xiàn)故障自愈要攻克的3個(gè)問(wèn)題以及開(kāi)箱即用的方案

(人工處理告警的流程)

接下來(lái),我們拆解背后的邏輯。

1.1 抽象告警處理流程

1)拉取磁盤(pán)告警

2) 編寫(xiě)磁盤(pán)清理的腳本或作業(yè)任務(wù)

3) 設(shè)計(jì)模塊:把拉取到的磁盤(pán)告警,與調(diào)用腳本的模塊串起來(lái)

實(shí)現(xiàn)故障自愈要攻克的3個(gè)問(wèn)題以及開(kāi)箱即用的方案

(故障自愈流程 簡(jiǎn)化版V1)

1.2 通過(guò)CMDB做資源清洗

不同模塊的磁盤(pán)清理方案不一樣,如何解決呢?

這時(shí)需要引入CMDB(設(shè)備、人、業(yè)務(wù)的映射關(guān)系),通過(guò)CMDB把IP清洗為模塊,這樣就解決了接入層 和 邏輯層、存儲(chǔ)層的告警使用對(duì)應(yīng)的磁盤(pán)清理方案。

實(shí)現(xiàn)故障自愈要攻克的3個(gè)問(wèn)題以及開(kāi)箱即用的方案

(故障自愈流程 簡(jiǎn)化版V2)

1.3 對(duì)接企業(yè)內(nèi)部網(wǎng)關(guān)

故障自愈可能會(huì)處理失敗,這時(shí)需要通知用戶。故障自愈的處理方式除了調(diào)用作業(yè)外,還可能需要調(diào)用企業(yè)內(nèi)部的網(wǎng)關(guān),比如服務(wù)器重啟、申請(qǐng)服務(wù)器等。

使用PaaS層的ESB是一種解決思路,通過(guò)ESB封裝企業(yè)內(nèi)部網(wǎng)關(guān),解決權(quán)限校驗(yàn)、頻率控制、訪問(wèn)統(tǒng)計(jì)、路由分發(fā)以及自助接入等功能,不要直接調(diào)用裸接口了。

實(shí)現(xiàn)故障自愈要攻克的3個(gè)問(wèn)題以及開(kāi)箱即用的方案

(故障自愈的通知方案)

經(jīng)過(guò)這一輪的探索,故障自愈的架構(gòu)就是下面這個(gè)樣子。

實(shí)現(xiàn)故障自愈要攻克的3個(gè)問(wèn)題以及開(kāi)箱即用的方案

(故障自愈的流程)

1.4 對(duì)接企業(yè)內(nèi)部監(jiān)控產(chǎn)品

等等,好像還沒(méi)說(shuō)如何對(duì)接企業(yè)內(nèi)部的監(jiān)控產(chǎn)品,以Zabbix、Open-Falcon為例。

1.4.1 對(duì)接Zabbix

《當(dāng)Zabbix遇見(jiàn)故障自愈》介紹了拉取Zabbix告警的方案,通過(guò) ActionScript 調(diào)用腳本,把 Zabbix 告警推送至自愈的告警拉取模塊。

推送(或叫回調(diào))可以保證告警拉取的實(shí)時(shí)性。

實(shí)現(xiàn)故障自愈要攻克的3個(gè)問(wèn)題以及開(kāi)箱即用的方案

(Zabbix推送告警示例)

實(shí)現(xiàn)故障自愈要攻克的3個(gè)問(wèn)題以及開(kāi)箱即用的方案

(Zabbix調(diào)用推送告警的腳本)

對(duì)接Zabbix 的落地案例可以參考陳亮撰寫(xiě)的那些年我們想做的無(wú)人值守。

除Zabbix外,Open-Falcon在國(guó)內(nèi)的社區(qū)熱度也不錯(cuò),所以也介紹拉取其告警的方案。

1.4.2 對(duì)接Open-falcon

方案類似Zabbix,不過(guò)Open-falcon 直接提供了callback功能,簡(jiǎn)化了流程。

實(shí)現(xiàn)故障自愈要攻克的3個(gè)問(wèn)題以及開(kāi)箱即用的方案

(Open-Falcon配置Callback地址)

收到了Open-Falcon 推送的告警后,解析對(duì)應(yīng)的字段即可。

如果企業(yè)內(nèi)部的CMDB以IP來(lái)標(biāo)識(shí)主機(jī),需要再做一層轉(zhuǎn)換,因?yàn)镺pen-Falcon 的資源標(biāo)識(shí)endpoint默認(rèn)是主機(jī)名,那么就需要使用CMDB的自動(dòng)發(fā)現(xiàn)功能自動(dòng)上報(bào)主機(jī)名,同時(shí)提供把主機(jī)名清洗為IP的功能。

下面是Nginx模塊磁盤(pán)告警的自愈示例,匹配Nginx模塊的磁盤(pán)清理套餐,清理Nginx模塊的日志文件,整個(gè)過(guò)程不到30秒。

實(shí)現(xiàn)故障自愈要攻克的3個(gè)問(wèn)題以及開(kāi)箱即用的方案

(磁盤(pán)告警的自愈示例)

2. 故障自愈的兩面性

故障自動(dòng)處理就像一把刀,有其兩面性。

因?yàn)橐_保告警的真實(shí)性,一旦把假告警也自動(dòng)處理了,就很悲催了…

舉個(gè)例子。網(wǎng)絡(luò)波動(dòng),批量出現(xiàn)PING告警。實(shí)際上服務(wù)器運(yùn)行正常,這時(shí)你把服務(wù)器都重啟了,那就GG了。

如何解決呢?分析事物的規(guī)律。

批量出現(xiàn)告警,那可以在告警拉取模塊后面,增加一個(gè)收斂模塊。

比如,在X時(shí)間內(nèi)出現(xiàn)Y個(gè)告警,打電話給運(yùn)維審批。

X時(shí)間內(nèi)同一主機(jī)出現(xiàn)使用相同套餐的告警,則收斂時(shí)間窗口中后面的告警則跳過(guò),比如同時(shí)收到進(jìn)程告警 和 端口告警,就不用拉2次進(jìn)程了。

還有就是,原有監(jiān)控系統(tǒng)沒(méi)有收斂能力,那么可以借用這個(gè)功能來(lái)做告警匯總,因?yàn)槭諗窟壿嬕粯樱皇鞘諗康奶幚矸绞接胁町悺?/p>

實(shí)現(xiàn)故障自愈要攻克的3個(gè)問(wèn)題以及開(kāi)箱即用的方案

3. 復(fù)雜告警的處理方案 - 組合套餐

上面提到的技術(shù)方案是用來(lái)處理邏輯簡(jiǎn)單的告警,那么故障替換這種復(fù)雜的場(chǎng)景如何解決呢?

舉個(gè)例子,A模塊是重要模塊,出現(xiàn)PING不可達(dá)告警,首先要校驗(yàn)A模塊是否真的故障,如果真的故障,接下來(lái)是從資源池中獲取備機(jī) … 故障替換等等,期間每個(gè)環(huán)節(jié)都有可能出錯(cuò),那就要考慮異常分支的場(chǎng)景。

樹(shù)結(jié)構(gòu)可以解決該問(wèn)題,二叉樹(shù)足以滿足大部分場(chǎng)景(成功、失敗兩種分支)。

實(shí)現(xiàn)故障自愈要攻克的3個(gè)問(wèn)題以及開(kāi)箱即用的方案

( 組合套餐的示例)

上面這張圖,是一個(gè)自愈處理方案,可以稱之為組合套餐。

這里同時(shí)引入了原子的概念,通過(guò)組裝原子來(lái)滿足各種需求場(chǎng)景, 和資源編排說(shuō)的是同一個(gè)理兒。

注:如果你想使用三叉樹(shù),其實(shí)可以把組合套餐也作為一個(gè)原子套餐(節(jié)點(diǎn))。

4. 故障自愈的技術(shù)架構(gòu)

經(jīng)過(guò)前面對(duì)故障自愈的基本流程、故障自愈的兩面性、復(fù)雜的故障處理方案的層層梳理,我們有了一張故障自愈的技術(shù)架構(gòu)圖。

實(shí)現(xiàn)故障自愈要攻克的3個(gè)問(wèn)題以及開(kāi)箱即用的方案

相信這次以經(jīng)行業(yè)驗(yàn)證的故障自愈做技術(shù)剖析,能對(duì)大家建設(shè)企業(yè)內(nèi)部的故障自動(dòng)處理方案提供參考思路。

5. 收尾

當(dāng) AIOps大行其道的時(shí)候,我們需要克制,優(yōu)先解決主要矛盾,而不是構(gòu)建高大上的空中樓閣。

如同產(chǎn)品路線圖,優(yōu)先解決可用性,接下來(lái)是體驗(yàn),最后才是可擴(kuò)展性和生態(tài),依次落地。

實(shí)現(xiàn)故障自愈要攻克的3個(gè)問(wèn)題以及開(kāi)箱即用的方案

最后,希望廣大的運(yùn)維兄弟姐妹能盡早脫離原始運(yùn)維的苦海,抓住行業(yè)發(fā)展趨勢(shì),掌握核心技術(shù),在變革中實(shí)現(xiàn)自身價(jià)值!

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 故障處理
    +關(guān)注

    關(guān)注

    2

    文章

    21

    瀏覽量

    9480
  • CMDB
    +關(guān)注

    關(guān)注

    0

    文章

    7

    瀏覽量

    6735

原文標(biāo)題:故障自愈:解決運(yùn)維的主要矛盾才能AIOps

文章出處:【微信號(hào):magedu-Linux,微信公眾號(hào):馬哥Linux運(yùn)維】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    快速開(kāi)箱即用體驗(yàn) AMD / Xilinx Kria? KD240驅(qū)動(dòng)器入門(mén)套件

    快速開(kāi)箱即用體驗(yàn) AMD / Xilinx Kria? KD240驅(qū)動(dòng)器入門(mén)套件
    的頭像 發(fā)表于 06-22 10:26 ?7986次閱讀
    快速<b class='flag-5'>開(kāi)箱</b><b class='flag-5'>即用</b>體驗(yàn) AMD / Xilinx Kria? KD240驅(qū)動(dòng)器入門(mén)套件

    簡(jiǎn)單便捷、開(kāi)箱即用的IoT連接方案——意法半導(dǎo)體STM32蜂窩-云端探索套件經(jīng)銷商到貨

    套件開(kāi)箱即用,簡(jiǎn)單便捷,包含可按照個(gè)人應(yīng)用需求靈活自定義的示例腳本。腳本運(yùn)行在Espruino JavaScript引擎環(huán)境中(已移植到STM32微控制器上)。為了幫助簡(jiǎn)化向純C代碼編程過(guò)渡,實(shí)現(xiàn)最佳
    發(fā)表于 07-09 10:17

    自愈式電容器的使用誤區(qū)總結(jié)

    次諧波等,在實(shí)際選型時(shí)必須根據(jù)諧波類型選擇相應(yīng)的電容電抗?! ?b class='flag-5'>3. 沒(méi)有鼓包漏油就是無(wú)故障  不少客戶認(rèn)為自愈式電容器沒(méi)有鼓包、漏油就是沒(méi)有故障,這種認(rèn)知是不準(zhǔn)確的。鼓肚、滲漏油屬于電
    發(fā)表于 03-09 11:49

    計(jì)算機(jī)網(wǎng)絡(luò)E1鏈路接口自愈保護(hù)解決方案

    根據(jù)商用等專用網(wǎng)絡(luò)存在的問(wèn)題,提出一種智能網(wǎng)絡(luò)自愈解決方案,在不改變現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)的情況下,通過(guò)在內(nèi)外網(wǎng)之間加入自行研發(fā)的智能網(wǎng)絡(luò)自愈裝置實(shí)現(xiàn)網(wǎng)絡(luò)故障
    發(fā)表于 04-17 09:10 ?14次下載

    SDH自愈環(huán)比較

    5種自愈環(huán)的比較 自愈環(huán)的應(yīng)用
    發(fā)表于 08-25 16:25 ?0次下載

    當(dāng)智能配電網(wǎng)發(fā)生故障時(shí)是如何進(jìn)行自愈控制的?

    實(shí)現(xiàn)對(duì)智能配電網(wǎng)的自愈控制,單單靠電力技術(shù)本身是無(wú)法完成的,必須研究和運(yùn)用各種技術(shù)手段來(lái)支撐自愈控制技術(shù),使其組成一個(gè)強(qiáng)大的智能化體系框架
    發(fā)表于 07-16 11:08 ?1w次閱讀

    ABC一體機(jī)3.0:AI開(kāi)箱即用即開(kāi)發(fā)

    ABC一體機(jī)3.0在大數(shù)據(jù)一體機(jī)、訓(xùn)練一體機(jī)之上,集成了更多的AI能力,包括人臉、語(yǔ)音、視頻、NLP等通用AI和面向工業(yè)質(zhì)檢、金融風(fēng)控的專用AI,實(shí)現(xiàn)開(kāi)箱即用。更重要的是,ABC一體機(jī)3.0實(shí)
    的頭像 發(fā)表于 09-06 15:00 ?4409次閱讀

    阿里如何做到百萬(wàn)量級(jí)硬件故障自愈

    自愈以及集群的自平衡重建,真正在影響業(yè)務(wù)之前實(shí)現(xiàn)硬件故障自動(dòng)閉環(huán)策略,對(duì)于常見(jiàn)的硬件故障無(wú)需人工干預(yù)即可自動(dòng)閉環(huán)解決。1.背景1.1.面臨挑
    發(fā)表于 11-30 15:55 ?180次閱讀
    阿里如何做到百萬(wàn)量級(jí)硬件<b class='flag-5'>故障</b><b class='flag-5'>自愈</b>?

    全自動(dòng)剝線機(jī)原理三個(gè)故障以及解決辦法

    為大家簡(jiǎn)單介紹端子機(jī)的故障分為剝皮故障、打端故障和沾錫故障3個(gè)部分。
    的頭像 發(fā)表于 12-25 02:38 ?4531次閱讀

    華為開(kāi)發(fā)者大會(huì)2021智能硬件開(kāi)發(fā)—開(kāi)箱即用的解決方案

    大咖、全球開(kāi)發(fā)者一起探討全場(chǎng)景智慧體驗(yàn)的未來(lái)。 開(kāi)箱即用行業(yè)解決方案 智能家居(貼心管家) ? 智能出行(出行助理) ? 影音娛樂(lè)(娛樂(lè)伙伴) ? 運(yùn)動(dòng)健康(私人教練) ? 教育關(guān)懷(智慧學(xué)伴
    的頭像 發(fā)表于 10-23 10:10 ?1395次閱讀
    華為開(kāi)發(fā)者大會(huì)2021智能硬件開(kāi)發(fā)—<b class='flag-5'>開(kāi)箱</b><b class='flag-5'>即用</b>的解決<b class='flag-5'>方案</b>

    開(kāi)箱即用的物聯(lián)網(wǎng):構(gòu)建一個(gè)無(wú)縫、安全的智能家庭網(wǎng)絡(luò)

    開(kāi)箱即用的物聯(lián)網(wǎng):構(gòu)建一個(gè)無(wú)縫、安全的智能家庭網(wǎng)絡(luò)
    發(fā)表于 11-01 08:26 ?1次下載
    <b class='flag-5'>開(kāi)箱</b><b class='flag-5'>即用</b>的物聯(lián)網(wǎng):構(gòu)建一<b class='flag-5'>個(gè)</b>無(wú)縫、安全的智能家庭網(wǎng)絡(luò)

    開(kāi)箱即用!教你如何正確使用華為云CodeArts IDE Online!

    華為云CodeArts IDE Online服務(wù) ,提供了可隨時(shí)隨地編碼的云上開(kāi)發(fā)環(huán)境,同時(shí)具備開(kāi)放的生態(tài)和獨(dú)立插件市場(chǎng),旨在為開(kāi)發(fā)者提供環(huán)境快速獲取、功能開(kāi)箱即用、跨越計(jì)算架構(gòu)、隨時(shí)隨地訪問(wèn)、橫向
    的頭像 發(fā)表于 07-06 11:45 ?545次閱讀
    <b class='flag-5'>開(kāi)箱</b><b class='flag-5'>即用</b>!教你如何正確使用華為云CodeArts IDE Online!

    配網(wǎng)調(diào)度自動(dòng)化自愈系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

    針對(duì)配網(wǎng)調(diào)度現(xiàn)狀進(jìn)行相應(yīng)需求分析并提出配置方案,著重研究和設(shè)計(jì)了配網(wǎng)自愈系統(tǒng)。使用配網(wǎng)自愈系統(tǒng)可以減少故障處理時(shí)調(diào)度員等候操作人員到達(dá)現(xiàn)場(chǎng)浪費(fèi)的時(shí)間,由主站控制分段開(kāi)關(guān)及環(huán)網(wǎng)聯(lián)絡(luò)開(kāi)關(guān),
    的頭像 發(fā)表于 01-16 14:08 ?923次閱讀
    配網(wǎng)調(diào)度自動(dòng)化<b class='flag-5'>自愈</b>系統(tǒng)的設(shè)計(jì)與<b class='flag-5'>實(shí)現(xiàn)</b>

    [技術(shù)干貨](méi)?AI 助手全套開(kāi)源解決方案,自帶運(yùn)營(yíng)管理后臺(tái),開(kāi)箱即用

    方案介紹 隨著人工智能技術(shù)的不斷發(fā)展和普及,越來(lái)越多的企業(yè)和個(gè)人開(kāi)始關(guān)注和使用 AI 助手來(lái)提高工作效率和生活便利性。該解決方案基于 AI 大語(yǔ)言模型 API 實(shí)現(xiàn)的 AI 助手全套開(kāi)源解決
    的頭像 發(fā)表于 04-05 23:23 ?1151次閱讀
    [技術(shù)干貨](méi)?AI 助手全套開(kāi)源解決<b class='flag-5'>方案</b>,自帶運(yùn)營(yíng)管理后臺(tái),<b class='flag-5'>開(kāi)箱</b><b class='flag-5'>即用</b>

    自愈式電容器型號(hào)含義

    自愈式電容器是一種具有自愈功能的電容器,它能夠在電容器內(nèi)部出現(xiàn)故障時(shí)自動(dòng)修復(fù),從而延長(zhǎng)電容器的使用壽命。這種電容器廣泛應(yīng)用于電力系統(tǒng)、電子設(shè)備、家用電器等領(lǐng)域。 一、自愈式電容器的基本
    的頭像 發(fā)表于 09-26 11:08 ?230次閱讀