您好,歡迎來(lái)電子發(fā)燒友網(wǎng)! ,新用戶?[免費(fèi)注冊(cè)]

您的位置:電子發(fā)燒友網(wǎng)>使用說(shuō)明書>服務(wù)器使用說(shuō)明>

服務(wù)器異常會(huì)出現(xiàn)那些可能性預(yù)警

大?。?/span>0.02 MB 人氣: 2020-06-02 需要積分:4
{$username}的空間

用戶級(jí)別:注冊(cè)會(huì)員

貢獻(xiàn)文章:

貢獻(xiàn)資料:

  提到服務(wù)器宕機(jī)檢測(cè),大家會(huì)想到,宕機(jī)能夠很快知道,這個(gè)有什么可做的?實(shí)際上,很多時(shí)候服務(wù)器宕機(jī),并不總是被及時(shí)感知。服務(wù)器宕機(jī),ping或者ssh這是最簡(jiǎn)單的做法,但真正的工程實(shí)踐,沒(méi)這么簡(jiǎn)單。

AL t4519030495478784

  想要獲知服務(wù)器宕機(jī)怎么辦?可以通過(guò)服務(wù)器宕機(jī)實(shí)時(shí)檢測(cè)

  1)發(fā)現(xiàn)宕機(jī)。

  2)提前告警。

  3)告知宕機(jī)的詳細(xì)原因,如硬件故障,內(nèi)核bug,網(wǎng)絡(luò)異常等等。

  4)自動(dòng)報(bào)修生成工單。

  我們知道,進(jìn)行全網(wǎng)物理機(jī)宕機(jī)準(zhǔn)確探測(cè)與實(shí)時(shí)發(fā)現(xiàn),可以給宕機(jī)分析提供現(xiàn)場(chǎng),獲取現(xiàn)場(chǎng)的移動(dòng)學(xué)習(xí)日志。也可以盡早將宕機(jī)數(shù)據(jù)推送給業(yè)務(wù)或運(yùn)營(yíng)感知并處理,如自動(dòng)報(bào)修,業(yè)務(wù)遷移等,從而盡可能將業(yè)務(wù)影響降低。

  更重要的是,準(zhǔn)確的宕機(jī)發(fā)現(xiàn)數(shù)據(jù)可以為宕機(jī)預(yù)測(cè)提供準(zhǔn)確的標(biāo)注數(shù)據(jù),為后期宕機(jī)預(yù)測(cè)提供數(shù)據(jù)基礎(chǔ),并且這些數(shù)據(jù)提供給運(yùn)營(yíng)部門進(jìn)行整體分析,提升處理效率。

  那么,如何可以準(zhǔn)確發(fā)現(xiàn)宕機(jī),減少誤報(bào)呢?我們可以有以下操作,比如:

  心跳源檢測(cè)異常

  顧名思義,通過(guò)心跳源,初步發(fā)現(xiàn)異常。通常心跳變化會(huì)有三類消息,update消息,delete消息和insert消息。心跳邏輯在于,正常情況下SA服務(wù)端與NC建立長(zhǎng)連接,每數(shù)秒緩存一次心跳,每幾分鐘打包上報(bào)一次,但當(dāng)NC異常時(shí),長(zhǎng)連接感知后,立即上報(bào)異常,并修改路由表。所以心跳異常做到秒級(jí)感知。

  update消息,在有心跳發(fā)生變化情況下都會(huì)有,心跳異常和心跳恢復(fù)正常時(shí)都會(huì)發(fā)起,是主要的心跳來(lái)源。

  delete消息,在心跳異常,并且SA判斷ping不通,且ssh不通情況下發(fā)起,刪除該條消息,避免延遲太長(zhǎng)。

  insert消息,在新增加機(jī)器, 或者重裝后重新上位的機(jī)器發(fā)起,該消息對(duì)宕機(jī)發(fā)現(xiàn)價(jià)值不大,配合uptime使用。

  心跳源檢測(cè)任務(wù)邏輯,主要是監(jiān)聽并緩存uptime消息,同時(shí)避免時(shí)間窗內(nèi)多次消息沖突,導(dǎo)致信息被覆蓋。

非常好我支持^.^

(0) 0%

不好我反對(duì)

(0) 0%

      發(fā)表評(píng)論

      用戶評(píng)論
      評(píng)價(jià):好評(píng)中評(píng)差評(píng)

      發(fā)表評(píng)論,獲取積分! 請(qǐng)遵守相關(guān)規(guī)定!

      ?