0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

服務(wù)器“異常”的幾個(gè)可能性預(yù)警請重視!

恒創(chuàng)主機(jī)服務(wù)器 ? 來源:恒創(chuàng)主機(jī)服務(wù)器 ? 作者:恒創(chuàng)主機(jī)服務(wù)器 ? 2023-04-06 17:05 ? 次閱讀

提到服務(wù)器宕機(jī)檢測,大家會想到,宕機(jī)能夠很快知道,這個(gè)有什么可做的?實(shí)際上,很多時(shí)候服務(wù)器宕機(jī),并不總是被及時(shí)感知。服務(wù)器宕機(jī),ping或者ssh這是最簡單的做法,但真正的工程實(shí)踐,沒這么簡單。

想要獲知服務(wù)器宕機(jī)怎么辦?可以通過服務(wù)器宕機(jī)實(shí)時(shí)檢測

1)發(fā)現(xiàn)宕機(jī)。

2)提前告警。

3)告知宕機(jī)的詳細(xì)原因,如硬件故障,內(nèi)核bug,網(wǎng)絡(luò)異常等等。

4)自動報(bào)修生成工單。

我們知道,進(jìn)行全網(wǎng)物理機(jī)宕機(jī)準(zhǔn)確探測與實(shí)時(shí)發(fā)現(xiàn),可以給宕機(jī)分析提供第一現(xiàn)場,獲取第一現(xiàn)場的日志。也可以盡早將宕機(jī)數(shù)據(jù)推送給業(yè)務(wù)或運(yùn)營感知并處理,如自動報(bào)修,業(yè)務(wù)遷移等,從而盡可能將業(yè)務(wù)影響降到最低。

更重要的是,準(zhǔn)確的宕機(jī)發(fā)現(xiàn)數(shù)據(jù)可以為宕機(jī)預(yù)測提供準(zhǔn)確的標(biāo)注數(shù)據(jù),為后期宕機(jī)預(yù)測提供數(shù)據(jù)基礎(chǔ),并且這些數(shù)據(jù)提供給運(yùn)營部門進(jìn)行整體分析,提升處理效率。

那么,如何可以準(zhǔn)確發(fā)現(xiàn)宕機(jī),減少誤報(bào)呢?我們可以有以下操作,比如:

心跳源檢測異常

顧名思義,通過心跳源,初步發(fā)現(xiàn)異常。通常心跳變化會有三類消息,update消息,delete消息和insert消息。心跳邏輯在于,正常情況下SA服務(wù)端與NC建立長連接,每數(shù)秒緩存一次心跳,每幾分鐘打包上報(bào)一次,但當(dāng)NC異常時(shí),長連接感知后,立即上報(bào)異常,并修改路由表。所以心跳異常做到秒級感知。

update消息,在有心跳發(fā)生變化情況下都會有,心跳異常和心跳恢復(fù)正常時(shí)都會發(fā)起,是主要的心跳來源。

delete消息,在心跳異常,并且SA判斷ping不通,且ssh不通情況下發(fā)起,刪除該條消息,避免延遲太長。

insert消息,在新增加機(jī)器, 或者重裝后重新上位的機(jī)器發(fā)起,該消息對宕機(jī)發(fā)現(xiàn)價(jià)值不大,配合uptime使用。

心跳源檢測任務(wù)邏輯,主要是監(jiān)聽并緩存uptime消息,同時(shí)避免時(shí)間窗內(nèi)多次消息沖突,導(dǎo)致信息被覆蓋。

異常排除

排除非物理機(jī)器,將系統(tǒng)中暫時(shí)不關(guān)注的VM等產(chǎn)生的異常信息排除掉。

排除非業(yè)務(wù)狀態(tài)的機(jī)器,如裝機(jī)狀態(tài)中的,包括生產(chǎn)中,維修中,遷移中,重裝中,銷毀中,重啟中,無管控狀態(tài),只監(jiān)控正常狀態(tài)的機(jī)器。

排除非正在工作的機(jī)器,如非working狀態(tài)機(jī)器。

網(wǎng)絡(luò)干擾排除

宕機(jī)分析中,較多誤報(bào)是由于網(wǎng)絡(luò)問題干擾,無法準(zhǔn)確判斷出物理機(jī)是否宕機(jī),有可能是網(wǎng)絡(luò)問題。

排除上聯(lián)網(wǎng)絡(luò)設(shè)備異常導(dǎo)致的誤報(bào),包括機(jī)房斷網(wǎng)演練,小面積網(wǎng)絡(luò)故障,上聯(lián)網(wǎng)絡(luò)故障,如通過探測丟包情況,使用一些邏輯初步判斷網(wǎng)絡(luò)問題。

服務(wù)器本身未丟包的誤報(bào),除了需要過濾出網(wǎng)絡(luò)問題,還要通過丟包數(shù)據(jù)分析,過濾掉SA誤報(bào)問題, SA異常會上報(bào)心跳異常,被誤理解為宕機(jī)。

icmp及tcp丟包分析,icmp采集頻率為固定數(shù)秒,tcp采集頻率固定數(shù)秒,包括多個(gè)不同大小包(16,32,64,128,256等)的丟包情況,根據(jù)分析時(shí)間窗內(nèi)兩項(xiàng)數(shù)據(jù)的丟包情況

特殊情況干擾排除

個(gè)別機(jī)房有時(shí)候會出現(xiàn)大面積風(fēng)暴式的無故心跳異常,同時(shí)網(wǎng)絡(luò)ping包異常,但上聯(lián)網(wǎng)絡(luò)設(shè)備ping包正常,這種誤報(bào),一般根據(jù)具體case具體進(jìn)行針對性的分析。如根據(jù)監(jiān)控每個(gè)機(jī)房的上報(bào)頻率,排除干擾。

進(jìn)一步識別誤報(bào)

至此,大部分干擾已經(jīng)過濾掉,但仍有一部分誤報(bào)隱藏其中。比如心跳異常,ping異常,都合乎宕機(jī)判斷的邏輯,會導(dǎo)致誤判成宕機(jī),如導(dǎo)致網(wǎng)卡被打爆,或者重試率高,這種是業(yè)務(wù)原因?qū)е戮W(wǎng)絡(luò)異常,但業(yè)務(wù)認(rèn)為不是異常,需要排除掉。再例如服務(wù)器并沒有掛掉,但是IO延時(shí)和資源占用率各項(xiàng)指標(biāo)都不正常等場景。針對以上等情況,增加uptime判斷以及帶外日志分析排查。

宕機(jī)時(shí)間點(diǎn)探測uptime確定是否發(fā)生重啟。

進(jìn)一步通過分析日志是否連續(xù),判斷是否發(fā)生重啟。

日志重啟特征值匹配,確認(rèn)是否發(fā)生重啟。

如果還不能確定,使用uptime的時(shí)間窗技術(shù)進(jìn)行重啟。

仍不能確定的待處理,進(jìn)入長尾處理名單。

長尾再次處理

未確認(rèn)的待處理的,會加入到長尾列表中,像這種分鐘級的心跳異常,ping異常,但串口日志一直正常輸出的情況,一般就是某種死機(jī),死到連網(wǎng)絡(luò)都不通的場景。會觀察一段時(shí)間,一個(gè)固定時(shí)間窗內(nèi)仍未恢復(fù)或重啟的話,就暫時(shí)報(bào)宕機(jī)。后期會把這種死機(jī)單獨(dú)找劃分歸類。

講了這么多,到底效果怎么樣?

我們從準(zhǔn)確率和覆蓋率來看:

準(zhǔn)確率:目前發(fā)現(xiàn)的宕機(jī)中有很高準(zhǔn)確度,可以區(qū)分出真正宕機(jī)或者未宕機(jī)。而判斷為宕機(jī)的數(shù)據(jù)中,也存在少量的,由于缺少相關(guān)信息導(dǎo)致誤報(bào),該部分將進(jìn)一步優(yōu)化,逐漸降低誤報(bào),在新的措施之后,該比例會接近0。

覆蓋率:當(dāng)前統(tǒng)計(jì)的覆蓋率已經(jīng)能很好的支撐日常宕機(jī)處理,該數(shù)據(jù)在有足夠的特征后,會進(jìn)一步提升。

目前,宕機(jī)感知是宕機(jī)分析的基礎(chǔ),通過服務(wù)器宕機(jī)實(shí)時(shí)檢測,會把相應(yīng)的宕機(jī)原因分布整理出來,明確具體的原因,達(dá)成服務(wù)器極致可靠性。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    6715

    瀏覽量

    88316
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    12

    文章

    8701

    瀏覽量

    84568
  • TCP
    TCP
    +關(guān)注

    關(guān)注

    8

    文章

    1324

    瀏覽量

    78759
收藏 人收藏

    評論

    相關(guān)推薦

    gpu服務(wù)器與cpu服務(wù)器的區(qū)別對比,終于知道怎么選了!

    gpu服務(wù)器與cpu服務(wù)器的區(qū)別主要體現(xiàn)在架構(gòu)設(shè)計(jì)、性能特點(diǎn)、能耗效率、應(yīng)用場景、市場定位等方面,在以上幾個(gè)方面均存在顯著差異。CPU服務(wù)器更適合數(shù)據(jù)庫管理和企業(yè)應(yīng)用,而GPU
    的頭像 發(fā)表于 08-01 11:41 ?298次閱讀

    ai服務(wù)器和通用服務(wù)器的區(qū)別在哪

    AI服務(wù)器和通用服務(wù)器的區(qū)別主要體現(xiàn)在以下幾個(gè)方面: 硬件配置 AI服務(wù)器和通用服務(wù)器在硬件配置上有很大的區(qū)別。AI
    的頭像 發(fā)表于 07-02 09:46 ?514次閱讀

    服務(wù)器數(shù)據(jù)恢復(fù)—EVA存儲異常斷電后出現(xiàn)故障的數(shù)據(jù)恢復(fù)方案

    數(shù)據(jù)庫。 服務(wù)器存儲故障&檢測: 存儲異常斷電重啟后,存儲中一臺虛擬機(jī)無法啟動。工作人員推測故障原因是異常斷電導(dǎo)致電源模塊出現(xiàn)故障,清空cache后重新啟動存儲發(fā)現(xiàn)該虛擬機(jī)仍無法正常啟動。
    的頭像 發(fā)表于 05-28 10:29 ?249次閱讀

    服務(wù)器數(shù)據(jù)恢復(fù)—異常斷電導(dǎo)致RAID管理信息丟失的數(shù)據(jù)恢復(fù)案例

    使用。 服務(wù)器故障: 機(jī)房供電幾次意外中斷,服務(wù)器出現(xiàn)故障前最后一次異常斷電重啟后RAID報(bào)錯(cuò),提示無法找到存儲設(shè)備,進(jìn)入RAID管理模塊做任何操作都死機(jī),重啟服務(wù)器后問題依舊
    的頭像 發(fā)表于 04-30 15:34 ?250次閱讀

    服務(wù)器數(shù)據(jù)恢復(fù)—異常斷電導(dǎo)致服務(wù)器raid卡硬件損壞的數(shù)據(jù)恢復(fù)案例

    由于機(jī)房多次斷電導(dǎo)致一臺服務(wù)器中raid陣列信息丟失。該陣列中存放的是文檔,上層安裝的是Windows server操作系統(tǒng),沒有配置ups。 因?yàn)?b class='flag-5'>服務(wù)器異常斷電重啟后,raid陣列可以正常
    的頭像 發(fā)表于 03-20 17:38 ?562次閱讀

    如何解決連接國外大帶寬服務(wù)器時(shí)可能遇到的問題

     相信很多小白用戶會對如何解決連接國外大帶寬服務(wù)器時(shí)可能遇到的問題感興趣,RAK部落小編就為您整理發(fā)布如何解決連接國外大帶寬服務(wù)器時(shí)可能遇到的問題。
    的頭像 發(fā)表于 03-19 12:00 ?408次閱讀

    服務(wù)器數(shù)據(jù)恢復(fù)—分享幾個(gè)服務(wù)器數(shù)據(jù)恢復(fù)的案例

    服務(wù)器數(shù)據(jù)恢復(fù)案例之服務(wù)器raid6中3個(gè)磁盤離線導(dǎo)致陣列崩潰的數(shù)據(jù)恢復(fù)案例;服務(wù)器數(shù)據(jù)恢復(fù)案例之服務(wù)器RAID5兩個(gè)磁盤指示燈顯示紅色導(dǎo)致服務(wù)器
    的頭像 發(fā)表于 03-04 13:21 ?841次閱讀

    擁有美國洛杉磯RAKsmart云服務(wù)器:探索無限可能

    隨著信息技術(shù)的飛速發(fā)展,云服務(wù)器已成為企業(yè)和個(gè)人用戶不可或缺的重要工具。美國洛杉磯的RAKsmart云服務(wù)器,憑借其卓越的性能、穩(wěn)定的網(wǎng)絡(luò)環(huán)境和高級的安全,為用戶提供了無盡的便利和可能性
    的頭像 發(fā)表于 02-29 11:05 ?231次閱讀

    服務(wù)器數(shù)據(jù)恢復(fù)-異常斷電導(dǎo)致服務(wù)器故障的數(shù)據(jù)恢復(fù)案例

    服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境: dell某型號服務(wù)器中有一組通過raid卡組建的raid10,該raid陣列中一共有4塊磁盤。上層部署XenServer虛擬化平臺,作為網(wǎng)站服務(wù)器使用。 服務(wù)器
    的頭像 發(fā)表于 02-28 15:15 ?718次閱讀
    <b class='flag-5'>服務(wù)器</b>數(shù)據(jù)恢復(fù)-<b class='flag-5'>異常</b>斷電導(dǎo)致<b class='flag-5'>服務(wù)器</b>故障的數(shù)據(jù)恢復(fù)案例

    linux服務(wù)器和windows服務(wù)器

    應(yīng)用和企業(yè)環(huán)境中使用,那么Win dows服務(wù)器可能更適合你的需求。 綜上所述,Linux服務(wù)器和Windows服務(wù)器各有優(yōu)劣,選擇適合自己需求的
    發(fā)表于 02-22 15:46

    DNS服務(wù)器可能不可用什么意思

    與該域名相關(guān)聯(lián)的IP地址。DNS服務(wù)器將IP地址返回給計(jì)算機(jī),然后計(jì)算機(jī)使用該IP地址與目標(biāo)服務(wù)器建立連接。 DNS服務(wù)器不可用的原因 硬件故障:DNS服務(wù)器也是一臺物理設(shè)備,它們
    的頭像 發(fā)表于 01-17 09:24 ?7615次閱讀

    【北亞服務(wù)器數(shù)據(jù)恢復(fù)】ZFS文件系統(tǒng)服務(wù)器RAIDZ數(shù)據(jù)恢復(fù)案例

    服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境: 服務(wù)器中有32塊硬盤,組建了3組RAIDZ,部分磁盤作為熱備盤。zfs文件系統(tǒng)。 服務(wù)器故障: 服務(wù)器運(yùn)行中突然崩潰,排除斷電、進(jìn)水、
    的頭像 發(fā)表于 12-28 15:17 ?454次閱讀
    【北亞<b class='flag-5'>服務(wù)器</b>數(shù)據(jù)恢復(fù)】ZFS文件系統(tǒng)<b class='flag-5'>服務(wù)器</b>RAIDZ數(shù)據(jù)恢復(fù)案例

    為什么服務(wù)器頻繁崩潰?

      服務(wù)器崩潰可能由多種原因引起,包括但不限于以下幾個(gè)常見的因素。
    的頭像 發(fā)表于 11-29 15:21 ?1224次閱讀

    dhcp服務(wù)異常怎么修復(fù)

    DHCP(Dynamic Host Configuration Protocol)是一種網(wǎng)絡(luò)協(xié)議,它能夠自動分配 IP 地址和其他網(wǎng)絡(luò)參數(shù)給計(jì)算機(jī)和其他網(wǎng)絡(luò)設(shè)備。然而,有時(shí)候 DHCP 服務(wù)可能會出現(xiàn)異常
    的頭像 發(fā)表于 11-27 14:53 ?7887次閱讀

    物理服務(wù)器對比云服務(wù)器的優(yōu)缺點(diǎn)

    物理服務(wù)器的優(yōu)點(diǎn)主要體現(xiàn)在以下幾個(gè)方面:首先,由于物理服務(wù)器租用涉及獨(dú)立的物理機(jī),因此它能提供額外的安全優(yōu)勢。其次,對于一些需要高性能、高可靠的應(yīng)用場景,例如金融、醫(yī)療等,物理
    的頭像 發(fā)表于 11-22 10:45 ?526次閱讀