新型電力系統(tǒng)—電網(wǎng)端監(jiān)控方案
1.新能源的頻率與系統(tǒng)頻率相同。
2. 新能源出口電壓與系統(tǒng)電壓相同,其最大誤差應(yīng)在5%以內(nèi)。
3. 新能源相序與系統(tǒng)相序相同。
4.新能源電壓相位與系統(tǒng)電壓相位一致。
運(yùn)維平臺(tái)- 監(jiān)控系統(tǒng)
設(shè)計(jì)方案
一、概述
監(jiān)控系統(tǒng)是一種可以對(duì)特定設(shè)備、網(wǎng)絡(luò)、應(yīng)用程序或服務(wù)進(jìn)行實(shí)時(shí)監(jiān)控和管理的技術(shù)。監(jiān)控系統(tǒng)的主要目的是檢測(cè)和識(shí)別系統(tǒng)或服務(wù)的故障或異常,以便能夠在問題發(fā)生之前識(shí)別和糾正它們。監(jiān)控系統(tǒng)可以幫助企業(yè)或組織實(shí)時(shí)了解其系統(tǒng)或服務(wù)的健康狀況,并做出相應(yīng)的決策。
二、監(jiān)控系統(tǒng)通常由以下幾個(gè)組成部分:
1.數(shù)據(jù)采集:
它們是在設(shè)備或服務(wù)上安裝的軟件或硬件組件,它們收集數(shù)據(jù)并將其發(fā)送到監(jiān)控系統(tǒng)進(jìn)行處理和分析。
2.數(shù)據(jù)服務(wù)器:
它們是處理和存儲(chǔ)來自監(jiān)控代理的數(shù)據(jù)的計(jì)算機(jī)。監(jiān)控服務(wù)器通常擁有強(qiáng)大的計(jì)算能力和存儲(chǔ)能力,以便處理和存儲(chǔ)大量的監(jiān)控?cái)?shù)據(jù)。
3.HMI控制臺(tái):
它是監(jiān)控系統(tǒng)的用戶界面,通常是一個(gè)應(yīng)用程序或客戶端,用戶可以通過它來查看系統(tǒng)或服務(wù)的實(shí)時(shí)狀態(tài)、性能和運(yùn)行狀況,以及查看歷史數(shù)據(jù)和生成報(bào)告等。
監(jiān)控系統(tǒng)通??梢员O(jiān)控網(wǎng)絡(luò)流量、服務(wù)器資源使用率、應(yīng)用程序性能、安全事件和用戶活動(dòng)等方面的數(shù)據(jù)。這些數(shù)據(jù)可以用來識(shí)別潛在的問題并及時(shí)解決它們,從而提高系統(tǒng)的可靠性、性能和安全性。
4.監(jiān)控目標(biāo)
監(jiān)控系統(tǒng)的目標(biāo)是提供實(shí)時(shí)、準(zhǔn)確的系統(tǒng)性能和狀態(tài)數(shù)據(jù),以幫助管理員和運(yùn)維人員及時(shí)發(fā)現(xiàn)和解決問題,從而實(shí)現(xiàn)以下幾個(gè)目標(biāo):
預(yù)防系統(tǒng)故障:
監(jiān)控系統(tǒng)可以及早發(fā)現(xiàn)系統(tǒng)中的異常,如網(wǎng)絡(luò)擁塞、硬件故障、軟件崩潰等,從而提前預(yù)防系統(tǒng)故障,減少停機(jī)時(shí)間和對(duì)業(yè)務(wù)的影響。
提高系統(tǒng)性能:
監(jiān)控系統(tǒng)可以檢測(cè)系統(tǒng)性能瓶頸和資源利用率,優(yōu)化系統(tǒng)配置和調(diào)整資源分配,從而提高系統(tǒng)的性能和可擴(kuò)展性。
5.提高系統(tǒng)安全性:
監(jiān)控系統(tǒng)可以檢測(cè)安全事件和攻擊,如惡意軟件、入侵、數(shù)據(jù)泄漏等,從而及時(shí)采取安全措施,保護(hù)系統(tǒng)和數(shù)據(jù)的安全性。
6.優(yōu)化運(yùn)維效率:
監(jiān)控系統(tǒng)可以自動(dòng)化和簡(jiǎn)化監(jiān)控和管理任務(wù),減少人工干預(yù),從而提高運(yùn)維效率和降低管理成本。
7.改進(jìn)用戶體驗(yàn):
監(jiān)控系統(tǒng)可以檢測(cè)應(yīng)用程序或服務(wù)的性能和可用性,從而幫助企業(yè)或組織提高用戶體驗(yàn),提高用戶滿意度。
8.監(jiān)控系統(tǒng)的目標(biāo):
是為企業(yè)或組織提供實(shí)時(shí)的系統(tǒng)性能和狀態(tài)數(shù)據(jù),從而提高系統(tǒng)的可靠性、性能、安全性和用戶體驗(yàn),同時(shí)也為企業(yè)或組織提供更高效、更可靠的運(yùn)維管理和資源利用方式。
9.監(jiān)控作用和價(jià)值
監(jiān)控系統(tǒng)是運(yùn)維系統(tǒng)或平臺(tái)系統(tǒng)中較為核心的組成部分,它承載了運(yùn)維工作中數(shù)據(jù)閉環(huán)的部分。從功能角度,監(jiān)控系統(tǒng)分為數(shù)據(jù)采集功能、數(shù)據(jù)上報(bào)功能、數(shù)據(jù)存儲(chǔ)功能、告警功能、大屏功能、報(bào)表功能等功能模塊;從技術(shù)場(chǎng)景角度,監(jiān)控系統(tǒng)又可以分為機(jī)房監(jiān)控、硬件監(jiān)控、網(wǎng)絡(luò)監(jiān)控、操作系統(tǒng)監(jiān)控、中間件監(jiān)控、云平臺(tái)監(jiān)控、業(yè)務(wù)監(jiān)控、撥測(cè)監(jiān)控等垂直技術(shù)領(lǐng)域;從業(yè)務(wù)場(chǎng)景角度,監(jiān)控系統(tǒng)還可以分為資源類監(jiān)控、成本類監(jiān)控、審計(jì)類監(jiān)控、質(zhì)量類監(jiān)控、運(yùn)營類監(jiān)控、安全類監(jiān)控等垂直業(yè)務(wù)領(lǐng)域。
監(jiān)控系統(tǒng)在現(xiàn)代互聯(lián)網(wǎng)技術(shù)中具有非常重要的作用和價(jià)值,主要體現(xiàn)在以下方面:
系統(tǒng)可靠性和穩(wěn)定性:
監(jiān)控系統(tǒng)可以實(shí)時(shí)監(jiān)測(cè)系統(tǒng)的運(yùn)行狀態(tài)、性能指標(biāo)和錯(cuò)誤日志,及時(shí)發(fā)現(xiàn)故障并進(jìn)行處理,從而保證系統(tǒng)的可靠性和穩(wěn)定性。
性能優(yōu)化:
監(jiān)控系統(tǒng)可以通過分析性能數(shù)據(jù),發(fā)現(xiàn)系統(tǒng)中的瓶頸和性能瓶頸,從而進(jìn)行優(yōu)化和改進(jìn),提高系統(tǒng)的性能和響應(yīng)速度。
安全保障:
監(jiān)控系統(tǒng)可以監(jiān)測(cè)網(wǎng)絡(luò)流量、安全日志和異常事件,發(fā)現(xiàn)和處理安全威脅,提高系統(tǒng)的安全性和防御能力。
預(yù)測(cè)性維護(hù):
監(jiān)控系統(tǒng)可以通過收集和分析設(shè)備傳感器數(shù)據(jù),預(yù)測(cè)設(shè)備故障,并及時(shí)進(jìn)行維護(hù),避免設(shè)備損壞和停機(jī)造成的損失。
費(fèi)用控制:監(jiān)控系統(tǒng)可以通過數(shù)據(jù)分析和自動(dòng)化處理,提高管理效率,減少不必要的人工成本和管理費(fèi)用。
決策支持:監(jiān)控系統(tǒng)可以提供實(shí)時(shí)數(shù)據(jù)和分析結(jié)果,幫助管理者進(jìn)行決策,優(yōu)化業(yè)務(wù)流程和提高管理效率。
監(jiān)控系統(tǒng)可以幫助企業(yè)和組織提高系統(tǒng)可靠性、性能、安全性和效率,降低成本和風(fēng)險(xiǎn),為企業(yè)和組織的業(yè)務(wù)發(fā)展提供有力的支持和保障。
在穩(wěn)定性保障體系中,核心就是在干一件事,減少故障。我們可以看一下故障的生命周期:
減少故障有兩個(gè)層面的意思,一個(gè)是做好常態(tài)預(yù)防,不讓故障發(fā)生;另一個(gè)是如果故障發(fā)生,要能盡快止損,減少故障時(shí)長。而監(jiān)控的典型作用,就是幫助我們發(fā)現(xiàn)及定位故障,這兩個(gè)環(huán)節(jié)對(duì)于減少故障時(shí)長至關(guān)重要。
運(yùn)維人員和研發(fā)人員是典型的關(guān)注穩(wěn)定性的人,不過側(cè)重點(diǎn)不同。發(fā)生故障的時(shí)候,運(yùn)維人員更希望快速找到問題根因,及時(shí)止損。而研發(fā)人員,更希望能“自證清白”。不管出于何種目的,監(jiān)控都是不可或缺的工具。
其實(shí),監(jiān)控的作用還有很多,比如用于日常巡檢,作為性能調(diào)優(yōu)的數(shù)據(jù)佐證,提前發(fā)現(xiàn)一些設(shè)備、中間件不合理的配置。
隨著時(shí)代的發(fā)展,監(jiān)控也從最開始的一句話需求 -- 及時(shí)感知系統(tǒng)出現(xiàn)的問題,發(fā)展到了希望預(yù)知問題,并且可以洞察業(yè)務(wù)經(jīng)營數(shù)據(jù),越來越多的訴求讓我們逐漸意識(shí)到監(jiān)控的重要作用。
10.業(yè)界主流監(jiān)控系統(tǒng)
現(xiàn)在運(yùn)維監(jiān)控工具非常多,對(duì)于監(jiān)控系統(tǒng)的選型需要充分了解其優(yōu)缺點(diǎn)再做決定。
11.數(shù)據(jù)處理能力
對(duì)于大規(guī)模和高復(fù)雜性的監(jiān)控場(chǎng)景可能需要更為專業(yè)和靈活的監(jiān)控系統(tǒng)。
警報(bào)功能 功能相對(duì)有限,不能實(shí)現(xiàn)復(fù)雜的警報(bào)規(guī)則和多種警報(bào)通知方式。
界面視覺效果較弱:相對(duì)于其他監(jiān)控系統(tǒng),界面視覺效果較弱,不夠美觀和易用。i適用于中小型網(wǎng)絡(luò)和系統(tǒng)管理,可以幫助用戶監(jiān)控其IT基礎(chǔ)設(shè)施和應(yīng)用程序的性能和可用性。但是,對(duì)于大規(guī)模和高復(fù)雜性的監(jiān)控場(chǎng)景,可能需要更為專業(yè)和靈活的監(jiān)控系統(tǒng)。
三、大規(guī)模和高復(fù)雜性的監(jiān)控場(chǎng)景監(jiān)控系統(tǒng)
1.監(jiān)控指標(biāo)
硬件監(jiān)控、系統(tǒng)監(jiān)控、應(yīng)用監(jiān)控、網(wǎng)絡(luò)監(jiān)控、流量分析、日志監(jiān)控、安全監(jiān)控、API監(jiān)控、性能監(jiān)控、業(yè)務(wù)監(jiān)控。
2.硬件監(jiān)控
查看硬件設(shè)備燈光閃爍情況判斷是否故障
通過對(duì)硬件詳細(xì)情況進(jìn)行監(jiān)控,并對(duì)電壓電流等設(shè)置報(bào)警設(shè)置報(bào)警閾值。
3.系統(tǒng)監(jiān)控
監(jiān)控系統(tǒng)資源的使用情況,系統(tǒng)監(jiān)控是監(jiān)控體系的基礎(chǔ)。
4.應(yīng)用監(jiān)控
硬件監(jiān)控和系統(tǒng)監(jiān)控和相關(guān)的服務(wù)都需要監(jiān)控起來。
5.網(wǎng)絡(luò)監(jiān)控
網(wǎng)絡(luò)監(jiān)控是監(jiān)控平臺(tái)是必須要考慮的,監(jiān)控點(diǎn)可以借助很多商業(yè)的監(jiān)控工具,服務(wù)提供商還可以幫助你監(jiān)控狀態(tài)。
6.日志監(jiān)控
通常情況下,隨著系統(tǒng)的運(yùn)行,操作系統(tǒng)會(huì)產(chǎn)生系統(tǒng)日志,應(yīng)用程序會(huì)產(chǎn)生應(yīng)用程序的訪問日志、錯(cuò)誤日志,運(yùn)行日志,網(wǎng)絡(luò)日志,我們可以進(jìn)行日志監(jiān)控。
7.安全監(jiān)控
數(shù)據(jù)庫、配置檢測(cè)、全面檢測(cè)主機(jī)、Web應(yīng)用漏洞自主挖掘和行業(yè)共享相結(jié)合漏洞,杜絕最新安全隱患。
8.API監(jiān)控
由于API變得越來越重要,很顯然我們也需要這樣的數(shù)據(jù)來分辨我們提供的 API是否能夠正常運(yùn)作。
9.性能監(jiān)控
全面監(jiān)控網(wǎng)頁性能,響應(yīng)時(shí)間、建立連接時(shí)間、頁面性能指數(shù)、響應(yīng)時(shí)間、可用率、元素大小等。
10.業(yè)務(wù)監(jiān)控
沒有業(yè)務(wù)指標(biāo)監(jiān)控的監(jiān)控平臺(tái),不是一個(gè)完善的監(jiān)控平臺(tái),通常在我們的監(jiān)控系統(tǒng)中,必須將我們重要的業(yè)務(wù)指標(biāo)進(jìn)行監(jiān)控,并設(shè)置閾值進(jìn)行告警通知。
重要指標(biāo)都可以通過監(jiān)控系統(tǒng)進(jìn)行監(jiān)控展示。
11.監(jiān)控系統(tǒng)設(shè)計(jì)
運(yùn)維監(jiān)控平臺(tái)不是簡(jiǎn)單的監(jiān)控的環(huán)境。
構(gòu)建一個(gè)智能的運(yùn)維監(jiān)控平臺(tái),必須以運(yùn)行監(jiān)控和故障報(bào)警這兩個(gè)方面為重點(diǎn),將所有業(yè)務(wù)系統(tǒng)中所涉及的網(wǎng)絡(luò)資源、硬件資源、軟件資源、數(shù)據(jù)庫資源等納入統(tǒng)一的運(yùn)維監(jiān)控平臺(tái)中,并通過消除管理軟件的差別,數(shù)據(jù)采集手段的差別,對(duì)各種不同的數(shù)據(jù)來源實(shí)現(xiàn)統(tǒng)一管理、統(tǒng)一規(guī)范、統(tǒng)一處理、統(tǒng)一展現(xiàn)、統(tǒng)一用戶登錄、統(tǒng)一權(quán)限控制,最終實(shí)現(xiàn)運(yùn)維規(guī)范化、自動(dòng)化、智能化的大運(yùn)維管理。
智能的運(yùn)維監(jiān)控平臺(tái),設(shè)計(jì)架構(gòu)分為6層,三大模塊。
數(shù)據(jù)收集層:位于最底層,主要收集網(wǎng)絡(luò)數(shù)據(jù)、業(yè)務(wù)系統(tǒng)數(shù)據(jù)、數(shù)據(jù)庫數(shù)據(jù)、操作系統(tǒng)數(shù)據(jù)等,然后將收集到的數(shù)據(jù)進(jìn)行規(guī)范化并進(jìn)行存儲(chǔ)。
數(shù)據(jù)展示層:位于第二層,是一個(gè)Web展示界面,主要是將數(shù)據(jù)收集層獲取到的數(shù)據(jù)進(jìn)行統(tǒng)一展示,展示的方式可以是曲線圖、柱狀圖、餅狀態(tài)等,通過將數(shù)據(jù)圖形化,可以幫助運(yùn)維人員了解一段時(shí)間內(nèi)主機(jī)或網(wǎng)絡(luò)的運(yùn)行狀態(tài)和運(yùn)行趨勢(shì),并作為運(yùn)維人員排查問題或解決問題的依據(jù)。
數(shù)據(jù)提取層:位于第三層,主要是對(duì)從數(shù)據(jù)收集層獲取到的數(shù)據(jù)進(jìn)行規(guī)格化和過濾處理,提取需要的數(shù)據(jù)到監(jiān)控報(bào)警模塊,這個(gè)部分是監(jiān)控和報(bào)警兩個(gè)模塊的銜接點(diǎn)。
報(bào)警規(guī)則配置層:位于第四層,主要是根據(jù)第三層獲取到的數(shù)據(jù)進(jìn)行報(bào)警規(guī)則設(shè)置、報(bào)警閥值設(shè)置、報(bào)警聯(lián)系人設(shè)置和報(bào)警方式設(shè)置等。
報(bào)警事件生成層:位于第五層,主要是對(duì)報(bào)警事件進(jìn)行實(shí)時(shí)記錄,將報(bào)警結(jié)果存入數(shù)據(jù)庫以備調(diào)用,并將報(bào)警結(jié)果形成分析報(bào)表,以統(tǒng)計(jì)一段時(shí)間內(nèi)的故障率和故障發(fā)生趨勢(shì)。
用戶展示管理層:位于最頂層,是一個(gè)Web展示界面,主要是將監(jiān)控統(tǒng)計(jì)結(jié)果、報(bào)警故障結(jié)果進(jìn)行統(tǒng)一展示,并實(shí)現(xiàn)多用戶、多權(quán)限管理,實(shí)現(xiàn)統(tǒng)一用戶和統(tǒng)一權(quán)限控制。
從功能實(shí)現(xiàn)劃分,又分為三個(gè)模塊,分別是數(shù)據(jù)收集模塊、數(shù)據(jù)提取模塊和監(jiān)控報(bào)警模塊,每個(gè)模塊完成的功能如下:
數(shù)據(jù)收集模塊:此模塊主要完成基礎(chǔ)數(shù)據(jù)的收集與圖形展示。數(shù)據(jù)收集的方式有很多種,可以通過代理模塊實(shí)現(xiàn),還可以通過自定義腳本實(shí)現(xiàn)。
數(shù)據(jù)提取模塊:此模板主要完成數(shù)據(jù)的篩選過濾和采集,將需要的數(shù)據(jù)從數(shù)據(jù)收集模塊提取到監(jiān)控報(bào)警模塊中??梢酝ㄟ^數(shù)據(jù)收集模塊提供的接口或自定義腳本實(shí)現(xiàn)數(shù)據(jù)的提取。
監(jiān)控報(bào)警模塊:此模塊主要完成監(jiān)控腳本的設(shè)置、報(bào)警規(guī)則設(shè)置,報(bào)警閥值設(shè)置、報(bào)警聯(lián)系人設(shè)置等,并將報(bào)警結(jié)果進(jìn)行集中展現(xiàn)和歷史記錄。
四、通過軟件實(shí)現(xiàn)智能運(yùn)維監(jiān)控系統(tǒng)。
其中,數(shù)據(jù)提取模塊用于其他兩個(gè)模塊之間的數(shù)據(jù)通信,而數(shù)據(jù)收集模塊可以有一臺(tái)或多臺(tái)數(shù)據(jù)收集服務(wù)器組成,每個(gè)數(shù)據(jù)收集服務(wù)器可以直接從服務(wù)器群組收集各種數(shù)據(jù)指標(biāo),經(jīng)過規(guī)范數(shù)據(jù)格式,最終將數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)收集服務(wù)器中。
監(jiān)控報(bào)警模塊通過數(shù)據(jù)抽取模塊從數(shù)據(jù)收集服務(wù)器獲取需要的數(shù)據(jù),然后設(shè)置報(bào)警閥值、報(bào)警聯(lián)系人等,最終實(shí)現(xiàn)實(shí)時(shí)報(bào)警。報(bào)警方式支持手機(jī)短信報(bào)警、郵件報(bào)警等,另外,也可以通過插件或者自定義腳本來擴(kuò)展報(bào)警方式。這樣一整套監(jiān)控報(bào)警平臺(tái)就基本實(shí)現(xiàn)了。
監(jiān)控系統(tǒng)的關(guān)鍵技術(shù)主要有如下5點(diǎn):
1、采集器
采集器決定了監(jiān)控?cái)?shù)據(jù)的來源,采集器的好壞決定了監(jiān)控?cái)?shù)據(jù)的覆蓋面、數(shù)據(jù)質(zhì)量和及時(shí)性。一個(gè)好的監(jiān)控系統(tǒng)應(yīng)該配備大量針對(duì)常見技術(shù)場(chǎng)景的采集器,并提供方便的自定義數(shù)據(jù)接口。標(biāo)準(zhǔn)場(chǎng)景的監(jiān)控?cái)?shù)據(jù)占所有監(jiān)控?cái)?shù)據(jù)的 70% 左右,大量的標(biāo)準(zhǔn)采集器可以大大降低監(jiān)控系統(tǒng)的持有成本;自定義監(jiān)控?cái)?shù)據(jù)占所有監(jiān)控?cái)?shù)據(jù)的 30% 左右,設(shè)計(jì)良好的自定義監(jiān)控?cái)?shù)據(jù)接口可以更好的調(diào)度、組織和收集自定義數(shù)據(jù)源,并為后續(xù)的二次開發(fā)工作夯實(shí)工程基礎(chǔ)。
采集器負(fù)責(zé)采集監(jiān)控?cái)?shù)據(jù),有兩種典型的部署方式,一種是跟隨監(jiān)控對(duì)象部署,比如所有的機(jī)器上都部署一個(gè)采集器,采集機(jī)器相關(guān)的指標(biāo);另一種是遠(yuǎn)程測(cè)試式執(zhí)行命令采集數(shù)據(jù)。
2、時(shí)間序列存儲(chǔ)技術(shù)
時(shí)間序列的管理、存儲(chǔ)和處理是監(jiān)控閉環(huán)中的核心環(huán)節(jié),在設(shè)計(jì)或評(píng)估一個(gè)監(jiān)控系統(tǒng)時(shí)應(yīng)著重考察時(shí)間序列存儲(chǔ)的技術(shù)方案。時(shí)間序列技術(shù)的關(guān)鍵點(diǎn)在于可用性、可靠性、壓縮比、舊數(shù)據(jù)清理、指標(biāo)項(xiàng)管理、多維度聚合等多個(gè)方面。
監(jiān)控系統(tǒng)的架構(gòu)中,最核心的就是時(shí)序庫
數(shù)據(jù)的查詢效率會(huì)影響監(jiān)控系統(tǒng)的使用效率,尤其在告警計(jì)算、報(bào)表生成、數(shù)據(jù)統(tǒng)計(jì)等使用場(chǎng)景下,低下的查詢效率會(huì)極大影響對(duì)數(shù)據(jù)使用方式的想象空間。
3、告警引擎
告警引擎的核心職責(zé)就是處理告警規(guī)則,生成告警事件。通常來講,用戶會(huì)配置數(shù)百甚至數(shù)千條告警規(guī)則,一些超大型的公司可能要配置數(shù)萬條告警規(guī)則。每個(gè)規(guī)則里含有數(shù)據(jù)過濾條件、閾值、執(zhí)行頻率等,有一些配置豐富的監(jiān)控系統(tǒng),還支持配置規(guī)則生效時(shí)段、持續(xù)時(shí)長、留觀時(shí)長等。
告警引擎通常有兩種架構(gòu),一種是數(shù)據(jù)觸發(fā)式,一種是周期輪詢式。
數(shù)據(jù)觸發(fā)式,是指服務(wù)端接收到監(jiān)控?cái)?shù)據(jù)之后,除了存儲(chǔ)到時(shí)序庫,還會(huì)轉(zhuǎn)發(fā)一份數(shù)據(jù)給告警引擎,告警引擎每收到一條監(jiān)控?cái)?shù)據(jù),就要判斷是否關(guān)聯(lián)了告警規(guī)則,做告警判斷。因?yàn)楸O(jiān)控?cái)?shù)據(jù)量比較大,告警規(guī)則的量也可能比較大,所以告警引擎是會(huì)做分片部署的,即部署多個(gè)實(shí)例。
周期輪詢式,架構(gòu)簡(jiǎn)單,通常是一個(gè)規(guī)則一個(gè)協(xié)程,按照用戶配置的執(zhí)行頻率,周期性查詢判斷即可。
生成事件之后,通常是交給一個(gè)單獨(dú)的模塊來做告警發(fā)送,這個(gè)模塊負(fù)責(zé)事件聚合、收斂,根據(jù)不同的條件發(fā)送給不同的接收者和不同的通知媒介。告警事件的處理,是一個(gè)非常通用的需求,而且非常零碎、復(fù)雜,每個(gè)監(jiān)控系統(tǒng)都去實(shí)現(xiàn)一套,通常不會(huì)做得很完備。
對(duì)告警策略配置方式的考量,應(yīng)該以靈活性和可維護(hù)性為目標(biāo)?;旌霞軜?gòu)、微服服等新技術(shù)催生了更現(xiàn)代化的業(yè)務(wù)系統(tǒng)技術(shù)棧,這對(duì)告警策略的靈活性提出更高要求,告警策略應(yīng)該支持條件告警、組合條件告警、同比環(huán)比、回歸、線性擬合等高級(jí)功能,最好能支持基于聚類算法的告警合并
4、數(shù)據(jù)展示
監(jiān)控?cái)?shù)據(jù)的可視化也是一個(gè)非常通用且重要的需求,支持不同類型的數(shù)據(jù)源,圖表非常豐富,基本可以看做是開源領(lǐng)域的事實(shí)標(biāo)準(zhǔn)。
監(jiān)控?cái)?shù)據(jù)可視化,通常有兩類需求,一個(gè)是即時(shí)查詢,一個(gè)是監(jiān)控大盤(Dashboard)。即時(shí)查詢是臨時(shí)起意,比如線上有個(gè)問題,需要追查監(jiān)控?cái)?shù)據(jù),還原現(xiàn)場(chǎng)排查問題,這就需要有個(gè)方便我們查看的指標(biāo)瀏覽功能,快速找到想要的指標(biāo)。監(jiān)控大盤通常用于日常巡檢和問題排查,由資深工程師創(chuàng)建,放置了一些特別值得重點(diǎn)關(guān)注的指標(biāo),一定程度上可以引發(fā)我們思考,具有很強(qiáng)的知識(shí)沉淀效果。如果想要了解某個(gè)組件的原理,這個(gè)組件的監(jiān)控大盤通??梢詭Ыo你一些啟發(fā)。
五、監(jiān)控系統(tǒng)未來發(fā)展趨勢(shì)
1、人工智能
我們的架構(gòu)應(yīng)該支持?jǐn)?shù)據(jù)科學(xué)技術(shù)和機(jī)器學(xué)習(xí)技術(shù)的引入,技術(shù)還在快速發(fā)展之中,很多算法和數(shù)據(jù)方法還在不斷變化,應(yīng)該為這類變化保留足夠的靈活性。
人工智能技術(shù)將逐漸應(yīng)用于監(jiān)控系統(tǒng)中,以實(shí)現(xiàn)智能化的監(jiān)控和預(yù)測(cè)分析。通過對(duì)大數(shù)據(jù)的分析和機(jī)器學(xué)習(xí),監(jiān)控系統(tǒng)將能夠?qū)崿F(xiàn)更加準(zhǔn)確、高效的故障預(yù)測(cè)和預(yù)警,從而提高系統(tǒng)的可靠性和穩(wěn)定性。
2、大數(shù)據(jù)
監(jiān)控系統(tǒng)越來越發(fā)揮整體運(yùn)維系統(tǒng)的中樞作用,運(yùn)維系統(tǒng)逐漸由流程驅(qū)動(dòng)轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動(dòng)。我們應(yīng)該更加重視監(jiān)控系統(tǒng)的開放性,使監(jiān)控系統(tǒng)具有與其它所有運(yùn)維子系統(tǒng)對(duì)接、整合的能力,并對(duì)外做出數(shù)據(jù)、算法等技術(shù)輸出。
隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,監(jiān)控系統(tǒng)將能夠處理更加龐大的數(shù)據(jù)量,實(shí)現(xiàn)更加精細(xì)的監(jiān)控和分析。同時(shí),監(jiān)控系統(tǒng)還將能夠更加靈活地支持各種數(shù)據(jù)源,并實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)采集、存儲(chǔ)和查詢。
云、容器和微服務(wù)的出現(xiàn)使被監(jiān)控對(duì)象的數(shù)量增加了兩到三個(gè)數(shù)量級(jí),所以高維度的數(shù)據(jù)管理能力尤其重要,我們的時(shí)間序列管理技術(shù)架構(gòu)應(yīng)該為 10 億級(jí)別時(shí)序數(shù)據(jù)個(gè)數(shù)作好充足準(zhǔn)備。
3、云服務(wù)
云計(jì)算技術(shù)的發(fā)展將推動(dòng)監(jiān)控系統(tǒng)向云化方向發(fā)展。未來的監(jiān)控系統(tǒng)將不僅支持本地部署,還將提供云服務(wù),使得用戶可以隨時(shí)隨地訪問監(jiān)控?cái)?shù)據(jù),同時(shí)還需支持混合云架構(gòu),目前不少企業(yè)IT架構(gòu)是混合云架構(gòu)。
4、自動(dòng)化
云原生技術(shù)浪潮帶來了混合的技術(shù)棧和高動(dòng)態(tài)的服務(wù)端架構(gòu),我們應(yīng)該重視采集器的自主能力,在面向復(fù)雜多變的被監(jiān)控環(huán)境時(shí),采集器盡可能做到對(duì)環(huán)境的自動(dòng)識(shí)別,對(duì)指標(biāo)的自主采集。
自動(dòng)化技術(shù)將成為監(jiān)控系統(tǒng)未來發(fā)展的重要方向。未來的監(jiān)控系統(tǒng)將能夠?qū)崿F(xiàn)自動(dòng)化配置、自動(dòng)化發(fā)現(xiàn)和自動(dòng)化報(bào)警等功能,從而減輕運(yùn)維人員的工作負(fù)擔(dān),提高工作效率。
5、安全性
隨著網(wǎng)絡(luò)安全問題的日益嚴(yán)重,監(jiān)控系統(tǒng)的安全性將成為未來的重要關(guān)注點(diǎn)。未來的監(jiān)控系統(tǒng)將需要更加強(qiáng)大的安全機(jī)制,保障監(jiān)控?cái)?shù)據(jù)的安全和隱私。
總之未來的監(jiān)控系統(tǒng)將面臨更多的挑戰(zhàn)和機(jī)遇。只有不斷地創(chuàng)新和發(fā)展,才能更好地滿足用戶的需求,推動(dòng)監(jiān)控系統(tǒng)的發(fā)展和進(jìn)步。
6、總結(jié)
運(yùn)維監(jiān)控平臺(tái)是運(yùn)維工作中不可或缺的一部分,如何構(gòu)建適合自己的運(yùn)維監(jiān)控平臺(tái),每個(gè)公司的需求不一樣,每個(gè)運(yùn)維面對(duì)的痛點(diǎn)也不盡相同,但,不管有什么需求,多少需求,萬變不離其宗,有了機(jī)器上的各種監(jiān)控?cái)?shù)據(jù),運(yùn)維就能做很多事情。
編輯:黃飛
?
評(píng)論
查看更多