0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

監(jiān)控神器:Prometheus

Android編程精選 ? 來(lái)源:騰訊云開(kāi)發(fā)者 ? 作者:kevinkrcai ? 2022-07-31 11:55 ? 次閱讀

導(dǎo)語(yǔ) :Prometheus是一個(gè)開(kāi)源的完整監(jiān)控解決方案,本文將從指標(biāo)抓取到查詢及可視化展示,以及最后的監(jiān)控告警,對(duì)Prometheus做一個(gè)基本的認(rèn)識(shí)。

一、簡(jiǎn)介

Prometheus是古希臘神話里泰坦族的一名神明,名字的意思是“先見(jiàn)之明”,下圖中是Prometheus被宙斯懲罰,飽受肝臟日食夜長(zhǎng)之苦。

下面就是我們CRUD Boy所了解的Prometheus,下面是其官網(wǎng)封面圖引導(dǎo)語(yǔ):From metrics to insight,從指標(biāo)到洞察力,通過(guò)指標(biāo)去洞察你的系統(tǒng),為我們的系統(tǒng)提供指標(biāo)收集和監(jiān)控的開(kāi)源解決方案。

也就是說(shuō),Prometheus是一個(gè)數(shù)據(jù)監(jiān)控的解決方案,讓我們能隨時(shí)掌握系統(tǒng)運(yùn)行的狀態(tài),快速定位問(wèn)題和排除故障。

Prometheus發(fā)展速度很快,12年開(kāi)發(fā)完成,16年加入CNCF,成為繼K8s 之后第二個(gè)CNCF托管的項(xiàng)目,目前Github 42k的,而且社區(qū)很活躍,維護(hù)頻率很高,基本穩(wěn)定在1個(gè)月1個(gè)小版本的迭代速度。

2d79a48c-0ffc-11ed-ba43-dac502259ad0.png

二、整體生態(tài)

Prometheus提供了從指標(biāo)暴露,到指標(biāo)抓取、存儲(chǔ)和可視化,以及最后的監(jiān)控告警等一系列組件。

2d91f956-0ffc-11ed-ba43-dac502259ad0.png

(一)指標(biāo)暴露

每一個(gè)被Prometheus監(jiān)控的服務(wù)都是一個(gè)Job,Prometheus為這些Job 提供了官方的SDK ,利用這個(gè)SDK可以自定義并導(dǎo)出自己的業(yè)務(wù)指標(biāo),也可以使用Prometheus官方提供的各種常用組件和中間件的Exporter(比如常用的MySQL,Consul等等)。

對(duì)于短時(shí)間執(zhí)行的腳本任務(wù)或者不好直接 Pull指標(biāo)的服務(wù),Prometheus提供了PushGateWay網(wǎng)關(guān)給這些任務(wù)將服務(wù)指標(biāo)主動(dòng)推Push到網(wǎng)關(guān),Prometheus再?gòu)倪@個(gè)網(wǎng)關(guān)里Pull指標(biāo)。

(二)指標(biāo)抓取

上面提到了Push和Pull,其實(shí)這是兩種指標(biāo)抓取模型。

  • Pull模型: 監(jiān)控服務(wù)主動(dòng)拉取被監(jiān)控服務(wù)的指標(biāo)。

2da0b900-0ffc-11ed-ba43-dac502259ad0.png

被監(jiān)控服務(wù)一般通過(guò)主動(dòng)暴露metrics端口或者通過(guò)Exporter的方式暴露指標(biāo),監(jiān)控服務(wù)依賴服務(wù)發(fā)現(xiàn)模塊發(fā)現(xiàn)被監(jiān)控服務(wù),從而去定期的抓取指標(biāo)。

  • Push模型: 被監(jiān)控服務(wù)主動(dòng)將指標(biāo)推送到監(jiān)控服務(wù),可能需要對(duì)指標(biāo)做協(xié)議適配,必須得符合監(jiān)控服務(wù)要求的指標(biāo)格式。

2db6dc44-0ffc-11ed-ba43-dac502259ad0.png

對(duì)于Prometheus中的指標(biāo)抓取,采用的是Pull模型,默認(rèn)是一分鐘去拉取一次指標(biāo),通過(guò)Prometheus.yaml配置文件中的scrape_interval配置項(xiàng)配置,Prometheus對(duì)外都是用的Pull模型,一個(gè)是Pull Exporter的暴露的指標(biāo),一個(gè)是Pull PushGateway暴露的指標(biāo)。

(三)指標(biāo)存儲(chǔ)和查詢

指標(biāo)抓取后會(huì)存儲(chǔ)在內(nèi)置的時(shí)序數(shù)據(jù)庫(kù)中,Prometheus也提供了PromQL 查詢語(yǔ)言給我們做指標(biāo)的查詢,我們可以在Prometheus的WebUI上通過(guò) PromQL,可視化查詢我們的指標(biāo),也可以很方便的接入第三方的可視化工具,例如grafana。

(四)監(jiān)控告警

prometheus提供了alertmanageer基于promql來(lái)做系統(tǒng)的監(jiān)控告警,當(dāng)promql查詢出來(lái)的指標(biāo)超過(guò)我們定義的閾值時(shí),prometheus會(huì)發(fā)送一條告警信息alertmanager,manager會(huì)將告警下發(fā)到配置好的郵箱或者微信。

三、工作原理

Prometheus的從被監(jiān)控服務(wù)的注冊(cè)到指標(biāo)抓取到指標(biāo)查詢的流程分為五個(gè)步驟:

2dcc347c-0ffc-11ed-ba43-dac502259ad0.png

(一)服務(wù)注冊(cè)

被監(jiān)控服務(wù)在Prometheus中是一個(gè)Job存在,被監(jiān)控服務(wù)的所有實(shí)例在 Prometheus中是一個(gè)target的存在,所以被監(jiān)控服務(wù)的注冊(cè)就是在 Prometheus中注冊(cè)一個(gè)Job和其所有的target,這個(gè)注冊(cè)分為:靜態(tài)注冊(cè)和動(dòng)態(tài)注冊(cè)。

靜態(tài)注冊(cè): 靜態(tài)的將服務(wù)的IP和抓取指標(biāo)的端口號(hào)配置在Prometheus yaml文件的scrape_configs配置下:

scrape_configs:
-job_name:"prometheus"
static_configs:
-targets:["localhost:9090"]

以上就是注冊(cè)了一個(gè)名為prometheus的服務(wù),這個(gè)服務(wù)下有一個(gè)實(shí)例,暴露的抓取地址是localhost:9090

動(dòng)態(tài)注冊(cè): 動(dòng)態(tài)注冊(cè)就是在Prometheus yaml文件的scrape_configs配置下配置服務(wù)發(fā)現(xiàn)的地址和服務(wù)名,Prometheus會(huì)去該地址,根據(jù)你提供的服務(wù)名動(dòng)態(tài)發(fā)現(xiàn)實(shí)例列表,在Prometheus中,支持consul,DNS,文件,K8s等多種服務(wù)發(fā)現(xiàn)機(jī)制?;赾onsul的服務(wù)發(fā)現(xiàn):

-job_name:"node_export_consul"
metrics_path:/node_metrics
scheme:http
consul_sd_configs:
-server:localhost:8500
services:
-node_exporter

我們consul的地址就是:localhost:8500,服務(wù)名是node_exporter,在這個(gè)服務(wù)下有一個(gè)exporter實(shí)例:localhost:9600。

2dd888f8-0ffc-11ed-ba43-dac502259ad0.png

注意:如果是動(dòng)態(tài)注冊(cè),最好加上這兩配置,靜態(tài)注冊(cè)指標(biāo)拉取的路徑會(huì)默認(rèn)的幫我們指定為 metrics_path:/metrics,所以如果暴露的指標(biāo)抓取路徑不同或者是動(dòng)態(tài)的服務(wù)注冊(cè),最好加上這兩個(gè)配置。

不然會(huì)報(bào)錯(cuò)“INVALID“ is not a valid start token,演示下,百度了一下,這里可能是數(shù)據(jù)格式不統(tǒng)一導(dǎo)致。

metrics_path:/node_metrics
scheme:http

最后可以在webUI中查看發(fā)現(xiàn)的實(shí)例:

2de9ec38-0ffc-11ed-ba43-dac502259ad0.png

目前,Prometheus支持多達(dá)二十多種服務(wù)發(fā)現(xiàn)協(xié)議:
























(二)配置更新

在更新完Prometheus的配置文件后,我們需要更新我們的配置到程序內(nèi)存里,這里的更新方式有兩種,第一種簡(jiǎn)單粗暴,就是重啟Prometheus,第二種是動(dòng)態(tài)更新的方式。如何實(shí)現(xiàn)動(dòng)態(tài)的更新Prometheus配置。

第一步:首先要保證啟動(dòng)Prometheus的時(shí)候帶上啟動(dòng)參數(shù)--web.enable-lifecycle

prometheus--config.file=/usr/local/etc/prometheus.yml--web.enable-lifecycle

第二步:去更新我們的Prometheus配置:

curl-v--requestPOST'http://localhost:9090/-/reload'

第三步:更新完配置后,我們可以通過(guò)Post請(qǐng)求的方式,動(dòng)態(tài)更新配置:

原理:

Prometheus在web模塊中,注冊(cè)了一個(gè)handler

ifo.EnableLifecycle{
router.Post("/-/quit",h.quit)
router.Put("/-/quit",h.quit)
router.Post("/-/reload",h.reload)//reload配置
router.Put("/-/reload",h.reload)
}

通過(guò)h.reload這個(gè)handler方法實(shí)現(xiàn):這個(gè)handler就是往一個(gè)channle中發(fā)送一個(gè)信號(hào)

func(h*Handler)reload(whttp.ResponseWriter,r*http.Request){
rc:=make(chanerror)
h.reloadCh<-?rc????//?發(fā)送一個(gè)信號(hào)到channe了中
???iferr:=<-rc;?err?!=?nil?{
??????http.Error(w,?fmt.Sprintf("failedtoreloadconfig:%s",err),http.StatusInternalServerError)
}
}

在main函數(shù)中會(huì)去監(jiān)聽(tīng)這個(gè)channel,只要有監(jiān)聽(tīng)到信號(hào),就會(huì)做配置的reload,重新將新配置加載到內(nèi)存中

caserc:=<-webHandler.Reload():
???iferr:=reloadConfig(cfg.configFile,cfg.enableExpandExternalLabels,cfg.tsdb.EnableExemplarStorage,logger,noStepSubqueryInterval,reloaders...);err!=nil{
level.Error(logger).Log("msg","Errorreloadingconfig","err",err)
rc<-?err
???}?else{
rc<-?nil
???}

(三)指標(biāo)抓取和存儲(chǔ)

Prometheus對(duì)指標(biāo)的抓取采取主動(dòng)Pull的方式,即周期性的請(qǐng)求被監(jiān)控服務(wù)暴露的metrics接口或者是PushGateway,從而獲取到Metrics指標(biāo),默認(rèn)時(shí)間是15s抓取一次,配置項(xiàng)如下:

global:
scrape_interval:15s

抓取到的指標(biāo)會(huì)被以時(shí)間序列的形式保存在內(nèi)存中,并且定時(shí)刷到磁盤(pán)上,默認(rèn)是兩個(gè)小時(shí)回刷一次。并且為了防止Prometheus 發(fā)生崩潰或重啟時(shí)能夠恢復(fù)數(shù)據(jù),Prometheus也提供了類似MySQL中binlog一樣的預(yù)寫(xiě)日志,當(dāng)Prometheus崩潰重啟時(shí),會(huì)讀這個(gè)預(yù)寫(xiě)日志來(lái)恢復(fù)數(shù)據(jù)。

四、Metric指標(biāo)

(一)數(shù)據(jù)模型

2e031852-0ffc-11ed-ba43-dac502259ad0.png

Prometheus采集的所有指標(biāo)都是以時(shí)間序列的形式進(jìn)行存儲(chǔ),每一個(gè)時(shí)間序列有三部分組成:

  • 指標(biāo)名和指標(biāo)標(biāo)簽集合:metric_name{,....},指標(biāo)名:表示這個(gè)指標(biāo)是監(jiān)控哪一方面的狀態(tài),比如http_request_total表示:請(qǐng)求數(shù)量;指標(biāo)標(biāo)簽,描述這個(gè)指標(biāo)有哪些維度,比如http_request_total這個(gè)指標(biāo),有請(qǐng)求狀態(tài)碼code= 200/400/500,請(qǐng)求方式:method=get/post等,實(shí)際上指標(biāo)名稱實(shí)際上是以標(biāo)簽的形式保存,這個(gè)標(biāo)簽是name,即:name=。

  • 時(shí)間戳:描述當(dāng)前時(shí)間序列的時(shí)間,單位:毫秒。

  • 樣本值:當(dāng)前監(jiān)控指標(biāo)的具體數(shù)值,比如http_request_total的值就是請(qǐng)求數(shù)是多少。

可以通過(guò)查看Prometheusmetrics接口查看所有上報(bào)的指標(biāo):

2e13da3e-0ffc-11ed-ba43-dac502259ad0.png

所有的指標(biāo)也都是通過(guò)如下所示的格式來(lái)標(biāo)識(shí)的:

# HELP // HELP:這里描述的指標(biāo)的信息,表示這個(gè)是一個(gè)什么指標(biāo),統(tǒng)計(jì)什么的
# TYPE // TYPE:這個(gè)指標(biāo)是什么類型的
{=,...}value//指標(biāo)的具體格式,<指標(biāo)名>{標(biāo)簽集合}指標(biāo)值

(二)指標(biāo)類型

Prometheus底層存儲(chǔ)上其實(shí)并沒(méi)有對(duì)指標(biāo)做類型的區(qū)分,都是以時(shí)間序列的形式存儲(chǔ),但是為了方便用戶的使用和理解不同監(jiān)控指標(biāo)之間的差異,Prometheus定義了4種不同的指標(biāo)類型:計(jì)數(shù)器counter,儀表盤(pán)gauge,直方圖histogram,摘要summary。

2e27029e-0ffc-11ed-ba43-dac502259ad0.png

Counter計(jì)數(shù)器:

Counter類型和redis的自增命令一樣,只增不減,通過(guò)Counter指標(biāo)可以統(tǒng)計(jì)Http請(qǐng)求數(shù)量,請(qǐng)求錯(cuò)誤數(shù),接口調(diào)用次數(shù)等單調(diào)遞增的數(shù)據(jù)。同時(shí)可以結(jié)合increase和rate等函數(shù)統(tǒng)計(jì)變化速率,后續(xù)我們會(huì)提到這些內(nèi)置函數(shù)。

2e3f58c6-0ffc-11ed-ba43-dac502259ad0.png

Gauge儀表盤(pán):

Counter不同,Gauge是可增可減的,可以反映一些動(dòng)態(tài)變化的數(shù)據(jù),例如當(dāng)前內(nèi)存占用,CPU利用,Gc次數(shù)等動(dòng)態(tài)可上升可下降的數(shù)據(jù),在Prometheus上通過(guò)Gauge,可以不用經(jīng)過(guò)內(nèi)置函數(shù)直觀的反映數(shù)據(jù)的變化情況,如下圖表示堆可分配的空間大?。?/p>

2e50e6f4-0ffc-11ed-ba43-dac502259ad0.png

上面兩種是數(shù)值指標(biāo),代表數(shù)據(jù)的變化情況,HistogramSummary是統(tǒng)計(jì)類型的指標(biāo),表示數(shù)據(jù)的分布情況。

Histogram直方圖:

Histogram是一種直方圖類型,可以觀察到指標(biāo)在各個(gè)不同的區(qū)間范圍的分布情況,如下圖所示:可以觀察到請(qǐng)求耗時(shí)在各個(gè)桶的分布。

2e5d2824-0ffc-11ed-ba43-dac502259ad0.png

有一點(diǎn)要注意的是,Histogram是累計(jì)直方圖,即每一個(gè)桶的是只有上區(qū)間,例如下圖表示小于0.1毫秒(le=“0.1”)的請(qǐng)求數(shù)量是18173個(gè),小于 0.2毫秒(le=“0.2”)的請(qǐng)求是18182 個(gè),在le=“0.2”這個(gè)桶中是包含了 le=“0.1”這個(gè)桶的數(shù)據(jù),如果我們要拿到0.1毫秒到0.2毫秒的請(qǐng)求數(shù)量,可以通過(guò)兩個(gè)桶想減得到。

2e82e370-0ffc-11ed-ba43-dac502259ad0.png

在直方圖中,還可以通過(guò)histogram_quantile函數(shù)求出百分位數(shù),比如 P50,P90,P99等數(shù)據(jù)。

Summary摘要

Summary也是用來(lái)做統(tǒng)計(jì)分析的,和Histogram區(qū)別在于,Summary直接存儲(chǔ)的就是百分位數(shù),如下所示:可以直觀的觀察到樣本的中位數(shù),P90和P99。

2e9203b4-0ffc-11ed-ba43-dac502259ad0.png

Summary的百分位數(shù)是客戶端計(jì)算好直接讓Prometheus抓取的,不需要 Prometheus計(jì)算,直方圖是通過(guò)內(nèi)置函數(shù)histogram_quantilePrometheus服務(wù)端計(jì)算求出。

(三)指標(biāo)導(dǎo)出

指標(biāo)導(dǎo)出有兩種方式,一種是使用Prometheus社區(qū)提供的定制好的 Exporter對(duì)一些組件諸如MySQL,Kafka等的指標(biāo)作導(dǎo)出,也可以利用社區(qū)提供的Client來(lái)自定義指標(biāo)導(dǎo)出。

github.com/prometheus/client_golang/prometheus/promhttp

自定義Prometheus exporter

packagemain

import(
"net/http"

"github.com/prometheus/client_golang/prometheus/promhttp"
)

funcmain(){
http.Handle("/metrics",promhttp.Handler())
http.ListenAndServe(":8080",nil)
}

訪問(wèn):http://localhost:8080/metrics,即可看到導(dǎo)出的指標(biāo),這里我們沒(méi)有自定義任何的指標(biāo),但是能看到一些內(nèi)置的Go的運(yùn)行時(shí)指標(biāo)和promhttp相關(guān)的指標(biāo),這個(gè)Client默認(rèn)為我們暴露的指標(biāo),go_:以 go_ 為前綴的指標(biāo)是關(guān)于Go運(yùn)行時(shí)相關(guān)的指標(biāo),比如垃圾回收時(shí)間、goroutine 數(shù)量等,這些都是Go客戶端庫(kù)特有的,其他語(yǔ)言的客戶端庫(kù)可能會(huì)暴露各自語(yǔ)言的其他運(yùn)行時(shí)指標(biāo)。promhttp_:來(lái)自promhttp工具包的相關(guān)指標(biāo),用于跟蹤對(duì)指標(biāo)請(qǐng)求的處理。

2ea4e7ae-0ffc-11ed-ba43-dac502259ad0.png

添加自定義指標(biāo):

packagemain

import(
"net/http"

"github.com/prometheus/client_golang/prometheus"
"github.com/prometheus/client_golang/prometheus/promhttp"
)

funcmain(){

//1.定義指標(biāo)(類型,名字,幫助信息)
myCounter:=prometheus.NewCounter(prometheus.CounterOpts{
Name:"my_counter_total",
Help:"自定義counter",
})
//2.注冊(cè)指標(biāo)
prometheus.MustRegister(myCounter)
//3.設(shè)置指標(biāo)值
myCounter.Add(23)

http.Handle("/metrics",promhttp.Handler())
http.ListenAndServe(":8080",nil)
}

運(yùn)行:

2eba341a-0ffc-11ed-ba43-dac502259ad0.png

模擬下在業(yè)務(wù)中上報(bào)接口請(qǐng)求量:

packagemain

import(
"fmt"
"net/http"

"github.com/prometheus/client_golang/prometheus"
)

var(
MyCounterprometheus.Counter
)

//init注冊(cè)指標(biāo)
funcinit(){
//1.定義指標(biāo)(類型,名字,幫助信息)
MyCounter=prometheus.NewCounter(prometheus.CounterOpts{
Name:"my_counter_total",
Help:"自定義counter",
})
//2.注冊(cè)指標(biāo)
prometheus.MustRegister(MyCounter)
}

//Sayhello
funcSayhello(whttp.ResponseWriter,r*http.Request){
//接口請(qǐng)求量遞增
MyCounter.Inc()
fmt.Fprintf(w,"HelloWrold!")
}

main.go:

packagemain

import(
"net/http"

"github.com/prometheus/client_golang/prometheus/promhttp"
)

funcmain(){

http.Handle("/metrics",promhttp.Handler())
http.HandleFunc("/counter",Sayhello)
http.ListenAndServe(":8080",nil)
}

一開(kāi)始啟動(dòng)時(shí),指標(biāo)counter是0

2ecb9b24-0ffc-11ed-ba43-dac502259ad0.png

調(diào)用:/counter接口后,指標(biāo)數(shù)據(jù)發(fā)生了變化,這樣就可以簡(jiǎn)單實(shí)現(xiàn)了接口請(qǐng)求數(shù)的統(tǒng)計(jì):

2edcf568-0ffc-11ed-ba43-dac502259ad0.png

對(duì)于其他指標(biāo)定義方式是一樣的:

var(
MyCounterprometheus.Counter
MyGaugeprometheus.Gauge
MyHistogramprometheus.Histogram
MySummaryprometheus.Summary
)

//init注冊(cè)指標(biāo)
funcinit(){
//1.定義指標(biāo)(類型,名字,幫助信息)
MyCounter=prometheus.NewCounter(prometheus.CounterOpts{
Name:"my_counter_total",
Help:"自定義counter",
})
//定義gauge類型指標(biāo)
MyGauge=prometheus.NewGauge(prometheus.GaugeOpts{
Name:"my_gauge_num",
Help:"自定義gauge",
})
//定義histogram
MyHistogram=prometheus.NewHistogram(prometheus.HistogramOpts{
Name:"my_histogram_bucket",
Help:"自定義histogram",
Buckets:[]float64{0.1,0.2,0.3,0.4,0.5},//需要指定桶
})
//定義Summary
MySummary=prometheus.NewSummary(prometheus.SummaryOpts{
Name:"my_summary_bucket",
Help:"自定義summary",
//這部分可以算好后在set
Objectives:map[float64]float64{
0.5:0.05,
0.9:0.01,
0.99:0.001,
},
})

//2.注冊(cè)指標(biāo)
prometheus.MustRegister(MyCounter)
prometheus.MustRegister(MyGauge)
prometheus.MustRegister(MyHistogram)
prometheus.MustRegister(MySummary)
}

2ef91784-0ffc-11ed-ba43-dac502259ad0.png

上面的指標(biāo)都是沒(méi)有設(shè)置標(biāo)簽的,我們一般的指標(biāo)都是帶有標(biāo)簽的,如何設(shè)置指標(biāo)的標(biāo)簽?zāi)兀?/p>

如果我要設(shè)置帶標(biāo)簽的counter類型指標(biāo),只需要將原來(lái)的NewCounter方法替換為NewCounterVec方法即可,并且傳入標(biāo)簽集合。

MyCounter*prometheus.CounterVec
//1.定義指標(biāo)(類型,名字,幫助信息)
MyCounter=prometheus.NewCounterVec(
prometheus.CounterOpts{
Name:"my_counter_total",
Help:"自定義counter",
},
//標(biāo)簽集合
[]string{"label1","label2"},
)
//帶標(biāo)簽的set指標(biāo)值
MyCounter.With(prometheus.Labels{"label1":"1","label2":"2"}).Inc()

2f0a3910-0ffc-11ed-ba43-dac502259ad0.png

其他同理。

五、PromQL

剛剛提到了Prometheus中指標(biāo)有哪些類型以及如何導(dǎo)出我們的指標(biāo),現(xiàn)在指標(biāo)導(dǎo)出到Prometheus了,利用其提供的PromQL可以查詢我們導(dǎo)出的指標(biāo)。

PromQL是Prometheus為我們提供的函數(shù)式的查詢語(yǔ)言,查詢表達(dá)式有四種類型:

  • 字符串:只作為某些內(nèi)置函數(shù)的參數(shù)出現(xiàn);
  • 標(biāo)量:單一的數(shù)字值,可以是函數(shù)參數(shù),也可以是函數(shù)的返回結(jié)果;
  • 瞬時(shí)向量:某一時(shí)刻的時(shí)序數(shù)據(jù);
  • 區(qū)間向量:某一時(shí)間區(qū)間內(nèi)的時(shí)序數(shù)據(jù)集合。

(一)瞬時(shí)查詢

直接通過(guò)指標(biāo)名即可進(jìn)行查詢,查詢結(jié)果是當(dāng)前指標(biāo)最新的時(shí)間序列,比如查詢Gc累積消耗的時(shí)間:

go_gc_duration_seconds_count

2f15451c-0ffc-11ed-ba43-dac502259ad0.png

我們可以看到查詢出來(lái)有多個(gè)同名指標(biāo)結(jié)果 可以用{}做標(biāo)簽過(guò)濾查詢:比如我們想查指定實(shí)例的指標(biāo):

go_gc_duration_seconds_count{instance="127.0.0.1:9600"}

2f274956-0ffc-11ed-ba43-dac502259ad0.png

而且也支持則表達(dá)式,通過(guò)=~指定正則表達(dá)式,如下所示:查詢所有instancelocalhost開(kāi)頭的指標(biāo)

go_gc_duration_seconds_count{instance=~"localhost.*"}

2f3620fc-0ffc-11ed-ba43-dac502259ad0.png

(二)范圍查詢

范圍查詢的結(jié)果集就是區(qū)間向量,可以通過(guò)[]指定時(shí)間來(lái)做范圍查詢,查詢5分鐘內(nèi)的Gc累積消耗時(shí)間:

go_gc_duration_seconds_count{}[5m]

注意:這里范圍查詢第一個(gè)點(diǎn)并不一定精確到剛剛好5分鐘前的那個(gè)時(shí)序樣本點(diǎn),他是以5分鐘作為一個(gè)區(qū)間,尋找這個(gè)區(qū)間的第一個(gè)點(diǎn)到最后一個(gè)樣本點(diǎn)。

2f45a4a0-0ffc-11ed-ba43-dac502259ad0.png

時(shí)間單位:

2f5a53fa-0ffc-11ed-ba43-dac502259ad0.png

d:天,h:小時(shí),m:分鐘,ms:毫秒,s:秒,w:周,y:年

同樣支持類似SQL中的offset查詢,如下:查詢一天前當(dāng)前5分鐘前的時(shí)序數(shù)據(jù)集:

go_gc_duration_seconds_count{}[5m]offset1d

(三)內(nèi)置函數(shù)

Prometheus內(nèi)置了很多函數(shù),這里主要記錄下常用的幾個(gè)函數(shù)的使用:

rate和irate函數(shù):rate函數(shù)可以用來(lái)求指標(biāo)的平均變化速率

rate函數(shù)=時(shí)間區(qū)間前后兩個(gè)點(diǎn)的差/時(shí)間范圍

一般rate函數(shù)可以用來(lái)求某個(gè)時(shí)間區(qū)間內(nèi)的請(qǐng)求速率,也就是我們常說(shuō)的QPS

2f64308c-0ffc-11ed-ba43-dac502259ad0.png

但是rate函數(shù)只是算出來(lái)了某個(gè)時(shí)間區(qū)間內(nèi)的平均速率,沒(méi)辦法反映突發(fā)變化,假設(shè)在一分鐘的時(shí)間區(qū)間里,前50秒的請(qǐng)求量都是0到10左右,但是最后10秒的請(qǐng)求量暴增到100以上,這時(shí)候算出來(lái)的值可能無(wú)法很好的反映這個(gè)峰值變化。

這個(gè)問(wèn)題可以通過(guò)irate函數(shù)解決,irate函數(shù)求出來(lái)的就是瞬時(shí)變化率。

時(shí)間區(qū)間內(nèi)最后兩個(gè)樣本點(diǎn)的差/最后兩個(gè)樣本點(diǎn)的時(shí)間差

2f794ddc-0ffc-11ed-ba43-dac502259ad0.png

可以通過(guò)圖像看下兩者的區(qū)別:irate函數(shù)的圖像峰值變化大,rate函數(shù)變化較為平緩。

rate函數(shù)

2f933684-0ffc-11ed-ba43-dac502259ad0.png

irate函數(shù)

2fa2e534-0ffc-11ed-ba43-dac502259ad0.png

聚合函數(shù):Sum() by() without()

也是上邊的例子,我們?cè)谇笾付ń涌诘腝PS的時(shí)候,可能會(huì)出現(xiàn)多個(gè)實(shí)例的QPS的計(jì)算結(jié)果,如下是存在多個(gè)接口,三個(gè)服務(wù)的QPS。

rate(demo_api_request_duration_seconds_count{job="demo",method="GET",status="200"}[5m])

2fbe841a-0ffc-11ed-ba43-dac502259ad0.png

利用sum函數(shù)可以將三個(gè)QPS聚合,即可得到整個(gè)服務(wù)該接口的QPS:其實(shí)Sum就是將指標(biāo)值做相加。

2fd966ea-0ffc-11ed-ba43-dac502259ad0.png

但是這樣直接的相加太籠統(tǒng)抽象了,可以配合by和without函數(shù)在sum的時(shí)候,基于某些標(biāo)簽分組,類似SQL中的group by

例如,我可以根據(jù)請(qǐng)求接口標(biāo)簽分組:這樣拿到的就是具體接口的QPS:

sum(rate(demo_api_request_duration_seconds_count{job="demo",method="GET",status="200"}[5m]))by(path)

2fea9e6a-0ffc-11ed-ba43-dac502259ad0.png

也可以不根據(jù)接口路徑分組:通過(guò)without指定:

sum(rate(demo_api_request_duration_seconds_count{job="demo",method="GET",status="200"}[5m]))without(path)

2ff89c9a-0ffc-11ed-ba43-dac502259ad0.png

可以通過(guò)histogram_quantile函數(shù)做數(shù)據(jù)統(tǒng)計(jì):可以用來(lái)統(tǒng)計(jì)百分位數(shù):第一個(gè)參數(shù)是百分位,第二個(gè)histogram指標(biāo),這樣計(jì)算出來(lái)的就是中位數(shù),即P50

histogram_quantile(0.5,go_gc_pauses_seconds_total_bucket)

300eb41c-0ffc-11ed-ba43-dac502259ad0.png

分享之前和同事一起發(fā)現(xiàn)的坑:

在剛剛寫(xiě)的自定義exporter上新增幾個(gè)histogram的樣本點(diǎn):

MyHistogram.Observe(0.3)
MyHistogram.Observe(0.4)
MyHistogram.Observe(0.5)

histogram的桶設(shè)置:

MyHistogram=prometheus.NewHistogram(prometheus.HistogramOpts{
Name:"my_histogram_bucket",
Help:"自定義histogram",
Buckets:[]float64{0,2.5,5,7.5,10},//需要指定桶
})

如果這樣的話,所有指標(biāo)都會(huì)直接進(jìn)入到第一個(gè)桶,即0到2.5這個(gè)桶,如果我要計(jì)算中位數(shù),那么這個(gè)中位數(shù)按照數(shù)學(xué)公式來(lái)算的話,肯定是在0到2.之間的,而且肯定是0.3到0.5之間。

我用histogram_quantile函數(shù)計(jì)算下:計(jì)算結(jié)果是1.25,其實(shí)已經(jīng)不對(duì)了。

histogram_quantile(0.5,my_histogram_bucket_bucket)

301b97b8-0ffc-11ed-ba43-dac502259ad0.png

我在計(jì)算下P99,等于2.475:

histogram_quantile(0.99,my_histogram_bucket_bucket)

3023adae-0ffc-11ed-ba43-dac502259ad0.png

我的指標(biāo)都是不大于1的,為啥算出來(lái)的P50和P99都這么離譜呢?

這是因?yàn)?code style="font-size:14px;padding:2px 4px;margin:0 2px;background-color:rgba(27,31,35,.05);font-family:'Operator Mono', Consolas, Monaco, Menlo, monospace;color:rgb(60,112,198);">Prometheus他是不保存你具體的指標(biāo)數(shù)值的,他會(huì)幫你把指標(biāo)放到具體的桶,但是他不會(huì)保存你指標(biāo)的值,計(jì)算的分位數(shù)是一個(gè)預(yù)估的值,怎么預(yù)估呢?

就是假設(shè)每個(gè)桶內(nèi)的樣本分布是均勻的,線性分布來(lái)計(jì)算的,比如剛剛的P50,其實(shí)就是算排在第50%位置的樣本值,因?yàn)閯倓偹械臄?shù)據(jù)都落在了第一個(gè)桶,那么他在計(jì)算的時(shí)候就會(huì)假定這個(gè)50%值在第一個(gè)桶的中點(diǎn),他就會(huì)假定這個(gè)數(shù)就是0.5_ 2.5,P99就是第一個(gè)桶的99%的位置,他就會(huì)假定這個(gè)數(shù)就是0.99 _ 2.5

導(dǎo)致這個(gè)誤差較大的原因就是我們的bucket設(shè)置的不合理。

重新定義桶:

//定義histogram
MyHistogram=prometheus.NewHistogram(prometheus.HistogramOpts{
Name:"my_histogram_bucket",
Help:"自定義histogram",
Buckets:[]float64{0.1,0.2,0.3,0.4,0.5},//需要指定桶
})

上報(bào)數(shù)據(jù):

MyHistogram.Observe(0.1)
MyHistogram.Observe(0.3)
MyHistogram.Observe(0.4)

303b59f4-0ffc-11ed-ba43-dac502259ad0.png

重新計(jì)算 P50,P99:

3046a67e-0ffc-11ed-ba43-dac502259ad0.png

3055fc96-0ffc-11ed-ba43-dac502259ad0.png

桶設(shè)置的越合理,計(jì)算的誤差越小。

六、Grafana可視化

除了可以利用Prometheus提供的webUI可視化我們的指標(biāo)外,還可以接入Grafana來(lái)做指標(biāo)的可視化。

第一步,對(duì)接數(shù)據(jù)源:

3076e5be-0ffc-11ed-ba43-dac502259ad0.png

配置好prometheus的地址:

30866fca-0ffc-11ed-ba43-dac502259ad0.png

第二步:創(chuàng)建儀表盤(pán)

30936a0e-0ffc-11ed-ba43-dac502259ad0.png

編輯儀表盤(pán):

30b469de-0ffc-11ed-ba43-dac502259ad0.png

metrics處編寫(xiě)PromQL即可完成查詢和可視化:

30c23dde-0ffc-11ed-ba43-dac502259ad0.png

儀表盤(pán)編輯完后,可以導(dǎo)出對(duì)應(yīng)的 json 文件,方便下次導(dǎo)入同樣的儀表盤(pán):

30cccce0-0ffc-11ed-ba43-dac502259ad0.png

以上是我之前搭建的儀表盤(pán):

30fd2476-0ffc-11ed-ba43-dac502259ad0.png

七、監(jiān)控告警

AlertManagerprometheus提供的告警信息下發(fā)組件,包含了對(duì)告警信息的分組,下發(fā),靜默等策略。配置完成后可以在webui上看到對(duì)應(yīng)的告警策略信息。告警規(guī)則也是基于PromQL進(jìn)行定制的。

編寫(xiě)告警配置:當(dāng)Http_srv這個(gè)服務(wù)掛了,Prometheus采集不到指標(biāo),并且持續(xù)時(shí)間1分鐘,就會(huì)觸發(fā)告警

groups:
-name:simulator-alert-rule
rules:
-alert:HttpSimulatorDown
expr:sum(up{job="http_srv"})==0
for:1m
labels:
severity:critical

prometheus.yml中配置告警配置文件,需要配置上alertmanager的地址和告警文件的地址

#Alertmanagerconfiguration
alerting:
alertmanagers:
-static_configs:
-targets:['localhost:9093']
#Loadrulesonceandperiodicallyevaluatethemaccordingtotheglobal'evaluation_interval'.
rule_files:
-"alert_rules.yml"
#-"first_rules.yml"

配置告警信息,例如告警發(fā)送地址,告警內(nèi)容模版,分組策略等都在alertmanager的配置文件中配置:

global:
smtp_smarthost:'smtp.qq.com:465'
smtp_from:'xxxx@qq.com'
smtp_auth_username:'xxxx@qq.com'
smtp_auth_password:'xxxx'
smtp_require_tls:false

route:
group_interval:1m
repeat_interval:1m
receiver:'mail-receiver'

#group_by//采用哪個(gè)標(biāo)簽作為分組
#group_wait//分組等待的時(shí)間,收到報(bào)警不是立馬發(fā)送出去,而是等待一段時(shí)間,看看同一組中是否有其他報(bào)警,如果有一并發(fā)送
#group_interval//告警時(shí)間間隔
#repeat_interval//重復(fù)告警時(shí)間間隔,可以減少發(fā)送告警的頻率
#receiver//接收者是誰(shuí)
#routes//子路由配置
receivers:
-name:'mail-receiver'
email_configs:
-to:'xxxx@qq.com'

當(dāng)我kill進(jìn)程:

3110c4e0-0ffc-11ed-ba43-dac502259ad0.png

prometheus已經(jīng)觸發(fā)告警:

312348e0-0ffc-11ed-ba43-dac502259ad0.png

在等待1分鐘,如果持續(xù)還是符合告警策略,則狀態(tài)為從pending變?yōu)?code style="font-size:14px;padding:2px 4px;margin:0 2px;background-color:rgba(27,31,35,.05);font-family:'Operator Mono', Consolas, Monaco, Menlo, monospace;color:rgb(60,112,198);">FIRING會(huì)發(fā)送郵件到我的郵箱

31491ed0-0ffc-11ed-ba43-dac502259ad0.png

此時(shí)我的郵箱收到了一條告警消息:

3157a324-0ffc-11ed-ba43-dac502259ad0.png

alertmanager也支持對(duì)告警進(jìn)行靜默,在alertmanagerWEBUI中配置即可:

31625c10-0ffc-11ed-ba43-dac502259ad0.png

間隔了4分鐘,沒(méi)有收到告警,靜默生效:

3174a2c6-0ffc-11ed-ba43-dac502259ad0.png

一個(gè)小時(shí)沒(méi)有收到告警信息:

3184abee-0ffc-11ed-ba43-dac502259ad0.png

參考資料

  1. Pull or Push?監(jiān)控系統(tǒng)如何選型-阿里云開(kāi)發(fā)者社區(qū)
  2. 為go應(yīng)用添加prometheus監(jiān)控指標(biāo)-SegmentFault思否
  3. GitHub-prometheus/client_golang
  4. Material for MkDocs - Prometheus入門(mén)到實(shí)戰(zhàn)
  5. 終于有人把Prometheus入門(mén)講明白了-DockOne.io
  6. Prometheus報(bào)警AlertManager實(shí)戰(zhàn)
  7. 如何熱加載新配置·Prometheus實(shí)戰(zhàn)
  8. https://www.youtube.com/watch?v=qB40kqhTyYM&t=2261s
  9. https://www.youtube.com/watch?v=SOTxSSiLtuA&t=141s

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • SDK
    SDK
    +關(guān)注

    關(guān)注

    3

    文章

    1020

    瀏覽量

    45699
  • Prometheus
    +關(guān)注

    關(guān)注

    0

    文章

    26

    瀏覽量

    1703

原文標(biāo)題:監(jiān)控神器:Prometheus 輕松入門(mén),真香!

文章出處:【微信號(hào):AndroidPush,微信公眾號(hào):Android編程精選】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    嵌入式澆花神器拆解

    這就是澆花神器,很小巧的一個(gè)東西,可以把水桶中的水泵到花盆中。它可以用按鍵手動(dòng)操作,不過(guò)更方便的是通過(guò)WiFi連接網(wǎng)絡(luò),這樣就可以通過(guò)手機(jī)端的APP遠(yuǎn)程操作了,還可以定時(shí)操作,間隔多長(zhǎng)時(shí)間澆一次,每次膠水多長(zhǎng)時(shí)間都可以設(shè)置。
    的頭像 發(fā)表于 08-29 10:11 ?265次閱讀
    嵌入式澆花<b class='flag-5'>神器</b>拆解

    4G5G手機(jī)信號(hào)屏蔽器:手機(jī)信號(hào)“靜音”神器

    深圳特信電子|4G5G手機(jī)信號(hào)屏蔽器:手機(jī)信號(hào)“靜音”神器
    的頭像 發(fā)表于 07-02 08:51 ?448次閱讀

    北亞FB-C6700監(jiān)控視頻分析恢復(fù)系統(tǒng)#視頻監(jiān)控取證

    視頻監(jiān)控
    Frombyte
    發(fā)布于 :2024年06月26日 09:14:15

    驍銳單邊安全光柵,安全守護(hù)新神器

    在這個(gè)高速發(fā)展的科技時(shí)代,驍銳又一次引領(lǐng)了行業(yè)的潮流,發(fā)布了一款創(chuàng)新的單邊安全光柵!這款神器的出現(xiàn),將為工業(yè)安全領(lǐng)域帶來(lái)革命性的變化。 單邊安全光柵,顧名思義,只需要在危險(xiǎn)區(qū)域的一側(cè)安裝,就能提供全方位的安全防護(hù)。這不僅節(jié)省了空間,還降低了安裝成本,簡(jiǎn)直是一舉兩得!
    的頭像 發(fā)表于 06-18 16:18 ?251次閱讀
    驍銳單邊安全光柵,安全守護(hù)新<b class='flag-5'>神器</b>

    垃圾清運(yùn)以及垃圾處理“神器”讓垃圾清運(yùn)更高效。

    隨著城市功能的不斷豐富,城市管理工作也從粗放到精細(xì)、從純?nèi)斯す芾淼綌?shù)字化應(yīng)用逐漸轉(zhuǎn)變。近日,某小區(qū)垃圾滿溢監(jiān)測(cè)“神器”上線,能夠?qū)崟r(shí)監(jiān)控區(qū)內(nèi)果皮箱的數(shù)量、位置、垃圾量情況,讓垃圾清運(yùn)更高
    的頭像 發(fā)表于 05-13 09:37 ?300次閱讀
    垃圾清運(yùn)以及垃圾處理“<b class='flag-5'>神器</b>”讓垃圾清運(yùn)更高效。

    隧道視頻監(jiān)控語(yǔ)音對(duì)講系統(tǒng)智能監(jiān)控

    智能監(jiān)控
    恩田智能設(shè)備
    發(fā)布于 :2024年04月23日 14:54:33

    什么是智慧監(jiān)控

    THEIntelligentMonitoring什么是智慧監(jiān)控?成都華江信息技術(shù)有限公司隨著社會(huì)的進(jìn)步,科技不斷發(fā)展、監(jiān)控體系也在迭代升級(jí),如今的監(jiān)控技術(shù)已今非昔比,能獨(dú)自完成智能化操作。本文將簡(jiǎn)析
    的頭像 發(fā)表于 02-19 12:43 ?728次閱讀
    什么是智慧<b class='flag-5'>監(jiān)控</b>?

    如何正確選擇DS監(jiān)控閾值?

    如何確定正確的 DS 監(jiān)控閾值是多少? 配置向?qū)?BDVR/Drain-源監(jiān)控/DS-Monitoring/0.25。 參考 26.3.1.2 過(guò)流檢測(cè)-用戶手冊(cè) 當(dāng)閾值設(shè)置為 0.25 并測(cè)量高端
    發(fā)表于 01-29 08:15

    Prometheus監(jiān)控業(yè)務(wù)指標(biāo)詳解

    在 Kubernetes 已經(jīng)成了事實(shí)上的容器編排標(biāo)準(zhǔn)之下,微服務(wù)的部署變得非常容易。但隨著微服務(wù)規(guī)模的擴(kuò)大,服務(wù)治理帶來(lái)的挑戰(zhàn)也會(huì)越來(lái)越大。在這樣的背景下出現(xiàn)了服務(wù)可觀測(cè)性(observability)的概念。
    的頭像 發(fā)表于 01-24 10:32 ?529次閱讀
    <b class='flag-5'>Prometheus</b><b class='flag-5'>監(jiān)控</b>業(yè)務(wù)指標(biāo)詳解

    介紹一款基于java的滲透測(cè)試神器-CobaltStrike

    Cobalt Strike是一款基于java的滲透測(cè)試神器,常被業(yè)界人稱為CS神器。
    的頭像 發(fā)表于 01-16 09:16 ?856次閱讀
    介紹一款基于java的滲透測(cè)試<b class='flag-5'>神器</b>-CobaltStrike

    AI寫(xiě)作神器!搭載訊飛星火認(rèn)知大模型,能夠智能寫(xiě)作的鍵盤(pán)!

    一款全新的AI寫(xiě)作神器應(yīng)運(yùn)而生。這款神器搭載了訊飛星火認(rèn)知大模型,能夠智能寫(xiě)作,帶來(lái)前所未有的寫(xiě)作體驗(yàn)。 一、寫(xiě)作功能特點(diǎn) 自動(dòng)寫(xiě)作:訊飛星火認(rèn)知大模型可自動(dòng)根據(jù)用戶輸入的主題和關(guān)鍵詞,生成符合要求
    的頭像 發(fā)表于 01-04 16:40 ?668次閱讀
    AI寫(xiě)作<b class='flag-5'>神器</b>!搭載訊飛星火認(rèn)知大模型,能夠智能寫(xiě)作的鍵盤(pán)!

    Prometheus新手常犯的6項(xiàng)錯(cuò)誤你知道嗎?

    這是 Prometheus 使用者經(jīng)常會(huì)犯的一個(gè)錯(cuò),因?yàn)?Prometheus 時(shí)序是基于多標(biāo)簽的,它非常靈活,有時(shí)你想新增一個(gè)標(biāo)簽,從而將一個(gè)粗粒度的指標(biāo)進(jìn)行拆分,但切記添加的標(biāo)簽的值應(yīng)該做到盡量收斂
    的頭像 發(fā)表于 12-26 10:18 ?601次閱讀
    <b class='flag-5'>Prometheus</b>新手常犯的6項(xiàng)錯(cuò)誤你知道嗎?

    共模電容:又一款EMC濾波神器?

    共模電容:又一款EMC濾波神器?|深圳比創(chuàng)達(dá)電子(上)
    的頭像 發(fā)表于 12-25 10:54 ?664次閱讀
    共模電容:又一款EMC濾波<b class='flag-5'>神器</b>?

    Prometheus實(shí)戰(zhàn)篇:Exporter知識(shí)概述

    所有可以向Prometheus提供監(jiān)控樣本數(shù)據(jù)的程序都可以被稱為一個(gè)Exporter.而Exporter的一個(gè)實(shí)例稱為target,如圖下所示
    的頭像 發(fā)表于 12-25 09:57 ?863次閱讀
    <b class='flag-5'>Prometheus</b>實(shí)戰(zhàn)篇:Exporter知識(shí)概述

    LabVIEW遠(yuǎn)程監(jiān)控

    LabVIEW遠(yuǎn)程監(jiān)控 遠(yuǎn)程監(jiān)控的應(yīng)用場(chǎng)景 從辦公室遠(yuǎn)程監(jiān)控工廠車間的測(cè)試設(shè)備。 在世界另一端的偏遠(yuǎn)地區(qū)監(jiān)控客戶現(xiàn)場(chǎng)的發(fā)電設(shè)備。 從公司遠(yuǎn)程監(jiān)控
    發(fā)表于 12-03 21:51