0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

vivo服務端監(jiān)控架構(gòu)設計與實踐

PLC工控專欄 ? 來源:加密狗破解 ? 作者:加密狗破解 ? 2022-02-22 09:53 ? 次閱讀

當今時代處在信息大爆發(fā)的時代,信息借助互聯(lián)網(wǎng)的潮流在全球自由的流動,產(chǎn)生了各式各樣的平臺系統(tǒng)和軟件系統(tǒng),越來越多的業(yè)務也會導致系統(tǒng)的復雜性。

當核心業(yè)務出現(xiàn)了問題影響用戶體驗,開發(fā)人員沒有及時發(fā)現(xiàn),發(fā)現(xiàn)問題時已經(jīng)為時已晚,又或者當服務器的CPU持續(xù)增高,磁盤空間被打滿等,需要運維人員及時發(fā)現(xiàn)并處理,這就需要一套有效的監(jiān)控系統(tǒng)對其進行監(jiān)控和預警。

如何對這些業(yè)務和服務器進行監(jiān)控和維護是我們開發(fā)人員和運維人員不可忽視的重要一環(huán),這篇文章全篇大約5000多字,我將對vivo服務端監(jiān)控的原理和架構(gòu)演進之路做一次系統(tǒng)性整理,以便大家做監(jiān)控技術選型時參考。

vivo服務端監(jiān)控旨在為服務端應用提供包括系統(tǒng)監(jiān)控、JVM監(jiān)控以及自定義業(yè)務指標監(jiān)控在內(nèi)的一站式數(shù)據(jù)監(jiān)控,并配套實時、多維度、多渠道的告警服務,幫助用戶及時掌握應用多方面狀態(tài),事前及時預警發(fā)現(xiàn)故障,事后提供詳實的數(shù)據(jù)用于追查定位問題,提升服務可用性。目前vivo服務端監(jiān)控累計接入業(yè)務方數(shù)量達到200+,本文介紹的是服務端監(jiān)控,我司還有其他類型的優(yōu)秀監(jiān)控包括通用監(jiān)控、調(diào)用鏈監(jiān)控和客戶端監(jiān)控等。

1.1 監(jiān)控系統(tǒng)的基本流程

無論是開源的監(jiān)控系統(tǒng)還是自研的監(jiān)控系統(tǒng),整體流程都大同小異。

1)數(shù)據(jù)采集:可以包括JVM監(jiān)控數(shù)據(jù)如GC次數(shù),線程數(shù)量,老年代和新生代區(qū)域大??;系統(tǒng)監(jiān)控數(shù)據(jù)如磁盤使用使用率,磁盤讀寫的吞吐量,網(wǎng)絡的出口流量和入口流量,TCP連接數(shù);業(yè)務監(jiān)控數(shù)據(jù)如錯誤日志,訪問日志,視頻播放量,PV,UV等。

2)數(shù)據(jù)傳輸:將采集的數(shù)據(jù)以消息形式或者 HTTP 協(xié)議的形式等上報給監(jiān)控系統(tǒng)。

3)數(shù)據(jù)存儲:有使用 MySQL、Oracle 等 RDBMS 存儲的,也有使用時序數(shù)據(jù)庫OpenTSDB、InfluxDB 存儲的,還有使用 HBase 直接存儲的。

4)數(shù)據(jù)可視化:數(shù)據(jù)指標的圖形化展示,可以是折線圖,柱狀圖,餅圖等。

5)監(jiān)控告警:靈活的告警設置,以及支持郵件、短信、IM 等多種通知通道。

1.2 如何規(guī)范的使用監(jiān)控系統(tǒng)

在使用監(jiān)控系統(tǒng)之前,我們需要了解監(jiān)控對象的基本工作原理,例如JVM監(jiān)控,我們需要清楚JVM的內(nèi)存結(jié)構(gòu)組成和常見的垃圾回收機制;其次需要確定如何去描述和定義監(jiān)控對象的狀態(tài),例如監(jiān)控某個業(yè)務功能的接口性能,可以監(jiān)控該接口的請求量,耗時情況,錯誤量等;在確定了如何監(jiān)控對象的狀態(tài)之后,需要定義合理的告警閾值和告警類型,當收到告警提醒時,幫助開發(fā)人員及時發(fā)現(xiàn)故障;最后建立完善的故障處理體系,收到告警時迅速響應,及時處理線上故障。

二、vivo服務端監(jiān)控系統(tǒng)架構(gòu)及演進之路

在介紹vivo服務端監(jiān)控系統(tǒng)架構(gòu)之前,先帶大家了解一下OpenTSDB時序數(shù)據(jù)庫,在了解之前說明下為什么我們會選擇OpenTSDB,原因有以下幾點:

1) 監(jiān)控數(shù)據(jù)采集指標在某一時間點具有唯一值,沒有復雜的結(jié)構(gòu)及關系。

2)監(jiān)控數(shù)據(jù)的指標具有隨著時間不斷變化的特點。

3)基于HBase分布式、可伸縮的時間序列數(shù)據(jù)庫,存儲層不需要過多投入精力,具有HBase的高吞吐,良好的伸縮性等特點。

4)開源,Java實現(xiàn),并且提供基于HTTP的應用程序編程接口,問題排查快可修改。

2.1 OpenTSDB簡介

1)基于HBase的分布式的,可伸縮的時間序列數(shù)據(jù)庫,主要用途就是做監(jiān)控系統(tǒng)。譬如收集大規(guī)模集群(包括網(wǎng)絡設備、操作系統(tǒng)、應用程序)的監(jiān)控數(shù)據(jù)并進行存儲和查詢,支持秒級數(shù)據(jù)采集,支持永久存儲,可以做容量規(guī)劃,并很容易地接入到現(xiàn)有的監(jiān)控系統(tǒng)里,OpenTSDB的系統(tǒng)架構(gòu)圖如下:

vivo服務端監(jiān)控架構(gòu)設計與實踐

存儲結(jié)構(gòu)單元為Data Point,即某個Metric在某個時間點的數(shù)值。Data Point包括以下部分:

Metric,監(jiān)控指標名稱;

Tags,Metric的標簽,用來標注類似機器名稱等信息,包括TagKey和TagValue;

Value,Metric對應的實際數(shù)值,整數(shù)或小數(shù);

Timestamp,時間戳。

核心存儲兩張表:tsdb和tsdb-uid。表tsdb用來存儲監(jiān)控數(shù)據(jù),如下圖:

vivo服務端監(jiān)控架構(gòu)設計與實踐

Row Key為Metric+Timestamp的小時整點+TagKey+TagValue,取相應的字節(jié)映射組合起來;列族t下的Qualifier為Timestamp的小時整點余出的秒數(shù),對應的值即為Value。

表tsdb-uid用來存儲剛才提到的字節(jié)映射,如下圖:

vivo服務端監(jiān)控架構(gòu)設計與實踐

圖中的“001”表示tagk=hots或者tagv=static,提供正反查詢。

2)OpenTSDB使用策略說明:

不使用OpenTSDB提供的rest接口,通過client與HBase直連;

工程端禁用compact動作的Thrd線程;

間隔10秒獲取Redis緩沖數(shù)據(jù)批量寫入OpenTSDB。

2.2OpenTSDB在實踐中需要關注的點

1)精確性問題

String value = "0.51";
float f = Float.parseFloat(value);
int raw = Float.floatToRawIntBits(f);
byte[] float_bytes = Bytes.fromInt(raw);
int raw_back = Bytes.getInt(float_bytes, 0);
double decode = Float.intBitsToFloat(raw_back);
/**
 * 打印結(jié)果:
 * Parsed Float: 0.51
 * Encode Raw: 1057132380
 * Encode Bytes: 3F028F5C
 * Decode Raw: 1057132380
 * Decoded Float: 0.5099999904632568
 */
System.out.println("Parsed Float: " + f);
System.out.println("Encode Raw: " + raw);
System.out.println("Encode Bytes: " + UniqueId.uidToString(float_bytes));
System.out.println("Decode Raw: " + raw_back);
System.out.println("Decoded Float: " + decode);

如上代碼,OpenTSDB在存儲浮點型數(shù)據(jù)時,無法知悉存儲意圖,在轉(zhuǎn)化時會遇到精確性問題,即存儲"0.51",取出為"0.5099999904632568"。

2)聚合函數(shù)問題

OpenTSDB的大部分聚合函數(shù),包括sum、avg、max、min都是LERP(linear interpolation)的插值方式,即所獲取的值存在被補缺的現(xiàn)象,對于有空值需求的使用很不友好。詳細原理參見OpenTSDB關于interpolation的文檔。

目前vmonitor服務端監(jiān)控使用的OpenTSDB是我們改造后的源碼,新增了nimavg函數(shù),配合自帶的zimsum函數(shù)滿足空值插入需求。

2.3vivo服務端監(jiān)控采集器原理

vivo服務端監(jiān)控架構(gòu)設計與實踐

1)定時器

內(nèi)含3種采集器:OS采集器、JVM采集器和業(yè)務指標采集器,其中OS及JVM每分鐘執(zhí)行采集和匯聚,業(yè)務指標采集器會實時采集并在1分鐘的時間點完成匯聚重置,3份采集器的數(shù)據(jù)打包上報至RabbitMQ,上報動作異步超時。

2)業(yè)務指標采集器

業(yè)務指標采集方式有2種:日志輸出過濾和工具類代碼上報(侵入式),日志輸出過濾是通過繼承l(wèi)og4j的Filter,從而獲取指標配置中指定的Appender輸出的renderedMessage,并根據(jù)指標配置的關鍵詞、聚合方式等信息進行同步監(jiān)聽采集;代碼上報根據(jù)代碼中指定的指標code進行message信息上報,屬于侵入式的采集方式,通過調(diào)用監(jiān)控提供的Util實現(xiàn)。業(yè)務指標配置每隔5分鐘會從CDN刷新,內(nèi)置多種聚合器供聚合使用,包括count計數(shù)、 sum求和、average平均、max最大值和min最小值統(tǒng)計。

2.4 vivo服務端監(jiān)控老版本架構(gòu)設計

vivo服務端監(jiān)控架構(gòu)設計與實踐

1)數(shù)據(jù)采集及上報:需求方應用接入的監(jiān)控采集器vmonitor-agent根據(jù)監(jiān)控指標配置采集相應數(shù)據(jù),每分鐘上報1次數(shù)據(jù)至RabbitMQ,所采用的指標配置每5分鐘從CDN下載更新,CDN內(nèi)容由監(jiān)控后臺上傳。

2)計算及存儲:監(jiān)控后臺接收RabbitMQ的數(shù)據(jù),拆解后存儲至OpenTSDB,供可視化圖表調(diào)用,監(jiān)控項目、應用、指標和告警等配置存儲于MySQL;通過Zookeeper和Redis實現(xiàn)分布式任務分發(fā)模塊,實現(xiàn)多臺監(jiān)控服務協(xié)調(diào)配合運作,供分布式計算使用。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 監(jiān)控
    +關注

    關注

    6

    文章

    2131

    瀏覽量

    54898
  • 服務器
    +關注

    關注

    12

    文章

    8715

    瀏覽量

    84591
  • vivo
    +關注

    關注

    12

    文章

    3260

    瀏覽量

    62697
收藏 人收藏

    評論

    相關推薦

    使用NS1串口服務器HTTP模式上傳服務器數(shù)據(jù)

    HTTP協(xié)議工作于客戶-服務端架構(gòu)之上。瀏覽器作為HTTP客戶通過URL向HTTP服務端即Web服務
    的頭像 發(fā)表于 08-30 12:36 ?132次閱讀
    使用NS1串口<b class='flag-5'>服務</b>器HTTP模式上傳<b class='flag-5'>服務</b>器數(shù)據(jù)

    請問ESP32作為藍牙服務端如何修改MTU?

    我們的工程把esp32當作藍牙服務端讓電腦去連,由于一些老電腦上沒有藍牙,要用外置藍牙驅(qū)動,默認MTU只有23,但是說明上驅(qū)動是支持最大mtu的,所以有什么辦法可以通過服務端去修改mtu嗎
    發(fā)表于 06-27 07:47

    請問esp_local_ctrl中服務端如何主動發(fā)消息?

    請問,在wifi本地控制例程esp_local_ctrl中,設備作為服務端在客戶沒有請求的情況下,如何主動發(fā)送消息給客戶呢?
    發(fā)表于 06-06 06:11

    服務端測試包括什么類型

    服務端測試是確保軟件系統(tǒng)在服務器端正常運行和滿足性能要求的重要環(huán)節(jié)。本文將詳細介紹服務端測試的類型、方法和最佳實踐。 1. 服務端測試的定義
    的頭像 發(fā)表于 05-30 16:03 ?415次閱讀

    服務端測試是web測試嗎為什么

    服務端測試和Web測試是兩個不同的概念,但它們在軟件開發(fā)和測試過程中是相互關聯(lián)的。本文將詳細解釋這兩個概念以及它們之間的關系。 服務端測試 服務端測試主要關注服務器端的軟件組件,這些組
    的頭像 發(fā)表于 05-30 15:30 ?432次閱讀

    服務端測試和客戶測試區(qū)別在哪

    服務端測試和客戶測試是軟件開發(fā)過程中的兩個重要環(huán)節(jié),它們分別針對服務器端和客戶的軟件進行測試。本文將詳細介紹服務端測試和客戶
    的頭像 發(fā)表于 05-30 15:27 ?1532次閱讀

    服務端的測試主要是測什么內(nèi)容

    服務端測試是軟件開發(fā)過程中的一個重要環(huán)節(jié),主要目的是確保服務端程序的穩(wěn)定性、性能、安全性和可靠性。 功能測試 功能測試是服務端測試的基礎,主要驗證服務端程序是否按照需求實現(xiàn)了所有功能。
    的頭像 發(fā)表于 05-30 15:24 ?2605次閱讀

    交換芯片架構(gòu)設

    交換芯片的架構(gòu)設計是網(wǎng)絡設備性能和功能的關鍵。一個高效的交換芯片架構(gòu)能夠處理大量的數(shù)據(jù)流量,支持高速數(shù)據(jù)傳輸,并提供先進的網(wǎng)絡功能。
    的頭像 發(fā)表于 03-21 16:28 ?402次閱讀

    lwip stm407作為服務端 pc連接不上怎么解決?

    lwip stm407作為服務端 pc連接不上
    發(fā)表于 03-20 06:32

    交換芯片架構(gòu)設

    交換芯片架構(gòu)設計是網(wǎng)絡通信中的關鍵環(huán)節(jié),它決定了交換機的性能、功能和擴展性。
    的頭像 發(fā)表于 03-18 14:12 ?429次閱讀

    華為企業(yè)架構(gòu)設計方法及實例

    企業(yè)架構(gòu)是一項非常復雜的系統(tǒng)性工程。公司在充分繼承原有架構(gòu)方法基礎上,博采眾家之長,融合基于職能的業(yè)務能力分析與基于價值的流程分析,將”傳統(tǒng)
    發(fā)表于 01-30 09:40 ?711次閱讀
    華為企業(yè)<b class='flag-5'>架構(gòu)設</b>計方法及實例

    ?PLC從HTTP服務端獲取JSON文件,解析數(shù)據(jù)到寄存器

    智能網(wǎng)關IGT-DSER集成了多種PLC協(xié)議,方便實現(xiàn)各種PLC與HTTP服務端之間通訊。通過網(wǎng)關的參數(shù)配置軟件綁定JSON文件的字段與PLC寄存器地址,配置URL,即可采用POST命令,將JSON
    發(fā)表于 01-24 09:47

    PLC通過智能網(wǎng)關,與OPCUA服務端通訊,實現(xiàn)標簽數(shù)據(jù)讀寫

    是采用西門子S7-200 SMART通過IGT-DSER智能網(wǎng)關跟OPCUA的服務端之間通訊,以下是相關操作步驟。首先通過參數(shù)設置軟(在附件中)選擇功能與驅(qū)動類型,如下圖左邊功能選第三項,右邊的驅(qū)動選擇
    發(fā)表于 01-02 16:41

    汽車電子電氣架構(gòu)設計仿真解決方案

    本文將介紹面向服務(SOA)的汽車TSN網(wǎng)絡架構(gòu),并探討RTaW-Pegase仿真與設計軟件在TSN網(wǎng)絡設計中的應用。通過RTaW將設計問題分解,我們可以更好地理解汽車電子電氣架構(gòu)設計的過程。
    的頭像 發(fā)表于 11-13 15:08 ?1121次閱讀
    汽車電子電氣<b class='flag-5'>架構(gòu)設</b>計仿真解決方案

    Java SpringBoot項目:Node服務端搭建

    玩歸玩,鬧歸鬧,別拿 C 開玩笑!這里不推薦大家把 Node 服務作為 C 服務,畢竟它是單線程多任務 機制。這一特性是 Javascript 語言設計之初,就決定了它的使命 -
    的頭像 發(fā)表于 11-02 14:56 ?800次閱讀
    Java SpringBoot項目:Node<b class='flag-5'>服務端</b>搭建