3月1日,【虹科云課堂】數(shù)據(jù)管理與可視化解決方案第一期課程圓滿結(jié)束,感謝大家的觀看與支持。虹小科為大家整理了課后筆記,請(qǐng)查收
導(dǎo)語
虹科云課堂
企業(yè)應(yīng)用程序的運(yùn)行就像一輛行駛中的汽車,當(dāng)所有的組件都按照預(yù)期的方式工作時(shí),它就會(huì)出現(xiàn)速度與性能的完美結(jié)合。如果它其中的一個(gè)組件出現(xiàn)故障,應(yīng)用程序的運(yùn)行就會(huì)受到影響,就像汽車突然爆胎或者熄火一樣,業(yè)務(wù)的運(yùn)行就會(huì)不正常。比如說網(wǎng)站無法訪問、服務(wù)器因?yàn)樨?fù)載過高停機(jī)了、數(shù)據(jù)分析報(bào)告中數(shù)據(jù)集的輸出是錯(cuò)誤的,可能被人篡改了等等?,F(xiàn)如今大多數(shù)企業(yè)使用是不透明的數(shù)據(jù)解決方案,然而缺乏透明度會(huì)導(dǎo)致隱藏?cái)?shù)據(jù)問題,并可能影響數(shù)據(jù)質(zhì)量和應(yīng)用程序性能。
那么我們要怎么樣才能保證應(yīng)用程序正常運(yùn)行呢?當(dāng)然是在這些問題發(fā)生之前解決問題,也就是需要預(yù)測(cè)、預(yù)防問題的發(fā)生,那么我們應(yīng)該怎么做呢,答案就是使用使用多維的數(shù)據(jù)可觀察性解決方案。
以下是虹科云科技事業(yè)部技術(shù)工程師夏雨的直播報(bào)告:《什么是數(shù)據(jù)可觀察性》。
本文圍繞3部分展開
虹科云課堂
1、什么是數(shù)據(jù)可觀察性?
2、企業(yè)為什么需要數(shù)據(jù)可觀察性?
3、虹科數(shù)據(jù)可觀察性方案
01
什么是數(shù)據(jù)可觀察性
虹科云課堂
講概念之前說一下現(xiàn)代數(shù)據(jù)基礎(chǔ)設(shè)施存在的幾個(gè)問題,同時(shí)也是我們的產(chǎn)品能夠解決的問題,我們知道,所有企業(yè)都面臨著大量與數(shù)據(jù)相關(guān)的問題。一個(gè)常見的問題是,好的數(shù)據(jù)可能變成壞的。那是為什么呢?
首先,單個(gè)數(shù)據(jù)生態(tài)系統(tǒng)中的數(shù)據(jù)源越來越多。例如,在過去,使用基本的ETL或CDC工具將數(shù)據(jù)從數(shù)據(jù)庫攝取到數(shù)據(jù)倉庫,有時(shí)會(huì)對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換、清理和質(zhì)量測(cè)試。它被存儲(chǔ)并傳輸?shù)揭粋€(gè)簡(jiǎn)單的應(yīng)用程序,該應(yīng)用程序在數(shù)據(jù)上運(yùn)行一個(gè)例程,以生成一個(gè)報(bào)告或在儀表板中使用。但是現(xiàn)在,除了數(shù)據(jù)庫之外,數(shù)據(jù)還來自許多其他來源,包括api、文件、社交媒體、日志等,這使得攝取過程更加復(fù)雜。更重要的是,更多的數(shù)據(jù)是動(dòng)態(tài)的?,F(xiàn)代應(yīng)用程序可能使用事件數(shù)據(jù)(例如,客戶剛剛進(jìn)行査詢或開始購買),而不是使用數(shù)據(jù)庫中未更改的數(shù)據(jù)(例如,客戶的帳戶信息)。這種變化會(huì)影響數(shù)據(jù)轉(zhuǎn)換、存儲(chǔ)、交付和使用。并且在過去,沒有一種工具能夠看到數(shù)據(jù)管道的每個(gè)步驟,但是這些數(shù)據(jù)來源中的任何一個(gè)都可能以意想不到的方式發(fā)生變化,從數(shù)據(jù)創(chuàng)建攝取到最終使用的所有接觸點(diǎn)中,數(shù)據(jù)在其生命周期的不同步驟中被破壞、刪除或誤用的方式有很多。
數(shù)據(jù)質(zhì)量無法保證,那么數(shù)據(jù)團(tuán)隊(duì)就會(huì)花大量時(shí)間來處理數(shù)據(jù)的問題,而且不良數(shù)據(jù)可能會(huì)對(duì)公司產(chǎn)生重大的業(yè)務(wù)影響。質(zhì)量差的數(shù)據(jù)通常被認(rèn)為是運(yùn)營(yíng)混亂、分析不準(zhǔn)確和商業(yè)戰(zhàn)略構(gòu)思不周的根源。數(shù)據(jù)質(zhì)量問題可能導(dǎo)致的經(jīng)濟(jì)損失示例包括產(chǎn)品運(yùn)送到錯(cuò)誤的客戶地址時(shí)增加的費(fèi)用、由于錯(cuò)誤或不完整的客戶記錄而失去銷售機(jī)會(huì),以及因財(cái)務(wù)或監(jiān)管合規(guī)報(bào)告不當(dāng)而被罰款。
其次,因?yàn)閿?shù)據(jù)需要經(jīng)過復(fù)雜的轉(zhuǎn)換之后才能被處理,你正在從數(shù)百(或數(shù)千)個(gè)數(shù)據(jù)源中獲取數(shù)據(jù),這些數(shù)據(jù)源可能有也可能沒有 API,所有數(shù)據(jù)源都具有不同的數(shù)據(jù)模型,而且一個(gè)源系統(tǒng)中產(chǎn)生的數(shù)據(jù)可能為多個(gè)數(shù)據(jù)管道提供數(shù)據(jù),而這些管道可能為其他管道或依賴其輸出的應(yīng)用程序提供數(shù)據(jù)。當(dāng)數(shù)據(jù)從一個(gè)流程流向另一個(gè)流程時(shí),它會(huì)不斷地被轉(zhuǎn)換、構(gòu)建和聚合,以保證數(shù)據(jù)可用。還有系統(tǒng)使用的每種工具可能具有不同的格式來讀取和解釋數(shù)據(jù)。不同的工具也可能具有不同的字段值名稱或期望日志數(shù)據(jù)按特定順序排列等等。更糟糕的是,如果這些格式發(fā)生根本性的變化,那么就會(huì)導(dǎo)致下游失敗,如果代碼繼續(xù)運(yùn)行,可能產(chǎn)生不正確的結(jié)果,或者發(fā)生崩潰。這種崩潰通常會(huì)對(duì)下游系統(tǒng)產(chǎn)生級(jí)聯(lián)效應(yīng),或者說多米諾骨牌效應(yīng),它們會(huì)一個(gè)接著一個(gè)出現(xiàn)問題。
第三個(gè)問題是隨著企業(yè)轉(zhuǎn)型為數(shù)據(jù)驅(qū)動(dòng)的數(shù)字企業(yè),低質(zhì)量和不可靠數(shù)據(jù)的成本將飆升。數(shù)據(jù)將被要求支持更多的商業(yè)模式、內(nèi)部流程,并將推動(dòng)關(guān)鍵的商業(yè)決策。因此,對(duì)數(shù)據(jù)的訪問至關(guān)重要,確保數(shù)據(jù)的可靠性成為絕對(duì)關(guān)鍵的任務(wù)。傳統(tǒng)觀點(diǎn)認(rèn)為,數(shù)據(jù)質(zhì)量監(jiān)控工具是解決方案。所以,市場(chǎng)上充斥著這些解決方案。然而,隨著向分布式、以云為中心的數(shù)據(jù)基礎(chǔ)設(shè)施的轉(zhuǎn)變,數(shù)據(jù)質(zhì)量監(jiān)控工具迅速過時(shí)。它們是為前一代應(yīng)用程序環(huán)境而設(shè)計(jì)的,無法擴(kuò)展,管理起來太費(fèi)力,在診斷和修復(fù)數(shù)據(jù)質(zhì)量問題的根本原因方面太慢,也不可能去預(yù)測(cè)未發(fā)生的問題。在缺乏主動(dòng)確保數(shù)據(jù)可靠性的工具的情況下,隨著數(shù)據(jù)的供應(yīng),不良數(shù)據(jù)和不可靠數(shù)據(jù)的事件增加。數(shù)據(jù)質(zhì)量監(jiān)控工具及其被動(dòng)、手動(dòng)和幾十年不變的數(shù)據(jù)質(zhì)量方法無法應(yīng)對(duì)當(dāng)今數(shù)據(jù)高度分布、快速移動(dòng)甚至變化更快的環(huán)境。他們讓數(shù)據(jù)工程師和其他數(shù)據(jù)運(yùn)營(yíng)團(tuán)隊(duì)成員忙于日常排除故障,遭受應(yīng)接不暇的告警,無法滿足他們的 SLA。數(shù)據(jù)質(zhì)量和數(shù)據(jù)性能都受到影響,而數(shù)據(jù)成本則會(huì)失控。那么這個(gè)問題的解決方案是數(shù)據(jù)可觀察性,它采用全新的主動(dòng)方法來解決數(shù)據(jù)質(zhì)量問題,遠(yuǎn)遠(yuǎn)超出簡(jiǎn)單的數(shù)據(jù)監(jiān)控和警報(bào),降低確保數(shù)據(jù)可靠性的復(fù)雜性和成本。換句話說,它是對(duì)數(shù)據(jù)復(fù)雜性問題的系統(tǒng)解決方案。它跨應(yīng)用程序、數(shù)據(jù)和基礎(chǔ)架構(gòu)層監(jiān)控和關(guān)聯(lián)數(shù)據(jù)工作負(fù)載事件,以解決生產(chǎn)分析和 AI 工作負(fù)載中的問題。
最后一個(gè)就是數(shù)據(jù)管道日益復(fù)雜,數(shù)據(jù)的供應(yīng)和需求激增,數(shù)據(jù)處理的多個(gè)階段以及不同數(shù)據(jù)資產(chǎn)之間可能存在不可見的依賴關(guān)系,使數(shù)據(jù)管道變得非常復(fù)雜,用于移動(dòng)數(shù)據(jù)的技術(shù)變得更加復(fù)雜,導(dǎo)致團(tuán)隊(duì)無法了解數(shù)據(jù)的處理方式。除此此外,每增加一層復(fù)雜性,數(shù)據(jù)停機(jī)時(shí)間就會(huì)成倍增加,數(shù)據(jù)停機(jī)時(shí)間是指你的數(shù)據(jù)不完整、錯(cuò)誤、丟失或以其他方式不準(zhǔn)確的時(shí)間段。隨著數(shù)據(jù)的移動(dòng),錯(cuò)誤會(huì)不斷累積,而團(tuán)隊(duì)最終往往會(huì)得到不可靠的數(shù)據(jù)。數(shù)據(jù)停機(jī)導(dǎo)致的后果是不可估計(jì)的,會(huì)導(dǎo)致公司生產(chǎn)力下降,客戶體驗(yàn)感不佳,并且存在嚴(yán)重的合規(guī)性、財(cái)務(wù)和運(yùn)營(yíng)影響,可能會(huì)讓數(shù)據(jù)領(lǐng)導(dǎo)者措手不及,從而影響團(tuán)隊(duì)的投資回報(bào)率和公司的底線。
處理數(shù)據(jù)停機(jī)事件不僅浪費(fèi)寶貴的時(shí)間,而且使團(tuán)隊(duì)遠(yuǎn)離創(chuàng)收項(xiàng)目。數(shù)據(jù)工程團(tuán)隊(duì)沒有在構(gòu)建可以為客戶增加實(shí)質(zhì)性價(jià)值的新產(chǎn)品和服務(wù)上取得進(jìn)展,而是花時(shí)間調(diào)試和修復(fù)數(shù)據(jù)問題。對(duì)造成這些問題的原因缺乏了解只會(huì)讓事情變得更糟。
剛剛提到數(shù)據(jù)管道,這邊介紹一下,數(shù)據(jù)管道是從原始數(shù)據(jù)到目的地(通常是數(shù)據(jù)湖或倉庫)的過程。在整個(gè)過程中,將轉(zhuǎn)換邏輯應(yīng)用于數(shù)據(jù),以便為分析做好準(zhǔn)備,而在目的地,將對(duì)數(shù)據(jù)進(jìn)行分析,以獲得可操作的見解。最常見的數(shù)據(jù)管道形式采用批處理或?qū)崟r(shí)處理。
這里有一張數(shù)據(jù)管道的圖片可以看看,架構(gòu)師和數(shù)據(jù)工程師現(xiàn)在使用大量的工具來構(gòu)建數(shù)據(jù)管道:提取、加載和轉(zhuǎn)換(ELT-Extract, Load, Transform)工具、應(yīng)用程序編程接口(api)和事件流系統(tǒng),如Apache Kafka。它們從應(yīng)用程序、IT日志和物聯(lián)網(wǎng)傳感器或數(shù)據(jù)庫中獲取數(shù)據(jù),通常為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化和原始的數(shù)據(jù)。他們將首先收集這些數(shù)據(jù),然后進(jìn)行轉(zhuǎn)換、數(shù)據(jù)清洗,然后通過腳本把它存儲(chǔ)在數(shù)據(jù)倉庫、數(shù)據(jù)湖、NoSQL,甚至流媒體平臺(tái)中。這些數(shù)據(jù)也可能最后會(huì)被生成分析報(bào)告或者機(jī)器學(xué)習(xí)的模型或者把它進(jìn)行可視化展示到頁面上等等,這一系列的操作流程下來,就比較復(fù)雜了。而且你不能保證這一系列的流程其中的操作都是正確的,因?yàn)榭赡軘?shù)據(jù)之間存在著一些我們不可見的依賴關(guān)系,假如流程其中一個(gè)地方搞錯(cuò)了,或者其中一個(gè)數(shù)據(jù)不可靠,數(shù)據(jù)質(zhì)量出現(xiàn)問題,那么這個(gè)數(shù)據(jù)管道中的數(shù)據(jù)流就會(huì)受到影響,業(yè)務(wù)的運(yùn)行可能就會(huì)不正常。
現(xiàn)在,數(shù)據(jù)管道與 Spark 和 Kubernetes 等復(fù)雜工具結(jié)合運(yùn)行,允許數(shù)據(jù)團(tuán)隊(duì)在其數(shù)據(jù)堆棧的每一層選擇最佳平臺(tái),但所有這些引擎的組合使得難以了解不同部分的管道。此外,如果數(shù)據(jù)管道的一部分發(fā)生在黑匣子中,你知道輸入什么,知道輸出什么,但你不知道中間會(huì)發(fā)生什么。
數(shù)據(jù)運(yùn)營(yíng)(DataOps)工程師依靠標(biāo)準(zhǔn)工具來深入了解數(shù)據(jù)系統(tǒng),但他們往往無法獲得數(shù)據(jù)的業(yè)務(wù)上下文。由于了缺失的上下文,所以他們無法得到關(guān)于數(shù)據(jù)質(zhì)量問題和潛在原因的足夠信息。而且有研究表明,數(shù)據(jù)團(tuán)隊(duì)將 40% 以上的時(shí)間花在數(shù)據(jù)質(zhì)量問題上,而不是致力于為企業(yè)創(chuàng)造價(jià)值的活動(dòng)。收集和分析數(shù)據(jù)的目的是創(chuàng)造商業(yè)價(jià)值,但沒有管道可見性,錯(cuò)誤就會(huì)累積,商業(yè)價(jià)值就會(huì)被破壞。
那么應(yīng)該如何提高數(shù)據(jù)準(zhǔn)確性并防止管道中斷呢,解決以上問題的方法就是數(shù)據(jù)可觀察性,它是一種用于數(shù)據(jù)操作的方法和解決方案。指對(duì)數(shù)據(jù)、事件進(jìn)行觀察、監(jiān)控、跟蹤和分類以防止數(shù)據(jù)停機(jī)的方法。
企業(yè)應(yīng)用程序的可觀察性越高,就越容易確定影響它的任何問題的根本原因。隨著問題的確定和修復(fù),應(yīng)用程序變得更加可靠和高效,數(shù)據(jù)系統(tǒng)也會(huì)越穩(wěn)定。
數(shù)據(jù)可觀察性的工作原理是在數(shù)據(jù)流經(jīng)復(fù)雜的數(shù)據(jù)管道時(shí)監(jiān)控?cái)?shù)據(jù)、數(shù)據(jù)流程和數(shù)據(jù)源,在數(shù)據(jù)流入系統(tǒng)之前,數(shù)據(jù)團(tuán)隊(duì)會(huì)定義在數(shù)據(jù)、管道和基礎(chǔ)設(shè)施層面觀察指標(biāo)。當(dāng)數(shù)據(jù)流經(jīng)管道時(shí),數(shù)據(jù)可觀察性使用機(jī)器學(xué)習(xí)、高級(jí)分析和人工智能來監(jiān)測(cè)和關(guān)聯(lián)所有層的成千上萬的事件。它將數(shù)據(jù)和數(shù)據(jù)系統(tǒng)的當(dāng)前狀態(tài)與期望狀態(tài)進(jìn)行比較。當(dāng)沒有達(dá)到理想狀態(tài)時(shí),數(shù)據(jù)可觀察性技術(shù)會(huì)提供反饋,因此和數(shù)據(jù)團(tuán)隊(duì)可以重新獲得系統(tǒng)控制權(quán),以確保及時(shí)提供可信的數(shù)據(jù),滿足業(yè)務(wù)需求。
那么有沒有數(shù)據(jù)可觀察性到底有什么區(qū)別呢,打一個(gè)簡(jiǎn)單的比方,比如古代寄信的過程,你把信寄出去,可能他收到了信,然而你并不知道這個(gè)信它是怎么送到的,這個(gè)過程你是不可見的,就相當(dāng)于沒有數(shù)據(jù)可觀察性以前,數(shù)據(jù)的傳輸過程像在黑匣子里一樣不能被看到,但是現(xiàn)在你在網(wǎng)上買東西寄東西都是快遞的,你可以在手機(jī)上看到這個(gè)快遞的路線,經(jīng)過了哪里,有沒有順利到達(dá)目的地。那么現(xiàn)在的數(shù)據(jù)可觀察性和這個(gè)也是一樣的,可以理解為數(shù)據(jù)可觀察性提供數(shù)據(jù)管道中端到端的可見性,你可以跟蹤事件,讓你看見數(shù)據(jù)從應(yīng)用程序、服務(wù)器、數(shù)據(jù)庫經(jīng)過一些復(fù)雜的流程到數(shù)據(jù)湖、存儲(chǔ)的過程,工具結(jié)合技術(shù)可以讓我們能夠近乎實(shí)時(shí)地識(shí)別、排除故障和解決數(shù)據(jù)問題。
那么一個(gè)好的數(shù)據(jù)可觀察性工具應(yīng)該是怎么樣的呢?它應(yīng)該滿足這三個(gè)層面的需求,這三層分別代表了數(shù)據(jù)可觀察性能給不同職位的人提供的需求。首先是基礎(chǔ)設(shè)施層,對(duì)于平臺(tái)工程師、DevOps工程師和現(xiàn)場(chǎng)可靠性工程師來說,數(shù)據(jù)可觀察性工具可以讓他們看到基礎(chǔ)設(shè)施的可用性,比如CPU、內(nèi)存、存儲(chǔ)利用率,然后可以進(jìn)行性能分析,對(duì)系統(tǒng)進(jìn)行負(fù)載均衡處理,提高生產(chǎn)效率。其次是數(shù)據(jù)層,數(shù)據(jù)架構(gòu)師和數(shù)據(jù)工程師監(jiān)控需要監(jiān)控?cái)?shù)據(jù)庫和網(wǎng)絡(luò)應(yīng)用程序;比如Apache Spark和Apache Kafka,因?yàn)樗鼈優(yōu)楝F(xiàn)代數(shù)據(jù)和分析管道提供動(dòng)力,可觀察性工具就是可以幫助他們快速發(fā)現(xiàn)和解決問題。然后是應(yīng)用程序?qū)右部梢哉f是業(yè)務(wù)層,BI分析師、數(shù)據(jù)科學(xué)家和業(yè)務(wù)經(jīng)理需要理解性能問題的根源,傳統(tǒng)的應(yīng)用程序性能監(jiān)控(APM)工具可以識(shí)別應(yīng)用程序問題,但它們不能回答與數(shù)據(jù)相關(guān)的問題,但是數(shù)據(jù)可觀察性工具就可以解決與數(shù)據(jù)有關(guān)的問題。這三層的數(shù)據(jù)它都可以進(jìn)行監(jiān)控。
接下來看一下數(shù)據(jù)可觀察性的構(gòu)成,為了保證數(shù)據(jù)可觀察性工具是有效的,它需要具有以下功能特性:
首先是監(jiān)控, 它需要提供管道或系統(tǒng)操作視圖的儀表板,就是提供一個(gè)UI界面控制臺(tái)讓你能掌握數(shù)據(jù)動(dòng)態(tài)。
然后第二個(gè)是警報(bào),當(dāng)你的應(yīng)用程序運(yùn)行不穩(wěn)定、服務(wù)器負(fù)載過高或者出現(xiàn)其他故障或異常時(shí),它會(huì)通過一些方式去給你告警。能夠讓你及時(shí)處理,當(dāng)然,它也能根據(jù)你這個(gè)警報(bào)的級(jí)別去通知,級(jí)別比較低的問題它會(huì)自動(dòng)幫你處理。
第三個(gè)是跟蹤,你可以設(shè)置和跟蹤特定的事件,它就會(huì)被標(biāo)記,然后你就能看它的運(yùn)行流程。跟蹤顯示了應(yīng)用程序的不同部分如何執(zhí)行它們的工作。跟蹤還顯示可能發(fā)生潛在問題的位置。
第四個(gè)是比較,就是說它會(huì)比較這個(gè)應(yīng)用程序或者這個(gè)業(yè)務(wù)它運(yùn)行的周期,隨著時(shí)間的推移進(jìn)行監(jiān)控比較,顯示出它的一個(gè)變化趨勢(shì),如果今天的時(shí)間比昨天多4倍,那可能你的系統(tǒng)哪里出現(xiàn)問題,那么它就發(fā)送異常警報(bào),并且?guī)湍泐A(yù)測(cè)問題可能會(huì)出現(xiàn)在哪里。
第五個(gè)是分析,它會(huì)自適應(yīng)企業(yè)的數(shù)據(jù)管道,和數(shù)據(jù)健康狀況進(jìn)行自動(dòng)檢查,它有自己的一些規(guī)則去判斷數(shù)據(jù)質(zhì)量,你也可以設(shè)定自定義的規(guī)則去判斷數(shù)據(jù)是否正確。
然后是日志記錄,一個(gè)優(yōu)秀的日志事件可以讓我們排除問題變得事半功倍,數(shù)據(jù)可觀察性平臺(tái)會(huì)以標(biāo)準(zhǔn)化的格式記錄事件,以后萬一系統(tǒng)出現(xiàn)什么故障,你可以查看日志文件以便更快解決問題。
最后是SLA跟蹤,它可以根據(jù)你預(yù)定義的標(biāo)準(zhǔn)去衡量數(shù)據(jù)質(zhì)量和管道元數(shù)據(jù),就會(huì)比較方便我們判斷這個(gè)服務(wù)是否達(dá)到SLA級(jí)別標(biāo)準(zhǔn)。
這個(gè)圖片很形象的展示應(yīng)用性能監(jiān)測(cè)(APM)與數(shù)據(jù)可觀察性的區(qū)別。APM就像他的名字一樣只限于監(jiān)控應(yīng)用程序?qū)?,而?shù)據(jù)可觀察性將監(jiān)控功能一直延伸到數(shù)據(jù)和基礎(chǔ)設(shè)施層。
數(shù)據(jù)可觀察性可以通過預(yù)測(cè)、識(shí)別、確定問題處理的優(yōu)先級(jí)并幫助解決數(shù)據(jù)質(zhì)量問題來減少數(shù)據(jù)停機(jī)時(shí)間。并且它可以改進(jìn)對(duì)數(shù)據(jù)管道的控制,創(chuàng)建更好的 SLA,并為數(shù)據(jù)團(tuán)隊(duì)提供了預(yù)測(cè)建議,這些建議可用于做出更好的數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)決策。數(shù)據(jù)可觀察性解決方案在兩個(gè)方面提供了優(yōu)于 APM 工具的明顯優(yōu)勢(shì):
首先它有更好的數(shù)據(jù)層可觀察性,可以讓數(shù)據(jù)運(yùn)營(yíng)(DataOps)團(tuán)隊(duì)可以更好地控制數(shù)據(jù)管道。
其次是它有改進(jìn)的基礎(chǔ)設(shè)施層可觀察性,可以讓信息技術(shù)運(yùn)營(yíng)(ITOps )團(tuán)隊(duì)可以更好地控制基礎(chǔ)設(shè)施資源。
企業(yè)為什么需要數(shù)據(jù)可觀察性
虹科云課堂
02
對(duì)于基礎(chǔ)設(shè)施層,數(shù)據(jù)可觀察性工具可以幫助DevOps工程師進(jìn)行性能管理、基礎(chǔ)設(shè)施精簡(jiǎn)和容量規(guī)劃。借助高端數(shù)據(jù)可觀察性平臺(tái),ITOps (信息技術(shù)運(yùn)營(yíng))團(tuán)隊(duì)可以在 APM 無法提供的粒度級(jí)別上監(jiān)控關(guān)鍵基礎(chǔ)設(shè)施層指標(biāo),例如內(nèi)存可用性、CPU 存儲(chǔ)消耗和集群節(jié)點(diǎn)狀態(tài),因此數(shù)據(jù)可觀察性工具可以比任何其他類型的解決方案更快地排除故障并解決數(shù)據(jù)擁塞和中斷問題。同時(shí)也可以通過查看生成的數(shù)據(jù),優(yōu)化基礎(chǔ)設(shè)施,幫助你降低基礎(chǔ)設(shè)施成本。例如,通過識(shí)別瓶頸來減少過度配置或提高效率和吞吐量。
對(duì)于數(shù)據(jù)層,數(shù)據(jù)可觀察性可幫助數(shù)據(jù)團(tuán)隊(duì)管理管道性能和數(shù)據(jù)質(zhì)量,并隨著時(shí)間的推移提高體系結(jié)構(gòu)效率和有效性。DataOps (數(shù)據(jù)運(yùn)營(yíng))團(tuán)隊(duì)可以通過自動(dòng)檢查數(shù)據(jù)傳輸?shù)臏?zhǔn)確性、完整性和一致性來確保高質(zhì)量的數(shù)據(jù)標(biāo)準(zhǔn)。這些質(zhì)量檢查將構(gòu)建更健康的數(shù)據(jù)管道。數(shù)據(jù)工程師可以自動(dòng)收集數(shù)千個(gè)管道事件,將它們關(guān)聯(lián)起來,識(shí)別異?;蚍逯?,并使用這些信息來預(yù)測(cè)、預(yù)防、排除故障和修復(fù)問題。
對(duì)于應(yīng)用程序?qū)樱?span style="color:rgb(196,0,0);">業(yè)務(wù)負(fù)責(zé)人可以與 BI 分析師合作,創(chuàng)建準(zhǔn)確的容量估計(jì)以及滿足業(yè)務(wù)目標(biāo)需求的更明智的 SLA(服務(wù)級(jí)別協(xié)議),提高最終用戶滿意度:通過減少發(fā)現(xiàn)問題的時(shí)間、改進(jìn)的應(yīng)用程序正常運(yùn)行時(shí)間和性能,將減少客戶流失、提高回報(bào)率,同時(shí)也可以做成本效益分析和戰(zhàn)略決策。
03
虹科數(shù)據(jù)可觀察性解決方案
虹科云課堂
接下來介紹一下我們虹科的數(shù)據(jù)可觀察性解決方案,它是一個(gè)由三部分產(chǎn)品組成的集成套件,為當(dāng)今復(fù)雜的數(shù)據(jù)操作提供全面的可見性、控制和優(yōu)化功能。作為中立的多平臺(tái)數(shù)據(jù)可觀察性解決方案,我們的方案可以使數(shù)據(jù)運(yùn)營(yíng)團(tuán)隊(duì)能夠從單個(gè)控制臺(tái)有效地管理其整個(gè)數(shù)據(jù)基礎(chǔ)架構(gòu),最大限度地提高數(shù)據(jù)工程團(tuán)隊(duì)的生產(chǎn)力,以及數(shù)據(jù)模型和分析應(yīng)用程序的性能和正常運(yùn)行時(shí)間。其機(jī)器學(xué)習(xí)功能可幫助企業(yè)預(yù)測(cè)和預(yù)防其數(shù)據(jù)管道的潛在問題,最大限度地減少停機(jī)時(shí)間并使其能夠滿足其 SLA/SLO。
解決方案包括三個(gè)產(chǎn)品:Pulse、Torch、Flow。Pulse 用于監(jiān)控實(shí)時(shí)計(jì)算性能和基礎(chǔ)設(shè)施使用情況,而 Torch和Flow 通過幫助可視化數(shù)據(jù)管道來提供數(shù)據(jù)可靠性和質(zhì)量。我們的產(chǎn)品了提供數(shù)據(jù)可觀察性的企業(yè)解決方案。
pulse是一個(gè)數(shù)據(jù)可觀察性工具,用來監(jiān)控?cái)?shù)據(jù)處理性能,預(yù)防問題發(fā)生,擴(kuò)展規(guī)模,優(yōu)化資源;為混合數(shù)據(jù)環(huán)境和由多種技術(shù)組成的管道提供全面的可見性。它觀察混合數(shù)據(jù)環(huán)境,優(yōu)化數(shù)據(jù)系統(tǒng)的可靠性、性能和成本。它的關(guān)鍵詞是基礎(chǔ)設(shè)施、服務(wù)、日志、指標(biāo)和警報(bào)。
Torch在數(shù)據(jù)層進(jìn)行數(shù)據(jù)管理,保證數(shù)據(jù)可靠性,發(fā)現(xiàn)數(shù)據(jù)及優(yōu)化數(shù)據(jù)。通過數(shù)據(jù)管道觀察數(shù)據(jù)流,優(yōu)化數(shù)據(jù)的可靠性、質(zhì)量和使用,它的關(guān)鍵詞是機(jī)器學(xué)習(xí)模型、算法、數(shù)據(jù)質(zhì)量、可靠性、SQL 等等。
Flow在業(yè)務(wù)層提供數(shù)據(jù)管道可視化,可以用來做進(jìn)程管理、成本效益分析、決策設(shè)計(jì)等。它的關(guān)鍵詞是管道、ETL 管道、計(jì)算、成本、SLA 等內(nèi)容。
最后我們看一下產(chǎn)品的應(yīng)用案例,Phonepe是沃爾瑪旗下一家大型的移動(dòng)支付公司,相當(dāng)于印度的支付寶,它的用戶是全印度3.5億多消費(fèi)者。Phonepe使用各種開源數(shù)據(jù)技術(shù)去讓數(shù)以億計(jì)的用戶去實(shí)現(xiàn)實(shí)時(shí)支付和現(xiàn)金轉(zhuǎn)移,使用的技術(shù)比如HBase、HDFS、Kfaka、Spark等等,但是當(dāng)計(jì)算量達(dá)到一定級(jí)別或并發(fā)數(shù)達(dá)到一定級(jí)別后,這種架構(gòu)的 CPU與磁盤子系統(tǒng)會(huì)容易出現(xiàn)瓶頸,它的基礎(chǔ)設(shè)施的性能無法跟上快速擴(kuò)展的業(yè)務(wù)需求,用戶體驗(yàn)就是用這個(gè)軟件會(huì)很卡,甚至無法使用,那么我們的產(chǎn)品是怎么樣解決這些問題的呢?
我們的產(chǎn)品為 phonepe的 Hbase、Hive和 Spark數(shù)據(jù)管道帯來了實(shí)時(shí)可視性,使 phonepe的工程師能夠從單個(gè)應(yīng)用程序監(jiān)控其整個(gè)數(shù)據(jù)基礎(chǔ)架構(gòu)。 phonepe的數(shù)據(jù)可靠性團(tuán)隊(duì)能夠使用 Pulse來監(jiān)控其現(xiàn)代數(shù)據(jù)基礎(chǔ)設(shè)施的性能,以便能夠輕松區(qū)分基礎(chǔ)設(shè)施問題造成的變化。通過提高性能密集型數(shù)據(jù)工作負(fù)載計(jì)算性能的可視性, phonepe顯著提高了可靠性。最終這個(gè)公司己經(jīng)能夠?qū)⑵鋽?shù)據(jù)基礎(chǔ)設(shè)施順利増長(zhǎng)20倍,從70個(gè)節(jié)點(diǎn)増加到2000多個(gè)節(jié)點(diǎn),同時(shí)在其 Hadoop數(shù)據(jù)池中保持99.9%的可用性。Phonepe將企業(yè)數(shù)據(jù)倉庫處理時(shí)間從11.5小時(shí)縮短到6.5小時(shí),還消除了計(jì)劃外停機(jī),并實(shí)現(xiàn)了99%以上的報(bào)告自動(dòng)化。幫助這個(gè)公司降低數(shù)據(jù)倉庫的成本,節(jié)省軟件許可證費(fèi)用等等。可以說我們的產(chǎn)品效果顯著,立竿見影。
云科技事業(yè)部
虹科電子
虹科在工業(yè)、制造業(yè)領(lǐng)域深耕了長(zhǎng)達(dá)20年,隨著云技術(shù)的全面發(fā)展和數(shù)字化工廠的逐步落地,虹科參與了越來越多的云主題的業(yè)務(wù),從最初的所有數(shù)據(jù)先統(tǒng)一采集上云,到后續(xù)的邊緣計(jì)算再上云,到現(xiàn)在的全面業(yè)務(wù)優(yōu)化、洞察研究、成本優(yōu)化等,虹科的云科技事業(yè)部已經(jīng)為行業(yè)的用戶實(shí)操并積累了豐富的解決方案和應(yīng)用場(chǎng)景。它們包括:資源監(jiān)控、安全保障、多云的互聯(lián)互通、應(yīng)用和數(shù)據(jù)牽引等。虹科云科技團(tuán)隊(duì)在不斷順應(yīng)國(guó)家策略,從技術(shù)創(chuàng)新、標(biāo)準(zhǔn)制定、豐富生態(tài)、安全保障、節(jié)能減排等五個(gè)方面,不斷創(chuàng)造出更好的產(chǎn)品,幫助工業(yè)制造業(yè)的用戶實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型、實(shí)現(xiàn)基于數(shù)據(jù)的降本增效。
虹科云科技工程師團(tuán)隊(duì)不斷參與美國(guó)和歐洲產(chǎn)業(yè)內(nèi)先進(jìn)的專家培訓(xùn),學(xué)習(xí)和實(shí)踐創(chuàng)新的技術(shù)手段、操作性強(qiáng)的應(yīng)用案例,并不斷引入到國(guó)內(nèi)的項(xiàng)目中完成落地和推廣,這讓我們團(tuán)隊(duì)充滿了自豪感與使命感,賦予了我們當(dāng)今時(shí)代極大的技術(shù)價(jià)值、工作成就感。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
6837瀏覽量
88754
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論