上周,【虹科云課堂】數(shù)據(jù)管理與可視化解決方案前兩期課程圓滿結(jié)束,感謝大家的觀看與支持。虹小科為大家整理了課后筆記,本篇文章為第二次直播課后筆記,請查收。
導(dǎo)語
上周二我們已經(jīng)了解了什么是數(shù)據(jù)可觀察性,它能夠在混合多云環(huán)境中提供端到端的可觀察性的解決方案,數(shù)據(jù)可觀察性可以將現(xiàn)代數(shù)據(jù)系統(tǒng)的數(shù)據(jù)、計(jì)算和管道層中的事件關(guān)聯(lián)起來,以提供對(duì)企業(yè)數(shù)據(jù)管道的健康和可靠性的全面可見性。
Datadog 和 New Relic 等應(yīng)用程序性能管理 (APM) 工具為開發(fā)人員提供了基礎(chǔ)設(shè)施問題的透明度。在 APM 工具出現(xiàn)之前,只有管理員負(fù)責(zé)處理性能問題。
然而數(shù)據(jù)可觀察性可以說是建立在APM的基礎(chǔ)之上的,是由APM演變過來的,它的重點(diǎn)是開發(fā)數(shù)據(jù)的多維視圖,包括性能、質(zhì)量及其對(duì)堆棧其他組件的影響。數(shù)據(jù)可觀察性的總體目標(biāo)是查看數(shù)據(jù)對(duì)業(yè)務(wù)需求和目標(biāo)的支持程度。
最后一個(gè)是它如何幫助企業(yè)降本增效?
那我們先不說答案,把文章看完,你就明白了,最后我們會(huì)總結(jié)這個(gè)問題的答案。
本文圍繞3部分展開
1、Pulse產(chǎn)品介紹
2、Pulse介紹功能詳解
(數(shù)據(jù)可觀察性具體概念可見3月1日直播)
01 Pulse產(chǎn)品介紹
首先來看一下產(chǎn)品介紹,這里列舉了一些企業(yè)平時(shí)可能會(huì)遇到的問題,第一個(gè)是數(shù)據(jù)系統(tǒng)可能會(huì)發(fā)生意外的中斷或減速,系統(tǒng)的不穩(wěn)定導(dǎo)致了耗時(shí)的操作問題和日常運(yùn)維排錯(cuò),同時(shí)也會(huì)對(duì)業(yè)務(wù)產(chǎn)生影響,這種操作問題可能會(huì)導(dǎo)致開發(fā)人員效率低下,項(xiàng)目進(jìn)度會(huì)被嚴(yán)重影響。
第三個(gè)就是企業(yè)中需要大量的計(jì)算節(jié)點(diǎn),在大規(guī)模高訪問量業(yè)務(wù)下現(xiàn)有的數(shù)據(jù)系統(tǒng)性能無法跟上其快速擴(kuò)展的業(yè)務(wù)需求,當(dāng)業(yè)務(wù)訪問處于高峰期時(shí),系統(tǒng)負(fù)載過高,訪問速度慢,甚至服務(wù)器可能會(huì)崩潰,企業(yè)會(huì)經(jīng)歷比較長的(MTTR)平均修復(fù)時(shí)間、頻繁的中斷和性能瓶頸。
第四個(gè)就是不良的數(shù)據(jù)導(dǎo)致企業(yè)收入降低。在過去的一年中,大概有五分之一的公司因數(shù)據(jù)不良而失去收入和客戶。比如保險(xiǎn)行業(yè),與 10 年甚至 5 年前相比,保險(xiǎn)公司正在通過越來越多的關(guān)鍵工作流獲取越來越多的第三方數(shù)據(jù)。第三方數(shù)據(jù)(即保單索賠、財(cái)務(wù)信息和 PPI)通常是手動(dòng)匯總的,增加了錯(cuò)誤的可能性。對(duì)于保險(xiǎn)業(yè)而言,丟失或錯(cuò)誤的數(shù)據(jù)可能會(huì)對(duì)業(yè)務(wù)產(chǎn)生重大影響,導(dǎo)致收入損失、業(yè)務(wù)決策失誤以及缺乏客戶信任。
最后一個(gè)就是公司有限的人才和技術(shù)資源來處理日益復(fù)雜的快速變化的技術(shù)。公司創(chuàng)建了數(shù)據(jù)運(yùn)營團(tuán)隊(duì),并迅速為他們配備了數(shù)據(jù)架構(gòu)師、數(shù)據(jù)工程師、數(shù)據(jù)管理員等。然而,為了在保持?jǐn)?shù)據(jù)流動(dòng)的同時(shí)獲得對(duì)快速增長的數(shù)據(jù)基礎(chǔ)設(shè)施的控制權(quán),大多數(shù)企業(yè)數(shù)據(jù)運(yùn)營團(tuán)隊(duì)對(duì)手頭的管理工具做出了隨意的選擇,比如選擇數(shù)據(jù)監(jiān)控工具或APM或者混著用免費(fèi)的開源工具,但問題是技術(shù)發(fā)展如此之快,業(yè)務(wù)需求變化如此之快,管理如此多的工具浪費(fèi)時(shí)間而效率低下,并且用警報(bào)轟炸管理人員,卻沒有提供提前解決潛在問題的方法。
那么,面對(duì)這些問題,我們推出pulse這個(gè)產(chǎn)品,Pulse 是一種數(shù)據(jù)可觀察性和計(jì)算性能監(jiān)控工具。它能夠提高跨混合數(shù)據(jù)湖和倉庫的企業(yè)分析和人工智能系統(tǒng)的可見性。Pulse將來自混合系統(tǒng)的信息整理成一個(gè)整體視圖,使數(shù)據(jù)團(tuán)隊(duì)能夠?qū)栴}作出快速反應(yīng),預(yù)測和預(yù)防未來的問題,避免重新處理數(shù)據(jù),優(yōu)化現(xiàn)有資源,快速擴(kuò)展,并有效管理成本。改善數(shù)據(jù)處理的可靠性、規(guī)模和成本。
當(dāng)通過管道的數(shù)據(jù)流受到破壞時(shí),它會(huì)阻止用戶獲取所需信息,從而導(dǎo)致根據(jù)不完整或不正確的信息做出決策。同時(shí)在各種云平臺(tái)、技術(shù)和應(yīng)用程序之間監(jiān)控?cái)?shù)據(jù)流對(duì)組織來說是一項(xiàng)重大挑戰(zhàn)。為了在性能問題對(duì)業(yè)務(wù)產(chǎn)生負(fù)面影響之前識(shí)別和解決它們,組織需要能夠提供管道宏觀視圖的數(shù)據(jù)可靠性工具。那么pulse就是這種工具,它提供全面、實(shí)時(shí)且可操作的策略,它使用外部輸出了對(duì)系統(tǒng)內(nèi)部狀態(tài)的度量。通過一個(gè)用戶友好的UI界面就可以看到端到端的管道,這使管理人員能夠看到問題發(fā)生在哪里,影響到什么,以及問題來自哪里。
那么是誰在用Pulse呢?
Pulse 為開發(fā)人員、數(shù)據(jù)科學(xué)家和運(yùn)營人員提供關(guān)于數(shù)據(jù)的集成可見。Pulse將跨基礎(chǔ)設(shè)施、應(yīng)用程序和數(shù)據(jù)層的事件關(guān)聯(lián)起來,并且在一個(gè)單一的儀表板管理界面就能綜合多個(gè)層次和工作負(fù)載的信號(hào),以提供對(duì)單個(gè)組件、數(shù)據(jù)管道和系統(tǒng)性能的全面了解。這種方法可以幫助眾多團(tuán)隊(duì)通過預(yù)測、識(shí)別和修復(fù)數(shù)據(jù)問題來確??煽啃?。
現(xiàn)在都說企業(yè)要實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型,成為數(shù)據(jù)驅(qū)動(dòng)的公司,那獲得良好的數(shù)據(jù)是第一步,比如說銀行保險(xiǎn)業(yè)要數(shù)字化轉(zhuǎn)型,但是可能會(huì)遇到與傳統(tǒng)經(jīng)營管理方式的新型風(fēng)險(xiǎn),比如數(shù)據(jù)安全、網(wǎng)絡(luò)安全、隱私保護(hù)和數(shù)據(jù)合規(guī)使用等等,面對(duì)這些數(shù)據(jù)問題,這時(shí)候就需要pulse了,它能加速企業(yè)數(shù)字化轉(zhuǎn)型,提高數(shù)據(jù)系統(tǒng)的可靠性、可擴(kuò)展性和恢復(fù)能力。
預(yù)測和預(yù)防問題,pulse可以識(shí)別數(shù)據(jù)問題的早期預(yù)警跡象,快速查明根本原因,并自動(dòng)化預(yù)防性維護(hù),以避免業(yè)務(wù)中斷,加快云遷移和性能驗(yàn)證,將新技術(shù)采用率提高50%,滿足SLA,減少M(fèi)TTR,增加新的MTBF(平均無故障時(shí)間)指標(biāo),會(huì)以周和月為單位。
接下來我們看一下它的特點(diǎn):首先它可以實(shí)時(shí)監(jiān)控和分析數(shù)百個(gè)作業(yè)以找出異常值。Pulse與所有現(xiàn)代數(shù)據(jù)系統(tǒng)集成,包括 Amazon EMR,Redshift, Apache HBase, Hive,Spark等等,收集每個(gè)軟件平臺(tái)對(duì)應(yīng)的指標(biāo)進(jìn)行趨勢分析和異常檢測。
第二個(gè)是它使用整個(gè)應(yīng)用程序歷史記錄有效地調(diào)試應(yīng)用程序,這就是相當(dāng)我們寫代碼遇到錯(cuò)誤去調(diào)試代碼一樣的,它根據(jù)應(yīng)用程序正確運(yùn)行時(shí)的歷史記錄、日志什么通過比較去排除問題出現(xiàn)在哪里。
第三個(gè)是消除計(jì)劃外停機(jī),減少平均修復(fù)時(shí)間(MTTR),pulse能減少問題的發(fā)生,因?yàn)樗軐?shí)時(shí)監(jiān)控和分析應(yīng)用程序的運(yùn)行,自然就可以在問題發(fā)生之前及時(shí)去解決異常和通知告警,然后就可以減少M(fèi)TTR。
第四特點(diǎn)是接收符合系統(tǒng)需求的建議,pulse能夠讓客戶去自定義一些標(biāo)準(zhǔn)規(guī)則,并且判斷這些規(guī)則是否能讓系統(tǒng)性能更好。
第五個(gè)特點(diǎn)是本地集成到數(shù)據(jù)引擎中提取數(shù)據(jù),pulse與各種平臺(tái)的原生功能集成,以優(yōu)化這些平臺(tái)內(nèi)的數(shù)據(jù)流程。它與各種數(shù)據(jù)庫引擎原生集成并生成基于原生 SQL 的指令,然后將這些指令下推到處理引擎以在數(shù)據(jù)庫中執(zhí)行。
第六個(gè)特點(diǎn)是基于Javascript的儀表盤來管理數(shù)據(jù)系統(tǒng),使用統(tǒng)一的控制臺(tái)去管理來自多個(gè)應(yīng)用程序和環(huán)境的不同來源的信息,它為管理層提供了對(duì)關(guān)鍵 IT 績效指標(biāo)和指標(biāo)的可見性,以調(diào)整業(yè)務(wù)目標(biāo)并將運(yùn)營指標(biāo)與業(yè)務(wù)優(yōu)先級(jí)聯(lián)系起來。
接下來看一下pulse的應(yīng)用場景:
第一個(gè)是屬于電信、金融服務(wù)、能源、物聯(lián)網(wǎng)、電子商務(wù)行業(yè)和任何依賴大量靜止數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)以滿足運(yùn)營和分析需求的企業(yè)。
如今,數(shù)據(jù)在端點(diǎn)和金融服務(wù)架構(gòu)的核心基礎(chǔ)設(shè)施中都以指數(shù)速度增長。隨著網(wǎng)絡(luò)托管轉(zhuǎn)移到云或邊緣點(diǎn),生成的數(shù)據(jù)量將增加 4-5 倍,并且隨著微服務(wù)組件各自創(chuàng)建自己的數(shù)據(jù)而變得更加復(fù)雜。現(xiàn)有技術(shù)已經(jīng)逐漸無法提供即時(shí)快速的響應(yīng)的。如果沒有適合的監(jiān)控系統(tǒng),事件會(huì)在更長的時(shí)間內(nèi)未被發(fā)現(xiàn)和解決,如果不能快速響應(yīng),將會(huì)導(dǎo)致客戶流失,所以十分需要一種技術(shù)工具來幫助監(jiān)控企業(yè)數(shù)據(jù)系統(tǒng)并解決出現(xiàn)的任何問題。
數(shù)據(jù)可觀察性不僅能保證良好的客戶體驗(yàn),同時(shí)它也能讓CFO財(cái)務(wù)總監(jiān)實(shí)時(shí)訪問財(cái)務(wù)數(shù)據(jù)和高級(jí)分析,提供對(duì)關(guān)鍵數(shù)據(jù)的持續(xù)和不間斷的訪問,因?yàn)樗菢I(yè)務(wù)決策者,數(shù)據(jù)驅(qū)動(dòng)的決策對(duì)于任何企業(yè)的成功都是不可或缺的,因此有必要能夠觀察系統(tǒng)中任何地方發(fā)生的事情,無論其架構(gòu)多么復(fù)雜。
所有公司都可以使用數(shù)據(jù)可觀察性,無論其數(shù)字或數(shù)據(jù)能力如何。與特定于供應(yīng)商的解決方案不同,數(shù)據(jù)可觀察性建立在與技術(shù)無關(guān)的原則之上。而且一種良好的數(shù)據(jù)可觀察性方法實(shí)際上將使用機(jī)器學(xué)習(xí)和自動(dòng)化,通過消除手動(dòng)驗(yàn)證數(shù)據(jù)的需要,使您的公司更容易訪問和擴(kuò)展可靠的數(shù)據(jù)。
第二個(gè)是擁有過30TB+的數(shù)據(jù)和500核的處理能力的公司。
第三個(gè)是希望采用和擴(kuò)展先進(jìn)的開源數(shù)據(jù)技術(shù)的組織。
接著看一下pulse的整體架構(gòu)。Pulse 從各種系統(tǒng)收集日志、存儲(chǔ)它們,并在統(tǒng)一的管理平臺(tái)顯示洞察和分析。代理運(yùn)行不同的平臺(tái),例如 Spark、Hive、Tez 或 HBase。對(duì)于每個(gè)平臺(tái),Pulse 會(huì)收集多個(gè)指標(biāo)。例如,為Spark收集Yarn 指標(biāo),為Hive收集時(shí)間序列數(shù)據(jù),為Tez收集App 數(shù)據(jù)。收集這些指標(biāo)利用AI進(jìn)行趨勢分析和異常檢測,成功的異常檢測依賴于對(duì)時(shí)間序列數(shù)據(jù)的分析,這些數(shù)據(jù)由一系列隨時(shí)間變化的值組成,并且實(shí)時(shí)、準(zhǔn)確。由于時(shí)間序列數(shù)據(jù)包含可用于對(duì)未來進(jìn)行有根據(jù)的猜測的信息,異常檢測系統(tǒng)使用這些信息來發(fā)現(xiàn)異常并發(fā)出警報(bào)。時(shí)間序列數(shù)據(jù)異常檢測還可用于以下指標(biāo):網(wǎng)頁瀏覽量、每日活躍用戶、移動(dòng)應(yīng)用安裝、每個(gè)潛在客戶成本等等。了解異常檢測系統(tǒng)可以識(shí)別的異常值類型對(duì)于從生成的分析中獲得最大價(jià)值至關(guān)重要。一旦您的異常檢測系統(tǒng)提醒您存在問題或機(jī)會(huì),你就可以做出正確的決定。
將來自指標(biāo)的數(shù)據(jù)收集在以下三個(gè)服務(wù)之一中,例如數(shù)據(jù)庫、時(shí)序數(shù)據(jù)或日志索引,并通過 docker 容器進(jìn)行部署。
02 Pulse功能詳解
總結(jié)一下pulse的關(guān)鍵功能,首先它可以監(jiān)控實(shí)時(shí)的數(shù)據(jù),通過創(chuàng)建警報(bào)來監(jiān)控基礎(chǔ)設(shè)施組件的關(guān)鍵模塊,例如 CPU、內(nèi)存、數(shù)據(jù)庫運(yùn)行狀況和 HDFS,使數(shù)據(jù)和基礎(chǔ)設(shè)施層更易于觀察。在組織內(nèi)的各個(gè)級(jí)別實(shí)現(xiàn)實(shí)時(shí)決策。
第三個(gè)是它能加速數(shù)據(jù)的消耗,優(yōu)化查詢和算法性能,識(shí)別瓶頸和多余的開銷,它還可以幫助數(shù)據(jù)團(tuán)隊(duì)提高數(shù)據(jù)管道的可靠性、優(yōu)化 HDFS 性能、整合 Kafka 集群并降低總體數(shù)據(jù)成本。
第四個(gè)是它可以優(yōu)化數(shù)據(jù)操作、容量和數(shù)據(jù)工程,將部署配置和資源與業(yè)務(wù)需求對(duì)齊,監(jiān)控和預(yù)測共享資源的成本,并以對(duì)數(shù)據(jù)使用和熱點(diǎn)的深度可見性管理管道數(shù)據(jù)流。
第五個(gè)是它可以與很多關(guān)鍵數(shù)據(jù)系統(tǒng)集成,可以輕松地連接到 Databricks、Spark、Kafka、Hadoop以及其他流行的開源發(fā)行版、數(shù)據(jù)倉庫、查詢引擎和云平臺(tái)。
Pulse與底層數(shù)據(jù)庫系統(tǒng)集成,通過特定的技術(shù)連接器收集來自基礎(chǔ)設(shè)施、應(yīng)用程序和數(shù)據(jù)層的數(shù)據(jù),并將其存儲(chǔ)在其特定領(lǐng)域的數(shù)據(jù)存儲(chǔ)中。然后,實(shí)時(shí)操作數(shù)據(jù)通過專有的Pulse Dashplots進(jìn)行可視化,它能將所有層的數(shù)據(jù)元素集中起來,用于操作監(jiān)控。它還簡化了對(duì)你的性能指標(biāo)進(jìn)行深入了解的過程,如查詢次數(shù)、復(fù)制狀態(tài)、內(nèi)存使用、合并操作等。最重要的是,這個(gè)集成具有對(duì)警報(bào)、日志集成的自動(dòng)操作等全生命周期的支持。
03 數(shù)據(jù)可觀察性是如何幫助企業(yè)降本增效
回顧直播開頭,我們留下了一個(gè)問題,數(shù)據(jù)可觀察性是如何幫助企業(yè)降本增效呢?相信大家現(xiàn)在已經(jīng)有了答案。那我在這里總結(jié)了一下:第一個(gè)它幫助系統(tǒng)是消除計(jì)劃外停機(jī),能夠預(yù)測和預(yù)防sev 1級(jí)別的問題,它能自動(dòng)化預(yù)防性維護(hù)、性能調(diào)整和問題修復(fù),減少了整個(gè)系統(tǒng)維護(hù)的成本,第二個(gè)是它可以讓數(shù)據(jù)系統(tǒng)基礎(chǔ)設(shè)施實(shí)現(xiàn)彈性伸縮負(fù)載均衡,自動(dòng)化工作負(fù)載分析,加快持續(xù)創(chuàng)新,執(zhí)行快速測試,并加強(qiáng) CI/CD (持續(xù)集成和持續(xù)交付或持續(xù)部署)流程以快速支持新技術(shù),通過讓開發(fā)人員專注于業(yè)務(wù)問題,而不是處理與計(jì)算、數(shù)據(jù)質(zhì)量或數(shù)據(jù)管道相關(guān)的運(yùn)營問題。節(jié)省了開發(fā)人員的時(shí)間和精力并提高了他們的生產(chǎn)力,技術(shù)+人才+專注=提高工作效率;第三個(gè)是降低基礎(chǔ)設(shè)施成本,通過卸載不必要的、過度配置的軟件來降低成本,并使基礎(chǔ)設(shè)施成本與業(yè)務(wù)需求保持一致。降低數(shù)據(jù)處理成本并實(shí)現(xiàn)實(shí)時(shí)分析的目標(biāo)。
虹科電子
虹科在工業(yè)、制造業(yè)領(lǐng)域深耕了長達(dá)20年,隨著云技術(shù)的全面發(fā)展和數(shù)字化工廠的逐步落地,虹科參與了越來越多的云主題的業(yè)務(wù),從最初的所有數(shù)據(jù)先統(tǒng)一采集上云,到后續(xù)的邊緣計(jì)算再上云,到現(xiàn)在的全面業(yè)務(wù)優(yōu)化、洞察研究、成本優(yōu)化等,虹科的云科技事業(yè)部已經(jīng)為行業(yè)的用戶實(shí)操并積累了豐富的解決方案和應(yīng)用場景。它們包括:資源監(jiān)控、安全保障、多云的互聯(lián)互通、應(yīng)用和數(shù)據(jù)牽引等。虹科云科技團(tuán)隊(duì)在不斷順應(yīng)國家策略,從技術(shù)創(chuàng)新、標(biāo)準(zhǔn)制定、豐富生態(tài)、安全保障、節(jié)能減排等五個(gè)方面,不斷創(chuàng)造出更好的產(chǎn)品,幫助工業(yè)制造業(yè)的用戶實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型、實(shí)現(xiàn)基于數(shù)據(jù)的降本增效。
虹科云科技工程師團(tuán)隊(duì)不斷參與美國和歐洲產(chǎn)業(yè)內(nèi)先進(jìn)的專家培訓(xùn),學(xué)習(xí)和實(shí)踐創(chuàng)新的技術(shù)手段、操作性強(qiáng)的應(yīng)用案例,并不斷引入到國內(nèi)的項(xiàng)目中完成落地和推廣,這讓我們團(tuán)隊(duì)充滿了自豪感與使命感,賦予了我們當(dāng)今時(shí)代極大的技術(shù)價(jià)值、工作成就感。
原文標(biāo)題:直播精彩回顧(二)| 第二堂直播課精簡筆記,歡迎收藏
文章出處:【微信公眾號(hào):廣州虹科電子科技有限公司】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
審核編輯:湯梓紅
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
6833瀏覽量
88754 -
可視化
+關(guān)注
關(guān)注
1文章
1166瀏覽量
20862 -
APM
+關(guān)注
關(guān)注
1文章
71瀏覽量
12976
原文標(biāo)題:直播精彩回顧(二)| 第二堂直播課精簡筆記,歡迎收藏
文章出處:【微信號(hào):Hongketeam,微信公眾號(hào):廣州虹科電子科技有限公司】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評(píng)論請先 登錄
相關(guān)推薦
評(píng)論