0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

云編排和實時分析以避免停機

星星科技指導員 ? 來源:嵌入式計算設(shè)計 ? 作者:Nati Shalom ? 2022-08-28 10:11 ? 次閱讀

根據(jù)博客“停機成本是多少”,盡管同期每個組織的停機小時數(shù)有所減少,但從 2010 年到 2012 年,網(wǎng)絡(luò)停機費用平均增加了 65%。對這一趨勢的一種可能解釋是,大部分業(yè)務(wù)都是在線完成的,這使得停機時間對組織底線的整體影響更大。

隨著轉(zhuǎn)向云和基于軟件即服務(wù)(基于 SaaS)的交付模型,面向客戶的應(yīng)用程序和整個 IT 基礎(chǔ)設(shè)施都暴露于在線服務(wù),停機時間的影響很容易讓整個組織關(guān)閉。IT 部門正面臨來自企業(yè)的巨大壓力,要求其變得更加敏捷,而實現(xiàn)敏捷性的最簡單途徑之一就是遷移到基于云的環(huán)境。然而,這帶來的問題是,遷移到更動態(tài)的云環(huán)境會增加失敗的風險。大多數(shù)現(xiàn)有的 IT 管理系統(tǒng)都是為靜態(tài)環(huán)境構(gòu)建的,最多只能提供需要人工干預才能解決問題的警報監(jiān)控。這種類型的系統(tǒng)已經(jīng)變得不切實際,隨著系統(tǒng)生成的數(shù)據(jù)量和事件數(shù)量增長到大多數(shù)人工操作員無法跟上的程度;結(jié)果是增加了人為錯誤。

Gartner 最近的一項研究預測,到 2015 年,“影響關(guān)鍵任務(wù)服務(wù)的 80% 的中斷將由人員和流程問題引起,其中超過 50% 的中斷將由更改、配置、版本集成和移交問題引起[2]?!?那么可以做些什么呢?解決方案是從靜態(tài)監(jiān)控轉(zhuǎn)向完全反應(yīng)式的系統(tǒng),該系統(tǒng)可以在問題發(fā)生時識別和修復問題——無需人工干預。

解決方案

找出解決方案并不難。如果 80% 的停機時間是部署和恢復過程中的人為錯誤造成的,那么解決方案就是通過自動化消除這些錯誤。由于 IT 流程可能相當復雜且不易自動化,圖 2 概述了涉及人工干預的 IT 流程示例。例如,這些可能包括將新開發(fā)的軟件包投入生產(chǎn)、安裝新功能或應(yīng)用程序的監(jiān)控、性能調(diào)整和故障排除等等。

圖 2:需要人工干預的 IT 流程。

22

自動化應(yīng)用程序部署和管理

通過用軟件驅(qū)動的流程代替手動程序來實現(xiàn)應(yīng)用程序部署和相應(yīng)實踐的自動化?;谠频幕A(chǔ)設(shè)施是這些技術(shù)的主要推動者,因為它們提供了一種通過軟件而不是人工操作員來控制整個數(shù)據(jù)中心的方法。圖 3 展示了自動化端到端應(yīng)用程序部署的主要組件,包括:

圖 3:在反饋循環(huán)中自動化 IT 流程所需的組件

23

云基礎(chǔ)設(shè)施——通過應(yīng)用程序編程接口 (API) 提供對所有 IT 資源的軟件驅(qū)動訪問。

智能編排——相當于人類操作員的軟件。

歷史數(shù)據(jù)——存儲以前的狀態(tài)和事件,用于確定應(yīng)用程序是否按預期運行,并根據(jù)實際活動調(diào)整系統(tǒng)閾值。歷史數(shù)據(jù)也可用作發(fā)生故障時根本原因分析的來源。

實時分析——更新監(jiān)控計數(shù)器,包括復雜的復合 CPU 延遲指標,并在事件超出特定閾值時觸發(fā)警報。

這種架構(gòu)的核心是編排。編排器為給定應(yīng)用程序創(chuàng)建一個定義,該應(yīng)用程序通過軟件可讀指令集運行以繪制應(yīng)用程序藍圖。編排器還負責確保應(yīng)用程序符合服務(wù)水平協(xié)議 (SLA),這可能是其最具挑戰(zhàn)性的功能,因為這需要一定程度的人工智能AI)。

為了實現(xiàn)必要的 AI,必須建立一個反饋循環(huán),該循環(huán)既能夠識別應(yīng)用程序是否按預期運行,如果不是,則采取糾正措施。反饋循環(huán)首先從應(yīng)用程序收集實時反饋,然后實時處理它們以檢測故障或容量問題。然而,確定給定警報是真實警報還是假警報通常涉及與歷史數(shù)據(jù)的相關(guān)性。例如,如果預期負載增加,高 CPU 利用率并不總是表明存在問題。同時,低 CPU 使用率可能表明流量不足,這不一定表示應(yīng)用程序的穩(wěn)定性。實時和批量報告的分析通過將當前和歷史數(shù)據(jù)報告回編排器來關(guān)閉循環(huán),編排器反過來可以采取糾正措施。

自動化應(yīng)用程序部署在行動

GigaSpaces 的Cloudify使用云應(yīng)用程序的拓撲和編排規(guī)范 (TOSCA) 作為應(yīng)用程序藍圖的標準框架是一個編排引擎,它定義了應(yīng)用程序組件(節(jié)點)、它們的依賴關(guān)系,以及它們的指標和相關(guān)策略(例如,如何安裝組件、處理故障或擴展事件)以配置流程自動化的基礎(chǔ)網(wǎng)絡(luò)。運行應(yīng)用程序定義并加載 TOSCA 藍圖后,Cloudify 編排引擎將執(zhí)行藍圖以生成必要的虛擬機 (VM) 和相應(yīng)的網(wǎng)絡(luò)資源(例如存儲)。編排器然后安裝應(yīng)用程序的各種組件,根據(jù)它們在依賴鏈中的位置來組織它們。最后,應(yīng)用程序監(jiān)控作為插件集成,每個組件通過監(jiān)控代理將指標發(fā)送回編排器。

之后,策略引擎使用復雜的事件服務(wù)來確定應(yīng)用程序是否滿足其 SLA,并在可能包括生成新 VM 或重新分配系統(tǒng)負載的違規(guī)情況下觸發(fā)操作。圖 4 說明了基于 TOSCA 的模型中的多層應(yīng)用程序部署。

圖 4: Cloudify 編排引擎采用基于 TOSCA 的藍圖框架來定義應(yīng)用程序并使其流程自動化。

24

基于云的自動化——實時

由于企業(yè)的日常運營不斷被網(wǎng)絡(luò)基礎(chǔ)設(shè)施所吸收,傳統(tǒng)的 IT 流程將無法促進事件和數(shù)據(jù)的大量增加。此外,在流程管理中添加人為因素可能會首次在不斷發(fā)展的 IT 環(huán)境中引入挫折而不是收益。在正常運行時間對任務(wù)至關(guān)重要的情況下,基于云的自動化可以有效地減少停機時間,同時讓 IT 經(jīng)理在最需要他們之前騰出時間。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 傳感器
    +關(guān)注

    關(guān)注

    2546

    文章

    50508

    瀏覽量

    751242
  • 引擎
    +關(guān)注

    關(guān)注

    1

    文章

    358

    瀏覽量

    22515
收藏 人收藏

    評論

    相關(guān)推薦

    康謀分享 | 確保AD/ADAS系統(tǒng)的安全:避免數(shù)據(jù)泛濫的關(guān)鍵!

    如何實現(xiàn)數(shù)據(jù)的高效管理、解讀和正確分析,以避免數(shù)據(jù)泛濫的不利影響?掌握好“指標與算法”和“全面可視化分析工具”兩大關(guān)鍵要素,助力AD/ADAS系統(tǒng)開發(fā)、驗證和改進過程!
    的頭像 發(fā)表于 11-13 09:54 ?182次閱讀
    康謀分享 | 確保AD/ADAS系統(tǒng)的安全:<b class='flag-5'>避免</b>數(shù)據(jù)泛濫的關(guān)鍵!

    ECRS工時分析軟件如何實施精益生產(chǎn)??

    益生產(chǎn)的概念是由麻省理工學院(MIT)發(fā)起的視與視ECRS工時分析軟件國際汽車研究小組(IMVP)。用了5年的時間全面總結(jié)了90多家豐田汽車公司的生產(chǎn)方法。精益生產(chǎn)是相對于批量生產(chǎn),它關(guān)注時間效率
    發(fā)表于 10-30 10:17

    有什么辦法可以避免I2S CLOCK變化時,等Clock再次穩(wěn)定,TAS5825M能自動恢復?

    當輸入I2S CLOCK發(fā)生變化,會造成TAS5825M 不工作.Clock再次穩(wěn)定,TAS5825M也不能恢復正常.請問有什么辦法可以避免I2S CLOCK變化時,等Clock再次穩(wěn)定,TAS5825M能自動恢復?
    發(fā)表于 09-29 06:24

    LMP7717的IV轉(zhuǎn)換,瞬時分析結(jié)果怎么達到14v多?

    IV轉(zhuǎn)換,瞬時分析結(jié)果怎么達到14v多?電流源的參數(shù)如下圖: 謝謝知道的人幫我解答下。
    發(fā)表于 08-30 06:58

    如何理解計算?

    智能家居、智能工廠和智慧城市等應(yīng)用。通過平臺,用戶可以實時監(jiān)控和控制物聯(lián)網(wǎng)設(shè)備,并對數(shù)據(jù)進行分析和應(yīng)用。 以上應(yīng)用只是計算的一部分,隨著技術(shù)和創(chuàng)新的發(fā)展,
    發(fā)表于 08-16 17:02

    如何正確選用SCR架構(gòu)TVS以避免閂鎖效應(yīng)

    AMAZINGIC晶焱科技如何正確選用SCR架構(gòu)TVS以避免閂鎖效應(yīng)
    的頭像 發(fā)表于 08-12 18:31 ?957次閱讀
    如何正確選用SCR架構(gòu)TVS<b class='flag-5'>以避免</b>閂鎖效應(yīng)

    純血鴻蒙開發(fā)教程-耗時分析器Time Profiler使用指導

    服務(wù)過程中,如果遇到卡頓、加載耗時等性能問題,開發(fā)者通常會關(guān)注相關(guān)函數(shù)執(zhí)行的耗時情況。Profiler提供的Time場景分析任務(wù),可在應(yīng)用/服務(wù)運行時,展示熱點區(qū)域內(nèi)基于CPU和進程耗時分析的調(diào)用棧
    發(fā)表于 05-11 14:13

    stm8s003停機后,外部中斷有時候會無法退出停機狀態(tài),為什么?

    stm8s003,進入停機,外部中斷退出停機,但是經(jīng)常會觸發(fā)中斷之后卻沒退出停機狀態(tài),再觸發(fā)才行,這是什么問題。我用示波器看過外部中斷的波形,確實有觸發(fā)波形了,但是卻沒有退出停機狀態(tài)。
    發(fā)表于 05-11 08:29

    時分復用的特點 n路時分復用系統(tǒng)的示意圖

    時分復用TDM是采用同一物理連接的不同時段來傳輸不同的信號,也能達到多路傳輸?shù)哪康摹?b class='flag-5'>時分多路復用以時間作為信號分割的參量,故必須使各路信號在時間軸上互不重疊。
    的頭像 發(fā)表于 05-01 16:51 ?1206次閱讀
    <b class='flag-5'>時分</b>復用的特點 n路<b class='flag-5'>時分</b>復用系統(tǒng)的示意圖

    曝臺積電和聯(lián)電部分機臺停機 曝臺積電二季度虧6000萬美元

    臺積電作為臺灣電子產(chǎn)業(yè)的龍頭,雖然地震造成了部分石英管材的破裂和在線晶圓的損壞,但公司迅速采取行動,暫停了部分機臺的運轉(zhuǎn),進行了停機檢查,以避免任何可能的偏移。
    的頭像 發(fā)表于 04-03 16:53 ?860次閱讀

    優(yōu)雅停機是什么?SpringBoot+Nacos+k8s實現(xiàn)優(yōu)雅停機

    優(yōu)雅停機是什么?網(wǎng)上說的優(yōu)雅下線、無損下線,都是一個意思。
    的頭像 發(fā)表于 02-20 10:00 ?1838次閱讀
    優(yōu)雅<b class='flag-5'>停機</b>是什么?SpringBoot+Nacos+k8s實現(xiàn)優(yōu)雅<b class='flag-5'>停機</b>

    什么是時分復用TDM?時分復用類型 時分復用優(yōu)劣勢

    什么是時分復用TDM?時分復用類型 時分復用優(yōu)劣勢? 時分復用TDM是一種常見的多路復用技術(shù),用于將多個低速信號合并成一個高速信號在傳輸線路上進行傳輸。在
    的頭像 發(fā)表于 01-16 16:03 ?2330次閱讀

    揭秘:實時渲染、離線渲染、渲染和混合渲染的區(qū)別

    渲染,就是將3D模型轉(zhuǎn)換成2D圖像,并最終呈現(xiàn)在屏幕上的過程。常見的渲染類型有以下幾種:實時渲染離線渲染渲染混合渲染它們中間有重疊交叉,也有技術(shù)區(qū)別。本文嘗試用淺顯易懂的方式來進行解釋,希望大家
    的頭像 發(fā)表于 12-26 08:27 ?716次閱讀
    揭秘:<b class='flag-5'>實時</b>渲染、離線渲染、<b class='flag-5'>云</b>渲染和混合渲染的區(qū)別

    馬達保護器裝置電源掉電停機的原因分析處理

    ? ? ? ?介紹了一起因直流電源接線松動導致所帶整段馬達保護器裝置停電從而造成電機大面積停機的事故,分析了大面積電機停機的直接原因和間接原因,針對存在的問題提出了整改措施和方案,對馬達保護器
    的頭像 發(fā)表于 12-25 16:04 ?1073次閱讀
    馬達保護器裝置電源掉電<b class='flag-5'>停機</b>的原因<b class='flag-5'>分析</b>處理

    晶科能源SunGiga工商業(yè)儲能一體機 高度集成 安裝無憂

    SunGiga 智能監(jiān)控保障電池系統(tǒng)安全,更配備平臺,通過WAF、防火墻、堡壘機等安全措施保障數(shù)據(jù)及系統(tǒng)安全。連接晶科儲能大數(shù)據(jù)云平臺,專屬系統(tǒng)可實時采集儲能系統(tǒng)的運行數(shù)據(jù),實現(xiàn)
    的頭像 發(fā)表于 12-07 10:25 ?743次閱讀