對于數(shù)據(jù)中心運營,可能很難確定哪些數(shù)據(jù)至關(guān)重要,哪些數(shù)據(jù)是背景噪音。篩選數(shù)據(jù)的能力至關(guān)重要,因為數(shù)據(jù)中心經(jīng)理必須迅速確定哪些警報至關(guān)重要,哪些警報可以幫助提供有關(guān)其基礎(chǔ)架構(gòu)運行情況的信息。
在2020年數(shù)據(jù)中心世界大會上,在《Real-time Environmental Monitoring for Your Data Center Management Platforms and Getting Common Data Into Your New Hybrid World》的演講中,Critical Environments Group公司數(shù)據(jù)中心解決方案主管Andrew Graham和RLE Technologies公司國際和西方國家銷售主管Cam Rogers介紹了一個框架,該框架可以幫助企業(yè)在混合環(huán)境中設(shè)置實時監(jiān)控,以有效管理和擴展基礎(chǔ)架構(gòu)。
為了成功部署實時監(jiān)控,IT團隊應(yīng)該解決五個問題:誰、什么、何時、何地、為什么以及如何。
1. 弄清楚為什么需要實時監(jiān)控
在IT團隊投資于任何類型的實時監(jiān)控前,他們應(yīng)該弄清楚為什么在數(shù)據(jù)中心內(nèi)需要實時監(jiān)控。潛在的原因包括降低成本、提高生產(chǎn)率、簡化管理以及減少意外和停機時間。
當企業(yè)試圖將基礎(chǔ)設(shè)施擴展到本地數(shù)據(jù)中心之外,并整合主機托管和邊緣作為整個基礎(chǔ)結(jié)構(gòu)的一部分時,這些原因尤其引人注目。Graham說,隨著混合IT不斷發(fā)展,那些運營自己數(shù)據(jù)中心的企業(yè)發(fā)現(xiàn),容量管理成為巨大的問題。
實時監(jiān)控技術(shù)最初用于提供數(shù)據(jù)中心基礎(chǔ)設(shè)施的快照,因此非常適合幫助IT團隊更有效地管理數(shù)據(jù)中心,并幫助解決日益復(fù)雜的設(shè)置問題—其中涉及多種技術(shù)類型。
RSP Architects的負責人Rajan Battish說:“實時監(jiān)控已經(jīng)取得很大的進步;它一直存在。多年來,我們看到的是,它們在機架級別獲取信息,并嘗試通過基礎(chǔ)架構(gòu)對其進行優(yōu)化。監(jiān)控系統(tǒng)開始獲取數(shù)據(jù)中心的運行情況數(shù)據(jù),并且它成為自動化和優(yōu)化的方式?!?/p>
2. 確定誰必須參與
當IT團隊建立業(yè)務(wù)用例,他們就必須考慮誰應(yīng)該參與到新的實時監(jiān)控設(shè)置中。
這包括必須向誰報告問題、該系統(tǒng)應(yīng)及時將信息提供給誰、誰關(guān)注設(shè)施狀況、哪些人員負責新應(yīng)用的推出,以及哪些團隊關(guān)注流程的改進和有效性。
如果企業(yè)具有非本地基礎(chǔ)架構(gòu),則管理員必須說明可能需要報告的任何外部方,例如托管服務(wù)提供商、主機托管和云提供商、合作伙伴和供應(yīng)商。
IT團隊必須建立主要的利益相關(guān)者,因為這樣做會影響報告結(jié)構(gòu)和軟件警報。這還可以減少報告的冗余。
Rogers表示:“每個利益相關(guān)者都有不同的優(yōu)先事項,IT經(jīng)理可能與設(shè)施經(jīng)理有不同的需求。應(yīng)該由他們決定什么重要,什么不那么重要。”
他補充說,企業(yè)可以從本地化警報開始,這些警報不一定關(guān)聯(lián)所有事物。
他說:“除非你的員工24/7全天候工作,否則當你無法看到警報時,問題就會非常迅速地發(fā)酵。你需要查看設(shè)施并將警報發(fā)送給合適的人?!?/p>
3. 查看最有用的指標是哪些
企業(yè)有很多數(shù)據(jù)需要跟蹤-特別是在基礎(chǔ)架構(gòu)方面。通過實時監(jiān)視設(shè)置,管理人員應(yīng)確定哪些指標對他們很重要,以及哪些指標可以快速提供信息。
Rogers說:“這實際上取決于你希望管理和匯集哪些資產(chǎn)?!?/p>
大多數(shù)企業(yè)都依賴一些通用指標,例如電源使用效率(PUE)、數(shù)據(jù)中心基礎(chǔ)架構(gòu)效率(DCIE)、能耗降低和IT設(shè)備利用率。但是管理員應(yīng)謹慎對待這些指標。
PUE是廣泛使用的度量標準,但它基于對IT設(shè)施功率和總設(shè)備功率的總體估計。如果團隊進行IT升級,則PUE可能會上升。Graham建議,IT管理員使用PUE作為內(nèi)部度量,而不是嘗試將其與企業(yè)外部的其他數(shù)據(jù)中心進行比較。
Graham和Rogers解釋說,管理人員可以使用PUE和DCIE之外的其他指標,例如冷卻指標,但是這些指標可能需要更多數(shù)據(jù)和分析,從而導(dǎo)致部署率較低。
4. 確定何時部署監(jiān)控或擴大容量
對于何時增加容量或系統(tǒng)應(yīng)用程序,可能很困難,尤其是隨著IT需求的不斷變化。你的團隊應(yīng)該考慮你的監(jiān)視和管理工具是否可以幫助內(nèi)部開發(fā)和改進的規(guī)劃、進度和性能。
Graham說:“你不能只是考慮你何時需要使設(shè)備可用和運行以推出應(yīng)用程序。你需要從上線日期開始工作,以覆蓋部署過程中每一步所需的所有資源。”
實時監(jiān)控還可以通過針對特定事件的指標來為日常工作提供幫助:事件發(fā)生的時間、報告時間和解決的時間。識別這些時間可以幫助企業(yè)更加主動地響應(yīng)事件,特別是如果這些實例顯示出隨時間變化的模式或以特定間隔定期發(fā)生的情況。
5. 了解基礎(chǔ)設(shè)施的位置
企業(yè)還應(yīng)該考慮他們應(yīng)該在何處部署監(jiān)控軟件和硬件-無論是在本地數(shù)據(jù)中心、在邊緣節(jié)點的異地還是在主機托管地點。從內(nèi)部角度來看,應(yīng)該有連續(xù)的流程來跟蹤容量和連接的設(shè)備。
還有云提供商提供的信息,因此IT團隊應(yīng)詢問是否可以在云端跟蹤和追蹤數(shù)據(jù),并確定任何合規(guī)性需求–文檔或?qū)S脩?yīng)用程序等。
通過更準確地了解所有數(shù)據(jù)和硬件在IT設(shè)置中所處的位置,企業(yè)可以確定哪種實時監(jiān)控產(chǎn)品最能滿足其需求,并且可以支持所有必需的技術(shù)類型。在部署實時監(jiān)控后,這將確保一致的性能和有效的容量管理。
6. 了解如何監(jiān)控基礎(chǔ)架構(gòu)
在IT團隊、管理人員和利益相關(guān)者討論完何時、何地以及什么后,管理員應(yīng)調(diào)查企業(yè)應(yīng)如何部署實時監(jiān)控并增加基礎(chǔ)架構(gòu)容量。這涉及了解可能影響基礎(chǔ)架構(gòu)增長的因素,例如熱點、地面空間用盡、中斷、缺乏冷卻資源和水資源等。
Battish說,大多數(shù)企業(yè)在部署過程中都面臨挑戰(zhàn),特別是在使硬件和軟件相互通信方面。
這使得匯聚協(xié)議非常重要,因為大多數(shù)企業(yè)通過多家供應(yīng)商來構(gòu)建數(shù)據(jù)中心基礎(chǔ)架構(gòu)。然而,傳感器和協(xié)議轉(zhuǎn)換器可以幫助收集數(shù)據(jù)并提高實時監(jiān)視功能。
Rogers說:“傳感器有很多選擇,因此請確保做好功課,不要將自己鎖定在專有產(chǎn)品,而沒有辦法支持明天及未來需要的功能?!?/p>
行業(yè)產(chǎn)品包括用于配電單元和不間斷電源的有線和無線傳感器,以及一系列軟件,企業(yè)可購買現(xiàn)成產(chǎn)品或根據(jù)內(nèi)部需求定制產(chǎn)品。傳感器和軟件的這種組合可以幫助管理員和經(jīng)歷減少日常補救任務(wù)的數(shù)量。
Graham稱:“當人們在不斷解決相同的問題時,這對士氣不利。我們并不是說每個人都需要單一視圖,但他們應(yīng)該減少冗余,整合并解決正確的問題。監(jiān)視和管理的轉(zhuǎn)變允許人們要更有效率,并在我們的行業(yè)中處于領(lǐng)先地位,并專注于更多的優(yōu)化工作。”
責編AJX
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
6819瀏覽量
88746 -
監(jiān)控系統(tǒng)
+關(guān)注
關(guān)注
21文章
3844瀏覽量
173427 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4632瀏覽量
71898
發(fā)布評論請先 登錄
相關(guān)推薦
評論