很多企業(yè)都在考慮一個(gè)問(wèn)題,就是如何創(chuàng)建一個(gè)靈活的、有彈性的數(shù)據(jù)中心。這其中包括確保計(jì)算機(jī)系統(tǒng)和其他重要設(shè)備的有序恢復(fù),保證所有供電系統(tǒng)的正常運(yùn)轉(zhuǎn)等等。為實(shí)現(xiàn)這一目標(biāo),我們需要一個(gè)完善的災(zāi)難恢復(fù)規(guī)劃。
假設(shè)你希望數(shù)據(jù)中心的恢復(fù)規(guī)劃良好,你必須將數(shù)據(jù)中心看做業(yè)務(wù)流程,其中有大量相互依賴且變化的部分。并且,由于其中有大量相互關(guān)聯(lián)的部分,當(dāng)意外發(fā)生時(shí),所有要做的事情必須預(yù)先用流程的形式寫(xiě)在文檔上。如果數(shù)據(jù)中心管理員對(duì)災(zāi)備毫無(wú)概念,這將是非常危險(xiǎn)的事情。當(dāng)所有事情都出了問(wèn)題后,每個(gè)人都會(huì)將矛頭直指該數(shù)據(jù)中心管理員。
一整套體系架構(gòu)和相關(guān)應(yīng)用程序的流程首先是必須的。每個(gè)部件,或每個(gè)部件組通常有支持的體系架構(gòu),并且通常來(lái)講,都有一個(gè)或一組人對(duì)其負(fù)責(zé)。因此服務(wù)器會(huì)分到服務(wù)器組中,或虛擬組中,也有可能兩個(gè)都是。所有這些通常在一個(gè)體系架構(gòu)組或一個(gè)運(yùn)營(yíng)組下面,然而當(dāng)遇到重大事故時(shí),這些都會(huì)呈現(xiàn)星狀圖拓展開(kāi)來(lái),和各容災(zāi)管理員直接對(duì)應(yīng)。誰(shuí)負(fù)責(zé),誰(shuí)決策,需要做什么,以及所做的順序,這類管理模型必須清晰地記錄下來(lái)。
在整個(gè)容災(zāi)規(guī)劃中,每個(gè)功能模塊必須明確其角色,負(fù)責(zé)范圍,以及時(shí)間點(diǎn)和所需執(zhí)行的流程步驟。在數(shù)據(jù)中心中,所有的資源被完全保護(hù)并具備冗余。到一定程度后我們會(huì)驚奇地發(fā)現(xiàn)絕大多數(shù)數(shù)據(jù)中心中充斥著單點(diǎn)故障,這是我們必須考慮解決的。
另外,電源UPS風(fēng)險(xiǎn)也要充分考慮到。當(dāng)然,還有一部分風(fēng)險(xiǎn)在于不間斷電源是否可以支撐到發(fā)電機(jī)啟動(dòng)并接受所有這些麻煩。而且,讓供應(yīng)商參與到實(shí)際測(cè)試中還是十分必要的。也可以通過(guò)電力公司參與測(cè)試。不過(guò)對(duì)于不間斷電源這種孤立的設(shè)備,是非常重要的……但你要從端到端考慮。不僅是不間斷電源,還有不間斷電源的不間斷電源,以及發(fā)電機(jī),導(dǎo)線和電源分配器,并且按步驟從不論是變電站或發(fā)電機(jī)獲取電量。很多事可以,也應(yīng)該作為預(yù)防維護(hù)事件進(jìn)行。每年或每半年你應(yīng)該進(jìn)行負(fù)載測(cè)試;你應(yīng)該做預(yù)防性的監(jiān)測(cè);你應(yīng)該進(jìn)行紅外線測(cè)試來(lái)檢測(cè)電線是否老化……所有這些都是一個(gè)整體。
總之,在進(jìn)行數(shù)據(jù)中心容災(zāi)規(guī)劃時(shí)要考慮到從主體設(shè)備到輔助硬件的方方面面。任何一個(gè)層面出了問(wèn)題都可能影響業(yè)務(wù)連續(xù)性運(yùn)行。
-
電源
+關(guān)注
關(guān)注
184文章
17206瀏覽量
247782 -
UPS
+關(guān)注
關(guān)注
20文章
1117瀏覽量
91605 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4517瀏覽量
71637
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論