從事信息化產(chǎn)業(yè)研究多年,身邊不乏熟悉的IT技術(shù)廠商。在與他們的技術(shù)專家交流過程中經(jīng)常會(huì)聊到產(chǎn)品可用性問題。這時(shí)他們會(huì)說自己的產(chǎn)品有多好,可用性高達(dá)“5個(gè)9”。那么,“5個(gè)9”到底有多牛?
按照年度可用性計(jì)算:365天x24小時(shí)x60分鐘x99.999%=5.256分鐘。換句話講,他們的產(chǎn)品允許一年非計(jì)劃停機(jī)時(shí)間約為5分鐘,厲害不厲害?當(dāng)然厲害??捎眯詨騿幔课铱次幢?。隨著企業(yè)數(shù)字化轉(zhuǎn)型升級(jí),更復(fù)雜的業(yè)務(wù)需求對(duì)服務(wù)器可用要求將越來越高,甚至根本不允許任何非計(jì)劃停機(jī)。因此,僅僅是高可用性,其實(shí)是滿足不了日趨智能化的工業(yè)時(shí)代需求。
按照高可用性的定義,本質(zhì)是允許非計(jì)劃內(nèi)停機(jī)出現(xiàn)的,只是盡可能通過技術(shù)手段來減少停工時(shí)間,保持服務(wù)的高度可用性。
目前高可用性對(duì)停機(jī)劃分分為兩種,一是不可修復(fù)系統(tǒng),系統(tǒng)的平均壽命指系統(tǒng)發(fā)生失效前的平均工作(或存儲(chǔ))時(shí)間或工作次數(shù),也稱為系統(tǒng)在失效前的平均時(shí)間,記為MTTF(Mean Time To Failure)。二是可修復(fù)系統(tǒng),系統(tǒng)的壽命是指兩次相鄰失效(故障)之間的工作時(shí)間,而不是指整個(gè)系統(tǒng)的報(bào)廢時(shí)間。平均壽命即是平均無故障時(shí)間,也稱為系統(tǒng)平均失效間隔,記為MTBF(Mean Time Between Failure)??尚迯?fù)產(chǎn)品的平均修復(fù)時(shí)間,就是從出現(xiàn)故障到修復(fù)中間的這段時(shí)間記為MTTR(Mean Time To Repair)平均修復(fù)時(shí)間。MTTR越短表示易恢復(fù)性越好。
那么,容錯(cuò)性和高可用性有什么區(qū)別?容錯(cuò)性指的是故障容許度(Fault tolerance),是使系統(tǒng)在部分組件(一個(gè)或多個(gè))發(fā)生故障時(shí)仍能正常運(yùn)作的能力。容錯(cuò)性能保障即使系統(tǒng)組件出現(xiàn)故障,也能快速的切換到備用系統(tǒng),并保證系統(tǒng)的正常運(yùn)營(yíng)能力。對(duì)比高可用性強(qiáng)調(diào)恢復(fù)能力,容錯(cuò)性是不允許這種情況發(fā)生,其目標(biāo)是預(yù)防故障,做到即使出現(xiàn)故障也能快速切換,保證業(yè)務(wù)系統(tǒng)正常運(yùn)行。
在傳統(tǒng)信息化時(shí)代,服務(wù)器主要承載的是對(duì)可用性和可靠性要求不高的業(yè)務(wù)應(yīng)用,如ERP、OA、CRM或MES等。隨著智能制造的推進(jìn),傳統(tǒng)業(yè)務(wù)系統(tǒng)向工業(yè)現(xiàn)場(chǎng)延伸,服務(wù)器正在承擔(dān)起越來越多的場(chǎng)景功能,這些場(chǎng)景不僅智能化程度越來越高,計(jì)算需求越來越密集,而且對(duì)實(shí)時(shí)性要求也很高。
比如在工業(yè)智能化控制系統(tǒng)中根本不允許出現(xiàn)任何故障問題,因?yàn)檫@可能帶來一系列重大工業(yè)安全事故。在無人自動(dòng)化駕駛系統(tǒng)中,時(shí)刻需要采集和分析周邊環(huán)境數(shù)據(jù)并進(jìn)行實(shí)時(shí)分析,及時(shí)反饋到中控系統(tǒng)以保障自動(dòng)駕駛過程的安全。因此,時(shí)代對(duì)硬件性能的要求不同了。作為服務(wù)器廠商,必須適應(yīng)由故障恢復(fù)到故障預(yù)防的趨勢(shì)變化,打造容錯(cuò)性能更好的服務(wù)器平臺(tái)。
在早期計(jì)算機(jī)系統(tǒng)不是特別可靠的情況下,為做到故障預(yù)防,企業(yè)通常采用的是雙機(jī)容錯(cuò)機(jī)制,即購(gòu)買兩臺(tái)配置完全一樣的服務(wù)器冗余級(jí)聯(lián),一旦主機(jī)出現(xiàn)故障,就快速切換到從機(jī)上,從而保證業(yè)務(wù)的正常運(yùn)營(yíng)。但這種部署方式不僅成本高、效率低,而且實(shí)施過程十分復(fù)雜,一旦出現(xiàn)斷電等意外情況,就完全無抵抗力。
那么,怎么才能保證在部署成本更低、實(shí)施更簡(jiǎn)單的前提下,讓系統(tǒng)具備更好的容錯(cuò)性能?全球容錯(cuò)技術(shù)領(lǐng)導(dǎo)廠商Stratus是這么做的!
上圖是Stratus公司打造的一種全面集成的持續(xù)可用性平臺(tái)——ftServer,為企業(yè)關(guān)鍵應(yīng)用提供更穩(wěn)定可靠的平臺(tái)。
為保障平臺(tái)的高可靠性和可用性,ftServer通過部署一對(duì)冗余節(jié)點(diǎn),兩個(gè)相同的客戶可更換單元(CRU)——其中每一個(gè)客戶可更換單元均有自己的處理器、內(nèi)存和存儲(chǔ)。所有冗余組件和子系統(tǒng)打包為單一系統(tǒng),從而降低了許可成本并簡(jiǎn)化了管理。
Stratus具有獨(dú)特的冗余現(xiàn)場(chǎng)可編程門陣列、數(shù)據(jù)路徑和同步固件,即使硬件組件出現(xiàn)故障,也能夠提供確保持續(xù)可用性所需的處理器同步、數(shù)據(jù)復(fù)制和邏輯,系統(tǒng)會(huì)在不同節(jié)點(diǎn)間自動(dòng)復(fù)制數(shù)據(jù)。一個(gè)節(jié)點(diǎn)發(fā)生故障時(shí),運(yùn)行在上面的虛擬機(jī)會(huì)自動(dòng)在另一個(gè)節(jié)點(diǎn)上重啟(高可用性模式)或恢復(fù)(容錯(cuò)模式)。
同時(shí),為增強(qiáng)平臺(tái)的兼容性并降低成本,ftServer不僅使用通用化的x86芯片組、DIMM和驅(qū)動(dòng)器,還使用標(biāo)準(zhǔn)分發(fā)包裝的操作系統(tǒng)和虛擬化軟件,從而簡(jiǎn)化了管理并縮短了價(jià)值實(shí)現(xiàn)時(shí)間。ftServer自動(dòng)化的自監(jiān)控、告警、自診斷和補(bǔ)救功能是通過主動(dòng)服務(wù)架構(gòu)實(shí)現(xiàn)的。通過簡(jiǎn)化ftServer監(jiān)控和管理,以及篩選需要釆取行動(dòng)的問題,Stratus可節(jié)省公司時(shí)間以及減少工作量。
為盡可能減少停機(jī)維護(hù)時(shí)間,ftServer旨在實(shí)現(xiàn)服務(wù)性,它的可熱插拔CRU無需關(guān)閉系統(tǒng)即可拔下,并且無需使用特殊工具即可更換。這一點(diǎn)以及自動(dòng)數(shù)據(jù)重新同步使ftServer適于在遠(yuǎn)程制造位置或IT資源有限的位置部署。
對(duì)IT硬件系統(tǒng)而言,沒有絕對(duì)的可靠性,只有相對(duì)的可用性。容錯(cuò)性的目標(biāo)是預(yù)防故障,可用性的目標(biāo)是恢復(fù)故障,目標(biāo)雖然不一致,但是殊途同歸。隨著工業(yè)智能化時(shí)代的開啟,就當(dāng)前企業(yè)需求看,“預(yù)防故障”顯然比“故障恢復(fù)”更有吸引力,因?yàn)樵诓淮_定、復(fù)雜性的時(shí)代,企業(yè)更希望能提前掌握不可預(yù)知的風(fēng)險(xiǎn),讓一切可控。
原文標(biāo)題:觀察|漫談高可用性與容錯(cuò)性
文章出處:【微信公眾號(hào):工業(yè)IoT】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
責(zé)任編輯:haq
-
IT
+關(guān)注
關(guān)注
2文章
835瀏覽量
63318 -
容錯(cuò)
+關(guān)注
關(guān)注
0文章
28瀏覽量
14907
原文標(biāo)題:觀察|漫談高可用性與容錯(cuò)性
文章出處:【微信號(hào):IndustryIOT,微信公眾號(hào):工業(yè)互聯(lián)網(wǎng)前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論