簡(jiǎn)單分析服務(wù)器的可用性問題
簡(jiǎn)單分析服務(wù)器的可用性問題
作為信息化建設(shè)中硬件架構(gòu)不可或缺的服務(wù)器一直以來都備受關(guān)注,同時(shí),服務(wù)器的更新?lián)Q代也在見證著世界領(lǐng)先科技的發(fā)展歷程,不論是最初的16位處理,還是后來紅極一時(shí)的32位處理器,甚至包括如今同時(shí)支持的32位、64位的處理器以及即將到來的純64位處理器年代,服務(wù)器雖然歷經(jīng)千變?nèi)f化,但有一點(diǎn)一直是永恒不變的主題,那就是服務(wù)器的可用性。一臺(tái)服務(wù)器如果連最基本的可用性都無法保障,它將無法登上時(shí)代的大舞臺(tái)。
??? 究竟什么是服務(wù)器的可用性?它包括哪些內(nèi)容?為什么如此受到大家的關(guān)注?下面我們將一一作答。
??? 服務(wù)器的可用性(Usability)其實(shí)就是要求服務(wù)器具有高的可靠性、高穩(wěn)定性、易于管理維護(hù),不要時(shí)不時(shí)死機(jī)、出故障,盡量少出現(xiàn)停機(jī)待修現(xiàn)象。因?yàn)槎鄶?shù)情況下服務(wù)器是要求連續(xù)不間斷工作的,所以它的性能穩(wěn)定、可靠是非常重要,如果是普通的PC死機(jī)了重啟,最多時(shí)會(huì)丟失一些本臺(tái)電腦上的文檔信息、少量的數(shù)據(jù),不會(huì)造成巨大的經(jīng)濟(jì)損失。但是如果服務(wù)器出現(xiàn)死機(jī)的情況,后果將不堪設(shè)想。因?yàn)樵S多重要的數(shù)據(jù)、資料、信息、記錄都保存在服務(wù)器上,尤其是許多網(wǎng)絡(luò)服務(wù)都在服務(wù)器上運(yùn)行,一旦服務(wù)器發(fā)生故障,將會(huì)造成大量數(shù)據(jù)丟失、許多重要業(yè)務(wù)停頓,如代理上網(wǎng)、安全驗(yàn)證、電子郵件服務(wù)等都將失效,如果是需要計(jì)費(fèi)的網(wǎng)絡(luò),將無法提供準(zhǔn)確的計(jì)費(fèi)數(shù)據(jù),不但無法實(shí)現(xiàn)安全運(yùn)營(yíng),嚴(yán)重的將造成整個(gè)網(wǎng)絡(luò)的癱瘓,其損失是難以估量的。而易于管理和維護(hù)就不必說了,對(duì)于非專業(yè)的用戶而言能夠用最簡(jiǎn)單的管理去維護(hù)網(wǎng)內(nèi)的所有設(shè)備是他們很開心的事情。所以綜上所述,高可靠性、高穩(wěn)定性和易于管理維護(hù)是服務(wù)器可用性的具體體現(xiàn)。
???? 但是在服務(wù)器的硬件架構(gòu)的設(shè)計(jì)上如何來保障可用性呢?關(guān)鍵是要做到硬件冗余和硬件在線診斷技術(shù)。其中常見的硬件冗余包括:磁盤冗余、電源冗余和風(fēng)扇冗余,另外還有一些RAM冗余、PCI適配器冗余和網(wǎng)卡冗余等;而硬件在線診斷技術(shù)則需要包括:熱插拔技術(shù)、內(nèi)存保護(hù)技術(shù)、內(nèi)存檢查和糾錯(cuò)技術(shù)、內(nèi)存鏡像技術(shù)、內(nèi)存熱添加/交換技術(shù)、活動(dòng)PCI技術(shù)、活動(dòng)診斷技術(shù)等。
??? 硬件冗余比較容易理解,就是對(duì)硬件的組成部件采用冗余備份的方式來保障因部分部件損壞引起的硬件系統(tǒng)的癱瘓,但是出于對(duì)設(shè)備成本考慮,所以不能做所有部件的冗余,一般都是對(duì)其中一些關(guān)鍵部件的冗余,比如說磁盤冗余技術(shù),就是人們常說的RAID(磁盤陣列)技術(shù),即:把多塊獨(dú)立的硬盤(物理硬盤)按不同方式組合起來形成一個(gè)硬盤組(邏輯硬盤),從而提供比單個(gè)硬盤更高的存儲(chǔ)性能和提供數(shù)據(jù)冗余的技術(shù)。在現(xiàn)在的服務(wù)器產(chǎn)品中,基本上都采用了此項(xiàng)技術(shù),支持RAID0、RAID1,使服務(wù)器可以充分利用總線的帶寬完成數(shù)據(jù)的操作,顯著提高磁盤整體存取性能,最大限度的保證用戶數(shù)據(jù)的可用性。同時(shí)現(xiàn)在的服務(wù)器產(chǎn)品有些已經(jīng)可以提供雙電源和雙風(fēng)扇的冗余備份,還可以支持熱插拔技術(shù),這就給電源和風(fēng)扇創(chuàng)造了一個(gè)輕松負(fù)荷的工作狀態(tài),減少了因電源或風(fēng)扇的損壞而出現(xiàn)的系統(tǒng)內(nèi)部問題,從根本上避免了服務(wù)器的工作不穩(wěn)定和停機(jī)。
??? 但是僅僅提供了硬件不見得冗余是遠(yuǎn)遠(yuǎn)不夠的,還需要一些硬件在線診斷技術(shù)的配合,才能使服務(wù)器的可用性發(fā)揮至極致。比如熱插拔技術(shù),就是指有些部件可以在系統(tǒng)帶電的情況下對(duì)部件進(jìn)行插、撥操作。這非常重要,因?yàn)楫?dāng)我們發(fā)現(xiàn)一些部件已損壞,但因?yàn)樘峁┝擞布哂?,所以系統(tǒng)仍能繼續(xù)保持良好運(yùn)行。我們需要把損壞的設(shè)備更換下來,如果沒有熱插拔技術(shù),就必須關(guān)閉服務(wù)器的電源才能進(jìn)行,這樣就會(huì)造成人為的服務(wù)器停機(jī)。隨意在航天聯(lián)志的服務(wù)器產(chǎn)品,絕大多數(shù)都采用了支持硬件熱插拔的功能,比如在電源、硬盤、風(fēng)扇、內(nèi)存、網(wǎng)卡等。
??? 在這里我們還需要提到內(nèi)存糾錯(cuò)技術(shù)----ChipKill內(nèi)存技術(shù),這是一種新的ECC內(nèi)存保護(hù)標(biāo)準(zhǔn)。隨著基于Intel處理器架構(gòu)的服務(wù)器的CPU性能在以幾何級(jí)的倍數(shù)提高,而硬盤驅(qū)動(dòng)器的性能同期只提高了5倍,因此為了獲得足夠的性能。服務(wù)器需要大量的內(nèi)存來臨時(shí)保存在CPU上讀取的數(shù)據(jù),這樣大的數(shù)據(jù)訪問量就導(dǎo)致單一內(nèi)存芯片上每次訪問時(shí)通常要提供4(32位)或8(64位)比特以上的數(shù)據(jù)。一次性讀取這么多數(shù)據(jù),出現(xiàn)多位數(shù)據(jù)錯(cuò)誤的可能性會(huì)大大地提高,而ECC又不能糾正雙比特以上的錯(cuò)誤,這樣就很可能造成全部比特?cái)?shù)據(jù)的丟失,系統(tǒng)就很快崩潰了。
??? 現(xiàn)在一個(gè)服務(wù)器上安裝的內(nèi)存逐漸增多,在系統(tǒng)中發(fā)生與內(nèi)存有關(guān)的錯(cuò)誤的可能性也在增大。所以在保障服務(wù)器產(chǎn)品可靠性上,不單單采用了Chipkill修復(fù)技術(shù),還包括內(nèi)存保護(hù)、內(nèi)存鏡像和熱交換性能等一些純硬件方法,以及內(nèi)存熱添加技術(shù)等一些軟件方法全方位的保障設(shè)備的可靠性,使整個(gè)系統(tǒng)的可用性得到了最大的體現(xiàn)。
??? 內(nèi)存鏡像是將內(nèi)存數(shù)據(jù)做兩個(gè)拷貝,分別放在主內(nèi)存和鏡像內(nèi)存中。系統(tǒng)工作時(shí)會(huì)向兩個(gè)內(nèi)存中同時(shí)寫入數(shù)據(jù),因此使得內(nèi)存數(shù)據(jù)有兩套完整的備份。由于采用通道間交叉鏡像的方式,所以每個(gè)通道都有一套完整的內(nèi)存數(shù)據(jù)拷貝。
??? 在系統(tǒng)芯片組中設(shè)置有 “容錯(cuò)閾值”。如果任意內(nèi)存達(dá)到了“容錯(cuò)閾值”,其所在通道就被標(biāo)示出來,另一個(gè)通道單獨(dú)工作。但仍然保持雙通道的內(nèi)存帶寬。
?? 內(nèi)存鏡像有效避免了由于內(nèi)存故障而導(dǎo)致數(shù)據(jù)丟失。鏡像內(nèi)存和主內(nèi)存互成對(duì)角線分布,如果其中一個(gè)通道出現(xiàn)故障不能繼續(xù)工作,另一個(gè)通道仍然具有故障通道的內(nèi)存數(shù)據(jù),有效防止了由于內(nèi)存通道故障導(dǎo)致的數(shù)據(jù)丟失,極大提升了服務(wù)器可靠性。鏡像內(nèi)存的容量要大于等于主內(nèi)存容量,當(dāng)系統(tǒng)工作時(shí),鏡像內(nèi)存不會(huì)被系統(tǒng)識(shí)別。因此在投資方面,做內(nèi)存鏡像數(shù)據(jù)保護(hù)的投資是沒有內(nèi)存保護(hù)功能的一倍。
??? 內(nèi)存熱備(Sparing)進(jìn)行內(nèi)存熱備時(shí),做熱備份的內(nèi)存在正常情況下是不使用的,也就是說系統(tǒng)是看不到這部分內(nèi)存容量的。每個(gè)內(nèi)存通道中有一個(gè)DIMM不被使用,預(yù)留為熱備內(nèi)存。芯片組中設(shè)置有內(nèi)存校驗(yàn)錯(cuò)誤次數(shù)的閾值, 即每單位時(shí)間發(fā)生錯(cuò)誤的次數(shù)。當(dāng)工作內(nèi)存的故障次數(shù)達(dá)到這個(gè)“容錯(cuò)閾值”,系統(tǒng)開始進(jìn)行雙重寫動(dòng)作,一個(gè)寫入主內(nèi)存,一個(gè)寫入熱備內(nèi)存,當(dāng)系統(tǒng)檢測(cè)到兩個(gè)內(nèi)存數(shù)據(jù)一致后,熱備內(nèi)存就代替主內(nèi)存工作,故障內(nèi)存被禁用,這樣就完成了熱備內(nèi)存接替故障內(nèi)存工作的任務(wù),有效避免了系統(tǒng)由于內(nèi)存故障而導(dǎo)致數(shù)據(jù)丟失或系統(tǒng)宕機(jī)。這個(gè)做熱備的內(nèi)存容量應(yīng)大于等于所在通道的最大內(nèi)存條的容量,以滿足內(nèi)存數(shù)據(jù)遷移的最大容量需求。
??? 眾所周知,系統(tǒng)過熱是影響服務(wù)器穩(wěn)定最主要的原因,怎樣保證了服務(wù)器在惡劣環(huán)境下長(zhǎng)時(shí)間滿負(fù)荷運(yùn)轉(zhuǎn)的溫度正常?比如說采用了前進(jìn)風(fēng)的方式,與側(cè)進(jìn)風(fēng)的方式不同,這種進(jìn)風(fēng)方式保證了用戶實(shí)際應(yīng)用過程中,讓安裝在機(jī)架上的服務(wù)器能夠有完全通暢的風(fēng)源。冗余風(fēng)扇只是提供了保證當(dāng)一個(gè)散熱風(fēng)扇出現(xiàn)故障不能起到散熱作用時(shí)另一個(gè)風(fēng)扇會(huì)馬上工作,保證了一定的散熱能力。
??? 現(xiàn)在有些服務(wù)器產(chǎn)品更增加了獨(dú)特的導(dǎo)風(fēng)通路,可以集中并控制風(fēng)流的方向。散熱問題的解決在提高了系統(tǒng)的可靠性的同時(shí),有效延長(zhǎng)部件的壽命。
?
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
相關(guān)閱讀:
- [處理器/DSP] “協(xié)同發(fā)展,生態(tài)聚合” 開放原子1024程序員節(jié)圓滿落幕 2023-10-24
- [電子說] 監(jiān)控云服務(wù)器怎么架設(shè)? 2023-10-24
- [電子說] 服務(wù)器數(shù)據(jù)恢復(fù)-服務(wù)器藍(lán)屏重啟仍然藍(lán)屏的數(shù)據(jù)恢復(fù)案例 2023-10-24
- [電子說] 服務(wù)器硬盤通用基礎(chǔ)知識(shí) 2023-10-24
- [存儲(chǔ)技術(shù)] 三星電子和SK海力士計(jì)劃四季度全面提高DDR5產(chǎn)量 2023-10-24
- [電子說] 致遠(yuǎn)電子新一代8路串口服務(wù)器 2023-10-24
- [電子說] 服務(wù)器數(shù)據(jù)恢復(fù)-2盤raid0磁盤陣列數(shù)據(jù)恢復(fù)案例 2023-10-23
- [物聯(lián)網(wǎng)] 物聯(lián)網(wǎng)網(wǎng)絡(luò)設(shè)計(jì)實(shí)用的步驟和見解 2023-10-23
( 發(fā)表人:admin )