【服務(wù)器數(shù)據(jù)恢復(fù)故障描述】
用戶的EMC CX4-480存儲(chǔ)服務(wù)器由于硬盤(pán)出現(xiàn)故障離線癱瘓。服務(wù)器中共有10塊硬盤(pán),其中7塊硬盤(pán)組成RAID 5磁盤(pán)陣列。另外3塊硬盤(pán)為服務(wù)器在使用過(guò)程中的掉線磁盤(pán),用戶在處理掉線磁盤(pán)時(shí)只添加新的硬盤(pán)做rebuild,并沒(méi)有將掉線的硬盤(pán)拔掉,現(xiàn)已有過(guò)3塊掉線磁盤(pán),所以服務(wù)器中有3塊多余硬盤(pán)。
服務(wù)器管理員推斷服務(wù)器癱瘓的原因是陣列中硬盤(pán)出現(xiàn)硬件故障導(dǎo)致服務(wù)器癱瘓,于是將所有硬盤(pán)交給硬件數(shù)據(jù)恢復(fù)工程師對(duì)硬件進(jìn)行物理檢測(cè)。硬件數(shù)據(jù)恢復(fù)工程師對(duì)服務(wù)器中所有硬盤(pán)逐一進(jìn)行物理檢測(cè)后并沒(méi)有發(fā)現(xiàn)硬盤(pán)存在物理故障,只好由服務(wù)器數(shù)據(jù)恢復(fù)工程師對(duì)所有硬盤(pán)做全盤(pán)鏡像后對(duì)服務(wù)器riad進(jìn)行分析。
【服務(wù)器數(shù)據(jù)恢復(fù)】
按照數(shù)據(jù)恢復(fù)流程對(duì)所有磁盤(pán)進(jìn)行鏡像備份后,服務(wù)器數(shù)據(jù)恢復(fù)工程師開(kāi)始對(duì)服務(wù)器raid結(jié)構(gòu)進(jìn)行分析;服務(wù)器數(shù)據(jù)恢復(fù)工程師分析后發(fā)現(xiàn)該服務(wù)器中的硬盤(pán)每512字節(jié)多加了一個(gè)8字節(jié)的校驗(yàn),也就是變成了每扇區(qū)520字節(jié)了。如此一來(lái)繼續(xù)進(jìn)行raid結(jié)構(gòu)分析將十分困難,為了提高工作效率,服務(wù)器數(shù)據(jù)恢復(fù)工程師自己編寫(xiě)了一個(gè)小程序?qū)?字節(jié)的校驗(yàn)去掉來(lái)方便后期的工作。
所有磁盤(pán)都轉(zhuǎn)換完成后,工程師繼續(xù)分析RAID的結(jié)構(gòu)。由于多了3塊以前的舊盤(pán),需要通過(guò)比較每塊磁盤(pán),即其中會(huì)有兩塊磁盤(pán)前面的一部分相同,而這兩塊當(dāng)中會(huì)有一個(gè)是舊的,舊的數(shù)據(jù)量沒(méi)有新盤(pán)多,就可以排除舊的磁盤(pán)。這樣的磁盤(pán)會(huì)有3對(duì),也就可以排除所有舊的磁盤(pán)了。
接下來(lái)看RAID結(jié)構(gòu),由于客戶用的NTFS文件系統(tǒng),用MFT很容易就可以找到RAID的結(jié)構(gòu)了。知道RAID結(jié)構(gòu)后發(fā)現(xiàn)這不是一個(gè)普通的RAID 5,而是一個(gè)雙循環(huán)。無(wú)法借助數(shù)據(jù)恢復(fù)工具重組RAID,只好轉(zhuǎn)為其他方式重組raid陣列!重組RAID后發(fā)現(xiàn)數(shù)據(jù)不是最新的。服務(wù)器數(shù)據(jù)恢復(fù)工程師猜測(cè)可能是RAID 5先掉線一塊硬盤(pán)時(shí)管理員沒(méi)有及時(shí)發(fā)現(xiàn),沒(méi)有及時(shí)添加新的硬盤(pán)做rebuild。導(dǎo)致運(yùn)行一段時(shí)間后又有一塊硬盤(pán)掉線了,才造成整個(gè)RAID不可用。所以還需要找出一塊舊的磁盤(pán),才能生成最新的數(shù)據(jù)。繼續(xù)進(jìn)行找盤(pán)的工作!服務(wù)器數(shù)據(jù)恢復(fù)工程師采用窮舉加校驗(yàn)的方法進(jìn)行分析,即假設(shè)某個(gè)磁盤(pán)是掉線的,踢掉磁盤(pán)后重組RAID,但不是生成全部的數(shù)據(jù),而是只生成前面5G的數(shù)據(jù),我們只需要查看這個(gè)索引表的位圖的信息是否正確就可以判斷此RAID是否正確。如果正確那么生成此RAID的數(shù)據(jù)即可完成RAID的重組
【服務(wù)器數(shù)據(jù)恢復(fù)成功】
? ? ? ?整個(gè)恢復(fù)過(guò)程,包括做鏡像,扇區(qū)轉(zhuǎn)換和最后的拷貝數(shù)據(jù),一共耗時(shí)3天。數(shù)據(jù)恢復(fù)率達(dá)百分之九十九以上。雖然整個(gè)過(guò)程比較漫長(zhǎng),但是最終的結(jié)果用戶很高興,因?yàn)檫@給他們帶來(lái)了不必要的損失。
評(píng)論
查看更多