服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境:
某品牌存儲(chǔ),12塊SAS硬盤組建RAID6磁盤陣列,劃分一個(gè)卷,分配給幾臺(tái)Vmware ESXI主機(jī)做共享存儲(chǔ)。
卷中存放了大量的Windows虛擬機(jī),虛擬機(jī)通過(guò)模板創(chuàng)建的,系統(tǒng)盤大小一致,數(shù)據(jù)盤大小不確定,數(shù)據(jù)盤都是精簡(jiǎn)模式。
服務(wù)器故障:
機(jī)房意外斷電,電力供應(yīng)恢復(fù)正常后存儲(chǔ)無(wú)法正常開機(jī)使用。經(jīng)過(guò)用戶方工程師診斷,初步判斷是意外斷電導(dǎo)致的存儲(chǔ)設(shè)備中的磁盤陣列損壞。
服務(wù)器數(shù)據(jù)恢復(fù)過(guò)程:
1、嘗試將故障存儲(chǔ)中所有磁盤以只讀方式做全盤鏡像備份,后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進(jìn)行,避免對(duì)原始磁盤數(shù)據(jù)造成二次破壞。
北亞企安數(shù)據(jù)恢復(fù)——raid6數(shù)據(jù)恢復(fù)
2、在鏡像的過(guò)程中發(fā)現(xiàn)大量損壞扇區(qū)。初步判斷是因?yàn)檫@類硬盤的讀取機(jī)制與常規(guī)硬盤不一樣。嘗試更換主機(jī)、HBA卡、擴(kuò)展柜和操作系統(tǒng),均出現(xiàn)相同的故障。與用戶方工程師溝通后得知raid控制器對(duì)磁盤并沒有特殊要求。
3、對(duì)硬盤損壞扇區(qū)的分布規(guī)律進(jìn)行檢測(cè),發(fā)現(xiàn)以下規(guī)律:
a、損壞扇區(qū)以256個(gè)扇區(qū)為單位分布。
b、除了損壞扇區(qū)片斷的起始位置不固定,后面的損壞扇區(qū)都是以2816個(gè)扇區(qū)為間隔。
所有磁盤的損壞扇區(qū)分布如下表(只列出前3個(gè)損壞扇區(qū)):
北亞企安數(shù)據(jù)恢復(fù)——raid6數(shù)據(jù)恢復(fù)
4、北亞企安數(shù)據(jù)恢復(fù)工程師編寫小程序?qū)γ總€(gè)磁盤的損壞扇區(qū)做繞過(guò)處理,用此程序鏡像完所有磁盤的數(shù)據(jù)。
5、基于鏡像文件分析損壞扇區(qū),發(fā)現(xiàn)損壞扇區(qū)呈規(guī)律性出現(xiàn):
a、每段損壞扇區(qū)的區(qū)域大小為256。
b、損壞扇區(qū)分布為固定區(qū)域,每跳過(guò)11個(gè)256扇區(qū)就會(huì)遇到一個(gè)壞的256扇區(qū)。
c、損壞扇區(qū)的位置總是位于RAID的P校驗(yàn)或Q校驗(yàn)區(qū)域。
d、所有磁盤中只有10號(hào)盤有一個(gè)自然壞道。
6、通過(guò)分析扇區(qū)得知分區(qū)大小(扇區(qū)數(shù))。按照RAID6的模式計(jì)算后得出的結(jié)果和raid控制器中保留的RAID信息區(qū)域大小吻合。根據(jù)物理硬盤底層表現(xiàn),分區(qū)表大小為512字節(jié),后面無(wú)8字節(jié)校驗(yàn),大量的0扇區(qū)也無(wú)8字節(jié)校驗(yàn)。綜合以上信息可以確定故障存儲(chǔ)并未啟用DA技術(shù)(520字節(jié)扇區(qū))。
分區(qū)大小如下圖(GPT分區(qū)表項(xiàng)底層表現(xiàn),涂色部分表示分區(qū)大小,單位512字節(jié)扇區(qū),64bit):
北亞企安數(shù)據(jù)恢復(fù)——raid6數(shù)據(jù)恢復(fù)
7、重組RAID。
a、存儲(chǔ)使用的是標(biāo)準(zhǔn)的RAID6陣列。整個(gè)存儲(chǔ)被劃分為一個(gè)卷并分配給幾臺(tái)ESXI做共享存儲(chǔ),因此卷的文件系統(tǒng)是VMFS。VMFS卷中存放了大量的Windows虛擬機(jī),Windows虛擬機(jī)使用的NTFS文件系統(tǒng),可以根據(jù)NTFS中的MFT的順序分析出RAID條帶的大小以及RAID的走向。
b、鏡像完所有磁盤后發(fā)現(xiàn)最后一塊硬盤并沒有像其他磁盤一樣有大量的壞道。這塊磁盤中有大量的未損壞扇區(qū),這些未損壞扇區(qū)基本上是全0扇區(qū),可以判斷這塊硬盤是熱備盤。
c、根據(jù)分析出來(lái)的RAID相關(guān)信息重組RAID。
重組完成后可以看到目錄結(jié)構(gòu),但是不確定是否為最新狀態(tài)。檢測(cè)幾個(gè)虛擬機(jī)發(fā)現(xiàn)有部分虛擬機(jī)的數(shù)據(jù)異常,初步判斷RAID中存在掉線的磁盤。將RAID中的每一塊磁盤依次踢掉后再查看剛才數(shù)據(jù)異常的地方,沒有發(fā)現(xiàn)問(wèn)題原因。
仔細(xì)分析底層數(shù)據(jù)發(fā)現(xiàn)問(wèn)題不是出在RAID層面,而是出在VMFS文件系統(tǒng)層面。如果VMFS文件系統(tǒng)大于16TB,就會(huì)存在一些其他的記錄信息,組建RAID時(shí)候需要跳過(guò)這些記錄信息。再次重組RAID后查看以前數(shù)據(jù)異常的地方,發(fā)現(xiàn)問(wèn)題已經(jīng)解決了。
挑選其中的一臺(tái)虛擬機(jī)做驗(yàn)證,將所有磁盤加入RIAD中后,發(fā)現(xiàn)這臺(tái)虛擬機(jī)是可以啟動(dòng)的,但在缺盤的情況下啟動(dòng)就出現(xiàn)問(wèn)題。因此可以判斷該RAID在不缺盤的狀態(tài)下為最佳。
8、驗(yàn)證虛擬機(jī)。
對(duì)重要的虛擬機(jī)做驗(yàn)證,發(fā)現(xiàn)大部分虛擬機(jī)可以開機(jī)進(jìn)入登錄界面。只有有少部分虛擬機(jī)開機(jī)藍(lán)屏或開機(jī)檢測(cè)磁盤,但是經(jīng)過(guò)光盤修復(fù)之后都可以正常啟動(dòng)。
北亞企安數(shù)據(jù)恢復(fù)——raid6數(shù)據(jù)恢復(fù)
9、驗(yàn)證數(shù)據(jù)庫(kù)。
針對(duì)重要虛擬機(jī)中的數(shù)據(jù)庫(kù)做驗(yàn)證,數(shù)據(jù)庫(kù)都正常。但是有一個(gè)數(shù)據(jù)庫(kù),據(jù)用戶描述好像缺少部分?jǐn)?shù)據(jù),但是經(jīng)過(guò)仔細(xì)核對(duì)后發(fā)現(xiàn)這些數(shù)據(jù)在數(shù)據(jù)庫(kù)中本來(lái)就不存在。通過(guò)查詢master數(shù)據(jù)庫(kù)中的系統(tǒng)視圖,查出所有數(shù)據(jù)庫(kù)信息如下:
北亞企安數(shù)據(jù)恢復(fù)——raid6數(shù)據(jù)恢復(fù)
10、檢查VMFS卷的完整性。
由于虛擬機(jī)數(shù)量較大,對(duì)每臺(tái)虛擬機(jī)進(jìn)行驗(yàn)證不太現(xiàn)實(shí)。所以我們對(duì)整個(gè)VMFS卷做檢測(cè),在檢測(cè)VMFS卷的過(guò)程中發(fā)現(xiàn)部分虛擬機(jī)或虛擬機(jī)文件被破壞。
北亞企安數(shù)據(jù)恢復(fù)——raid6數(shù)據(jù)恢復(fù)
11、批量恢復(fù)數(shù)據(jù)。
準(zhǔn)備目標(biāo)磁盤,組建一個(gè)RAID陣列。將重組的RAID數(shù)據(jù)鏡像到目標(biāo)陣列上,然后利用北亞企安自研程序解析整個(gè)VMFS文件系統(tǒng)&提取VMFS卷。
12、移交數(shù)據(jù)。
在北亞企安數(shù)據(jù)恢復(fù)工程師的協(xié)助下,將恢復(fù)出來(lái)的數(shù)據(jù)遷移到用戶方準(zhǔn)備好的環(huán)境中。
審核編輯:湯梓紅
-
存儲(chǔ)
+關(guān)注
關(guān)注
13文章
4226瀏覽量
85575 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
8958瀏覽量
85081 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
538瀏覽量
17341
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論