服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境&故障:
一臺emc某型號存儲服務(wù)器,存儲服務(wù)器上組建了一組raid5磁盤陣列,陣列中有兩塊磁盤作為熱備盤使用。存儲服務(wù)器在運(yùn)行過程中有兩塊磁盤出現(xiàn)故障離線,但是只有一塊熱備盤激活,最終導(dǎo)致該raid5陣列崩潰,上層應(yīng)用無法正常使用。
服務(wù)器故障檢測:
將故障存儲服務(wù)器中所有磁盤編號后取出,由硬件工程師對兩塊掉線的硬盤進(jìn)行物理故障檢測,經(jīng)過檢測發(fā)現(xiàn)這2塊離線的磁盤確實(shí)存在物理故障,需要對這2塊盤進(jìn)行物理故障修復(fù)后才能進(jìn)行下一步的數(shù)據(jù)恢復(fù),存儲服務(wù)器中其他硬盤經(jīng)過檢測沒有發(fā)現(xiàn)存在物理故障及壞道。
將故障存儲服務(wù)器中的完好硬盤以只讀方式進(jìn)行扇區(qū)級的全盤鏡像。針對存在物理故障的2塊磁盤,由硬件工程師進(jìn)行開盤處理后使用專業(yè)工具進(jìn)行全盤鏡像。由于故障存儲服務(wù)器中所有磁盤的扇區(qū)大小為520字節(jié),在進(jìn)行數(shù)據(jù)恢復(fù)之前需要將所有鏡像數(shù)據(jù)做520字節(jié)to512字節(jié)的轉(zhuǎn)換。
服務(wù)器數(shù)據(jù)恢復(fù)過程:
1、基于鏡像文件分析所有磁盤底層數(shù)據(jù),經(jīng)過分析發(fā)現(xiàn)故障存儲服務(wù)器中的兩塊熱備盤是空的,沒有寫入任何數(shù)據(jù),據(jù)此推斷有一塊熱備盤雖然上線,但此時raid陣列仍處于缺盤狀態(tài),數(shù)據(jù)并沒有開始同步。
2、通過分析底層數(shù)據(jù)獲取到條帶大小、磁盤順序等raid陣列結(jié)構(gòu)基礎(chǔ)信息,利用這些信息虛擬重組raid5陣列。
3、由于該型號存儲服務(wù)器的LUN是基于RAID5陣列的,在raid5陣列重組完成之后,需要分析LUN在RAID陣列中的分配信息以及LUN分配的數(shù)據(jù)塊MAP。
4、根據(jù)上一步獲取到的信息,使用北亞企安自研程序解釋LUN的數(shù)據(jù)MAP并導(dǎo)出LUN的所有數(shù)據(jù)。
5、使用北亞企安自研的ZFS文件系統(tǒng)解釋程序?qū)ι傻腖UN做文件系統(tǒng)解釋,但是在解釋某些文件系統(tǒng)元文件的時候程序報錯。開發(fā)工程師對該解釋程序做debug調(diào)試并分析程序報錯原因,與此同時,文件系統(tǒng)工程師分析ZFS文件系統(tǒng)是否存在問題。經(jīng)過數(shù)小時的分析與調(diào)試,最終確認(rèn)導(dǎo)致程序無法正常解釋ZFS文件系統(tǒng)的原因:ZFS文件系統(tǒng)中某些元文件損壞。對損壞的元文件進(jìn)行分析,發(fā)現(xiàn)ZFS文件系統(tǒng)正在進(jìn)行I/O操作的時候存儲服務(wù)器癱瘓,導(dǎo)致部分文件系統(tǒng)元文件損壞。
6、北亞企安數(shù)據(jù)恢復(fù)工程師對損壞的ZFS文件系統(tǒng)元文件進(jìn)行手工修復(fù),直到ZFS文件系統(tǒng)能夠正常解析。
7、對修復(fù)后的ZFS文件系統(tǒng)進(jìn)行解析并驗(yàn)證數(shù)據(jù)。經(jīng)過用戶方工程師的仔細(xì)驗(yàn)證,確認(rèn)存儲服務(wù)器內(nèi)所有數(shù)據(jù)成功恢復(fù)。本次存儲服務(wù)器數(shù)據(jù)恢復(fù)工作完成。
審核編輯 黃宇
-
存儲
+關(guān)注
關(guān)注
13文章
4226瀏覽量
85575 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
8958瀏覽量
85082 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
538瀏覽量
17341 -
emc
+關(guān)注
關(guān)注
169文章
3851瀏覽量
182720 -
RAID5
+關(guān)注
關(guān)注
0文章
108瀏覽量
12700
發(fā)布評論請先 登錄
相關(guān)推薦
評論