服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境:
華為s系列服務(wù)器;
24塊硬盤組成一組raid5磁盤陣列,其中包含1塊熱備盤。
服務(wù)器故障&檢測:
服務(wù)器工作狀態(tài)下raid5中有一塊硬盤離線,熱備盤激活替換離線硬盤并開始進行數(shù)據(jù)同步,在同步的過程中該raid5陣列內(nèi)的另一塊硬盤由于未知原因離線,上層應(yīng)用崩潰,服務(wù)器內(nèi)的數(shù)據(jù)丟失。
拿到故障服務(wù)器內(nèi)的所有硬盤后,硬件工程師對所有硬盤進行物理故障檢測,發(fā)現(xiàn)除了其中的一塊硬盤外,其他硬盤均可以正常讀取無物理故障。
服務(wù)器數(shù)據(jù)恢復(fù)過程:
1、將故障服務(wù)器內(nèi)所有硬盤以只讀方式做完整的鏡像備份,后續(xù)數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進行,避免對原始數(shù)據(jù)造成二次破壞。
2、由于華為s系列服務(wù)器的控制器的磁盤檢測策略非常嚴格。對于沒有物理故障但性能不穩(wěn)定的硬盤,控制器會將其視作壞盤踢出陣列。之前檢測到只有一塊硬盤存在物理故障,因此故障服務(wù)器中掉線的兩塊盤中另外一塊是因為讀寫不穩(wěn)定被視作壞盤踢出而掉線。
3、對每一塊硬盤底層進行分析,獲取到raid陣列的條帶大小、數(shù)據(jù)走向、硬盤順序、熱備盤、數(shù)據(jù)庫的分布規(guī)律等raid相關(guān)信息。根據(jù)分析獲取到的raid陣列信息重組raid。
4、根據(jù)分析獲取到的陣列相關(guān)信息,使用北亞企安自主研發(fā)的工具重組原始raid5陣列。
5、在重組過程中發(fā)現(xiàn)有一塊硬盤內(nèi)的數(shù)據(jù)在同步時候被破壞。由于在數(shù)據(jù)恢復(fù)過程中需要將數(shù)據(jù)被損壞的硬盤排除,于是數(shù)據(jù)恢復(fù)工程師對所有硬盤進行了底層數(shù)據(jù)結(jié)構(gòu)的對比。對比發(fā)現(xiàn)其中一塊硬盤在相同條帶上的數(shù)據(jù)與其他硬盤明顯不同。
6、使用北亞自主研發(fā)的raid校驗程序?qū)υ撚脖P進行條帶校驗,確認該硬盤數(shù)據(jù)已經(jīng)在同步的時候被破壞。排除這塊硬盤后重組raid5磁盤陣列。
7、完成raid陣列重組后,分析lun在raid中的分配情況及數(shù)據(jù)塊map。只要能將map完整提取出來,就可以進行解析并提取lun數(shù)據(jù)。
8、北亞企安數(shù)據(jù)恢復(fù)工程師編寫文件系統(tǒng)解析程序?qū)﹃嚵袃?nèi)文件系統(tǒng)進行解析并導(dǎo)出數(shù)據(jù)庫文件。
9、由數(shù)據(jù)庫工程師對提取的數(shù)據(jù)庫文件進行校驗和修復(fù)。數(shù)據(jù)庫工程師對數(shù)據(jù)庫文件進行驗證后發(fā)現(xiàn)部分數(shù)據(jù)庫文件及日志文件異常,表空間內(nèi)存在大量壞塊、所有控制文件被破壞,undotbs02丟失,數(shù)據(jù)庫工程師對數(shù)據(jù)庫文件進行了修復(fù)。
修復(fù)過程:
北亞企安數(shù)據(jù)恢復(fù)——oracle數(shù)據(jù)庫數(shù)據(jù)恢復(fù)
北亞企安數(shù)據(jù)恢復(fù)——oracle數(shù)據(jù)庫數(shù)據(jù)恢復(fù)
數(shù)據(jù)驗證:
經(jīng)過數(shù)據(jù)庫工程師對數(shù)據(jù)庫文件的修復(fù)和驗證,最終恢復(fù)出所有的數(shù)據(jù)庫文件。服務(wù)器數(shù)據(jù)恢復(fù)工程師將修復(fù)成功的數(shù)據(jù)庫數(shù)據(jù)導(dǎo)入到準備好的環(huán)境中進行驗證,所有數(shù)據(jù)正常。聯(lián)系用戶親自對數(shù)據(jù)進行驗證均無異常。本次數(shù)據(jù)恢復(fù)工作完成。
審核編輯:湯梓紅
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
8947瀏覽量
85065 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
537瀏覽量
17339 -
RAID5
+關(guān)注
關(guān)注
0文章
108瀏覽量
12698
發(fā)布評論請先 登錄
相關(guān)推薦
評論