服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境:
某品牌服務(wù)器中有4塊SAS硬盤組建了一組RAID5陣列,另外1塊磁盤作為熱備盤使用。上層操作系統(tǒng)為redhat linux,部署了一個數(shù)據(jù)庫是oracle的OA。
服務(wù)器故障&初檢:
RAID5中一塊磁盤離線后熱備盤未自動激活rebuild,之后另外一塊磁盤離線,RAID5陣列崩潰。因為oracle已經(jīng)不再對服務(wù)器中部署的oa提供后續(xù)支持,用戶聯(lián)系我們數(shù)據(jù)恢復(fù)中心要求恢復(fù)數(shù)據(jù)和復(fù)原操作系統(tǒng)。
將故障服務(wù)器中所有磁盤編號后取出,由硬件工程師對所有磁盤進行檢測。經(jīng)過檢測發(fā)現(xiàn)熱備盤根本沒有啟用,不存在物理故障,無明顯同步表現(xiàn)。
服務(wù)器數(shù)據(jù)恢復(fù)&操作系統(tǒng)復(fù)原過程:
1、將故障服務(wù)器中所有磁盤以只讀方式做完整鏡像,鏡像過程中發(fā)現(xiàn)后離線的磁盤有十幾個壞扇區(qū),其余磁盤均沒有發(fā)現(xiàn)有壞道。鏡像完成后將所有磁盤按照編號還原到原服務(wù)器中,后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)都基于鏡像文件進行,避免對原始磁盤數(shù)據(jù)造成二次破壞。
2、基于鏡像文件分析RAID5結(jié)構(gòu)信息,獲取到盤序,塊大小,backward parity(Adaptec)等RAID相關(guān)信息。
北亞企安數(shù)據(jù)恢復(fù)——raid5數(shù)據(jù)恢復(fù)
3、根據(jù)上一步獲取到的RAID相關(guān)信息虛擬重組RAID并驗證數(shù)據(jù),發(fā)現(xiàn)200M以上的壓縮包解壓無報錯,確定結(jié)構(gòu)正確。
4、按照此RAID結(jié)構(gòu)生成虛擬RAID到一塊單硬盤上,打開文件系統(tǒng)沒有發(fā)現(xiàn)明顯報錯。
5、得到用戶授權(quán)后在原盤重建RAID(重建時已經(jīng)用全新硬盤更換發(fā)現(xiàn)壞道的后離線磁盤)。
6、將恢復(fù)好的單盤用USB方式接入故障服務(wù)器,用linux SystemRescueCd啟動故障服務(wù)器,然后使用dd命令全盤回寫。
7、回寫完成后啟動操作系統(tǒng),但是無法進入系統(tǒng),報錯信息為:/etc/rc.d/rc.sysinit:Line 1:/sbin/pidof:Permission denied。
8、懷疑此文件權(quán)限有問題,用SystemRescueCd重啟后檢查,此文件時間,權(quán)限,大小均有明顯錯誤,顯然是節(jié)點損壞導(dǎo)致的錯誤。
9、重新分析重組數(shù)據(jù)中的根分區(qū),定位出錯的/sbin/pidof,發(fā)現(xiàn)錯誤是由后離線的那塊磁盤上的壞道所引起。
10、使用完好的3塊盤對后離線的那塊盤的損壞區(qū)域進行xor補齊。補齊后重新校驗文件系統(tǒng)仍然出現(xiàn)錯誤。再次檢查inode表,發(fā)現(xiàn)后離線磁盤損壞區(qū)域有部分節(jié)點表現(xiàn)異常。
北亞企安數(shù)據(jù)恢復(fù)——raid5數(shù)據(jù)恢復(fù)
雖然節(jié)點中描述的uid正常存在,但屬性,大小和最初的分配塊都是錯誤的。按照所有可能進行分析,但是沒有找到方法找回此損壞節(jié)點。只能試圖修復(fù)此節(jié)點或復(fù)制一個相同的文件過來。
11、針對所有可能存在錯誤的文件,北亞企安數(shù)據(jù)恢復(fù)工程師通過日志確定原節(jié)點塊的節(jié)點信息,然后做修正。
12、修正后重新dd根分區(qū),執(zhí)行fsck -fn /dev/sda5依然報錯。
北亞企安數(shù)據(jù)恢復(fù)——raid5數(shù)據(jù)恢復(fù)
根據(jù)報錯信息,北亞企安數(shù)據(jù)恢復(fù)工程師在系統(tǒng)中發(fā)現(xiàn)有多個節(jié)點共用同樣的數(shù)據(jù)塊。按此提示分析底層,發(fā)現(xiàn)存在節(jié)點信息的新舊交集。
13、按照節(jié)點所屬的文件進行區(qū)分,清除錯誤節(jié)點后再次執(zhí)行fsck -fn /dev/sda5,依然有少量報錯。根據(jù)報錯信息,發(fā)現(xiàn)這些節(jié)點多位于doc目錄下,不影響系統(tǒng)啟動,于是直接執(zhí)行fsck -fy /dev/sda5強行修復(fù)。
14、修復(fù)完成后重啟系統(tǒng),成功進入系統(tǒng)桌面。
15、啟動oracle數(shù)據(jù)庫服務(wù),啟動OA,一切正常無報錯。
16、由用戶方對恢復(fù)的操作系統(tǒng)和數(shù)據(jù)(OA和oracle數(shù)據(jù)庫)進行檢測,經(jīng)過用戶方多方檢測,確認恢復(fù)數(shù)據(jù)完整有效。本次數(shù)據(jù)恢復(fù)工作完成。
審核編輯 黃宇
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
8963瀏覽量
85087 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
539瀏覽量
17345 -
RAID5
+關(guān)注
關(guān)注
0文章
108瀏覽量
12700
發(fā)布評論請先 登錄
相關(guān)推薦
評論