服務(wù)器存儲(chǔ)數(shù)據(jù)恢復(fù)環(huán)境:
某品牌服務(wù)器存儲(chǔ)中有一組由6塊SAS硬盤組建的RAID5陣列,其中有1塊硬盤作為熱備盤使用。上層劃分若干lun,存放Oracle數(shù)據(jù)庫(kù)數(shù)據(jù)。
服務(wù)器存儲(chǔ)故障&分析:
該RAID5陣列中一塊硬盤出現(xiàn)故障離線,熱備盤自動(dòng)激活替換故障硬盤,熱備盤同步數(shù)據(jù)的過程中該raid5陣列中又有一塊硬盤出現(xiàn)故障,RAID5陣列癱瘓,上層LUN無(wú)法正常訪問。
因?yàn)楸景咐写鎯?chǔ)控制器的磁盤檢查策略嚴(yán)格,一旦某些磁盤性能不穩(wěn)定,該型號(hào)存儲(chǔ)控制器就將該塊磁盤識(shí)別為壞盤,并將該塊磁盤踢出RAID。一旦RAID中掉線的盤數(shù)到超過RAID級(jí)別允許掉盤的最大數(shù)量,該RAID將不可用,上層基于RAID的LUN也無(wú)法訪問,從而導(dǎo)致重要數(shù)據(jù)丟失。
服務(wù)器數(shù)據(jù)恢復(fù)過程:
1、將故障服務(wù)器存儲(chǔ)中所有磁盤編號(hào)后取出,由硬件工程師對(duì)所有磁盤做物理故障檢測(cè),經(jīng)過檢測(cè)發(fā)現(xiàn)有一塊硬盤存在物理故障,其他硬盤沒有發(fā)現(xiàn)明顯物理故障。將所有完好磁盤以只讀方式進(jìn)行扇區(qū)級(jí)全盤鏡像。針對(duì)那塊故障磁盤,由專業(yè)工具處理后做鏡像。鏡像完成所有磁盤后,按照編號(hào)將所有磁盤還原到原服務(wù)器中,后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進(jìn)行,避免對(duì)原始磁盤數(shù)據(jù)造成二次破壞。
2、分析RAID組結(jié)構(gòu)
該品牌服務(wù)器存儲(chǔ)的LUN是基于RAID的。北亞企安數(shù)據(jù)恢復(fù)工程師基于鏡像文件分析底層RAID的信息,通過分析找到了熱備盤。繼續(xù)分析其他硬盤的底層數(shù)據(jù),分析Oracle數(shù)據(jù)庫(kù)頁(yè)在每個(gè)磁盤中分布的情況,并根據(jù)數(shù)據(jù)分布的情況得出RAID組的條帶大小,磁盤順序及數(shù)據(jù)走向等RAID的重要信息,然后根據(jù)分析獲取到的信息虛擬重構(gòu)原RAID。
3、完成重組raid后,分析LUN在RAID中的分配情況,以及LUN分配的數(shù)據(jù)塊MAP。只需要將LUN的數(shù)據(jù)塊分布MAP提取出來(lái),然后針對(duì)這些信息編寫相應(yīng)的程序,解析LUN的數(shù)據(jù)MAP,然后根據(jù)數(shù)據(jù)MAP導(dǎo)出LUN的數(shù)據(jù)。
4、服務(wù)器存儲(chǔ)數(shù)據(jù)恢復(fù)方案:
a、數(shù)據(jù)恢復(fù)實(shí)施方案一
將Oracle數(shù)據(jù)庫(kù)數(shù)據(jù)所在的LUN進(jìn)行JFS2文件系統(tǒng)解析,人工修復(fù)文件系統(tǒng)不完整的地方。利用北亞企安自主開發(fā)的JFS2文件系統(tǒng)解析工具解析恢復(fù)的LUN,恢復(fù)文件系統(tǒng)中所有的Oracle數(shù)據(jù)庫(kù)文件,并檢測(cè)Oracle數(shù)據(jù)庫(kù)文件的完整性。
針對(duì)檢測(cè)出有壞塊的數(shù)據(jù)庫(kù)文件,掃描所有磁盤中的Oracle數(shù)據(jù)頁(yè)碎片,組合掃描出來(lái)的數(shù)據(jù)頁(yè),通過人工將有壞塊的數(shù)據(jù)庫(kù)文件填補(bǔ)修復(fù)完整。
在恢復(fù)完所有Oracle數(shù)據(jù)庫(kù)之后,發(fā)現(xiàn)其上層應(yīng)用SAP還是無(wú)法使用。SAP應(yīng)用的一些重要數(shù)據(jù)存放在損壞的存儲(chǔ)中,如果缺失這些數(shù)據(jù),SAP即使在數(shù)據(jù)庫(kù)完整的情況下也無(wú)法正常使用,因此還需通過方案二來(lái)恢復(fù)所有SAP的重要數(shù)據(jù)。
b、數(shù)據(jù)恢復(fù)實(shí)施方案二
對(duì)恢復(fù)的所有LUN都進(jìn)行文件系統(tǒng)解析,并將存放SAP的數(shù)據(jù)LUN做文件系統(tǒng)一致性檢測(cè)。對(duì)文件系統(tǒng)不完整的部分通過人工進(jìn)行修復(fù),恢復(fù)所有SAP及SAP Test的數(shù)據(jù)。
檢測(cè)SAP數(shù)據(jù),并修復(fù)損壞的SAP數(shù)據(jù),確?;謴?fù)出來(lái)的所有SAP數(shù)據(jù)均完整,這樣才能保證SAP應(yīng)用啟動(dòng)。
結(jié)合恢復(fù)出來(lái)的SAP數(shù)據(jù)和數(shù)據(jù)庫(kù),啟動(dòng)SAP及所有應(yīng)用即可。
5、啟動(dòng)并修復(fù)Oracle數(shù)據(jù)及SAP應(yīng)用
a、啟動(dòng)數(shù)據(jù)庫(kù)并修復(fù)
將恢復(fù)出來(lái)的數(shù)據(jù)庫(kù)文件還原到搭建好的環(huán)境中,嘗試啟動(dòng)數(shù)據(jù)庫(kù)。由于數(shù)據(jù)庫(kù)的一些臨時(shí)文件校驗(yàn)不一致導(dǎo)致數(shù)據(jù)庫(kù)啟動(dòng)失敗。Oracle數(shù)據(jù)庫(kù)工程師對(duì)數(shù)據(jù)庫(kù)進(jìn)行修復(fù)后,數(shù)據(jù)庫(kù)啟動(dòng)沒有問題,數(shù)據(jù)庫(kù)中的所有用戶及所有表均完整,嘗試啟動(dòng)SAP。
b、啟動(dòng)SAP并修復(fù)
將恢復(fù)出來(lái)的SAP文件還原到已搭建好的環(huán)境中,并按照之前的啟動(dòng)腳本啟動(dòng)SAP,SAP啟動(dòng)正常,但SAP中用戶權(quán)限及使用不正常,SAP表現(xiàn)為沒有序列號(hào)。數(shù)據(jù)恢復(fù)工程師懷疑SAP的注冊(cè)文件沒有恢復(fù)出來(lái)。重新檢測(cè)恢復(fù)過程,排查可能疏忽的步驟,最后查明文件系統(tǒng)的損壞導(dǎo)致某些文件沒有恢復(fù)。重新修復(fù)文件系統(tǒng)&恢復(fù)這些數(shù)據(jù)。啟動(dòng)SAP正常,SAP使用正常。
6、由用戶方配合,啟動(dòng)Oracle數(shù)據(jù)庫(kù),啟動(dòng)SAP,并通過SAP客戶端驗(yàn)證SAP中所有的數(shù)據(jù)的完整性,經(jīng)過驗(yàn)證,用戶方確認(rèn)數(shù)據(jù)完整有效,SAP正常使用。本次數(shù)據(jù)恢復(fù)工作完成。
審核編輯 黃宇
-
硬盤
+關(guān)注
關(guān)注
3文章
1283瀏覽量
57199 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
8958瀏覽量
85082 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
538瀏覽量
17341 -
RAID5
+關(guān)注
關(guān)注
0文章
108瀏覽量
12700 -
Oracle
+關(guān)注
關(guān)注
2文章
286瀏覽量
35086
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論