服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境:
某公司網(wǎng)站服務(wù)器,6塊SCSI硬盤(pán)組建raid5磁盤(pán)陣列;
服務(wù)器上層:linux操作系統(tǒng)+EXT3文件系統(tǒng)。
服務(wù)器故障&分析:
服務(wù)器在工作狀態(tài)下raid5磁盤(pán)陣列中的一塊硬盤(pán)由于未知原因離線。因?yàn)閞aid5中的一塊硬盤(pán)掉線并不會(huì)影響磁盤(pán)陣列的正常工作,服務(wù)器沒(méi)有出現(xiàn)異常,直到該raid5磁盤(pán)陣列中又有一塊硬盤(pán)掉線,服務(wù)器癱瘓。
管理員發(fā)現(xiàn)服務(wù)故障后,對(duì)raid5磁盤(pán)陣列進(jìn)行了檢查,但是不能確定這兩塊硬盤(pán)的離線順序,抱著碰運(yùn)氣的想法選擇了其中一塊離線硬盤(pán)嘗試強(qiáng)制上線操作。將這塊硬盤(pán)強(qiáng)制上線后發(fā)現(xiàn)操作系統(tǒng)啟動(dòng)時(shí)出現(xiàn)異常,為了避免再次對(duì)數(shù)據(jù)造成破壞,管理員將服務(wù)器關(guān)機(jī),之后沒(méi)有進(jìn)行任何操作。
在過(guò)去十多年中,北亞企安數(shù)據(jù)恢復(fù)工程師們經(jīng)常遇到類似的raid5故障:由于發(fā)現(xiàn)不及時(shí)或者第一塊硬盤(pán)掉線時(shí)不在意并沒(méi)有及時(shí)處理,當(dāng)?shù)诙K硬盤(pán)甚至更多的硬盤(pán)掉線時(shí),磁盤(pán)陣列徹底崩潰。第二塊磁盤(pán)掉線后對(duì)后離線的硬盤(pán)進(jìn)行強(qiáng)制上線具有一定的可操作性行,但是也有很大的風(fēng)險(xiǎn)。
強(qiáng)制上線最好由經(jīng)驗(yàn)豐富的管理員或者數(shù)據(jù)恢復(fù)工程師進(jìn)行操作,而且強(qiáng)制上線之前必須做好備份工作。這個(gè)案例就是管理員在沒(méi)有備份,也沒(méi)有搞清楚硬盤(pán)離線順序的情況下進(jìn)行了強(qiáng)制上線操作,最終導(dǎo)致數(shù)據(jù)丟失,服務(wù)器崩潰。
服務(wù)器數(shù)據(jù)恢復(fù)過(guò)程:
1、將故障服務(wù)器內(nèi)的所有硬盤(pán)編號(hào)后取出,以只讀方式對(duì)所有硬盤(pán)進(jìn)行鏡像備份。后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進(jìn)行,避免對(duì)原始數(shù)據(jù)造成二次破壞。
2、在鏡像過(guò)程中發(fā)現(xiàn)除了已經(jīng)掉線的兩塊硬盤(pán)外,其他沒(méi)有掉線硬盤(pán)存在壞道,由于這些硬盤(pán)沒(méi)有離線所以暫時(shí)沒(méi)有進(jìn)行特殊處理。
3、備份完成后基于鏡像文件分析原raid5磁盤(pán)陣列的組成結(jié)構(gòu)并虛擬重構(gòu)raid5環(huán)境。
4、由于管理員對(duì)磁盤(pán)陣列進(jìn)行過(guò)強(qiáng)制上線的操作,該操作破壞了部分?jǐn)?shù)據(jù)結(jié)構(gòu)。
5、驗(yàn)證raid5結(jié)構(gòu)后由北亞企安數(shù)據(jù)恢復(fù)工程師手工修復(fù)被破壞的那部分結(jié)構(gòu),導(dǎo)出磁盤(pán)陣列內(nèi)的所有數(shù)據(jù)。經(jīng)過(guò)數(shù)據(jù)恢復(fù)工程師和管理員的驗(yàn)證,確認(rèn)恢復(fù)出來(lái)的數(shù)據(jù)完整有效。
6、在數(shù)據(jù)恢復(fù)工程師的協(xié)助下,管理員在準(zhǔn)備好的服務(wù)器環(huán)境上重新搭建磁盤(pán)陣列并遷移數(shù)據(jù)。
服務(wù)器數(shù)據(jù)恢復(fù)Tip:
1、服務(wù)器發(fā)生故障后,切忌對(duì)服務(wù)器進(jìn)行操作;也不要隨意取出硬盤(pán),以免弄亂盤(pán)序。
2、如果需要取出硬盤(pán),標(biāo)記好硬盤(pán)的順序之后再取出。
3、服務(wù)器磁盤(pán)陣列癱瘓后應(yīng)該立即斷電,不要做同步或強(qiáng)制上線操作,防止數(shù)據(jù)進(jìn)一步破壞。
4、當(dāng)服務(wù)器由于未知原因的故障而導(dǎo)致系統(tǒng)崩潰或者文件不識(shí)別/不可用時(shí),通常不建議盲目地在服務(wù)器上進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作。如果確實(shí)對(duì)自己的數(shù)據(jù)恢復(fù)技術(shù)有自信,必須先對(duì)原服務(wù)器的所有硬盤(pán)數(shù)據(jù)進(jìn)行鏡像備份,數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作只能在鏡像文件上進(jìn)行,避免操作失誤破壞原始數(shù)據(jù),讓后續(xù)的數(shù)據(jù)恢復(fù)難度增加。
審核編輯黃宇
-
硬盤(pán)
+關(guān)注
關(guān)注
3文章
1269瀏覽量
56989 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
8701瀏覽量
84546 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
507瀏覽量
17202
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論