斷電導(dǎo)致HP EVA存儲(chǔ)數(shù)據(jù)丟失的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境:
HP EVA存儲(chǔ),6塊SAS硬盤(pán)組建的raid5磁盤(pán)陣列。上層操作系統(tǒng)是WINDOWS SERVER。該存儲(chǔ)為公司內(nèi)部文件服務(wù)器使用。

服務(wù)器故障&分析:
在遭遇兩次意外斷電后,設(shè)備重啟時(shí)raid提示“無(wú)法找到存儲(chǔ)設(shè)備”。管理員嘗試進(jìn)入raid管理模塊時(shí)死機(jī),多次重啟嘗試后故障依舊。
這是一個(gè)典型的由于意外斷電導(dǎo)致raid硬件模塊損壞或者riad管理信息丟失等raid故障的情況。正常情況下,raid一旦創(chuàng)建完成,raid管理模塊中的信息不會(huì)輕易更改,但是raid管理模塊的信息是可修改的信息。一次或多次的意外斷電是有可能導(dǎo)致raid管理模塊中的信息被篡改或丟失,斷電次數(shù)過(guò)多時(shí)甚至可能直接導(dǎo)致raid卡上的元器件損壞。該案例中的故障就是屬于這種情況。

服務(wù)器數(shù)據(jù)恢復(fù)過(guò)程:
1、首先由硬件工程師檢測(cè)故障存儲(chǔ)中的所有硬盤(pán)的物理故障,所有硬盤(pán)讀取正常,沒(méi)有發(fā)現(xiàn)存在明顯的物理故障。
2、將故障存儲(chǔ)中所有磁盤(pán)以只讀方式進(jìn)行全盤(pán)鏡像備份,后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進(jìn)行,避免對(duì)原始磁盤(pán)數(shù)據(jù)造成二次破壞。
3、北亞企安數(shù)據(jù)恢復(fù)工程師基于鏡像文件分析底層數(shù)據(jù),確定故障存儲(chǔ)中6塊磁盤(pán)的數(shù)據(jù)塊大小、條帶信息、盤(pán)序、校驗(yàn)方式等RAID信息,根據(jù)這些信息虛擬重建raid陣列。
4、邏輯校驗(yàn)重構(gòu)RAID中的數(shù)據(jù),在確認(rèn)重構(gòu)RAID各參數(shù)正確無(wú)誤后,對(duì)所需要恢復(fù)的數(shù)據(jù)進(jìn)行完全驗(yàn)證。
5、在數(shù)據(jù)恢復(fù)工程師驗(yàn)證沒(méi)有發(fā)現(xiàn)問(wèn)題后,交由用戶(hù)方親自驗(yàn)證。經(jīng)過(guò)反復(fù)驗(yàn)證,用戶(hù)方工程師確認(rèn)恢復(fù)的數(shù)據(jù)完整可用,達(dá)到預(yù)期。
6、將數(shù)據(jù)遷移至用戶(hù)方準(zhǔn)備好的存儲(chǔ)環(huán)境中,再次驗(yàn)證沒(méi)有發(fā)現(xiàn)問(wèn)題。

服務(wù)器數(shù)據(jù)安全Tips:
1、盡量保證機(jī)房供電穩(wěn)定,減少供電異常對(duì)服務(wù)器和存儲(chǔ)的影響。
2、為重要的服務(wù)器及存儲(chǔ)配備UPS,在意外斷電的情況下能讓核心業(yè)務(wù)繼續(xù)運(yùn)行一段時(shí)間,為應(yīng)急方案的實(shí)施贏得時(shí)間。
3、定期對(duì)服務(wù)時(shí)間長(zhǎng)的服務(wù)器和存儲(chǔ)進(jìn)行安全狀況檢查,對(duì)這些老舊設(shè)備的整體運(yùn)行狀態(tài)進(jìn)行評(píng)估,及時(shí)更換硬件和升級(jí)軟件,將可能的隱患提前排除。
4、制定突發(fā)數(shù)據(jù)災(zāi)難的緊急處理方案,降低業(yè)務(wù)損失。
