0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Raid磁盤陣列故障類型和原因分析

Frombyte ? 來(lái)源:Frombyte ? 作者:Frombyte ? 2023-04-21 14:45 ? 次閱讀

由于raid的特點(diǎn)和優(yōu)勢(shì),磁盤陣列技術(shù)被廣泛應(yīng)用于服務(wù)器和存儲(chǔ)等商用領(lǐng)域。由于用戶基數(shù)大,出現(xiàn)故障的情況也不少。通過(guò)這篇文章介紹一下常見(jiàn)的raid磁盤陣列數(shù)故障類型和原因。

故障類型一、磁盤陣列處于降級(jí)狀態(tài)時(shí)未及時(shí)rebuild。

RAID磁盤陣列的數(shù)據(jù)安全冗余是利用部分空余空間實(shí)現(xiàn)的,陣列中有成員盤下線便無(wú)法繼續(xù)提供冗余空間。如果此時(shí)未能及時(shí)更換新磁盤并rebuild整個(gè)卷,一旦raid中有其他成員盤離線將會(huì)導(dǎo)致整個(gè)raid卷無(wú)法工作。這類故障是北亞企安數(shù)據(jù)恢復(fù)工作中會(huì)經(jīng)常遇到case。

故障類型二、raid控制器故障。

磁盤陣列控制器在充當(dāng)著操作系統(tǒng)與物理硬盤之間的連接紐帶。磁盤陣列中的硬盤數(shù)量、容量大小、raid級(jí)別、校驗(yàn)方式等raid信息有的存儲(chǔ)于硬盤,有的存儲(chǔ)于陣列卡或者在二者中都有存儲(chǔ)。如果控制器出現(xiàn)故障,raid信息就無(wú)法還原,如果出現(xiàn)這種故障,即使能夠還原raid結(jié)構(gòu)并再次重建raid陣列也無(wú)法恢復(fù)數(shù)據(jù)。

故障類型三、固件算法缺陷。

RAID的創(chuàng)建、重建、降級(jí)、保護(hù)等功能的實(shí)現(xiàn)依靠的raid固件上的一套非常復(fù)雜的算法,任何復(fù)雜的算法都會(huì)有BUG,盡管廠商不會(huì)輕易承認(rèn)自家產(chǎn)品固件算法的BUG(有可能自己也不知道)。因?yàn)楣碳惴˙UG,發(fā)生無(wú)法解釋的故障可能性肯定是有的。比如在北亞企安接到的數(shù)據(jù)恢復(fù)case中就遇到過(guò)早期生產(chǎn)的某品牌服務(wù)器RAID中一塊盤OFFLINE后,故障盤與報(bào)警燈不一致的情況。用戶在更換故障盤進(jìn)行REBUILD時(shí)被誤導(dǎo)拔錯(cuò)盤,導(dǎo)致整個(gè)RAID崩潰。

故障類型四、IO通道受阻導(dǎo)致RAID掉盤。

RAID控制器在設(shè)計(jì)時(shí)候優(yōu)先考慮的是數(shù)據(jù)的安全性,RAID會(huì)盡可能避免將數(shù)據(jù)寫到不穩(wěn)定的存儲(chǔ)介質(zhì)上。當(dāng)控制器與物理盤進(jìn)行IO時(shí),如果時(shí)間超過(guò)某個(gè)閾值或校驗(yàn)關(guān)系不滿足,RAID控制器便會(huì)認(rèn)為對(duì)應(yīng)的存儲(chǔ)介質(zhì)已不具備持續(xù)穩(wěn)定工作的能力并讓其強(qiáng)制下線,然后通知管理員盡快解決問(wèn)題。這種設(shè)計(jì)的初衷從技術(shù)上和邏輯上來(lái)看沒(méi)有問(wèn)題,但對(duì)于如物理連接線路松動(dòng),硬盤工作反應(yīng)超時(shí)(硬盤還是完好的)等場(chǎng)景來(lái)說(shuō),控制器無(wú)法分辨存儲(chǔ)介質(zhì)是否真的出現(xiàn)物理故障,這種情況下會(huì)大概率強(qiáng)制磁盤下線。這類故障發(fā)生概率比較高且無(wú)法避免,很多用戶因此類故障質(zhì)疑服務(wù)器廠商。實(shí)際上。越是設(shè)計(jì)安全的RAID控制器,越容易發(fā)生此類故障。

故障類型五、控制器的穩(wěn)定性。

RAID的控制器在ONLINE狀態(tài)下(無(wú)離線盤)工作是最穩(wěn)定的。當(dāng)部分硬盤(物理故障或者邏輯故障)離線后控制器便會(huì)工作在一個(gè)相對(duì)不穩(wěn)定的狀態(tài),這也是好多中低端的RAID控制器在有磁盤離線后就表現(xiàn)出讀寫性能下降的原因。控制器的不穩(wěn)定會(huì)增加數(shù)據(jù)吞吐時(shí)IO滯留的可能性,從而導(dǎo)致上述第四個(gè)類型的故障的發(fā)生。中低端的控制器(無(wú)高性能處理芯片或者大容量高速緩存)發(fā)生這類故障的概率要高得多。

故障類型六、陣列中硬盤故障。

很多人認(rèn)為磁盤陣列只要在正常工作,陣列中就不會(huì)存在有物理故障的硬盤。這個(gè)觀點(diǎn)的判斷依據(jù)是一旦raid中有硬盤出現(xiàn)物理故障,陣列控制器就會(huì)將故障硬盤踢下線。然而實(shí)際上并非如此。

RAID很少會(huì)讀取到物理硬盤的所有磁盤空間,同一時(shí)間更是不可能。部分情況下,硬盤會(huì)在RAID沒(méi)有讀取到的區(qū)域或者RAID以前讀取過(guò)的區(qū)域出現(xiàn)壞道,這類壞道因?yàn)闆](méi)有被RAID讀過(guò),所以在控制器來(lái)看還是好的。

出現(xiàn)這種情況后可能會(huì)產(chǎn)生的直接后果就是在REBUILD過(guò)程中,當(dāng)一塊物理硬盤離線后,在進(jìn)行REBUILD過(guò)程中,如果其他硬盤存在這類沒(méi)有被RAID讀取到的壞道,由于REBUILD是對(duì)全盤做全面同步,在REBUILD過(guò)程中就一定會(huì)讀寫到這類之前沒(méi)有被RAID讀取到的壞道。這時(shí)REBUILD還沒(méi)完成,新盤無(wú)法上線,又在舊盤發(fā)現(xiàn)了壞道,RAID極有可能將發(fā)現(xiàn)壞道的舊盤踢出,這樣就會(huì)導(dǎo)致RAID故障。

故障類型七、人為誤操作。

人為誤操作導(dǎo)致的RAID故障,例如:誤拔了RAID里的硬盤、更換壞盤不及時(shí)、拔出硬盤更換或者進(jìn)行其他操作后忘記硬盤在RAID中的順序、不小心刪除了原RAID配置等。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    12

    文章

    8958

    瀏覽量

    85082
  • RAID
    +關(guān)注

    關(guān)注

    0

    文章

    268

    瀏覽量

    35032
  • 磁盤
    +關(guān)注

    關(guān)注

    1

    文章

    361

    瀏覽量

    25154
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    RAID5數(shù)據(jù)恢復(fù)—如何重組RAID5陣列?

    RAID5數(shù)據(jù)恢復(fù)環(huán)境: 一臺(tái)存儲(chǔ)上有一組由12塊SCSI硬盤(11塊數(shù)據(jù)盤+1塊熱備盤)組建的RAID5磁盤陣列,F(xiàn)reeBSD操作系統(tǒng)+zfs文件系統(tǒng)。 RAID5
    的頭像 發(fā)表于 10-22 15:48 ?136次閱讀
    <b class='flag-5'>RAID</b>5數(shù)據(jù)恢復(fù)—如何重組<b class='flag-5'>RAID</b>5<b class='flag-5'>陣列</b>?

    服務(wù)器數(shù)據(jù)恢復(fù)—raid5陣列熱備盤上線同步失敗的數(shù)據(jù)恢復(fù)案例

    服務(wù)器磁盤陣列數(shù)據(jù)恢復(fù)環(huán)境: 服務(wù)器中有兩組分別由4塊SAS硬盤組建的raid5磁盤陣列,兩組raid5陣列劃分LUN,組成LVM結(jié)構(gòu),格
    的頭像 發(fā)表于 09-19 11:01 ?212次閱讀
    服務(wù)器數(shù)據(jù)恢復(fù)—<b class='flag-5'>raid</b>5<b class='flag-5'>陣列</b>熱備盤上線同步失敗的數(shù)據(jù)恢復(fù)案例

    服務(wù)器數(shù)據(jù)恢復(fù)—raid5陣列熱備盤未全部成功啟用的數(shù)據(jù)恢復(fù)案例

    塊熱備盤啟用替換掉其中一塊離線盤,另外1塊熱備盤未成功啟用,raid5陣列崩潰,存儲(chǔ)不可用。 磁盤陣列中硬盤離線的原因通常是磁盤存在物理
    的頭像 發(fā)表于 08-14 11:27 ?335次閱讀
    服務(wù)器數(shù)據(jù)恢復(fù)—<b class='flag-5'>raid</b>5<b class='flag-5'>陣列</b>熱備盤未全部成功啟用的數(shù)據(jù)恢復(fù)案例

    服務(wù)器數(shù)據(jù)恢復(fù)—EMC存儲(chǔ)中raid5陣列多塊硬盤離線的數(shù)據(jù)恢復(fù)案例

    服務(wù)器存儲(chǔ)數(shù)據(jù)恢復(fù)環(huán)境: 一臺(tái)EMC存儲(chǔ)中有一組raid5磁盤陣列,劃分1個(gè)lun供小型機(jī)使用,上層采用ZFS文件系統(tǒng)。 服務(wù)器存儲(chǔ)故障: 一臺(tái)有一組raid5
    的頭像 發(fā)表于 07-09 11:58 ?191次閱讀

    服務(wù)器數(shù)據(jù)恢復(fù)—raid5陣列硬盤壞道導(dǎo)致raid崩潰的數(shù)據(jù)恢復(fù)案例

    服務(wù)器存儲(chǔ)數(shù)據(jù)恢復(fù)環(huán)境: 某單位一臺(tái)某品牌DS5300存儲(chǔ),1個(gè)機(jī)頭+4個(gè)擴(kuò)展柜,50塊硬盤組建2組RAID5磁盤陣列(一組raid5陣列有27塊成員盤,存放Oracle數(shù)據(jù)庫(kù)文件;
    的頭像 發(fā)表于 07-05 12:00 ?455次閱讀

    服務(wù)器數(shù)據(jù)恢復(fù)—X3650服務(wù)器raid5磁盤陣列數(shù)據(jù)恢復(fù)案例

    一臺(tái)某品牌X3650M3服務(wù)器,服務(wù)器中有一組raid5磁盤陣列,上層采用zfs文件系統(tǒng)。 服務(wù)器未知原因崩潰,工作人員排查故障后發(fā)現(xiàn)服務(wù)器的ra
    的頭像 發(fā)表于 06-04 11:08 ?467次閱讀

    服務(wù)器數(shù)據(jù)恢復(fù)—同友存儲(chǔ)磁盤陣列上層虛擬機(jī)數(shù)據(jù)恢復(fù)案例

    某單位同友存儲(chǔ),存儲(chǔ)設(shè)備中若干磁盤組建了raid5磁盤陣列。未知原因導(dǎo)致存儲(chǔ)設(shè)備崩潰無(wú)法啟動(dòng),raid5
    的頭像 發(fā)表于 05-10 13:34 ?265次閱讀
    服務(wù)器數(shù)據(jù)恢復(fù)—同友存儲(chǔ)<b class='flag-5'>磁盤陣列</b>上層虛擬機(jī)數(shù)據(jù)恢復(fù)案例

    恒訊科技分析:一臺(tái)物理服務(wù)器可以組幾個(gè)磁盤陣列?

    一臺(tái)物理服務(wù)器可以組成多個(gè)磁盤陣列RAID),具體數(shù)量取決于服務(wù)器的硬件配置和設(shè)計(jì)。以下是一些影響磁盤陣列數(shù)量的因素: 1、硬盤接口數(shù)量:服務(wù)器上的硬盤接口數(shù)量(如SAS或SATA端口)會(huì)直接影響
    的頭像 發(fā)表于 05-09 17:25 ?767次閱讀

    什么是RAID磁盤陣列?有沒(méi)有更便捷更經(jīng)濟(jì)的硬RAID方案?#RAID

    RAID磁盤
    ICY DOCK硬盤盒
    發(fā)布于 :2024年03月15日 16:50:47

    【服務(wù)器數(shù)據(jù)恢復(fù)】服務(wù)器raid6陣列多塊磁盤離線的數(shù)據(jù)恢復(fù)案例

    一臺(tái)網(wǎng)站服務(wù)器中有一組由6塊磁盤組建的RAID6磁盤陣列,操作系統(tǒng)層面運(yùn)行MySQL數(shù)據(jù)庫(kù)和存放一些其他類型文件。
    的頭像 發(fā)表于 02-23 13:13 ?526次閱讀

    一文搞懂Raid是什么?nas如何組建適合自己的陣列?

    在使用NAS的過(guò)程中 我們少不了糾結(jié) 是否組建陣列 組建何種陣列 今天小馬就來(lái)和大家聊一聊 什么是RAID 我們又該組建何種陣列 RAID
    的頭像 發(fā)表于 02-21 11:51 ?659次閱讀
    一文搞懂<b class='flag-5'>Raid</b>是什么?nas如何組建適合自己的<b class='flag-5'>陣列</b>?

    服務(wù)器數(shù)據(jù)恢復(fù)-服務(wù)器raid6陣列3塊磁盤故障離線的數(shù)據(jù)恢復(fù)案例

    服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境: 服務(wù)器上有一組由12塊硬盤組建的raid6磁盤陣列raid6陣列上層有一個(gè)lun,映射到WINDOWS系統(tǒng)上使用,WINDOWS系統(tǒng)劃分了一個(gè)GPT分區(qū)。
    的頭像 發(fā)表于 12-26 11:57 ?557次閱讀

    ipsan與磁盤陣列的區(qū)別

    IPSAN(IP Storage Area Network)和磁盤陣列是存儲(chǔ)技術(shù)領(lǐng)域中常見(jiàn)的兩種解決方案。它們都用于提供高可用、高性能的數(shù)據(jù)存儲(chǔ)和訪問(wèn)。然而,它們?cè)诠δ堋⒓軜?gòu)和實(shí)施方式等方面存在著
    的頭像 發(fā)表于 12-25 13:39 ?2890次閱讀

    企業(yè)存儲(chǔ)磁盤陣列技術(shù)分享(存儲(chǔ)主要協(xié)議對(duì)比)

    磁盤陣列是一種企業(yè)級(jí)存儲(chǔ)系統(tǒng)(RAID級(jí)別和磁盤陣列可以提高數(shù)據(jù)的可靠性和性能。在選擇磁盤陣列時(shí),需要考慮容量、性能、可靠性和可擴(kuò)展性等因素,并進(jìn)行定制化的配置以達(dá)到最佳性價(jià)比。
    發(fā)表于 12-25 11:39 ?583次閱讀
    企業(yè)存儲(chǔ)<b class='flag-5'>磁盤陣列</b>技術(shù)分享(存儲(chǔ)主要協(xié)議對(duì)比)

    服務(wù)器數(shù)據(jù)恢復(fù)—EMC存儲(chǔ)raid5故障的數(shù)據(jù)恢復(fù)案例

    服務(wù)器存儲(chǔ)數(shù)據(jù)恢復(fù)環(huán)境: EMC某型號(hào)存儲(chǔ),8塊組建一組raid5磁盤陣列。上層操作系統(tǒng)采用zfs文件系統(tǒng)。 服務(wù)器存儲(chǔ)故障&分析ra
    的頭像 發(fā)表于 11-30 11:59 ?531次閱讀