0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

詳談SSD故障預(yù)測技術(shù)

架構(gòu)師技術(shù)聯(lián)盟 ? 來源:SCS存儲(chǔ)專委 ? 2023-01-03 14:27 ? 次閱讀

在上篇文章“企業(yè)級存儲(chǔ)盤中的操作特性”中,基于一家主要存儲(chǔ)供應(yīng)商的近200萬個(gè)SSD的大量企業(yè)存儲(chǔ)系統(tǒng),對生產(chǎn)使用中SSD的關(guān)鍵操作特性進(jìn)行了大規(guī)模的現(xiàn)場研究。今天接著分享SSD故障預(yù)測技術(shù)。

固態(tài)驅(qū)動(dòng)器(SSD)故障很可能導(dǎo)致系統(tǒng)級故障,從而導(dǎo)致停機(jī),從而使SSD故障預(yù)測對大規(guī)模SSD部署至關(guān)重要。現(xiàn)有的SSD故障預(yù)測研究大多基于定制的SSD,具有專有的監(jiān)控指標(biāo),難以重現(xiàn)。為了支持不同驅(qū)動(dòng)器模型和供應(yīng)商的一般SSD故障預(yù)測,本文提出了一種向外更新集成特征排序(WEFR),以自動(dòng)化、魯棒的方式選擇智能屬性作為學(xué)習(xí)特征。WEFR結(jié)合了不同的特征排序結(jié)果,根據(jù)復(fù)雜度度量和磨損程度的變化點(diǎn)檢測,自動(dòng)生成最終的特征選擇。

01 背景及動(dòng)機(jī)

一、數(shù)據(jù)收集

本文從阿里巴巴的五個(gè)基于ssd的數(shù)據(jù)中心收集數(shù)據(jù)。該數(shù)據(jù)集涵蓋了從2018年1月到2019年12月的為期兩年的、來自三個(gè)供應(yīng)商的6個(gè)驅(qū)動(dòng)器模型的近500Kssd。本文將這三個(gè)供應(yīng)商稱為MA、MB和MC,每個(gè)供應(yīng)商都包括兩個(gè)驅(qū)動(dòng)器模型(用供應(yīng)商后面的數(shù)字表示)。本文的數(shù)據(jù)集包括兩種數(shù)據(jù)類型:SMART日志和故障票據(jù)。

SMART日志。SMART是一種廣泛采用的監(jiān)視磁盤驅(qū)動(dòng)器狀態(tài)(稱為屬性)的工具。SMART屬性是特定于供應(yīng)商的。它們每個(gè)都有原始的和標(biāo)準(zhǔn)化的數(shù)值(在SMART屬性名稱之后分別用“R”和“N”表示)。本文每天收集每個(gè)SSD的智能屬性。表一顯示了為每個(gè)驅(qū)動(dòng)器模型收集的SMART屬性的概述。該數(shù)據(jù)集總共跨越了22個(gè)SMART屬性。

故障記錄。本文的維護(hù)系統(tǒng)在每個(gè)服務(wù)器上部署監(jiān)視守護(hù)進(jìn)程,定期執(zhí)行基于規(guī)則的檢測,以檢查異常行為和故障。一旦檢測到異常行為和故障,維護(hù)系統(tǒng)就會(huì)生成故障報(bào)告(稱為故障記錄單)。每個(gè)故障記錄單記錄驅(qū)動(dòng)器ID和故障發(fā)生的時(shí)間戳。該數(shù)據(jù)集總共涵蓋了7K個(gè)SSD故障的故障記錄單。

二、故障預(yù)測

本文將SSD故障預(yù)測作為一個(gè)離線分類問題,以預(yù)測SSD是否會(huì)在未來一段時(shí)間內(nèi)(例如,在未來30天內(nèi))失敗。本文將每個(gè)SMART屬性的原始值和標(biāo)準(zhǔn)化值視為兩個(gè)學(xué)習(xí)特征,并將一個(gè)學(xué)習(xí)特征的向量稱為輸入變量。本文將驅(qū)動(dòng)器狀態(tài)視為一個(gè)指標(biāo)變量(稱為目標(biāo)變量)(0表示健康狀態(tài),1表示失敗)。本文將每天SSD的學(xué)習(xí)特性和驅(qū)動(dòng)狀態(tài)作為樣本。本文將出現(xiàn)失敗ssd和健康ssd對應(yīng)的樣本分別稱為陽性樣本和陰性樣本。離線故障預(yù)測的工作流程包括數(shù)據(jù)預(yù)處理、特征選擇、特征生成、預(yù)測模型訓(xùn)練、預(yù)測模型驗(yàn)證和預(yù)測。

三、特征選擇方法

本文考慮了五種最先進(jìn)的SSD故障預(yù)測的特征選擇方法。

皮爾遜相關(guān)度量學(xué)習(xí)特征與目標(biāo)變量之間的線性關(guān)系。

斯皮爾曼相關(guān)性測量了學(xué)習(xí)特征和目標(biāo)變量之間的單調(diào)關(guān)系(不僅僅是線性關(guān)系)。它被之前的工作用于SSD故障預(yù)測。

J-index使用分類任務(wù)來衡量一個(gè)學(xué)習(xí)特征對目標(biāo)變量的類別進(jìn)行正確分類的能力。它被之前的工作用于預(yù)測HDD故障。

隨機(jī)森林提供特征重要性評估,它衡量在學(xué)習(xí)特征中添加噪聲后分類精度的降低程度。特征重要性得分較高的特征對HDD故障預(yù)測精度的影響較大。之前的工作也將隨機(jī)森林用于預(yù)測SSD故障。

XGBoost還提供了特征重要性評估,它測量了訓(xùn)練具有學(xué)習(xí)特征的所有增強(qiáng)樹的分割數(shù),以及在樹中使用該特征的平均增益。

02 特征重要性研究

一、特性對SSD故障預(yù)測的重要性

c40215ba-8941-11ed-bfe3-dac502259ad0.png

表三顯示了預(yù)測每個(gè)驅(qū)動(dòng)器模型的SSD故障的頂部和最后三個(gè)重要的學(xué)習(xí)特征。除了重要的學(xué)習(xí)特征外,本文還觀察到存在一些瑣碎的特征(例如,PSCN和MA2的特征重要性得分和PMSCR的特征重要性得分僅為0.001)。這種瑣碎的學(xué)習(xí)特征可能會(huì)降低作為噪聲的SSD預(yù)測精度。因此,特征選擇對于預(yù)測SSD故障是必要的。

二、使用不同選擇方法的特征重要性

表4顯示,MC1的前5個(gè)重要學(xué)習(xí)特征的排名因特征選擇方法的不同而不同。這一發(fā)現(xiàn)也適用于其他驅(qū)動(dòng)器模型(表中未顯示)。這種不同的排名帶來了以下問題:(i)哪種特征選擇方法對SSD故障預(yù)測更有效?(ii)本文應(yīng)該選擇多少個(gè)重要的功能?

c437999c-8941-11ed-bfe3-dac502259ad0.png

三、在不同的磨損程度下的特征重要性

c45f34a2-8941-11ed-bfe3-dac502259ad0.png

表五顯示出在不同的磨損程度下,相同的使用隨機(jī)森林在同一數(shù)據(jù)集中進(jìn)行特征選擇卻出現(xiàn)了不同的結(jié)果。這提示本文不同磨損階段是否有著不同的表現(xiàn)。

c47d0da6-8941-11ed-bfe3-dac502259ad0.png

圖1顯示了六種驅(qū)動(dòng)模型的存活率與MWIN之間的關(guān)系。本文觀察到,MA1、MA2、MC1和MC2的存活率隨MWIN的變化而變化,而MB1和MB2的存活率由于變化范圍較小而沒有明顯的變化趨勢。具體來說,對于MA1、MA2和MC1的存活率隨著MWIN的降低而降低,而對于MC2,隨著MWIN的降低,MWIN的存活率首先增加到70左右,然后由于固件逐漸固定的一些問題而降低。這表明,SSD的特性可能會(huì)隨著磨損程度的變化而變化。因此,特征的重要性也可能隨著MWIN值的不同而改變。

03 磨損更新的集成特征選擇

本文提出了磨損更新集成特征排序(WEFR),這是一種實(shí)用的特征排序方法,在自動(dòng)和穩(wěn)健的屬性中選擇學(xué)習(xí)特征,從而推廣不同模型和供應(yīng)商的SSD故障預(yù)測。WEFR解決了在SSD故障預(yù)測的特征選擇方面面臨的以下挑戰(zhàn):

健壯的功能選擇。不同的特征選擇方法可以選擇不同的學(xué)習(xí)特征。此外,特征選擇方法并不總是最優(yōu)的各種驅(qū)動(dòng)模型。因此,WEFR應(yīng)該結(jié)合特征選擇方法,以一種穩(wěn)健的方式來選擇特征。

正在更新功能選擇。選擇的特性不同具有不同磨損程度的SSD。此外,ssd的磨損程度也隨時(shí)間的增加而增加。因此,WEFR應(yīng)該為MWIN值的ssd選擇學(xué)習(xí)特征,并隨著時(shí)間的推移更新所選特征。

算法概述:

算法1顯示了WEFR的工作流程。具體來說,它將來自相同驅(qū)動(dòng)器模型的SMART屬性的學(xué)習(xí)特征作為輸入。它采用常用的特征選擇方法進(jìn)行初步的特征選擇,并根據(jù)特征的重要性對學(xué)習(xí)特征進(jìn)行排序。為了防止某些方法的偏差(即無效的特征選擇),它刪除了與其他方法偏差較大的排名,并通過排名的平均值(排名行1-7)獲得最終排名。它根據(jù)最終的排名自動(dòng)確定特征計(jì)數(shù),并選擇最終的學(xué)習(xí)特征(第8行)。如果它檢測到MWIN的存活率的變化點(diǎn),它將更新具有不同MWIN組的SSD組的所選特征(第9-15行)。最后,它輸出在同一驅(qū)動(dòng)器模型中的所有ssd或每一組MWIN的學(xué)習(xí)的學(xué)習(xí)特性。

c4a75fc0-8941-11ed-bfe3-dac502259ad0.png

偏差的計(jì)算如下圖所示:

c4c3705c-8941-11ed-bfe3-dac502259ad0.png

04 實(shí)驗(yàn)結(jié)果

一、魯棒特征選擇的有效性

c4d2cfa2-8941-11ed-bfe3-dac502259ad0.png

本文比較了沒有特征選擇(即使用所有學(xué)習(xí)特征)和五種最先進(jìn)的特征選擇方法(第II-C節(jié))的WEFR的預(yù)測精度。對于五種最先進(jìn)的特征選擇方法,本文將所選特征的百分比從10%線性調(diào)整到100%,以找到最高的預(yù)測精度。表VI顯示,與沒有特征選擇相比,WEFR對MA1、MA2、MB1、MB2、MC1和MC2的固定召回率分別提高了13%(8%)、18%、18%(12%)、17%(10%)、25%(13%)、12%(6%)和13%(6%)??偟膩碚f,與所有驅(qū)動(dòng)模型沒有特征選擇相比,WEFR將精度(f0.5分?jǐn)?shù))提高了22%(10%),證實(shí)了特征選擇對SSD故障預(yù)測的重要性。

二、自動(dòng)特征選擇的有效性

本文評估了WEFR中自動(dòng)特征選擇的有效性,并將其與使用固定百分比的被選擇特征(從10%線性增加到100%)進(jìn)行比較。圖2顯示,當(dāng)確定6個(gè)驅(qū)動(dòng)器模型的所選特性的百分比時(shí),WEFR的F0.5-score始終高于或等于最高的F0.5-score。具體來說,WEFR自動(dòng)確定的MA1、MA2、MB1、MB2、MC1、MC2所選擇的特征的百分比分別為31%、34%、28%、26%、63%和28%,在確定所選特征的百分比時(shí),與最高F0.5-score對應(yīng)的所選特征的百分比接近。請注意,使用自動(dòng)特性選擇也比調(diào)優(yōu)生產(chǎn)中選定特性的適當(dāng)百分比更靈活。

c500010c-8941-11ed-bfe3-dac502259ad0.png

三、更新特征選擇的有效性

從表7中可以看出,與不更新特征選擇相比,WEFR通過更新MA1、MA2、MC1和MC2的選定特征,提高了精度和F0.5-score。具體來說,與WEFR(無更新)相比,WEFR將MA1、MA2、MC1和MC2的精度(F0.5-score)分別提高了6%(4%)、4%(2%)、5%(2%)和6%(2%)。

c51c41aa-8941-11ed-bfe3-dac502259ad0.png

對于低MWIN的ssd,與WEFR(無更新)相比,WEFR對MA1、MA2、MC1和MC2的精度(f0.5分?jǐn)?shù))分別提高了13%(9%)、12%(8%)、13%(6%)和13%(6%)。這證實(shí)了特征的重要性隨著MWIN的變化而變化,有必要用MWIN更新所選的特征。高M(jìn)WIN的WEFR和WEFR之間的F0.5-score(無更新)差異不顯著,且在1%以內(nèi)(未見表七)。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 存儲(chǔ)
    +關(guān)注

    關(guān)注

    13

    文章

    4123

    瀏覽量

    85273
  • SSD
    SSD
    +關(guān)注

    關(guān)注

    20

    文章

    2791

    瀏覽量

    116649
  • 故障預(yù)測
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    6657
  • 固態(tài)驅(qū)動(dòng)器

    關(guān)注

    0

    文章

    12

    瀏覽量

    10355

原文標(biāo)題:收藏:詳談SSD故障預(yù)測技術(shù)

文章出處:【微信號:架構(gòu)師技術(shù)聯(lián)盟,微信公眾號:架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    EMC難不難做?帶你讀懂EMC 詳談EMC

    讀懂EMC:詳談EMC
    的頭像 發(fā)表于 07-31 11:23 ?2333次閱讀
    EMC難不難做?帶你讀懂EMC <b class='flag-5'>詳談</b>EMC

    SSD是什么意思,什么是SSD

    100MB/S,高于市面上60 MB/S的速度。每一個(gè)新生事物的出現(xiàn)總會(huì)遇到價(jià)格偏高的問題,SSD也因其研發(fā)成本、技術(shù)含量等問題,價(jià)格相對于其他存儲(chǔ)設(shè)備來說要高,但其優(yōu)勢也還是非常明顯的。有專家預(yù)測,到2010年
    發(fā)表于 03-25 16:20

    采用nvSRAM確保企業(yè)級SSD故障時(shí)電源可靠性

      SSD技術(shù)概覽  固態(tài)驅(qū)動(dòng)器(SSD)是采用固態(tài)半導(dǎo)體存儲(chǔ)器(如NAND閃存)而非傳統(tǒng)硬盤驅(qū)動(dòng)器(HDD)中磁性元件來永久存儲(chǔ)信息的一種數(shù)據(jù)存儲(chǔ)設(shè)備。由于數(shù)據(jù)可隨機(jī)存取,不像HDD那樣受磁盤轉(zhuǎn)動(dòng)
    發(fā)表于 09-26 09:44

    關(guān)于電機(jī)的深度學(xué)習(xí)故障預(yù)測簡析

    故障預(yù)測數(shù)據(jù)數(shù)據(jù)獲取數(shù)據(jù)預(yù)處理模型CNNLSTMGAN具體情況特殊處理數(shù)據(jù)量較大數(shù)據(jù)量不足特征雜糅
    發(fā)表于 09-13 07:23

    詳談服務(wù)器電源

    詳談服務(wù)器電源 在服務(wù)器各個(gè)部件中,電
    發(fā)表于 12-26 17:23 ?2434次閱讀

    旋轉(zhuǎn)機(jī)械的故障預(yù)測方法綜述

    介紹了各種方法的實(shí)際應(yīng)用情況。最后,探討了旋轉(zhuǎn)機(jī)械故障預(yù)測技術(shù)的難點(diǎn)問題以及發(fā)展趨勢。
    發(fā)表于 03-05 09:13 ?1937次閱讀

    Linux內(nèi)核編譯詳談

    Linux內(nèi)核編譯詳談
    發(fā)表于 10-30 09:51 ?7次下載
    Linux內(nèi)核編譯<b class='flag-5'>詳談</b>

    支持向量機(jī)的故障預(yù)測模型

    針對現(xiàn)有的故障預(yù)測技術(shù)無法從整體上反映系統(tǒng)性能下降趨勢等問題,提出一種基于健康度分析的故障預(yù)測方法。首先,在支持向量機(jī)回歸算法基礎(chǔ)上構(gòu)造多輸
    發(fā)表于 12-29 11:24 ?0次下載

    三星FIP故障定位技術(shù),讓SSD的壽命提升

    三星最近開發(fā)了一種可以檢測NAND芯片故障技術(shù),該技術(shù)可以提升SSD的壽命和可靠性,并且宣布將在即將發(fā)布的PCIe 4.0 SSD產(chǎn)品中使
    的頭像 發(fā)表于 11-18 15:53 ?3300次閱讀

    SSD硬盤的故障分析以及解決辦法

    SSD硬盤故障是否曾讓你感覺到困擾呢?今天快快小編就來給大家詳細(xì)介紹SSD硬盤故障的4大原因,并附上解決措施,希望對小伙伴們有幫助。
    的頭像 發(fā)表于 04-02 14:54 ?7696次閱讀

    詳談數(shù)組和指針的區(qū)別與聯(lián)系

    詳談數(shù)組和指針的區(qū)別與聯(lián)系
    的頭像 發(fā)表于 06-29 15:18 ?2.2w次閱讀
    <b class='flag-5'>詳談</b>數(shù)組和指針的區(qū)別與聯(lián)系

    SSD故障的四個(gè)主要原因及解決辦法

    與硬盤驅(qū)動(dòng)器相比,SSD更加可靠;然而,并沒有完美的存儲(chǔ)技術(shù)。即使是最新的NVMeSSD,也可能會(huì)突然或逐漸出現(xiàn)故障。
    發(fā)表于 12-08 11:01 ?1.1w次閱讀

    SSD技術(shù):Zoned Namespace SSD

    ? 蛋蛋是個(gè)懂技術(shù),有追求的宅男,總是不遺余力的把各種先進(jìn)的SSD技術(shù)應(yīng)用到自己的小電影帝國里。 近年,普通的SSD在第二遍寫入的時(shí)候性能明顯下降的問題一直困擾著蛋蛋,基于蛋蛋的經(jīng)驗(yàn),
    的頭像 發(fā)表于 01-05 17:45 ?4262次閱讀
    <b class='flag-5'>SSD</b><b class='flag-5'>技術(shù)</b>:Zoned Namespace <b class='flag-5'>SSD</b>

    常見的復(fù)位電路類型及作用詳談

    常見的復(fù)位電路類型及作用詳談
    發(fā)表于 05-24 14:11 ?30次下載

    基于RNN的GIS故障預(yù)測算法及系統(tǒng)設(shè)計(jì)

    基于RNN的GIS故障預(yù)測算法及系統(tǒng)設(shè)計(jì)
    發(fā)表于 07-01 15:38 ?30次下載