0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

存儲磁盤故障預測和性能容量預測技術

浪潮存儲 ? 來源:浪潮存儲 ? 作者:浪潮存儲 ? 2020-09-08 11:49 ? 次閱讀

隨著“新基建”的逐步發(fā)展落地,現(xiàn)代數(shù)據(jù)中心迅速崛起,數(shù)據(jù)量呈指數(shù)級增長,同時各種新存儲介質和技術的應用,使得存儲系統(tǒng)變得越來越復雜。用戶需要一套穩(wěn)定、高性能且簡單易用的存儲系統(tǒng)。 AI技術可以解決存儲系統(tǒng)使用的復雜性問題,提供簡單易用、智能化的存儲系統(tǒng)。AI會不斷地從存儲及其運行環(huán)境中采集存儲的各種狀態(tài)信息和性能數(shù)據(jù),用機器學習算法分析,學習用戶的存儲使用情況,進而自動化的調(diào)整并優(yōu)化存儲系統(tǒng),使存儲服務能更好地適應用戶的需求。有AI加持的智能化存儲可以增強系統(tǒng)的可靠性,降低存儲的復雜性和維護成本。 因此,在前期的文章中,我們提出”客戶的未來,從AI加持的新存儲開始”的觀點,并介紹了存儲AIOps的五大關鍵技術:監(jiān)控、學習、預測、推薦、實施。 今天我們來具體探討一下被客戶重點關注的存儲磁盤故障預測和性能容量預測技術。

1

磁盤故障預測和性能容量預測

給復雜的存儲管理做“減法”

存儲本身很復雜,數(shù)據(jù)中心環(huán)境和客戶應用也很復雜,預測性分析技術是準確預測存儲風險和故障,解決存儲的復雜性的重要一部分。預測性分析技術是通過分析歷史的日志、告警、報錯等信息,AI算法可以自動分析出問題出現(xiàn)前的頻繁出現(xiàn)的數(shù)據(jù)模式,之后在從正常存儲系統(tǒng)上匹配這些AI學習到模式就能形成預測。 對于一個復雜的存儲系統(tǒng)來說,用戶關注最多的是硬盤、性能和容量的預測分析,磁盤故障預測和性能容量預測則成為兩大關鍵功能。 為什么關注硬盤故障預測?

公開數(shù)據(jù)顯示百度數(shù)據(jù)中心4年29萬次硬件故障中,硬盤故障占比高達81.84%。對于傳統(tǒng)的存儲廠商來說,雖然磁盤的絕對故障率不高,但是在所有的存儲部件中,如CPU、內(nèi)存、主板、網(wǎng)卡、HBA卡、電源等,磁盤的故障率是最高的。

雖然傳統(tǒng)存儲有RAID、副本等機制,但是數(shù)據(jù)重建過程中使用了大量IO資源,這導致存儲性能嚴重下降,而且重建時間很長往往以天計。因此,數(shù)據(jù)重建對客戶的業(yè)務影響很大。如果我們可以提前預測磁盤故障,用戶可以選擇業(yè)務不繁忙的時間來重建數(shù)據(jù),那么重建帶來的影響可以忽略不計。同時,預測可以把突發(fā)事件變?yōu)橛媱澥录?,也降低了存儲的維護成本。

為什么關注容量性能預測?

除故障外,用戶在日常使用存儲的過程中關注最多的就是容量和性能。系統(tǒng)容量不足會導致系統(tǒng)不可用,客戶業(yè)務中斷。性能指標主要指時延、帶寬、IOPS,隨著用戶業(yè)務的發(fā)展,給存儲帶來的性能壓力越來越大,性能不足會讓客戶的應用變慢甚至無響應。

利用AI技術,對存儲的性能、容量變化趨勢進行準確預測,一方面可以告知客戶進行擴容、軟硬件升級的時間點,另一方面也能提供存儲規(guī)劃的具體參考指標。

2

存儲磁盤故障預測技術 同典型的AI系統(tǒng)一樣,先對歷史數(shù)據(jù)進行訓練,生成AI模型,最后在新的數(shù)據(jù)到來時形成預測。具體說包括以下五個部分:輸入數(shù)據(jù)、預處理、模型訓練、優(yōu)化集成和預測。對于軟件系統(tǒng)來說關鍵點有:數(shù)據(jù)來源、算法選擇和評估指標。

磁盤故障預測系統(tǒng)整體架構 數(shù)據(jù)來源

硬盤本身提供了SMART數(shù)據(jù)(Self-Monitoring Analysis andReporting Technology)。SMART是90年代定義的硬盤狀態(tài)檢測和預警系統(tǒng)的規(guī)范,提供了磁頭、磁盤、電機、電路等硬盤硬件的運行數(shù)據(jù)。目前幾乎所有的硬盤廠商都已經(jīng)支持了該規(guī)范。下表列出了與故障相關的SMART值。

表1:故障相關的SMART值

絕大多數(shù)的廠商和科研院校都是基于SMART數(shù)據(jù)進行磁盤故障預測,且都取得了不錯的效果。但是在2020年2月的存儲頂會FAST(USENIXConference on File and Storage Technologies)上發(fā)表的最新論文表明,SMART再加上存儲性能數(shù)據(jù)可以進一步提升預測準確率。作者采用了12個磁盤IO性能指標、18個服務器性能指標、4個位置信息,基于CNN和LSTM的AI算法實現(xiàn)了提前10天故障預測誤報率0.5%、漏報率5.1%。我們期待著存儲產(chǎn)品上能應用最新的技術來進一步提高預測的準確性。

算法選擇

可用于磁盤故障預測的AI算法有很多,如傳統(tǒng)算法決策樹、經(jīng)典的SVM(Support Vector Machine)、在各種競賽上大放異彩的XGBoost(Gradient Tree Boosting)以及深度學習算法CNN和LSTM。實際效果及頂級會議KDD、ATC、FAST的論文實驗結果都表明,XGBoost、CNN、LSTM的效果比傳統(tǒng)算法有明顯優(yōu)勢。

評價指標在完成了歷史數(shù)據(jù)訓練,故障預測之后,我們需要對預測的效果進行評估。表2描述了機器學習中標準的評價指標。

表2:機器學習模型評價指標

基于表2中的定義,評價磁盤故障預測的主要有準確率、漏報率和誤報率:

準確率=:判定正確的盤(含好盤和壞盤)占所有盤的比例

誤報率=:好盤被誤判成壞盤占所有好盤的比例

漏報率=:沒有識別出的壞盤占所有壞盤的比例

準確率高,誤報和漏報低,是我們追求的目標。這相當于我們在發(fā)現(xiàn)幾乎壞盤的同時沒有把好盤誤判成壞盤。但是從算法調(diào)優(yōu)的角度看,誤報率和漏報率是一對矛盾,誤報率的降低會引起漏報率的上升,漏報率的降低會引起誤報率的上升。對于同一個算法來說,如果誤報和漏洞同時降低,很可能發(fā)生了過擬合現(xiàn)象,當換一類盤后,誤報和漏報都會大幅上升。

3

存儲性能容量預測技術 對于存儲來說,性能和容量預測是兩件不同的事情,都為客戶帶來不同的價值。但是站在技術角度,兩者都屬于數(shù)據(jù)挖掘中時間序列預測問題(Time Series Prediction)。時間序列,也叫時間數(shù)列、歷史復數(shù)或動態(tài)數(shù)列。它是將某種統(tǒng)計指標的數(shù)值,按時間先后順序排到所形成的數(shù)列。預測的基本原理是:統(tǒng)計分析過去的時間序列數(shù)據(jù),形成擬合函數(shù)或者AI算法模型,以擬合的函數(shù)結果或模型來預測未來的趨勢。

時間序列預測法可用于短期、中期和長期預測。造成時間序列數(shù)據(jù)發(fā)生變化的因素主要有以下四個:

趨勢性:時間序列曲線呈現(xiàn)出一種緩慢而長期的持續(xù)上升、下降、不變的整體趨勢。

周期性:由于外部的影響,隨季節(jié)的交替,時間序列曲線有明顯的周期性的高峰、低谷。

隨機性:個別的數(shù)據(jù)變化為隨機變動,但整體呈現(xiàn)出統(tǒng)計規(guī)律。

綜合性:以上幾種變化因素的疊加或組合。預測時可以過濾除去不規(guī)則的隨機因素,最終展現(xiàn)出趨勢性和周期性變動。

經(jīng)典的時間序列預測算法有ARIMA、線性回歸、深度學習算法等。這些算法有各自的優(yōu)劣勢,產(chǎn)品會根據(jù)不同的客戶應用場景來選擇不同的算法。下圖展示了各個算法的實際效果。

時間序列算法效果比較

對于存儲來說,除核心算法外,存儲還有自身的容量和性能指標。表3列出了浪潮智能存儲管理平臺InView支持的未來1天、7天、30天、90天的3個容量趨勢指標,15個性能趨勢指標。

表3:浪潮存儲性能容量預測指標

4

存儲AIOps的產(chǎn)業(yè)落地浪潮智能存儲管理平臺InView 存儲產(chǎn)業(yè)界中,作為新數(shù)據(jù)時代“新存儲”引領者,浪潮存儲推出了領先且獨具特色的智能存儲管理平臺InView,提供了預測性分析、端到端的故障定位、性能洞察等一系列的智能化功能,幫助用戶分析復雜應用環(huán)境下從虛擬機到后端存儲端到端的性能瓶頸,確定影響性能瓶頸的主要因素,并最終給出可行的優(yōu)化或解決問題的建議。 其中磁盤故障預測、性能容量預測的智能化功能,可以幫助客戶預防硬件故障帶來的損失,并給出具體的擴容建議,為客戶提供更穩(wěn)定、高性能、智能化的存儲服務,使存儲服務能更好地適應用戶需求,同時降低存儲的復雜性和維護成本。 注:感謝我的同事葉毓睿對本篇文章提供啟發(fā)。

原文標題:【科技放大鏡】AI加持,給復雜存儲管理做“減法”

文章出處:【微信公眾號:浪潮存儲】歡迎添加關注!文章轉載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 存儲
    +關注

    關注

    13

    文章

    4134

    瀏覽量

    85309
  • 磁盤
    +關注

    關注

    1

    文章

    355

    瀏覽量

    25101
  • AI
    AI
    +關注

    關注

    87

    文章

    28978

    瀏覽量

    266380

原文標題:【科技放大鏡】AI加持,給復雜存儲管理做“減法”

文章出處:【微信號:inspurstorage,微信公眾號:浪潮存儲】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    什么是開關設備溫升預測預警解決方案

    蜀瑞創(chuàng)新科普:電力開關設備溫升預測預警解決方案是一種針對電力設備在運行過程中可能因溫度升高而引發(fā)故障或事故的問題,通過先進的預測和預警技術來提前識別并采取措施的解決方案。這一解決方案旨
    的頭像 發(fā)表于 09-13 09:39 ?144次閱讀
    什么是開關設備溫升<b class='flag-5'>預測</b>預警解決方案

    MATLAB預測模型哪個好

    在MATLAB中,預測模型的選擇取決于數(shù)據(jù)類型、問題復雜度和預測目標。以下是一些常見的預測模型及其適用場景的介紹: 線性回歸(Linear Regression): 線性回歸是最基本的預測
    的頭像 發(fā)表于 07-11 14:31 ?256次閱讀

    存儲服務器與磁盤陣列的區(qū)別

    存儲服務器與磁盤陣列是兩種不同的數(shù)據(jù)存儲解決方案。它們在功能、性能、成本、可靠性、可擴展性等方面存在許多差異。本文將詳細介紹云存儲服務器與
    的頭像 發(fā)表于 07-02 09:13 ?627次閱讀

    電磁軌跡預測分析系統(tǒng)

    智慧華盛恒輝電磁軌跡預測分析系統(tǒng)是一個專門用于預測和分析電磁運動軌跡的系統(tǒng)。該系統(tǒng)結合了電磁學、運動學、數(shù)據(jù)分析以及可能的人工智能或機器學習技術,以實現(xiàn)對電磁運動軌跡的精確預測和深入分
    的頭像 發(fā)表于 06-25 15:19 ?310次閱讀

    EVA數(shù)據(jù)恢復—EVA存儲磁盤掉線導致LUN丟失的數(shù)據(jù)恢復案例

    EVA存儲數(shù)據(jù)恢復環(huán)境: EVA控制器+三個擴展柜+數(shù)十塊FC硬盤。 EVA存儲故障&檢測: 磁盤掉線導致存儲中的部分LUN丟失,
    的頭像 發(fā)表于 04-19 13:28 ?232次閱讀
    EVA數(shù)據(jù)恢復—EVA<b class='flag-5'>存儲</b>中<b class='flag-5'>磁盤</b>掉線導致LUN丟失的數(shù)據(jù)恢復案例

    美光預測:2024年存儲器產(chǎn)業(yè)將迎來佳績

    美光展示了豐富的新產(chǎn)品信息,眾多高管拜訪了參展的制造商。對于今年存儲器行業(yè)的預測,蒙提斯表示,由于AI技術如火如荼地發(fā)展以及硬件規(guī)格的升級,存儲器行業(yè)將繼續(xù)保持增長勢頭。
    的頭像 發(fā)表于 02-29 09:50 ?431次閱讀

    SCG客戶應用ZETA預測性維護方案,精準發(fā)現(xiàn)設備故障

    作為泰國皇室企業(yè)及東南亞最大的水泥集團,泰國暹羅水泥集團(以下簡稱“SCG”)積極引進IoT技術提供建筑、工業(yè)、能源等領域的多種數(shù)字化解決方案,比如應用縱行科技的ZETA技術和數(shù)據(jù)分析來預測工業(yè)設備
    的頭像 發(fā)表于 01-23 10:38 ?268次閱讀
    SCG客戶應用ZETA<b class='flag-5'>預測</b>性維護方案,精準發(fā)現(xiàn)設備<b class='flag-5'>故障</b>

    【Vsan數(shù)據(jù)恢復】Vsan分布式存儲虛擬磁盤文件丟失的數(shù)據(jù)恢復案例

    一套vsan分布式存儲架構有數(shù)臺服務器節(jié)點,該vsan分布式存儲架構配置了固態(tài)硬盤和機械硬盤,固態(tài)硬盤作為緩存盤使用,機械硬盤作為容量盤使用。 機房供電異常導致服務器異常關機,工作人員重啟服務器后發(fā)現(xiàn)vsan分布式
    的頭像 發(fā)表于 01-03 16:39 ?517次閱讀

    企業(yè)存儲磁盤陣列技術分享(存儲主要協(xié)議對比)

    磁盤陣列是一種企業(yè)級存儲系統(tǒng)(RAID級別和磁盤陣列可以提高數(shù)據(jù)的可靠性和性能。在選擇磁盤陣列時,需要考慮
    發(fā)表于 12-25 11:39 ?526次閱讀
    企業(yè)<b class='flag-5'>存儲</b><b class='flag-5'>磁盤</b>陣列<b class='flag-5'>技術</b>分享(<b class='flag-5'>存儲</b>主要協(xié)議對比)

    LabVIEW進行癌癥預測模型研究

    病例和癌癥相關死亡人數(shù)有所增加。其中,乳腺癌是女性中最常見的癌癥類型。 本研究采用ML技術對乳腺癌進行預測,比較了當前方法和提出的方法。 使用診斷乳腺癌數(shù)據(jù)集包含699個樣本,9個變量。數(shù)據(jù)集中的樣本被
    發(fā)表于 12-13 19:04

    基于CNN-LSTM網(wǎng)絡的電力負荷預測

    為了及時掌握電力負荷的變動信息,就需要對電力負荷進行準確預測。鑒于此,探究出一種CNN和LSTM的組合模型來預測一日到一周的電力短期負荷波動情況。CNN模型負責從輸入信息中提取特征,LSTM模型利用
    的頭像 發(fā)表于 11-09 14:13 ?3252次閱讀
    基于CNN-LSTM網(wǎng)絡的電力負荷<b class='flag-5'>預測</b>

    智能運維第一步:HDD磁盤故障預測

    intelligence for IT operations,簡稱AIOPS)應運而生。 AIOPS融合了人工智能、自動化和數(shù)據(jù)分析等技術,旨在優(yōu)化IT運維的效率、可靠性和可用性。在AIOPS的范疇內(nèi),硬盤驅動器(HDD)故障預測
    的頭像 發(fā)表于 10-27 19:55 ?621次閱讀
    智能運維第一步:HDD<b class='flag-5'>磁盤</b><b class='flag-5'>故障</b><b class='flag-5'>預測</b>

    卡爾曼濾波算法是怎么實現(xiàn)對數(shù)據(jù)的預測處理的?

    卡爾曼濾波算法是怎么實現(xiàn)對數(shù)據(jù)的預測處理的
    發(fā)表于 10-10 08:28

    存儲發(fā)展歷程:磁盤陣列基礎知識

    磁盤陣列是一種企業(yè)級存儲系統(tǒng),可以提供更高的可靠性和性能。選擇適合自己需求的RAID級別和磁盤陣列可以提高數(shù)據(jù)的可靠性和性能。在選擇
    發(fā)表于 10-08 16:57 ?573次閱讀
    <b class='flag-5'>存儲</b>發(fā)展歷程:<b class='flag-5'>磁盤</b>陣列基礎知識

    服務器數(shù)據(jù)恢復-V7000存儲更換磁盤數(shù)據(jù)同步失敗的數(shù)據(jù)恢復案例

    服務器數(shù)據(jù)恢復環(huán)境: P740+AIX+Sybase+V7000存儲,存儲陣列柜上共12塊SAS機械硬盤(其中一塊為熱備盤)。 服務器故障存儲陣列柜中有
    的頭像 發(fā)表于 10-07 15:25 ?402次閱讀