0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

智能運維第一步:HDD磁盤故障預(yù)測

全球TMT ? 來源:全球TMT ? 作者:全球TMT ? 2023-10-31 13:39 ? 次閱讀

當(dāng)今數(shù)字化時代,信息技術(shù)扮演著企業(yè)和組織運營的關(guān)鍵角色。然而,隨著IT環(huán)境不斷復(fù)雜化和數(shù)據(jù)量激增,傳統(tǒng)的運維管理方法已經(jīng)無法滿足日益增長的需求。為應(yīng)對這一挑戰(zhàn),智能運維(Artificial intelligence for IT operations,簡稱AIOPS)應(yīng)運而生。

AIOPS融合了人工智能、自動化和數(shù)據(jù)分析等技術(shù),旨在優(yōu)化IT運維的效率、可靠性和可用性。在AIOPS的范疇內(nèi),硬盤驅(qū)動器(HDD)故障預(yù)測是其中一個至關(guān)重要的組成部分。在數(shù)字化時代,數(shù)據(jù)被譽為“新時代的石油”,HDD作為數(shù)據(jù)存儲的基礎(chǔ)設(shè)備,在數(shù)據(jù)中心、服務(wù)器和個人計算機(jī)中廣泛使用,扮演著關(guān)鍵角色。然而其敏感、精確、結(jié)構(gòu)復(fù)雜的特性往往也使得某些故障難以避免。因此,通過AIOPS來實現(xiàn)HDD故障預(yù)測,避免數(shù)據(jù)丟失、業(yè)務(wù)中斷、維護(hù)成本上升,從而保障數(shù)據(jù)可用性和系統(tǒng)穩(wěn)定性,逐漸成為保障業(yè)務(wù)正常運轉(zhuǎn)的重要手段。

為什么硬盤會出現(xiàn)故障?

由旋轉(zhuǎn)磁盤和漂浮在其上方的讀/寫頭組合而成的硬盤驅(qū)動器盡管結(jié)構(gòu)復(fù)雜,但它們已經(jīng)證明了自己作為數(shù)據(jù)載體的價值。然而,引起機(jī)械硬盤發(fā)生故障的原因有多種:首先,如高溫、濕度、機(jī)械磨損、讀寫操作頻率等,這些因素之間的相互作用使得故障模式變得更為復(fù)雜,大大提高了預(yù)測難度。其次,溫度、振動、讀寫速度、錯誤率等多樣性HDD性能數(shù)據(jù)在規(guī)模龐大的數(shù)據(jù)存儲環(huán)境中對進(jìn)行有效利用和分析,無疑也是一個挑戰(zhàn)。

傳統(tǒng)的故障預(yù)測方法主要基于固定的閾值和經(jīng)驗判斷,存在明顯的限制:傳統(tǒng)方法只能在故障已經(jīng)發(fā)生或接近發(fā)生時才采取行動,無法預(yù)測性地防止故障;基于閾值的警報往往容易誤報,因為某些參數(shù)可能因正常使用而產(chǎn)生波動;傳統(tǒng)方法通常需要大量的人工干預(yù),增加管理成本。相比之下,智能算法的引入為HDD故障預(yù)測帶來諸多可能性,利用大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù),其強大的學(xué)習(xí)和自適應(yīng)能力可以更好地利用和分析這些多樣化的數(shù)據(jù),從海量的硬盤驅(qū)動器數(shù)據(jù)中提取有價值的信息,進(jìn)而更加準(zhǔn)確地進(jìn)行故障預(yù)測。

HDD故障預(yù)測解決方案

方案主要包含兩部分:模型離線訓(xùn)練以及實時監(jiān)測和警報。首先通過離線訓(xùn)練得到可用的預(yù)測模型,然后將模型運用到實際生產(chǎn)環(huán)境中進(jìn)行實時故障預(yù)測。

模型離線訓(xùn)練

模型離線訓(xùn)練整體流程如圖1所示。模型所需數(shù)據(jù)為S.M.A.R.T.(Self-Monitoring Analysis and Reporting Technology,自我監(jiān)測、分析及報告技術(shù),即一種自動的硬盤狀態(tài)檢測與預(yù)警系統(tǒng)和規(guī)范)數(shù)據(jù),主要指硬盤運行過程中的指標(biāo)值。在數(shù)據(jù)預(yù)處理階段,由于并非所有原始屬性都是機(jī)器學(xué)習(xí)模型的可用特征,因此需要先去除冗余和不相關(guān)的特征并選擇與預(yù)測結(jié)果相關(guān)的特征,然后對于空缺的數(shù)據(jù)進(jìn)行向前補全。同時,故障盤最后兩周的樣本均為潛在故障樣本(預(yù)示著該硬盤可能隨時會發(fā)生故障),即需要將最后兩周的樣本設(shè)置為故障盤樣本標(biāo)簽。最后,二維數(shù)據(jù)類圖構(gòu)建則是將時間作為第二維度(SMART屬性作為第一維度),使用滑動窗口的方式,構(gòu)建出二維數(shù)據(jù)圖,如圖2所示。經(jīng)過此階段處理能夠保持SMART數(shù)據(jù)的時間局部性,有利于磁盤故障預(yù)測。最后將得到的數(shù)據(jù)進(jìn)行數(shù)據(jù)劃分,分別組成訓(xùn)練集、驗證集和測試集用于模型訓(xùn)練和評估。

wKgZomVAkvqADflKAABS9VLX2Ng557.jpg


圖1 模型離線訓(xùn)練

wKgaomVAkvuAIYofAABvEFGmd-M055.jpg


圖2 滑動窗口構(gòu)建數(shù)據(jù)類圖

在故障預(yù)測模型訓(xùn)練過程中(圖3中虛線框所示),只使用健康硬盤的樣本。編碼器GE用來對原始輸入圖片x進(jìn)行編碼,得到圖片特征z,解碼器GD對編碼后的圖片特征z`進(jìn)行解碼。得到重構(gòu)圖片x`。為檢測異常,添加一個編碼器E來學(xué)習(xí)重構(gòu)樣本x`的特征表示z`。對于原始樣本x和生成圖片x`,交由判別網(wǎng)絡(luò)D來判別真?zhèn)?,這樣,在判別網(wǎng)絡(luò)進(jìn)行更新時,判別網(wǎng)絡(luò)的判別能力會得到提升。

wKgZomVAkvyAYcyLAAB0qRLwU5w060.jpg


圖3 故障預(yù)測模型

在模型預(yù)測過程中(圖3中實線框所示),無判別網(wǎng)絡(luò),只利用生成網(wǎng)絡(luò)。將硬盤當(dāng)前的二維SMART數(shù)據(jù)類圖作為輸入,經(jīng)過模型中生成網(wǎng)絡(luò)的處理,得到輸入類圖的特征表示z和生成網(wǎng)絡(luò)的特征表示z`。其預(yù)測原理是,利用z和z`之間的差異來衡量樣本生成的有效性,且兩者差異越小,樣本生成越好。因此,兩者的L2范式A(X)=||z-z`||2被用于衡量樣本的異常度,即當(dāng)值大于某一閾值時,表示樣本異常,即該硬盤將發(fā)生故障。其背后原因是,在訓(xùn)練過程中只利用和學(xué)習(xí)健康硬盤樣本的分布,則使得健康硬盤樣本的差異更小,即z和z`的差距更小。在預(yù)測時,如果輸入樣本來自故障硬盤,則會因為故障樣本偏離健康樣本的分布,導(dǎo)致z和z`差異更顯著。

模型每次迭代訓(xùn)練使用AUC(Area Under Curve,接受者操作特征曲線下面積)區(qū)域預(yù)測效果最好的模型參數(shù)進(jìn)行保存并供后續(xù)預(yù)測使用。模型訓(xùn)練完成后使用準(zhǔn)確率對模型的性能進(jìn)行評估,經(jīng)評估模型的預(yù)測準(zhǔn)確性可達(dá)99%。

實時監(jiān)測和警報

當(dāng)模型訓(xùn)練完成后將HDD故障預(yù)測引擎順利整合到多設(shè)備管理軟件InView端,允許實時采集硬盤SMART數(shù)據(jù),并利用模型進(jìn)行在線推理預(yù)測未來兩周內(nèi)硬盤發(fā)生故障可能性(如圖4所示)。當(dāng)系統(tǒng)檢測到硬盤出現(xiàn)故障風(fēng)險立即觸發(fā)告警機(jī)制,及時通知用戶進(jìn)行換盤處理。此機(jī)制不僅能夠確保數(shù)據(jù)的安全可靠性,還提高了硬盤驅(qū)動器的整體性能和維護(hù)效率,強力保障了業(yè)務(wù)的連續(xù)性和數(shù)據(jù)管理的穩(wěn)定性。

wKgaomVAkv2AZqlRAACLe74b3KA814.jpg


圖4 InView端HDD故障預(yù)測

通過AIOPS技術(shù),浪潮信息HDD磁盤故障預(yù)測解決方案不僅實現(xiàn)了業(yè)界領(lǐng)先的預(yù)測準(zhǔn)確性,還成功整合預(yù)測引擎和實時監(jiān)測系統(tǒng),能夠在故障風(fēng)險出現(xiàn)時采取及時的措施,保護(hù)數(shù)據(jù)的安全和業(yè)務(wù)的連續(xù)性。

未來,將繼續(xù)優(yōu)化和拓展HDD磁盤故障預(yù)測能力:

除SMART數(shù)據(jù)外拓展更多類型數(shù)據(jù),全方位多角度評估硬盤健康狀況;

通過機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的發(fā)展為識別和預(yù)測復(fù)雜的故障模式提供更多工具;

進(jìn)一步改進(jìn)實時監(jiān)測和警報系統(tǒng),提高智能化和自適應(yīng)性,使系統(tǒng)學(xué)習(xí)并適應(yīng)不斷變化的硬盤性能和環(huán)境條件;

研究自動化響應(yīng)機(jī)制,實現(xiàn)更快速的故障處理,進(jìn)一步降低業(yè)務(wù)中斷的風(fēng)險。

面對生成式AI掀起的變革浪潮,5G、AI大語言模型、自動駕駛等各類新技術(shù)融合,大容量HDD依然是企業(yè)級數(shù)據(jù)中心、云服務(wù)提供商以及超大規(guī)模云業(yè)務(wù)領(lǐng)域的首選,浪潮信息將繼續(xù)秉承“極致存儲,智慧有數(shù)”的理念,基于自身技術(shù)優(yōu)勢不斷創(chuàng)新,持續(xù)推動該領(lǐng)域的技術(shù)發(fā)展,以可靠高效的一體式解決方案守護(hù)企業(yè)數(shù)據(jù)安全,助力千行百業(yè)數(shù)字化轉(zhuǎn)型。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 硬盤
    +關(guān)注

    關(guān)注

    3

    文章

    1283

    瀏覽量

    57199
  • 磁盤
    +關(guān)注

    關(guān)注

    1

    文章

    361

    瀏覽量

    25154
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29806

    瀏覽量

    268107
收藏 人收藏

    評論

    相關(guān)推薦

    基于工業(yè)物聯(lián)網(wǎng)的電力智能分析管理系統(tǒng)

    分析管理系統(tǒng)應(yīng)運而生,它極大地提升了電力系統(tǒng)的效率,推動了智能化、自動化的方向發(fā)展。 電力智能
    的頭像 發(fā)表于 11-08 11:01 ?106次閱讀
    基于工業(yè)物聯(lián)網(wǎng)的電力<b class='flag-5'>智能</b><b class='flag-5'>運</b><b class='flag-5'>維</b>分析管理系統(tǒng)

    旋轉(zhuǎn)設(shè)備的振動

    預(yù)測性維護(hù)是為設(shè)備故障停機(jī)的主動性維護(hù)策 略。人工智能技術(shù)和數(shù)據(jù)分析被用于預(yù)測距離設(shè)備發(fā)生 故障的時間,防止停機(jī)??蛻粼俑鶕?jù)
    的頭像 發(fā)表于 11-06 15:53 ?43次閱讀
    旋轉(zhuǎn)設(shè)備的振動<b class='flag-5'>運</b><b class='flag-5'>維</b>

    光伏電站管理系統(tǒng)智能的新時代

    智能與管理注入了新的活力。 光伏電站管理系統(tǒng)是基于云計算技術(shù)的電站
    的頭像 發(fā)表于 11-01 17:03 ?114次閱讀
    光伏電站<b class='flag-5'>運</b><b class='flag-5'>維</b>管理系統(tǒng)<b class='flag-5'>智能</b>化<b class='flag-5'>運</b><b class='flag-5'>維</b>的新時代

    郭光燦院士:邁出中國量子計算“軟實力”第一步

    ,是中國量子計算“軟實力”邁出的第一步。量子計算是國際前沿科技,也是中國未來產(chǎn)業(yè)之。當(dāng)前,中國量子計算科技“硬實力”已居全球第一方陣,中國是世界上第三個具備超導(dǎo)量
    的頭像 發(fā)表于 09-12 08:07 ?196次閱讀
    郭光燦院士:邁出中國量子計算“軟實力”<b class='flag-5'>第一步</b>

    光伏電站管理系統(tǒng)實現(xiàn)電站智能與管理

    光伏電站管理系統(tǒng)實現(xiàn)電站智能與管理 光伏電站作為潛力巨大的新能源發(fā)電方式之正在迅速發(fā)展
    的頭像 發(fā)表于 08-16 16:48 ?435次閱讀
    光伏電站<b class='flag-5'>運</b><b class='flag-5'>維</b>管理系統(tǒng)實現(xiàn)電站<b class='flag-5'>智能</b><b class='flag-5'>運</b><b class='flag-5'>維</b>與管理

    散熱第一步是導(dǎo)熱

    進(jìn)一步提高產(chǎn)品的使用壽命。 產(chǎn)品型號有多種規(guī)格可選擇(導(dǎo)熱系數(shù)1.0~5.0W/m.K)。 合肥傲琪電子的導(dǎo)熱硅脂、導(dǎo)熱硅膠片還應(yīng)用于對芯片、主板、功率管(MOS)、變壓器、模塊、PCB板、鋁基板
    發(fā)表于 08-06 08:52

    光伏電站智能管理系統(tǒng)的三大核心功能

    光伏電站智能管理系統(tǒng)的三大核心功能 光伏電站智能管理系統(tǒng)利用物聯(lián)網(wǎng)、大數(shù)據(jù)、人工
    的頭像 發(fā)表于 07-24 16:29 ?491次閱讀
    光伏電站<b class='flag-5'>智能</b><b class='flag-5'>運</b><b class='flag-5'>維</b>管理系統(tǒng)的三大核心功能

    無人機(jī)光伏智能管理系統(tǒng)

    ?????? 無人機(jī)光伏智能管理系統(tǒng) ?????? 無人機(jī)光伏智能管理系統(tǒng)為光伏電站提供
    的頭像 發(fā)表于 06-20 16:38 ?390次閱讀

    設(shè)備管理:訊智能維系統(tǒng)實現(xiàn)設(shè)備智能化管理與維護(hù)

    了全新的解決方案。 訊智能維系統(tǒng)擁有強大的數(shù)據(jù)采集與分析能力,能夠?qū)崟r監(jiān)控設(shè)備的運行狀態(tài)和性能參數(shù)。通過收集并分析各類數(shù)據(jù),系統(tǒng)能夠
    的頭像 發(fā)表于 04-28 15:59 ?656次閱讀

    管理平臺:從基礎(chǔ)智能的飛躍

    管理平臺為企業(yè)提供了從基礎(chǔ)智能
    的頭像 發(fā)表于 04-16 16:26 ?372次閱讀

    智能維新標(biāo)桿:訊管理平臺深度解讀

    的功能和性能,為企業(yè)提供了全新的解決方案,成為了行業(yè)的新標(biāo)桿。 、強大的智能功能 訊
    的頭像 發(fā)表于 04-16 16:24 ?452次閱讀

    基于分布式管理平臺的智能電網(wǎng)案例

    、引言 隨著智能電網(wǎng)的快速發(fā)展,電網(wǎng)系統(tǒng)的復(fù)雜性和難度也在不斷增加。傳統(tǒng)的方式已難以滿
    的頭像 發(fā)表于 03-26 16:24 ?498次閱讀

    AI智能管理平臺助力指揮中心,實現(xiàn)高效智能管理!

    ,進(jìn)一步助力公安工作實現(xiàn)信息化、智能化。 該指揮控制中心是某市公安局的重要職能部門,負(fù)責(zé)全市的治安指揮、調(diào)度和管理工作。隨著信息化建設(shè)的不斷深入,指揮中心對IT及AV系統(tǒng)的依賴程度越來越高,傳統(tǒng)的IT及AV系統(tǒng)
    的頭像 發(fā)表于 12-29 15:32 ?1265次閱讀
    AI<b class='flag-5'>智能</b><b class='flag-5'>運</b><b class='flag-5'>維</b>管理平臺助力指揮中心,實現(xiàn)高效<b class='flag-5'>智能</b><b class='flag-5'>運</b><b class='flag-5'>維</b>管理!

    配網(wǎng)故障定位|智能的新篇章

    隨著電力系統(tǒng)的不斷發(fā)展,配網(wǎng)故障定位已經(jīng)成為了電力工作中的大難題。為了提高配網(wǎng)故障定位的效率和準(zhǔn)確性,本文將介紹
    的頭像 發(fā)表于 12-04 10:47 ?589次閱讀
    配網(wǎng)<b class='flag-5'>故障</b>定位|<b class='flag-5'>智能</b><b class='flag-5'>運</b><b class='flag-5'>維</b>的新篇章

    探頭選型第一步-了解信號源

    在選擇探頭時要考慮四個基本信號源問題,即信號類型、信號頻率成分、信號源阻抗和測試點的物理屬性。 信號類型 探頭選擇的第一步是評估要探測的信號類型。為此,可以把信號劃分為:電壓信號,電流信號,邏輯信號
    的頭像 發(fā)表于 11-17 11:13 ?491次閱讀
    探頭選型<b class='flag-5'>第一步</b>-了解信號源