本文介紹如何向網(wǎng)絡(luò)、通信、工業(yè)和醫(yī)療設(shè)備添加“黑匣子”功能(非易失性故障記錄)。它概述了記錄故障數(shù)據(jù)的好處,包括更快、更明確的故障分析。
背景
每個(gè)人都熟悉“黑匣子”一詞,指的是提供飛機(jī)失事原因線索的設(shè)備。飛機(jī)的黑匣子收集了有關(guān)飛機(jī)運(yùn)行條件的大量數(shù)據(jù)點(diǎn),包括高度、速度、襟翼和方向舵位置;它記錄了飛行員在事故發(fā)生前所做的事情和所說的話。此運(yùn)行日志記錄了崩潰前發(fā)生的事情,對于確定事件的根本原因至關(guān)重要。
順便說一句,“黑匣子”一詞用詞不當(dāng)。飛機(jī)上使用的設(shè)備從來都不是黑色的——它是橙色的,以便于定位。該設(shè)備的正確航空電子術(shù)語是“事件數(shù)據(jù)記錄器”。
當(dāng)然,工程界也會(huì)把黑匣子理解為輸入和輸出已知,但黑匣子的內(nèi)部操作未知的設(shè)備。這種類型的黑匣子不是本文的主題。
在飛機(jī)以外的電子設(shè)備中添加數(shù)據(jù)記錄功能(黑匣子)可以證明非常有價(jià)值。黑匣子功能在電子設(shè)備中被稱為“復(fù)雜系統(tǒng)管理器”,可在網(wǎng)絡(luò)、工業(yè)控制、醫(yī)療和通信設(shè)備中提供故障記錄。故障記錄的主要好處非常簡單:更快、更明確的故障分析。本文介紹如何實(shí)現(xiàn)此類功能,并概述非易失性故障記錄可以實(shí)現(xiàn)的好處。
電源管理方案
從電源管理的角度來看,大多數(shù)“大盒子”和“小盒子”系統(tǒng)的內(nèi)部工作原理看起來非常相似。無論機(jī)箱是路由器、服務(wù)器、基站、光復(fù)用器、可編程邏輯控制器 (PLC) 還是磁共振成像儀 (MRI),它們都包含一系列開關(guān)模式電源和線性電源,需要監(jiān)控電壓、電流、溫度和可能的風(fēng)扇速度。參見圖1。
圖1.典型的電源布置。
非易失性故障記錄
在大型大盒子系統(tǒng)和較小的“披薩盒”系統(tǒng)中,復(fù)雜的系統(tǒng)管理器的主要功能是控制和監(jiān)視許多電源和風(fēng)扇。監(jiān)控包括查找系統(tǒng)故障事件,例如電壓過高或過低、電流過高、溫度超出范圍以及風(fēng)扇未以適當(dāng)速度旋轉(zhuǎn)。檢查故障可以像檢查參數(shù)是否超出閾值一樣簡單。如果在系統(tǒng)運(yùn)行時(shí)收集實(shí)時(shí)數(shù)據(jù),并在發(fā)生故障時(shí)將其存儲到非易失性存儲器中,則可以創(chuàng)建事件數(shù)據(jù)記錄器功能。圖 2 顯示了這樣一個(gè)系統(tǒng)。
圖2.用于多個(gè)電源和風(fēng)扇的非易失性故障記錄系統(tǒng)的功能圖。
在圖 2 中,復(fù)雜的系統(tǒng)管理器連續(xù)收集有關(guān)眾多系統(tǒng)電壓、電流、溫度和風(fēng)扇速度的數(shù)據(jù)。與飛機(jī)中的黑匣子類似,最新的參數(shù)數(shù)據(jù)(例如,最近 500 毫秒到 1 秒的數(shù)據(jù))是滾動(dòng)連續(xù)收集的。然后,當(dāng)發(fā)生故障時(shí),將永久記錄當(dāng)時(shí)系統(tǒng)的快照。能夠在故障發(fā)生之前檢查系統(tǒng)運(yùn)行前 500 毫秒到 1 秒,是了解導(dǎo)致故障的原因以及系統(tǒng)如何受到影響的關(guān)鍵信息。通過檢查數(shù)據(jù),可以重建時(shí)間線并確定相互依賴關(guān)系。理想情況下,復(fù)雜的系統(tǒng)管理器應(yīng)記錄多個(gè)故障發(fā)生。由于系統(tǒng)相互依賴性緊密耦合,一個(gè)故障可能會(huì)導(dǎo)致多個(gè)系統(tǒng)故障連續(xù)發(fā)生。因此,為了找到故障的根本原因,捕獲所有數(shù)據(jù)非常重要。此外,大量的非易失性存儲允許系統(tǒng)存儲可能不被視為災(zāi)難性的事件,而只是指示系統(tǒng)何時(shí)在指定范圍之外運(yùn)行。此數(shù)據(jù)的存儲對于強(qiáng)制執(zhí)行保修合規(guī)性非常重要。
一個(gè)例子
考慮圖 3 中所示的場景。電源發(fā)生故障(步驟1),故障由持續(xù)監(jiān)控電壓、電流和溫度的復(fù)雜系統(tǒng)管理器之一檢測到。經(jīng)理會(huì)立即通知系統(tǒng)中的其他經(jīng)理,以便他們可以根據(jù)需要采取措施(步驟 2)。然后,復(fù)雜的系統(tǒng)管理器根據(jù)系統(tǒng)需要對電源和風(fēng)扇進(jìn)行排序(步驟 3)。然后,有關(guān)系統(tǒng)電壓、電流、溫度和風(fēng)扇速度的所有最新數(shù)據(jù)都會(huì)記錄到每個(gè)復(fù)雜系統(tǒng)管理器的板載黑匣子中(步驟 4)。由于數(shù)據(jù)存儲在非易失性存儲器中,主機(jī)可以在將來的任何時(shí)候(即使在從現(xiàn)場返回?cái)?shù)據(jù)之后)提取數(shù)據(jù),以確定導(dǎo)致故障的原因(步驟5)。
圖3.黑盒故障日志記錄方案。
非易失性故障記錄的優(yōu)勢
非易失性故障記錄具有許多優(yōu)點(diǎn)。如果設(shè)備能夠跟蹤現(xiàn)場故障期間發(fā)生的情況,故障分析團(tuán)隊(duì)可以快速分析并準(zhǔn)確確定故障的根本原因。這種故障排除改善了客戶關(guān)系,因?yàn)橛脩舨豢杀苊獾叵M焖倭私庠O(shè)備故障的原因。此外,制造商越快意識到潛在的責(zé)任,他們就能越快地糾正問題并節(jié)省未來潛在故障的成本。這再次使客戶滿意,并提高了其設(shè)備的整體可靠性。非易失性故障記錄還可以確定客戶是否在指定的工作范圍之外使用設(shè)備,這一操作可能違反產(chǎn)品保修。隨著時(shí)間的推移,收集現(xiàn)場故障數(shù)據(jù)可以通過識別不良供應(yīng)商和薄弱的設(shè)計(jì)實(shí)踐來提高未來的產(chǎn)品可靠性。
復(fù)雜系統(tǒng)管理器
Maxim Integrated提供多種復(fù)雜的系統(tǒng)管理器,包括廣泛的非易失性故障記錄,適用于服務(wù)器等大型系統(tǒng)和網(wǎng)絡(luò)交換機(jī)等披薩盒設(shè)計(jì)。參見圖 4 和圖 5。
MAX34440控制和監(jiān)視多達(dá)4個(gè)電源(圖34440)。它提供電源排序和裕量調(diào)節(jié),并監(jiān)控電壓、電流和溫度故障。多個(gè)MAX31785器件可以并聯(lián),以處理系統(tǒng)中存在的所有電源。MAX34440控制和監(jiān)視多達(dá)31785個(gè)風(fēng)扇。與MAX<>一樣,可以使用多個(gè)MAX<>器件來支持任意數(shù)量的風(fēng)扇。
圖4.大盒子系統(tǒng)設(shè)計(jì)采用MAX34440和MAX31785。
Maxim還提供復(fù)雜的系統(tǒng)管理器,支持網(wǎng)絡(luò)交換機(jī)等小型披薩盒設(shè)計(jì)。MAX34441支持多達(dá)5個(gè)電源和一個(gè)風(fēng)扇(圖34441)。為了最大限度地提高設(shè)計(jì)靈活性,多個(gè)MAX34440器件可以并聯(lián)或與多個(gè)MAX31785和MAX<>器件配合使用。
圖5.采用MAX34441的披薩盒系統(tǒng)設(shè)計(jì)
價(jià)值主張
網(wǎng)絡(luò)、工業(yè)控制、醫(yī)療和通信設(shè)備中的黑匣子故障記錄可實(shí)現(xiàn)更快、更明確的故障分析。反過來,這又可以通過更快的反應(yīng)時(shí)間產(chǎn)生更高的客戶滿意度,從長遠(yuǎn)來看,更好的產(chǎn)品可靠性。
審核編輯:郭婷
-
電源
+關(guān)注
關(guān)注
184文章
17484瀏覽量
249144 -
交換機(jī)
+關(guān)注
關(guān)注
20文章
2610瀏覽量
99093 -
管理器
+關(guān)注
關(guān)注
0文章
241瀏覽量
18477
發(fā)布評論請先 登錄
相關(guān)推薦
評論