容錯是一個依賴于系統(tǒng)內(nèi)元素失效的系統(tǒng)。它也可以稱為失效安全設計。例如,在其中一個電源發(fā)生失效后,容錯系統(tǒng)可能會繼續(xù)正常運行?;蛘咚赡茉跍p少或退化的狀態(tài)下運行。其他系統(tǒng)可能具有“跛行回家”狀態(tài),允許系統(tǒng)保存關鍵數(shù)據(jù)或允許您開車到安全的地方更換漏氣的輪胎。在某些情況下,徹底的系統(tǒng)失效是不可接受的。
通信、銀行、空中交通管制、運輸和許多其他領域都有系統(tǒng),一旦發(fā)生失效,可能會導致災難性的后果。創(chuàng)建一個可能會遇到組件、子系統(tǒng)或軟件失效的系統(tǒng),并且該系統(tǒng)能夠以通常非常需要的某種能力繼續(xù)運行。
容錯系統(tǒng)的基本特征
容錯系統(tǒng)可能具有以下一個或多個特征:
無單點失效
這意味著如果電容器、軟件代碼塊、電機或任何單個項目發(fā)生失效,則系統(tǒng)不會發(fā)生失效。例如,許多醫(yī)院都有備用電源系統(tǒng),以防電網(wǎng)出現(xiàn)失效,從而使醫(yī)院內(nèi)的關鍵系統(tǒng)保持運行。
關鍵系統(tǒng)可能有多個冗余方案來保持高水平的容錯和彈性。
沒有單點修復會導致系統(tǒng)宕機
例如,擴展單點失效的想法,實現(xiàn)失效組件的修復不需要關閉系統(tǒng)。
這也意味著系統(tǒng)在維修期間保持在線和運行。這可能會給系統(tǒng)的設計和維護帶來挑戰(zhàn)。熱插拔電源是修復操作的一個示例,它可以在更換失效電源的同時保持系統(tǒng)運行。
失效隔離或識別
該系統(tǒng)能夠識別系統(tǒng)內(nèi)何時發(fā)生失效,并且不允許失效元件對功能產(chǎn)生不利影響(即丟失數(shù)據(jù)或在銀行系統(tǒng)中產(chǎn)生邏輯錯誤)。識別并隔離失效元件。
系統(tǒng)的某些部分可能具有檢測失效的唯一目的,內(nèi)置自測試(BIST)就是一個例子。
失效遏制
當發(fā)生失效時,可能會損壞系統(tǒng)內(nèi)的其他元件,從而造成第二個或第三個失效和系統(tǒng)失效。
例如,如果模擬電路發(fā)生失效,則可能會增加系統(tǒng)中的電流,從而損壞無法承受高電流條件的邏輯電路。失效遏制的想法是避免或盡量減少由單點失效引起的附帶損害。
魯棒性或變異性控制
當系統(tǒng)遇到單點失效時,系統(tǒng)就會發(fā)生變化。
更改可能會導致暫時或永久的更改,從而影響系統(tǒng)的工作元素如何響應和運行。變化會發(fā)生,當發(fā)生失效時,變化通常會增加。
例如,當兩個電源中的一個發(fā)生失效時,其余電源將承擔全部電力需求。這種轉(zhuǎn)變應該在不影響系統(tǒng)性能的情況下發(fā)生。設計和制造穩(wěn)健系統(tǒng)的能力可能涉及六西格瑪設計、實驗優(yōu)化設計和其他工具,以創(chuàng)建能夠在發(fā)生失效時運行的系統(tǒng)。
恢復狀態(tài)操作(回退或跛行)
當發(fā)生失效時,系統(tǒng)可以通過多種方式改變其性能,從而使系統(tǒng)能夠以某種方式繼續(xù)運行。
例如,如果計算機的部分冷卻系統(tǒng)出現(xiàn)失效,中央處理器(CPU)可能會降低其速度或命令執(zhí)行率,從而有效地減少CPU產(chǎn)生的熱量。fail失效會導致冷卻能力損失,CPU會進行調(diào)整以適應并避免過熱和失效。其他還原方案可能包括回滾到先前的工作狀態(tài),或切換到先前或安全模式軟件集。
在某些情況下,系統(tǒng)可能能夠在沒有或只有最小功能損失的情況下操作員,或者恢復操作將系統(tǒng)操作顯著限制在關鍵的幾個功能上。
概括
盡管系統(tǒng)內(nèi)任何單個元件發(fā)生失效,系統(tǒng)仍能繼續(xù)運行的能力意味著該系統(tǒng)不在串聯(lián)配置中。
有一組冗余或一組替代方法可以繼續(xù)運行。系統(tǒng)可以使用多個冗余元素,或者對系統(tǒng)配置的變化具有彈性。
創(chuàng)建容錯系統(tǒng)的適當解決方案通常需要仔細規(guī)劃,了解元素如何發(fā)生失效以及失效周圍元素的影響。
編輯:黃飛
-
模擬電路
+關注
關注
125文章
1554瀏覽量
102633 -
容錯系統(tǒng)
+關注
關注
0文章
4瀏覽量
1381
原文標題:容錯基礎知識
文章出處:【微信號:QCDZYJ,微信公眾號:汽車電子工程知識體系】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論