一般來(lái)說(shuō),系統(tǒng)總是由多個(gè)子系統(tǒng)組成,而子系統(tǒng)又是由更小的子系統(tǒng)組成,直到細(xì)分到電阻器、電容器、電感、晶體管、集成電路、機(jī)械零件等小元件的復(fù)雜組合,其中任何一個(gè)元件發(fā)生故障都會(huì)成為系統(tǒng)出現(xiàn)故障的原因。因此,硬件可靠性設(shè)計(jì)在保證元器件可靠性的基礎(chǔ)上,既要考慮單一控制單元的可靠性設(shè)計(jì),更要考慮整個(gè)控制系統(tǒng)的可靠性設(shè)計(jì)。
影響硬件可靠性的因素
元件失效
元件失效有三種:一是元件本身的缺陷,如硅裂、漏氣等;二是加工過(guò)程、環(huán)境條件的變化加速了元件、組件的失效;三是工藝問(wèn)題,如焊接不牢、篩選不嚴(yán)等。
設(shè)計(jì)不當(dāng)
在計(jì)算機(jī)控制系統(tǒng)中,許多元器件發(fā)生的故障并不是元件本身的問(wèn)題,而是系統(tǒng)設(shè)計(jì)不合理或元器件使用不當(dāng)所造成。
在設(shè)計(jì)過(guò)程中,如何正確使用各種型號(hào)的元器件或集成電路,是提高硬件可靠性不可忽視的重要因素。
電氣性能:元器件的電氣性能是指元器件所能承受的電壓、電流、電容、功率等的能力,在使用時(shí)要注意元器件的電氣性能,不能超限使用。
環(huán)境條件:計(jì)算機(jī)控制系統(tǒng)的工作環(huán)境有時(shí)相當(dāng)惡劣,由于環(huán)境因素的影響,不少系統(tǒng)的實(shí)驗(yàn)室試驗(yàn)情況雖然良好,但安裝到現(xiàn)場(chǎng)并長(zhǎng)期運(yùn)行就頻出故障。其原因是多方面的,包括溫度、干擾、電源、現(xiàn)場(chǎng)空氣等對(duì)硬件的影響。因此,設(shè)計(jì)系統(tǒng)時(shí),應(yīng)考慮環(huán)境條件對(duì)硬件參數(shù)的影響,元件設(shè)備須經(jīng)老化試驗(yàn)處理。
組裝工藝:在硬件設(shè)計(jì)中,組裝工藝直接影響硬件系統(tǒng)的可靠性。由于工藝原因引起的故障很難定位排除,一個(gè)焊點(diǎn)的虛焊或似接非接很可能導(dǎo)致整個(gè)系統(tǒng)在工作過(guò)程中不時(shí)地出現(xiàn)工作不正?,F(xiàn)象。另外,設(shè)計(jì)印制電路板時(shí)應(yīng)考慮元器件的布局、引線的走向、引線的分類排序等。
提高硬件可靠性的一般方法
在計(jì)算機(jī)控制系統(tǒng)的整體設(shè)計(jì)中,如何提高系統(tǒng)硬件的可靠性是整個(gè)系統(tǒng)設(shè)計(jì)的關(guān)鍵,系統(tǒng)硬件設(shè)計(jì)時(shí)常需采用必要的可靠性措施:
據(jù)統(tǒng)計(jì),影響計(jì)算機(jī)控制系統(tǒng)可靠性的因素約45%來(lái)自系統(tǒng)設(shè)計(jì)。為了保證系統(tǒng)的可靠性,在對(duì)其電路設(shè)計(jì)時(shí)應(yīng)考慮最極端的情況。
各種電子元器件的特性不可能是一個(gè)恒定值,總是在其額定(典型)參數(shù)的某個(gè)范圍內(nèi);同時(shí),電源、電壓也有一個(gè)波動(dòng)范圍。最壞的設(shè)計(jì)方法是考慮所有元件的公差,并取其最不利的數(shù)值核算電路每一個(gè)規(guī)定的特性。如果這一組參數(shù)值能保證電路正常工作,那么在公差范圍內(nèi)的其他所有元件值都能使電路可靠地工作。
在設(shè)計(jì)應(yīng)用系統(tǒng)電路時(shí),還要根據(jù)元器件的失效特征及其使用場(chǎng)所采取相應(yīng)的措施,對(duì)容易產(chǎn)生短路的部件以串聯(lián)方式復(fù)制,對(duì)容易產(chǎn)生開(kāi)路的部分以并聯(lián)方式復(fù)制。
元器件選擇
在確定元器件參數(shù)之后,還要確定元器件的型號(hào),這主要取決于電路所允許的公差范圍。由于制造工藝所限,有些元器件參數(shù)的公差范圍可能較大,如電容器電容量等。另外,元件或器件的額定工作條件包括多個(gè)方面(如電流、電壓、頻率、機(jī)械參數(shù)以及環(huán)境溫度等),設(shè)計(jì)時(shí)要考慮參數(shù)裕量,并在運(yùn)行時(shí)盡量保證接近元器件的設(shè)計(jì)工作溫度。
結(jié)構(gòu)設(shè)計(jì)
結(jié)構(gòu)可靠性設(shè)計(jì)是硬件可靠性設(shè)計(jì)的最后階段。結(jié)構(gòu)設(shè)計(jì)時(shí),首先應(yīng)注意元器件及部件的安裝方式,其次是控制系統(tǒng)工作環(huán)境的條件(如通風(fēng)、除濕、防塵等)。
噪聲抑制
噪聲對(duì)模擬電路的影響會(huì)直接影響系統(tǒng)精度,噪聲對(duì)數(shù)字電路也會(huì)造成誤動(dòng)作。因此,在工程設(shè)計(jì)中必須采用噪聲抑制和屏蔽措施。對(duì)于模擬應(yīng)用系統(tǒng),可在電源端增加一些低通濾波電路來(lái)抑制由電源引入的干擾;對(duì)于數(shù)字系統(tǒng),通常采用濾波器和接地系統(tǒng);同時(shí),在整體結(jié)構(gòu)布局時(shí)應(yīng)注意元器件的位置和信號(hào)線的走向。對(duì)于電磁干擾、電場(chǎng)干擾可采用電磁屏蔽、靜電屏蔽來(lái)隔離噪聲,也可采用接地、去耦電容等措施來(lái)減少噪聲的影響。
冗余設(shè)計(jì)
硬件冗余設(shè)計(jì)可以在元件級(jí)、子系統(tǒng)級(jí)或系統(tǒng)級(jí)上進(jìn)行,必然增加硬件和成本。因此,設(shè)計(jì)時(shí)應(yīng)仔細(xì)權(quán)衡采用硬件冗余的利弊關(guān)系。在計(jì)算機(jī)控制系統(tǒng)中,主要采用控制單元冗余和控制系統(tǒng)冗余來(lái)提高系統(tǒng)硬件可靠性。
單元可靠性設(shè)計(jì)
控制與接口單元是指能獨(dú)立完成某些測(cè)控功能的功能模塊,其可靠性設(shè)計(jì)主要包括微處理器系統(tǒng)的冗余設(shè)計(jì)、輸入輸出通道干擾的抑制、電源系統(tǒng)干擾的抑制、控制單元運(yùn)行狀態(tài)的監(jiān)視等。
I/O通道干擾的抑制
模擬量輸入通道常態(tài)干擾的頻率通常高于被測(cè)信號(hào)的頻率,因此可考慮采用濾波網(wǎng)絡(luò)對(duì)模擬量輸入信號(hào)進(jìn)行濾波??刹捎酶鞣N形式的金屬屏蔽層做好信號(hào)傳送線路的屏蔽工作,將信號(hào)線與外界電磁場(chǎng)有效地隔離開(kāi)來(lái);在系統(tǒng)既有模擬電路又有數(shù)字電路時(shí),數(shù)字地與模擬地要分開(kāi),最后只在一點(diǎn)相連,以防相互干擾。I/O通道一般應(yīng)采用光電耦合器進(jìn)行電氣隔離,既可避免構(gòu)成地環(huán)路,還可有效地抑制噪聲。另外,在輸入輸出通道上應(yīng)采用一定的過(guò)壓保護(hù)電路。
電源系統(tǒng)干擾的抑制
同一電源網(wǎng)路上有較多大功率設(shè)備時(shí),在控制單元與供電電源之間可加入三相隔離變壓器,以防止電網(wǎng)干擾侵入控制系統(tǒng)。在整機(jī)的電源線入口處,可通過(guò)增加電源濾波器來(lái)防止其他電子設(shè)備與本系統(tǒng)之間產(chǎn)生相互干擾。在機(jī)內(nèi)獨(dú)立的印刷板上應(yīng)安裝小型電源濾波器,以防止板與板之間的相互干擾。
由于開(kāi)關(guān)電源具有較強(qiáng)的抗工頻電壓波動(dòng)和頻率波動(dòng)能力,同時(shí)能隔離從電源線進(jìn)入的傳導(dǎo)干擾,適當(dāng)場(chǎng)合可選用開(kāi)關(guān)電源。必要時(shí),系統(tǒng)輸入輸出通道和其他設(shè)備可考慮采用獨(dú)立的供電電源,實(shí)行電源分組供電。另外,邏輯電路板上的直流電源線和接地線要注意合理布線。
控制單元運(yùn)行狀態(tài)監(jiān)視
可使用看門(mén)狗定時(shí)器(WDT)監(jiān)視控制單元的運(yùn)行狀態(tài)。WDT的輸出直接連到CPU的中斷請(qǐng)求端或控制單元的復(fù)位端,WDT的每次“定時(shí)到”溢出脈沖信號(hào)均能引起CPU的中斷或復(fù)位。WDT受CPU控制,可對(duì)其重新設(shè)置時(shí)間常數(shù)或刷新。
定時(shí)器重新開(kāi)始計(jì)時(shí),只要程序正常運(yùn)行就不會(huì)產(chǎn)生定時(shí)中斷或系統(tǒng)復(fù)位。一旦程序執(zhí)行出錯(cuò)或發(fā)生程序亂飛、死機(jī)現(xiàn)象,看門(mén)狗定時(shí)器就會(huì)產(chǎn)生溢出脈沖信號(hào),引起定時(shí)中斷或復(fù)位,從而使控制單元重新啟動(dòng)或進(jìn)入中斷服務(wù)程序進(jìn)行糾錯(cuò)處理。
控制單元的掉電保護(hù)
對(duì)付電網(wǎng)瞬間斷電或電壓突然下降的有效方法就是掉電保護(hù),對(duì)計(jì)算機(jī)測(cè)控系統(tǒng)可外加不間斷電源(UPS),對(duì)測(cè)控系統(tǒng)中的控制單元可增加掉電保護(hù)電路,并慎重設(shè)計(jì)。掉電信號(hào)由硬件電路檢測(cè),加到控制單元CPU的外部中斷輸入端。軟件中斷將掉電中斷規(guī)定為高級(jí)中斷,使控制單元CPU能及時(shí)對(duì)掉電做出反應(yīng)。在掉電中斷子程序中,首先進(jìn)行現(xiàn)場(chǎng)保護(hù),保存當(dāng)時(shí)重要的狀態(tài)參數(shù)。當(dāng)電源恢復(fù)正常時(shí),CPU重新復(fù)位,恢復(fù)現(xiàn)場(chǎng)并繼續(xù)未完成的工作。
控制單元冗余設(shè)計(jì)
常用的控制單元冗余設(shè)計(jì)包括熱備份并聯(lián)冗余和冷備份并聯(lián)冗余,兩者都是以增加成倍的硬件投資來(lái)?yè)Q取系統(tǒng)硬件的可靠性。
熱備份并聯(lián)冗余是將若干功能相同的控制單元并聯(lián)運(yùn)行,同步執(zhí)行相同的處理程序,當(dāng)并聯(lián)系統(tǒng)中至少有一個(gè)控制單元工作正常時(shí),整個(gè)系統(tǒng)即維持正常工作。
為了提高控制單元的可靠性和經(jīng)濟(jì)性,常采用雙機(jī)熱備份并聯(lián)方式。對(duì)受控系統(tǒng)而言,雙機(jī)熱備份并聯(lián)方式只是其中一個(gè)控制單元完成測(cè)控任務(wù),另一個(gè)控制單元處于并行工作的待命狀態(tài)。但兩個(gè)控制單元同步執(zhí)行同樣的程序,一旦自檢系統(tǒng)發(fā)現(xiàn)主控單元有故障時(shí),則待命狀態(tài)的備控單元自動(dòng)切換上去,代替主控單元使系統(tǒng)繼續(xù)正常運(yùn)行。在設(shè)計(jì)雙機(jī)熱備份系統(tǒng)時(shí),要解決以下兩個(gè)主要問(wèn)題:
雙機(jī)同步。雙機(jī)同步一般是以事件作為同步令牌,其中事件可由設(shè)計(jì)者定義。如系統(tǒng)的工作過(guò)程為:輸入接口采集由傳感器送來(lái)的數(shù)據(jù),在CPU內(nèi)將采集到的數(shù)據(jù)和設(shè)定值進(jìn)行比較、處理,最后得到本次的控制量輸出。那么,事件可劃分為數(shù)據(jù)采集和數(shù)據(jù)處理兩個(gè)事件。
當(dāng)應(yīng)用系統(tǒng)啟動(dòng)時(shí),兩機(jī)同時(shí)執(zhí)行第一事件,即采集狀態(tài)數(shù)據(jù)。當(dāng)?shù)谝皇录瓿珊?,再將兩結(jié)果進(jìn)行比較,如果相同則繼續(xù)第二事件;若有錯(cuò)誤,則主控單元自動(dòng)切換,用備控單元代替主控單元。只要主控單元工作正常,則備控單元一直處于待命狀態(tài)。
當(dāng)事件進(jìn)行數(shù)據(jù)處理時(shí),若超出精度范圍,則認(rèn)為其中一個(gè)數(shù)據(jù)可能有錯(cuò)誤,這時(shí)可以讓雙機(jī)重新轉(zhuǎn)到本事件的首地址再執(zhí)行一遍。若仍有差錯(cuò),則再轉(zhuǎn)到故障檢測(cè)程序。這種軟件回卷方法可以消除某些偶然性因素的影響。
故障檢測(cè)??梢岳脙蓹C(jī)各自的自檢程序分別進(jìn)行自檢,找出發(fā)生故障的控制單元。如果故障機(jī)是主控單元,則可進(jìn)行自動(dòng)切換,使程序繼續(xù)執(zhí)行下一個(gè)事件。為了能及時(shí)切換,可以根據(jù)任務(wù)的特點(diǎn)多設(shè)置一些事件,使得雙機(jī)同步校驗(yàn)次數(shù)增多。
所謂切換是指通過(guò)輸入輸出接口相互交換雙機(jī)狀態(tài),一旦某控制單元出錯(cuò),另一控制單元就可及時(shí)知道。當(dāng)備控單元發(fā)現(xiàn)主控單元有故障時(shí),就可以發(fā)出控制信號(hào),使主控單元自動(dòng)退出控制,備控單元代替主控單元使系統(tǒng)繼續(xù)正常運(yùn)行。
冷備份并聯(lián)冗余設(shè)計(jì)中,備份的控制單元平時(shí)不加電工作,只在發(fā)現(xiàn)主控單元出故障時(shí)才用其代替主控單元。冷備份的控制單元在硬件結(jié)構(gòu)、軟件實(shí)現(xiàn)上都與主控單元完全一樣,各種聯(lián)機(jī)設(shè)備都安置到位,處于接通電源即可投入正常工作的冷備份狀態(tài)。
冷備份并聯(lián)系統(tǒng)中的冷熱切換可以用人工操作轉(zhuǎn)換,也可以自動(dòng)切換。在設(shè)計(jì)成自動(dòng)切換時(shí),主控單元必須設(shè)置各路(或關(guān)鍵幾路)報(bào)警信號(hào)。若發(fā)現(xiàn)超限現(xiàn)象,則及時(shí)輸出切換信號(hào)去觸發(fā)冷備份系統(tǒng)的電源觸點(diǎn),使備份單元投入正常運(yùn)行。
審核編輯 :李倩
-
集成電路
+關(guān)注
關(guān)注
5379文章
11335瀏覽量
360515 -
控制系統(tǒng)
+關(guān)注
關(guān)注
41文章
6517瀏覽量
110397 -
硬件
+關(guān)注
關(guān)注
11文章
3228瀏覽量
66072
原文標(biāo)題:硬件可靠性及提高
文章出處:【微信號(hào):?jiǎn)纹瑱C(jī)與嵌入式,微信公眾號(hào):?jiǎn)纹瑱C(jī)與嵌入式】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論