傳統(tǒng)故障余度處理方式將故障余度減緩切除,造成飛控計算機子系統(tǒng)的降級,如果剩余的余度再出現(xiàn)故障可能危及飛行安全。有些余度通道故障可以通過重啟余度通道來恢復(fù)正常運行。通過分析余度通道正常啟動流程,以及飛控計算機子系統(tǒng)余度控制應(yīng)用軟件重啟流程,研究了雙CPU命令監(jiān)控模式和雙命令模式下的重啟流程。最后針對仿真設(shè)備節(jié)點故障、飛控節(jié)點故障以及飛控多余度故障進(jìn)行了實驗驗證,84個故障驗證項經(jīng)驗證測試后全部通過。
引言
高可靠性是飛機的重要研究方向,飛控系統(tǒng)很大程度上影響著飛機的可靠性。因此,要提高飛機可靠性,必須提高飛控系統(tǒng)的可靠性。飛控系統(tǒng)的核心是飛控計算機子系統(tǒng)。為了提高飛控系統(tǒng)的可靠性,工程實踐中廣泛使用多余度飛控計算機子系統(tǒng)架構(gòu),二余度結(jié)構(gòu)、三余度結(jié)構(gòu)、四余度架構(gòu)是工程上最常用的幾種架構(gòu)。在四余度飛控計算機子系統(tǒng)中,余度通道故障的應(yīng)對策略一般為減緩切除方法,即連續(xù)指定周期或累計指定周期被判定異常就會將該余度通道切除。這樣的策略下,如果繼續(xù)有通道發(fā)生故障,飛控功能將快速降級,最終可能影響飛機任務(wù)的完成度。
在工程實踐中,發(fā)現(xiàn)有些飛控計算機余度故障是單粒子效應(yīng)等原因引起的,系統(tǒng)器件在經(jīng)過復(fù)位或者重新上電后,可以恢復(fù)功能。如果因為這些故障原因就將整個余度通道隔離切除,系統(tǒng)的效能會受到較大的影響。因此需要對這些故障進(jìn)行具體分析,并提出系統(tǒng)功能及性能容忍的、非余度切除的恢復(fù)性處理措施,即余度通道空中重啟。在余度通道重啟的過程中,引發(fā)故障的硬件故障原因消除,系統(tǒng)恢復(fù)正常,系統(tǒng)得以繼續(xù)運行?;蛘?,當(dāng)余度通道進(jìn)行重啟后,系統(tǒng)原有的某些故障狀態(tài)可能會恢復(fù)。這類故障是因為系統(tǒng)中未被研制過程中的驗證環(huán)節(jié)所發(fā)現(xiàn)的系統(tǒng)缺陷引起的。缺陷在系統(tǒng)特定的運用狀態(tài)下被觸發(fā),引發(fā)余度故障甚至系統(tǒng)失效。在系統(tǒng)重啟后,因為系統(tǒng)狀態(tài)的改變,又避開了觸發(fā)條件,使得系統(tǒng)可以繼續(xù)運行,系統(tǒng)部件可繼續(xù)發(fā)揮作用,因此重啟故障余度不失為一種可利用的系統(tǒng)容錯策略。
余度通道正常啟動流程
余度通道系統(tǒng)正常啟動的流程如下: 1)通道控制計算機上電重啟; 2)系統(tǒng)軟件根據(jù)空中/地面狀態(tài)判定進(jìn)行自檢、初始化; 3)系統(tǒng)軟件根據(jù)空中/地面狀態(tài)判定確定是否進(jìn)行控制程序映像校驗; 4)系統(tǒng)軟件加載控制程序到內(nèi)存; 5)余度同步,即同步采用握手的算法進(jìn)行。在余度通道內(nèi)部,還會采用指令通道與監(jiān)控通道配合以對本通道進(jìn)行自檢的技術(shù)手段。指令通道與監(jiān)控通道也需要進(jìn)行同步。余度通道內(nèi)部的這類同步需要在余度間同步前進(jìn)行; 6)啟動控制功能及故障檢測:同步結(jié)束后,通道系統(tǒng)軟件啟動控制功能程序,控制功能程序開始進(jìn)行控制邏輯運行。系統(tǒng)軟件在進(jìn)行控制功能程序周期調(diào)度時,在每個控制周期的開始,為消除各個通道同步誤差,還需要進(jìn)行控制周期同步。同步仍采用高低電平握手方式。在同步成功后,通道系統(tǒng)軟件再啟動下一個周期的控制功能程序調(diào)度。
飛控計算機子系統(tǒng)余度重啟流程分析
在實際系統(tǒng)中,如判定一個飛控計算機子系統(tǒng)余度通道出現(xiàn)故障,一般對其進(jìn)行故障減緩切除處理,但切除故障余度后,如果剩余的正常運行的余度發(fā)生故障,可能導(dǎo)致系統(tǒng)快速降級,影響任務(wù)的完成。美國SpaceX公司在“獵鷹9號”(Falcon 9)火箭上采用了商用的X86處理器,控制系統(tǒng)使用了三個處理器,組成了3×2的6余度系統(tǒng),所有的6個余度之間的結(jié)果數(shù)據(jù)進(jìn)行互傳校驗,計算出錯的處理器進(jìn)行復(fù)位,復(fù)位后拷貝相關(guān)狀態(tài)數(shù)據(jù)后重新上線運行以提高系統(tǒng)的可靠性。由于飛控系統(tǒng)的高安全、高可靠和高實時性的要求,以及在計算機和通信總線技術(shù)上與商業(yè)領(lǐng)域的差別,本文借鑒了國外商用分布式系統(tǒng)的余度重啟上線思路,對切除的故障余度進(jìn)行重啟,即自身或其余通道(或作動器遠(yuǎn)程終端子系統(tǒng))輸出強制故障余度重啟的指令。
故障通道如果得到了強制其重啟的指令,仍然可以在兩個層面上進(jìn)行,一個是系統(tǒng)級上電重啟,另一個是控制應(yīng)用軟件重啟,可恢復(fù)不同范圍的故障。如采用整個系統(tǒng)上電重啟的措施,則故障余度通道上電重啟并完成操作系統(tǒng)和飛控應(yīng)用的加載。如果是單獨的軟件重啟,則飛控應(yīng)用退出并重新加載運行。由于第四章的實驗針對控制器軟件重啟,本章主要描述故障余度控制應(yīng)用軟件重啟流程。
余度通道控制應(yīng)用軟件重啟流程如下: 1)系統(tǒng)軟件根據(jù)空中/地面狀態(tài)判定確定是否進(jìn)行控制程序映像校驗; 2)系統(tǒng)軟件加載控制程序到內(nèi)存; 3)余度同步:同步采用握手的算法進(jìn)行。同正常啟動流程。通道間的握手同步信號傳輸需要具有可接受的時效,不能耗時過長,以免失去及時握手的意義。因此,可以采用通道間直接的電平信號連接;而系統(tǒng)中其他通道根據(jù)余度表決的時序要求,也正進(jìn)行控制周期同步??刂浦芷谕剿惴ㄅc啟動同步一致。只是同步等待的時間不同。啟動同步的握手超時時間可以設(shè)計的略長,可以大于控制周期,以確保不因時間太短而不能建立與其他通道的同步。重啟通道正常情況下可以與系統(tǒng)中其他通道完成同步。同步成功結(jié)束后,各個通道標(biāo)記重啟通道為重啟同步成功狀態(tài)。
4)系統(tǒng)軟件進(jìn)行余度間數(shù)據(jù)遷移:同步結(jié)束后,需要進(jìn)行余度間數(shù)據(jù)遷移工作,同步余度控制程序間的狀態(tài)數(shù)據(jù)。因為一般的控制應(yīng)用軟件都是所謂“有狀態(tài)”程序,程序輸出依賴于當(dāng)前的程序狀態(tài)。如果不進(jìn)行狀態(tài)數(shù)據(jù)同步,導(dǎo)致通道間輸出超出差異閾值,重啟通道仍然會被認(rèn)為故障; 重啟通道上的系統(tǒng)軟件在同步成功后,根據(jù)控制功能程序的周期執(zhí)行耗時,延遲一段時間即開始啟動后續(xù)數(shù)據(jù)遷移工作和控制工作。其他通道只要在控制周期同步時,發(fā)現(xiàn)有新通道為重啟同步成功狀態(tài),即在同步成功后的同一個控制周期內(nèi),啟動數(shù)據(jù)遷移工作。如果和重啟通道同步上的其他通道有多個,簡單起見,重啟通道按系統(tǒng)設(shè)定的優(yōu)先級先后持續(xù)接收通道發(fā)送的遷移數(shù)據(jù)。和重啟通道同步上的其他通道仍然需要發(fā)送遷移數(shù)據(jù)給重啟通道,以避免重啟通道優(yōu)先認(rèn)定的數(shù)據(jù)來源通道不能發(fā)送數(shù)據(jù)的情況。
余度間數(shù)據(jù)遷移在不透明方式(不透明方式需要控制功能程序的數(shù)據(jù)段及BSS段的內(nèi)存部署位置是系統(tǒng)軟件已知的)處理視角下,程序的狀態(tài)數(shù)據(jù)從抽象的程序二進(jìn)制實現(xiàn)上看,保存在程序進(jìn)程空間的數(shù)據(jù)段、BSS段以及棧段上。重啟通道的控制程序可不遷移棧段數(shù)據(jù)。因為此時棧上保留的狀態(tài)信息,對控制邏輯而言并非必要。重啟通道控制程序可以重新建立自身的棧內(nèi)容而不影響控制。 系統(tǒng)中其他通道在和重啟通道同步上的控制周期中,待正常的控制程序周期運行結(jié)束后,由系統(tǒng)軟件將控制功能程序數(shù)據(jù)段及BSS段內(nèi)存數(shù)據(jù)內(nèi)容通過CCDL一次性發(fā)送給重啟通道。 對于有指令支路及監(jiān)控支路的系統(tǒng),CCDL一般同時將數(shù)據(jù)傳輸給兩個支路。因此,遷移數(shù)據(jù)也同時傳輸給兩個支路,兩個支路的數(shù)據(jù)遷移工作可同時進(jìn)行。
雙CPU運行模式對余度通道重啟的影響
當(dāng)前工程所用飛控計算機一般為雙CPU架構(gòu),具有雙CPU的余度通道,又根據(jù)兩個CPU能否訪問外部外設(shè)而分為兩種模式:命令監(jiān)控模式、雙命令模式。下面就雙CPU運行模式對余度通道重啟的影響進(jìn)行分析。 一、命令監(jiān)控模式 如本雙CPU余度通道故障,整個飛控計算機余度通道會被判故障,系統(tǒng)會減緩切除該余度通道。如不能恢復(fù),則飛控計算機子系統(tǒng)其他通道表決出重啟指令使其重啟。該重啟指令也經(jīng)過兩CPU間數(shù)據(jù)通道傳輸?shù)奖O(jiān)控通道(如圖1所示)。其他通道發(fā)出的重啟信號經(jīng)兩個CPU板上的硬件重啟邏輯綜合后,可以發(fā)出使CPU外部中斷的信號,CPU系統(tǒng)軟件進(jìn)行相應(yīng)的中斷處理,如果需要進(jìn)行系統(tǒng)級重啟,則向其他余度通告本通道重啟,通過系統(tǒng)重啟硬件端口輸出使能重啟信號。
圖1 命令監(jiān)控重啟 重啟時,兩支路同時重啟。每個支路重啟過程如下: 1)CPU支路上電重啟; 2)系統(tǒng)軟件根據(jù)空中/地面狀態(tài)判定進(jìn)行自檢、初始化; 3)系統(tǒng)軟件根據(jù)空中/地面狀態(tài)判定來確定是否進(jìn)行控制程序映像校驗; 4)系統(tǒng)軟件加載控制程序到內(nèi)存; 5)余度通道支路間同步:在余度通道作為一個整體與其他余度進(jìn)行同步之前,兩個CPU支路間要先進(jìn)行支路間同步。支路間同步需要的硬件支持是兩支路間的一對信號線連接。同樣是采用高低電平握手的方式進(jìn)行同步; 6)余度通道同步:余度通道內(nèi)支路同步成功后,指令支路輸出與其他余度通道進(jìn)行高低握手的指令,指令支路也都獲取其他支路的電平信號,進(jìn)行通道同步判斷; 7)系統(tǒng)軟件進(jìn)行余度間數(shù)據(jù)遷移:余度通道的支路CPU與其他通道同步成功后,指令支路接收其他通道給本通道的遷移數(shù)據(jù)并轉(zhuǎn)發(fā)給監(jiān)控支路。兩個支路的遷移過程同單CPU設(shè)計余度通道; 8)啟動控制功能及故障檢測:數(shù)據(jù)遷移結(jié)束后,相應(yīng)支路的系統(tǒng)軟件啟動控制功能程序。
在下一個控制周期時刻到來時,系統(tǒng)軟件調(diào)度功能程序運行。控制功能程序因為是重啟后第一次被操作系統(tǒng)軟件調(diào)度,程序應(yīng)從初始化運行。初始化又可能會破壞遷移過來的數(shù)據(jù),因此,在程序入口設(shè)置一個表征是否已經(jīng)初始化的全局變量。在數(shù)據(jù)遷移后,該全局變量已經(jīng)設(shè)置為真,程序判斷為真,則不再進(jìn)行相關(guān)初始化了,而直接進(jìn)行控制功能。但是,某些通道號相關(guān)的變量若需要特殊處理,則需要進(jìn)行初始化。后續(xù),控制功能程序開始進(jìn)行控制邏輯運行。同時,系統(tǒng)中其他余度通道,在數(shù)據(jù)遷移結(jié)束后的下一個控制周期,也將重啟通道的狀態(tài)置為有效,相應(yīng)支路的狀態(tài)也在兩支路余度表決硬件邏輯中置為有效。
二、雙命令模式
1、 “主主”模式 雙命令模式下,當(dāng)系統(tǒng)采用“主主”方式運行處理故障時,整個飛控計算機余度通道會被判故,系統(tǒng)對該通道實行減緩切除策略。如該通道最終被切除,即故障不能恢復(fù),則飛控計算機子系統(tǒng)其他通道表決出重啟指令使其重啟,如圖2所示。 重啟時,兩支路同時重啟。支路重啟過程與命令監(jiān)控模式的重啟過程相似,不同點在于:步驟6)余度通道同步。
圖2 “主主”模式重啟 “主主”模式下,余度通道內(nèi)支路同步成功后,兩個支路輸出與其他余度通道進(jìn)行高低握手的指令,兩支路余度表決硬件邏輯在指令未分離的情況下優(yōu)選一路,并通過離散信號端口輸出高低電平給其他余度。兩個支路也都獲取其他支路的電平信號,進(jìn)行通道同步判斷。 2、 “主備”模式 當(dāng)系統(tǒng)采用“主備”方式運行處理故障時,整個余度通道仍然有一路CPU輸出,該余度通道不會被其他通道判故。系統(tǒng)會對通道內(nèi)選出的(或主動報告的)故障支路實施減緩切除余度算法,直至多次重試失敗后,由兩支路余度表決硬件邏輯向故障支路發(fā)出重啟信號,如圖3所示。
故障支路重啟過程如下: 1)—4)與命令監(jiān)控模式相同; 5)支路間同步:故障CPU支路間要先與正常支路進(jìn)行支路間同步; 支路間同步后,不再如同“主主”故障處理方式,不再需要進(jìn)行余度通道同步。
圖3 “主備”模式重啟 6)系統(tǒng)軟件進(jìn)行支路間數(shù)據(jù)遷移:支路間同步成功后,正常支路獲知重啟支路同步成功狀態(tài),開始在控制功能程序周期運行結(jié)束后,由系統(tǒng)軟件通過雙口RAM或PCI總線給重啟CPU支路發(fā)送遷移數(shù)據(jù)。重啟CPU支路接收遷移數(shù)據(jù)。遷移過程同單CPU設(shè)計余度通道; 7)啟動控制功能及故障檢測:數(shù)據(jù)遷移結(jié)束后,重啟支路的系統(tǒng)軟件啟動控制功能程序。控制功能程序進(jìn)行控制,系統(tǒng)也重新開始故障檢測,包括兩支路間的自監(jiān)控。
實驗與驗證
驗證環(huán)境由四余度飛控仿真計算機、仿真PC機和PC宿主機組成的硬件環(huán)境以及在各硬件上所運行的軟件組成的軟件環(huán)境共同構(gòu)成,如圖4所示。實驗所用飛控計算機CPU為命令監(jiān)控模式。 主機端軟件包括飛控機載軟件開發(fā)環(huán)境、主機端余度故障注入軟件(見圖5)、主機端余度運行與重啟過程監(jiān)控軟件(見圖6)。
圖4 演示驗證環(huán)境構(gòu)成圖
圖5 主機端余度故障注入軟件
圖6 主機端余度運行與重啟過程監(jiān)控軟件 針對仿真設(shè)備節(jié)點故障、飛控節(jié)點故障以及飛控多余度故障進(jìn)行驗證,具體情況如表1所示。 表1 仿真設(shè)備節(jié)點驗證測試項
在正確搭建驗證環(huán)境的情況下,飛控計算機故障驗證操作通用流程如下:
1)打開數(shù)據(jù)集中交換程序(即DataComm通信框架中心服務(wù)器)、飛控PC端代理軟件、各個仿真程序、主機端余度運行與重啟過程監(jiān)控軟件和主機端故障注入軟件及操作連接上網(wǎng)絡(luò)服務(wù)節(jié)點;
2)給仿真飛控計算機上電;
3)等待主機端余度運行與重啟過程監(jiān)控軟件顯示各仿真設(shè)備節(jié)點以及飛控余度各節(jié)點狀態(tài)正常;
4)操作主機端余度故障注入軟件對需要驗證的飛控余度節(jié)點注入測試故障;
5)觀察主機端余度運行與重啟過程監(jiān)控軟件對應(yīng)被測對象飛控余度節(jié)點狀態(tài)變化,即是否產(chǎn)生故障,根據(jù)具體故障類型,進(jìn)入自動復(fù)位狀態(tài)或是等待用戶手動操作復(fù)位,復(fù)位后恢復(fù)正常運行狀態(tài),同時可查看其它非被測飛控余度節(jié)點中其它通道狀態(tài)是否發(fā)生變化; 表1中“飛控余度的20個故障”包括:
1)同步故障導(dǎo)致的余度失效:故障模型使故障注入的飛控計算機余度不進(jìn)行同步操作,不能與其它余度完成同步;
2)CCDL故障導(dǎo)致的余度失效:故障模型使故障注入的飛控計算機停止CCDL的輸入和輸出,模擬CCDL故障狀態(tài);
3)通道故障邏輯導(dǎo)致的余度失效:故障模型使故障注入的飛控計算機停止通道故障邏輯的離散量輸入和輸出,模擬通道故障邏輯的故障狀態(tài);
4)飛控計算機易失存儲器可持續(xù)故障導(dǎo)致的飛控計算機失效:故障模型持續(xù)的修改對飛控計算機輸出指令有影響的狀態(tài)或積分變量為一個錯誤值,引起飛控計算機余度輸出指令與其它余度產(chǎn)生足夠大的差異;
5)飛控計算機易失存儲器瞬時故障導(dǎo)致的飛控計算機失效:故障模型連續(xù)多個(3個以上)幀周期內(nèi)修改對飛控計算機輸出指令有影響的狀態(tài)和積分變量為一個錯誤值,引起飛控計算機余度輸出指令與其它余度產(chǎn)生足夠大的差異;
6)飛控計算機輸入信號/通信可持續(xù)故障導(dǎo)致的飛控計算機失效:故障模型停止本飛控計算機余度的數(shù)據(jù)輸入,讓本飛控計算機余度認(rèn)為沒有數(shù)據(jù)被接收進(jìn)來,觸發(fā)余度飛控應(yīng)用的對應(yīng)處理程序;
7)飛控計算機輸入信號/通信瞬時故障導(dǎo)致的飛控計算機失效:故障模型連續(xù)多個(3個以上)幀周期停止本飛控計算機余度的數(shù)據(jù)輸入,讓本飛控計算機余度認(rèn)為沒有數(shù)據(jù)被接收進(jìn)來,觸發(fā)余度飛控應(yīng)用的對應(yīng)處理程序;
8)飛控計算機輸出信號/通信可持續(xù)故障導(dǎo)致的飛控計算機失效:故障模型停止本飛控計算機余度的數(shù)據(jù)輸出,讓其它飛控計算機余度發(fā)現(xiàn)本余度沒有數(shù)據(jù)輸出; 9)飛控計算機輸出信號/通信瞬時故障導(dǎo)致的飛控計算機失效:故障模型連續(xù)多個(3個以上)幀周期停止本飛控計算機余度的數(shù)據(jù)輸出,讓其它飛控計算機余度發(fā)現(xiàn)本余度沒有數(shù)據(jù)輸出;
10)飛控計算機處理單元可持續(xù)故障導(dǎo)致的飛控計算機失效:故障模型停止本飛控計算機余度的所有軟件(操作系統(tǒng)和應(yīng)用軟件)運行,但由于操作系統(tǒng)的一些底層操作無法被完全停止,因此主要是停止應(yīng)用軟件和操作系統(tǒng)對定時器中斷的響應(yīng),模擬處理單元故障導(dǎo)致的軟件完全停止運行的情況;
11)飛控計算機處理單元瞬時故障導(dǎo)致的飛控計算機失效:故障模型連續(xù)多個(3個以上)幀周期停止本飛控計算機余度的所有軟件(操作系統(tǒng)和應(yīng)用軟件)運行,但由于操作系統(tǒng)的一些底層操作無法被完全停止,因此主要是停止應(yīng)用軟件和操作系統(tǒng)對定時器中斷的響應(yīng),模擬處理單元故障導(dǎo)致的軟件在一段時間內(nèi)停止運行的情況;
12)系統(tǒng)初始化軟件故障導(dǎo)致的飛控計算機操作系統(tǒng)失效:這種故障模型無法在飛控軟件運行過程中進(jìn)行模擬,因為對應(yīng)的初始化過程已經(jīng)運行結(jié)束了,只能通過單獨給預(yù)期發(fā)生故障的余度固化一個特殊修改后的軟件映像,對應(yīng)的軟件映像中會在第一次上電運行的系統(tǒng)初始化時觸發(fā)故障;
13)中斷/異常管理軟件故障導(dǎo)致的飛控計算機操作系統(tǒng)失效:故障模型在飛控軟件正常運行的過程中,模擬中斷/異常管理軟件,不對正常中斷進(jìn)行處理,導(dǎo)致本余度飛控軟件運行出現(xiàn)故障;
14)設(shè)備驅(qū)動軟件故障導(dǎo)致的飛控計算機操作系統(tǒng)失效:故障模型在飛控軟件中模擬設(shè)備驅(qū)動軟件發(fā)生故障而不能正常工作,使得飛控軟件無法進(jìn)行數(shù)據(jù)的輸入和輸出;
15)內(nèi)存管理軟件故障導(dǎo)致的飛控計算機操作系統(tǒng)失效:這種故障模型無法在飛控軟件運行過程中進(jìn)行模擬,因為飛控軟件在運行的內(nèi)存分配都是靜態(tài)的,對應(yīng)的內(nèi)存分配是在系統(tǒng)初始化時進(jìn)行的,在飛控軟件正常運行后對應(yīng)的初始化過程已經(jīng)運行結(jié)束了,只能通過單獨給預(yù)期發(fā)生故障的余度固化一個特殊修改后的軟件映像,對應(yīng)的軟件映像中會在第一次上電運行的系統(tǒng)初始化時模擬內(nèi)存管理軟件故障,使得操作系統(tǒng)在分配內(nèi)存時出現(xiàn)故障;
16)運行調(diào)度軟件故障導(dǎo)致的飛控計算機操作系統(tǒng)失效:故障模型模擬飛控軟件中操作系統(tǒng)的運行調(diào)度軟件發(fā)生故障,讓各飛控應(yīng)用軟件分區(qū)中的部分分區(qū)不能被調(diào)度運行;
17)時鐘管理軟件故障導(dǎo)致的飛控計算機操作系統(tǒng)失效:故障模型模擬飛控軟件中操作系統(tǒng)的時鐘軟件發(fā)生故障,讓操作系統(tǒng)無法有效的獲得時鐘數(shù)據(jù);
18)輸入與監(jiān)控軟件故障導(dǎo)致的飛控計算機應(yīng)用軟件失效:故障模型模擬飛控軟件中應(yīng)用軟件的輸入與監(jiān)控軟件分區(qū)發(fā)生故障,不能有效的獲取該余度飛控計算機的輸入數(shù)據(jù);
19)控制律解算軟件故障導(dǎo)致的飛控計算機應(yīng)用軟件失效:故障模型模擬飛控軟件中應(yīng)用軟件的控制律解算軟件分區(qū)發(fā)生故障,不能計算出正確的輸出指令數(shù)據(jù);
20)輸出表決監(jiān)控軟件故障導(dǎo)致的飛控計算機應(yīng)用軟件失效:故障模型模擬飛控軟件中應(yīng)用軟件的輸出表決監(jiān)控軟件分區(qū)發(fā)生故障,使得該飛控計算機余度不能輸出指令數(shù)據(jù); 實驗結(jié)果為: 對于飛控節(jié)點單余度故障驗證,余度運行與重啟過程監(jiān)控軟件界面被測飛控計算機節(jié)點狀態(tài)變化如下:
1)被測飛控計算機節(jié)點注入故障后,通道狀態(tài)先由正常運行狀態(tài)切換為故障觸發(fā)狀態(tài),其它飛控節(jié)點的其它余度通道狀態(tài)按照相對絕對通道轉(zhuǎn)換關(guān)系反應(yīng)出被測飛控計算機余度故障;
2)被測節(jié)點本余度通道狀態(tài)切換為重啟狀態(tài);
3)被測飛控計算機節(jié)點復(fù)位同步成功,并且恢復(fù)數(shù)據(jù),余度系統(tǒng)計數(shù)也恢復(fù)正常。 對于硬件永久故障不可恢復(fù)驗證余度運行與重啟過程監(jiān)控軟件界面被測飛控計算機節(jié)點狀態(tài)變化如下:
1)被測飛控計算機節(jié)點注入故障后,通道狀態(tài)先由正常運行狀態(tài)切換為故障觸發(fā)狀態(tài),其它飛控節(jié)點的其它余度通道狀態(tài)按照相對絕對通道轉(zhuǎn)換關(guān)系反應(yīng)出被測飛控計算機余度故障;
2)被測節(jié)點本余度通道狀態(tài)切換為重啟狀態(tài); 3)被測飛控計算機節(jié)點無法自動復(fù)位成功,手動在“主機端余度故障注入軟件”點擊該通道重啟后,依舊無法復(fù)位成功,保持被切除狀態(tài)。 被測84個測試用例全部通過實驗。
結(jié)論
1)飛控計算機余度通道的CPU運行模式(命令監(jiān)控模式以及雙命令模式)對通道重啟流程的大框架影響不大,區(qū)別主要在支路間同步算法;
2)飛控計算機單故障余度通道重啟可以恢復(fù)第四章實驗所羅列的20類故障,使重啟余度與正常余度同步并恢復(fù)正常運行。而對于永久性的硬件故障,無法通過重啟余度恢復(fù);
3)余度重啟機制效果穩(wěn)定,能夠在四余度飛控計算機的環(huán)境中,在單故障余度的情況下,使重啟故障余度能夠與正常運行的余度同步,從而提高飛控系統(tǒng)的可靠性,保證飛行控制系統(tǒng)的品質(zhì)。
審核編輯:黃飛
-
cpu
+關(guān)注
關(guān)注
68文章
10804瀏覽量
210845 -
計算機
+關(guān)注
關(guān)注
19文章
7362瀏覽量
87633 -
飛控系統(tǒng)
+關(guān)注
關(guān)注
20文章
52瀏覽量
25758
原文標(biāo)題:多余度飛控計算機子系統(tǒng)余度重啟機制研究
文章出處:【微信號:雨飛工作室,微信公眾號:雨飛工作室】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論