沈霽 鄭璧青 葉恒 施雯 王琰
摘要:高可靠飛行器計(jì)算機(jī)系統(tǒng)主要應(yīng)用于智能化飛行器以及其它具有故障修復(fù),任務(wù)變更等在軌持續(xù)擴(kuò)展飛行任務(wù)要求的飛行器,本文選用了三模冗余設(shè)計(jì),總線獨(dú)立,具備三機(jī)自主降級(jí)切換,自主恢復(fù)的能力,有效的保證了計(jì)算機(jī)的可靠性和安全性。
關(guān)鍵詞:可靠性;三模冗余;自主降級(jí)
中圖分類號(hào):TN79 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2019)04-0158-02
0 引言
航天飛行器由于其靈活多變的應(yīng)用特點(diǎn),所以在功能和需求上對(duì)可靠性的要求越發(fā)重要,本文中高可靠飛行器計(jì)算機(jī)具備高可靠高性能的特點(diǎn),系統(tǒng)主要采用三模冗余容錯(cuò)的計(jì)算機(jī)系統(tǒng)結(jié)構(gòu),完全消除了單點(diǎn)故障,設(shè)計(jì)了三機(jī)故障重構(gòu)和降級(jí)策略,提高了計(jì)算機(jī)系統(tǒng)的實(shí)時(shí)性和可靠性,延長了計(jì)算機(jī)的使用壽命。
1 系統(tǒng)可靠性設(shè)計(jì)
為了提高計(jì)算機(jī)系統(tǒng)的可靠性和安全性,采用了高容錯(cuò)能力的三模冗余設(shè)計(jì),主要是通過采用硬件結(jié)合軟件容錯(cuò)的措施,在系統(tǒng)出現(xiàn)一定故障的情況下仍能夠正確完成規(guī)定任務(wù)的容錯(cuò)系統(tǒng),這個(gè)結(jié)構(gòu)完全消除了單點(diǎn)故障,提供了一種故障重構(gòu)和降級(jí)的策略,提高了飛行器計(jì)算機(jī)系統(tǒng)的實(shí)時(shí)性和可靠性,并且采用了斷點(diǎn)時(shí)分采集方法,保證系統(tǒng)采集能夠在同一時(shí)間進(jìn)行讀取,通過三取二表決[1]進(jìn)行處理,避免單個(gè)故障狀態(tài)下的安全性,使得三模冗余的設(shè)計(jì)更加可靠。
計(jì)算機(jī)系統(tǒng)設(shè)計(jì)了三個(gè)CPU(arm9260)作三機(jī)冗余設(shè)計(jì),并且配置了2套系統(tǒng)構(gòu)成冷/熱冗余的二模系統(tǒng),共6機(jī),每套CPU總線獨(dú)立,分別有自己的引導(dǎo)程序存儲(chǔ)器(PROM)、程序運(yùn)行存儲(chǔ)器(SRAM)和數(shù)據(jù)存儲(chǔ)區(qū)(NorFlash),CPU兩兩之間有共享數(shù)據(jù)存儲(chǔ)器(雙口RAM),CPU通過表決FPGA與對(duì)外總線(CAN總線和CPCI內(nèi)總線)進(jìn)行通信。系統(tǒng)具體設(shè)計(jì)如圖1所示。
2 軟件工作模式設(shè)計(jì)
計(jì)算機(jī)系統(tǒng)默認(rèn)分為當(dāng)權(quán)機(jī)與備份機(jī),工作模式有三機(jī)模式、雙機(jī)模式以及單機(jī)工作默認(rèn)情況下工作在三機(jī)模式,A號(hào)機(jī)為當(dāng)權(quán)機(jī),B、C號(hào)機(jī)為備份機(jī),三機(jī)同時(shí)接收外部數(shù)據(jù),進(jìn)行三機(jī)數(shù)據(jù)交互表決后,由當(dāng)權(quán)機(jī)輸出控制[2]。
計(jì)算機(jī)系統(tǒng)故障模式分為兩種:瞬時(shí)故障和永久故障。
(1)瞬時(shí)故障處理設(shè)計(jì):各模式下發(fā)生瞬時(shí)故障時(shí),需維持當(dāng)前模式,解決瞬時(shí)故障,若連續(xù)發(fā)生瞬時(shí)故障超過閾值限制,需轉(zhuǎn)換為永久故障,進(jìn)行降級(jí)或切權(quán);
(2)永久故障處理設(shè)計(jì):1)三機(jī)模式下發(fā)生永久故障時(shí),通過CPU三冗余內(nèi)部表決實(shí)現(xiàn)降級(jí)處理,轉(zhuǎn)入雙機(jī)模式,等待故障機(jī)重啟,若重啟超過閾值限制仍沒有恢復(fù),需進(jìn)入雙機(jī)模式,當(dāng)權(quán)機(jī)共作,備份機(jī)通過“心跳”信號(hào)監(jiān)測主份機(jī)的工作狀況;2)雙機(jī)模式下發(fā)生永久故障時(shí),備份機(jī)奪權(quán),降級(jí)為單機(jī)工作模式直至任務(wù)結(jié)束。
三種工作模式的切換關(guān)系圖如圖2所示。
3 系統(tǒng)可靠性處理方案
方案設(shè)計(jì)通過自查、互查模式來決定切權(quán),以此來保障單機(jī)在出現(xiàn)故障時(shí)仍能正常工作。
(1)自查模式:CPU軟件均分配獨(dú)立的空間進(jìn)行三冗余數(shù)據(jù)判讀,通過三冗余數(shù)據(jù)判讀檢查自身功能異常狀態(tài),若三冗余出現(xiàn)異常,需發(fā)送異常反饋,寫入自身異常標(biāo)志,由備份機(jī)參與進(jìn)行表決,并進(jìn)入異常處理模式;(2)互查模式:三個(gè)CPU通過各自的交互緩存獲得其他兩個(gè)CPU的心跳信號(hào)和同步信息,發(fā)現(xiàn)有CPU狀態(tài)異常時(shí)(如無心跳、連續(xù)出現(xiàn)同步信息錯(cuò)誤等),若有兩個(gè)CPU同時(shí)判斷另一機(jī)異常,則將三機(jī)模式降級(jí)為雙機(jī)模式,以此實(shí)現(xiàn)三個(gè)CPU之間的互查。
計(jì)算機(jī)系統(tǒng)主要故障處理策略如下:
(1)降級(jí)策略:由于三機(jī)采用三取二的三冗余容錯(cuò)機(jī)制,當(dāng)單機(jī)失效后三取二的冗余機(jī)制不再存在,為了使系統(tǒng)具備更強(qiáng)的故障容忍度,方案采用單機(jī)故障后,可降級(jí)為主從模式,再次有單機(jī)故障時(shí),可降級(jí)為單機(jī)運(yùn)行;(2)恢復(fù)策略:單機(jī)故障后的三機(jī)模式的重建:若三取二表決出一機(jī)軟件故障,則正常的兩機(jī)控制輸出的同時(shí),通過發(fā)送復(fù)位信號(hào)給故障CPU,對(duì)CPU進(jìn)行復(fù)位處理;正常的兩機(jī)降級(jí)為雙機(jī)熱備模式固定由其中單機(jī)當(dāng)班輸出。在隨后的三機(jī)模式重建中,以該當(dāng)班機(jī)為主,控制實(shí)現(xiàn)三機(jī)的重建。
4 結(jié)語
本文主要闡述了一種高可靠飛行器計(jì)算機(jī)系統(tǒng)設(shè)計(jì)方法,采用了三模冗余結(jié)合故障修復(fù)設(shè)計(jì)的綜合方案,通過三取二表決進(jìn)行處理,確保單個(gè)故障狀態(tài)下的安全性,使得三模冗余的設(shè)計(jì)更加可靠,大大提高了飛行器計(jì)算機(jī)系統(tǒng)的可靠性和穩(wěn)定性,能夠滿足飛行器計(jì)算機(jī)高可靠的發(fā)展趨勢。
參考文獻(xiàn)
[1] 曹靚,田海燕,王棟.一種抗單粒子瞬態(tài)輻射效應(yīng)的自刷新三模冗余觸發(fā)器[J].電子與封裝,2018,18(09):36-38+41.
[2] 王釗,李勇,崔維鑫,雒莎.一種星載嵌入式軟件容錯(cuò)啟動(dòng)系統(tǒng)設(shè)計(jì)[J].電子設(shè)計(jì)工程,2019,27(08):1-5.