吳海超 欒家輝 張亮 許皓
(中國(guó)航天標(biāo)準(zhǔn)化研究所,北京 100071)
航天器綜合電子系統(tǒng)在軌重構(gòu)容錯(cuò)技術(shù)研究
吳海超 欒家輝 張亮 許皓
(中國(guó)航天標(biāo)準(zhǔn)化研究所,北京 100071)
重構(gòu)容錯(cuò)技術(shù)是指利用可重用的軟硬件資源,根據(jù)不同的任務(wù)需求或故障情況進(jìn)行重新配置,從而可以實(shí)現(xiàn)在軌升級(jí)或故障修復(fù)。文章在介紹重構(gòu)容錯(cuò)技術(shù)的基礎(chǔ)上,以NASA的SpaceCube處理器和BittWare公司的重構(gòu)處理器為典型案例,闡述了其系統(tǒng)構(gòu)架、重構(gòu)容錯(cuò)設(shè)計(jì)和應(yīng)用情況,總結(jié)分析了航天器綜合電子系統(tǒng)重構(gòu)容錯(cuò)技術(shù)的優(yōu)勢(shì),如減少系統(tǒng)的冗余和備份,降低制造和修復(fù)成本,實(shí)現(xiàn)系統(tǒng)內(nèi)部局部故障的自修復(fù)等。借鑒國(guó)外重構(gòu)容錯(cuò)技術(shù)的發(fā)展和應(yīng)用,總結(jié)出國(guó)內(nèi)航天器綜合電子系統(tǒng)重構(gòu)容錯(cuò)技術(shù)應(yīng)用存在的問題,如缺乏標(biāo)準(zhǔn)化的功能模塊設(shè)計(jì)、在軌故障診斷精度較低等,并提出應(yīng)開展在軌重構(gòu)需求分析,以及功能模塊化和可重構(gòu)性的方案設(shè)計(jì)等建議,可為國(guó)內(nèi)航天器綜合電子系統(tǒng)的在軌重構(gòu)容錯(cuò)設(shè)計(jì)及相關(guān)研究工作提供參考。
航天器綜合電子系統(tǒng);在軌故障;重構(gòu)容錯(cuò)技術(shù);故障探測(cè);故障修復(fù)
重構(gòu)容錯(cuò)是指在當(dāng)前程序執(zhí)行的同時(shí)對(duì)其中需要修改的部分邏輯單元進(jìn)行重新加載和配置,且不影響其他邏輯單元的正常工作,從而進(jìn)行程序升級(jí)或在軌故障容錯(cuò),利用有限的系統(tǒng)資源實(shí)現(xiàn)新任務(wù)的系統(tǒng)功能。重構(gòu)容錯(cuò)技術(shù)是指利用可重用的軟硬件資源,根據(jù)不同的應(yīng)用需求,靈活地改變自身體系結(jié)構(gòu)的設(shè)計(jì)方法?;谥貥?gòu)容錯(cuò)技術(shù)設(shè)計(jì)的電子系統(tǒng),在高速數(shù)字濾波器、圖像壓縮、硬件進(jìn)化計(jì)算、定制計(jì)算、軟件無線電等方面,都有著廣泛的應(yīng)用前景[1]。
傳統(tǒng)的航天器綜合電子系統(tǒng)一般采用板卡或器件冗余備份的容錯(cuò)模式,其主要缺點(diǎn)有:①故障容錯(cuò)能力十分有限;②制造和修復(fù)成本較高;③在軌修復(fù)通常需要地面指揮人員的參與;④無法修復(fù)越來越高度集成化的嵌入式電子系統(tǒng)(如片上系統(tǒng)(SOC))在運(yùn)行中出現(xiàn)的故障。相對(duì)于冗余備份的容錯(cuò)模式,重構(gòu)容錯(cuò)模式具有明顯的優(yōu)點(diǎn):①通過軟件重新加載的方式,為系統(tǒng)提供不同冗余級(jí)別的容錯(cuò)模式,在一定程度上能提高故障容錯(cuò)能力和可靠性;②重新加載的方法減少系統(tǒng)的冗余和備份,軟件重構(gòu)替代硬件切換,制造和修復(fù)成本大大降低;③自動(dòng)實(shí)現(xiàn)系統(tǒng)內(nèi)部局部故障的自修復(fù);④將重構(gòu)容錯(cuò)技術(shù)應(yīng)用在航天器中,可以修復(fù)由于元器件老化等原因?qū)е碌钠骷蛳到y(tǒng)失效的在軌故障[24]。近年來發(fā)生在軌故障的俄羅斯子午線-1衛(wèi)星、美國(guó)GPS-2RM-7衛(wèi)星等,其實(shí)都只是因?yàn)樾l(wèi)星上的個(gè)別部組件故障而導(dǎo)致整星失效。如果能夠及時(shí)進(jìn)行故障隔離,并及時(shí)通過在軌重構(gòu)實(shí)現(xiàn)對(duì)衛(wèi)星的容錯(cuò)控制,就能使衛(wèi)星繼續(xù)保持工作狀態(tài),從而挽回由于整星報(bào)廢帶來的巨大損失。此外,重構(gòu)容錯(cuò)技術(shù)還可以及時(shí)修復(fù)輻射效應(yīng)(如單粒子效應(yīng))、異常極端溫度等環(huán)境因素引起的嵌入式電子系統(tǒng)局部故障[5]。
航天器綜合電子系統(tǒng)的設(shè)計(jì)往往需要體系結(jié)構(gòu)具有良好的開放性和較強(qiáng)的適應(yīng)性,滿足系統(tǒng)集成化和接口電路模塊化、標(biāo)準(zhǔn)化要求,具備軟件在軌維護(hù)、系統(tǒng)級(jí)故障檢測(cè)及處理功能和動(dòng)態(tài)調(diào)整系統(tǒng)資源配置的功能。上述這些設(shè)計(jì)原則和功能需求,恰恰是嵌入式技術(shù)和重構(gòu)容錯(cuò)技術(shù)相結(jié)合的特點(diǎn)和優(yōu)勢(shì)。隨著深空探測(cè)等應(yīng)用對(duì)航天器綜合電子系統(tǒng)低功耗和抗輻射容錯(cuò)能力提出更高的要求,采用器件冗余備份設(shè)計(jì)的傳統(tǒng)航天器綜合電子系統(tǒng)亟需設(shè)計(jì)升級(jí)。因此,將重構(gòu)容錯(cuò)技術(shù)應(yīng)用到航天器綜合電子系統(tǒng)的設(shè)計(jì)中,基于動(dòng)態(tài)重構(gòu)的容錯(cuò)體系結(jié)構(gòu),在硬件層提高系統(tǒng)的容錯(cuò)能力和擴(kuò)展性,對(duì)未來工程應(yīng)用具有重要意義。
本文在介紹重構(gòu)容錯(cuò)技術(shù)和調(diào)研國(guó)外典型重構(gòu)容錯(cuò)技術(shù)發(fā)展的基礎(chǔ)上,總結(jié)分析了重構(gòu)容錯(cuò)技術(shù)的優(yōu)勢(shì),同時(shí)指出了相關(guān)研究中存在的有待改進(jìn)和提高之處,探討了重構(gòu)容錯(cuò)技術(shù)目前在國(guó)內(nèi)航天器應(yīng)用中存在的主要問題和應(yīng)開展的相關(guān)研究工作。
重構(gòu)容錯(cuò)技術(shù)的主要功能包括故障探測(cè)和故障修復(fù)兩部分。故障探測(cè)通過對(duì)各個(gè)處理器的狀態(tài)進(jìn)行監(jiān)視和對(duì)處理結(jié)果進(jìn)行表決來完成;故障修復(fù)可以由系統(tǒng)軟件實(shí)現(xiàn),也可由硬件控制器來實(shí)現(xiàn),修復(fù)方法包括處理器復(fù)位、系統(tǒng)復(fù)位、FPGA部分重配置、FPGA全局重配置等,具體由控制策略決定。
重構(gòu)容錯(cuò)技術(shù)中的重構(gòu)可以分為硬件重構(gòu)和軟件重構(gòu)。硬件重構(gòu)包括靜態(tài)重構(gòu)和動(dòng)態(tài)重構(gòu)。靜態(tài)重構(gòu)的任務(wù)是不連續(xù)的(獨(dú)立的),在任務(wù)切換時(shí),要在外部控制下對(duì)硬件電路進(jìn)行重新配置。動(dòng)態(tài)重構(gòu)的任務(wù)是連續(xù)的(不間斷的),在系統(tǒng)實(shí)時(shí)運(yùn)行時(shí)實(shí)現(xiàn)重構(gòu)配置。動(dòng)態(tài)重構(gòu)又可細(xì)分為全局重構(gòu)和部分重構(gòu)。在動(dòng)態(tài)全局重構(gòu)過程中,系統(tǒng)功能會(huì)出現(xiàn)暫停,因?yàn)橐獙?duì)整個(gè)硬件進(jìn)行全面重構(gòu)。動(dòng)態(tài)部分重構(gòu)是通過在FPGA的可重構(gòu)區(qū)域上以加載位流的方式實(shí)現(xiàn)不同的功能配置,對(duì)FPGA器件的部分區(qū)域進(jìn)行重構(gòu),其他部分不受影響,整個(gè)系統(tǒng)可持續(xù)運(yùn)行。因此,動(dòng)態(tài)部分重構(gòu)通過對(duì)FPGA硬件資源的分時(shí)復(fù)用,提高了硬件資源的利用率,增強(qiáng)了系統(tǒng)的靈活性。在動(dòng)態(tài)部分重構(gòu)中,F(xiàn)PGA系統(tǒng)分為靜態(tài)區(qū)域和可重構(gòu)區(qū)域。其中,可重構(gòu)區(qū)域是指在FPGA中指定的允許被動(dòng)態(tài)重配置的區(qū)域,而靜態(tài)區(qū)域一般包含關(guān)鍵性任務(wù)和非重配置的基本組件。圖1為FPGA動(dòng)態(tài)部分重構(gòu)的結(jié)構(gòu)。
軟件重構(gòu)是以執(zhí)行軟件指令的方式控制組件的連接和組件功能的重配置,實(shí)現(xiàn)系統(tǒng)的動(dòng)態(tài)重構(gòu)。它通過在FPGA開發(fā)中引入軟件化控制方法,借助IP重用技術(shù)和軟件方法,實(shí)現(xiàn)FPGA動(dòng)態(tài)重構(gòu)系統(tǒng)的快速開發(fā)。圖2為支持軟件部分重構(gòu)的FPGA框架,包括控制層和數(shù)據(jù)層,各層模塊通過通用接口互連??刂茖拥墓δ馨▽?duì)底層模塊的配置/重配置、狀態(tài)控制和內(nèi)存管理等。數(shù)據(jù)層的功能包括對(duì)各處理模塊和接口的連接,實(shí)現(xiàn)各個(gè)模塊之間的數(shù)據(jù)傳輸。通常每個(gè)模塊具有多個(gè)可配置的功能,支持分時(shí)執(zhí)行不同的任務(wù),而且多個(gè)模塊可以協(xié)同完成一個(gè)任務(wù)。軟件重構(gòu)提高了硬件設(shè)計(jì)的抽象層次,為基于FPGA的動(dòng)態(tài)重構(gòu)系統(tǒng)開發(fā)提供了一種快速、可行的設(shè)計(jì)方法[6]。
圖2 軟件部分重構(gòu)的FPGA框架Fig.2 FPGA frame of software partial reconfiguration
3.1 NASA的混合星載科學(xué)數(shù)據(jù)處理器SpaceCube
NASA新一代科學(xué)任務(wù)須要大幅提高星載計(jì)算能力,地球科學(xué)十年調(diào)查(ESDS)計(jì)劃中先進(jìn)的激光測(cè)高儀、超光譜儀等設(shè)備,都要完成至少10年的探查任務(wù),而所有這些儀器系統(tǒng)都需要先進(jìn)的星載處理能力,以實(shí)時(shí)、方便地將地球科學(xué)數(shù)據(jù)轉(zhuǎn)換成地球科學(xué)信息。NASA要求新一代系統(tǒng)能夠承受因輻射導(dǎo)致的少量單粒子翻轉(zhuǎn),而且能夠及時(shí)地進(jìn)行故障處理。同時(shí),在單位功耗上的運(yùn)算速度(每秒處理的百萬級(jí)機(jī)器語(yǔ)言指令數(shù),MIPS)方面,要提高10~100倍。表1中的數(shù)據(jù)對(duì)比表明了隨著宇航處理器的不斷發(fā)展,單位功耗上的運(yùn)算速度正在不斷提高。為了完成檢測(cè)和應(yīng)對(duì)故障事件,須要具備在軌重構(gòu)的能力,提高處理能力的數(shù)量級(jí),移植典型的地面數(shù)據(jù)處理功能來執(zhí)行星載無損數(shù)據(jù)壓縮,減少星載數(shù)據(jù)存儲(chǔ)和下行鏈路的需要。NASA戈達(dá)德航天飛行中心(GSFC)、美國(guó)空軍和海軍科研試驗(yàn)室合作開發(fā)了最新一代的SpaceCube 2.0星載數(shù)據(jù)處理器,以滿足未來ESDS計(jì)劃星載任務(wù)處理的需求[7]。
表1 處理器單位功耗的計(jì)算能力比較Table 1 Comparison of calculation capability for power unit of CPU
1)SpaceCube簡(jiǎn)介
SpaceCube是基于Xilinx公司Virtex FPGA開發(fā)的高性能、可重構(gòu)科學(xué)數(shù)據(jù)處理器。它包含CPU、FPGA和數(shù)字信號(hào)處理器(DSP)邏輯資源,這些處理元素集成在一起形成一個(gè)混合科學(xué)數(shù)據(jù)處理平臺(tái),通過元素之間的分布計(jì)算功能加速科學(xué)數(shù)據(jù)處理算法的執(zhí)行,允許每種處理器發(fā)揮自己的優(yōu)勢(shì)。這種方法使以前受限于地基系統(tǒng)的復(fù)雜星載功能得以實(shí)現(xiàn),如星載產(chǎn)品的生成、數(shù)據(jù)壓縮、校準(zhǔn)、分級(jí)、事件檢測(cè)和實(shí)時(shí)自主操作。重構(gòu)容錯(cuò)技術(shù)的應(yīng)用節(jié)省了大量的時(shí)間和成本,在任務(wù)期間可以開發(fā)和測(cè)試,在軌重構(gòu)使改變?cè)O(shè)計(jì)時(shí)不必更改印制電路板,升級(jí)修改時(shí)不必在任務(wù)操作期間打破系統(tǒng)集成,而且可以進(jìn)行在軌算法的更新和支持自適應(yīng)處理模式,對(duì)于新任務(wù)可以進(jìn)行電子學(xué)重構(gòu)[8]。
SpaceCube能提高星載計(jì)算能力(10~100倍),同時(shí)降低相關(guān)功耗和成本。其設(shè)計(jì)策略利用商業(yè)抗輻射FPGA技術(shù),并與翻轉(zhuǎn)修復(fù)軟件結(jié)構(gòu)相結(jié)合,以提升高輻射環(huán)境下綜合電子系統(tǒng)的計(jì)算能力。
2)SpaceCube發(fā)展歷程
SpaceCube 1.0基于Xilinx Virtex 4FPGA技術(shù),在2009年5月的“哈勃”空間望遠(yuǎn)鏡(HST)修復(fù)任務(wù)4中作為導(dǎo)航傳感器的相關(guān)部件進(jìn)行首次飛行。系統(tǒng)在軌運(yùn)行近60h,達(dá)到所有試驗(yàn)?zāi)繕?biāo)。第2次飛行是作為“國(guó)際空間站”(ISS)試驗(yàn)任務(wù)7中的有效載荷,2009年11月安裝在ISS上,試驗(yàn)?zāi)康氖菧y(cè)試和驗(yàn)證抗輻射軟件加固(RHBS)修復(fù)技術(shù)。RHBS運(yùn)用傳統(tǒng)的“內(nèi)存刷”功能、程序執(zhí)行錯(cuò)誤檢測(cè)和更正軟件結(jié)構(gòu),以保證商業(yè)抗輻照處理器單元在空間的可靠使用,同時(shí)以更低的成本提供更強(qiáng)的計(jì)算能力。在試驗(yàn)任務(wù)7中,SpaceCube在軌運(yùn)行18個(gè)月,經(jīng)歷了100多次單粒子翻轉(zhuǎn)(4個(gè)FPGA中的總翻轉(zhuǎn)次數(shù)),所有的翻轉(zhuǎn)都被成功修復(fù),而且沒有發(fā)生功能錯(cuò)誤[9]。
SpaceCube 1.5是在探空火箭上應(yīng)用,同時(shí)作為SpaceCube 2.0的探路石,由地球科學(xué)技術(shù)辦公室(ESTO)資助開發(fā),于2011年發(fā)射。SpaceCube 1.5由Virtex 4更換為Virtex 5系列FPGA,而且添加了幾個(gè)工業(yè)標(biāo)準(zhǔn)接口,如千兆比特級(jí)以太網(wǎng)接口和SATA-II接口。
ESTO在先進(jìn)信息系統(tǒng)技術(shù)(AIST)研究計(jì)劃中資助了SpaceCube 2.0系統(tǒng)的開發(fā),目的是提供先進(jìn)的星載科學(xué)數(shù)據(jù)處理能力,以滿足ESDS的任務(wù)需要。SpaceCube 2.0系統(tǒng)基于Xilinx Virtex 5技術(shù),在SpaceCube 1.5的基礎(chǔ)上增加了SpaceWire總線和cPCI接口。SpaceCube 2.0試驗(yàn)板裝載在ISS上,作為美國(guó)空軍的空間測(cè)試負(fù)載(STP-H4)的一個(gè)試驗(yàn)設(shè)備。試驗(yàn)中,將SpaceCube 2.0試驗(yàn)板和相機(jī)系統(tǒng)、伽馬射線檢測(cè)器、光度計(jì)、天線等集成在一起,初步目標(biāo)是擴(kuò)展SpaceCube RHBS研究,開發(fā)地球科學(xué)事件檢測(cè)算法和研究伽馬射線的爆發(fā)[10]。
3)SpaceCube應(yīng)用
SpaceCube星載科學(xué)數(shù)據(jù)處理功能,已經(jīng)在NASA戈達(dá)德航天飛行中心內(nèi)部研究與開發(fā)資助項(xiàng)目中得到很好的應(yīng)用和證明,其中包括合成孔徑雷達(dá)的處理和超光譜數(shù)據(jù)產(chǎn)品發(fā)生器。此外,在分級(jí)、產(chǎn)品產(chǎn)生、故障事件檢測(cè)等方面,也取得了一系列的應(yīng)用成果。圖3為SpaceCube系列處理器的實(shí)際應(yīng)用情況。
開發(fā)SpaceCube應(yīng)用的方法包括獲得算法(通常是Matlab),采集科學(xué)團(tuán)隊(duì)合作者的試驗(yàn)數(shù)據(jù),將算法轉(zhuǎn)換成C程序,在Virtex CPU上測(cè)試和驗(yàn)證結(jié)果,測(cè)試計(jì)算函數(shù),用超高速集成電路硬件描述語(yǔ)言(VHDL)和其他庫(kù)函數(shù)實(shí)現(xiàn)。與只具有CPU功能的處理器相比,其典型的混合處理結(jié)果在計(jì)算復(fù)雜函數(shù)上提高25~50倍的速度[1114]。
3.2 BittWare公司支持軟件程序重構(gòu)的FPGA架構(gòu)
重構(gòu)容錯(cuò)技術(shù)的一個(gè)重要應(yīng)用領(lǐng)域是軟件無線電(Software Defined Radio,SDR)系統(tǒng)。SDR是指應(yīng)用高速數(shù)字信號(hào)處理器上的軟件設(shè)計(jì)取代專用硬件電路的無線通信系統(tǒng),具有靈活的多種模式、可重配置、易升級(jí)的特點(diǎn)。SDR系統(tǒng)采用數(shù)字信號(hào)處理技術(shù),將標(biāo)準(zhǔn)化、模塊化的可編程硬件功能單元通過高速總線或網(wǎng)絡(luò)連接成一個(gè)通用的數(shù)字硬件平臺(tái)。
未來通信衛(wèi)星的信息傳輸速率更高、實(shí)時(shí)交換數(shù)據(jù)量更大,SDR的通用性、模塊復(fù)用、軟件重構(gòu)、在線故障修復(fù)優(yōu)勢(shì),使其更加適合復(fù)雜的航天應(yīng)用。具有特殊功能用途的通信衛(wèi)星,其在軌功能特性往往被完全固化,須要發(fā)射大量功能和軌道不同的衛(wèi)星,而且,每顆衛(wèi)星的有效載荷設(shè)備硬件同樣缺乏靈活性,難以適應(yīng)變化的試驗(yàn)任務(wù)或軌道環(huán)境,因此,將SDR系統(tǒng)應(yīng)用到通信衛(wèi)星上已經(jīng)成為提高衛(wèi)星利用率和節(jié)省研制成本的必由之路。
BittWare公司支持軟件程序重構(gòu)的FPGA架構(gòu)方案(見圖4),可以快速實(shí)現(xiàn)SDR系統(tǒng)的開發(fā)。該架構(gòu)方案被分成2個(gè)不同的處理層次,每個(gè)層次利用通用接口進(jìn)行標(biāo)準(zhǔn)器件的互聯(lián)。一個(gè)是控制層,用于控制、重構(gòu)、狀態(tài)和內(nèi)存管理,實(shí)現(xiàn)控制、配置和狀態(tài)監(jiān)測(cè)的功能;另一個(gè)是流數(shù)據(jù)層,每個(gè)處理模塊連接到一個(gè)流數(shù)據(jù)結(jié)構(gòu),允許元件之間的點(diǎn)對(duì)點(diǎn)數(shù)據(jù)傳輸。架構(gòu)方案利用一個(gè)可升級(jí)的FPGA架構(gòu)提高硬件在器件級(jí)和應(yīng)用級(jí)的重復(fù)使用。在一個(gè)器件內(nèi)或者跨越多個(gè)器件,可以實(shí)現(xiàn)多個(gè)波形,器件構(gòu)造模塊在不同的應(yīng)用中可以重新使用。架構(gòu)方案中軟核微處理器的集成,改進(jìn)了系統(tǒng)的開發(fā)和測(cè)試,提供了一種控制狀態(tài)靈活和可實(shí)施自適應(yīng)的軟件重配置方法,能代替每次改變時(shí)的重新設(shè)計(jì)、重新寫硬件描述語(yǔ)言(HDL)代碼、仿真、再綜合和最終重新編程FPGA的過程,而且,應(yīng)用需求的整個(gè)范圍和所有必需的軟件重配置元件,都部署到一個(gè)小器件或跨越多個(gè)器件中,易于軟件重構(gòu)[15]。
對(duì)于傳統(tǒng)的FPGA實(shí)現(xiàn)方法,開發(fā)者不僅要學(xué)習(xí)平臺(tái)本身,還要實(shí)現(xiàn)所有外部接口和內(nèi)部構(gòu)造。BittWare公司在整個(gè)應(yīng)用中利用普通接口組成應(yīng)用程序編程接口(API),用于控制、內(nèi)存和數(shù)據(jù)傳輸,在內(nèi)部構(gòu)造中提供了元件之間的互聯(lián),并且支持控制、配置和內(nèi)存管理。處理器功能庫(kù)和第三方IP減少了研發(fā)精力、成本和風(fēng)險(xiǎn),開發(fā)者能夠集中精力在FPGA器件本身,重構(gòu)僅需要一個(gè)簡(jiǎn)單寄存器寫操作或其他簡(jiǎn)單軟件切換命令即可實(shí)現(xiàn)。
隨著FPGA技術(shù)的持續(xù)發(fā)展,BittWare公司計(jì)劃采用這種方法和支持工具滿足更多的工程需求,提供穩(wěn)定、可重用、定義完整的FPGA框架,支持SPR系統(tǒng)應(yīng)用。
圖4 BittWare公司FPGA架構(gòu)框圖Fig.4 FPGA frame diagram of BittWare company
航天器綜合電子系統(tǒng)在軌重構(gòu)容錯(cuò)技術(shù)的優(yōu)點(diǎn)是可以在航天器總控單元的控制下,實(shí)時(shí)地檢測(cè)錯(cuò)誤并自主地修復(fù)錯(cuò)誤,或者接收地面控制系統(tǒng)的重構(gòu)指令進(jìn)行動(dòng)態(tài)重構(gòu)并修復(fù)錯(cuò)誤。從NASA的SpaceCube處理器和BittWare公司的重構(gòu)容錯(cuò)FPGA的應(yīng)用情況可知,航天器綜合電子系統(tǒng)在軌重構(gòu)容錯(cuò)技術(shù)具有以下優(yōu)勢(shì)。
1)遠(yuǎn)程故障維修
空間輻射造成FPGA器件損傷后,采用動(dòng)態(tài)重構(gòu)的方法可以進(jìn)行在線糾正,經(jīng)過器地鏈路上傳加載和重新配置,使有效載荷設(shè)備能夠恢復(fù)正常工作,從而達(dá)到遠(yuǎn)程故障維修的目的。
2)硬件升級(jí)
在航天器設(shè)備出現(xiàn)預(yù)案之外的故障后,可以采用地面遠(yuǎn)程配置,更改其工作模式,升級(jí)硬件電路程序。
3)減小設(shè)備體積、質(zhì)量和復(fù)雜度
采用FPGA器件設(shè)計(jì)實(shí)現(xiàn)重構(gòu)容錯(cuò)系統(tǒng),與傳統(tǒng)冗余備份的容錯(cuò)模式相比,不但具有更低的研制費(fèi)用,還能減少冗余部件或芯片的類型和用量,節(jié)省系統(tǒng)電路的空間,減少芯片間的互聯(lián)復(fù)雜度,降低系統(tǒng)功耗和設(shè)備的質(zhì)量,增大處理能力,提高可靠性。
4)縮短研發(fā)周期、延長(zhǎng)工作壽命
基于FPGA器件的重構(gòu)容錯(cuò)系統(tǒng),其生產(chǎn)費(fèi)用相對(duì)于傳統(tǒng)系統(tǒng)有很大程度的降低,同時(shí)也能縮短研發(fā)周期,通過動(dòng)態(tài)改變其內(nèi)部配置滿足多項(xiàng)功能需要,具有遠(yuǎn)程修復(fù)能力,進(jìn)而延長(zhǎng)系統(tǒng)工作壽命。深空探測(cè)器到達(dá)目的地須要飛行很長(zhǎng)時(shí)間,要具有更長(zhǎng)的壽命,F(xiàn)PGA器件在軌動(dòng)態(tài)重構(gòu)技術(shù)的應(yīng)用,會(huì)及時(shí)對(duì)在軌探測(cè)器進(jìn)行技術(shù)更新,延長(zhǎng)使用壽命。
目前,重構(gòu)容錯(cuò)技術(shù)研究依然存在一些有待改進(jìn)和提高之處。例如:對(duì)于復(fù)雜模塊的重構(gòu)容錯(cuò)設(shè)計(jì),缺少良好的指導(dǎo)方法;當(dāng)系統(tǒng)時(shí)鐘頻率較高時(shí),要求用戶參與到布局過程中,增加了系統(tǒng)設(shè)計(jì)的難度;存在緊耦合模塊間的通信和動(dòng)態(tài)部分重構(gòu)問題。重構(gòu)和容錯(cuò)的策略和機(jī)制在真正實(shí)際應(yīng)用到航天器之前,須要進(jìn)行嚴(yán)格的可靠性仿真試驗(yàn),覆蓋到系統(tǒng)的各種工作狀況和切換時(shí)序,以確保系統(tǒng)的安全性和可靠性。
重構(gòu)容錯(cuò)技術(shù)可以及時(shí)糾正入軌后發(fā)生的軟件和硬件錯(cuò)誤,根據(jù)不同的空間環(huán)境和任務(wù)條件改變系統(tǒng)功能,通過控制和數(shù)據(jù)算法的重新加載來提高處理性能,降低飛行任務(wù)的風(fēng)險(xiǎn),提高航天器的可靠性。開展航天器在軌故障早期辨識(shí)和定位、在軌故障仿真與維修、在軌可靠性增長(zhǎng)和延壽等前沿技術(shù)研究和創(chuàng)新,能有效提升航天器管理技術(shù)的自主創(chuàng)新能力和在軌航天器應(yīng)用效能。
重構(gòu)容錯(cuò)技術(shù)在國(guó)內(nèi)的研究與應(yīng)用尚處于初級(jí)階段,大部分是以重構(gòu)容錯(cuò)概念性研究為主,尚未實(shí)現(xiàn)在軌系統(tǒng)動(dòng)態(tài)重構(gòu)功能。針對(duì)國(guó)內(nèi)航天器綜合電子系統(tǒng)設(shè)計(jì)和可編程處理器研制驗(yàn)證情況,提出存在的主要問題和應(yīng)開展的相關(guān)工作建議如下。
5.1 存在的問題
1)航天器缺乏統(tǒng)一和標(biāo)準(zhǔn)的功能模塊化設(shè)計(jì)
實(shí)現(xiàn)在軌重構(gòu)設(shè)計(jì)的關(guān)鍵是將航天器的關(guān)鍵分系統(tǒng)或單機(jī)進(jìn)行統(tǒng)一和標(biāo)準(zhǔn)的功能模塊化設(shè)計(jì),確保關(guān)鍵功能相對(duì)獨(dú)立,便于在發(fā)生故障、開展重構(gòu)過程中,不影響其他任務(wù)功能的實(shí)現(xiàn)。目前,國(guó)內(nèi)航天器各平臺(tái)之間的差異較大,分系統(tǒng)往往要重新設(shè)計(jì),這樣不但耗費(fèi)了大量的人力和資金等資源,而且不能保證每次設(shè)計(jì)的產(chǎn)品具有高可靠性。關(guān)鍵分系統(tǒng)或單機(jī)缺乏通用和標(biāo)準(zhǔn)的功能模塊,出現(xiàn)在軌故障后,需要各自的設(shè)計(jì)人員和專家才能有效定位和診斷故障,為在軌重構(gòu)和故障修復(fù)增加了工作量和難度。
2)航天器在軌故障診斷精準(zhǔn)度較低、耗時(shí)較長(zhǎng)
當(dāng)航天器的分系統(tǒng)或單機(jī)發(fā)生故障時(shí),能夠及時(shí)、準(zhǔn)確地對(duì)故障進(jìn)行診斷分析是開展航天器在軌重構(gòu)的前提和基礎(chǔ)。這要求在軌故障診斷具有故障預(yù)測(cè)、故障檢測(cè)(預(yù)警)、故障識(shí)別、系統(tǒng)重組、狀態(tài)恢復(fù)及任務(wù)規(guī)劃等功能,但目前在軌故障診斷主要依賴技術(shù)專家和地面模擬試驗(yàn)。例如,某通信衛(wèi)星出現(xiàn)無法收發(fā)信號(hào)的故障,相關(guān)技術(shù)人員和龐大的專家團(tuán)隊(duì)在地面進(jìn)行了大量模擬試驗(yàn),深層次分析原因以及時(shí)排除故障。這就導(dǎo)致故障定位和診斷精準(zhǔn)度較低,耗時(shí)較長(zhǎng),極大地影響了系統(tǒng)重構(gòu)的效果。
3)重構(gòu)容錯(cuò)過程可靠性驗(yàn)證要加強(qiáng)
重構(gòu)容錯(cuò)技術(shù)能夠?qū)崿F(xiàn)航天器綜合電子系統(tǒng)的在軌升級(jí)、維護(hù)和故障處理,可以增強(qiáng)綜合電子系統(tǒng)的靈活性和容錯(cuò)能力,但同時(shí)也會(huì)給系統(tǒng)的可靠性和安全性增加不確定因素。通常,綜合電子系統(tǒng)都采用冗余備份模式,可重構(gòu)的系統(tǒng)以任務(wù)、功能時(shí)段以及運(yùn)行情況為觸發(fā)進(jìn)行切換,在切換和啟動(dòng)過程中要對(duì)各個(gè)模塊之間的工作時(shí)序、潛在路徑、單點(diǎn)失效等進(jìn)行綜合的可靠性分析、驗(yàn)證和權(quán)衡。因此,須要加強(qiáng)重構(gòu)容錯(cuò)過程的可靠性驗(yàn)證和分析。
5.2 應(yīng)開展的工作
從NASA的SpaceCube處理器研制和發(fā)展歷程可以看出,NASA根據(jù)航天器應(yīng)用需求對(duì)處理器的重構(gòu)設(shè)計(jì)進(jìn)行了精確的需求分析,并且在功能模塊和外部接口上進(jìn)行了方案設(shè)計(jì)和試驗(yàn)。在試驗(yàn)任務(wù)7中,成功檢測(cè)和及時(shí)修復(fù)了大量單粒子翻轉(zhuǎn),可見NASA的在軌故障檢測(cè)、診斷、修復(fù)具有很高的實(shí)時(shí)性,幾次科學(xué)試驗(yàn)的圓滿成功也證實(shí)了其對(duì)航天器在軌重構(gòu)過程的可靠性設(shè)計(jì)與驗(yàn)證的系統(tǒng)性和充分性。針對(duì)國(guó)內(nèi)存在的實(shí)際問題,借鑒國(guó)外的發(fā)展和航天器應(yīng)用情況,建議國(guó)內(nèi)著重開展以下幾個(gè)方面的重構(gòu)容錯(cuò)技術(shù)研究。
1)航天器在軌重構(gòu)需求分析
根據(jù)航天器在軌故障的統(tǒng)計(jì)結(jié)果和機(jī)理研究,梳理導(dǎo)致航天器故障或失效的關(guān)鍵分系統(tǒng)及單機(jī),總結(jié)對(duì)航天器壽命和可靠性影響較大的關(guān)鍵因素。對(duì)關(guān)鍵分系統(tǒng)或單機(jī)進(jìn)行在軌重構(gòu)可行性及影響分析,歸納出在軌重構(gòu)的實(shí)際需求,為進(jìn)一步開展航天器在軌重構(gòu)容錯(cuò)設(shè)計(jì)和可靠性分析提供依據(jù)。
可見,在相似商標(biāo)權(quán)益爭(zhēng)奪大戰(zhàn)中,在遵循“在先使用、在先注冊(cè)”兩條原則的前提下,農(nóng)資企業(yè)可以對(duì)侵權(quán)的相似商標(biāo)依法進(jìn)行反擊,從而保護(hù)自身權(quán)益。
2)功能模塊化和可重構(gòu)性的航天器方案設(shè)計(jì)
針對(duì)在軌重構(gòu)需求開展功能模塊化的方案設(shè)計(jì),同時(shí)從軟件和硬件2個(gè)方面按照邏輯功能進(jìn)行模塊化設(shè)計(jì),統(tǒng)一接口定義。根據(jù)飛行需求或故障情況設(shè)計(jì)功能重構(gòu)方案,解決資源限制與多種功能需求之間的矛盾;針對(duì)空間輻射影響可能出現(xiàn)的異常情況,設(shè)計(jì)故障重構(gòu)方案,通過對(duì)異常區(qū)域的查找、定位、屏蔽等手段,進(jìn)行系統(tǒng)自我修復(fù);根據(jù)航天器在軌期間面臨的新任務(wù)、需要的新功能,設(shè)計(jì)升級(jí)重構(gòu)方案,通過地面上傳升級(jí)文件,完成對(duì)綜合電子系統(tǒng)的軟硬件升級(jí)。
3)基于故障仿真的在軌故障診斷技術(shù)研究
傳統(tǒng)的故障診斷方法主要依賴航天器設(shè)計(jì)專家的經(jīng)驗(yàn)和地面模擬試驗(yàn),故障定位精度低,故障診斷耗時(shí)長(zhǎng),因此,應(yīng)通過基于故障仿真的在軌故障診斷方法,建立航天器故障仿真平臺(tái)和故障知識(shí)庫(kù),運(yùn)用虛擬樣機(jī)技術(shù),充分分析航天器所有可能存在的故障及其影響域,實(shí)現(xiàn)對(duì)航天器正常功能與潛在故障的模擬。故障仿真能夠?qū)ο到y(tǒng)中的任意環(huán)節(jié)提供虛擬故障重現(xiàn),并提供故障修復(fù)建議和措施;能夠有效解決故障診斷、數(shù)據(jù)獲取和故障知識(shí)庫(kù)建立過程困難、耗時(shí)長(zhǎng)的問題,降低故障知識(shí)獲取的工作量,以及對(duì)專業(yè)故障診斷方法、專家經(jīng)驗(yàn)的依賴性,具有成本低、可靠性高、覆蓋性強(qiáng)的優(yōu)點(diǎn)。
4)航天器在軌重構(gòu)過程可靠性設(shè)計(jì)與分析
在精準(zhǔn)快速的故障定位與診斷后,在軌重構(gòu)是修復(fù)航天器故障、維持正常工作的最關(guān)鍵措施。分系統(tǒng)重構(gòu)的過程既要保持本身的平穩(wěn)過渡,也要保持其他分系統(tǒng)的正常工作,避免重構(gòu)或切換過程中發(fā)生航天器電源掉電、控制時(shí)序紊亂、任務(wù)之間對(duì)硬件資源產(chǎn)生競(jìng)爭(zhēng)等新故障及可靠性問題。因此,對(duì)航天器在軌重構(gòu)過程要開展嚴(yán)格的可靠性設(shè)計(jì)與分析工作,綜合潛在通路分析和最壞情況分析等可靠性分析技術(shù),協(xié)助設(shè)計(jì)師在航天器研制早期建立系統(tǒng)重構(gòu)容錯(cuò)方案;綜合考慮在軌空間環(huán)境和工作任務(wù),通過仿真方法分析在軌重構(gòu)方案能否在最壞情況下有效修復(fù)故障,以及在切換過程中是否存在潛在通路等新故障或可靠性問題,從而降低重構(gòu)過程中的誤操作和發(fā)生新故障的概率。
(
)
[1]周盛雨.基于FPGA的動(dòng)態(tài)部分重構(gòu)系統(tǒng)實(shí)現(xiàn)[D].北京:中國(guó)科學(xué)院空間科學(xué)與應(yīng)用中心,2007 Zhou Shengyu.A dynamically partial reconfigurable system based on FPGA[D].Beijing:Center for Space Science and Applied Research,Chinese Academy of Sciences,2007(in Chinese)
[3]杜文志.航天器FPGA在系統(tǒng)局部重構(gòu)容錯(cuò)設(shè)計(jì)研究[J].中國(guó)空間技術(shù)科學(xué),2005,25(5):10-16 Du Wenzhi.Research on FPGA fault tolerant method by ISP partial reconstruction[J].Chinese Space Science and Technology,2005,25(5):10-16(in Chinese)
[4]張宇,范建華,呂遵明,等.FPGA動(dòng)態(tài)部分可重構(gòu)技術(shù)概述[J].計(jì)算機(jī)與現(xiàn)代化,2014(3):210-214 Zhang Yu,F(xiàn)an Jianhua,Lyu Zunming,et al.A summarization of dynamic partial reconfiguration based on FPGA[J].Computer and Modernization,2014(3):210-214(in Chinese)
[5]楊玲.?dāng)?shù)字電路多目標(biāo)進(jìn)化設(shè)計(jì)研究[D].南京:南京航空航天大學(xué),2010 Yang Ling.Researches on multi-objective evolution of digital circuit[D].Nanjing:Nanjing University of Aeronautics and Astronautics,2010(in Chinese)
[6]Sverre Vigander.Evolutionary fault repair of electronics in space applications[D].Sussex:University of Sussex,2001
[7]趙謙,趙小冬,劉作龍.機(jī)載嵌入式動(dòng)態(tài)可重構(gòu)計(jì)算機(jī)設(shè)計(jì)[J].航空計(jì)算技術(shù),2013,43(3):113-119 Zhao Qian,Zhao Xiaodong,Liu Zuolong.Design of airborne embedded dynamic reconfigurable computer[J].Aeronautical Computing Technique,2013,43(3):113-119(in Chinese)
[8]Petrick D,Espinosa D,Ripley R,et al.Adapting the reconfigurable SpaceCube processing system for multiple mission applications[C]//Proceedings of Aerospace Conference.New York:IEEE,2014:1-4
[9]Petrick D,Geist A,Albaijes D,et al.SpaceCube v2.0 space flight hybrid reconfigurable data processing system[C]//Proceedings of Aerospace Conference.New York:IEEE,2014:1-3
[10]Flatley T.SpaceCube:A family of reconfigurable hybrid on-board science data processors[C]//Proceedings of Adaptive Hardware and Systems(AHS).New York:IEEE,2012:1-2
[11]Tom Flatley.Advanced hybrid on-board science data processor―SpaceCube 2.0[C]//Proceedings of Arlington,NASA/GSFC,ESTO Earth Science Technology Forum.Washington D.C.:NASA,2010:1-10
[12]Walters J P,Zick K M,F(xiàn)rench M.A practical characterization of a NASA SpaceCube application through fault emulation and laser testing[C]//Proceedings of Dependable Systems and Networks(DSN),2013 43rd Annual IEEE/IFIP International Conference.New York:IEEE,2013:1-8
[13]Zick K M,Chien-Chih Yu,Walters J P,et al.Silent data corruption and embedded processing with NASA’s SpaceCube[J].Embedded Systems Letters,2012,4(2):33-36
[14]Cristo A,F(xiàn)isher K,Gualtieri A J,et al.Optimization of processor-to-h(huán)ardware module communications on spaceborne hybrid FPGA-based architectures[J].Embedded Systems Letters,2013,5(4):77-80
[15]David Rupe.A FGPA framework supporting software programmable reconfiguration and rapid development of SDR applications[EB/OL].[2015-08-15]http://notesapplication.a(chǎn)bcelec-tronique.com/038/38-21407.pdf,2007-09
(編輯:夏光)
Research of On-orbit Reconfigurable Fault-tolerant Technology for Spacecraft Avionics System
WU Haichao LUAN Jiahui ZHANG Liang XU Hao
(China Astronautics Standards Institute,Beijing 100071,China)
The reconfigurable fault-tolerance technology is the use of reusable hardware and software resources to reconfigure the system according to different mission requirements or failures,so as to upgrade or repair fault on orbit.The reconfigurable fault-tolerance technology is introduced in the paper.Taking massive information processor SpaceCube developed by NASA and reconfigurable processor developed by BittWare company for example,their system architecture,reconfigurable fault-tolerant design and applications are expatiated.The advantages of reconfigurable fault-tolerant technology for spacecraft avionics system are summarized and analyzed,such as reducing the redundancy and backups,reducing manufacturing and repair costs,and realizing the local failure repair by oneself.From the development process and application of reconfigurable design technology,the problems in the reconfigurable design of the Chinese spacecraft avionics system are pointed out,such as lack of standardized function modules and low accuracy of fault diagnosis.Some suggestions are proposed,including the on-orbit reconfigurable requirement analysis,and the scheme of block-based design and reconfigurable fault-tolerant design.The paper can provide a reference for spacecraft avionics system’s on-orbit reconfigurable design and related research work.
spacecraft avionics system;on-orbit fault;reconfigurable fault-tolerant technology;fault detection;fault repair
TP302.8
A
10.3969/j.issn.1673-8748.2016.02.016
2015-07-15;
2015-11-10
吳海超,男,碩士,工程師,從事航天電子系統(tǒng)可靠性研究工作。Email:wuhaichao163@126.com。