陸 榮,游月輝,吳 濤,劉任宸
(1.上海衛(wèi)星工程研究所, 上海 201109; 2.上海航天電子技術(shù)研究所, 上海 201109)
?
衛(wèi)星擴頻應(yīng)答機抗單粒子翻轉(zhuǎn)技術(shù)研究
陸榮1,游月輝1,吳濤2,劉任宸1
(1.上海衛(wèi)星工程研究所, 上海 201109; 2.上海航天電子技術(shù)研究所, 上海 201109)
對衛(wèi)星擴頻應(yīng)答機抗單粒子效應(yīng)的方法進(jìn)行分析,設(shè)計了采用反熔斷絲工藝的FPGA(A54SX32),通過回讀比對功能對FPGA進(jìn)行監(jiān)控和處理。此方法大大降低了單粒子效應(yīng)造成衛(wèi)星擴頻應(yīng)答機發(fā)生功能性故障的可能性,并在系統(tǒng)中通過內(nèi)部高可靠單機對易發(fā)生單粒子效應(yīng)的擴頻應(yīng)答機進(jìn)行監(jiān)控,診斷出故障后進(jìn)行修復(fù),同時設(shè)計定時復(fù)位對應(yīng)答機進(jìn)行復(fù)位、開機操作,確保衛(wèi)星在軌擴頻應(yīng)答機的正常穩(wěn)定工作。
擴頻應(yīng)答機;FPGA;單粒子翻轉(zhuǎn)
隨著航天技術(shù)的發(fā)展,對星載信號處理能力的要求越來越高,體積小、功耗低的微電子器件在航天工程中得到廣泛應(yīng)用,F(xiàn)PGA也越來越多地應(yīng)用到航天領(lǐng)域,成為星載信號處理和控制的關(guān)鍵部件。由于衛(wèi)星使用的宇航級大規(guī)模FPGA都是基于SRAM型的,屬于單粒子敏感器件,因此銀河宇宙線、太陽宇宙線、地球輻射帶中的高能帶電粒子,特別是其中的重離子造成的單粒子事件成為航天飛行的重要隱患,抗單粒子效應(yīng)的研究非常重要且迫切。
本文首先分析了單粒子效應(yīng)的影響,分析了其對衛(wèi)星擴頻應(yīng)答機造成的危害,并針對單粒子效應(yīng)提出了單機級、系統(tǒng)級的防護(hù)設(shè)計方法。最后對設(shè)計的方法在軌達(dá)到的效果進(jìn)行分析說明,為后續(xù)衛(wèi)星抗單粒子效應(yīng)設(shè)計提供參考依據(jù)。
單粒子效應(yīng)是指單個的高能質(zhì)子或重離子轟擊微電子器件,引起該器件狀態(tài)改變,致使航天器發(fā)生異常或故障的事件,主要包括兩個方面:單粒子鎖定(SEL)及單粒子翻轉(zhuǎn)(SEU)。
1)單粒子翻轉(zhuǎn)
當(dāng)空間高能帶電粒子入射航天器或與航天器艙壁發(fā)生相互作用產(chǎn)生的重離子通過微電子器件時,在粒子通過的路徑上發(fā)生電離,沉積在器件中的電荷部分被電極收集,其結(jié)果可能產(chǎn)生軟錯誤的單粒子翻轉(zhuǎn)效應(yīng)與鎖定效應(yīng)。當(dāng)收集的電荷超過電路狀態(tài)臨界電荷時,電路就會出現(xiàn)不期望的翻轉(zhuǎn)和邏輯功能混亂。這種效應(yīng)不會使邏輯電路損壞,還可以被重新寫入另外一種狀態(tài),因此,常把這種效應(yīng)叫做軟錯誤。
2)單粒子鎖定
在CMOS電路(固有P-N-P-N結(jié)構(gòu)以及內(nèi)部寄生晶體管)中,當(dāng)高能帶電粒子,尤其是重離子穿越芯片時,會在P阱襯底結(jié)中沉積大量電荷。這種瞬時電荷流動所形成的電流,在P阱電阻上產(chǎn)生壓降,會使寄生NPN晶體管的基-射極正偏而導(dǎo)通,結(jié)果造成鎖定事件。如果鎖定時通過器件的電流過大,即可將器件燒毀。當(dāng)出現(xiàn)鎖定現(xiàn)象時,器件不會自動退出此狀態(tài),除非采取斷電措施,然后重新啟動方可恢復(fù)。
目前衛(wèi)星應(yīng)用的擴頻應(yīng)答機均采用大規(guī)模FPGA實現(xiàn)信號捕獲、調(diào)制解調(diào)等功能,表1給出了某款FPGA在不同軌道上的單粒子翻轉(zhuǎn)概率,對于需要常加電工作的系統(tǒng)來說,基于SRAM型的FPGA必需采取措施降低單粒子效應(yīng)的影響。
表1某FPGA在不同軌道的翻轉(zhuǎn)情況
軌道高度/km傾角/(°)翻轉(zhuǎn)概率/(次/天)MTBFLEO40051.60.671.5dLEO80022.092.7hPolar83398.764hMEO120065.02558minGEO360000.00.472.1d
設(shè)計思路是從單機級、系統(tǒng)級兩個層面解決單粒子事件的影響,逐級診斷逐級修復(fù),如圖1 所示。單機級設(shè)計解決設(shè)備內(nèi)部軟件參數(shù)受單粒子影響后參數(shù)錯誤導(dǎo)致的故障,系統(tǒng)級設(shè)計解決單機級未能覆蓋的軟件參數(shù)及單機級無法解決的單粒子事件引起的故障情況。
圖1 擴頻應(yīng)答機抗單粒子翻轉(zhuǎn)設(shè)計方法框圖
2.1單機級抗單粒子翻轉(zhuǎn)設(shè)計
1)重配置參數(shù)
重配置參數(shù)方法分為上電重配置和不斷電情況下接收復(fù)位指令重新配置兩種方式,此方法實現(xiàn)簡單,通過重新配置可以使發(fā)生了單粒子翻轉(zhuǎn)的FPGA恢復(fù)正常,但配置期間,擴頻應(yīng)答機的常規(guī)功能中斷。
2)三模冗余(TMR)
三模冗余即所有功能采用三個模塊重復(fù)實現(xiàn),互為備份,三個結(jié)果送入三選二的表決邏輯,表決邏輯的輸出取決于三個輸入的多數(shù)。若有一個模塊發(fā)生單粒子翻轉(zhuǎn)故障,則另兩個正常模塊的輸出可將故障模塊的輸出掩蔽,從而不會在表決器輸出產(chǎn)生差錯。此設(shè)計思想基于假設(shè)前提:任意兩個模塊不會在同一時間發(fā)生單粒子效應(yīng)。TMR技術(shù)的優(yōu)點在于可以容忍單粒子翻轉(zhuǎn)和單粒子瞬時干擾引起的功能錯誤;其缺點是所需硬件資源多,功耗增大。
3)對配置信息進(jìn)行實時刷新
對配置信息實時刷新是指在不判斷配置信息是否翻轉(zhuǎn)的情況下,不間斷的對配置信息進(jìn)行重寫操作。與重新配置操作不同的是:在刷新期間,不會影響FPGA的工作,可以糾正翻轉(zhuǎn)了的配置信息位。其缺點是不能糾正其它單粒子效應(yīng)如SET、SEFI等;增加刷新電路(至少增加一片反熔絲FPGA)。
4)采用大容量抗輻照反熔絲FPGA
反熔絲FPGA的特點是所有設(shè)計是燒死的,不會發(fā)生單粒子翻轉(zhuǎn),但中間變量仍有單粒子翻轉(zhuǎn)的可能。擴頻應(yīng)答機中頻處理算法比較復(fù)雜,需要至少400萬門反熔絲FPGA才能完成正常功能,目前對應(yīng)的FPGA尚未普及,成本較高。
5)采用專用集成電路
目前國內(nèi)開發(fā)的專用集成電路規(guī)模處于100萬門左右。由于擴頻應(yīng)答機中頻處理算法比較復(fù)雜,因此開發(fā)專用集成電路的周期很長,成本很高。
6)動態(tài)回讀比對
該方法對FPGA的重要關(guān)鍵配置信息進(jìn)行回讀和比對,發(fā)現(xiàn)配置信息有錯則進(jìn)行重配置操作。其優(yōu)點是可以確定配置信息發(fā)生單粒子翻轉(zhuǎn)后,立即通過重配置可以使發(fā)生了單粒子翻轉(zhuǎn)的FPGA恢復(fù)正常,缺點是發(fā)現(xiàn)配置信息出錯進(jìn)行重加載期間功能中斷;增加此功能需增加回讀部分電路(一般情況下需增加一片反熔絲FPGA)。
下面是本文對擴頻應(yīng)答機采用動態(tài)回讀方法監(jiān)測和修正單粒子效應(yīng)的設(shè)計,設(shè)計方法是利用反熔絲FPGA芯片實時讀取FPGA內(nèi)部配置信息與其配置PROM中的配置信息進(jìn)行比對,從而判斷FPGA是否發(fā)生單粒子翻轉(zhuǎn)的設(shè)計技術(shù)。反熔絲FPGA對單粒子翻轉(zhuǎn)效應(yīng)不敏感,但是其容量很小。當(dāng)檢測到FPGA芯片發(fā)生單粒子翻轉(zhuǎn)時,回讀重配置芯片控制FPGA芯片重新加載程序,從而消除單粒子翻轉(zhuǎn)效應(yīng)對設(shè)備工作狀態(tài)的影響。該方法的優(yōu)點是可靠度較高,軟硬件資源要求相對三模冗余較低,但是它的最終結(jié)果是控制FPGA芯片重新加載程序。因此該方法主要是實現(xiàn)對FPGA受到單粒子效應(yīng)的監(jiān)測和糾正,并不能完全消除單粒子效應(yīng)對設(shè)備工作狀態(tài)的影響,需進(jìn)一步通過系統(tǒng)級實現(xiàn)。
考慮到回讀電路功能的可靠性,設(shè)計中考慮采取保留屏蔽回讀刷新電路功能的指令,防止出現(xiàn)回讀電路失效導(dǎo)致單機功能異常工作,原理框圖如圖2 所示。
圖2 回讀刷新重配置系統(tǒng)框圖
系統(tǒng)各部分主要功能:
1)Virtex-4 FPGA:完成擴頻應(yīng)答機中頻處理機主要功能;
2)Actel FPGA:完成接收RS422的控制命令,并進(jìn)行解析,完成對Virtex-4 FPGA的配置、回讀、刷新、重載,以及數(shù)據(jù)比對;
3)RS422:接收指令或數(shù)據(jù),并反饋數(shù)據(jù);
4)對外接口:接收復(fù)位指令。
5)CRC檢錯碼是一種二元分組碼,它用于檢測碼塊中的傳輸差錯。其檢錯能力為:①能檢測出含有奇數(shù)個比特差錯的所有錯誤序列;②能檢出碼塊中隨機分布的2個比特差錯;③對碼塊中大于和等于4個比特的隨機差錯,其不能檢出的概率約為2-15(或3×10-5);④能檢出長度不大于CRC校驗位長的單個突發(fā)差錯。⑤本文對配置信息采取32位CRC校驗,其多項式如下:x32+x28+x27+x26+x25+x23+x22+x20+x19+x18+x14+x13+x11+x10+x9+x8+x6+1。
2.2系統(tǒng)級抗單粒子翻轉(zhuǎn)設(shè)計
由于單機級無法完全解決單粒子效應(yīng)的影響,設(shè)計系統(tǒng)級抗單粒子效應(yīng)的方法,通過測控分系統(tǒng)內(nèi)部高可靠單機對擴頻應(yīng)答機進(jìn)行實時監(jiān)控,發(fā)生單機受單粒子效應(yīng)影響無法自愈時,對擴頻應(yīng)答機進(jìn)行故障修復(fù)工作,本文設(shè)計的系統(tǒng)級抗單粒子設(shè)計主要有兩種:故障自診斷修復(fù)和定時復(fù)位。
1)故障自診斷修復(fù)技術(shù)
系統(tǒng)級故障自診斷修復(fù)技術(shù)的框圖如圖3所示。
圖3 系統(tǒng)自主診斷及恢復(fù)框圖
設(shè)計思路是利用擴頻應(yīng)答機給出的健康狀態(tài)字對其進(jìn)行實時監(jiān)控,當(dāng)發(fā)生故障時,且故障條件滿足修復(fù)要求時對應(yīng)答機進(jìn)行修復(fù)工作,判斷的流程如圖4所示。
圖4 系統(tǒng)自主診斷及恢復(fù)流程圖
擴頻應(yīng)答機作為工作正常的狀態(tài)給出一個健康狀態(tài)字,測控分系統(tǒng)數(shù)據(jù)管理設(shè)備同時接收兩臺擴頻應(yīng)答機的健康字進(jìn)行監(jiān)控,健康字反應(yīng)的是應(yīng)答機主程序運行狀態(tài)。當(dāng)應(yīng)答機主程序發(fā)生異常時,應(yīng)答機的健康字會顯示為不健康狀態(tài),此時應(yīng)答機的上下行很可能已經(jīng)失效。若單臺應(yīng)答機故障,可通過備份通道上行對故障應(yīng)答機進(jìn)行關(guān)機、開機操作進(jìn)行復(fù)位;若兩臺應(yīng)答機同時發(fā)生故障時,遙控終端自主啟動處理方案,對兩臺應(yīng)答機進(jìn)行關(guān)機、開機操作。
具體判斷處理的流程如下:擴頻應(yīng)答機串行數(shù)字量最高兩位設(shè)置為健康判斷位,擴頻應(yīng)答機工作正常時這兩位為“11”和“00”每隔2s交替變化。如果擴頻應(yīng)答機A機和B機故障判斷位同時不發(fā)生變化,遙控終端下位機軟件則判斷擴頻應(yīng)答機A機和B機同時發(fā)生故障,故障持續(xù)7200幀遙測幀(每幀0.5s,約3600s)后,下位機軟件自主發(fā)送擴頻應(yīng)答機A斷電間接指令(遙控終端的內(nèi)部指令);經(jīng)過600s±60s后,下位機軟件自主發(fā)送擴頻應(yīng)答機B斷電間接指令;經(jīng)過10s±2s后,下位機軟件自主發(fā)送擴頻應(yīng)答機A加電
間接指令;經(jīng)過10s±2s后,下位機軟件自主發(fā)送擴頻應(yīng)答機B加電間接指令。
在正常情況下,數(shù)據(jù)管理設(shè)備軟件對擴頻應(yīng)答機自主判斷功能是允許的,但是在發(fā)生擴頻應(yīng)答機A機和B機只是遙測故障判斷位同時發(fā)生故障,而擴頻應(yīng)答機上行和下行都正常的故障時,可對數(shù)據(jù)管理設(shè)備軟件發(fā)送“擴頻應(yīng)答機自主判斷功能禁止間接指令”,將此功能禁止,相應(yīng)遙測位顯示禁止;在排除故障后,又可對下位機軟件發(fā)送”擴頻應(yīng)答機自主判斷功能允許間接指令”,將此功能恢復(fù),相應(yīng)遙測位顯示允許。
2)定時復(fù)位設(shè)計
為了避免應(yīng)答機關(guān)機后未能自主打開的情況,或當(dāng)一臺應(yīng)答機處于關(guān)機狀態(tài),另一臺應(yīng)答機由于單粒子無法上行的情況下,設(shè)計利用測控作業(yè)表進(jìn)行定時復(fù)位、開機的操作,作業(yè)表如表2所示。
表2測控作業(yè)表中定時復(fù)位設(shè)計
序號作業(yè)星上時間備注1擴頻應(yīng)答機A開機起始時間T0(作業(yè)表中的起始時間)2擴頻應(yīng)答機B開機起始時間T0+0.5s防止兩臺應(yīng)答機均被關(guān)閉的故障3擴頻應(yīng)答機A復(fù)位起始時間T0+1s4擴頻應(yīng)答機B復(fù)位起始時間T0+1.5s對應(yīng)答機實施定時復(fù)位操作5開擴頻應(yīng)答機A發(fā)射機起始時間T0+2.5s6開擴頻應(yīng)答機B發(fā)射機起始時間T0+3s出于電子對抗等需要,應(yīng)答機在境外處于靜默狀態(tài),入境后需要打開。7遙測下傳持續(xù)工作T1遙測下傳工作8擴頻應(yīng)答機A發(fā)射機關(guān)起始時間T0+T1+3.5s9擴頻應(yīng)答機B發(fā)射機關(guān)起始時間T0+T1+4s出境前進(jìn)行關(guān)發(fā)射機操作,使應(yīng)答機處于靜默狀態(tài)。
擴頻應(yīng)答機抗單粒子翻轉(zhuǎn)技術(shù)能保障衛(wèi)星測控分系統(tǒng)在軌正常穩(wěn)定工作,解決了測控分系統(tǒng)擴頻應(yīng)答機在軌單粒子事件導(dǎo)致的故障問題,為衛(wèi)星單粒子防護(hù)技術(shù)提供基礎(chǔ)。對應(yīng)用了此技術(shù)的某在軌衛(wèi)星通過遙測觀察發(fā)現(xiàn),此項技術(shù)有效地完成了自主單粒子事件診斷與處理,保證了衛(wèi)星正常安全地在軌工作。經(jīng)統(tǒng)計,平均每月擴頻應(yīng)答機自主診斷單粒子事件并自主修正的有10次以上,在軌飛行至今未造成星地通信異常及地面干預(yù)的情況。因此,此項技術(shù)能為后續(xù)衛(wèi)星抗單粒子效應(yīng)的設(shè)計提供參考?!?/p>
[1]蔡自興,徐光. 人工智能及其應(yīng)用[M].3版.北京:清華大學(xué)出版社,2004.
[2]宋凝芳,朱明達(dá),潘雄. SRAM 型FPGA 單粒子效應(yīng)試驗研究[J].宇航學(xué)報,2012,33(6): 836-842.
[3]鄧明.FPGA抗單粒子翻轉(zhuǎn)軟硬件設(shè)計分析[J].通信對抗,2010,110(2):37-38.
[4]丁義剛.空間輻射環(huán)境單粒子效應(yīng)研究[J].航天器環(huán)境工程,2007, 24(5): 283-290.
[5]王一奇,趙發(fā)展,劉夢新,等.基于RHBD技術(shù)的深亞微米抗輻SRAM電路的研究[J].半導(dǎo)體技術(shù),2012,37(1):17-23.
[6]Earl F,Michael C,Anthony S,et al. Radiation testing update,SEU mitigation,and availability analysis of the Virtex FPGA for space reconfigurable computing[C]∥ IEEE Nuclear and Space Radiation Effects Conference,Reno,USA,2000.
[7]Dinh TN, Xuan Y, Thai MT,et al. On new approaches of assessing network vulnerability:hardness and approximation[J]. IEEE/ACM Trans. Netw,2012,20(2):609-619.
The anti-SEU technology of satellite-borne spread-spectrum transponder
Lu Rong1, You Yuehui1, Wu Tao2, Liu Renchen1
(1.Shanghai Institute of Satellite Engineering,Shanghai 201109,China; 2. Shanghai Aerospace Electronic Technology Research Institute,Shanghai 201109,China)
The satellite-borne spread-spectrum transponder against SEU effect is analyzed, and a method which uses FPGA under an anti-fuse technique is designed, namely A54SX32, with a function of read-back and realignment to monitor and handle FPGA. By means of that, the probability of functional faults caused by SEU effect on the satellite-borne spread-spectrum transponder will be considerably reduced. The spread-spectrum transponder, which is prone to SEU effect, will be monitored by highly reliable standalone unit in the system, and the fault will be diagnosed and fixed. In addition, a watchdog timer is designed to reset and start up the transponder, so as to ensure a smooth operation of the on-orbit satellite-borne spread-spectrum transponder.
spread-spectrum transponder;FPGA;SEU
2016-07-07;2016-07-20修回。
陸榮(1982-),男,工程師,主要研究方向為衛(wèi)星通信。
TN967
A