王 銳
(合肥工業(yè)大學(xué) 電子科學(xué)與應(yīng)用物理學(xué)院,安徽 合肥230009)
多目標(biāo)故障檢測通過信號違規(guī)檢測能實現(xiàn)同時在線檢測多種故障,其中包括老化故障預(yù)測。文獻[1~2]對比做了較有價值的研究。中科院計算所鄢貴海博士基于此方法提出了一種統(tǒng)一的故障模型——侵犯信號穩(wěn)定性(Stability Violation,SV)以及基于SV的故障檢測方案SVFD。但因為多目標(biāo)會導(dǎo)致多時序約束,所以,對電路的時序有嚴(yán)格要求。本文研究發(fā)現(xiàn),對于動態(tài)CMOS電路的“充放電”時間,統(tǒng)一故障檢測方法并未予以重視,在嚴(yán)格要求時序的高速電路中,需做出優(yōu)化。
根據(jù)軟錯誤和電路老化的誘導(dǎo)機制不同,現(xiàn)有單獨對軟錯誤或者老化預(yù)測結(jié)構(gòu)進行改進不能滿足要求。要將預(yù)測老化和檢測軟錯誤等其它目標(biāo)故障整合在一個結(jié)構(gòu)中進行違規(guī)檢測,建立新的理論基礎(chǔ)。通過數(shù)字信號學(xué)分析可以得到如下結(jié)果:由跳變、毛刺或串?dāng)_等引起的延遲故障都可以統(tǒng)一描述為信號穩(wěn)定違規(guī),因此可以提出統(tǒng)一的故障檢測模型,從而在檢測能力、設(shè)計復(fù)雜度和成本方面達到要求。
基于上述要求,對于統(tǒng)一故障模型,SV期望研究的目標(biāo)故障類型如下:
(1)軟錯誤。包括單事件翻轉(zhuǎn)(Single Event Upset,SEU)和單事件瞬態(tài)(Single Event Transient,SET)[3]。如果一些高能輻射粒子誘導(dǎo)存儲單元發(fā)生翻轉(zhuǎn),這種偶然的翻轉(zhuǎn)被稱為SEU。如果粒子導(dǎo)致某個組合邏輯的節(jié)點收集了足夠多的電荷,可以產(chǎn)生瞬態(tài)電流脈沖。該脈沖轉(zhuǎn)化成電壓脈沖并隨著組合邏輯向下傳播。這種類型的錯誤被稱為SET?;?種屏蔽效應(yīng)[4],軟錯誤可能被捕獲:邏輯屏蔽,電屏蔽和鎖存屏蔽。
(2)老化延遲。老化效應(yīng),例如負溫度不穩(wěn)定性導(dǎo)致的老化延遲可以用來對老化進行預(yù)測[5]。通常,老化延遲是時間的一個累積效應(yīng)。它的檢測時間窗為TGB。
(3)延遲故障。延遲故障是指傳統(tǒng)的延遲故障,一般由器件故障,包括由缺陷、串?dāng)_、電壓不穩(wěn)等導(dǎo)致的時延故障。這類故障的檢測通常都在時鐘上升沿之后,與老化檢測類似,都是后檢測帶(Detection Slick),檢測窗口為TDS(即后檢測帶間隔)。對于一般的數(shù)字電路可以用這樣的邏輯模型表示:組合邏輯的輸入信號Si來自上一級觸發(fā)器,輸出So被后一級的觸發(fā)器捕獲,觸發(fā)器間使用同步時鐘,周期為T。
對于軟錯誤、老化延遲和延遲故障,一般在保護帶預(yù)測老化延遲,在后檢測帶檢測延遲故障,如圖1所示。用上述信號模型分別對軟錯誤、老化延遲和延遲故障的故障行為進行了分析:(1)延遲故障。延遲的So會在TDS期間發(fā)生SV,但沒有在TGB期間發(fā)生的跳變。延遲故障還會在時鐘周期的后端導(dǎo)致So的TVV故障,TVV會在下一個時鐘周期引起下一級邏輯發(fā)生IVV故障。因此,對于延遲故障來說,SV、TVV和IVV是等效的。(2)老化延遲。延遲的So在TGB期間將會導(dǎo)致SV。但老化延遲不會導(dǎo)致TVV或IVV。(3)SEU。發(fā)生SEU的觸發(fā)器,其輸出端Si會發(fā)生的是SV,之后Si將保持穩(wěn)定。因此,SV可能會導(dǎo)致下一級觸發(fā)器捕獲到錯誤的數(shù)據(jù),繼而導(dǎo)致發(fā)生TVV以及下一級觸發(fā)器Si發(fā)生IVV,即SEU將表現(xiàn)為SV、IVV或TVV。(4)SET。對于寬度<TDS+TGB的SET故障,其行為與普通的延遲故障相似。因此,對于SET來說,SV、IVV和TVV也是等效的。
圖1 保護帶和后檢測帶
綜合上述分析,結(jié)論如下:對于上述引起電路時序發(fā)生錯誤、時序違規(guī)的各種故障行為都可以統(tǒng)一為SV,即統(tǒng)一故障模型。
統(tǒng)一故障檢測中最重要的單元是信號穩(wěn)定性檢測單元。圖2顯示了SVFD在電路中的位置及其主要結(jié)構(gòu)。通過插入檢測單元的一個關(guān)鍵路徑末端,觸發(fā)器采用XOR保護檢測,通過將觸發(fā)器輸入端和輸出端兩路信號送入一個同或門NXORX。當(dāng)CLKG低電平期間觸發(fā)器受到SEU時,其會在或非門B1輸出高電平,導(dǎo)致X節(jié)點放電。
圖2 統(tǒng)一故障檢測在電路中的位置和結(jié)構(gòu)
檢測電路由3部分組成:穩(wěn)定性檢測器(Stability Checker,SC)、輸出壓縮器(Compactor)和輸出鎖存器(Output Latch)。穩(wěn)定性檢測器的基本結(jié)構(gòu)來自于在線老化預(yù)測,與之類似,穩(wěn)定性檢測器也是通過比較一對預(yù)充電的節(jié)點狀態(tài)來判斷被檢測信號上是否發(fā)生SV。下面分析SVFD的工作原理。
如圖3所示,穩(wěn)定性檢測器是通過對動態(tài)節(jié)點S1和S2狀態(tài)的監(jiān)測來控制節(jié)點S4的狀態(tài),判斷電路是否發(fā)生故障。然后把信號輸出給輸出壓縮器用于判斷故障類型。當(dāng)經(jīng)過預(yù)充電階段后,S1與S2均處于高電平,電路進入檢測狀態(tài)。當(dāng)組合邏輯輸出的信號Co正常時,M3和M4的柵極狀態(tài)總是互斥的,即為“0”、“1”或“1”、“0”,S1與S2其中必有一個發(fā)生放電。這種情況下,節(jié)點S4會穩(wěn)定在高電平,穩(wěn)定性檢測器的輸出A1為0,SV沒有發(fā)生。與之相反,當(dāng)Co在在保護區(qū)間發(fā)生SV,這時原本保持在高電平狀態(tài)的節(jié)點發(fā)生放電,即S1和S2均處于低電平狀態(tài),從而打開節(jié)點S4的下拉網(wǎng)絡(luò),穩(wěn)定性檢測器的輸出A1由0變成1。輸出壓縮器捕獲到A1信號,從而釋放節(jié)點X的電荷。與節(jié)點X相連的兩個鎖存器分別在不同時鐘CLK和CLK鎖存X的值,根據(jù)兩個鎖存器輸出a,b的值來判斷具體故障類型。
圖3 故障檢測單元的晶體管實現(xiàn)
文獻[2]在面積開銷、功耗、以及故障檢測能力等方面都進行了分析,發(fā)現(xiàn)SVFD對于有時序違規(guī)引起的電路故障有著較好的檢測結(jié)構(gòu)。然后,它也存在著明顯的缺點:(1)需要額外的控制信號。與其他檢測結(jié)構(gòu)相比,需要額外的控制信號才能保證SVFD的正常工作,而引入一路控制信號必然增加它的面積開銷。(2)不適用于高速電路。在SVFD結(jié)構(gòu)中,大量的保護器被用來保護動態(tài)節(jié)點高狀態(tài)的穩(wěn)定性,這會導(dǎo)致節(jié)點充放電時間的增加,使其不適用高速電路。
考慮上述原因,針對SVFD的穩(wěn)定性檢測器是影響電路在高速電路中運用的主要障礙。根據(jù)這個分析,論文提出了一種高速信號違規(guī)檢測結(jié)構(gòu)(Highspeed Signal Violation Detector,HSVD),如圖4所示。
圖4 HSVD中SC的電路結(jié)構(gòu)
新的穩(wěn)定性檢測器(Stability Checker,SC)在保留原先結(jié)構(gòu)的基礎(chǔ)上,最大的改動是引進了被用于軟錯誤防護時序單元中使用的Muller C單元(簡稱C單元)[6]。圖5給出了C單元以及對應(yīng)的真值表。這樣就減少了SC中動態(tài)節(jié)點和補償動態(tài)節(jié)點“弱”邏輯所需的保持器的數(shù)量,大幅減少了檢測單元的硬件開銷。不僅如此,C單元所具有的保持功能加強了SC輸出的N1信號的保持時間,還提高了輸出壓縮器中X節(jié)點的電荷釋放時間,從而避免在高速電路中因X節(jié)點放電不足而可能造成的電路檢測失效。這種改進大幅提高了HSVD對高速電路的適應(yīng)能力。
圖5 C單元及其真值表
為驗證HSVD的功能,對單個檢測單元進行了晶體管級的Hspice故障模擬仿真。圖6是使用32 nm PTM工藝模型[7],對HSVD中幾個關(guān)鍵節(jié)點狀態(tài)在5個周期中變化的仿真波形圖。其中系統(tǒng)主時鐘信號為CLK,CLKS為控制預(yù)測時鐘,So是組合邏輯輸出信號,CLKG為保持時間的控制信號,NXOR是XOR保護的輸出信號;在第4個波形圖中,顯示了SC內(nèi)部節(jié)點S1和S2隨著上述信號變化而出現(xiàn)的狀態(tài)變化圖形;第5個波形顯示的是SC輸出信號N1以及XOR保護的輸出信號,從圖中可以看出,N1信號具有較好的保持性,N1和B1是輸出壓縮器的輸入信號;最后一個圖顯示了最終的檢測結(jié)果,從中可以看出結(jié)果對故障的識別。
圖6 Hspice仿真波形圖
與其它方案的比較:將HSVD與其他幾種方案進行比較。表1列出了與老化預(yù)測策略(Aging Resistant Stability Checker,ARSC)[8]以及SVFD在晶體管數(shù)目、時鐘信號數(shù)量以及檢測完備性上的比較結(jié)果。面積開銷可以利用晶體管數(shù)目來估算??梢钥闯鲂陆Y(jié)構(gòu)對比傳統(tǒng)ARSC具備明顯的性能優(yōu)勢,而增加的開銷微小。與原先的SVFD相比,HSVD的硬件開銷更少。
表1 與其它方案的比較
相對于目標(biāo)故障檢測,多故障統(tǒng)一檢測具有明顯的應(yīng)用價值。通過對SV的分析,提出一種適合高速電路的多故障統(tǒng)一檢測策略HSVD,給出了其電路實現(xiàn)。在HSVD的穩(wěn)定性檢測器中,C單元的使用使HSVD更適用于高速芯片。Hspice仿真驗證其功能有效,與已有的機制方案相比也具有面積和功耗的優(yōu)勢。
[1]YAN Guihai,HAN Yinhe,LI Xiaowei.A unified online fault detection scheme via checking of stability violation[C].Soul:DATE,2009:395-400.
[2]NICOLAIDIS M.Design for soft error mitigation[J].IEEE Transaction on Device Mater.Reliab,2005(5):405-418.
[3]SHIVAKUMAR P,KISTLER M,KECKLER S W,et al.Modeling the effect of technology trends on the soft error rate of combinationallogic[C].in Proc.International Conference Depend System Network(DSN),2002:389-398.
[4]VAZQUEZ J C,CHAMPAC V,ZIESEMER A M,et al.Built-in aging monitoring for safety-critical applications[C].Washington D C:Proc.IEEE Int.On-Line Test Symp.(IOLTS).IEEE Computer Society Press,2009:9-14.
[5]NICOLAIDIS M.Time redundancy based soft-error tolerance to rescue nanometer technologies[C].San Diego:Proceedings of the 17th VLSI Test Symposium,1999:86-94.
[6]YU Cao,WEI Zhao.Predictive Technology Model(PTM)[C].Nano-Networks and Workshops,2006.NanoNet'06.1st International Conference on,2006:1-5.
[7]AGARWAL M,PAUL B C,ZHANG MING,et al.Circuit failure prediction and its application to transistor aging[C].Washington D C:Proc.of Very Large Scale Integration Test Symposium,IEEE Computer Society Press,2007:277-286.