羅繼光
(湖南中車時代通信信號有限公司,湖南 長沙 410005)
隨著高速鐵路的快速發(fā)展,列車運行控制系統(tǒng)(簡稱“列控系統(tǒng)”)的安全性直接影響行車安全[1]。安全計算機平臺被廣泛應(yīng)用于列控系統(tǒng)中,列控系統(tǒng)為了達到規(guī)定的安全等級,其安全計算機平臺通常采用多通道冗余設(shè)計,通過對多個相同或相似的并行通道或功能模塊的輸出結(jié)果進行表決來實現(xiàn)功能安全。各通道的相似性使其較易由于共同原因而引發(fā)多個通道或功能模塊的失效。因此,在設(shè)計列控系統(tǒng)時,除了應(yīng)該采取設(shè)置多樣性及其他方式來防止共因失效外,還應(yīng)在系統(tǒng)危險側(cè)失效率的計算中充分考慮共因失效分數(shù)。
現(xiàn)有列控系統(tǒng)共因失效研究通常借鑒核電和航空領(lǐng)域共因失效分析的經(jīng)驗,采用擴展的故障樹法、馬爾科夫鏈和多參數(shù)模型等方法對系統(tǒng)進行共因失效定量分析。上述計算模型的分析過程過于復(fù)雜,在系統(tǒng)設(shè)計和開發(fā)過程中不易識別共因失效及評估其所引發(fā)的危害程度[2];同時,這些計算模型更多依賴專家經(jīng)驗或者半經(jīng)驗公式,沒有達成統(tǒng)一認可的參數(shù)確認方式;另外,列控系統(tǒng)由于缺少對共因失效歷史數(shù)據(jù)庫的積累和完善,導(dǎo)致計算結(jié)果因沒有相關(guān)數(shù)據(jù)支撐而存在較大誤差。為此,本文通過建立基于β因子的共因失效分析模型,選取計算機聯(lián)鎖系統(tǒng),對其進行共因失效篩選和識別,發(fā)現(xiàn)系統(tǒng)設(shè)計過程中的薄弱環(huán)節(jié);同時,結(jié)合β因子對系統(tǒng)共因失效進行定量安全分析,并針對薄弱環(huán)節(jié)提出相應(yīng)的安全防御措施,進一步改善系統(tǒng)的安全設(shè)計。
由同一種原因而導(dǎo)致的一個以上相同的部件、模塊、單元或者系統(tǒng)發(fā)生的失效被稱為共因失效[3]。
1.1.1 共因失效原因
共因失效產(chǎn)生的原因既可能由于設(shè)計錯誤、制造錯誤這樣的內(nèi)在原因,也可能來源于操作錯誤、維護錯誤以及外部環(huán)境這樣的外在原因。其中,操作錯誤指的是系統(tǒng)運行期間錯誤的強置型指令或者停止指令等;維護錯誤指的是安裝錯誤、維修程序錯誤或者升級錯誤等;外部環(huán)境指的是振動沖擊、火災(zāi)/煙霧、腐蝕性氣體、鹽霧和潮濕等環(huán)境[4]。
1.1.2 共因失效防御措施
避免共因失效發(fā)生可以從以下3個角度對系統(tǒng)設(shè)計提出防御措施[5]:
1)冗余單元的物理隔離。將冗余單元安裝在不同的機箱內(nèi),保證其在物理和電氣上是相互隔離的,從而增加對共因失效的抵抗能力。
2)提升硬件和軟件設(shè)計的多樣性。例如,在軟件設(shè)計中采用異步操作模式以減小共因失效出現(xiàn)的可能性;采用不同廠商生產(chǎn)的電子元器件以提升硬件設(shè)計的多樣性。
3)強化設(shè)計,以提高強度。例如,增強系統(tǒng)各模塊對環(huán)境的抗干擾能力并進行抗干擾性測試;在系統(tǒng)開發(fā)過程中采用嚴格的質(zhì)量管理和安全管理流程,從而減少系統(tǒng)性失效和隨機性失效。
1.2.1β因子模型
β因子是導(dǎo)致共因失效發(fā)生的因子。根據(jù)IEC 61508-6Functionalsafetyofelectrical/electronic/programmableelectronicsafety-relatedsystems-part6:guidelinesontheapplicationofIEC61508-2andIEC61508-3附錄D.4的描述[6],對于執(zhí)行診斷測試的安全架構(gòu),由共因失效引起的總失效率為“λDUβ+λDDβD”。其中,λDU為每個通道不可檢測的危險失效率;λDD為每個通道可檢測的危險失效率;β為不可檢測的危險失效的共因失效因子;βD為可檢測的危險失效的共因失效因子。
1.2.2β因子估算方法
IEC 61508-6 標準附錄中提供了β因子估算方法,標準對8個影響共因失效的因素(分離/隔開、多樣性與冗余、復(fù)雜性/設(shè)計/應(yīng)用/老化/經(jīng)驗、評估/分析及數(shù)據(jù)反饋、規(guī)程/人工接口、能力/培養(yǎng)/安全素養(yǎng)、環(huán)境的控制和環(huán)境測試)進行了劃分說明[6]。為了最大限度地減小共因失效發(fā)生的概率,首先要結(jié)合這8 個因素對系統(tǒng)建立有效的防御措施(在系統(tǒng)中采用適當?shù)陌踩烙胧?,能夠減少在估算因為共因失效而引發(fā)系統(tǒng)失效時使用的β因子的數(shù)值)[7];其次,對照這8個因素涉及的問題,評估系統(tǒng)是否采用了有效的安全防御措施,從而對每個問題進行打分;最后,計算所有問題的總分,并基于總分,得到β因子的數(shù)值。β和βD的估算方法在IEC 61508-6 附錄D.4 中有具體說明。估算方法中,參數(shù)S=X+Y;參數(shù)SD=X(Z+1)+Y。其中,X為所采用的措施對提高診斷測試有效性的貢獻值;Y為所采用的措施對降低共因失效的貢獻值;Z為綜合診斷覆蓋率和診斷測試間隔得出的結(jié)果。X和Y數(shù)值的確定,需要結(jié)合IEC61508-6 標準附錄D.5,對邏輯子系統(tǒng)與傳感器和最終元件中是否采用了安全防御措施進行分析評估,即對照檢查項,對系統(tǒng)的符合情況逐項進行打分,分值相加可分別得到X和Y的數(shù)值。每種措施的X∶Y比值,表示了診斷測試能夠提高該措施對抗共因失效的作用程度[8]。Z值在IEC61508-6 的表D.2 和表D.3中進行了說明。表D.2 為邏輯子系統(tǒng)中Z值的確定方法;表D.3為傳感器和最終元件中Z值的確定方法。
根據(jù)系統(tǒng)安全理論,本文提出基于β因子模型的共因失效分析模型,結(jié)合β因子和獨立性分析方法對系統(tǒng)可能的共因失效情況進行分析評估,從而保證分析的系統(tǒng)性以及確認共因失效的閉環(huán)控制[9]。共因失效分析模型如圖1所示。
圖1 共因失效分析模型Fig.1 Analysis model of common cause failure
共因失效分析步驟如下:
1)明確系統(tǒng)定義。確定共因失效分析范圍,包括明確系統(tǒng)邊界及接口。
2)建立系統(tǒng)架構(gòu)設(shè)計模型。基于系統(tǒng)設(shè)計定義,確定系統(tǒng)所采用的架構(gòu)設(shè)計模型。
3)初步篩選分析。利用IEC 61508-6 標準附錄中涉及的8個影響共因失效因素的檢查表對系統(tǒng)進行評審,識別分析系統(tǒng)的共因失效弱點。對照這8個因素涉及的問題,評估系統(tǒng)是否采用了有效的安全防御措施。
4)分析和控制共因失效。針對關(guān)鍵的共因失效進行定性和定量分析,確定共因失效發(fā)生的根本原因,消除或控制共因失效[10]。
5)關(guān)閉共因失效。通過定性分析和定量分析,確定所有的共因失效已經(jīng)被降低到可以接受的范圍,系統(tǒng)達到規(guī)定的安全目標。
計算機聯(lián)鎖系統(tǒng)是列車運行控制系統(tǒng)的重要組成部分,本文選擇計算機聯(lián)鎖系統(tǒng)作為研究對象。圖2為計算機聯(lián)鎖系統(tǒng)中常見的2取2系統(tǒng)安全架構(gòu)。其中,計算機聯(lián)鎖系統(tǒng)中的主機插件、安全數(shù)字量輸入插件、安全數(shù)字量輸出插件均采用此架構(gòu)設(shè)計模型,在2取2(2oo2)架構(gòu)設(shè)計中CPU_A通道和CPU_B通道采用相同的硬件和軟件進行邏輯運算,各通道在進行自檢的同時不斷地將控制計算結(jié)果進行交互比較。最終通過通信總線將輸出命令發(fā)送至輸出模塊,由輸出模塊執(zhí)行輸出。
圖2 計算機聯(lián)鎖系統(tǒng)2 取2 架構(gòu)Fig.2 Architecture of 2-vote-2 in the computer interlocking system
在IEC 61508中,安全計算機包括輸入、邏輯計算和輸出3 個子系統(tǒng),安全計算機的平均危險側(cè)失效率等于各個子系統(tǒng)的平均危險側(cè)失效率之和,即
式中:PSYS——整個安全計算機的平均危險側(cè)失效率;PS——輸入子系統(tǒng)(傳感器)的平均危險側(cè)失效率;PFE——輸出子系統(tǒng)(最終元件)的平均危險側(cè)失效率;PL——邏輯計算子系統(tǒng)的平均危險側(cè)失效率。
計算機聯(lián)鎖系統(tǒng)中的采集部分、邏輯部分和驅(qū)動部分分別對應(yīng)安全計算機中的輸入子系統(tǒng)(傳感器)、邏輯計算子系統(tǒng)和輸出子系統(tǒng)(最終元件)。安全計算機冗余結(jié)構(gòu)通常采用圖3所示的2乘2取2架構(gòu)。
圖3 2 乘2 取2 架構(gòu)Fig.3 Architecture of double 2-vote-2
明確計算機聯(lián)鎖系統(tǒng)的系統(tǒng)定義和系統(tǒng)架構(gòu)設(shè)計后,結(jié)合IEC 61508-6標準附錄中8個影響共因失效因素的檢查表,對系統(tǒng)設(shè)計進行對照評審,根據(jù)其邏輯計算和輸入/輸出3個子系統(tǒng)的設(shè)計要求,審視系統(tǒng)依據(jù)檢查表中的每一項是如何進行安全設(shè)計的,從而對每個檢查項點進行打分。表1是結(jié)合IEC 61508-6附錄中的“分離/隔開”因素,對計算機聯(lián)鎖系統(tǒng)在實際設(shè)計中采用的安全防御措施進行評估和打分的結(jié)果。表1 的“計算機聯(lián)鎖中采用的安全防御措施”一欄中,列出了在系統(tǒng)實際設(shè)計中所采用的控制共因失效的安全防御措施。
表1 分離/隔開分析Table 1 Separation analysis
在完成共因失效篩選和識別后,分析各個潛在的共因故障,評估這些共因失效是否滿足獨立性要求。系統(tǒng)總的危險側(cè)失效率包含由共因故障引起的失效以及獨立失效。
IEC 61508-6 標準中定義了不同冗余架構(gòu)的平均危險側(cè)失效率計算方法。在計算機聯(lián)鎖系統(tǒng)中,2 取2(2oo2)的平均危險側(cè)失效率P2oo2計算公式為
式(2)中,λDU=λD(1-FDC)。其中,F(xiàn)DC為診斷覆蓋率,λD為單通道危險側(cè)失效率。
計算平均危險側(cè)失效率時,首先計算每個2oo2架構(gòu)的危險側(cè)失效率,然后以該失效率作為1oo2 架構(gòu)每個通道的危險側(cè)失效率,從而計算得到2 乘2 取2 架構(gòu)的平均危險側(cè)失效率。IEC 61508-6 中定義的1oo2 的平均危險側(cè)失效率P1oo2計算公式為
經(jīng)過對計算機聯(lián)鎖系統(tǒng)架構(gòu)設(shè)計中所采用的安全防御措施進行分析和比對,得出計算機聯(lián)鎖系統(tǒng)架構(gòu)設(shè)計中涉及的邏輯子系統(tǒng)X值為50、Y值為46,傳感器和最終元件的X值為42、Y值為46。在計算機聯(lián)鎖系統(tǒng)架構(gòu)設(shè)計中,各個子系統(tǒng)的X、Y和Z的計算結(jié)果如表2所示。
表2 各子系統(tǒng)X、Y 和Z 值Table 2 X,Y,and Z values of each subsystem
根據(jù)表2所示,邏輯子系統(tǒng)中X值為50、Y值為46、Z為2.0,可計算得到參數(shù)S=96、參數(shù)SD=196;傳感器和最終元件中X值為42、Y值為46、Z為2.0,可計算得到參數(shù)S=88、參數(shù)SD=172。
表3為IEC 61508-6標準中定義的S與β及SD與βD的對應(yīng)關(guān)系。根據(jù)表3所示,可得計算機聯(lián)鎖系統(tǒng)中邏輯子系統(tǒng)β的值為1%、βD的值為0.5%;傳感器和最終元件的β的值為2%、βD的值為1%。
表3 β、βD 的取值Table 3 β or βD values
計算機聯(lián)鎖系統(tǒng)對單一故障、多故障和動態(tài)故障的診斷覆蓋率大于99%,計算機聯(lián)鎖系統(tǒng)中單通道都有自檢電路,能保證系統(tǒng)危險故障發(fā)生時單通道能自動導(dǎo)向安全。進行共因失效分析時,由于可以檢測到的危險失效概率對系統(tǒng)安全不會造成影響,可以忽視不計。
根據(jù)既有計算機聯(lián)鎖系統(tǒng)的可靠性數(shù)據(jù),通過對計算機聯(lián)鎖系統(tǒng)中采用2 乘2 取2 安全架構(gòu)進行共因失效計算,采用β因子模型,計算得到共因失效分數(shù)β和βD,然后帶入式(1)~式(3)中,可以分別得到由獨立失效(獨立故障原因)和共因失效(共因故障原因)導(dǎo)致的危險側(cè)失效率。計算結(jié)果如表4所示。
表4 基于β 因子的計算結(jié)果Table 4 Calculation results based on β factors
定量計算結(jié)果表明,共因失效導(dǎo)致的危險側(cè)失效率接近總的平均危險側(cè)失效率的計算結(jié)果,這說明β和βD是決定平均危險側(cè)失效率計算結(jié)果的重要參數(shù)??紤]并采用8 個影響共因失效因素的防御措施,能夠優(yōu)化系統(tǒng)安全設(shè)計,并滿足系統(tǒng)獨立性設(shè)計要求。
本文根據(jù)系統(tǒng)安全理論,建立一種基于β因子的共因失效分析模型,利用共因失效檢查表對系統(tǒng)進行初步篩選分析,識別分析系統(tǒng)設(shè)計過程中的薄弱環(huán)節(jié),并提出安全防御措施;同時結(jié)合β因子對共因失效進行定量安全分析計算,判定系統(tǒng)危險失效率是否在可接受的范圍并達到規(guī)定的安全目標,從而進一步改善系統(tǒng)的安全設(shè)計。
通過分析共因失效的原因和耦合機制,能夠?qū)ο到y(tǒng)設(shè)計過程進行審視,發(fā)現(xiàn)設(shè)計中的薄弱環(huán)節(jié)并制定相應(yīng)的安全防御措施,從而進一步提升系統(tǒng)的安全性。相比多參數(shù)模型,β因子模型具有表達直觀、易于維護和可操作性強的優(yōu)勢。由定量計算結(jié)果可知,β因子越小,共因失效影響越小。因此,為了有效控制共因失效,在系統(tǒng)設(shè)計階段,需要盡量滿足IEC 61508-6附錄提出的相關(guān)安全防御措施要求。下一步將綜合考慮共因失效、故障檢測率和維修率對系統(tǒng)可靠性和安全性的影響。