王 康 齊金平,3 周亞輝 李少雄 趙?;?郭 浩
1. 蘭州交通大學(xué)機(jī)電技術(shù)研究所,蘭州,730070 2. 甘肅省物流及運(yùn)輸裝備信息化工程技術(shù)研究中心,蘭州,730070 3. 甘肅省物流與運(yùn)輸裝備行業(yè)技術(shù)中心,蘭州,730070 4. 中國(guó)鐵路蘭州局集團(tuán)有限公司,蘭州,730000
列控中心具有完成軌道電路編碼、區(qū)間信號(hào)機(jī)點(diǎn)燈控制、應(yīng)答器報(bào)文儲(chǔ)存和調(diào)用、站間安全信息傳輸?shù)裙δ?。若列控中心發(fā)生故障,將直接影響動(dòng)車(chē)運(yùn)營(yíng)和乘客的生命安全。在動(dòng)車(chē)組實(shí)際運(yùn)營(yíng)環(huán)境中,各組件不是互相獨(dú)立的,而是存在著順序依賴(lài)性和功能依賴(lài)性等動(dòng)態(tài)特點(diǎn)[1],而且組成列控中心的各個(gè)組件采用的是冗余結(jié)構(gòu),這樣可以提高其可靠性和可用性[2]。同時(shí),某些系統(tǒng)零部件的失效呈現(xiàn)多態(tài)性[3],導(dǎo)致難以判斷其故障類(lèi)型。這些不確定因素會(huì)造成維修人員對(duì)故障診斷及維修困難,因此對(duì)列控中心的多態(tài)特性及動(dòng)態(tài)特性進(jìn)行分析顯得尤為重要。
系統(tǒng)或部件的故障狀態(tài)從“完全正常”到“完全失效”是一種衰退過(guò)程[4],即具有多態(tài)性,因此,二態(tài)分析方法已不能適應(yīng)日益高度集成化且具有多態(tài)性特征的系統(tǒng)的可靠性分析。文獻(xiàn)[5]在分析系統(tǒng)可靠性時(shí),對(duì)系統(tǒng)定義了安全、亞安全和故障三種狀態(tài)。文獻(xiàn)[6]結(jié)合貝葉斯網(wǎng)絡(luò)(Bayesian network,BN)和β-因子模型提出基于貝葉斯網(wǎng)絡(luò)的多狀態(tài)共因失效系統(tǒng)可靠性分析方法。文獻(xiàn)[7]提出多狀態(tài)馬爾可夫模型,并用于計(jì)算重要的可靠性指標(biāo)。文獻(xiàn)[8]提出時(shí)變狀態(tài)轉(zhuǎn)移蒙特卡羅仿真模型,對(duì)P2P網(wǎng)絡(luò)進(jìn)行多態(tài)可靠性分析。文獻(xiàn)[9]將性能退化失效分為軟失效和硬失效,分析了性能退化對(duì)突發(fā)失效閾值的影響。但上述文獻(xiàn)均未涉及系統(tǒng)的動(dòng)態(tài)特性。文獻(xiàn)[10]引入動(dòng)態(tài)邏輯門(mén),建立動(dòng)態(tài)故障樹(shù),分析系統(tǒng)動(dòng)態(tài)性能,但構(gòu)造故障樹(shù)的多余量相當(dāng)繁重,還存在狀態(tài)空間爆炸、計(jì)算效率低的問(wèn)題。文獻(xiàn)[11]采用馬爾可夫矩陣迭代法求解動(dòng)態(tài)故障樹(shù),并運(yùn)用分層迭代法進(jìn)行改進(jìn)。文獻(xiàn)[12]在將動(dòng)態(tài)邏輯門(mén)轉(zhuǎn)化為含順序事件邏輯門(mén)的基礎(chǔ)上,給出了順序二元決策圖的模型以及含有順序事件的布爾運(yùn)算規(guī)則,通過(guò)計(jì)算給出多單元順序事件的發(fā)生概率,但仍然不能避免動(dòng)態(tài)故障樹(shù)的組合爆炸問(wèn)題。文獻(xiàn)[13]在分析車(chē)載系統(tǒng)結(jié)構(gòu)及可靠性框圖的基礎(chǔ)上,運(yùn)用動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)評(píng)估運(yùn)行可靠性和可用性,但忽略了局部組合爆炸和備件門(mén)節(jié)點(diǎn)失效時(shí)間僅能是指數(shù)分布的問(wèn)題。文獻(xiàn)[2]將動(dòng)態(tài)故障樹(shù)轉(zhuǎn)化為動(dòng)態(tài)貝葉斯網(wǎng)絡(luò),但并沒(méi)有考慮部件故障的多態(tài)特性。以上對(duì)系統(tǒng)或部件的故障分析均未同時(shí)考慮動(dòng)態(tài)性和多態(tài)性。
為避免空間爆炸問(wèn)題,本文提出了一種根據(jù)系統(tǒng)或部件的功能邏輯關(guān)系直接建立離散時(shí)間貝葉斯網(wǎng)絡(luò)(discrete-time Bayesian network,DTBN)的分析方法。
傳統(tǒng)的二態(tài)系統(tǒng)只有正常和失效兩種狀態(tài)。依據(jù)布爾真值法,用“1”表示系統(tǒng)或組件發(fā)生失效,用“0”表示系統(tǒng)或組件正常工作。二態(tài)系統(tǒng)在運(yùn)用貝葉斯網(wǎng)絡(luò)進(jìn)行可靠性分析時(shí),將組成部件故障映射為貝葉斯網(wǎng)絡(luò)的根節(jié)點(diǎn),中間事件映射為中間節(jié)點(diǎn),系統(tǒng)故障映射為葉節(jié)點(diǎn)。圖1、圖2為二態(tài)串并聯(lián)系統(tǒng)轉(zhuǎn)貝葉斯網(wǎng)絡(luò)及對(duì)應(yīng)的條件概率表。
圖1 串聯(lián)系統(tǒng)轉(zhuǎn)貝葉斯網(wǎng)絡(luò)Fig.1 Series system to Bayesian network
圖2 并聯(lián)系統(tǒng)轉(zhuǎn)貝葉斯網(wǎng)絡(luò)Fig.2 Parallel system to Bayesian network
隨著現(xiàn)代科技和工業(yè)制造水平的不斷發(fā)展,產(chǎn)品的可靠性水平日益提高,在實(shí)際工程中多體現(xiàn)為多態(tài)系統(tǒng),其失效方式大都呈現(xiàn)為疲勞、退化失效,即除完全正常和完全失效之外還存在著多種故障模式。由此,傳統(tǒng)的二元決策圖、可靠性框圖和故障樹(shù)等應(yīng)用于二態(tài)系統(tǒng)的方法將不再適用[14]。
貝葉斯網(wǎng)絡(luò)作為一種典型的不確定性知識(shí)表達(dá)與推理模型[15],具備描述事件多態(tài)性的能力,三態(tài)系統(tǒng)貝葉斯網(wǎng)絡(luò)模型如圖3所示。
圖3 三態(tài)系統(tǒng)貝葉斯網(wǎng)絡(luò)模型Fig.3 Bayesian network model of three state system
貝葉斯網(wǎng)絡(luò)通過(guò)參數(shù)學(xué)習(xí)[16]可以?xún)?yōu)化更新每個(gè)節(jié)點(diǎn)對(duì)應(yīng)狀態(tài)的條件概率表的值,其參數(shù)學(xué)習(xí)包含數(shù)據(jù)完整情況下的最大似然估計(jì)和數(shù)據(jù)缺失情況下的EM算法。EM算法流程如下。
輸入:觀測(cè)變量數(shù)據(jù)Y、隱變量數(shù)據(jù)Z、聯(lián)合概率分布P(Y,Z|θ),條件概率分布P(Z|Y,θ)。
輸出:模型參數(shù)θ。
(1)選擇參數(shù)的初值θ(0),開(kāi)始迭代。
(2)E步:記θ(i)為第i次迭代參數(shù)θ的估計(jì)值,在第i+1次迭代的E步計(jì)算公式為
(1)
式中,Q(θ,θ(i))為完全數(shù)據(jù)的對(duì)數(shù)似然函數(shù)lnP(Y,Z|θ)在給定觀測(cè)數(shù)據(jù)Y和當(dāng)前參數(shù)θ(i)下,對(duì)未觀測(cè)數(shù)據(jù)Z的條件概率分布P(Z|Y,θ(i))的期望;P(Z|Y,θ(i))為在給定觀測(cè)數(shù)據(jù)Y和當(dāng)前的參數(shù)θ(i)下隱變量數(shù)據(jù)Z的條件概率分布。
(3)M步:求使Q(θ,θ(i))極大化的θ,確定第i+1次迭代的參數(shù)的估計(jì)值θ(i+1)為
(2)
(4)重復(fù)步驟(2)和步驟(3),直到收斂。
離散時(shí)間貝葉斯網(wǎng)絡(luò)可用于分析動(dòng)態(tài)系統(tǒng)組件間順序依賴(lài)關(guān)系[17]。DTBN是傳統(tǒng)貝葉斯網(wǎng)絡(luò)在時(shí)域上的離散化,主要有三方面的優(yōu)勢(shì)[17]:一是可以描述部件故障的多態(tài)性;二是能處理部件順序失效問(wèn)題;三是利用貝葉斯網(wǎng)絡(luò)進(jìn)行定量計(jì)算。
DTBN通過(guò)在貝葉斯網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行時(shí)域內(nèi)的離散化來(lái)解決動(dòng)態(tài)組件之間的順序依賴(lài)性[18]。將一條完整的時(shí)間線[0,+∞)劃分為n+1個(gè)間隔;再將任務(wù)時(shí)間[0,T)劃分為n個(gè)間隔,即n個(gè)狀態(tài);最后將[T,+∞)定為最后一個(gè)或第n+1個(gè)狀態(tài)。所以,存在有限且等于時(shí)間間隔的n+1個(gè)狀態(tài),即劃分的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)狀態(tài),如圖4所示。
圖4 時(shí)間線間隔Fig.4 Time line intervals
假設(shè)隨機(jī)變量A處于狀態(tài)i(i=1,2,…,n)或A=i,這僅僅表示隨機(jī)變量A在第i個(gè)任務(wù)區(qū)間或tA∈[(i-1)Δ,iΔ]內(nèi)失效,即
(3)
式中,tA為組件A的故障時(shí)間;FA為累計(jì)分布;n為離散時(shí)間片段數(shù);Δ為每個(gè)任務(wù)區(qū)間時(shí)長(zhǎng),Δ=T/n。
同理,如果隨機(jī)變量A處于狀態(tài)n+1,則隨機(jī)變量A在任務(wù)時(shí)間T內(nèi)沒(méi)有失效,即
(4)
(1)與門(mén)。假設(shè)時(shí)間片段數(shù)n=2,則任務(wù)時(shí)間T被等分為2個(gè)時(shí)間間隔。用[0,Δ)、[Δ,T)、[T,+∞)表示3個(gè)任務(wù)區(qū)間的故障狀態(tài)。與門(mén)的DTBN模型與節(jié)點(diǎn)S的條件概率表如圖5所示。
圖5 與門(mén)條件概率分布表Fig.5 AND gate conditional probability distribution table
(2)或門(mén)。假設(shè)或門(mén)的節(jié)點(diǎn)條件和與門(mén)相同,則其DTBN模型與節(jié)點(diǎn)S的條件概率表如圖6所示。
圖6 或門(mén)條件概率分布表Fig.6 OR gate conditional probability distribution table
重要度是指在系統(tǒng)中一個(gè)部件或最小割集對(duì)頂事件發(fā)生的貢獻(xiàn)大小[19]。利用DTBN節(jié)點(diǎn)的條件獨(dú)立性和雙向推理的優(yōu)點(diǎn)求出系統(tǒng)故障條件下各部件的故障概率,從而求解出各部件對(duì)系統(tǒng)的影響程度。
頂事件在任務(wù)時(shí)間T內(nèi)的概率可用下式求得:
(5)
根據(jù)DTBN的聯(lián)合概率分布,DTBN模型的可靠性業(yè)績(jī)值(reliability achievement worth,RAW)重要度、可靠性降低值(reliability reduction worth,RRW)重要度、關(guān)鍵(fussell-vesely,F(xiàn)-V)重要度和概率(birnbaum measure,BM)重要度的計(jì)算如下。
RAW重要度描述單元是否發(fā)生故障對(duì)系統(tǒng)故障發(fā)生概率的影響:
(6)
式中,P(T=1)為系統(tǒng)故障的概率;P(T=1|Xi=1)為基本事件Xi概率設(shè)置為1 時(shí)的條件概率。
RRW重要度表示系統(tǒng)單元故障發(fā)生和不發(fā)生兩種情況下系統(tǒng)故障發(fā)生概率之比,與RAW是相對(duì)的概念,即
(7)
F-V重要度描述單元故障對(duì)系統(tǒng)的貢獻(xiàn),表示為
(8)
BM重要度描述系統(tǒng)單元狀態(tài)概率變化對(duì)系統(tǒng)狀態(tài)概率變化的影響,表示為
(9)
敏感度的大小反映了根節(jié)點(diǎn)故障狀態(tài)變化導(dǎo)致葉節(jié)點(diǎn)故障狀態(tài)變化的快慢程度,表示為
(10)
式中,ai為根節(jié)點(diǎn)xi故障狀態(tài)。
列控中心(TCC)由安全主機(jī)單元(SCU)、通信接口單元、驅(qū)動(dòng)采集單元(PIO)、冗余電源單元(DY)及輔助維護(hù)單元組成。通信接口單元包括軌道電路通信單元(TC)、調(diào)度集中系統(tǒng)(CTC)、地面電子單元(LEU)、計(jì)算機(jī)聯(lián)鎖(CBI)、臨時(shí)限速服務(wù)器(TSRS)、相鄰列控中心。列控中心的結(jié)構(gòu)組成如圖7所示。
圖7 列控中心的單元組成圖Fig.7 Unit composition diagram of the train control center
列控中心接收來(lái)自CTC/CTCS(中國(guó)列車(chē)運(yùn)行控制系統(tǒng))的臨時(shí)限速命令,接收來(lái)自計(jì)算機(jī)聯(lián)鎖的進(jìn)路信息,經(jīng)過(guò)邏輯運(yùn)算,選出一條正確的報(bào)文發(fā)送到LEU,通過(guò)LEU轉(zhuǎn)發(fā)到室外有源應(yīng)答器。車(chē)載列車(chē)自動(dòng)防護(hù)(auto train protect, ATP)設(shè)備通過(guò)應(yīng)答器傳輸模塊(balise transmission module,BTM)接收應(yīng)答器信息,控制動(dòng)車(chē)組的運(yùn)行。同時(shí)列控中心還會(huì)根據(jù)當(dāng)前車(chē)站或者區(qū)間的臨時(shí)限速狀態(tài),判斷進(jìn)站信號(hào)機(jī)是否需要降級(jí),并把降級(jí)條件發(fā)送給計(jì)算機(jī)聯(lián)鎖。
在列控中心中,安全主機(jī)單元是列控中心的核心設(shè)備,一旦發(fā)生故障將導(dǎo)致列控中心的邏輯處理和系統(tǒng)管理出現(xiàn)錯(cuò)誤,其故障模式為失效和正常。通信接口單元依靠電信號(hào)實(shí)現(xiàn)TCC與LEU及CTC間的通信,一旦發(fā)生故障將導(dǎo)致TCC設(shè)備無(wú)法對(duì)外傳輸信息,其故障模式包括電信號(hào)中斷、電信號(hào)錯(cuò)誤和正常。驅(qū)動(dòng)采集單元一旦發(fā)生故障將無(wú)法對(duì)外部繼電器進(jìn)行驅(qū)動(dòng)和狀態(tài)采集,其故障模式為失效和正常。冗余電源單元一旦發(fā)生故障將導(dǎo)致供電中斷,其故障模式為電源中斷和正常。安全主機(jī)單元采用二乘二取二結(jié)構(gòu),其余單元均采用雙系熱備的冗余結(jié)構(gòu),在主單元發(fā)生故障后由備用單元繼續(xù)工作。本文技術(shù)路線圖見(jiàn)圖8。
將動(dòng)車(chē)組運(yùn)營(yíng)過(guò)程劃分為啟動(dòng)、運(yùn)行、制動(dòng)三個(gè)階段,其離散時(shí)間貝葉斯網(wǎng)絡(luò)模型如圖9所示,節(jié)點(diǎn)含義見(jiàn)表1。
圖9 列控中心的DTBNFig.9 DTBN of train control center
表1 離散時(shí)間貝葉斯網(wǎng)絡(luò)中各節(jié)點(diǎn)含義Tab.1 Meaning of each node in DTBN
文章采用GeNIe軟件構(gòu)建DTBN模型,將列控中心各個(gè)單元的故障率[2]代入DTBN模型中,設(shè)置數(shù)據(jù)缺失率[20]為5%,調(diào)用EM算法進(jìn)行參數(shù)學(xué)習(xí)。假設(shè)列控中心的一次任務(wù)時(shí)長(zhǎng)為10 h,通過(guò)DTBN正向推理,可求得列控中心在一次運(yùn)營(yíng)任務(wù)中的失效率為1.232 662×10-9h-1。與采用動(dòng)態(tài)故障樹(shù)和動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)相比,DTBN既便于計(jì)算[21-22],又充分考慮了列控中心故障的多態(tài)特性[2]。
通過(guò)DTBN反向推理,可以計(jì)算出一次任務(wù)結(jié)束后,如果列控中心發(fā)生故障,則在啟動(dòng)階段的故障發(fā)生概率為0.17,在運(yùn)行階段的故障發(fā)生概率為0.5,以及在啟動(dòng)和運(yùn)行階段各單元的故障發(fā)生概率,如圖10所示。列控中心在一次任務(wù)結(jié)束后發(fā)生故障時(shí)各節(jié)點(diǎn)的后驗(yàn)概率見(jiàn)表2,從中可以看到各時(shí)段各節(jié)點(diǎn)發(fā)生故障的概率。
圖10 列控中心在制動(dòng)區(qū)間內(nèi)發(fā)生故障的離散時(shí)間貝葉斯網(wǎng)絡(luò)圖Fig.10 DTBN of train control center fault in braking interval
表2 列控中心在制動(dòng)區(qū)間內(nèi)故障發(fā)生時(shí)各節(jié)點(diǎn)的后驗(yàn)概率Tab.2 The posterior probability of each node when the train control center fails in the braking interval
利用DTBN的因果推理可以計(jì)算出,一次任務(wù)時(shí)長(zhǎng)內(nèi)列控中心特定單元處于不同故障狀態(tài)的情況下其余單元的故障概率,由此可以判斷在不同狀態(tài)下各單元對(duì)列控中心的影響,因而能夠識(shí)別多狀態(tài)下的薄弱環(huán)節(jié),對(duì)列控中心的可靠性預(yù)測(cè)和動(dòng)車(chē)組運(yùn)行及維修提供有力支持。
對(duì)列控中心故障數(shù)據(jù)進(jìn)行分析和處理,確定列控中心DTBN參數(shù)學(xué)習(xí)的準(zhǔn)確性。對(duì)列控中心DTBN模型進(jìn)行故障診斷,結(jié)果見(jiàn)圖11。
圖11 列控中心故障診斷結(jié)果Fig.11 Fault diagnosis results of TCC
從列控中心的故障診斷結(jié)果可以看出,系統(tǒng)的薄弱環(huán)節(jié)順序?yàn)镻IO、DY、CI-TC、SCU、CI-LEU、CI-GS、CI-ADTCC、CI-CBI、CI-TSRS。其中PIO的故障概率達(dá)到0.585,因此,在系統(tǒng)設(shè)計(jì)階段需著重加強(qiáng)PIO等薄弱單元的可靠性。
由式(6)~式(9)重要度公式可分別求出列控中心各單元在啟動(dòng)、運(yùn)行及制動(dòng)時(shí)間區(qū)間內(nèi)的重要度,如表3~表5所示。
表3 列控中心在啟動(dòng)區(qū)間內(nèi)的重要度Tab.3 Importance of train control center in start-up section
表4 列控中心在運(yùn)行區(qū)間內(nèi)的重要度Tab.4 Importance of train control center in operation section
表5 列控中心在制動(dòng)區(qū)間內(nèi)的重要度Tab.5 Importance of train control center in braking section
由上述結(jié)果可知,導(dǎo)致列控中心失效的各元件的重要度順序?yàn)镻IO、DY、SCU、各通信接口。其中,PIO是列控中心的最薄弱單元。
DTBN敏感性分析時(shí),設(shè)置單元失效概率的不確定性值[2]為10%,得到列控中心對(duì)各單元的敏感程度。圖12為列控中心在啟動(dòng)階段的敏感性分析圖,可知,導(dǎo)致列控中心失效的敏感性單元順序?yàn)镈Y、PIO、CI-TC、CI-LEU、SCU、CI-GS、CI-CBI。由此,在列控中心運(yùn)營(yíng)階段,要增強(qiáng)以上高風(fēng)險(xiǎn)環(huán)節(jié)的維護(hù)管理。同理可得運(yùn)行階段和制動(dòng)階段列控中心各單元的敏感性分析圖,繼而提高相應(yīng)元件的可靠性,保證列車(chē)安全運(yùn)營(yíng)。
圖12 TCC節(jié)點(diǎn)失效后的敏感性分析Fig.12 Sensitivity analysis after TCC node failure
(1)建立了基于離散時(shí)間貝葉斯網(wǎng)絡(luò)(DTBN)的列控中心動(dòng)態(tài)概率安全評(píng)估模型并考慮了單元故障的多態(tài)特性。作為比較,分別采用動(dòng)態(tài)故障樹(shù)和動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)對(duì)列控中心進(jìn)行可靠性分析。
(2)利用DTBN模型對(duì)CTCS-2級(jí)列控系統(tǒng)的列控中心進(jìn)行故障診斷、重要度和敏感性分析,可知列控中心的薄弱環(huán)節(jié)為PIO、DY、CI-TC、SCU、CI-LEU、CI-GS,且導(dǎo)致列控中心失效的敏感性元件順序?yàn)镈Y、PIO、CI-TC、CI-LEU、SCU、CI-GS、CI-CBI。
(3)若用動(dòng)態(tài)故障樹(shù)求解,則列控中心有4099個(gè)最小順序割集,按容斥原理計(jì)算,共有24099-1≈8.355×101233項(xiàng)。本文依據(jù)列控中心各單元的功能邏輯建立離散時(shí)間貝葉斯網(wǎng)絡(luò)模型并求解,避免了組合爆炸問(wèn)題,并簡(jiǎn)化了計(jì)算過(guò)程,提高了計(jì)算效率。
(4)相比動(dòng)態(tài)貝葉斯網(wǎng)絡(luò),本文同時(shí)考慮多態(tài)性和動(dòng)態(tài)性特點(diǎn)??偨Y(jié)了通信接口單元具有電信號(hào)中斷、電信號(hào)錯(cuò)誤和正常三種故障模式,根據(jù)DTBN反向推理,電信號(hào)錯(cuò)誤的概率高于電信號(hào)中斷;DTBN模型不僅處理了多態(tài)和動(dòng)態(tài)冗余問(wèn)題,還可將任務(wù)劃分為三個(gè)階段,可以得到在每個(gè)階段列控中心各主/備部件的故障狀況,從而為工作人員做出決策提供支持。
(5)蘭新客專(zhuān)2018年全年CTCS-2級(jí)列控系統(tǒng)的列控中心現(xiàn)場(chǎng)維護(hù)數(shù)據(jù)驗(yàn)證了本文分析結(jié)果的準(zhǔn)確性和有效性。