于改革,陳學(xué)東,,朱建新,包士毅
(1.浙江工業(yè)大學(xué)化工機(jī)械設(shè)計(jì)研究所,杭州 310032;2.合肥通用機(jī)械研究院,合肥 230031)
安全聯(lián)鎖系統(tǒng)主要由傳感器、邏輯運(yùn)算器和最終執(zhí)行機(jī)構(gòu)組成,在緊急狀況下執(zhí)行安全功能(Safety Function)以達(dá)到控制風(fēng)險(xiǎn)的目的。根據(jù)標(biāo)準(zhǔn)IEC 61511和ISA S84.00.01-2004規(guī)定,安全聯(lián)鎖系統(tǒng)中儀表主要有兩種基本的失效模式,即安全失效和危險(xiǎn)失效[1-2]。衡量這兩種失效分別用平均無安全故障工作時(shí)間M T T Fs(Mean Time To Failure Spurious)和指令模式下的平均危險(xiǎn)失效概率 PFDavg(Average Probability of Failure on Demand)。對(duì)于安全聯(lián)鎖系統(tǒng),在緊急情況下不能執(zhí)行預(yù)設(shè)功能會(huì)造成嚴(yán)重的后果。而安全功能的不恰當(dāng)執(zhí)行,即當(dāng)系統(tǒng)實(shí)際上是處于正常條件下,而造成了不必要的停車,會(huì)引起重大的停車損失和潛在的安全問題。因此,危險(xiǎn)失效和誤跳車都會(huì)對(duì)安全和經(jīng)濟(jì)造成影響。研究表明,雖然停車/重啟僅占整個(gè)運(yùn)行時(shí)間的4%,但是25%的事故發(fā)生在停車和重啟階段[3]。另外根據(jù) Exida公司對(duì)世界各地安全聯(lián)鎖系統(tǒng)統(tǒng)計(jì)的相關(guān)數(shù)據(jù)表明,誤跳車是當(dāng)前影響經(jīng)濟(jì)效益的關(guān)鍵因素之一[4]。
一般情況下,安全聯(lián)鎖系統(tǒng) PFDavg的計(jì)算方法主要有兩種,即故障樹分析方法和馬爾科夫模型。與針對(duì) PFDavg的研究[5]相比,目前為止針對(duì)M T TFs的研究仍十分缺乏,M T TFs的計(jì)算始終是SIS評(píng)估中的瓶頸。研究表明,M TTFs計(jì)算主要存在兩個(gè)問題:
a)根據(jù)典型的可靠性理論,在系統(tǒng)的壽命評(píng)估中,一般認(rèn)為系統(tǒng)是不可修復(fù)的,而大多數(shù)安全聯(lián)鎖系統(tǒng)實(shí)際上是可以修復(fù)的(在線或者周期性地修復(fù)),并且修復(fù)對(duì)系統(tǒng)可靠性的影響非常大[6]。
b)在當(dāng)前的 M T T Fs研究中,系統(tǒng)中元件的危險(xiǎn)失效,包括可檢測和不可檢測危險(xiǎn)失效,對(duì)M T T Fs的影響通常不予考慮,而在大多數(shù)情況下危險(xiǎn)失效對(duì)M T T Fs的影響是確實(shí)存在的[7-8]。
在功能安全標(biāo)準(zhǔn)IEC 61511和ISAS 84.00.02-2002頒布以來,M T T Fs開始作為安全聯(lián)鎖系統(tǒng)評(píng)估的重要指標(biāo),已越來越受到業(yè)界關(guān)注。但十分遺憾的是,上述標(biāo)準(zhǔn)中沒有提供M T T Fs的具體計(jì)算方法。隨著診斷、檢測技術(shù)的迅速發(fā)展,在線修復(fù)和維修已受到越來越廣泛的關(guān)注,危險(xiǎn)失效和修復(fù)對(duì)系統(tǒng)可靠性影響的研究需求變得越來越緊迫[9-10]。該文基于馬爾科夫模型研究了“二取二”結(jié)構(gòu)M T T Fs計(jì)算方法,深入分析了危險(xiǎn)失效、在線修復(fù)及共因失效等因素對(duì)誤跳車的影響。
經(jīng)典馬爾科夫模型如圖1所示,在該模型里,有6個(gè)獨(dú)立狀態(tài),每個(gè)狀態(tài)的可靠性能相互轉(zhuǎn)移。狀態(tài)0(O K,正常)代表初始狀態(tài),即所有單元能正常工作并且可被完全檢測。狀態(tài)1和2是降級(jí)(Degraded)狀態(tài),即至少有一種失效發(fā)生,但是系統(tǒng)仍然維持預(yù)設(shè)功能。狀態(tài)1和2的失效模式分別是降級(jí)的可檢測和不可檢測。狀態(tài)3(Fail Safe, FS)代表安全失效狀態(tài),即系統(tǒng)發(fā)生誤跳車。狀態(tài)4(Fail Dangerous Detected,FDD)和 5(Fail Dangerous Undetected,FDU)分別表示危險(xiǎn)可檢測和危險(xiǎn)不可檢測失效狀態(tài),這兩種狀態(tài)均表示不能完成所要求的功能。
圖1 經(jīng)典“二取二”結(jié)構(gòu)馬爾科夫模型
依據(jù)經(jīng)典的可靠性分析理論,即認(rèn)為失效是不可修復(fù)且不可檢測的,此時(shí),系統(tǒng)的平均無故障工作時(shí)間計(jì)算如下:
方法一:針對(duì)具有吸收狀態(tài)的馬爾可夫模型, Control System Safety Evaluation and Reliability一書中,依據(jù)Laplace變換原理,采用矩陣變換的方法求解M T T F。但是該方法求解得到的是平均無故障工作時(shí)間 (M T T F),并非誤跳車的指標(biāo)M T T Fs,并且該方法未能充分考慮危險(xiǎn)失效與維修對(duì)M T T F的影響。
方法二:根據(jù)文獻(xiàn)[11]中介紹的求解馬爾科夫模型M T T F的方法,得到M T T Fs的公式為:
式中 Rs(t)——安全失效概率。
經(jīng)過推導(dǎo)求解[10],得出
式中 λABC中的“A”表示失效模式(“S”表示安全失效,“D”表示危險(xiǎn)失效),“B”代表檢測性(“D”表示可檢測,“U”代表不可檢測),“C”表示共因失效(“N”表示正常失效);μo——在線修復(fù)的修復(fù)率;T0,T1,T2——系統(tǒng)處在狀態(tài)0,1,2的時(shí)間。
上述兩種方法,只考慮安全失效對(duì)系統(tǒng)誤跳車的影響,未充分考慮危險(xiǎn)失效、失效檢測性、維修等對(duì)誤跳車的影響,因而在絕大多數(shù)情況下并不能反映誤跳車的實(shí)際情況。針對(duì)上述不足,該文對(duì)經(jīng)典Markov模型進(jìn)行改進(jìn),進(jìn)而在改進(jìn)模型的基礎(chǔ)上提出新的M T T Fs計(jì)算方法,該方法能夠充分考慮危險(xiǎn)失效、在線修復(fù)、共因失效的作用。
依據(jù)經(jīng)典的可靠性理論觀點(diǎn),在馬爾科夫模型中僅僅有一個(gè)吸收態(tài)5。而在改進(jìn)的馬爾科夫模型中,狀態(tài)3為惟一吸收態(tài)[12]。改進(jìn)后的馬爾科夫模型如圖2所示,圖中μPTI表示周期性修復(fù)的修復(fù)率,其余符號(hào)與經(jīng)典馬爾科夫模型中符號(hào)意義相同。在改進(jìn)的模型中主要考慮以下因素:
a)改進(jìn)后的馬爾科夫模型,客觀上除了狀態(tài)3都屬于非誤跳車狀態(tài)。但是從可靠性觀點(diǎn)看,危險(xiǎn)失效狀態(tài)(狀態(tài)4和5)不能完成預(yù)設(shè)功能應(yīng)該認(rèn)為是不可靠的。從這個(gè)觀點(diǎn)出發(fā),系統(tǒng)處在危險(xiǎn)失效狀態(tài)的情形不應(yīng)該包含在M T T Fs計(jì)算中。
b)另一方面,如果危險(xiǎn)失效可通過在線檢測或者周期性檢查檢測到并且確定,系統(tǒng)有機(jī)會(huì)進(jìn)行修復(fù)并且恢復(fù)到正常狀態(tài)。在這種情況下,危險(xiǎn)失效影響了系統(tǒng)處于每個(gè)狀態(tài)的概率,因此計(jì)算M T T Fs應(yīng)充分考慮危險(xiǎn)失效和維修的影響。
圖2 改進(jìn)后“二取二”結(jié)構(gòu)馬爾科夫模型
綜合以上,在改進(jìn)的模型中將危險(xiǎn)失效狀態(tài)作為非吸收態(tài),但是考慮了危險(xiǎn)失效和維修的作用。那么根據(jù)改進(jìn)的模型,誤跳車計(jì)算方法3:
式中 P0,P1,P2——單位時(shí)間內(nèi),系統(tǒng)處于0, 1,2的概率。
近似計(jì)算時(shí),也可以表示:
式中 T0i,T1i,T2i——以單位小時(shí)為時(shí)間間隔的條件下,在第i小時(shí)內(nèi),系統(tǒng)處于0,1,2狀態(tài)內(nèi)可能的時(shí)間。在計(jì)算系統(tǒng)處于0,1,2狀態(tài)的時(shí)間時(shí),考慮了危險(xiǎn)失效和維修所引起的概率重新分配。
分別用基于馬爾科夫模型的“二取二”結(jié)構(gòu)M T T Fs的三種計(jì)算方法,計(jì)算表1中的四組可靠性數(shù)據(jù),計(jì)算結(jié)果見表1右側(cè)所示。假設(shè)失效率服從指數(shù)分布,每個(gè)單元的失效率分為安全不可檢測率(S U),安全可檢測率(S D),危險(xiǎn)不可檢測率(DU),危險(xiǎn)可檢測率 (DD),共因失效因子CC F=3%,平均修復(fù)時(shí)間M T T R=8 h。
表1 可靠性數(shù)據(jù)和計(jì)算結(jié)果
從計(jì)算過程和表1的計(jì)算結(jié)果中,可以得出如下結(jié)論:
a)應(yīng)用方法1時(shí),只要按照馬爾科夫模型狀態(tài)轉(zhuǎn)移圖,寫出轉(zhuǎn)移矩陣,利用Excel電子表格即可進(jìn)行求解。
b)應(yīng)用方法2時(shí),只要將可靠性數(shù)據(jù)代入等式,即可得出結(jié)果,方便可行,但是理論上當(dāng)λS=0時(shí),公式不可用。而在實(shí)際工程中,λS=0是不可能發(fā)生的。
c)方法1和方法2的結(jié)果完全一致。
d)方法3的計(jì)算結(jié)果與所選可靠性數(shù)據(jù)及計(jì)算次數(shù)有關(guān);計(jì)算次數(shù)越多,計(jì)算結(jié)果與方法1,2所得結(jié)果越接近。此外,研究發(fā)現(xiàn)當(dāng)失效率數(shù)據(jù)的數(shù)量級(jí)達(dá)到10-7時(shí),計(jì)算次數(shù)將需要達(dá)到上千萬次,系統(tǒng)非誤跳車狀態(tài)的概率才趨于0。
以上的結(jié)論說明,3種不同的計(jì)算方法,對(duì)于同一組數(shù)據(jù)得到相同的M T T Fs,驗(yàn)證了基于改進(jìn)的馬爾科夫模型提出的計(jì)算方法的正確性。至于前文提到的危險(xiǎn)失效、在線修復(fù)對(duì) M T T Fs的影響,只能采用方法3進(jìn)行深入分析。
失效作為狀態(tài)的一種特殊類型,具有惟一性。這就意味著系統(tǒng)有且僅有一種確定的失效狀態(tài),安全失效或者危險(xiǎn)失效。如果單元以危險(xiǎn)方式失效,那么就不會(huì)發(fā)生安全失效,也就是說危險(xiǎn)失效和安全失效是互斥的。對(duì)于危險(xiǎn)失效,如果沒有采用修復(fù)策略,那么失效單元不可能恢復(fù)。而如果采用適當(dāng)修復(fù)策略,并且使得系統(tǒng)“修舊如新”,則危險(xiǎn)失效對(duì)系統(tǒng)誤跳車產(chǎn)生一定的影響。
為了評(píng)估危險(xiǎn)失效對(duì)系統(tǒng)可靠性的影響,分別研究了表2中六種不同的情形,在危險(xiǎn)失效率不斷增加的情況下M T T Fs的變化情況。
表2 六種不同情形可靠性數(shù)據(jù)
從以上比較可以發(fā)現(xiàn),危險(xiǎn)失效的存在對(duì)M T T Fs有著復(fù)雜的影響??梢詺w結(jié)為:
a)在六種情形中,隨著危險(xiǎn)失效率的增加, M T T Fs的總趨勢是增加的。在某種程度上說,危險(xiǎn)失效的存在實(shí)際上降低了系統(tǒng)的誤跳車,如圖3所示。
圖3 危險(xiǎn)失效率對(duì)M T T Fs影響
b)危險(xiǎn)可檢測失效與危險(xiǎn)不可檢測失效對(duì)M T T Fs影響相同(Case 1&Case 4對(duì)比),總體上M T T Fs隨危險(xiǎn)失效數(shù)據(jù)的增加而增加,但是增加的絕對(duì)數(shù)量很小,如圖4所示。
c)使用維修策略,且安全可修復(fù)失效存在(不為零)時(shí),維修實(shí)際上可大大降低誤跳車(Case 1& Case 5對(duì)比)。
d)使用維修策略,但可修復(fù)的安全失效很小(為零)時(shí),維修對(duì)降低誤跳車的效果不明顯(Case 3&Case 6對(duì)比)。
e)不進(jìn)行維修時(shí),危險(xiǎn)失效的增加對(duì)M T T Fs的影響非常大,不可忽略;此外,危險(xiǎn)可檢測失效的存在實(shí)際上有助于降低誤跳車,但效果不明顯(Case 5&Case 6對(duì)比),如圖5所示。
根據(jù)傳統(tǒng)的可靠性理論,在M T T Fs計(jì)算過程中認(rèn)為系統(tǒng)是不可修復(fù)的,但是這并不意味著修復(fù)對(duì)系統(tǒng)可靠性沒有影響。根據(jù)在線修復(fù)定義,意味著一旦單元/系統(tǒng)檢測到危險(xiǎn),就立刻修復(fù),但是這僅僅對(duì)可檢測失效有用。
關(guān)于在線修復(fù)對(duì)M TTFs的影響,該文針對(duì)五種情形下的五種不同修復(fù)策略進(jìn)行研究。表3列出了五種不同情形的M TTFs。在這里假設(shè)所檢測到的失效都能完全修復(fù),并且使得系統(tǒng)“修舊如新”。
從表3中,可以看出五種情形中,在線修復(fù)對(duì)M T T Fs影響的整體趨勢:隨著在線修復(fù)周期的增加,M TTFs逐漸減少。在1,2,3三種情形中,在線修復(fù)策略對(duì) M T TFs的影響較小,基本可以忽略。但是在4,5兩種情形中,在線修復(fù)對(duì) M T TFs的影響值得注意,可以通過降低在線修復(fù)周期來提高M(jìn) T TFs,即提高在線維修的速度可降低誤跳車。
表3 在線修復(fù)對(duì)M TTFs影響
為了評(píng)估共因失效對(duì)“二取二”結(jié)構(gòu) M T T Fs的影響,文章研究了在λSU=λSD=1E-4的如下五種情形下,隨著共因失效因子的增加,M T T Fs的變化情況。
表4 五種不同情形可靠性數(shù)據(jù)
從圖6中可以看出,當(dāng)λD≤λS時(shí),共因失效對(duì)M T T Fs的影響基本可以忽略;當(dāng)λD>λS,共因失效因子的增大,會(huì)使得M T T Fs逐漸減小。并且隨著危險(xiǎn)失效的增加,共因失效因子對(duì)M T T Fs的影響逐漸增大。共因失效對(duì) M T T Fs的影響整體趨勢:隨著共因失效因子的增加,M T T Fs逐漸減小。因此在工程實(shí)際中,選擇系統(tǒng)單元要充分考慮共因失效的影響,通過對(duì)冗余單元進(jìn)行物理隔離,保證單元多樣性,強(qiáng)化設(shè)計(jì)提高單元強(qiáng)度等方法來避免共因失效。
文章驗(yàn)證了基于改進(jìn)馬爾科夫模型提出的M T T Fs計(jì)算方法的正確性,并利用此計(jì)算方法深入分析了危險(xiǎn)失效、維修、共因失效對(duì)“二取二”結(jié)構(gòu)誤跳車的影響,具體結(jié)論如下:
a)三種基于馬爾科夫模型的“二取二”結(jié)構(gòu)M T T Fs計(jì)算結(jié)果基本一致。方法1和2結(jié)果完全一致,方法2所推導(dǎo)出來的公式,在計(jì)算時(shí)直接代入可靠性數(shù)據(jù)即可獲得,十分便捷。方法3在計(jì)算M T TFs時(shí),能夠充分考慮危險(xiǎn)失效和在線修復(fù)對(duì)M T TFs的影響,更能真實(shí)反映誤跳車的實(shí)際情況。
圖6 共因失效因子與M T T Fs關(guān)系
b)隨著危險(xiǎn)失效率的增加,M T T Fs的總趨勢是增加的。在某種程度上說,危險(xiǎn)失效事實(shí)上是對(duì)非誤跳車有利的。
c)隨著在線修復(fù)率的增加,M T T Fs整體趨勢是逐漸增加,這就意味著在線修復(fù)是一種很好的降低誤跳車的措施。
d)隨著共因失效因子的增加,M T T Fs整體趨勢是逐漸減小,因此降低共因失效也是一種很好的降低誤跳車的措施。
[1] IEC 61511-1 Functional Safety-Safety Instrumented Systems for the Process Industry Sector-Part1:Framework, Definitions,System,Hardware and Software Requirements [S].International Electrotechnical Commission,2003.
[2] ISA S84.00.01 FunctionalSafety:Safety Instrumented Systems for the Process Industry Sector-Part1:Framework, Definitions,System,Hardware and Software Requirements [S].Instrument Society of America,2004.
[3] REASON J T.Managingthe Risks ofOrganizational Accidents[M].Ashgate,1997.
[4] MILLER C.Win-Win:A Manager's Guide to Functional Safety[M].Exida,2008.
[5] 周 華,左 信,鄭加平.安全儀表系統(tǒng)可靠性影響參數(shù)的敏感性分析[J].化工自動(dòng)化及表,2010,37(3):66-68.
[6] GOBLE W M.Control System Reliability &Evaluation [M].ISA-The Instrumentation,Systems,and Automation Society,1998.
[7] BU KOWSKI J V,GOBL E W M.Defining Mean Timeto-Failure in a Particular Failure-State for Multi-Failure-State Systems[J].IEEE Transactions on Reliability,2000 (50):221-228.
[8] BU KOWSKI J V.Modeling and Analyzing the Effects of Periodic Inspection on the Performance of Safety-Critical Systems[J].IEEE Transactions on Reliability,2001(50): 321-329.
[9] ZHU J X,WANG L J.A method for the Calculation of the Mean Time to Failure(MTTF)of Repairable System[J]. Advanced Materials Research,2008,(44-46):813-819.
[10] ZHU J X,WANG L J,GAO Z L,et al.Calculation of Safety and Spurious Trip of Safety Instrumented System Based on Failure Mode[J].Pressure Vessel Technology, 2007,(7):12-16.
[11] SMITH D J.Reliability,Maintainability and Risk:Practical Methods for Engineers [M]. 7th. Butterworth-Heinemann,2005.
[12] ZHU J X,CHEN X D,BAO S Y,et al.Research on Spurious Trip of 1oo2 Safety Instruments of Petrochemical Installation with Repair Considered[J].Advanced Materials Research,2010,118:596-600.