王曉嬌
(山東核電有限公司,山東 海陽 265116)
設(shè)備故障、人因失效、質(zhì)量問題、不當維修及操作、組織管理問題等在核電站的運行中是需要引起足夠重視的問題。如何通過一種系統(tǒng)、正規(guī)的、邏輯的方法找出問題所在,對故障的每個環(huán)節(jié)都加以分析,最后加以綜合整理,得出問題根本原因,從而有針對性的制定出出合理的糾正性行動,消除問題產(chǎn)生的根本原因,防止相同或類似的問題重復(fù)發(fā)生,這就需要用到根本原因分析技術(shù)(Root Cause Analysis,RCA),這是我們使用RCA的目的所在。
美國Vogtle核電站從建造階段開始就非常重視對于設(shè)備故障、組織管理問題、人因失效、系統(tǒng)異常等的分析,通過多年的摸索和經(jīng)驗積累,逐步建立了一套完整的根本原因分析組織管理體系,使用TapRooT 公司開發(fā)的根本原因分析技術(shù),同時也使用其它類型的RCA技術(shù),對出現(xiàn)的重大問題(或反復(fù)出現(xiàn)的問題)進行根本原因分析,制定糾正措施,對結(jié)果進行有效性審查,保證了設(shè)備系統(tǒng)的安全可靠運行,促進了管理的改進,提升了電站性能。
Vogtle電站在績效改進部 (Performance Improvement Department)下設(shè)RCA組,有3名專業(yè)工程師專門從事根本原因分析工作。根據(jù)Vogtle電站狀態(tài)報告分級,SL1級的CR需要對其進行根本原因分析;RCA小組采取項目組的形式管理,由根本原因主管經(jīng)理直接領(lǐng)導(dǎo);RCA小組的組長及成員由根本原因管理層指定,取決于被調(diào)查的項目,組員的來源如下,以便于對需處理的狀態(tài)有一個全面、徹底的分析。
(1)專業(yè)問題專家
(2)當事部門
(3)受糾正性行動影響的部門
(4)培訓(xùn)部
圖1 RCA組織機構(gòu)
進行根本原因分析要使用一種或多種正規(guī)的根本原因分析技術(shù),在不同的工業(yè)領(lǐng)域使用的根本原因分析技術(shù)有1300多種,對于不同的事件各種技術(shù)都有自己的優(yōu)缺點。在Vogtle電站,使用了8中根本原因分析技術(shù),分別是:
(1)屏障分析法
(2)變更分析法
(3)事件&病原分析法
(4)故障樹分析法
(5)Kepner-TregoeTM(KT)問題分析法
(6)風(fēng)險樹分析法
(8)人因差距分析法
應(yīng)用上述技術(shù),可以對事件進行評估,確定根本原因,給出適合的解決辦法防止事件重復(fù)發(fā)生。如前所述,可以使用的RCA技術(shù)不僅限于這8種,但是這8種方法是經(jīng)過驗證的、在工業(yè)領(lǐng)域廣泛采用的方法,使用這些方法,可以對技術(shù)問題、管理缺陷、設(shè)備故障、人因失效等不同類型的問題進行評估分析。在某些情況下,使用單一一種技術(shù)就能確定根本原因,但是經(jīng)驗證明在大多數(shù)情況下,如果要確定事件的根本原因,需要多種RCA技術(shù)配合使用。
進行根本原因分析所采取的一系列有關(guān)聯(lián)的活動,取決于在根本原因調(diào)查階段遇到的具體情況。經(jīng)驗表明,通常調(diào)查、分析以及報告編寫過程是一個反復(fù)的過程,而非按次序一步一步進行到底的。如下圖所示,進行根本原因調(diào)查分為三個階段。直到原因被確定了才能采取糾正性行動。
圖2RCA過程
Vogtle核電站的狀態(tài)報告CR分為4級,分別為SL1、SL3、SL4、SL5,其中對SL1級的CR進行根本原因分析。(注:SL1級CR:對電站安全、公眾/個人安全、電站運行有重大影響的事件,在CAPCO會議上確定CR等級。)
當一個狀態(tài)被確定需要進行RCA時,就開始進行根本原因調(diào)查;當RCA的結(jié)果被電站管理層批準,糾正性行動發(fā)布后,根本原因調(diào)查過程結(jié)束。
管理層指定根本原因主管經(jīng)理來組織及管理整個過程。SL1級的事件需要進行根本原因調(diào)查,由事件審查小組來執(zhí)行。該小組的成員包括:組長、有資質(zhì)的分析員、專業(yè)問題專家。取決于事件的風(fēng)險和重要程度,可能需要一個由管理層直接領(lǐng)導(dǎo)的事件獨立審查小組來。
3.3.1 問題描述
分析員和組長使用如下導(dǎo)則對問題進行界定并描述。問題描述需經(jīng)根本原因管理層的討論和同意。
1)與當事人交流,獲得初步信息,對被感知的問題以及由該問題導(dǎo)致的后果有一個初步的了解。被感知的問題不可能總是反映實際發(fā)生的問題,但是它可能是實際發(fā)生問題的表征。
2)進行問題描述,需要考慮以下要素:
(1)恰當?shù)膯栴}描述,由三個要素組成:
①來源
②狀態(tài)
③結(jié)構(gòu)
(2)明確是什么發(fā)生了問題(而不是為什么發(fā)生了問題),其目的是明確該問題僅限于某一設(shè)備或狀態(tài)(但是也可能適用于其它相同或類似的設(shè)備或狀態(tài))。
(3)明確問題的不利影響和后果以及后果的嚴重程度。
(4)確保問題描述只包含1個問題;
(5)不要將問題描述與后果相混淆;
(6)不要將問題描述與糾正性行動相混淆;
(7)在調(diào)查過程中,持續(xù)使用問題描述以保證關(guān)注點不偏移。
3.3.2 取決于被調(diào)查問題的重要性,RCM應(yīng)就技術(shù)根本原因評估的獨立審查給出一個初期的定性
例如,如果設(shè)備的失效牽涉到一系列非常少見的工況或非普遍的失效模式,而不像那些在之前發(fā)生過并被成功修復(fù)故障,那么進行獨立審查就是必要的。由于現(xiàn)有技術(shù)資源的局限性,確定故障模式的起因會受到限制。
3.4.1 為了避免發(fā)生下列問題,要馬上開始進行調(diào)查
1)證據(jù)(物證或書面證據(jù))遺失(如硬件、記錄文件、計算機信息等);
2)當事人和目擊者的第一手報告隨著時間的流逝會發(fā)生改變(由于壓力、記憶力下降等);
3)相似的問題可能重復(fù)發(fā)生。
3.4.2 現(xiàn)場保護
為了進行現(xiàn)場保護而采取的一系列行動可能有所不同,包括但又不限于以下所列:
1)延遲現(xiàn)場清掃;
2)在由于清潔導(dǎo)致信息丟失或消除前獲取信息;
3)采取照相、錄像等手段記錄現(xiàn)場;
4)與事故相關(guān)的重要材料,如實記錄發(fā)現(xiàn)它時的狀態(tài);
5)記錄事件目擊者或參與者的名字;
6)收集與當事人對于其所參與活動的陳述;
7)盡早對當事人進行面談,最好在輪班結(jié)束之前進行;
8)在與事件有關(guān)的設(shè)備/構(gòu)筑物/部件拆除前采集圖像,圖像要有比例尺和方位顯示。
3.4.3 盡早進行實物證據(jù)的收集
為了進行實物數(shù)據(jù)的收集而采取的一系列行動可能有所不同,包括但又不限于以下所列:
1)對拆除的每個階段連續(xù)拍照記錄,內(nèi)容有劃痕、褪色、尺寸、方位等;
2)對失效設(shè)備進行保護(保持原狀,便于后續(xù)分析);
3)不要對斷裂面、涂層、潤滑油等做任何改動;不要對失效設(shè)備進行去污、清掃等操作;如果需要對取樣進行化學(xué)分析,帶上干凈的手套;
4)將失效部件分開裝袋,標明設(shè)備名稱、編號、日期等;
5)將物品移至受控區(qū)域存放,防止竄改或丟失;
6)收集樣品:
(1)潤滑油或冷卻劑
(2)涂層、涂料
(3)灰燼或其它降級的材料
7)拷貝可能有關(guān)聯(lián)的文件
(1)工作包
(2)值班日記
(3)計算機數(shù)據(jù),帶狀記錄紙等
3.4.4 保證客觀性,避免武斷地得出結(jié)論
最重要的是對事實進行證明,而不是做出假設(shè)。例如:你不能假設(shè)工人使用了程序,或按照規(guī)定執(zhí)行了程序,或操縱員聽到了報警記錄儀上記錄的報警;同樣,你也不能假設(shè)通過電話給出的指令被接聽者聽到并理解了。要確保記錄的所有事實得到證明,所有假定有清楚的指示。
3.4.5 必要的時候,考慮進行實驗室試驗,獲取破壞性/非破壞性故障分析結(jié)果,邀請廠內(nèi)/廠外專家參與;就評估代價VS收益進行判斷
記?。核械娜艘蚴录际怯扇说腻e誤引起的。但也要避免把所有的故障根本原因都歸結(jié)于人因,而是要找到錯誤最根本的原因。
3.5.1 調(diào)查事實
這一步進行的調(diào)查所獲取的信息要用于下一步如何“分析結(jié)果”。
1)調(diào)查的開始有時是很困難的,下列技巧有助于工作的開展:
(1)確定本應(yīng)該存在的屏障;
(2)確定初始行動;
(3)確定故障先兆;
(4)確定本應(yīng)該提供保護的防御物/措施;
(5)確定適當?shù)哪繕?、策略及程序?/p>
(6)確定Error是活躍的還是潛伏的;
(7)如果Error是活躍的,任務(wù)的執(zhí)行需要技巧、規(guī)則或相應(yīng)的知識嗎?
(8)涉及到什么樣人類工程學(xué)因素(Human engineering factor)?
(9)什么樣的人因工具是適用的(在故障時)?
(10)考慮使用“紙上談兵”式的分析;
2)進行數(shù)據(jù)及文件審查;
3)與當事人面談;
4)進行人因?qū)彶椋?/p>
5)搜索有關(guān)系的 CR/OE(condition report/operating experience);
6)從初步調(diào)查中,要明確要附加信息的方面(領(lǐng)域):
(1)明確證據(jù)的關(guān)鍵部分(如失效部件、日志等),應(yīng)對其進行面試的關(guān)鍵人員;
(2)關(guān)鍵人員是那些對事件有了解和經(jīng)驗的人,在根本原因評估過程中要對其進行面談,包括:
①事件現(xiàn)場的人員;
②控制室或C&T辦公室的人員;
③事件發(fā)生后去過現(xiàn)場的人;
④在調(diào)查階段也要明確其他的關(guān)鍵人員,分析員要保證對這些人也進行了面談,列在根本原因報告中。
7)進行附加調(diào)查,通過多種渠道來證實當事人的陳述。從多種渠道收集信息,與關(guān)鍵人員面談。
3.5.2 分析結(jié)果
分析結(jié)果的過程是一個整合全部信息的過程,通過正規(guī)的根本原因分析方法(如事件-起因圖表、K-T問題分析法、MORT)來確定“為什么”事件會發(fā)生。
1)確定是否需要更多的信息或后續(xù)的調(diào)查,直到調(diào)查結(jié)束。調(diào)查的過程是一個“迭代”過程,新的數(shù)據(jù)及證據(jù)都要整合到分析中去。分析員(或整個小組)要對以下所列進行追蹤:
(1)所有事件的進展;
(2)所有證據(jù)的來源;
(3)所有結(jié)論的理由;
(4)所有假設(shè)的基礎(chǔ);
(5)所有文件的來源;
2)將附加信息添加到已經(jīng)獲得的證據(jù)及相關(guān)的事實中去;
3)保持所有信息的條理性,便于在調(diào)查中檢索;
4)將根本原因調(diào)查報告作為質(zhì)量記錄保存起來,調(diào)查中收集到的支持信息要保存5年左右的時間。
3.5.3 進行調(diào)查
分析結(jié)果來確定“為什么”事件會發(fā)生。
1)對收集到的信息進行分析直到:
(1)起因在SNC的控制范圍之外;
(2)再沒有其它的起因來解釋事件的結(jié)果了。分析員要對每一個發(fā)生的問題問“為什么”直到所有的“為什么”都有了令人滿意的解釋。例如,調(diào)查的問題為“截止閥泄漏”,調(diào)查者應(yīng)該詢問:
①“截止閥為什么泄漏?”
②因為該閥門沒有正確的密封。
③“為什么閥門沒有正確的密封?”
2)根本原因方法總結(jié)文件定稿(如E&CT圖表,K-T報告等);
3)確定恰當?shù)脑蚓幋a(根本原因和因果因子);
4)解決所收集的文件中相互沖突的信息(如日志、面談記錄等);
5)確認新的信息不會使得出的結(jié)論發(fā)生改變。
6)如果出現(xiàn)了根本原因不明確的狀況,那么:
(1)解釋為什么沒有確定根本原因的依據(jù);
(2)描述難以獲得的用來確定根本原因的信息;
(3)描述為了確定根本原因,哪些進一步行動是必要的;
(4)明確可能的起因;
(5)提供證據(jù)來支持所闡明的可能的起因。
3.5.4 進行廣泛性(Broadness)審查
1)進行狀態(tài)程度及起因程度審查 (Extent Of Condition/Extent Of Cause);
2)重復(fù)事件評估(NMP-GM-002-GL03):如果該問題或相似的問題以前在電站、集團公司或工業(yè)領(lǐng)域發(fā)生過,就要對為什么沒有被預(yù)防進行評估;
3)進行安全文化評估(NMP-GM-002-F24)。
4)組織及程序?qū)彶椋∟MP-GM-002-F08)。
3.5.5 根本原因證實
對問題的真實根本原因進行證實。
1)使用如下標準對原因進行證實:
(1)如果根本原因不存在的話,該問題不會發(fā)生。例如,如果預(yù)防性維修是充分的,那么閥門就不會泄漏。
(2)把原因消除或糾正后問題不會再次發(fā)生 (因為有相同的病原)。例如:如果修改了預(yù)防性維修的要求,即便是預(yù)防性維修不充分,閥門也不會再次泄漏。
(3)原因的消除或糾正會防止該問題或相似問題的反復(fù)出現(xiàn)。例如:糾正針對泄漏閥門的預(yù)防性維修,使用相同的預(yù)防性維修程序,也會防止其它閥門的泄漏。
3.5.6 推薦糾正性行動
為了解決問題的起因,防止問題再次發(fā)生,對糾正性行動給出建議:
1)糾正性行動計劃應(yīng)包含如下所列行動:
(1)當前的糾正性行動——可能已經(jīng)完成;
(2)臨時的行動;
(3)用于糾正每個根本原因的CAPRs;
(4)針對病原(Causal Factor)的糾正性行動;
(5)來源于狀態(tài)程度及起因程度審查的糾正性行動;
(6)來源于以前發(fā)生的類似事件審查的糾正性行動;
(7)來源于安全文化審查的糾正性行動。
3.5.7 有效性審查
1)作為根本原因評估的一個組成部分,需要進行有效性審查。有效性審查的目的是為有效性審查人員提供根本原因糾正性行動目的的概要,讓有效性審查人明白如果遵照并執(zhí)行了推薦的糾正性行動,其效果是什么樣的。
2)對有效性審查沒有固定格式要求,需要考慮包括的有:
(1)有效性審查的范圍(如糾正性行動的時間表包含什么,預(yù)期是什么?)
(2)關(guān)鍵的方面/標準(例如:What will success look like?)
(3)是否需要臨時的有效性審查?
3)有效性審查方案也應(yīng)該考慮并明確:在存在什么樣的時機下才能進行有效性的確定。有效性審查的到期日應(yīng)該與當時存在的時機相一致。
3.5.8 潛在問題分析(PPA)
使用K-T潛在問題分析技術(shù)或其它相似的技術(shù)對所推薦的糾正性行動進行分析。進行PPA的目的是對所推薦的糾正性行動進行評估,確保找出所有的非故意結(jié)果并加以處理。分析員/調(diào)查小組組長應(yīng)該把所審查的領(lǐng)域(Area)和考慮的項目(Item)記錄下來,將其整合到所推薦的糾正性行動中去。
將根本原因分析的整個過程的發(fā)現(xiàn)記錄下來,作為永久保存、查詢的記錄;為后續(xù)趨勢跟蹤、問題解決及糾正性行動審查提供檢索信息。
(1)糾正性行動項要得到責(zé)任部門經(jīng)理的同意;
(2)由 MRM(Management Review Meeting)來批準糾正性行動;在糾正性行動得到落實前,為了防止相同或類似的事件再次發(fā)生,應(yīng)該按照下列要求來做:
1)在事件發(fā)生后的5個工作日內(nèi),進行根本原因分析的人員就應(yīng)該確定是否需要采取臨時行動來挽回損失、彌補缺陷;
2)臨時行動項應(yīng)分發(fā)給責(zé)任部門,用工單、狀態(tài)報告或行動項的方式對其進行跟蹤;
3)臨時行動項要遞交給根本原因分析主管,拿到MRM上討論;
4)舉例:設(shè)備失效所采取的臨時行動有:
(1)安裝備用設(shè)備
(2)臨時變更
(3)等效性決策
(4)變更設(shè)備運行方式
(5)使用運行票或隔離牌
(6)進行預(yù)防性維修
(6)與TS(技術(shù)規(guī)格書)相關(guān)的設(shè)備故障需要做可運行性決策,這個過程就包括了臨時行動項
6)涉及人因失效的事件,也要采取臨時性的糾正行動,包括以下方面:
(1)人員培訓(xùn)
(2)輪班培訓(xùn),辦公室發(fā)公告
(3)停工整改
根本原因中規(guī)定了RCA的到期日,通常是45天(從指派根本原因小組組長及分析員當天開始)。第一階段要在30天內(nèi)完成,第二階段要在第一階段結(jié)束15天內(nèi)完成。除非得到管理層(延期由VP來批準)的批準,否則要嚴格按照上述時間要求來執(zhí)行。RCA延期需要滿足以下條件:
1)提供延期的理由;
2)描述由于延期對于電站的影響;
3)對所采取的臨時行動進行描述;
4)接受糾正性行動延期風(fēng)險的依據(jù)。
在進行根本原因分析的過程中,有些錯誤的出現(xiàn)會直接影響分析結(jié)果的公正性和準確性。因此,從業(yè)人員應(yīng)特別注意:
1)受慣性思維的影響。依據(jù)自己已有的經(jīng)驗,在頭腦中已經(jīng)有了對根本原因的初步認識,在后續(xù)的調(diào)查過程中受此認識影響,使對問題的判斷按照“既定方向”行進,導(dǎo)致無法找到問題的根本原因。
2)缺乏足夠的證據(jù)支持。行動不及時,喪失了第一時間獲取實物證據(jù)、當事人證言、文件/計算機證據(jù)的時機;調(diào)查不夠深入、充分,導(dǎo)致對實際情況的了解有限。
3)思路狹窄。依賴簡單的思維模式將“根本原因”置于已有的經(jīng)驗?zāi)J街校斐蔁o法找到根本原因。
4)迷信權(quán)威,沒有進行獨立思考。對于“權(quán)威”的判斷和結(jié)論盲目相信,自己沒有進行獨立思考。
5)忽視細節(jié)。問題的關(guān)鍵有時候隱藏在細節(jié)中,在進行事件調(diào)查的時候缺乏精密的試驗和分析,得到的結(jié)論缺乏有力的依據(jù),使之無法找到根本原因。
6)信息過濾。對于事件的調(diào)查可能觸動個人、部門的利益,在調(diào)查階段利益相關(guān)人/部門不配合,隱匿關(guān)鍵信息,或有意將重要信息置于次要位置。
7)應(yīng)付交差。由于時間要求緊迫,或領(lǐng)導(dǎo)催促,為了及時完成任務(wù),對大量信息、證據(jù)無法一一證實、確認,缺乏全面的試驗或深入的分析,最終得到的分析報告不能完全反映根本原因。
1)對于狀態(tài)報告的分級要明確。Vogtle電站對所有出現(xiàn)的問題,不管是技術(shù)問題、管理問題,還是程序問題、人因問題,都是通過發(fā)起狀態(tài)報告來處理的。每年大概會有11000~12000個CR產(chǎn)生,面對這么多需要處理的CR,需要對其進行準確的分類,根據(jù)重要程度劃分等級。Vogtle電站的CR分為四個級別,分別是SL1、SL3、SL4、SL5,對每個級別都有非常詳細的定義,并且要在CAPCO會議上討論確定,其中需要對SL1級的CR進行根本原因分析;如果對于狀態(tài)報告沒有一個詳細的分級,對所有的CR都進行根本原因分析,將會造成人力資源、技術(shù)資源、行政資源的浪費,對此需要引起足夠的重視。
2)對于經(jīng)驗反饋工程師的培養(yǎng)要盡早開始,人力搭配要合理。Vogtle電站的績效改進部(PI部)有3位專業(yè)工程師做原因分析,采取了“老中青”相結(jié)合的方式,他們都參加了TapRootR公司的授權(quán)課程并取得了相應(yīng)的資質(zhì)。其中的一個老工程師叫Danny的具有運行、維修(電氣、儀控)、技術(shù)支持、保健物理、培訓(xùn)多專業(yè)背景,具有非常豐富的經(jīng)驗。公司的AP1000項目馬上就要開始調(diào)試了,在調(diào)試階段可以深入了解設(shè)備、系統(tǒng)性能,積累豐富經(jīng)驗,為后續(xù)的調(diào)查分析工作打下基礎(chǔ);在這個階段就要有意識的、系統(tǒng)的、規(guī)劃明確的培養(yǎng)經(jīng)驗反饋工程師。
3)強有力的組織體系是開展RCA的保障。在Vogtle電站,很多工作都是以專項(Program)的形式開展并完成的,根本原因分析作為CAP(Corrective Action Program)專項的一部分,由上至下受控于一個嚴格的組織體系,每個環(huán)節(jié)的參與者都有明確的分工和接口,中間有監(jiān)督機構(gòu),后續(xù)有有效性審查措施,保證了RCA過程的順利執(zhí)行。
4)建立運行經(jīng)驗(Operating Experience,OE)數(shù)據(jù)庫,加入 INPO/WANO,在全世界范圍內(nèi)分享核電業(yè)界經(jīng)驗數(shù)據(jù),有助于RCA的深入開展。
5)領(lǐng)導(dǎo)層要對根本原因分析給予充分的支持。事件的處理通常分為調(diào)查取證、分析、采取糾正性行動三個階段。而往往在第一個階段完畢后,人們就急于采取糾正性行動,而把第二階段給忽略掉,這時候需要根本原因分析小組堅持自己的工作原則,頂住來著各方面的壓力(如時間壓力、行政壓力等)。高級別領(lǐng)導(dǎo)層的對于RCA的支持會保證整個RCA過程的順利推進,取得令人滿意的結(jié)果。
6)重視對于領(lǐng)導(dǎo)層的培訓(xùn)。領(lǐng)導(dǎo)層的推動是工作開展的關(guān)鍵因素,而有些問題也是由于領(lǐng)導(dǎo)所處的“特殊”位置,“特殊”影響力導(dǎo)致的。因此,加強對領(lǐng)導(dǎo)層的培訓(xùn),從管理層面、工作分配層面來做,使他對他的職責(zé)有非常明確的認識,我個人認為也是推動工作開展的一個重要方面。
7)Vogtle電站的根本原因分析報告要被本廠、佐治亞州政府、集團公司、INPO、NRC等多方監(jiān)管,寫報告占據(jù)了他們很大的精力和時間,但又不得不做。我們要做的是把整個RCA過程詳盡的記錄下來,嚴格按程序的規(guī)定去做,最總綜合整理就是一份完美的報告。
8)在整個核電站范圍內(nèi)不斷完善根本原因分析體系,形成根本原因分析的氛圍和文化。在實踐中學(xué)習(xí),在實踐中提高,相信根本原因分析工作定會在核電站的防止重大事件的重發(fā)以及解決重大技術(shù)問題方面發(fā)揮越來越重要的作用。