国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于故障樹的事故分類方法①

2019-07-23 02:08:10劉康煒萬劍華靳熙芳
關(guān)鍵詞:成因向量事故

劉康煒,萬劍華,靳熙芳

1(中國石油大學(xué)(華東)地球科學(xué)與技術(shù)學(xué)院,青島 266580)

2(中國石化青島安全工程研究院,青島 266071)

由于化工生產(chǎn)工藝復(fù)雜、自動化控制水平高,事故形成的機(jī)理難以捕獲且多數(shù)發(fā)現(xiàn)事故征兆后便難以控制,如何能夠匯總歷史事故原因機(jī)理,進(jìn)行事故原因的精確分析,盡早發(fā)現(xiàn)事故潛在的隱患,將有助于事故預(yù)警和預(yù)防.然而,雖然形成了大量事故的分析報告,但并沒有形成事故相關(guān)成因機(jī)理的提煉和匯總,難以形成事故分析有效的知識庫.同時,化工事故分析專家也基于經(jīng)驗以故障樹、FME(C)A 等安全分析模型建模了大量同類事故的成因機(jī)理[1],如何基于這些專家經(jīng)驗對事故報告進(jìn)行快速準(zhǔn)確的原因分類,將有助于形成輔助事故分析與決策支持的知識庫,實現(xiàn)化工事故的早期預(yù)警和預(yù)防.由于事故報告、故障樹等事故分析模型的表達(dá)都是基于自然語言,自然語言的分類技術(shù)在各領(lǐng)域已有廣泛的研究,如,貝葉斯分類改進(jìn)方法[2]采用文本中高詞頻特征的對數(shù)平均計算方法,解決了文本分類中參數(shù)估計不足問題,但只是單純使用分類技術(shù),沒有探討文本所含領(lǐng)域模型問題;優(yōu)化的SVM 故障分類器[3]采用了RS 約簡故障指標(biāo)體系,去除了冗余特征,但是割裂了故障過程間的演化關(guān)系;決策樹、神經(jīng)網(wǎng)絡(luò)等[4,5]改進(jìn)分類方法基于統(tǒng)計模型、語言模型,主要處理文本的層次化分類問題,可以實現(xiàn)火災(zāi)、中毒、爆炸等化工事故的粗略分類,但不能根據(jù)事故模型探討事故成因機(jī)理,事故成因機(jī)理需要結(jié)合專家的領(lǐng)域經(jīng)驗進(jìn)一步分析、分類.在化工事故分析領(lǐng)域,故障樹是一種演繹式失效分析模型,能通過邏輯門連接事故成因關(guān)系展示事故成因的演化過程[6].通過割集技術(shù)可以實現(xiàn)事故成因的最底層原因分析、也可以實現(xiàn)事故的定量分析和定性分析[7].本文基于化工事故監(jiān)管部門形成了大量的事故故障樹,這些故障樹已通過領(lǐng)域?qū)<覍崿F(xiàn)面向事故成因機(jī)理分析、并進(jìn)一步實現(xiàn)同類故障樹的成因機(jī)理的匯總,形成包含同類事故所有原因的若干標(biāo)準(zhǔn)故障樹[8].基于標(biāo)準(zhǔn)故障樹,研究事故報告的事故成因精確分類分析,不僅可以準(zhǔn)確分類事故報告的類別,也能夠?qū)κ鹿蕡蟾婷枋龅氖鹿食梢蜻M(jìn)行精確分析,從而能夠?qū)崿F(xiàn)面向事故成因機(jī)理的有效分析、分類、存儲和管理,逐步完善事故分析與決策支持的知識庫,實現(xiàn)化工事故的早期預(yù)警和預(yù)防.

1 面向故障樹的文本分類算法

基于故障樹模型的事故成因機(jī)理分析,考慮到化工事故的實際特征,故障樹的邏輯門僅包含與、或兩種門結(jié)構(gòu).目前本文工作中合作的化工事故監(jiān)管部門已經(jīng)形成了大量的事故故障樹,并綜合同類故障樹的成因機(jī)理形成該類型的標(biāo)準(zhǔn)故障樹如圖1,為自然著火型標(biāo)準(zhǔn)故障樹的示意圖.

事故報告是通過專家對事故進(jìn)行調(diào)查分析,形成的包含事故經(jīng)過、事故原因、事故處置、事故總結(jié)和事故影響五部分的事故調(diào)查報告,里面含有事故形成的各種信息,但也有各種雜音信息,目前收集化工事故監(jiān)管部門已經(jīng)形成了10 023 個事故報告,已經(jīng)粗略分類歸屬于火災(zāi)、爆炸、中毒、泄漏等4 類事故,如何根據(jù)事故成因?qū)⑹鹿蕡蟾婢_歸因于某類標(biāo)準(zhǔn)故障樹,是進(jìn)一步研究事故成因的自動分析和識別的關(guān)鍵技術(shù).

1.1 基于自然語言處理的特征提取技術(shù)

事故報告與故障樹節(jié)點(diǎn)都是采用自然語言描述的,需要研究文本的特征向量生成方法.由于事故報告包含大量的無關(guān)、雜音字詞,首先根據(jù)百度停留詞庫進(jìn)行去停留詞處理.采用將詞嵌入向量生成算法與TFIDF 方法結(jié)合生成分詞特征向量[9],采用Word2Vec CBOW 模型生成P維詞向量Vec(wj)=(v1,v2,…,vP)本文取P=1000.由于Word2Vec 采用通用領(lǐng)域詞匯進(jìn)行向量訓(xùn)練,為突出領(lǐng)域詞匯的作用,計算事故報告、故障樹節(jié)點(diǎn)中領(lǐng)域詞的TF-IDF 值,作為詞向量的權(quán)重,從而實現(xiàn)了文本向量化既考慮詞的語義信息,也能考慮領(lǐng)域詞的重要度信息.采用如下計算公式生成詞的TF-IDF 值:

其中,TF(di,wj)表示詞wj在文本di中出現(xiàn)的頻率.IDF(wj)表示單詞wj的逆文檔頻率.M表示文本總數(shù).DF(wj)表示出現(xiàn)wj單詞的文本個數(shù).則包含TFIDF 的詞向量為:

則文本di制成相應(yīng)的向量為:

圖1 自然著火型標(biāo)準(zhǔn)故障樹

1.2 擴(kuò)展割集的生成算法

典型的故障樹分析多通過分析故障樹的最小割集和最小徑集[7,10],然而這種分析方法是分析故障樹的葉子節(jié)點(diǎn),而無法分析事故成因過程,無法實現(xiàn)事故報告的精確歸類,提出了一種面向故障樹全部節(jié)點(diǎn)的層次析取范式的算法,即可以計算出以基本事件為基準(zhǔn)擴(kuò)展可能的中間節(jié)點(diǎn),而形成的故障樹擴(kuò)展割集.

圖2 事故報告的詞向量特征生成部分結(jié)果

本文擴(kuò)展下行法、采用廣度優(yōu)先逐層替代計算擴(kuò)展割集.核心思想:根據(jù)故障樹邏輯門符號一層層向下判定,即遇到“與”門,將“與”門的上層節(jié)點(diǎn)替換為“與”門的所有下層節(jié)點(diǎn),并將替換后的結(jié)果加入范式集合;遇到“或”門,將“或”門的上層節(jié)點(diǎn)依次替換為“或”門的下層節(jié)點(diǎn),并將替換后的結(jié)果加入范式集合.求解故障樹的擴(kuò)展割集CS,算法步驟如下:

Step 1.對故障樹每個節(jié)點(diǎn)進(jìn)行預(yù)處理.讀入樹節(jié)點(diǎn)Ti,將每個樹節(jié)點(diǎn)Ti表示為該子樹的根節(jié)點(diǎn)的文本W(wǎng)i、孩子節(jié)點(diǎn)個數(shù)Ni、邏輯門符號Si、孩子節(jié)點(diǎn)的文本的集合Cj.其中0≤j≤Ni.即Ti=(Wi,Ni,Si,Cj),0≤j≤Ni.

Step 2.讀入故障樹的根節(jié)點(diǎn)T1,并根據(jù)其邏輯門S1進(jìn)行處理.若是“與”門,則根節(jié)點(diǎn)加入集合、將根節(jié)點(diǎn)替換為“與”門所有的下層節(jié)點(diǎn)Cj,并加入集合,CS=(W1,C1,C2,…,CNi);若是“或”門,則根節(jié)點(diǎn)加入集合、將根節(jié)點(diǎn)依次替換為“或”門的下層節(jié)點(diǎn)Cj,并依次加入集合,CS=(W1,C1,C2,…,CNi).

Step 3.讀入故障樹的下一個節(jié)點(diǎn)Ti=(Wi,Ni,Si,Cj),并根據(jù)邏輯門Si進(jìn)行處理.若是“與”門,則尋找集合CS中存在的與節(jié)點(diǎn)文本W(wǎng)i相同的樹節(jié)點(diǎn)Te,并用“與”門的所有下層節(jié)點(diǎn)Cj替換集合中的樹節(jié)點(diǎn)文本W(wǎng)e,替換后的結(jié)果加入結(jié)果集CS,CS= (W1,W2,…,We)=CS= (W1,W2,…,C1,C2,…,CNi).若是“或”門,則尋找集合CS中存在的與節(jié)點(diǎn)文本相同的樹節(jié)點(diǎn)Te,并用“或”門的下層節(jié)點(diǎn)Cj依次替換集合中的樹節(jié)點(diǎn)文本W(wǎng)e,替換后的結(jié)果加入結(jié)果集CS,CS= (W1,W2,…,We)=CS= (W1,W2,…,C1,C2,…,CNi).

Step 4.重復(fù)Step 3,直到所有的節(jié)點(diǎn)Ti都讀完,即能求出故障樹故障發(fā)生的所有擴(kuò)展割集CS=(W1,W2,…,We).

圖3 算法生成的圖1故障樹的擴(kuò)展割集

每一個故障樹都通過擴(kuò)展割集算法的計算,形成了大量擴(kuò)展割集形成的詞庫集合,通過文本向量生成算法,計算出每個擴(kuò)展割集的向量空間.這些向量空間也是事故報告分類的中心,需要采用合適的分類算法經(jīng)每個事故報告分類到相應(yīng)的擴(kuò)展割集中,從而能夠精確分析到事故報告描述的事故成因機(jī)理.本文在計算事故報告提取文本特征與擴(kuò)展故障樹割集的相似度計算方法采用的是,較為成熟的KNN 方法[2,3,9].

1.3 基于權(quán)重調(diào)整的KNN-W 的事故報告分類方法

本文將事故分析報告和故障樹擴(kuò)展割集的余弦相似度作為距離衡量標(biāo)志,余弦相似度越大說明兩類向量距離越近.標(biāo)準(zhǔn)的KNN 分類方法(記為KNN-S),當(dāng)樣本數(shù)量分布不平衡時,實驗結(jié)果明顯偏重于數(shù)量多的類[11].由于故障樹的擴(kuò)展割集不唯一,而且每個故障樹的割集個數(shù)都不相同,會導(dǎo)致樣本分布不均勻,從而會導(dǎo)致KNN 分類方法的準(zhǔn)確度下降.改進(jìn)的KNNW 分類方法,充分解決了KNN-S 分類方法中非平衡化樣本干擾的難題,并在KNN-S 分類方法的基礎(chǔ)上,根據(jù)采集樣本所屬的大類別數(shù)目和標(biāo)準(zhǔn)樹所包含的擴(kuò)展割集數(shù)目設(shè)計權(quán)重約束,實現(xiàn)了對KNN-S 分類方法中樣本分布不平衡的調(diào)節(jié),還在一定程度上提高了事故報告分類的精確度.采用基于權(quán)重計算的KNN-W 的算法步驟如下:

Step 1.利用式(3)計算事故分析報告文本向量VecT(d)=(v1,v2,…,vK)與每類故障樹的擴(kuò)展割集向量VecT(CSj)=(cj1,cj2,…,cjK)的余弦相似度c osθj.

Step 2.將所求得的余弦相似度c osθj設(shè)置權(quán)重weight;加權(quán)結(jié)果為 cosθj=cosθj×weight,其 中weight=Countj(D)為屬于擴(kuò)展割集CSj所在大類的事故報告數(shù),Countj(CS)為屬于擴(kuò)展割集CSj所在故障樹的擴(kuò)展割集數(shù),即權(quán)重與屬于類別的事故報告數(shù)成正比,與所屬類別的故障樹擴(kuò)展割集成反比.

Step 3.將加權(quán)余弦值排序,統(tǒng)計K個余弦值cosθj當(dāng)中每類故障樹所占的比重.比重最大的故障樹即為所求的該事故報告的類別.

上述基于權(quán)重計算的KNN-W 相比于KNN-S 分類方法,充分考慮了樣本所屬領(lǐng)域的大類別數(shù)目,結(jié)合樣本數(shù)據(jù)中故障樹模型的擴(kuò)展割集結(jié)構(gòu)分布,利用權(quán)重調(diào)劑不平衡分類的比例,降低已有類別的故障樹割集比重,增加待分類的樣本比例權(quán)重,使分類方法能夠適應(yīng)不同事故數(shù)據(jù)集.

2 實驗結(jié)果與分析

隨機(jī)選取事故監(jiān)管部門提供的1000 份事故報告作為事故原因分析待分類的對象,由于報告中的事故處置、事故總結(jié)和事故影響不能支撐事故原因分析,首先對事故報告進(jìn)行預(yù)處理,只獲取事故經(jīng)過和事故原因分析兩部分文本內(nèi)容進(jìn)行文本特征提取,通過貝葉斯方法配合人工確認(rèn)對這1000 篇事故已經(jīng)進(jìn)行了粗略分類,分類結(jié)果如表1所示.

基于事故監(jiān)管部門提供的11 類標(biāo)準(zhǔn)故障樹,利用擴(kuò)展割集算法計算11 個標(biāo)準(zhǔn)故障樹的擴(kuò)展割集,表2為標(biāo)準(zhǔn)的結(jié)構(gòu)信息和通過算法計算的擴(kuò)展割集信息.這些擴(kuò)展割集包含事故形成的充分條件,如果事故報告中隱含了相應(yīng)的割集信息,則表示該事故包含該事故成因信息,這樣可以通過分析事故成因來確定事故報告的精確分類.

表1 事故報告粗略分類

表2 標(biāo)準(zhǔn)故障樹的結(jié)構(gòu)信息

在算法設(shè)計中,首先采用本文提出的結(jié)合樹形復(fù)雜性和文章分類數(shù)的權(quán)值調(diào)整KNN-W 算法,取K=20 進(jìn)行實驗,表3給出識別的每類標(biāo)準(zhǔn)樹所包含的通過算法識別數(shù)目,實際應(yīng)該包含的數(shù)目,正確識別的數(shù)目,并給出每類故障樹的識別的準(zhǔn)確率、召回率和F1 值[3,4,10],通過分析發(fā)現(xiàn)在樣本集較大,故障樹結(jié)構(gòu)較復(fù)雜的標(biāo)準(zhǔn)樹中,整體性能要好于標(biāo)準(zhǔn)樹結(jié)構(gòu)簡單的分類,算法總體的準(zhǔn)確性為89.6%.

為了驗證本文提出的的權(quán)值調(diào)整算法的性能,在對比實驗中,采用標(biāo)準(zhǔn)KNN-S 方法和2.3 算法進(jìn)行對比實驗,兩類方法的K值分別為10、20、50 進(jìn)行分析,每一類的F1 值的對比結(jié)果如圖3所示.表4給出每次實驗的各故障樹類的平均F1 值,從算法對比分析,可以看出KNN-W 算法整體性能較KNN-S 有不同程度的提高,從K值選擇分析可以看出,K=2 0 較K=10 有較大提升,但K=50 較K=20 提升較少.

表3 KNN-W 算法性能分析

圖4 KNN-W 與KNN-S 的F1-Score 對比結(jié)果

表4 平均指標(biāo)數(shù)據(jù)對比

3 總結(jié)

直接應(yīng)用機(jī)器學(xué)習(xí)分類方法難以有效分析領(lǐng)域問題,針對化工事故分析領(lǐng)域,提出一種結(jié)合領(lǐng)域?qū)<医?jīng)驗的分析模型進(jìn)行事故精確分析的思路,基于故障樹分析的事故模型,設(shè)計故障樹的擴(kuò)展割集,使故障成因的充分必要條件不僅反饋在葉子節(jié)點(diǎn)的集合,也反饋到包含中間節(jié)點(diǎn)的所有節(jié)點(diǎn)組合,這樣可以檢測出事故報告中描述的事故演化過程,在分類算法上,選擇KNN 方法,并根據(jù)分類特點(diǎn)改進(jìn)KNN 算法使其更能有效進(jìn)行分類,實驗結(jié)果表明所設(shè)計算法能夠?qū)崿F(xiàn)較精確的分類.

猜你喜歡
成因向量事故
向量的分解
說說兩種『白氣』的成因
學(xué)中文
聚焦“向量與三角”創(chuàng)新題
廢棄泄漏事故
小恍惚 大事故
好日子(2018年9期)2018-10-12 09:57:28
暈紋石成因解讀(上)
寶藏(2017年7期)2017-08-09 08:15:19
向量垂直在解析幾何中的應(yīng)用
翻譯實踐問題及成因
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
岢岚县| 弥渡县| 霍邱县| 犍为县| 万宁市| 偃师市| 河曲县| 修水县| 平陆县| 九寨沟县| 阿拉善右旗| 山东省| 通渭县| 宁陵县| 嘉峪关市| 新干县| 西林县| 卓尼县| 柳林县| 来宾市| 名山县| 若羌县| 铜川市| 贵德县| 云龙县| 阳东县| 望奎县| 英吉沙县| 荔波县| 衢州市| 九台市| 丹凤县| 南充市| 长沙市| 荃湾区| 涟源市| 景谷| 淅川县| 澄江县| 调兵山市| 虹口区|