王明達,吳志生,朱光輝,李云飛,張 榜
(1.中國石油大學(xué)(華東) 機電工程學(xué)院,山東 青島 266580;2.國家石油天然氣管網(wǎng)集團有限公司 山東省分公司,山東 濟南 250002)
近年來,天然氣在我國工業(yè)生產(chǎn)和民用生活中大規(guī)模普及[1]。燃氣輪機作為天然氣集輸站場的核心動力設(shè)備,其運行狀態(tài)直接影響著整個長輸管道的安全[2-3]。然而,燃氣輪機一旦發(fā)生故障,極易引起系統(tǒng)停機并導(dǎo)致重大安全事故的發(fā)生。燃氣輪機經(jīng)過多年的運行維護和故障檢修,已積累大量的故障文本數(shù)據(jù),但這些故障文本數(shù)據(jù)具有分布廣泛、數(shù)據(jù)量龐大、格式規(guī)范化不統(tǒng)一等特點,且文本中存在描述不規(guī)范等問題,加重故障知識的復(fù)雜性,導(dǎo)致維修人員難以利用現(xiàn)有的文本知識數(shù)據(jù)進行故障診斷[4-5]。因此,本文引入知識圖譜技術(shù),將燃氣輪機故障文本知識結(jié)構(gòu)化,以實現(xiàn)對燃氣輪機故障的快速分析與診斷。
目前國內(nèi)外許多領(lǐng)域已開展故障知識圖譜構(gòu)建研究工作。Liu等[6]通過構(gòu)建鐵路操作故障因果知識圖譜,揭示故障的潛在規(guī)則,并據(jù)此提出預(yù)防措施;Tang等[7]構(gòu)建多源異構(gòu)電力設(shè)備知識圖譜,提高電力設(shè)備的管理效率,為故障診斷的應(yīng)用奠定知識基礎(chǔ);Qu等[8]構(gòu)建電力無線專網(wǎng)使用終端故障信息知識圖譜,實現(xiàn)故障診斷與決策制定;盛林等[9]利用知識圖譜將旋轉(zhuǎn)機械領(lǐng)域內(nèi)零散的知識、案例和專家經(jīng)驗關(guān)聯(lián),并將其用于故障原因推理,輔助解決旋轉(zhuǎn)機械故障問題。上述研究利用知識圖譜技術(shù)解決數(shù)據(jù)之間信息孤立問題,并利用圖數(shù)據(jù)庫將非結(jié)構(gòu)化數(shù)據(jù)規(guī)范儲存,提升領(lǐng)域內(nèi)故障知識的利用率。然而上述研究大多僅對實體進行識別,且針對燃氣輪機故障領(lǐng)域,目前尚鮮有相關(guān)的知識圖譜構(gòu)建研究。
因此,本文以燃氣輪機多維故障文本數(shù)據(jù)為例,梳理燃氣輪機故障文本知識體系,構(gòu)建基于深度學(xué)習(xí)的燃氣輪機故障知識圖譜,進行燃氣輪機故障實體及實體關(guān)系抽取,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化存儲與管理,通過Neo4j圖數(shù)據(jù)庫進行可視化分析,并將其運用于輔助故障診斷,以期為故障維修人員提供知識支持。
知識圖譜是1種基于圖模型描述知識與客觀事物間的關(guān)聯(lián)關(guān)系的技術(shù)手段,由節(jié)點和邊組成[10]。知識圖譜的構(gòu)建需要結(jié)合具體的領(lǐng)域場景、語義模型與業(yè)務(wù)模型,其構(gòu)建方式分為自頂向下和自底向上2種[11]。燃氣輪機故障知識圖譜構(gòu)建采用自頂向下和自底向上相結(jié)合的方式,如圖1所示。
圖1 故障知識圖譜構(gòu)建流程Fig.1 Process of fault knowledge graph construction
燃氣輪機故障知識圖譜的構(gòu)建分為2層,即模式層構(gòu)建和數(shù)據(jù)層構(gòu)建。首先,根據(jù)數(shù)據(jù)源的種類不同將其分為設(shè)備結(jié)構(gòu)知識、故障分析知識與設(shè)備維護知識3類,并根據(jù)領(lǐng)域數(shù)據(jù)的特點建立故障知識的本體表達模型,此工作即知識圖譜模式層的構(gòu)建。然后,在設(shè)備資料等外部知識的指導(dǎo)下完成對抽取的半自動化標(biāo)注以減輕人力和時間的消耗,并利用自然語言處理從故障文本中進行實體與關(guān)系的抽取,完成知識抽取即數(shù)據(jù)層的構(gòu)建工作。最后,將實體與關(guān)系按照本體層的模式存入Neo4j圖數(shù)據(jù)庫,可視化并完成知識圖譜的相關(guān)應(yīng)用。
燃氣輪機故障領(lǐng)域知識包括設(shè)備結(jié)構(gòu)知識、設(shè)備維護知識、故障分析知識3類,具體選用要素如表1所示。設(shè)備結(jié)構(gòu)知識包括設(shè)計原理圖、使用說明書等資料,從中提取的結(jié)構(gòu)知識可為燃氣輪機的故障診斷與日常維護工作提供支持;設(shè)備維護知識包括設(shè)備工作狀態(tài)、故障診斷知識、維修經(jīng)驗等,從中提取的維護知識可為現(xiàn)場的設(shè)備維護與故障診斷工作提供輔助決策;故障分析知識包括專家經(jīng)驗知識、FMEA、故障案例、FTA等,從中提取的分析知識能夠為現(xiàn)場設(shè)備維修人員提供知識支持。
表1 燃氣輪機故障多源數(shù)據(jù)Table 1 Multi-source data of gas turbine fault
故障知識本體概念類別劃分主要是針對故障部件及其屬性類別的劃分和定義,根據(jù)故障分析(FMECA)數(shù)據(jù),故障知識本體O由1個或多個零部件故障F構(gòu)成,其結(jié)構(gòu)信息可描述為式(1):
O∈{∑Fc∪∑Ftr∪∑Ftl∪∑Fs}
(1)
式中:Fc為復(fù)雜型零部件故障;Ftr為反向樹形零部件故障;Ftl為正向樹形零部件故障;Fs為單串鏈形零部件故障。
1個完整的部件故障信息F由5個要素組成,其結(jié)構(gòu)描述如式(2)所示:
F∈{E,T,R,I,L}
(2)
式中:E為故障設(shè)備;T為故障模式;R為故障原因;I為故障影響;L為風(fēng)險等級。
故障知識本體是指與燃氣輪機故障知識有關(guān)的概念與屬性的規(guī)范化定義[12]。知識圖譜的模式層通常使用本體庫進行管理,本體中的概念與關(guān)系決定知識圖譜中的概念節(jié)點和關(guān)聯(lián)關(guān)系,是構(gòu)建知識圖譜的重要依據(jù),相當(dāng)于知識庫中的模具。
常用的本體構(gòu)建方法有TOVE法、骨架法和七步法等[13]。本文結(jié)合骨架法與七步法2種本體構(gòu)建流程,構(gòu)建多維故障知識本體表達模型,其構(gòu)建的具體過程包括:1)確定燃氣輪機故障領(lǐng)域的研究范圍、本體需求;2)檢查是否存在燃氣輪機故障本體,并考慮是否可以重用。如可重用,則可在已有本體模型基礎(chǔ)上進行擴展補充,反之則需要重新構(gòu)建本體模型;3)對領(lǐng)域知識進行分類,并使用統(tǒng)一的術(shù)語描述概念;4)定義概念間的層次關(guān)系,明確其層次結(jié)構(gòu);5)定義類的屬性和約束關(guān)系,包括對象屬性與數(shù)據(jù)屬性;6)對構(gòu)建的燃氣輪機故障領(lǐng)域本體模型質(zhì)量進行評估,包括本體的語義沖突和領(lǐng)域知識相符2方面,此過程依賴于專家(人工)檢查以保證本體中知識表示的準(zhǔn)確性;7)實例填充以完成知識管理系統(tǒng)的底層構(gòu)建。經(jīng)過此過程,最終構(gòu)建1個具有實用性、通用性的燃氣輪機故障知識本體模型,具體如圖2所示。
知識抽取技術(shù)包括命名實體識別與關(guān)系抽取,目的是從文本中提取關(guān)鍵信息的技術(shù),在知識圖譜構(gòu)建過程中指抽取文本中的目標(biāo)實體、屬性與關(guān)系等信息[14]。
1.5.1 命名實體識別
燃氣輪機故障文本中包含大量有用的知識信息,而實體識別的目的就是將文本中有價值的實體信息識別并標(biāo)注[15]。按照上文定義的實體概念類型進行識別和標(biāo)注,本文采用基于混合神經(jīng)網(wǎng)絡(luò)的BERT-BiLSTM-CRF命名實體識別模型,其模型架構(gòu)如圖3所示。圖3中Ei指輸入的字;Ti為模型輸出結(jié)果;Trm(Transformer)為編碼模塊;ht為LSTM單元的輸出結(jié)果;pt為隱;Y={Y1,Y2,…,Yt}為標(biāo)簽序列。
圖3 BERT-BiLSTM-CRF命名實體識別模型Fig.3 BERT-BiLSTM-CRF named entity recognition model
BERT-BiLSTM-CRF模型包括4部分:1)預(yù)處理文本數(shù)據(jù),包括文本清洗、去停用詞等步驟;2)引入BERT模型作為故障文本的字符向量化表示,表示結(jié)果用于BiLSTM層的輸入;3)采用BiLSTM模型獲取上下文的特征向量,輸出命名實體識別的結(jié)果,并作為CRF層的輸入;4)使用CRF模型輸出預(yù)測實體類別結(jié)果。其中,對一部分的故障文本數(shù)據(jù)的文本預(yù)處理流程具體如下:1)文本清洗:即分詞,采用Jieba分詞工具,并結(jié)合自構(gòu)建的燃氣輪機設(shè)備故障專業(yè)詞庫,確保分詞結(jié)果的準(zhǔn)確性;2)去停用詞:即去除文本中的空格、標(biāo)點符號等干擾數(shù)據(jù),以及去除無實際意義的字符,如“的”、“在”、“了”等,從而提升模型訓(xùn)練的效率;3)實體標(biāo)注:本文采用BMEO序列標(biāo)注法,部分標(biāo)注標(biāo)簽類型如表2所示。以故障設(shè)備(fault equipment,EQU)為例,“B”為“Begin”,表示實體的第1個字符;“M”為“Middle”,表示實體字符中部的字符;“E”為“End”,表示實體字符的最后1個字;“EQU”表示該實體的名稱縮寫標(biāo)簽。
表2 實體標(biāo)注示例(部分)Table 2 Example of entity annotation (part)
1.5.2 關(guān)系抽取
完成實體抽取后,需要建立實體間的關(guān)系和實體屬性間的關(guān)系,從故障文本中抽取得到關(guān)系的過程即為關(guān)系抽取[16]?;谏疃葘W(xué)習(xí)的關(guān)系抽取方法在提高關(guān)系分類效率與準(zhǔn)確度方面具有很大的優(yōu)勢,因此本文在前者命名實體識別模型的基礎(chǔ)上,引入Attention模型替代CRF模型來實現(xiàn)關(guān)系抽取。
與實體識別模型類似,用于關(guān)系抽取的數(shù)據(jù)源于已經(jīng)完成實體識別的數(shù)據(jù)。根據(jù)知識圖譜“<實體-關(guān)系-實體>”和“<實體-屬性-屬性值>”的表述方式,將故障訓(xùn)練語料按照“頭實體-關(guān)系-尾實體”的形式整理,基于關(guān)系抽取的故障文本預(yù)處理規(guī)程,具體如表3所示。
從文本中抽取得到的知識一般含有大量的模糊和冗余的信息,且存在較多的語義相似,如“壓縮機”,雖在不同文本中表述相同,但是具體屬性、規(guī)格等信息不同,實質(zhì)表示2種不同實體。
本文采用計算概念名稱相似度、屬性相似度和綜合相似度相結(jié)合的方式計算燃氣輪機故障文本中實體的相似度,通過設(shè)定閾值判斷實體是否具有相同含義,實現(xiàn)知識融合,其對應(yīng)的計算步驟如下。
1)步驟1:計算概念名稱相似度。
本文采用ISub字符串映射算法判斷全局本體概念與局部本體概念的名稱相似度如式(3)所示。對于給定的全局本體概念cG和局部本體概念cL,首先對其進行序列化與去冗余處理,然后進行相似度計算。
(3)
(4)
式中:bG表示全局本體中概念字符串;bL表示局部本體中概念字符串;comm(bG,bL)表示概念字符相同的部分;diff(bG,bL)表示概念字符不同的部分;winkler表示修正系數(shù)。
2)步驟2:計算實體的屬性相似度。
(5)
式中:SA為屬性相似度;wi是屬性權(quán)重。
3)步驟3:計算實體綜合相似度。
在名稱相似度算法與屬性相似度算法的基礎(chǔ)上,提出綜合相似度(SF(cL,cG))算法,具體計算如式(6)所示,以提升實體融合的準(zhǔn)確性。
(6)
式中:WN為名稱相似度權(quán)值;WA為屬性相似度權(quán)值。
查找目標(biāo)實體的概念,計算概念名稱相似度、概念綜合相似度與屬性相似度,對知識抽取得到的實體信息與屬性信息進行融合,并設(shè)定閾值,若2個實體的綜合相似度大于設(shè)定閾值,則進行融合,否則將這2個實體分別儲存。
本文使用圖數(shù)據(jù)庫Neo4j實現(xiàn)對燃氣輪機故障文本數(shù)據(jù)的存儲工作。相較于傳統(tǒng)關(guān)系型數(shù)據(jù)庫,Neo4j圖數(shù)據(jù)庫能夠高效地實現(xiàn)節(jié)點與關(guān)系查詢,且基于Cypher語言的查詢與管理機制,能夠較為容易實現(xiàn)Web端的開發(fā)與應(yīng)用[17]。
本文采用的燃氣輪機故障文本數(shù)據(jù)集由600份故障記錄文本和960條故障分析文本組成。將數(shù)據(jù)語料按照4∶1∶1的比例劃分為訓(xùn)練集、測試集和驗證集,即隨機選取400份故障文本與560條故障分析記錄用于訓(xùn)練BERT-BiLSTM-CRF命名實體識別模型與BERT-BiLSTM-Attention關(guān)系抽取模型。
抽取結(jié)果準(zhǔn)確性的評價方法采用深度學(xué)習(xí)領(lǐng)域常用的正樣本與負樣本評價方法,評價指標(biāo)包括精確度(precision)、召回率(recall)和綜合評價指標(biāo)F1值,計算公式如式(7)所示:
(7)
式中:TP表示模型預(yù)測正確且標(biāo)注正確的樣本數(shù)量;FP表示模型預(yù)測錯誤但標(biāo)注正確的樣本數(shù)量;FN表示模型預(yù)測錯誤且標(biāo)注錯誤的樣本數(shù)量。
為驗證基于深度學(xué)習(xí)的BERT-BiLSTM-CRF命名實體識別模型對燃氣輪機故障文本中實體識別的有效性,本文選取BiLSTM-CRF模型,BERT-CRF模型和Word2Vec-BiLSTM-CRF模型進行對比分析。實驗過程中,均使用相同的訓(xùn)練數(shù)據(jù)、測試數(shù)據(jù)和相同的實驗環(huán)境,不同模型的實驗結(jié)果如圖4所示。
圖4 各模型耗損收斂對比Fig.4 Comparison of depletion convergence of each model
由圖4可知,4種模型迭代次數(shù)在30~50次時趨于穩(wěn)定,且本文構(gòu)建的BERT-BiLSTM-CRF模型較之于BiLSTM-CRF等對比模型訓(xùn)練LOSS值更低,性能更高,其模型的精確度、召回率和F1值的平均值分別達到93.84%,95.07%,94.44%,實體抽取對比如表4所示。
與BiLSTM-CRF模型相比,BERT-BiLSTM-CRF的F1值提高7.98個百分點,這是因為BERT模型能夠獲取動態(tài)字符,在一定程度上增強BiLSTM模型獲取上下文的能力,因而能夠最大程度提取文本中的復(fù)雜特征。而與Word2Vec方式相比,BERT-BiLSTM-CRF模型的F1值提高0.89個百分點,這可能與實驗過程中引入燃氣輪機故障詞庫的原因有關(guān)。同時,基于BERT模型的字符嵌入是1種動態(tài)嵌入方式,相較于Word2Vec的靜態(tài)嵌入方法,能夠有效解決一詞多義的問題。
BERT模型是1種預(yù)先訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型,不同于Word2Vec需要依靠大量訓(xùn)練才能生成準(zhǔn)確的詞向量,在文本數(shù)量有限的情況下,該模型就能取得較好的訓(xùn)練效果。BERT-CRF模型的精確度達到81.22%,而增加雙向長短期記憶網(wǎng)絡(luò)的BERT-BiLSTM-CRF模型,進一步提取上下文序列特征,其精確度等指標(biāo)均有10個百分點左右的提升。因此,本文提出的命名實體識別模型較對比模型的實驗效果好。
同時,為驗證本文提出的BERT-BiLSTM-Attention關(guān)系抽取模型的準(zhǔn)確性,進行1組對比實驗。BERT模型在已公開的數(shù)據(jù)集知識抽取實驗中已取得顯著效果,但在燃氣輪機故障數(shù)據(jù)關(guān)系抽取工作中還未開展應(yīng)用,故本文選擇BiLSTM-Attetion模型、BiLSTM-CRF模型與研究模型進行對比實驗,實驗結(jié)果如表5所示。
表5 關(guān)系抽取模型對比實驗分析Table 5 Comparative experimental analysis of relation extraction models 單位:%
由表5可知,相較于BiLSTM-CRF,BiLSTM-Attention,BERT-BiLSTM-Attention模型能夠更好地捕捉文本中的長距離依賴關(guān)系,因此在處理長文本任務(wù)時可能具有更高的準(zhǔn)確性。BERT-BiLSTM-Attention模型較BiLSTM-CRF模型、BiLSTM-Attention模型取得更好的結(jié)果,其F1值分別提高8.49個百分點和5.73個百分點。
BERT-BiLSTM-Attention關(guān)系抽取具體結(jié)果如表6所示。由表6可知,本文提出的BERT-BiLSTM-Attention模型能較好地對故障文本中的實體關(guān)系進行抽取,尤其對“從屬”、“原因”、“位于”類型的關(guān)系抽取效果較好,這可能與引入燃氣輪機故障專業(yè)詞匯信息有關(guān)。
表6 BERT-BiLSTM-Attention模型關(guān)系抽取結(jié)果Table 6 BERT-BiLSTM-Attention model relation extraction results
按照知識融合算法流程,參考關(guān)鍵字檢索方法,實驗中將融合結(jié)果分為3類。A類:實體融合正確,即相同含義的實體全部融合;B類,實體融合錯誤,即融合2個不同含義的實體;C類:實體未融合,即相同含義的實體未被融合。以“故障處理措施”和“故障設(shè)備”2類實體進行融合為例,經(jīng)過多次實驗表明,相似度計算閾值w=0.6時效果最好,實驗結(jié)果如表7所示。
表7 關(guān)鍵字融合與相似度融合結(jié)果對比Table 7 Comparison of keyword fusion and similarity fusion results
將燃氣輪機故障文本中抽取得到的實體與關(guān)系,分別作為Neo4j圖數(shù)據(jù)中的節(jié)點與連接節(jié)點的邊,以完成燃氣輪機故障知識圖譜的構(gòu)建工作。
燃氣輪機故障知識圖譜由設(shè)備結(jié)構(gòu)知識、設(shè)備維護數(shù)據(jù)和故障分析數(shù)據(jù)3類數(shù)據(jù)文本組成,能夠提供故障處理經(jīng)驗、設(shè)備可靠性等多方面的知識,因而能夠應(yīng)對大型復(fù)雜機械設(shè)備的故障診斷任務(wù)。以PGT25+SAC/PCL800系列燃驅(qū)壓縮機組輔助組成系統(tǒng)中“壓氣機異常振動”故障為例獲取有關(guān)故障信息的多維數(shù)據(jù),得到該故障的圖譜如圖5所示。圖5中包含導(dǎo)致壓氣機異常振動的可能原因、發(fā)生概率以及對應(yīng)的故障處理措施。
通過圖5可逐個分析故障原因,如通過檢查X20-3號端子的輸出電壓大小來判斷是否為傳感器損壞導(dǎo)致的異常震動,同樣的方式可以判斷信號回路是否故障。但有些故障原因無法提供故障數(shù)據(jù),如閥門的故障率。因此,有必要參考設(shè)備的故障率輔助故障診斷,尤其是當(dāng)僅靠傳感器數(shù)據(jù)不能確定部分設(shè)備故障原因時,可參考歷史故障率。
綜上,本文構(gòu)建的燃氣輪機故障知識圖譜能夠為現(xiàn)場工作人員的故障處理工作提供多維的綜合數(shù)據(jù)支持,輔助現(xiàn)場工作人員對設(shè)備進行綜合故障分析,在一定程度上使人員擺脫對知識、經(jīng)驗的依賴,降低知識獲取的門檻。同時,減少故障發(fā)生對設(shè)備的停機時間的影響。
1)以燃氣輪機多維故障文本數(shù)據(jù)為對象,分析并構(gòu)建燃氣輪機故障知識本體,研究多維故障文本數(shù)據(jù)知識圖譜構(gòu)建方法。
2)提出的燃氣輪機領(lǐng)域知識實體與關(guān)系抽取方法,能夠?qū)Ψ墙Y(jié)構(gòu)故障文本自動化知識抽取,同時解決傳統(tǒng)故障知識庫構(gòu)建中人工依賴度強、代價高且規(guī)模有限的問題,提高領(lǐng)域內(nèi)故障知識的利用率和共享率。
3)采用Neo4j數(shù)據(jù)庫將燃氣輪機故障知識圖譜進行可視化分析,可以進行快速的數(shù)據(jù)查詢與分析,大大提高人工檢索的效率。
4)本文所構(gòu)建的故障知識圖譜還存在一些不足,如FMECA數(shù)據(jù)和故障文本僅依靠集輸站場提供,導(dǎo)致知識的全面性有所下降。在后續(xù)的研究中,還將進一步擴展數(shù)據(jù)來源并動態(tài)更新知識圖譜,并研究知識圖譜在燃驅(qū)壓縮機組故障診斷領(lǐng)域的應(yīng)用。