劉洋 譚昆 張健威 郝壯遠(yuǎn)
中國(guó)石油集團(tuán)安全環(huán)保技術(shù)研究院 北京 102206
安全問題對(duì)于石油天然氣生產(chǎn)至關(guān)重要,隨著現(xiàn)代化的企業(yè)安全制度的確立,國(guó)內(nèi)油氣企業(yè)的事故發(fā)生率與事故亡人率顯著降低。但是,目前企業(yè)在安全管理方面依然存在許多問題,例如同一起事故在同一單位多次發(fā)生、同一類問題在不同的單位重復(fù)出現(xiàn),其中一個(gè)重要原因就是對(duì)現(xiàn)場(chǎng)安全數(shù)據(jù)資源的認(rèn)識(shí)和價(jià)值利用不足,原因分析不到位。企的內(nèi)部數(shù)據(jù)庫中已經(jīng)積累了海量的安全文本數(shù)據(jù),但是缺乏高效的分析方法,沒有正確認(rèn)識(shí)到事故事件資源的潛在價(jià)值。
隨著計(jì)算機(jī)硬件的不斷發(fā)展與各種公開數(shù)據(jù)集的提出,深度學(xué)習(xí)技術(shù)再次成為各個(gè)領(lǐng)域的研究熱點(diǎn),研究者們提出了各式各樣的神經(jīng)網(wǎng)絡(luò)模型,例如循環(huán)神經(jīng)網(wǎng)絡(luò)[1(RNN)、卷積神經(jīng)網(wǎng)絡(luò)[2](CNN)、強(qiáng)化學(xué)習(xí)[3]、對(duì)抗生成網(wǎng)絡(luò)[4](GAN)等?;谏疃葘W(xué)習(xí)的自然語言處理算法不斷刷新自然語言處理領(lǐng)域各個(gè)任務(wù)的最高記錄,例如關(guān)系抽取[5]、機(jī)器翻譯[6]、命名實(shí)體識(shí)別[7]、問答系統(tǒng)[8]和閱讀理解[9]。本論文的一項(xiàng)主要工作為使用深度學(xué)習(xí)技術(shù)對(duì)油氣行業(yè)的HSE 數(shù)據(jù)進(jìn)行文本挖掘,涉及到的自然語言處理任務(wù)有文本相似度計(jì)算、詞向量訓(xùn)練、文本分類等。
現(xiàn)場(chǎng)安全管理涉及大量的安全知識(shí)點(diǎn),如危險(xiǎn)源識(shí)別、風(fēng)險(xiǎn)評(píng)估方法、事故案例等,這些知識(shí)點(diǎn)之間存在復(fù)雜的關(guān)聯(lián)關(guān)系。然而,這些安全知識(shí)常常散落在各種文件、歷史案例與專家腦中,難以系統(tǒng)梳理和關(guān)聯(lián)。
語義分析人工智能技術(shù)可以自動(dòng)提取這些安全知識(shí),識(shí)別知識(shí)點(diǎn)之間的關(guān)聯(lián)關(guān)系,構(gòu)建現(xiàn)場(chǎng)安全知識(shí)圖譜。具體可以:
構(gòu)建安全知識(shí)圖譜的第一步是廣泛采集現(xiàn)場(chǎng)安全管理涉及的各類知識(shí),主要來源包括:
(1) 安全規(guī)程及操作規(guī)范文件。包含對(duì)設(shè)備安全要求、操作流程、預(yù)警值等詳細(xì)規(guī)定;
(2) 安全案例及事件報(bào)告。記載了歷史上發(fā)生的事故案例,包括事件過程、影響及教訓(xùn),是安全知識(shí)的重要來源;
(3) 專家訪談與經(jīng)驗(yàn)分享。專家在長(zhǎng)期工作中積累了大量安全管理知識(shí)與經(jīng)驗(yàn),需要通過訪談等方式進(jìn)行采集;
(4) 跟蹤知識(shí)與前沿技術(shù)。跟蹤行業(yè)內(nèi)外最新發(fā)布的標(biāo)準(zhǔn)、技術(shù)白皮書等,采集最新安全管理知識(shí)與理念;
(5) 數(shù)據(jù)統(tǒng)計(jì)與分析結(jié)果。通過分析現(xiàn)場(chǎng)各類監(jiān)控?cái)?shù)據(jù)和過程參數(shù),可以發(fā)現(xiàn)設(shè)備或過程的“空窗期”知識(shí)等。
從上述來源采集的安全知識(shí)常常以非結(jié)構(gòu)化形式表達(dá),需要利用語義分析技術(shù)轉(zhuǎn)換為結(jié)構(gòu)化知識(shí)表示:
(1) 實(shí)體識(shí)別。識(shí)別安全知識(shí)中的關(guān)鍵實(shí)體,如設(shè)備名稱、工藝參數(shù)、物料名稱等,建立實(shí)體節(jié)點(diǎn);
(2) 關(guān)系抽取。分析實(shí)體之間的關(guān)聯(lián)與作用,識(shí)別相互依賴、順序關(guān)系、上下級(jí)關(guān)系等,構(gòu)建關(guān)系邊;
(3) 事件解析。解析安全案例報(bào)告等,識(shí)別關(guān)鍵事件與影響因素,建立事件節(jié)點(diǎn)與關(guān)系;
(4) 概念歸納。分析概念定義及上下文,識(shí)別近義詞與上位概念,建立概念類別體系。
在獲得安全知識(shí)結(jié)構(gòu)化表示后,需要構(gòu)建知識(shí)點(diǎn)之間的關(guān)聯(lián)與邏輯關(guān)系,實(shí)現(xiàn)對(duì)知識(shí)的深度理解與推理:
(1) 相互關(guān)聯(lián)。根據(jù)知識(shí)內(nèi)容與語義,識(shí)別知識(shí)點(diǎn)之間的相互依賴、交互作用、相關(guān)影響等關(guān)聯(lián)關(guān)系。
(2) 層級(jí)分類。根據(jù)概念抽象程度將知識(shí)點(diǎn)分類,識(shí)別上位概念和下位概念關(guān)聯(lián)。
(3) 邏輯推理。構(gòu)建知識(shí)關(guān)聯(lián)網(wǎng)絡(luò),支持對(duì)知識(shí)的推理與查詢,發(fā)現(xiàn)知識(shí)之間的潛在關(guān)聯(lián)與聯(lián)系。
(4) 知識(shí)完備性分析。檢查知識(shí)關(guān)聯(lián)網(wǎng)絡(luò)的完備性,發(fā)現(xiàn)知識(shí)缺失或關(guān)聯(lián)不足之處,指導(dǎo)后續(xù)知識(shí)采集。
構(gòu)建安全知識(shí)圖譜是一個(gè)循環(huán)迭代的過程。通過不斷采集、抽取、關(guān)聯(lián)與完善,可以實(shí)現(xiàn)對(duì)現(xiàn)場(chǎng)安全管理知識(shí)的系統(tǒng)梳理,為實(shí)現(xiàn)安全追溯與決策提供知識(shí)基礎(chǔ)。
在石油天然氣生產(chǎn)現(xiàn)場(chǎng),各種安全事件時(shí)有發(fā)生,事后開展事件追溯可以找出事件發(fā)生的完整路徑,分析各種影響因素,為事件調(diào)查和防范決策提供基礎(chǔ)。
然而,現(xiàn)場(chǎng)的數(shù)據(jù)量大且分散在各個(gè)監(jiān)控系統(tǒng)、傳感器數(shù)據(jù)與手寫記錄中,使用人工方式開展事件追溯需耗費(fèi)大量時(shí)間和精力。語義分析人工智能技術(shù)可以實(shí)現(xiàn)自動(dòng)化事件追溯:
事件追溯首先需要采集與事件相關(guān)的各類現(xiàn)場(chǎng)數(shù)據(jù),包括:
(1) 監(jiān)控系統(tǒng)數(shù)據(jù)。包括視頻監(jiān)控、巡檢數(shù)據(jù),提供事件發(fā)生時(shí)的現(xiàn)場(chǎng)環(huán)境信息。
(2) 工藝參數(shù)數(shù)據(jù)。包括壓力、溫度、流量等實(shí)時(shí)數(shù)據(jù),反映事件發(fā)生時(shí)工藝狀態(tài)。
(3) 傳感器數(shù)據(jù)。各類震動(dòng)、熱損失傳感器的數(shù)據(jù),可檢測(cè)到設(shè)備微小變化。
(4) 操作日志與工作票。操作員操作記錄和工作許可,提供有關(guān)人員行為信息;。
(5) 事件報(bào)告。事件發(fā)生后編寫的報(bào)告,描述事件過程及現(xiàn)場(chǎng)情況,是追溯的重要信息源。
然后需要對(duì)采集的數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)化和關(guān)聯(lián),構(gòu)建與事件相關(guān)的統(tǒng)一數(shù)據(jù)環(huán)境,方便進(jìn)行后續(xù)追溯與分析。
在數(shù)據(jù)環(huán)境下,利用自然語言處理等技術(shù)識(shí)別:
(1) 關(guān)鍵事件實(shí)體。如事件發(fā)生的設(shè)備名稱、時(shí)間點(diǎn)、涉及物料等。
(2) 數(shù)據(jù)參數(shù)變化。在事件發(fā)生前后識(shí)別工藝參數(shù)、傳感器數(shù)據(jù)等的變化模式;。
(3) 操作行為記錄。識(shí)別事件相關(guān)的操作行為,如關(guān)閉閥門、啟動(dòng)設(shè)備等。
(4) 報(bào)告信息提取。從事件報(bào)告等中提取事件過程中環(huán)境變化、操作響應(yīng)等信息。
這些信息為在海量的數(shù)據(jù)中精確定位到與事件相關(guān)的數(shù)據(jù)提供依據(jù),實(shí)現(xiàn)事件追溯路徑的識(shí)別。
根據(jù)上述識(shí)別的各類信息,可以在數(shù)據(jù)環(huán)境下構(gòu)建事件追溯路徑:
(1) 時(shí)間 axis構(gòu)建。根據(jù)事件實(shí)體中提取的時(shí)間信息,定位到事件發(fā)生前后的瞬時(shí)數(shù)據(jù),構(gòu)建事件沿時(shí)間軸的數(shù)據(jù)分布。
(2) 空間路徑識(shí)別。根據(jù)事件相關(guān)的設(shè)備實(shí)體、傳感器位置等信息,識(shí)別事件涉及的數(shù)據(jù)在空間上的分布與傳播路徑。
(3) 數(shù)據(jù)變化關(guān)聯(lián)。根據(jù)工藝參數(shù)、傳感器數(shù)據(jù)的變化模式,關(guān)聯(lián)到導(dǎo)致這些變化的數(shù)據(jù),延伸事件追溯路徑。
(4) 操作行為鏈接。根據(jù)操作日志與工作票中識(shí)別的操作記錄,找到導(dǎo)致這些操作的數(shù)據(jù)變化或報(bào)警信息,擴(kuò)展事件追溯路徑。
(5) 路徑完備性評(píng)估。評(píng)估構(gòu)建路徑的完備性,發(fā)現(xiàn)數(shù)據(jù)缺失或關(guān)聯(lián)不足之處,提供后續(xù)采集或關(guān)聯(lián)的方向。
通過上述步驟,可以實(shí)現(xiàn)在大量現(xiàn)場(chǎng)數(shù)據(jù)中自動(dòng)識(shí)別事件關(guān)聯(lián)信息,構(gòu)建事件從發(fā)生到結(jié)束的完整追溯路徑,為事件影響因素分析和決策提供詳實(shí)依據(jù)。但也需警惕由于數(shù)據(jù)不完備或算法限制導(dǎo)致的路徑誤導(dǎo),需要專家驗(yàn)證與修正。
原因分析第一步是從構(gòu)建的事件追溯路徑和安全知識(shí)圖譜中提取所有可能影響事件發(fā)生的因素,主要包括:
(1) 數(shù)據(jù)異常點(diǎn)。如工藝參數(shù)超限,傳感器測(cè)量異常等,可能導(dǎo)致設(shè)備故障或操作錯(cuò)誤。
(2) 操作不當(dāng)。操作員錯(cuò)誤操作可能直接導(dǎo)致事件發(fā)生,需要檢查事件相關(guān)操作記錄。
(3) 設(shè)備問題。設(shè)備老化或潛在缺陷可能影響正常運(yùn)行,需要檢查維保記錄及歷史故障信息。
(4) 管理漏洞。如安全規(guī)程不完善、培訓(xùn)不足等管理方面原因,是較難識(shí)別但也需考慮的影響因素。
(5) 外界環(huán)境。如氣象條件變化、供電供料異常等外界環(huán)境變化也可能是事件癥結(jié)所在。
當(dāng)提取各種影響因素后,需要構(gòu)建這些因素之間的相互作用模型,識(shí)別對(duì)事件產(chǎn)生直接影響的因素。關(guān)系建模主要通過:
(1) 知識(shí)圖譜推理。利用構(gòu)建的安全知識(shí)圖譜,分析各因素與事件結(jié)果之間的邏輯關(guān)系與相互作用,判斷因果關(guān)系。
(2) 統(tǒng)計(jì)學(xué)分析。利用歷史數(shù)據(jù)對(duì)各影響因素與事件的對(duì)應(yīng)關(guān)系進(jìn)行統(tǒng)計(jì)學(xué)分析,得出因素作用的置信度。
(3) 專家驗(yàn)證。通過提出影響因素與關(guān)系模型,征詢專家意見進(jìn)行驗(yàn)證與修正,減少模型誤導(dǎo)的可能。
根據(jù)構(gòu)建的影響因素關(guān)系模型,可以確定最可能的原因:
(1) 綜合判斷??紤]各因素對(duì)事件產(chǎn)生影響的置信度和知識(shí)推理結(jié)果,綜合判斷作用最大的因素作為原因;
(2) 路徑追溯。從事件結(jié)果以因果邏輯推理至各影響因素,可以判斷導(dǎo)致后續(xù)影響的因素作為原因。
(3) 雙向驗(yàn)證。基于原因提出的假說,檢驗(yàn)其是否可以解釋導(dǎo)致事件產(chǎn)生的全部影響因素與變化過程。如果不能充分解釋,則需重新確定原因。
(4) 專家評(píng)估。將人工智能確定的原因提交專家評(píng)估,判斷其準(zhǔn)確性與合理性,必要時(shí)提出新的因素考慮。
原因分析的結(jié)果將決定后續(xù)的改進(jìn)方案和指導(dǎo)措施。所以,必須在數(shù)據(jù)和知識(shí)的支持下,采用多角度檢驗(yàn)的方式確保其準(zhǔn)確性,最大限度地減少由算法局限導(dǎo)致的誤判風(fēng)險(xiǎn)。同時(shí),也需要不斷通過實(shí)踐檢驗(yàn),優(yōu)化知識(shí)模型和分析方法。
總體而言,實(shí)現(xiàn)以數(shù)據(jù)和知識(shí)驅(qū)動(dòng)的原因分析需要安全知識(shí)圖譜與事件追溯的有力支撐。只有在全面考慮各類影響因素的基礎(chǔ)上,才能得出準(zhǔn)確可信的事件癥結(jié)判斷。這也為人工智能在復(fù)雜問題分析中的不足提出了更高要求。
石油天然氣生產(chǎn)現(xiàn)場(chǎng)涉及大量工藝設(shè)備與操作環(huán)節(jié),安全管理追溯難度大,數(shù)據(jù)驅(qū)動(dòng)的人工智能技術(shù)為其帶來新思路。語義分析人工智能技術(shù)可以實(shí)現(xiàn)對(duì)現(xiàn)場(chǎng)海量異構(gòu)數(shù)據(jù)的深入理解,構(gòu)建安全知識(shí)圖譜,開展事件追溯與原因分析,為現(xiàn)場(chǎng)安全管理決策提供信息化支撐。
總之,語義分析人工智能技術(shù)為實(shí)現(xiàn)石油天然氣生產(chǎn)現(xiàn)場(chǎng)“數(shù)據(jù)驅(qū)動(dòng)”、“全自動(dòng)化”的新一代安全管理追溯體系提供了可能。但也面臨一定的挑戰(zhàn),需要在實(shí)踐中不斷總結(jié)經(jīng)驗(yàn)、優(yōu)化提高。