韓建萍
(山西能源學(xué)院,太原 030600)
隨著信息通信技術(shù)的快速發(fā)展和信息化系統(tǒng)的建設(shè),煤礦企業(yè)已經(jīng)采集和積累了大量的數(shù)據(jù)。這些數(shù)據(jù)的有效處理和分析在煤礦安全生產(chǎn)中發(fā)揮著重要作用[1-3]。已有研究中,通過統(tǒng)一規(guī)劃和建設(shè),文獻(xiàn)[4-5]已經(jīng)實(shí)現(xiàn)了多個專業(yè)信息平臺的數(shù)據(jù)共享,文獻(xiàn)[6-8]已經(jīng)實(shí)現(xiàn)了大量多源異構(gòu)數(shù)據(jù)的分析,并應(yīng)用到煤礦安全管理[8]。但是,已有研究中,不同時間尺度采樣所獲取的數(shù)據(jù)未得到充分挖掘和有效利用,尤其是歷史數(shù)據(jù)的規(guī)律性研究、歸檔等大數(shù)據(jù)分析工作的成果與實(shí)時監(jiān)控數(shù)據(jù)的聯(lián)合分析能力需要進(jìn)一步提高。為解決這個問題,本文提出了一種基于大數(shù)據(jù)的煤礦安全監(jiān)控預(yù)警平臺,有效地將大數(shù)據(jù)技術(shù)應(yīng)用到了煤礦安全管理中。在數(shù)據(jù)處理層,本文提出了一種基于標(biāo)簽的單因素與多因素分級共享的大數(shù)據(jù)開放引擎架構(gòu),將實(shí)時數(shù)據(jù)與歷史數(shù)據(jù)進(jìn)行聯(lián)合分析和挖掘,實(shí)現(xiàn)了分析模型的共享使用。根據(jù)真實(shí)應(yīng)用場景下平臺的性能要求,設(shè)計了煤礦安全監(jiān)控預(yù)警平臺的技術(shù)選型和技術(shù)架構(gòu)。
通過對已有研究分析可知,當(dāng)前產(chǎn)生煤礦安全事件主要原因包括設(shè)備故障、管理失誤、環(huán)境因素超標(biāo)、從業(yè)人員操作失誤等[2,6,7]。其中,管理失誤、從業(yè)人員操作失誤屬于規(guī)范化管理范疇。本文主要研究如何對設(shè)備故障、環(huán)境因素超標(biāo)進(jìn)行實(shí)時預(yù)警,從而減少煤礦安全事故的發(fā)生。為了實(shí)現(xiàn)不同時間尺度采樣所獲取數(shù)據(jù)的充分挖掘和有效利用,本文提出了基于大數(shù)據(jù)的煤礦安全監(jiān)控預(yù)警平臺建設(shè)的原則為:事前實(shí)時預(yù)警,防患于未然;事后分析總結(jié)教訓(xùn),杜絕再次發(fā)生;采用人工智能和大數(shù)據(jù)技術(shù),實(shí)現(xiàn)快速智能化預(yù)警。
基于此,通過分析煤礦事故發(fā)生的因素,根據(jù)我國煤礦信息化水平和安全管理特點(diǎn),確定了基于大數(shù)據(jù)的煤礦安全監(jiān)控預(yù)警平臺的功能需求包括:一是需要實(shí)現(xiàn)煤礦安全監(jiān)控的數(shù)據(jù)采集和管理;二是需要實(shí)現(xiàn)煤礦安全事故的快速智能化預(yù)警。
為滿足平臺的功能需求,通過分析煤礦事故發(fā)生的因素,本文設(shè)計了基于大數(shù)據(jù)的煤礦安全監(jiān)控預(yù)警平臺,平臺架構(gòu)如圖1所示,包括數(shù)據(jù)采集層、數(shù)據(jù)優(yōu)化層、數(shù)據(jù)處理層、數(shù)據(jù)應(yīng)用層。
在數(shù)據(jù)采集層,通過與環(huán)境監(jiān)控平臺、設(shè)備監(jiān)控平臺、安全風(fēng)險監(jiān)控平臺、井下傳送平臺等系統(tǒng)對接,實(shí)現(xiàn)毫秒級的數(shù)據(jù)采集,以便實(shí)時監(jiān)控設(shè)備運(yùn)行狀態(tài)。需要采集的煤礦安全生產(chǎn)相關(guān)實(shí)時數(shù)據(jù)主要包括環(huán)境類數(shù)據(jù)、機(jī)器設(shè)備類數(shù)據(jù)。環(huán)境類數(shù)據(jù)主要包括瓦斯數(shù)據(jù)、空氣含量數(shù)據(jù)、煤礦壓力數(shù)據(jù)、煤礦水資源數(shù)據(jù)、電磁輻射數(shù)據(jù)、工作面開采速度等實(shí)時數(shù)據(jù)。機(jī)器設(shè)備類數(shù)據(jù)主要包括各種設(shè)備的功率數(shù)據(jù)、溫度數(shù)據(jù)、使用時長等實(shí)時數(shù)據(jù)。為了更好地進(jìn)行數(shù)據(jù)分析,需要獲得采煤技術(shù)和操作規(guī)范等基礎(chǔ)數(shù)據(jù)、區(qū)域地理和地質(zhì)等基礎(chǔ)數(shù)據(jù)、人員和設(shè)備基礎(chǔ)信息等煤礦安全生產(chǎn)相關(guān)的基礎(chǔ)數(shù)據(jù)作為輔助參考因素。
圖1 基于大數(shù)據(jù)的煤礦安全監(jiān)控預(yù)警平臺
在數(shù)據(jù)優(yōu)化層,主要實(shí)現(xiàn)數(shù)據(jù)的存儲、清洗、轉(zhuǎn)換??紤]到數(shù)據(jù)的類型多樣、數(shù)據(jù)采集時間較短等特點(diǎn),在數(shù)據(jù)存儲時,采用分布式文件平臺、NoSql數(shù)據(jù)庫,確保數(shù)據(jù)存儲平臺的實(shí)時性和可靠性。在數(shù)據(jù)清洗時,采用填補(bǔ)空缺數(shù)據(jù)、平滑噪聲數(shù)據(jù)、識別異常值等措施,確保數(shù)據(jù)的可用性。在數(shù)據(jù)轉(zhuǎn)換時,通過制定數(shù)據(jù)轉(zhuǎn)換的標(biāo)準(zhǔn),明確煤礦數(shù)據(jù)交換內(nèi)容和交換協(xié)議,將多個數(shù)據(jù)源的數(shù)據(jù)合并成一致的、無冗余的數(shù)據(jù)存儲。
在數(shù)據(jù)處理層,采用統(tǒng)計分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等技術(shù)和算法,基于設(shè)備、環(huán)境的實(shí)時數(shù)據(jù)、歷史數(shù)據(jù),通過建立事故分析模型、可靠性評價模型、預(yù)警模型等,實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)計分析和挖掘。為了提高數(shù)據(jù)處理結(jié)果的共用性并實(shí)現(xiàn)實(shí)時預(yù)警,根據(jù)煤礦安全事件的歷史數(shù)據(jù)和相關(guān)因素,對設(shè)備、環(huán)境等建立標(biāo)簽,便于快速響應(yīng)和發(fā)現(xiàn)安全隱患。數(shù)據(jù)處理層將在下一節(jié)進(jìn)行詳細(xì)描述。
在數(shù)據(jù)應(yīng)用層,通過分析煤礦安全事件的關(guān)聯(lián)關(guān)系,基于數(shù)據(jù)處理層的數(shù)據(jù)分析模型,實(shí)現(xiàn)煤礦安全可靠性評價、煤礦安全事故綜合分析、煤礦安全實(shí)時預(yù)警,從而實(shí)現(xiàn)實(shí)時和非實(shí)時數(shù)據(jù)的有效利用,更好的確保煤礦安全。一是煤礦安全事故綜合分析;二是煤礦安全可靠性評價;三是煤礦安全實(shí)時預(yù)警。為了便于管理,本文提出基于危險源的煤礦安全實(shí)時預(yù)警機(jī)制,可以將煤礦安全的預(yù)警分為自燃預(yù)警、設(shè)備故障預(yù)警、瓦斯?jié)舛阮A(yù)警、水害預(yù)警等。
為了將歷史數(shù)據(jù)的規(guī)律性研究成果與實(shí)時監(jiān)控數(shù)據(jù)的進(jìn)行聯(lián)合分析,實(shí)現(xiàn)煤礦安全事故的快速預(yù)警,在實(shí)現(xiàn)數(shù)據(jù)處理層時,本文設(shè)計了一種基于標(biāo)簽的單因素與多因素分級共享的大數(shù)據(jù)開放引擎架構(gòu)。該架構(gòu)如圖2所示,包括單因素標(biāo)簽層、關(guān)聯(lián)分析和深度挖掘?qū)印⒍嘁蛩胤治瞿P蛯?。一是單因素?biāo)簽層:為了提高實(shí)時數(shù)據(jù)分析和響應(yīng)速度,將設(shè)備和環(huán)境的相關(guān)因素中涉及安全的關(guān)鍵數(shù)據(jù)源抽取出來構(gòu)成單因素?;趩我蛩氐臄?shù)據(jù)特征,構(gòu)造出風(fēng)險評級、事故發(fā)生率等標(biāo)簽,通過標(biāo)簽可以非??焖俚姆从趁旱V安全關(guān)鍵因素的狀態(tài),實(shí)現(xiàn)煤礦安全的快速響應(yīng)。二是關(guān)聯(lián)分析與深度挖掘?qū)樱涸搶影珹priori、FP-Growth、DMFIA等關(guān)聯(lián)算法[9],以及邏輯回歸、支持向量機(jī)、聚類、決策樹等機(jī)器學(xué)習(xí)算法。
圖2 大數(shù)據(jù)開放引擎體系結(jié)構(gòu)
這些算法可以將大數(shù)據(jù)技術(shù)與瓦斯突出、煤礦水害、煤礦火災(zāi)等事故現(xiàn)象相結(jié)合,建立基于大數(shù)據(jù)煤礦災(zāi)害預(yù)警模型。三是多因素分析模型層:為了實(shí)現(xiàn)應(yīng)用層的各項(xiàng)功能,充分利用單因素標(biāo)簽的已有知識,通過關(guān)聯(lián)分析和深度挖掘的相關(guān)算法,綜合多個因素標(biāo)簽的關(guān)系,生成可靠性評價模型、實(shí)時預(yù)警模型、綜合分析模型等三大類模型。下面對單因素標(biāo)簽、多因素分析模型進(jìn)行詳細(xì)介紹。
通常來說,標(biāo)簽是對事物屬性狀態(tài)的一種結(jié)論性描述,是對屬性狀態(tài)的一種高度精煉,是一種把抽象數(shù)據(jù)進(jìn)行形象化描述的方法,不但有助于相關(guān)人員對抽象數(shù)據(jù)進(jìn)行理解,而且容易實(shí)現(xiàn)事物屬性狀態(tài)的快速共享[10-12]。為實(shí)現(xiàn)毫秒級的數(shù)據(jù)控制和對事故的快速預(yù)警,需要建立足夠多的標(biāo)簽數(shù)據(jù)庫?;诖耍瑢τ诓杉臄?shù)據(jù)源,抽取安全相關(guān)的危險源,梳理安全因素并建立標(biāo)簽,實(shí)現(xiàn)快速響應(yīng)、資源共享。例如,在環(huán)境方面,建立水壓、水位、涌水量、瓦斯含量、瓦斯涌出量、瓦斯壓力、氧氣濃度等危險源的單因素標(biāo)簽。在設(shè)備方面,建立水泵、變壓器、通風(fēng)機(jī)、采煤機(jī)、掘進(jìn)機(jī)等危險源的單因素標(biāo)簽。這些標(biāo)簽作為煤礦環(huán)境和設(shè)備運(yùn)行狀態(tài)的虛擬代表,各種煤礦環(huán)境和設(shè)備的標(biāo)簽?zāi)軌驕?zhǔn)確反映其運(yùn)行狀態(tài)。這樣對于煤礦安全的實(shí)時預(yù)警起到非常關(guān)鍵的作用。本文提出的單因素標(biāo)簽包括事故發(fā)生概率標(biāo)簽、風(fēng)險評級標(biāo)簽。
(1)事故發(fā)生概率標(biāo)簽。分析當(dāng)前因素和事故發(fā)生數(shù)據(jù),發(fā)掘事故發(fā)生概率與當(dāng)前因素的內(nèi)在關(guān)聯(lián)關(guān)系,從而利用當(dāng)前因素計算煤礦發(fā)生安全生產(chǎn)事故的概率。通過學(xué)習(xí)歷史安全事故發(fā)生規(guī)律,建立當(dāng)前因素的安全事故預(yù)測模型,并據(jù)此設(shè)定警戒區(qū)間,當(dāng)超出預(yù)警區(qū)間時,則進(jìn)行預(yù)警,以防范安全事故發(fā)生。例如:變壓器故障事故發(fā)生率需要使用變壓器額定負(fù)荷LR、實(shí)時運(yùn)行負(fù)荷LT、環(huán)境溫度、起始負(fù)荷以及不同邊界下的主變過負(fù)荷剩余時間t等數(shù)據(jù)源。變壓器故障事故發(fā)生率標(biāo)簽分類為正常、1級預(yù)警、2級預(yù)警、3級預(yù)警。當(dāng)LTLR≤1時,事故發(fā)生率標(biāo)簽為正常;當(dāng)LTLR>1且剩余運(yùn)行時間t>30min 時,事故發(fā)生率標(biāo)簽為1級;當(dāng)LTLR>1且剩余運(yùn)行時間10min<t LTLR<30min時,事故發(fā)生率標(biāo)簽為2級;當(dāng)>1且剩余運(yùn)行時間1min<t<10min時,事故發(fā)生率標(biāo)簽為3級。
(2)風(fēng)險評級標(biāo)簽。通過數(shù)據(jù)分析技術(shù)對煤礦安全生產(chǎn)歷史數(shù)據(jù)進(jìn)行分析,評估煤礦安全生產(chǎn)的風(fēng)險等級?;诖藢Ξ?dāng)前因素進(jìn)行異常檢測時,如發(fā)生風(fēng)險評級預(yù)警,可及時進(jìn)行防范,避免安全事故的發(fā)生。例如:以變壓器為例,通過分析事故發(fā)生率標(biāo)簽、變壓器組網(wǎng)、事故知識庫等數(shù)據(jù)源,可以將風(fēng)險評級標(biāo)簽分為正常、1級預(yù)警、2級預(yù)警。當(dāng)事故發(fā)生率標(biāo)簽為正常時,風(fēng)險評級標(biāo)簽為正常;當(dāng)事故發(fā)生率標(biāo)簽為非正常、并且變壓器組網(wǎng)包含后備電力時,風(fēng)險評級標(biāo)簽為1級預(yù)警;當(dāng)事故發(fā)生率標(biāo)簽為非正常,變壓器組網(wǎng)不包含后備電力、且事故知識庫中包含由此導(dǎo)致事故時,風(fēng)險評級標(biāo)簽為2級預(yù)警。
預(yù)警模型已有較多研究成果,但是已有研究模型都比較獨(dú)立,缺少共用[5-6,13]。為了實(shí)現(xiàn)應(yīng)用層的各項(xiàng)功能,充分利用單因素標(biāo)簽的已有知識,通過關(guān)聯(lián)分析和深度挖掘的相關(guān)算法,綜合多個因素標(biāo)簽的關(guān)系,生成可靠性評價模型、實(shí)時預(yù)警模型、綜合分析模型等三大類模型。例如:以通風(fēng)系統(tǒng)可靠性評價為例,其需考慮通風(fēng)系統(tǒng)、瓦斯監(jiān)測系統(tǒng)、設(shè)備監(jiān)測系統(tǒng)等多種因素和基礎(chǔ)數(shù)據(jù)。通過共用單因素標(biāo)簽,可以快速生成所需的各種高層次模型。以煤礦水害的相關(guān)研究為例,可以通過分析水壓、水位、涌水量等多種相關(guān)的單因素數(shù)據(jù),采用關(guān)聯(lián)分析算法和深度挖掘算法,建立突水水源判別模型、突水量等級預(yù)測模型、水害安全評價模型等基礎(chǔ)模型。基于這些基礎(chǔ)模型,可以快速生成應(yīng)用層的水害實(shí)時預(yù)警模型,用于煤礦水害事故的實(shí)時預(yù)警[14-15]。
在技術(shù)實(shí)現(xiàn)部分,基于對已有大數(shù)據(jù)平臺的分析[3,5,16],結(jié)合煤礦的現(xiàn)場實(shí)際情況和大數(shù)據(jù)中流計算框架,提出了基于大數(shù)據(jù)的煤礦安全監(jiān)控預(yù)警平臺技術(shù)實(shí)現(xiàn)框架如圖3所示。該技術(shù)實(shí)現(xiàn)框架包括前端采集層、前端工作站層、后端集群層。前端采集層主要實(shí)現(xiàn)與現(xiàn)有采集系統(tǒng)的對接。前端工作站層通過獲取采集的數(shù)據(jù),并根據(jù)本地規(guī)則、本地緩存,實(shí)時確定是否發(fā)出預(yù)警,實(shí)現(xiàn)煤礦安全實(shí)時預(yù)警的功能。后端集群層通過快速的數(shù)據(jù)存儲、近實(shí)時狀態(tài)調(diào)整、模型發(fā)現(xiàn)及狀態(tài)調(diào)整,實(shí)現(xiàn)煤礦安全可靠性評價、煤礦安全綜合分析的功能。在技術(shù)選型方面,本文采用Flume、kaf ka、HDFS構(gòu)建采集架構(gòu),采用spark、spark streaming、storm構(gòu)建計算架構(gòu),從而實(shí)現(xiàn)煤礦安全數(shù)據(jù)的高效采集,提高平臺預(yù)警的實(shí)時性和準(zhǔn)確性。下面對前端工作站層和后端集群層進(jìn)行詳細(xì)介紹。
圖3 平臺技術(shù)實(shí)現(xiàn)
在前端工作站層,需要實(shí)現(xiàn)平臺在毫秒級對事件作出可靠的響應(yīng)。因?yàn)楸镜鼐彺婵梢詫?shí)現(xiàn)亞微妙級別的數(shù)據(jù)獲取延遲。為確保實(shí)時性,采用HBase 及其它內(nèi)存數(shù)據(jù)庫,實(shí)現(xiàn)快速地獲取和更新數(shù)據(jù)。為了克服本地緩存的內(nèi)存大小限制,通過配置HBase以保證能夠在塊緩存中找到所需要的數(shù)據(jù),以分布式內(nèi)存緩存方式在集群節(jié)點(diǎn)中分發(fā)數(shù)據(jù)。如圖3所示,前端設(shè)備根據(jù)采集的數(shù)據(jù)生成單因素標(biāo)簽,并與HBase中的標(biāo)簽數(shù)據(jù)進(jìn)行對比,可以快速判斷是否進(jìn)行預(yù)警。
在后端集群層,平臺需要每秒處理數(shù)百萬條數(shù)據(jù)。本文采取快速的數(shù)據(jù)存儲、近實(shí)時的狀態(tài)調(diào)整、非實(shí)時的模型發(fā)現(xiàn)及狀態(tài)調(diào)整3個措施解決此問題:一是快速的數(shù)據(jù)存儲:前端設(shè)備與后端集群之間,建立消息隊列平臺Kaf ka,由Kaf ka將數(shù)據(jù)發(fā)送給Flume,由Flume實(shí)現(xiàn)數(shù)據(jù)的HDFS存儲。二是近實(shí)時的狀態(tài)調(diào)整:為實(shí)現(xiàn)預(yù)警的實(shí)時性,通常需要在事件發(fā)生之后的若干秒到幾分鐘內(nèi)完成進(jìn)行響應(yīng)。為實(shí)現(xiàn)近實(shí)時的狀態(tài)分析,由Kaf ka將數(shù)據(jù)發(fā)送給Storm/Spark Streaming,通過快速計算的能力,實(shí)現(xiàn)近實(shí)時的事件分析。三是非實(shí)時的模型發(fā)現(xiàn)及狀態(tài)調(diào)整:為充分利用歷史事件數(shù)據(jù),需要在事件發(fā)送后的若干小時或幾天內(nèi)完成歷史事件的分析并挖掘其中隱含的原因和規(guī)律。本文采用Spark/Impala組件針對標(biāo)簽數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí);例如,采用支持向量機(jī)和貝葉斯網(wǎng)絡(luò),針對標(biāo)簽數(shù)據(jù)的監(jiān)督學(xué)習(xí),可以區(qū)分風(fēng)險數(shù)據(jù);采用K-Means聚類算法能夠?qū)ο嗨剖录M(jìn)行聚類,從而對特定的類別進(jìn)行判定。
為解決煤礦安全的實(shí)時數(shù)據(jù)與歷史數(shù)據(jù)未得到充分聯(lián)合分析和挖掘的問題,本文分析了煤礦事故發(fā)生的因素,設(shè)計了基于大數(shù)據(jù)的煤礦安全監(jiān)控預(yù)警平臺。為了將實(shí)時數(shù)據(jù)與歷史數(shù)據(jù)進(jìn)行充分聯(lián)合分析和挖掘,在數(shù)據(jù)處理層,本文提出了一種基于標(biāo)簽的單因素與多因素分級共享的大數(shù)據(jù)開放引擎體系架構(gòu)。該架構(gòu)不但可以結(jié)合實(shí)時監(jiān)控數(shù)據(jù)進(jìn)行實(shí)時響應(yīng),而且可以生成多種模型,便于應(yīng)用層進(jìn)行共享使用。通過分析可知,該平臺能夠提前發(fā)現(xiàn)、分析和判斷影響煤礦安全生產(chǎn)的狀態(tài)和可能導(dǎo)致事故發(fā)生的數(shù)據(jù),及時發(fā)布安全生產(chǎn)預(yù)警信息,最大限度地降低事故發(fā)生概率。