薛彥宇 杜志虎 吳同心
石油石化企業(yè)HSE信息系統(tǒng)是建立在國(guó)際先進(jìn)的HSE管理理念和方法基礎(chǔ)之上的信息系統(tǒng),對(duì)全面推進(jìn)HSE體系建設(shè)工作提供了重要載體和有效工具,對(duì)石油石化行業(yè)的健康安全發(fā)展具有重要意義。
隨著信息技術(shù)的飛速發(fā)展,產(chǎn)生了大量的分散在各信息系統(tǒng)中的數(shù)據(jù)。面對(duì)大量孤立的數(shù)據(jù)資源,如何有效的管理和重用數(shù)據(jù)信息,挖掘出對(duì)企業(yè)有重要價(jià)值的信息從而為企業(yè)決策者提供風(fēng)險(xiǎn)分析和決策支持的有效依據(jù),成為信息系統(tǒng)發(fā)展面臨的一個(gè)亟需解決的問(wèn)題。此時(shí),數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)的產(chǎn)生和發(fā)展為該問(wèn)題提供了有效的解決方法。本文對(duì)數(shù)據(jù)挖掘技術(shù)在石油石化企業(yè)HSE信息系統(tǒng)建設(shè)中的應(yīng)用做了初步分析,重點(diǎn)分析了決策支持樹(shù)算法和關(guān)聯(lián)規(guī)則在HSE信息系統(tǒng)中的應(yīng)用。并舉例表明,數(shù)據(jù)挖掘技術(shù)應(yīng)用于HSE信息系統(tǒng)能夠有效的挖掘出潛在的知識(shí),并可為企業(yè)決策提供支持。本文主要是對(duì)數(shù)據(jù)挖掘技術(shù)在石油石化企業(yè)HSE信息系統(tǒng)建設(shè)中的應(yīng)用做了積極的嘗試,對(duì)企業(yè)的HSE信息管理、風(fēng)險(xiǎn)分析、決策支持具有一定的參考價(jià)值。
引言
石油石化企業(yè)HSE信息系統(tǒng)是建立在國(guó)際先進(jìn)的HSE管理理念和方法基礎(chǔ)之上的信息系統(tǒng),對(duì)全面推進(jìn)HSE體系建設(shè)工作提供了重要載體和有效工具,對(duì)石油石化行業(yè)的健康安全發(fā)展具有重要意義。HSE信息系統(tǒng)加強(qiáng)了數(shù)據(jù)錄入管理,確保了數(shù)據(jù)的準(zhǔn)確性、及時(shí)性及規(guī)范性,因此也累積了大量的數(shù)據(jù)信息。數(shù)據(jù)作為信息的載體,其存儲(chǔ)工具(數(shù)據(jù)庫(kù))在過(guò)去幾十年間得以迅速發(fā)展,使得數(shù)據(jù)存儲(chǔ)問(wèn)題基本得到解決。雖然這些大量存儲(chǔ)在數(shù)據(jù)庫(kù)中的數(shù)據(jù)本身是沒(méi)有意義的,但由數(shù)據(jù)及對(duì)數(shù)據(jù)的解釋和分析所構(gòu)成的信息,卻是一種價(jià)值菲薄的資源。因此,對(duì)大量數(shù)據(jù)進(jìn)行分析,從中提取出對(duì)企業(yè)有重要價(jià)值的信息成為當(dāng)下熱點(diǎn),在此情形下,數(shù)據(jù)挖掘技術(shù)在HSE信息系統(tǒng)中的應(yīng)用成為企業(yè)風(fēng)險(xiǎn)分析和決策支持的利器。
隨著科學(xué)管理方法的應(yīng)用和推廣,數(shù)據(jù)分析技術(shù)在企業(yè)信息管理中的作用得到了前所未有的發(fā)揮。數(shù)據(jù)挖掘則是一種有效的數(shù)據(jù)分析技術(shù),在許多行業(yè)中扮演著越來(lái)越重要的角色。數(shù)據(jù)挖掘所固有的挖掘潛在有價(jià)值信息的特性,使其在眾多領(lǐng)域得到成功運(yùn)用,如市場(chǎng)預(yù)測(cè)、互聯(lián)網(wǎng)營(yíng)銷(xiāo)、銀行業(yè)務(wù)、通訊行業(yè)等諸多領(lǐng)域。美國(guó)鋼鐵公司利用基于數(shù)據(jù)挖掘技術(shù)的ISPA系統(tǒng)研究分析產(chǎn)品性能規(guī)律并進(jìn)行質(zhì)量控制,取得了顯著效果。美國(guó)著名市場(chǎng)研究公司Information Resources等紛紛使用數(shù)據(jù)挖掘工具來(lái)應(yīng)對(duì)迅速增長(zhǎng)的銷(xiāo)售和市場(chǎng)信息,通過(guò)市場(chǎng)預(yù)測(cè)取得了巨大收益[1]。
與國(guó)外相比,國(guó)內(nèi)對(duì)數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究稍晚,并沒(méi)有普及到各行各業(yè)中。石油石化企業(yè)HSE信息系統(tǒng)的數(shù)據(jù)挖掘是發(fā)現(xiàn)和利用企業(yè)安全、環(huán)保、健康數(shù)據(jù)內(nèi)在知識(shí),實(shí)現(xiàn)系統(tǒng)深層次應(yīng)用的關(guān)鍵技術(shù)手段。然而,目前國(guó)內(nèi)大多數(shù)石油石化企業(yè)HSE信息系統(tǒng)僅實(shí)現(xiàn)了數(shù)據(jù)規(guī)范化錄入、存儲(chǔ)及簡(jiǎn)單的匯總統(tǒng)計(jì)和分類(lèi)查詢(xún)的功能,并沒(méi)有對(duì)原始數(shù)據(jù)進(jìn)行深層次的挖掘,無(wú)法實(shí)現(xiàn)對(duì)企業(yè)健康安全環(huán)保未來(lái)趨勢(shì)的分析、預(yù)測(cè)、等功能,無(wú)法幫助企業(yè)發(fā)現(xiàn)業(yè)務(wù)的發(fā)展趨勢(shì),預(yù)測(cè)未知的結(jié)果。本文首先介紹了數(shù)據(jù)挖掘技術(shù)的概念及關(guān)鍵技術(shù),然后對(duì)數(shù)據(jù)挖掘技術(shù)在企業(yè)HSE信息系統(tǒng)建設(shè)中的應(yīng)用做了初步分析,重點(diǎn)分析了決策支持樹(shù)算法和關(guān)聯(lián)規(guī)則挖掘在HSE信息系統(tǒng)中的應(yīng)用。實(shí)例表明,數(shù)據(jù)挖掘技術(shù)應(yīng)用于HSE信息系統(tǒng)能夠有效的挖掘出潛在的知識(shí),并可為企業(yè)決策提供支持。
數(shù)據(jù)挖掘技術(shù)概念及數(shù)據(jù)挖掘方法
數(shù)據(jù)挖掘技術(shù)的產(chǎn)生和發(fā)展使得人們可以從數(shù)據(jù)中挖掘出有用的、隱藏的知識(shí),數(shù)據(jù)挖掘是一門(mén)多學(xué)科的綜合產(chǎn)物,包括數(shù)據(jù)庫(kù)技術(shù)、人工智能、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、模式識(shí)別、統(tǒng)計(jì)學(xué)等學(xué)科。數(shù)據(jù)挖掘通常定義為,從海量數(shù)據(jù)中抽取出隱含的、先前未知的并具有潛在價(jià)值的模型或規(guī)則等有用知識(shí)的非平凡過(guò)程,是一類(lèi)深層次的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘是一種決策支持過(guò)程,它可以對(duì)數(shù)據(jù)進(jìn)行分析、歸納、推理,從而挖掘出潛在的模式,為決策者提供決策支持。
(1)數(shù)據(jù)挖掘的過(guò)程,具體分為以下步驟:
數(shù)據(jù)清理:消除重復(fù)的、不完全的、違反語(yǔ)義約束的數(shù)據(jù)。
數(shù)據(jù)集成:多種數(shù)據(jù)源可以組合在一起,通過(guò)數(shù)據(jù)提取程序聚集到數(shù)據(jù)倉(cāng)庫(kù)中。
數(shù)據(jù)選擇:從數(shù)據(jù)倉(cāng)庫(kù)中檢索與分析任務(wù)相關(guān)的數(shù)據(jù)。
數(shù)據(jù)變換:數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式,如通過(guò)匯總或聚集操作。
數(shù)據(jù)挖掘:通過(guò)數(shù)學(xué)的、非數(shù)學(xué)的、演繹的或歸納的數(shù)據(jù)挖掘方法提取規(guī)則模式。
模式評(píng)估:根據(jù)某種興趣度度量,識(shí)別規(guī)則模式中真正有趣的模式。
知識(shí)表示:使用可視化和知識(shí)表示技術(shù),向用戶(hù)展示挖掘出的知識(shí)。
(2)數(shù)據(jù)挖掘主要方法
在數(shù)據(jù)挖掘的整個(gè)過(guò)程中,數(shù)據(jù)挖掘的方法是最為關(guān)鍵的。利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析常用的方法主要有關(guān)聯(lián)規(guī)則、決策樹(shù)、聚類(lèi)、神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)等,它們分別從不同的角度對(duì)數(shù)據(jù)進(jìn)行挖掘。
1. 關(guān)聯(lián)規(guī)則方法:基于關(guān)聯(lián)規(guī)則法的數(shù)據(jù)挖掘是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性。關(guān)聯(lián)規(guī)則反映一個(gè)事物與其他事物之間的相互依存性和關(guān)聯(lián)性。如果兩個(gè)或者多個(gè)事物之間存在一定的關(guān)聯(lián)關(guān)系,那么,其中一個(gè)事物就能夠通過(guò)其他事物進(jìn)行預(yù)測(cè)。
2. 決策樹(shù)方法:決策樹(shù)方法主要用于分類(lèi)和預(yù)測(cè)?;跊Q策樹(shù)方法的數(shù)據(jù)挖掘是利用信息論中的信息增益尋找數(shù)據(jù)庫(kù)中具有最大信息量的字段,建立決策樹(shù)的一個(gè)結(jié)點(diǎn),再根據(jù)字段的不同取值建立樹(shù)的分支;在每個(gè)分枝子集中,重復(fù)建立樹(shù)的下層結(jié)點(diǎn)和分支的過(guò)程,即可建立決策樹(shù)。然后把決策樹(shù)的節(jié)點(diǎn)分裂過(guò)程轉(zhuǎn)化為“if….then….”的規(guī)則,利用這些規(guī)則就可以對(duì)新數(shù)據(jù)進(jìn)行分類(lèi)。其中最具代表性的是CART,ID3,C4.5等算法。
3. 分類(lèi)聚類(lèi)法:基于分類(lèi)的數(shù)據(jù)挖掘就是假定數(shù)據(jù)庫(kù)中的每個(gè)對(duì)象屬于一個(gè)特定的類(lèi),然后根據(jù)不同的分類(lèi)方法將數(shù)據(jù)庫(kù)中的數(shù)據(jù)分配到各類(lèi)中去。而基于聚類(lèi)的數(shù)據(jù)挖掘是將實(shí)體對(duì)象集合依照某種相似性度量原則劃分為若干個(gè)類(lèi)似實(shí)體對(duì)象組成的多個(gè)類(lèi)或簇的過(guò)程。分類(lèi)和聚類(lèi)都是一個(gè)對(duì)目標(biāo)數(shù)據(jù)進(jìn)行劃分,使類(lèi)間的相似性盡可能的小,類(lèi)內(nèi)相似性盡量大的過(guò)程。他們的區(qū)別在于分類(lèi)事先知道類(lèi)的個(gè)數(shù)及特征,而聚類(lèi)則事先不知道。
4. 神經(jīng)網(wǎng)絡(luò)法:人工神經(jīng)網(wǎng)絡(luò)通過(guò)模擬人類(lèi)的思維行為,能夠高效率地解決預(yù)測(cè)、模式識(shí)別、分類(lèi)和聚類(lèi)分析等數(shù)據(jù)挖掘問(wèn)題?;谏窠?jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘無(wú)須事先建模,因此對(duì)于缺乏理論模型和先驗(yàn)知識(shí)的數(shù)據(jù)挖掘問(wèn)題具有較好的適應(yīng)性。人工神經(jīng)網(wǎng)絡(luò)具有分布式存儲(chǔ)信息的特點(diǎn),并且能夠自組織學(xué)習(xí)和并行處理信息,因此能夠解決眾多以往方法很難解決高復(fù)雜度問(wèn)題。
5. 機(jī)器學(xué)習(xí)法:機(jī)器學(xué)習(xí)的目的是根據(jù)給定的訓(xùn)練樣本求輸入輸出之間依賴(lài)關(guān)系,使它能夠?qū)ξ粗敵鲎龀霰M可能準(zhǔn)確地預(yù)測(cè)。大多數(shù)機(jī)器學(xué)習(xí)方法使用人類(lèi)的認(rèn)識(shí)模型模仿人類(lèi)的學(xué)習(xí)方法從數(shù)據(jù)中提取知識(shí),由于機(jī)器學(xué)習(xí)經(jīng)過(guò)多年的研究,已取得了一些較滿(mǎn)意的成果,因此,在數(shù)據(jù)挖掘中可以利用目前比較成熟的機(jī)器學(xué)習(xí)方法。
數(shù)據(jù)挖掘技術(shù)在HSE信息系統(tǒng)中的應(yīng)用分析
數(shù)據(jù)挖掘技術(shù)應(yīng)用于石油石化企業(yè)HSE信息系統(tǒng),能夠幫助企業(yè)更有效的控制重大災(zāi)害事故的發(fā)生,并能預(yù)測(cè)將來(lái)可能會(huì)發(fā)生事故的重大隱患;能夠降低企業(yè)處理安全、健康隱患的成本;更好的實(shí)現(xiàn)社會(huì)效益、環(huán)境效益及經(jīng)濟(jì)效益。HSE信息系統(tǒng)與數(shù)據(jù)挖掘技術(shù)的結(jié)合能夠更有效的削減和控制企業(yè)在生產(chǎn)過(guò)程中存在的健康、安全、環(huán)境等危害因素,對(duì)規(guī)范企業(yè)HSE管理,降低企業(yè)運(yùn)營(yíng)風(fēng)險(xiǎn),樹(shù)立企業(yè)形象有積極的推進(jìn)作用。本文通過(guò)介紹關(guān)聯(lián)規(guī)則法和決策樹(shù)法這兩種典型的數(shù)據(jù)挖掘方法在HSE信息系統(tǒng)中的應(yīng)用來(lái)分析數(shù)據(jù)挖掘技術(shù)對(duì)HSE信息系統(tǒng)數(shù)據(jù)分析能力的有效提升,實(shí)例說(shuō)明數(shù)據(jù)挖掘技術(shù)在HSE系統(tǒng)建設(shè)中的意義之所在。
基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘在HSE系統(tǒng)中的應(yīng)用分析
關(guān)聯(lián)模式是數(shù)據(jù)挖掘的一種重要模式,其主要任務(wù)就是挖掘事物之間潛在的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則的目的是在一個(gè)數(shù)據(jù)集中找出項(xiàng)與項(xiàng)之間的內(nèi)在關(guān)系,也稱(chēng)之為購(gòu)物藍(lán)分析,即通過(guò)事物之間的關(guān)聯(lián)規(guī)則,可以根據(jù)一種行為的發(fā)生,來(lái)推測(cè)另一種行為的發(fā)生概率,從而更好地掌握看似毫無(wú)關(guān)系的事物之間的發(fā)展規(guī)律,這也是基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘意義之所在。
關(guān)聯(lián)規(guī)則的形式如下A => B[support, confidence],其中support為支持度,支持度為在所有事件中,A事件和B事件同時(shí)發(fā)生的概率;confidence為置信度,置信度是根據(jù)A事件的發(fā)生,推斷B事件發(fā)生的可信程度、可靠程度。他們分別描述了關(guān)聯(lián)規(guī)則的有用性和確定性。其中支持度support(A=>B)=support(A∪B)=P(A∪B),即A和B同時(shí)發(fā)生的概率;置信度confidence(A=>B)=P(B|A)=P(A∪B)/P(A),是一個(gè)條件概率,即在A發(fā)生的事件中同時(shí)發(fā)生B的概率。例如關(guān)聯(lián)規(guī)則:購(gòu)買(mǎi)面包 =>購(gòu)買(mǎi)牛奶[10%, 60%],意味著10%的顧客同時(shí)購(gòu)買(mǎi)面包和牛奶,購(gòu)買(mǎi)面包的顧客60%也會(huì)購(gòu)買(mǎi)牛奶。
關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘主要分為兩步:1)找出所有頻繁項(xiàng)集,即根據(jù)最小支持度找出所有頻繁項(xiàng)集,頻繁項(xiàng)集為大于最小支持度的項(xiàng)集。2)由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,在所有的頻繁項(xiàng)集中,如果它們的置信度大于或等于最小可信度,就可以根據(jù)這些頻繁集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。
本文以某石化企業(yè)HSE信息系統(tǒng)為系統(tǒng)原型,介紹關(guān)聯(lián)規(guī)則算法在HSE系統(tǒng)中的應(yīng)用。
本例屬于多維關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘,為了簡(jiǎn)化說(shuō)明數(shù)據(jù)挖掘的應(yīng)用,本文不一步一步按照關(guān)聯(lián)規(guī)則算法的步驟進(jìn)行關(guān)聯(lián)規(guī)則的挖掘,而是假設(shè)存在一個(gè)既定的規(guī)則,我們通過(guò)計(jì)算來(lái)驗(yàn)證該規(guī)則的可信性。本文假設(shè)存在這樣一個(gè)規(guī)則:承包商(X,"是" )∧事故日期(X,第三季度)=>事故類(lèi)型(X,"交通事故" )。此處事故日期已經(jīng)進(jìn)行離散化處理,離散化后的數(shù)據(jù)集如表1。該數(shù)據(jù)為測(cè)試數(shù)據(jù),僅作為挖掘算法在HSE信息系統(tǒng)中的應(yīng)用分析所用。
經(jīng)統(tǒng)計(jì)計(jì)算得,支持度support(承包商(X,是)∧事故日期(X,第三季度)=>事故類(lèi)型(X,交通事故))=62?200=31%。
confidence(承包商(X,是)∧事故日期(X,第三季度)=>事故類(lèi)型(X,交通事故))=(62/200)/(95/200)=65.3%。因此,該關(guān)聯(lián)規(guī)則的支持度為31%,置信度為65.3%。意味著,在所有的事故事件中事故方為承包商、事故日期為第三季度、事故類(lèi)型為交通事故同時(shí)出現(xiàn)的概率為31%,當(dāng)事故方為承包商、事故日期為第三季度時(shí),有65.3%的可能發(fā)生的是交通事故。因此,我們有理由相信承包商、第三季度與交通事故之間有較強(qiáng)的相關(guān)性,當(dāng)承包商和第三季度這兩個(gè)因素同時(shí)出現(xiàn)的時(shí)候,應(yīng)該做好交通事故的防范。
基于決策樹(shù)的數(shù)據(jù)挖掘在HSE系統(tǒng)中的應(yīng)用分析
決策樹(shù)學(xué)習(xí)是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,它著眼于從一組無(wú)次序、無(wú)規(guī)則的事例中推理出決策樹(shù)表示形式的分類(lèi)規(guī)則,通常用來(lái)形成分類(lèi)器和預(yù)測(cè)模型,可以對(duì)未知數(shù)據(jù)進(jìn)行分類(lèi)或預(yù)測(cè)?;跊Q策樹(shù)的數(shù)據(jù)挖掘是屬于預(yù)測(cè)式數(shù)據(jù)挖掘的一種數(shù)據(jù)分析方法,其目的是根據(jù)樣本數(shù)據(jù)集找出能準(zhǔn)確描述并區(qū)分?jǐn)?shù)據(jù)類(lèi)或概念的模型,以便依據(jù)實(shí)體的屬性值及其它約束條件將其劃分到某個(gè)數(shù)據(jù)類(lèi)別中去[2]。決策樹(shù)的構(gòu)成包括三個(gè)步驟:第一步為決策樹(shù)生成階段,根據(jù)部分訓(xùn)練樣本集,按照廣度優(yōu)先遞歸算法建立決策樹(shù),直到每個(gè)葉子節(jié)點(diǎn)都屬于某一類(lèi)為止;第二步為決策樹(shù)剪枝階段,利用剩余的數(shù)據(jù)對(duì)決策樹(shù)進(jìn)行檢驗(yàn),去掉一些可能是噪音或者異常的數(shù)據(jù),降低噪聲數(shù)據(jù)對(duì)分類(lèi)正確率的影響;第三步即使用決策樹(shù)對(duì)未知數(shù)據(jù)進(jìn)行分類(lèi),從決策樹(shù)的根節(jié)點(diǎn)到葉節(jié)點(diǎn)的一條路徑就形成了一條分類(lèi)規(guī)則。
本文以ID3(Iterative Dichotomizer 3)決策樹(shù)算法為例介紹基于決策樹(shù)的數(shù)據(jù)挖掘在HSE信息系統(tǒng)中的應(yīng)用。ID3算法是決策樹(shù)算法的代表,用信息增益作為決策樹(shù)各級(jí)節(jié)點(diǎn)屬性選擇的標(biāo)準(zhǔn),在構(gòu)造決策樹(shù)過(guò)程中,每一步都是選擇信息增益值最大的屬性作為當(dāng)前分裂屬性。信息增益值越大,說(shuō)明該測(cè)試屬性對(duì)分類(lèi)提供的信息越多,ID3算法即是在每個(gè)節(jié)點(diǎn)選擇信息增益最大的屬性作為測(cè)試屬性,該屬性使結(jié)果分區(qū)中對(duì)元組分類(lèi)所需要的信息量最小,確保找到一棵簡(jiǎn)單的樹(shù)。
對(duì)數(shù)據(jù)集D中的元組分類(lèi)所需要的期望信息計(jì)算公式如下:Info(D)=-∑_(i=1)^m?〖p_i 〖log〗_2 (p_i)〗。其中,p_i是D中任意元組屬于類(lèi)c_i的非零概率。Info(D)是識(shí)別D中元組的類(lèi)別所需要的平均信息量,Info(D)又稱(chēng)為熵。假設(shè)用屬性A將D劃分為v個(gè)子分區(qū){D_1,D_2,…,D_v},在此劃分之后,還需要多少信息才能得到準(zhǔn)確的分類(lèi),該信息量計(jì)算公式如下: Info_A (D)=∑_(j=1)^v?〖D_j/D 〖Info(D〗_j)〗。Info_A (D)是基于按A劃分對(duì)D元組分類(lèi)所需要的期望信息。需要的期望信息越小,分區(qū)純度越高。信息增益定義為原來(lái)的信息需求與新的信息需求之間的差,即〖Gain(A)=Info(D)-Info〗_A (D)[3]。
以某企業(yè)HSE信息系統(tǒng)廢氣監(jiān)測(cè)模塊中煙氣記錄為例介紹基于決策樹(shù)的數(shù)據(jù)挖掘的應(yīng)用,如圖3。數(shù)據(jù)離散化處理后如表2。該數(shù)據(jù)為測(cè)試數(shù)據(jù),僅作為挖掘算法在HSE信息系統(tǒng)中的應(yīng)用分析所用。
根據(jù)ID3決策支持樹(shù)算法對(duì)測(cè)試數(shù)據(jù)集進(jìn)行處理后得到?jīng)Q策支持樹(shù)如圖4。將決策樹(shù)進(jìn)行廣度優(yōu)先搜索,對(duì)每一個(gè)葉子結(jié)點(diǎn),求出從根結(jié)點(diǎn)到葉結(jié)點(diǎn)的路徑。該路徑上所有的結(jié)點(diǎn)的劃分條件并在一起,即構(gòu)成一條分類(lèi)規(guī)則。根據(jù)該決策樹(shù)可以生成以下產(chǎn)生式規(guī)則:
IF 煙氣黑度=高 THEN 超標(biāo)
IF 煙氣黑度=中 AND 煙氣溫度=高 THEN 不超標(biāo)
IF 煙氣黑度=中 AND 煙氣溫度=中或低 AND SO2濃度=高 THEN 超標(biāo)
IF 煙氣黑度=中 AND 煙氣溫度=中或低 AND SO2濃度=中或低 THEN 不超標(biāo)
IF 煙氣黑度=低 THEN 不超標(biāo)
產(chǎn)生式規(guī)則生成以后,可以對(duì)未知數(shù)據(jù)進(jìn)行分類(lèi)或預(yù)測(cè),如監(jiān)測(cè)到一條新的煙氣記錄為{黑度:4,煙氣溫度:76,O2:6,CO:280,SO2:160,NOx:300,HS:83},該記錄中黑度為4,處于高煙氣黑度范圍,因此根據(jù)決策支持樹(shù)可以直接判定該監(jiān)測(cè)記錄超標(biāo)。因此基于決策樹(shù)的數(shù)據(jù)挖掘可以輔助企業(yè)決策者進(jìn)行風(fēng)險(xiǎn)預(yù)測(cè)等操作,以改善管理者的決策能力、降低決策風(fēng)險(xiǎn),以此提高決策的科學(xué)性和準(zhǔn)確性。
結(jié)論
本文首先分析了石油石化企業(yè)HSE信息系統(tǒng)的現(xiàn)狀與缺陷,分析了HSE信息系統(tǒng)與數(shù)據(jù)挖掘技術(shù)結(jié)合的必要性和迫切性。然后對(duì)數(shù)據(jù)挖掘技術(shù)及挖掘方法做了比較宏觀的介紹。最后重點(diǎn)分析了決策支持樹(shù)算法和關(guān)聯(lián)規(guī)則在HSE信息系統(tǒng)中的應(yīng)用,并以某企業(yè)HSE系統(tǒng)為原型介紹了這兩種數(shù)據(jù)挖掘方法的應(yīng)用。實(shí)例說(shuō)明,可以挖掘出事務(wù)各因素之間的關(guān)聯(lián)規(guī)則,通過(guò)這些規(guī)則,可以根據(jù)一種行為的發(fā)生,來(lái)推測(cè)另一種行為的發(fā)生概率,從而更好地掌握看似毫無(wú)關(guān)系的事物之間的發(fā)展規(guī)律;也可以構(gòu)造決策支持樹(shù),對(duì)未知的事務(wù)進(jìn)行分類(lèi)和預(yù)測(cè),并可為企業(yè)決策者提供決策支持。因此數(shù)據(jù)挖掘技術(shù)應(yīng)用于HSE信息系統(tǒng)能夠有效的挖掘出藏于數(shù)據(jù)中的潛在知識(shí)。本文對(duì)數(shù)據(jù)挖掘技術(shù)應(yīng)用于石油石化企業(yè)HSE信息系統(tǒng)建設(shè)中做了積極的嘗試,對(duì)企業(yè)的HSE信息管理、風(fēng)險(xiǎn)分析、決策支持具有一定的參考價(jià)值?!?/p>
參考文獻(xiàn)
[1] 馮國(guó)良. 數(shù)據(jù)挖掘在信息管理系統(tǒng)中的應(yīng)用研究[D]. 天津工業(yè)大學(xué), 2008
[2] 季桂樹(shù), 陳沛玲, 宋航. 決策樹(shù)分類(lèi)算法研究綜述[J]. 科技廣場(chǎng), 2007
[3] 范明,孟小峰譯. 數(shù)據(jù)挖掘:概念與技術(shù)第三版[M]. 北京:機(jī)械工業(yè)出版社.2012