渠婷婷
(寧夏天地奔牛實(shí)業(yè)集團(tuán)有限公司,寧夏 銀川 750000)
目前煤礦刮板輸送機(jī)動(dòng)力部監(jiān)測(cè)系統(tǒng)產(chǎn)品已經(jīng)成熟,監(jiān)測(cè)數(shù)據(jù)作為判斷設(shè)備運(yùn)行狀態(tài)的底層支撐,目前存在以下問(wèn)題:①數(shù)據(jù)量大,業(yè)務(wù)系統(tǒng)積累的數(shù)據(jù)時(shí)間長(zhǎng),類型多,傳感器實(shí)時(shí)性高,每天產(chǎn)生大量的數(shù)據(jù);②難打通,存儲(chǔ)的數(shù)據(jù)格式多樣,不利于其他軟件讀取分析;③不直觀,行列式,無(wú)法交互,統(tǒng)計(jì)的數(shù)據(jù)沒(méi)有產(chǎn)生價(jià)值;④采集設(shè)備存儲(chǔ)的數(shù)據(jù)質(zhì)量需要分析核實(shí),并分析數(shù)據(jù)質(zhì)量低下的原因。現(xiàn)在存儲(chǔ)的數(shù)據(jù)量已遠(yuǎn)超目前人工所能處理的范圍,但這些數(shù)據(jù)對(duì)刮板輸送機(jī)的設(shè)計(jì)制造沒(méi)有發(fā)揮其價(jià)值,因此需要開(kāi)發(fā)一套基于Python的數(shù)據(jù)挖掘及可視化軟件,用來(lái)整合、歸納、挖掘數(shù)據(jù)之間的關(guān)系,將可視化技術(shù)與數(shù)據(jù)挖掘過(guò)程緊密地結(jié)合在一起, 將數(shù)據(jù)與數(shù)據(jù)挖掘結(jié)果可視化。我們采用多種統(tǒng)計(jì)、計(jì)算手段對(duì)數(shù)據(jù)加以詳細(xì)研究和總結(jié)歸納,多維度觀察積累的數(shù)據(jù),從大量的歷史數(shù)據(jù)中抽取出潛在的、有價(jià)值的信息,發(fā)現(xiàn)數(shù)據(jù)的發(fā)展規(guī)律和預(yù)測(cè)趨勢(shì)走向,然后轉(zhuǎn)化為可視化的表現(xiàn)形式的過(guò)程。
本系統(tǒng)由數(shù)據(jù)轉(zhuǎn)換模塊、數(shù)據(jù)處理模塊、數(shù)據(jù)挖掘模塊、數(shù)據(jù)顯示模塊等組成。數(shù)據(jù)轉(zhuǎn)換模塊負(fù)責(zé)將不同格式的數(shù)據(jù)轉(zhuǎn)換為同一種格式;數(shù)據(jù)處理模塊負(fù)責(zé)將不同來(lái)源的數(shù)據(jù)進(jìn)行集成,將轉(zhuǎn)換好的數(shù)據(jù)批量導(dǎo)入數(shù)據(jù)庫(kù),并對(duì)采集數(shù)據(jù)的頻率進(jìn)行處理,并執(zhí)行數(shù)據(jù)清洗工作;數(shù)據(jù)挖掘模塊負(fù)責(zé)發(fā)現(xiàn)數(shù)據(jù)中的隱含規(guī)律,用于總結(jié)分析;數(shù)據(jù)顯示模塊負(fù)責(zé)數(shù)據(jù)分析結(jié)果可視化和數(shù)據(jù)挖掘過(guò)程可視化,用于和用戶更好的交流互動(dòng)。本系統(tǒng)采用B/S架構(gòu),Python開(kāi)發(fā)語(yǔ)言,后臺(tái)服務(wù)應(yīng)用Flask框架,數(shù)據(jù)庫(kù)采用MySQL數(shù)據(jù)庫(kù),采用了MVC,Ajax異步加載等技術(shù)可以在不用刷新整個(gè)頁(yè)面的情況下,與服務(wù)器交換數(shù)據(jù)并更新部分網(wǎng)頁(yè)內(nèi)容。用戶可以通過(guò)瀏覽器進(jìn)行人機(jī)交互操作,獲取任意時(shí)間段的數(shù)據(jù),并按照用戶意愿獲取經(jīng)過(guò)分析后的結(jié)論。
需求分析是軟件開(kāi)發(fā)項(xiàng)目中非常重要的一部分,決定著項(xiàng)目的成敗。準(zhǔn)確獲取需求決定了后續(xù)的分析方法和方向。需求分析重點(diǎn)研究人們想從數(shù)據(jù)中獲得怎樣的價(jià)值。刮板輸送機(jī)監(jiān)測(cè)數(shù)據(jù)的數(shù)據(jù)挖掘與可視化分析主要是為了完成以下幾個(gè)方面的工作。
驗(yàn)證:驗(yàn)證監(jiān)測(cè)系統(tǒng)數(shù)據(jù)的數(shù)據(jù)質(zhì)量。
優(yōu)化:通過(guò)數(shù)據(jù)分析結(jié)果的研究,對(duì)監(jiān)測(cè)系統(tǒng)提出優(yōu)化建議。
提升:提升刮板輸送機(jī)監(jiān)測(cè)系統(tǒng)的附加價(jià)值。
發(fā)現(xiàn):發(fā)現(xiàn)符合一定規(guī)律隱含的有用信息并服務(wù)于刮板輸送機(jī)的設(shè)計(jì)制造。
本次刮板輸送機(jī)監(jiān)測(cè)數(shù)據(jù)的數(shù)據(jù)挖掘和可視化分析的需求分析工作主要是針對(duì)刮板輸送機(jī)的業(yè)務(wù)范圍對(duì)監(jiān)測(cè)系統(tǒng)的數(shù)據(jù)質(zhì)量、數(shù)據(jù)相關(guān)性、數(shù)據(jù)規(guī)律總結(jié)的分析研究。
在智能化礦井建設(shè)過(guò)程中,其監(jiān)測(cè)系統(tǒng)獲取數(shù)據(jù)的準(zhǔn)確性在很大程度上影響著刮板輸送機(jī)后續(xù)的控制及分析工作的工作質(zhì)量和整體工作水平,因此刮板輸送機(jī)監(jiān)測(cè)數(shù)據(jù)的數(shù)據(jù)質(zhì)量至關(guān)重要,是首要的研究?jī)?nèi)容。在獲取的大量數(shù)據(jù)中,需要統(tǒng)計(jì)分析數(shù)據(jù)的真實(shí)有效性,鑒別數(shù)據(jù)的損壞率及損壞的具體原因,并針對(duì)提高監(jiān)測(cè)數(shù)據(jù)的數(shù)據(jù)質(zhì)量提出優(yōu)化改進(jìn)建議。只有建立在高質(zhì)量的數(shù)據(jù)基礎(chǔ)上進(jìn)行分析總計(jì),分析的結(jié)果才更具說(shuō)服力,研究的結(jié)果更可靠有效。
數(shù)據(jù)獲取是數(shù)據(jù)挖掘與可視化分析工作的基礎(chǔ),是指根據(jù)需求分析的要求收集數(shù)據(jù)。井下設(shè)備采集、存儲(chǔ)的數(shù)據(jù)意義重大,但由于很多煤礦井下不具備網(wǎng)絡(luò)條件也并未將設(shè)備采集的數(shù)據(jù)通過(guò)環(huán)網(wǎng)傳輸?shù)降孛?,只能通過(guò)現(xiàn)場(chǎng)拷貝獲取數(shù)據(jù);具備網(wǎng)絡(luò)條件的采用遠(yuǎn)程傳輸?shù)姆绞将@取數(shù)據(jù);然后對(duì)不同礦井的數(shù)據(jù)進(jìn)行集成并針對(duì)采集數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘以及可視化分析。
由于自動(dòng)化設(shè)備的品牌類型繁多,各廠家的接口類型都不相同,不同設(shè)備采集存儲(chǔ)的數(shù)據(jù)格式多種多樣。刮板輸送機(jī)監(jiān)測(cè)數(shù)據(jù)主要來(lái)源于機(jī)器設(shè)備采集的周期性數(shù)據(jù)與用戶的意見(jiàn)和反饋數(shù)據(jù)。本系統(tǒng)主要采集的數(shù)據(jù)包含不同地區(qū)礦井監(jiān)測(cè)系統(tǒng)的數(shù)據(jù)。然后通過(guò)系統(tǒng)開(kāi)發(fā)的批量化自動(dòng)導(dǎo)入程序進(jìn)行數(shù)據(jù)集成。將不同裝置獲取的值經(jīng)過(guò)轉(zhuǎn)換統(tǒng)一導(dǎo)入MySQL數(shù)據(jù)庫(kù),通過(guò)程序中的數(shù)據(jù)展示模塊轉(zhuǎn)換為JSON格式的數(shù)據(jù)進(jìn)行顯示。
數(shù)據(jù)預(yù)處理是指數(shù)據(jù)如何被清洗、集成、變換的過(guò)程。由于煤礦設(shè)備容易受到振動(dòng)、高頻、噪聲等影響,導(dǎo)致實(shí)際獲取的數(shù)據(jù)存在臟數(shù)據(jù),比如數(shù)據(jù)值不合理的情況,溫度=-1 000 ℃,突然出現(xiàn)一個(gè)很大或者很小的數(shù)(不符合趨勢(shì)變化),也可能由于斷電等導(dǎo)致某個(gè)時(shí)間段出現(xiàn)數(shù)據(jù)為空的情況。因此,需要對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理,包含數(shù)據(jù)清洗、數(shù)據(jù)類型轉(zhuǎn)換、將多個(gè)動(dòng)力部數(shù)據(jù)合并成一個(gè)數(shù)據(jù)庫(kù)、添加數(shù)據(jù)描述。數(shù)據(jù)清洗是指出現(xiàn)一些數(shù)據(jù)不合理的情況將這些影響判斷的數(shù)據(jù)篩選掉。
在數(shù)據(jù)預(yù)處理完成后,就會(huì)得到一個(gè)沒(méi)有明顯錯(cuò)誤的數(shù)據(jù)集所構(gòu)造的數(shù)據(jù)庫(kù)。目前已經(jīng)開(kāi)發(fā)了數(shù)據(jù)預(yù)處理子程序,該程序支持將監(jiān)測(cè)獲取的數(shù)據(jù)按照預(yù)期的要求批量導(dǎo)入數(shù)據(jù)庫(kù),并對(duì)數(shù)據(jù)進(jìn)行篩選操作。正確的數(shù)據(jù)預(yù)處理對(duì)結(jié)果的可靠性會(huì)產(chǎn)生非常重要的影響。
通過(guò)對(duì)比分析、回歸分析、聚類分析、分組分析、方差、標(biāo)準(zhǔn)差、最小最大值等分析方法,可以發(fā)現(xiàn)數(shù)據(jù)中有價(jià)值的信息。使用ecStat數(shù)據(jù)挖掘工具,采用最新的數(shù)據(jù)分析模型,通過(guò)數(shù)據(jù)之間的相互關(guān)系、變化趨勢(shì)可以產(chǎn)生出許多有關(guān)聯(lián),有價(jià)值的結(jié)論。Python語(yǔ)言在數(shù)據(jù)挖掘領(lǐng)域有很大的優(yōu)勢(shì),它編程自由靈活,語(yǔ)法表達(dá)優(yōu)美易讀,代碼開(kāi)發(fā)效率高,因此許多數(shù)據(jù)科學(xué)領(lǐng)域的從業(yè)者都使用Python做數(shù)據(jù)挖掘。
本系統(tǒng)采用回歸算法分析了任意兩路傳感器之間的回歸曲線,回歸算法根據(jù)原始輸入數(shù)據(jù)集中自變量和因變量的值擬合出一條曲線,以反映其變化趨勢(shì)。目前研究的是單個(gè)自變量的回歸算法,將不同類型的傳感器作為自變量,其他路的傳感器數(shù)據(jù)作為因變量,不考慮時(shí)間因素的影響,繪制回歸曲線并將其擬合出一條直線或曲線,將擬合出的直線或曲線總結(jié)為一個(gè)公式。本系統(tǒng)主要擬合出4種回歸曲線,分別為線性回歸、指數(shù)回歸、對(duì)數(shù)回歸、多項(xiàng)式回歸。將大量的樣本數(shù)據(jù)輸入到數(shù)據(jù)分析模塊,然后通過(guò)ecStat得到各擬合的回歸曲線公式。本系統(tǒng)也分析不同條件下的數(shù)據(jù)方差、標(biāo)準(zhǔn)差、最大值、最小值、平均值為后續(xù)的分析提供支持。
由于數(shù)據(jù)量大,不能保證所有數(shù)據(jù)都是真實(shí)可靠的,數(shù)據(jù)預(yù)處理只能從取值范圍、趨勢(shì)等方面進(jìn)行篩選,而無(wú)法從安裝位置是否合理等方面進(jìn)行篩選;另外收集到的傳感器的種類和數(shù)量也是有限的,并不是有關(guān)方面的全部數(shù)據(jù)。通過(guò)數(shù)據(jù)分析雖然可以獲取有價(jià)值的信息,但是分析結(jié)果可能存在偏差,所以需要數(shù)據(jù)挖掘的直觀結(jié)果加上分析人員對(duì)于這些數(shù)據(jù)的理解與預(yù)測(cè)綜合考慮,不斷糾偏,得到不斷優(yōu)化的數(shù)據(jù)挖掘模型。用戶通過(guò)對(duì)比性的信息看懂?dāng)?shù)據(jù)背后存在的復(fù)雜聯(lián)系,數(shù)據(jù)分析有效性的保證來(lái)源于數(shù)據(jù)質(zhì)量。高質(zhì)量的數(shù)據(jù)源能夠保證分析結(jié)果的真實(shí)性和有效性。
Echarts是國(guó)內(nèi)一個(gè)開(kāi)源的JavaScript的圖表庫(kù),為用戶提供生動(dòng)直觀、可交互的可視化展示平臺(tái)。本系統(tǒng)通過(guò)輕量級(jí)Web框架Flask向前端傳輸Json數(shù)據(jù),前端通過(guò)Echarts定制大屏展示主題,為了提升展示效果,項(xiàng)目采用Ajax異步傳輸方式實(shí)現(xiàn)畫(huà)面的自動(dòng)定時(shí)更新,方便用戶在自動(dòng)模式下對(duì)數(shù)據(jù)展示的需求。當(dāng)然前端也可以通過(guò)發(fā)送POST請(qǐng)求向業(yè)務(wù)系統(tǒng)發(fā)起數(shù)據(jù)請(qǐng)求,業(yè)務(wù)系統(tǒng)整合處理后以標(biāo)準(zhǔn)的Json格式返回方便人機(jī)交互。該系統(tǒng)引入的數(shù)據(jù)可視化技術(shù)包括柱狀圖、餅狀圖、散點(diǎn)圖、三維立方體、回歸曲線、數(shù)據(jù)分布圖表等。
數(shù)據(jù)挖掘結(jié)果可視化是以視圖的形式給出由數(shù)據(jù)挖掘算法得出的結(jié)果或知識(shí), 以提高用戶對(duì)結(jié)果的理解。許多挖掘技術(shù)包括不同的數(shù)學(xué)步驟并且要求用戶的干預(yù), 可視化能夠在用戶參與下支持決策過(guò)程, 可視化工具可以使用戶在數(shù)據(jù)挖掘過(guò)程中根據(jù)領(lǐng)域知識(shí)作出判斷, 幫助用戶作出更加合理的挖掘決定。后臺(tái)工作人員設(shè)置各種選項(xiàng)供分析人員選擇,對(duì)篩選數(shù)據(jù)加以詳細(xì)研究并且總結(jié)規(guī)律,最后導(dǎo)出一份包含了描述現(xiàn)狀的數(shù)據(jù)分析報(bào)告并且根據(jù)內(nèi)置的邏輯算法得出具體的整改措施和建議。將數(shù)據(jù)展示和數(shù)據(jù)挖掘結(jié)果展示是將復(fù)雜的過(guò)程簡(jiǎn)單化,具有良好的用戶體驗(yàn)。
把計(jì)算機(jī)中的數(shù)據(jù)挖掘與可視化分析技術(shù)應(yīng)用于煤礦設(shè)備的監(jiān)測(cè)系統(tǒng)獲取的數(shù)據(jù),將有助于從大量的數(shù)據(jù)中挖掘事先不知道,但又有潛在價(jià)值的信息。利用Python可以快速開(kāi)發(fā)適合于數(shù)據(jù)采集、清洗、整合、數(shù)據(jù)挖掘和展示的平臺(tái),將有助于解決監(jiān)測(cè)系統(tǒng)目前存在的不足,促使我們更有效地利用數(shù)據(jù)進(jìn)行趨勢(shì)預(yù)測(cè),為我們更好地服務(wù)于煤礦機(jī)械提供可靠的技術(shù)支撐。