杜 仲
(四川航空股份有限公司重慶分公司,重慶 401120)
數(shù)據(jù)挖掘是一門新興技術(shù),面對的是大量的、隨機(jī)的、不完全的數(shù)據(jù),需要從大量、不完全以及隨機(jī)的數(shù)據(jù)中提取人們?nèi)庋蹮o法識別的、隱含的數(shù)據(jù)信息,并且這些信息又是具有指導(dǎo)性和決策性的信息,對航空維修具有重要意義。數(shù)據(jù)挖掘技術(shù)實現(xiàn)了對數(shù)據(jù)庫的檢索、查詢、分析等功能,并且還能對航空維修需要的信息進(jìn)行詳細(xì)分析,進(jìn)一步指導(dǎo)實際問題的解決;能發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系、事件之間的關(guān)系以及規(guī)律,從而對航空維修事件進(jìn)行有效分析。
研究數(shù)據(jù)挖掘技術(shù)在航空維修中的應(yīng)用之前,首先對此文涉及的理論進(jìn)行簡要論述,掌握其基本的理論含義,有利于進(jìn)一步分析研究。因此,首先進(jìn)行理論概念綜述,更好的認(rèn)識數(shù)據(jù)挖掘技術(shù)[1]。
隨著信息產(chǎn)業(yè)的發(fā)展,成千上萬個數(shù)據(jù)庫開始應(yīng)用于各個行業(yè)、領(lǐng)域,數(shù)據(jù)涌現(xiàn)的趨勢不可改變,巨大挑戰(zhàn)是如何處理數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,將有用的數(shù)據(jù)盡快地提取和分析。為解決這一問題,數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。
數(shù)據(jù)挖掘的屬性比較特殊,有許多學(xué)科交叉的屬性,它與統(tǒng)計學(xué)科、數(shù)據(jù)庫理論、知識工程以及數(shù)據(jù)可視化等技術(shù)密切相關(guān)。并且由于其數(shù)據(jù)能大范圍的使用而引發(fā)廣泛的關(guān)注,最主要的意義是能夠轉(zhuǎn)換數(shù)據(jù),將其轉(zhuǎn)變?yōu)榭捎眯畔?。?shù)據(jù)挖掘重要的依靠是數(shù)據(jù)庫,數(shù)據(jù)庫已經(jīng)得到了廣泛應(yīng)用,而數(shù)據(jù)庫之所以被廣泛的接受,其中最重要的原因是數(shù)據(jù)庫技術(shù)與新型技術(shù)的集成使用。隨著數(shù)據(jù)庫儲存量的增大和數(shù)據(jù)庫的廣泛使用,與其相關(guān)的處理技術(shù)也會得到一定的發(fā)展,新的需求促使新技術(shù)的產(chǎn)生。后續(xù)的發(fā)現(xiàn)和研討,將為數(shù)據(jù)挖掘技術(shù)提供更多的機(jī)遇。
數(shù)據(jù)挖掘的任務(wù)主要分為兩類。一類做預(yù)測任務(wù),就是通過現(xiàn)有的數(shù)據(jù)及知識屬性,預(yù)測特定的屬性值。另一類是描述任務(wù),此任務(wù)項目的工作通常是探查性的,并且通常需要進(jìn)行后期的技術(shù)檢驗以及結(jié)果的解釋。在航空領(lǐng)域中,數(shù)據(jù)挖掘工作可以應(yīng)用于復(fù)雜的航空維修工作,因為航空維修工作的細(xì)節(jié)比較瑣碎、工作內(nèi)容復(fù)雜并且沒有明顯的規(guī)律可以遵循,人們通常都是根據(jù)經(jīng)驗進(jìn)行維修,除此之外很難發(fā)現(xiàn)相應(yīng)的規(guī)律。此時,數(shù)據(jù)挖掘顯現(xiàn)出它的特點和優(yōu)勢。在航空維修中,數(shù)據(jù)挖掘的主要任務(wù)就是從海量的數(shù)據(jù)中尋找和捕捉人類肉眼無法獲取的信息和數(shù)據(jù),提高航空維修的準(zhǔn)確度。因此,數(shù)據(jù)挖掘技術(shù)是航空維修必需的技術(shù),從任務(wù)領(lǐng)域中,也可以看出進(jìn)一步進(jìn)行數(shù)據(jù)挖掘在航空維修中的應(yīng)用研究有著十分重要的作用。
由于航空維修工作的需要,根據(jù)實際情況建造航空維修數(shù)據(jù)挖掘系統(tǒng)框架。航空維修數(shù)據(jù)挖掘系統(tǒng)總體框架由3 層結(jié)構(gòu)組成。第一層結(jié)構(gòu)為數(shù)據(jù)存儲,第二層是數(shù)據(jù)挖掘,第三層是圖形用戶界面。其中,第一層的數(shù)據(jù)來源是以往航空維修數(shù)據(jù)庫的數(shù)據(jù)資料,但對原始數(shù)據(jù)進(jìn)行了集成及轉(zhuǎn)換處理,然后進(jìn)入數(shù)據(jù)挖掘庫。數(shù)據(jù)庫系統(tǒng)主要存儲航空維修數(shù)據(jù)中某一類的維修數(shù)據(jù),數(shù)據(jù)挖掘是該結(jié)構(gòu)的核心內(nèi)容。最后傳輸?shù)接脩艚缑?,輸出模式可以為可視化模式?/p>
2.2.1 問題定義
由于研究的模型是基于航空維修數(shù)據(jù)建立的,屬于特定領(lǐng)域。因此,為了提出一個有意義并且能夠利用現(xiàn)有條件解決的問題,必須掌握一定的航空維修知識。然而,部分學(xué)者在研究數(shù)據(jù)挖掘時,并沒有意識到問題的描述,建立模型時只選擇未知的相關(guān)性制定變量[2]。這一步驟要求我們了解該領(lǐng)域知識,現(xiàn)實中這些問題都是通過該領(lǐng)域的專家和數(shù)據(jù)挖掘?qū)<液献魍瓿?,因此一個成功的數(shù)據(jù)挖掘應(yīng)用中,專家之間的合作不單單存在于初始階段,也處于整個數(shù)據(jù)挖掘過程之中。也就是需要明確的定義業(yè)務(wù)問題,感受領(lǐng)域的相關(guān)信息,理解知識,搞清楚用戶的需求。認(rèn)清問題是數(shù)據(jù)挖掘最重要的一步,雖然結(jié)果不可預(yù)測,但是分析的問題要有依據(jù)的,不能盲目應(yīng)用,否則必然失敗。
2.2.2 數(shù)據(jù)準(zhǔn)備
第一步需要數(shù)據(jù),進(jìn)一步探索和尋找與航空維修有關(guān)的資料和數(shù)據(jù)信息,同時還需要挑選出適合于數(shù)據(jù)挖掘應(yīng)用的信息和數(shù)據(jù)。此階段要確定數(shù)據(jù)收集方式,一般有兩種收集方式,一種由專家控制的收集,另一種是觀察法收集。觀察法收集時,數(shù)據(jù)是未知的,取樣分布也是未知的,但可以掌握數(shù)據(jù)搜集對理論分布的影響。其次要進(jìn)行數(shù)據(jù)預(yù)處理,這是整個過程之中十分重要的工作。內(nèi)容包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變化、數(shù)據(jù)規(guī)約。最后是數(shù)據(jù)轉(zhuǎn)換,根據(jù)具體問題建立模型,隨后確定相應(yīng)的算法,將數(shù)據(jù)轉(zhuǎn)換為適用的形式,此階段的作用是為了適用模型算法,為后續(xù)工作提供便利。
2.2.3 數(shù)據(jù)挖掘
此階段的工作是明確合適的算法,剩余的工作都可以自動合成。
2.2.4 結(jié)果分析
數(shù)據(jù)挖掘中得到的系列信息及模型,是否能有效處理航空維修中的問題、挖掘到有價值、有意義的數(shù)據(jù)信息,都需要進(jìn)行相關(guān)的歸納、研究、評估、分析工作。該階段要注意的問題是結(jié)果分析的方法通常根據(jù)數(shù)據(jù)挖掘操作進(jìn)行處理,可視化技術(shù)為主要的技術(shù)手段。
2.2.5 知識集成
知識集成就是把收集到的通過分析得到的知識,整理歸納到業(yè)務(wù)信息系統(tǒng)中。
通常所說的數(shù)據(jù)源發(fā)揮的作用是提供挖掘數(shù)據(jù)存儲地址,在整個過程中,數(shù)據(jù)源扮演著一個存儲器的角色,存儲大量分析數(shù)據(jù)。數(shù)據(jù)源表示到數(shù)據(jù)地址的一個鏈接,并且系列定義物理地址的連接字符串等。字符串包含服務(wù)器的名稱、安全性、超時值等信息。
需要生成的包括數(shù)據(jù)庫對象所使用的模型,包含N 個基礎(chǔ)數(shù)據(jù)源中選定的數(shù)據(jù),可以通過N 個數(shù)據(jù)源的生成,包含單獨存在的關(guān)系、相應(yīng)的計算等,客戶無法通過客戶端看到數(shù)據(jù)[3]。
挖掘結(jié)構(gòu)定義生成挖掘模型的數(shù)據(jù)域,數(shù)據(jù)挖掘結(jié)構(gòu)不包括算法以及算法類型。同一個數(shù)據(jù)挖掘結(jié)構(gòu)能創(chuàng)建多個數(shù)據(jù)挖掘模型,并且建立的挖掘模型都由一個數(shù)據(jù)源發(fā)展而成。
建設(shè)模型是整個過程的重心和重點,簡單的說,可以把數(shù)據(jù)挖掘模型看作是一個樹狀圖,用來存儲相關(guān)信息,數(shù)據(jù)挖掘模型的任務(wù)是存儲數(shù)據(jù)挖掘模型。創(chuàng)建模型時需要指定列的具體用法,輸入列是識別信息以及學(xué)習(xí)信息,輸出列則是分析和預(yù)測。
模型處理在此階段也可以說為模型訓(xùn)練,在此模型的數(shù)據(jù)處理中,數(shù)據(jù)挖掘算法把處理集中的數(shù)據(jù)輸入沒有經(jīng)過處理的模型,把訓(xùn)練數(shù)據(jù)輸入后,數(shù)據(jù)不存到挖掘模型中,只進(jìn)行分析,從中找到一些規(guī)則和模式,再根據(jù)模式和利用這規(guī)則填充模型。
飛機(jī)啟動系統(tǒng)是飛機(jī)重要的組成部分,但是在日常工作中,經(jīng)常因為飛行系統(tǒng)故障造成機(jī)器無法正常運行。因此要通過海量的維修數(shù)據(jù)和信息的分析和處理,使用數(shù)據(jù)挖掘技術(shù)解決飛行系統(tǒng)故障。要對故障進(jìn)行分析,并且預(yù)測下一階段的趨勢,提前準(zhǔn)備。其他的維修工作也可以參照,做法是利用粗糙集約簡的方法來解剖和分離出故障的關(guān)鍵性原因,然后分析故障數(shù)據(jù),研究故障類型,進(jìn)行時間序列相似性的處理搜索,并且對未來情況進(jìn)行判斷,做出合理的預(yù)測。在處理過程中,要對故障模式以及失效率高數(shù)進(jìn)行分析,該方法可以用到不同系統(tǒng)的飛機(jī)數(shù)據(jù)處理,建立起故障預(yù)測模型,對于航空維修決策的制定有著重要意義,可以減少維修成本,保障人員安全[4]。
目前,航空飛行安全面臨著許多新的特點、新的問題,提升飛行安全最重要的工作就是進(jìn)行航空維修,航空維修離不開信息的分析及利用。因此,應(yīng)該建立起一個一體化的系統(tǒng)研究模型,讓決策者以及工作人員能透過大數(shù)據(jù)準(zhǔn)確把握復(fù)雜的業(yè)務(wù)信息,能對信息進(jìn)行客觀分析,對航空維修保障工作有指導(dǎo)意義,從而提升航空安全管理水平和企業(yè)經(jīng)濟(jì)效益。