摘 要 飛行試驗數(shù)據(jù)的參數(shù)種類越來越多、數(shù)據(jù)量也越來越大;為了對數(shù)據(jù)進行充分的分析和使用,搜尋有價值的知識結(jié)論,對使用數(shù)據(jù)挖掘技術(shù)分析飛行試驗數(shù)據(jù)的方法和過程進行了匯總研究。本文首先介紹了飛行試驗數(shù)據(jù)的特點和主要組成,提煉出飛行試驗數(shù)據(jù)挖掘的主要過程:數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘方法應(yīng)用、結(jié)果分析;并在后續(xù)各章節(jié)結(jié)合實例對每個過程的目的、典型方法和實施依據(jù)等進行詳細(xì)描述。
【關(guān)鍵詞】飛行試驗數(shù)據(jù) 數(shù)據(jù)預(yù)處理 數(shù)據(jù)挖掘方法 結(jié)果分析
1 引言
飛行試驗簡單而言是指在實際飛行中展開科學(xué)研究,并進行一系列的產(chǎn)品鑒定試驗;而通過這種方式獲得的數(shù)據(jù)是航空武器裝備非常重要的研究資料,具有很高的學(xué)術(shù)價值,現(xiàn)代飛機系統(tǒng)愈來愈復(fù)雜,從而導(dǎo)致試飛數(shù)據(jù)量也不斷增長。飛行試驗數(shù)據(jù)是在進行實驗的時候,通過現(xiàn)代化的工程測試技術(shù),取得對象和復(fù)雜系統(tǒng)所對應(yīng)的各項數(shù)據(jù),是裝備定型最為基本的依據(jù)。伴隨技術(shù)的快速革新,航空武器系統(tǒng)逐漸體現(xiàn)出集成性的特點,飛行試驗獲取的信息類型也更為繁雜,數(shù)據(jù)量持續(xù)擴增。
試飛數(shù)據(jù)的定型鑒定作用伴隨試飛項目的結(jié)束得到最大化的體現(xiàn),然而其具有的科研價值尚待進一步的研究,從而為型號的優(yōu)化、有關(guān)系統(tǒng)的進一步提升、飛行培訓(xùn)等奠定良好的基礎(chǔ)。
數(shù)據(jù)挖掘涉及到多個學(xué)科領(lǐng)域,是近些年來研究的熱點,其主要作用概括來說是能夠幫助用戶從海量數(shù)據(jù)中分析出所蘊含的有價值信息。在該領(lǐng)域內(nèi),由于涵蓋了多元化的學(xué)術(shù)成果,其中主要包括自機器學(xué)習(xí)、統(tǒng)計學(xué)、模式識別、數(shù)據(jù)庫等方面的內(nèi)容,進而讓該學(xué)科快速發(fā)展?,F(xiàn)如今,數(shù)據(jù)挖掘技術(shù)已基本成熟,數(shù)據(jù)挖掘從業(yè)者的研究重點不再是基本算法的改進和概念的擴展更新,而逐漸轉(zhuǎn)變?yōu)榕c特定專業(yè)領(lǐng)域的融合。針對飛行試驗數(shù)據(jù)的探究,數(shù)據(jù)挖掘方法和技術(shù)無疑是最優(yōu)方案。
1.1 飛行試驗數(shù)據(jù)的特點
飛行試驗數(shù)據(jù)的主要組成如圖1所示。每個飛行架次的數(shù)據(jù)內(nèi)容由按時間排列的數(shù)據(jù)幀序列組成,而每個數(shù)據(jù)幀由各類型的傳輸總線數(shù)據(jù)組成。連接各設(shè)備的傳輸總線上的數(shù)據(jù)內(nèi)容和屬性必須符合接口控制文件(ICD)的定義要求,這就導(dǎo)致:除了噪音數(shù)據(jù),這些數(shù)據(jù)的格式可知、數(shù)值確定。確定待分析數(shù)據(jù)集的數(shù)據(jù)特點,對于數(shù)據(jù)挖掘方法的選擇、使用和結(jié)果分析具有重要的指導(dǎo)性作用。
1.2 數(shù)據(jù)挖掘技術(shù)在飛行試驗數(shù)據(jù)分析上的應(yīng)用概述
數(shù)據(jù)挖掘是指從數(shù)據(jù)庫或數(shù)據(jù)集內(nèi)提取之前沒有掌握的、蘊含一定價值的信息。其常規(guī)的流程涵蓋多個部分,其中比較主要的包括數(shù)據(jù)的準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果解釋與評價等?;陲w行試驗數(shù)據(jù)的特點和常規(guī)的數(shù)據(jù)挖掘過程研究,本文匯總提煉出如圖2所示的飛行試驗數(shù)據(jù)挖掘流程:
(1)數(shù)據(jù)預(yù)處理;
(2)數(shù)據(jù)挖掘方法應(yīng)用;
(3)結(jié)果分析。
其中,數(shù)據(jù)預(yù)處理主要依據(jù)接口控制文件使用有效的數(shù)據(jù)預(yù)處理方法對原始數(shù)據(jù)展開標(biāo)準(zhǔn)化的處理。數(shù)據(jù)挖掘方法應(yīng)用是最關(guān)鍵的一部分,概括來說就是結(jié)合挖掘任務(wù)選取最為適用的算法,進而搜尋專業(yè)人員最為關(guān)心的模式,其中比較典型的包括分類、聚類、時序、關(guān)聯(lián)、偏差等。結(jié)果分析是指對之前獲取的模式展開評析,從而分析出有價值的模式,并選擇適用的表達(dá)方式,將獲取的知識內(nèi)容完成展示。
2 飛行試驗數(shù)據(jù)挖掘過程
2.1 飛行試驗數(shù)據(jù)預(yù)處理
現(xiàn)實世界的原始數(shù)據(jù)一般是含噪聲的、不一致的和不完整的,因此在使用數(shù)據(jù)挖掘算法分析數(shù)據(jù)前需進行數(shù)據(jù)的預(yù)處理。數(shù)據(jù)預(yù)處理通常由四個步驟組成:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換。具體的,數(shù)據(jù)清理通過識別孤立點、填充空缺值和消除噪聲等糾正原始數(shù)據(jù)中的不一致;數(shù)據(jù)集成是把若干個數(shù)據(jù)源內(nèi)的數(shù)據(jù)進行結(jié)合,然后將其儲存到具有高度一致性的數(shù)據(jù)集合內(nèi);數(shù)據(jù)選擇就是選擇適合于特定數(shù)據(jù)挖掘方法和目的的最佳有效子集;數(shù)據(jù)轉(zhuǎn)換是將數(shù)據(jù)轉(zhuǎn)換為易于進行挖掘操作的存儲形式。
飛行試驗數(shù)據(jù)集的特點通常是多種數(shù)據(jù)類型源的、歷史的、海量的。鑒于數(shù)據(jù)源基本具有明確的含義,預(yù)處理工作的重點是“數(shù)據(jù)轉(zhuǎn)換”;且可針對不同的應(yīng)用,選擇相應(yīng)的預(yù)處理方法得到適合后續(xù)工作開展的數(shù)據(jù)集。對于數(shù)據(jù)預(yù)處理的其他三個步驟,其重點主要是針對ICD文件輸入錯誤、設(shè)備故障、數(shù)據(jù)缺乏等情況的處理。
(1)飛行試驗數(shù)據(jù)清理:根據(jù)ICD文件定義對數(shù)據(jù)幀中數(shù)據(jù)的有效性進行識別,找到并去除各參數(shù)定義范圍外的異常數(shù)據(jù)和孤立點;根據(jù)飛行科目表按時間段對噪聲數(shù)據(jù)進行保留或平滑處理。
(2)飛行試驗數(shù)據(jù)集成:在預(yù)留信息基本充足的條件下,對數(shù)據(jù)展開壓縮處理,從而最大化地提高數(shù)據(jù)處理的時間效率和空間效率;對各個數(shù)據(jù)源中同類型的數(shù)據(jù)進行融合,如:GPS經(jīng)緯度和即時位置經(jīng)緯度,相對/絕對氣壓高度和無線電高度,真航向和磁航向、指示空速和真空速等。
(3)飛行試驗數(shù)據(jù)選擇:辨別出需分析的數(shù)據(jù)集合,縮小處理范圍,提高數(shù)據(jù)挖掘的效率和質(zhì)量;
(4)飛行試驗數(shù)據(jù)轉(zhuǎn)換:針對不同的應(yīng)用可選擇不同的數(shù)據(jù)轉(zhuǎn)換方法,如最小-最大規(guī)范化方法:對數(shù)據(jù)展開線性變換和映射,使所有數(shù)據(jù)處于[0.0, 1.0]范圍內(nèi)。
2.2 不同的飛行試驗數(shù)據(jù)挖掘方法應(yīng)用
數(shù)據(jù)挖掘主要涵蓋2類:第一類是描述性數(shù)據(jù)挖掘,是指以概要的方式展開數(shù)據(jù)的特定描述,以獲取數(shù)據(jù)有趣的常規(guī)性質(zhì),應(yīng)用比較廣泛的方法包括異常檢測、聚類等;第二類是預(yù)言性數(shù)據(jù)挖掘,展開數(shù)據(jù)分析以構(gòu)建規(guī)范化的模型,然后使用模型進行預(yù)測,最具代表性的方法為分類。
飛行實驗數(shù)據(jù)分析的重點為數(shù)據(jù)挖掘算法,主要選用各種數(shù)據(jù)挖掘方法找出相應(yīng)表達(dá)形式的結(jié)果知識,其目標(biāo)主要包括相似性搜索、趨勢研究等。本節(jié)針對飛行試驗數(shù)據(jù)挖掘這一特定應(yīng)用,探究各類應(yīng)用較廣的數(shù)據(jù)挖掘方法。
2.2.1 分類、聚類和異常性分析
分類(Classification)的目的是得出特定的分類模型,這個模型可以將各數(shù)據(jù)項映射至某一目標(biāo)類別;分類模型既可用于分析已有數(shù)據(jù),也可用來預(yù)測未來的數(shù)據(jù)。其采用的方法多種多樣,其中比較具有代表性的包括基于統(tǒng)計的算法、以決策樹為核心的算法、組合技術(shù)等。
聚類(Clustering)是依照某種相似性度量原則把輸入數(shù)據(jù)集的所有數(shù)據(jù)分成若干簇(Cluster),使得同一簇中的數(shù)據(jù)最大程度的相同,而不同簇的數(shù)據(jù)之間最大程度的不同。聚類不同于分類的原則是根據(jù)數(shù)據(jù)間的相互關(guān)系分析數(shù)據(jù),不考慮已知的類標(biāo)記。聚類算法按照所采用的基本思想可分為五類:層次聚類算法、分割聚類算法、基于約束的聚類算法、機器學(xué)習(xí)中的聚類算法、用于高維數(shù)據(jù)的聚類算法。
離群點(Outlier)是和數(shù)據(jù)集中的數(shù)據(jù)發(fā)生非常顯著的偏離,不符合常規(guī)模式,與其他數(shù)據(jù)存在一定差異的數(shù)據(jù)。異常性分析基于離群點的概念,其依據(jù)是:在一些應(yīng)用中,罕見的事件可能比正常出現(xiàn)的那些更有意義。
針對飛行航班數(shù)據(jù)集的特點,文[10]通過一種新的有效的聚類改進算法分析若干航班的發(fā)動機數(shù)據(jù),用于檢測飛機發(fā)動機數(shù)據(jù)的異常,通過實驗數(shù)據(jù)說明其達(dá)到了定位發(fā)動機故障點的目的,為類似應(yīng)用提供了良好的可借鑒之處。
2.2.2 關(guān)聯(lián)規(guī)則發(fā)現(xiàn)和趨勢分析
關(guān)聯(lián)規(guī)則(Association Rule)是一類應(yīng)用廣泛且易于理解的關(guān)聯(lián)分析規(guī)則,它能夠?qū)傩怨餐霈F(xiàn)的規(guī)律進行準(zhǔn)確的表述。即:關(guān)聯(lián)規(guī)則是形如X=>Y的規(guī)則,X和Y都是屬性-值對的集合;因此這種方法就是在數(shù)據(jù)集內(nèi)搜尋符合特定支持度(體現(xiàn)結(jié)果的重要性)和置信度(體現(xiàn)結(jié)果的可信度)的全部關(guān)聯(lián)規(guī)則。
頻繁項集(Frequent Itemsets)是指頻繁出現(xiàn)在數(shù)據(jù)集中的數(shù)據(jù)項集合。最經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法是Apriori算法,其核心理念是找出給定數(shù)據(jù)集中頻繁發(fā)生的數(shù)據(jù)項,然后在此基礎(chǔ)上形成強關(guān)聯(lián)規(guī)則;尋找頻繁項集的主要思想是用前一次掃描數(shù)據(jù)集的結(jié)果產(chǎn)生本次掃描的候選項集,從而提高搜索的效率。
分析參數(shù)分布規(guī)律能夠?qū)ο到y(tǒng)或設(shè)備的運行狀態(tài)進行說明。對于圖-1中的單個數(shù)據(jù)幀格式的數(shù)據(jù)集,可利用適當(dāng)?shù)臄?shù)據(jù)挖掘方法找出存在關(guān)聯(lián)的參數(shù)集合,如:某一飛行動作發(fā)生時各設(shè)備的參數(shù)間的同步速率、門限差值和滯后時間,從而達(dá)到設(shè)備穩(wěn)定性、靈敏度等的判斷。另外,文[11]通過Apriori算法對多架次的飛行實驗數(shù)據(jù)進行處理,得到多維關(guān)聯(lián)規(guī)則形式的結(jié)論,其中之一是:(儀表速度Vy>160)&&(無線電高度Hw<200)&&(俯仰角Af>5)=>進入爬高階段,得出了符合預(yù)期目標(biāo)的挖掘結(jié)果。
2.2.3 時間序列模式挖掘
時間序列數(shù)據(jù)挖掘的主要研究內(nèi)容是從大量時間序列歷史數(shù)據(jù)中發(fā)現(xiàn)有價值或感興趣的信息的算法和實現(xiàn)技術(shù),其方法概括起來可分為四種 :趨勢分析、周期性分析、序列模式分析和相似性分析。
飛行試驗數(shù)據(jù)的特點決定了時間序列模式挖掘是一種適用的數(shù)據(jù)處理方式。例如,飛行器運行的過程中,其復(fù)雜性和綜合性導(dǎo)致全機系統(tǒng)模型難以進行預(yù)測等活動;而時間序列分析能夠展開合理的分析和預(yù)測,以形成滿足特定應(yīng)用的預(yù)測區(qū)域。
2.3 數(shù)據(jù)挖掘結(jié)果分析
在一個飛行試驗數(shù)據(jù)集上完成一個(組)挖掘算法之后,往往會得到數(shù)量較大的結(jié)果模式、規(guī)則等;然而其中只有少量結(jié)果能夠發(fā)揮應(yīng)用價值。通常,評估一個結(jié)果是否有價值的依據(jù)是:
(1)對于非數(shù)據(jù)挖掘?qū)I(yè)的用戶是表達(dá)方式有好的;
(2)能夠?qū)ξ磥頂?shù)據(jù)進行預(yù)測;
(3)蘊含有價值且以前未知的知識。
常用的實施方式為:應(yīng)用合理的客觀評價方法,根據(jù)用戶的主觀評價措施(需求或興趣等)展開評價,得出有價值的結(jié)論。
表1匯總了幾種典型數(shù)據(jù)挖掘方法的結(jié)果及其常用的客觀評價標(biāo)準(zhǔn)。主觀價值評估標(biāo)準(zhǔn)建立在用戶的信念基礎(chǔ)上,即:獲得的結(jié)論對用戶而言是否和信念存在一定偏離,并具備決策支持的條件;或者是通過各種科學(xué)性標(biāo)準(zhǔn)讓用戶確認(rèn)想要認(rèn)可的一個假設(shè)。
3 結(jié)束語
數(shù)據(jù)挖掘技術(shù)已基本成熟,現(xiàn)在的一個重要方向是其與某一專業(yè)領(lǐng)域的結(jié)合應(yīng)用,而飛行試驗數(shù)據(jù)分析有著對數(shù)據(jù)挖掘技術(shù)的強烈使用需求。為了更好地將數(shù)據(jù)挖掘技術(shù)運用到這一領(lǐng)域,還需指出的是:用戶在數(shù)據(jù)挖掘過程中扮演重要角色;用戶如何與數(shù)據(jù)挖掘系統(tǒng)交互,如何在數(shù)據(jù)挖掘中融入用戶的背景知識,以及如何可視化和理解數(shù)據(jù)挖掘的結(jié)果是非常重要的環(huán)節(jié);應(yīng)當(dāng)把背景知識、約束、規(guī)則和關(guān)于所研究領(lǐng)域的其他信息結(jié)合到知識發(fā)現(xiàn)的過程中。
參考文獻
[1]黨懷義.飛行實驗數(shù)據(jù)聚類約簡方法研究[J].計算機測量與控制,2013,21(11).
[2]維修工程評估.中國民用航空局航空器適航司,2003,2(06):10-20.
[3]趙寧社等.新一代航空電子綜合化及預(yù)測與健康管理技術(shù)[J].測控技術(shù),2010.
[4]David Hand,Heikki Mannila,Padhraic Smyth.數(shù)據(jù)挖掘原理[M].北京:機械工業(yè)出版社,2003.
[5]Theodoratos D,Sellis T.Designing Data Warejpises [J].Data Knowledge Engineering,1999,31:279-301.
[6]Han Jiawei,Micheline Kamber.DATA MINING Concepts and Techniques[M].北京:高等教育出版社,2001.
[7]R.L Kennedy Solving Data Mining Problems Through Pattern Recognition [M].1998.
[8]石杰楠.數(shù)據(jù)挖掘研究綜述[J].航天制造技術(shù),2005.
[9]張叔農(nóng),黃明晟.數(shù)據(jù)挖掘技術(shù)綜述[C].中國航空學(xué)會可靠性工程委員會第十屆學(xué)術(shù)年會論文集[M].北京:國防工業(yè)出版社,2007.
[10]蘇志剛.基于數(shù)據(jù)挖掘的快速記錄存儲器數(shù)據(jù)處理技術(shù)[J].信息與電子工程,2012,2,10(01):118-122.
[11]梁建梅,孫秀霞,杜軍.基于數(shù)據(jù)挖掘的飛行參數(shù)處理方法研究[J].彈箭與制導(dǎo)學(xué)報,2005,25(01):76-79.
[12]Keogh,E.and Kasetty,S.On the Need for Time Series Data Mining Benchmarks:A Survey and Empirical Demonstration[C].ACM SIGKDD. Edmonton,Alberta,Canada.July 23-26, 2002.pp.102-111.
[13]朱明.數(shù)據(jù)挖掘[M].中國科學(xué)技術(shù)大學(xué)出版社,2002.
作者簡介
趙倩(1985-),女,河北省寧晉縣人。碩士學(xué)位。工程師。研究方向為機載軟件設(shè)計與開發(fā)。
作者單位
航空工業(yè)直升機設(shè)計研究所 江西省景德鎮(zhèn)市 333001