趙學(xué)武,吳 寧,王 軍,阮 利,李玲玲,徐 濤
1.鄭州航空工業(yè)管理學(xué)院 智能工程學(xué)院,鄭州450046
2.鄭州航空工業(yè)管理學(xué)院 大數(shù)據(jù)科學(xué)研究院,鄭州450046
3.北京航空航天大學(xué) 計算機學(xué)院,北京100191
4.中國民航大學(xué) 中國民航信息技術(shù)科研基地,天津300300
+通信作者E-mail:373413349@qq.com
進入21 世紀以來,互聯(lián)網(wǎng)、多媒體、物聯(lián)網(wǎng)、云計算和人工智能等技術(shù)的發(fā)展,使數(shù)據(jù)以爆炸式的速度增長。到目前為止,大數(shù)據(jù)的發(fā)展已經(jīng)歷了十余個年頭。然而,人們對大數(shù)據(jù)的認識不盡相同,而且也不斷發(fā)生著變化。從當前大數(shù)據(jù)的使用情況來看,大數(shù)據(jù)的定義可以從單純數(shù)據(jù)和系統(tǒng)性的角度來理解。從數(shù)據(jù)的角度講,大數(shù)據(jù)是指數(shù)據(jù)本身,這些數(shù)據(jù)無法通過傳統(tǒng)的存儲、管理和分析等技術(shù)手段進行管理和提供服務(wù),具有數(shù)據(jù)量大(Volume)、數(shù)據(jù)量增長速度快(Velocity)、種類和來源多樣化(Variety)、價值密度低(Value)和數(shù)據(jù)準確與可依賴(Veracity)的特點(稱為“5V”)。從這個角度來理解,目前出現(xiàn)了不同領(lǐng)域的大數(shù)據(jù),例如,醫(yī)療領(lǐng)域產(chǎn)生的大數(shù)據(jù)、交通領(lǐng)域產(chǎn)生的大數(shù)據(jù)和金融領(lǐng)域產(chǎn)生的大數(shù)據(jù)等。從系統(tǒng)性的角度看,大數(shù)據(jù)是一個體系,既包括數(shù)據(jù)本身,也包括與之相關(guān)的要素、技術(shù)、工具,如智能算法、開源軟件、硬件平臺、應(yīng)用場景等。例如,日常講到的大數(shù)據(jù)中心或大數(shù)據(jù)研究院中的大數(shù)據(jù)應(yīng)作系統(tǒng)性的理解。
眾所周知,航空領(lǐng)域業(yè)務(wù)非常復(fù)雜,涉及航空器系統(tǒng)、機場系統(tǒng)、服務(wù)/應(yīng)用的對象系統(tǒng)、環(huán)境與航空公司等。因此,航空領(lǐng)域生來就擁有多樣的大數(shù)據(jù),具有優(yōu)秀的大數(shù)據(jù)基因。目前,航空業(yè)蓬勃發(fā)展,各大航空公司因愈發(fā)激烈的競爭而紛紛把航空大數(shù)據(jù)提升至發(fā)展戰(zhàn)略的高度。在國外,先后出現(xiàn)了通用電氣的集工業(yè)連接、實時監(jiān)控、數(shù)據(jù)分析等功能為一體的Predix 平臺[1],波音公司的具有工程優(yōu)化、機隊可靠性分析和預(yù)測性維護等多種功能的AnalytX 平臺和空客公司與波音公司同步推出的Skywise。在國內(nèi),中國南方航空公司于2016 年率先加入交通運輸部的綜合交通運輸出行大數(shù)據(jù)開放云平臺項目,并以之為基礎(chǔ)不斷完善自己的航空大數(shù)據(jù)處理平臺;重慶機場集團有限公司于2017 年9 月與華為合作啟動智慧機場建設(shè);中國國際航空公司和海南航空公司也開始使用國內(nèi)首個提供民航數(shù)據(jù)分析服務(wù)的飛常準大數(shù)據(jù)平臺。這些航空大數(shù)據(jù)平臺雖然有力地推動了航空公司的運營效率和服務(wù)水平,但是仍然不能滿足航空業(yè)競爭日漸加劇、客戶個性化需求日益提高和航空服務(wù)領(lǐng)域不斷擴大等新時代航空業(yè)發(fā)展的需求。利用航空大數(shù)據(jù)因能預(yù)測航空器和服務(wù)對象行為、挖掘關(guān)聯(lián)模式和檢測異常等而成為眾多航空公司降低運營成本、提高服務(wù)質(zhì)量和促進航空應(yīng)用的有力手段。
到目前為止,也出現(xiàn)了少許航空大數(shù)據(jù)綜述方面的工作。文獻[2]主要簡單地綜述了航空大數(shù)據(jù)采集傳輸、分析技術(shù)及可視化,評述了目前主要的幾款航空大數(shù)據(jù)平臺,指出了大數(shù)據(jù)在航空系統(tǒng)中的應(yīng)用還存在著理念、方法、技術(shù)、人等方面的挑戰(zhàn)等。文獻[3]指出了航空大數(shù)據(jù)給航空系統(tǒng)帶來的機遇和應(yīng)用實例,然后給出了一種從關(guān)系型SQL(structured query language)數(shù)據(jù)庫向NoSQL 數(shù)據(jù)庫轉(zhuǎn)換的一種解決方案。文獻[4]從2010 年后被廣泛引用的200 篇文獻中分析了航空研究中數(shù)據(jù)的多樣性、可用性、追蹤性、適用性和來源,然而對航空大數(shù)據(jù)中的技術(shù)和存在的問題涉及甚少。與之相比,本文從數(shù)據(jù)和系統(tǒng)兩個角度厘清航空大數(shù)據(jù)的定義,并對其中的內(nèi)容進行了較為詳細的闡述;同時從計算機技術(shù)的角度對航空大數(shù)據(jù)關(guān)鍵技術(shù)進行了較為全面系統(tǒng)的論述;更進一步地,從航空技術(shù)本身和航空要素兩個層面指出了航空大數(shù)據(jù)中存在的主要問題及相應(yīng)的研究方向。本文試圖為航空大數(shù)據(jù)勾勒出一個較為全面而清晰的概貌,為相關(guān)領(lǐng)域的研究提供有益參考。
隨著經(jīng)濟的發(fā)展和社會生活節(jié)奏的加快,航空業(yè)得到了空前的發(fā)展;與此同時,航空服務(wù)對象也由最初的旅客和貨物擴展到農(nóng)業(yè)、海洋監(jiān)測和搶災(zāi)救險等眾多領(lǐng)域。各大航空公司競相通過自身研發(fā)與交流合作降低服務(wù)成本和提高服務(wù)質(zhì)量。在此背景下,需要一個較為準確明晰的航空大數(shù)據(jù)的定義和組織結(jié)構(gòu),以界定研究討論的范圍和厘清努力的方向與存在的問題。與上述大數(shù)據(jù)的定義相對應(yīng),下面分別從數(shù)據(jù)和系統(tǒng)的角度給出航空大數(shù)據(jù)的定義及組織結(jié)構(gòu)。
航空系統(tǒng)的正常運轉(zhuǎn)需要其中的元素(實體)相互通信、彼此協(xié)作,圖1 示意性地展示了異常龐大而又高度復(fù)雜協(xié)同的航空系統(tǒng);其中的航空器、機場、顧客、航空公司、航空制造公司和航空地面站等通過數(shù)據(jù)通信而協(xié)調(diào)有序運行。數(shù)據(jù)角度的航空大數(shù)據(jù)是航空系統(tǒng)本身和由之在應(yīng)用領(lǐng)域產(chǎn)生以及延伸的大數(shù)據(jù)。例如,航空器本身的運維、航空運輸對象、航空公司、服務(wù)對象和航空經(jīng)濟等。圖2 清晰地展示數(shù)據(jù)角度的航空大數(shù)據(jù)的組織結(jié)構(gòu)。可以看到,數(shù)據(jù)角度的航空大數(shù)據(jù)由航空器大數(shù)據(jù),機場大數(shù)據(jù),空管大數(shù)據(jù),航空公司人員、管理、設(shè)備和營銷的大數(shù)據(jù),應(yīng)用領(lǐng)域的大數(shù)據(jù)和延伸的大數(shù)據(jù)六部分組成。
Fig.1 Schematic diagram of aviation system圖1 航空系統(tǒng)示意圖
Fig.2 Organizational structure diagram of aviation big data from data perspective圖2 數(shù)據(jù)角度航空大數(shù)據(jù)的組織結(jié)構(gòu)示意圖
航空器大數(shù)據(jù)主要包括航空器在設(shè)計、生產(chǎn)、運行和維護過程中產(chǎn)生的大數(shù)據(jù)。例如,羅爾斯·羅伊斯在研發(fā)發(fā)動機的過程中,首先要設(shè)計發(fā)動機,并記錄相關(guān)數(shù)據(jù);然后制造出發(fā)動機樣機,在進行試驗測試的同時記錄各種數(shù)據(jù);在生產(chǎn)發(fā)動機時,記錄下生產(chǎn)線上的各種數(shù)據(jù);使用快速存取記錄器(quick access recorder,QAR)和飛行數(shù)據(jù)記錄器(flight data recorder,F(xiàn)DR)記錄航空器運行過程的大數(shù)據(jù);在飛行和停飛期間對航空器進行預(yù)測性維護和地面維護會產(chǎn)生航空器維護大數(shù)據(jù)。
機場大數(shù)據(jù)是指由機場內(nèi)及周圍的實體和動態(tài)系統(tǒng)產(chǎn)生的大數(shù)據(jù),主要包括機場航班大數(shù)據(jù)、機場旅客大數(shù)據(jù)、機場物流大數(shù)據(jù)和機場交通大數(shù)據(jù)等。每天的航班信息組成了機場航班大數(shù)據(jù),如航班號、出發(fā)/到達時間、是否延誤等。安檢、娛樂消費、服務(wù)評價和行為軌跡等組成了機場旅客大數(shù)據(jù)。機場內(nèi)旅客行李和貨物的安檢、封裝、分流而產(chǎn)生的機場物流大數(shù)據(jù)。機場電力資源的使用情況和狀態(tài)及維護、機場調(diào)度室人員與設(shè)備工作、機場內(nèi)娛樂與餐飲服務(wù)等產(chǎn)生的大數(shù)據(jù)組成了機場運行保障資源大數(shù)據(jù)。機場內(nèi)部及其周圍的交通所產(chǎn)生的大數(shù)據(jù)組成了機場交通大數(shù)據(jù),例如機場內(nèi)部旅客和貨物的短距離載運、與機場相關(guān)的周圍交通的變化和與機場內(nèi)其他例行性作業(yè)相關(guān)交通的運行等。
隨著航空器種類和數(shù)量的增多,空中交通管理變得越來越重要,因此會產(chǎn)生空管大數(shù)據(jù)。該類大數(shù)據(jù)主要有以下幾種:(1)每天在機場對眾多航空器進行調(diào)度會產(chǎn)生航空器調(diào)度大數(shù)據(jù)。(2)航空器在飛行過程中經(jīng)常因改變航道、出現(xiàn)故障、航行狀態(tài)等情況和地面空管機構(gòu)通話,產(chǎn)生陸空通話大數(shù)據(jù)。(3)為了對空中交通進行實時高效的管理,需要不斷記錄反映天氣的指標數(shù)據(jù)。(4)空管系統(tǒng)因管理空域中的航路而需要不間斷地、可視化地監(jiān)視空中航空器的航行軌跡,由此產(chǎn)生航跡大數(shù)據(jù)。
航空公司大數(shù)據(jù)是指從事航空器制造和與航空應(yīng)用相關(guān)的公司在人員、管理、設(shè)備和營銷方面產(chǎn)生的大數(shù)據(jù)。其中,航空公司營銷大數(shù)據(jù)主要包括市場上消費者需要分析的大數(shù)據(jù)、營銷模型和策略及其效益的大數(shù)據(jù)和財務(wù)大數(shù)據(jù)等。
應(yīng)用領(lǐng)域(服務(wù)/對象)大數(shù)據(jù)是指航空器在服務(wù)旅客、貨運、農(nóng)業(yè)和海洋等過程中來自于服務(wù)對象和環(huán)境的大數(shù)據(jù)。例如,航空旅客大數(shù)據(jù)是航空器服務(wù)旅客的全過程中來自于旅客和環(huán)境的大數(shù)據(jù),包括旅客自身的數(shù)據(jù)、機票搜索與預(yù)訂數(shù)據(jù)、空客評論與社交網(wǎng)絡(luò)數(shù)據(jù)、旅客的行為偏好數(shù)據(jù)等。
延伸的大數(shù)據(jù)是指由上述五類航空大數(shù)據(jù)延伸出的大數(shù)據(jù)。例如:(1)航空經(jīng)濟大數(shù)據(jù)是指由航空系統(tǒng)給區(qū)域或國家?guī)淼慕?jīng)濟方面的大數(shù)據(jù)。如航空公司股票大數(shù)據(jù)和航空公司經(jīng)濟收益大數(shù)據(jù)及由航空系統(tǒng)帶動的其他行業(yè)的經(jīng)濟數(shù)據(jù)等。(2)航空合作交流大數(shù)據(jù)是由航空組織和政府及相關(guān)學(xué)術(shù)組織因舉行會議和相關(guān)活動而產(chǎn)生的大數(shù)據(jù)。隨著社會發(fā)展節(jié)奏的加快和經(jīng)濟交叉融合的日益深入,延伸的大數(shù)據(jù)也會越來越多。
從上述組織結(jié)構(gòu)可以看出,數(shù)據(jù)角度的航空大數(shù)據(jù)除了具有大數(shù)據(jù)的“5V”特征外,還擁有自己的特性:(1)從行業(yè)角度看,航空大數(shù)據(jù)具有保密性。例如,客戶數(shù)據(jù)、航空器飛行數(shù)據(jù)等都具有較高的行業(yè)商業(yè)保密性。(2)從空間角度講,航空大數(shù)據(jù)可來自空、天、地三個維度,具有廣域性。(3)從時間層面看,航空系統(tǒng)的動態(tài)性和高安全性需求使數(shù)據(jù)角度的航空大數(shù)據(jù)具有鮮明的高實時性特征。(4)來源多樣的航空大數(shù)據(jù)交織在一起,而且易受環(huán)境和人為因素的影響,表現(xiàn)出超復(fù)雜性。
目前,航空大數(shù)據(jù)自身的獲取比較容易,而航空大數(shù)據(jù)的處理技術(shù)和平臺構(gòu)建相對較難。因此常說的航空大數(shù)據(jù)日益具有系統(tǒng)性的一面。系統(tǒng)角度的航空大數(shù)據(jù)是一個完整的體系,既包括航空系統(tǒng)本身和由之在應(yīng)用領(lǐng)域以及延伸產(chǎn)生的大數(shù)據(jù)本身,也包括與之相關(guān)的硬件平臺、智能處理技術(shù)和虛擬仿真與可視化技術(shù)等。圖3 示意性地展示了系統(tǒng)角度的航空大數(shù)據(jù)的體系組織結(jié)構(gòu)。從圖3 可以清晰地看到:除了數(shù)據(jù)角度的航空大數(shù)據(jù)外,系統(tǒng)角度的航空大數(shù)據(jù)還包括基礎(chǔ)架構(gòu)層、資源層、數(shù)據(jù)解析管理層、分析層和可視化層等。下面對其中的每一層進行詳細闡述。
1.2.1 基礎(chǔ)架構(gòu)層
Fig.3 Organization structure diagram of aviation big data from system perspective圖3 系統(tǒng)角度航空大數(shù)據(jù)的組織結(jié)構(gòu)示意圖
基礎(chǔ)架構(gòu)層主要是為航空大數(shù)據(jù)的存儲、傳輸、安全和面向某一具體應(yīng)用等提供基礎(chǔ)性服務(wù)的軟件與硬件設(shè)備。大數(shù)據(jù)的“5V”特點和應(yīng)用領(lǐng)域與場景的多樣性對服務(wù)器的性能提出了較高的要求,按具體的用途主要有計算類服務(wù)器、面向海量存儲的服務(wù)器、面向可視化和虛擬現(xiàn)實的服務(wù)器、面向通訊與網(wǎng)絡(luò)系統(tǒng)的服務(wù)器和鏡像服務(wù)器五種。不同類型的服務(wù)器只有協(xié)調(diào)工作才能形成一個功能完備的服務(wù)器集群。
航空系統(tǒng)產(chǎn)生的大數(shù)據(jù)具有實時性和多源性的特點;位于基礎(chǔ)架構(gòu)層服務(wù)器中的數(shù)據(jù)會被頻繁訪問。因此,基礎(chǔ)架構(gòu)層內(nèi)應(yīng)包括具有高速寬帶、負載均衡和并發(fā)訪問機制等特性的網(wǎng)絡(luò)輔助系統(tǒng)?;ヂ?lián)網(wǎng)開放環(huán)境對位于基礎(chǔ)架構(gòu)層內(nèi)服務(wù)器的安全性提出了更高的要求;而基礎(chǔ)架構(gòu)層中的安全設(shè)備可為其中的服務(wù)器提供安全保障。服務(wù)器機房常用的安全設(shè)備有防火墻、空調(diào)系統(tǒng)、備用電源、監(jiān)控系統(tǒng)和隔熱層等。
1.2.2 資源層
虛擬化技術(shù)能構(gòu)建支持異構(gòu)存儲、異構(gòu)網(wǎng)絡(luò)、異構(gòu)主機及各種不同版本應(yīng)用的統(tǒng)一的計算資源池的架構(gòu),因此虛擬化的基礎(chǔ)架構(gòu)為基礎(chǔ)架構(gòu)層中服務(wù)器和其他軟硬件的擴展提供了便利。到目前為止,常用于航空大數(shù)據(jù)的虛擬化技術(shù)有存儲虛擬化、網(wǎng)絡(luò)虛擬化、服務(wù)器虛擬化等。每臺虛擬化的服務(wù)器都擁有虛擬化的獨立“硬件”,其工作實際上是由物理機的硬件完成的。
Hadoop 編程框架的出現(xiàn),開辟了在大規(guī)模集群上并行分布式計算和存儲的時代。在基于Hadoop 集群的分布式并行系統(tǒng)中:(1)一個計算節(jié)點或存儲節(jié)點可映射到一臺或多臺物理服務(wù)器上;(2)物理服務(wù)器數(shù)量的可擴充性和虛擬映射機制使得計算節(jié)點和存儲節(jié)點可方便地擴展,因此能提供近似無限的計算和存儲能力;同時,云技術(shù)可把眾多由網(wǎng)絡(luò)連接的超大服務(wù)器集群起來。因此,以Hadoop 為代表的分布式系統(tǒng)和云技術(shù)為基礎(chǔ)架構(gòu)虛擬化提供了便利。
1.2.3 數(shù)據(jù)解析管理層
數(shù)據(jù)解析管理層主要是對多源大數(shù)據(jù)進行解析和管理。工業(yè)互聯(lián)網(wǎng)云系統(tǒng)Predix 和飛參解析系統(tǒng)是航空領(lǐng)域兩個非常著名的航空大數(shù)據(jù)解析管理系統(tǒng)。2013 年推出的Predix 旨在通過將各種工業(yè)資產(chǎn)設(shè)備和供應(yīng)商相互連接和接入云端,提供端到端的安全連接、實時性的設(shè)備資產(chǎn)監(jiān)控以及云端大數(shù)據(jù)分析和進行基于客戶需要的個性化軟件開發(fā)和部署[2]。目前的Predix 具有鏈接資產(chǎn)的安全監(jiān)控、工業(yè)數(shù)據(jù)管理、工業(yè)數(shù)據(jù)分析、云技術(shù)應(yīng)用與移動性四大核心功能,在航空領(lǐng)域中常用于發(fā)動機設(shè)計與制造、航空器制造與運營過程中的實時監(jiān)控等。
航空器的飛行參數(shù)和狀態(tài)參數(shù)是飛行參數(shù)記錄器記錄的重要指標。隨著航空器的發(fā)展,需要記錄的飛行參數(shù)也越來越多。到目前為止,記錄的飛行參數(shù)有航空器狀態(tài)參數(shù)、航空器飛行姿態(tài)參數(shù)、航空器飛行航向參數(shù)、航空器發(fā)動機狀態(tài)參數(shù)、航空器有關(guān)操縱器件參數(shù)和航空器其他有關(guān)設(shè)備參數(shù)等。這些被記錄的參數(shù)值通過地面檢測儀傳回地面,然后通過飛參解析系統(tǒng)對其進行聯(lián)合智能分析。飛參解析系統(tǒng)是一個集人工智能、機器學(xué)習(xí)和數(shù)據(jù)挖掘為一體的學(xué)習(xí)式專家系統(tǒng),可以在不斷學(xué)習(xí)、分析新數(shù)據(jù)的基礎(chǔ)上逐漸完善自己的知識規(guī)則庫和智能分析能力,進而不斷提高服務(wù)質(zhì)量。
由具體應(yīng)用領(lǐng)域產(chǎn)生的航空大數(shù)據(jù)是海量多源的和異域的,也往往需要進行不同的處理。因此,采集到的航空大數(shù)據(jù)常常是分布式存儲的。由Hadoop提供的分布式文件系統(tǒng)(Hadoop distribution file system,HDFS)為數(shù)據(jù)的分布式存儲提供了強有力的支持。在實際存儲時,大數(shù)據(jù)會被分成不同的片段,然后將其存儲到不同的節(jié)點上。為了方便查找,將建立大數(shù)據(jù)片段的分布式全局索引;然后由分布式操作引擎發(fā)起對大數(shù)據(jù)的增刪改查。到目前為止,常用于分布式存儲航空大數(shù)據(jù)的數(shù)據(jù)庫有以下幾個:(1)HBase是一種構(gòu)建在HDFS 之上的分布式、面向列的動態(tài)模式數(shù)據(jù)庫,比較適合實時讀寫、隨機訪問超大規(guī)模數(shù)據(jù)集的場景。(2)MongoDB 是一種基于分布式文件存儲的NoSql 數(shù)據(jù)庫,適用于半結(jié)構(gòu)化數(shù)據(jù)的存儲和增刪改查,支持多種編程語言訪問、完全索引和動態(tài)查詢。(3)Hive是一個運行于Hadoop 分布式文件系統(tǒng)上的開源數(shù)據(jù)庫,提供完整的SQL 查詢功能,適用于大數(shù)據(jù)集的批處理作業(yè)。(4)Redis 是一個開源免費的Key-Value 型高性能數(shù)據(jù)庫,支持字符串、鏈表和集合等類型的value 值的存儲,具有較高的讀寫速度,支持主從服務(wù)器數(shù)據(jù)同步與消息訂閱等優(yōu)點。航空大數(shù)據(jù)采集和分析過程中經(jīng)常會產(chǎn)生一些適合傳統(tǒng)數(shù)據(jù)庫存儲的結(jié)構(gòu)化數(shù)據(jù),因此傳統(tǒng)數(shù)據(jù)庫在航空大數(shù)據(jù)中仍有用武之地。常用的傳統(tǒng)數(shù)據(jù)庫有MySQL、SQL Server和Oracle等。
1.2.4 分析層
分析層的本質(zhì)是利用人工智能、機器學(xué)習(xí)、數(shù)據(jù)挖掘和模式識別中的模型與算法對航空大數(shù)據(jù)進行有目的處理的過程。大數(shù)據(jù)的“5V”特點和航空領(lǐng)域的復(fù)雜性與實際應(yīng)用需求使得智能算法不能直接處理航空大數(shù)據(jù),而是需要使用一些軟件模塊來滿足流數(shù)據(jù)處理和實時性等業(yè)務(wù)需求。對于航空大數(shù)據(jù)體系來講,分析層中經(jīng)常使用的輔助模塊有以下幾種:(1)工作流系統(tǒng)幫助分析層中各部分協(xié)調(diào)高效工作,目前常見的航空大數(shù)據(jù)工作流系統(tǒng)有Airflow、Azkaban、Conductor、Oozie 和Zookeeper 等。其中的Zookeeper 采用leader-follower 協(xié)同機制,具有配置維護、域名服務(wù)、分布式同步和組服務(wù)等功能。(2)計算引擎是專注于大數(shù)據(jù)進行快速計算的軟件系統(tǒng)。Spark 計算引擎包括批處理計算的Spark core、實時流處理的Spark Streaming、機器學(xué)習(xí)的Spark MLlib 和圖計算的Spark GraphX 等核心組件,具有計算高效、通用易用和運行模式多樣的特點。Flink 計算引擎具有可容錯、高吞量、支持窗口機制和狀態(tài)管理機制等,在真正意義上做到了流處理與批處理的統(tǒng)一。(3)資源調(diào)度通過集中管理集群中各節(jié)點的資源,以共享集群的方式為分析層中的各種計算框架和智能算法統(tǒng)一提供CPU、內(nèi)存和存儲等資源。Yarn 負責集群資源的統(tǒng)一管理,適合多種計算框架,并具有高擴展性和高可用性的優(yōu)點,因此成為目前航空大數(shù)據(jù)平臺上主流的資源調(diào)度系統(tǒng)。(4)航空大數(shù)據(jù)領(lǐng)域中的航空器數(shù)據(jù)、旅客數(shù)據(jù)和物流數(shù)據(jù)等都是流式數(shù)據(jù),需要專門的流處理引擎對其進行流式處理。目前常用于航空大數(shù)據(jù)領(lǐng)域的流處理引擎有Spark Streaming、Storm 和Flink DataStream 等。其中,Spark Streaming 按一定的時間間隔將接收到數(shù)據(jù)流切分成離散數(shù)據(jù)片段(batch),然后對其進行批處理。Spark Streaming 具有高吞吐量、容錯機制和支持多種數(shù)據(jù)源的優(yōu)點。Storm 采用Master/Slave 體系結(jié)構(gòu),其分布式計算由Nimbus 和Supervisor 兩類服務(wù)進程實現(xiàn)。Storm 具有編程簡單、支持多種語言、容錯性強和消息處理快等優(yōu)點。
分析層對航空大數(shù)據(jù)進行上述輔助性處理之后,還需使用人工智能、機器學(xué)習(xí)、數(shù)據(jù)挖掘與模式識別中的智能算法進行挖掘才得到有價值的知識與信息。具體的航空大數(shù)據(jù)分析技術(shù)詳見2.4 節(jié)。
1.2.5 可視化層
由智能算法從航空大數(shù)據(jù)中挖掘出的知識和信息通常是數(shù)字或文本,這給決策者理解和使用帶來不便。而對有價值的知識和信息進行可視化是幫助決策者分析和決策的有效途徑。另一方面,航空領(lǐng)域真實場景比較復(fù)雜,更加需要可視化技術(shù)進行清晰的展示。基于圖表的可視化是一種最簡單的可視化技術(shù),如利用數(shù)學(xué)意義上的二維圖、三維圖、坐標圖和表格展示分析結(jié)果。基于虛擬現(xiàn)實的可視化技術(shù)通過在對真實場景虛擬仿真的基礎(chǔ)上立體式顯示挖掘出的結(jié)果,適合復(fù)雜應(yīng)用場景的虛擬仿真。此外,利用智能可視化軟件展示航空大數(shù)據(jù)分析結(jié)果是一條便捷有效的可視化途徑。具體內(nèi)容詳見2.5節(jié)。
航空大數(shù)據(jù)的復(fù)雜多源性和不同層次與應(yīng)用面向的決策者對航空大數(shù)據(jù)分析需求的多樣性,造成了航空大數(shù)據(jù)技術(shù)的多樣性。從航空大數(shù)據(jù)處理過程性的技術(shù)角度,將航空大數(shù)據(jù)關(guān)鍵技術(shù)分為航空大數(shù)據(jù)采集技術(shù)、航空大數(shù)據(jù)存儲管理技術(shù)、航空大數(shù)據(jù)預(yù)處理技術(shù)、航空大數(shù)據(jù)分析技術(shù)和航空大數(shù)據(jù)虛擬仿真與可視化技術(shù)。圖4 從技術(shù)的角度展示了航空大數(shù)據(jù)關(guān)鍵技術(shù)的組織結(jié)構(gòu),其中一些類的技術(shù)又包含不同的具體技術(shù)。
獲得航空大數(shù)據(jù)是進行航空系統(tǒng)狀態(tài)分析的前提,而且航空大數(shù)據(jù)的質(zhì)量也對分析結(jié)果產(chǎn)生至關(guān)重要的影響。因此,航空大數(shù)據(jù)采集技術(shù)是航空大數(shù)據(jù)的關(guān)鍵技術(shù)之一。到目前為止,航空大數(shù)據(jù)的采集技術(shù)可粗略地歸納為以下五種。
Fig.4 Organization chart of key technologies of aviation big data圖4 航空大數(shù)據(jù)關(guān)鍵技術(shù)組織結(jié)構(gòu)圖
(1)基于航空器機載感知設(shè)備的航空大數(shù)據(jù)采集技術(shù)。航空器通常需要在空中完成作業(yè),因此利用機載感知設(shè)備監(jiān)控航空器的狀態(tài)是非常重要的。航空器機載的感知設(shè)備主要包括傳感器、攝像頭和智能終端儀表等?;跈C載傳感器的航空大數(shù)據(jù)采集系統(tǒng)主要包括QAR、FDR、駕駛艙語音記錄器(cockpit voice recorder,CVR)、飛行數(shù)據(jù)管理系統(tǒng)(flight data management system,F(xiàn)DMS)和應(yīng)用性機載攝像頭等。表1 列出了基于航空器機載感知設(shè)備的主要航空大數(shù)據(jù)采集工具。
(2)基于網(wǎng)絡(luò)的航空大數(shù)據(jù)采集技術(shù)。航空領(lǐng)域是由多個不同的子領(lǐng)域組成的,如航空制造領(lǐng)域、航空旅客領(lǐng)域和航空貨運領(lǐng)域等。網(wǎng)絡(luò)上有許多與這些子領(lǐng)域相關(guān)的客戶信息、客戶的評價與反饋和客戶的偏好等,與之相應(yīng)的大數(shù)據(jù)可通過基于網(wǎng)絡(luò)的航空大數(shù)據(jù)采集技術(shù)來獲得。具體來講,采用某種網(wǎng)絡(luò)爬蟲技術(shù)或網(wǎng)站公開API(application programming interface)等方式從某些特定網(wǎng)站上獲得航空大數(shù)據(jù)。其中,網(wǎng)絡(luò)爬蟲本質(zhì)上是按照設(shè)計的抓取策略自動地抓取萬維網(wǎng)信息的程序或者腳本。目前常用的抓取策略有廣度優(yōu)先搜索、深度優(yōu)先搜索和最佳優(yōu)先搜索等。常用的開發(fā)網(wǎng)絡(luò)爬蟲的語言有PHP、C++、Java和Python 等。
Table 1 Main aviation big data acquisition tools based on airborne perception equipment表1 機載感知設(shè)備的主要航空大數(shù)據(jù)采集工具
(3)基于衛(wèi)星和無線電傳輸?shù)暮娇沾髷?shù)據(jù)采集技術(shù)?;谛l(wèi)星和無線電傳輸?shù)暮娇沾髷?shù)據(jù)采集是指利用衛(wèi)星和無線電通訊技術(shù)在航空器和地面人員之間實行雙工通信,獲得與飛行員、天氣狀況等方面的航空大數(shù)據(jù)[9]。例如:航空器通信尋址和報告系統(tǒng)是一種通過無線電或衛(wèi)星在航空器和地面站之間傳輸報文的代表性數(shù)字數(shù)據(jù)鏈系統(tǒng)。
(4)基于地面智能設(shè)備的航空大數(shù)據(jù)采集技術(shù)。航空器在起降和飛行過程中都要實時地和地面智能設(shè)備通信,在此期間和機場有著千絲萬縷的聯(lián)系。機場有塔臺、觀測站、雷達、導(dǎo)航儀、通訊發(fā)射架和空域檢測儀等,這些設(shè)備也可產(chǎn)生航空大數(shù)據(jù)?;诘孛嬷悄茉O(shè)備的航空大數(shù)據(jù)采集通常是由地面安裝的智能設(shè)備或地勤人員通過便攜式設(shè)備現(xiàn)場收集到的航空大數(shù)據(jù)。
(5)基于人工記錄的航空大數(shù)據(jù)采集技術(shù)。航空領(lǐng)域中的一些大數(shù)據(jù)是通過長時間的現(xiàn)場人工記錄獲得的,如航空器相關(guān)設(shè)備耗損的記錄、相關(guān)人員每天的工作記錄和相關(guān)設(shè)備制造時的異常情況記錄等。由該采集技術(shù)獲得的數(shù)據(jù)通常在統(tǒng)一匯總后錄入相關(guān)的信息管理系統(tǒng)。
作為大數(shù)據(jù)家族中的一員,航空大數(shù)據(jù)通常也采用基于分布式架構(gòu)的存儲技術(shù)。具體來講,以Hadoop 中的HDFS 為基礎(chǔ),依托存儲大數(shù)據(jù)的數(shù)據(jù)庫和傳統(tǒng)關(guān)系數(shù)據(jù)庫建立航空大數(shù)據(jù)平臺,實現(xiàn)對各類航空數(shù)據(jù)的存儲和管理。航空大數(shù)據(jù)的異質(zhì)多源性決定了所用數(shù)據(jù)庫的非單一性:既需要專門用于海量的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)庫HBase、MongoDB 和Redis 等,充分利用其高性能、高可靠和低成本的優(yōu)勢,又要利用Oracle 和MySQL 等傳統(tǒng)數(shù)據(jù)庫來存儲分析結(jié)果和結(jié)構(gòu)化的航空大數(shù)據(jù),充分利用其靈活、快速、復(fù)雜的統(tǒng)計分析功能。圖5 展示了基于Hadoop 的航空大數(shù)據(jù)存儲示意圖,可以看到:采集到的廣域多源航空大數(shù)據(jù)首先輸入給處理結(jié)構(gòu)化數(shù)據(jù)的Sqoop 和半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的Flume;然后,非實時數(shù)據(jù)流經(jīng)HDFS 存儲到關(guān)系數(shù)據(jù)庫或非關(guān)系數(shù)據(jù)庫中,實時性數(shù)據(jù)流以消息的形式暫存到Kafka 的消息隊列中,繼而將其輸入給Storm,最終存儲到數(shù)據(jù)庫中。Zookeeper為分布式集群環(huán)境下的節(jié)點提供管理協(xié)調(diào)服務(wù)。圖6 進一步詳細展示了HDFS 主從結(jié)構(gòu):HDFS 主節(jié)點NameNode 管理若干個數(shù)據(jù)節(jié)點DataNode,每個DataNode 中的數(shù)據(jù)塊是從(機房里)存儲盤節(jié)點node 上獲取的;HDFS 從節(jié)點是主節(jié)點的備份,能提高HDFS 的抗災(zāi)容錯性能。
Fig.5 Schematic diagram of aviation big data storage based on Hadoop圖5 基于Hadoop 的航空大數(shù)據(jù)存儲示意圖
Fig.6 HDFS schematic diagram圖6 HDFS 結(jié)構(gòu)示意圖
航空大數(shù)據(jù)的來源較多,如航空器、航空公司、機場和服務(wù)對象等,因此航空大數(shù)據(jù)的形式和組織格式是多樣的。另一方面,航空大數(shù)據(jù)采集時因受環(huán)境和記錄時況的影響而呈現(xiàn)出噪音大和部分值缺失的現(xiàn)象。更進一步地,航空大數(shù)據(jù)的分析往往需要多種數(shù)據(jù)的融合。在此背景下,航空大數(shù)據(jù)的預(yù)處理就顯得非常重要。到目前為止,航空大數(shù)據(jù)預(yù)處理的基本步驟如下[10]:
(1)數(shù)據(jù)清洗,是對航空大數(shù)據(jù)的初步預(yù)處理,主要包括以下幾個操作:①刪除有缺失值的記錄或者對其進行平均或隨機填充。②通過分箱、聚類和回歸等技術(shù)降低航空大數(shù)據(jù)中的噪音。③通過聚類等技術(shù)檢測出離群點并刪除。(2)數(shù)據(jù)標準化/轉(zhuǎn)換,根據(jù)需要采用某種技術(shù)將其轉(zhuǎn)化為某種標準形式,如歸一化技術(shù)、標準正態(tài)化技術(shù)等。(3)數(shù)據(jù)融合/集成,對不同的數(shù)據(jù)源進行概念和物理上的集成,以形成一個更加綜合的數(shù)據(jù)集。數(shù)據(jù)融合主要包括實體的識別與統(tǒng)一、冗余屬性的刪除和數(shù)據(jù)值沖突的檢測與消除等。(4)數(shù)據(jù)約簡,通過數(shù)據(jù)立方合計、維數(shù)消減、數(shù)據(jù)壓縮和數(shù)據(jù)塊消減等技術(shù),得到航空大數(shù)據(jù)集的約簡表示。約簡后的數(shù)據(jù)集既要有較小的規(guī)模,又要保持原有數(shù)據(jù)集的完整性。(5)數(shù)據(jù)離散化,通過采用等距、等頻和監(jiān)督的離散優(yōu)化等方法將航空大數(shù)據(jù)中的某些屬性值映射到區(qū)間或概念標號上。例如,采用等距法將航班延誤時間映射到相應(yīng)的區(qū)間上。(6)數(shù)據(jù)泛化,將數(shù)據(jù)從相對低層概念映射到更高層概念上,并對數(shù)據(jù)庫中與任務(wù)相關(guān)的數(shù)據(jù)進行抽象。
在實際應(yīng)用中,應(yīng)根據(jù)待處理的航空大數(shù)據(jù)的特點、分析算法的特性和實際需求選擇相應(yīng)的預(yù)處理步驟。
航空大數(shù)據(jù)的多源性、異構(gòu)性、多樣性和航空決策服務(wù)人員需求的多層次性決定了航空大數(shù)據(jù)的分析技術(shù)是多種多樣的。從計算機技術(shù)與數(shù)學(xué)的角度看,航空大數(shù)據(jù)分析技術(shù)可粗略地分為預(yù)測建模分析技術(shù)、聚類分析技術(shù)、關(guān)聯(lián)分析技術(shù)、異常檢測技術(shù)和虛擬仿真與可視化技術(shù)等,下面對其進行逐一詳述。
2.4.1 航空大數(shù)據(jù)預(yù)測建模分析技術(shù)
在航空大數(shù)據(jù)領(lǐng)域中,預(yù)測性分析航空器件、服務(wù)對象和環(huán)境等的狀態(tài)變化對航空器件的維護、飛行安全、服務(wù)精準度的提高、運營成本的降低和競爭力的提高都是非常重要的。因此,預(yù)測性分析技術(shù)在航空大數(shù)據(jù)技術(shù)中占據(jù)著十分重要的地位。從目前來看,航空大數(shù)據(jù)的預(yù)測建模分析技術(shù)主要有經(jīng)典分類模型、深度神經(jīng)網(wǎng)絡(luò)模型、數(shù)學(xué)模型、增強學(xué)習(xí)和新建模型等。
(1)基于經(jīng)典分類模型的航空大數(shù)據(jù)預(yù)測
支撐向量機(support vector machine,SVM)因具有數(shù)學(xué)理論基礎(chǔ)堅實、算法簡單和魯棒性強的優(yōu)點而在航空大數(shù)據(jù)預(yù)測方面得到了應(yīng)用研究[11-16]。Chen等人提出了一個帶有加權(quán)邊緣的模糊SVM 模型,并將之用于航班延誤的早期預(yù)警[11]。該模型采用相對距離作為隸屬度,通過一對一的分類方式實現(xiàn)延誤等級的多分類。李艷軍等人提出了一種基于信息?;蚐VM 的航空發(fā)動機性能預(yù)測方法[14],該方法首先對預(yù)處理后的數(shù)據(jù)集進行模糊?;?,然后在訓(xùn)練核化SVM 的過程中利用遺傳算法對懲罰參數(shù)和核函數(shù)參數(shù)進行優(yōu)化。然而該方法的運行時間較長。田德紅等人提出了一種基于鄰域粗糙集和SVM 的航空彈藥消耗預(yù)測方法[15]:首先基于條件屬性對決策屬性的重要程度原理,利用鄰域粗糙集對數(shù)據(jù)集中的屬性以前向貪婪的方式進行約簡;然后通過融入高斯核函數(shù)建立非線性SVM 模型,采用粒子群算法優(yōu)化懲罰參數(shù)和核參數(shù)。實驗表明:該方法所得結(jié)果具有相對較小的誤差;與傳統(tǒng)的SVM 預(yù)測和雙隱含層BP(back propagation)神經(jīng)網(wǎng)絡(luò)相比,該方法預(yù)測的結(jié)果更接近實際值,且均方誤差較小。文獻[16]提出了一種基于最小二乘SVM 的燃油消耗動態(tài)預(yù)測方法:首先建立最小二乘SVM 模型形式;然后通過引入精英集改進粒子群算法,使用其搜索懲罰系數(shù)和核函數(shù)參數(shù);接著通過改進粒子群算法學(xué)習(xí)SVM 參數(shù);最后結(jié)合提出的橫向與縱向二維驅(qū)動的動態(tài)模型實現(xiàn)動態(tài)預(yù)測。實驗表明該方法的預(yù)測效果較好,但是其計算復(fù)雜度較高。
決策樹是一個根據(jù)數(shù)據(jù)集屬性的分類能力而構(gòu)建的樹形分類預(yù)測模型,具有無參數(shù)、構(gòu)建技術(shù)成熟、易解釋和魯棒性強等優(yōu)點。這些優(yōu)點使其在航空大數(shù)據(jù)預(yù)測方面得到了應(yīng)用[17-22]。Manna 等人將梯度增強型決策樹用于航班延遲預(yù)測:首先從含有14個分量的數(shù)據(jù)集中選取8 個作為特征,然后對其進行標準化和規(guī)范化處理,最后依據(jù)處理后的特征數(shù)據(jù)集構(gòu)建決策樹模型[17];該模型具有較高的準確率。Mangortey 等人提出了一個用于航空大數(shù)據(jù)分析的數(shù)據(jù)融合框架:該框架先采用JSON(javascript object notation)解析不同的數(shù)據(jù)集,再按時間和機場把解析的數(shù)據(jù)集融合到一起;然后采用決策樹技術(shù)預(yù)測與天氣有關(guān)的地面延誤程序的發(fā)生[18]。Christopher 等人將分類技術(shù)用于航空器事故預(yù)警等級的預(yù)測[21]:首先利用相關(guān)特征選擇、一致特征子集、增益率和主成分分析等技術(shù)對航空器大數(shù)據(jù)進行特征選擇,得到約簡的特征集;然后采用決策樹、樸素貝葉斯分類器、SVM、K-近鄰和多層感知器進行預(yù)警等級分類。實驗結(jié)果表明,基于決策樹的預(yù)測模型可得到最高的準確率。文獻[22]提出了一種基于決策樹的航空電子設(shè)備故障診斷模型:首先在僅有故障和無故障兩類的訓(xùn)練集上學(xué)習(xí)到多棵決策樹;然后對于診斷的數(shù)據(jù)而言,由每棵決策樹做出概率預(yù)測,再由置信區(qū)間估計和貝葉斯概率計算出最終的預(yù)測。該模型的診斷是概率統(tǒng)計進行的,并不能保證完全準確。
隨機森林(random forest,RF)是由多棵決策樹集成的,也被用于航空大數(shù)據(jù)預(yù)測建模[23-26]。文獻[23]將RF 用于航空公司客戶流失的預(yù)測:首先對航空公司的會員數(shù)據(jù)進行整理,得到30 個自變量(屬性);然后樹的棵數(shù)和大小采用默認的參數(shù)值,通過交叉檢驗獲得92.02%準確率;接著固定樹的大小,再向RF中增加至90 棵決策樹;最后實驗結(jié)果表明該RF 模型可取得91.39%的預(yù)測準確度。Belcastro 等人提出了一種基于MapReduce 和RF 的航班延誤預(yù)測方法[25],該方法首先對原始的航班數(shù)據(jù)集和天氣數(shù)據(jù)集進行預(yù)處理和轉(zhuǎn)換;然后從處理后的數(shù)據(jù)集中生成多個不同的子集,將其作為訓(xùn)練集分布在MapReduce 框架中的不同節(jié)點上,并通過學(xué)習(xí)算法得到多棵決策樹;最后將其集成到一起形成RF。所提方法因基于MapReduce 而表現(xiàn)出良好的可伸展性。文獻[26]首先收集了美國國內(nèi)2005—2015 年的航班數(shù)據(jù)和天氣數(shù)據(jù),抽取與45 個機場相關(guān)的數(shù)據(jù),并對其進行數(shù)據(jù)補缺和標準化等預(yù)處理;然后基于此對決策樹、RF、Adaboost 和K-近鄰分類器進行訓(xùn)練,并將之用于航班延誤的預(yù)測;實驗表明RF 的性能最優(yōu)。
(2)基于神經(jīng)網(wǎng)絡(luò)模型的航空大數(shù)據(jù)預(yù)測
神經(jīng)網(wǎng)絡(luò)模型因具有特征表示能力強、容錯性高和魯棒性強的特點而被應(yīng)用于航空大數(shù)據(jù)的預(yù)測建模[27-32]。Kim 等人將循環(huán)神經(jīng)網(wǎng)絡(luò)和一般的神經(jīng)網(wǎng)絡(luò)相結(jié)合用于航班延誤預(yù)測[28]:首先將機場名字、時期、航班、天氣等數(shù)據(jù)作為循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入,然后將其輸出的某航班的延遲類別、歷史延遲類別和歷史天氣數(shù)據(jù)作為一般神經(jīng)網(wǎng)絡(luò)的輸入,預(yù)測出該航班的延遲狀態(tài);整個預(yù)測模型通過隨機梯度下降法快速訓(xùn)練得到,但是得到的預(yù)測模型的精度往往不高。張頡健等人針對航空發(fā)動機性能預(yù)測提出了一種基于離散輸入過程性神經(jīng)網(wǎng)絡(luò)的融合預(yù)測模型[29]:首先利用蟻群算法對參數(shù)的樣本空間進行劃分,利用主成分分析對各個子空間進行特征提取,并將其作為神經(jīng)網(wǎng)絡(luò)融合預(yù)測模型的輸入;然后確定神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),采用遺傳算法搜索最優(yōu)權(quán)值的閾值;最后通過減小輸出與標準值的誤差更新權(quán)值,進而得到神經(jīng)網(wǎng)絡(luò)模型。該模型的訓(xùn)練因使用了蟻群算法和遺傳算法而表現(xiàn)出效率較低的特點。田德紅等人提出了一個基于變異粒子群優(yōu)化與深度神經(jīng)網(wǎng)絡(luò)的航空彈藥消耗預(yù)測模型[30],該模型首先根據(jù)輸入和輸出確定神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu);然后將粒子定義為由深度神經(jīng)網(wǎng)絡(luò)的所有權(quán)值和閾值組成的向量,以網(wǎng)絡(luò)輸出誤差作為適應(yīng)度函數(shù),通過運行帶有自適應(yīng)變異算子的粒子群算法得到最優(yōu)的深度神經(jīng)網(wǎng)絡(luò);最后由之對輸入進行預(yù)測。實驗表明,該模型所得的預(yù)測結(jié)果具有很小的相對誤差,也具有優(yōu)于BP 神經(jīng)網(wǎng)絡(luò)模型和深度神經(jīng)網(wǎng)絡(luò)模型的預(yù)測精度。文獻[31]提出了一種基于改進型長短期記憶(long and short term memory,LSTM)網(wǎng)絡(luò)的軍用飛機下降階段的燃油消耗模型,首先利用互信息篩選了與燃油流率高度相關(guān)的參數(shù),然后在LSTM 中遺忘門的輸入上增加上一時刻的細胞狀態(tài)和采用了輸入門和遺忘門耦合的方式來共同控制細胞狀態(tài)的更新,并將改進的LSTM 用于燃油消耗模型的構(gòu)建。實驗表明新模型優(yōu)于標準LSTM和BP的預(yù)測結(jié)果。文獻[32]提出了一種基于LSTM-ARIMA(autoregressive integrated moving average)的短期航跡預(yù)測方法:首先通過特征擴展增加了到目標機場的距離和轉(zhuǎn)向狀態(tài)的特征數(shù)據(jù),然后針對LSTM 模型表達線性數(shù)據(jù)線性關(guān)系的不足,用LSTM 對經(jīng)度、緯度和高度進行非線性建模,再用ARIMA 對高度進行線性關(guān)系建模,對于兩個模型的高度預(yù)測值用標準相關(guān)性準則進行融合,最后將融合之后的高度值和LSTM 模型預(yù)測的經(jīng)度、緯度一起組成預(yù)測航跡的三維位置。
(3)基于數(shù)學(xué)模型的航空大數(shù)據(jù)預(yù)測
在面向航空大數(shù)據(jù)的預(yù)測建模技術(shù)中,整數(shù)規(guī)劃模型、回歸模型和統(tǒng)計模型也得到了應(yīng)用[33-38]。文獻[33]針對航空物流運輸提出了一種基于整數(shù)規(guī)劃模型的時間戳數(shù)據(jù)匹配技術(shù),其中的整數(shù)規(guī)劃模型用0-1 變量表示兩個記錄時間是否匹配。該模型的求解具有成熟的技術(shù),但是當問題太復(fù)雜時建模較難。Ravizza 等人將多元線性回歸模型用于航空器滑行時間的估計[35]:首先通過決定系數(shù)識別出與航空器離開和到達的滑行時間最相關(guān)的因素;然后由此建立滑行時間的多元線性回歸模型,并利用最小二乘法估計出回歸系數(shù)。實驗表明,提出的新方法在預(yù)測時可取得較高的決定系數(shù)。趙廣社等人提出了一種多源統(tǒng)計數(shù)據(jù)驅(qū)動的航空發(fā)動機剩余壽命預(yù)測方法[36],該方法首先使用基于歐氏距離的統(tǒng)計異常策略融合發(fā)動機狀態(tài)的監(jiān)測信息;然后采用帶非線性飄移的維納過程為航空發(fā)動機退化建模,并通過似然函數(shù)求極值估算模型的參數(shù)值;接著將非線性的維納過程轉(zhuǎn)換成標準的布朗運動,再通過推導(dǎo)出航空發(fā)動機剩余使用壽命的概率密度函數(shù)解析式進行預(yù)測。該模型比較復(fù)雜,構(gòu)建較難,適用于連續(xù)變量的情形。Pagels 將多核學(xué)習(xí)算法、隱馬爾可夫模型和自然語言處理算法用于航空大數(shù)據(jù)挖掘[38]:①針對航空系統(tǒng)異常,提出一種基于多核學(xué)習(xí)的異常探測算法;②基于飛行記錄器的數(shù)據(jù),訓(xùn)練隱馬爾可夫模型,并將其用于異常預(yù)測;③將一種半監(jiān)督的bootstrapping算法用于航空事故報告數(shù)據(jù)的挖掘,以發(fā)現(xiàn)少數(shù)異常類并在報告中明確地標明事故。該工作可以大大降低人力消耗。
(4)基于增強學(xué)習(xí)的航空大數(shù)據(jù)預(yù)測
航空系統(tǒng)運行的交互性給增強學(xué)習(xí)在航空大數(shù)據(jù)分析中的應(yīng)用帶來了可行性。目前,也出現(xiàn)了一些基于增強學(xué)習(xí)的航空大數(shù)據(jù)預(yù)測建模分析技術(shù)[39-40]。Janakiraman 等人將增強學(xué)習(xí)用于航空前兆異常事件的發(fā)現(xiàn)[39]:基于機載傳感器產(chǎn)生的數(shù)據(jù)序列,通過訓(xùn)練逆增強學(xué)習(xí)得到專家獎賞模型,借助SVM 的訓(xùn)練得到專家的值模型;接著將測試序列數(shù)據(jù)中每個分量作為狀態(tài),利用貝爾曼最優(yōu)原理得到專家的最優(yōu)行為,進而得到最優(yōu)的狀態(tài);最后根據(jù)其和數(shù)據(jù)序列的下一個狀態(tài)代入值模型差值的大小判斷是否出現(xiàn)異常前兆。Balakrishna 等人將增強學(xué)習(xí)用于滑行時間的預(yù)測[40]:首先對表示滑行時間預(yù)測的行為空間和系統(tǒng)狀態(tài)空間進行離散化,并將獎賞值定義為實際滑行時間和預(yù)測滑行時間之差的絕對值;然后訓(xùn)練基于增強學(xué)習(xí)的預(yù)測器,其中使用均勻分布的概率選擇行為;最后,與最低非零獎賞值對應(yīng)的行為表示滑行預(yù)測值。實驗表明該方法在預(yù)測航空器滑行時間時可取得93.7%準確率。
(5)基于新建模型的航空大數(shù)據(jù)預(yù)測
作為一個富有前景的研究方向,航空大數(shù)據(jù)的預(yù)測建模分析激發(fā)了一些學(xué)者研究新模型的興趣。符江鋒等人提出了基于一元流動的航空離心泵綜合損失模型[41]:首先分別對離心泵的水力效率、容積效率、機械效率和輪盤摩擦效率進行數(shù)據(jù)建模;然后根據(jù)這4 個效率和離心泵的主要設(shè)計參數(shù)建立其綜合損失模型;最后在實驗數(shù)據(jù)上的結(jié)果表明綜合損失模型僅有2.8%預(yù)測誤差。文獻[42]提出了一種航空花鍵振動磨損預(yù)測方法:首先基于Archard 磨損模型,利用花鍵轉(zhuǎn)子系統(tǒng)動力學(xué)分析推導(dǎo)出花鍵振動磨損預(yù)測的數(shù)據(jù)模型;然后進行實驗測試。文獻[43]構(gòu)建了一個由季節(jié)性延遲趨勢、日常延遲傳播模式和隨機殘差組成的預(yù)測模型,其中隨機殘差用混合分布表示,并用融合最大期望算法的遺傳算法學(xué)習(xí)該混合分布。新提出的模型既可以預(yù)測出延遲的時間點,也能估計出延遲的分布。
此外,也出現(xiàn)了一些其他的航空大數(shù)據(jù)建模技術(shù)。文獻[44]將模糊規(guī)則系統(tǒng)用于機場航空器滑行時間的估計:通過基于遺傳算法的K-means 對數(shù)據(jù)集聚類,將每個簇表示為一個規(guī)則,進而得到規(guī)則庫;采用隸屬度函數(shù)表達模糊關(guān)系,再借助解模糊操作得到估計值。實驗表明,相對于線性回歸方法,基于模糊規(guī)則系統(tǒng)的估計方法可以取得更準確的估計,其主要原因在于采用的模糊規(guī)則系統(tǒng)可以逼近任何復(fù)雜的非線性系統(tǒng)。文獻[45]將灰色預(yù)測模型和相關(guān)向量模型相結(jié)合用于航空發(fā)動機狀態(tài)的預(yù)測:首先針對實驗的序列數(shù)據(jù)集,借助于微分方程知識建立灰色預(yù)測模型;然后將灰色預(yù)測模型的輸出作為相關(guān)向量機的輸入,以原始序列數(shù)據(jù)為標準輸出,通過運行EM(expectation maximization)算法得到相關(guān)向量機預(yù)測模型,最終得到灰色預(yù)測模型和相關(guān)向量模型的串行結(jié)構(gòu);實驗結(jié)果表明由該串行結(jié)構(gòu)得到的結(jié)果在預(yù)測精度方面優(yōu)于僅由灰色預(yù)測模型或相關(guān)向量模型得到的結(jié)果。文獻[46]提出了一種基于貝葉斯網(wǎng)絡(luò)的航空器故障預(yù)測方法,該方法首先確定用于建構(gòu)貝葉斯網(wǎng)絡(luò)的變量,并對其進行二值化處理;然后以這些二值變量的數(shù)據(jù)集作為基于貝葉斯網(wǎng)絡(luò)的預(yù)測方法的輸入,最后借助維修工程師的經(jīng)驗重新確定貝葉斯網(wǎng)的變量,實驗表明該預(yù)測方法的錯誤率下降到18%左右。
2.4.2 航空大數(shù)據(jù)聚類分析技術(shù)
聚類是將數(shù)據(jù)對象集中相似的對象組成多個簇的過程,因具有無需先驗知識的特性而在航空大數(shù)據(jù)分析中得到了研究和應(yīng)用。到目前為止,航空大數(shù)據(jù)分析中經(jīng)常用到的聚類分析算法有K-means、層次聚類和譜聚類等。
(1)基于K-means的航空大數(shù)據(jù)分析技術(shù)
K-means 具有簡單易懂和運行高效的優(yōu)點,在航空大數(shù)據(jù)領(lǐng)域得到了較多的應(yīng)用[47-54]。文獻[48]將Kmeans 聚類算法用于航空旅客空間行為模式的分析:首先按空間要求將航站樓劃分為多個不同的功能區(qū),根據(jù)旅客是否到達過功能區(qū)得到與其對應(yīng)的表達其行為的0-1 向量;然后利用K-means 對這些向量集進行聚類,直到簇中心不再變化為止;最后將南京祿口國際機場T2 航站樓國內(nèi)出發(fā)旅客的行為聚類為5 種行為模式,并分析了旅客性別和收入等基本屬性在這5 種空間模式上的分布。文獻[50]將K-means 聚類用于大數(shù)據(jù)背景下航空客戶價值分析:首先在大數(shù)據(jù)平臺上使用Sqoop 將數(shù)據(jù)導(dǎo)入Hive 中,并在HiveQL 對其進行預(yù)處理后得到5 個特征的旅客數(shù)據(jù);然后使用K-means 將預(yù)處理后的旅客數(shù)據(jù)集聚成5 個簇,并根據(jù)每個簇的特征分布將客戶分為重點保持、重點發(fā)展、重點挽留、低價值和一般5 種類型的客戶,從而提高航空公司的精準化服務(wù)水平和競爭力。唐靜等人提出了一種基于平衡核函數(shù)聚類的飛行航跡數(shù)據(jù)分析方法[51],該方法首先由民航空管軟件得到軌跡的時間、經(jīng)度、緯度、高度、速度和航向6 個分量,通過將其轉(zhuǎn)換到直角坐標系得到軌跡樣本數(shù)據(jù)集,并通過高斯核變換將其映射到特征空間;然后以設(shè)計的平衡核函數(shù)作為K-means 的目標函數(shù),通過運行K-means 得到樣本數(shù)據(jù)集的聚類;最后以每個簇的樣本中心和各簇樣本的非線性超球半徑為輸入訓(xùn)練模糊SVM。文獻[53]提出一種基于距離和樣本權(quán)重改進的K-means 算法:首先采用維度加權(quán)的歐氏距離計算出所有樣本的密度和權(quán)重,然后取密度最大的點作為第一個初始聚類中心,并剔除該簇內(nèi)所有樣本,接著依次根據(jù)上一個聚類中心和數(shù)據(jù)集中剩下樣本點的權(quán)重并通過引入的參數(shù)τi找出下一個初始聚類中心,如此重復(fù)直至數(shù)據(jù)集為空,最后得到k個初始聚類中心。文獻[54]針對K-means聚類結(jié)果的不穩(wěn)定問題,通過反復(fù)比較簇間距離和簇內(nèi)距離動態(tài)調(diào)整初始聚類中心,得到具有較強代表性的初始聚類中心;實驗表明改進的K-means 聚類算法具有更好的聚類效果,能夠更為合理地挖掘民航潛在高價值旅客。
(2)基于層次聚類的航空大數(shù)據(jù)分析技術(shù)
層次聚類以樹形結(jié)構(gòu)表示聚類的過程,可以得到不同的聚類結(jié)果,因此在航空大數(shù)據(jù)分析中也得到了應(yīng)用[55-56]。徐濤等人提出了一種基于層次聚類的機場噪聲數(shù)據(jù)挖掘方法[55],該方法首先對機場噪聲數(shù)據(jù)進行缺失數(shù)據(jù)填補和臟數(shù)據(jù)修正等預(yù)處理,并對使用矩陣分解的噪聲數(shù)據(jù)矩陣進行維數(shù)約簡;然后使用兩階段的基于代表點的快速層次聚類算法對約簡后的矩陣進行聚類:第一階段采用基于代表點的二分法進行快速聚類,把距離每個簇中心最近的點作為該簇的代表性點;第二階段使用基于代表點的凝聚層次聚類算法進行聚類。該聚類方法的時間復(fù)雜度低于傳統(tǒng)的層次聚類方法,實驗結(jié)果也表明了該方法能準確發(fā)現(xiàn)機場周圍噪聲的分布模式。文獻[56]提出了一種基于小波變換和聚類的無刷直流電動機故障檢測與識別方法,該方法對采樣數(shù)據(jù)進行預(yù)處理,并通過對其進行連續(xù)小波變換得到同時包含時域信息和頻域信息的小波變換系數(shù);然后使用層次聚類算法對該系數(shù)模值臨近的采樣點按時間位置進行層次聚類;最后計算每一簇中所有位置的取整平均值,得到實際信號的突變位置和突變次數(shù)信息,進而對故障進行檢測與識別。
(3)基于譜聚類的航空大數(shù)據(jù)分析技術(shù)
譜聚類利用矩陣及其特征向量降低計算量,并能在任意形狀的樣本空間上聚類且收斂于全局最優(yōu)解。因此,該聚類也被應(yīng)用于航空大數(shù)據(jù)的分析[57-61]。李楠等人提出了一種基于多維特征的終端區(qū)航空器軌跡聚類方法[57]:首先利用散點相關(guān)矩陣確定多維軌跡特征經(jīng)度、緯度、地速和航向,并定義出兩條軌跡的多維特征之間的距離計算公式;然后利用譜聚類算法對軌跡的多維特征進行聚類。實驗表明基于多維特征的軌跡譜聚類明顯優(yōu)于僅使用位置特征的聚類。Cong 等人將譜聚類用于航空運輸網(wǎng)絡(luò)中關(guān)鍵機場的識別[59]:首先把機場抽象為節(jié)點,機場之間交通流的相關(guān)性為邊構(gòu)建航空交通運輸網(wǎng)絡(luò);然后,對該網(wǎng)絡(luò)中節(jié)點間的相關(guān)性矩陣進行譜聚類,進而得到多個機場在相關(guān)性上的空間拓撲結(jié)構(gòu);接著,通過分析節(jié)點的時間序列的距離相關(guān)和功率譜的波動趨勢檢查網(wǎng)絡(luò)的自組織臨界性,以發(fā)現(xiàn)關(guān)鍵機場簇;最后在中國航空運輸網(wǎng)上的實驗表明該方法可發(fā)現(xiàn)6個關(guān)鍵機場簇。文獻[60]提出了一種基于Spark 的譜聚類算法:首先利用Spark GraphX 計算樣本數(shù)據(jù)間的相似性,進而得到拉普拉斯矩陣;然后利用并行化Lanczos算法將其轉(zhuǎn)化為三對角陣,計算其前K個特征向量,由并行化的K-means算法在K個特征向量上完成聚類。
(4)基于密度聚類的航空大數(shù)據(jù)分析技術(shù)
以DBSCAN(density-based spatial clustering of applications with noise)為代表的密度聚類在航空大數(shù)據(jù)分析中也得到了應(yīng)用[62-64]。文獻[63]提出了一種面向航路燃油預(yù)測的航跡聚類方法,該方法首先基于BADA(base of aircraft data)數(shù)據(jù)庫利用模糊聚類對機型進行分組,并據(jù)此對航跡數(shù)據(jù)劃分;然后將DBSCAN 算法中的單純空間鄰域擴展為時空速鄰域,而后將其用于劃分后航跡數(shù)據(jù)的時空聚類。文獻[64]提出了一種用于時空軌跡聚類的矢量點DBSCAN 算法,該算法首先在判斷Eps領(lǐng)域時要綜合考察空間、時間、速度3 個屬性,通過增加容忍速度差MaxSpd 和容忍方向差MaxDir 把那些在地理位置上靠近、方向基本一致、速度相差不大的矢量點聚集為一個簇,然后計算出每個簇的平均航向;接著在每個簇上以一定的間隔做平均航向的法線,將其劃分為若干個區(qū)塊,以算術(shù)平均的方式計算出這些區(qū)塊的質(zhì)心向量,并通過相連這些質(zhì)心向量得到各個簇的特征軌跡,最后依據(jù)軌跡分段重組的思想進行融合,完成飛行軌跡的聚類。
此外,其他一些聚類方法在航空大數(shù)據(jù)領(lǐng)域也得到了探索。曹愈遠等人將親和力傳播聚類和免疫算法用于航空發(fā)動機故障的診斷[65]:首先,對航空發(fā)動機的樣本數(shù)據(jù)分為正常樣本和故障樣本兩組,利用親和力傳播聚類對這兩組樣本數(shù)據(jù)分別進行聚類,計算出每個簇內(nèi)的最大距離、最小距離、平均距離和數(shù)據(jù)集數(shù),并利用熵權(quán)法確定每個聚類中心的權(quán)重系數(shù);然后,將簇中心作為輸入,通過運行混沌理論初始化種群的免疫算法得到最終的抗體檢測器記憶庫;最后,針對某個樣本進行診斷時,計算其與記憶庫中每個抗體檢測器的親和力,占比大的即為該樣本的狀態(tài)。齊林等人提出了一種基于距離分級聚類的機載雷達航跡抗差關(guān)聯(lián)算法[66],該算法首先通過真實狀態(tài)對消得到航跡距離矢量;然后進行基于距離矢量的分級聚類:(1)合并距離最近的兩個簇為一個新簇,并計算該簇到其他簇的距離;(2)不斷重復(fù)(1),直到剩下一個簇或最近的兩個簇間的距離大于簇間距閾值時停止;取元素數(shù)最多的簇作為同源航跡的距離矢量,進而得到相應(yīng)的航跡關(guān)聯(lián)關(guān)系。該算法具有在目標密集、隨機誤差和系統(tǒng)誤差較大等復(fù)雜環(huán)境下錯誤關(guān)聯(lián)率低和穩(wěn)定性強的優(yōu)點。
2.4.3 航空大數(shù)據(jù)關(guān)聯(lián)分析技術(shù)
利用關(guān)聯(lián)分析技術(shù)可在表征客戶、航空電子設(shè)備和航班等的相關(guān)記錄中挖掘出有價值的頻繁模式或關(guān)聯(lián)規(guī)則,因此關(guān)聯(lián)分析技術(shù)在航空大數(shù)據(jù)分析中有著重要的應(yīng)用[67-73]。Sternberg 等人將頻繁模式用于巴西航班延誤分析[67]:首先利用概念映射、分段和時間融合等將數(shù)據(jù)集轉(zhuǎn)化為易于挖掘頻繁模式的形式;然后采用Apriori 算法搜索頻繁模式,并過濾掉不感興趣的頻繁模式。但是Apriori 算法因需不斷掃描數(shù)據(jù)庫而表現(xiàn)出較低的執(zhí)行效率。侯熙桐將基于多維關(guān)聯(lián)規(guī)則的Apriori 算法用于民航事故數(shù)據(jù)的挖掘[68]:首先針對民航事故數(shù)據(jù)的多類多樣性和層次復(fù)雜性,設(shè)計了包括單維關(guān)聯(lián)規(guī)則、維間關(guān)聯(lián)規(guī)則和混合維關(guān)聯(lián)規(guī)則的多維關(guān)聯(lián)規(guī)則策略;然后利用Apriori算法時選擇某一層次的數(shù)據(jù)作為挖掘?qū)ο螅溆鄬哟蔚臄?shù)據(jù)不參與挖掘,同時在產(chǎn)生頻繁規(guī)則集的過程中使用剪枝策略。文獻[70]提出了一種面向機場噪聲多監(jiān)測點噪聲值的關(guān)聯(lián)規(guī)則挖掘方法,該方法首先使用密度聚類算法(density-based clustering,DENCLUE)對預(yù)處理后的數(shù)據(jù)集進行聚類,找到每個簇的代表點,由之組成較小的數(shù)據(jù)集,并對其進行預(yù)處理;然后掃描一次預(yù)處理后的數(shù)據(jù)集,得到頻繁1 項集和二維數(shù)組K(K的行表示一個事務(wù)項集,列表示一個項);接著在掃描K的過程中進行連接和剪枝得到頻繁多項集;最后由置信度閾值得到關(guān)聯(lián)規(guī)則。該方法通過多次掃描簡化的二維數(shù)組K代替多次掃描預(yù)處理后的數(shù)據(jù)集,因此比Apriori 算法有較高的運行效率。曹衛(wèi)東等人提出了一種面向民航中旅客訂座后卻不能如期登機的預(yù)測和強因子關(guān)聯(lián)分析方法[71],該方法首先選用適合大數(shù)據(jù)的C4.5 生成決策樹預(yù)測模型,并得到不同特征屬性的量化結(jié)果;然后選取一些重要的特征屬性,通過運行Apriori 算法得到關(guān)聯(lián)規(guī)則集,輔助航空公司售票和個性化推薦。文獻[72]將改進的FP-tree(frequent pattern tree)算法用于航空用戶數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘:針對航空數(shù)據(jù)數(shù)量大、重復(fù)率低的特點與建立FP-tree 過程中重復(fù)遍歷子節(jié)點的現(xiàn)象,通過先使用Bloomfilter 方法,借助快速的hash 定位技術(shù)和位數(shù)組來判斷要查詢的事務(wù)是否在原來的數(shù)據(jù)集中,從而提高FP-tree的創(chuàng)建效率,使之更適合于航空大數(shù)據(jù)的處理。文獻[73]首先通過發(fā)動機的初始數(shù)據(jù)庫、運行數(shù)據(jù)庫、維修數(shù)據(jù)庫和其他相關(guān)數(shù)據(jù)庫建立發(fā)動機全參數(shù)大數(shù)據(jù)庫,然后在設(shè)定支持度和置信度閾值的基礎(chǔ)上進行全參數(shù)關(guān)聯(lián)規(guī)則挖掘。
2.4.4 航空大數(shù)據(jù)異常檢測技術(shù)
航空系統(tǒng)是一個既復(fù)雜龐大又精密的系統(tǒng),涉及到航空器、各種地面設(shè)備、工作人員和客戶等。另一方面,航空系統(tǒng)的異常給航空公司帶來的損失往往是巨大的。因此,航空系統(tǒng)更加迫切需要面向航空大數(shù)據(jù)的異常檢測技術(shù)。到目前為止,航空大數(shù)據(jù)異常檢測技術(shù)可大致分為以下三類。
(1)基于模型的航空大數(shù)據(jù)異常檢測
基于模型的航空大數(shù)據(jù)異常檢測首先根據(jù)數(shù)據(jù)建立模型,然后通過模型判斷數(shù)據(jù)對象是否異常。這類技術(shù)在航空大數(shù)據(jù)異常檢測中得到了較多的應(yīng)用[13,74-80]。Li 等人提出了一種基于高斯混合模型的飛行操作異常檢測方法[13]:首先將數(shù)據(jù)集轉(zhuǎn)換為適合高斯混合模型的形式;然后通過高斯混合模型挖掘出飛行操作的正常模式;最后基于該正常模式檢測出異常。該方法具有無需正常模式先驗知識的優(yōu)點。Jia 等人提出了一種融合LSTM 模型和多層感知器的模型,用于民航空中交通管制中無線電回讀異常的檢測[76]。該模型用兩個通道分別接收來自空中交通控制中心的句子和飛行員回讀的句子,分別對句子做分割和詞嵌入;然后分別輸入到兩個LSTM 模型中,再將其輸出作為平均池化層的輸入,得到相應(yīng)句子的語義向量;接著將兩個語義向量輸入給多層感知器,得到句子的語義相關(guān)度;最后將該相關(guān)度作為K近鄰分類器的輸入,進而判斷無線電回讀的句子是否異常。Akerman 等人將卷積的LSTM 編碼器-解碼器模型用于廣播式自動相關(guān)監(jiān)視信息的異常檢測[77]:首先將來自廣播式相關(guān)監(jiān)視系統(tǒng)的序列信息表示為圖片序列,并將其作為卷積LSTM 編碼器-解碼器模型的輸入;然后采用Adam 優(yōu)化器和均方誤差損失函數(shù)對該模型進行訓(xùn)練,其中編碼器提取圖片特征,解碼器基于此進行圖片重構(gòu);最后計算輸入序列的圖片和相應(yīng)輸出序列圖片的差異性,根據(jù)預(yù)設(shè)的閾值判定相應(yīng)的監(jiān)視信息是否異常。預(yù)設(shè)的閾值對判定結(jié)果有重要影響。文獻[78]提出了一種基于自適應(yīng)核主元分析的航空發(fā)動機異常監(jiān)測方法,該方法通過滑動窗口滑動切割收集的正常歷史數(shù)據(jù),通過高斯核函數(shù)將標準化后的數(shù)據(jù)映射到高維特征空間,建立核主元分析模型,并計算T2 統(tǒng)計量和預(yù)測誤差統(tǒng)計量及其控制限;然后對新采集的監(jiān)測數(shù)據(jù),使用當前核主元分析模型計算T2 和預(yù)測誤差統(tǒng)計量,并通過與當前統(tǒng)計量的控制限的比較判斷航空發(fā)動機是否出現(xiàn)異常,當無異常的新監(jiān)測數(shù)據(jù)累計到一定量時就用其替換最近的舊數(shù)據(jù),重新建立核主元分析模型T2 和預(yù)測誤差統(tǒng)計量及其控制限。因此該方法表現(xiàn)出監(jiān)測的自適應(yīng)性,具有較低的虛警率。
吳奇等人提出了一種基于深度學(xué)習(xí)的航空器異常飛行識別方法[79],該方法首先利用小波技術(shù)對原始飛行數(shù)據(jù)進行降噪預(yù)處理,在一系列典型飛行參數(shù)上提取經(jīng)典時域特征和小波奇異熵等信息熵特征,由主元分析降維后構(gòu)成初始特征集;然后建立由兩層稀疏受限玻爾茲曼機和一層反向傳播網(wǎng)絡(luò)堆疊而成的異常飛行狀態(tài)識別模型架構(gòu),并通過自下而上的預(yù)訓(xùn)練和自上而下的微調(diào)訓(xùn)練出識別模型,高斯過程分類器以該模型輸出的特征為輸入實現(xiàn)分類;最后通過將預(yù)處理后的測試樣本輸入到識別模型中得到其類別。該方法產(chǎn)生的初始特征集豐富,構(gòu)建的模型較復(fù)雜。
(2)基于鄰近度的航空大數(shù)據(jù)異常檢測
基于鄰近度的航空大數(shù)據(jù)異常檢測是在定義對象之間鄰近度的基礎(chǔ)上找出遠離大部分其他對象的對象。常見的聚類算法是這種異常檢測技術(shù)的代表。文獻[81]提出了一種面向離散序列的異常檢測方法,并將其用于航空安全領(lǐng)域。該方法以歸一化的公共子序列長度作為兩個序列相似性的度量,首先利用K-medoids 聚類算法對序列集進行聚類;然后對每個簇中的序列按照其與簇中心的相似性分數(shù)升序排列;接著,將一定比例的具有最低相似度的序列視為異常;最后識別出異常集中的區(qū)域,并基于貝葉斯概率框架對異常進行合理的解釋。實驗結(jié)果表明新檢測方法的性能優(yōu)于隱性馬爾可夫模型。李楠等人提出了一種基于異常特征值的終端區(qū)航空器異常軌跡識別方法[82]。該方法首先按時間間隔取得該架航空器的軌跡,根據(jù)定義的距離度量計算軌跡之間的相似性,得到相似性矩陣,并通過譜聚類對其聚類產(chǎn)生不同的簇;接著計算每個簇內(nèi)的相似性距離,確定每個簇的中心軌跡;最后計算每個軌跡到其簇中心的距離,將之與該軌跡對應(yīng)的航空器的飛行距離作為異常特征,通過對這兩個特征加權(quán)求和得到軌跡的可疑度,由設(shè)置的異常檢測率確定異常的軌跡。實驗結(jié)果表明距離度量的設(shè)計和異常檢測率的設(shè)置對該方法的性能有重要影響。
(3)基于密度的航空大數(shù)據(jù)異常檢測
基于密度的航空大數(shù)據(jù)異常檢測將局部密度顯著低于它的大部分鄰近的數(shù)據(jù)對象視為異常點。密度聚類是該類異常檢測技術(shù)的代表[83-87]。文獻[83]提出了一種面向QAR 數(shù)據(jù)的航班異常檢測方法,該方法首先對數(shù)據(jù)進行特征選擇、過濾噪聲和歸一化等預(yù)處理,并采用主成分分析對數(shù)據(jù)矩陣降維;然后使用DBSCAN 對降維后的數(shù)據(jù)進行聚類,把離群的數(shù)據(jù)點或簇視為異常。實驗表明該方法可以從大量航班數(shù)據(jù)中檢測出異常的航班,但是沒有對異常進行深入分析,數(shù)據(jù)降維也會帶來一定的信息損失。Jarry 等人提出了一種基于函數(shù)主成分分析和層次型DBSCAN 的航空器進近異常檢測方法[85]。該方法首先將由雷達獲得的飛行軌跡數(shù)據(jù)轉(zhuǎn)化為航空器的總能量序列,并利用滑動窗口將其分割成多個子序列;然后對每個子序列進行樣條函數(shù)分解和函數(shù)主成分分析,得到前K個主成分的系數(shù);接著使用層次型DBSCAN 對多組系數(shù)聚類,最后將一些離簇遠的元素或非常稀疏的元素作為層次型全局-局部離群分數(shù)算法的輸入,通過該算法的輸出判斷飛行軌跡是否異常。文獻[86]針對快速搜索發(fā)現(xiàn)密度峰值聚類算法存在的密度中心選擇不方便、聚類精度不高的問題,提出基于馬氏距離的自動搜索發(fā)現(xiàn)密度峰值的聚類算法。該算法將馬氏距離引入距離測定中,提高了聚類精度;提出聚類中心判定參數(shù)γ,自動獲得了聚類中心。實驗結(jié)果表明,所提算法能夠很好地在故障特征的分類與識別上具有優(yōu)勢。文獻[87]針對原始密度峰值聚類算法應(yīng)用標準高斯核計算局部密度和需要人工研判確定簇類別數(shù)易造成誤識別的缺陷,分別引入共享鄰域算法對局部密度的計算方法和BIC 選擇準則對簇類別數(shù)的選擇方法;最后新算法在航空發(fā)動機氣路故障診斷領(lǐng)域有較高的實用價值。
航空大數(shù)據(jù)虛擬仿真與可視化技術(shù)既能服務(wù)于航空器器件和系統(tǒng)的設(shè)計、制造和測試,又可為事件分析、機務(wù)維修、理解運營狀況、制定決策、提升旅客的感知理解提供支持。因此,航空大數(shù)據(jù)虛擬仿真與可視化技術(shù)也引起了研究者和航空系統(tǒng)的重視。到目前為止,航空大數(shù)據(jù)虛擬仿真與可視化技術(shù)可分為以下三種。
(1)基于傳統(tǒng)二/三維圖形的虛擬仿真與可視化技術(shù)利用傳統(tǒng)的二/三維圖形來展示航空大數(shù)據(jù)及其分析結(jié)果。Burzlaff 在估算出燃油消耗量之后,利用二維曲線圖和柱狀圖及表格對單位千米耗油量與飛行距離之間的關(guān)系、單位負荷耗油量與飛行距離之間的關(guān)系和不同種類航空器間的耗油量比較等進行了可視化展示[88]。Li 等人提出了一種可視化終端空域軌跡的方法[89]。該方法首先針對每個機場每次到達按時間順序建立三維坐標;然后通過多項式回歸和雙曲切線插值對儀表著陸系統(tǒng)進行建模;最后通過數(shù)學(xué)軟件中的ParametricPlot3D 函數(shù)實現(xiàn)可視化展示。朱志童首先從飛行數(shù)據(jù)集中提取了12 種數(shù)據(jù),然后在此基礎(chǔ)上利用固定窗口濾波和粒子群算法進行飛行異常檢測;最后通過三維曲線圖形可視化異常檢測結(jié)果[90]。
(2)基于自行開發(fā)軟件的虛擬仿真與可視化技術(shù)是基于某種程序設(shè)計語言和已有軟件自行研發(fā)出的新虛擬仿真與可視化軟件技術(shù)。文獻[91]基于C語言開發(fā)平臺和已有航空發(fā)動機基本類庫開發(fā)了一款具有圖形化用戶界面的可視化航空發(fā)動機性能計算平臺。該平臺可通過圖形化的方式建立任意構(gòu)型的發(fā)動機性能計算模型,并可在對模型進行設(shè)計參數(shù)、控制規(guī)律和猜值公式靈活給定時計算各種條件下任意構(gòu)型發(fā)動機的穩(wěn)態(tài)性能。程振陽提出了一種針對航空發(fā)動機機加工藝執(zhí)行可視化系統(tǒng)[92]。該系統(tǒng)主要由可視化文件模板管理模塊、可視化文件生成模塊、可視化文件發(fā)布和管理模塊組成。在第一個模塊中,模板設(shè)計者可在Adobe Acrobat 中通過JavaScript 編程設(shè)計個性化模板,采用visual studio 編程的方式實現(xiàn)模板與系統(tǒng)的鏈接。在可視化文件生成模塊中,使用UG 軟件為三維模型添加視圖和產(chǎn)品制造信息等,將基于定義的模型導(dǎo)入3D Reviewer 軟件后設(shè)計機加工藝仿真動畫和零件列表,嵌入可視化文件模板。在最后一個模塊中,把與每個零件機械加工的所有工序?qū)?yīng)的3D PDF 文件整合到一個工藝文件包中,將其發(fā)布給下游的工作人員。Omidvar等人提出了一種面向航空大數(shù)據(jù)的交互式可視化框架[93]。該框架采用了索引查找和Crossfilter 視圖技術(shù),其后端使用Python 和PostgreSQL 實現(xiàn),前端通過D3和LeafletJS7實現(xiàn)可視化顯示。Karikawa等人提出了面向航路空中交通管制任務(wù)的可視化工具軟件[94]。該可視化軟件包含投影過程模型、情境識別過程的認識模型和空中交通展示模型三個核心部件。其中,空中交通展示模塊含有空中交通管制訓(xùn)練模擬器,將可視化的內(nèi)容顯示在空中交通管制控制臺的雷達屏幕上。賀鵬借助CATIA(computer aided threedimensional interactive application)二次開發(fā)的組件應(yīng)用架構(gòu)開發(fā)能自動解析和提取關(guān)鍵特性編碼信息的功能平臺,并構(gòu)建關(guān)鍵特性數(shù)據(jù)庫系統(tǒng);然后基于VC++6.0 搭建關(guān)鍵特性可視化平臺,以樹圖展示關(guān)鍵特性間的相互關(guān)系;最后以協(xié)調(diào)數(shù)據(jù)集中的信息為數(shù)據(jù)源,利用Vis/VSA 軟件建立容差仿真模型[95]。
(3)基于已有軟件的虛擬仿真與可視化技術(shù)直接利用已有軟件進行航空大數(shù)據(jù)及其分析結(jié)果的可視化呈現(xiàn)[96-104]。Weibel 等人對飛行甲板上飛行員移動眼球追蹤進行了可視化探索[96]。首先使用Tobii 眼鏡系統(tǒng)捕捉眼動序列數(shù)據(jù),然后基于由之輸出的凝視點數(shù)據(jù)對每個感興趣的區(qū)域創(chuàng)建二進制時間序列,并與場景相機視頻數(shù)據(jù)一起作為ChronoViz 的輸入,得到按時間序列的動態(tài)可視化展示;最后借助計算機視覺技術(shù)實現(xiàn)眼睛和注視物體的對準。Khoury等人首先利用STROBOSCOPE 工具對底特律機場進行基于離散事件的仿真建模;然后使用VITASCOPE對所建模型在虛擬環(huán)境下進行3D 動畫展示[97]。杜永良提出了一種基于MATLAB 和FLIGHTGEAR 的可視化飛行仿真方法[98]。該方法首先使用美國空軍氣動估算軟件DATCOM 得到氣動數(shù)據(jù);然后基于該數(shù)據(jù)利用MATLAB 建立航空器模型,設(shè)計從起飛到著陸階段的自動飛行控制律;最后通過接口模塊將響應(yīng)數(shù)據(jù)發(fā)送到飛行模擬軟件FLIGHTGEAR 上,得到仿真航跡圖、飛行實時顯示仿真圖、重要參數(shù)隨時間變化的曲線仿真圖等。文獻[100]提出了一種基于AMESim 和MATLAB 的燃油調(diào)節(jié)器可視化聯(lián)合仿真方法。該方法首先建立燃油調(diào)節(jié)器的AMESim 模型,并通過活性指數(shù)計算與頻域特性分析簡化該模型;然后將簡化的AMESim 模型導(dǎo)入MATLAB 中的Simulink進行聯(lián)合仿真,進而通過可視化界面觀察整個燃油調(diào)節(jié)器的穩(wěn)態(tài)和過渡態(tài)調(diào)節(jié)過程。Hernández 等人提出了一種基于大數(shù)據(jù)架構(gòu)的利用航空器軌跡對到達時間實時精確預(yù)測的可視化系統(tǒng)[103]。該系統(tǒng)采用了lambda 架構(gòu)集群,利用混合云架構(gòu)支持結(jié)果的實時可視化,放置在可視化服務(wù)器中的微軟Azure 能根據(jù)桌面和移動客戶機的請求繪制和定制信息。表2列出了其他基于已有軟件的航空大數(shù)據(jù)虛擬仿真與可視化研究工作。
Table 2 Main literature of virtual simulation and visualization based on existing softwares表2 已有軟件的虛擬仿真與可視化主要文獻
航空系統(tǒng)的復(fù)雜性和航空應(yīng)用的日益廣泛性帶來了航空大數(shù)據(jù)應(yīng)用場景的多樣性。下面從航空器故障預(yù)測與維修、航空運輸對象服務(wù)、智慧機場和空中交通管理等方面闡述其典型應(yīng)用。
航空器是最主要的航空大數(shù)據(jù)來源實體之一。另一方面,航空器設(shè)備部件精密,而且越來越復(fù)雜;同時航空器故障通常會造成巨大損失。因此,航空器故障預(yù)測與維修是航空大數(shù)據(jù)的一個典型應(yīng)用場景。文獻[106]提出了一個基于Flume、Kafka、Storm和HDFS 的航空維修大數(shù)據(jù)系統(tǒng),該系統(tǒng)通過Flume采集歷史數(shù)據(jù)和接收實時數(shù)據(jù),然后采用Kafka 對數(shù)據(jù)進行緩沖和分發(fā),接著使用實時流處理引擎Storm和相關(guān)的智能分析算法對維修相關(guān)數(shù)據(jù)進行處理,最后將數(shù)據(jù)存儲在HDFS 上。到目前為止,出現(xiàn)了一些與之相關(guān)的應(yīng)用性軟件系統(tǒng)和平臺。著名的Skywise 是一個集運營、維護和航空器數(shù)據(jù)整合為一體的航空大數(shù)據(jù)服務(wù)平臺,可以對航空器進行預(yù)測性維護、維修方案優(yōu)化、可靠性預(yù)測等。加拿大飛行數(shù)據(jù)評價公司開發(fā)的自動飛行信息報告系統(tǒng)和FlyhtHealth 軟件,可通過監(jiān)測航空器數(shù)據(jù)減少非計劃維修次數(shù),也能通過識別發(fā)動機的衰退而建議其更換時機,還可提供定制化的報警服務(wù)等[107]。發(fā)動機是航空器的心臟,人們對其修理與維護做了大量的研究和運用,詳見文獻[108]。
航空運輸是航空公司中一種非常重要的業(yè)務(wù)形式,可持續(xù)不斷地產(chǎn)生與運輸對象有關(guān)的大數(shù)據(jù)。因此,航空公司在此方面做了不少的研究和實際應(yīng)用。在航空客運上,文獻[50]研究了一種基于大數(shù)據(jù)的航空客戶價值分析系統(tǒng),該系統(tǒng)采用Sqoop 將數(shù)據(jù)從多個業(yè)務(wù)系統(tǒng)抽取到數(shù)據(jù)倉庫Hive 中;然后在數(shù)據(jù)預(yù)處理后使用大數(shù)據(jù)挖掘工具Mahout進行快速高效的聚類分析;最后將該系統(tǒng)用于某航空公司的客戶價值分析。文獻[109]將基于Spark 的航空常旅客流失系統(tǒng)用于南方航空公司旅客流失的預(yù)測,該系統(tǒng)在Spark 平臺下調(diào)用MLlib 軟件包中的機器學(xué)習(xí)算法獲得邏輯回歸、RF 和梯度提升樹三個模型,采用堆疊集成技術(shù)進行融合并將其整合到Spark 源碼中編譯;然后針對模型預(yù)測結(jié)果進行K-means 聚類分析;最后將分析結(jié)果更新到數(shù)據(jù)庫中,以支持頁面展示和下載。文獻[110]將基于客戶價值的航空旅客細分系統(tǒng)用于某航空公司客戶特性的研究,該系統(tǒng)首先建立航空旅客的客戶價值評估指標體系,基于客戶的當前價值、潛在價值和客戶忠誠度建立航空旅客細分模型,然后用K-means 對客戶進行劃分,最后對重點關(guān)注的客戶群體構(gòu)建客戶畫像,并向航空公司提出營銷建議。在航空貨運上,文獻[111]開發(fā)了一款基于大數(shù)據(jù)技術(shù)的航空貨運管理系統(tǒng),該系統(tǒng)具有運單與銷售類數(shù)據(jù)分析、運輸與服務(wù)類數(shù)據(jù)分析和運價分析與收益預(yù)估類數(shù)據(jù)分析等功能,目前被用于中國國際貨運航空有限公司的貨運日常管理。文獻[112]研發(fā)了一款機場貨運管理系統(tǒng),并用于大連機場。
機場是航班流、旅客流、行李流、貨物流、地面交通流等多種信息的交匯之處,承擔著航班高效運行、旅客安全和服務(wù)提升的任務(wù)。因此,打造智慧機場成為國家和航空公司新時代航空業(yè)發(fā)展的核心目標之一。目前,學(xué)者們就新提出的智慧機場也進行了一些初步研究。文獻[113]研究了一種基于Spark 的用戶行為分析平臺,然后將該平臺用于某智慧機場被調(diào)度人群軌跡數(shù)據(jù)的分析,為機場管理者提供直觀的人群調(diào)度運營效果。文獻[114]為支撐智慧機場發(fā)展提出了機場大數(shù)據(jù)平臺。該平臺分為10 層,可提供全面的預(yù)測分析能力和信息視圖、監(jiān)測安檢排隊、實時分析機場流量、分析客戶關(guān)系管理、展示運行態(tài)勢等,被用于北京首都國際機場?;诖髷?shù)據(jù)的雷電預(yù)警系統(tǒng)被用于香港機場和??诿捞m機場的建設(shè)中,可及時做出雷電預(yù)警和信息傳遞,從而為機場的生產(chǎn)運行提供有效指引[115]。
不同類型的航空器在空中有條不紊地飛行,離不開空中交通的管理。因此每天對空中航空器交通的管理會產(chǎn)生航空大數(shù)據(jù)。而利用航空空管大數(shù)據(jù)可以提高空中交通管理水平和空中資源的利用效率。文獻[116]首先對基于Hadoop 的廣播式自動相關(guān)監(jiān)視系統(tǒng)數(shù)據(jù)進行解析和存儲,然后在MapReduce環(huán)境下利用改進的隔離森林算法將軌跡數(shù)據(jù)映射到地圖網(wǎng)格中,通過對網(wǎng)格單元的篩選和隔離劃分,并計算其異常分值,實現(xiàn)分布式環(huán)境下快速異常軌跡的檢測。民航空管設(shè)備大數(shù)據(jù)信息化分析管理應(yīng)用平臺以Hadoop 為基礎(chǔ)架構(gòu),在對空管數(shù)據(jù)采集和數(shù)據(jù)處理的基礎(chǔ)上表現(xiàn)出實時監(jiān)控空中交通、發(fā)出空中告警和趨勢分析等功能[117]。當前航空器種類和數(shù)量不斷增多,充分利用航空大數(shù)據(jù)是應(yīng)對此形勢的一條可行途徑。
盡管目前世界各國的航空公司和相關(guān)學(xué)者對航空大數(shù)據(jù)的研究非常重視并取得了一些重要成果,但是由于航空系統(tǒng)的復(fù)雜性與廣域性、航空應(yīng)用領(lǐng)域的廣泛性和航空大數(shù)據(jù)分析技術(shù)不夠成熟等原因,航空大數(shù)據(jù)領(lǐng)域仍然存在一些亟待解決的問題和與之相應(yīng)的新研究方向。航空系統(tǒng)的復(fù)雜性和航空大數(shù)據(jù)的獨特性也使航空大數(shù)據(jù)研究中亟待解決的問題呈現(xiàn)出多層面的特點,下面從技術(shù)本身和航空要素兩個層面加以闡述。
(1)無人機機載大數(shù)據(jù)處理技術(shù)比較匱乏。無人機因其靈巧便利性和在農(nóng)業(yè)、國土測繪、海洋巡查、應(yīng)急救援等方面有著廣闊的應(yīng)用前景而受到航空業(yè)和需求者的青睞。然而,與有人機相比,無人機機載硬件的功能相對較薄弱、機載能源相對較少、機載的大數(shù)據(jù)處理軟件與技術(shù)比較匱乏。研發(fā)高效輕量級的機載無人機大數(shù)據(jù)處理軟件與技術(shù)是目前航空大數(shù)據(jù)技術(shù)中的一個挑戰(zhàn),也是提高無人機性能所需要的。因此,研究者應(yīng)面向不同的應(yīng)用需求,基于特定的無人機研發(fā)快速有效的機載大數(shù)據(jù)處理技術(shù)。詳細地說,首先在無人機機載存儲方面,研究更有效的壓縮存儲技術(shù);然后在無人機狀態(tài)預(yù)測和修正方面,研究與無人機系統(tǒng)相適應(yīng)的高效預(yù)測技術(shù),并在某些狀態(tài)異常條件下或特殊環(huán)境下可對其狀態(tài)做出適當?shù)恼{(diào)整;最后,針對某種應(yīng)用的核心需求研發(fā)相應(yīng)的軟件系統(tǒng),例如針對航拍和測繪等需求,需要研究高級的采集與計算系統(tǒng),能夠快速地完成影像圖制作。
(2)探索高效的多模多源航空大數(shù)據(jù)融合和特征提取方法。從數(shù)據(jù)模態(tài)上看,航空大數(shù)據(jù)既可以是數(shù)字、文本和圖像數(shù)據(jù),又可以是音頻和視頻數(shù)據(jù)。從數(shù)據(jù)來源上講,航空大數(shù)據(jù)不僅可以來自航空器和衛(wèi)星,又可來自機場、多樣的服務(wù)或應(yīng)用對象。這就對航空大數(shù)據(jù)的融合和特征提取提出了挑戰(zhàn)。在航空大數(shù)據(jù)融合方面,在充分分析數(shù)據(jù)特性和實際需求的基礎(chǔ)上,基于已有的拼接、深度學(xué)習(xí)模型和數(shù)學(xué)計算模型等研究高效的數(shù)據(jù)融合方法。在特征提取方面,綜合考慮數(shù)據(jù)特性、后繼處理(方法)和解決的需求,采用過濾式框架、封裝式框架和嵌入式框架或根據(jù)需要研究新的框架,并嘗試其能高效解決問題的實現(xiàn)形式。多模多源航空大數(shù)據(jù)融合的質(zhì)量和特征提取方法的性能對后續(xù)分析方法和問題解決程度有著基礎(chǔ)性的影響。因此,探索面向多模多源航空大數(shù)據(jù)的融合和特征提取方法是未來一個十分有價值的研究課題。
(3)研究面向航空大數(shù)據(jù)的高效預(yù)測方法。航空系統(tǒng)由眾多實體要素組成,而且對安全性有著較高的要求。而預(yù)測方法是航空系統(tǒng)高效協(xié)調(diào)運行和提高其安全性的一種重要手段。從目前來看,雖然基于分類模型的預(yù)測技術(shù)、基于聚類的預(yù)測技術(shù)、基于關(guān)聯(lián)規(guī)則的預(yù)測技術(shù)等在航空領(lǐng)域得到了應(yīng)用,但基本上都是傳統(tǒng)預(yù)測技術(shù)的直接應(yīng)用,并沒有與航空大數(shù)據(jù)深度融合。與此同時,對工作中的航空系統(tǒng)實體(如航空器和客戶流等)的預(yù)測具有較強的實時性要求。因此,目前用于航空大數(shù)據(jù)的預(yù)測方法不能滿足日益復(fù)雜的航空系統(tǒng)和不斷提高的服務(wù)需求。鑒于此,應(yīng)面向應(yīng)用需求、航空大數(shù)據(jù)特點及其架構(gòu),研究高效的預(yù)測方法。從思路上講,可從以下幾點考慮:①研究航空大數(shù)據(jù)的整體架構(gòu),探索與之高度吻合的有效預(yù)測方法;②基于某種應(yīng)用需求及其所使用的航空大數(shù)據(jù)的特性,嘗試通過結(jié)合數(shù)學(xué)知識和機器學(xué)習(xí)從原理機制上創(chuàng)新性地提出更高效的新預(yù)測方法;③針對航空器和客戶流等的實時預(yù)測需求,研究基于增量預(yù)測、隨機過程等的高效預(yù)測方法,這是航空大數(shù)據(jù)技術(shù)中的一個難點。高效的預(yù)測方法將在航空器剩余壽命/狀態(tài)故障預(yù)測、航空路徑預(yù)測和客戶旅行預(yù)測等方面取得良好的效果,進而提高航空系統(tǒng)的智能化水平和客戶的體驗品質(zhì)。
(4)基于航空大數(shù)據(jù)的虛擬仿真與可視化方法。航空系統(tǒng)的龐雜性和由之產(chǎn)生的大數(shù)據(jù)及其分析結(jié)果的復(fù)雜性給該領(lǐng)域的虛擬仿真和可視化帶來了挑戰(zhàn)。到目前為止,一些虛擬仿真與可視化技術(shù)在空域軌跡、模擬飛行仿真、航空器加工、航空器故障診斷等方面得到了應(yīng)用。但是這些應(yīng)用有以下特點:①其中的一些應(yīng)用還處于實驗室研究階段,并未走向?qū)嶋H應(yīng)用;②不同方面的應(yīng)用基本上是孤立的,沒有整合成一個基于航空大數(shù)據(jù)的協(xié)同運行、智能互連的虛擬仿真與可視化系統(tǒng)。針對以上兩個問題,可從以下三方面入手:①積極推動基于航空大數(shù)據(jù)的虛擬仿真與可視化研究和航空緊密結(jié)合,推進研究成果的應(yīng)用轉(zhuǎn)化;②先從航空系統(tǒng)中重要方面入手,構(gòu)建基于航空大數(shù)據(jù)的虛擬仿真與可視化的綜合性、智能型系統(tǒng)與平臺,同時具備較強的可擴展性;③針對某類虛擬仿真與可視化應(yīng)用,研究面向航空大數(shù)據(jù)的快速、準確、友好的方法。高效的虛擬仿真和可視化方法可以提高航空器設(shè)計制造和故障診斷水平、優(yōu)化機場資源布局、提升客戶的感知體驗和提高安全性等。因此,基于航空大數(shù)據(jù)的虛擬仿真與可視化是航空公司競爭的重要內(nèi)容,也是未來一項非常具有實用性的研究內(nèi)容。
(5)航空大數(shù)據(jù)傳輸?shù)陌踩院退俣炔荒軡M足實際需要。具有高安全性要求的航空系統(tǒng)亟需安全快速的航空大數(shù)據(jù)傳輸技術(shù)。另一方面,客戶服務(wù)需求的日益精準化和航空公司資源的高度協(xié)同化與服務(wù)的無縫銜接也需要安全快速的航空大數(shù)據(jù)傳輸技術(shù)做支撐。因此研發(fā)安全快速的航空大數(shù)據(jù)傳輸技術(shù)是航空大數(shù)據(jù)技術(shù)中的一個挑戰(zhàn)。從目前來看,基于5G 技術(shù),研究地面(基站)、航空器和衛(wèi)星之間的雙向無線傳輸技術(shù)是一條可行的途徑??蓮囊韵氯c入手:①如何使用5G 技術(shù)實現(xiàn)地面、航空器和衛(wèi)星之間傳輸?shù)臒o縫連接;②研究和設(shè)計適用于航空大數(shù)據(jù)安全快速傳輸?shù)耐ㄐ艆f(xié)議;③研發(fā)用于航空大數(shù)據(jù)安全快速傳輸?shù)?、具有高吞吐量的中間設(shè)備。安全快速的航空大數(shù)據(jù)傳輸技術(shù)是提高航空系統(tǒng)服務(wù)水平的重要支撐,也是一個非常有潛力的研究方向。
(1)基于大數(shù)據(jù)的航空器設(shè)計制造水平不高。在設(shè)計方面,航空器主要是利用軟件進行總體設(shè)計,然后通過風洞試驗或流體動力學(xué)分析驗證的方式進行結(jié)構(gòu)設(shè)計;在制造方面,航空器主要依靠傳統(tǒng)建造工藝[118-119]。這樣的設(shè)計制造方式因大數(shù)據(jù)未深入?yún)⑴c而使航空器在設(shè)計、故障和缺陷分析方面沒有較完善的分析模型與方法,進而導(dǎo)致生產(chǎn)的航空器在運行效率、安全性、經(jīng)濟性、舒適性和環(huán)保性等方面不能滿足國家、航空公司和客戶的發(fā)展需求。提高大數(shù)據(jù)在航空器設(shè)計制造中的參與度是一條提升航空器設(shè)計制造水平的有效途徑。具體來講,在設(shè)計層面上,利用大數(shù)據(jù)技術(shù)對已有的設(shè)計數(shù)據(jù)與知識和相關(guān)需求進行分析,采用虛擬現(xiàn)實和增強現(xiàn)實技術(shù)對航空器進行完善和展示;在制造層面上,建立基于大數(shù)據(jù)的航空器生產(chǎn)、質(zhì)量監(jiān)測、安全監(jiān)督為一體的綜合性制造管理系統(tǒng)。這樣做既有利于催生新的設(shè)計制造工藝和提高航空器的質(zhì)量,也能迎接航空器日益多樣化的制造需求。因此,基于大數(shù)據(jù)的航空器設(shè)計制造將是未來一個有前景的研究方向。
(2)基于航空大數(shù)據(jù)的機場服務(wù)不能滿足日益增長的經(jīng)濟社會發(fā)展和民眾出行需求。目前,基于航空大數(shù)據(jù)的機場在票務(wù)、行李托管、機務(wù)人員管理、航空器起降調(diào)度和監(jiān)測等方面表現(xiàn)出一定的信息化水平;但是一些機場仍存在著值機排隊、安檢擁堵、行李傳送慢、跑道安全性低等問題。同時,經(jīng)濟社會的發(fā)展帶來航空器密度和乘客流量的不斷增大,較快的生活節(jié)奏使客戶對航空服務(wù)質(zhì)量的期望越來越高。這就要求機場對機場資源具有智能高效的協(xié)同調(diào)度能力。在此需求下,機場應(yīng)建立并不斷完善自己的航空大數(shù)據(jù)服務(wù)平臺,以提高機場的智慧化服務(wù)水平。具體來講:①著眼于未來需求,研究基于虛擬仿真、可視化技術(shù)、新概念和專家知識經(jīng)驗的機場設(shè)計與擴建,構(gòu)建基礎(chǔ)設(shè)施布局高效、功能多樣便利、資源節(jié)約、人文環(huán)境友好的大機場;②研究基于航空大數(shù)據(jù)服務(wù)平臺的高效預(yù)測技術(shù)解決排隊、安檢擁堵、資源的協(xié)同調(diào)度問題;③研究基于航空大數(shù)據(jù)服務(wù)平臺的高效關(guān)聯(lián)分析和聚類技術(shù),分析和追蹤不同類乘客的偏好與消費行為,進而引導(dǎo)乘客的機場行為,以提升其體驗質(zhì)量;④研究基于航空大數(shù)據(jù)服務(wù)平臺的高效異常檢測技術(shù),提高對航空器、機場旅客行為、跑道等的異常檢測能力,打造平安機場。這些航空大數(shù)據(jù)分析技術(shù)的研究必將提高機場資源協(xié)同利用、個性服務(wù)、安全預(yù)防和智能決策的能力,也是新時代機場建設(shè)的發(fā)展方向。
(3)空中交管系統(tǒng)不能適應(yīng)新時代航空的發(fā)展要求。伴隨著航空業(yè)進入快速發(fā)展的新時代,航班的數(shù)量和航空器的種類不斷增多。這就導(dǎo)致空中交通流量持續(xù)攀升,進而致使空中交管系統(tǒng)在空域交通規(guī)劃、交管負荷測量、交管人員工作時長、數(shù)據(jù)傳輸和安全性等方面的問題越來越凸顯。針對上述問題,可以探索構(gòu)建基于航空大數(shù)據(jù)技術(shù)和空天地一體化網(wǎng)絡(luò)技術(shù)為支撐的智能化空中交通管理服務(wù)平臺。具體可從以下幾點做起:①充分利用5G 技術(shù)容量大、時延低和下行速度快的優(yōu)勢,建立覆蓋空天地的網(wǎng)絡(luò)技術(shù),以促進人、物、機的高效互通,同時研究可加密的網(wǎng)絡(luò)傳輸協(xié)議;②針對新時代空中交通管制的需求,嘗試研究基于航空大數(shù)據(jù)技術(shù)的與空中交管相關(guān)的大數(shù)據(jù)存儲、分析和展示系統(tǒng);③充分考慮航空器的多樣性及其航行空域的特點,結(jié)合人工智能技術(shù)和相關(guān)知識建構(gòu)具有高度自治性的空中交管系統(tǒng),以減少空管人員的工作負荷。面對航空應(yīng)用日益增多和個性化需求日漸增強的形勢,迫切需要通過上述措施構(gòu)筑一個能滿足多用戶需求,支持自由飛行的無縫隙、空天地一體化的空管系統(tǒng),這也是新時代航空發(fā)展的一個動向。
(4)基于航空大數(shù)據(jù)的客戶管理與服務(wù)不能滿足市場競爭的需要。在航空業(yè)界,航空公司就大數(shù)據(jù)在客戶上的應(yīng)用主要包括客戶全生命周期與旅客管理、客戶行為分析、網(wǎng)購行為分析、用社交網(wǎng)絡(luò)進行營銷推廣等。然而,就目前來講,從這些數(shù)據(jù)中挖掘出的信息還沒有有機融合在一起,不能形成一個客戶的360°視圖。航空公司應(yīng)以客戶為中心,首先對自己的業(yè)務(wù)方案、技術(shù)方案和數(shù)據(jù)進行評估;然后設(shè)計具體的技術(shù)方案、算法,并確定路線圖;最后從平臺建設(shè)、團隊建設(shè)、數(shù)據(jù)建設(shè)、應(yīng)用建設(shè)幾個角度不斷完善和拓展航空大數(shù)據(jù)的應(yīng)用。航空公司需要招募數(shù)據(jù)倉庫、數(shù)據(jù)集成、數(shù)據(jù)處理、Hadoop 等方面的人才,逐漸形成一套適合自己而又不斷完善的客戶管理方案,從而追蹤和了解客戶所需,做出最有效的決策。
航空大數(shù)據(jù)是大數(shù)據(jù)研究中較為活躍的研究領(lǐng)域之一。本文首先從單純數(shù)據(jù)和系統(tǒng)性兩個角度給出了航空大數(shù)據(jù)的定義,并對其進行了系統(tǒng)的闡述;然后全面地分析和總結(jié)了航空大數(shù)據(jù)的關(guān)鍵技術(shù);最后指出了航空大數(shù)據(jù)的幾個典型應(yīng)用場景,并深入地論述和分析了航空大數(shù)據(jù)中存在的問題。航空大數(shù)據(jù)的研究,一方面將會降低航空公司的運營成本,提升服務(wù)的精準性和客戶的感知體驗,另一方面也會豐富和完善大數(shù)據(jù)技術(shù)的研究。此外,航空大數(shù)據(jù)也可應(yīng)用于運輸、農(nóng)業(yè)和海洋巡查等具體領(lǐng)域,從而推動航空經(jīng)濟的發(fā)展,同時也為人工智能、云計算和物聯(lián)網(wǎng)的應(yīng)用帶來光明前景。