丁建立 ,李華峰 ,3
(1.中國(guó)民航大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300;2.中國(guó)民航大學(xué)天津市智能信號(hào)與圖像處理重點(diǎn)實(shí)驗(yàn)室,天津 300300;3.唐山師范學(xué)院計(jì)算機(jī)系,河北 唐山 063000)
如何建立準(zhǔn)確的航班延誤模型一直是世界民航業(yè)的重大課題,而解決這一問題的關(guān)鍵是如何準(zhǔn)確的預(yù)測(cè)不同時(shí)段的航班延誤的數(shù)量,也就是如何有效的利用相關(guān)的數(shù)據(jù)信息去預(yù)測(cè)未來的延誤情況,由于航班在飛行時(shí),天氣等相關(guān)條件都會(huì)有相當(dāng)大的影響,而且近年來中國(guó)民航的運(yùn)輸量得到了極為迅速的增長(zhǎng),航班延誤對(duì)整個(gè)民航運(yùn)輸業(yè)的發(fā)展的制約問題已經(jīng)極為明顯。
目前,針對(duì)航班延誤的預(yù)測(cè)模型問題已經(jīng)引起了世界各國(guó)的極大注意,研究的學(xué)者們已經(jīng)將很多方法用于航班延誤的預(yù)測(cè)中,如免疫算法,馬爾科夫過程,貝葉斯網(wǎng)絡(luò)等,這些預(yù)測(cè)模型各有優(yōu)缺點(diǎn)和自己的適應(yīng)條件。一些研究通過對(duì)各種不同的情況進(jìn)行對(duì)比發(fā)現(xiàn),這些單一的預(yù)測(cè)模型并不能在所有的情況下都取得較好的預(yù)測(cè)精度。所以應(yīng)用單一模型對(duì)復(fù)雜的延誤問題進(jìn)行處理,顯然有些力不從心。若采用多個(gè)不同的預(yù)測(cè)模型并加以適當(dāng)?shù)挠行ЫM合,或多個(gè)變量的科學(xué)綜合,則可以充分地利用各種信息達(dá)到提高預(yù)測(cè)精度的目的。
本文基于組合預(yù)測(cè)模型的思想,針對(duì)不同的情況,組合模型執(zhí)行選擇了灰度預(yù)測(cè)和免疫算法兩種預(yù)測(cè)方法進(jìn)行組合預(yù)測(cè),該模型的最后結(jié)果將所有參與預(yù)測(cè)的模型結(jié)果進(jìn)行加權(quán),權(quán)值的選取直接影響在組合模型的預(yù)測(cè)精度,本文采用動(dòng)態(tài)改變權(quán)值的方法。
危險(xiǎn)模式理論和傳統(tǒng)理論的根本區(qū)別是免疫應(yīng)答的觸發(fā)信號(hào)不同。在使用危險(xiǎn)模式對(duì)機(jī)場(chǎng)航班延誤進(jìn)行預(yù)測(cè),本文定義了三種抗原識(shí)別信號(hào)[1]:
危險(xiǎn)信號(hào)(SignalA):當(dāng)待檢測(cè)的抗原航班為延誤航班時(shí),該信號(hào)被激活。
協(xié)同刺激信號(hào)(SignalB):當(dāng)檢測(cè)的抗體航班的累積延誤率超過閾值時(shí),該信號(hào)被激活。
抗原活化信號(hào)(SignalC):當(dāng)危險(xiǎn)信號(hào)和協(xié)同刺激信號(hào)同時(shí)激活時(shí),該信號(hào)被激活,對(duì)應(yīng)的抗體航班完善,進(jìn)入記憶檢測(cè)器。
危險(xiǎn)模式機(jī)場(chǎng)航班延誤預(yù)測(cè)模型的信息集合:
整個(gè)機(jī)場(chǎng)的航班可以抽象為一個(gè)集合U,U={u|u=<flight-no,t-a,t-p> |flight-no是航班號(hào),t-a為該航班的實(shí)際離港時(shí)間,t-p為航班的計(jì)劃離港時(shí)間}。
待檢測(cè)航班的信息集合即抗原A。
檢測(cè)器集 D={<flight-no,age,d-count,ratio>|flight-no為航班號(hào),age是檢測(cè)器的年齡,d-count為延誤匹配數(shù),ratio為累積延誤率}。而D=M∪R,其中R={x|x∈D,x.ratio>θ}為記憶檢測(cè)器,它有無限的生命周期,θ是延誤率閾值。M是成熟檢測(cè)器,其由不與自體匹配且延誤率未超過延誤率閾值的免疫細(xì)胞組成[2]。
基于危險(xiǎn)模式免疫算法的航班抗體檢測(cè)的主要思想就是首先檢測(cè)抗原航班是否在“延誤危險(xiǎn)區(qū)域”中,并送入訓(xùn)練集中對(duì)抗體進(jìn)行訓(xùn)練。當(dāng)被訓(xùn)練抗體超過一定閾值時(shí),該抗體完善。其中“延誤危險(xiǎn)區(qū)域”的劃分是由是否所有滿足(at-a-xt-p>=t)的航班確定的[3]。
初始化階段,在這個(gè)階段要建立一個(gè)初始的延誤識(shí)別集,根據(jù)先前的航班記錄取一定數(shù)量的數(shù)據(jù)經(jīng)過編碼和預(yù)處理后,形成一個(gè)最初的抗體集抗體耐受。
運(yùn)行階段,在這個(gè)階段要通過對(duì)新的航班抗原進(jìn)行分類處理。
步驟1:讀取航班(抗原)信息。初始SignalA,SignalB,SignalC 為 false;
步驟2:針對(duì)該航班(抗原)是否處于延誤區(qū)域,如果為真,則危險(xiǎn)信號(hào)SignalA=true,否則,危險(xiǎn)信號(hào)SignalA=false;
步驟3:輸入檢測(cè)器集,與抗體群體中的所有抗體進(jìn)行抗原匹配,如果與其中抗體匹配,則該抗體ratio++;
步驟4:對(duì)應(yīng)抗體age++;
步驟5:該抗體親和力是否達(dá)到閾值,如果親和力達(dá)到閾值,則協(xié)同刺激信號(hào)SignalB=true,否則協(xié)同刺激信號(hào)SignalB=false;
步驟6:抗原活化信號(hào)SignalC=SignalA∩SignalB,如果SignalC=true,則確定該危險(xiǎn)數(shù)據(jù)抗原,將該抗體加入到記憶檢測(cè)器中,并產(chǎn)生免疫應(yīng)答;
步驟7:更新危險(xiǎn)抗體數(shù)據(jù)庫(kù)。
按照非平穩(wěn)時(shí)間序列分析模型的特征,數(shù)據(jù)序列一般由趨勢(shì)數(shù)據(jù)、周期數(shù)據(jù)、隨機(jī)數(shù)據(jù)組成,變化趨勢(shì)分析很難反映出數(shù)據(jù)序列的周期性和隨機(jī)性變化;用該模型對(duì)機(jī)場(chǎng)航班進(jìn)行逐時(shí)段預(yù)測(cè)時(shí),將隨機(jī)性較大的數(shù)據(jù)除去,其中包括去除臨時(shí)航班的數(shù)據(jù)、貨機(jī)數(shù)據(jù)、有政治要員的航班、出現(xiàn)臨時(shí)惡劣天氣所影響的相關(guān)航班的數(shù)據(jù)、每個(gè)月飛行任務(wù)少于10次的航班數(shù)據(jù),這樣更有利于航班延誤規(guī)律性的體現(xiàn)[4]。
記憶檢測(cè)器和成熟檢測(cè)器算法如圖1和圖2所示。
圖1 記憶檢測(cè)器算法Fig.1 Algorithm of memory detector
圖2 成熟檢測(cè)器算法Fig.2 Algorithm of mature detector
灰預(yù)測(cè)是20世紀(jì)80年代發(fā)展起來的一門新學(xué)科,由于其理論簡(jiǎn)潔、不涉及具體模型,僅對(duì)數(shù)據(jù)進(jìn)行處理,因而適用面廣,已被成功地應(yīng)用到經(jīng)濟(jì)、社會(huì)、工程等領(lǐng)域?;翌A(yù)測(cè)能用表示系統(tǒng)行為特征的、較少的、離散的原始數(shù)據(jù)序列作生成變換后建立灰模型,用微分方程描述的灰模型能較完整地描述被研究對(duì)象的運(yùn)行行為,揭示系統(tǒng)內(nèi)部事物的連續(xù)發(fā)展變化過程。
設(shè)有原始數(shù)列
經(jīng)過級(jí)比可建立GM(1,1)模型。作一階累加生成數(shù)列
式中:a、u為待定參數(shù),將式(1)離散化即得矩陣形式:Y=BA。式中
用最小二乘法求解灰參數(shù)A
則微分方程(1)的解為
通過某一時(shí)段航班延誤的數(shù)量曲線做出x序列:
步驟1:做出序列x的上下包絡(luò)線。對(duì)序列x曲線做上下包絡(luò)輪廓曲線。以國(guó)內(nèi)某大型機(jī)場(chǎng)7日內(nèi)13:00~14:00時(shí)段航班延誤數(shù)據(jù)為例,如圖3所示。
步驟2:作等間隔上、下包絡(luò)序列。在上、下包絡(luò)線上等間隔選取數(shù)據(jù),對(duì)于上包絡(luò),必須包括的峰點(diǎn)(不必是所有峰點(diǎn));對(duì)于下包絡(luò),必須包括的谷點(diǎn)(不必是所有谷點(diǎn))。這樣就可得到上包絡(luò)序列
下包絡(luò)序列為
步驟 3:對(duì)上、下包絡(luò)序列作 GM(1,1)建模并預(yù)測(cè)。按照GM(1,1)模型的建模計(jì)算步驟,建立上包絡(luò)序列u、下包絡(luò)序列的GM(1,1)模型,經(jīng)檢驗(yàn)合格后,做出上、下包絡(luò)序列的預(yù)測(cè)值,進(jìn)而得到原始序列的灰色預(yù)測(cè)區(qū)間。
步驟4:對(duì)原始序列X建模并預(yù)測(cè)。建立原始序列GM(1,1)模型,經(jīng)檢驗(yàn)合格后,計(jì)算原始序列預(yù)測(cè)值。
步驟5:對(duì)包絡(luò)中軸建模并預(yù)測(cè)。包絡(luò)中軸指包絡(luò)區(qū)內(nèi)的中心所聯(lián)的軸線。其序列可按下式計(jì)算建立序列的GM(1,1)模型,經(jīng)檢驗(yàn)合格后,計(jì)算包絡(luò)區(qū)中軸序列的預(yù)測(cè)值。
步驟6:預(yù)報(bào)??偨Y(jié)包絡(luò)灰預(yù)測(cè)的預(yù)測(cè)區(qū)間、原始序列的預(yù)測(cè)值、包絡(luò)區(qū)中軸序列的預(yù)測(cè)值,檢驗(yàn)其是否可用[5]。
組合預(yù)測(cè)方法就是先利用兩種或以上不同的預(yù)測(cè)方法對(duì)同一預(yù)測(cè)對(duì)象進(jìn)行預(yù)測(cè),組合預(yù)測(cè)方法是對(duì)同一個(gè)問題,采用兩種以上不同預(yù)測(cè)方法的預(yù)測(cè)。實(shí)踐中更多的則是利用定性方法與定量方法的組合。組合的主要目的是綜合利用各種方法所提供的信息,盡可能地提高預(yù)測(cè)精度。因此,本文嘗試采用均方誤差確定加權(quán)系數(shù),將這兩種方法進(jìn)行加權(quán)組合,求得最終的下一個(gè)時(shí)段的延誤航班數(shù)值[6]。
對(duì)第t+1時(shí)段進(jìn)行預(yù)測(cè),首先,計(jì)算每種方法在每個(gè)時(shí)段的預(yù)測(cè)值和在該時(shí)段內(nèi)的實(shí)際值之間的均方誤差 MSE(t)(t=1,2,…,30)
由式(7)可得,危險(xiǎn)模式預(yù)測(cè)方法的加權(quán)系數(shù)為
灰預(yù)測(cè)方法的加權(quán)系數(shù)為
最終預(yù)測(cè)結(jié)果即為
其中:fdm(t)為危險(xiǎn)模式預(yù)測(cè)的第t時(shí)段延誤的航班數(shù);fgm(t)為灰預(yù)測(cè)方法預(yù)測(cè)的第t時(shí)段延誤的航班數(shù)。
表1和表2的實(shí)驗(yàn)數(shù)據(jù)來自國(guó)內(nèi)某大型機(jī)場(chǎng)夏秋航班的運(yùn)行數(shù)據(jù)。首先依據(jù)機(jī)場(chǎng)從前20天航班的運(yùn)行數(shù)據(jù)可得航班免疫檢測(cè)的成熟檢測(cè)器和記憶檢測(cè)器,然后用后20天航班的數(shù)據(jù)去訓(xùn)練檢測(cè)細(xì)胞,動(dòng)態(tài)調(diào)整檢測(cè)集,以適應(yīng)時(shí)間的變化。隨機(jī)選擇與訓(xùn)練檢測(cè)器所用的數(shù)據(jù)日期較接近的機(jī)場(chǎng)某一天的航班狀態(tài)進(jìn)行預(yù)測(cè)。
表1 訓(xùn)練后的成熟檢測(cè)集合Tab.1 Collection of mature detector after training
表2 訓(xùn)練后的記憶檢測(cè)集合Tab.2 Collection of memory detector after training
計(jì)算均方誤差的結(jié)果是MSEdm=0.330633,MSEgm=0.669366。
計(jì)劃航班進(jìn)行組合預(yù)測(cè)的預(yù)測(cè)結(jié)果如圖4所示。圖4中,橫軸共表示15個(gè)時(shí)間段,即07:00~08:00……21:00~22:00;縱軸表示在某個(gè)時(shí)間段內(nèi)延誤的航班數(shù)值。由圖4可以看出組合預(yù)測(cè)有較好的預(yù)測(cè)結(jié)果。能夠及時(shí)地反映出延誤的趨勢(shì)。
近年來,航班延誤的分析和預(yù)測(cè)是一個(gè)非常重要的問題。由于危險(xiǎn)模式和灰預(yù)測(cè)模型在對(duì)一些問題的預(yù)測(cè)上有其各自相對(duì)的優(yōu)勢(shì),但其對(duì)于復(fù)雜的、不穩(wěn)定的時(shí)間序列都不是最優(yōu)的模型。本文利用這兩種模型形成組合預(yù)測(cè)模型。通過實(shí)證研究表明了預(yù)測(cè)模型在預(yù)測(cè)上的有效性,能總體把握航班延誤的趨勢(shì),達(dá)到更準(zhǔn)確地對(duì)航班延誤進(jìn)行預(yù)測(cè)的目的,驗(yàn)證了組合模型比單一模型的預(yù)測(cè)結(jié)果更合理、更可靠,該預(yù)測(cè)模型是一種有效的航班延誤時(shí)間序列預(yù)測(cè)模型。
[1]MATZINGER P.The danger model:A renewed sense of self[J].Science,2002,296:301-305
[2]DING JIANLI,TONG GUANSHENG.Real-time Sub-time Early Warning of Airport Scheduled Flight Delay Base on Immune Algorithm[C]//Los Alamitos:IEEEComputerSociety,2008:430-435.
[3]TU YUFENG,MICHAEL O BALL,WOLFGANG S.Estimating flight departure delay distributions a statistical approach with long-term trend and short term pattern[J].Journal of the Amerian Statistical Association,2008,103(481):112-125.
[4]CAO WEI-DONG,DING JIAN-LI,LIU YU-JIE.Analysis of flight departure delay and warning based on Bayesian networks[J].Application Research of Computers,2008,25(11):3388-3390.
[5]DENG J L.The law of grey cause and white effect in GM (1,1)[J].The Journal of Grey System,1999,11(3):257-262.
[6]HUANG YUE,ZHU LI-PING,ZHANG WEI.From clone selection to danger model[J].Acta Academiae Medicinae Sinicae,2002,296;301-305.