林鑫 解沐萱 陳巍立 孟楠 王雪瑩 梁晨旭
摘要:伴隨著網(wǎng)絡(luò)訂票平臺(tái)的普及,越來越多的人選擇這些平臺(tái)來訂購(gòu)飛機(jī)票,然而航空公司會(huì)根據(jù)自己的一套復(fù)雜定價(jià)機(jī)制隨時(shí)調(diào)整機(jī)票價(jià)格,機(jī)票的價(jià)格波動(dòng)幅度比較大。文章基于山海關(guān)機(jī)場(chǎng)的某航線,連續(xù)追蹤了半年的數(shù)據(jù)建立了時(shí)間序列模型,并給出了預(yù)測(cè)機(jī)票價(jià)格的ARMA模型,為顧客節(jié)省費(fèi)用提供了一定的理論依據(jù)以及實(shí)際幫助。
關(guān)鍵詞:機(jī)票價(jià)格;價(jià)格預(yù)測(cè);ARMA模型;山海關(guān)機(jī)場(chǎng);時(shí)間序列模型 文獻(xiàn)標(biāo)識(shí)碼:A
中圖分類號(hào):TP393 文章編號(hào):1009-2374(2016)05-0019-02 DOI:10.13535/j.cnki.11-4406/n.2016.05.010
1 概述
航空公司根據(jù)收益管理系統(tǒng)進(jìn)行實(shí)時(shí)價(jià)格調(diào)整,票價(jià)變化明顯,所以機(jī)票價(jià)格浮動(dòng)大這一特點(diǎn)使價(jià)格預(yù)測(cè)極具實(shí)際應(yīng)用價(jià)值。目前,國(guó)內(nèi)針對(duì)機(jī)票價(jià)格預(yù)測(cè)模型的研究多在超售模型、價(jià)格走勢(shì)規(guī)律、航空公司定價(jià)機(jī)制等方面。而國(guó)外已有如FareCast和FareCompare等成熟的機(jī)票價(jià)格預(yù)測(cè)工具,是機(jī)票價(jià)格預(yù)測(cè)和追蹤網(wǎng)站中的佼佼者。由于國(guó)內(nèi)的航空公司使用的收益管理與國(guó)外有所不同,導(dǎo)致國(guó)外的預(yù)測(cè)方式大多不適合國(guó)內(nèi)的機(jī)票價(jià)格變化。在此基礎(chǔ)上,國(guó)內(nèi)有許多學(xué)者對(duì)機(jī)票價(jià)格的預(yù)測(cè)進(jìn)行了研究。顧兆軍以北京首都機(jī)場(chǎng)某航線為例,主要從飛機(jī)的離港時(shí)間入手,結(jié)合時(shí)間序列算法建立了機(jī)票的價(jià)格預(yù)測(cè)模型;陳巖松主要從技術(shù)層面利用垂直搜索技術(shù)和HBase分布式數(shù)據(jù)庫(kù)建立了機(jī)票價(jià)格預(yù)測(cè)系統(tǒng);黃承真主要從云計(jì)算的視角,利用Hadoop的任務(wù)分配策略從技術(shù)層面上建立了機(jī)票價(jià)格預(yù)測(cè)的模型。
本文將在此基礎(chǔ)上以國(guó)內(nèi)航線為例,研究某既定日起飛的航班機(jī)票在預(yù)售期內(nèi)的價(jià)格浮動(dòng),利用時(shí)間序列算法建立某既定日期與航班的機(jī)票在未來幾天內(nèi)的價(jià)格走勢(shì)預(yù)測(cè)模型。
本文的組織結(jié)構(gòu)如下:第一部分為理論基礎(chǔ),介紹了時(shí)間序列的重要概念和定義,并引入了ARMA模型的基本理論;第二部分為模型建立,從數(shù)據(jù)預(yù)處理,包括缺失值的填補(bǔ)和異常值的剔除,并從數(shù)據(jù)的平穩(wěn)性及隨機(jī)性的檢驗(yàn)、模型識(shí)別、參數(shù)估計(jì)和檢驗(yàn)詳細(xì)介紹了整個(gè)模型的建立過程;第三部分為模型預(yù)測(cè),通過建立的ARMA模型預(yù)測(cè)未來5期的機(jī)票價(jià)格,并與實(shí)際值進(jìn)行對(duì)比確定誤差率;第四部分為模型結(jié)論,總結(jié)了本文對(duì)于基于ARMA模型的機(jī)票價(jià)格預(yù)測(cè)所做的工作,并指出了模型的優(yōu)缺點(diǎn),對(duì)未來的研究工作提出了建議。
2 理論基礎(chǔ)
在統(tǒng)計(jì)研究中,常用按時(shí)間順序排列的一組隨機(jī)變量表示一個(gè)隨機(jī)時(shí)間的時(shí)間序列,簡(jiǎn)記為或。對(duì)于一個(gè)時(shí)間序列來說,通過平穩(wěn)性檢驗(yàn)可以分為平穩(wěn)序列和非平穩(wěn)序列兩大類。對(duì)于平穩(wěn)序列而言,我們已經(jīng)有一套非常成熟的平穩(wěn)序列建模方法。在統(tǒng)計(jì)上,通??梢越⒁粋€(gè)線性模型來擬合該序列的發(fā)展,并借此提取該序列中的額有用信息。其中ARMA(auto regression moving average)即自回歸移動(dòng)平均模型是目前最常用的平穩(wěn)序列擬合模型。
一般而言,我們把具有如下結(jié)構(gòu)的模型稱為自回歸移動(dòng)平均模型,簡(jiǎn)記為ARMA(p,q):若=0,該模型稱為中心化ARMA(p,q)模型。特別是當(dāng)q=0時(shí),ARMA(p,q)模型就退化成了AR(p)模型;當(dāng)p=0時(shí),ARMA(p,q)模型就退化成了MA(q)模型。
3 模型建立
3.1 模型假設(shè)及數(shù)據(jù)搜集
由于當(dāng)今網(wǎng)絡(luò)訂票平臺(tái)的普及,人們可以提前數(shù)天就預(yù)訂飛機(jī)票。而由于種種原因,機(jī)票的價(jià)格始終在不斷波動(dòng),即某天的機(jī)票在航班起飛之前會(huì)有不同的價(jià)格。為了方便模型的建立,我們考慮如下假設(shè):(1)機(jī)票的最低價(jià)必然出現(xiàn)在飛機(jī)起飛之前的30天內(nèi);(2)顧客沒有航班偏好性以及時(shí)段偏好性,購(gòu)買機(jī)票時(shí)始終以“最便宜”為目的;(3)機(jī)票價(jià)格在一天內(nèi)保持不變;(4)飛機(jī)航班始終能滿足顧客需求。
在此基本假設(shè)下,我們利用網(wǎng)絡(luò)爬蟲在去哪兒、攜程等多個(gè)網(wǎng)站獲得了山海關(guān)機(jī)場(chǎng)從秦皇島飛往石家莊半年的數(shù)據(jù)。而同時(shí)為了反映同一天機(jī)票價(jià)格在不同預(yù)訂時(shí)期的變動(dòng),我們對(duì)連續(xù)30天的數(shù)據(jù)取算術(shù)平均值,進(jìn)行模型的建立。
3.2 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理主要可以分為三部分:數(shù)據(jù)清洗、異常值剔除、缺失值的填補(bǔ)。
由于機(jī)票價(jià)格數(shù)據(jù)是通過網(wǎng)絡(luò)爬蟲在網(wǎng)絡(luò)訂票平臺(tái)獲取的,因此會(huì)出現(xiàn)數(shù)據(jù)冗余、無關(guān)數(shù)據(jù)等問題,我們首先需要對(duì)數(shù)據(jù)進(jìn)行基本的數(shù)據(jù)清洗。
對(duì)于清理之后的數(shù)據(jù),我們要識(shí)別出時(shí)間序列的異常值??紤]到進(jìn)行時(shí)間序列建模時(shí)在模型定階上我們很大程度上地參考了自相關(guān)圖和偏自相關(guān)圖的拖尾性和結(jié)尾性,而其判斷標(biāo)準(zhǔn)為兩倍標(biāo)準(zhǔn)差,即兩倍標(biāo)準(zhǔn)差以外的值為異常值。利用這個(gè)原理,我們計(jì)算了時(shí)間序列觀察值的Z分?jǐn)?shù),并剔除大于兩倍標(biāo)準(zhǔn)差的數(shù)據(jù)。
對(duì)于缺失數(shù)據(jù)的處理一般有刪除個(gè)案、刪除缺失值等會(huì)丟失樣本信息的方法,也有插補(bǔ)法,即利用其他數(shù)據(jù)替代或者估算缺失值,常見的有均值插補(bǔ)法、線性插補(bǔ)法、EM算法等。本文針對(duì)時(shí)間序列數(shù)據(jù)的特性,選擇了均值插補(bǔ)法,彌補(bǔ)被剔除了的異常值以及原本就存在的缺失值,以便于進(jìn)行模型的下一步分析。
3.3 平穩(wěn)性及隨機(jī)性的檢驗(yàn)
拿到了完整的、無缺失的時(shí)間序列數(shù)據(jù)之后,我們首先對(duì)它的平穩(wěn)性和純隨機(jī)性進(jìn)行檢驗(yàn)。對(duì)于平穩(wěn)性檢驗(yàn),我們首先進(jìn)行直觀、簡(jiǎn)潔的觀察。我們可以發(fā)現(xiàn),除了某幾個(gè)跳躍點(diǎn)以外,該序列基本上始終在一個(gè)常數(shù)值附近隨機(jī)波動(dòng),沒有明顯的趨勢(shì)或者周期性。為了更精確地確定該序列是否平穩(wěn),我們使用單位根檢驗(yàn)中最常見的PP檢驗(yàn)對(duì)序列平穩(wěn)性進(jìn)行進(jìn)一步分析。
我們不難發(fā)現(xiàn),當(dāng)置信水平為0.05的條件下,無常數(shù)均值、無趨勢(shì)的時(shí)間序列可基本認(rèn)為平穩(wěn),但階數(shù)為1和2時(shí)該序列表現(xiàn)出不平穩(wěn)的特點(diǎn),沒有通過PP檢驗(yàn)。而對(duì)于有常數(shù)均值、無趨勢(shì)的時(shí)間序列和既有常數(shù)均值、又有線性趨勢(shì)的時(shí)間序列來說,該時(shí)間序列顯著平穩(wěn)。因此,該序列可基本認(rèn)為平穩(wěn),可進(jìn)行下一步的時(shí)間序列建模。而對(duì)于純隨機(jī)性檢驗(yàn)而言,我們構(gòu)造相關(guān)的統(tǒng)計(jì)量來進(jìn)行檢驗(yàn)。
原假設(shè),
備擇假設(shè)至少存在某個(gè),,
構(gòu)造LB(Ljung-Box)統(tǒng)計(jì)量:
式中:n為序列觀測(cè)期數(shù);m為指定延遲期數(shù)。證明LB統(tǒng)計(jì)量近似服從自由度為m的卡方分布,因此我們?cè)谲浖杏?jì)算可得結(jié)果。
檢驗(yàn)結(jié)果顯示,在各階延遲下LB檢驗(yàn)統(tǒng)計(jì)量的P值都非常?。?0.0001),所以我們可以以很大的把握(置信水平>99.999%)斷定該事件序列數(shù)據(jù)屬于非白噪聲序列,即該序列蘊(yùn)含著值得提取的相關(guān)信息,值得建模,可進(jìn)行下一步的分析。
3.4 模型識(shí)別
現(xiàn)在我們使用SAS軟件編程來對(duì)模型進(jìn)行識(shí)別。在SAS中,我們運(yùn)用MINIC命令對(duì)于在自相關(guān)延遲階數(shù)≤5,移動(dòng)平均延遲階數(shù)也≤5的所有ARMA(p,q)模型中,以BIC信息量最小為原則選出相對(duì)最優(yōu)模型。
結(jié)果顯示,適合該序列做預(yù)測(cè)的最優(yōu)模型為ARMA(3,1)模型,結(jié)論一致。
3.5 參數(shù)估計(jì)和檢驗(yàn)
對(duì)于該序列的參數(shù)估計(jì),我們采用條件最小二乘法。它假定過去未觀測(cè)到的序列值等于0,即通過迭代法,使得上式達(dá)到最小值的估計(jì)值即為參數(shù)的條件最小二乘估計(jì)。
同樣地,我們利用SAS軟件編程得到模型的參數(shù)
估計(jì)。
我們發(fā)現(xiàn),除了的P值為0.0008以外,其余三個(gè)參數(shù)P值都非常小(<0.0001),所以我們可以以很大的把握(置信水平>99.999%)斷定該模型的四個(gè)自變量對(duì)因變量的影響都很明顯。
同時(shí),我們?nèi)匀皇褂肔B統(tǒng)計(jì)量對(duì)模型進(jìn)行顯著性檢驗(yàn)。模型的有效與否即看它的信息提取是否足夠充分。如果所用的模型足夠好,擬合的殘差項(xiàng)中將不再蘊(yùn)含任何相關(guān)信息,即白噪聲序列,仍然在SAS中進(jìn)行檢驗(yàn)。
4 結(jié)語
本文針對(duì)山海關(guān)機(jī)場(chǎng)的秦皇島到石家莊航線的機(jī)票數(shù)據(jù),提出了一種基于ARMA平穩(wěn)時(shí)間序列的機(jī)票價(jià)格預(yù)測(cè)模型。該模型著重考慮了對(duì)于某天的機(jī)票在不同日期預(yù)訂的價(jià)格變化,給出了供顧客參考的平均價(jià),與真實(shí)值相比,其平均相對(duì)誤差只有2.58%,誤差價(jià)格都在70元以內(nèi),具有一定的現(xiàn)實(shí)意義。同時(shí),本文仍有一定的局限性,尤其是時(shí)間序列模型需要的樣本量較大,同時(shí)需要實(shí)時(shí)更新最新的機(jī)票數(shù)據(jù),以此達(dá)到最佳的機(jī)票預(yù)測(cè)效果。因此,如何充分利用網(wǎng)絡(luò)上龐大的數(shù)據(jù)庫(kù)為模型建立提供更多的訓(xùn)練樣本以此來提升模型的精確度以及利用云計(jì)算的巨大計(jì)算能力和儲(chǔ)存能力來提升算法效率都有待我們繼續(xù)研究。
參考文獻(xiàn)
[1] 顧兆軍,王雙,趙億.基于時(shí)間序列的機(jī)票價(jià)格預(yù)測(cè)模型[J].中國(guó)民航大學(xué)學(xué)報(bào),2013,(31).
[2] 陳巖松.機(jī)票價(jià)格預(yù)測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].大連理工大學(xué),2013.
[3] 黃承真.云計(jì)算環(huán)境下機(jī)票價(jià)格預(yù)測(cè)及任務(wù)分配研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2014.
[4] 王燕.應(yīng)用時(shí)間序列分析[M].北京:中國(guó)人民大學(xué)出版社,2013.
[5] 楊池然.SAS從入門到精通[M].北京:電子工業(yè)出版社,2011.
[6] 陳劍,肖勇波,劉曉玲,等.基于乘客選擇行為的航空機(jī)票控制模型研究[J].系統(tǒng)工程理論與實(shí)踐,2006,(1).
[7] 段智彬,孫恩昌,張延華,等.基于ARMA模型的網(wǎng)絡(luò)流量預(yù)測(cè)[J].中國(guó)電子科學(xué)研究院學(xué)報(bào),2009,(4).
[8] 唐玉娜,李啟會(huì).ARMA模型在預(yù)測(cè)問題中的應(yīng)用
[J].嘉興學(xué)院學(xué)報(bào),2006,(18).
作者簡(jiǎn)介:林鑫(1994-),男,福建漳州人,東北大學(xué)秦皇島分校數(shù)學(xué)與統(tǒng)計(jì)學(xué)院學(xué)生,研究方向:數(shù)據(jù)挖掘、應(yīng)用統(tǒng)計(jì)。
(責(zé)任編輯:周 瓊)