徐 濤,徐召朋,盧 敏
(1.中國民航大學(xué)a.信息技術(shù)科研基地,b.計算機科學(xué)與技術(shù)學(xué)院,天津300300;2.中山大學(xué)機器智能與先進計算教育部重點實驗室,廣州510275)
面對日益激烈的市場競爭,航空公司通過開辟新航線或加大熱門航線的運力爭相發(fā)展和擴大航線網(wǎng)絡(luò)以提升市場競爭力.開辟新航線或加大熱門航線的運力首要解決航線價值或航線收益的計算問題.現(xiàn)階段,航線價值通常是以航線客流量的統(tǒng)計為基礎(chǔ),并結(jié)合票價信息來計算.但是,僅利用航線的客流量和票價信息難以評估旅客帶給航線的潛在價值.發(fā)現(xiàn)具有高潛在價值的航線能夠幫助航空公司解決后期因客源不足引起的營運效益降低問題.因此,航線價值計算問題的解決,對航空公司的發(fā)展具有重要的意義.
為了能夠發(fā)現(xiàn)具有高潛在價值的航線,本文提出了一種基于旅客出行意圖的航線潛在價值計算模型來計算航線的潛在價值.提出了航線潛在價值的概念,將難以直觀描述的旅客出行行為及旅客偏好融入到航線價值計算中,達到航線潛在價值計算的目的;提出出行意圖的概念,將旅客的出行行為按照出行意圖進行劃分并量化,在計算航線潛在價值的同時將航線按照出行意圖進行了分類.
本文主要通過中國民航旅客訂票數(shù)據(jù)集來研究航線的價值,而該數(shù)據(jù)集中并不包含有關(guān)航線價值的信息.但可以通過統(tǒng)計航線上的客流量來定義航線的價值,將其定義為
在基于旅客出行意圖的航線潛在價值計算模型中引入出行意圖的概念,將旅客的出行行為進行細分.出行意圖由主題模型[1-4]中文本主題的概念引申而來.文本主題表示一種隱含的概念,具體表示為一系列相關(guān)的單詞,以及它們在該概念下出現(xiàn)的概率.因此,出行意圖可以表示為一系列相關(guān)的航線,以及航線出現(xiàn)在該出行意圖下的概率.
借鑒主題模型中文本的生成過程來模擬旅客出行記錄的生成.旅客出行時先確定出行意圖,然后在該意圖下選擇航線.因此,在獲得旅客隱含的出行意圖分布及每個意圖中航線的分布后,結(jié)合旅客對艙位的偏好來計算出的航線價值便是航線的潛在價值.
記U為旅客組成的集合,U中所有旅客出行時乘坐的航線組成航線集合R.借助貝葉斯公式將基于旅客出行意圖的航線潛在價值計算模型定義為
式中:P(r)表示航線r的價值,r∈R;P(u)表示旅客u對艙位偏好所產(chǎn)生的價值,u∈U;P(zu|u)表示旅客u擁有出行意圖zu的概率;P(r|zu)表示確定出行意圖zu后選擇航線r的概率.
(1)旅客出行意圖分布及出行意圖下航線分布的定義.
記每位旅客u包含自身出行意圖的向量為θu,θu中的元素是旅客u選擇不同意圖的概率值,則所有旅客的出行意圖構(gòu)成“旅客—意圖”矩陣Θ.此外,假設(shè)共有K種出行意圖,每種出行意圖z由不同航線在該出行意圖中出現(xiàn)的概率組成,記為向量φz,針對所有出行意圖形成“意圖—航線”矩陣Φ.為方便起見,將每條航線r進行編號.旅客u在出行中選擇航線r的概率可表述為
式中:z表示某次出行旅客的意圖.
由于旅客u選擇航線r的過程中加入了旅客出行意圖的潛在信息,因此,式(3)表示旅客u在出行中選擇航線r的概率值也代表著該旅客u所賦予航線r的價值.最終,我們可以將旅客出行記錄的生成用圖1所示的流程來表示.其中α與β都表示Dirichlet分布的參數(shù)先驗參數(shù).
圖1 旅客出行記錄生成圖Fig.1 The generation chart of passenger travel records
(2)旅客出行意圖分布及出行意圖下航線分布的求解.
由于向量θ是旅客選擇出行意圖的分布,假設(shè)共有K種出行意圖,則θ符合K維多項式分布.同理,向量φ符合|R|維多項式分布.由統(tǒng)計學(xué)知識可知,θ和φ會具有先驗分布,此處選擇Dirichlet分布作為θ和φ的先驗分布形成共軛結(jié)構(gòu)以提高參數(shù)估計的精度[7],并簡化估計的過程.
所有旅客的出行意圖分布P(z|U)加入先驗分布可表示為
同理,各出行意圖下航線的分布P(r|z)可表示為
綜合式(4)和式(5),可得所有旅客出行意圖及出行時所乘航線的聯(lián)合分布為
利用Gibbs Sampling方法對式(6)進行采樣.由于航線r是觀測到的已知數(shù)據(jù),出行意圖是隱含變量,所以真正需要采樣的分布是P(z|r).其公式推導(dǎo)為
式中:zi表示第i條航線對應(yīng)的出行意圖變量;下標?i表示變量不包含第i條航線的情況.
式(7)最后一步的推導(dǎo)應(yīng)用了Dirichlet分布的期望公式,因此,只要獲得每條航線r的意圖z的標號,便可通過簡單的計數(shù)方式獲得“旅客—意圖”矩陣Θ和“意圖—航線”矩陣Φ.主要過程是遍歷旅客出行時的航線集合,按照式(9)進行不斷的迭代,從而更改不同航線分配到不同的出行意圖下的概率.
式中:θuz表示旅客u選擇出行意圖z產(chǎn)生的價值;φzr表示出行意圖z下確定航線r產(chǎn)生的價值.
旅客對艙位偏好所產(chǎn)生的價值由其歷次出行累積得來.設(shè)旅客的每次出行及旅客間的出行相互獨立,且對不同的艙位賦予不同的艙位系數(shù),則所有旅客組成的集合U因艙位偏好所具有的價值為
對式(10)使用最大似然估計法,可得
通常,航空公司通過里程累積計劃吸引和獎勵旅客,在里程累積計劃中,旅客出行時不同的艙位選擇會被賦予不同的里程累積系數(shù),不同艙位的里程累積系數(shù)事實上反映了不同艙位在航空公司收益中的重要性,因此,式(11)中艙位系數(shù)γc的選擇用航空公司對不同艙位的里程累積系數(shù)替代.式(11)中得到旅客u出行時的概率可用來評估旅客因其對艙位偏好所產(chǎn)生的價值.
截止調(diào)查前,安徽省普通高等學(xué)校大學(xué)生總?cè)藬?shù)約為萬.為了保證問卷的可靠性,取問卷調(diào)查置信水平為95%(相應(yīng)的),誤差值,概率值,此時樣本方差最大.計算得到.考慮到信息覆蓋度不足,假設(shè)問卷有效回收率為,因此,此時的樣本量為.最終發(fā)放600份問卷,實際回收有效樣本509份,回收率,其中,訂購過外賣的樣本有480份.
最終可得基于旅客出行意圖的航線潛在價值計算模型為
實驗數(shù)據(jù)集選取中國民航旅客訂座系統(tǒng)中2010年1月1日~2011年12月31日2年的旅客訂票數(shù)據(jù),其數(shù)據(jù)量是48.9 G.包含訂票記錄數(shù)102 305 312條,旅客96 298 451人,航線1 634條.數(shù)據(jù)內(nèi)容包含身份證號,性別,所選航空公司,航班號,艙位,起飛機場,到達機場等17個屬性.
旅客的偏好需要通過出行次數(shù)的累積來體現(xiàn).旅客出行次數(shù)偏少,則其對艙位的偏好模糊,出行意圖也會過于單一,不僅不會提高計算的準確性,還會導(dǎo)致出行意圖中航線分布不均勻.為更好地獲得旅客偏好及出行意圖,選擇年出行次數(shù)5次及以上的旅客作為基準實驗數(shù)據(jù),篩選后的數(shù)據(jù)如表1所示.
實驗中,對缺失艙位信息的旅客訂票數(shù)據(jù)以經(jīng)濟艙信息補全.航線信息則利用訂票數(shù)據(jù)中“起飛機場”“到達機場”兩個屬性來唯一標識,這兩個屬性在旅客訂票數(shù)據(jù)中都由國際航空運輸協(xié)會(International Air Transport Association,IATA)規(guī)定的機場“三字碼”來表示,于是,將旅客訂票數(shù)據(jù)所表示的出行記錄預(yù)處理為如圖1所示的短文本格式作為基于旅客偏好的航線潛在價值計算模型的輸入.該文本數(shù)據(jù)以行為單位,每行代表1名旅客的出行記錄.各行的第1列表示加密后的旅客身份證信息,具有唯一性,其余各列由旅客出行時選擇的起飛機場和到達機場的兩個“三字碼”拼接而成的航線組成.
表1 年出行次數(shù)5次及以上的數(shù)據(jù)集Table 15 times and above data sets for annual trips
圖2 基于旅客偏好的航線潛在價值計算模型的輸入樣例Fig.2 Input sample of route potential value calculation model based on passenger preference
由于旅客訂票數(shù)據(jù)量龐大,使用傳統(tǒng)數(shù)據(jù)庫進行操作經(jīng)常會出現(xiàn)內(nèi)存溢出的情況,且航線價值的計算也涉及大矩陣運算.為加快對旅客訂票數(shù)據(jù)的處理采用Hadoop并行平臺中的MapReduce技術(shù)[5-7]及Fast LDA[8]技術(shù)進行數(shù)據(jù)的預(yù)處理及大矩陣的運算.
雖然航線潛在價值的計算屬于回歸預(yù)測的范疇,但由于對航線價值定義并沒有一種統(tǒng)一的標準,所以不能單純的用均方誤差來評估模型的性能.因此,通過衡量航線價值排名的相似性來驗證基于旅客出行意圖的航線價值計算方法的有效性.而肯德爾相關(guān)系數(shù)(Kendall Rank Correlation Coefficient,KRCC)[9-10]與斯皮爾曼相關(guān)系數(shù)(Spermans Rank Correlation Coefficient,SRCC)[11-12]常用于評價兩個有序序列的相似性,所以將這兩個系數(shù)作為模型的評價指標.實驗的具體過程如下:
(1)利用2010年與2011年的數(shù)據(jù)分別計算出不同出行意圖數(shù)目下的PL2010(r)與PL2011(r)并對其降序排列.
(2)利用2010年與2011年的數(shù)據(jù)分別計算出P2010(r)與P2011(r)并對其降序排列.
(3)計算步驟(1)與步驟(2)中各自前N項(Top-N)的肯德爾相關(guān)系數(shù)與斯皮爾曼相關(guān)系數(shù).
模型中設(shè)置出行意圖的先驗分布參數(shù)α值為50/K,出行意圖中航線先驗分布參數(shù)β值為0.01,出行意圖的數(shù)目分別設(shè)置為10,30,50和100.
航線潛在價值的計算引入了出行意圖的概念,即假設(shè)旅客出行時會先確定出行意圖,并在確定出行意圖后選擇航線.因此,在某種層面來講也假設(shè)了不同航線會屬于不同的出行意圖.圖2給出了某些出行意圖下排名前10的航線序列(以2010年數(shù)據(jù)所得).
圖2由“意圖—航線”矩陣Φ轉(zhuǎn)置并濾除掉概率值后生成,并已按概率值的大小進行了排序.以列為單位,每列表示某種出行意圖下包含的航線.從聚類角度來看,如果不考慮各航線出現(xiàn)在意圖中的概率,基于旅客偏好的航線潛在價值計算模型中用Gibbs Sampling方法獲得的“意圖—航線”矩陣Φ將航線按照出行意圖進行了聚類.
圖3 某些出行意圖下前10的航線Fig.3 The first ten air-routes of some travel intentions
表2給出了P2010(r)與P2011(r)在不同Top-N中的相關(guān)系數(shù)τ與rs.表3則給出了不同出行意圖數(shù)目下PL2010(r)與PL2011(r)在不同Top-N中的相關(guān)系數(shù)τ與rs.
表2 P2010(r)與P2011(r)在不同Top-N中的相關(guān)系數(shù)τ與rsTable 2 Correlation coefficientτandrsofP2010(r)andP2011(r)in different Top-N
表3 不同出行意圖數(shù)目PL2010(r)與PL2011(r)在不同Top-N中相關(guān)系數(shù)τ與rsTable 3 The correlation coefficients of different travel intention numbersPL2010(r)andPL2011(r)in differentTop-Nareτandrs
從表2與表3的對比中可以看出,當出行意圖數(shù)目一定時,基于旅客偏好的航線潛在價值計算模型得到的PL2010(r)與PL2011(r)的相關(guān)系數(shù)τ和rs大多高于P2010(r)與P2011(r)之間的相關(guān)系數(shù).其原因在于計算P(r)時僅僅考慮旅客的出行次數(shù),而基于旅客偏好的航線潛在價值計算模型將旅客對艙位的偏好及旅客的出行行為進行了量化,并融入到航線的價值計算中,不僅考慮了出行次數(shù),還考慮了每名旅客的出行特征.所以基于旅客偏好的航線潛在價值計算模型具有比基準方法更好的性能.
從表3中可見,當出行意圖數(shù)目分別選取10,30,50時,PL2010(r)與PL2011(r)在Top-5中的相關(guān)系數(shù)τ及rs均為1.000,即基于旅客出行意圖的航線潛在價值計算方法在選取出行意圖數(shù)目分別為10,30,50時對排名前5的航線價值的挖掘準確率達到100%.其原因是基于旅客偏好的航線潛在價值計算模型將航線按照旅客的出行意圖進行了分類,而同一航線可能被賦予不同的出行意圖,在計算中被多次帶入公式運算,使得擁有多種出行意圖的航線具有較高的價值,從而驗證了該模型在挖掘高價值航線方面具有很大的優(yōu)勢.此外,當Top-N中N≥35時,相關(guān)系數(shù)τ和rs分別在0.700與0.850上下波動,這是因為N值的變動,會使2010年與2011年2年的航線價值序列中排序不一致的對數(shù)所占的比例有所變化,但會穩(wěn)定在一定范圍內(nèi),說明了本文方法性能的穩(wěn)定性.
從表3中還可見,當Top-N一定時,PL2010(r)與PL2011(r)的相關(guān)系數(shù)τ和rs在出行意圖數(shù)目為30時均取值最大,之后隨著出行意圖數(shù)目的增加會隨之下降,并趨于平穩(wěn).這是因為當出行意圖數(shù)目過大時,旅客對某些出行意圖的選擇會變成小概率事件,在該意圖下選擇航線時會出現(xiàn)概率趨近于0的情況,從而弱化了旅客能夠賦予航線的價值,從而表明旅客出行意圖數(shù)目的確定并不是越大越好.
針對民航航線網(wǎng)絡(luò)中航線價值計算問題提出了基于旅客出行偏好的航線潛在價值計算模型.該模型引入出行意圖的概念,將旅客的出行行為劃分為出行意圖的確定及意圖下航線的確定兩個階段,并結(jié)合旅客對艙位的偏好,從而達到計算航線潛在價值的目的.此外,出行意圖的引入,在計算航線潛在價值的同時,還可以將航線按照出行意圖進行聚類.
然而,基于旅客偏好的航線潛在價值計算模型在考慮旅客出行時,將其看作是相互獨立的,未考慮不同出行之間的相互聯(lián)系和依賴關(guān)系.然而旅客的實際出行中存在如購買往返機票或因無直達航線而需要轉(zhuǎn)機等多種相互關(guān)聯(lián)或依賴情形,這些情形中航線的關(guān)聯(lián)及依賴關(guān)系對旅客意圖的分布和意圖下航線的分布都會產(chǎn)生影響,從而影響到航線潛在價值的計算.今后的工作將會考慮對旅客出行時所選航線的關(guān)聯(lián)及依賴關(guān)系進行建模來計算航線的潛在價值,使航線潛在價值的計算更符合旅客的出行行為.