王洪建
(廈門航空公司,廈門 361006)
我國航空公司機(jī)票銷售渠道主要包括航空公司直銷、大型代理銷售、在線旅行社銷售和二、三級代理銷售,其中有超過90%的機(jī)票都是直接或間接通過大型機(jī)票代理銷售的[1]。隨著民航運輸市場及電子商務(wù)的蓬勃發(fā)展,C2B已成為航空公司銷售的主要途徑[2],在這種模式下,由于存在大量非透明的代理商之間的相互分級交易,使得航空公司逐漸失去對代理人的全面掌控能力,低買高賣、溢價銷售、捆綁銷售、惡意退票、違規(guī)占座、虛假廣告、無證銷售等亂象屢禁不止[3],嚴(yán)重破壞了航空運輸市場秩序,給航空公司造成巨大的經(jīng)濟(jì)和聲譽損失。基于物聯(lián)網(wǎng)及大數(shù)據(jù)的銷售模式是航空公司銷售模式轉(zhuǎn)變的必由之路[4],為此,航空公司必須實時動態(tài)分析掌握機(jī)票代理人的行為特征,并依據(jù)其特征制定不同的獎懲機(jī)制,以規(guī)范航空運輸秩序,維護(hù)公司利益?;诖髷?shù)據(jù)的用戶畫像為解決機(jī)票代理人行為特征分析提供了必要的技術(shù)途徑,用戶畫像已經(jīng)被廣泛應(yīng)用于學(xué)術(shù)資源分析、興趣推薦、惡意行為識別等諸多領(lǐng)域,并取得了可喜的成果[5]。
因此,本文擬基于大數(shù)據(jù)技術(shù)對機(jī)票代理人開展行為特征分析,幫助航空公司針對機(jī)票代理人的不同行為特征,采取不同的渠道政策,構(gòu)建C2B 模式下高效合理的機(jī)票銷售體系。主要研究工作包括數(shù)據(jù)分析與整理、代理人屬性重構(gòu)、代理人行為刻畫、結(jié)果分析四個主要步驟。
取某航空運輸市場91天的脫敏交易數(shù)據(jù),該數(shù)據(jù)記錄了航空公司、機(jī)票代理以及乘客之間的機(jī)票買賣情況,包含43家航空公司、7420家機(jī)票代理,以及一個PAX 實體(代表乘客),共包含5831365條交易記錄,數(shù)據(jù)結(jié)構(gòu)如表1所示。
表1 原始數(shù)據(jù)集表結(jié)構(gòu)解釋
由于代理人數(shù)據(jù)采集的困難性和不完整性,需要對原始數(shù)據(jù)進(jìn)行分析與整理。首先是缺失值記錄和異常數(shù)據(jù)剔除,通過統(tǒng)計發(fā)現(xiàn),有991 條記錄的buy_nbr 為空值,作為缺失記錄刪除。進(jìn)一步對原始數(shù)據(jù)的銷售額和銷售量進(jìn)行分位數(shù)間距值的統(tǒng)計,發(fā)現(xiàn)部分記錄日銷售量為107數(shù)量級,且有部分記錄交易額小于100,刪除此類數(shù)據(jù)共計17060條。
缺失記錄和異常數(shù)據(jù)剔除之后,需再次刪除對機(jī)票代理刻畫影響甚微的記錄,具體處理如下:首先逐天統(tǒng)計機(jī)票銷售總數(shù)和總金額,得到市場整體趨勢,然后分析航空公司、代理人之間的交易情況,分析發(fā)現(xiàn):整體趨勢和航空公司個體的銷售特征都呈現(xiàn)出周期性變化的規(guī)律,且絕大多數(shù)航空公司個體的趨勢和整體趨勢趨于一致,同時還發(fā)現(xiàn)代理人的買入賣出有明顯的偏好,存在偏好從其他代理購入而非航空公司購入的二級、三級代理。依據(jù)上面的整體趨勢分析結(jié)果,進(jìn)一步對每家航空公司和每個代理人分別進(jìn)行分析,對和整體銷售趨勢一致的航空公司及代理人交易數(shù)據(jù)重點關(guān)注,對部分交易量明顯極少的航空公司及代理人數(shù)據(jù),予以剔除。
為了合理刻畫代理人特性,需依據(jù)原始數(shù)據(jù)進(jìn)行代理人屬性重構(gòu),依據(jù)表1 的原始數(shù)據(jù),可得到表2 重構(gòu)后的代理人屬性,該屬性分兩級指標(biāo),其中一級指標(biāo)包含活躍度、市場份額、買賣交易偏好共3 項指標(biāo),2 級指標(biāo)包含18 項指標(biāo)。屬性重構(gòu)主要采用下述3種方法。
表2 代理人屬性表
(1)累加求和法。將不同的特征值累加求和,會得到一個新的特征值。例如,在某一天,某代理人從其它代理人及航空公司買入,供給方數(shù)量為該代理人當(dāng)天的入度,代理人賣票給其他代理人或乘客的機(jī)票數(shù)量,可以作為該代理人當(dāng)天的出度,出度和入度求和得到該代理人的活躍度。
(2)對比分析法。代理人買入偏好主要考查代理人機(jī)票來源情況,定義為代理人從航空公司和其它代理人購入機(jī)票數(shù)量之比,同理可定義代理人賣出偏好。
(3)市場占比法。通過計算代理人交易總金額與整個市場交易總金額的占比,可以得出代理人的市場份額,對于衡量代理人的市場地位具有重要意義。在完成代理人屬性重構(gòu)之后,按照(1)式將重構(gòu)后的屬性歸一化為均值為0,方差為1的數(shù)據(jù),其中μ為屬性均值,σ為屬性方差。
在完成基于原始數(shù)據(jù)的代理人屬性重構(gòu)之后,需對代理人行為進(jìn)行特征刻畫。目前針對航空代理人進(jìn)行特征刻畫,尚未見相關(guān)文獻(xiàn),但基于用戶行為的推薦算法[6],和本問題有一定的相似性,且本問題本質(zhì)上屬于一個分類問題,聚類算法是諸多推薦算法中進(jìn)行用戶分類刻畫常用的一類方法。由于聚類算法對空間維數(shù)龐大、數(shù)據(jù)存在一定程度不完備性的分類問題,效果明顯,因此代理人行為刻畫問題可采用聚類算法。Canopy-Kmeans 聚類算法是經(jīng)典K-Means 算法的改進(jìn), 該算法解決了K-Means 算法初始值大小及位置的選取以及聚類個數(shù)難以確定的問題[7-8],恰好契合代理人行為刻畫的數(shù)據(jù)基礎(chǔ)及目標(biāo)要求,因此,本文采用Canopy-Kmeans 聚類算法進(jìn)行代理人行為刻畫。
Canopy-Kmeans 聚類算法通過Canopy 算法進(jìn)行粗聚類,得到類簇的個數(shù),以此初始化KMeans聚類算法的K值,迭代初始化質(zhì)心,選取誤差平方和最小的聚類結(jié)果。針對代理人行為刻畫的Canopy-KMeans聚類算法流程如圖1所示。
圖1 針對代理人行為刻畫的Canopy-KMeans算法流程
其中,聚類輸入為表2 所有一級和二級指標(biāo)構(gòu)成的行向量,記為Xi=(xi1,xi2…xiM),其中M為指標(biāo)總數(shù),i= 1,2,…,N,N為樣本總數(shù)。同時,記錄聚類質(zhì)心為Ck=(ck1,ck2…ckm), 其中k=1,2,…,K,K為聚類中心總數(shù),實際計算中聚類中心數(shù)K是依據(jù)Canopy算法動態(tài)確定的。
聚類質(zhì)心的計算為簇中所有點的均值,樣本與聚類中心的相似度采用歐氏距離,如式(2)所示,KMeans 聚類算法的優(yōu)化目標(biāo)函數(shù)如式(3)所示。
Canopy-Kmeans 聚類算法最終將代理人劃分為6 類,其分析對比如圖2—圖5 所示。從圖2 可見,3、4 類代理人數(shù)量明顯偏小,其余各類代理人數(shù)量較大但相差較小。從圖3 可見,3、4 類代理人活躍度較其它類別代理人有顯著差異。從圖4可見,第3類代理人市場份額顯著高于其它,第4 類代理人明顯高于比第3 類之外的其它代理人。圖5 給出了每類代理人買入航空公司、機(jī)票代理占比以及賣給機(jī)票代理、乘客占比的情況。從代理人的買入賣出偏好看,1 類代理人幾乎只從航空公司買票然后直接賣給乘客,幾乎不與其它代理人交易;2 類代理人主要從其它代理人買票然后賣給乘客,幾乎不直接從航空公司買票,且不賣給其他代理人;3 類代理人主要將機(jī)票賣給乘客,買入方面沒有明顯的偏好。4 類代理人主要從航空公司買票,也會從其他代理人買入一定比例的機(jī)票,賣給乘客的比例稍大于賣給其它代理人的比例。5 類代理人主要將機(jī)票賣給乘客,買入方面沒有特別的偏好。6 類代理人主要從航空公司買入機(jī)票然后出售給其他代理人。
圖2 各類代理人數(shù)量對比
圖3 各類代理人活躍度對比
圖4 各類代理人市場份額對比
圖5 各類代理人買入賣出偏好對比
綜合上述分析可推測,1 類代理人為差旅管理公司,2類代理人為小型機(jī)票代理,3類代理公司為大型旅行社,4 類代理公司為大型機(jī)票代理,5類代理人偏好直銷的中型機(jī)票代理、6類代理人為偏好分銷的中型代理。經(jīng)代理人實際身份核驗,結(jié)果符合實際情況,如表3所示。
表3 各類別代理特征描述及特性刻畫
從聚類結(jié)果中可以看出,機(jī)票代理人明顯分為大、中、小型代理人,不同規(guī)模的代理人機(jī)票買賣偏好不同,比如大型機(jī)票代理偏好直接從航空公司買入機(jī)票;并且可以區(qū)分出差旅管理公司、旅行社等經(jīng)營模式不同的機(jī)票代理人。
為了進(jìn)一步分析代理人行為特征,不失一般性地選擇O160 和O5234 兩個代理人,對其連續(xù)91 天的銷售特征與類別變化進(jìn)行分析,如圖6、圖7所示。
圖6 代理O160銷售情況與所屬類別變化分析
圖7 代理O5234銷售情況與所屬類別變化分析
從圖6可見,代理O160在60天之前,一直屬于3 類代理人,可能是某大型旅行社,但是從第60 天之后,其銷售趨勢明顯下降,具體表現(xiàn)為O160從其他代理買入的機(jī)票占比急劇下降,買入
度明顯降低,銷售額也明顯降低,所屬類別也發(fā)生了變化,不再屬于3類代理。
從圖7可見,代理O5234的整體銷售趨勢比較平穩(wěn),一直屬于3類代理人,從60天開始,也出現(xiàn)了類似于O160的變化趨勢,從航空公司買入機(jī)票的數(shù)量逐步提升,出入度、市場份額無明顯變化。
從O160 與O5234 交易變化趨勢中可以看出,O160 明顯依賴于其他代理,市場應(yīng)變能力不強(qiáng),當(dāng)市場環(huán)境發(fā)生變化時,市場地位明顯降低。而O5234 在市場環(huán)境發(fā)生變化后,逐步提升從航空公司買入機(jī)票的比例,穩(wěn)居第3類代理的位置。
從代理人銷售趨勢與所屬類別變化分析中可以看出,代理人銷售趨勢基本與所屬類別變化趨勢一致,這驗證了Canopy-KMeans 聚類算法應(yīng)用于代理人行為特征刻畫的準(zhǔn)確性。
本文在分析國內(nèi)代理人實際銷售數(shù)據(jù)的基礎(chǔ)上,采用累加求和、對比分析、市場占比等方法重組生成了代理人活躍度、市場份額、買入賣出偏好等3 大類18 小類特征屬性,進(jìn)一步提出了一種基于Canopy-KMeans 聚類算法的機(jī)票代理人行為刻畫算法,將代理人分為6 大類,最后的實證分析結(jié)果驗證了基于大數(shù)據(jù)分析代理人行為刻畫算法的正確性和有效性。其分析方法和結(jié)論有助于航空公司有針對性地采用不同的渠道策略、規(guī)范機(jī)票銷售市場行為,具備現(xiàn)實的指導(dǎo)意義。