楊 琳,白 釗,寇勇剛
(1.中國(guó)民用航空飛行學(xué)院機(jī)場(chǎng)工程與運(yùn)輸管理學(xué)院,四川 廣漢 618307;2.深聯(lián)公務(wù)航空有限公司,廣東 深圳 518000)
從近幾年民航局發(fā)布的數(shù)據(jù)來看,航空公司客戶流失率每年都高達(dá)30%,而且還在持續(xù)增長(zhǎng),導(dǎo)致航空公司的市場(chǎng)占有率降低,收益也受到影響。航空公司為了保有其在市場(chǎng)中的占有率,過去采取的策略是通過打價(jià)格戰(zhàn)的方式來吸引新客戶,不僅耗費(fèi)了企業(yè)的運(yùn)營(yíng)成本,還忽視了對(duì)存量客戶必要的關(guān)懷及維護(hù)。以往研究表明,開發(fā)新客戶的成本是維護(hù)現(xiàn)有客戶成本的5~6倍[1],另一方面,流失的成本對(duì)航空公司也構(gòu)成了巨大的利益損失。因此,面對(duì)客戶流失產(chǎn)生的負(fù)面影響,維系現(xiàn)有客戶比開發(fā)新客戶更有效。企業(yè)不能再僅僅是開發(fā)新客戶,也要留意對(duì)現(xiàn)有客戶的關(guān)心及維護(hù),提升現(xiàn)有客戶的忠誠度,這樣才能持續(xù)提高企業(yè)的效益。由于航空行業(yè)存在特殊性,消費(fèi)的終止不能夠完全地定義航空公司客戶的流失,航空客戶流失的定義應(yīng)該更廣泛。因此,怎樣將客戶流失率降低成為航空公司管理的重中之重。應(yīng)維云[2]將隨機(jī)森林方法用于銀行的客戶流失預(yù)測(cè)中,證明算法比傳統(tǒng)的預(yù)測(cè)算法的精度要高。丁君美等人[3]將改進(jìn)的隨機(jī)森林算法用于電信業(yè)的客戶流失預(yù)測(cè)中,證明有更高的精度。崔亞琦[4]基于C5.0算法對(duì)航空客戶進(jìn)行流失分析,得到較好的準(zhǔn)確性和預(yù)測(cè)性。但國(guó)內(nèi)尚未有學(xué)者將隨機(jī)森林算法應(yīng)用于航空客戶的流失預(yù)測(cè)中。本文將RFM模型與隨機(jī)森林算法相結(jié)合,用于客戶流失率預(yù)測(cè),并將隨機(jī)森林算法與其他算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果顯示這一模型用于航空客戶流失率的預(yù)測(cè)中是有效的。最后將流失的客戶進(jìn)行分類,得出客戶流失的原因,為民航企業(yè)挽留客戶提供可靠的依據(jù)。
RFM模型是在不同的客戶行為的條件下,對(duì)客戶價(jià)值評(píng)估所應(yīng)用的模型中最廣泛的一種。RFM模型通常定義的3個(gè)指標(biāo)是消費(fèi)時(shí)間(Recency)、消費(fèi)頻率(Frequency)、消費(fèi)金額(Monetary),并用這3項(xiàng)指標(biāo)來量化客戶價(jià)值[5-6]。以客戶的行為為依據(jù)來判斷該客戶為企業(yè)所帶來的實(shí)際價(jià)值,以動(dòng)態(tài)的方式顯示一個(gè)客戶的全部輪廓[7]。該民航企業(yè)的RFM模型滿足如下假設(shè):近期購買過機(jī)票的客戶再次為企業(yè)創(chuàng)造價(jià)值的概率大于近期沒有購買過機(jī)票的客戶,對(duì)企業(yè)提供即時(shí)的商品或是服務(wù)的反應(yīng)程度也更靈敏;近期乘坐飛機(jī)次數(shù)高的客戶為企業(yè)再次創(chuàng)造價(jià)值的概率高于近期乘坐飛機(jī)次數(shù)低的客戶,消費(fèi)頻率高的客戶忠誠度也更高,通過增加顧客的消費(fèi)次數(shù)來降低競(jìng)爭(zhēng)對(duì)手的市場(chǎng)占有率;由于消費(fèi)金額在民航企業(yè)的直接體現(xiàn)為飛機(jī)總里程,所以飛機(jī)總里程數(shù)較高的客戶再次為企業(yè)創(chuàng)造價(jià)值的可能性較高[8-9]。因?yàn)楹娇展镜钠眱r(jià)受到飛行距離和艙位不同等級(jí)的影響,同樣的票價(jià)對(duì)航空公司的價(jià)值有可能不同。再者,航空公司會(huì)員的入會(huì)時(shí)間長(zhǎng)短也會(huì)在客戶價(jià)值中產(chǎn)生一定的影響。由于航空客戶的消費(fèi)金額受飛機(jī)里程、促銷活動(dòng)等多種不同因素的影響,在同樣的消費(fèi)金額下不同的航空客戶對(duì)航空公司的價(jià)值是不同的,因此傳統(tǒng)RFM模型的消費(fèi)金額這個(gè)指標(biāo)用于航空公司客戶價(jià)值分析并不適合[10]。本文基于傳統(tǒng)意義上的RFM指標(biāo),將航空客戶在觀測(cè)窗口內(nèi)的平均折扣系數(shù)C指標(biāo)代替原有模型中的消費(fèi)金額M,由于航空公司的會(huì)員機(jī)制,入會(huì)時(shí)間的長(zhǎng)短也會(huì)在客戶價(jià)值中產(chǎn)生一定的影響,所以在傳統(tǒng)的RFM模型中增加了客戶入會(huì)的時(shí)間長(zhǎng)度L,作為客戶分類的另一分類指標(biāo)。最終,本文確定了民航企業(yè)的RFM模型的5大指標(biāo),分別為:L(旅客入會(huì)的時(shí)間長(zhǎng)短/日)、R(客戶最后一次的消費(fèi)時(shí)間至截止統(tǒng)計(jì)數(shù)據(jù)的時(shí)間間隔/日)、F(特定時(shí)間內(nèi)旅客的飛行次數(shù)/次)、M(一定時(shí)間內(nèi)積累的飛行里程/km)、C(艙位所對(duì)應(yīng)的平均折扣),利用隨機(jī)森林算法進(jìn)行客戶流失預(yù)測(cè)分析。
隨機(jī)森林是將多棵樹集成的一種算法,決策樹為隨機(jī)森林的基本單元,而它的本質(zhì)是集成學(xué)習(xí)的方法。集成學(xué)習(xí)方法屬于機(jī)器學(xué)習(xí)的一大分支[11],多應(yīng)用在數(shù)據(jù)有缺失、空白或挖掘其他數(shù)據(jù)價(jià)值時(shí),在預(yù)測(cè)或降低客戶流失率中該算法的適用性及優(yōu)越性都比一般的傳統(tǒng)算法更好[12]。隨機(jī)森林采用從N個(gè)樣本中允許重復(fù)抽取N個(gè)樣本生成的非剪枝的決策樹模型的集合[13]。從所有屬性(所有屬性個(gè)數(shù)為p)中隨機(jī)選擇m(m可設(shè)為p,或用交叉驗(yàn)證選擇m的大小)個(gè)屬性生成每棵樹的每個(gè)節(jié)點(diǎn),劃分信息增益最大的屬性,從而得到非剪枝的CART決策樹(分類回歸決策樹)[14-16]。按上述構(gòu)建方法,構(gòu)造k顆樹,將決策樹集中在一起生成隨機(jī)森林,將隨機(jī)森林的分類結(jié)果進(jìn)行整合后輸出客戶流失概率。由于先用隨機(jī)方法抽取訓(xùn)練樣本,再隨機(jī)選擇m個(gè)分類屬性,隨機(jī)森林不會(huì)產(chǎn)生過擬合現(xiàn)象[17-18]。
隨機(jī)森林bagging的算法過程如下:
1)采用bootstraping方法(自助法)在最初樣本集中隨機(jī)抽取n個(gè)訓(xùn)練樣本,通過k輪抽取得到k個(gè)訓(xùn)練集。其中k個(gè)訓(xùn)練集之間的關(guān)系是相互獨(dú)立的,元素可以有重復(fù)[19]。
2)在k個(gè)訓(xùn)練集中訓(xùn)練k個(gè)模型,一般這個(gè)模型為CART算法分類決策樹。
3)k個(gè)模型產(chǎn)生的結(jié)果,得出最終可能的概率。
劃分屬性為s,劃分值為v,劃分后的節(jié)點(diǎn)為t,左節(jié)點(diǎn)s (1) 采用不同屬性劃分信息增益得到的Gini值增益為: (2) 其中,給定節(jié)點(diǎn)的Gini值為Gini(·),與子女節(jié)點(diǎn)相關(guān)聯(lián)的記錄個(gè)數(shù)為父節(jié)點(diǎn)的記錄總數(shù),記為n,Gini值最大的劃分為最好的劃分[21]。式(2)計(jì)算增益時(shí)每個(gè)Gini(parent)值都一樣,因此不予討論,只對(duì)比求和項(xiàng),用Δ表示如下: (3) 將式(1)代入式(3)得: 根據(jù)計(jì)算得到的Δ作為劃分子節(jié)點(diǎn)的依據(jù),由此生成一顆決策樹。 本文從某航空公司的民航訂票系統(tǒng)中提取了12110名會(huì)員從2019年1月1日至2019年6月30日半年間的訂票記錄,其中包含會(huì)員編號(hào)、性別、年齡、會(huì)員卡級(jí)別、起飛城市、到達(dá)城市、艙位等級(jí)、票價(jià)、折扣、入會(huì)時(shí)間等數(shù)據(jù)。 由于Excel對(duì)抽取量較大的數(shù)據(jù)處理起來較為困難,本文利用Spss數(shù)據(jù)處理軟件對(duì)數(shù)據(jù)量較大的數(shù)據(jù)集進(jìn)行預(yù)先處理,統(tǒng)計(jì)計(jì)算所需的指標(biāo)數(shù)據(jù),并按照常旅客的會(huì)員編號(hào)進(jìn)行歸類。整理所得的具體數(shù)據(jù)字段如表1所示。 表1 實(shí)證分析數(shù)據(jù)字段 本文的數(shù)據(jù)以2019年6月30日為結(jié)束時(shí)間,選取寬度為半年的時(shí)間段(2019年1月1日至2019年6月30日),作為觀測(cè)窗口,形成最終的數(shù)據(jù)集,數(shù)據(jù)集包含了抽取觀測(cè)窗口內(nèi)的所有常旅客的詳細(xì)數(shù)據(jù)。數(shù)據(jù)清理主要包含丟棄票價(jià)為空的數(shù)據(jù);丟棄票價(jià)為0、平均折扣率為0、總飛行公里數(shù)為0的數(shù)據(jù)。清理后的有效數(shù)據(jù)為10024條。對(duì)應(yīng)改進(jìn)的RFM模型中的5個(gè)指標(biāo)L、R、F、M、C分別為:L=LODA_TIME-FPP_DATE(數(shù)據(jù)獲取截止日期-客戶入會(huì)日期)、R=LOAD_TIME-LAST_FLIGHT_DAY(數(shù)據(jù)獲取截止日期-最后一次乘機(jī)時(shí)間)、F=FLIGHT_COUNT(觀測(cè)窗口內(nèi)的乘機(jī)次數(shù))、M=SEG_KM_SUM(觀測(cè)窗口的總飛行里程)、C=AVG_DISCOUNT(平均折扣率)。 其中已知已流失的客戶數(shù)量為3276個(gè),未流失的客戶數(shù)量為6748個(gè),該航空公司已流失的客戶達(dá)到了32.7%。本次研究將處理好的數(shù)據(jù)隨機(jī)拆分為2個(gè)部分,包括用于訓(xùn)練模型的數(shù)據(jù)為70%,用于驗(yàn)證模型的數(shù)據(jù)為30%。表2為部分處理后的數(shù)據(jù)。 表2 客戶信息 本實(shí)驗(yàn)利用十折交叉驗(yàn)證法,其中指標(biāo)選擇為旅客乘機(jī)的平均折扣率、總飛行里程、半年內(nèi)的乘機(jī)次數(shù)、入會(huì)的時(shí)間長(zhǎng)、最后一次乘機(jī)時(shí)間距獲取數(shù)據(jù)截止日期的時(shí)長(zhǎng)。對(duì)有效數(shù)據(jù)進(jìn)行預(yù)處理后,采用隨機(jī)森林屬性檢測(cè)方法對(duì)數(shù)據(jù)進(jìn)行分析,通過參數(shù)調(diào)試,確定mtry為2,Ntree為820為最優(yōu)參數(shù),使用ROC曲線以及AUC的值評(píng)估模型的性能。本實(shí)驗(yàn)結(jié)果的AUC值為0.920,同時(shí)得出MDA(Mean Decrease Accuracy)值和MDG(Mean Decrease Gini)值如表3所示,ROC_AUC曲線如圖1所示。 表3 基于改進(jìn)RFM模型隨機(jī)森林重要性檢測(cè)結(jié)果 圖1 ROC_AUC曲線 對(duì)客戶流失進(jìn)行預(yù)測(cè)的其他方法也有很多,為了驗(yàn)證本文算法的有效性,本文將隨機(jī)森林算法與邏輯回歸、人工神經(jīng)網(wǎng)絡(luò)、CART決策樹、ID3算法、C5.0算法等算法進(jìn)行比較,結(jié)果如表4所示。 表4 不同算法模型表現(xiàn) 由表4可知,隨機(jī)森林的ROC_AUC的得分最高,為0.92,相較于邏輯回歸、人工神經(jīng)網(wǎng)絡(luò)算法、ID3算法以及C5.0算法都提升不少,并且準(zhǔn)確率也達(dá)到6種方法中的最高值87.0%,模型的評(píng)價(jià)較好,可滿足流失客戶預(yù)測(cè)的要求。 隨機(jī)森林中的平均降低精度(Mean Decrease Accuracy)和基尼指數(shù)(Mean Decrease Gini)是衡量變量的2個(gè)最重要的指標(biāo)[22-23],若數(shù)值越大,變量越重要。對(duì)流失客戶的5個(gè)指標(biāo)進(jìn)行重要性檢測(cè),得到的重要性可視化結(jié)果如圖2所示。 圖2 重要性可視化 從平均降低精度與基尼指數(shù)來看,在流失客戶中,最重要的因素為飛行總里程數(shù),其次為最后一次乘機(jī)時(shí)間距離觀測(cè)窗口結(jié)束的時(shí)長(zhǎng)、平均折扣率。平均降低精度中影響最低的因素為會(huì)員長(zhǎng)度,其次為飛行次數(shù);基尼指數(shù)中影響最低的因素為飛行次數(shù),其次為會(huì)員的長(zhǎng)度。 根據(jù)對(duì)平均降低精度與基尼指數(shù)進(jìn)行分析后,得出影響客戶流失較為重要的因素為飛行總里程數(shù),最后一次乘機(jī)時(shí)間距離觀測(cè)窗口結(jié)束的時(shí)長(zhǎng)以及平均折扣率,影響較低的因素為飛行次數(shù)以及會(huì)員的長(zhǎng)度。 將流失客戶的數(shù)據(jù)進(jìn)行歸一化處理,并利用K-means算法對(duì)已流失客戶的L、R、F、M、C這5個(gè)指標(biāo)進(jìn)行分析,通過肘部法確定了最佳的聚類個(gè)數(shù)為4個(gè)??蛻舴诸惖慕Y(jié)果如表5所示??蛻籼卣骼走_(dá)圖如圖3所示。 表5 客戶分類表 圖3 客戶特征雷達(dá)圖 從分類結(jié)果可知,第2類流失客戶群與第4類流失客戶群所占的人數(shù)較多,從特征雷達(dá)圖中可以看出,第2類流失客戶群入會(huì)時(shí)間較短,最后一次乘機(jī)時(shí)間距離觀測(cè)窗口結(jié)束時(shí)長(zhǎng)較長(zhǎng),而飛行總里程、平均折扣率、與飛行次數(shù)都較少,說明這類客戶屬于沖動(dòng)消費(fèi)型客戶,對(duì)于這類客戶航空公司應(yīng)該進(jìn)一步了解客戶的需求,推出一些折扣機(jī)票吸引這些客戶回頭進(jìn)行多次消費(fèi)。第4類流失客戶群入會(huì)時(shí)間較長(zhǎng),但最后一次乘機(jī)時(shí)間距離觀測(cè)窗口結(jié)束時(shí)長(zhǎng)也較長(zhǎng),飛行次數(shù)、飛行總里程數(shù)及平均折扣率都較低,這些客戶已經(jīng)長(zhǎng)時(shí)間沒有選擇過該航空公司的產(chǎn)品以及服務(wù),對(duì)于這些有偏好基礎(chǔ)的客戶,可以向其提供折扣力度較大的機(jī)票,促使這類客戶在本公司消費(fèi)或在合作伙伴處消費(fèi),達(dá)到與合作伙伴互利共贏的目的,同時(shí)也能挽回已流失的客戶。 本文利用某航空公司的客戶數(shù)據(jù)實(shí)現(xiàn)流失客戶的預(yù)測(cè)。將不同的客戶流失預(yù)測(cè)模型表現(xiàn)進(jìn)行對(duì)比與分析,提出了在RFM模型的基礎(chǔ)上使用隨機(jī)森林算法,與一般的隨機(jī)森林模型對(duì)比,基于RFM模型的隨機(jī)森林算法擁有數(shù)據(jù)處理耗時(shí)短,可篩選出有意義的評(píng)價(jià)指標(biāo),算法速度快、效率高、準(zhǔn)確度高等優(yōu)點(diǎn),而民航客戶數(shù)據(jù)往往具有變量多、噪聲復(fù)雜且數(shù)據(jù)容易出現(xiàn)缺失與空白等特點(diǎn),使用隨機(jī)森林算法的預(yù)測(cè)模型,對(duì)民航客戶流失預(yù)測(cè)的實(shí)際應(yīng)用參考價(jià)值較大。對(duì)已流失的客戶進(jìn)行聚類分析,為航空公司挽回客戶提供了相對(duì)應(yīng)的策略。 本文的不足在于航空客戶數(shù)據(jù)覆蓋范圍具有一定局限性,用于實(shí)證分析的數(shù)據(jù)相對(duì)于現(xiàn)在的民航客戶數(shù)據(jù)還較少。并且,雖然在RFM模型的基礎(chǔ)上使用隨機(jī)森林算法的客戶流失預(yù)測(cè)模型在預(yù)測(cè)效果上有一定提升,耗時(shí)也相對(duì)較短,但準(zhǔn)確率以及精度還有待提升,可考慮將隨機(jī)森林算法與其他不同模型進(jìn)行融合,使模型得到更好的評(píng)價(jià)。3 基于改進(jìn)RFM模型隨機(jī)森林實(shí)證分析
3.1 數(shù)據(jù)獲取
3.2 數(shù)據(jù)預(yù)處理
3.3 隨機(jī)森林方法的實(shí)現(xiàn)
3.4 客戶流失的重要性分析
3.5 結(jié)果分析及建議
4 結(jié)束語