顧鳳云 曹睿
摘 要:酒店行業(yè)迅速發(fā)展的同時,存在專業(yè)人才短缺、缺乏成熟的管理模式和臨時取消率高等問題。本文以Kaggle酒店取消預訂數(shù)據(jù)集為研究對象,對原始數(shù)據(jù)進行預處理,再利用Lasso方法進行特征重要性排序,將特征提取后的數(shù)據(jù)作為RandomForest訓練模型的輸入進行預測,并且通過與XGBoost、LightGBM、DecisionTree等7種主流算法進行對比實驗,結(jié)果表明本文方案在accuracy、recall、f1_score、AUC四種性能指標上優(yōu)于對比模型。采用SHAP模型對已建立的價格模型進行解釋,同時通過XGBoost, RandomForest的特征重要性排序,識別影響取消預訂的關(guān)鍵因素是押金類型、預訂時長以及預定渠道。
關(guān)鍵詞:機器學習;取消預訂模型;酒店行業(yè);Randomforest模型;SHAP值
中圖分類號:TP391 ?文獻標識碼:A ?文章編號:1673-260X(2021)06-0015-08
隨著經(jīng)濟的快速發(fā)展和各種交流活動的日益頻繁,我國旅游行業(yè)與酒店行業(yè)得到了迅速發(fā)展。《2019年中國旅游業(yè)統(tǒng)計公報》顯示,到2019年末,全國星級飯店10130家,平均房價378.55元/間夜,同比增長6.3%;平均出租率56.7%,同比下降1.3%;每間可供出租客房收入214.65元/間夜,同比增長4.9%;每間客房平攤營業(yè)收入40424.51元/間,同比增長5.4%[1]。眾所周知,預訂是現(xiàn)代酒店管理中一個重要的環(huán)節(jié)。顧客提前預訂,是希望抵達酒店時就有滿足其要求的客房,其目的是便于顧客的行程安排[2]。隨著互聯(lián)網(wǎng)的普及,使得提前預訂更加便捷。但預訂好客房的顧客可能會到了規(guī)定的日期而沒有到店,或者臨時取消預訂,致使酒店預留的客房無法銷售而造成損失[3]。目前學術(shù)界對于酒店行業(yè)的關(guān)注主要集中在用戶行為[3-5]、競爭環(huán)境[6-8]、管理系統(tǒng)[9-11]、預訂價格[12,13]等方面,針對建立取消酒店預訂模型方面的相關(guān)研究相對較少。目前針對取消率及影響因素方面的研究,主要集中在交通[14,15]領(lǐng)域,缺乏針對酒店行業(yè)的相關(guān)研究。因此,在酒店行業(yè)專業(yè)人才短缺、缺乏成熟的管理模式、臨時取消率高等問題的背景下,亟須建立科學規(guī)范的預測模型,這對于規(guī)范并提高酒店的智能化管理水平、提高酒店入住率并增加酒店收益等方面,都具有重要的促進意義。
1 研究概述
本文的核心是利用RandomForest模型解決酒店行業(yè)中預訂取消的問題。熊偉以深圳大梅沙京基喜來登度假酒店為例對取消預訂的酒店顧客預訂行為進行了研究,結(jié)果顯示,整體上取消預訂的顧客以男性商務(wù)顧客居多。顧客大多為臨時的行程取消或更改而取消預訂,且性價比和顧客對酒店的信任度對此有一定影響[3]。龍凡認為我國經(jīng)濟型酒店還處于成長階段,市場競爭雖然還未達到激烈狀態(tài),但消費者人群已經(jīng)形成,并認可經(jīng)濟型酒店的存在,行業(yè)還有較大增長的潛力[6]。李昕提出了基于WLAN的酒店餐飲管理系統(tǒng)的設(shè)計方案,并通過對關(guān)鍵技術(shù)實現(xiàn)過程的具體描述,得出了嵌入式可視化軟件的理想設(shè)計模式[9]。李東娟借用配對樣本檢驗方法對我國酒店在線預訂價格競爭進行實證研究。結(jié)果表明,酒店官網(wǎng)銷售價格比相應的在線中介代理價格偏低,經(jīng)濟型酒店對中介代理的依賴程度比國內(nèi)其他類型酒店要低,其官網(wǎng)價格具有一定的市場競爭力[12]。針對取消預訂預測方面,研究者基于不同視角構(gòu)建了不同的預測模型進行了相關(guān)研究。劉玉潔基于貝葉斯網(wǎng)絡(luò)建立了延誤波及模型,探討了相關(guān)航班中,進港延誤和航班取消對離港延誤的影響。研究發(fā)現(xiàn),進港延誤對離港延誤的波及現(xiàn)象在不同情況下的程度有差異[13]。李純柱利用XGBoost算法對航班取消事件進行了預測。實驗結(jié)果表明XGBoost分類器的性能優(yōu)于基準模型,f1_score值為0.9695[14]。Agustin J提出一種僅使用13個獨立變量就可以預測酒店預訂取消的方法,除了采用遺傳算法優(yōu)化的人工神經(jīng)網(wǎng)絡(luò)外,還應用了機器學習技術(shù),實驗結(jié)果表明準確率高達98%[15]。Nuno Antonio將8家酒店的物業(yè)管理系統(tǒng)的數(shù)據(jù)與多個來源(天氣、假日、事件、社會聲譽和在線價格)的數(shù)據(jù)結(jié)合,并使用機器學習可解釋的算法開發(fā)預訂取消酒店的預測模型。研究結(jié)果顯示,在實際的生產(chǎn)環(huán)境中,由于使用這些模型而提高了預測準確性,可以使旅館經(jīng)營者減少取消的次數(shù),從而增加對需求管理決策的信心[16]。
在以上相關(guān)研究中,本文與Agustín J和Nuno Antonio的研究內(nèi)容較為接近,都是利用機器學習方法建立預測模型,但是本文與他們的研究不同之處在于Agustín J和Nuno Antonio采用的均為黑箱機器學習模型,這使得建立的預測模型缺乏可解釋性,為了解決這一問題,本文通過引入SHAP模型,能夠?qū)τ绊懭∠A訂的因素進行分析,為酒店行業(yè)改進服務(wù)質(zhì)量提供了決策參考。
2 模型與方法
2.1 問題分析
設(shè)X為酒店預訂特征集合(酒店類型、到達時間、入住人數(shù)、最終預訂狀態(tài)等信息),Y為是否取消,給定訓練數(shù)據(jù)集為D={(x1,y1),(x2,y2),…,(xs,ys)},其中xi=(xi(1),xi(2),…,xi(p))為輸入實例,p為特征個數(shù),i=1,2,…,s,s為樣本個數(shù)。將訓練樣本進行異常值處理、數(shù)據(jù)標準化等特征工程處理后,將樣本輸入到RandomForest模型中進行計算。隨機森林是基于Bagging框架下的決策樹模型,建立的是多個決策樹,即通過結(jié)合多個弱學習器,從而達到強學習器的效果[17]。隨機森林包含了很多樹,每棵樹給出分類結(jié)果,每棵樹都有生成規(guī)則。
(1)如果訓練集大小為N,對于每棵樹而言,隨機且有放回地從訓練中抽取N個訓練樣本,作為該樹的訓練集,重復K次,生成K組訓練樣本集。
(2)如果每個特征的樣本維度為M,指定一個常數(shù)m?塏M,隨機從M個特征中選取m個特征。
(3)利用m個特征對每棵樹盡最大可能的生長,并且沒有剪枝過程。
隨機森林的分類算法流程如圖1所示:
2.2 SHAP的原理
在樣本量足夠大的前提下,通過RandomForest算法可以訓練出預測精度較高的分類模型,但是RandomFoest與傳統(tǒng)的線性模型相比,在模型的可解釋性上,幾乎是一個黑箱模型。為了解決這個問題,本文采用SHAP值對模型中影響取消預訂的因素進行解釋分析。SHAP是由Lundberg和Lee[18]于2017年提出,用于增強XGBoost等模型的可解釋性。
假設(shè)第I個樣本為xi,第I個樣本的第j個特征為xij,模型對該樣本的預測值為yi,整個模型的基線為ybase,那么SHAP value服從以下等式:
yi=ybase+f(xi1)+f(xi2)+…+f(xip), ?(1)
其中f[(x)ij]為xij的SHAP值。RandomForest傳統(tǒng)的feature importance只能反映出特征的重要程度,但并不清楚該特征是如何影響預測結(jié)果的。SHAP value最大的優(yōu)勢是SHAP能反映出每一個樣本特征的影響力,而且還指出影響的正負性。
3 特征工程
3.1 數(shù)據(jù)概況
本文選取Kaggle競賽Hotel booking demand(https://www.kaggle.com/jessemostipak/hotel-booking-demand)作為研究的數(shù)據(jù)源,該數(shù)據(jù)集包括酒店的基本信息,其中是否取消預訂作為輸出標簽值。數(shù)據(jù)集總量為119390,特征總數(shù)為32。原數(shù)據(jù)集所含特征的均值和方差如表1所示。其部分特征如圖2所示,不論是城市酒店還是度假村,5月至9月是入住旺季(68.7%);城市酒店的取消預訂集中在4月至6月,而度假村在6月、8月及9月的取消次數(shù)較多。
3.2 特征工程
(1)異常值處理 預測建模需要對數(shù)據(jù)進行異常數(shù)據(jù)剔除和缺失數(shù)據(jù)處理,如圖3所示。在119390個初始樣本中,剔除lead_time大于500、stays_in_ weekend_nights大于6、stays_in_week_nights大于10、adults大于4、children大于8以及babies大于8的異常樣本,剩余118489個樣本。
(2)缺失值處理及數(shù)據(jù)編碼 缺失數(shù)據(jù)的處理按照特征的屬性區(qū)別對待,對children用眾數(shù)填充;對country采用字符串unknown填充;因company缺失90%,故選擇剔除該變量。對meal、market_segment、distribution_channel、reserved_room_ type、assigned_room_type、customer_type、reservation _status等特征進行獨熱編碼;對country、hotel采用標簽編碼。
(3)相關(guān)性分析 目標變量(is_canceled)與lead_time、required_car_parking_spaces、total_of_ special_requests、deposit_given等變量的相關(guān)系數(shù)較高,說明以上變量的變動可能對目標變量產(chǎn)生較大影響,如圖4所示。
(4)特征轉(zhuǎn)換 添加新變量family、deposit、total_customers以及total_nights。family的取值為:當adults大于0且children大于0時,取1,其他取0;deposit的取值為:當deposit_type為No Deposit且為Refundable時,取0,其他取1。
(5)Lasso特征選擇 在實際的工作中,Lasso的參數(shù)λ越大,參數(shù)的解越稀疏,選出的特征越少。本文采用交叉驗證方法計算模型的RMSE,然后選擇RMSE的極小值點,從而確定參數(shù)λ的值。特征的重要程度如圖5所示,最終選取特征為61個。
4 實驗結(jié)果及討論
4.1 算法評價指標及超參數(shù)配置
本文以accuracy(正確率)、precision(精度)、recall(召回率)、f1_score作為預測模型的評價函數(shù)。其計算公式如(2)-(5)。
首先介紹幾個常見的模型評價術(shù)語,假設(shè)分類目標只有兩類,計為正例(positive)和負例(negative)分別是:
(1)True positives(TP):被正確地劃分為正例的個數(shù),即實際為正例且被分類器劃分為正例的實例數(shù)。
(2)False positives(FP):被錯誤地劃分為正例的個數(shù),即實際為負例但被分類器劃分為正例的實例數(shù)。
(3)False negatives(FN):被錯誤地劃分為負例的個數(shù),即實際為正例但被分類器劃分為負例的實例數(shù)。
(4)True negatives(TN):被正確地劃分為負例的個數(shù),即實際為負例且被分類器劃分為負例的實例數(shù)。
正確率(accuracy) 正確率是最常見的評價指標,即被分對的樣本數(shù)除以所有的樣本數(shù),通常來說,正確率越高,分類效果越好。
精度(precision) 精度是精確性的度量,表示被分為正例的示例中實際為正例的比例。
召回率(recall) 召回率是覆蓋面的度量,度量有多個正例被分為正例。
f1-score是對精度和召回率的調(diào)和平均。
本文中所有對比算法的超參數(shù)配置如表2所示。
4.2 與其他主流機器學習模型的對比分析
8種算法的預測評價指標結(jié)果如表3所示。以RandomForest算法為例,將處理完畢后的數(shù)據(jù)以70%的訓練數(shù)據(jù),30%的測試數(shù)據(jù)作為數(shù)據(jù)切分方案,各算法超參數(shù)配置,最終利用70%的數(shù)據(jù)訓練得到模型,并在30%的驗證數(shù)據(jù)集上預測最終詳細結(jié)果。
從表3及圖6中的詳細數(shù)據(jù)可以看出,總體上8種算法的性能對比結(jié)果是:RandomForest效果最佳,precision值為0.884,recall值為0.798,f1得分為0.838,AUC值達到0.868。StochasticGradientDescent效果最差。其中,在precision指標上,隨機森林能夠達到0.884,其次是XGBoost,值為0.851。而邏輯回歸在precision指標上只達到了0.786。其他算法的precision值均在區(qū)間[0.80,0.87]內(nèi)。在recall指標上,RandomForest與其他8種算法之間的差距比較明顯,SVC的recall值只有0.506,而決策樹、RandomForest分別能夠達到0.800、0.798,其他算法的recall值均在區(qū)間[0.60,0.70]內(nèi)。在f1_score指標上,RandomForest的值可以達到0.838,而邏輯回歸以及StochasticGradientDescent的值只有0.697。其他7種算法的f1_score值均在區(qū)間[0.70,0.80]內(nèi)。在AUC指標上,RandomForest算法與其他算法之間的差距并不明顯,AUC值均在區(qū)間[0.75,0.88]內(nèi)。
綜上所述,RandomForest在3個評價指標上誤差都小于其他7個算法,預測效果最為理想。比較8個算法的預測效果可以看出:(1)在預測效果上,RandomForest比其他算法預測效果好,三個指標均為最優(yōu),這表明本文的指標體系是有效的,深入挖掘影響取消酒店預訂的因素可以更加準確地預測顧客是否會取消預訂。(2)基于非線性的XGBoost、LightGBM算法比線性回歸、決策樹的預測效果好,這表明數(shù)據(jù)集往往表現(xiàn)出復雜的非線性關(guān)系并含有一定程度的噪聲數(shù)據(jù),所以使用基于非線性關(guān)系的模型可以獲得較好的預測效果,但與此同時也會增大模型的復雜度。(3)基于集成方法的RandomForest、XGBoost算法預測效果較好,其原因在于RandomForest作為一種集成方法,其通過了結(jié)合多個弱學習器達到一個強學習器的效果。研究結(jié)果表明:在Lasso特征選擇的基礎(chǔ)上,通過RandomForest分類可以合理地預測顧客是否會取消酒店預訂,而且RandomForest方法在模型的推廣泛化上具有一定優(yōu)勢。
4.3 模型超參數(shù)調(diào)優(yōu)及模型收斂分析
Randomforest中的超參數(shù)總共有19個,主要分為Bagging的框架參數(shù)(如booster、oob_score等)、決策樹的參數(shù)(如max_features、max_depth等)。本文在參數(shù)調(diào)優(yōu)過程中采用網(wǎng)格參數(shù)搜索技術(shù)(GridSearchCV)并以accuracy為評價指標,以表現(xiàn)最優(yōu)的Randomforest模型為訓練集,選擇以n_estimators、max_depth、min_samples_split、min_samples_leaf四個對模型性能影響最大的參數(shù)為主,參數(shù)的搜索空間及第一輪調(diào)優(yōu)結(jié)果如表4所示。
(1)先確定n_estimators,把n_estimators設(shè)置成100,其他參數(shù)使用默認參數(shù),使用GridSearchCV函數(shù)進行網(wǎng)格搜索確定合適的n_estimators。(2)找到合適的迭代次數(shù)后使用GridSearchCV函數(shù)對模型的其他三個主要參數(shù)進行網(wǎng)格搜索自動尋優(yōu)。使用5折交叉驗證的方法來選擇參數(shù),即每次將訓練數(shù)據(jù)集分成5份,輪流將4份用于訓練集訓練剩下1份用于測試集測試,每次試驗都會得到相應的accuracy值,最后將5次測試分數(shù)的均值作為最后的accuracy值。參數(shù)最終選擇為n_estimators、max_depth、min_samples_split、min_samples_leaf的結(jié)果為:200、8、5、3。相比未調(diào)參的結(jié)果0.884(precision值),調(diào)參后為0.925(precision值),優(yōu)化效果比較顯著。
如圖7所示,Randomforest與其他模型學習曲線對比,其中圖7(a)-(d)分別表示Randomforest、DecisionTree、XGBoost以及LightGBM的學習曲線。從圖7中可以發(fā)現(xiàn)各算法的擬合效果相差較大,可以看到除DecisionTree、RandomForest外,其他兩種算法隨著樣本量的增加,模型都趨于逐步收斂,而DecisionTree、RandomForest的測試集與交叉驗證集性能存在較大差距。Randomforest、XGBoost、LightGBM分別在樣本量為30000時,模型就取得了較好擬合效果,并隨著樣本量的逐步增加,交叉驗證的性能也逐漸趨于穩(wěn)定。從擬合趨勢上看,隨著樣本量的不斷增大,XGBoost與LightGBM模型能夠達到更優(yōu)的擬合效果,但XGBoost在測試集上的穩(wěn)健性相比LightGBM更為出色。
4.4 基于SHAP的模型解釋分析
圖8顯示了整個模型的特征重要度,該圖根據(jù)要素對影響取消預訂的因素重要性對其進行排序。可以看到country(顧客來源)、total_of_special_requires(其他特殊需求數(shù))、deposit_given(押金類型)、required_car_parking_spaces(需要停車位數(shù))、market_segment_Online TA(網(wǎng)上預訂)、lead_time(提前預訂時長)、previous_cancellations(提前取消次數(shù))等特征的差異對模型的影響較顯著。整體來說,前20個特征對模型產(chǎn)生的正面影響的占多數(shù)。具體而言,country對模型產(chǎn)生的正面影響較大,即country值越大,SHAP value的值也越大,紅色區(qū)域集中于SHAP value大于0的部分,藍色區(qū)域集中在SHAP value小于0的部分;與之產(chǎn)生相同影響的時deposit_given,該值越大,SHAP value的值也越大。而total_of_special_requires(其他特殊需求數(shù))對模型產(chǎn)生的負面影響較大,即紅色區(qū)域聚集于SHAP value小于0的部分,藍色區(qū)域聚集于SHAP value大于0的部分,說明該值越大,SHAP value越小。
經(jīng)過XGBoost、RandomForest的訓練后,可以得到每個特征的重要性指標。表5為兩種算法特征重要性對比。
通過表5及圖9觀察發(fā)現(xiàn),經(jīng)過XGBoost、RandomForest訓練后,排名10的特征重要度并不完全相同。結(jié)合數(shù)據(jù)集的特征重要度排序,可以得出影響取消預訂的關(guān)鍵因素是deposit_type(押金類型)、country(客戶來源)、lead_time(提前預訂時長)、market_segment(預訂渠道)、adr(入住總?cè)藬?shù))以及reserved_room_type(預留房型)。具體而言,deposit_type若為No default(無保證金),取消預訂的概率越高是肯定的;若lead_time(提前預訂時長)越大,取消預訂的概率越高。取消的原因可能是顧客無法控制的,例如計劃變更、疾病、事故或天氣。然而,由于顧客的行為,取消也可能發(fā)生,例如找到價格更優(yōu)惠的酒店,找到位置更好或更理想的酒店,尋找一家服務(wù)設(shè)施更好的酒店。
5 結(jié)論
酒店行業(yè)發(fā)展迅速,研究者對其的關(guān)注主要集中在用戶行為、競爭環(huán)境、管理系統(tǒng)、預訂價格等方面,針對建立取消酒店預訂模型方面的相關(guān)研究相對較少,并且已有工作中采用的均為黑箱機器學習模型,缺乏模型的可解釋性。所以,本文以kaggle酒店取消預訂數(shù)據(jù)集為研究對象,研究了基于RandomForest算法對酒店預訂場景下預測是否取消的問題。首先,對原始數(shù)據(jù)進行預處理,再利用Lasso方法進行特征提取;其次,將特征提取后的數(shù)據(jù)作為RandomForest訓練模型的輸入進行預測;并且通過與XGBoost、LightGBM、DecisionTree、SVC、LogisticRegression、Adaboost以及SGD等7種主流算法對比實驗,證明了RandomForest算法的有效性。最后,采用SHAP模型對已建立的價格模型進行解釋,同時通過XGBoost, RandomForest的特征重要性排序,識別出影響取消預訂的關(guān)鍵因素是押金類型、預訂時長以及預定渠道。下一步工作可以考慮加入更多特征(如位置、天氣狀況、酒店星級、價格等),進一步提升模型的預測精度。
參考文獻:
〔1〕國家旅游局.2019年中國旅游業(yè)統(tǒng)計公報[EB/OL].https://www.sohu.com/a/403183779_168 029?_trans_=000014_bdss_dkygcbz,2020-06-20/2020-11-20.
〔2〕江浩.飯店預訂業(yè)務(wù)應更有作為[J].商業(yè)研究,2006,49(07):103-105.
〔3〕熊偉,藍文婷.基于no-show和取消預訂的酒店顧客預訂行為研究——以深圳大梅沙京基喜來登度假酒店為例[J].旅游研究,2012,4(03):51-59.
〔4〕孫文龍.一種基于用戶行為特征的個性化酒店推薦模型[J].電子世界,2014,36(24):469-469.
〔5〕Falk M, Vieru M J. Modelling the Cancellation Behaviour of Hotel Guests[J]. Social ence Electronic Publishing, 2018, 30(10):3100-3116.
〔6〕龍凡.我國經(jīng)濟型酒店行業(yè)競爭環(huán)境分析[J].商業(yè)經(jīng)濟研究,2008,27(012):101-103.
〔7〕馮小偉.激烈競爭環(huán)境下的經(jīng)濟型酒店創(chuàng)新經(jīng)營[J].河北聯(lián)合大學學報(社會科學版),2014,14(1):57-60.
〔8〕鄒林辰.基于SSM的酒店管理系統(tǒng)開發(fā)[J].科學技術(shù)創(chuàng)新,2020,24(32):55-56.
〔9〕李昕,孟祥福,劉玥.基于WLAN的酒店餐飲管理系統(tǒng)的實現(xiàn)[J].微計算機信息,2007,23(06):17-18,31.
〔10〕丁蕾錠,蘭海翔,盧涵宇,祁小軍,薛安琪.餐飲酒店信息管理系統(tǒng)設(shè)計與實現(xiàn)[J].電腦知識與技術(shù),2019,15(25):152-154.
〔11〕尚天成,吳雪,劉培紅,等.酒店客房價格影響因素研究進展[J].天津大學學報:社會科學版,2017,19(01):1-6.
〔12〕李東娟,熊勝緒.我國酒店在線預訂價格競爭的實證研究[J].旅游學刊,2011,26(12):37-41.
〔13〕劉玉潔,何丕廉,劉春波,等.基于貝葉斯網(wǎng)絡(luò)的航班延誤波及研究[J].計算機應用,2008,44(17):242-245.
〔14〕李純柱,劉博,盧婷婷.基于XGBoost算法的航班取消問題研究與預測分析[J].民航學報,2020, 4(05):117-122.
〔15〕Agustín J. Sánchez-Medina, Eleazar C-Sánchez. Using machine learning and big data for efficient forecasting of hotel booking cancellations[J]. International Journal of Hospitality Management, 2020, 89:102546.
〔16〕Nuno Antonio.Big Data in Hotel Revenue Management: Exploring Cancellation Drivers to Gain Insights Into Booking Cancellation Behavior[J].Cornell Hospitality Quarterly. 2019, 60(04):298-319.
〔17〕BREIMAN L. Random forests[J]. Machine Learning, 2001,45(01):5-32.
〔18〕Lundberg S M, Lee S I. A unified approach to interpreting model predictions[C]// Advances in neural information processing systems. 2017:4765-4774.