徐松華,魯婉婷
(武漢商學院 武漢旅游研究院,湖北 武漢,430056)
自2013年以來,在中國經(jīng)濟增速放緩和酒店消費逐漸回歸“社會理性”的大背景下,國內酒店尤其是高端酒店遭遇經(jīng)營“寒潮”,部分高檔酒店收入大幅下滑,經(jīng)營困難。2014年“中國五星級酒店品牌的現(xiàn)狀及發(fā)展趨勢”高峰論壇提供的數(shù)據(jù)顯示,2013年國內五星級酒店營業(yè)額普遍下降三成以上。作為酒店經(jīng)營的重要指標,客人住宿時間在一定程度上反映了酒店的吸引力以及客人對酒店的整體滿意度,也直接決定了客人在酒店入住期間的餐飲、住宿等消費支出。
當前關于酒店住宿時間的研究,國內關注的焦點集中在“住宿時間結算”的問題上,對酒店客人住宿時間的分布特征及影響因素的研究還不多見。酒店客人住宿時間是一個持續(xù)時間型數(shù)據(jù),具有生存數(shù)據(jù)的基本特征。一是客人住宿時間經(jīng)常以入住天數(shù)來統(tǒng)計,是一個非負的變量;二是在隨訪期內,部分客人沒有出現(xiàn)“結賬退房”失效事件,即存在刪失數(shù)據(jù)。因此,適合應用生存分析模型對其進行研究。
生存分析法是研究所關注事件在什么時間發(fā)生的一種事件數(shù)據(jù)分析方法,是一種既考慮結果又考慮隨訪時間的處理生存數(shù)據(jù)的方法。生存數(shù)據(jù)包含生存時間、觀測結果以及相關因素。其中生存時間是一個非負變量,應用經(jīng)典統(tǒng)計工具如線性回歸模型會導致有偏的估計,因而并不適宜做生存時間的模擬;同時,生存數(shù)據(jù)中一定刪失數(shù)據(jù)的存在,嚴重違反傳統(tǒng)統(tǒng)計模型的假設,也會造成顯著的偏誤[1]。HELSEN等[2]指出, 生存分析方法在處理持續(xù)時間型數(shù)據(jù)時具有優(yōu)越性,尤其是在處理刪失數(shù)據(jù)時更具有無法替代的作用[3],最近幾年國內外開始將之應用于旅游研究中來分析游客停留時間問題[4-7]。生存分析法主要基于以下基本原理。
1.生存函數(shù)(Survival Function)是反映個體生存時間超過時間t的概率,記做S(t)。若無刪失數(shù)據(jù),則S(t)=P(T≥t)=過了t時刻仍存活的個數(shù)/觀察開始時的總個數(shù),其中t為個體的存活時間。但如果資料中含有刪失數(shù)據(jù),生存率的計算公式應為:
S(tk)=P(T≥T)=P1·P2…Pk
(1)
其中P1、P2…Pk表示不同時間段的生存概率,可以看出,這種情況下生存率是多個時段生存概率的累積,故又稱為累積生存概率(Cumulative Probability of Survival)。當t=0時,生存函數(shù)取值為1,隨著時間推移(t逐漸增大),生存函數(shù)的取值逐漸減小。因此,生存函數(shù)是時間t的單調遞減函數(shù)。
2.非參數(shù)分析
非參數(shù)分析方法不引入任何的外生變量,包括壽命表法(Life Table)和Kaplan-Meier估計。其中壽命表法適用于觀察例數(shù)較多而分組的資料,通過計算落入時間區(qū)間[tk-1,tk]內的失效和刪失的觀察個數(shù)來估計該區(qū)間上的死亡概率,然后用該區(qū)間及之前各區(qū)間上的生存概率之積來估計S(tk)[8]。Kaplan-Meier估計又稱乘積極限法(Product-Limit Method),于1958年由卡普蘭(Kaplan)與邁耶(Meier)提出,主要用于觀察例數(shù)較少而未分組的生存資料,是利用條件概率與概率的乘法原理計算生存率及其標準誤的。
S(ti)=S(ti-1)S(ti/ti-1)
(2)
其中S(t)表示t年的生存率,S(ti/ti-1)表示活過ti-1年又活過ti年的條件概率。
3.Cox比例風險模型。
由于生存分析模型中的參數(shù)估計法對生存函數(shù)分布有假設限定,若假設限定有誤,那么估計的準確性將會下降;而半?yún)?shù)法只規(guī)定影響因素和生存狀況之間的關系,不對生存函數(shù)的分布情況作出限定,是一種研究生存概率影響因素的多因素分析方法。對于一批生存數(shù)據(jù), 在事先不知道壽命分布的總體趨勢, 且又不好判斷應該用何種模型最合適時, 多數(shù)學者一般直接采用非參數(shù)方法或半?yún)?shù)法。因此,作為半?yún)?shù)分析的代表性方法,Cox比例風險模型近年來得到了快速的發(fā)展。該模型將風險概率Hi(t)建模在時間t上的基準概率h0(t)和影響因素向量X的函數(shù)之上,即:
Hi(t)=h0(t)>·exp(((β1)(Xi1))+((β2)(Xi2))+…+((βk)(Xik)))
(3)
其中,Hi(t)指t時刻風險函數(shù)、風險率或瞬時死亡率,h0(t)是基準的生存分布危險函數(shù),即所有變量都取0時t時刻風險函數(shù)。Xi1,Xi2,…,Xik為預后變量向量,β1,β2,…βk為回歸系數(shù)向量。
Cox模型以半?yún)?shù)方程回歸方式對風險作出估計,并得到β的極大似然估計值,作為各影響因素的風險比系數(shù)。通過系數(shù)β可以得出該因素是保護因素還是危險因素、相對危險度的大小,其中RR= exp(β)。若β>0,RR>1,說明變量X增加時,危險率增加,即X是危險因素;β<0,RR<1,說明變量X增加時,危險率下降,即X是保護因素;β=0,RR=1,說明變量X增加時,危險率不變,即X是危險無關因素。本文采用生存分析中的Cox回歸模型進行分析,對酒店客人住宿時間的影響因素進行估計。
根據(jù)國內外對游客停留時間的研究結果,假設客人住宿時間與人口學特征、出行特征、消費特征和服務質量等四個維度的解釋變量有直接關系。假設之一,客人住宿時間由客人的人口學特征決定,研究測定的人口學特征變量包括來源地、年齡、性別、職業(yè);假設之二,客人住宿時間與客人的出行特征存在關聯(lián),研究測定的出行特征變量包括出行目的和出行方式;假設之三,客人住宿時間受客人的消費特征影響,研究測定的消費特征變量包括花費水平(人均天花費額)、來漢次數(shù);假設之四,客人住宿時間受酒店服務質量控制,研究測定的酒店服務質量變量僅包括客人服務滿意度,因為服務滿意度是客人對酒店服務質量集中和綜合的反映。上述變量測度分為2種,住宿天數(shù)屬連續(xù)型變量;性別、年齡、職業(yè)、來源地、出行動機、出行方式為分類變量;花費水平、來漢次數(shù)和服務滿意度屬序次變量。觀測變量的解釋與調查結果基本數(shù)據(jù)如表1。
表1 統(tǒng)計變量說明
生存分析模型設計以10d為隨訪期,在隨訪期內調查客人是否發(fā)生“結賬退房”為“失效”事件,客人結賬退房(即“失效”事件)時在酒店住宿天數(shù)即為生存時間??腿嗽诰频耆胱√鞌?shù)超過隨訪期,即入住天數(shù)超過10d的住店客人定義為刪失數(shù)據(jù)。在隨訪期內,客人是否辦理結賬退房為生存狀態(tài)變量,該變量有兩個水平,變量標記為:1=客人已結賬退房;0=刪失。
在武漢主城區(qū)隨機選取20家不同檔次、類型的賓館、酒店作為調研地點,以各酒店結賬退房客人為調研對象,以面對面的方式對客人進行問卷調查。從2018年3月至2018年8月,共投放調查問卷1 450份,回收調查問卷1 362份,回收率為93.93%;經(jīng)程序錄入審核,獲得有效問卷為1 271份,有效率93.32%。
本文采用SPSS17.0進行統(tǒng)計學處理。首先應用壽命表法分析客人在酒店住宿時間的總體分布規(guī)律,表3是在10d的隨訪期內武漢酒店客人住宿時間的壽命表分析結果,其中客人在酒店住宿的平均時間為2.65d,而且50%武漢客人在酒店住宿時間不會超過2.79d。
從表2可以看出:客人入住酒店1d后,就有“結賬退房”終點事件發(fā)生,依據(jù)發(fā)生頻率可分為3個階段:(1)高發(fā)期,集中于[1,2)、[2,3)、[3,4)這3個時間區(qū)間內,占到完全數(shù)據(jù)的83.01%,相應地,期末累積生存比例下降趨勢明顯,下降速度較快,這就表明大部分住店客人或因行程安排,或對酒店不太滿意,而都選擇將入住天數(shù)控制在3d以內;(2)緩和期,集中于[4,5)、[5,6)、[6,7)、[7,8)4個時期內,占到完全數(shù)據(jù)的15.42%,期末累積生存比例下降速度減緩,表明該部分客人多是因為行程原因而選擇結賬退房,對酒店的滿意度在逐漸積累,有在酒店較長住宿的強烈意愿;(3)平滑期,其余剩下時間區(qū)間內武漢客人住店生存率下降得更為平緩,3個時間區(qū)間內結賬退房的客人僅占完全數(shù)據(jù)的1.57%。這表明客人入住酒店超過7d后,對酒店的內外環(huán)境逐漸熟悉,服務質量逐漸滿意,長住酒店的意愿上升,有很大可能成為酒店的長住客。
表2 客人住宿天數(shù)壽命表
備注:生存時間的中位數(shù)為2.79d。
圖1更為直觀地顯示:隨訪期的1~3d所對應的生存函數(shù)降幅較大,從各段生存率之間的高度差可以明顯看出;4~7d考察范圍內生存函數(shù)階梯狀高度差減小,表明降幅變緩;7d之后各時期降幅更小,最終幾乎演變?yōu)橐粭l直線。
圖1 生存分布函數(shù)Fig.1 Survival function of guests in Wuhan hotels
采用Kaplan-Meier法分別檢驗來源地、職業(yè)等9個變量對酒店客人住店時間的影響顯著性。為了穩(wěn)健起見,分別使用LogRank test、Breslow test、Tarone-Ware test 三種檢驗方式。它們的區(qū)別是賦予觀測權重的方式不同,其中LogRank test各時間點權重一樣,此法最常用;Breslow以各時間點的觀察例數(shù)為權重;Tarone-Ware以各時間點觀察例數(shù)的平方根為權重。顯著性檢驗結果如表3所示。三種檢驗方式所得結果保持一致:客人職業(yè)、來漢次數(shù)、出行目的、消費水平和服務滿意度5個變量的統(tǒng)計顯著性水平檢驗值(Sig.)均小于0.01,達到較高的顯著性,表明這5個因素是影響客人住宿時間的重要因素;而客人性別、年齡、來源地和出行方式4個變量則相反,未通過顯著性水平檢驗,則表明這4個因素不是客人住宿時間的影響因素。
采用Cox回歸分析方法將職業(yè)、來漢次數(shù)、出行目的、人均天花費和服務滿意度5個經(jīng)Kaplan-Meier單因素檢驗呈現(xiàn)出顯著性的影響因素變量進行預后預測檢驗。為消除納入模型中各指標之間可能具有的共線性影響,采用基于偏最大似然估計的向前法(Forward:LR)選擇自變量進入Cox回歸方程,建立Cox比例風險模型。最后,還需從單個參數(shù)與模型整體兩個方面對Cox比例風險模型的顯著性進行檢驗,其中單個參數(shù)檢驗采用Wald檢驗,整體檢驗采用Score檢驗,兩種檢驗方式均包括卡方值、自由度、顯著性3個檢驗結果。
表3 Kaplan-Meier單因素顯著性檢驗結果
納入偏最大似然估計向前逐步回歸的數(shù)據(jù)共1 271個,占全部數(shù)據(jù)的100%。其中完全事件數(shù)為1 261個,占99.21%;刪失數(shù)為10個,刪失率為0.79%;無數(shù)據(jù)在逐步回歸過程中被剔除。此外,經(jīng)過5步向前回歸,服務滿意度、消費水平、旅游目的、旅游次數(shù)和職業(yè)5個變量Sig.值均小于0.05,滿足顯著性檢驗標準,依次先后進入Cox比例風險模型,最終結果見表4。從模型參數(shù)的整體檢驗方面來看,Score檢驗的卡方值為304.679,自由度為12,Sig.值小于0.001,檢驗結果顯著;從模型的單個參數(shù)檢驗結果來看,納入模型的所有協(xié)變量參數(shù)估計值的Sig.值都小于顯著水平0.05。因此,模型參數(shù)的顯著性無論單變量檢驗還是總體檢驗效果都比較理想,在5%的顯著性水平下,Cox比例風險模型假設成立。
Cox比例風險模型中影響因素的參數(shù)估計結果見表4。從表4可以看出:
1.變量“花費水平”的偏回歸系數(shù)B為0.254>0,表明“花費水平”是客人住店時間的危險性因素,即客人花費水平越高,傾向于在酒店住宿的時間會越短,而且消費水平每提高一個等級,客人結帳離店的可能性會提高28.9%。這主要是花費水平較高的客人,受旅行支出預算的限制,在酒店住宿時間就相應縮短。
2.變量“來漢次數(shù)”的偏回歸系數(shù)B為0.139>0,表明“來漢次數(shù)”是客人住店時間的危險性因素,即多次來漢的客人,在漢住宿的天數(shù)會越來越少,而且來漢次數(shù)每提高一個等級,客人結帳離店的可能性要提高14.9%。這主要是隨著客人來漢次數(shù)的增多,武漢的旅游吸引力會相對減弱,在武漢逗留的時間會逐漸縮短,進而在酒店住宿時間也就相應縮短。
3.變量“服務滿意度”的偏回歸系數(shù)B為-0.797<0,表明“服務滿意度”是客人住宿時間的保護性因素,即對酒店服務越滿意的客人,其在酒店住宿的時間會延長,而且服務滿意度每提高一個等級,客人在酒店繼續(xù)住宿而不結帳退房的機會要提高54.9%。這顯然與酒店經(jīng)營實際相契合,客人對酒店服務質量越滿意,就會把酒店當作自己的家,從而增加客人在酒店住宿的愉悅感,所以在酒店住宿時間也就相應延長。
4.變量“職業(yè)”為2(企管人員)、3(工人和農民)、4(文教人員)、5(服務銷售人員)、6(學生)和7(其它人員)的偏回歸系數(shù)B分別為0.263、0.482、0.358、0.437、0.300和0.384,均大于0,表明它們是客人住宿時間的危險性因素,即相對于公務人員類客人,以上幾類職業(yè)的客人在酒店住宿時間短。其中最短的是服務銷售人員,其次是工人和農民類客人。這主要是公務人員、企管人員多是公務性花費為主,出行計劃性較強;而工人和農民多是自費,出行較自由,所以他們的酒店住宿時間差異比較明顯。
表4 Cox比例風險模型中影響因素的參數(shù)估計結果
注:a表示啞變量編碼方式為Indicator,并且以最先一個變量值為參照基準(估計系數(shù)設為0);-2似然對數(shù)=15980.363,整體卡方值= 304.679 ,自由度=12,檢驗P值=.000。
5.旅游目的為“觀光游覽”客人的偏回歸系數(shù)B為0.247>0,表明這類客人相對于休閑度假客人,在酒店住宿的時間要相應縮短;旅游目的為“商務會議”客人的偏回歸系數(shù)B為-0.269<0,表明該類客人相對于休閑度假客人,其在酒店住宿時間相對延長;旅游目的為“其他”客人的偏回歸系數(shù)B為0.086>0,未通過顯著性檢驗,表明該類客人相對于休閑度假客人,在酒店住宿時間上沒有顯著性差異,這主要是商務會議類客人行程計劃性強,出行自主性差,而觀光游覽客人走馬觀花,武漢只是其旅游目的地之一,在漢逗留時間不可能太長。因此不同旅游目的客人在酒店住宿時間差異比較明顯。
本文以武漢酒店住宿客人為研究對象,運用生存分析中的壽命表法、Kaplan-Meier法及Cox回歸法,分析了酒店客人住宿時間及影響因素。結果顯示:客人在酒店住宿,前三天是結帳退房的高峰期,有83.01%的客人會在此期間選擇結帳退房,而且50%武漢客人在酒店住宿時間不超過2.79d,所有客人在酒店住宿的平均時間為2.65d。客人在酒店住宿時間與客人職業(yè)、來漢次數(shù)、出行目的、花費水平和服務滿意度有顯著相關性,而與客人性別、年齡、來源地和出行方式的相關性并不顯著?;ㄙM水平、來漢次數(shù)是客人住宿時間的危險性因素;服務滿意度是客人住宿時間的保護性因素;職業(yè)為公務員、企管人員類客人住宿時間相對較長,工人和農民類客人住宿時間相對較短;旅游目的為商務會議類客人住宿時間相對較長,而觀光游覽類客人住宿時間相對較短。
生存分析在旅游科學研究的應用主要集中在游客停留時間方面,在酒店方面的應用研究還不多見。本文雖然采用問卷調查獲得了第一手數(shù)據(jù),但由于受多種主、客觀條件的限制,很難采集各層次人群樣本,樣本的代表性有待提高,由此可能導致偏差產生;此外,客人在酒店住宿時間受到很多因素影響,一些變量可能沒有在本文的分析中得以體現(xiàn),需通過后續(xù)研究,運用不同學科知識與方法進一步挖掘和探尋。