畢文杰, 扶春娟
(中南大學 商學院,湖南 長沙 410083)
近年來,共享經(jīng)濟作為一種新的經(jīng)濟模式,對住宿行業(yè)產(chǎn)生了巨大的影響,Airbnb率先將這種經(jīng)濟模式應(yīng)用于民宿在線短租。成立于2008年,Airbnb發(fā)展迅速,現(xiàn)已覆蓋191個國家的65000個城市,擁有700多萬套房源,房客數(shù)量已經(jīng)超過5億,成為全球最大的旅游房屋租賃平臺之一。Airbnb快速增長的關(guān)鍵在于其房源的異質(zhì)性,能夠為房客提供獨特的住宿體驗[1~3]。
定價被普遍認為是決定住宿行業(yè)能否長遠發(fā)展的關(guān)鍵因素之一[4]。Airbnb作為住宿行業(yè)的新星,定價對其房東來說無疑也是非常重要的。而且Airbnb的快速增長,使得房東們面臨的競爭日益激烈,定價更是顯得尤為重要。然而Airbnb所提供的住宿服務(wù)的獨特性,使得定價變得困難。雖然目前Airbnb開發(fā)了定價系統(tǒng),為其房東提供價格推薦服務(wù),但由于定價系統(tǒng)的復雜性和不透明性,房東們在為其房源設(shè)置價格時依然難免困惑[5]。因此,研究Airbnb房源的定價問題,有利于加強房東對其房源市場價值的理解,幫助房東更好地做出價格決策。
然而,目前只有少數(shù)學者研究了Airbnb房源的定價問題。Chen和Xie[6]基于美國奧斯汀市的數(shù)據(jù),依次將房源本身的特征、房東的特征、房源的聲譽和市場競爭這四類因素納入到OLS回歸模型中,發(fā)現(xiàn)房源本身的特征是最重要的,而房源的聲譽對價格的影響較小。Wang和Nicolau[7]利用位于北美洲、歐洲和大洋洲的33個城市的數(shù)據(jù),使用OLS回歸和分位數(shù)回歸方法,對房源價格與房東的特征、房源本身的特征和位置、設(shè)施與服務(wù)、房源的租賃規(guī)則和在線評論這五類因素之間的關(guān)系進行了探索,他們發(fā)現(xiàn)評分越高,價格越高,而評論數(shù)量越多,價格反而更低。Teubner等[8]基于特征價格回歸模型和德國86個城市的Airbnb數(shù)據(jù)集,探究了評論數(shù)量與評分的交互效應(yīng)對價格的影響,發(fā)現(xiàn)評分越低,評論數(shù)量對價格的負面影響越大。Zhang等[9]利用地理加權(quán)回歸,基于美國田納西州納什維爾市的數(shù)據(jù),發(fā)現(xiàn)房源與納什維爾會展中心的距離和評論數(shù)量均對價格產(chǎn)生負面影響。Gibbs等[10]將特征價格模型應(yīng)用于加拿大五個城市的Airbnb房源數(shù)據(jù),發(fā)現(xiàn)房源本身的特征和位置特征至關(guān)重要。Cai等[11]基于特征價格模型,探討了房源本身的特征和房東的特征等五組解釋變量對中國香港市Airbnb房源價格的影響,發(fā)現(xiàn)房間類型對房源價格的影響非常大。吳曉雋和裘佳璐[12]基于中國36個城市的數(shù)據(jù),利用OLS回歸和分位數(shù)回歸分析了9類變量對房源價格的影響。
可以看出,一方面,現(xiàn)有研究大部分針對歐美市場,基于亞洲市場展開的研究較缺乏[11,13]。然而,亞洲是Airbnb在全球增長最快的市場,且有基于多個目標市場的研究發(fā)現(xiàn),不同市場的研究結(jié)果存在差異[10]。因此,針對亞洲市場對Airbnb房源的定價問題進行研究是十分必要的。另一方面,現(xiàn)有研究側(cè)重于探究Airbnb房源價格的影響因素,缺少對Airbnb房源定價方法的研究。而Airbnb房源價格推薦系統(tǒng)的不透明性和復雜性,使得這一研究變得有價值。房東通過參照已經(jīng)設(shè)置價格的房源的特征和價格信息,結(jié)合自己管理的房源的特征信息,來為自己管理的房源設(shè)置價格的問題,可以轉(zhuǎn)化成一個預測問題,而機器學習方法在預測中的良好表現(xiàn)已被普遍認可。故而,利用機器學習研究亞洲市場Airbnb房源的定價問題,不僅可以彌補現(xiàn)有文獻的缺口,而且有助于房東更好地為房源設(shè)置價格。
本文選取Airbnb北京市的數(shù)據(jù),先綜合利用OLS和LASSO選擇待研究的解釋變量,并將其分成房源本身的特征、房源的位置等六個類別。然后利用OLS依次探究了六類解釋變量對房源價格的影響大小。其次,利用OLS、LASSO、隨機森林和XGBoost對房源價格進行了預測,并對各方法的預測準確性進行了對比分析。最后綜合分析了各變量對價格的影響和變量的相對重要性。
本文將設(shè)置房源價格的問題轉(zhuǎn)化為機器學習中的監(jiān)督學習問題,利用OLS、LASSO、隨機森林和XGBoost這四種常用的機器學習方法來研究Airbnb房源的定價問題,其中前兩種屬于線性方法,后兩種屬于非線性方法,四種方法各有優(yōu)劣。
隨機森林(詳見Friedman等[14])通過整合多棵樹的預測結(jié)果以提升預測的準確率。其泛化能力較強,且能夠度量解釋變量的重要性,但如果數(shù)據(jù)噪音較大,則可能過擬合。
XGBoost(詳見Chen和Guestrin[15])是對梯度提升算法的改進,旨在最大化地保證可擴展性、便捷性以及準確性。XGBoost能夠降低過擬合。
本文選擇中國北京市2019年2月的Airbnb房源作為研究對象,因為中國是Airbnb在亞洲關(guān)注的焦點之一。而北京市作為中國的首都,是中國最重要的市場。本文所用數(shù)據(jù)來自網(wǎng)站Insideairbnb.com (n.d.)。由于一些房源沒有產(chǎn)生實際交易活動,本文參照Wang和Nicolau[7]的做法,僅選擇至少有一條評論的房源,以確保房源價格具有參考價值,對包含缺失值和異常值的樣本進行處理后,得到12248個樣本。
Airbnb房源每晚的價格分布呈偏態(tài)分布,對其進行對數(shù)轉(zhuǎn)換后接近正態(tài)分布,因此本文將每晚價格的對數(shù)作為被解釋變量。為保證模型的簡潔實用性,以及不同機器學習方法所用解釋變量的統(tǒng)一性以便于比較,本文先基于以往研究Airbnb房源價格影響因素的文獻,選擇房間類型(整個房源、獨立房間和合住房間)、房源容量、浴室數(shù)量、臥室數(shù)量、無線上網(wǎng)服務(wù)、早餐、烘干機、實體床、對家庭和孩子友好、適合舉辦活動、最低住宿晚數(shù)、房源與市中心的距離、房東是超級房東、房東擁有的房源數(shù)量、房東通過身份認證、房東上傳個人照片、要求房客提供個人照片、要求房客提供電話號碼、即時預訂、評論數(shù)量、整體評分共23個變量作為候選解釋變量,然后綜合利用OLS和LASSO從中選擇最終的解釋變量。
選擇變量的具體過程為:先將數(shù)據(jù)按照7:3的比例隨機分為訓練集和測試集,利用訓練集來訓練模型,利用測試集來評估模型的預測精度,將均方誤差作為模型預測精度的評價準則。訓練LASSO模型時利用十折交叉驗證和網(wǎng)格搜索方法選擇調(diào)節(jié)參數(shù)λ的值。將訓練得到的OLS模型以及最優(yōu)的LASSO模型應(yīng)用于測試集,發(fā)現(xiàn)OLS得到的均方誤差小于LASSO。接著,將OLS以及最優(yōu)的LASSO模型應(yīng)用于整個數(shù)據(jù)集,發(fā)現(xiàn)除實體床、房東通過身份認證、房東上傳個人照片、要求房客提供個人照片和要求房客提供電話號碼這5個變量未通過OLS顯著性檢驗外,其他變量均顯著,而LASSO選擇了全部23個變量。因此,本文選擇通過OLS顯著性檢驗的變量作為最終的解釋變量。
最終解釋變量共18個,將其劃分為房源本身的特征、房源的位置、設(shè)施與服務(wù)、租賃規(guī)則、房東的特征和房源的聲譽6個類別。變量描述及簡單的統(tǒng)計分析見表1。
表1 變量定義和描述性分析
為初步了解各變量間的關(guān)系,進行相關(guān)性分析。圖1展示了各解釋變量與房源價格的關(guān)系,其中條形圖的縱坐標表示相應(yīng)解釋變量組的房源價格平均值,散點圖上的藍線為帶有95%置信區(qū)間的非參數(shù)光滑曲線??梢钥闯觯N房間類型中整個房源的價格最高,合住房間的價格最低。房源容量、浴室數(shù)量和臥室數(shù)量與房源價格正相關(guān)。提供無線上網(wǎng)服務(wù)和烘干機的房源比不提供這些設(shè)施的房源價格更高。對家庭和孩子友好、適合舉辦活動和允許即時預定對房源價格產(chǎn)生積極影響。最低住宿晚數(shù)與房源價格負相關(guān)。房源的評論數(shù)量和房源整體評分對房源價格的影響較弱。提供早餐和房東是超級房東對房源價格產(chǎn)生消極影響,但似乎不顯著。房源與市中心的距離以及房東擁有的房源數(shù)量均與價格呈非線性關(guān)系,意味著非線性方法的表現(xiàn)可能會優(yōu)于線性方法。
圖1 各變量與房源價格的相關(guān)關(guān)系
進一步計算各變量間的皮爾遜相關(guān)系數(shù),并檢驗其顯著性,結(jié)果如圖2所示。除對角線外,圖中空格均表示兩個變量之間的相關(guān)關(guān)系不顯著。由圖2可知,整體評分、早餐和房東是超級房東這三個變量與房源價格相關(guān)關(guān)系不顯著,與前面的結(jié)果一致。其他變量均與房源價格相關(guān)關(guān)系顯著,其中與房源價格正相關(guān)的變量中,房源容量、臥室數(shù)量、浴室數(shù)量和房東擁有的房源數(shù)量與房源價格相關(guān)性最強;與房源價格負相關(guān)的變量中,房間類型和距離與房源價格的相關(guān)性最強。解釋變量間的相關(guān)系數(shù)均小于0.8,因此不存在多重共線性。
圖2 變量相關(guān)性
先利用OLS方法,分析6類變量對房源價格的影響程度。然后將數(shù)據(jù)按7:3的比例隨機分為訓練集和測試集,訓練模型時利用十折交叉驗證和網(wǎng)格搜索選擇模型的超參數(shù),即選擇網(wǎng)格中使得交叉驗證預測誤差最小的超參數(shù),得到最優(yōu)模型。其次,將OLS模型與最優(yōu)的LASSO、隨機森林和XGBoost模型應(yīng)用于測試集中,計算均方誤差。再次,將最優(yōu)的LASSO模型應(yīng)用于整個數(shù)據(jù)集得到模型的系數(shù)估計值。將最優(yōu)的隨機森林和XGBoost模型應(yīng)用于整個數(shù)據(jù)集,得到解釋變量的重要程度圖。最后,為更全面地理解各變量的貢獻,并檢驗各方法的穩(wěn)健性,利用相對權(quán)重方法,即計算對OLS模型所有可能的子模型添加一個變量引起的R2平均增加量,得到各變量對OLS模型R2的貢獻圖。同時,分別計算從模型中不重復地剔除一個變量時各方法的預測均方誤差,并作圖比較。本文利用R3.5.1進行編程運算,為了保證所得結(jié)果的可重復性,設(shè)置第一號隨機種子。
OLS和LASSO分析的結(jié)果如表2所示。表3列出了四種方法分別得到的均方誤差。圖3為隨機森林得出的變量重要性圖,變量重要性根據(jù)結(jié)點不純度的總減少量計算得到。圖4為XGBoost得到的變量重要性圖。圖5為各變量對OLS模型R2的貢獻圖,圖6為各變量對預測準確性的貢獻圖。
圖3 隨機森林變量重要性
圖4 XGBoost變量重要性
圖5 OLS模型中各變量對R2的貢獻
圖6 各變量對預測準確性的貢獻
通過比較表2中各OLS模型的校正后的R2,可得到各類解釋變量對房源價格差異的解釋程度。模型1的結(jié)果表明房源本身的特征解釋了Airbnb房源價格差異的64.2%,說明房源本身的特征至關(guān)重要。模型2僅在模型1的解釋變量基礎(chǔ)上加入房源與市中心的距離這一變量,解釋力卻增加了3個百分點,說明位置對房源價格的影響很可觀。在模型2的基礎(chǔ)上依次加入設(shè)施與服務(wù)、租賃規(guī)則、房東的特征和房源的聲譽特征,模型的解釋力均增加不大,因此這些特征對房源價格的影響較小。
因此,六類解釋變量中,房源本身的特征對房源價格的影響最大,房源的位置對價格的影響居第二。房源本身的特征和位置是最重要的。這一結(jié)果得到了Chen和Xie[6]以及Gibbs等[10]的支持。
從表3可以看出,LASSO得到的均方誤差略大于OLS,與OLS相比不存在優(yōu)勢,這說明OLS模型不存在嚴重過擬合的問題,且各解釋變量間不存在多重共線性。在利用交叉驗證和網(wǎng)格搜索選擇模型超參數(shù)時,LASSO選擇的超參數(shù)接近于零,因此得到的模型與OLS得到的模型相近,表2中LASSO得到的系數(shù)與OLS得到的系數(shù)非常接近,也說明了這一點。隨機森林和XGBoost這兩種非線性方法得到的均方誤差明顯低于OLS和LASSO這兩種線性回歸方法得到的誤差,其中隨機森林的均方誤差最低,說明其預測更準確。從圖6可以看出,四種方法剔除任意相同變量后,隨機森林和XGBoost的均方誤差接近,OLS與LASSO的均方誤差接近,且均大于全變量模型的均方誤差(圖中的黑虛線從左至右依次為隨機森林、XGBoost、OLS和LASSO全變量情形下的均方誤差,由于OLS和LASSO的誤差非常接近,兩條線基本重合),說明各方法的預測效果具有穩(wěn)健性。隨機森林和XGBoost得到的誤差均小于OLS和LASSO得到的誤差,為非線性方法相較于線性方法的優(yōu)越性提供了更有力的證明。
表2 OLS與LASSO模型估計結(jié)果
表3 機器學習預測誤差
OLS的所有系數(shù)估計值均顯著,具有變量選擇作用的LASSO選擇了包含所有解釋變量的模型,表明所有解釋變量均是影響Airbnb房源價格的因素。觀察表2中各解釋變量的系數(shù)可知,各變量與房源價格的相關(guān)關(guān)系與相關(guān)性分析的結(jié)果大體一致,只是相關(guān)性分析中不顯著的早餐、超級房東和整體評分這三個變量在這里都對房源價格產(chǎn)生顯著的積極影響。即時預訂對房源價格產(chǎn)生積極影響,與Gibbs等[10]結(jié)果相反。這是因為允許即時預訂意味著房東將承擔一定的風險,在競爭壓力不大的情況下,房東放棄利用低價格和允許即時預訂來吸引房客,選擇提高房源的價格以補償允許即時預訂帶來的風險。超級房東和房源數(shù)量更多的房東,其房源價格更高,表明Airbnb房客將這兩項看成一種質(zhì)量信號,愿意為其支付更高的價格。房源的評論數(shù)量越多的房源,其價格反而越低。這是因為便宜的房源被預定的次數(shù)更多,獲得的評論也更多。
由圖2可知,房源容量、臥室數(shù)量、獨立房間、合住房間、浴室數(shù)量、房源與市中心的距離和房東擁有的房源數(shù)量是與房源價格最相關(guān)且相關(guān)系數(shù)顯著的六個變量。由圖3可知,隨機森林得到最重要的六個變量依次為房源容量、獨立房間、合住房間、房源與市中心的距離、臥室數(shù)量和房東擁有的房源數(shù)量。由圖4可知,XGBoost得到的最重要的六個變量依次為房源容量、獨立房間、合住房間、臥室數(shù)量、房源與市中心的距離和房東擁有的房源數(shù)量。由圖5可知,合住房間、獨立房間、房源容量、臥室數(shù)量、房源與市中心的距離、房東擁有的房源數(shù)量是對R2貢獻最大的六個變量。由圖6可知,當在全模型中剔除一個變量時,剔除合住房間、獨立房間、房源與市中心的距離或者房源容量時,均方誤差顯著增大,說明這幾個變量對提高預測精度的貢獻最大。由于各種方法是從不同的角度判斷各變量的重要性,結(jié)果略有不同,但大體一致。綜合可知,房源容量、獨立房間、合住房間、房源與市中心的距離是最重要的幾個變量。
最重要的四個變量中,有三個是代表房源本身的特征的變量,再次證明了房源本身的特征非常重要。
本文利用北京市的數(shù)據(jù)和多種機器學習方法,對Airbnb房源價格進行了預測,并對其影響因素進行了綜合分析。從理論的角度來看,為填補現(xiàn)有文獻鮮少對Airbnb亞洲市場房源定價問題進行研究,以及缺少對Airbnb房源定價方法的探究等缺口做出了貢獻。從實踐的角度來看,本文的研究結(jié)果有助于加深房東們對Airbnb房源價格決定機制的理解,更好地為其房源設(shè)置價格。
本文首先利用OLS分別探究了六類變量對價格差異的解釋力,發(fā)現(xiàn)房源本身的特征對房源價格的貢獻最大。其次,將數(shù)據(jù)集隨機分成訓練集和測試集,對四種常用機器學習模型預測精度進行比較,發(fā)現(xiàn)非線性方法的表現(xiàn)優(yōu)于線性方法。再次,將訓練得到的模型應(yīng)用于整個數(shù)據(jù)集,得到LASSO的回歸系數(shù),隨機森林和XGBoost的變量重要性圖。利用回歸系數(shù)分析各個因素對房源價格的影響,結(jié)果在很大程度上證實了以往關(guān)于Airbnb房源價格影響因素的研究結(jié)果[6,8,10]。與以往研究不同的是,本文發(fā)現(xiàn)價格與允許即時預訂成正相關(guān)關(guān)系。這說明北京市的房客有足夠的動機為允許即時預訂的房源支付更高的價格。最后,利用相對權(quán)重方法,得到各變量對OLS模型R2的貢獻圖。通過從模型中不重復地剔除一個變量,得到各變量對預測精度的貢獻圖。結(jié)合前面得到的變量相關(guān)性圖、隨機森林和XGBoost得到的變量重要性圖進行綜合分析,全面地衡量各變量的重要程度,發(fā)現(xiàn)房源容量、房間類型、房源與市中心的距離是最重要的幾個變量。
本文的研究也存在一些局限性。一方面,本文僅選取北京市的房源作為研究對象,雖然具有一定的代表性,但無法全面反映整個中國甚至亞洲的Airbnb房源價格決定機制。因此,將來的研究應(yīng)該全面探索整個中國甚至亞洲重要城市的價格決定機制。另一方面,本文未考慮季節(jié)效應(yīng),不過已有文獻考慮到房源價格隨時間的有限變化,認為一個價格點足以進行房源定價問題的探究。