周亮錦,趙明揚(yáng)
(1.韓山師范學(xué)院 經(jīng)濟(jì)與管理學(xué)院 金融大數(shù)據(jù)中心,廣東 潮州 521000;2.韓山師范學(xué)院 數(shù)學(xué)與統(tǒng)計學(xué)院,廣東 潮州 521000)
自2003年國務(wù)院18號文件正式確立房地產(chǎn)業(yè)是國民經(jīng)濟(jì)支柱產(chǎn)業(yè)的地位之后,我國房地產(chǎn)業(yè)快速發(fā)展,并帶動房價在過去的二十多年經(jīng)歷較大幅度的持續(xù)上漲,甚至陷入“越調(diào)越長”的怪圈。由此帶來的民生問題、社會問題和經(jīng)濟(jì)發(fā)展問題引發(fā)人們對房地產(chǎn)市場,尤其是房價的普遍關(guān)注。為從嚴(yán)落實(shí)“房住不炒”的政策定位,2017年“3·17”史上最嚴(yán)調(diào)控政策出臺至今,我國房地產(chǎn)市場調(diào)控政策不斷升級。除“五限”“三道紅線”“房產(chǎn)稅”、二手房參考價格和新房積分搖號等行政性調(diào)控外,以公租房、保障性租賃住房和共有產(chǎn)權(quán)住房為主體“租購并舉”的住房保障制度和集中供地制度也在不斷完善。再加上2019年年末以來全球范圍內(nèi)暴發(fā)的新型冠狀肺炎疫情,房地產(chǎn)市場跌宕起伏,甚至一度進(jìn)入冷凍期。盡管如此,全國房價整體上漲的趨勢并沒有改變,且房價的城市分化現(xiàn)象依然存在。根據(jù)統(tǒng)計局最新官方數(shù)據(jù),2022年1月,一線城市新建商品住宅價格和二手住宅價格同比分別上漲4.4%和4.1%,而二三線城市相應(yīng)的數(shù)據(jù)分別為2.5%、1.0%、0.5%和-0.7%。
房價是房地產(chǎn)市場健康與否的重要指標(biāo),也是預(yù)測實(shí)體經(jīng)濟(jì)“繁榮”或“大蕭條”的領(lǐng)先指標(biāo)。對房價的精準(zhǔn)預(yù)測不僅有助于人們對房地產(chǎn)市場有一個清醒的認(rèn)識,繼而幫助消費(fèi)者和投資者做出正確的投資決策,也有利于政府制定出合理有效的宏觀調(diào)控政策,以推動房地產(chǎn)市場長效機(jī)制的建立?,F(xiàn)有文獻(xiàn)對房價預(yù)測的研究最早可追溯到Dipasquale和Wheaton(1994)。他們基于對20世紀(jì)80年代美國房價動態(tài)機(jī)制的研究,首次采用宏觀經(jīng)濟(jì)變量——人口、收入、居民消費(fèi)價格指數(shù)、建筑成本、失業(yè)率和利率等預(yù)測房價,并認(rèn)為利用這些變量能提高房價預(yù)測的精度。
隨后,一部分學(xué)者便開始基于這個研究視角對房價進(jìn)行預(yù)測,并為提高房價預(yù)測精度進(jìn)行多種方法的嘗試(谷秀娟和李超,2012;張榮艷,2018;Dufitinema,2021)。
鑒于房價相關(guān)因素和模型預(yù)測效果會隨時間的變化而變化,預(yù)測組合模型、貝葉斯模型平均等模型平均方法被引入到房價預(yù)測上來(石煬和趙尚威,2022;陳睿玉,2020;?epni 和Gupta等,2020)。另外,考慮到“房屋是由一系列特征結(jié)合在一起形成的商品”,一部分學(xué)者開始基于微觀視角,利用住宅特征,如建筑特征(面積、房齡、房間數(shù)量等)、區(qū)位特征(與地跌站、醫(yī)院、學(xué)校等的距離)和鄰里環(huán)境(是否有公園、醫(yī)院、學(xué)校等)來預(yù)測房價(孫逸等,2020)。
無論是基于宏觀視角還是微觀視角,近年來,隨著互聯(lián)網(wǎng)和大數(shù)據(jù)研究的蓬勃發(fā)展,基于大數(shù)據(jù)方法的相關(guān)模型,如支持向量機(jī)模型、BP神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林和K鄰近模型等在房價預(yù)測方面的應(yīng)用越來越多(高玉明和張仁津,2014;張望舒和馬立平,2021;崔明明和劉曉亭等,2020;Gupta等,2021)。Milunovich(2020)基于47種算法對澳大利亞房價的研究表明,線性自回歸移動平均模型和向量自回歸模型可提前準(zhǔn)確預(yù)測一季度的房價,而深度學(xué)習(xí)則可以準(zhǔn)確預(yù)測房價的長期走勢。
除了預(yù)測方法上的探究之外,還有少部分學(xué)者致力于將行為經(jīng)濟(jì)學(xué)和傳統(tǒng)經(jīng)濟(jì)學(xué)理論相結(jié)合,依靠網(wǎng)絡(luò)信息技術(shù)對市場參與主體心理和行為進(jìn)行捕捉和量化,以探究房價預(yù)測精度改善的方法(唐曉彬等,2018;董倩等,2014;Isler等,2021)。
綜上所述,學(xué)者們對房價預(yù)測問題進(jìn)行了深入研究,也取得了有價值的研究成果。在前人研究成果的基礎(chǔ)上,本文以一線城市深圳為例,通過網(wǎng)絡(luò)爬蟲方法對鏈家網(wǎng)站上2022年1月之前的二手房在售房源信息進(jìn)行采集,并構(gòu)建隨機(jī)森林模型對深圳市二手房價格以及各特征因素對房價的影響程度進(jìn)行預(yù)測和分析,以從數(shù)據(jù)和方法上豐富和完善房價預(yù)測問題的研究體系。
關(guān)于房源數(shù)據(jù)的獲取,可以通過實(shí)際調(diào)查、走訪以及中介獲取,但這些方式獲取數(shù)據(jù)的成本比較高、時間比較長,所花費(fèi)的人力和物力也較多。隨著大數(shù)據(jù)技術(shù)的發(fā)展,人們越來越多地使用爬蟲程序來獲取數(shù)據(jù)。本文利用Python爬蟲程序?qū)︽溂揖W(wǎng)站上深圳市在售的二手房數(shù)據(jù)進(jìn)行爬取。
鏈家地產(chǎn)網(wǎng)站提供了關(guān)于房產(chǎn)的詳細(xì)數(shù)據(jù),如房屋總價、建房年份、小區(qū)名稱、所在區(qū)域等。為盡可能多地考察二手房屋價格的影響因素,初步選取房屋總價、建房年份、小區(qū)名稱、所在區(qū)域、房屋戶型、所在樓層、建筑面積、戶型結(jié)構(gòu)、套內(nèi)面積、建筑類型、房屋朝向、建筑結(jié)構(gòu)、裝修情況、梯戶比例、配備電梯、掛牌時間、交易權(quán)屬、上次交易、房屋用途、房屋年限、產(chǎn)權(quán)所屬、抵押信息、房本備件共23個特征變量做進(jìn)一步的分析。
在對數(shù)據(jù)集進(jìn)行建模時,首先需要對原始數(shù)據(jù)進(jìn)行預(yù)處理和清洗,以提高數(shù)據(jù)質(zhì)量。數(shù)據(jù)預(yù)處理主要借助于Python的第三方庫Pandas來實(shí)現(xiàn),主要包括數(shù)據(jù)集去重、異常值處理、缺失值填充、字符串編碼等工作(劉馨等,2020)??紤]到爬取數(shù)據(jù)的缺失值和異常值較少,對這部分?jǐn)?shù)據(jù)直接刪除。對未有明確值的數(shù)據(jù),使用已有數(shù)據(jù)的眾數(shù)來進(jìn)行替換或補(bǔ)充。在數(shù)據(jù)預(yù)處理的過程中,發(fā)現(xiàn)部分變量的取值為單一值或接近單一值,這些變量的存在不但對模型的建立無用,且會增加模型的復(fù)雜度。對于這些變量,直接做刪除處理。經(jīng)過數(shù)據(jù)預(yù)處理和清洗后,最終得到與房屋總價相關(guān)的15個特征變量(如表1所示),共2990條有效數(shù)據(jù)。
表1 特征變量名稱及相應(yīng)說明
隨機(jī)森林(random forest,RF)屬于Bagging框架,通過對數(shù)據(jù)集自助采樣來得到不同的子集,并分別利用這些子集訓(xùn)練基學(xué)習(xí)器,屬于一種并行化的集成學(xué)習(xí)方法。隨機(jī)森林在Bagging框架的基礎(chǔ)上增加了特征選擇的過程,使得隨機(jī)森林在構(gòu)造基學(xué)習(xí)器時具有樣本和特征兩個隨機(jī)性,也即具有行抽樣和列抽樣兩個特性。作為Python機(jī)器學(xué)習(xí)的核心模型與算法庫,scikit-learn模塊提供了隨機(jī)森林的算法實(shí)現(xiàn)方式,可以通過類sklearn.ensemble.RandomForestRegressor來實(shí)現(xiàn)(魯偉,2022)。
在機(jī)器學(xué)習(xí)中,通常把學(xué)習(xí)器的實(shí)際預(yù)測輸出與樣本的真實(shí)輸出之間的差異稱為“誤差”,把模型在訓(xùn)練集上的誤差稱為“經(jīng)驗(yàn)誤差”,在新樣本上的誤差稱為“泛化誤差”。學(xué)習(xí)器的泛化誤差越小,模型的預(yù)測精度越高。但新樣本是未知的,且模型的泛化誤差也無法直接獲得。因此,通常采取的策略就是將得到的數(shù)據(jù)拆分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,在訓(xùn)練數(shù)據(jù)集上進(jìn)行模型的訓(xùn)練,然后以測試集上的“測試誤差”對模型的泛化誤差進(jìn)行估計,繼而選擇泛化誤差最小的模型。常用的數(shù)據(jù)拆分方法有留出法、交叉驗(yàn)證法、留一法等。這里采用的是留出法。數(shù)據(jù)拆分使用模塊sklearn.model_selection中的train_test_split()函數(shù)來實(shí)現(xiàn),參數(shù)test_size的值設(shè)置為0.20,即隨機(jī)選取數(shù)據(jù)的1/5作為測試集,剩余的4/5作為訓(xùn)練集。
機(jī)器學(xué)習(xí)的各個模型都帶有一些參數(shù),通常情況下,使用模型的默認(rèn)參數(shù)設(shè)置即可獲得較好的結(jié)果和預(yù)測準(zhǔn)確度。但若要獲得更為精確的結(jié)果,就需要對模型的這些參數(shù)進(jìn)行調(diào)整,以尋求在給定數(shù)據(jù)集下的最優(yōu)參數(shù)。對于隨機(jī)森林模型而言,應(yīng)著重考慮的參數(shù)有基學(xué)習(xí)器數(shù)目、樹的深度和特征選擇比例。為使模型有比較好的預(yù)測精度,這里采用交叉驗(yàn)證和網(wǎng)絡(luò)搜索進(jìn)行參數(shù)尋優(yōu),評價標(biāo)準(zhǔn)為測試集上的擬合優(yōu)度。網(wǎng)絡(luò)搜索結(jié)果表明,當(dāng)基學(xué)習(xí)器數(shù)目、樹的深度和特征選擇比例分別設(shè)置為175、13和0.5時,模型得到最優(yōu)結(jié)果。此時在訓(xùn)練集上的為97.5%,在測試集上的為87.5%。進(jìn)一步地,為更加直觀地呈現(xiàn)各參數(shù)對模型結(jié)果的影響,繪制相應(yīng)的學(xué)習(xí)率曲線如圖1至圖3所示。
圖1 基學(xué)習(xí)器數(shù)目對R2的影響
圖2 樹的深度對R2的影響
圖3 特征選擇比例對R2的影響
由圖2至圖4可知,決策樹數(shù)目、樹的深度和特征選擇比例在一開始對有很明顯的提升,但隨著數(shù)值的逐步增大,到達(dá)一定數(shù)值后趨于穩(wěn)定。
在最優(yōu)參數(shù)設(shè)置基礎(chǔ)上,模型的擬合效果可通過繪制模型的預(yù)測值-真實(shí)值散點(diǎn)圖(見圖4)來展現(xiàn)。由圖4可知,散點(diǎn)圖較好地靠近理想直線,說明模型的預(yù)測效果相對較好。
模型擬合優(yōu)度的大小是多個特征因素共同作用的結(jié)果,但各特征因素對因變量的影響程度是有區(qū)別的。因此,為進(jìn)一步探究各特征因素對房價影響力的大小,以便提煉出最佳的預(yù)測模型,筆者將各特征因素對房價影響的大小程度繪制成柱狀圖,如圖5所示。
由圖5可知,在所有15個特征因素中,建筑面積、房屋戶型和所在區(qū)域?qū)Ψ績r的影響相對較大。其中,建筑面積對房價的影響程度大于0.5。而其他因素如有無配備電梯、裝修情況怎么樣等對房價的影響程度則較小。
圖4 模型擬合效果
圖5 各特征因素對房價影響程度
作為一類廣泛應(yīng)用的機(jī)器學(xué)習(xí)模型,隨機(jī)森林具有適應(yīng)性強(qiáng)、結(jié)果穩(wěn)定、易于實(shí)現(xiàn)的特點(diǎn)。通過隨機(jī)森林模型不但可以進(jìn)行預(yù)測分析,也可以進(jìn)行因素分析。
本文通過爬蟲程序?qū)︽溂揖W(wǎng)站上2022年1月之前深圳二手房在售數(shù)據(jù)進(jìn)行收集,并利用Python的第三方庫Pandas對數(shù)據(jù)集進(jìn)行預(yù)處理和清洗。之后在交叉驗(yàn)證和參數(shù)網(wǎng)格搜索進(jìn)行參數(shù)尋優(yōu)的基礎(chǔ)上,對隨機(jī)森林模型進(jìn)行優(yōu)化以獲得較好的精度。最終使得該預(yù)測模型在訓(xùn)練集上的為97.5%,在測試集上的為87.5%。
房價的影響因素有很多,而特征因素選取過多容易導(dǎo)致過擬合。為在后續(xù)工作中能得到更佳的預(yù)測模型,本文對所列出特征對房價的影響程度進(jìn)行探究。研究結(jié)果表明,建筑面積、房屋戶型和所在區(qū)域?qū)Ψ績r的影響較大,而其他因素則影響較小。該結(jié)論說明:一是房子的面積是影響房價的最重要因素;二是人們對臥室、廚房、衛(wèi)生間等戶型功能比較看重,體現(xiàn)人們對經(jīng)濟(jì)舒適、方便整潔的生活的向往;三是房屋所處的地段也是人們重點(diǎn)考慮的因素。不同的地段代表不同的經(jīng)濟(jì)發(fā)展水平、不同的資源稟賦條件,以及不同的工作和生活的便利程度。人們更趨向于選擇經(jīng)濟(jì)發(fā)展水平較高,資源環(huán)境更好和便利程度更大的地方。為使房價得到合理控制,無論是基于政府還是投資開發(fā)商而言,合理配置資源,完善相應(yīng)的配套設(shè)施都是有效之舉。