胡本田 年靖宇
(安徽大學,安徽 合肥 230601)
2016年,合肥、廈門、南京、蘇州4個城市的房價漲幅一度領跑全國,帶來了一輪全國房價的快速上漲,引起了諸多的社會經濟問題。因此提前對房價進行預測,能夠起到維護經濟穩(wěn)定的作用??紤]到房地產市場中一般會存在三個主體,即消費者、房地產開發(fā)商和政府,房價上漲或下跌的因素有部分來源于這三個主體的行為,在購房或開發(fā)房地產之前消費者和房地產開發(fā)商會預先利用手頭的資源去更全面的了解房地產情況,這時候,他們往往會利用網絡搜索引擎去查詢搜索所需要了解的信息,這就會在搜索引擎的后臺留下數據,比如谷歌指數,百度指數等等,因此可以利用網絡搜索引擎后臺所記錄的關鍵詞搜索量,來了解人們對于房地產的需求狀況。
據中國互聯網網絡發(fā)展狀況統(tǒng)計報告顯示,截至2017年12月,我國網民規(guī)模達7.72億,普及率達到55.8%,其中手機網民占97.5%,而網民使用頻率最高的應用仍為即時通信、搜索引擎、網絡新聞等等,在國內各大搜索引擎中,百度搜索是人們最常用的搜索引擎,在2016年就已經有82.9%的網民使用,搜狗搜索位于第二,有41.1%的網民使用,鑒于百度搜索在網民中具有很好的滲透率,所以本文欲利用百度指數上的關鍵詞搜索數據,通過找尋搜索數據與房地產價格指數之間的關系,以此來對房地產價格指數進行短期預測。
目前對于房價的預測可以分為以下幾個階段,先是有王聰,王昊,蓋美、田野利用多因素回歸模型來對房價進行預測,找到影響房價的因素,利用這些因素所代表的指標進行回歸,從而達到預測的目的[1-3]。然后有學者將灰色理論應用到房地產價格的預測中去,任文娟、杜葵表明房地產市場是一個有著已知因素和未知因素的灰色系統(tǒng),因此可以使用GM(1,1)模型來對房地產價格進行預測[4]。之后學者利用數據挖掘算法來對房價進行預測,在數據挖掘算法中,研究利用最多的是SVR算法和BP神經網絡,對于SVR算法,申瑞娜,張彥周、賈利新,袁秀芳等都建立了基于SVR的商品房價格預測模型[5-7]。而周學軍等,高平等就利用BP神經網絡算法對房價進行預測,均取得了不錯的效果[8-9]。但是上述的研究中,所使用的房價數據基本上都是年度數據,此數據非公開并且沒有時效性用,有學者就開始研究房地產價格指數數據。對于房地產價格指數的預測的最新研究是通過利用網絡搜索數據,通過引入網絡搜索數據,一般是谷歌指數或者百度指數上面關鍵詞搜索量數據,以此來建立模型。該理論最先是Ginsberg et al.利用Google搜索數據成功地預測美國流感疾病趨勢[10],在取得不錯的效果之后,Kulkarni R.et al.,Schmidt T,Vosen S分別利用網絡搜索數據對失業(yè)率和caseshiller指數中進行預測,能夠在官方數據發(fā)布前提前知曉情況[11-12]。董倩等利用網絡搜索數據對15個大中城市的房價指數進行預測[13],莊虹莉等,張娟以百度指數上面的關鍵詞為解釋變量,分別建立模型對房地產價格指數進行預測[14-15],蒲東齊等(2018)則得到利用搜索數據預測商品房價可領先于官方發(fā)布數據10-15天的結論[16]。
但是目前國內學者的研究中,存在基期未轉換、未進行隨機性檢驗、主成分合成指數不好解釋,隨機波動性未剔除等問題。鑒于此,本文選取這次漲幅最大的二線城市——合肥市,以2011年1月至2018年2月的新建商品房銷售價格指數的同比數據來進行房地產價格指數的預測。由于該指數每五年輪換一個基期,所以為了具有可比性,需要先將2016年至2018年的數據全部轉換為以2010年為基期的數據,但因為百度指數的數據在2011年才開始收集,所以為了使數據的時期相同,我們將合肥市2011年的每月數據分別作為基期,計算得到合肥市2012年1月至2018年2月的新建商品房銷售價格指數同比數據,對百度指數上的關鍵詞搜索量的處理也按照上述方法來做,之后再通過簡單篩選和相關性檢驗,得到與房地產價格指數有關系的關鍵詞數據,然后利用lasso算法在眾多關鍵詞中提取特征,找到最終的解釋變量,以時間段為2012年2月至2017年8月的數據作為訓練集,2017年9月至2018年1月的數據作為檢驗集,利用SVR模型對訓練集進行訓練,通過檢驗集找到訓練模型中的最優(yōu)模型,最后利用最優(yōu)模型來預測合肥市新建商品房銷售價格指數。
在房地產市場上,存在一個供求關系,
房地產開發(fā)商是供應的一方,而購房者則是需求的一方,他們對房地產市場的反應可以用他們的搜索行為來代替,因此可以把這些網絡搜索數據加入到預測模型中。此外房地產市場還受到了政府宏觀調控的影響。該理論可以用圖1來表示。
1.被解釋變量
圖1供求理論框架圖
國家統(tǒng)計局從2011年1月份開始,就開始發(fā)布70個大中城市的新建商品房價格指數,分別包括新建住宅銷售價格指數和新建商品住宅銷售價格指數,由于在2018年1月就已經不公布新建住宅銷售價格指數,所以在此我們選取的是新建商品住宅銷售價格指數的同比指數來進行預測,通過對數據進行處理之后,我們使用的是2012年1月至2018年1月的扣除了一般物價因素影響的數據,數據見表1,此數據反映了房價的實際變動,具有可比性,我們將此數據作為被解釋變量,命名為Y。
表1剔除一般物價指數后的合肥市新建商品房價格指數的同比指數
2.解釋變量
考慮到房地產市場的各個主體,分別從供應、需求、政策三個因素中,確定7個初始關鍵詞,它們是樓盤、中國建材網、合肥市房產網、合肥房價、房價調控、房貸利率、住房公積金,然后再利用百度長尾關鍵詞工具得到102個關鍵詞,關鍵詞見表2。
分別對這102個關鍵詞進行百度指數的查詢,發(fā)現在102個關鍵詞中,有28個關鍵詞未被百度指數所收錄,因此在網站上爬取不到這28個關鍵詞的有效數據。在百度指數的頁面,輸入關鍵詞,再通過審查元素就可以得到網頁的源代碼,利用java和maven兩個軟件,可以抓取剩下的74個關鍵詞從2011年1月至2018年2月每天的搜索數據,將爬取到的關鍵詞天數據累加為月度數據,按照處理被解釋變量的方法對這些關鍵詞數據進行處理。又由于網絡搜索數據有很大的波動性,所以處理之后我們再用HP濾波法對數據進行長期趨勢的提取,得到初步的解釋變量。
表2部分關鍵詞數據
在這74個解釋變量中,首先需要進行簡單的篩選,剔除那些搜索記錄為0的變量,發(fā)現所選變量均未出現上述情況,然后對剩下的變量進行隨機性檢驗,然后再檢驗各個變量與被解釋變量的相關系數,相關系數如果小于0.4,認為顯著不相關,所以剔除。將相關系數絕對值大于0.4的變量留下,最后留下了36個變量。由于變量之間存在很嚴重的共線性,利用主成分分析法進行降維又存在很多問題,而lasso算法能夠有效處理多重共線性,它的基本思想是在回歸系數的絕對值之和小于一個常數的約束條件下,使得殘差最小化,從而可以將所選入的一些對模型沒有貢獻的指標系數直接壓縮為0,達到特征選擇或者壓縮變量的目的。在R語言中可以使用Lars函數包實現這一過程,利用AIC準則給統(tǒng)計模型的變量做一個截斷,實現降維過程。通過程序運行的結果,我們最終選用5個變量作為解釋變量,這五個變量代表的關鍵詞分別是房貸利率表,合肥房產地圖,房貸利率優(yōu)惠,房價調控,個人所得稅,我們將這五個變量依次命名為 X1、X2、X3、X4、X5,可以看出,這五個變量基本上未涉及到房地產開發(fā)商的行為,即使我們在確定初始關鍵詞的時候,選取了房地產開發(fā)商可能會進行搜索的關鍵詞,但是發(fā)現與我們所要研究的房價指數并沒有什么明顯的關系,所以在接下來的建模過程中,利用上述五個解釋變量可能會遺漏關于房地產開發(fā)商的影響因素,這也是文中的不足之處,但是由于技術水平的限制,如何找到與房價有關的供給方面的關鍵詞,還需要進一步的研究。
3.解釋變量與被解釋變量的關系
分別作出Y與X1-X5的折線圖,如圖2-6所示,可以看出,X1、X2、X3與 Y的整體趨勢剛好是相反的,而X4、X5與 Y的整體趨勢是相同的,盡管在某些時間內存在一些差異,因此利用搜索數據來預測房價指數是可行的。
圖2 Y與X1的雙軸圖
圖3 Y與X2的雙軸圖
圖4 Y與X3的雙軸圖
圖5 Y與X4的雙軸圖
圖6 Y與X5的雙軸圖
4.預測模型的建立與分析
(1)SVR 模型
SVR(支持向量機回歸)模型實際上是SVM(支持向量機)的一種推廣形式,支持向量機是目前最為常用、效果最好的分類器之一,因為其本身的優(yōu)化目標是結構風險化最小,而不是經驗風險最小,因此減低了對數據規(guī)模和數據分布的要求,能夠在小樣本訓練集上有突出的表現,SVM的提出首先是為了解決分類問題的,而SVR則是解決回歸問題的。因此這兩種模型的目標函數都是一樣的,與SVM相似,通過最小化結構風險函數構造的原始優(yōu)化問題可以求解權重向量以及常數:
(2)模型的評價指標
使用MSE(均方誤差)和NMSE(標準均方誤差)來比較兩個模型,其中,模型的穩(wěn)定性由MSE判定,模型的擬合度由NMSE判定,兩個評級指標的數值都是越小越好,兩個指標的公式如下:
考慮到需要檢驗模型的可靠性,我們將樣本分為訓練集和檢驗集,訓練集的時間區(qū)間為2012年1月至2017年12月,檢驗集的時間區(qū)間為2018年1月至2018年3月,以訓練集來建立模型,以檢驗集來檢驗模型的可靠性。
將數據導入R語言中,利用kernlab函數包來實現SVR的過程。在SVR中需要確定參數的最優(yōu)值,使用train.auto函數確定最優(yōu)值,得到最優(yōu)值為ε=0.1,C=10,通過運行已經寫好的程序,對訓練集進行擬合,計算出該模型的MSE和NMSE分別為2.34和0.018,可以看出模型的預測精度很好。為了驗證該模型的預測效果,我們引入傳統(tǒng)的時間序列模型SARIMA模型與其進行比較。
SARIMA模型是指帶季節(jié)差分ARIMA的模型,如果時間序列只包含趨勢性,可以表示ARIMA(p,d,q)模型,如果時間序列同時包含季節(jié)性和趨勢性,則可表示為 SARIMA(p,d,q)×(P,D,Q)s。 其中,d,D 分別為逐期差分和季節(jié)差分的階數,p,q分別為自回歸和移動平均的階數,P,Q分別為季節(jié)自回歸和季節(jié)移動平均的階數。
考慮到異方差的問題,在建立模型前,對數據都進行了取對數處理,然后導入數據,利用R軟件畫時序圖,發(fā)現房價指數序列存在季節(jié)性和趨勢性,利用zoo函數包和forecast函數包來實現SARIMA模型的預測,通過arima.auto函數尋找擬合最優(yōu)的模型,最終得到最優(yōu)的模型為 SARIMA (1,1,0)×(2,1,0)12,ar1的系數為 0.5638,sar1的系數為 0.6892,sar2的系數為-0.2759,該模型的MSE和NMSE分別為5.69和0.043。
通過訓練集的擬合結果來看,加入了搜索項的SVR模型要優(yōu)于僅使用歷史數據的SARIMA模型,為了推廣到未知樣本的情形,我們利用檢驗集再一次的檢驗兩個模型的預測效果,在此我們以平均誤差率來評價模型的精度,計算得到的平均誤差率見表3,可見如果未來發(fā)生波動,SARIMA模型由于只能利用歷史數據,預測效果就會變差,而SVR模型由于利用了即時的信息,預測效果不會發(fā)生很大的改變,因此可以利用SVR模型對合肥市的房價指數進行預測。 預測得到合肥市2018年4月的新建商品住宅銷售價格指數為106.25。(本文中的預測值均是扣除了一般物價指數因素后的值)
表3兩個模型的預測值及平均誤差率
本文首先從供需理論出發(fā),找到百度指數關鍵詞搜索數據與房價指數之間的相關關系,然后以合肥市2012年1月至2018年1月的新建商品住宅銷售價格指數以及“合肥房價”、“樓盤”、“建材網”等74個關鍵詞數據,通過lasso算法選取進入模型的關鍵詞,以此來對房價指數進行擬合與預測,得到結論:
1.加入搜索數據的SVR模型的預測效果要好于ARIMA模型,這說明網絡搜索數據是可以用于房價指數的預測中去的。
2.不僅僅是房價指數數據,只要能夠從理論出發(fā),利用網絡搜索數據可以對其他變量進行預測,比如股票的收益率,CPI指數、失業(yè)率等。
3.只要每個月月底對搜索數據進行處理,就能得到該月的房價指數,而官方數據發(fā)布時間通常是下個月15-20號,因此利用模型預測房價指數可以比官方數據提前15-20天,能夠實時的對房地產市場進行監(jiān)控,有很好的預警效果。
4.利用網絡搜索數據建立預測型,怎樣科學的選取關鍵詞是難點,在本文中,即使綜合考慮了三個方面的因素,也不能完全代表房地產市場的各種因素,這也是本文中存在缺陷的地方。百度指數上的關鍵詞搜索數據,并不能完全代表消費者和房地產開發(fā)商的整體行為,因為還有一部分人買房是通過其他搜索引擎或傳統(tǒng)方式 (傳統(tǒng)媒體或親戚朋友口耳相傳)收集信息的,所以下一步研究還得考慮到各個地區(qū)網絡普及率的情況。