陸曉炘
(廣西師范大學,桂林 541000)
廣州作為超一線城市擁有大量的外來定居人口,買房成為了許多人關(guān)心的事情。二手樓價影響因素錯綜復雜,吸引了不少學者對其進行研究,溫海珍等通過HPM 得出杭州市房價的主要影響因素是建筑面積、樓齡等9 個因素。文獻[1-2]從影響樓價的微觀因素入手,得出事實上教育和娛樂的便利程度也是人們買房時不得不考慮的因素的結(jié)論;哈巍等探究了學區(qū)房的溢價問題,表明附近的學校數(shù)量對樓價有一定的影響;繆格等得出了地鐵、商圈、教育都是武漢二手房價格的影響因素的結(jié)論。
隨著二手樓價研究的發(fā)展,其影響因素包括宏觀、微觀加起來有很多,這時普通的回歸方法很容易造成過擬合,使得分析效果不佳,此外,由于真模型不一定為線性,所以需要考慮更一般的模型。神經(jīng)網(wǎng)絡是機器學習中用于對函數(shù)進行估計和近似計算的模型,不局限于線性模型,在樓價預測上有較好的估計效果。文獻[6-8]的研究對樓價建立BP 神經(jīng)網(wǎng)絡預測模型,所建模型均為適用于維度不高情形的全連接神經(jīng)網(wǎng)絡,但并沒有對樓價的影響因素作詳細分析。高鳳偉等建立神經(jīng)網(wǎng)絡模型并使用擾動法識別各影響因素的重要程度,但由于該方法計算復雜且無法提供可靠的參數(shù)變化,不適用于高維稀疏問題;Glorot等表明稀疏神經(jīng)網(wǎng)絡通??梢愿纳艱NN 的訓練和預測性能;FENG等提出在輸入權(quán)重上擬合一個帶有Lasso 懲罰的神經(jīng)網(wǎng)絡,表明了稀疏輸入神經(jīng)網(wǎng)絡優(yōu)于現(xiàn)有的非參數(shù)高維估計方法;YE 等提出了利用懲罰神經(jīng)網(wǎng)絡逼近復雜系統(tǒng)的方法,并通過測量解釋變量對響應變量方差的解釋效用來選擇解釋變量,證明了該方法在樣本容量趨于無窮大時,能夠以概率1選擇相關(guān)變量并排除不相關(guān)變量;MA 等將變換后的正則化器應用于網(wǎng)絡權(quán)值矩陣空間,提出了一種有效的隨機近端梯度算法求解新模型,并證實了該方法的有效性; SUN 等提出用頻率方法學習稀疏DNN,并在貝葉斯框架下證明其后驗一致性,變量選擇一致性和漸近最優(yōu)泛化。
稀疏神經(jīng)網(wǎng)絡是有效用于解決模型過參數(shù)化的方法,因此,本文以廣州市二手樓價為例,結(jié)合爬蟲和高德地圖API 獲取包括微觀因素與宏觀因素的二手樓信息,對數(shù)據(jù)進行預處理后建立稀疏神經(jīng)網(wǎng)絡,并對所獲取的因素作變量選擇,分析廣州市二手樓價的主要影響因素。
神經(jīng)網(wǎng)絡模型包含輸入層、隱藏層、輸出層3部分,假設模型為U層神經(jīng)網(wǎng)絡,輸入層為變量矩陣=(,,…,X),第1 層的神經(jīng)元個數(shù)為,則個樣本通過激活函數(shù)進入第一層神經(jīng)元的函數(shù)如下:
從第層神經(jīng)網(wǎng)絡輸出矩陣的計算中不難發(fā)現(xiàn),第層神經(jīng)網(wǎng)絡的輸出矩陣是由第- 1層神經(jīng)網(wǎng)絡的輸出矩陣迭代而來,既第層神經(jīng)網(wǎng)絡的輸出矩陣的計算表達式可以改寫為=( ),其中為神經(jīng)網(wǎng)絡第層的激活函數(shù),使用激活函數(shù)是為了加入非線性因素,使得模型可以近似到非線性函數(shù),全神經(jīng)網(wǎng)絡的運行算式表達為:
(,,)為最終的輸出層。
神經(jīng)網(wǎng)絡的反向傳播是通過計算總誤差達到權(quán)重更新的過程,常用的優(yōu)化算法是梯度降法。均方誤差是用于度量估計值與真實值之間差異程度的指標。
在高維情況下,響應變量通常滿足稀疏性假設,本文選用加正則化均方誤差函數(shù)作為神經(jīng)網(wǎng)絡反向傳播的損失函數(shù),通過懲罰權(quán)重的方式達到變量選擇效果。
本文從房天下網(wǎng)站(https://gz.esf.fang.com/)爬取廣州市二手樓數(shù)據(jù)樣本共15854個,每個樣本數(shù)據(jù)有14 條信息,同時考慮到宏觀因素的影響,本文通過連接高德地圖API 來獲取房屋周邊信息變量共6個,所獲取的變量如表1所示。
表1 變量
大量的數(shù)據(jù)中容易出現(xiàn)數(shù)據(jù)缺失的情況,本文采用平均值填補缺失的方式對物業(yè)費,綠化率,容積率中的缺失數(shù)據(jù)進行填補,用數(shù)據(jù)剔除的方式對其余缺失數(shù)據(jù)進行處理,最后剩下15796個有用的樣本。
對二手房屋的價格進行描述分析后,從圖1可看出廣州市二手樓價呈偏態(tài)分布,所以本文在建立神經(jīng)網(wǎng)絡前先對樓價變量進行對數(shù)化,所得結(jié)果如圖2所示呈正態(tài)分布。
圖1 二手樓價分布圖
圖2 對數(shù)化后二手樓價分布圖
將數(shù)據(jù)打亂后按8.7∶0.7∶0.6 的比例把數(shù)據(jù)分為訓練集、驗證集和測試集,建立20-5-1 神經(jīng)網(wǎng)絡模型,選用relu 函數(shù)() = max(0,)作為第一個隱藏層的激活函數(shù),tanh 函數(shù)作為輸出層的激活函數(shù),反向傳播使用梯度下降法進行100 次迭代,分別對參數(shù)為= 0.01,=0.005,= 0.002,= 0.001,= 0 的神經(jīng)網(wǎng)路進行20 次建模,在= 0.001 的情況下,計算剔除概率大于90%的變量個數(shù),所得預測誤差情況與變量剔除情況如表2所示。
表2 不同正則化參數(shù)下預測效果對比
從表2的平均均方誤差和均方誤差極差可以看出,正則化參數(shù)為0.002 時模型估計效果與穩(wěn)定性最好,而且對于本文例子而言,= 0.002的稀疏神經(jīng)網(wǎng)絡模型與普通神經(jīng)網(wǎng)絡模型相比有在剔除冗余變量的同時能降低預測誤差的優(yōu)點,所以最終建立= 0.002 的稀疏神經(jīng)網(wǎng)絡并對數(shù)據(jù)進行50 次建模,對每一次第一層網(wǎng)絡的權(quán)重絕對值求和,權(quán)重和∑| |≤0.001 的變量則為不入選變量,其中10 次建模剔除變量情況如表3所示。
表3 其中10次剔除變量的下標
其中最近地鐵距離,1500 米內(nèi)三甲醫(yī)院數(shù)量,500 米內(nèi)市場、便利店數(shù)量,房間數(shù),客廳數(shù),衛(wèi)生間數(shù),樓齡,物業(yè)費,綠化率的剔除概率均大于90%,面積,裝修風格的剔除概率均大于80%,最后認為500 米內(nèi)地鐵數(shù)量,1000 米內(nèi)中小學數(shù)量,1000米內(nèi)商場數(shù)量,所屬地區(qū),朝向,樓層,有無電梯,容積率,建筑類型為影響廣州市二手樓價的主要影響因素,面積,裝修風格為影響廣州市二手樓價的次要影響因素,其中500 米內(nèi)地鐵數(shù)量,1000 米內(nèi)中小學數(shù)量,朝向,有無電梯的權(quán)重絕對值和以10 倍數(shù)量大于其余變量,可以認為這4個變量為影響廣州市二手樓價的最主要因素。
從稀疏神經(jīng)網(wǎng)絡變量選擇的結(jié)果可看出,交通便利、教育便利、購物便利是許多人買二手房時的主要考慮因素,也側(cè)面說明了學區(qū)房導致樓價泡沫并非無稽之談。房屋朝向和有無電梯則直接影響買家的入住體驗,買家在這方面的強調(diào)符合現(xiàn)代人尤其是年輕人一切效率至上又注重養(yǎng)生的特點。其中面積不再成為廣州市二手樓價的主要影響因素,反而二手樓房附近的交通情況、學校數(shù)量、商業(yè)發(fā)展情況、所屬區(qū)更能反映樓價高低,這點說明了二手樓房所在區(qū)域的發(fā)展對當?shù)貥莾r的影響之大。
本文利用二手樓房網(wǎng)絡數(shù)據(jù),對廣州市二手樓價建立稀疏神經(jīng)網(wǎng)絡模型,在給定閾值的情況下得出500 米內(nèi)地鐵數(shù)量,1000 米內(nèi)中小學數(shù)量,朝向,有無電梯為廣州市二手樓價的最主要影響因素,結(jié)論符合時代特點。其中所屬區(qū)域發(fā)展情況對二手樓價的影響比房屋面積大這點值得引起我們的思考,亦可以從中得到一些啟發(fā),比如可以引入不同區(qū)域的人均GDP作為變量代表該區(qū)域的經(jīng)濟發(fā)展狀態(tài),引入不同區(qū)域10年內(nèi)是否有政府發(fā)展項目作為變量代表該區(qū)域房屋的升值空間,這樣把更多宏觀因素考慮在內(nèi),可以得出更具地域特點的分析結(jié)果。