姚 菲
(廣西師范大學數(shù)學與統(tǒng)計學院,廣西 桂林 541006)
隨著網(wǎng)絡技術的快速發(fā)展,高維數(shù)據(jù)出現(xiàn)在了生活中的各個領域,但并不是所有變量都是有價值的,這時變量選擇成為了高維數(shù)據(jù)建模必不可少的一部分,如何去選擇變量一直以來都是人們討論的焦點。
Tibshirani在1996年提出了一種變量選擇的方法LASSO,對模型系數(shù)施加L1懲罰,使不重要變量的系數(shù)壓縮到0,完成變量選擇;帶L1懲罰的稀疏神經網(wǎng)絡方法已被廣泛的應用和證明;將變量選擇的方法運用到實例中,李春林等利用LASSO回歸和XGboost模型分析了影響石家莊市房租價格的重要因素;田坤瑞在對北京市房租價格影響因素建立普通線性回歸模型的基礎上,考慮空間的非平穩(wěn)性添加空間權重,建立地理加權回歸模型,效果比普通線性回歸模型更好;郭茹夢探究了北京市合租房價格的影響因素,將隨機森林和XGboost模型的預測性能進行了比較,XGboost模型的預測效果更好,并對變量重要性進行了排序;張英婕等將房屋的基本信息、GIS數(shù)據(jù)和周邊環(huán)境的POI數(shù)據(jù)相結合,建立多元線性回歸模型探究房租價格的影響因素;范雅靜等對北京市房租價格影響因素建立廣義線性模型進行研究;李英冰等基于武漢市二手房的區(qū)位特征、建筑特征和鄰里特征構建BP神經網(wǎng)絡模型,預測二手房價格效果良好;劉洋用BP神經網(wǎng)絡預測北京市二手房價時,在房屋基本信息的基礎上增加了百度地圖API的信息,得出預測的準確性有所提高。
房價一直居高不下,許多年輕人因為買不起房,而選擇了租房這一生活方式。長沙市作為湖南省省會,有大批的年輕人來到這里尋求工作崗位,租房需求量較大,探究房租價格的影響因素,有利于政府對租房市場更好的管控,提高人民的幸福感。在已有的研究成果中,對房租價格影響因素的研究非常少,大多數(shù)構建的都是線性模型,而影響房租價格的因素錯綜復雜,房租價格可能呈現(xiàn)非線性變化,這時傳統(tǒng)的線性模型擬合出來的效果可能不佳,而BP神經網(wǎng)絡具有極強的非線性逼近能力,對模型的要求不高,是目前最常用的神經網(wǎng)絡模型之一。本文建立稀疏BP神經網(wǎng)絡模型,探究影響長沙市中心城區(qū)房租價格的重要因素。
房租價格的影響因素眾多,并不是所有的因素都對其有重要作用,本節(jié)將介紹稀疏BP神經網(wǎng)絡模型,該方法能對候選指標進行變量選擇。BP神經網(wǎng)絡是一種按誤差逆?zhèn)鞑ニ惴ㄓ柧毜亩鄬忧梆伨W(wǎng)絡,它由輸入層、隱藏層和輸出層構成,三層BP神經網(wǎng)絡如圖1所示。當學習樣本輸入后,信息經由各層向輸出層傳遞。之后根據(jù)減少目標輸出與實際輸出誤差的原則,從輸出層反向經過各層至輸入層,逐級修正各連接的權值。m層神經網(wǎng)絡公式如1式所示。
圖1 三層BP神經網(wǎng)絡
在數(shù)據(jù)是高維的情況下,如果把所有變量都引入到模型中,參數(shù)過多,模型過于復雜容易造成過擬合,變量選擇是建模過程中非常重要的一步。對神經元權重施加L1懲罰,如2式所示,梯度下降是近似求解使得權重壓縮不到0,但可以將不重要變量的權重壓縮至很小,從而起到變量選擇的作用。
定義輸入層自變量集合x=(x,x,x…x),提取輸入層到隱藏層的所有權重,進行如3式所示的計算,得到各自變量的權重相加值,多次模擬后設置一個閾值p,如果a<p,k∈(1,2,3…s)視為將其壓縮至0,剔除自變量x,完成變量選擇。
模擬生成服從標準正態(tài)分布的樣本數(shù)據(jù)集,樣本數(shù)為10000,變量個數(shù)為1000,假定真實模型為:
其中,ε~N(0,1)與x相互獨立,一般來說神經網(wǎng)絡模型越復雜,結果準確度越高,但增加了訓練時間,容易導致過擬合現(xiàn)象的出現(xiàn)。將稀疏BP神經網(wǎng)絡的層數(shù)設置為三層,包含一層隱藏層,構建一個1000-3-1的稀疏BP神經網(wǎng)絡,激活函數(shù)均選擇tanh函數(shù)。設置迭代次數(shù)epochs為100,每500個樣本進行一次權重更新,loss函數(shù)采用均方誤差,L1正則化的學習率設置為0.1。
將數(shù)據(jù)集打亂,對其按8:1:1的比例劃分為訓練集、驗證集和測試集。構建稀疏BP神經網(wǎng)絡模型,進行100次訓練,完成如3式所示的計算,設置閾值為0.01,變量的權重相加值小于閾值,視為將其壓縮至0,剔除該變量完成訓練。其訓練集和驗證集的損失函數(shù)值如圖2所示,可見訓練集和驗證集的損失函數(shù)值接近重合,并且在不斷減小,最后趨于平穩(wěn),稀疏BP神經網(wǎng)絡達到一個比較良好的訓練性能。
圖2 訓練集驗證集損失函數(shù)值
結果如表1所示,錯誤選擇率和負選擇率的值均為0,說明稀疏BP神經網(wǎng)絡模型具有良好的變量選擇性能,均方預測誤差和均方擬合誤差都較小,說明其預測和擬合效果也非常不錯。
表1 模型性能結果表
貝殼找房網(wǎng)是一個為消費者提供包括二手房、新房、租賃和家裝等全方位居住服務的平臺。利用python對貝殼找房網(wǎng)上長沙市中心城區(qū)的租房信息進行爬取,由于網(wǎng)站只顯示100頁,所以分別對雨花區(qū)、岳麓區(qū)、天心區(qū)、開福區(qū)、芙蓉區(qū)的租房基本信息進行爬取,周邊環(huán)境如1km以內的地鐵醫(yī)院數(shù)量等信息通過百度地圖API獲得,返回的結果最大為10,但實際數(shù)量可能比10更多,共爬取到9267條數(shù)據(jù)。比對以往的文獻資料,結合貝殼找房網(wǎng)上顯示的信息,房租價格作為因變量,選出以下18個指標作為自變量進行研究。
由于爬取出來的數(shù)據(jù)存在缺失、重復和未知的現(xiàn)象,為了更好地進行后續(xù)研究,對原始數(shù)據(jù)進行如下處理:對重復的租房信息進行刪除處理;對指標存在大量缺失的租房信息進行刪除處理;存在16條租賃方式未知的租房信息,房租都在2500元以上判斷為整租;用水用電燃氣情況存在大量暫無數(shù)據(jù)的租房信息,直接刪除會導致數(shù)據(jù)分布發(fā)生偏差影響結果的準確性,故將暫無數(shù)據(jù)記為0。最后整理出7943條租房信息。
表2 候選指標說明
如圖3所示,房租價格大多集中在1000-4000元之間,2000-3000元附近分布最為密集,呈現(xiàn)偏態(tài)分布。對其進行對數(shù)化處理,使數(shù)據(jù)更加平穩(wěn),消除異方差性便于計算。
圖3 房租價格頻數(shù)柱形圖
數(shù)據(jù)集中不同屬性的變量量綱不一致,會影響結果的準確性,利用6式對數(shù)據(jù)集進行歸一化處理,將數(shù)據(jù)范圍控制在[0,1]之間,盡可能消除外界因素對結果的影響。將數(shù)據(jù)集打亂,對其按8:1:1的比例劃分為訓練集、驗證集和測試集。
將稀疏BP神經網(wǎng)絡的層數(shù)設置為三層,輸入層的節(jié)點數(shù)應與自變量個數(shù)相匹配即為18,輸出層的節(jié)點數(shù)應與因變量的個數(shù)相匹配即為1,確定隱藏層節(jié)點數(shù)的經驗公式如7式所示。其中a為輸入層節(jié)點個數(shù),b為輸出層節(jié)點個數(shù),c為常數(shù),取值范圍在1-10之間,則隱藏層節(jié)點數(shù)取值范圍應在5-14之間。
對含不同隱藏層節(jié)點數(shù)的稀疏BP神經網(wǎng)絡分別進行10次測試,訓練誤差取10次的均值比較其結果,如表3所示,節(jié)點數(shù)為8時,平均訓練誤差最小,則設置隱藏層節(jié)點數(shù)為8個。激活函數(shù)均選擇relu函數(shù)。
表3 訓練誤差比較表
設定好以上參數(shù)后,每次訓練進行100次迭代,每500個樣本進行一次權重更新,loss函數(shù)采用均方誤差,L1正則化的學習率設置為0.01。完成稀疏BP神經網(wǎng)絡的訓練之后,進行3式所示的計算,得到18個自變量的權重相加值,進行100次模擬,設置閾值為0.01,變量權重相加值小于閾值視為壓縮至0,剔除該變量。權重相加值小于閾值的變量,即被剔除的變量如下表所示,可以看出所屬地區(qū)、樓層、朝向、用水情況、用電情況、1km以內小學數(shù)量、1km以內中學數(shù)量這7個變量的權重相加值每次都小于閾值,故將這7個變量剔除。
對于剩下的11個自變量,將權重相加值進行從大到小排序,分別為租賃方式、衛(wèi)生間數(shù)量、臥室數(shù)量、客廳數(shù)量、面積、是否精裝修、有無電梯、1km以內地鐵數(shù)量、1k m以內醫(yī)院數(shù)量、1k m以內商場數(shù)量、有無燃氣。
表4 100次模擬被剔除變量
可見房屋屬性的指標對房租價格的影響最大,人們在租房的時候首要考慮的還是房屋本身的構造;配套設施影響最大的是有無電梯,電梯是高樓層的必備,后期的維護也需要一定的費用;周邊環(huán)境影響最大的是1k m以內地鐵數(shù)量,地鐵快捷方便不會擁堵,是大城市中人們出行的主要方式之一,租房時交通是否便利是人們非常關注的方面。
本文基于稀疏B P神經網(wǎng)絡探究了長沙市中心城區(qū)房租價格的影響因素,找出了影響房租價格的重要指標。首先利用模擬生成的標準正態(tài)數(shù)據(jù),從錯誤選擇率、負選擇率、均方預測誤差和均方擬合誤差這幾個指標說明了該模型在變量選擇、預測和擬合性能方面的優(yōu)良性。將該模型引入到實例應用中,探究影響長沙市中心城區(qū)房租價格的重要因素。
在房屋屬性方面,租賃方式、房屋戶型、面積和是否精裝修對房租價格有著重要影響,而租房不同于買房,能夠隨時變動自由性大,所以房屋的樓層和朝向是人們較少關注的,房東在進行住房改造的時候可以著重考慮這幾點,加快房屋的出租速度;在配套設施方面,有無電梯和燃氣對房租的影響更大,用電用水情況對房租影響較小;在周邊環(huán)境方面,1k m以內的地鐵醫(yī)院商場數(shù)量對房租價格影響更大,地鐵越多說明交通越便利,商場越密集說明人流量越大,醫(yī)院也是生活中必不可少的一部分,政府可以加強城市郊區(qū)的房屋周邊配套設施建設,改善租戶的居住環(huán)境,大部分租房的群體都是沒有孩子的年輕人,對教育的需求不大,所以1k m以內的中小學數(shù)量對房租價格的影響很小。隨著越來越多的人涌入大城市,租房需求量不斷增加,政府應該出臺更多的政策規(guī)范租房市場,抑制房租的快速上漲,提高人民的生活滿意度。
本文研究還存在相應的不足:變量選擇的方法還有S CA D、Elastic Net等,可以將這些方法引入到B P神經網(wǎng)絡中進行變量選擇;房租會受到時間的影響,例如畢業(yè)季租房的需求量大增,而數(shù)據(jù)僅來源于2021年11月的某段時間存在局限性,可以加大時間的跨度;本文只研究了18個指標對房租價格的影響,租金的影響因素還有很多,在未來可以加入更多的指標進行研究。