一種基于隨機(jī)森林和Light GBM 的房產(chǎn)估價(jià)模型?

2024-04-17 07:29:02馮梓豪劉從軍

計(jì)算機(jī)與數(shù)字工程 2024年1期

馮梓豪劉從軍，2

（1.江蘇科技大學(xué)計(jì)算機(jī)學(xué)院鎮(zhèn)江 212000）（2.江蘇科大匯峰科技有限公司鎮(zhèn)江 212000）

1 引言

隨著房地產(chǎn)市場(chǎng)化和市場(chǎng)經(jīng)濟(jì)體制的發(fā)展，房產(chǎn)評(píng)估需求迅速增加，近年來(lái)國(guó)內(nèi)外有大量學(xué)者對(duì)房地產(chǎn)評(píng)估問(wèn)題展開(kāi)了研究，例如：楊燦通過(guò)Light GBM 模型對(duì)二手房進(jìn)行評(píng)估［15］。Lu等提出了一種基于Lasso和梯度提升回歸的組合模型用于評(píng)估房?jī)r(jià)［19］。陳敏等建立了一種神經(jīng)網(wǎng)絡(luò)分級(jí)模型來(lái)對(duì)二手房?jī)r(jià)進(jìn)行評(píng)估［7］。楊磊以特征價(jià)格為理論基礎(chǔ)構(gòu)建了二手房?jī)r(jià)格評(píng)估模型，在其中應(yīng)用了地理信息技術(shù)系統(tǒng)技術(shù)實(shí)現(xiàn)了房產(chǎn)估價(jià)［13］。但上述方法在特征選擇和運(yùn)行效率方面還存在改進(jìn)的空間。

本文的主要工作如下：基于學(xué)者Butler提出的房地產(chǎn)價(jià)格理論，提出時(shí)間特征作為房產(chǎn)價(jià)格評(píng)估的特征。通過(guò)隨機(jī)森林算法對(duì)特征重要性進(jìn)行排序，剔除對(duì)預(yù)測(cè)值影響較小的特征，再通過(guò)網(wǎng)格搜索對(duì)模型進(jìn)行優(yōu)化，最后使用訓(xùn)練好的模型對(duì)房產(chǎn)價(jià)值進(jìn)行預(yù)測(cè)。

2 模型建立

2.1 隨機(jī)森林特征選擇算法

隨機(jī)森林算法是在傳統(tǒng)決策樹(shù)算法的基礎(chǔ)應(yīng)用統(tǒng)計(jì)學(xué)采樣原理上構(gòu)建的一種聚合算法，常用于回歸問(wèn)題和分類問(wèn)題。隨機(jī)森林具有高精度的特性，并且具有良好的魯棒性。它通過(guò)結(jié)合多個(gè)決策樹(shù)來(lái)構(gòu)建模型，每個(gè)決策樹(shù)的建立都是基于獨(dú)立抽取的樣本。在分裂節(jié)點(diǎn)時(shí)，它依賴于不純度指標(biāo)和袋外數(shù)據(jù)錯(cuò)誤率來(lái)做出決策。

傳統(tǒng)的隨機(jī)森林重要特征性度量方法是對(duì)每一個(gè)特征隨即置換并由隨機(jī)森林對(duì)特征置換后生成新的袋外數(shù)據(jù)進(jìn)行測(cè)試，當(dāng)特征的重要程度越高，隨機(jī)森林的預(yù)測(cè)誤差率的變化就會(huì)越大，現(xiàn)假設(shè)隨機(jī)森林中的決策樹(shù)目為Ttree，原始數(shù)據(jù)集由N個(gè)特征，單特征Xi（i=1，2，3…，N）的基于OOB 誤差分析的特征重要性度量如下：

1）計(jì)算第i棵決策樹(shù)相應(yīng)的袋外數(shù)據(jù)的錯(cuò)誤樣本數(shù)ErrrorOOBi。

3）重復(fù)1）、2）步驟得到所有的錯(cuò)誤樣本以及隨機(jī)調(diào)整順序后的錯(cuò)誤樣本。

4）計(jì)算所有決策樹(shù)特征簇Xji置換前后OOB分類誤差率的平均變化量：

2.2 Light GBM模型

Light GBM 是由微軟DMTK 團(tuán)隊(duì)開(kāi)源發(fā)布的，是一個(gè)輕量級(jí)的GB框架，基于決策樹(shù)的學(xué)習(xí)算法，支持分布式。其算法流程如下：

1）初始化n 課決策樹(shù)，每個(gè)訓(xùn)練樣例的權(quán)重為1/n。

2）訓(xùn)練弱分類器f（X）。

3）設(shè)置該弱分類器的話語(yǔ)權(quán)β。

4）更新權(quán)重。

5）得到最終分類器，表達(dá)式如下：

Light GBM 模型使用了直方圖做差加速和Leaf-wise 生長(zhǎng)策略，降低了模型的運(yùn)算速度和內(nèi)存消耗，直方圖算法示意圖如圖1，Leaf-wise 生長(zhǎng)策略如圖2所示。

圖1 直方圖算法示意圖

圖2 Leaf-wise生長(zhǎng)策略

2.3 RF_lightGBM模型

基于Light GBM 的高效率和高準(zhǔn)確率以及低內(nèi)存消耗，選擇以Light GBM 建立房產(chǎn)價(jià)格預(yù)測(cè)模型，同時(shí)以混淆矩陣計(jì)算特征的準(zhǔn)確度、精度等指標(biāo)檢驗(yàn)隨機(jī)森林選擇的特征是否有效，然后將經(jīng)過(guò)特征選擇之后的數(shù)據(jù)輸入Light GBM 算法進(jìn)行學(xué)習(xí)，采用網(wǎng)格搜索優(yōu)化尋參過(guò)程，通過(guò)網(wǎng)格搜索得到模型的超參數(shù)，Python 提供的scikit-learn 庫(kù)可幫助找到最合適的超參數(shù)。模型如圖3所示。

圖3 RF_Light預(yù)測(cè)模型流程圖

3 特征選擇與超參數(shù)調(diào)整

3.1 特征選擇

特征價(jià)格理論是房地產(chǎn)評(píng)估領(lǐng)域的重要理論之一，由Ridker 首次引入。該理論認(rèn)為，房地產(chǎn)作為一種商品，其價(jià)格不僅僅取決于其地理位置、建筑質(zhì)量等單一因素，而是所有特征屬性的效用之和。這些特征屬性包括房屋的面積、房齡、裝修程度、周邊設(shè)施等等。每一個(gè)特征屬性都會(huì)對(duì)房地產(chǎn)的總效用產(chǎn)生影響，從而影響其價(jià)格。學(xué)者Butler將影響房地產(chǎn)價(jià)格的因素進(jìn)行了整合分類，提出了三類適用的特征變量，包括區(qū)位特征，結(jié)構(gòu)特征以及鄰里環(huán)境。根據(jù)Butler 的理論，房產(chǎn)價(jià)格可以描述為P=f(L,S,N)。

該方程在特征價(jià)格理論公式的基礎(chǔ)上將變量分為三類，分別是L-區(qū)域特征，S-結(jié)構(gòu)特征，N-鄰里環(huán)境。

本文在Butler提出的價(jià)格理論上，提出假如T-時(shí)間特征，則房產(chǎn)價(jià)格可描述為P=f(L,S,N,T)。

本文共設(shè)定35 個(gè)量化指標(biāo)，其中區(qū)域特征如表1所示。

表1 區(qū)域特征表

鄰里環(huán)境如表2所示。

表2 鄰里環(huán)境表

結(jié)構(gòu)特征如表3所示。

表3 結(jié)構(gòu)特征表

時(shí)間特征如表4所示。

表4 時(shí)間特征表

將上述特征使用隨機(jī)森林進(jìn)行重要度進(jìn)行排序，得出的排序后的特征如圖4所示。

圖4 排序后特征

3.2 Light GBM超參數(shù)調(diào)整

模型的超參數(shù)是通過(guò)網(wǎng)格搜索和五折交叉驗(yàn)證得到的，本文使用Python 庫(kù)scikit-learn 中的GridSearchCV 方法來(lái)搜索最優(yōu)超參數(shù)。優(yōu)化了增強(qiáng)迭代次數(shù)、梯度增強(qiáng)算法的步長(zhǎng)、最大樹(shù)深、一棵樹(shù)中最大葉子數(shù)、葉子中最小樣本數(shù)、葉子中最小Hessian和。具體參數(shù)如表5所示。

表5 Ligh GBM超參數(shù)表

4 實(shí)驗(yàn)結(jié)果

為保證模型的普適性和在真實(shí)場(chǎng)景中的準(zhǔn)確性，本次實(shí)驗(yàn)使用的數(shù)據(jù)為公開(kāi)的房產(chǎn)數(shù)據(jù)集。

將數(shù)據(jù)進(jìn)行數(shù)據(jù)清理后，共得到63725 條數(shù)據(jù)，將其按照70%為訓(xùn)練數(shù)據(jù)，30%為測(cè)試數(shù)據(jù)進(jìn)行劃分。

使用RF_LightGBM 模型對(duì)準(zhǔn)備好的數(shù)據(jù)進(jìn)行了預(yù)測(cè)，得到了預(yù)測(cè)價(jià)格和實(shí)際價(jià)格的平均值為2566.7 元，平均相對(duì)誤差為4.28%。測(cè)試集中的大部分誤差在0%～15%之間，占比為98.72%。具體的相對(duì)誤差分布情況如表6所示。

表6 相對(duì)誤差分布情況表

表7 隨機(jī)森林超參數(shù)表

表8 XGBoost超參數(shù)表

本文比較了RF_LightGBM 模型的房產(chǎn)價(jià)值評(píng)估模型與目前研究或行業(yè)中常用的評(píng)估方法。本文選取了兩種方法進(jìn)行比較，分別是隨機(jī)森林模型和XGBoost模型，并給出了這兩種模型的參數(shù)設(shè)定。

為了合理地評(píng)價(jià)模型的綜合性能，本文以平均絕對(duì)誤差（MALE）和隊(duì)數(shù)均方根差（RMSLE）作為模型的評(píng)價(jià)指標(biāo)。MALE 能更好地反映觀測(cè)值誤差的實(shí)際情況，而RMSLE 則是用來(lái)衡量觀測(cè)值和真實(shí)值之間的偏差，其計(jì)算公式如下：

其中pi表示實(shí)際的房?jī)r(jià)，而pi表示模型預(yù)測(cè)的房?jī)r(jià)。各模型對(duì)比結(jié)果如表9所示。

表9 模型結(jié)果比對(duì)表

三種預(yù)測(cè)模型得出的平均房?jī)r(jià)（元/m2）得出的柱狀圖如圖5所示。

圖5 預(yù)測(cè)房屋均價(jià)比較圖

從表9 可以看出RF_LightGBM 模型性能明顯優(yōu)于隨機(jī)森林，XGBoost 等深度學(xué)習(xí)模型。從圖5可以看出RF_LightGBM 模型預(yù)測(cè)的房屋均價(jià)相對(duì)于隨機(jī)森林和XGBoost 模型更加貼近真實(shí)數(shù)據(jù)，且存在偏差較小。

5 結(jié)語(yǔ)

隨著信息技術(shù)的飛速發(fā)展，大數(shù)據(jù)、人工智能等技術(shù)為企業(yè)和社會(huì)帶來(lái)了前所有的機(jī)遇，本文在傳統(tǒng)的預(yù)測(cè)模型上，提出了RF_LightGBM 模型，使用隨機(jī)森林對(duì)特征進(jìn)行選取和重要度排序，將預(yù)測(cè)過(guò)后的特征數(shù)據(jù)使用Light GBM 模型進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)表明，所提模型準(zhǔn)確率優(yōu)于隨機(jī)森林，XGBoost等學(xué)習(xí)模型，房產(chǎn)評(píng)估結(jié)果也更加貼近實(shí)際值。

在未來(lái)的工作中，結(jié)合我國(guó)基本國(guó)情與政策，通過(guò)人文因素，經(jīng)濟(jì)環(huán)境因素等進(jìn)一步提取和細(xì)化對(duì)房產(chǎn)產(chǎn)生影響的因子，提高評(píng)估結(jié)果的精度和模型的普適性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡