国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

引入深度學習的城市基準地價評估模型研究

2018-11-10 06:28:22華,羅平,張
中國土地科學 2018年9期
關鍵詞:訓練樣本網(wǎng)絡結構基準

王 華,羅 平,張 杰

(1.國土資源部城市土地資源監(jiān)測與仿真重點實驗室,廣東 深圳 518034;2.鄭州輕工業(yè)學院計算機與通信工程學院,河南 鄭州 450002)

城鎮(zhèn)基準地價是指在城市特定區(qū)域內(nèi),根據(jù)土地用途、利用條件相似原則劃分均質區(qū)域,并評估出各地價區(qū)段在某一時點的平均水平價格[1]。城鎮(zhèn)基準地價成果能夠反映土地市場的時空演變格局,并且對于土地資源優(yōu)化配置及土地利用效益最大化具有重要意義[2]。

城鎮(zhèn)基準地價與其影響因素之間存在著復雜的非線性映射關系,很難通過某種確定的數(shù)據(jù)模型來準確描述和表達。中國在基準地價評估工作實踐當中常用的方法包括算術平均模型[3]、線性、指數(shù)等回歸統(tǒng)計模型[4-7],算數(shù)平均模型的缺陷在于其計算結果嚴重依賴于均質區(qū)域內(nèi)樣點的空間及數(shù)量分布情況,回歸模型直接模擬土地級別與樣點地價之間的數(shù)學關系進而確定某一級別基準地價,但該模型需要預先人為確定影響因素權值,具有很大的主觀性、經(jīng)驗性與不確定性,導致其預測精度受到一定限制[8]。有研究人員嘗試利用模糊數(shù)學[9-10]以及云模型[11]等方法來改進傳統(tǒng)回歸模型,但上述方法更為關注定性因素的評估量化,仍忽略了地價因素權值確定問題。部分學者認為地價樣本空間分布不均衡,聚集或者稀缺現(xiàn)象均會出現(xiàn),導致數(shù)據(jù)存在一定空間相關性,為消除變量本身的空間自相關對回歸結果的影響,引入了Kriging空間分析法[12-14]來構建地價求解方程,但該方法也未考慮影響因素權重取值主觀性這一問題。人工神經(jīng)網(wǎng)絡模型具有自主學習地價樣本特征的優(yōu)勢,近十幾年來在基準地價評估研究中獲得廣泛應用[15-18]。它不需要確定權重,克服了多因素權重確定主觀性強的缺陷,并可利用多層神經(jīng)網(wǎng)絡建立地價與影響因素之間的映射關系。還有學者將支持向量機(Support Vector Machine, SVM)模型用于確定城鎮(zhèn)基準地價評估,通過與傳統(tǒng)回歸模型及人工神經(jīng)網(wǎng)絡對比表明該方法在基準地價測算方面具有優(yōu)越性[19]。無論是人工神經(jīng)網(wǎng)絡模型或者支持向量機都屬于淺層學習算法,在訓練樣本及計算單元受限的情況下對城市地價及其影響因素之間的復雜函數(shù)的表示能力會受到一定制約[20]。

近些年興起的深度學習技術由于擁有多層非線性映射網(wǎng)絡層,使其獲得較強的復雜函數(shù)擬合能力,在復雜分類、識別、預測等問題的解決中獲得了廣泛應用,并取得良好的效果和效率[21-22]。深度學習可以看作神經(jīng)網(wǎng)絡的發(fā)展,Hinton等[23]認為深層神經(jīng)網(wǎng)絡結構可以學習到對象更深刻更本質的特征。因此本文嘗試選擇深度學習的經(jīng)典算法深度置信網(wǎng)絡[24](Deep Belief Network, DBN)來構建城鎮(zhèn)基準地價評估模型,并以湖北省武漢市基準地價評估為實例,對基于深度學習的城鎮(zhèn)基準地價評估模型的建立流程及模型優(yōu)化方法進行了探討和研究。

1 基于深度學習的城鎮(zhèn)基準地價評估模型

1.1 深度置信網(wǎng)絡理論

1.1.1 深度置信網(wǎng)絡結構

深度學習是一類新興的多層神經(jīng)網(wǎng)絡學習算法,通過多隱層感知器來組合低層特征形成更加抽象的高層表示,自動地學習得到層次化的特征表示,從而有助于提高分類和預測的準確性。DBN是由若干層受限玻爾茲曼機(Restricted Boltz-mann Machine,RBM)及一層反向傳播網(wǎng)絡(Back-propagation, BP)組成的一種深層神經(jīng)網(wǎng)絡,其基本思想是采用無監(jiān)督學習方法逐層訓練每一個RBM,最后對整個網(wǎng)絡采用有監(jiān)督學習進行微調。

1.1.2 受限玻爾茲曼機

受限玻爾茲曼機(RBM)是一種特殊的玻爾茲曼機,由一個可視層(v)和一個隱含層(h)組成,可以看作為一個二部圖,兩層之間通過權重w連接,同層單元之間無連接。

由圖2中可以看出,可視層中任一可見節(jié)點vi和隱含層中隱含節(jié)點hj之間都存在一條權值為wij的連接,且wij=wji,0<i<m,0<j<n。令b表示可視層偏置量、c表示隱含層偏置量。RBM網(wǎng)絡是對稱結構,因此可利用式(1)、式(2)互相計算可視層及隱含層節(jié)點值。

對于一個二值化信號(v1,v2,…,vm),利用式(1)可以計算得到一個相應的隱含特征信號(h1,h2,…,hm),對于給定的狀態(tài)(v,h),RBM的節(jié)點狀態(tài)滿足玻爾茲曼分布,其能量函數(shù)可以定義為:

那么,狀態(tài)(v,h)的聯(lián)合概率分布為:

RBM進行無監(jiān)督學習的目的就是通過吉布斯抽樣不斷調節(jié)θ= (w,b,c)參數(shù),最終使得聯(lián)合概率P(v,h|θ)最大,即使得隱含特征信號h還原重建成v′后與v之間誤差最小。為使狀態(tài)(v,h)趨向平穩(wěn),需要通過計算最大P(v,h|θ)與初始狀態(tài)的聯(lián)合概率的斜率Δθ來引導參數(shù)θ更新,其計算公式如下所示:

式(5)中:τ表示最大迭代次數(shù);η為學習速率。由于難以確定概率變化斜率計算的步長,對比散度(Contrastive Divergence, CD)算法[25]被提出用于加速RBM訓練過程并保持了精度。

1.2 深度置信網(wǎng)絡地價評估模型

1.2.1 城市基準地價評估問題描述

城市基準地價受自然、經(jīng)濟、區(qū)位等多種因素影響,評估結果既能夠表現(xiàn)出自然經(jīng)濟因素影響土地價值的區(qū)域結構性特征,也能反映人文活動及其他因素對地價的隨機性擾動。城市基準地價評估問題實質就是在對自然經(jīng)濟影響因素作用量化的基礎之上,利用評估模型構建起地價與多維特征之間的復雜映射關系。

對于城市基準地價評估問題,樣本特征即為評估模型的輸入,將樣本特征數(shù)據(jù)集X表示為

式(6)中:L為樣本數(shù)據(jù)集數(shù)量(1≤l≤L);D為每個樣本數(shù)據(jù)的特征個數(shù)(1≤d≤D),每一個擁有D個特征的數(shù)據(jù)都可以看做是空間RD中的一個向量,即X中的一行;xdl為第l個樣本的第d個特征值,表示第l個樣本地塊在某一個屬性特征上的量化值;Y為與樣本特征數(shù)據(jù)集對應的樣本標簽數(shù)據(jù)集,可以表示為式(7);yl表示第l個樣本地塊對應的實際市場價格。

城市地價評估的核心即為尋找映射X→Y的問題。由于特征維數(shù)較高,映射關系通常會非常復雜,通過機器學習方法,特別是深度學習方法能夠對這類問題進行較為準確的求解?;谠撚成渚W(wǎng)絡可以將各級別評估單元的特征向量分別輸入獲取到評估單元地價,再通過加權或者取平均值的方法即可求取某一級別的平均地價即基準地價。

1.2.2 模型的建立

選擇DBN網(wǎng)絡來建立城市地價評估模型,它由輸入層、多層RBM和BP微調層構成,輸入層為土地價格影響因素xl,輸出層為評估地價yl。城市地價評估DBN模型的建立流程如圖1所示。

圖1 城市地價評估模型的構建Fig.1 Construction of appraisal model for urban land benchmark price

(1)采用z-score方法對樣本集特征數(shù)據(jù)進行歸一化預處理,如式(8)。

式(8)中:z為歸一化后的數(shù)據(jù)特征值;x為某一具體分數(shù);φ為平均數(shù);σ為標準差。

歸一化的目的:一是為滿足DBN算法對輸入特征數(shù)據(jù)格式的要求;二是消除不同量綱的影響從而避免部分特征無法有效參與地價評估。

(2)將原始樣本集合按照設定比例隨機拆分為訓練樣本集合(Xtrain,Ytrain)和測試樣本集合(Xtest,Ytest),并給定所有樣本的地價標簽Y。

(3)樣本預訓練。以全體訓練樣本數(shù)據(jù)集的D維特征向量作為輸入,采用逐層的無監(jiān)督貪婪學習的方法來訓練模型中的RBM。在每一層,可視層H及隱含層V單元的狀態(tài)按照式(1)和式(2)進行計算,參數(shù)空間(w,b,c)可按照式(5)進行更新。

(4)微調。基于監(jiān)督學習機制對最后一層的BP網(wǎng)絡進行訓練,將最后一層RBM的隱含輸出作為BP網(wǎng)絡的輸入向量,基于BP的反向傳播機制利用誤差反饋信息對整個DBN網(wǎng)絡參數(shù)進行微調,直到迭代次數(shù)達到設定值為止。

(5)測試及評估。將測試樣本數(shù)據(jù)集輸入到訓練好的DBN,利用模型的輸出地價與樣本標簽地價計算得到平均評估誤差率λ(式(9)),并將其作為衡量DBN評估性能的標準。

式(9)中:ytest表示測試樣本的實際地價;Ntest表示測試樣本集合的數(shù)量;y′表示模型的輸出地價。

(6)計算評估單元地價。繼續(xù)對評估單元進行特征量化,并同樣按照式(8)進行歸一化,并輸入到訓練好的DBN網(wǎng)絡之中,可計算得到每一個評估單元的地價。

(7)計算基準地價。本模型選用面積加權法,利用每一級別內(nèi)的評估單元的地價及對應的面積權重進行基準地價計算,如式(10)。

式(10)中:BValuem表示第m級別的基準地價;Arean表示m級別內(nèi)第n個評估單元的面積;TotalAream表示級別m的所有單元的面積之和;ZValuen表示利用模型求取的第n個評估單元的地價。

2 實例分析

2.1 數(shù)據(jù)采集與處理

本文以湖北省武漢市主城區(qū)土地定級及基準地價更新項目為依托,以商業(yè)用地基準地價評估為例,利用多因素綜合評定法劃定商業(yè)用地評估單元2 110個,并將單元劃分為4個土地級別。課題組收集商業(yè)地價樣本點共12 386個,通過對樣本點的異常檢驗,對其異常數(shù)據(jù)進行糾正或剔除,經(jīng)整理后保留有效樣點共9 568個,然后對修改后的樣點進行統(tǒng)一編號和規(guī)范化處理并入庫備用,按樣點的具體位置落實到定級單元圖上。在利用樣本點評估基準地價之前,根據(jù)交易情況、交易期日、使用年期、容積率等因素對樣點地價進行修正。

一般而言,影響城市商業(yè)用地價格的因素有交通條件、繁華程度、人口狀況、地形、城市規(guī)劃、基礎公用設施、環(huán)境質量等特征因子。本文在武漢市基準地價評估成果基礎之上,以主導性、定量化等為指導原則,并結合現(xiàn)有研究[4,17]最終確定武漢市商業(yè)用地評估因素體系,共計18個評價因子,如表1所示。將上述評價因子作為DBN網(wǎng)絡的輸入因子,其量化后的作

用分值作為網(wǎng)絡輸入,經(jīng)過修正后的樣點地價作為網(wǎng)絡輸出。

為衡量特征因子對樣本點的影響程度,本文需要搜集土地利用、地形、交通條件、區(qū)位條件、基礎設施配置、環(huán)境狀況等方面的資料及空間圖件來進行空間量化分析,因子作用分值計算及對評估單元的空間量化方法均參考《城鎮(zhèn)土地分等定級規(guī)程》。土地利用數(shù)據(jù)及地形數(shù)據(jù)來源于武漢市國土資源局提供的土地變更調查數(shù)據(jù)、土地利用更新調查和第二次土地調查數(shù)據(jù)庫;道路通達、汽車站等交通數(shù)據(jù)主要參考交通部門提供的道路等級圖、道路分布圖、交通圖等資料;大氣污染、綠地覆蓋等數(shù)據(jù)來源于環(huán)保部門;醫(yī)院、電訊、供排水等數(shù)據(jù)來源于市政部門。

表 1 商業(yè)用地評估指標體系Tab.1 Index system for urban commercial land appraisal

2.2 實驗設置

將樣本點集合中的9 568個地價樣本點全部進行標注,隨機抽取其中8 000個樣本作為估價模型的訓練樣本,剩余的1 568個作為測試樣本驗證模型性能。為驗證DBN模型的評估性能,本文還實現(xiàn)了兩種不同網(wǎng)絡結構參數(shù)的BP神經(jīng)網(wǎng)絡評估模型,分別定義為BPANN1和BPANN2,此外將SVM模型也設置為對照試驗。DBN 隱含層數(shù)目設置為3,即總層數(shù)為5層,每層的神經(jīng)單元數(shù)依次為18、15、8、4、1,將特征信號逐層壓縮,最后形成4 維特征向量進行擬合。DBN模型無監(jiān)督訓練階段學習率為 0.6,迭代次數(shù)為 200,為動態(tài)調整學習率設置初始動量項參數(shù)為0.5,中后期調整為0.9。BP神經(jīng)網(wǎng)絡考慮兩種情況,BPANN1設置為單隱層結構,隱含層神經(jīng)單元個數(shù)采用遍歷法確定,遍歷區(qū)間為[1,25],經(jīng)搜尋后將隱層單元設定為12個。BPANN2則采用和 DBN一樣的網(wǎng)絡結構即18-15-8-4-1;DBN的監(jiān)督學習階段和兩個ANN的訓練方式一致,均采用梯度下降算法,學習率為0.4,迭代 200 次。SVM取核函數(shù)為高斯徑向基核,利用6折交叉驗證和網(wǎng)格法遍歷尋找到最優(yōu)的懲罰因子C為100,徑向基核函數(shù)參數(shù)σ為6.4。

2.3 評估性能分析

考慮到多層神經(jīng)網(wǎng)絡參數(shù)的隨機性,將上述3種算法各運行20次,并統(tǒng)計對應的輸出誤差及相對誤差,結果見表2。

表2 不同評估模型的測試結果Tab.2 Test results of different appraisal models

由表2的結果可以看出DBN模型的平均相對誤差比BPANN1、BPANN2、SVM三個模型分別要低2.13%,4.36%,1.05%。相比于BPANN1、SVM模型,DBN的深層架構明顯能夠更好地挖掘地價樣本集的深層特征,其將原始的22維特征抽象成了4維高階特征進行評估,能夠獲得比淺層結構更好的擬合精度。此外,DBN與BPANN2模型的網(wǎng)絡結構及監(jiān)督訓練階段的參數(shù)設置雖然均保持一致,但兩者的擬合精度卻相差較多,這是由于DBN模型利用其無監(jiān)督貪心算法有效地對網(wǎng)絡結構參數(shù)進行了預訓練,顯著提高了模型的擬合精度。BPANN2的網(wǎng)絡結構參數(shù)一般是通過隨機化方法來進行初始化,然后通過該網(wǎng)絡進行訓練,其參數(shù)未經(jīng)過有效優(yōu)化,所以對樣本集合的地價擬合精度較差,DBN與BPANN2的監(jiān)督訓練過程如圖2所示。此外,BPANN2的網(wǎng)絡結構雖然要復雜于BPANN1,但由于傳統(tǒng)訓練及反饋系統(tǒng)的誤差傳播效應導致其復雜參數(shù)系統(tǒng)影響整體網(wǎng)絡系統(tǒng)的擬合功能,所以其擬合精度反而要比BPANN1低2.23%。SVM的目標函數(shù)是一個凸函數(shù),可以保證得到問題的全局最優(yōu)解,避免了人工神經(jīng)網(wǎng)絡優(yōu)化頻繁陷入局部最優(yōu)的困擾,所以其擬合精度要比BPANN1高1.08%。

傳統(tǒng)的淺層學習方法一般僅依靠監(jiān)督訓練來優(yōu)化模型參數(shù),當訓練樣本不足時,模型評估性能不夠理想。但本文DBN模型包括RBM無監(jiān)督訓練和BP有監(jiān)督訓練兩個訓練階段,理論上來講可以在樣本較少時依然獲得較高的擬合精度。本文通過從樣本集合中抽取少量訓練樣本來測試各個模型在訓練樣本數(shù)量不足時的評估性能。在各模型參數(shù)設置同上的情況下,從9 568個標注樣本中分別抽取400、800、1 200、1 600、2 000個樣本作為訓練樣本,剩余的作為測試樣本,各模型的測試相對誤差如表3所示。

表3 不同訓練樣本數(shù)目的測試結果Tab.3 Test results of appraisal models for training with different numbers

圖2 DBN和BPANN2的監(jiān)督訓練過程Fig.2 Supervised process of DBN and BPANN2

根據(jù)表3測試結果可以看出,在訓練樣本數(shù)量較少的情況下,DBN模型顯示出了比BPANN1、BPANN2、SVM模型明顯更優(yōu)越的評估性能。當訓練樣本數(shù)量僅為400時,DBN的相對誤差值比上述三個模型低了7.99、14.47、6.71個百分點。隨著訓練樣本數(shù)量的遞增,各個模型的評估精度都增長明顯,DBN模型在訓練樣本數(shù)量為1 600時,擬合精度提高到91.52%,而樣本數(shù)量為2 000時,擬合精度已經(jīng)可以達到95.69%,仍然比其他模型的擬合精度高出2.86~8.93。SVM模型的評估精度雖然低于DBN但卻顯著高于BPANN1和BPANN2,這是由于其基于結構風險最小化的訓練框架能夠在一定程度上客服訓練樣本不足的問題,但是BP神經(jīng)網(wǎng)絡是基于經(jīng)驗風險最小化的模型,在訓練樣本數(shù)量不足時,網(wǎng)絡參數(shù)無法得到有效優(yōu)化,因此其評估精度較低。DBN通過對無標簽城市樣本數(shù)據(jù)的非監(jiān)督訓練來進一步抽象樣本集合特征,使得網(wǎng)絡結構參數(shù)盡量靠近最優(yōu)區(qū)域,因此在有監(jiān)督訓練階段即使通過少量標注樣本的訓練也可使模型獲得較高的評估精度。綜上述所,DBN模型在訓練樣本數(shù)量不足時依然可獲得較為理想的評估精度。

上述實驗一定程度上說明了DBN的無監(jiān)督訓練過程對于模型評估性能的重要性,本文繼續(xù)通過改變參與無監(jiān)督訓練的地價樣本數(shù)量來探討DBN地價模型評估精度的變化規(guī)律。首先固定有監(jiān)督訓練微調階段的標注樣本數(shù)量為1 000,然后分別設置RBM無監(jiān)督訓練段的無標簽訓練樣本數(shù)量為500、1 000、1 500、…、5 000,每一種參數(shù)設置的模型分別運行5次然后求取平均相對誤差如圖3所示。

圖3 DBN相對誤差Fig.3 Relative error of DBN

由圖3可以看出,隨著無標簽地價樣本數(shù)量的增加,DBN模型的測試相對誤差逐漸降低,即評估精度越來越高,當加入3 000個無標簽樣本時,評估精度達到了97.92%。從曲線變化趨勢來看,在無標簽訓練樣本數(shù)從500到2 500的過程中,DBN的評估準確率上升較快,之后的增加趨勢較為平緩。總體來看,充分的無監(jiān)督訓練可以有效改善深層網(wǎng)絡結構參數(shù),為監(jiān)督訓練微調提供優(yōu)化后的網(wǎng)絡結構,進而提高模型整體的評估精度。

表4 各級別基準地價Tab.4 Different classes of urban land benchmark prices

在因子作用體系下,構建各級別評估單元的特征向量矩陣,并將其輸入DBN的深層網(wǎng)絡結構,可輸出所有評估單元對應的地價,然后運用式(10)可計算得到各級別的基準地價,計算結果見表4。

3 結論

本文針對城市基準地價評估問題,提出一種基于深度置信網(wǎng)絡的城市地價評估方法。以湖北省武漢市基準地價評估為實例,得出以下結論:

(1)與BPANN1、SVM這類淺層學習模型相比,DBN的深層網(wǎng)絡結構明顯能夠更好地挖掘城市地價樣本集的深層特征,通過將原始的22維特征抽象成4維高階特征進行評估,獲得了比淺層學習方法更好的評估精度。

(2)DBN比具有同樣網(wǎng)絡結構的BPANN2地價評估精度要高出4.36%,本模型借助其無監(jiān)督貪心算法能夠有效對網(wǎng)絡結構參數(shù)進行預訓練,而BPANN2采用隨機化方法生成網(wǎng)絡參數(shù),所以其評估精度較差。

(3)在訓練樣本不足時,DBN對于城市地價評估任務仍然能夠獲得較為滿意的評估精度,相比于其他模型其評估優(yōu)勢更為明顯,這得益于DBN的非監(jiān)督訓練階段能夠盡量優(yōu)化網(wǎng)絡結構參數(shù),此外實驗還證明了DBN 的無監(jiān)督學習方法使其能夠利用大量無標注樣本顯著提升評估精度。

本文首次將深度學習方法與城市基準地價評估問題相結合,為地價評估課題的研究提供了新思路。但由于深度置信網(wǎng)絡算法的參數(shù)較為復雜,本文主要參考已有研究通過經(jīng)驗式的實驗仿真選定的模型參數(shù),但是并未能保證達到該算法求解地價評估問題的最大性能。其次在DBN訓練網(wǎng)絡下進一步求取了各級別均質區(qū)域的基準地價,但和現(xiàn)有研究[5,19]一樣還缺少進一步論證的方法來證明該基準地價的準確性。

猜你喜歡
訓練樣本網(wǎng)絡結構基準
人工智能
寬帶光譜成像系統(tǒng)最優(yōu)訓練樣本選擇方法研究
融合原始樣本和虛擬樣本的人臉識別算法
電視技術(2016年9期)2016-10-17 09:13:41
基于稀疏重構的機載雷達訓練樣本挑選方法
明基準講方法保看齊
基于互信息的貝葉斯網(wǎng)絡結構學習
知識網(wǎng)絡結構維對于創(chuàng)新績效的作用機制——遠程創(chuàng)新搜尋的中介作用
滬港通下A+ H股票網(wǎng)絡結構演化的實證分析
復雜網(wǎng)絡結構比對算法研究進展
滑落還是攀爬
沅江市| 金秀| 新沂市| 漯河市| 迁安市| 中西区| 长乐市| 十堰市| 灵寿县| 平原县| 吉林省| 长顺县| 台南市| 武川县| 铁岭市| 隆安县| 高州市| 徐闻县| 桂林市| 云浮市| 儋州市| 曲周县| 山丹县| 新安县| 海林市| 博湖县| 潜江市| 庄河市| 浦县| 平乡县| 丹巴县| 三明市| 昆明市| 三江| 舞钢市| 泸州市| 安泽县| 泰安市| 福州市| 龙海市| 双鸭山市|