周海龍
摘要:本文借鑒國內(nèi)外房地產(chǎn)評估經(jīng)驗[1],在依據(jù)特征價格理論前提下,將高校建筑的房屋價格和房屋特征作為空氣質(zhì)量的特征變量,運用機(jī)器學(xué)習(xí)中的隨機(jī)森林算法,建立空氣質(zhì)量的特征變量與空氣質(zhì)量之間內(nèi)在的映射關(guān)系,預(yù)測出校區(qū)的空氣質(zhì)量。以部分高校為例進(jìn)行實驗,預(yù)測得到了較高的準(zhǔn)確性,實驗結(jié)果驗證了預(yù)測方法的可行性和穩(wěn)定性,在對高校校區(qū)空氣質(zhì)量預(yù)測的所有方法中屬于創(chuàng)新實踐。
關(guān)鍵詞:空氣質(zhì)量;機(jī)器學(xué)習(xí);高校;預(yù)測方法
引言:近年來,高校在建造校區(qū)時,更加重視建筑的地理環(huán)境,尤其傾向于地理位置空氣質(zhì)量較好的校區(qū),因為室內(nèi)新風(fēng)直接來源于室外,室外空氣質(zhì)量決定著室內(nèi)空氣品質(zhì)的好壞[2]。所以準(zhǔn)確預(yù)測高校校區(qū)的空氣質(zhì)量對師生非常重要。
1、氣質(zhì)量的特征變量選取
本文結(jié)合國內(nèi)學(xué)者對于使用特征價格理論選取特征變量的概括與總結(jié),以及需要解決的具體問題即對高校校區(qū)的空氣質(zhì)量預(yù)測,選取13個房屋特征作為空氣質(zhì)量的特征變量,以下為選取的特征變量及其含義,如表1所示。
為了便于運用機(jī)器學(xué)習(xí)分類算法構(gòu)建出預(yù)測模型,需要將特征變量和高校校區(qū)的空氣質(zhì)量采用綜合性指標(biāo)法、虛擬變量法和5點Likert量化表等方法進(jìn)行量化。對于有原始數(shù)值的,明確其數(shù)值單位,總價單位為萬元,建筑面積單位為平方米,內(nèi)室數(shù)的單位為間,物業(yè)管理費的單位為元/平方米,公交線路為校區(qū)周邊500米內(nèi)公交線路的條數(shù),地鐵站為校區(qū)周邊1000米內(nèi)地鐵站個數(shù)。住宅附近有大學(xué)時,臨近大學(xué)賦值為1,否則賦值為0。住宅的朝向為南、西南和東南方向時將賦值為1,其余為0。裝修:豪華裝修賦值為4,精裝修賦值為3,普通裝修賦值為2,毛胚房賦值為1。運動設(shè)施:建筑周圍是否有活動中心、會所、健身設(shè)施、游泳池、籃球場、網(wǎng)球場、羽毛球場,每有1項加1,最大數(shù)為7。生活配套:校區(qū)附近1000米范圍是否有餐館、超市、郵局、銀行、醫(yī)院、幼兒園、小學(xué)、中學(xué),每有1項加1,最大數(shù)為7。將校區(qū)周邊自然環(huán)境、停車位以及校區(qū)的空氣質(zhì)量劃分為5個等級,其Likert量化表如表2所示。
2、應(yīng)用機(jī)器學(xué)習(xí)算法預(yù)測高校校區(qū)空氣質(zhì)量的研究
實驗采用的數(shù)據(jù)是通過機(jī)器嗅覺實驗室自有的傳感器陣列到各個大學(xué)校區(qū)內(nèi)采集得到的。從原始數(shù)據(jù)中選取298個數(shù)據(jù)作為樣本數(shù)據(jù),其包括總價、建筑面積、內(nèi)室數(shù)、朝向、裝修、停車位、周邊環(huán)境、物業(yè)管理費、運動設(shè)施、生活配套、臨近大學(xué)、公交線路、地鐵站共13個特征變量和空氣質(zhì)量,表3給出了樣本數(shù)據(jù)的部分?jǐn)?shù)據(jù)集樣例。
通過大量的實驗,得到隨機(jī)森林分類模型的最優(yōu)參數(shù):OOB作為準(zhǔn)確率的驗證方法(oob_score=True),樹的個數(shù)為500(n_estimators=500),隨機(jī)選擇的特征變量的個數(shù)為log213(max_features="log2"),采用有放回的抽樣方法(bootstrap=True)。最后用測試樣本對此分類模型進(jìn)行測試,運行100次,可以得到隨機(jī)森林算法對校區(qū)的空氣質(zhì)量預(yù)測的準(zhǔn)確率,如圖1所示。
最高準(zhǔn)確率為87%,平均準(zhǔn)確率為86%,方差為0.00003。由此可知,隨機(jī)森林算法對校區(qū)空氣質(zhì)量的預(yù)測不僅準(zhǔn)確率較高而且穩(wěn)定性較好。
總之,基于計算機(jī)領(lǐng)域的機(jī)器學(xué)習(xí)分類算法、房地產(chǎn)領(lǐng)域的城市高校校區(qū)以及環(huán)保領(lǐng)域的空氣質(zhì)量評價三者的結(jié)合。運用現(xiàn)在被人們廣泛關(guān)注的數(shù)據(jù)挖掘思想和技術(shù),采用分類性能較好的機(jī)器學(xué)習(xí)算法(隨機(jī)森林),準(zhǔn)確預(yù)測出高校校區(qū)的空氣質(zhì)量。并用實驗證明了此方法的可行性和穩(wěn)定性,可以滿足師生在關(guān)注校區(qū)空氣質(zhì)量時的實際需求。這將是未來預(yù)測空氣質(zhì)量的新技術(shù)趨勢。
參考文獻(xiàn):
[1]孟棟.樊重俊.李旭東,等.混沌遺傳神經(jīng)網(wǎng)絡(luò)在空氣質(zhì)量預(yù)測中的應(yīng)用[J].安全與環(huán)境學(xué)報,2014,14(04):246-250.
[2]寇利.城市街區(qū)建筑物附近空氣質(zhì)量的研究[D].上海:東華大學(xué),2008.
[3]彭巖,王萬森,王旭仁,等.基于機(jī)器學(xué)習(xí)的風(fēng)險預(yù)測方法研究[J].計算機(jī)科學(xué),2009,36(4):205-210.
[4]寇利.城市街區(qū)建筑物附近空氣質(zhì)量的研究[D].上海:東華大學(xué),2008.
[5]楊沐晞.基于隨機(jī)森林模型的二手房價格評估研究[D].湖南:中南大學(xué),2012.
[6]彭巖,王萬森,王旭仁,等.基于機(jī)器學(xué)習(xí)的風(fēng)險預(yù)測方法研究[J].計算機(jī)科學(xué),2009,36(4):205-210.