陳 峰
(浙江師范大學(xué) 數(shù)理與信息工程學(xué)院,浙江 金華 321004)
基于CART算法的空氣質(zhì)量指數(shù)回歸預(yù)測模型的學(xué)習(xí)
陳 峰
(浙江師范大學(xué) 數(shù)理與信息工程學(xué)院,浙江 金華 321004)
采用了CART算法結(jié)合廣義交叉驗證(GCV),對空氣質(zhì)量指數(shù)(AQI)預(yù)測建立了模型。結(jié)果顯示,采用廣義交叉驗證選出的最優(yōu)回歸樹能有效的預(yù)測空氣質(zhì)量指數(shù)。與多元回歸方法相比,回歸樹預(yù)測的準(zhǔn)確率較高。
CART;空氣質(zhì)量指數(shù);GCV;多元線性回歸
分類回歸樹算法也稱為CART(Classificationand Regression tree)算法,由L.Breiman等人于1984年提出,是決策樹算法中一種專用于分類與回歸的方法,是在給定的輸入隨機(jī)變量X條件下輸出隨機(jī)變量Y的條件概率分布的學(xué)習(xí)方法。CART假設(shè)決策樹是二叉樹,每一個內(nèi)部節(jié)點(diǎn)特征的取值為“是”和“否”。在每一個子節(jié)點(diǎn)上,在左邊的分支是取值為“是”的分支,在右邊的分支是取值為“否”的分支,這樣的決策等價于遞歸地二分每個特征,將輸入空間即特征空間劃分成有限個單元,并在這些單元上確定預(yù)測的概率分布,也就是給定的輸入空間下,輸出的條件概率分布。CART算法分兩部分組成:(1)決策樹生成:基于訓(xùn)練數(shù)據(jù)集生成決策樹;(2)決策樹的剪枝:通過驗證數(shù)據(jù)集對已生成的決策樹進(jìn)行修剪,選出最優(yōu)的子樹,修剪的標(biāo)準(zhǔn)是使得損失函數(shù)最小。與CART算法相似的還有ID3、C4.5、C5.0等算法。ID3中根據(jù)屬性值分割數(shù)據(jù),之后該特征不會再起作用,這種快速切割的方式會影響算法的準(zhǔn)確率。相比ID3和C4.5算法,CART算法應(yīng)用要多一些,既可以用于分類也可以用于回歸,回歸時用平方誤差(或均方誤差)作為損失函數(shù),以平方誤差(或均方誤差)最小化為準(zhǔn)則[1]。
近年來空氣污染嚴(yán)重,因此空氣質(zhì)量問題[2-4]成為了人們關(guān)注的焦點(diǎn)。本文根據(jù)國家統(tǒng)計局發(fā)布的主要污染物(PM2.5、PM10、SO2、NO2、CO、O3)的指標(biāo)值,采用CART結(jié)合廣義交叉驗證對空氣質(zhì)量指數(shù)進(jìn)行了預(yù)測,并與多元線性回歸方法進(jìn)行了比較,結(jié)果表明,CART比多元回歸線性模型更能有效的預(yù)測空氣質(zhì)量指數(shù)。
CART被廣泛應(yīng)用在遙感影像分類、區(qū)域洪澇災(zāi)害損失評估及預(yù)測、上市公司財務(wù)風(fēng)險預(yù)測等問題研究上[5-9]。但CART在空氣質(zhì)量指數(shù)預(yù)測學(xué)習(xí)中的研究較少。目前在對空氣質(zhì)量的相關(guān)問題研究中,采用的方法有支持向量機(jī)法;計量經(jīng)濟(jì)學(xué)分析方法;決策樹中的C4.5算法等。本文選取對影響空氣質(zhì)量指數(shù)的主要六個指標(biāo),采用CART對空氣質(zhì)量指數(shù)進(jìn)行的預(yù)測建模,通過廣義交叉驗證選出最佳懲罰參數(shù),從而選出最優(yōu)的回歸樹模型。經(jīng)實(shí)例驗證表明,CART能較準(zhǔn)確的預(yù)測出空氣質(zhì)量指數(shù)。
1.1 CART的生成
假設(shè)X與Y分別為輸入和輸出變量,且Y為連續(xù)變量,給定訓(xùn)練數(shù)據(jù)集
D={(x1,y1),(x2,y2),…(xN,yN)}
一個回歸樹對應(yīng)著輸入空間的一個劃分以及在劃分的單元格上輸出的值。這里采用啟發(fā)式的劃分方法,選擇第j個變量x(j)和他的取值s,作為切分變量和切分點(diǎn),并定義兩個區(qū)域:
α1(j,s)={x|x(j)s} 和 α2(j,s)={x|x(j)>s}
將輸入空間劃分成L個單元α1,α2,…αL,并且在每個單元αl上有一個固定的輸出值βl,因此回歸樹模型可表示為:
(1.1)
(1.2)
現(xiàn)在的目標(biāo)是找到最優(yōu)切分變量j和最優(yōu)切分點(diǎn)s。具體求解如下:
(1.3)
對固定的出入變量j可以找到最優(yōu)的切分點(diǎn)s。
搜索所有輸入變量,找到最優(yōu)的切分點(diǎn)就j,就構(gòu)成一個對(j,s),根據(jù)這個步驟可以將輸入空間劃分為兩個區(qū)域,然后再對每個區(qū)域重復(fù)上述劃分步驟,直到停止。具體的生成算法[10]
[1]如下:
輸入:訓(xùn)練數(shù)據(jù)集D;
輸出:回歸樹f(x)。
在訓(xùn)練數(shù)據(jù)集所有的輸入空間中,遞歸地將每個區(qū)域劃分成兩個子區(qū)域并決定每個子區(qū)上的輸出值,構(gòu)建二叉樹:
(1)選擇最優(yōu)切分變量j與切分點(diǎn)s,求解
(1.4)
搜索變量j,對固定的切分變量j掃描切分點(diǎn)s,選擇是的上式最小值對(j,s)
(2)用選定的對(j,s)劃分區(qū)域并決定相應(yīng)的輸出值:
α1(j,s)={x|x(j)s} 和 α2(j,s)={x|x(j)>s}
(3)繼續(xù)對兩個子區(qū)域選用步驟(1),(2)直到滿足停止條件。
(4)將輸入空間劃分為L個區(qū)域α1,α2,…αL,生成決策樹:
(1.5)
1.2 CART剪枝
CART算法[10]是從樹的底端即葉節(jié)點(diǎn)自上而下的剪去一些子樹,使決策樹變小,可以防止過擬合,使得對未來的數(shù)據(jù)有更準(zhǔn)確的預(yù)測。CART算法有兩部分組成:首先從決策樹T0的底端開始剪枝,直到T0的根節(jié)點(diǎn),形成一個子樹序列{T0,T1,…Tn};然后通過廣義交叉驗證法在驗證數(shù)據(jù)集上對子樹序列進(jìn)行測試,從中選擇最優(yōu)子樹。
在剪枝的過程中,子樹的損失函數(shù)為:
(1.6)
輸入:CART算法生成的決策樹T0
輸出:最優(yōu)決策樹Tr
(1)設(shè)k=0,T=T0。
(1.7)
(4)自上而下的訪問內(nèi)部節(jié)點(diǎn)t,假如有g(shù)(t)=r,則進(jìn)行剪枝,并且對葉節(jié)點(diǎn)t 以多數(shù)表決法決定其類,得到樹T。
(5)設(shè)k=k+1,rk=r,Tk=T。
(6)如果T不是由根節(jié)點(diǎn)單獨(dú)構(gòu)成的樹,則回到步驟(4)。
(7)采用廣義交叉驗證法在子樹序列{T0,T1,…Tn}中選取最優(yōu)指數(shù)Tr。
2.1 數(shù)據(jù)處理
本文數(shù)據(jù)來源于2012—2014年武漢環(huán)境監(jiān)測站,以SO2、NO2、PM10、CO、O3、PM2.5為自變量,空氣質(zhì)量指數(shù)(AQI)為因變量建立決策樹回歸模型。為了消除量綱的影響,將數(shù)據(jù)歸一化處理,使數(shù)據(jù)在[0,1]內(nèi)變動。歸一化的公式如下:
xk=(xk-xmin)/(xmax-xmin)
(2.1)
式中,xmin為數(shù)據(jù)序列中的最小值;xmax為數(shù)據(jù)序列中的最大值。
對數(shù)據(jù)進(jìn)行相關(guān)性分析,結(jié)果見附表。
附表 相關(guān)系數(shù)表
為了更夠更加直觀的分析數(shù)據(jù),這里將數(shù)據(jù)可視化如圖1所示:
散 點(diǎn) 圖
圖1 多元散點(diǎn)圖
根據(jù)圖1可知,除了O3與各個變量間的相關(guān)性較弱外,其它各個變量間都有比較高的相關(guān)性,特別是PM2.5與CO之間相關(guān)性很大。
2.2 多元線性回歸模型的建立
經(jīng)對各個變量之間的相關(guān)性分析,結(jié)果顯示,各自變量間相關(guān)程度普遍偏高。
多元線性回歸進(jìn)行建模得到回歸模型為:
(2.2)
2.3 回歸樹建立
選定訓(xùn)練數(shù)據(jù):先將樣本數(shù)據(jù)隨機(jī)排序,再把數(shù)據(jù)集分成訓(xùn)練集和測試集兩個互不相交的子集,這里選取75%的數(shù)據(jù)用作訓(xùn)練集,另外25%的數(shù)據(jù)作為預(yù)測集。由于是分成兩個互不相交的子集,故避免了訓(xùn)練子集用在測試集里而導(dǎo)致的誤差。因本文采用的是廣義交叉驗證,故還需對訓(xùn)練集和測試集多次重復(fù)上述過程的選取,從而使模型達(dá)到最佳的估計。這樣選取出來的訓(xùn)練集和測試集重復(fù)的幾率很小,可以忽略不計。
根據(jù)CART算法結(jié)合廣義交叉驗證可得出回歸樹模型,結(jié)果如圖2所示:
由圖3可以看出數(shù)據(jù)預(yù)測與實(shí)際值的預(yù)測精度較高。
圖2 回歸樹圖
圖3 CART算法的預(yù)測值與實(shí)際值比較曲線圖
基于CART算法對空氣質(zhì)量預(yù)測,采用了廣義交叉驗證法,選取使得誤差達(dá)到最小的最優(yōu)回歸樹,從而實(shí)現(xiàn)了模型的最優(yōu)化。結(jié)果表明,用CART算法對結(jié)合廣義交叉驗證對空氣質(zhì)量指數(shù)能有效的預(yù)測,而且在最高點(diǎn)和最低點(diǎn)都有較高的預(yù)測精度,這體現(xiàn)了CART的在預(yù)測時的優(yōu)勢,能給人們帶來一定的實(shí)用價值。
[1] ROBERT T,JEROME F.統(tǒng)計學(xué)習(xí)基礎(chǔ)——數(shù)據(jù)挖掘、推理與預(yù)測 [M] 范明,等譯 .北京:電子工業(yè)出版社,2004:40-44.
[2] VARDOULAKIS S,F(xiàn)ISHER B,PERICLEOUS K,et al.Modelling air quality in street canyons:a review[J]. Atmospheric Environment,2003,37(2):155-182.
[3] 張麗,李靜,葛汝冰.全國主要城市空氣質(zhì)量級別的分類預(yù)測——基于支持向量機(jī)的視角[J].管理工程師,2013,2(26):57-64.
[4] 李茜,宋金平,張建輝,等.中國城市化對環(huán)境空氣質(zhì)量影響的演化規(guī)律研究[J].環(huán)境科學(xué)學(xué)報,2013,9(6):15-22.
[5] BREIMAN L,F(xiàn)RIEDMAN J,OLSHEN R,et al. Classification and regression trees[M]. New York:Chapman & Hall, 1949:146-169.
[6] 董連英,邢立新.高光譜圖像植被類型的CART決策樹分類[J].吉林大學(xué)學(xué)報,2103,31(1):83-89.
[7] 吉中會,李寧.區(qū)域洪澇災(zāi)害損失評估及預(yù)測的CART模型研究——以湖南省為例[J].地域研究與開發(fā),2012,31(6):106-110.
[8] 王喆,陸楠,周春光.基于決策樹歸納的聚類方法與實(shí)現(xiàn)[J]. 吉林大學(xué)學(xué)報(信息科學(xué)版), 2003(2):39-46.
[9] 陳輝林,夏道勛.基于CART決策樹數(shù)據(jù)挖掘算法的應(yīng)用研究[J]. 煤炭技術(shù), 2011(10):82-89.
[10] 李航.統(tǒng)計學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012:67-73.
Learning of Index of Air Quality Prediction Model Based On CART
CHEN Feng
(College of Mathematics,Physics and Information Engineering, Zhejiang Normal University,Jinhua Zhejiang 321004,China)
In this paper , CART arithmetic and GCV are combined to establish AQI forecasting model. Experimental results show that the regression tree optimized by GCV can forecast AQI effectively. The regression tree has the best forecasting accuracy, compared with Multiple Linear Regression (MLR).
CART; AQI; GCV; MLR
2016-06-23
陳峰(1991-),男,江西上饒人,碩士研究生,研究方向:機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘。E-mail:657306203@qq.com
TP301.6
A
1004-2237(2016)06-0016-06
10.3969/j.issn.1004-2237.2016.06.004