王坤 員曉陽 王力
摘要:針對離群點(diǎn)在機(jī)場能源數(shù)據(jù)的預(yù)測和分析中存在干擾等問題,建立了一種基于改進(jìn)模糊支持向量回歸(FSVR)的機(jī)場能源需求預(yù)測模型。首先,采用模糊統(tǒng)計(jì)法對測試樣本集、系統(tǒng)參數(shù)和模型輸出進(jìn)行分析,推導(dǎo)出符合其數(shù)據(jù)分布的基本隸屬函數(shù)形式;其次,結(jié)合例證法、專家經(jīng)驗(yàn)法對隸屬函數(shù)進(jìn)行“再學(xué)習(xí)”,逐步修改和完善正態(tài)隸屬函數(shù)a、b參數(shù)值,半梯形隸屬函數(shù)邊界參數(shù)值及三角隸屬函數(shù)p、d參數(shù)值,以此消除或減少不利數(shù)據(jù)挖掘的離群點(diǎn),同時(shí)保留有效關(guān)鍵點(diǎn);最后,結(jié)合支持向量回歸(SVR)算法,建立預(yù)測模型,并驗(yàn)證了該模型的可行性。實(shí)驗(yàn)結(jié)果表明,與反向傳播(BP)神經(jīng)網(wǎng)絡(luò)方法相比,F(xiàn)SVR方法的預(yù)測準(zhǔn)確率提高了2.66%,對離群點(diǎn)的識(shí)別率提高了3.72%。
關(guān)鍵詞:機(jī)場能源需求預(yù)測;模糊支持向量回歸;支持向量機(jī);模糊隸屬度;離群點(diǎn)
中圖分類號(hào):TP181 文獻(xiàn)標(biāo)志碼:A
Abstract:Focused on the issue that interference would exist in the analysis and prediction of airport energy data because of the outliers, a prediction model based on improved Fuzzy Support Vector Regression (FSVR) was established for the demand of airport energy. Firstly, a fuzzy statistical method was selected to make an analysis on test sample sets, parameters and the outputs of models, and a basic membership function form consistent with the data distribution would be derived from this analysis. Secondly, relearning of membership function would be performed with respect to expert experiences, then the parameter values a and b of the normal membership function, the boundary parameter values of semitrapezoid membership function and the parameter values p and d of triangular membership function would gradually be refined and improved, so as to eliminate or reduce the outliers which were not conducive to data mining and reserved the key points. Finally, combined with Support Vector Regression (SVR) algorithm, a prediction model was established and its feasibility was verified subsequently. The experimental result shows that, compared with Back Propagation (BP) neural network, the prediction accuracy of the FSVR increases 2.66% and the recognition rate of outliers increases 3.72%.
Key words:airport energy demand prediction; Fuzzy Support Vector Regression (FSVR); Support Vector Machine (SVM); fuzzy membership; outlier
0 引言
改革開放30多年來,中國民航業(yè)持續(xù)快速發(fā)展,航線網(wǎng)絡(luò)不斷擴(kuò)大,機(jī)場地面的基礎(chǔ)設(shè)施建設(shè)取得重大進(jìn)展,其能源消耗也隨之增加。2007年初,民航局適時(shí)提出綠色機(jī)場體系,加強(qiáng)對能源消耗的改造與優(yōu)化[1]。然而面對機(jī)場如此龐大而且復(fù)雜的能源系統(tǒng),要實(shí)現(xiàn)綠色、安全、穩(wěn)定可靠的運(yùn)行,需要科研人員進(jìn)行細(xì)致的調(diào)研規(guī)劃,以及科學(xué)合理的設(shè)計(jì)。
現(xiàn)如今,普遍認(rèn)可的傳統(tǒng)預(yù)測方法有趨勢外推法、消費(fèi)彈性法、主要消耗部門預(yù)測法、回歸分析法等[2]。而后出現(xiàn)的反向傳播(Back Propagation, BP)神經(jīng)網(wǎng)絡(luò),適用于輸入輸出為非線性關(guān)系且訓(xùn)練數(shù)據(jù)集充足的情況下[3]。我國機(jī)場記錄的能源歷史數(shù)據(jù)過少,且存在一些被噪聲影響的離群點(diǎn),針對這種情況,若采用神經(jīng)網(wǎng)絡(luò)往往因?yàn)橛?xùn)練不充足,導(dǎo)致結(jié)果不準(zhǔn)確,泛化能力不夠強(qiáng)甚至出現(xiàn)過擬合的缺點(diǎn)。支持向量回歸(Support Vector Regression,SVR)是支持向量機(jī)(Support Vector Machine, SVM)在回歸問題中的推廣, 在小樣本信息的情況下,能夠通過復(fù)雜的核學(xué)習(xí)能力尋得最佳方案,從而獲得最好的推廣能力[4]。但SVR訓(xùn)練樣本中存在的不確定因素以及離群點(diǎn)的挖掘常常不令人滿意[5]。Lin等[6]提出的模糊支持向量回歸(Fuzzy Support Vector Regression, FSVR)方法,綜合了支持向量回歸和模糊集理論的優(yōu)勢,在解凸二次規(guī)劃問題時(shí)具有更好的泛化能力以及抗噪聲能力。在模糊支持向量回歸算法中,隸屬度函數(shù)是樣本點(diǎn)離群程度的最客觀反映[7]。雖然目前隸屬度函數(shù)的構(gòu)造方法多種多樣,但一直沒有形成統(tǒng)一的準(zhǔn)則。
機(jī)場運(yùn)行能源系統(tǒng)歷史數(shù)據(jù)記錄少,各影響因素復(fù)雜多變且相互滲透,導(dǎo)致一些離群點(diǎn)的出現(xiàn)。這些離群點(diǎn)大多屬于異常數(shù)據(jù),是冗余的,并沒有實(shí)際的研究價(jià)值,但某些離群點(diǎn)卻攜帶了極重要的隱藏信息,對機(jī)場運(yùn)行能源消耗的數(shù)據(jù)挖掘有很大的幫助。在實(shí)際的管理工作中,機(jī)場人員在對相關(guān)數(shù)據(jù)進(jìn)行分析時(shí),大多仍采用人工統(tǒng)計(jì)的方法,對離群點(diǎn)的處理也比較粗糙,往往容易忽略掉某些極具研究價(jià)值的離群點(diǎn),這無疑會(huì)對研究結(jié)果造成干擾。本文采用模糊支持向量回歸算法對某機(jī)場航站樓的用電需求進(jìn)行建模,通過分析幾種常用隸屬函數(shù),并結(jié)合所提供的樣本數(shù)據(jù)的特點(diǎn),分別為樣本集、模型參數(shù)以及輸出預(yù)測值設(shè)計(jì)了不同的模糊隸屬函數(shù),并對預(yù)測模型的參數(shù)進(jìn)行了改進(jìn),將噪聲數(shù)據(jù)的干擾程度降低,減少離群點(diǎn)樣本的影響,使其更加符合機(jī)場能源預(yù)測的需求。實(shí)驗(yàn)結(jié)果顯示該方法的回歸效果理想。最后,對2016年6月份用電需求進(jìn)行了預(yù)測,驗(yàn)證了所建模型的可用性和準(zhǔn)確性,為機(jī)場管理者在能源管理中提供有效的決策支持。
1.2 模糊支持向量回歸算法
2002年Lin等[6]提出了模糊支持向量機(jī)(Fuzzy Support Vector Machine, FSVM)方法,通過給訓(xùn)練樣本增加一個(gè)模糊隸屬關(guān)系來對樣本的隱含信息加以充分利用,對解決在實(shí)際應(yīng)用中遇到的多分類問題有很大幫助。借鑒FSVM能夠很好地改善模型的分類能力,把模糊隸屬度應(yīng)用到SVR中,提出了模糊支持向量回歸(FSVR)。模糊隸屬度的確定對FSVR的抗噪能力以及預(yù)測精度的提高有很大幫助。
通過隸屬函數(shù)方法可以對現(xiàn)實(shí)生活中的某些不確定性因素近似逼近。由于機(jī)場能源歷史數(shù)據(jù)較少,而且存在大量的孤立點(diǎn),引入模糊隸屬度概念可以很好地降低甚至消除這些點(diǎn)對預(yù)測結(jié)果的影響。在本文中,將對樣本集、模型參數(shù)以及模型輸出建立各自的模糊隸屬函數(shù),可以有效降低樣本中離群點(diǎn)對模型準(zhǔn)確性的影響。
2 改進(jìn)的模糊支持向量回歸模型的建立
目前,機(jī)場能源系統(tǒng)中存儲(chǔ)的有效歷史數(shù)據(jù)多為人工抄錄整理,不僅數(shù)據(jù)量偏少,而且存在大量的離群數(shù)據(jù)。這些離群點(diǎn)中有些受噪聲影響過大,在能源預(yù)測建模的過程中,這無疑會(huì)對系統(tǒng)造成干擾,出現(xiàn)過擬合現(xiàn)象,降低預(yù)測精度。而有些離群點(diǎn)卻可能隱藏了重要的信息,具有比一般數(shù)據(jù)更高的研究價(jià)值,在建模過程中如果忽略這些點(diǎn),對預(yù)測結(jié)果的精確度也無疑是一種損失。針對這一問題,可以通過構(gòu)造一系列能夠客觀反映各樣本點(diǎn)離群程度的模糊隸屬函數(shù),以此來降低甚至消除某些離群嚴(yán)重的點(diǎn)對預(yù)測結(jié)果的干擾,同時(shí)又不過分地過濾掉隱藏某些研究信息的離群點(diǎn)。
2.1 隸屬函數(shù)的確定
現(xiàn)如今,針對機(jī)場能源預(yù)測還沒有比較完善的方法,對于隸屬函數(shù)的選取,也是仍沒有一個(gè)統(tǒng)一的、廣泛適用的標(biāo)準(zhǔn),所以確定符合機(jī)場能源數(shù)據(jù)的隸屬度是本文研究的關(guān)鍵所在。一般利用經(jīng)驗(yàn)并結(jié)合實(shí)際情況來確定合理的隸屬度?;诿芏鹊碾x群程度表示方法現(xiàn)被大家普遍認(rèn)可[5,15],但此方法卻主要針對的是密度較高的樣本點(diǎn),對于過度分散的邊緣點(diǎn)總是不能準(zhǔn)確的評價(jià)。同時(shí),該方法在確定隸屬度時(shí),也僅僅只針對訓(xùn)練樣本的輸入。這樣的結(jié)果不能體現(xiàn)出預(yù)測模型內(nèi)部結(jié)構(gòu)的聯(lián)系,對預(yù)測結(jié)果無疑是一種損失。本文針對機(jī)場能源系統(tǒng)的特點(diǎn),同時(shí)考慮到樣本集的輸入、系統(tǒng)參數(shù)以及系統(tǒng)輸出數(shù)據(jù)類型之間的差異,分別設(shè)計(jì)了不同的模糊隸屬函數(shù)。通過選取的隸屬函數(shù),可將實(shí)際的數(shù)據(jù)用模糊隸屬度來代替,這樣每個(gè)樣本的孤立程度便更加清晰明了,極大地降低了離群點(diǎn)在樣本訓(xùn)練時(shí)對預(yù)測模型的干擾。
在本文中,主要針對航站樓用電量進(jìn)行預(yù)測分析,是根據(jù)電力消耗的歷史和現(xiàn)在的值去推測未來某一時(shí)段的消耗值。然而,在實(shí)際問題中,往往存在各種復(fù)雜因素會(huì)對用電量產(chǎn)生影響,如極端氣候因素。這類離群點(diǎn)數(shù)據(jù)在進(jìn)行個(gè)別分析時(shí)有一定的價(jià)值,但對預(yù)測整體趨勢卻有極大的干擾。針對這樣的情況,需要采用隸屬度函數(shù)對樣本集進(jìn)行修正,使其符合系統(tǒng)正常運(yùn)行時(shí)的用電量狀態(tài),以此減小噪聲數(shù)據(jù)對模型構(gòu)建的干擾。
通過模糊統(tǒng)計(jì)法對實(shí)際數(shù)據(jù)進(jìn)行調(diào)研與分析,發(fā)現(xiàn)影響航站樓用電量的因素基本都呈現(xiàn)出集中、對稱、均勻變動(dòng)的特點(diǎn)。采用正態(tài)分布函數(shù)可以將嚴(yán)重偏離的離群點(diǎn)數(shù)據(jù)去除,同時(shí)保留離中心很近的離群點(diǎn)。如氣溫這一影響因素,在本文采用的5、6月數(shù)據(jù)中基本保持在18℃~37℃,并且數(shù)據(jù)整體呈現(xiàn)出正態(tài)分布的特點(diǎn)。
因此,樣本集輸入的隸屬度函數(shù)由正態(tài)分布函數(shù)定義,但a、b的值要根據(jù)樣本集中不同的影響因素的特點(diǎn)來確定。
可大致描述為以下步驟:
1)分析訓(xùn)練樣本集、模型參數(shù)、模型輸出值的數(shù)據(jù)特點(diǎn),利用模糊統(tǒng)計(jì)等隸屬函數(shù)確定方法得到各自的隸屬函數(shù);
2)通過隸屬函數(shù)把給定的訓(xùn)練樣本轉(zhuǎn)換成模糊數(shù)據(jù)集{(x1,Y*1),…,(xn,Y*n)};
3)通過式(11)解最優(yōu)問題得到拉格朗日乘子α*i、αi;
4)通過式(12)得出W=(w,p);
5)選取α*i、α*j∈(0,Csi);
6)通過式(12)計(jì)算B=(b,d);
7)構(gòu)造模糊線性預(yù)測模型,輸出預(yù)測值。
3 實(shí)驗(yàn)驗(yàn)證
由于目前我國大部分機(jī)場的能源系統(tǒng)還在完善當(dāng)中,可用的歷史數(shù)據(jù)積累不多。在本文中,針對某機(jī)場航站樓用電需求量進(jìn)行了分析,同時(shí)為保證實(shí)驗(yàn)的準(zhǔn)確性,采用了兩組數(shù)據(jù)樣本集。分別是2014年6月、2015年6月用電量及其影響因素的歷史數(shù)據(jù)作為訓(xùn)練樣本集。影響用電量的六個(gè)因素作為模型的輸入,分別為日期、當(dāng)天時(shí)間段、氣象信息、氣溫、航班準(zhǔn)點(diǎn)率、航站樓停留人數(shù)、使用的設(shè)備技術(shù)水平,航站樓的用電量作為模型的輸出。
表1列出了本次實(shí)驗(yàn)的部分樣本集。通過隸屬函數(shù)計(jì)算出每個(gè)數(shù)據(jù)樣本的隸屬度,從而得到新的樣本集,即模糊數(shù)據(jù)集T={(x1,Y*1),(x2,Y*2),…,(x7,Y*7)}。
表1中:M代表月份,N代表樣本個(gè)數(shù),Y(x)代表用電量,X1代表日期,X2代表當(dāng)天時(shí)間段,X3代表氣象信息,X4代表氣溫,X5代表航班準(zhǔn)點(diǎn)率,X6代表航站樓人數(shù),X7代表設(shè)備技術(shù)水平。時(shí)間段1、2、3、4分別代表0~6時(shí)、6~12時(shí)、12~18時(shí)、18~24時(shí);氣象信息1、2、3、4、5、6、7、8代表晴天、多云、陰、陣雨、小雨、中雨、大雨、暴雨;設(shè)備技術(shù)水平1、2、3、4分別代表設(shè)備能效等級(jí),數(shù)字越小,代表能耗越低。
至此,將所求得的所有參數(shù)代回到式(11)中,便得到了本文用電量需求的預(yù)測模型。選取測試數(shù)據(jù)對模型的預(yù)測能力進(jìn)行驗(yàn)證,并針對同一樣本將本文所用方法與BP神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果進(jìn)行對比,仿真結(jié)果如圖4、5所示。
從圖4、5中可以看出,由于離群點(diǎn)的存在, BP神經(jīng)網(wǎng)絡(luò)對離群點(diǎn)的分布更為敏感,回歸曲線會(huì)向著離群點(diǎn)的位置偏移,甚至?xí)霈F(xiàn)過擬合現(xiàn)象;而FSVR相對穩(wěn)定,對離群點(diǎn)的抗干擾能力強(qiáng)。其中,圖4中a點(diǎn)的用電量為20350KW·h,經(jīng)分析它的影響因素,可知主要是因?yàn)楫?dāng)天為節(jié)假日,航站樓出行人數(shù)增多,氣溫已達(dá)到33℃,所以耗電量增加。這類離群點(diǎn)屬于有效點(diǎn),在能源數(shù)據(jù)的分析和預(yù)測工作中,會(huì)對結(jié)果產(chǎn)生本質(zhì)性的影響,圖5中的c點(diǎn)也屬于這類關(guān)鍵點(diǎn),因此在本次實(shí)驗(yàn)中需要對其予以保留;而圖4中的b點(diǎn)的用電量為34302KWh,經(jīng)分析,影響用電量增加的主要原因?yàn)楫?dāng)天的氣象信息記錄為暴雨,航班延誤,航站樓等待人數(shù)隨之增加,空調(diào)及照明設(shè)備的使用比平時(shí)高出很多。這類離群點(diǎn)屬于失真點(diǎn),它的產(chǎn)生僅僅是因?yàn)楫?dāng)時(shí)的極端因素導(dǎo)致,而對整體數(shù)據(jù)的預(yù)測并沒有實(shí)質(zhì)性的影響,并且如果在預(yù)測分析時(shí)將其加入,對預(yù)測的精度會(huì)造成一定程度上的干擾。圖5中的d點(diǎn)同樣屬于這類離群點(diǎn),在實(shí)驗(yàn)中為保證結(jié)果的準(zhǔn)確性,需要消除或者抑制其出現(xiàn)。
實(shí)驗(yàn)誤差對比如表3所示,從中可以看出本文采用的FSVR預(yù)測模型的回歸效果理想,平均相對誤差能夠保持在1.61%,預(yù)測準(zhǔn)確率提高了2.66%,對離群點(diǎn)的識(shí)別率提高了3.72%。為了驗(yàn)證本文采用的模糊隸屬度在結(jié)合支持向量機(jī)(SVM)算法上的可行性,選用最小二乘支持向量機(jī)(Least Squares Support Vector Machines,LSSVM)方法對機(jī)場能源數(shù)據(jù)再次進(jìn)行預(yù)測,預(yù)測值及誤差如表4所示。
4 結(jié)語
本文對模糊支持向量回歸進(jìn)行了改進(jìn),結(jié)合機(jī)場能源數(shù)據(jù)中存在離群點(diǎn)的實(shí)際特點(diǎn),優(yōu)化了隸屬函數(shù)的選取方法以及預(yù)測模型的參數(shù),并且建立了能源預(yù)測模型,有效降低了離群點(diǎn)對預(yù)測結(jié)果的干擾?;谀硻C(jī)場航站樓用電量及相關(guān)數(shù)據(jù),對所建模型進(jìn)行了驗(yàn)證,結(jié)果表明本文所運(yùn)用的預(yù)測方法克服了傳統(tǒng)SVR方法過擬合、抗噪差的問題。同時(shí)通過對比BP神經(jīng)網(wǎng)絡(luò)算法對數(shù)據(jù)的預(yù)測結(jié)果,證明了在機(jī)場能源系統(tǒng)這種非線性以及高維空間的數(shù)據(jù)預(yù)測上,該方法體現(xiàn)出有更高的預(yù)測精度,更好的泛化能力。隨著機(jī)場的不斷新建、擴(kuò)建,能源的需求量也明顯增加,能夠準(zhǔn)確預(yù)測能源需求走勢,對機(jī)場的發(fā)展有非常重要的指導(dǎo)意義。
參考文獻(xiàn):
[1]李永超.民用機(jī)場能源信息管理系統(tǒng)[D].北京:北京交通大學(xué),2010:2-4. (LI Y C. Energy information management system of civil airports[D]. Beijing: Beijing Jiaotong University,2010: 2-4.)
[2]韓君.中國能源需求的建模與實(shí)證分析[D].蘭州:蘭州商學(xué)院,2007:10-20. (HAN J. Modeling and empirical analysis of Chinese energy demand[D].Lanzhou: Lanzhou University of Finance and Economics, 2007:10-20.)
[3]胡雪棉,趙國浩.基于Matlab的BP神經(jīng)網(wǎng)絡(luò)煤炭需求預(yù)測模型[J].中國管理科學(xué), 2008,16(專輯):521-525. (HU X M, ZHAO G H. Forecasting model of coal demand based on Matlab BP neural network[J]. Chinese Journal of Management Science, 2008,16(Special Issue):521-525.)
[4]KROMER P, MUSLEK P, PELIKN E, et al. Support vector regression of multiple predictive models of downward shortwave radiation[C]// IJCNN 2014: Proceedings of the IEEE 2014 International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2014: 651-657.
[5]陳海燕,楊冰欣,徐濤,等.基于模糊支持向量回歸的機(jī)場噪聲預(yù)測[J].南京航空航天大學(xué)學(xué)報(bào),2013,45(5):722-726. (CHEN H Y, YANG B X, XU T, et al. Airport noise prediction based on fuzzy support vector regression[J]. Journal of Nanjing University of Aeronautics & Astronautics, 2013, 45(5): 722-726.)
[6]LIN CF, WAN SD. Fuzzy support vector machines[J]. IEEE Transactions on Neural Networks, 2002, 13(2): 464-471.
[7]ZHANG R, DUAN XB, HAO L. Fuzzy support vector regression for function approximation with noises [C]// ICCASM 2010: Proceedings of 2010 International Conference on Computer Application and System Modeling. Piscataway, NJ: IEEE, 2010, 11: 14-17.
[8]鄧乃揚(yáng),田英杰.數(shù)據(jù)挖掘中的新方法——支持向量機(jī)[M].北京:科學(xué)出版社,2004:32-65.(DENG N Y, TIAN Y J. New Methods in Data Mining — Support Vector Machine (SVM)[M].Beijing: Science Press, 2004: 32-65.)
[9]李永娜.基于支持向量機(jī)的回歸預(yù)測綜述[J].信息通信,2014(11):32-33. (LI Y N. The regression prediction reviewed based on Support Vector Machine (SVM)[J]. Information & Communications,2014(11):32-33.)
[10]趙玉剛,鞠建波,張經(jīng)偉.基于LIBSVM 的電子設(shè)備故障預(yù)測方法研究[J].計(jì)算機(jī)測量與控制,2015,23(6):1888-1891.(ZHAO Y G, JU J B, ZHANG J W. Research on fault prediction methods of electronic device based on LIBSVM[J].Computer Measurement & Control, 2015, 23(6): 1888-1891.)
[11]黃成泉,王士同,蔣亦樟,等.一種基于L2SVM的多視角核心向量機(jī)[J].控制與決策,2015,30(8):1356-1364. (HUANG C Q, WANG S T, JIANG Y Z, et al. A multiview core vector machine based on L2SVM [J]. Control and Decision, 2015, 30(8): 1356-1364.)
[12]盧振興,楊志霞,高新豫.最小二乘雙支持向量回歸機(jī)[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(23):140-144. (LU Z X, YANG Z X, GAO X Y. Least square twin support vector regression [J]. Computer Engineering and Applications, 2014, 50(23): 140-144.)
[13]王楓,上官安琪,夏俊麗.基于改進(jìn)支持向量機(jī)的湖北電網(wǎng)特高壓規(guī)劃研究[J]. 機(jī)電工程,2015,32(8):1141-1145. (WANG F, SHANGGUAN A Q, XIA J L. UHV planning of Hubei grid based on improved SVM [J].Journal of Mechanical & Electrical Engineering,2015,32(8):1141-1145.)
[14]耿俊豹,孫林凱,陳是學(xué).支持向量機(jī)的混合核函數(shù)參數(shù)優(yōu)選方法[J].計(jì)算機(jī)應(yīng)用,2013,33(5):1321-1323. (GENG J B, SUN L K,CHEN S X. Parameters optimization of combined kernel function for support vector machine [J]. Journal of Computer Applications,2013,33(5):1321-1323.)
[15]BREUNIG M M, HANSPETER KRIEGEL, NG R T, et al. LOF: identifying densitybased local outliers [C]// SIGMOD 00: Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2000: 93-104.