鄭海明, 商瀟瀟
(華北電力大學(xué)機(jī)械工程系,河北保定 071003)
基于GA-BP神經(jīng)網(wǎng)絡(luò)大氣中PM2.5軟測(cè)量研究
鄭海明, 商瀟瀟
(華北電力大學(xué)機(jī)械工程系,河北保定 071003)
大氣中PM2.5質(zhì)量濃度變化具有較強(qiáng)的非線性特性,傳統(tǒng)的軟測(cè)量方法很難對(duì)其做出準(zhǔn)確的計(jì)量監(jiān)測(cè)。針對(duì)傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)易陷入局部最小值的缺陷,將遺傳算法和BP神經(jīng)網(wǎng)絡(luò)相結(jié)合建立了GA-BP神經(jīng)網(wǎng)絡(luò)軟測(cè)量模型,將該模型應(yīng)用到大氣PM2.5質(zhì)量濃度的計(jì)量監(jiān)測(cè)中,并與傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)模型的監(jiān)測(cè)結(jié)果進(jìn)行對(duì)比,結(jié)果表明經(jīng)過(guò)遺傳算法優(yōu)化后的模型具有更好的非線性擬合能力和更高的監(jiān)測(cè)精度。
計(jì)量學(xué);遺傳算法;GA-BP神經(jīng)網(wǎng)絡(luò);PM2.5監(jiān)測(cè);軟測(cè)量
近年來(lái),我國(guó)中東部地區(qū)冬季出現(xiàn)持續(xù)的霧霾天氣,使得PM2.5污染問(wèn)題受到了人們的普遍關(guān)注。PM2.5是指懸浮在大氣中空氣動(dòng)力學(xué)直徑小于或等于2.5μm的顆粒物,雖然在大氣成分中含量較少,但卻是引起大氣能見(jiàn)度降低的重要原因。PM2.5主要來(lái)源于化石燃料的燃燒,如汽車尾氣及工業(yè)燃煤等含有大量有毒有害物質(zhì),對(duì)人體健康有較大的危害性[1]。因此,對(duì)城市中的PM2.5進(jìn)行實(shí)時(shí)監(jiān)測(cè)勢(shì)在必行。目前我國(guó)對(duì)PM2.5的監(jiān)測(cè)尚處于研究起步階段,監(jiān)測(cè)手段還不完善、設(shè)備安裝費(fèi)用較高,設(shè)備維修等耗費(fèi)大量人力物力,所以對(duì)PM2.5軟測(cè)量技術(shù)的研究有很大發(fā)展空間。
城市中PM2.5的濃度受該地區(qū)地形地貌、排放源地點(diǎn)、排放速率、氣象等因素的影響,具有較強(qiáng)的非線性特性,傳統(tǒng)的軟測(cè)量方法很難對(duì)其進(jìn)行準(zhǔn)確監(jiān)測(cè)[2]。BP神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的自學(xué)習(xí)、自組織、自適應(yīng)能力,理論上可以逼近任意連續(xù)函數(shù),特別適合于研究具有多因素性、不確定性、隨機(jī)性、非線性和隨時(shí)間變化特性的對(duì)象,但該模型存在收斂速度慢且容易陷入局部最小值的缺點(diǎn)[3],針對(duì)遺傳算法具有較強(qiáng)的全局搜索能力,容易得到全局最優(yōu)解的特點(diǎn),本文建立基于遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的GA-BP軟測(cè)量模型對(duì)大氣中的PM2.5質(zhì)量濃度值進(jìn)行監(jiān)測(cè)。
BP神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)中應(yīng)用最廣的一種多層前饋神經(jīng)網(wǎng)絡(luò)。在若干神經(jīng)網(wǎng)絡(luò)模型中,80%~90%的神經(jīng)網(wǎng)絡(luò)模型采用了BP網(wǎng)絡(luò)或它的變形形式。它既是前向網(wǎng)絡(luò)的核心部分,也是神經(jīng)網(wǎng)絡(luò)的精華[4]。
BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包括輸入層、隱含層和輸出層,其中隱含層可以是一層或多層。上下層之間實(shí)現(xiàn)全連接,而同一層神經(jīng)元之間無(wú)連接,其結(jié)構(gòu)見(jiàn)圖1。
圖1 3層BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法是訓(xùn)練神經(jīng)網(wǎng)絡(luò)經(jīng)典的學(xué)習(xí)算法,其本質(zhì)是通過(guò)神經(jīng)網(wǎng)絡(luò)各層之間連接權(quán)值、閾值的調(diào)節(jié),從而實(shí)現(xiàn)網(wǎng)絡(luò)的實(shí)際輸出向期望輸出的逼近。過(guò)程如下[5,6]:
隱含層中第i個(gè)神經(jīng)元的輸入為
式中,f1為輸入層到隱含層的傳遞函數(shù);w1ij為權(quán)值;b1i為閾值;xj為網(wǎng)絡(luò)輸入;j為輸入層神經(jīng)元個(gè)數(shù)。
輸出層第k個(gè)神經(jīng)元的輸出為
式中,f2為隱含層到輸出層的傳遞函數(shù);w2ki、b2k為兩層之間的權(quán)值、閾值。
誤差函數(shù)為
式中,tk為第k個(gè)神經(jīng)元的期望輸出。
隱含層第i個(gè)輸入到輸出層第k個(gè)輸出的權(quán)值、閾值變化為
式中η為學(xué)習(xí)速率。
同理,輸入層第j個(gè)輸入到隱含層第i個(gè)輸出的權(quán)值、閾值變化為
權(quán)值、閾值修正表達(dá)式為
BP神經(jīng)網(wǎng)絡(luò)對(duì)初始權(quán)值、閾值的選取較為敏感,初始權(quán)值、閾值的選取將影響網(wǎng)絡(luò)收斂的速度和精度,因此合理選擇初始權(quán)值和閾值非常重要。而B(niǎo)P神經(jīng)網(wǎng)絡(luò)在訓(xùn)練之初各層的連接權(quán)值和閾值被初始化為[0,1]間的隨機(jī)值,這種未經(jīng)優(yōu)化的隨機(jī)值會(huì)使BP神經(jīng)網(wǎng)絡(luò)的收斂速度慢且容易陷入局部最小值。
遺傳算法(Genetic Algorithm,GA)是一種基于自然選擇和基因遺傳學(xué)原理的全局優(yōu)化概率搜索算法。它將“優(yōu)勝劣汰,適者生存”的生物進(jìn)化原理引入待優(yōu)化參數(shù)形成的編碼串群體中,按照一定的適應(yīng)度函數(shù)及一系列的遺傳操作對(duì)個(gè)體進(jìn)行篩選,從而使適應(yīng)度值好的個(gè)體被保留組成新的群體,新群體不僅包含了上一代的信息,并且引入了新的優(yōu)于上一代的個(gè)體。經(jīng)過(guò)反復(fù)循環(huán),直至滿足一定的條件為止[7]。
GA-BP神經(jīng)網(wǎng)絡(luò)是用遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值,其基本思想就是用個(gè)體代表網(wǎng)絡(luò)的初始權(quán)值和閾值,個(gè)體值初始化的BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)誤差作為該個(gè)體的適應(yīng)度值,通過(guò)選擇、交叉、變異操作尋找最優(yōu)個(gè)體,即最優(yōu)的BP神經(jīng)網(wǎng)絡(luò)初始權(quán)值和閾值。由于該算法從許多點(diǎn)開(kāi)始并行操作,而非局限于特定一點(diǎn),在解空間應(yīng)用概率法則進(jìn)行高效啟發(fā)式搜索,因而可以有效地防止搜索過(guò)程中陷入局部最優(yōu)解[8~10]。具體過(guò)程如下:
種群規(guī)模的大小直接影響到遺傳算法的收斂性和計(jì)算效率。規(guī)模太小容易收斂到局部最優(yōu)解,規(guī)模太大會(huì)降低計(jì)算速度。種群規(guī)??筛鶕?jù)實(shí)際情況設(shè)定為10~200之間。染色體編碼方式為實(shí)數(shù)編碼,每個(gè)個(gè)體均為一個(gè)實(shí)數(shù)串,由神經(jīng)網(wǎng)絡(luò)全部的權(quán)值和閾值組成。即染色體長(zhǎng)度N為
式中:H為輸入層節(jié)點(diǎn)數(shù);R1為隱含層節(jié)點(diǎn)數(shù);R2為輸出層節(jié)點(diǎn)數(shù)。
(2)適應(yīng)度函數(shù)
根據(jù)個(gè)體得到BP神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值,輸入訓(xùn)練樣本訓(xùn)練BP神經(jīng)網(wǎng)絡(luò),達(dá)到設(shè)定的精度后預(yù)測(cè)網(wǎng)絡(luò)輸出,將網(wǎng)絡(luò)輸出和期望輸出的絕對(duì)誤差和作為個(gè)體適應(yīng)度值,計(jì)算公式為
式中:n為網(wǎng)絡(luò)的輸出層節(jié)點(diǎn)數(shù);yi為網(wǎng)絡(luò)第i個(gè)節(jié)點(diǎn)的期望輸出;oi為第i個(gè)節(jié)點(diǎn)的預(yù)測(cè)輸出;k為系數(shù)。
(3)選擇操作
艾莉知道,她的男人突然降臨。男人從反光鏡里偷覷著她,眼神雖直,卻不乏柔情。艾莉白他一眼,卻怒不起來(lái)。男人約四十多歲,眼睛很亮,鼻子很挺,下巴很翹,嘴巴很方。艾莉在公司門前下車,倚著玉蘭樹(shù)點(diǎn)一根香煙——盡管下了辭職的決心,但她需要醞釀辭職的勇氣。出租車在灰色的煙霧里繞一個(gè)圈子,駛往來(lái)時(shí)方向,男人搖開(kāi)車窗,沖她揮了揮手。艾莉再白男人一眼,嘴巴卻笑起來(lái)。
遺傳算法選擇操作有輪盤賭法、錦標(biāo)賽法等多種方法,本文選擇輪盤賭法,即基于適應(yīng)度比例的選擇策略,每個(gè)個(gè)體i的選擇概率pi為
式中:Fi為個(gè)體i的適應(yīng)度值,由于適應(yīng)度值越小越好,所以在個(gè)體選擇前對(duì)適應(yīng)度值求倒數(shù);k為系數(shù);N為種群個(gè)體數(shù)目。
(4)交叉操作
由于個(gè)體采用實(shí)數(shù)編碼,所以交叉操作方法采用實(shí)數(shù)交叉法。第k個(gè)染色體mk和第l個(gè)染色體ml在i位的交叉操作如下
式中b為[0,1]間的隨機(jī)數(shù)。
(5)變異操作
選取第i個(gè)個(gè)體的第j個(gè)基因mij進(jìn)行變異,變異方法如下
式中:mmax為基因mij的上界;mmin為基因mij的下界;r為[0,1]間的隨機(jī)數(shù);r2為隨機(jī)數(shù);g為當(dāng)前迭代次數(shù);Gmax為最大進(jìn)化次數(shù)。
將遺傳算法得到的最優(yōu)個(gè)體對(duì)BP神經(jīng)網(wǎng)絡(luò)初始權(quán)值和閾值賦值,用訓(xùn)練樣本訓(xùn)練網(wǎng)絡(luò)模型后監(jiān)測(cè)PM2.5的濃度,GA-BP軟測(cè)量模型具體算法流程見(jiàn)圖2。
圖2 GA-BP軟測(cè)量模型算法流程圖
本文數(shù)據(jù)選擇華北某市空氣質(zhì)量自動(dòng)監(jiān)測(cè)站公布的大氣污染物小時(shí)濃度數(shù)據(jù),包括SO2、NO2、PM10、PM2.5以及同時(shí)期的氣象局實(shí)時(shí)氣象數(shù)據(jù),包括氣溫、氣壓、濕度、風(fēng)向、風(fēng)速。將SO2、NO2、PM10、氣溫、氣壓、濕度、風(fēng)向、風(fēng)速8個(gè)影響因子作為模型的輸入數(shù)據(jù),同時(shí)期的PM2.5質(zhì)量濃度值作為模型的輸出數(shù)據(jù)建立PM2.5實(shí)時(shí)監(jiān)測(cè)的軟測(cè)量模型。由于所組成的整個(gè)數(shù)據(jù)系列中不同數(shù)據(jù)的量級(jí)、量綱存在很大差異,所以需要對(duì)數(shù)據(jù)進(jìn)行歸一化預(yù)處理,使歸一化后的數(shù)據(jù)處于0~1之間。歸一化公式為
式中:xmax、xmin為每組因子變量的最大值和最小值;xi、x′i分別為歸一化前后的數(shù)據(jù)。
模型選用具有1個(gè)隱含層的3層BP網(wǎng)絡(luò),由于選取8個(gè)影響因子作為模型的輸入數(shù)據(jù),PM2.5質(zhì)量濃度數(shù)據(jù)作為模型的輸出數(shù)據(jù),所以,網(wǎng)絡(luò)模型輸入層神經(jīng)元數(shù)為8,輸出層神經(jīng)元數(shù)為1,隱含層神經(jīng)元數(shù)根據(jù)經(jīng)驗(yàn)選取11,建立結(jié)構(gòu)為8-11-1的神經(jīng)網(wǎng)絡(luò)模型。輸入層到隱含層的傳遞函數(shù)為logsig函數(shù),隱含層到輸出層的傳遞函數(shù)為purelin函數(shù),網(wǎng)絡(luò)的學(xué)習(xí)算法采用LM訓(xùn)練法trainlm。最大訓(xùn)練次數(shù)設(shè)置為5 000,訓(xùn)練目標(biāo)誤差設(shè)置為0.000 01,訓(xùn)練最小梯度設(shè)置為10-7。
遺傳參數(shù)設(shè)置如下:種群規(guī)模選取20,遺傳迭代次數(shù)為20,交叉概率取0.3,變異概率取0.1。實(shí)驗(yàn)程序均在Matlab軟件環(huán)境下編寫。圖3為遺傳算法在迭代尋優(yōu)過(guò)程中進(jìn)化代數(shù)與適應(yīng)度值變化曲線,由圖3可以看出,經(jīng)過(guò)20代的遺傳迭代,適應(yīng)度函數(shù)下降的陡度比較大,說(shuō)明遺傳算法的應(yīng)用取得了既定的效果,可以快速尋找到全局最優(yōu)點(diǎn)附近。
圖3 進(jìn)化代數(shù)與適應(yīng)度值變化曲線
經(jīng)過(guò)20次迭代,得到最優(yōu)的權(quán)值和閾值如下
將遺傳算法優(yōu)化后得到的最優(yōu)權(quán)值、閾值作為BP網(wǎng)絡(luò)的初始權(quán)值、閾值進(jìn)行網(wǎng)絡(luò)模型的訓(xùn)練。選取254組數(shù)據(jù)作為網(wǎng)絡(luò)模型的訓(xùn)練數(shù)據(jù)。訓(xùn)練結(jié)果見(jiàn)圖4,由圖4可看出訓(xùn)練模型輸出值與訓(xùn)練目標(biāo)輸出值曲線擬合良好。圖5為訓(xùn)練模型輸出值與目標(biāo)值的相關(guān)性分析圖,輸出值與目標(biāo)值的相關(guān)系數(shù)達(dá)0.982 93,說(shuō)明模型經(jīng)過(guò)訓(xùn)練后性能良好可以用于測(cè)試樣本值的監(jiān)測(cè)。
圖4 訓(xùn)練結(jié)果輸出擬合曲線
圖5 訓(xùn)練結(jié)果相關(guān)性分析圖
訓(xùn)練結(jié)束后應(yīng)用已訓(xùn)練好的模型對(duì)PM2.5質(zhì)量濃度進(jìn)行監(jiān)測(cè)。將25組影響因子數(shù)據(jù)輸入已訓(xùn)練好的模型,得到輸出結(jié)果后進(jìn)行反歸一化即可得PM2.5質(zhì)量濃度的監(jiān)測(cè)值。監(jiān)測(cè)結(jié)果見(jiàn)圖6、圖7。
圖6 軟測(cè)量模型監(jiān)測(cè)PM2.5質(zhì)量濃度的擬合曲線
圖7 GA-BP模型監(jiān)測(cè)結(jié)果相關(guān)性分析圖
由圖6、圖7可看出,經(jīng)遺傳算法優(yōu)化后的GABP軟測(cè)量模型的監(jiān)測(cè)結(jié)果曲線與實(shí)際值曲線擬合效果良好,監(jiān)測(cè)值與實(shí)際值的相關(guān)系數(shù)達(dá)0.98823。與BP網(wǎng)絡(luò)模型比較,GA-BP模型監(jiān)測(cè)精度穩(wěn)定,各個(gè)樣本處監(jiān)測(cè)值與實(shí)際值沒(méi)有出現(xiàn)過(guò)大偏差,總體擬合精度明顯好于BP模型。BP模型在第1、6、7、16、17、24樣本處監(jiān)測(cè)結(jié)果與實(shí)際值偏差較大,而GA-BP模型在這些樣本處的監(jiān)測(cè)結(jié)果都比較理想。二者監(jiān)測(cè)效果對(duì)比見(jiàn)表1。
表1 GA-BP模型與BP模型監(jiān)測(cè)效果對(duì)比
由表1可見(jiàn),BP模型的最大相對(duì)誤差達(dá)133.63%,GA-BP模型的最大相對(duì)誤差只有56.78%,兩模型的平均相對(duì)誤差相差9.2%,說(shuō)明模型經(jīng)過(guò)遺傳算法優(yōu)化后的監(jiān)測(cè)精度有了明顯的提高。由圖6和表1可發(fā)現(xiàn),在第24個(gè)樣本處,兩種模型的監(jiān)測(cè)效果均不理想,BP模型的相對(duì)誤差達(dá)133.63%,遺傳BP模型的相對(duì)誤差達(dá)56.78%,分析原因?yàn)榈?4個(gè)樣本處PM2.5質(zhì)量濃度在整個(gè)樣本中數(shù)值偏低,說(shuō)明模型在監(jiān)測(cè)偏低值時(shí)誤差較大,具有一定的局限性。
由于大氣中的PM2.5質(zhì)量濃度受到多種因素的影響表現(xiàn)出強(qiáng)烈的不確定性,將神經(jīng)網(wǎng)絡(luò)應(yīng)用到PM2.5監(jiān)測(cè)中具有極大的可行性。針對(duì)傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)模型存在易陷入局部極小值和收斂速度慢的問(wèn)題,建立了基于遺傳算法優(yōu)化的GA-BP神經(jīng)網(wǎng)絡(luò)軟測(cè)量模型,將GA-BP模型應(yīng)用于PM2.5質(zhì)量濃度的監(jiān)測(cè)中并與BP網(wǎng)絡(luò)模型的監(jiān)測(cè)結(jié)果進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明與傳統(tǒng)BP網(wǎng)絡(luò)模型比較,經(jīng)過(guò)遺傳算法優(yōu)化后的GA-BP神經(jīng)網(wǎng)絡(luò)軟測(cè)量模型監(jiān)測(cè)精度提高了9.2%,且在整體樣本的監(jiān)測(cè)中均沒(méi)出現(xiàn)過(guò)大的監(jiān)測(cè)誤差,表明該模型對(duì)PM2.5質(zhì)量濃度的監(jiān)測(cè)具有更好的非線性擬合能力和更高的監(jiān)測(cè)精度。但發(fā)現(xiàn)在樣本值偏低處模型的監(jiān)測(cè)精度偏低,在今后的研究中希望通過(guò)有效的手段使該模型具有更高的推廣能力。
[1] 郭清彬,程學(xué)豐,侯輝,等.冬季大氣中PM10和PM2.5污染特征及形貌分析[J].中國(guó)環(huán)境監(jiān)測(cè),2010,26(4):55-58.
[2] Baker K R,F(xiàn)oley K M.A nonlinear regression model estimating single source concentrations of primary and secondarily formed PM2.5[J].Atmospheric Environment,2011,45(22):3758-3767.
[3] 李松,羅勇,張銘銳.遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的混沌時(shí)間序列預(yù)測(cè)[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(29):52-55.
[4] 傅薈璇,趙紅.MATLAB神經(jīng)網(wǎng)絡(luò)應(yīng)用設(shè)計(jì)[M].北京:機(jī)械工業(yè)出版社,2010.
[5] 武常芳.基于B-P神經(jīng)網(wǎng)絡(luò)方法的西安市四季PM10濃度預(yù)報(bào)模型研究[D].西安:西安建筑科技大學(xué),2007.
[6] Saad EW,Wunsch D C.Neural network explanation using inversion[J].Neural Networks,2007,20(1):78-93.
[7] MATLAB中文論壇.MATLAB神經(jīng)網(wǎng)絡(luò)30個(gè)案例分析[M].北京:北京航空航天大學(xué)出版社,2010.
[8] 劉艷華.基于遺傳神經(jīng)網(wǎng)絡(luò)的西安市采暖季PM10污染濃度預(yù)報(bào)研究[D].西安:西安建筑科技大學(xué),2009.
[9] Ashena R,Moghadasi J.Bottom hole pressure estimation using evolved neural networks by real coded ant colony optimization and genetic algorithm[J].Journal of Petroleum Science and Engineering,2011,77(3-4):375-385.
[10] 趙宏,劉愛(ài)霞,王愷,等.基于GA-ANN改進(jìn)的空氣質(zhì)量預(yù)測(cè)模型[J].環(huán)境科學(xué)研究,2009,22(11):1276-1281.
Study on Atmospheric PM2.5 Soft Sensor Based on GA-BP Neural Network
ZHENG Hai-ming, SHANG Xiao-xiao
(Department of Mechanical Engineering,North China Electric Power University,Hebei,Baoding 071003,China)
Because of the varying concentration ofatmospheric PM2.5 have strongnonlinear characteristics,traditional soft sensormethods are difficult tomake accuratemeasuring and monitoring.According to traditional BP neural network is easy to fall into local minimum,BP neural network is combined with genetic algorithm to establish the GA-BP neural network soft sensor model.The model is applied to the monitoring of the atmospheric concentration of PM2.5,and compared with the results of themonitoring of the traditional BP neural network model,the results show that the genetic algorithm optimization model has a better non-linear fitting ability and highermonitoring accuracy.
Metrology;Genetic algorithm;GA-BP neural network;PM2.5monitoring;Soft sensor
TB99
A
1000-1158(2014)06-0621-05
10.3969/j.issn.1000-1158.2014.06.22
2013-05-06;
2014-08-13
國(guó)家自然科學(xué)基金(11174078);河北省自然科學(xué)基金(E2012502046);中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金(12MS102)
鄭海明(1972-),男,江西樂(lè)安人,華北電力大學(xué)副教授,主要從事光機(jī)電應(yīng)用技術(shù)、工業(yè)固定污染源煙氣連續(xù)排放監(jiān)測(cè)等研究。Zhaim@21cn.com