国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Adam注意力機制的PM2.5濃度預(yù)測方法

2021-04-24 09:35張怡文袁宏武孫鑫吳海龍董云春
關(guān)鍵詞:注意力預(yù)測濃度

張怡文,袁宏武,孫鑫,吳海龍,董云春

(安徽新華學(xué)院信息工程學(xué)院,安徽 合肥 230088)

0 引 言

隨著環(huán)境污染的加劇、霧霾天氣在我國大部分城市的不斷蔓延以及大氣細顆粒物(PM2.5)對人類健康的影響日益增大[1,2],PM2.5對空氣質(zhì)量的影響已成為政府、環(huán)境保護部門以及人們關(guān)注的熱點問題。

近年來,研究人員對PM2.5濃度的預(yù)測進行了大量研究[3],主要采用兩大類預(yù)測方法。一類是基于線性計算的方法,如基于基因表達式、Logistic回歸模型、LASSO回歸模型等[4?6],此類方法可以根據(jù)數(shù)據(jù)間的關(guān)聯(lián)性,預(yù)測PM2.5濃度;另一類主要采用非線性的計算方法,其中代表性的方法是采用神經(jīng)網(wǎng)絡(luò)模型進行預(yù)測。很多大氣污染物及氣象因素與PM2.5濃度之間的關(guān)系呈非線性特征[7,8],而神經(jīng)網(wǎng)絡(luò)具有較好的泛化能力,能夠較好地模擬大氣污染物及氣象因素的變化過程,因此目前基于神經(jīng)網(wǎng)絡(luò)模型的模擬預(yù)測方法[9,10]有較大的進展。

隨著深度學(xué)習(xí)在圖像處理、語音識別、自然語言處理等領(lǐng)域的廣泛應(yīng)用,少數(shù)研究人員開始采用深度學(xué)習(xí)對天氣或霧霾進行預(yù)測,如文獻[11]選擇深度信念網(wǎng)絡(luò),認為PM2.5濃度與多種氣象因素等有復(fù)雜的特征關(guān)系,采用大氣氣溶膠光學(xué)厚度和氣象參數(shù)預(yù)測PM2.5濃度值,與神經(jīng)網(wǎng)絡(luò)相比,提高了預(yù)測準確率。文獻[12]認為PM2.5濃度的預(yù)測具有時序性,建立了基于時間序列的遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)預(yù)測模型,并采用長短記憶神經(jīng)網(wǎng)絡(luò)[13,14](LSTM)對RNN進行優(yōu)化,相比神經(jīng)網(wǎng)絡(luò)的推薦方法,該方法提高了預(yù)測精度。但總的來說,深度學(xué)習(xí)在PM2.5濃度預(yù)測上的應(yīng)用還處于初期研究階段。

受上述工作啟發(fā),本文采用一種基于時間序列的深度學(xué)習(xí)模型對大氣PM2.5濃度進行預(yù)測??紤]到RNN和LSTM對每個時間點上的輸入對PM2.5濃度的預(yù)測值產(chǎn)生的影響權(quán)重均等,從而影響了預(yù)測準確性。故提出一種基于Adam注意力機制的PM2.5濃度預(yù)測方法,采用注意力機制為時間序列數(shù)據(jù)分配權(quán)重,并利用自適應(yīng)矩估計[15](Adaptive moment estimation,Adam)算法對RNN和LSTM模型的參數(shù)進行尋優(yōu)計算,找最優(yōu)參數(shù)。實驗結(jié)果表明,該方法有效地提高了預(yù)測準確率。

1 相關(guān)工作

1.1 基于時間序列的深度學(xué)習(xí)模型

傳統(tǒng)的數(shù)據(jù)挖掘方法對污染物及氣象因素的特征學(xué)習(xí)能力較弱,同時對如PM2.5濃度這種具有時間序列特征污染物的歷史數(shù)據(jù)感知能力較差。而深度學(xué)習(xí)采用的是數(shù)據(jù)層次化的抽象表達,對PM2.5濃度數(shù)據(jù)可以以時間塊進行層次的劃分,故選擇RNN之類的基于時間序列的深度學(xué)習(xí)方法[16],可以對復(fù)雜的污染物及氣象數(shù)據(jù)進行深度挖掘,建立基于時間序列的預(yù)測方法。

RNN的預(yù)測模型如圖1所示,每個時刻結(jié)點的數(shù)據(jù)都由當(dāng)前時刻的輸入數(shù)據(jù)和上一時刻結(jié)點的數(shù)據(jù)構(gòu)成,輸入、輸出的每條邊上都有權(quán)重,分別為W、U、V。RNN網(wǎng)絡(luò)主要包含兩個重要過程,數(shù)據(jù)的前向傳播和后向傳播,通過前向和后向傳播調(diào)整主要參數(shù),使得網(wǎng)絡(luò)達到最優(yōu)。

圖1 RNN模型Fig.1 Model of RNN

LSTM方法可以解決長時間序列中數(shù)據(jù)彌散的問題。LSTM在RNN的基礎(chǔ)上加入輸入門(Input gate)、輸出門(Output gate)和遺忘門(Forget gate),讓模型有選擇的記憶重要數(shù)據(jù)和遺忘不重要的數(shù)據(jù),對RNN的預(yù)測方法進行進一步優(yōu)化。LSTM的結(jié)構(gòu)如圖2所示。

圖2 LSTM模型Fig.2 Model of LSTM

1.2 注意力模型

神經(jīng)網(wǎng)絡(luò)是一種模擬人類大腦的模型,是一種資源分配模型,在某個時刻人的注意力主要集中在某一個或幾個焦點;而RNN和LSTM模型對不同的狀態(tài)時刻數(shù)據(jù)采用相同的權(quán)重進行計算,不符合類腦模型的設(shè)計。將注意力機制引入神經(jīng)網(wǎng)絡(luò),將不同時刻的注意力分布不同的權(quán)重,這樣可以更好地表現(xiàn)不同狀態(tài)時刻對輸出的影響。目前的注意力模型主要基于Encoder-Decoder模型[17]。Encoder用來對輸入進行編碼,并產(chǎn)生中間編碼Ci,在非注意力模型中共享同一個Ci的編碼。在注意力模型中,對不同的輸入分配不同的Ci編碼。Decoder用來進行解碼,將中間編碼Ci與Y1,…,Yt?1時刻的歷史信息一起生成目標輸出Yt?;谧⒁饬Φ腅ncoder-Decoder模型(A-ENDE)如圖3所示。

圖3 A-ENDE模型Fig.3 Model of A-ENDE

其中Yt的計算公式為

式中:Yt為t時刻的預(yù)測輸出;f函數(shù)為Decoder過程選擇的變換方法,如CNN、RNN、LSTM等。Ci的計算公式為

式中:Lx是輸入序列xi的長度;hj為第 j個輸入的中間隱狀態(tài)值;aij為第i個輸出時,第 j個輸入的注意力概率分配,主要表示輸出Y與輸入x之間的對齊概率。aij的計算在不同的數(shù)據(jù)集和模型中對應(yīng)不同的方法。

1.3 Adam優(yōu)化器

Adam[18,19]是一種基于一階梯度的隨機目標函數(shù)優(yōu)化算法,用來更新和計算模型訓(xùn)練和模型輸出的網(wǎng)絡(luò)參數(shù),使模型逼近或達到最優(yōu),從而得到最小化(或最大化)損失函數(shù)LHuber,以梯度的一階矩估計和二階矩估計動態(tài)調(diào)整每個參數(shù)的學(xué)習(xí)率。Adam算法的優(yōu)點在于經(jīng)過偏置校正后,每一次迭代學(xué)習(xí)率都有確定范圍,使參數(shù)比較平穩(wěn)。網(wǎng)絡(luò)參數(shù)更新過程為

式中:mt和vt分別為一階動量項和二階動量項;β1,β2為動力值,默認值為0.9和0.999。mt和vt的偏差修正分別為,其計算公式分別為

那么t+1時刻即第t+1次迭代模型的參數(shù)θt+1為

式中:θt表示t時刻即第t次迭代模型的參數(shù);η為超參數(shù),默認為10?5;ε是一個取值很小的數(shù)(該實驗中取為10?8),其作用是為了避免分母為0。第t次迭代代價函數(shù)關(guān)于θt的梯度gt計算公式為

損失函數(shù)LHuber利用的是Huber損失的計算方法,其計算公式為

式中:Y為預(yù)測值,f(x)為真實值,當(dāng)LHuber最小時即可得到模型達到最優(yōu)時的迭代次數(shù)和訓(xùn)練次數(shù)。

2 基于Adam注意力模型的PM2.5濃度預(yù)測

由于PM2.5濃度具有較強的時間序列特征,實驗分別選擇RNN和LSTM為Encoder和Decoder階段的變換方法,基于注意力的PM2.5濃度預(yù)測模型如圖4所示。

圖4所示的模型中,采用RNN進行Encoder-Decoder的預(yù)測方法記為ARNN,采用LSTM進行Encoder-Decoder的預(yù)測方法記為ALSTM。其中注意力部分的計算以及基于Adam算法的最優(yōu)參數(shù)都在Encoder階段,計算公式為

式中:pmi表示第i個時刻的PM2.5濃度的輸入值;p?mi表示第i個時刻的Encoder后的預(yù)測輸出。aij表示Encoder編碼后的輸出與真實值之間的對齊概率分布,由式(10)可以看出,偏差越小,權(quán)重分配越大,也就是對輸出的影響程度越高。

根據(jù)圖4的注意力模型進行PM2.5濃度預(yù)測的步驟如下:

1)選擇Adam算法,訓(xùn)練RNN和LSTM中的參數(shù)學(xué)習(xí)率α、迭代次數(shù)e進行尋優(yōu),計算參數(shù)最優(yōu)組合;

2)將具有時間序列特征的原始數(shù)據(jù)pmi=[pm1,pm2,···,pmt]做為輸入,將1)中的最優(yōu)參數(shù)代入RNN和LSTM作為Encoder編碼方法,輸出中間隱狀態(tài)序列hj=[h1,h2,···,ht]和Encoder階段的預(yù)測輸出序列

3)將原始輸入pmi和2)中輸出的序列,根據(jù)公式(10)計算每個輸入時刻的權(quán)重aij,并通過softmax進行歸一化;

4)將3)中得到的aij和2)中的中間隱狀態(tài)hj,代入式(2)得到中間編碼Ci;

5)將4)中得到的Ci與原始輸入pmi做為輸入,根據(jù)式(1)選擇RNN和LSTM為Decoder解碼方法,解碼輸出 PM2.5濃度的預(yù)測值 PMi=[PM1,PM2,···,PMt]。

3 實驗設(shè)計及結(jié)果分析

3.1 數(shù)據(jù)采集和預(yù)處理

實驗采集了合肥市10個觀測點PM2.5濃度的歷史數(shù)據(jù),數(shù)據(jù)周期從2016年1月1日–2018年12月31日,污染物數(shù)據(jù)來自www.pm25.com[20]。

由于數(shù)據(jù)采集時有時間數(shù)據(jù)丟失,此時根據(jù)式(11)進行數(shù)據(jù)補缺,

式中:Di為缺失的PM2.5濃度小時數(shù)據(jù),Di?1為缺失數(shù)據(jù)最近的上一時刻PM2.5濃度數(shù)據(jù),Di+1為缺失數(shù)據(jù)最近的下一時刻PM2.5濃度數(shù)據(jù)。

3.2 評價標準

實驗采用均方根誤差(Root mean squard error,RMSE)做為評價標準[21],其表達式為

式中:Xobs,i表示第i個預(yù)測值,Xmodel,i表示第i個真實值,n表示預(yù)測次數(shù)。ERMS的值越小表示預(yù)測誤差越小,因此ERMS越小越好。

3.3 實驗結(jié)果及分析

實驗分兩組進行,第一組為利用歷史PM2.5濃度預(yù)測未來PM2.5濃度值;第二組為利用歷史PM10、CO、CO2、SO2、O3等相關(guān)污染物濃度數(shù)據(jù)預(yù)測未來PM2.5濃度值。兩組實驗均選擇2016–2018年每年前11個月數(shù)據(jù)作為訓(xùn)練集,12月份的數(shù)據(jù)作為測試集進行實驗。實驗選擇BP、RNN、LSTM與本文提出的AT-RNN和AT-LSTM五種算法,采用ERMS指標進行算法的衡量標準。每年實驗重復(fù)5次,取均值對實驗結(jié)果統(tǒng)計分析。

五種算法均采用Adam算法對參數(shù)學(xué)習(xí)率α、迭代次數(shù)e進行訓(xùn)練。p在10~50之間,根據(jù)經(jīng)驗值,選擇p值為35。根據(jù)Adam算法的LHuber值,α為0.6?x,x取值在?5~0范圍內(nèi),e在1~10000范圍內(nèi)進行訓(xùn)練,選取LHuber值最小的α和e為模型的最佳參數(shù)。

第一組實驗采用2016–2018三年的PM2.5濃度數(shù)據(jù)進行單指標預(yù)測,用Adam算法分別訓(xùn)練α、e兩個參數(shù),訓(xùn)練過程如圖5和圖6所示。

圖5 參數(shù)α訓(xùn)練Fig.5 Training of parameter α

圖6 參數(shù)e訓(xùn)練Fig.6 Training of parameter e

由圖5、圖6可以看出,α取值在0.006時LHuber最低,故實驗中,α取值為0.006;2016–2018三年α最低的e的取值分別為:1076、697、2547,故以此訓(xùn)練結(jié)果為e的參數(shù)進行實驗。

第二組實驗采用2016–2018三年的PM10、CO、CO2、SO2、O3等多指標相關(guān)污染物濃度數(shù)據(jù)預(yù)測PM2.5濃度值,用Adam算法分別訓(xùn)練α、e兩個參數(shù),訓(xùn)練過程如圖7和圖8所示。

圖7 參數(shù)α訓(xùn)練Fig.7 Training of parameter α

圖8 參數(shù)e訓(xùn)練Fig.8 Training of parameter e

由圖7、圖8可知,α取值在0.006時LHuber最低,故實驗中,α取值為0.006;2016–2018三年LHuber最低的e的取值分別為:4729、1919、408,故以此訓(xùn)練結(jié)果為e參數(shù)進行實驗。

接下來,實驗分單指標預(yù)測和多指標預(yù)測兩組進行,每組實驗訓(xùn)練集均為每年前11個月的歷史數(shù)據(jù),測試集為每年12月份的數(shù)據(jù)。第一組單指標預(yù)測實驗結(jié)果如圖9所示,可以看出,BP算法預(yù)測的ERMS最大,RNN、LSTM模型比BP預(yù)測模型的ERMS低,加入基于Adam注意力模型的AT-RNN和AT-LSTM分別比RNN、LSTM預(yù)測模型的ERMS更低。但單指標預(yù)測的ERMS值都在40以上,整體偏高。

第二組多指標預(yù)測實驗結(jié)果如圖10所示,可以看出,BP算法預(yù)測的ERMS最大,RNN、LSTM模型比BP預(yù)測模型的ERMS低,加入基于Adam注意力模型的AT-RNN和AT-LSTM分別比RNN、LSTM預(yù)測模型的ERMS更低。同時多指標預(yù)測的ERMS值均在30以下,比單指標預(yù)測ERMS降低了10以上,有較大提升,說明相關(guān)污染物對PM2.5濃度影響較大。

由圖9和圖10可以看出,基于Adam注意力的模型可以進一步改善RNN、LSTM結(jié)構(gòu),說明:1)不同時間的歷史PM2.5濃度值對未來的PM2.5濃度預(yù)測值的影響力不同;2)Adam模型可以幫助注意力模型尋找最優(yōu)參數(shù)組合,降低預(yù)測誤差。

圖9 單指標ERMS對比Fig.9 Comparison of ERMSof single indicator

圖10 多指標ERMS對比Fig.10 Comparison of ERMSof multiple indicators

4 結(jié) 論

提出了一種基于Adam注意力機制的PM2.5濃度預(yù)測方法,注意力機制對基于時間序列的PM2.5濃度數(shù)據(jù)進行注意力權(quán)重分配,選擇Adam算法對編碼階段的RNN和LSTM的參數(shù)進行最優(yōu)選擇,并將RNN和LSTM做為該模型的Encoder和Decoder部分的編碼、解碼方法對PM2.5濃度進行預(yù)測。通過實驗證明:基于時間序列的PM2.5濃度數(shù)據(jù)適合采用RNN和LSTM方法進行注意力模型建模;同時加入基于Adam注意力機制的AT-RNN和AT-LSTM模型,可以提高預(yù)測的準確率。

基于Adam的注意力機制提高了PM2.5濃度預(yù)測的準確率,但通過數(shù)據(jù)分析發(fā)現(xiàn),由于數(shù)據(jù)量較少,依然會影響預(yù)測結(jié)果,如在兩組實驗中2017年的預(yù)測誤差都偏大,通過數(shù)據(jù)排查發(fā)現(xiàn)2017年數(shù)據(jù)缺失較多,故影響預(yù)測結(jié)果;同時PM2.5濃度成因復(fù)雜,兩組實驗采用PM2.5濃度的歷史數(shù)據(jù)對未來的PM2.5濃度值進行預(yù)測,以及通過PM10、SO2、CO2、CO、O3等污染物對PM2.5濃度進行預(yù)測,都沒考慮到氣象因素對PM2.5濃度的影響。下一步將繼續(xù)采集數(shù)據(jù),并加入氣象數(shù)據(jù)對PM2.5濃度進行預(yù)測,進一步提高預(yù)測準確率。

猜你喜歡
注意力預(yù)測濃度
無可預(yù)測
選修2-2期中考試預(yù)測卷(A卷)
選修2-2期中考試預(yù)測卷(B卷)
讓注意力“飛”回來
神醫(yī)的煩惱——濃度與配比
離子濃度大小的比較方法
“揚眼”APP:讓注意力“變現(xiàn)”
不必預(yù)測未來,只需把握現(xiàn)在
A Beautiful Way Of Looking At Things
對改良的三種最小抑菌濃度測試方法的探討