劉 銘, 魏 萊
(長(zhǎng)春工業(yè)大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 吉林 長(zhǎng)春 130012)
近幾年,我國(guó)城市中出現(xiàn)霧霾天氣的頻率逐漸增多,細(xì)微顆粒物(Fine Particulate Matter, PM2.5)這個(gè)名詞慢慢進(jìn)入到我們的生活,我們的生活也逐漸與空氣質(zhì)量息息相關(guān)。大氣中有很多有害物質(zhì)隨著空氣傳播,嚴(yán)重影響人們的正常生活,粒子徑小的肉眼觀察不出來(lái),也成為生活中的一大隱患。與大顆粒的污染物相比較,PM2.5粒子徑小、活性強(qiáng)、經(jīng)常附帶不良物質(zhì),而且會(huì)在大氣環(huán)境中滯留,短時(shí)間內(nèi)擴(kuò)散,所以高濃度的PM2.5會(huì)對(duì)人們正常生活產(chǎn)生極大的負(fù)面影響。如何有效保證人體身體健康,空氣環(huán)境治理具有非比尋常的意義。由于空氣中的PM2.5濃度受很多因素的影響,存在不規(guī)則性波動(dòng)和不確定性,很難對(duì)其濃度進(jìn)行準(zhǔn)確地預(yù)測(cè)。
最近幾年,國(guó)內(nèi)外對(duì)PM2.5濃度預(yù)測(cè)進(jìn)行了許多研究。董小剛等[1]使用EMD算法對(duì)PM2.5的發(fā)展趨勢(shì)進(jìn)行了分析;李嵩等[2]利用主成分分析法對(duì)空氣PM2.5濃度的各影響因素進(jìn)行了分析;Chaozhong Guo等[3]提出了裂紋轉(zhuǎn)子動(dòng)態(tài)特性理論,并運(yùn)用經(jīng)驗(yàn)?zāi)B(tài)分解(Empirical Mode Decomposition, EMD)的裂紋檢測(cè)方法通過(guò)實(shí)驗(yàn)研究驗(yàn)證了該理論結(jié)果;劉文博等[4]針對(duì)印第安皮瑪族成年女性糖尿病數(shù)據(jù)集進(jìn)行分類,運(yùn)用多種分類算法在多種指標(biāo)的領(lǐng)域進(jìn)行對(duì)比,在預(yù)測(cè)方面找到了該數(shù)據(jù)相對(duì)較優(yōu)的方法;Zhanglei Jiang等[5]通過(guò)相關(guān)系數(shù)和峰度值的大小選擇固有模態(tài)函數(shù)(Intrinsic Mode Function, IMF),去除高頻率噪聲,提取非線性特征,從而獲得軸承的故障特征頻率,證明了該方法的有效性和可行性;Manzar Mahmud等[6]提出了一種自適應(yīng)EMD技術(shù),用于IM中的轉(zhuǎn)子條故障檢測(cè)。由于特征故障頻率將隨負(fù)載和速度相關(guān)的工作條件而變化,因此,所提出的自適應(yīng)EMD技術(shù)會(huì)將不同頻帶上的故障特征與IMF邊帶相關(guān)聯(lián)。自適應(yīng)EMD技術(shù)使用第一個(gè)IMF檢測(cè)故障類型,并使用第二個(gè)IMF作為預(yù)測(cè)故障嚴(yán)重性的指標(biāo)。它可以克服與速度和負(fù)載振蕩有關(guān)的邊帶頻率靈敏度問(wèn)題。所提出的自適應(yīng)EMD技術(shù)的有效性通過(guò)在不同電機(jī)條件下的實(shí)驗(yàn)測(cè)試得到驗(yàn)證;Jianfeng Zhang等[7]開(kāi)發(fā)了一種基于長(zhǎng)短期記憶(Long Short-Term Memory, LSTM)的新時(shí)間序列模型,以替代計(jì)算量大的物理模型。所提出的模型由一個(gè)LSTM層和一個(gè)完全連接層組成,該層在其頂部具有一個(gè)在第一個(gè)LSTM層中應(yīng)用的輟學(xué)方法。文中使用14 a(2000-2013年)的數(shù)據(jù),在西北干旱地區(qū)河套灌區(qū)的5個(gè)子區(qū)域中應(yīng)用和評(píng)估了該模型,證明所提出的模型可以很好地保存和學(xué)習(xí)以前的信息。此外,還討論了輟學(xué)方法的有效性,以及所提出模型的體系結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明,輟學(xué)方法可以顯著防止過(guò)度擬合。此外,通過(guò)對(duì)擬議模型的R2得分與Double-LSTM模型(R2得分在0.170~0.864之間)進(jìn)行比較,進(jìn)一步證明了所提議模型的體系結(jié)構(gòu)是合理的,并且可以增強(qiáng)對(duì)時(shí)序數(shù)據(jù)的學(xué)習(xí)能力;Zihan Chang等[8]提出了一種基于小波變換和Adam優(yōu)化的LSTM神經(jīng)網(wǎng)絡(luò)的混合模型,稱為WT-Adam-LSTM。小波變換后,可以分解電價(jià)的非線性序列,并且處理后的數(shù)據(jù)將具有更穩(wěn)定的方差,Adam和LSTM的組合可以準(zhǔn)確地捕獲電價(jià)的適當(dāng)行為,這項(xiàng)研究提出了四個(gè)案例來(lái)驗(yàn)證混合模型的性能,并采用澳大利亞和法國(guó)新南威爾士州的數(shù)據(jù)集說(shuō)明混合模型的卓越性;Xu Liu等[9]提出基于標(biāo)準(zhǔn)LSTM的兩種新方法,它們不僅可以利用多功能輸入和多時(shí)間步長(zhǎng)輸出的優(yōu)勢(shì)來(lái)提高一次性預(yù)測(cè)可用自行車的準(zhǔn)確性步數(shù),還可以預(yù)測(cè)多時(shí)間步數(shù)中的自行車數(shù)量,這些方法將幫助自行車共享機(jī)構(gòu)做出更好的決策,以將其自行車有效地分配給每個(gè)泊塢窗,實(shí)驗(yàn)結(jié)果證實(shí),我們的多特征和多時(shí)間步長(zhǎng)模型優(yōu)于標(biāo)準(zhǔn)LSTM模型;Qian Fei等[10]提出LSTM網(wǎng)絡(luò)直接用于有毒氣體擴(kuò)散的預(yù)測(cè),并使用Project Prairie Grass數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),與高斯擴(kuò)散模型、支持向量機(jī)(SVM)模型和反向傳播(BP)網(wǎng)絡(luò)模型相比,深度學(xué)習(xí)的LSTM模型具有更高的預(yù)測(cè)精度(特別是對(duì)于高濃度值的預(yù)測(cè)),同時(shí)避免了傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)模型中出現(xiàn)的負(fù)濃度值和過(guò)度擬合問(wèn)題;Haoqiang Shi等[11]提出采用雙隱藏層LSTM預(yù)測(cè)陀螺儀的溫度數(shù)據(jù)(包括單點(diǎn)和周期預(yù)測(cè)),并提出了預(yù)測(cè)效果的評(píng)估指標(biāo),通過(guò)BP網(wǎng)絡(luò),支持向量機(jī)(SVM)和LSTM網(wǎng)絡(luò),使用預(yù)估值檢測(cè)陀螺儀的非正常變化,仿真計(jì)算與陀螺儀共同結(jié)合測(cè)算測(cè)量數(shù)據(jù),并且可以使用LSTM網(wǎng)絡(luò)預(yù)測(cè)陀螺儀的溫度。
文中采用EMD算法對(duì)天津市2017-2019年采集的空氣質(zhì)量數(shù)據(jù)進(jìn)行分解,分解后的數(shù)據(jù)作為深度學(xué)習(xí)LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)[12]的輸入,從而得到較好的一種PM2.5預(yù)測(cè)算法。
2000年以來(lái),有很多突破性的頻譜分析方法,EMD[13]方法是大家都認(rèn)可的一種新型方法,此方法主要描述數(shù)據(jù)本身不需要安插其他基函數(shù),只需要按照數(shù)據(jù)本身的時(shí)間尺度特征進(jìn)行信號(hào)方面的分解。這也正是它與其他方法的差異所在。正是由于EMD擁有這樣獨(dú)特的性質(zhì),所以在理論層面上各類信號(hào)都可以用EMD處理,尤其是在處理非線性數(shù)據(jù)上,EMD擁有很明顯的優(yōu)勢(shì),優(yōu)勝于其他方法,并且具備很高的信噪比。自從提出EMD方法之后,各個(gè)領(lǐng)域都廣泛應(yīng)用其處理一些棘手的問(wèn)題數(shù)據(jù),比如空氣質(zhì)量、海洋數(shù)據(jù)、天體觀測(cè)數(shù)據(jù)資料分析、地震記錄數(shù)據(jù)分析。EMD的主要工作就是將數(shù)據(jù)分解成不同尺度的各個(gè)分量,也稱其為IMF,通過(guò)IMF可以更加直觀地觀測(cè)數(shù)據(jù)。
EMD本質(zhì)是經(jīng)過(guò)特征的時(shí)間尺度識(shí)別信號(hào)中所含有的所有振動(dòng)模態(tài)。在EMD分解中,每個(gè)IMF的狀態(tài)都具有一定的相同性,每個(gè)IMF都具有信號(hào)的某一時(shí)間尺度特征。相比于其他的信號(hào)分析方法,EMD分解具有很大可行優(yōu)勢(shì),它的基函數(shù)是由自身得到的,所以能在各類的信號(hào)處理方面游刃有余,沒(méi)有特別嚴(yán)格的限定,且具有普遍性。
EMD的優(yōu)勢(shì)如下:
1)EMD分解的真正運(yùn)行是將原數(shù)據(jù)分解成頻率不同的各個(gè)數(shù)據(jù),由高到低依次得到。對(duì)于各個(gè)種類的信號(hào)來(lái)說(shuō),高頻數(shù)據(jù)往往代表著此數(shù)據(jù)的主要特征,所以EMD是一種將高頻分量先行提出的一種方法,從另一角度說(shuō)也是一種新的主成分分析法。
2)EMD能根據(jù)分解過(guò)程中的信號(hào)特征自適應(yīng)發(fā)生改變,所以EMD方法具有自適應(yīng)時(shí)序分析特征。
①找到信號(hào)x(t)所有的極值點(diǎn);
②用擬合出上下極值點(diǎn)的包絡(luò)線,求得上下包絡(luò)線的平均值m(t),得到h(t)=x(t)-m(t);
③判斷h(t)是否為IMF;
④如果不是,則用h(t)代替x(t),重復(fù)步驟①~③,直到h(t)滿足判斷依據(jù)。此時(shí)h(t)就是需要提取的IMFCk(t);
⑤每經(jīng)過(guò)運(yùn)算得到一階IMF,就從原信號(hào)中去除它,之前的步驟一直重復(fù)運(yùn)算,直到信號(hào)最后剩余部分rn就只是單調(diào)序列或者常值序列。
經(jīng)過(guò)EMD方法分解將原始信號(hào)x(t)分解成一系列IMF,以及rn的線性疊加
(1)
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)是一種處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)[14],常用于各種時(shí)序數(shù)據(jù)。與其他前向神經(jīng)網(wǎng)絡(luò)不同的是,RNN可以儲(chǔ)存一種上文和下文的形態(tài),可以在上文和下文窗口中學(xué)習(xí)、表達(dá)、儲(chǔ)備此列數(shù)據(jù)序列信息的能力。RNN在很多應(yīng)用場(chǎng)景有廣泛的應(yīng)用,比如若干個(gè)單詞組成的段落,若干幀圖像組成的視頻段落,若干個(gè)段落組成的音頻。RNN標(biāo)準(zhǔn)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
RNN輸入的集合是{x0,x1,…,xt,xt+1,…},輸出的集合是{y0,y1,…,yt,yt+1,…},隱藏層的輸出為{s0,s1,…,st,st+1,…}。不難看出,RNN之所以能夠處理傳統(tǒng)神經(jīng)網(wǎng)絡(luò)處理不了的序列,與它的結(jié)構(gòu)分不開(kāi)關(guān)系,它不光能從輸入層傳遞到輸出層,還能在每個(gè)單元的隱層間傳遞信息,具體步驟如下:
st=σ(Uxt+Wst-1+bi),
(2)
ot=Vht+bo,
(3)
yt=softmax(ot),
(4)
式中:U----輸入層權(quán)重參數(shù);
W----隱藏層權(quán)重參數(shù);
V----輸出層權(quán)重參數(shù);
bi----輸入層偏置參數(shù);
bo----輸出層偏置參數(shù);
σ----激活函數(shù),一般情況下會(huì)選擇tanh函數(shù)或者ReLu函數(shù)。因?yàn)閠anh函數(shù)的梯度最大只能是1,大部分狀態(tài)下都是接近0或者飽和狀態(tài),每當(dāng)求導(dǎo)的矩陣存在一些元素接近0,那么一連乘會(huì)讓梯度很快就消失了,稱為梯度消失,如果換成ReLu函數(shù),其中特征值如果大于1,那么連乘后的結(jié)果被稱為梯度爆炸,這兩點(diǎn)是RNN致命的缺點(diǎn)。
RNN是一種新型神經(jīng)網(wǎng)絡(luò),與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)存在本質(zhì)上的不同,它是一種跨越和進(jìn)步,但在實(shí)際中,其結(jié)果往往差強(qiáng)人意。LSTM[15-16]是長(zhǎng)短期記憶網(wǎng)絡(luò),在結(jié)構(gòu)上LSTM與RNN有很高的相似,都連接了隱藏層,不同的是LSTM網(wǎng)絡(luò)在結(jié)構(gòu)中增加細(xì)胞狀態(tài)會(huì)隨著自己存在的不同時(shí)間向下傳遞狀態(tài),細(xì)胞狀態(tài)表示為長(zhǎng)期記憶。在整個(gè)序列中只有少量的線性計(jì)算,所以可以有效保存過(guò)去較長(zhǎng)時(shí)刻的信息。
LSTM應(yīng)用已經(jīng)遍布了人們的日常生活,比如LSTM算法處理的模型可以翻譯各類語(yǔ)言、對(duì)于圖像各類的處理和分析、語(yǔ)音和圖像精準(zhǔn)識(shí)別、雜亂手寫體的識(shí)別、聊天機(jī)器人與用戶之間的自動(dòng)聊天、股票等一些時(shí)序問(wèn)題的預(yù)測(cè)、系列疾病的預(yù)測(cè)、音樂(lè)片段的合成剪輯、編輯文檔摘要等應(yīng)用。LSTM區(qū)別于RNN的地方,主要在于LSTM算法擁有一個(gè)獨(dú)特“處理器”,它可以用于判別信息有沒(méi)有用。這個(gè)處理器作用的結(jié)構(gòu)被稱為cell,如圖2所示。
一個(gè)cell當(dāng)中被放置了輸入門、遺忘門和輸出門三扇門。這個(gè)設(shè)計(jì)可以應(yīng)對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)中的梯度衰減問(wèn)題,并更好地捕捉時(shí)間序列中時(shí)間步距離較大的依賴關(guān)系。目前已知,解決長(zhǎng)序依賴問(wèn)題的有效算法,LSTM就是重要的一員,并且這種技術(shù)的適應(yīng)性非常高。
LSTM還要確定當(dāng)前時(shí)刻的輸入運(yùn)算,輸入門控制當(dāng)前時(shí)間步的輸入如何傳遞到當(dāng)前時(shí)間步的記憶細(xì)胞。在輸入門內(nèi)進(jìn)行的運(yùn)算過(guò)程如下式:
it=σ(Wxixt+Whiht-1+Wcict-1+bi),
(5)
(6)
式中:Wxi,Whi,Wci----輸入門中的參數(shù);
xt----輸入數(shù)據(jù);
ht-1----上個(gè)時(shí)間步的隱藏層輸出;
在輸入門運(yùn)算之后,LSTM需要更新當(dāng)前時(shí)間步的細(xì)胞狀態(tài),
ct=ftct-1+itct,
(7)
式中:ft----遺忘門的輸出,代表是否丟棄上一時(shí)間步的信息,是否傳遞到當(dāng)前時(shí)間步。
最后根據(jù)當(dāng)前的細(xì)胞狀態(tài)ct計(jì)算什么信息需要通過(guò)輸出門進(jìn)行輸出。并按照以下呈現(xiàn)公式計(jì)算得出當(dāng)前輸出。
ot=σ(Wxoxt+Whoht-1+bo),
(8)
ht=ottanh(ct),
(9)
式中:Wxo,Who,bo----輸出門中的參數(shù);
ht----當(dāng)前時(shí)間步的隱藏層輸出。
文中采用LSTM神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),根據(jù)2017年9月14日0時(shí)-2019年9月14日0時(shí)天津市PM2.5空氣質(zhì)量數(shù)據(jù),根據(jù)EMD分解后重組,再利用LSTM能夠有效地處理,算法網(wǎng)絡(luò)模型的整體流程如圖3所示。
從圖3可以看出,文中提出的組合預(yù)測(cè)模型采用EMD分解后再運(yùn)用LSTM。經(jīng)過(guò)EMD分解的數(shù)據(jù)輸入LSTM模型訓(xùn)練,這樣發(fā)揮了LSTM能解決時(shí)間序列長(zhǎng)期依賴性的優(yōu)勢(shì),因此,從理論上講,運(yùn)用EMD-LSTM模型是適應(yīng)空氣質(zhì)量數(shù)據(jù)預(yù)測(cè)的優(yōu)秀算法。
文中選擇天津空氣質(zhì)量數(shù)據(jù),從AQI、PM2.5、PM10、SO2中挑選出2017年9月14日0時(shí)-2019年9月14日0時(shí)PM2.5數(shù)據(jù),選擇前80%作為訓(xùn)練數(shù)據(jù),后20%作為測(cè)試數(shù)據(jù)。共搜集16 991條訓(xùn)練樣本,3 400條測(cè)試樣本,其中有少量缺失值用均值填充。
為驗(yàn)證所提出算法的有效性,將EMD-LSTM算法與標(biāo)準(zhǔn)LSTM算法進(jìn)行對(duì)比分析,迭代次數(shù)epochs為20,使用相同的訓(xùn)練集和測(cè)試集,得到結(jié)果見(jiàn)表1。
表1 評(píng)價(jià)指標(biāo)
由RMSE、MAPE、MAE評(píng)價(jià)標(biāo)準(zhǔn)可知,EMD-LSTM對(duì)空氣質(zhì)量數(shù)據(jù)均有不錯(cuò)的預(yù)測(cè)能力,經(jīng)過(guò)EMD分解后的預(yù)測(cè)能力更強(qiáng)、誤差更小。文中提出預(yù)測(cè)模型針對(duì)本數(shù)據(jù)有良好的預(yù)測(cè)效果。
LSTM與EMD-LSTM結(jié)果對(duì)比如圖4所示。
通過(guò)真實(shí)值和預(yù)測(cè)值對(duì)比可以明顯看出,添加EMD分解后,預(yù)測(cè)更加精準(zhǔn),比單一使用LSTM神經(jīng)網(wǎng)絡(luò)效果要好很多,對(duì)于預(yù)測(cè)這種不穩(wěn)定、非線性的序列來(lái)說(shuō)大有幫助。
提出了基于EMD-LSTM的PM2.5預(yù)測(cè)算法,不需要對(duì)數(shù)據(jù)進(jìn)行專業(yè)且復(fù)雜的處理,缺失值由均值補(bǔ)充。實(shí)驗(yàn)結(jié)果表明,文中提出的預(yù)測(cè)算法針對(duì)空氣質(zhì)量數(shù)據(jù)有良好的預(yù)測(cè)效果。從表1可以看出,加入EMD的LSTM算法各個(gè)評(píng)價(jià)指標(biāo)都是最優(yōu)的,而單純的LSTM算法從RMSE、MAPE、MAE可看出不如經(jīng)過(guò)EMD分解的算法模型。從圖4也可以看出,單純的LSTM算法的預(yù)測(cè)值與原數(shù)據(jù)的重合程度不如EMD-LSTM算法的預(yù)測(cè)程度。未來(lái)可以針對(duì)PM2.5地區(qū)現(xiàn)實(shí)特性進(jìn)行深度的挖掘研究,結(jié)合地區(qū)實(shí)際情況對(duì)PM2.5進(jìn)行更加精準(zhǔn)的預(yù)測(cè)。