趙煜 韓旭昊
收稿日期: 2023-04-06
基金項目:國家社會科學基金項目(21XTJ004).
作者簡介:通訊作者:趙煜(1972—),女,土族,甘肅臨洮縣人,博士,教授,主要研究方向為應(yīng)用數(shù)理統(tǒng)計、生態(tài)經(jīng)濟統(tǒng)計.
引用格式:趙煜,韓旭昊.基于CEEMDAN-LSTM組合的蘭州空氣質(zhì)量指數(shù)預(yù)測[J].安徽師范大學學報(自然科學版),2023,46(5):433-439.
DOI:10.14182/J.cnki.1001-2443.2023.05.004
摘要:針對蘭州空氣質(zhì)量指數(shù)存在波動大和數(shù)據(jù)長期依賴性的問題,提出了一種基于CEEMDAN-LSTM組合的預(yù)測模型,并與EEMD-LSTM和LSTM模型進行了比較。首先采用CEEMDAN對蘭州空氣質(zhì)量指數(shù)序列進行分解,然后使用LSTM神經(jīng)網(wǎng)絡(luò)預(yù)測得到各個分量,最后疊加各分量的預(yù)測值重構(gòu)空氣質(zhì)量指數(shù)預(yù)測結(jié)果。實驗結(jié)果表明,CEEMDAN-LSTM模型相比于LSTM模型和EEMD-LSTM模型,具有更小的預(yù)測誤差和更高的預(yù)測精度。這得益于CEEMDAN方法的有效降噪和LSTM模型對長期依賴關(guān)系的強大處理能力。因此,該組合模型在蘭州空氣質(zhì)量指數(shù)預(yù)測方面具有一定的實用價值。
關(guān)鍵詞:蘭州;空氣質(zhì)量指數(shù);LSTM神經(jīng)網(wǎng)絡(luò);CEEMDAN模態(tài)分解
中圖分類號:X823 文獻標志碼:A 文章編碼:1001-2443(2023)05-0433-07
引言
空氣質(zhì)量指數(shù)(AQI)是反映空氣質(zhì)量狀況的綜合指數(shù),為評估區(qū)域空氣質(zhì)量及后續(xù)預(yù)防和治理空氣污染提供了重要的量化依據(jù)。由于氣象過程的多變性和隨機性,準確預(yù)測空氣質(zhì)量指數(shù)相對困難,不同學者從不同角度引入多種模型,以期提升AQI預(yù)測的精度與穩(wěn)定性,在早期的研究中,主要采用各個不同領(lǐng)域的單一方法。例如:李博群等[1]利用數(shù)學方法,引入模糊時間序列理論進行預(yù)測;Sigamani等[2]基于統(tǒng)計思想,建立多元線性回歸模型進行預(yù)測;吳慧靜等[3]借助機器學習模式,采用遺傳算法改進的BP神經(jīng)網(wǎng)絡(luò)進行預(yù)測。當前的研究趨勢主要是從智能算法、影響因素挖掘和序列屬性分解三個角度進行深入探究。
智能算法角度:許毅蓉等[4]運用參數(shù)自動化智能算法得到AQI預(yù)測模型的最優(yōu)參數(shù),避免了傳統(tǒng)機器學習模型中運行速度慢的問題;龔榮等[5]通過改進海洋捕食者算法增強了該算法的全局搜索能力,提高了空氣質(zhì)量指數(shù)預(yù)測的精度和可靠性;Zhan等[6]將開發(fā)的分解算法與廣義學習系統(tǒng)(BLS)相結(jié)合,構(gòu)建了一種更簡單高效的神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)在預(yù)測空氣質(zhì)量指數(shù)時模型訓練速度更快;Chhikara等[7]使用聯(lián)邦學習(FL)算法收集數(shù)據(jù),創(chuàng)建了一個全局模型,通過不斷迭代更新數(shù)據(jù),該模型相比其他時間序列模型預(yù)測誤差更小。盡管基于智能算法的空氣質(zhì)量指數(shù)預(yù)測方法簡單且快速,但容易出現(xiàn)欠擬合問題。
影響因素挖掘角度:劉媛媛等[8]考慮時空因素的影響,引入注意力機制以關(guān)注重要特征,從而提升預(yù)測效果;李志剛等[9]采用交叉遞歸定量分析AQI影響因素間的關(guān)聯(lián)度,篩選影響AQI的重要因素,為后續(xù)預(yù)測提供優(yōu)質(zhì)的先驗數(shù)據(jù);李乾等[10]以主成分分析法篩選影響AQI的關(guān)鍵因子,降低了輸入維度并減少運算量,提高了預(yù)測精度;周凱等[11]分析空氣質(zhì)量指數(shù)的平穩(wěn)性、季節(jié)性,并通過ARIMA擬合預(yù)測,在48小時內(nèi)預(yù)測結(jié)果與實際結(jié)果較吻合?;谟绊懸蛩赝诰虻目諝赓|(zhì)量指數(shù)預(yù)測模型在短期預(yù)測方面表現(xiàn)較好,但隨著預(yù)測時長的增加,預(yù)測精度逐漸降低。
序列屬性分解角度:有基于時域方法的分解,如朱雪妹等[12]基于時域方法構(gòu)建了SARIMA模型,用于提取AQI的趨勢和季節(jié)特征,從而揭示空氣質(zhì)量的規(guī)律性變化;有基于頻域方法的分解,如李婷婷等[13]利用經(jīng)驗?zāi)B(tài)分解(EMD)算法對AQI數(shù)據(jù)進行分解,使數(shù)據(jù)的波動具有規(guī)律性,有助于提高模型的預(yù)測效果;姚清晨等[14]采用小波去噪建立AQI的四季預(yù)報方程,小波濾波圖比原時間序列圖更加平滑,擬合效果更好;徐洪學等[15]應(yīng)用奇異譜分析方法,得到不同時間子序列,根據(jù)序列特點對不同子序列建模,最終結(jié)果明顯優(yōu)于傳統(tǒng)ARIMA模型;Li等[16]基于快速傅立葉變換提取信號的最高頻率部分和其余部分的頻域邊界,在模態(tài)混疊方面比EMD具有更好的性能,有助于提升序列分解的穩(wěn)定性。
更多學者在視角重疊與方法組合方面進行了嘗試。常恬君等[17]利用隨機森林組合Prophet模型,彌補了Prophet模型無法預(yù)測隨機非線性部分的缺點;Zhao等[18]引入拓撲結(jié)構(gòu)的相似性提出了非參數(shù)和數(shù)據(jù)驅(qū)動模型,提高了空間模型的準確性和適應(yīng)性;Zuo等[19]提出了集合經(jīng)驗?zāi)B(tài)分解(EEMD)和小波包閾值聯(lián)合去噪的方法,解決了小波變換容易丟失高頻細節(jié)信息的問題?;谝暯侵丿B與方法組合的模型彌補了單一模型的缺點,提高了預(yù)測精度。
綜合來看,基于機器學習與序列屬性分解方法的組合在AQI預(yù)測中優(yōu)勢明顯,其中,相較于時域分解,頻域分解在提取AQI屬性方面更有效。常用的頻域分解方法主要有小波分析、奇異譜分析和經(jīng)驗?zāi)B(tài)分解等。而現(xiàn)有研究表明,小波分析對于基函數(shù)的選擇和分解層數(shù)的確定缺乏自適應(yīng)性,而不同的基函數(shù)和分解層數(shù)會對結(jié)果產(chǎn)生顯著影響[20],奇異譜分析在選取滯后窗口時存在一定的主觀性,不同窗口長度會對信號提取的效果產(chǎn)生較大影響[21]。相對而言,EMD方法可以很好地處理非線性和非平穩(wěn)信號,但EMD在實際應(yīng)用中容易出現(xiàn)端點效應(yīng)和模態(tài)混疊現(xiàn)象[22]。基于EMD優(yōu)化的EEMD通過引入噪聲克服了模態(tài)混疊問題,但仍然存在一些不確定性。進一步改進的完全自適應(yīng)噪聲集合經(jīng)驗?zāi)B(tài)分解(CEEMDAN)具有自適應(yīng)分解特性,能夠根據(jù)非線性序列自身特征進行分解,解決了EMD算法的模態(tài)混疊問題[23],通過對原始信號進行多次添加噪聲并分解的思路,進一步提升了穩(wěn)定性,得到更穩(wěn)定可靠的時間序列分解結(jié)果。
目前對于空氣質(zhì)量的研究多集中于經(jīng)濟快速發(fā)展和人類活動頻繁的東部地區(qū),這類地區(qū)外部氣候條件類似,內(nèi)陸城市呈現(xiàn)空氣循環(huán)較弱、空氣污染具有長期性和穩(wěn)定性等特點,其研究結(jié)果對外部氣候條件特殊的西部地區(qū)借鑒意義不強[24]。蘭州作為典型的河谷城市,氣象條件相對特殊,逆溫現(xiàn)象及低風條件等阻礙空氣垂直運動,大氣氣溶膠和一些氣態(tài)污染物難以擴散出去[25]。這導致蘭州空氣質(zhì)量指數(shù)序列存在長期依賴關(guān)系,當前空氣質(zhì)量指數(shù)不僅受數(shù)月之前空氣質(zhì)量影響,而且呈現(xiàn)較大的波動特征。
論文以蘭州空氣質(zhì)量指數(shù)預(yù)測為研究內(nèi)容,以有效提取AQI數(shù)據(jù)內(nèi)在特征為切入點探討組合預(yù)測模型的構(gòu)建。選取LSTM模型以提取空氣質(zhì)量指數(shù)序列中的長期依賴關(guān)系,LSTM模型的長短期記憶網(wǎng)絡(luò)通過引入遺忘門、輸入門和輸出門可捕捉時間序列中跨度較大的依賴關(guān)系;針對蘭州空氣質(zhì)量指數(shù)序列波動大的特點,選取CEEMDAN分解方法,提取空氣質(zhì)量指數(shù)序列中的趨勢、季節(jié)性和周期性等,使序列的分解更穩(wěn)定可靠。通過預(yù)測效果評價及與LSTM、EEMD-LSTM模型預(yù)測結(jié)果的比較可知,本文最終建立的CEEMDAN-LSTM組合模型,預(yù)測效果良好。
1 基本理論
1.1 LSTM神經(jīng)網(wǎng)絡(luò)
長短期記憶網(wǎng)絡(luò)是使用反向傳播訓練并克服消失梯度問題的遞歸神經(jīng)網(wǎng)絡(luò)。針對時間序列的無序性,LSTM提供了有效的解決方案。LSTM網(wǎng)絡(luò)使用循環(huán)結(jié)構(gòu),可以學習時間序列數(shù)據(jù)的依賴關(guān)系,以便預(yù)測結(jié)果。相比于傳統(tǒng)的神經(jīng)元,LSTM內(nèi)部包含多個內(nèi)存塊,這些塊之間進行層層相連。每個塊包含管理塊狀態(tài)和輸出的門,這些門使用sigmoid激活單元,可以控制狀態(tài)的變化和信息的添加。
一個單元內(nèi)有三種類型的門:
遺忘門:有條件地決定從內(nèi)存塊中扔掉一些信息。
對輸入值進行加權(quán)和偏置,并通過激活函數(shù)[σ]計算出遺忘系數(shù),遺忘系數(shù)的計算公式如下:
[ft]=[σWf?ht-1,xt+bf]? ? ? ? ? ? ? ? ? ? (1)
其中:[ht-1]為隱藏層上一時刻的狀態(tài);[xt]為當前時刻實際值;[ft]為遺忘系數(shù);[Wf]和[bf]分別表示遺忘門權(quán)重及偏置量。
輸入門:有條件地決定從輸入中更新內(nèi)存狀態(tài)的值。
輸入門通過tanh層決定保留的信息,并更新數(shù)值。
[it]=[σWi?hi-1,xi+bi]? ? ? ? ? ? ? ? ? ? ?(2)
[ct=tanhWc?ht-1,xt+bc]? ? ? ? ? ? ? ? (3)
[it]為要更新的數(shù)值,[ct]為新的候選數(shù)值,[Wi]、[WC]和[bi、bc]分別表示權(quán)重和偏置量。
輸出門:根據(jù)輸入條件決定輸出結(jié)果。
[Ot=σW0ht-1,xt+b0]? ? ? ? ? ? ? ? ? ? (4)
1.2 CEEMDAN經(jīng)驗?zāi)B(tài)分解
集合經(jīng)驗?zāi)B(tài)分解(CEEMDAN)算法在EMD算法基礎(chǔ)上改進得到,如前文所述,EMD方法在應(yīng)對端點效應(yīng)和模態(tài)混疊等問題上存在一定的局限性,改進的EEMD雖然克服了模態(tài)混疊問題但容易存在重構(gòu)誤差[26]。為克服這些問題,采用CEEMDAN方法,CEEMDAN方法通過引入隨機白噪聲,增強了分解的穩(wěn)定性和魯棒性。此外,相比EEMD方法,CEEMDAN在處理波動大的序列時具有抗噪性強、分解精度高等優(yōu)勢,成為空氣質(zhì)量指數(shù)序列分解的優(yōu)良選擇。CEEMDAN的基本邏輯如下:
生成含有白噪聲的序列:
[xit=xt+wit? ? ]? ? ? ? ? ? ? ? ? ? ? ?(5)
對[xit]進行分解,得到各樣本的1階IMF分量,將其均值作為[xt]的1階IMF分量,即:
[IMF1t=1Ii=1IIMFi1]? ? ? ? ? ? ? ? ? ? ? ?(6)
計算1階殘差量、2階IMF分量。1階殘差量、2階IMF分量的表達式分別為:
[r1t=xt-IMF1t]? ? ? ? ? ? ? ? ? ? ? (7)
[IMF2t]=[1Ii=1IE1r1t+ε1E1wit]? ? ? ? ?(8)
k階殘差,k+1階IMF分量的表達式分別為:
[rkt=rk-1t-IMFkt]? ? ? ? ? ? ? ? ? ? (9)
[IMFk+1t]=[1Ii=1IE1rkt+εkEkwit]? ? ? ?(10)
重復這一步直到殘差不可再分解,其判斷標準為殘差的極值點個數(shù)至多為2,若殘差滿足:
[Rt=xt-k=2KIMFkt]? ? ? ? ? ? ? ? ? ?(11)
則原始序列[xt]最終被分解為:
[xt=k=2KIMFkt+Rt]? ? ? ? ? ? ? ? ? ? (12)
1.3 模型評價指標
一般通過對比實際值和預(yù)測值評估預(yù)測效果,單一評價標準沒有說服力,因此選取以下指標度量模型的預(yù)測效果。
(1)平均相對誤差絕對值
[EMAP=1lt=T+1T+lXt-XtXt]? ? ? ? ? ? ? ? ? ? ? (13)
(2)均方根誤差
[ERMS=1lt=T+1T+l(Xt-Xt)2]? ? ? ? ? ? ? ? ? (14)
式中:[l] 表示預(yù)測序列的長度,從時間[T+1]開始預(yù)測,一直到[T+l],[Xt]是實際值,[Xt]是預(yù)測值,EMAP、ERMS值越小,代表預(yù)測誤差越小。
2 數(shù)據(jù)獲取及處理
2.1 研究區(qū)概況
河谷城市指在城市發(fā)展中受到河流以及山谷限制的城市,城市一般會被迫沿著地形和河流走向而發(fā)展布局,順著河流主干道形成帶狀密集的空間結(jié)構(gòu)。蘭州地區(qū)南北方向被群山環(huán)抱,東西由盆地組成,是典型的河谷城市,其氣候環(huán)境比較特殊,外部氣象條件相對復雜。一方面,大氣污染物擴散緩慢,不同種類的污染物長時間滯留空中并混合在一起,形成更難處理的混合污染物;另一方面,受天氣條件、地形和逆溫現(xiàn)象等因素的影響,蘭州空氣質(zhì)量指數(shù)序列波動幅度大、季節(jié)趨勢強(見圖1),空氣質(zhì)量指數(shù)序列的多因素疊加特征鮮明。
2.2 數(shù)據(jù)來源及預(yù)處理
考慮到從海量網(wǎng)頁信息中獲取數(shù)據(jù)時,爬蟲方法具有爬取速度快,可以提取生成特定格式數(shù)據(jù)等優(yōu)點,因此,本文選用爬蟲方法,使用開源平臺Python的BeautifulSoup庫構(gòu)建網(wǎng)絡(luò)爬蟲,爬取“天氣后報”網(wǎng)站的蘭州市2015年1月1日至2022年3月31日歷史空氣質(zhì)量指數(shù)作為研究數(shù)據(jù),并對缺失值和異常值進行數(shù)據(jù)預(yù)處理。其中,缺失值補全采用均值替代,使用缺失值前后兩天數(shù)據(jù)來計算均值并代替缺失值。異常值判定采用三倍標準差方法,通過對比歷史上同一季節(jié)的數(shù)據(jù)均值來判斷是否是異常值。如果當前數(shù)據(jù)在平均值的正負三倍標準差之內(nèi),則判定為正常值,否則視為異常值,剔除后進行缺失值插補處理。
爬取的數(shù)據(jù)時間跨度從2015年1月1日至2022年3月31日,包括質(zhì)量等級、AQI指數(shù)、AQI排名等,經(jīng)過剔除異常值和補全缺失值,共計2514組數(shù)據(jù)。
2.3 CEEMDAN-LSTM模型構(gòu)建
本文構(gòu)建的CEEMDAN-LSTM模型如圖2所示。為有效捕捉AQI序列的細節(jié)特征,對其進行CEEMDAN分解,得到IMF分量,通過IMF分量反映AQI數(shù)據(jù)的總體變化趨勢,與原始數(shù)據(jù)相比,分解后的分量波動更小,建模難度降低。LSTM為預(yù)測基礎(chǔ)模型,LSTM是一種遞歸神經(jīng)網(wǎng)絡(luò),通過自適應(yīng)門控機制來記憶和更新序列中的信息,能更好地捕捉到空氣質(zhì)量指數(shù)序列中的長期依賴性,本文將每個IMF分量作為LSTM模型的輸入,利用LSTM的記憶性質(zhì)來建模序列中的長期依賴性,以提高對空氣質(zhì)量指數(shù)預(yù)測的準確性。
具體建模環(huán)節(jié)中,使用CEEMDAN方法將原始AQI序列分解時,對原始信號隨機添加白噪聲分解得到n個IMF分量,每個IMF分量代表不同頻率范圍內(nèi)的振動模式,分解方式見圖3。
對各序列分量進行LSTM預(yù)測時,look_back設(shè)置為1,指用前一天的數(shù)據(jù)預(yù)測后一天,在模型編譯的過程中使用adam優(yōu)化器,使用平均絕對誤差作為網(wǎng)絡(luò)訓練的損失函數(shù),單隱層設(shè)置500神經(jīng)元節(jié)點,迭代500次,最終得到不同頻率分量的預(yù)測結(jié)果,以相等的權(quán)重將所有分量的預(yù)測結(jié)果相加匯總,即為最終預(yù)測結(jié)果。
3 結(jié)果與討論
3.1 基于CEEMDAN的AQI序列分解結(jié)果
由圖4可知,通過CEEMDAN將空氣質(zhì)量指數(shù)序列分解成10個IMF分量和1個殘差分量,右側(cè)頻譜對應(yīng)IMF分量在不同頻率范圍內(nèi)的能量分布情況,頻譜用來描述分量的頻率特征和頻率分布情況。
從原始數(shù)據(jù)的波動性可以看出AQI在一年內(nèi)周期性變化,峰值代表每年污染最嚴重的幾個月份,峰值的高低與蘭州當年的逆溫、風速等氣象條件關(guān)系密切,峰值信息可以幫助識別污染高峰期和低峰期,總結(jié)蘭州市空氣質(zhì)量季節(jié)性變化規(guī)律。
IMF1~IMF4變化幅度較大,表明氣象條件和地形等對蘭州空氣質(zhì)量指數(shù)產(chǎn)生了一定的影響,如蘭州突發(fā)的沙塵天氣帶來高濃度的顆粒物,導致空氣質(zhì)量指數(shù)急劇上升。
IMF5~IMF10分量的波動呈現(xiàn)出規(guī)律性,逐漸放緩,這可能與一些長期的、緩慢變化的環(huán)境因素有關(guān),如城市發(fā)展、工業(yè)結(jié)構(gòu)和污染治理等因素,這些因素變化較為緩慢,不會對空氣質(zhì)量產(chǎn)生即時影響,但它們的長期累積效應(yīng)對蘭州市空氣質(zhì)量影響深遠。
3.2 基于CEEMDAN-LSTM模型的AQI預(yù)測結(jié)果
選取2015年1月1日至2022年2月28日的數(shù)據(jù)作為訓練集,2022年3月1日至2022年3月31日的數(shù)據(jù)作為測試集,分別采用改進的CEEMDAN-LSTM模型、EEMD-LSTM模型和LSTM模型對AQI進行預(yù)測分析,各個模型的預(yù)測結(jié)果如圖5所示。
圖5(a)為LSTM模型預(yù)測結(jié)果,可以看出,在LSTM預(yù)測圖像的數(shù)據(jù)上升或下降階段出現(xiàn)了預(yù)測值滯后的現(xiàn)象,原因可能是當使用LSTM進行預(yù)測時,該神經(jīng)網(wǎng)絡(luò)會選擇使用時間窗口之前的某個時間點的值來作為預(yù)測值,這樣可以最小化誤差。雖然這種方法可以最小化誤差,但實際上回歸算法并沒有學習到任何新的知識或規(guī)律。圖5(b)為EEMD-LSTM組合模型預(yù)測結(jié)果,相比LSTM模型預(yù)測精度有所提高,但是滯后性改善并不明顯。綜合來看,CEEMDAN將時間序列分解成多個IMF分量后進行LSTM預(yù)測有效減少了滯后性及不穩(wěn)定屬性,實驗結(jié)果表明,本文所構(gòu)建的CEEMDAN-LSTM組合模型在處理非平穩(wěn)時間序列時能夠更好地捕捉變化模式和特征,預(yù)測效果更好,精度更高。
3.3 結(jié)果分析與討論
為進一步研究不同模型對于模型精度的影響,證明模型優(yōu)劣還需結(jié)合評價指標分析,于是計算三個模型的評價指標。
如表1所示,基于CEEMDAN-LSTM的均方根誤差和平均絕對百分比誤差均優(yōu)于其他兩種模型,與單一的LSTM基線模型相比,RMSE下降了56.61%,表明經(jīng)過CEEMDAN模態(tài)分解后的模型可以更好地挖掘數(shù)據(jù)中的隱藏信息。同時與EEMD-LSTM模型相比,RMSE下降了42.13%,表明CEEMDAN的數(shù)據(jù)降噪能力相比EEMD更為出色。
由于空氣污染成因復雜、多源性,加之氣象條件和地形地貌因素的影響,使得蘭州市的空氣質(zhì)量變化非常不穩(wěn)定,很難進行準確預(yù)測。本文中AQI的預(yù)測是基于機器學習視角展開,未將外部影響因素作為顯性因子引入模型,事實上,蘭州市的空氣質(zhì)量預(yù)測可綜合考慮多個因素,后續(xù)可將有效甄別氣象條件、地形等外部因素的影響作用作為切入點,構(gòu)建多視角組合模型進行預(yù)測方法的對比研究,以進一步提高預(yù)測的準確性和可靠性。
4 結(jié)論
本文針對時間序列波動大的問題,采用了CEEMDAN(經(jīng)驗?zāi)B(tài)分解方法)進行數(shù)據(jù)分解;針對蘭州空氣質(zhì)量監(jiān)測數(shù)據(jù)呈現(xiàn)出的長期依賴關(guān)系,選用LSTM(長短期記憶神經(jīng)網(wǎng)絡(luò))作為基本模型,構(gòu)建了CEEMDAN-LSTM組合模型。該組合模型通過LSTM神經(jīng)網(wǎng)絡(luò)對CEEMDAN得到的各個分量進行預(yù)測,各個分量預(yù)測結(jié)果加總得到預(yù)測結(jié)果。實驗證實,相較于其他模型,該組合模型在蘭州空氣質(zhì)量指數(shù)的預(yù)測上具有更高的精度和準確性。因此,該模型對于空氣污染治理方面具有一定的參考意義,為未來的研究提供了新的思路和方法。
參考文獻
[1]李博群,賈政權(quán),劉利平.基于模糊時間序列的空氣質(zhì)量指數(shù)預(yù)測[J].華北理工大學學報(自然科學版),2018,40(3):78-86.
[2]SIGAMANI S,VENKATESAN R. Air quality index prediction with influence of meteorological parameters using machine learning model for IoT application[J]. Arabian Journal of Geosciences, 2022, 15(4): 340.
[3]吳慧靜,赫曉慧.基于GA-BP神經(jīng)網(wǎng)絡(luò)的空氣質(zhì)量指數(shù)預(yù)測研究[J].安徽師范大學學報(自然科學版),2019,42(4):360-365.
[4]許毅蓉,連金海,張小蓉,等.運用智能型算法預(yù)測空氣綜合質(zhì)量指數(shù)的研究[J].福建電腦,2022,38(6):17-21.
[5]龔榮,謝寧新,李德倫,等.基于海洋捕食者算法和ELM的空氣質(zhì)量指數(shù)預(yù)測[J].廣西民族大學學報(自然科學版),2022,28(4):68-76.
[6]ZHAN C, JIANG W, LIN F, et al. A decomposition-ensemble broad learning system for AQI forecasting[J]. Neural Computing and Applications, 2022, 34(21): 18461-18472.
[7]CHHIKARA P, TEKCHANDANI R, KUMAR N, et al. Federated learning and autonomous UAVs for hazardous zone detection and AQI prediction in IoT environment[J]. IEEE Internet of Things Journal, 2021, 8(20): 15456-15467.
[8]劉媛媛,曹宇飛.集成CNN-LSTM預(yù)測模型的空氣質(zhì)量可視化平臺[J].信息技術(shù)與信息化,2022(4):19-22.
[9]李志剛,秦林林,付多民,等.基于CRQA-DBN-ELM空氣質(zhì)量數(shù)據(jù)預(yù)測模型[J].電子測量技術(shù),2022,45(19):76-82.
[10]李乾,喬棟,李博文,等.基于T-S模糊神經(jīng)網(wǎng)絡(luò)的空氣質(zhì)量預(yù)測模型分析研究[J].內(nèi)蒙古煤炭經(jīng)濟,2022, 358(17):142-144.
[11]周凱,劉萍.基于數(shù)據(jù)挖掘的空氣質(zhì)量預(yù)測模型研究[J].計算機與數(shù)字工程,2021,49(8):1631-1636.
[12]朱雪妹,米江晅,鄭冬冬,等.基于SARIMA模型的保定市空氣質(zhì)量指標的預(yù)測[J].綠色科技,2018(14):43-45.
[13]李婷婷,田瑞琦,汪漂.基于經(jīng)驗?zāi)B(tài)分解的空氣質(zhì)量指數(shù)組合預(yù)測方法及應(yīng)用[J].價值工程,2019,38(16):134-138.
[14]姚清晨,張紅.基于小波分析的太原市空氣質(zhì)量變化特征及預(yù)測[J].山西大學學報(自然科學版),2019,42(1):265-274.
[15]徐洪學,孫萬有,杜英魁,等.基于奇異譜分析的多模型融合空氣污染物質(zhì)量濃度預(yù)測方法[J].沈陽大學學報(自然科學版),2021,33(6):470-479.
[16]LI J, WANG J, ZHANG X, et al. Empirical mode decomposition based on instantaneous frequency boundary[J]. Electronics Letters, 2017, 53(12): 781-783.
[17]常恬君,過仲陽,徐麗麗.基于Prophet-隨機森林優(yōu)化模型的空氣質(zhì)量指數(shù)規(guī)模預(yù)測[J].環(huán)境污染與防治,2019,41(7):758-761+766.
[18]ZHAO X, SONG M, LIU A, et al. Data-driven temporal-spatial model for the prediction of AQI in Nanjing[J]. Journal of Artificial Intelligence and Soft Computing Research, 2020, 10(4): 255-270.
[19]ZUO L Q, SUN H M, MAO Q C, et al. Noise suppression method of microseismic signal based on complementary ensemble empirical mode decomposition and wavelet packet threshold[J]. IEEE Access, 2019, 7: 176504-176513.
[20]劉濤,杜世昌,黃德林,等.基于改進的集合經(jīng)驗?zāi)B(tài)方法振動信號分解[J].上海交通大學學報,2016,50(9):1452-1459.
[21]戴前偉,丁浩,張華,等.基于變分模態(tài)分解和奇異譜分析的GPR信號去噪[J].吉林大學學報(地球科學版),2022,52(3):701-712.
[22]GUPTA A, KUMAR D, VERMA H, et al. Recognition of multi-cognitive tasks from EEG signals using EMD methods[J]. Neural Computing and Applications, 2022: 1-18.
[23]KALA A, VAIDYANATHAN S G, FEMI P S. CEEMDAN hybridized with LSTM model for forecasting monthly rainfall[J]. Journal of Intelligent & Fuzzy Systems, 2022, 43(3):2609-2617.
[24]張人禾,李強,張若楠.2013年1月中國東部持續(xù)性強霧霾天氣產(chǎn)生的氣象條件分析[J].中國科學:地球科學,2014,44(1):27-36.
[25]陳桃桃,李忠勤,周茜,等.“蘭州藍”背景下空氣污染特征、來源解析及成因初探[J].環(huán)境科學學報,2020,40(4):1361-1373.
[26]王彤彤,嚴華.基于EMD和時空圖神經(jīng)網(wǎng)絡(luò)的污染物濃度預(yù)測研究[J].現(xiàn)代計算機,2021,27(34):29-35.
Prediction of Lanzhou Air Quality Index Based on CEEMDAN-LSTM Model
ZHAO Yu, HAN Xu-hao
( School of Statistics, Lanzhou University of Finance and Economics, Lanzhou 730020, China)
Abstract: Aiming at the problems of large fluctuation and long-term data dependence of Lanzhou AQI, a prediction model based on CEEMDAN-LSTM is proposed in this paper, and compared with EEMD-LSTM and LSTM models. Firstly, CEEMDAN was used to decompose the AQI sequence of Lanzhou, then LSTM neural network was used to predict each component, and finally the predicted value of each component was added to reconstruct the AQI prediction result. The experimental results show that CEEMDAN-LSTM model has smaller prediction error and higher prediction accuracy than LSTM model and EEMD-LSTM model. This is due to the effective noise reduction of CEEMDAN method and the strong handling ability of LSTM model for long-term dependencies. Therefore, the combined model has certain practical value in Lanzhou AQI prediction.
Key words:Lanzhou;air quality index;LSTM;CEEMDAN
(責任編輯:王海燕)