国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于時(shí)空優(yōu)化深度神經(jīng)網(wǎng)絡(luò)的AQI等級(jí)預(yù)測(cè)

2017-11-28 09:50趙儉輝
中成藥 2017年11期
關(guān)鍵詞:空氣質(zhì)量時(shí)空網(wǎng)格

董 婷,趙儉輝,胡 勇

1.武漢大學(xué) 計(jì)算機(jī)學(xué)院,軟件工程國(guó)家重點(diǎn)實(shí)驗(yàn)室,武漢 430072 2.武漢大學(xué) 資源與環(huán)境科學(xué)學(xué)院,武漢 430079

基于時(shí)空優(yōu)化深度神經(jīng)網(wǎng)絡(luò)的AQI等級(jí)預(yù)測(cè)

董 婷1,趙儉輝1,胡 勇2

1.武漢大學(xué) 計(jì)算機(jī)學(xué)院,軟件工程國(guó)家重點(diǎn)實(shí)驗(yàn)室,武漢 430072 2.武漢大學(xué) 資源與環(huán)境科學(xué)學(xué)院,武漢 430079

針對(duì)現(xiàn)有空氣質(zhì)量預(yù)測(cè)方法精度偏低、對(duì)噪聲敏感等問題,提出一種基于堆棧降噪自編碼(Stacked Denoising Auto-Encoders,SDAE)模型的空氣質(zhì)量等級(jí)預(yù)測(cè)方法。首先以武漢市歷史空氣質(zhì)量和氣象監(jiān)測(cè)數(shù)據(jù)為研究對(duì)象,建立SDAE模型逐層學(xué)習(xí)原始數(shù)據(jù)的特征表達(dá),并將最后一層特征與分類器連接完成預(yù)測(cè)模型的調(diào)優(yōu)。同時(shí)改進(jìn)多參數(shù)網(wǎng)格搜索法,選取了最優(yōu)的超參數(shù)組合。然后在測(cè)試集上進(jìn)行預(yù)測(cè),并用預(yù)測(cè)值與實(shí)際值之間的平均絕對(duì)誤差和均方誤差等指標(biāo)作為預(yù)測(cè)性能評(píng)價(jià)標(biāo)準(zhǔn)。通過與其他網(wǎng)絡(luò)模型的實(shí)驗(yàn)對(duì)比,證明了SDAE模型對(duì)于空氣質(zhì)量等級(jí)具有較優(yōu)的預(yù)測(cè)性能。最后從時(shí)間、空間、時(shí)空三個(gè)角度對(duì)該模型輸入進(jìn)行優(yōu)化,實(shí)驗(yàn)結(jié)果表明基于空間優(yōu)化的SDAE模型預(yù)測(cè)性能提升最為明顯,能夠得到比傳統(tǒng)方法更加精確的預(yù)測(cè)結(jié)果。

AQI等級(jí);預(yù)測(cè);堆棧降噪自編碼;優(yōu)化

1 引言

近幾年霧霾天氣頻發(fā),如果長(zhǎng)時(shí)間在高濃度污染物環(huán)境下活動(dòng),容易對(duì)人體健康造成直接危害[1-2],對(duì)空氣質(zhì)量等級(jí)準(zhǔn)確地預(yù)測(cè)不僅可以幫助公眾提前了解未來空氣質(zhì)量情況并合理安排戶外活動(dòng),還可以在預(yù)測(cè)到重污染等級(jí)天氣后通知環(huán)保局等有關(guān)部門采取措施,預(yù)防或減緩危害事件的發(fā)生。空氣質(zhì)量指數(shù)(Air Quality Index,AQI)是一種用來評(píng)測(cè)空氣狀況的指標(biāo),參與空氣質(zhì)量評(píng)價(jià)的主要污染物有細(xì)顆粒物(PM2.5)、可吸入顆粒物(PM10)、二氧化硫(SO2)、二氧化氮(NO2)、臭氧(O3)、一氧化碳(CO)六項(xiàng)??諝赓|(zhì)量按照AQI大小分為六級(jí):一級(jí)(0~50)優(yōu)、二級(jí)(51~100)良、三級(jí)(101~150)輕度污染、四級(jí)(151~200)中度污染、五級(jí)(201~300)重度污染,六級(jí)(>300)嚴(yán)重污染。指數(shù)越大、級(jí)別越高說明空氣污染情況越嚴(yán)重,對(duì)人體健康的危害也越大。AQI與氣象條件有極大關(guān)系[3]。不同氣象狀況下污染物擴(kuò)散條件不同,排入相同數(shù)量的污染物,空氣中的污染物濃度也會(huì)有不同。比如靜穩(wěn)天氣條件下風(fēng)力微弱,容易出現(xiàn)逆溫層,不利于顆粒物的擴(kuò)散,重污染天氣易發(fā)。而對(duì)于風(fēng)力大、對(duì)流強(qiáng)的地區(qū)和時(shí)段,大氣擴(kuò)散稀釋能力強(qiáng),此時(shí)空氣質(zhì)量相對(duì)污染物排放量不會(huì)像靜穩(wěn)天氣下那么敏感。所以,對(duì)空氣質(zhì)量等級(jí)進(jìn)行預(yù)測(cè)需要結(jié)合氣象條件。

對(duì)于空氣污染物的預(yù)測(cè)問題,國(guó)內(nèi)外大多采用傳統(tǒng)的數(shù)值預(yù)報(bào)和回歸統(tǒng)計(jì)模型[4-5]。數(shù)值預(yù)報(bào)模型的準(zhǔn)確率很大程度依賴于污染源的排放數(shù)據(jù),該類數(shù)據(jù)獲取的復(fù)雜性和不確定性使得數(shù)值預(yù)報(bào)在實(shí)際應(yīng)用中受到限制?;貧w統(tǒng)計(jì)模型需要通過大量分析建立影響因子與污染物濃度之間復(fù)雜的線性或非線性關(guān)系,由于難以用確定的數(shù)學(xué)模型描述這種關(guān)系,建模難度較大。近年來,基于神經(jīng)網(wǎng)絡(luò)技術(shù)的空氣污染物預(yù)測(cè)研究發(fā)展迅速,研究表明,人工神經(jīng)網(wǎng)絡(luò)比傳統(tǒng)的回歸模型性能更好。Azid[6]等將主成分分析和神經(jīng)網(wǎng)絡(luò)相結(jié)合建立了馬來西亞空氣污染指數(shù)API的預(yù)測(cè)模型。Mishra[7]等分別采用多元線性回歸分析和人工神經(jīng)網(wǎng)絡(luò)對(duì)印度新德里的PM2.5濃度進(jìn)行預(yù)測(cè),實(shí)驗(yàn)證明神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果更好。

神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的非線性擬合能力,能夠映射復(fù)雜的非線性關(guān)系,但隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的增加,梯度下降算法可能會(huì)收斂到局部極小值,帶來的誤差會(huì)導(dǎo)致結(jié)果比淺層網(wǎng)絡(luò)更差,同時(shí)神經(jīng)網(wǎng)絡(luò)還有過擬合、泛化能力差、收斂速度慢等缺點(diǎn)[8]。近幾年快速發(fā)展起來的深度學(xué)習(xí)理論,已經(jīng)在計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理等領(lǐng)域得到廣泛應(yīng)用[9-11]。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示[12-13]。利用深度學(xué)習(xí),可以對(duì)大量的空氣質(zhì)量和氣象歷史數(shù)據(jù)進(jìn)行智能分析和歸納總結(jié),通過解讀復(fù)雜非結(jié)構(gòu)性數(shù)據(jù),挖掘出空氣質(zhì)量指數(shù)與各污染物因子以及溫度、濕度、風(fēng)速等氣象條件之間的內(nèi)在關(guān)系,并建立起AQI與各影響因子之間的復(fù)雜計(jì)算模型,從而訓(xùn)練一個(gè)有效的深度學(xué)習(xí)模型來對(duì)空氣質(zhì)量進(jìn)行預(yù)測(cè)。尹文君[14]等基于限制玻爾茲曼機(jī)建立深度信念網(wǎng)絡(luò)對(duì)空氣質(zhì)量分因子進(jìn)行預(yù)測(cè),驗(yàn)證了DBN對(duì)空氣污染預(yù)報(bào)的有效性。截止目前,深度學(xué)習(xí)在空氣質(zhì)量預(yù)測(cè)領(lǐng)域的應(yīng)用仍然較少。

由于空氣質(zhì)量或氣象監(jiān)測(cè)數(shù)據(jù)存在噪聲,本文提出用堆棧降噪自編碼器建立深度學(xué)習(xí)網(wǎng)絡(luò)模型SDAE。SDAE最大特點(diǎn)是具有降噪功能,即以一定概率分布隨機(jī)擦除原始輸入數(shù)據(jù),使得數(shù)據(jù)產(chǎn)生破損,在一定程度上減輕了訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)的差異性,可以提取并編碼出更具有魯棒性的特征,實(shí)現(xiàn)對(duì)空氣質(zhì)量等級(jí)更加準(zhǔn)確的預(yù)測(cè)。

2 堆棧降噪自編碼預(yù)測(cè)模型

2.1 SDAE模型結(jié)構(gòu)

自編碼器(AE)通過捕捉可以代表輸入數(shù)據(jù)的最重要特征,使輸出盡量復(fù)現(xiàn)輸入信號(hào),AE包含編碼和解碼兩個(gè)過程:其中“編碼”是指提取輸入數(shù)據(jù)的特征,而“解碼”是為了驗(yàn)證提取的特征是否可以很好表示輸入數(shù)據(jù)。AE訓(xùn)練過程的最終目標(biāo)是最小化重構(gòu)誤差,實(shí)質(zhì)上就是縮小輸入數(shù)據(jù)X與其特征表達(dá)之間的差別。

AE有一個(gè)很大的局限性,因?yàn)檩斎氲扔谳敵?,所以該模型很可能?huì)學(xué)習(xí)到?jīng)]有編碼功能的恒等映射。降噪自編碼器(DAE)是在AE的基礎(chǔ)上給輸入數(shù)據(jù)加入噪聲,也就是以一定的概率分布隨機(jī)擦除輸入層的某些節(jié)點(diǎn)。此時(shí)編碼器會(huì)自動(dòng)學(xué)習(xí)去除噪聲,從而獲得沒有被噪聲污染的輸入信號(hào)。訓(xùn)練好后的降噪編碼器可以從含噪聲的輸入中提取到更具魯棒性的特征,提升了自編碼神經(jīng)網(wǎng)絡(luò)模型對(duì)輸入數(shù)據(jù)的泛化能力。DAE跟AE的區(qū)別如圖1所示。

圖1 傳統(tǒng)自編碼器與降噪自編碼器的區(qū)別

堆棧降噪自編碼模型(SDAE)是將多個(gè)去除輸出層的DAE堆疊到一起構(gòu)成的深度學(xué)習(xí)網(wǎng)絡(luò)模型,把上一個(gè)DAE隱含層的輸出作為下一個(gè)DAE的輸入,通過逐層提取特征,從而得到更抽象的數(shù)據(jù)特征。當(dāng)每一層都完成訓(xùn)練后,將最后一個(gè)隱含層的輸出作為頂層有監(jiān)督層的輸入,用有監(jiān)督的反向傳播算法對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行微調(diào),使得學(xué)習(xí)到的特征更優(yōu)。當(dāng)整個(gè)網(wǎng)絡(luò)特征學(xué)習(xí)過程結(jié)束后,最后一個(gè)隱含層輸出即為最終代表原始輸入的特征。

2.2 基于SDAE的空氣質(zhì)量預(yù)測(cè)模型

2.2.1 模型應(yīng)用

關(guān)于預(yù)測(cè)模型輸入,由于某一天的空氣質(zhì)量,除了與前一天的空氣狀況和氣象因子有關(guān),與預(yù)測(cè)當(dāng)天的氣象條件也有較強(qiáng)的相關(guān)性,加之現(xiàn)有氣象預(yù)報(bào)準(zhǔn)確率較高,可為空氣質(zhì)量預(yù)測(cè)提供有效參考。本文建立的SDAE模型輸入與文獻(xiàn)[14]類似,每條數(shù)據(jù)分為三部分:第一部分為某天的AQI值、空氣質(zhì)量等級(jí)、各污染物因子大小等當(dāng)天空氣質(zhì)量數(shù)據(jù);第二部分是當(dāng)天氣象數(shù)據(jù);第三部分是預(yù)報(bào)的第二天氣象數(shù)據(jù)。以2015年1月1日為例,輸入數(shù)據(jù)格式如表1所示。輸出數(shù)據(jù)為預(yù)測(cè)的第二天空氣質(zhì)量等級(jí)。預(yù)測(cè)結(jié)果與記錄的實(shí)測(cè)數(shù)據(jù)進(jìn)行對(duì)比,可用于分析預(yù)測(cè)算法的性能。

表1 輸入數(shù)據(jù)格式

綜上所述,本文所建立的AQI等級(jí)預(yù)測(cè)模型結(jié)構(gòu)如圖2所示,該模型的前半部分由多個(gè)DAE堆疊而成。輸入層Input和Hidden Layer1構(gòu)成了第一個(gè)DAE,Hidden Layer1和Hidden Layer2構(gòu)成了第二個(gè)DAE,依次類推。h(i)表示第i個(gè)DAE學(xué)習(xí)到的特征,最后一個(gè)隱含層的輸出作為下一步操作的輸入。由于全國(guó)各地出臺(tái)的空氣污染預(yù)警方案大多以AQI等級(jí)作為預(yù)警級(jí)別的劃分依據(jù),因此本文在堆棧降噪自編碼網(wǎng)絡(luò)的最頂層連接一個(gè)分類預(yù)測(cè)器,把學(xué)習(xí)到的最終特征作為監(jiān)督算法的輸入,以此實(shí)現(xiàn)AQI等級(jí)預(yù)測(cè)功能。最常用的多分類器是softmax和多邏輯回歸分類器。本文預(yù)測(cè)模型中,六個(gè)等級(jí)之間無重合,所以選用softmax分類器。用于訓(xùn)練分類器的樣本集是堆棧降噪自編碼提取到的特征集,對(duì)于代價(jià)凸函數(shù),通過迭代算法得到全局最優(yōu)解之后,就可以得到訓(xùn)練好的softmax分類器。

2.2.2 模型訓(xùn)練

該預(yù)測(cè)模型的訓(xùn)練過程分為兩步:

(1)無監(jiān)督逐層預(yù)訓(xùn)練。每層作為一個(gè)DAE模型進(jìn)行訓(xùn)練,目的是最小化上層輸出在該層的重構(gòu)誤差。每次訓(xùn)練一層,只有當(dāng)?shù)趇層訓(xùn)練完成后,才可以訓(xùn)練第i+1層。

(2)有監(jiān)督微調(diào)。當(dāng)每一層都完成訓(xùn)練后,將最后一個(gè)隱含層的輸出作為頂層有監(jiān)督層的輸入,有監(jiān)督的訓(xùn)練softmax分類器,并使用反向傳播算法對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行微調(diào),使得學(xué)習(xí)到的特征更優(yōu)。

圖2 SDAE預(yù)測(cè)模型

3 預(yù)測(cè)模型設(shè)置

3.1 預(yù)測(cè)性能指標(biāo)

本實(shí)驗(yàn)測(cè)試數(shù)據(jù)中,有接近一半的空氣質(zhì)量為2級(jí),通過對(duì)全國(guó)各地空氣質(zhì)量等級(jí)歷史數(shù)據(jù)的分布統(tǒng)計(jì),這與現(xiàn)實(shí)情況是相符的。對(duì)于這樣的測(cè)試集,即使不訓(xùn)練學(xué)習(xí)模型而直接把每一天空氣質(zhì)量都預(yù)測(cè)為2級(jí),也能得到47%的準(zhǔn)確率,因此僅用準(zhǔn)確率來判斷預(yù)測(cè)模型的性能好壞顯然是不合適的。本文在訓(xùn)練模型時(shí),采用平均絕對(duì)誤差(Mean Absolute Error,MAE)和均方誤差(Mean Squared Error,MSE)作為預(yù)測(cè)精度的評(píng)估標(biāo)準(zhǔn),其中平均絕對(duì)誤差的計(jì)算公式如下:

均方誤差的計(jì)算公式如下:

以上兩個(gè)公式中,n為數(shù)據(jù)長(zhǎng)度,也就是測(cè)試集的天數(shù),xi為第i天空氣污染指數(shù)等級(jí)真實(shí)值,xi'為第i天空氣污染指數(shù)等級(jí)的預(yù)測(cè)值。

3.2 超參數(shù)選取

深度神經(jīng)網(wǎng)絡(luò)中,選取合適的超參數(shù)是比較困難但又極其重要的一步,這直接影響到神經(jīng)網(wǎng)絡(luò)模型的性能,但是目前理論上還沒有一種科學(xué)的和普遍的超參數(shù)確定方法。以往研究[15-16]對(duì)于深度網(wǎng)絡(luò)超參數(shù)的選取基本都帶有經(jīng)驗(yàn)性、偶然性,對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)的確定通常會(huì)作為一個(gè)獨(dú)立的環(huán)節(jié),而未考慮其他超參數(shù)的影響。但是深度神經(jīng)網(wǎng)絡(luò)中網(wǎng)絡(luò)層數(shù)、隱含層節(jié)點(diǎn)數(shù)、學(xué)習(xí)率、訓(xùn)練迭代次數(shù)等參數(shù)之間具有相關(guān)性,且大多時(shí)候沒有明顯規(guī)律。為了避免參數(shù)選擇的盲目性和隨意性,本文改進(jìn)多參數(shù)網(wǎng)格搜索法進(jìn)行參數(shù)選取。該方法先對(duì)每個(gè)參數(shù)選取典型區(qū)間、典型步長(zhǎng)的值,將超參數(shù)組合所在的空間維度劃分為合適的網(wǎng)格,然后遍歷網(wǎng)格中的每一個(gè)點(diǎn)并比較擇優(yōu),初步得到若干個(gè)較優(yōu)的網(wǎng)格點(diǎn)。該方法的第二步是在找到的較優(yōu)超參數(shù)網(wǎng)格點(diǎn)附近,進(jìn)行基于更細(xì)網(wǎng)格的二次遍歷,得到若干更優(yōu)的參數(shù)組合,再通過比較選取最優(yōu)的一組。這種參數(shù)選取方法在很大程度上避免了局部最優(yōu)問題,可以保證選取的參數(shù)組合比較理想,從而避免較大誤差。

圖3以二維網(wǎng)格為例演示了二次搜索超參數(shù)組合的過程,多維網(wǎng)絡(luò)與此相似。本文設(shè)計(jì)自動(dòng)測(cè)試程序,按網(wǎng)格搜索方式測(cè)試每一組超參數(shù)組合并記錄MAE、MSE。在一次搜索完成后,在表現(xiàn)良好的超參數(shù)(如左圖中紅點(diǎn))附近進(jìn)行更精細(xì)的二次搜索,通過二次搜索,可以找到更優(yōu)的超參數(shù)組合(如右圖中綠點(diǎn))。由于參數(shù)組合眾多,本方法相當(dāng)于犧牲了遍歷時(shí)間,從而換得了較高的準(zhǔn)確率。本文網(wǎng)格參數(shù)的選取參考了文獻(xiàn)[17-18]中列出的部分典型值,詳見表2。通過二次網(wǎng)格搜索算法,最終可以確定當(dāng)隱含層層數(shù)為3、節(jié)點(diǎn)數(shù)為50且每層輸入加噪率為10%時(shí),SDAE預(yù)測(cè)模型的預(yù)測(cè)性能最優(yōu)。

圖3 二維網(wǎng)格二次搜索

表2 超參數(shù)典型值

根據(jù)表1輸入數(shù)據(jù)格式,SDAE預(yù)測(cè)模型輸入層神經(jīng)元個(gè)數(shù)為46;最優(yōu)隱含層層數(shù)和隱層神經(jīng)元個(gè)數(shù)經(jīng)二次網(wǎng)格搜索法確定為3和50;預(yù)測(cè)輸出為空氣質(zhì)量指數(shù)的6個(gè)等級(jí),因此輸出層神經(jīng)元個(gè)數(shù)為6。綜上,本文建立的堆棧降噪自編碼預(yù)測(cè)模型的網(wǎng)絡(luò)結(jié)構(gòu)為[46 50 50 50 6]。

堆棧降噪自編碼網(wǎng)絡(luò)對(duì)每一層輸入數(shù)據(jù)加入噪聲,編碼器通過學(xué)習(xí)去除噪聲可獲得輸入數(shù)據(jù)更具魯棒性的特征表達(dá)。實(shí)驗(yàn)證明,預(yù)報(bào)性能與每一層加入的噪聲大小有關(guān),存在最優(yōu)加噪率,使得平均絕對(duì)誤差和均方誤差達(dá)到最小。用二次網(wǎng)格搜索法確定的網(wǎng)絡(luò)模型超參數(shù)中,最優(yōu)噪聲為10%,為了驗(yàn)證該參數(shù)選取的準(zhǔn)確性,在同等條件下選取不同大小的噪聲依次進(jìn)行實(shí)驗(yàn)。結(jié)果如圖4所示,預(yù)測(cè)誤差類似于一條上開口的拋物線,且在5%和10%處誤差值最小,與加噪率為0(不加噪聲)時(shí)相比,性能有明顯提升。

圖4 加入不同噪聲后的預(yù)測(cè)性能

4 基于SDAE的時(shí)空優(yōu)化策略

考慮到輸入數(shù)據(jù)在時(shí)間與空間方面具有關(guān)聯(lián)性,本文從時(shí)間、空間、時(shí)空結(jié)合的角度提出了四種相應(yīng)的優(yōu)化策略,為深度神經(jīng)網(wǎng)絡(luò)模型的學(xué)習(xí)提供更多相關(guān)信息。

時(shí)間優(yōu)化(Temporal Optimization,TO):當(dāng)前時(shí)刻的空氣質(zhì)量會(huì)受到過去一段時(shí)間的影響,在污染物擴(kuò)散條件差的情況下,時(shí)間影響范圍相應(yīng)變大。從模式識(shí)別角度來講,增大時(shí)間粒度有可能發(fā)現(xiàn)和提取出更多有用的特征。為了確定合適大小的時(shí)間粒度,在基于前一天數(shù)據(jù)建立的SDAE預(yù)測(cè)模型基礎(chǔ)上,又分別建立時(shí)間屬性為2天和3天的模型,并為每種模型選取二次網(wǎng)格搜索結(jié)果中預(yù)測(cè)誤差最小的前30組進(jìn)行統(tǒng)計(jì)。實(shí)驗(yàn)結(jié)果如圖5所示,時(shí)間粒度為2天的模型,不論最優(yōu)MAE、MSE還是平均MAE、MSE,預(yù)測(cè)誤差均比時(shí)間粒度為1天和3天的模型小,因此以2天為時(shí)間劃分基數(shù)對(duì)模型輸入數(shù)據(jù)進(jìn)行優(yōu)化調(diào)整,建立TO-SDAE時(shí)間優(yōu)化模型。

圖5 不同時(shí)間粒度下的時(shí)間優(yōu)化模型性能

空間優(yōu)化(Spatial Optimization,SO):受氣象條件影響,空氣污染因子具有擴(kuò)散性,目標(biāo)城市的空氣質(zhì)量會(huì)受到周邊區(qū)域影響。因此基于單個(gè)城市的空氣質(zhì)量預(yù)測(cè)存在一定局限性,需要對(duì)SDAE模型進(jìn)行空間上的優(yōu)化。以武漢為中心點(diǎn),對(duì)周邊城市按直線距離進(jìn)行排序,由近至遠(yuǎn)依次為南昌、長(zhǎng)沙、合肥、鄭州等(由于數(shù)據(jù)來源限制,本文只考慮省會(huì)城市),并針對(duì)武漢及周邊最近的1、2、3、4個(gè)城市的數(shù)據(jù)分別建立不同空間粒度下的優(yōu)化模型,為每種模型選取二次網(wǎng)格搜索結(jié)果中預(yù)測(cè)誤差最小的前30組進(jìn)行統(tǒng)計(jì)。實(shí)驗(yàn)結(jié)果如圖6所示,可以看出,空間粒度為3天的模型預(yù)測(cè)誤差各指標(biāo)均為最小,因此以周邊3城市為空間粒度對(duì)模型輸入數(shù)據(jù)進(jìn)行優(yōu)化調(diào)整,建立SO-SDAE空間優(yōu)化模型,此時(shí)模型輸入除了武漢自身數(shù)據(jù)外,還包括長(zhǎng)沙、南昌、合肥三個(gè)城市的相關(guān)數(shù)據(jù)。

圖6 不同空間粒度下的空間優(yōu)化模型性能

全局時(shí)空優(yōu)化(Global Spatio-Temporal Optimization,GSTO):前文針對(duì)時(shí)間優(yōu)化模型,確定了基于前2天數(shù)據(jù)的最佳時(shí)間優(yōu)化粒度;針對(duì)空間優(yōu)化模型,確定了基于周邊3城市數(shù)據(jù)的最佳空間優(yōu)化粒度。基于這兩種優(yōu)化策略的啟發(fā),從時(shí)空結(jié)合的角度對(duì)模型進(jìn)行優(yōu)化。即預(yù)測(cè)武漢市第i+1天的空氣質(zhì)量等級(jí)時(shí),輸入數(shù)據(jù)包括武漢、長(zhǎng)沙、南昌、合肥四個(gè)城市前兩天的空氣質(zhì)量和氣象因子歷史數(shù)據(jù),以及預(yù)測(cè)當(dāng)天的氣象預(yù)報(bào)數(shù)值?;谶@種優(yōu)化策略,建立GSTO-SDAE時(shí)空優(yōu)化模型。

局部時(shí)空優(yōu)化(LocalSpatio-Temporal Optimization,LSTO):針對(duì)全局時(shí)空優(yōu)化過程中可能引入的關(guān)聯(lián)度較低數(shù)據(jù),提出一種局部時(shí)空優(yōu)化策略,即選取時(shí)間和空間上的關(guān)鍵信息,排除關(guān)聯(lián)度低的輸入信息對(duì)模型造成的干擾,建立LSTO-SDAE局部時(shí)空優(yōu)化模型。具體而言,輸入數(shù)據(jù)包括武漢市第i-1天的空氣質(zhì)量和氣象因子數(shù)據(jù)(不包括周邊3城市第i-1天的信息),武漢、長(zhǎng)沙、南昌、合肥四個(gè)城市第i天的空氣質(zhì)量和氣象因子數(shù)據(jù),以及預(yù)測(cè)當(dāng)天的氣象預(yù)報(bào)數(shù)據(jù)。

圖7展示了GSTO-SDAE和LSTO-SDAE兩種時(shí)空優(yōu)化模型的輸入?yún)^(qū)別。LSTO-SDAE認(rèn)為周邊城市時(shí)間較遠(yuǎn)的數(shù)據(jù)對(duì)于預(yù)測(cè)武漢市空氣質(zhì)量的影響不大,因此不予考慮。

圖7 全局與局部時(shí)空優(yōu)化模型輸入數(shù)據(jù)區(qū)別

5 實(shí)驗(yàn)與結(jié)果分析

5.1 實(shí)驗(yàn)數(shù)據(jù)預(yù)處理

本文對(duì)武漢市2013年12月至2016年9月日均空氣質(zhì)量相關(guān)數(shù)據(jù)和氣象數(shù)據(jù)即污染物擴(kuò)散條件信息進(jìn)行收集,選擇2013年12月至2015年11月的730條數(shù)據(jù)作為深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù),剩余的290條數(shù)據(jù)作為測(cè)試數(shù)據(jù)。

影響空氣質(zhì)量的因子眾多,且每個(gè)因子具有各自的物理性質(zhì)和量綱,如果直接拿這些數(shù)據(jù)進(jìn)行分析,會(huì)影響結(jié)果的準(zhǔn)確性。為便于網(wǎng)絡(luò)訓(xùn)練,防止計(jì)算過程出現(xiàn)“過擬合”等問題,需先對(duì)原始數(shù)據(jù)進(jìn)行歸一化處理,讓不同影響因子處于同一數(shù)量級(jí),以便進(jìn)行更精確的數(shù)據(jù)分析。本文采用Min-Max標(biāo)準(zhǔn)化方法,也就是對(duì)原始數(shù)據(jù)的各屬性進(jìn)行一種線性變換,經(jīng)過標(biāo)準(zhǔn)化之后的數(shù)據(jù)處于[0,1]之間,標(biāo)準(zhǔn)化函數(shù)如下:

其中x是歸一化之前的數(shù)據(jù),x'是歸一化之后的數(shù)據(jù),min是x所屬影響因子中所有數(shù)據(jù)的最小值,max是x所屬影響因子中所有數(shù)據(jù)的最大值。

對(duì)訓(xùn)練集做歸一化后,相應(yīng)的也要對(duì)測(cè)試數(shù)據(jù)進(jìn)行同樣的標(biāo)準(zhǔn)化,從而保證測(cè)試數(shù)據(jù)與訓(xùn)練集同比例縮放。但是大多數(shù)空氣質(zhì)量和氣象數(shù)據(jù)的值沒有確切邊界,對(duì)于個(gè)別小于訓(xùn)練集最小值或大于最大值的測(cè)試數(shù)據(jù),為了其歸一化能落在[0,1]區(qū)間內(nèi),在上式基礎(chǔ)上增加如下限制:

5.2 不同網(wǎng)絡(luò)模型預(yù)測(cè)性能對(duì)比

為了驗(yàn)證基于堆棧降噪自編碼網(wǎng)絡(luò)模型的預(yù)測(cè)效果,將優(yōu)化前的SDAE模型與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(Neural Network,NN)、深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN)以及堆棧自編碼網(wǎng)絡(luò)(Stacked Auto-Encoders,SAE)相比。在對(duì)比實(shí)驗(yàn)中,對(duì)所有網(wǎng)絡(luò)模型結(jié)構(gòu)超參數(shù)的確定,統(tǒng)一采用上文提出的二次網(wǎng)格搜索法,得到最優(yōu)參數(shù)組合。為了使對(duì)比實(shí)驗(yàn)更合理,消除僅對(duì)比最優(yōu)預(yù)測(cè)結(jié)果可能導(dǎo)致的偶然性,本文對(duì)各網(wǎng)絡(luò)模型分別選取了二次網(wǎng)格搜索結(jié)果中預(yù)測(cè)誤差最小的前30組,對(duì)比其總體性能分布。平均絕對(duì)誤差和均方誤差箱形圖如圖8、9所示,SDAE的最優(yōu)預(yù)測(cè)性能、平均預(yù)測(cè)性能和模型穩(wěn)定性均明顯優(yōu)于其他幾種網(wǎng)絡(luò)。

圖8 四種網(wǎng)絡(luò)模型平均絕對(duì)誤差對(duì)比

圖9 四種網(wǎng)絡(luò)模型均方誤差對(duì)比

5.3 不同優(yōu)化策略下SDAE模型性能對(duì)比

針對(duì)本文提出的四種空氣質(zhì)量預(yù)測(cè)時(shí)空優(yōu)化策略,分別建立對(duì)應(yīng)的預(yù)測(cè)模型。與之前實(shí)驗(yàn)類似,為了實(shí)驗(yàn)結(jié)果的可靠性,每種優(yōu)化模型選取二維網(wǎng)格搜索結(jié)果中預(yù)測(cè)誤差最小的前30組,并與優(yōu)化之前的SDAE相比,得到如下箱形圖。從左至右分別是優(yōu)化前的SDAE模型、基于時(shí)間優(yōu)化策略的TO-SDAE模型、基于空間優(yōu)化策略的SO-SDAE模型、基于全局時(shí)空優(yōu)化策略的GSTOSDAE模型和基于局部時(shí)空優(yōu)化策略的LSTO-SDAE模型,五種網(wǎng)絡(luò)輸入層節(jié)點(diǎn)分別為46、73、184、292、211。基于圖10和圖11的實(shí)驗(yàn)對(duì)比,發(fā)現(xiàn)以下結(jié)果。

圖10 四種優(yōu)化策略平均絕對(duì)誤差對(duì)比

圖11 四種優(yōu)化策略均方誤差對(duì)比

本文提出的四種優(yōu)化策略中,時(shí)間優(yōu)化、空間優(yōu)化和局部時(shí)空優(yōu)化這三種模型均比優(yōu)化前的SDAE模型預(yù)測(cè)性能更優(yōu)。其中基于空間優(yōu)化的模型性能提升最大,局部時(shí)空優(yōu)化次之,時(shí)間優(yōu)化性能提升較小。分析原因,由于本文實(shí)驗(yàn)數(shù)據(jù)為日均數(shù)據(jù),以天為單位進(jìn)行空氣質(zhì)量預(yù)測(cè)時(shí),AQI在時(shí)間上的關(guān)聯(lián)性較差,不如空間關(guān)聯(lián)性緊密,因此基于空間優(yōu)化策略的性能提升更加明顯。

基于全局時(shí)空優(yōu)化的模型性能較差,原因是在輸入數(shù)據(jù)中引入了關(guān)聯(lián)度較低的數(shù)據(jù),對(duì)模型提取輸入特征造成了干擾,致使預(yù)測(cè)性能下降?;诰植繒r(shí)空優(yōu)化的模型性能好于全局時(shí)空優(yōu)化,但仍低于空間優(yōu)化,原因仍在于以天為單位數(shù)據(jù)的時(shí)間關(guān)聯(lián)性較差,從而影響了局部時(shí)空優(yōu)化的性能。

5.4 優(yōu)化模型與其他預(yù)測(cè)方法的對(duì)比

采用基于空間優(yōu)化策略的SO-SDAE模型作為預(yù)測(cè)模型,在測(cè)試數(shù)據(jù)集上進(jìn)行驗(yàn)證,并對(duì)所有預(yù)測(cè)值和實(shí)際值的差值進(jìn)行統(tǒng)計(jì),結(jié)果如圖12所示。在290天的測(cè)試數(shù)據(jù)中,有233天的空氣質(zhì)量等級(jí)能被準(zhǔn)確預(yù)測(cè),54天會(huì)被錯(cuò)誤預(yù)測(cè)為相鄰等級(jí),只有3天的預(yù)測(cè)誤差為2個(gè)等級(jí),沒有3級(jí)及以上誤差,總體預(yù)測(cè)性能較優(yōu)。

文獻(xiàn)[19]分別用當(dāng)前常用的空氣預(yù)測(cè)方法:綜合指標(biāo)法(Comprehensive Index Method,CIM)和逐步回歸法(Stepwise Regression Method,SRM)建立了AQI等級(jí)預(yù)報(bào)統(tǒng)計(jì)模型。其中CIM采用了擬合率作為預(yù)測(cè)性能評(píng)價(jià)指標(biāo),即將AQI等級(jí)1~2級(jí)認(rèn)定為空氣質(zhì)量好,3~6級(jí)為空氣質(zhì)量差,正確預(yù)測(cè)到第二天空氣狀況(好與差)的天數(shù)占總天數(shù)的比例。SRM采用了各誤差級(jí)數(shù)占比作為評(píng)價(jià)指標(biāo),即預(yù)測(cè)級(jí)數(shù)與真實(shí)級(jí)數(shù)之差的絕對(duì)值分別為0(準(zhǔn)確率)、1、2、3及以上的天數(shù)占總天數(shù)的比例。本文采用完全一樣的評(píng)價(jià)指標(biāo),與文獻(xiàn)[19]的方法進(jìn)行對(duì)比,結(jié)果如表3所示。可見本文提出的基于空間優(yōu)化的SO-SDAE預(yù)測(cè)模型的擬合率高于CIM,準(zhǔn)確率高于SRM模型,其余誤差級(jí)數(shù)所占比例整體低于SRM模型。與優(yōu)化前的SDAE模型相比,SO-SDAE的擬合率和準(zhǔn)確率均有較明顯的提升,同時(shí)誤差級(jí)數(shù)占比減少,尤其是誤差為2級(jí)的天數(shù)從6天縮減為3天,減少一半。

圖12 預(yù)測(cè)值與實(shí)際值的誤差統(tǒng)計(jì)

表3 幾種預(yù)測(cè)方法的性能對(duì)比%

6 結(jié)論

本文提出一種基于時(shí)空優(yōu)化的堆棧降噪自編碼空氣質(zhì)量預(yù)測(cè)模型。利用無監(jiān)督學(xué)習(xí)算法的優(yōu)勢(shì),自動(dòng)對(duì)有噪聲的輸入數(shù)據(jù)逐層提取特征,通過訓(xùn)練學(xué)習(xí)建立起空氣質(zhì)量等級(jí)與污染物因子濃度、氣象數(shù)據(jù)之間的關(guān)系模型。采用武漢地區(qū)空氣質(zhì)量數(shù)據(jù)進(jìn)行實(shí)驗(yàn)分析,通過實(shí)驗(yàn)對(duì)比,得出以下結(jié)論:

(1)以MAE、MSE作為預(yù)測(cè)性能評(píng)價(jià)標(biāo)準(zhǔn),證明了基于SDAE的空氣質(zhì)量等級(jí)預(yù)測(cè)模型比BP、DBN、SAE三種網(wǎng)絡(luò)模型的預(yù)測(cè)性能更優(yōu)、結(jié)果更穩(wěn)定。

(2)基于時(shí)間、空間、局部時(shí)空三種優(yōu)化策略的SDAE預(yù)測(cè)模型與優(yōu)化之前相比,性能均有提升,其中基于空間優(yōu)化的模型性能最優(yōu)。從全局時(shí)空優(yōu)化實(shí)驗(yàn)結(jié)果可以看出,如果輸入引入關(guān)聯(lián)度較低的數(shù)據(jù),會(huì)對(duì)模型的特征提取造成干擾,導(dǎo)致預(yù)測(cè)效果較優(yōu)化前變差。

(3)以擬合率、準(zhǔn)確率和不同誤差級(jí)數(shù)占比作為預(yù)測(cè)性能評(píng)價(jià)標(biāo)準(zhǔn),依次與綜合指標(biāo)法和逐步回歸法預(yù)測(cè)模型進(jìn)行對(duì)比,證明了本文提出的基于空間優(yōu)化的SDAE模型預(yù)測(cè)性能更好。

隨著今后更多監(jiān)測(cè)數(shù)據(jù)的積累,可以得到空氣質(zhì)量各等級(jí)更充足的數(shù)據(jù),從而使深度神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)到每個(gè)等級(jí)更具代表性的特征表達(dá),以此對(duì)各級(jí)污染天氣做出更加精準(zhǔn)的預(yù)測(cè)。此外,如果基于更大量樣本的學(xué)習(xí),例如以小時(shí)為單位的污染物和氣象數(shù)據(jù),以及省會(huì)城市之外的更多城市的監(jiān)測(cè)數(shù)據(jù),將會(huì)得到精度更高的預(yù)測(cè)結(jié)果,尤其會(huì)提升時(shí)空模型的性能。

[1]Kelly F J,F(xiàn)ussell J C.Air pollution and public health:Emerging hazards and improved understanding of risk[J].Environmental Geochemistry and Health,2015,37(4):631-649.

[2]Mclaren J,Williams I D.The impact of communicating information about air pollution events on public health[J].Science of the Total Environment,2015,538:478-491.

[3]Gilliam R C,Hogrefe C,Godowitch J M,et al.Impact of inherent meteorology uncertainty on air quality model predictions[J].Journal of Geophysical Research:Atmospheres,2016,120(23):259-280.

[4]Pérez V A,Arasa R,Codina B,et al.Enhancing air quality forecasts over Catalonia(Spain)using model output statics[J].Journal of Geoscienceamp;Environment Protection,2015,3(8):9-22.

[5]Xu Bin,Luo Liangqing,Lin Boqiang.A dynamic analysis of air pollution emissions in China:evidence from nonparametric additive regression models[J].Ecological Indicators,2016,63:346-358.

[6]Azid A,Juahir H,Toriman M E,et al.Prediction of the level of air pollution using principal component analysis and artificial neural network techniques:A case study in Malaysia[J].Water,Air,amp;Soil Pollution,2014,225(8):2063.

[7]Mishra D,Goyal P,Upadhyay A.Artificial intelligence based approach to forecast PM2.5 during haze episodes:A case study of Delhi,India[J].Atmospheric Environment,2015,102:239-248.

[8]盧輝斌,李丹丹,孫海艷.PSO優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的混沌時(shí)間序列預(yù)測(cè)[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(2):224-229.

[9]奚雪峰,周國(guó)棟.面向自然語言處理的深度學(xué)習(xí)研究[J].自動(dòng)化學(xué)報(bào),2016,42(10):1445-1465.

[10]吳財(cái)貴,唐權(quán)華.基于深度學(xué)習(xí)的圖片敏感文字檢測(cè)[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(14):203-206.

[11]Karpathy A,Toderici G,Shetty S,et al.Large-scale video classification with convolutional neural networks[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Piscataway,NJ:IEEE,2014:1725-1732.

[12]Lecun Y,Bengio Y,Hinton G.Deep learning[J].Nature,2015,521(7553):436-444.

[13]馬世龍,烏尼日其其格,李小平.大數(shù)據(jù)與深度學(xué)習(xí)綜述[J].智能系統(tǒng)學(xué)報(bào),2016,11(6):728-742.

[14]尹文君,張大偉,閆京海,等.基于深度學(xué)習(xí)的大數(shù)據(jù)空氣污染預(yù)報(bào)[J].中國(guó)環(huán)境管理,2015,7(6):46-52.

[15]戴曉愛,郭守恒,任淯,等.基于堆棧式稀疏自編碼器的高光譜影像分類[J].電子科技大學(xué)學(xué)報(bào),2016,45(3):382-386.

[16]王山海,景新幸,楊海燕.基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的孤立詞語音識(shí)別的研究[J].計(jì)算機(jī)應(yīng)用研究,2015,32(8):2290-2291.

[17]Vincent P,Larochelle H,Lajoie I,et al.Stacked denosing autoencoders:Learning useful representations in a deep network with a local denoising criterion[J].Journal of Machine Learning Research,2010,11(6):3371-3408.

[18]Bengio Y.Practical recommendations for gradient based training of deep architectures[M]//Neural Networks:Tricks of the Trade.Berlin:Springer-Verlag,2012:437-478.

[19]黃菊梅,陳姣絨,彭潔,等.岳陽市區(qū)空氣質(zhì)量變化特征及氣象條件預(yù)報(bào)[J].環(huán)境科學(xué)與技術(shù),2016,39(6):168-173.

DONG Ting1,ZHAO Jianhui1,HU Yong2

1.State Key Laboratory of Software Engineering,School of Computer Science,Wuhan University,Wuhan 430072,China 2.School of Resources and Environmental Sciences,Wuhan University,Wuhan 430079,China

AQI levels prediction based on deep neural network with spatial and temporal optimizations.Computer Engineering and Applications,2017,53(21):17-23.

The existing air quality prediction models have lower precision,and sensitive to noisy data.Thus a new method is proposed for AQI levels prediction based on Stacked Denoising Auto-Encoders(SDAE)model.Firstly,the historical air quality and meteorological monitoring data of Wuhan city are taken as research object.SDAE model is established to study the characteristic expression of the original data layer by layer,and the last layer is connected with a classifier to tune the prediction model.The optimal set of hyper-parameters is found through improved grid search algorithm for multiparameters.Then,the prediction is obtained from the test set.The indicators such as mean absolute error and mean square error between the predicted value and related actual value are used as the evaluation standards for forecasting performance.Compared with other network models,it can be proved that SDAE model has better predictive performance.Finally,the input data is optimized considering their spatial and temporal relations.Experimental results show that the spatial optimization based SDAE has the most improvement for predictive performance,and it can obtain more accurate predictions compared with the traditional methods.

AQI levels;prediction;Stacked Denoising Auto-Encoder(SDAE);optimization

A

TP391

10.3778/j.issn.1002-8331.1705-0420

中國(guó)空間技術(shù)研究院創(chuàng)新基金(No.CAST2014);湖北省科技支撐計(jì)劃(No.2014BAA149);中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)(No.2042016gf0023)。

董婷(1992—),女,碩士研究生,研究領(lǐng)域?yàn)樯疃葘W(xué)習(xí)及應(yīng)用、圖像處理,E-mail:dongtingwhu@163.com;趙儉輝(1975—),男,博士,副教授,研究領(lǐng)域?yàn)槿斯ぶ悄堋D形圖像;胡勇(1973—),男,博士,副教授,研究領(lǐng)域?yàn)榭臻g模型與模擬、氣候變化適應(yīng)與減緩。

2017-05-31

2017-09-19

1002-8331(2017)21-0017-07

猜你喜歡
空氣質(zhì)量時(shí)空網(wǎng)格
跨越時(shí)空的相遇
鏡中的時(shí)空穿梭
追逐
玩一次時(shí)空大“穿越”
重疊網(wǎng)格裝配中的一種改進(jìn)ADT搜索方法
車內(nèi)空氣質(zhì)量標(biāo)準(zhǔn)進(jìn)展
重視車內(nèi)空氣質(zhì)量工作 制造更環(huán)保、更清潔、更健康的汽車
多功能空氣質(zhì)量遠(yuǎn)程檢測(cè)儀
時(shí)空之門