盧淑怡,張 波*,張旱文,俞 豪,高浩然,劉 波
(1.上海師范大學(xué)信息與機(jī)電工程學(xué)院,上海201418;2.上海超算科技有限公司,上海201203)
隨著深度學(xué)習(xí)技術(shù)的興起,空氣污染預(yù)測(cè)成為信息科學(xué)和環(huán)境科學(xué)的交叉融合課題.國(guó)內(nèi)外各研究學(xué)者通過(guò)大量的傳統(tǒng)數(shù)值分析和機(jī)器學(xué)習(xí)手段等方法已取得了一定的成果.雷源等[1]為對(duì)流層內(nèi)的多種氣體污染物的時(shí)空分布及演變過(guò)程進(jìn)行預(yù)測(cè),建立了對(duì)流層高分辨率化學(xué)預(yù)報(bào)模型;朱亞杰等[2]通過(guò)建立貝葉斯時(shí)空模型對(duì)京津翼區(qū)域進(jìn)行空氣污染預(yù)測(cè),考慮了PM2.5污染物的時(shí)間變異和空間分布特性,進(jìn)行預(yù)測(cè)的過(guò)程中還引入氣象數(shù)據(jù)作為協(xié)變量;尹琪等[3]通過(guò)支持向量機(jī)(SVM)結(jié)合改進(jìn)的粒子群(IPSO)算法和遺傳算法(GA),使用參數(shù)尋優(yōu)的方法建立新模型,從而對(duì)空氣質(zhì)量指數(shù)做預(yù)測(cè);陳偉等[4]使用支持向量機(jī)(SVM)結(jié)合小波分解建立了城市大氣污染物濃度預(yù)測(cè)模型,通過(guò)對(duì)于小波分解重構(gòu),得到由分解序列合成的最終預(yù)測(cè)結(jié)果.
深度學(xué)習(xí)作為人工智能前沿技術(shù),國(guó)內(nèi)外在研究污染物濃度的序列建模和變化趨勢(shì)預(yù)測(cè)方面已獲得很多良好的效果.尹文君等[5]針對(duì)當(dāng)前熱點(diǎn)的環(huán)境問(wèn)題,提出基于深度學(xué)習(xí)的大數(shù)據(jù)空氣污染預(yù)報(bào),通過(guò)模擬人腦的神經(jīng)連接結(jié)構(gòu)[6],實(shí)現(xiàn)大數(shù)據(jù)集成,有效克服現(xiàn)有方法的缺陷,提高預(yù)報(bào)性能,在應(yīng)用層面上更加靈活和可操作.
盡管空氣污染預(yù)測(cè)在深度學(xué)習(xí)領(lǐng)域取得了較大的發(fā)展,但仍存在不足.例如:1)當(dāng)下的預(yù)測(cè)方法僅提供了較為優(yōu)質(zhì)的模型,無(wú)法直觀地展現(xiàn)預(yù)測(cè)結(jié)果,不同的模型也無(wú)法在一個(gè)平臺(tái)上統(tǒng)一應(yīng)用;2)各個(gè)模型的集成度較差,對(duì)于跨專業(yè)領(lǐng)域的應(yīng)用存在困難.因此,本文作者提出一種基于深度學(xué)習(xí)的空氣污染物濃度預(yù)測(cè)平臺(tái),利用網(wǎng)絡(luò)爬蟲技術(shù)獲取眾多的污染物數(shù)據(jù),考慮到傳統(tǒng)數(shù)值分析和機(jī)器學(xué)習(xí)手段的局限性[7],采用長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)模型的深度學(xué)習(xí)[8]框架進(jìn)行空氣污染物濃度的預(yù)測(cè),充分結(jié)合氣象數(shù)據(jù)對(duì)污染物濃度預(yù)測(cè)的影響,將基于深度學(xué)習(xí)的空氣污染預(yù)測(cè)技術(shù)設(shè)計(jì)為一個(gè)交互式平臺(tái),提出了一種具有3個(gè)層次的深度學(xué)習(xí)交互式平臺(tái)架構(gòu).該平臺(tái)可通過(guò)對(duì)用戶的個(gè)性化模型參數(shù)進(jìn)行設(shè)置,具有靈活、可擴(kuò)展等優(yōu)點(diǎn).
平臺(tái)一共有3個(gè)層次組成,分別為:數(shù)據(jù)采集層、模型層以及可視化界面層.由數(shù)據(jù)采集層自動(dòng)更新氣象數(shù)據(jù)和空氣污染數(shù)據(jù),數(shù)據(jù)經(jīng)清洗和篩選后上傳至模型層,經(jīng)過(guò)LSTM 網(wǎng)絡(luò)模型,將產(chǎn)生的預(yù)測(cè)結(jié)果上傳至可視化界面,并展示給用戶,如圖1所示.
圖1 總體技術(shù)框架圖
數(shù)據(jù)采集層主要負(fù)責(zé)采集空氣污染的數(shù)值數(shù)據(jù).該層接收來(lái)自網(wǎng)絡(luò)爬蟲采集到的數(shù)據(jù).數(shù)據(jù)內(nèi)容包括:時(shí)間、監(jiān)測(cè)站、濕度、降雨量、風(fēng)向、風(fēng)速、溫度、PM2.5值、PM10值、SO2、NO2、CO 及O3的13 個(gè)數(shù)據(jù)項(xiàng).整合成為以小時(shí)為時(shí)間跨度單位,整體長(zhǎng)度為2015—2018年的實(shí)時(shí)數(shù)據(jù),接著對(duì)其進(jìn)行數(shù)據(jù)清洗及篩選,最后上傳至模型層進(jìn)行訓(xùn)練.
針對(duì)大量氣象數(shù)據(jù)的收集、獲取及篩選處理,數(shù)據(jù)采集層利用網(wǎng)絡(luò)爬蟲程序,從2345天氣網(wǎng)站對(duì)上海市近3 年及實(shí)時(shí)數(shù)據(jù)進(jìn)行采集.網(wǎng)絡(luò)爬蟲程序通過(guò)統(tǒng)一資源定位符(URL)地址和超文本傳輸協(xié)議(HTTP),模擬客戶端向訪問(wèn)的網(wǎng)站發(fā)送請(qǐng)求,封裝必要的參數(shù)信息,自動(dòng)獲取網(wǎng)站內(nèi)容信息并解析數(shù)據(jù),如圖2所示.
圖2 網(wǎng)絡(luò)爬蟲工作流程圖
模型層作為該平臺(tái)架構(gòu)的核心,集成了多種深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型.用戶可根據(jù)不同的需求選擇相應(yīng)的網(wǎng)絡(luò)模型,設(shè)置自定義參數(shù)進(jìn)行訓(xùn)練.1.2.1 LSTM模型介紹
1)遺忘門層.遺忘門層決定細(xì)胞狀態(tài)中信息的保留和丟棄.
2)輸入門層.輸入門層判斷細(xì)胞狀態(tài)中信息是否需要更新.
3)更新門層.更新門層負(fù)責(zé)更新細(xì)胞狀態(tài).
4)輸出層.輸出層負(fù)責(zé)確定輸出的內(nèi)容.采用LSTM 網(wǎng)絡(luò)模型的記憶門和遺忘門機(jī)制,記憶門決定保留過(guò)往有用的信息,遺忘門用于過(guò)濾掉無(wú)用的信息,從而突出重點(diǎn)屬性,降低非相關(guān)屬性的影響,對(duì)PM2.5空氣污染物進(jìn)行回歸預(yù)測(cè).
1.2.2 基于LSTM網(wǎng)絡(luò)模型的空氣污染物濃度預(yù)測(cè)
在模型層設(shè)計(jì)一個(gè)符合空氣污染物濃度預(yù)測(cè)的LSTM 網(wǎng)絡(luò)模型,LSTM 網(wǎng)絡(luò)模型和數(shù)據(jù)集的相關(guān)參數(shù)可由用戶自行設(shè)定.該模型主要包括3個(gè)部分:輸入層、隱藏層、輸出層.
1)輸入層接收數(shù)據(jù)采集層處理的數(shù)據(jù),再將數(shù)據(jù)進(jìn)行歸一化處理,形成符合網(wǎng)絡(luò)輸入格式的規(guī)范數(shù)據(jù).
減譯法是指在不影響原文思想和內(nèi)容的情況下,把重復(fù)多余的文字省去,或在不影響譯語(yǔ)讀者理解的情況下,用更加簡(jiǎn)明的語(yǔ)言形式代替原文繁瑣語(yǔ)言的一種翻譯方法,比如:
2)隱藏層包括LSTM 網(wǎng)絡(luò)模型和全連接層.依據(jù)不同粒度的時(shí)間窗口,對(duì)模型進(jìn)行分析,綜合驗(yàn)證時(shí)間長(zhǎng)度依賴所取得的最佳窗口值.調(diào)節(jié)LSTM 網(wǎng)絡(luò)模型隱藏層中各處理器之間的傳播機(jī)制,優(yōu)化處理器內(nèi)部的參數(shù)設(shè)置,實(shí)現(xiàn)對(duì)時(shí)間序列預(yù)測(cè)的優(yōu)化.通過(guò)網(wǎng)絡(luò)訓(xùn)練,LSTM 網(wǎng)絡(luò)模型將分析所得的污染物特征傳給全連接層,全連接層將該特征轉(zhuǎn)譯為預(yù)測(cè)的污染物數(shù)值.
3)輸出層輸出下一時(shí)段PM2.5的預(yù)測(cè)值,同時(shí)記錄訓(xùn)練過(guò)程當(dāng)中的均方誤差、損失函數(shù)等相關(guān)系數(shù).
用戶在可視化界面輸入相關(guān)參數(shù),LSTM 網(wǎng)絡(luò)模型接受參數(shù)后開始訓(xùn)練,數(shù)據(jù)經(jīng)訓(xùn)練之后,以圖表的形式,將預(yù)測(cè)到的PM2.5空氣污染物及其他相關(guān)數(shù)據(jù)呈現(xiàn)給用戶.除此之外,模型訓(xùn)練過(guò)程中的均方誤差、損失值和數(shù)據(jù)集的特征分布也會(huì)以圖表的形式展現(xiàn)給用戶,方便用戶評(píng)估模型性能,觀察數(shù)據(jù)集分布特征.
本平臺(tái)以MySQL為數(shù)據(jù)庫(kù),Vue.js文件為前端,融合了數(shù)據(jù)源處理、深度學(xué)習(xí)模型、數(shù)據(jù)可視化等技術(shù),并具有可擴(kuò)展性,兼容多類人工智能模型,如圖3所示.
圖3 空氣污染物濃度預(yù)測(cè)平臺(tái)界面
本平臺(tái)主要由6個(gè)模塊組成:
1)天氣預(yù)測(cè)走勢(shì).通過(guò)將數(shù)據(jù)庫(kù)中已經(jīng)擁有的天氣數(shù)據(jù)輸入LSTM 網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,對(duì)未來(lái)的PM2.5情況進(jìn)行預(yù)測(cè).以折線圖的形式展示24 h,72 h 和一周這3 個(gè)不同時(shí)間跨度的PM2.5污染物質(zhì)量濃度,如圖4所示.
圖4 天氣預(yù)測(cè)走勢(shì)圖
2)數(shù)據(jù)統(tǒng)計(jì)分析.結(jié)合歷史污染物質(zhì)量濃度數(shù)據(jù),對(duì)CO,PM10,PM2.5等污染物進(jìn)行統(tǒng)計(jì)分析,生成數(shù)據(jù)散點(diǎn)圖(圖5)和數(shù)據(jù)特征分布圖(圖6).
圖5 數(shù)據(jù)散點(diǎn)圖
圖6 數(shù)據(jù)統(tǒng)計(jì)分析圖
其中,數(shù)據(jù)散點(diǎn)圖展示了PM10,PM2.5兩種污染物的數(shù)值情況,根據(jù)散點(diǎn)圖的聚集程度,用戶可判斷一段時(shí)間內(nèi)的空氣質(zhì)量情況.
數(shù)據(jù)特征分布圖則顯示了CO,NO2等六類污染物數(shù)據(jù),用戶可選擇自己所需要查看的污染物種類.通過(guò)折線圖的方式,用戶可以清晰地了解一段時(shí)間內(nèi)污染物的變化情況.
3)模型及其參數(shù)選擇.選擇數(shù)據(jù)集與相應(yīng)的訓(xùn)練模型,并為訓(xùn)練模型設(shè)置相應(yīng)的參數(shù).該板塊具備兼容性和可擴(kuò)展性,用戶可自行添加其他模型進(jìn)行訓(xùn)練,也可添加不同的數(shù)據(jù),根據(jù)用戶的不同需求進(jìn)行預(yù)測(cè),如圖7 所示.其中,TrainSize 代表訓(xùn)練集的大小,NeuronUnit 代表輸出維度,Epochs 代表訓(xùn)練輪數(shù),Batch_Size代表批處理的大小,LearnRate代表學(xué)習(xí)率.
圖7 模型參數(shù)選擇圖
4)模型測(cè)試結(jié)果.生成模型損失值和模型周期的函數(shù)關(guān)系圖,并生成預(yù)測(cè)的天氣數(shù)據(jù)和時(shí)間的關(guān)系圖.
模型損失函數(shù)變化曲線圖(圖8)展現(xiàn)了現(xiàn)有模型與理想回歸模型的差距,其變化規(guī)律與數(shù)值給用戶直觀地展現(xiàn)了模型的收斂過(guò)程與最終性能.
圖8 模型損失函數(shù)變化曲線圖
模型預(yù)測(cè)結(jié)果圖(圖9)則展示了用戶自定義模型對(duì)污染物濃度預(yù)測(cè)的準(zhǔn)確度,通過(guò)觀測(cè)值和預(yù)測(cè)值曲線的重合性,用戶可判斷未來(lái)污染物數(shù)值(即天氣預(yù)測(cè)走勢(shì)圖)的準(zhǔn)確性.
圖9 模型預(yù)測(cè)結(jié)果圖
5)模型訓(xùn)練過(guò)程.模型訓(xùn)練過(guò)程顯示模型訓(xùn)練時(shí)候的參數(shù)與訓(xùn)練的狀態(tài):Shutting Down(關(guān)閉)、Training(訓(xùn)練中)、Finished(完成).
6)模型預(yù)測(cè)結(jié)果.計(jì)算最后模型的損失值,并計(jì)算模型預(yù)測(cè)相應(yīng)的誤差,生成對(duì)模型的性能評(píng)估指標(biāo).
采用經(jīng)典的數(shù)據(jù)切分方式,即80%的數(shù)據(jù)作為訓(xùn)練集,20%的數(shù)據(jù)作為測(cè)試集.用戶通過(guò)輸入神經(jīng)元個(gè)數(shù)(NeuronUnit)、訓(xùn)練輪數(shù)(Epochs)、一次訓(xùn)練所選取的樣本數(shù)(Batch_Size)、學(xué)習(xí)率(LearnRate)4個(gè)參數(shù)進(jìn)行訓(xùn)練,得到相應(yīng)的預(yù)測(cè)結(jié)果,如表1 所示.實(shí)驗(yàn)證明,隨著神經(jīng)元個(gè)數(shù)及訓(xùn)練輪數(shù),預(yù)測(cè)值基本可以逐步擬合測(cè)試值.
表1 實(shí)驗(yàn)結(jié)果
采用LSTM 網(wǎng)絡(luò)模型深度學(xué)習(xí)框架進(jìn)行空氣污染物濃度的預(yù)測(cè),同時(shí)提出了基于深度學(xué)習(xí)的三層架構(gòu)預(yù)測(cè)平臺(tái),給深度學(xué)習(xí)的可視化技術(shù)提供了一種新的方法.該平臺(tái)分為數(shù)據(jù)采集層、模型層和可視化界面層三個(gè)層次,集成了多種深度學(xué)習(xí)模型,可以直觀地展示數(shù)據(jù),并具備兼容性和可擴(kuò)展性,用戶可以在平臺(tái)上自定義不同的數(shù)據(jù)集、深度學(xué)習(xí)模型以及訓(xùn)練參數(shù).
上海師范大學(xué)學(xué)報(bào)·自然科學(xué)版2020年1期