馮 嶺,宋 文 輝,陳 繼 坤
(華北水利水電大學(xué) 信息工程學(xué)院,河南 鄭州 450046)
干旱是降水或河川徑流異常引起的水分短缺現(xiàn)象[1],而旱災(zāi)是世界上危害最廣泛、最嚴(yán)重的自然災(zāi)害之一[2]。中國(guó)地處典型季風(fēng)氣候區(qū),旱災(zāi)的影響尤為突出[3]。據(jù)《中國(guó)水旱災(zāi)害公報(bào)》統(tǒng)計(jì),中國(guó)農(nóng)作物平均年成災(zāi)面積近年來(lái)呈現(xiàn)出逐年增長(zhǎng)的態(tài)勢(shì),從20世紀(jì)50年代的531.7萬(wàn)hm2,迅速增長(zhǎng)至 90 年代的1 384.2萬(wàn)hm2。每年因旱災(zāi)損失糧食基本維持在300多億kg,造成的工農(nóng)業(yè)直接經(jīng)濟(jì)損失近千億元[4]。因此,如何在旱災(zāi)發(fā)生前進(jìn)行災(zāi)情風(fēng)險(xiǎn)評(píng)估,準(zhǔn)確預(yù)測(cè)災(zāi)情的發(fā)生,保障糧食安全,是干旱相關(guān)工作者需迫切展開(kāi)的工作。
傳統(tǒng)的旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估方法大多是通過(guò)定義各種指標(biāo)對(duì)旱災(zāi)的風(fēng)險(xiǎn)等級(jí)進(jìn)行評(píng)價(jià)。在指標(biāo)方面,張偉杰等[5]基于標(biāo)準(zhǔn)化降水指數(shù)SPI,分別以月尺度、季節(jié)尺度、半年尺度、年尺度對(duì)內(nèi)蒙古達(dá)茂草原近56 a間的干旱演變與趨勢(shì)特征進(jìn)行分析;聶明秋等[6]采用非參數(shù)法以渭河流域?yàn)檠芯繉?duì)象,構(gòu)建了綜合干旱指數(shù),分析了渭河流域綜合干旱的演變規(guī)律,結(jié)合干旱風(fēng)險(xiǎn)因子探究風(fēng)險(xiǎn)的動(dòng)態(tài)演變特征;任怡等[7]利用水資源供求指數(shù)、綜合干旱指數(shù)對(duì)陜西省干旱時(shí)空分布進(jìn)行了分析。
以上基于指標(biāo)的方法通常只能對(duì)已發(fā)生干旱的強(qiáng)度進(jìn)行分析,而無(wú)法對(duì)未來(lái)旱災(zāi)發(fā)生的可能性和風(fēng)險(xiǎn)等級(jí)進(jìn)行預(yù)測(cè)。隨著機(jī)器學(xué)習(xí)方法的發(fā)展,將多源數(shù)據(jù)與機(jī)器學(xué)習(xí)算法相結(jié)合已經(jīng)成為當(dāng)前旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估的一個(gè)重要趨勢(shì),多元線性回歸[8]、遺傳算法[9]、人工神經(jīng)網(wǎng)絡(luò)[10]等機(jī)器學(xué)習(xí)模型和算法被用于對(duì)旱災(zāi)的風(fēng)險(xiǎn)等級(jí)進(jìn)行評(píng)估。在這方面,F(xiàn)ung等[11]基于改進(jìn)的支持向量回歸模型,對(duì)馬來(lái)西亞蘭加特河流域下游的農(nóng)業(yè)干旱進(jìn)行預(yù)測(cè);Djerbouai等[12]使用小波神經(jīng)網(wǎng)絡(luò)和隨機(jī)模型,對(duì)北阿爾及利亞地區(qū)進(jìn)行了干旱預(yù)測(cè)預(yù)報(bào);Seibert等[13]通過(guò)比較3種不同的統(tǒng)計(jì)方法,即多元線性回歸模型、人工神經(jīng)網(wǎng)絡(luò)模型、隨機(jī)森林回歸樹(shù)模型,對(duì)水文干旱進(jìn)行季節(jié)性預(yù)報(bào);Khan等[14]利用支持向量機(jī)(Support Vector Machine,SVM)、人工神經(jīng)網(wǎng)絡(luò)和K近鄰算法對(duì)巴基斯坦進(jìn)行了干旱建模分析。盡管上述方法可以在一定程度上對(duì)未來(lái)發(fā)生的干旱風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)和評(píng)估,但在這些方法中考慮的影響旱災(zāi)風(fēng)險(xiǎn)的因素較為單一,并沒(méi)有將干旱影響因素與實(shí)際旱災(zāi)風(fēng)險(xiǎn)關(guān)聯(lián)起來(lái)。
針對(duì)已有旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估方法的不足,本研究旨在基于歷史旱情文本數(shù)據(jù)和氣象數(shù)據(jù),建立一種數(shù)據(jù)驅(qū)動(dòng)的短期旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估方法。首先,對(duì)旱情文本進(jìn)行預(yù)處理,提取干旱等級(jí)標(biāo)簽;其次,選取多個(gè)影響干旱的氣象因素,通過(guò)深度學(xué)習(xí)算法來(lái)挖掘氣象數(shù)據(jù)與歷史災(zāi)情之間的關(guān)系;最后,建立基于數(shù)據(jù)驅(qū)動(dòng)的多源多模態(tài)旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型,以對(duì)未來(lái)發(fā)生旱災(zāi)的風(fēng)險(xiǎn)等級(jí)進(jìn)行評(píng)估。以此可在旱災(zāi)發(fā)生前對(duì)旱災(zāi)進(jìn)行預(yù)警,降低旱災(zāi)造成的負(fù)面影響,減少?lài)?guó)家的經(jīng)濟(jì)損失。
河南省是中國(guó)的糧食與農(nóng)業(yè)大省,而旱災(zāi)對(duì)河南省的影響尤為強(qiáng)烈。鄭州市位于河南省中部偏北,地處南北氣候過(guò)渡帶,常年平均降水量為628 mm,降水量的年際變化大,年內(nèi)分布不均勻。地形和氣候的2個(gè)過(guò)渡帶決定了鄭州市旱澇災(zāi)害會(huì)頻繁發(fā)生[15],故選擇河南省境內(nèi)的鄭州市作為實(shí)例來(lái)研究旱災(zāi)風(fēng)險(xiǎn)。
研究區(qū)的氣象數(shù)據(jù)來(lái)源于中國(guó)氣象資料共享服務(wù)網(wǎng)(http:/cdc.cma.gov.cn/)河南省縣級(jí)以上區(qū)域18個(gè)氣象站1951~2020年的逐月氣象資料。
研究區(qū)文本數(shù)據(jù)來(lái)源于《中國(guó)氣象災(zāi)害大典(河南卷)》干旱災(zāi)害篇章中的災(zāi)情記錄文本。該文本中,記錄了河南省地區(qū)從公元前1804年到公元2000年的歷史旱災(zāi)。2000年以后的標(biāo)簽以河南省水利廳、農(nóng)業(yè)廳發(fā)布的新聞報(bào)道為主,輔以網(wǎng)絡(luò)報(bào)道期刊數(shù)據(jù)等。
基于上述2個(gè)數(shù)據(jù)集,以鄭州市為例,根據(jù)1951~2017年的氣象數(shù)據(jù)和災(zāi)情記錄文本數(shù)據(jù),對(duì)2018~2020年的旱災(zāi)風(fēng)險(xiǎn)等級(jí)進(jìn)行了預(yù)測(cè)評(píng)估,最后對(duì)2021年旱災(zāi)情況進(jìn)行了預(yù)測(cè)。
旱災(zāi)風(fēng)險(xiǎn)評(píng)估主要是實(shí)現(xiàn)對(duì)未來(lái)可能發(fā)生旱災(zāi)的風(fēng)險(xiǎn)等級(jí)進(jìn)行評(píng)估。在該方法中,綜合考慮到了多種風(fēng)險(xiǎn)因素,比如:降水量、氣溫、平均相對(duì)濕度以及平均水汽壓等,融合了氣象監(jiān)測(cè)數(shù)據(jù)和旱情歷史文本數(shù)據(jù);并基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法,構(gòu)建了旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型,以對(duì)未來(lái)一段時(shí)間內(nèi)發(fā)生旱災(zāi)的可能性和嚴(yán)重程度進(jìn)行評(píng)估。該模型的主要實(shí)現(xiàn)流程如圖1所示。
旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估的主要流程包括以下4個(gè)部分:① 旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型訓(xùn)練集的構(gòu)建;② 基于支持向量機(jī)的旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型的訓(xùn)練;③ 基于長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short Term Memory Networks,LSTM)的未來(lái)氣象特征值預(yù)測(cè);④ 基于支持向量機(jī)的未來(lái)旱災(zāi)風(fēng)險(xiǎn)等級(jí)的評(píng)估。
(1) 基于氣象監(jiān)測(cè)數(shù)據(jù)和旱情歷史文本數(shù)據(jù),篩選可能對(duì)旱災(zāi)發(fā)生具有影響的氣象特征,并抽取歷史旱災(zāi)的風(fēng)險(xiǎn)等級(jí)標(biāo)簽,構(gòu)建用于進(jìn)行旱災(zāi)風(fēng)險(xiǎn)評(píng)估模型的訓(xùn)練數(shù)據(jù)集。
(2) 基于旱災(zāi)訓(xùn)練數(shù)據(jù)集,采用SVM分類(lèi)算法,對(duì)旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型進(jìn)行訓(xùn)練。
(3) 對(duì)于已有的氣象特征數(shù)據(jù),采用LSTM預(yù)測(cè)其未來(lái)一段時(shí)間的特征值。
圖1 旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估技術(shù)路線示意Fig.1 Technical roadmap for drought risk assessment
(4) 將LSTM得到的一系列未來(lái)特征值,加載到訓(xùn)練好的旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型,從而對(duì)未來(lái)可能發(fā)生的旱災(zāi)風(fēng)險(xiǎn)等級(jí)進(jìn)行評(píng)估。
1.3.1構(gòu)建旱災(zāi)訓(xùn)練數(shù)據(jù)集
為了獲得有效的旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型,首先需要構(gòu)建旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估的訓(xùn)練數(shù)據(jù)集。數(shù)據(jù)集包括標(biāo)簽集和特征集2個(gè)部分。對(duì)于標(biāo)簽集,基于歷史災(zāi)情記錄、國(guó)家或地區(qū)的干旱災(zāi)害統(tǒng)計(jì)報(bào)告等文本數(shù)據(jù),采用文本抽取方法從中來(lái)抽取相應(yīng)的旱災(zāi)等級(jí)標(biāo)簽。對(duì)于特征集,基于氣象監(jiān)測(cè)數(shù)據(jù)中的相關(guān)指標(biāo),從中篩選出用于旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估的主要特征。
(1) 標(biāo)簽抽取。對(duì)于標(biāo)簽集,基于歷史災(zāi)情記錄、國(guó)家或地區(qū)的干旱災(zāi)害統(tǒng)計(jì)報(bào)告等文本數(shù)據(jù),通過(guò)文本抽取和統(tǒng)計(jì)分析的方法,抽取各個(gè)城市歷年發(fā)生的旱情信息,以用于構(gòu)建特征集對(duì)應(yīng)的旱災(zāi)風(fēng)險(xiǎn)等級(jí)標(biāo)簽。標(biāo)簽抽取的流程如圖2所示。
圖2 標(biāo)簽抽取流程Fig.2 Label extraction process
根據(jù)歷史災(zāi)情文本,應(yīng)首先構(gòu)建地名詞典以及干旱詞典;然后,采用正則表達(dá)式以及模板匹配法對(duì)干旱災(zāi)情文本中的時(shí)間、地點(diǎn)以及干旱等級(jí)進(jìn)行識(shí)別和抽取,以形成結(jié)構(gòu)化的旱災(zāi)風(fēng)險(xiǎn)等級(jí)標(biāo)簽;最后,對(duì)抽取的標(biāo)簽進(jìn)行人工校驗(yàn),以保證所抽取標(biāo)簽的準(zhǔn)確性。標(biāo)簽抽取的流程共包含以下3個(gè)步驟。
步驟1:構(gòu)建地名詞典和旱災(zāi)風(fēng)險(xiǎn)等級(jí)詞典。在歷史災(zāi)情文本中,通常采用“省、市、縣”3個(gè)不同大小的粒度來(lái)表述旱災(zāi)發(fā)生的范圍。對(duì)此,將城市作為研究粒度,即將“縣”轉(zhuǎn)換為對(duì)應(yīng)的“市”。為了獲得“省”“縣”與“市”之間的關(guān)系,定義了地名詞典。此外,根據(jù)歷史災(zāi)情文本中對(duì)災(zāi)情的相關(guān)描述,從描述的嚴(yán)重程度以及當(dāng)年的旱情實(shí)際情況,將旱災(zāi)風(fēng)險(xiǎn)劃分為5個(gè)等級(jí):正常、輕旱、中旱、重旱、特旱,并構(gòu)建干旱等級(jí)詞典,以用于旱災(zāi)風(fēng)險(xiǎn)等級(jí)標(biāo)簽的抽取。
步驟2:基于地名詞典和旱災(zāi)風(fēng)險(xiǎn)等級(jí)詞典,采用正則表達(dá)式和模式匹配法,從歷史災(zāi)情文本中抽取旱災(zāi)發(fā)生的時(shí)間、城市以及旱災(zāi)的風(fēng)險(xiǎn)等級(jí)。在經(jīng)過(guò)程序自動(dòng)抽取后,為了保證所抽取標(biāo)簽信息的質(zhì)量,對(duì)抽取的標(biāo)簽進(jìn)行人工校驗(yàn)。
步驟3:將抽取的結(jié)構(gòu)化標(biāo)簽保存為csv文件,以方便計(jì)算機(jī)讀取。圖3給出了標(biāo)簽抽取結(jié)果的示例圖,由圖3可以看出,每一條標(biāo)簽記錄的格式為〈時(shí)間,城市,月份,旱災(zāi)風(fēng)險(xiǎn)等級(jí)〉。例如,〈1949,商丘,3,2〉表示1949年3月商丘發(fā)生了中度干旱。
圖3 標(biāo)簽抽取結(jié)果示例Fig.3 Sample image of label extraction results
(2) 特征集構(gòu)建。通過(guò)對(duì)歷史災(zāi)情文本的抽取,得到用于構(gòu)建旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型的標(biāo)簽集合。但為了構(gòu)建完整的旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型,還需要獲得與旱災(zāi)風(fēng)險(xiǎn)等級(jí)標(biāo)簽有關(guān)聯(lián)的特征。將氣象指標(biāo)作為候選特征集,然后基于隨機(jī)森林算法對(duì)各個(gè)指標(biāo)的重要性進(jìn)行計(jì)算,并將重要度較高的前k個(gè)指標(biāo)用于構(gòu)建旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型,所采用的候選氣象指標(biāo)如表1所列。
表1 旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估候選特征集Tab.1 Candidate feature set for drought risk assessment
表1中的指標(biāo)的具體含義及其與旱災(zāi)的關(guān)系描述如下。
降水是影響干旱的重要因素,常見(jiàn)的干旱預(yù)報(bào)系統(tǒng)大多是依據(jù)降水量來(lái)對(duì)未來(lái)的干旱進(jìn)行預(yù)測(cè)。例如,春播期降水量偏少,極易造成春旱。除此之外,在現(xiàn)有的干旱指標(biāo)中,如標(biāo)準(zhǔn)化降水指數(shù)(SPI)、帕爾默干旱指數(shù)(PDSI)、地表水供給指數(shù)(SWSI)等都將降水量作為衡量干旱的主要因素;高溫少雨會(huì)直接導(dǎo)致干旱的發(fā)生,尤其是夏季持續(xù)的高溫天氣會(huì)造成土壤水分大量蒸發(fā)、土壤墑情變差,導(dǎo)致十分嚴(yán)重的干旱。因此,可以考慮把氣溫作為評(píng)估旱災(zāi)風(fēng)險(xiǎn)等級(jí)的特征之一;氣壓跟天氣有密切的關(guān)系,一般來(lái)說(shuō),地面上高氣壓的地區(qū)往往是晴天,地面上低氣壓的地區(qū)往往是陰雨天。氣壓通過(guò)影響天氣,從而影響干旱。
風(fēng)速與水分蒸發(fā)有著密切的關(guān)系,風(fēng)可將蒸發(fā)物表面飽和度較高的空氣吹走。因此,風(fēng)速越大,水分蒸發(fā)越快,造成土壤失墑,導(dǎo)致干旱的發(fā)生;濕度越大,空氣中含有的水汽越接近于飽和水汽壓,也越容易形成凝結(jié),從而形成降水影響干旱;日照與干旱有著一定關(guān)系。氣候干旱的地區(qū),常年是晴朗天氣,日照時(shí)數(shù)就多。熱帶雨林氣候區(qū)常年陰雨天氣,日照時(shí)數(shù)就少。因此,日照時(shí)長(zhǎng)與干旱存在一定的關(guān)聯(lián);水汽壓與降水量之間存在線性關(guān)系,與蒸發(fā)快慢也有著密切的關(guān)系。白天溫度高,蒸發(fā)快,進(jìn)入大氣的水汽多,水汽壓就大;夜間情況相反。因此,水汽壓也是影響干旱的一個(gè)重要因素。
對(duì)于以上候選特征,采用隨機(jī)森林算法[16],基于袋外誤差(OOB)理論來(lái)判斷每個(gè)特征在隨機(jī)森林中的每棵樹(shù)上的貢獻(xiàn)度,從而計(jì)算各個(gè)特征的重要度,并將排名前k個(gè)特征作為用于構(gòu)建旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型的特征。對(duì)于任意特征x的特征重要度Ix的計(jì)算公式如下:
(1)
式中:N代表訓(xùn)練樣本的個(gè)數(shù),ROOB1表示決策樹(shù)對(duì)袋外數(shù)據(jù)進(jìn)行分類(lèi),統(tǒng)計(jì)的正確分類(lèi)的個(gè)數(shù);ROOB2為決策樹(shù)對(duì)擾動(dòng)后的袋外數(shù)據(jù)進(jìn)行分類(lèi),統(tǒng)計(jì)的正確分類(lèi)個(gè)數(shù)[17]。如果加入擾動(dòng)后,袋外數(shù)據(jù)準(zhǔn)確率大幅度下降,說(shuō)明這個(gè)特征對(duì)于樣本的預(yù)測(cè)結(jié)果有很大影響,進(jìn)而說(shuō)明重要程度比較高。
(3) 標(biāo)簽與特征的融合。 基于篩選出的用于構(gòu)建旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型的特征以及從歷史災(zāi)情記錄文本中抽取的標(biāo)簽,將表示同一城市同一時(shí)間的特征和標(biāo)簽進(jìn)行融合,從而構(gòu)成完整的旱災(zāi)訓(xùn)練數(shù)據(jù)集,所構(gòu)建的旱災(zāi)訓(xùn)練集的示例如表2所列。
表2 訓(xùn)練數(shù)據(jù)集示例Tab.2 Example of training data set
1.3.2基于SVM的旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型
根據(jù)前文中得到的訓(xùn)練數(shù)據(jù)集,采用分類(lèi)算法來(lái)構(gòu)建旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型,并對(duì)模型中的未知參數(shù)進(jìn)行訓(xùn)練。常見(jiàn)的分類(lèi)算法包括K近鄰[18]、決策樹(shù)[19]、樸素貝葉斯[20]、支持向量機(jī)[21]等。其中,基于支持向量機(jī)的分類(lèi)算法具有較好的學(xué)習(xí)泛化能力,可以解決非線性、高維數(shù)、局部極小點(diǎn)等分類(lèi)中存在的問(wèn)題。因此,本研究采用支持向量機(jī)分類(lèi)器對(duì)旱災(zāi)預(yù)測(cè)模型進(jìn)行訓(xùn)練,其訓(xùn)練過(guò)程如圖4所示。
圖4 基于SVM的旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型Fig.4 Drought risk assessment model based on SVM
支持向量機(jī)算法的基本思想是在特征空間上找到最佳的分離超平面,使得訓(xùn)練集上正、負(fù)樣本的間隔最大。假設(shè)訓(xùn)練數(shù)據(jù)集中的訓(xùn)練樣本為(x1,y1),(x2,y2),……,(xi,yi),xi為用于進(jìn)行旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估的特征向量,yi為旱災(zāi)風(fēng)險(xiǎn)等級(jí)標(biāo)簽。對(duì)于線性可分的情況,支持向量機(jī)分類(lèi)算法需要找到一個(gè)超平面,使2個(gè)異類(lèi)支持向量到超平面的距離之和最大。
然而,由于訓(xùn)練樣本往往不是線性可分的,因此,通常需要將樣本從原始空間映射到一個(gè)更高維的特征空間中,使得樣本在這個(gè)特征空間內(nèi)線性可分,從而找到一個(gè)合適的劃分超平面。樣本數(shù)據(jù)經(jīng)過(guò)高位映射后的超平面可以表示為
f(x)=wTφ(xi)+b
(2)
式中:w為加權(quán)向量,φ(xi)為映射函數(shù),b為偏差。尋找超平面的過(guò)程即求優(yōu)化問(wèn)題的最優(yōu)解過(guò)程,所得到的最優(yōu)化問(wèn)題是:
(3)
通過(guò)拉格朗日乘子法將原問(wèn)題轉(zhuǎn)化為對(duì)偶問(wèn)題求解,即可得到用于旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估的SVM分類(lèi)器。
1.3.3基于LSTM的未來(lái)特征值預(yù)測(cè)
基于支持向量機(jī)分類(lèi)算法得到旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型后,當(dāng)給定一組與旱災(zāi)相關(guān)的特征時(shí),可基于這組特征對(duì)當(dāng)前的旱災(zāi)風(fēng)險(xiǎn)等級(jí)進(jìn)行評(píng)估。但為了對(duì)未來(lái)可能存在的旱災(zāi)風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè),需要對(duì)未來(lái)的特征值即未來(lái)m個(gè)時(shí)刻的降水量、氣溫、水汽壓等進(jìn)行預(yù)測(cè)。鑒于在旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型中采用的特征都為時(shí)序型特征,因此,可以采用時(shí)間序列模型對(duì)未來(lái)時(shí)刻的特征值進(jìn)行預(yù)測(cè)。
長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)[22]是一種常見(jiàn)的時(shí)間序列預(yù)測(cè)模型,它可以學(xué)習(xí)長(zhǎng)期依賴(lài)信息,是當(dāng)下比較流行的循環(huán)神經(jīng)網(wǎng)絡(luò)。近年來(lái),隨著深度學(xué)習(xí)的不斷發(fā)展,LSTM已經(jīng)在語(yǔ)音識(shí)別、機(jī)器翻譯、負(fù)荷預(yù)測(cè)、交通流量預(yù)測(cè)等眾多不同領(lǐng)域成功應(yīng)用。由于該模型具有良好的時(shí)序預(yù)測(cè)能力,因此,可采用LSTM對(duì)旱災(zāi)相關(guān)特征未來(lái)m個(gè)時(shí)刻的特征值進(jìn)行預(yù)測(cè)。LSTM單元結(jié)構(gòu)如圖5所示。
圖5 LSTM單元結(jié)構(gòu)示意Fig.5 LSTM unit structure diagram
LSTM 3個(gè)重要的門(mén)中,遺忘門(mén)ft決定了上一時(shí)刻的單元狀態(tài)有多少保留到當(dāng)前時(shí)刻;輸入門(mén)it決定了當(dāng)前時(shí)刻網(wǎng)絡(luò)的輸入有多少保存到單元狀態(tài);輸出門(mén)ot決定了控制單元狀態(tài)有多少輸出到 LSTM 的當(dāng)前輸出值,gt代表輸入單元?!伴T(mén)”以及輸入單元的計(jì)算公式如下。
遺忘門(mén):
ft=σ(Wfx·xt+Wfh·ht-1+bf)
(4)
輸入門(mén):
it=σ(Wixxt+Wihht-1+bi)
(5)
輸入單元:
gt=φ(Wgxxt+Wghht-1+bg)
(6)
輸出門(mén):
ot=σ(Wox·xt+Woh·ht-1+bo)
(7)
輸出:
ht=φ(gt?it+ct-1?ft)?ot
(8)
式中:Wgx,Wgh等是權(quán)重矩陣,b是偏置項(xiàng),σ表示sigmod激活函數(shù),φ表示tanh激活函數(shù)。“門(mén)”實(shí)際上就是一層全連接層,它的輸入是一個(gè)向量,輸出是一個(gè)0~1的實(shí)數(shù)向量,通過(guò)“門(mén)”來(lái)決定保留哪些信息。
由LSTM的原理可知,對(duì)于時(shí)序型數(shù)據(jù),LSTM可通過(guò)“門(mén)”來(lái)記憶有用的信息,對(duì)數(shù)據(jù)未來(lái)值進(jìn)行預(yù)測(cè)。旱災(zāi)風(fēng)險(xiǎn)評(píng)估研究中用于構(gòu)建模型的氣象數(shù)據(jù)均為時(shí)序數(shù)據(jù)。因此,對(duì)于選取的每個(gè)特征可采用LSTM來(lái)預(yù)測(cè)其未來(lái)一段時(shí)間的特征值。本文基于LSTM建立了適用于氣象特征預(yù)測(cè)的深度學(xué)習(xí)預(yù)測(cè)模型,得到每個(gè)特征未來(lái)一段時(shí)間的特征值后,將預(yù)測(cè)的特征值輸入到之前完成訓(xùn)練的旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型中,即可對(duì)未來(lái)可能發(fā)生的旱災(zāi)風(fēng)險(xiǎn)等級(jí)進(jìn)行評(píng)估。為了驗(yàn)證本研究中旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型的有效性,將通過(guò)算例對(duì)所提出的方法進(jìn)行分析驗(yàn)證。
旱災(zāi)訓(xùn)練集的構(gòu)建包括標(biāo)簽集構(gòu)建和特征集構(gòu)建2個(gè)部分。
(1) 標(biāo)簽構(gòu)建。為準(zhǔn)確提取河南省歷史干旱情況,基于《中國(guó)氣象災(zāi)害大典(河南卷)》干旱災(zāi)害篇史料記載,根據(jù)上文標(biāo)簽抽取方法,將災(zāi)情劃分特大干旱、嚴(yán)重干旱、中度干旱、輕度干旱和正常5個(gè)等級(jí),分別用數(shù)字4,3,2,1,0來(lái)表示(若對(duì)應(yīng)城市當(dāng)年未記錄發(fā)生旱災(zāi),則標(biāo)記為正常)。抽取的旱災(zāi)風(fēng)險(xiǎn)等級(jí)標(biāo)簽以月為粒度,當(dāng)旱災(zāi)災(zāi)情記錄文本中以季節(jié)來(lái)表述旱情情況時(shí),將季節(jié)轉(zhuǎn)換為對(duì)應(yīng)的月。以鄭州市為例,將1951~2011年的鄭州歷史旱災(zāi)發(fā)生情況以月為單位進(jìn)行標(biāo)簽抽取,從而得到732條標(biāo)簽數(shù)據(jù)。本研究在抽取過(guò)程中所用到的地名詞典以及干旱等級(jí)詞典分別如表3和表4所列。
表3 地名詞典Tab.3 Gazetteer
表4 干旱等級(jí)詞典Tab.4 Dictionary of drought levels
(2) 特征篩選。對(duì)于表1中所列的候選特征集,采用隨機(jī)森林算法計(jì)算各個(gè)特征的重要性,并按照重要度從大到小進(jìn)行排序,得到了重要度最高的前6個(gè)特征,如表5所列。
表5 重要度最高的前6個(gè)特征Tab.5 The top 6 most important features
將這6個(gè)特征作為構(gòu)建旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型的特征。基于篩選出的構(gòu)建旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型的特征,以及從歷史災(zāi)情記錄文本中抽取的標(biāo)簽,將表示同一城市同一時(shí)間的特征和標(biāo)簽進(jìn)行融合,從而構(gòu)成完整的旱災(zāi)訓(xùn)練數(shù)據(jù)集。
基于得到的旱災(zāi)訓(xùn)練數(shù)據(jù)集,采用支持向量機(jī)分類(lèi)算法構(gòu)建旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型,并對(duì)模型中的未知參數(shù)進(jìn)行訓(xùn)練。在該算例中,分別選擇線性核、多項(xiàng)式核、高斯核作為SVM分類(lèi)器的核函數(shù),采用10折交叉驗(yàn)證法對(duì)旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型進(jìn)行訓(xùn)練,在訓(xùn)練過(guò)程中對(duì)SVM分類(lèi)器的參數(shù)C和gamma進(jìn)行調(diào)參優(yōu)化。其中,C是懲罰系數(shù),即對(duì)誤差的寬容度,C越高,對(duì)誤差要求越嚴(yán)格,容易出現(xiàn)過(guò)擬合;C越小,越容易出現(xiàn)欠擬合。gamma決定了數(shù)據(jù)映射到新的特征空間后的分布,gamma越大,則用于分類(lèi)的支持向量越少;gamma值越小,則用于分類(lèi)的支持向量越多。在訓(xùn)練過(guò)程中,不斷地對(duì)參數(shù)C和gamma進(jìn)行調(diào)參優(yōu)化,最終得出核函數(shù)選取線性核且C=0.9時(shí),SVM分類(lèi)器在訓(xùn)練數(shù)據(jù)集上的效果最好,即可得到所需的旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型。
為了對(duì)未來(lái)的旱災(zāi)風(fēng)險(xiǎn)等級(jí)進(jìn)行預(yù)測(cè),對(duì)于每一個(gè)用于構(gòu)建旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型的特征,如降水量、氣溫、水汽壓等。首先,采用LSTM來(lái)預(yù)測(cè)該特征在未來(lái)m個(gè)時(shí)刻的特征值。在該算例中,基于LSTM模型,用前11個(gè)月的特征值來(lái)預(yù)測(cè)第12個(gè)月的特征值。例如,根據(jù)鄭州市前11個(gè)月的氣溫,預(yù)測(cè)第12個(gè)月的氣溫,并在下一步將得到的第12個(gè)月的特征值加載訓(xùn)練好的旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型中,從而對(duì)未來(lái)1個(gè)月的旱災(zāi)風(fēng)險(xiǎn)等級(jí)進(jìn)行評(píng)估。
為了驗(yàn)證LSTM在未來(lái)特征值預(yù)測(cè)上的效果,選用1951~2000年共50 a鄭州市的各個(gè)特征值的逐月數(shù)據(jù),來(lái)構(gòu)建LSTM模型,并對(duì)2001~2013年的每個(gè)月的特征值進(jìn)行預(yù)測(cè),預(yù)測(cè)曲線如圖6所示。
圖6 6種特征預(yù)測(cè)曲線Fig.6 Six characteristic prediction curves
為了判斷預(yù)測(cè)結(jié)果優(yōu)劣,選取平均絕對(duì)誤差(MAE)和決定系數(shù)(R2)作為評(píng)價(jià)指標(biāo)。表6是對(duì)特征預(yù)測(cè)的評(píng)價(jià),其中,平均絕對(duì)誤差表示預(yù)測(cè)誤差,數(shù)值越小表示預(yù)測(cè)精度越高;決定系數(shù)表示擬合優(yōu)度,數(shù)值在0~1區(qū)間,數(shù)值越接近于1表示擬合越好。
(9)
(10)
通過(guò)圖6的特征預(yù)測(cè)曲線以及表6中列出的特征預(yù)測(cè)指標(biāo)評(píng)價(jià)結(jié)果可以看出:對(duì)于選取的構(gòu)建旱災(zāi)風(fēng)險(xiǎn)評(píng)估模型的6個(gè)特征,基于LSTM的特征值預(yù)測(cè)結(jié)果與真實(shí)值較為接近。在誤差方面,平均絕對(duì)誤差數(shù)值相對(duì)較??;在擬合優(yōu)度方面,預(yù)測(cè)特征中有一半特征決定系數(shù)在0.90以上。因此,采用LSTM網(wǎng)絡(luò)模型對(duì)各個(gè)特征的未來(lái)值進(jìn)行預(yù)測(cè)是可行的。
表6 特征預(yù)測(cè)指標(biāo)評(píng)估Tab.6 Evaluation of feature prediction indicators
通過(guò)LSTM預(yù)測(cè)得到了每個(gè)月的特征值,再將其加載到旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型中,即可對(duì)每個(gè)月的旱災(zāi)風(fēng)險(xiǎn)等級(jí)進(jìn)行評(píng)估。對(duì)于旱災(zāi)研究,在災(zāi)情記錄文本中多以季節(jié)為單位來(lái)記錄旱災(zāi)的發(fā)生情況。因此,將以月為單位記錄的旱災(zāi)風(fēng)險(xiǎn)等級(jí)合并為以季節(jié)為單位的旱災(zāi)風(fēng)險(xiǎn)等級(jí),并以當(dāng)季最高的旱災(zāi)風(fēng)險(xiǎn)等級(jí)作為本季的旱災(zāi)風(fēng)險(xiǎn)等級(jí)。表7給出了對(duì)2018年冬到2020年秋的旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估結(jié)果。
表7 旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估結(jié)果Tab.7 Forecast results of drought risk levels
通過(guò)表7可以得出:在評(píng)估2 a的情況下,預(yù)測(cè)準(zhǔn)確率為75%,證明本研究對(duì)于旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估具有一定效果。另外,若將預(yù)測(cè)結(jié)果分為兩類(lèi)(正常與干旱)時(shí),準(zhǔn)確率會(huì)進(jìn)一步提升到87.5%。結(jié)果顯示:鄭州市在2019年和2020年春季干旱較為嚴(yán)重,將預(yù)測(cè)的結(jié)果與歷史資料中記載的真實(shí)結(jié)果進(jìn)行比較,發(fā)現(xiàn)旱災(zāi)風(fēng)險(xiǎn)等級(jí)預(yù)測(cè)結(jié)果基本符合歷史實(shí)際情況。另外,對(duì)2020年夏季預(yù)測(cè)結(jié)果進(jìn)行誤差分析,推測(cè)可能由于降水量預(yù)測(cè)小于實(shí)際值,且日照時(shí)長(zhǎng)大于實(shí)際值導(dǎo)致最終誤差。
本文基于歷史旱情文本數(shù)據(jù)和氣象數(shù)據(jù),提出了一種新的旱災(zāi)評(píng)估思路,建立了數(shù)據(jù)驅(qū)動(dòng)的多源多模態(tài)旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型。通過(guò)對(duì)未來(lái)一段時(shí)間內(nèi)可能發(fā)生的旱災(zāi)風(fēng)險(xiǎn)等級(jí)進(jìn)行評(píng)估,可以得到如下結(jié)論。
(1) 氣象數(shù)據(jù)可與文本災(zāi)情數(shù)據(jù)相結(jié)合,用于旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估;
(2) 結(jié)合多種機(jī)器學(xué)習(xí)算法的優(yōu)勢(shì),構(gòu)建了旱災(zāi)風(fēng)險(xiǎn)等級(jí)評(píng)估模型,證明了大數(shù)據(jù)分析方法可用于研究旱災(zāi)問(wèn)題;
(3) 算例評(píng)估結(jié)果顯示,研究區(qū)春季干旱較為嚴(yán)重,基本符合實(shí)際情況。
此外,在初始選取評(píng)估特征時(shí),考慮了氣象、水文、墑情等多方面因素。但由于數(shù)據(jù)較難獲取,僅基于氣象特征來(lái)構(gòu)建模型,可能由于風(fēng)險(xiǎn)因素不夠全面,影響評(píng)估結(jié)果的準(zhǔn)確性。隨著旱災(zāi)風(fēng)險(xiǎn)因素的相關(guān)數(shù)據(jù)獲取難度降低,采用此方法將得到更為準(zhǔn)確的評(píng)估結(jié)果。