楊寅 包紅軍* 徐成鵬
(1國家氣象中心,北京 100081; 2中國氣象局-河海大學水文氣象研究聯(lián)合實驗室,北京 100081)
*通信作者, Email:baohongjun@cma.gov.cn
我國是全球地質災害最嚴重國家之一,滑坡、崩塌、泥石流分布范圍占國土面積44.8%。根據(jù)自然資源部數(shù)據(jù),2019年全國共發(fā)生地質災害6181起,造成211人死亡,13人失蹤,75人受傷,直接經濟損失27.7億元。大量研究證明降水是引發(fā)地質災害的主要因素[1-3],全國縣(市)地質災害調查也指出降水是所有泥石流,90%滑坡和81%崩塌的誘發(fā)因素[4]。國土資源部和中國氣象局2003年起聯(lián)合開展氣象因素(主要為降水)引發(fā)地質災害的氣象風險預警預報,對外正式發(fā)布國家級地質災害氣象風險預警,其中氣象部門的業(yè)務承擔單位為中央氣象臺[5]。隨著業(yè)務持續(xù)開展,中央氣象臺積累了豐富的預警經驗,借鑒降水強度-時間曲線[6]、降水驅動指標[7]等研究成果,結合國內實際研發(fā)了基于臨界雨量的第一代地質災害氣象預警客觀模型[8](簡稱客觀模型Ⅰ)和融合臨界雨量與地質災害易發(fā)性信息量的第二代模型(簡稱客觀模型Ⅱ)[9]。此外,還有不少學者研究提出多種預警客觀模型[10-12],為地質災害氣象風險預警提供了技術支持。
地質災害氣象風險預警效果和各種客觀模型性能需要及時檢驗評估以反饋業(yè)務開展和改進客觀模型。預警定量檢驗是一個對比實況災情信息和預警產品,輸出數(shù)值檢驗結果的過程,目前主要困難是災情信息及時獲取。地質災害災情信息的兩個主要獲取途徑是遙感數(shù)據(jù)和災情報告,如文廣超等學者研究利用高分辨率的衛(wèi)星或無人機遙感數(shù)據(jù)開展災情信息提取[13-15],但由于數(shù)據(jù)獲取費用高、衛(wèi)星重訪周期長、無人機覆蓋范圍小、遙感地質解譯科學發(fā)展慢等因素影響,這些技術多在小區(qū)域內試驗,無法在面向全國的地質災害氣象風險預警業(yè)務中運用。實際業(yè)務中,災情信息通常來源于中國氣象局災害管理系統(tǒng)中民政、國土等部門共享或氣象信息員匯報的災害報告,報告內容以中文自然語言為主,文本表達格式靈活,需要人工分析地質災害發(fā)生時間、類型等信息[16,17],在美國的山洪地質災害預警效果評估工具中,災情信息獲取也依賴于人工分析[18]。由于地質災害氣象風險預警檢驗需要獲得災情信息后才能開展,現(xiàn)有檢驗工具需要與人工分析結合使用,預警檢驗集成化程度不高,尚未完全實現(xiàn)客觀化。此外,由于人工效率不高,同時全國范圍氣象災害報告數(shù)量多,地質災害信息無法實時獲取,導致工具也缺乏實時檢驗能力。
隨著計算機科學發(fā)展,近年來自然語言處理技術有很大發(fā)展,出現(xiàn)了Jieba、SnowNLP等多種自然語言處理軟件,實現(xiàn)了很多成功的中文文本數(shù)據(jù)處理案例[19-22],這為利用計算機程序替代人工分析,實現(xiàn)地質災害災情信息分析客觀化,快速收集提取災害發(fā)生時間、地點、損失等多元災情信息提供了技術基礎。
在統(tǒng)計中國氣象局災害管理系統(tǒng)2015—2019年全國地質災害災情信息特征的基礎上,基于中文自然語言處理軟件研發(fā)了地質災害多元災情信息智能分析技術,建立了具備實時性和集成化優(yōu)勢的地質災害氣象風險預警實時檢驗客觀工具,能為預警業(yè)務開展和客觀模型改進提供信息反饋。
在國家級地質災害氣象風險預警業(yè)務中,中央氣象臺收集災情信息的主要渠道是中國氣象局災害管理系統(tǒng),系統(tǒng)中災情報告由各基層氣象局以縣級行政區(qū)為基本單位,通過民政和自然資源部門信息共享、氣象信息員匯報等途徑獲取數(shù)據(jù)后上傳,包含災害所屬縣行政區(qū)編碼、災害類型、災害開始時間與結束時間、災情概況、雨情概況、人員和財產損失等要素,其中災情與雨情概況為一段或若干段中文文本,災害類型為內容和種類確定的詞語,其余要素均為格式固定的數(shù)字。
理想情況下,根據(jù)災害時間、地點、類型、損失要素可以全面描述地質災害事件。分析2015—2019年全國地質災害災情報告發(fā)現(xiàn),災害發(fā)生縣的行政區(qū)編碼要素項準確可靠,但存在著人員傷亡和財產損失要素項數(shù)據(jù)缺失,災害開始和結束時間跨度超過國家級地質災害氣象風險預警時效,以及地質災害事件與臺風、強對流等明顯降水過程及其誘發(fā)的更為嚴重的漬澇、潰壩、中小河流洪水等次生災害同時發(fā)生時,由于災害類型要素為單一值,業(yè)務人員優(yōu)先選擇更為嚴重的災害填報的情況。災情報告中的災害時間、類型、損失要素可能無法提供多方位的有效信息,但災情和雨情概況的中文文本往往包含著描述地質災害類型、時間、地點、人員傷亡和財產損失的內容,災情信息更豐富全面。
災情和雨情概況由全國各基層氣象局上報,對地質災害事件及影響的文字描述格式往往不統(tǒng)一,具有很強的主觀靈活性,收集多元災情信息時需要人工分析,工作效率低,同時為保證全面收集地質災害災情,需要對所有氣象災害報告開展分析,工作量大。圖1是中國氣象局災害管理系統(tǒng)2015—2019年氣象災害和地質災害報告總數(shù)對比,由圖可見,氣象災害報告數(shù)量在4600~6000條之間浮動,年平均值約5400縣次,災害總數(shù)大,其中地質災害整體約占氣象災害數(shù)量的12%,年平均值約670縣次。以國家級地質災害氣象風險預警年度檢驗為例,人工分析全國氣象災害報告提取地質災害災情信息的平均花費時間超過3個工作日,這無法根據(jù)檢驗需求實時獲得災情信息分析結果并開展地質災害氣象風險預警效果定量檢驗。
圖1 2015—2019年中國氣象局災害管理系統(tǒng)中 氣象災害和地質災害數(shù)量對比
分析地質災害報告中災情和雨情概況的中文文本,發(fā)現(xiàn)語句格式雖然不統(tǒng)一,但對災害事件描述總體可分為2種類型,第1種具有“具體時間+災害事件”的信息特征,如某月某日某時某地發(fā)生滑坡,第2種具有“時間段+災害事件”的特征,其中時間段的文字描述通常以上午、下午等詞語,或者使用到、至、破折線、破浪線等文字或符號將兩個時間連接而成,如某日某時至(或到)某日某時,或某日某時~某日下午明顯降雨,某地發(fā)生泥石流的描述性語句。對于人員傷亡和財產損失情況,絕大多數(shù)災情概況具有“死亡X人”、“X人死亡”、“X人重傷”、“受傷X人”等固定文本格式的信息特征。如果利用計算機替代人工分析災情報告信息特征,能更客觀高效地處理收集地質災害的災情信息。
地質災害多元災情信息智能分析技術是指對中文文本內容進行自然語言處理,利用災情和雨情概況中災害時間和損失內容的信息特征,智能分析提取地質災害發(fā)生時間、人員傷亡和財產損失等多元災情信息。目前常用的中文分詞工具有Jieba、SnowNLP、PKUSeg、Thulac、HanLP、pyhanlp等,其中Jieba以其開源、詞典可自定義等優(yōu)點而使用廣泛,可參考借鑒成功案例數(shù)量多,研究選用Jieba處理災情報告。
Jieba軟件包利用中文詞庫確定漢字之間的關聯(lián)概率,將概率大的漢字組成詞組,具有精確模式、全模式、搜索引擎模式和Paddle模式選項,適用于不同用途。本研究目的是提取文本中地質災害多元災情信息,屬于文本分析,因此選用精確模式。
災情數(shù)據(jù)分析發(fā)現(xiàn),由于災情報告由基層氣象局上報,各地業(yè)務人員的慣用詞語和語句組織方式多樣,災情概況中存在著多種描述地質災害的詞語。圖2是利用Jieba分詞軟件包對2015—2019年地質災害災情報告開展詞頻分析得到的災害類型關鍵詞分布。由圖可見,對以降水為主要誘發(fā)因素的崩塌、滑坡、泥石流3種地質災害,災情報告對同一類型災害存在著意義相近的不同名稱,如塌方、坍塌、垮塌均表示崩塌,溜方的語義等同于滑坡,為完整提取多元災情信息,研究將以上描述地質災害的關鍵詞加入Jieba分詞軟件包自定義詞典。
圖2 地質災害類型關鍵詞詞頻分布
此外,根據(jù)災情報告文本內容的信息特征分析結果,研究也將上午、下午、8時、8點、截至、至、到、連接符“—”和“~”等參與構成災害事件信息特征的字和詞語加入Jieba自定義詞典,以提高軟件包正確分割語句的能力。
根據(jù)地質災害類型關鍵詞和災情報告信息特征分析結果,結合Jieba中文分詞軟件包,研究嘗試對中國氣象局災害管理系統(tǒng)的災情報告進行計算機客觀分析,收集地質災害的多元災情信息。
圖3 地質災害多元災情信息智能分析流程圖
圖3是地質災害多元災情信息智能分析處理流程:①按照中文文本的行文習慣,以句號和回車分行符為標志,使用PYTHON計算機語言將災情和雨情概況分割為若干個完整語句,之后利用jieba將語句拆分為詞語組合。②對比拆分后的詞語是否含有滑坡、塌方、泥石流等地質災害類型關鍵詞。③關鍵詞對比匹配條件下,開展地質災害信息特征智能分析,對于地質災害發(fā)生時間,考慮到地質災害屬于突變性現(xiàn)象,首先搜索災情概況是否包含災害發(fā)生具體時間,其次分析災情概況中災害發(fā)生時間段,最后基于明顯降水誘發(fā)地質災害時間滯后性一般不明顯的規(guī)律,提取雨情概況中最明顯降水時段作為災害發(fā)生時間;對于災害損失,按照人員傷亡和財產損失的文本信息特征搜索災情概況;考慮到目前國家級地質災害氣象風險預警時效為24 h,即預警發(fā)布日20:00至次日20:00,檢驗工具采用20:00為截斷時間劃分災害日期,對于災害發(fā)生時段包含20:00的情況,以災害發(fā)生時間與截斷時間,以及截斷時間與災害結束時間二者中時段較長者為災害發(fā)生時段,如果災害開始和結束時間跨度超過24 h,大于目前地質災害氣象風險預警的時效長度,采用文獻[18]的方法質量控制。④遍歷分析災情和雨情概況要素項的完整語句,選擇最精確的時間點或持續(xù)最短的時間段為災害發(fā)生時間。
地質災害氣象風險預警實時檢驗客觀工具是一個可獨立運行的平臺,包含多元災情信息智能分析,預警定量檢驗和檢驗產品自動化輸出3個功能模塊,能夠完成適用于業(yè)務的實況信息獲取、實況和預報對比、檢驗結果輸出的預警檢驗全部流程,具有高度客觀化和集成化的特點??紤]到業(yè)務有檢驗固定時段預警效果的實際需求,檢驗工具能夠自動開展多尺度(日,周,月等)的預警評估,此外平臺還具有交互功能,允許用戶針對具體地質災害過程自定義輸入開始和結束時間進行預警檢驗。
本模塊基于地質災害多元災情信息智能分析技術,利用Python和JAVA語言開發(fā)應用程序,根據(jù)用戶指定的檢驗時間段從中國氣象局災害管理系統(tǒng)數(shù)據(jù)庫查詢、下載災情報告,開展智能分析,提取地質災害發(fā)生時間、地點、人員和財產損失等多元災情信息。
本模塊功能是對國家級地質災害氣象風險預警主觀和客觀產品開展定量檢驗。中國氣象局2016年10月發(fā)布《暴雨誘發(fā)地質災害氣象風險預警業(yè)務規(guī)范》(以下簡稱《規(guī)范》),規(guī)定了地質災害氣象風險預警產品業(yè)務檢驗方法。檢驗工具采用《規(guī)范》確定的業(yè)務方法檢驗預警產品,并考慮到氣象行業(yè)通常使用TS評分開展預報檢驗的實際情況,提供了地質災害氣象風險預警TS評分?!兑?guī)范》規(guī)定,地質災害氣象風險預警產品的檢驗對象分為單點和縣級區(qū)域兩種,其中單點指出現(xiàn)地質災害的地點,縣級區(qū)域指發(fā)生地質災害的縣行政區(qū),當某縣行政區(qū)范圍內出現(xiàn)一起及以上地質災害時,認為該縣發(fā)生地質災害;否則認為未發(fā)生地質災害。檢驗指標包括預報命中率TSR、空報率FAR和漏報率PO,計算公式如下:
(1)
(2)
(3)
其中,NA為預警服務產品發(fā)布正確次數(shù),NB為空報次數(shù),NC為漏報次數(shù)、ND為無預警服務產品預報正確次數(shù)。
TS評分計算公式如下所示,其中NA,NB,NC參數(shù)意義與業(yè)務檢驗方法相同。
(4)
受中國氣象局災害管理系統(tǒng)中地質災害發(fā)生地點只能精確到縣行政區(qū)的約束,重點研發(fā)了以縣行政區(qū)為檢驗對象的國家級地質災害氣象風險預警定量檢驗功能,使用縣行政區(qū)內國家基本氣象站點代表所屬的縣,針對目前地質災害氣象風險預警業(yè)務主觀產品和預警模型客觀產品的落區(qū)、格點和站點3種格式設計了不同檢驗策略,對于落區(qū)預報,對比災害發(fā)生縣是否在落區(qū)范圍內以確定預警命中、空報和漏報;對于格點預報,則通過判斷一定半徑范圍內的格點是否覆蓋災害發(fā)生縣;對于站點預報,對比災害發(fā)生縣與預警縣是否重合。
本模塊功能是對地質災害氣象風險預警定量檢驗數(shù)字結果進行可視化輸出,提高檢驗結果被理解和解讀的效果。研究利用GRADS軟件繪制預警產品落區(qū)和地質災害發(fā)生縣的相對位置,展示預警命中、空報和漏報的災害數(shù)量,以及業(yè)務檢驗方法TSR、PO和FAR指標及TS評分定量檢驗結果。
地質災害氣象風險預警實時檢驗客觀工具已經應用于中央氣象臺地質災害氣象風險預警業(yè)務,2015—2019年國家級地質災害氣象風險預警檢驗表明,該工具能夠實時完成多元災情信息智能分析、以業(yè)務檢驗方法為主檢驗主觀和客觀預警,檢驗產品自動化輸出的全部流程,具有實時檢驗的能力,如完成年度地質災害多元災情信息分析和預警定量檢驗不超過0.5 h,而依賴于人工分析災情的同類檢驗工具耗時超過3個工作日,效率有明顯提升,同時,災情信息分析正確率達到97%,能為預警效果分析與客觀模型改進提供信息參考。
展示預警檢驗工具應用個例,2016年9月28日,第17號臺風“鲇魚”強降水在浙江、福建兩省多個縣誘發(fā)地質災害,自然資源部和中國氣象局于9月27日20:00聯(lián)合發(fā)布地質災害氣象風險橙色預警。圖4是預警定量檢驗結果圖形產品,由圖可見,地質災害氣象風險預警命中8個縣,漏報1個縣,空報43個,無預警也無災害縣2465個,業(yè)務檢驗方法TSR、PO和FAR分別為98%、11%和84%,TS評分為0.15。
表1是檢驗工具分別對主觀和客觀共3種預警產品的定量檢驗結果,可以看到,在業(yè)務檢驗方法3個指標中,預報員制作的國家級地質災害氣象風險預警主觀產品具有最高的命中率TSR,以及最低的漏報率PO和空報率FAR,預警效果最優(yōu)??陀^模型Ⅰ的PO與主觀產品相同,但FAR更高,表現(xiàn)出模型以較高空報為代價降低漏報的特征,客觀模型Ⅱ的FAR與主觀產品接近,但PO偏大,說明模型存在增加漏報以控制空報的策略,預警業(yè)務中需要注意不同模型的策略差異。主觀預警產品的TS評分最高,說明了預報員對客觀模型的訂正作用。
表1 3種地質災害氣象風險預警產品定量檢驗結果對比
中國氣象局災害管理系統(tǒng)中地質災害災情報告內容具有多種組織結構,災害信息獲取依賴于人工分析,導致現(xiàn)有地質災害氣象風險預警檢驗工具實時性和客觀化能力不足。在災情報告分析中發(fā)現(xiàn)其具有滑坡、溜方、塌方、垮塌等多種描述地質災害的關鍵詞,以及災害內容按照“具體時間+災害事件”或“時間段+災害事件”組織的信息特征,本研究中結合了災情信息特征與中文自然語言處理軟件包jieba研發(fā)了地質災害多元災情信息智能分析技術,建立了地質災害氣象風險預警實時檢驗客觀工具。檢驗工具是一個由多元災害信息智能分析,以業(yè)務檢驗方法為主檢驗主觀和客觀預警,檢驗結果產品自動化輸出等功能模塊組成的可交互平臺,能夠集成完成預警檢驗全部流程。
2015—2019年國家級地質災害氣象風險預警業(yè)務檢驗表明,實時檢驗客觀工具提取災情準確率達到97%,完成多元災情信息分析和預警檢驗的效率比依賴于人工分析災情的同類檢驗工具有明顯提升,具有實時性和集成化的優(yōu)勢,能更好地為預警業(yè)務開展和客觀模型改進提供信息反饋。
檢驗工具分析多元災情信息正確率尚未達到100%的原因是災情報告存在一定數(shù)量的錯字或不常見文字表述,如“1日08時—20時”中,08時與20時的連接符號按照中文習慣為破折號,而災情報告中實際是漢字“一”,或者日字被錯誤拼寫為曰。未來將分析更多災情報告,增強檢驗工具容錯能力,提高災情信息分析準確率。此外,現(xiàn)行地質災害業(yè)務檢驗方法存在TSR指標受ND參數(shù)影響大和檢驗指標數(shù)量多的缺點,后期將研究更適用于地質災害氣象風險預警的檢驗方法。