單 浠,朱天心,葉佳欣,王燚瀟,孫佩茹,陳雪東
(湖州師范學院 理學院,浙江 湖州 313000)
暴雨是指24 h內(nèi)產(chǎn)生較強降雨的天氣現(xiàn)象.氣象規(guī)定日降雨量在50~100 mm之間為暴雨;日降雨量在100~250 mm之間為大暴雨;日降雨量在250 mm以上為特大暴雨.中國是典型的多暴雨國家,受季風、地形等影響,加之森林被破壞、圍湖造田等因素導致暴雨加劇,給農(nóng)業(yè)、服務業(yè)、交通運輸業(yè)等帶來不貲之損,也給國民經(jīng)濟和人民財產(chǎn)造成不可估量的損失.
目前關于暴雨災害的研究已有很多.杜志強等[1]根據(jù)時序分析模型,由歷史降水數(shù)據(jù)和實時降水數(shù)據(jù)分析識別異常降水,實現(xiàn)了暴雨型洪澇災害預警;于琛等[2]根據(jù)降水—流量關系模型分析暴雨災害危險性空間變化,并對暴雨災害的危險程度進行量化分析及預警;連治華等[3]設計了一種新的降水準確度計算方法,并將其作為暴雨災害發(fā)生的依據(jù)之一;王嵐等[4]利用平臺集約化信息判斷風險形勢,研究提前暴雨災害預警.暴雨災害預警和風險評估等研究層出不窮,粗糙集理論和方法也是一種可行的研究方法,但它在暴雨災害方面的應用研究還處于起步階段.
粗糙集理論是一種分析和處理具有不確定性、不精確性和不完善特征的信息系統(tǒng)的新興數(shù)學工具.面對龐大而復雜的知識庫,它能基于嚴密的數(shù)學知識,將其中無關的隱藏信息、知識挖掘出來進行屬性約簡,得到簡潔美觀的知識庫[5].粗糙集的主要思想是在維持知識系統(tǒng)分類能力不變的情況下經(jīng)過知識約簡刪減部分冗余屬性,導出問題的決策和分類準則.粗糙集作為一種較新的軟件計算方法,是當前國際上人工智能理論及應用領域中的研究熱點,但它與不同領域的應用結合還需要更多的探索與嘗試.本文基于粗糙集理論,分析上海奉賢區(qū)降水、氣溫、氣壓等數(shù)據(jù),從而建立完備且簡約的知識庫,便于后期對災害進行檢索和預測,為相關部門提前預測暴雨災害提供參考依據(jù).
知識是一種遵循事物特征并將其比物連類的能力.知識庫別名數(shù)據(jù)庫,是基于知識且具有智能性的系統(tǒng),也是數(shù)據(jù)的匯總歸納.一個知識庫S是一個系統(tǒng)(U,A),其中對象空間U和A均是有限非空集,U中的元素稱為對象,A中的元素稱為屬性.如果A=C|D,則系統(tǒng)YU、AY為一個決策表,其中C內(nèi)的屬性稱為條件屬性,D內(nèi)的屬性稱為決策屬性[6].
建立知識庫的一般步驟(圖1)為:
(1) 搜集大量的歷史數(shù)據(jù),建立原始數(shù)據(jù)庫;
(2) 對數(shù)據(jù)進行預處理,即補充缺失數(shù)據(jù)并加以分類,再在粗糙集理論下實行屬性約簡,創(chuàng)建新的知識庫;
(3) 進行檢索,若有相似案例則檢索成功,若沒有則將新數(shù)據(jù)補充到知識庫.
圖1 一般知識庫流程Fig.1 General knowledge base process
決策表中的不同條件屬性對決策屬性的作用程度是不同的,有些條件屬性的存在與否對整個知識系統(tǒng)的最后結果是無關緊要的,可以在保持知識庫分類能力不變的基礎上刪除不相關或不重要的屬性,這就是屬性約簡.
若Q?P,則Q中所有等價關系的交集稱為Q上的不可區(qū)分關系,記為IND(Q);若Q是獨立的,且IND(Q)=IND(P),則稱Q為P的一個約簡,P的所有約簡的交集稱為P的核,記作card(P).
(1) 計算各個等價關系的等價類,U/IND(C),U/IND(D)、U/IND(C-{ai});
(2) 計算條件屬性在決策屬性中的正域,POSC(D)和POSC-{ai}(D);
(3) 計算所有條件屬性的重要度,即rC(ai)|i=1,2,…,7|;
(4) 根據(jù)依賴度值判斷屬性的重要程度,若rC(ai)=0,則表示該屬性對決策屬性無法產(chǎn)生任何影響,可約去;若rC(ai)>0,則保留該條件屬性,錄入知識庫[7].
本文在搜集上海奉賢地區(qū)1959—2019年暴雨相關數(shù)據(jù)的基礎上建立原始數(shù)據(jù)庫,從而利用粗糙集及屬性約簡建立知識庫.具體步驟如下:
(1) 缺失值處理.運用SPSS查詢?nèi)笔?shù)據(jù)的個數(shù)和位置;對數(shù)據(jù)庫中缺失的數(shù)據(jù)進行填充,分別嘗試期望最大化(遺漏率不高于10%)、回規(guī)估計法、均值替代及多重填充技術(遺漏率大于10%)進行缺失數(shù)據(jù)填充.由于日降水量遺漏數(shù)為2 387個,遺漏率達10.8%,故只對日降水量的缺失數(shù)據(jù)采取多重填充技術進行補充完善,其余缺失數(shù)據(jù)采取鄰近7個點平均值的均值替代法進行補充.再用補充完整的數(shù)據(jù)表計算最高氣溫、最低氣溫、最高氣壓、最低氣壓、平均風速、平均濕度、日降水量,并將其保存在數(shù)據(jù)表中.變量遺漏情況見表1.
表1 變量遺漏情況
(2) 篩選數(shù)據(jù).在22 160個數(shù)據(jù)中全天降水量為0 mm的個數(shù)有12 160個,占比約為54.87%;降水量小于等于5 mm的個數(shù)有18 609個,占比約為83.98%.可見,降水量偏小的占比過多.該模型符合“零膨脹模型”,即觀察事件發(fā)生數(shù)中含有大量的0值.刪去部分無意義的數(shù)據(jù)后作密度函數(shù)分布圖(圖2).
圖2 年降水量和暴雨降水量密度函數(shù)分布圖Fig.2 Density function distribution of annual precipitation and rainstorm precipitation
從圖2可以看出,1959—2019年上海奉賢地區(qū)降水量絕大部分小于100 mm,但也會出現(xiàn)大于100 mm甚至200 mm以上的情況.從圖2(b)可以看出,出現(xiàn)暴雨現(xiàn)象時,大部分都是正常暴雨,降水量約為60 mm的占比最大;降水量大于100 mm的天數(shù)較少;特大暴雨極難出現(xiàn).
氣象底層數(shù)據(jù)一般都是連續(xù)數(shù)據(jù),但基于粗糙集進行數(shù)據(jù)處理時必須用離散化數(shù)據(jù),因為只有有效而精確地將連續(xù)數(shù)據(jù)離散化,才能進行約簡和CBR檢索.采用不同的離散化方法其結果截然不同,這更加說明選擇恰當離散化方法的重要性.此次數(shù)據(jù)離散化分類主要采取3種方法:K-means聚類、密度函數(shù)分布、地理規(guī)定等級劃分.再將得出的分類結果進行檢驗,采取dependency最高值的分類方法,即決策屬性對條件屬性的依賴度越高,說明此分類方法越有用.3種離散化方法擇優(yōu)選取.
2.2.1 K-means聚類
運用Matlab計算依賴度繪制聚類質(zhì)心圖和聚類分支圖(圖3、圖4).聚類質(zhì)心圖表示通過Matlab得到聚類中的一次迭代過程,其中兩個叉號分別代表兩個簇最終不會發(fā)生變化的質(zhì)心,星形標示號分布較集中,極小一部分嚴重偏離質(zhì)心,結果易受初始質(zhì)心個數(shù)及離群值的影響[8].Matlab可根據(jù)最小距離將數(shù)據(jù)離散成“0”“1”兩大類,從圖4可知,將樣本集分成{E1,E2,E3,E4,E8,E9,E10}和{E5,E6,E7}兩大類,輸出結果為{0,0,0,0,1,1,1,0,0,0},最終運行代碼結果為dependency=0.600 3,說明此聚類方法使輸出結果對各個屬性的依賴度較低,離預期值較遠(設定預期值為0.8),也詮釋本次數(shù)據(jù)離散化有所偏差,仍需繼續(xù)修正.其修正可以通過變更隨機選擇的樣本個數(shù)或迭代次數(shù)來提高K-means聚類方法的依賴度[9].
2.2.2 密度函數(shù)分布法
條件屬性:平均氣溫、氣壓、風速、濕度、降水量.
決策屬性:是否暴雨(0,1),根據(jù)各個密度函數(shù)將其劃分.
平均氣溫、平均氣壓的密度函數(shù)圖見圖5.平均風速、溫度和降水量的密度函數(shù)圖見圖6.
圖3 聚類質(zhì)心圖Fig.3 Cluster centroid diagram
圖4 分支圖Fig.4 Branch diagram
圖5 平均氣溫、平均氣壓的密度函數(shù)圖Fig.5 Density function of average temperature and pressure
圖6 平均風速、濕度和降水量的密度函數(shù)圖Fig.6 Function chart of average wind speed, humidity and precipitation density
相比K-means聚類而言,密度函數(shù)分類法更加多元化,更具主觀性,每個條件屬性的數(shù)據(jù)是依據(jù)其自身密度函數(shù)分布圖的起伏進行切割劃分的,可以分成2個區(qū)間、3個區(qū)間或更多區(qū)間,以此完成離散化.其運行代碼結構為dependency=0.880 3,達到預期值,說明輸出結果對屬性依賴度較高.此方法可將條件屬性數(shù)據(jù)的區(qū)間劃分得更加詳細,以進一步提高依賴度.平均氣溫、平均氣壓、平均風速、濕度和降水區(qū)間見表2.
表2 平均氣溫、平均氣壓、平均風速、濕度和降水區(qū)間
2.2.3 地理規(guī)定等級劃分
條件屬性:最高最低氣溫、最高最低氣壓、平均風速、平均濕度、降水量.
決策屬性:是否暴雨(0,1).
依據(jù)中國地理規(guī)定,氣象等級將最高最低氣溫分為7個區(qū)間;將最高最低氣壓分為8個區(qū)間;將風速分為8個區(qū)間;將全部濕度分為5個區(qū)間;按密度函數(shù)分布將降水量分為[0,5.4)和[5.4,197)兩個區(qū)間.最終代碼運行結果為dependency=0.932 8.輸出結果對屬性依賴度是3種分類方法中最高的,說明該分類方法具有較好的可靠性.本文采取此分類方法.地理等級劃分見表3.
表3 地理等級劃分
2.3.1條件屬性約簡
為使冗長而復雜的數(shù)據(jù)庫變得簡潔且易操作,需要對條件屬性進行約簡.從離散程度最好的數(shù)據(jù)中隨機抽取9個較典型的案例進行模擬實驗,并根據(jù)粗糙集理論依次計算條件屬性的重要度.決策表見表4,重要度見表5.
表4 決策表
表5 重要度
計算屬性a1的重要度:
(1) 各等價關系的等價類:
U/IND(D)={{E1,E2,E3,E4,E5},{E6,E7,E8,E9}};
U/IND(C)={E1,E2,E3,E4,E5,E6,E7,E8,E9};
U/IND(C-{a1})={{E4,E9},E1,E2,E3,E5,E6,E7,E8}.
(2) 計算條件屬性在決策屬性中的正域:
POSC(D)={E1,E2,E3,E4,E5,E6,E7,E8,E9};
POSC-{a1}(D)={E1,E2,E3,E5,E6,E7,E8}.
(3) 計算所有條件屬性的重要度:
其他屬性的重要度如表5所示.
由模擬實驗可知,屬性重要度的排列順序為{a7,a6,a1,a2,a3,a4,a5}.{a7,a6,a1,a2,a3}與決策屬性有著不可分割的關系,需要保留,并重點關注屬性a7的影響力.雖然屬性a4和a5的重要度都等于0,但并不代表這兩個屬性對暴雨的產(chǎn)生毫無影響,只是粗糙集注重的是此屬性在論域中對分類子集影響力的大小,屬性約簡可使決策表更加簡潔、更有價值.值得注意的是,采取數(shù)據(jù)庫中案例的不同或摘取的個數(shù)不同都會導致屬性重要度的變化,從而容易產(chǎn)生誤刪或少刪條件屬性,且多余屬性的存在容易干擾天氣預報和浪費存儲空間,因此屬性約簡仍需進一步完善[7].
2.3.2 知識庫的生成
由上述計算結果可知,屬性a4和a5的重要度都等于0,因此在決策表中可將最低氣壓和濕度舍去,保留5個條件屬性,分別是最高氣溫、最低氣溫、最高氣壓、風速、降水量.為避免知識庫的內(nèi)容過于冗雜,須刪去決策表中的重復記錄,即{E7,E8}只保留一個.此約簡后的決策表對原有數(shù)據(jù)系統(tǒng)的檢索不會產(chǎn)生任何負面影響.
從決策表中歸納出的較理想的知識庫具有以下4個特征:
(1) 確切性:每個知識真實可靠,都有確鑿數(shù)據(jù)作支撐.
(2) 純粹性:知識庫中每個知識的最終結果都有降雨,只是降雨量不同.
(3) 完備性:任意一個案例均能在知識庫中檢索到相匹配的知識.
(4) 互斥性:知識庫中的知識兩兩互相排斥,檢索時有且僅有一條知識與其匹配,對沒有匹配的則需添加新知識.
一般而言,以上4個特征難以同時滿足,之間往往相互沖突.因此,在保證每個知識大體上滿足純粹性和確切性的基礎上,可率先考慮完備性,最后考慮互斥性[10].
暴雨知識庫建立流程見圖7.
圖7 暴雨知識庫建立流程Fig.7 Stormwater knowledge base establishment process
由反復發(fā)生的暴雨極端事件表明,人類在暴雨災害面前極為脆弱.因此,設置及時的監(jiān)測預警,對有效預防和減輕暴雨災害造成的影響至關重要.本文搜集了上海奉賢區(qū)1959—2019年的氣象數(shù)據(jù),運用SPSS對缺失數(shù)據(jù)進行補充完善,使其對結果的影響達到最小;分析粗糙集在天氣預報中的作用和功能,對補充完善后的數(shù)據(jù)進行離散化處理,并運用粗糙集理論中的屬性約簡方法,針對離散后的數(shù)據(jù)資料,通過Matlab計算各個條件屬性的重要度,對決策表進行簡化;依據(jù)知識庫的4個特征,將知識填充到知識庫,使知識庫更加完備有效,為后期的檢索和預測提供方便.該方法可為國家提前預測暴雨氣候提供有益參考.