潘健+畢碩本++沈香++陸源++周浩
摘要:首先針對雷電強度空間定量分析不足的問題,利用R語言對江蘇省雷電強度進行聚類分析,得到江蘇省2007—2009年夏半年雷電強度的5個等級,結(jié)果發(fā)現(xiàn),占據(jù)雷電強度90%以上(31 kA以下)的1、2級組內(nèi)成員最多,而后3個等級則呈遞減趨勢。為了給實際雷電防護工程提供參考,對江蘇省各市的雷電強度空間變化范圍進行區(qū)劃,得出各市相應(yīng)的強度等級分區(qū)。其中,淮安市的雷電強度空間變化最突出,連云港市則是13個地級市中變化最不顯著的。最后探討了雷電強度等級與6種土地利用類型的關(guān)系,結(jié)果顯示,林地對于雷電強度等級的空間分布影響最大,其余5種地表類型在雷電強度為2級時關(guān)聯(lián)性最大,隨著雷電強度等級的增大,雷電強度等級的空間分布與這5種土地利用類型的關(guān)系逐漸減弱。
關(guān)鍵詞:雷電強度;等級;空間分布;江蘇省;R語言;聚類分析;土地利用類型
中圖分類號: S161.9;F323.211文獻標(biāo)志碼: A文章編號:1002-1302(2017)08-0219-05
雷電學(xué)作為氣象領(lǐng)域的重要分支,一直深受國內(nèi)外專家學(xué)者的廣泛關(guān)注。江蘇省每年因雷電所引發(fā)的直接和間接的經(jīng)濟損失達數(shù)億元,群眾的生命財產(chǎn)也受到嚴(yán)重威脅。如何通過科學(xué)合理的防護技術(shù)手段將這類損失降到最低,是防雷工作者所急需解決的問題。雷電具有隨機性、局域性、分散性、突發(fā)性、瞬時性及三維性這些鮮明的特點[1]?,F(xiàn)階段,隨著數(shù)據(jù)的多元化,在通過人工觀測、地基和空基等渠道所獲得的大量資料支持下,對于雷電數(shù)據(jù)的分析越來越深入。Reap等使用線性逐步回歸法和模式輸出統(tǒng)計法(MOS)分析閃電資料與套網(wǎng)模式(NGM)預(yù)報結(jié)果[2-3],提出其所研究的區(qū)域阿拉斯加地區(qū)形成雷暴的先決條件是:要求存在大范圍的層結(jié)不穩(wěn)定以及由局地風(fēng)場和濕度提供的輻合[4]。馮桂力等利用1998—2000年山東地區(qū)雷電探測網(wǎng)獲取的云對地閃電資料,研究山東地區(qū)閃電時空分布特征,指出閃電分布與地形和下墊面性質(zhì)有關(guān)[5];李霞等利用蘇州地區(qū)2002—2004年閃電定位系統(tǒng)監(jiān)測資料,分析該地區(qū)地閃的月變化、日變化以及強度、閃電密度等特征[6];馮民學(xué)等通過對雷暴日數(shù)據(jù)和地閃數(shù)據(jù)的分析,研究了近43年江蘇省的雷電分布特征,得出了江蘇省雷電分布的總趨勢并指出江蘇省雷電的多發(fā)區(qū)分布特征[7];李政在對重慶地區(qū)雷電下墊面狀況的研究中分析了重慶市雷電分布的時空規(guī)律和雷電分布對應(yīng)下墊面狀況,但主要分析了雷電發(fā)生頻次與下墊面的關(guān)系,缺乏對于雷電強度和陡度的系統(tǒng)分析[8];趙偉等利用浙江省電力和氣象部門的相關(guān)數(shù)據(jù),研究了浙江省雷電的時空分布特征及影響因素,同時得出地閃高密度區(qū)的分布,與氣候、地形、地貌、地面大型水體和城市熱島效應(yīng)具有密切的關(guān)系[9];宋曉爽等利用LS800閃電定位系統(tǒng)觀測地閃的2009—2011年資料對上海及周邊地區(qū)(120.0°~122.5°E、30°~32°N)的地閃活動特征進行了研究并對上海及其周邊地區(qū)雷電的海陸分布差異進行了探討[10]。氣象數(shù)據(jù)和地理數(shù)據(jù)都有著數(shù)據(jù)量大、維度高的結(jié)構(gòu)特點,這使得兩者毫無爭議躋身大數(shù)據(jù)的潮流之中。在無先驗知識的情況下,數(shù)據(jù)挖掘技術(shù)中的聚類分析方法是用于研究這類數(shù)據(jù)的有效手段[11]。自聚類算法提出至今,國內(nèi)外學(xué)者結(jié)合各自領(lǐng)域的研究需要提出或改進了多種聚類算法,如K-means、OPTICS、DBSCAN、CURE、CLIQUE、DENCLUE等聚類算法[12-18]。聚類分析可以根據(jù)樣本相似度對數(shù)據(jù)進行分組,從而發(fā)現(xiàn)對象空間的分布特征[19]。本研究采用的K-means算法是硬聚類算法,是典型的基于原型的目標(biāo)函數(shù)聚類方法的代表。R語言是目前世界上最流行的計算統(tǒng)計軟件之一,該語言具有強大的數(shù)學(xué)分析功能,是適用于各領(lǐng)域的高質(zhì)量軟件擴展包,具有出色的可視化效果及很好的兼容性,支持跨平臺運行[20]。本研究對江蘇省閃電定位系統(tǒng)數(shù)據(jù)進行降維分析,針對前人對于雷電強度定量分析研究的不足,在R語言環(huán)境下利用GIS功能,通過聚類算法對雷電強度進行等級分類,并對分類結(jié)果進行空間分布分析。本研究同時結(jié)合前人研究經(jīng)驗,考慮到下墊面因素對雷電強度的可能影響,對雷電強度與土地利用類型進行關(guān)系分析。
1資料與數(shù)據(jù)處理
江蘇省架設(shè)的ADTD雷電探測儀可提供閃電發(fā)生的經(jīng)度、緯度、時間、強度、極性等資料,本研究采用該設(shè)備2007—2009年的地閃資料,根據(jù)雷電發(fā)生的顯著季節(jié)差異,將雷電高發(fā)的4—9月定義為夏半年,而同年中的1—3、10—12月則為受雷電影響極小的冬半年。因為對應(yīng)年份的地閃時空特征[21]已經(jīng)作出了詳細的探討,本試驗則側(cè)重結(jié)合數(shù)據(jù)挖掘的算法在更為高效的架構(gòu)下深化對應(yīng)年份夏半年雷電強度的定量研究,并對其與相關(guān)下墊面因素的關(guān)系進行了探索。
1.1雷電數(shù)據(jù)分析及預(yù)處理
當(dāng)前對于雷電定位的方式多為2站混合、3站混合、4站算法、磁向和時差聯(lián)合法。表1是雷電數(shù)據(jù)的原始記錄形式,由于本試驗研究的屬性主要是緯度、經(jīng)度、強度和監(jiān)測的時間等,其余的屬性諸如定位方式、誤差(雷電電磁波沿復(fù)雜地表傳播時,會引起閃電定位系統(tǒng)的定位誤差,進而影響閃電定位系統(tǒng)的定位精度。表對閃電定位精度的影響主要體現(xiàn)在兩個方面,其一,電磁波沿有限電導(dǎo)率起伏地表傳播會使高頻分量衰減;其二,電磁波傳播路徑的延長導(dǎo)致傳播時間的増加。)等不在本試驗重點考慮范圍。雷電強度的正負電荷對于損害程度和預(yù)防措施來說沒有區(qū)別,所以對于雷電的強度和陡度取絕對值,經(jīng)過這一系列的數(shù)據(jù)預(yù)處理后得到表2。為了從多變量的雷電數(shù)據(jù)中確定強度的重要程度,本試驗先采用降維方法中的因子分析法,通過因子分析法中的相關(guān)檢驗來判定強度對于雷電的重要程度。
2雷電強度等級的聚類分析
本試驗首先將不同強度的雷電進行聚類等級劃分,再依據(jù)不同雷電強度聚類等級進行空間分析。
2.1K-means聚類算法
K-means算法是基于距離劃分的硬聚類方法,也是適用范圍十分廣泛的數(shù)據(jù)挖掘算法之一。對于處理氣象類的海量級數(shù)據(jù)集,這個算法具有相對可伸縮和高效性的優(yōu)點。K-means算法的基本思想是:以空間中K個點為中心進行聚類,對最靠近它們的對象歸類。通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結(jié)果。
算法主要流程描述如下:(1)對于要聚類的數(shù)據(jù)集適當(dāng)選擇K個類作為初始中心;(2)通過適當(dāng)次數(shù)的迭代,對任意一個樣本,求其到n個中心的距離,將該樣本歸到距離最短的中心所在的類;(3)利用均值等方法更新該類的中心值;(4)對于所有的n個聚類中心,如果利用(2)、(3)的迭代法更新后,值保持不變,則迭代結(jié)束,否則繼續(xù)迭代。
2.2K-means的R語言實現(xiàn)
該方法是在RStudio框架下進行R語言的編譯運行。以2008年夏半年數(shù)據(jù)聚類過程為例,具體編譯運行過程如下:(1)數(shù)據(jù)調(diào)用及加載用于分析的軟件包(RODBC、stats、ggfortify)。本試驗根據(jù)聚類對象的數(shù)據(jù)特點選用基于距離的K-means聚類作為具體的聚類函數(shù)。利用R語言在RStudio框架下對雷電的夏半年數(shù)據(jù)進行K-means聚類。該函數(shù)在R中的基本格式為
Kmeans(x,centers,iter.max=10,nstart=1,algorithm=c(“Hartigan-Wong”,“Lloyd”,“For-gy”,“Macqueen”))。(2)
式中:X為進行聚類分析的數(shù)據(jù)集,本試驗即為處理好的雷電數(shù)據(jù)集;centers為預(yù)設(shè)類別數(shù)k;iter.max為迭代的最大值,且默認(rèn)值為10,本試驗根據(jù)數(shù)據(jù)的量級將迭代次數(shù)設(shè)為1 000;nstart為選擇隨機起始中心點的個數(shù),默認(rèn)值為1;而參數(shù)algorithm則提供4種算法選擇,上述4種算法由不同專家學(xué)者在不同時期圍繞算法的本質(zhì)提出。本試驗選用的“Hartugan-Wong”算法為Hartugan和Wong等2位科學(xué)家提出,該算法相較于另外3種算法的優(yōu)勢在于較高的運算效率。
(2)調(diào)節(jié)聚類優(yōu)度。對于K-means聚類算法的關(guān)鍵問題是類別數(shù)的確定,在R中對于類別參數(shù)center的取值也是決定聚類效果的一個重要指標(biāo)。本試驗通過討論預(yù)設(shè)置的類別數(shù)的組間平方和占總平方和的比值來確定最優(yōu)類別數(shù)。通過遍歷數(shù)據(jù)來確定類別數(shù),當(dāng)類別數(shù)小于5時,隨著類別數(shù)的增加,聚類效果越來越好,組間平方和占總平方和的比值快速提高,其值為89.0%,說明組內(nèi)差距小,組間差距很大;當(dāng)類別數(shù)超過5以后繼續(xù)增加時,聚類效果提高的非常緩慢。因為是約值,本試驗考慮到較小的類別數(shù)對于后續(xù)的分析更加方便有效,所以取K=5。
2008年夏半年總的樣本數(shù)為256 659,5個簇的中心強度值分別為18.216 09、30.552 05、46.637 54、74.920 79、139.792 07 kA,每個簇的組內(nèi)成員數(shù)量分別為96 661、99 197、46 142、12 617、2 042。因為是對于強度這個單一變量進行聚類,所以將結(jié)果處理為從弱到強的5級,這樣更方便后續(xù)的分析。
2.3聚類結(jié)果與分析
通過分別對2007、2008、2009年夏半年雷電強度的聚類,將對應(yīng)的聚類中心強度值取平均值后,得到表3中各夏半年在不同地閃強度等級上的頻數(shù)分布情況。從表3可以看出,占據(jù)雷電強度79.64%以上(31 kA以下)的1、2級組內(nèi)成員最多,而后3個等級則呈遞減趨勢。從時間尺度上看,可以反映出2008年前3個等級強度的發(fā)生次數(shù)在3年中是最低的,這主要是受當(dāng)年地閃總頻次低于另外2年的影響。通過整理對應(yīng)年份的統(tǒng)計年鑒發(fā)現(xiàn),2008年夏半年江蘇省的月平均氣溫為23.2 ℃,低于2007、2009年。由于雷電是一種中小尺度的強對流現(xiàn)象,對氣溫變化較為敏感,所以月平均氣溫的下降有可能是造成2008年雷電總頻次下降的原因。但在雷電強度較大的4、5級中,3年發(fā)生雷電的次數(shù)則幾乎不受總地閃頻次的影響,呈逐年上升的趨勢。這反映出江蘇省高強度雷電流的發(fā)生次數(shù)有逐年上升的趨勢。
3雷電強度等級空間分布分析
將在R語言聚類后的數(shù)據(jù)導(dǎo)入GIS中,利用GIS對5個等級雷電簇組內(nèi)成員的空間分布進行分析,結(jié)果如圖1所示,全省13個地級市在各雷電等級強度上存在著明顯的波動。在雷電強度為1級即聚類中心雷電強度值約為19 kA時,淮安、南京、揚州、鹽城和鎮(zhèn)江為頻次最高的前5位城市,頻次總和占總值的56.38%;在雷電強度等級為2級即聚類中心雷電強度值約為31 kA時,淮安、鹽城、蘇州、徐州和南京分列前5位,占總值的51.40%;在雷電強度為3級即聚類中心雷電強度值約為47 kA時,南京、鹽城、淮安、揚州和蘇州為前5位的城市,頻次總和占總值的50.01%;在雷電強度等級為4級即聚類中心雷電強度值約為75 kA時,蘇州、鹽城、南通、淮安和徐州為排名前5位的城市,頻次總和占總值的53.89%;最后一類即當(dāng)聚類中心雷電強度值約為138 kA時,鹽城、淮安、宿遷、徐州和南通為占據(jù)前5位的城市,且頻次總和占總值的52.71%。從上述統(tǒng)計分析情況可以看出,各等級全省排名前5位的城市的頻次總和均超過了該等級頻次總和的一半以上。這說明各等級排名前5位的城市最具有代表性。
雷電主要通過直擊雷和雷電感應(yīng)現(xiàn)象威脅人類的生命和財產(chǎn)安全。本試驗將雷電按強度等級進行聚類,并根據(jù)聚類結(jié)果進行空間分析,其意義在于對某地區(qū)進行雷電風(fēng)險評估,對建筑或服務(wù)設(shè)備防雷定級時,可以考慮周邊的環(huán)境分量。在實際的工程實施中,是否須要提高防護等級、提高到多少,則須要參考當(dāng)?shù)氐睦纂姀姸茸兓?。因此,本試驗通過對雷電強度的聚類,得到反映雷電強度空間分布的5類雷電簇,以此作為防雷工程實施時的參考依據(jù),以期在采用最有效的等級防護措施的同時將成本降到最低。通過對聚類后的結(jié)果進行3年5類強度的均值計算,得到全省市1級的雷電強度基本變化情況,并按照其均值對13個地市進行等級區(qū)劃,結(jié)果如圖2所示,1級區(qū)代表該等級內(nèi)的地級市雷電強度的變化最高,情況最復(fù)雜,在施工時應(yīng)綜合多方因素針對不同等級的設(shè)施進行最大化的防護,淮安市屬于這一等級范疇,其數(shù)值遠超其他城市,為9 019次,往后各等級區(qū)劃所代表的的雷電強度復(fù)雜度遞減;鹽城、南京屬于2級,均值分別為7 239、7 053次;徐州、揚州和蘇州屬于3級,均值范圍在5 000~7 000次之間;宿遷、泰州、南通、鎮(zhèn)江、常州和無錫為4級,均值范圍在4 000~6 000次之間;5級區(qū)均值最小,為3 136次,該等級僅連云港市。依照上述等級區(qū)劃,在江蘇省不同城市進行雷電防護施工時,可參考其所處的雷電強度變率等級區(qū),進行相應(yīng)的防雷措施的調(diào)整,以加大對施工工程有效保護的作用。
4雷電強度等級及與土地利用類型關(guān)系的分析
雷電與下墊面因素之間的關(guān)系挖掘是研究雷電空間分布的一個重要組成部分。MODIS地表反射率產(chǎn)品(MOD90A1)提供經(jīng)過大氣校正的地表反射率數(shù)據(jù)。本試驗對MOD90A1中的1~7波段從可見光到近紅外、短波紅外豐富的光譜信息進行監(jiān)督分類,將江蘇省土地利用類型劃分成林地、草地、濕地、耕地、建設(shè)用地和其他六大類,并與前文中各雷電等級頻數(shù)進行分析。
從圖3可以看出,江蘇省4.14%的土地為林地,草地占
0.17%,濕地占15.9%,耕地占56%,建設(shè)用地占土地總量的23.72%,其他占0.07%。圖4給出了反演后的江蘇土地利用類型,該圖能夠直觀地反映出各土地利用類型的空間分布狀況。
各雷電強度等級的頻次統(tǒng)計量與各土地利用類型的面積計算進行密度計算后,對照各雷電強度等級,由圖5可知,單位面積上各雷電強度等級發(fā)生的概率最大的為林地,其余5個土地利用類型的對應(yīng)密度分別為1.37、1.23、1.03、0.40、0.02 d/km2,而林地僅占江蘇省土地面積的4.41%。這說明雷電強度與林地的關(guān)聯(lián)性最大。其余5種土地利用類型與各雷電強度等級的分布趨勢大體一致,值得注意的是該5類并
非同林地曲線一樣呈衰減狀分布,而是在雷電強度為2級,即中心雷電強度為31 kA時,出現(xiàn)拐點并達到峰值,而后才成衰減趨勢。峰值大小依次為0.88、1.13、1.05、1.14、0.93、1.23 d/km2。造成該處拐點原因可能有2個:一是云層在江蘇境內(nèi)當(dāng)帶電離子數(shù)量達到最佳的泄放量級時,即本試驗2級雷電流強度達到31 kA時的云層電荷結(jié)構(gòu),最有利于地閃的產(chǎn)生;二是在聚類過程中對第2類的聚類寬度范圍略大于其余幾類,所以造成該雷電簇組內(nèi)成員數(shù)量增多。以上2點認(rèn)識豐富并完善了文獻[9]的相關(guān)結(jié)論。林地除對雷電的頻次有影響外,也對雷電的強度分布存在顯著的影響。此外,第2個認(rèn)識則反映出了地域差異性,即在強度2級時,對除林地外的5種土地利用類型的影響遠大于其他強度,這也反映出雷電強度受土地利用類型影響。
5結(jié)束語
本試驗針對雷電強度的空間定量分析不足問題,考慮到雷電強度在雷電防護工程中的重要參考價值。將R語言架構(gòu)下的數(shù)據(jù)挖掘技術(shù)與GIS技術(shù)相結(jié)合,通過聚類算法將江蘇省夏半年的雷電進行基于強度等級的聚類。在得到相應(yīng)的等級區(qū)劃后還與土地利用類型的關(guān)系進行分析,結(jié)果顯示,在2007、2008、2009年夏半年,占據(jù)雷電強度90%以上(31 kA以下)的1、2級組內(nèi)成員最多,而后3個等級則呈遞減趨勢。在雷電強度較大的4、5級中,3年發(fā)生雷電的次數(shù)則幾乎沒有受到總地閃頻次的影響,呈逐年上升趨勢,這反映出江蘇省高強度雷電流的發(fā)生次數(shù)有逐年上升的趨勢。雷電強度復(fù)雜程度的等級劃分如下:淮安市屬于1級范疇;鹽城、南京屬于2級;徐州、揚州和蘇州屬于3級;宿遷、泰州、南通、鎮(zhèn)江、常州和無錫為4級;5級區(qū)為連云港。林地除對雷電的頻次有影響外,對雷電的強度分布也存在著顯著的影響。此外,第2個認(rèn)識則反映出了地域差異性,即在強度等級為本試驗的第2類時,對除林地外的5種土地利用類型的影響遠大于其他強度,這也反映出雷電強度受土地利用類型的影響。
基于上述研究的成果,本試驗后續(xù)將對雷電強度等級的空間尺度進一步細化,得到13個地級市各縣(市)的強度等級劃分,以進一步提高在實際工程中的參考價值;此外,考慮將其他下墊面因素與雷電強度進行分析,以拓展研究內(nèi)容。
參考文獻:
[1]陳渭民. 雷電學(xué)原理[M]. 北京:氣象出版社,2003:112-149.
[2]Reap R M. Climatological characteristics and objective prediction of thunderstorms over Alaska[J]. Weather & Forecasting,1991,6(3):309-319.
[3]Reap R M,F(xiàn)oster D S. Automated 12~36 h probability forecasts of thunderstorms and sever local storms[J]. Journal of Applied Meterology,1979,18(10):1304-1315.
[4]許小峰. 國外雷電監(jiān)測和預(yù)報研究[M]. 北京:氣象出版社,2003:274-278.
[5]馮桂力,陳文選,劉詩軍,等. 山東地區(qū)閃電的特征分析[J]. 應(yīng)用氣象學(xué)報,2002,13(3):347-355.
[6]李霞,汪慶森,鞏晴霞,等. 蘇州地區(qū)雷電分布規(guī)律分析[J]. 氣象科學(xué),2006,26(4):442-448.
[7]馮民學(xué),焦雪,韋海容,等. 江蘇省雷電分布特征分析[J]. 氣象科學(xué),2009,29(2):246-251.
[8]李政. 重慶地區(qū)雷電活動規(guī)律及下墊面狀況分析[D]. 南京:南京信息工程大學(xué),2011.
[9]趙偉,童杭偉,張俊,等. 浙江省雷電時空分布特征及影響因素分析[J]. 電網(wǎng)技術(shù),2013,37(5):1425-1431.
[10]宋曉爽,鄭棟,張義軍,等. 上海及周邊地區(qū)地閃活動特征及海陸差異[J]. 氣象科技,2014,42(1):164-172.
[11]Hand D,Mannila H. Principles of data mining[M]. Beijing:China Machine Press,2003:38-55.
[12]Rodriguez A,Laio A. Clustering by fast search and find of density peaks[J]. Science,2014,344(6191):1492-1496.
[13]Han J,Kamber M,Tung A. Spatial clustering methods in data mining:a geographic data mining and knowledge discovery[M]. London:Taylor and Francis Group,2001:117-211.
[14]Birant D,Kut A. ST-DBSCAN:an algorithm for clustering spatial-temp oral data[J]. Data & Knowledge Engineering,2007,60(1):208-221.
[15]Haralick R,Harpaz R. Linear manifold clustering in high dimensional spaces by stochastic search[J]. Pattern Recognition,2007,40(10):2672-2684.
[16]Dang E K F,Luk R W P,Ho K S,et al. A new measure of clustering effectiveness:algorithms and experimental studies[J]. Journal of the American Society for Information Science & Technology,2008,59(3):390-40.
[17]Kryszkiewicz M,Lasek P. TI-DBSCAN:clustering with DBSCAN by means of the triangle inequality[C]. Rough Sets and Current Trends in Computing Proceedings,2010:60-69.
[18]Zelnik-Manor L,Perona P. Self-tuning spectral clustering[J]. Advances in Neural Information Processing Systems,2004,16:1601-1608.
[19]侯榮濤,朱斌,馮民學(xué),等. 基于DBSCAN聚類算法的閃電臨近預(yù)報模型[J]. 計算機應(yīng)用,2012,32(3):847-851.
[20]Fraley C,Raftery A,Gneiting T,et al. Probabilistic weather forecasting in R[J]. R Journal,2011,3(1):55-63.
[21]焦雪,馮民學(xué),鐘穎穎. 2006—2009年江蘇省地閃特征分析及應(yīng)用[J]. 氣象科學(xué),2011,31(2):205-210.