陳嘉琳 尤添革,2 寧 靜,2 許一涵 溫芫姚 尤學(xué)敏
(1.福建農(nóng)林大學(xué)計(jì)算機(jī)與信息學(xué)院,福建 福州 350002;2.福建省統(tǒng)計(jì)信息研究中心,福建 福州 350002;3.國網(wǎng)信通億力科技有限責(zé)任公司,福建 福州 350001)
根據(jù)全球板塊分布圖可知,我國地處歐亞板塊的東南部,與太平洋板塊相鄰,受環(huán)太平洋地震帶和歐亞地震帶的影響,該地理位置決定了我國是個(gè)多地震的國家。據(jù)地震觀測統(tǒng)計(jì),我國大陸七級以上的地震占全球大陸七級以上地震的1/3,因地震死亡人數(shù)占全球的1/2。隨著全球地震活動(dòng)進(jìn)入新一輪活躍期,21世紀(jì)地震地質(zhì)災(zāi)害將成為最具威脅力的自然災(zāi)害之一,因此倍受人們的關(guān)注[1]。
分析地震的時(shí)間與空間分布特征是研究地震活動(dòng)的一項(xiàng)基礎(chǔ)工作,在已有歷史數(shù)據(jù)的基礎(chǔ)上,對未來地震發(fā)生的時(shí)間和區(qū)域的預(yù)測提供一定幫助。目前,國內(nèi)有大量關(guān)于中國地區(qū)地震發(fā)生的時(shí)空分布特征研究,以指導(dǎo)地震的中短期預(yù)測工作。楊格格等[2]分別從時(shí)間和空間方面對新中國成立60年以來的陸域地震災(zāi)害進(jìn)行了討論;李鳴蟬等[3]使用K-means聚類、層次聚類、DBSCAN聚類等方法,從空間角度對云南2014年的地震叢集規(guī)律進(jìn)行研究;劉洋等[4]使用聚類方法對大連地區(qū)3級以上的地震展開聚類分區(qū)的研究。地震在空間分布上存在著區(qū)域性,馬禾青[5]等對中國大陸地震成組活動(dòng)特征進(jìn)行統(tǒng)計(jì)分析,表明1971年以來中國大陸5級以上地震的成組性較好,地震成組率和盲目預(yù)測準(zhǔn)確率分別達(dá)43%和23%;蔡昕芮[6]對中國地震發(fā)生頻數(shù)及區(qū)域性特征進(jìn)行了統(tǒng)計(jì)分析。
關(guān)于地震發(fā)生的年份、月份、具體時(shí)刻等數(shù)據(jù)量較大,收集分析地震相關(guān)數(shù)據(jù)發(fā)現(xiàn),各地震點(diǎn)的發(fā)震時(shí)間存在分布較散的特點(diǎn);關(guān)于地震發(fā)生地點(diǎn)的經(jīng)緯度數(shù)據(jù)較為抽象,已知經(jīng)緯度的情況下無法直觀了解中國地震的總體空間分布。本文將地震的經(jīng)緯度轉(zhuǎn)化為空間中的離散點(diǎn),從而直觀表示出中國各地區(qū)所發(fā)生的地震情況,并采用聚類方法對中國2005—2020年所發(fā)生的5級以上地震進(jìn)行劃分,發(fā)掘潛在的地震群,了解聚類所得到的簇其所處的地震帶及地理結(jié)構(gòu),從而進(jìn)行地震活動(dòng)的分區(qū)調(diào)查與識別,提醒人們有意識地加以防范,減少地震所帶來的經(jīng)濟(jì)損失和人員傷亡。
地震的三要素為發(fā)震時(shí)刻、震級、震中,本文收集了中國2005—2020年5級以上地震數(shù)據(jù)作為樣本數(shù)據(jù)。本文所有數(shù)據(jù)均來自國家標(biāo)準(zhǔn)統(tǒng)計(jì)數(shù)據(jù),包括各年《中國大陸地震災(zāi)害損失述評》《國家統(tǒng)計(jì)局統(tǒng)計(jì)年鑒》。
對數(shù)據(jù)進(jìn)行處理時(shí),刪除了地震中心位于中外交界處的地震數(shù)據(jù),余下為有效數(shù)據(jù),共493條。
采用描述性統(tǒng)計(jì)方法,對中國2005—2020年(共16年)5級以上地震的總體分布情況進(jìn)行研究。利用K-means聚類方法,將相近的發(fā)震地點(diǎn)聚為一類,旨在發(fā)現(xiàn)地震發(fā)生的區(qū)域性特點(diǎn)。K-means算法是采用劃分的方法,其主要思想是將相似的點(diǎn)劃分到同一簇中,不相似的點(diǎn)劃分到不同的簇中,在K-means算法中可使用不同的距離來衡量點(diǎn)之間的相似性。
資料表明,當(dāng)?shù)卣鸺墧?shù)≥4.5級、<6級的稱為中強(qiáng)震(本文中強(qiáng)震主要分析≥5級、<6級的地震),>6級、<7級的稱為強(qiáng)震,>7級、<8級的稱為大地震,8級及以上的稱為巨大地震,本文統(tǒng)計(jì)分析中國發(fā)生中強(qiáng)震、強(qiáng)震、大地震、巨大地震4個(gè)等級地震情況,詳見表1。
表1反映了2005—2020年中國5級以上地震的總體情況。可見,中國發(fā)生5級以上地震次數(shù)眾多,按照地震級數(shù)呈現(xiàn)遞減的趨勢,震級為5~6級之間的地震最多。近年來,由于我國建筑抗震減災(zāi)性能不斷加強(qiáng),對不同建筑材料的抗震性進(jìn)行改進(jìn),中強(qiáng)震造成的經(jīng)濟(jì)損失及房屋坍塌情況得到了較大改善。
表1 地震震級頻率統(tǒng)計(jì)
根據(jù)震中位置的經(jīng)度、緯度,利用Arcgis在地圖中將2005—2020年中國5級以上地震以散點(diǎn)方式表示出來(圖1)。
從圖1可見,中國臺灣地震分布十分密集,常常發(fā)生地震,據(jù)統(tǒng)計(jì),2005—2020年臺灣5級以上地震次數(shù)128次,地震級數(shù)大部分為5~6級之間;中國西部地域遼闊,地震分布較為分散,但地震頻率較高,由北向南形成新疆—西藏—青海—四川—云南,其中,在中國西部與鄰國交界處地震尤為頻繁;中國東北部5級以上地震次數(shù)少,分布較為分散;在中國內(nèi)陸東南地區(qū)5級以上地震發(fā)生頻率極少。
圖1 中國2005—2020年5級以上地震的分布情況
根據(jù)2005—2020年我國每年5級以上地震次數(shù),繪制柱形圖(圖2)??梢?,中國5級以上地震在2005—2020年沒有呈現(xiàn)十分明顯的規(guī)律性變化。其中,較為特殊的年份為2008年,次數(shù)為97次,呈現(xiàn)較為顯著的活躍,地震次數(shù)次高的年份為2013年,在其余年份地震次數(shù)并沒有大的波動(dòng)。
從2008年5級以上地震發(fā)生地點(diǎn)來看,四川省發(fā)生5級以上地震次數(shù)為41次,占2008年中國5級以上總地震次數(shù)42.2%。四川省汶川縣在2008年5月12日發(fā)生了8級的特大地震,造成了巨大的經(jīng)濟(jì)損失、房屋坍塌,以及較多的人員傷亡。據(jù)統(tǒng)計(jì),四川省在當(dāng)月共發(fā)生5級以上地震30次,除了汶川縣外,還包括彭縣、都江堰市、青川縣、平武縣等地。陳學(xué)忠[7]等利用Kolmogorov-Smirnov分布檢驗(yàn)法,對龍門山斷裂帶的地震活動(dòng)進(jìn)行了檢驗(yàn),得出在2008年汶川特大地震前,地震的月頻度標(biāo)準(zhǔn)差、偏度、峰度等值都發(fā)生了不同形態(tài)的短期異常變化,該變化與汶川地震的發(fā)生具有較大的關(guān)聯(lián)性。
圖2 2005—2020我國5級以上地震在每年的頻數(shù)分布圖
根據(jù)2005—2020年我國各月5級以上地震次數(shù),繪制柱形圖(圖3)。從圖3可以得到,1—3月次數(shù)發(fā)生較為穩(wěn)定;5—8月地震發(fā)生次數(shù)較多,為一年中最頻繁時(shí)期,而該時(shí)期我國正處于夏季;9—12月期間發(fā)生地震的次數(shù)逐步減少,10月為一年中最少的時(shí)期,該時(shí)期我國正處于冬季。從以上分析可得,我國5級以上地震發(fā)生的次數(shù)在夏季多于冬季,地震發(fā)生的原因與季節(jié)因素是否有緊密聯(lián)系,需要進(jìn)一步分析地區(qū)的地質(zhì)等因素。
《死水微瀾中》蔡大嫂對于自己的婚姻有著自己的主見,從第一次依照父母之命媒妁之言到第二次紅衣教暴亂之后自己主動(dòng)嫁給顧天成,她不顧父母的反對。女性婚戀觀的改變是女性獨(dú)立平等意識覺醒從的一個(gè)重要標(biāo)志。蔡大嫂對于嫁給顧天成的想法很簡單也很樸素,衣食無憂安身立命。她脫離了古代傳統(tǒng)女子那種“女子喪夫不得改嫁”的傳統(tǒng)模式。同時(shí)在于羅歪嘴產(chǎn)生婚外情時(shí),并沒有偷偷摸摸,而是堂而皇之,完全不避諱世人的目光。蔡大嫂在婚戀上所表現(xiàn)出來的那種非凡勇氣是時(shí)代洪流下女性對抗封建枷鎖的一把利劍。
圖3 2005—2020我國5級以上地震在各月份頻數(shù)分布圖
2.3.1 K-Means聚類算法
利用K-Means聚類算法對全國各地區(qū)進(jìn)行聚類,將全國劃分為多個(gè)地震區(qū)。K-Means聚類算法是一種基于向量距離作為相似性的評價(jià)指標(biāo),即認(rèn)為兩個(gè)對象的距離越近,其相似度就越大。
K-Means算法的基礎(chǔ)是最小誤差平方和的準(zhǔn)則,本文中K-Means算法具體流程如下:①從5級以上地震樣本對象任意選擇n個(gè)對象作為初始聚類中心;②根據(jù)步驟①設(shè)置的n個(gè)聚類中心,計(jì)算每個(gè)對象與這n個(gè)中心的距離;③經(jīng)過步驟②的計(jì)算,把所有對象與離它最近的中心歸在一個(gè)類中;④重新計(jì)算每個(gè)類的中心對象的位置;⑤重復(fù)步驟③和④,直到類中的歸類幾乎不發(fā)生變化為止。
本文采用歐幾里得距離,各地震點(diǎn)到質(zhì)心的距離公式為:
(1)
式(1)中,x表示簇中的一個(gè)樣本點(diǎn),u表示該簇中的質(zhì)心,i表示組成點(diǎn)x的每個(gè)特征。
根據(jù)對中國整體地震分布的初步分析,選取初始聚類中心n=3和n=4,得到中國地震聚類的分布圖,如圖4、圖5所示。
圖4 選擇3個(gè)初始對象作為聚類中心的地震分布圖
圖5 選擇4個(gè)初始對象作為聚類中心的地震分布圖
對中國2005—2020年發(fā)生的5級以上地震進(jìn)行聚類,當(dāng)聚類類數(shù)k=3時(shí),得到質(zhì)心的經(jīng)緯度分別為[26.44,122.18],[36.86,83.69],[30.53,101.44];當(dāng)聚類類數(shù)k=4時(shí),得到的質(zhì)心的經(jīng)緯度分別為[36.86,83.69],[23.89,121.72],[30.58,101.39],[43.52,124.71]。
2.3.2 簇內(nèi)平方和Inertia
在K-means聚類算法中,其目標(biāo)是確?!按貎?nèi)差異小,簇外差異大”,由此得到中國5級以上地震主要分布區(qū)域,因此本文通過衡量類間差異來衡量聚類的效果。
Inertia是用距離來衡量類內(nèi)差異的指標(biāo),又稱為簇內(nèi)平方和,數(shù)學(xué)公式為:
(2)
式(2)中,m為一個(gè)簇中樣本的個(gè)數(shù),j是每個(gè)樣本的編號。
由Inertia的性質(zhì)可知,Inertia的數(shù)值越小,代表每個(gè)類內(nèi)樣本越相似,聚類的效果越好,即該地區(qū)發(fā)生的地震可能具有相似性,處于同一地震帶或者為同一地震區(qū)。當(dāng)聚類簇?cái)?shù)k=3時(shí),Inertia的值為21448.2170;當(dāng)聚類簇?cái)?shù)k=4時(shí),Inertia的值為14230.4403。聚類簇?cái)?shù)k=4時(shí)的Inertia值明顯低于k=3時(shí)的Inertia值,由Inertia的性質(zhì)可知,分為4類的效果要明顯比分為3類的效果好。
經(jīng)過數(shù)據(jù)計(jì)算得知,隨著聚類簇?cái)?shù)k的增大,Inertia呈現(xiàn)下降,每一個(gè)點(diǎn)自成一類,其簇內(nèi)平方和即是最小的,但這并不代表聚類的效果是最好的,因此還需要借助其他指標(biāo)進(jìn)行判斷。
2.3.3 輪廓系數(shù)
輪廓系數(shù)是最常用的聚類算法的評價(jià)指標(biāo),它針對每個(gè)樣本進(jìn)行定義,其中,樣本與自身簇中的其他樣本的相似度為a,等于樣本與同一簇中所有其他點(diǎn)之間的平均距離;樣本與其他簇中的樣本相似度為b,等于樣本與下一個(gè)最近簇中所有點(diǎn)之間的距離。若b遠(yuǎn)大于a,則表明“簇內(nèi)差異小,簇外差異大”,說明聚類效果較好。
單個(gè)樣本的輪廓系數(shù)計(jì)算公式為式(3)、式(4)。
(3)
(4)
輪廓系數(shù)的范圍為(-1,1)。其中,越接近1表示樣本與自身簇中的樣本很相似,并且與其他簇中的樣本不相似;當(dāng)樣本點(diǎn)與簇外的樣本更相似時(shí),輪廓系數(shù)為負(fù)數(shù);當(dāng)輪廓系數(shù)為0時(shí),則代表兩個(gè)簇中的樣本相似度一致,即兩個(gè)簇應(yīng)該合并為一個(gè)簇。
根據(jù)已經(jīng)聚類的結(jié)果,求得當(dāng)k=3時(shí),輪廓系數(shù)為0.615;當(dāng)k=4時(shí),輪廓系數(shù)為0.653,輪廓系數(shù)更大,因此得出其聚類效果較好。
2.3.4 Calinski-Harabaz指數(shù)
對于有k個(gè)簇的聚類而言,Calinski-Harabaz指數(shù)S(k)公式為:
(5)
式(5)中,N為數(shù)據(jù)集中的樣本量,k為簇的個(gè)數(shù),Bk是組間離散矩陣,即不同簇之間的協(xié)方差矩陣,Wk是簇內(nèi)離散矩陣,即一個(gè)簇內(nèi)數(shù)據(jù)的協(xié)方差矩陣,tr表示矩陣的跡。
使用Calinski-Harabaz指數(shù)S(k)來衡量聚類效果時(shí),值越高越好。根據(jù)已經(jīng)聚類的結(jié)果,求得當(dāng)k=3時(shí),Calinski-Harabaz指數(shù)為1440.136;當(dāng)k=4時(shí),Calinski-Harabaz指數(shù)為1526.777,k=4時(shí),Calinski-Harabaz指數(shù)更大,因此得出其聚類效果較好。
本文利用2005—2020年中國發(fā)生5級以上地震的數(shù)據(jù),從時(shí)間角度進(jìn)行了簡單的描述性統(tǒng)計(jì)分析;從空間上進(jìn)行了聚類分析,得出下述結(jié)論:①地震聚類后的空間共分為4個(gè)區(qū)域,以中國東南部以及西部為代表,地震的次數(shù)較多、震級較大,空間分布密集;②2005—2020年,2008年呈現(xiàn)出峰值,地震是否呈現(xiàn)周期性,需要增加地震研究的時(shí)間跨度;③在K-means聚類中聚類評估效果較好。
本文采用可視化的方式對中國5級以上地震總體情況進(jìn)行研究,直觀地展現(xiàn)中國地震發(fā)生情況,有利于加強(qiáng)人們對近15年來地震總體情況的認(rèn)知。從時(shí)間和空間的角度來看,地震的發(fā)生時(shí)段以及地震發(fā)生的區(qū)域的研究對人們防范地震有著重大意義。利用聚類分析可以發(fā)掘潛在的地震群,了解聚類所得到的結(jié)果所處的地震帶及地理結(jié)構(gòu),從而進(jìn)行地震活動(dòng)的分區(qū)調(diào)查與識別,提醒各地區(qū)人們有意識地加以防范,減少地震所帶來的經(jīng)濟(jì)損失和人員傷亡。由于本文對于時(shí)間的收集跨度仍不夠大,對于地震周期的研究應(yīng)收集更長時(shí)間跨度的數(shù)據(jù)進(jìn)行時(shí)間序列分析。