趙小艷 蔣海昆 孟令媛 蘇有錦 賀素歌
摘要:基于1966—2021年川滇地區(qū)225次5級(jí)以上地震目錄、地震序列目錄和歷史地震震源機(jī)制資料,參考以往研究和震后趨勢(shì)預(yù)測(cè)實(shí)踐經(jīng)驗(yàn),構(gòu)建了10個(gè)基于地震觀測(cè)數(shù)據(jù)的機(jī)器學(xué)習(xí)序列類型判定特征樣本數(shù)據(jù)集?;诘卣鹦蛄蟹诸惗x,設(shè)置多震型、主余型、孤立型三類樣本“標(biāo)簽”。對(duì)樣本進(jìn)行不均衡處理、對(duì)特征參數(shù)進(jìn)行缺失處理后,采用決策樹模型對(duì)特征參數(shù)的重要性進(jìn)行研究。結(jié)果顯示:不同時(shí)間段特征參數(shù)重要性類別有一定差異,隨著序列數(shù)據(jù)資料的增加,序列類型判斷更倚重動(dòng)態(tài)的序列數(shù)據(jù)資料;主震震源機(jī)制相關(guān)參數(shù)和主震參數(shù)對(duì)序列分類有較高的貢獻(xiàn)率,序列參數(shù)對(duì)序列分類貢獻(xiàn)率不高。整體而言,模型給出的結(jié)果與實(shí)際經(jīng)驗(yàn)性預(yù)報(bào)方法較為一致。
關(guān)鍵詞:地震序列類型;機(jī)器學(xué)習(xí);特征參數(shù);決策樹
中圖分類號(hào):P315.72文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1000-0666(2024)03-0321-15
doi:10.20015/j.cnki.ISSN1000-0666.2024.0039
0引言
中國地震預(yù)報(bào)研究始于對(duì)1966年邢臺(tái)7.2 級(jí)地震序列的認(rèn)識(shí)。中國地震預(yù)報(bào)取得的首次突破是1975年海城7.3級(jí)地震的成功預(yù)報(bào),這得益于對(duì)序列前震活動(dòng)特征的把握(蔣海昆等,2015)。1966年以來,我國對(duì)地震序列的類型、劃分方法、空間特征及成因已取得了相對(duì)統(tǒng)一的認(rèn)識(shí)和成果,這些成果在中強(qiáng)地震序列趨勢(shì)判定、強(qiáng)余震預(yù)測(cè)等工作中發(fā)揮了重要作用(吳開統(tǒng)等,1990;周翠英等,1996;蔣海昆等,2006b;蘇有錦等,2014)。
一次大地震發(fā)生后,公眾和決策者最關(guān)心的問題是“這是一個(gè)主震還是一個(gè)更大地震的前震?”。目前研究主要基于對(duì)歷史地震的統(tǒng)計(jì),以此來討論大概率下地震序列是否會(huì)正常衰減,或者在小概率下某次地震為前震序列的可能(Gulia,Wiemer,2019)??焖?、準(zhǔn)確的震后趨勢(shì)判定是地震應(yīng)急、抗震救災(zāi)、恢復(fù)重建等工作的重要決策依據(jù),對(duì)穩(wěn)定公眾緊張情緒、維護(hù)社會(huì)穩(wěn)定具有重要指導(dǎo)意義(蔣海昆等,2015)。因此,迫切的現(xiàn)實(shí)需求和仍處于探索階段的震后趨勢(shì)研判水平之間的矛盾,給科研人員帶來巨大的挑戰(zhàn)和機(jī)遇。
近年來,國內(nèi)外對(duì)震后快速研判技術(shù)系統(tǒng)及相關(guān)產(chǎn)品開展了大量研究。自2018年8月開始,美國國家現(xiàn)代地震監(jiān)測(cè)系統(tǒng)ANSS對(duì)美國境內(nèi)顯著地震事件進(jìn)行余震概率預(yù)測(cè),并在其2017—2027年戰(zhàn)略規(guī)劃設(shè)想中開展作為國家層面的余震預(yù)報(bào),對(duì)全國重大地震之后不同時(shí)間周期(數(shù)小時(shí)、數(shù)天、數(shù)月和數(shù)年)的余震可能性進(jìn)行例行通報(bào),以提高公眾意識(shí),完善備震工作,并通知應(yīng)急管理部門(U.S.Geological Survey,2017)。中國地震臺(tái)網(wǎng)中心主導(dǎo)研發(fā)的震后趨勢(shì)判定技術(shù)系統(tǒng)(Automatic Aftershock Forecasting,簡稱CAAFs)于2018年投入應(yīng)用,初步實(shí)現(xiàn)了自動(dòng)觸發(fā)的震后早期趨勢(shì)研判及相關(guān)報(bào)告的流程化產(chǎn)出。8個(gè)月的試運(yùn)行統(tǒng)計(jì)數(shù)據(jù)顯示,自動(dòng)產(chǎn)出結(jié)果與地震實(shí)際情況吻合程度略好于人工研判結(jié)果(劉珠妹等,2019;Liu et al,2023),該系統(tǒng)在中國地震系統(tǒng)得到了廣泛的應(yīng)用。
近年來,隨著人工智能技術(shù)的飛速發(fā)展,其在地震預(yù)測(cè)領(lǐng)域也得到了廣泛應(yīng)用。通過對(duì)大量觀測(cè)數(shù)據(jù)的學(xué)習(xí),發(fā)現(xiàn)其特征規(guī)律,利用數(shù)據(jù)建立、訓(xùn)練模型,對(duì)未來地震可能性開展預(yù)測(cè),這不僅可以深化對(duì)地震機(jī)理的理解認(rèn)識(shí),還可在地震孕育機(jī)理尚不清楚的情況下提高地震預(yù)測(cè)的準(zhǔn)確性(隗永剛,蔣長勝,2021;蔣海昆,王錦紅等,2023)。目前,機(jī)器學(xué)習(xí)在地震預(yù)測(cè)領(lǐng)域的研究,相對(duì)集中在利用若干特征參數(shù)對(duì)區(qū)域地震進(jìn)行預(yù)測(cè)(Corbi et al,2019;Hulbert et al,2019;Asim et al,2020)。對(duì)于地震序列的研究則相對(duì)集中在余震地點(diǎn)的預(yù)測(cè)。DeVries等(2018)使用深度學(xué)習(xí)方法進(jìn)行余震發(fā)生位置的預(yù)測(cè),在無需事先假設(shè)主震破裂方向的條件下,該方法明顯優(yōu)于利用靜態(tài)庫侖破裂應(yīng)力變化預(yù)測(cè)余震發(fā)生位置的方法,也優(yōu)于基于統(tǒng)計(jì)地震學(xué)兩大經(jīng)典定律(G-R關(guān)系、修正的大森公式)給出的對(duì)地震強(qiáng)度和發(fā)震時(shí)間的預(yù)測(cè)(Panakkat,Adeli,2007;Martínez-lvarez et al,2013;Asencio-Cortés et al,2016,2018)。
現(xiàn)階段,國內(nèi)外利用人工智能進(jìn)行地震序列類型和后續(xù)強(qiáng)余震的研究尚不多見,這可能是因?yàn)樵S多研究者認(rèn)為前震、主震和余震乃至震群均為“回顧性”的稱謂,它們?cè)谖锢肀举|(zhì)和統(tǒng)計(jì)屬性上難以區(qū)分,只有在地震序列完成之后才能被確認(rèn)(Jordan et al,2011;蔣長勝等,2013)。在我國,余震預(yù)測(cè)是地震工作者的一項(xiàng)重要職責(zé),震后趨勢(shì)判定對(duì)地震應(yīng)急、抗震救災(zāi)、安定社會(huì)發(fā)揮著至關(guān)重要的作用(蔣海昆等,2015)。已有研究結(jié)果顯示,很多特征參數(shù)對(duì)震后余震預(yù)測(cè)及地震序列特征判定均有一定的效果(蔣海昆,王錦紅,2023),但在震后時(shí)間緊、任務(wù)重的情況下,如何從冗雜繁多的參數(shù)中,挑選出最有用的參數(shù),是本文試圖解決的問題。
本文收集整理了1966年以來川滇地區(qū)5級(jí)以上地震序列,根據(jù)震后趨勢(shì)判定相關(guān)業(yè)務(wù)規(guī)定和實(shí)際工作需求,構(gòu)建震后0 h至5 d共10個(gè)時(shí)間尺度的特征參數(shù)數(shù)據(jù)集,采用決策樹模型對(duì)特征參數(shù)的重要性進(jìn)行研究。
1地震序列數(shù)據(jù)及機(jī)器學(xué)習(xí)特征構(gòu)建
1.1資料收集和樣本標(biāo)簽
本文收集整理了1966—2021年川滇及其附近區(qū)域(21°~35°N,97.5~106°E)范圍內(nèi)5級(jí)以上地震序列,去除余震序列中5級(jí)以上余震,并將多震型地震算為1次事件,共得到5級(jí)以上地震序列225組,其中5.0~5.9級(jí)地震序列180組,6.0~6.9級(jí)地震序列33組,7.0~7.9級(jí)地震序列11組,8.0級(jí)以上地震序列1組,最大為2008年5月12日四川汶川8.0級(jí)地震序列。為保證結(jié)果統(tǒng)一,對(duì)于采用ML震級(jí)標(biāo)度的地震序列,根據(jù)公式MS=1.13ML-1.08換算為MS震級(jí)(劉瑞豐等,2015)。
根據(jù)地震序列類型震級(jí)差分類定義(蔣海昆等,2006a),采用序列主震與后續(xù)最大地震震級(jí)差ΔM=M0-M1,將序列類型劃分為多震型、主余型和孤立型,并以此作為機(jī)器學(xué)習(xí)序列類型判定的樣本標(biāo)簽:ΔM<0.6為多震型序列,包括震群型和雙震型序列;0.6≤ΔM<2.5為主余型序列,包括主余型和前震-主震-余震型序列;ΔM≥2.5為孤立型序列。
1966—2021年川滇地區(qū)地震序列空間分布如圖1所示。由圖1可見,地震序列類型空間分布具有一定的區(qū)域特征:多震型相對(duì)集中在滇西的下關(guān)和姚安、騰沖—保山塊體的龍陵、瀾滄等地,滇東的魯?shù)?、川滇交界的鹽源、川西巴塘、川東馬邊、川東北松潘—龍門山斷裂帶的松潘等地也有多震型地震發(fā)生;鮮水河—安寧河—小江地震帶及金沙江—紅河地震帶以主余型地震序列活動(dòng)為主。
表1給出了不同范圍內(nèi)的主震震級(jí)的序列類型統(tǒng)計(jì)結(jié)果,由表1可見,主余型序列所占比例最大,約占全部序列的50%,多震型和孤立型序列各占25%;主余型和孤立型序列合計(jì)約占75%,略低于前人78%~87%的統(tǒng)計(jì)結(jié)果(吳開統(tǒng)等,1990;蔣海昆等,2006a;蘇有錦等,2014),表明川滇地區(qū)多震型地震的比例相對(duì)較高,具有獨(dú)特的區(qū)域特征;孤立型序列所占比例則隨著主震震級(jí)升高而降低,無 7 級(jí)以上的孤立型序列,主震震級(jí)最大的孤立型序列為1981年四川道孚6.9級(jí)地震序列;6級(jí)以上地震多震型序列比例相對(duì)較高,這與全國(蔣海昆等,2007a)及南北帶中段(祁玉萍等,2021)的統(tǒng)計(jì)結(jié)果有一定差異,這可能是由于云南多震型序列的6、7級(jí)地震序列相對(duì)較多。
1.2特征構(gòu)建
監(jiān)督學(xué)習(xí)的輸入是學(xué)習(xí)樣本的特征集合和樣本標(biāo)簽。特征工程是機(jī)器學(xué)習(xí)地震預(yù)測(cè)的最關(guān)鍵環(huán)節(jié)。對(duì)地震預(yù)測(cè)這類機(jī)理不明、單項(xiàng)特征與標(biāo)簽之間關(guān)系不唯一的分類任務(wù),如何確定訓(xùn)練樣本數(shù)據(jù)集的輸入特征,是機(jī)器學(xué)習(xí)數(shù)據(jù)準(zhǔn)備的最重要工作(蔣海昆,王錦紅,2023)。
在地震序列特征研究方面,有3個(gè)重要的統(tǒng)計(jì)定律:①地震序列的頻度-震級(jí)關(guān)系遵從G-R關(guān)系;②地震序列的頻度隨時(shí)間的衰減遵從修正的大森公式;③地震序列的主震與最大余震的震級(jí)差D遵從巴特定律。
國內(nèi)外學(xué)者以這3個(gè)定律為基礎(chǔ),對(duì)地震序列的時(shí)、空、強(qiáng)分布特征開展了大量的研究(Ben-Zion,Rice,1993;Ben-Zion,Lyakhovsky,2006;蔣海昆等,2006c,2007b;崔子健等,2012;黃浩,付虹,2014)。其中,對(duì)地震序列的判定多是從序列本身及其頻次和[HJ2.4mm]能量的演化特征著手,進(jìn)行定性(變化趨勢(shì))或半定量(參數(shù)統(tǒng)計(jì)指標(biāo))的判定(蔣海昆等,2007c),但在震后早期階段,由于序列數(shù)據(jù)少,大多只能通過對(duì)比該地區(qū)長期地震活動(dòng)的特點(diǎn)來判斷序列類型,并在此基礎(chǔ)上建立基于震例類比的震后趨勢(shì)早期判定技術(shù)系統(tǒng)(劉珠妹等,2019)。震后隨著時(shí)間的推移,地震目錄和地震波形數(shù)據(jù)積累會(huì)越來越多,可用于序列類型判定資料和方法也越來越多。
本文參考現(xiàn)有地震序列類型判定參數(shù)和方法,其中一些特征和方法選擇機(jī)器學(xué)習(xí)地震序列類型判定的備選特征,主要包括主震、主震震源機(jī)制、主震附近區(qū)域歷史地震序列類型占比、指定時(shí)段序列衰減、指定時(shí)段G-R關(guān)系、指定時(shí)段歸一化能量熵、指定時(shí)段最大余震震級(jí)、指定時(shí)段小震頻次及震級(jí)共8類相關(guān)參數(shù)(蔣海昆,王錦紅,2023)。此外,劉正榮和孔紹麟(1986)通過對(duì)多次地震序列的h值進(jìn)行震后分時(shí)計(jì)算,成功地判定出這些地震序列的類型,并預(yù)報(bào)了序列中的最大余震震級(jí),因此本文采用了h值這一特征參數(shù),根據(jù)其定義,將其歸類為指定時(shí)段序列衰減相關(guān)參數(shù)。
震后不同時(shí)間段數(shù)據(jù)集的構(gòu)建及其劃分,主要是依據(jù)震后趨勢(shì)判定相關(guān)業(yè)務(wù)規(guī)定和實(shí)際工作需求來進(jìn)行,如在顯著地震發(fā)生后30 min內(nèi),產(chǎn)出震后快速研判意見,震后2 h內(nèi),產(chǎn)出震后首次會(huì)商意見。此外,根據(jù)《地震現(xiàn)場(chǎng)工作管理規(guī)定》中國地震局.2013.地震現(xiàn)場(chǎng)工作管理規(guī)定(中震救函〔2013〕42號(hào)).等文件中給出的相關(guān)時(shí)間節(jié)點(diǎn)及震后趨勢(shì)判定經(jīng)驗(yàn),和震后首次、震后1~3 d、4~7 d等多個(gè)會(huì)商時(shí)段工作需求,最終構(gòu)建了震后0 h、1 h、2 h、3 h、6 h、12 h、18 h、1 d、3 d、5 d共10個(gè)時(shí)間尺度的特征參數(shù)數(shù)據(jù)集。
川滇地區(qū)225個(gè)地震序列樣本備選特征參數(shù)缺失情況如圖3所示。圖中主震(淺綠色)及主震附近區(qū)域歷史地震序列類型(粉紅色)參數(shù)完備性相對(duì)較高,達(dá)100%。少部分地區(qū)由于歷史上并沒有6級(jí)地震發(fā)生,因此45M6.0Ty1、46M6.0Ty2、47M6.0Ty3這3個(gè)特征參數(shù)完備性略低,為91%;主震震源機(jī)制相關(guān)參數(shù)(淺灰色)的特征完備性為76%。
震后,隨著時(shí)間的延長,地震序列的數(shù)據(jù)逐漸增多,基于地震目錄的序列參數(shù)計(jì)算結(jié)果被用于序列類型判定,因此震后1 h至5 d的數(shù)據(jù)集特征參數(shù)不斷增加,其中1~18 h增加了不同時(shí)間段的折合震級(jí)、最大余震震級(jí)、震級(jí)差。1~5 d數(shù)據(jù)集還增加了滿足計(jì)算樣本條件的大森公式p值、h值,G-R關(guān)系b值、歸一化能量熵等。隨著時(shí)間的推移,指定時(shí)段最大余震震級(jí)相關(guān)參數(shù)(土黃色)的完備性略有增加,約為80%左右;指定時(shí)段序列衰減(綠色)、G-R關(guān)系(藍(lán)色)、歸一化能量熵(棕色)等參數(shù)由于對(duì)計(jì)算樣本量和監(jiān)測(cè)能力有一定要求,完備性較低,約為60%(圖3)。圖3中108Lab2(黑色)為序列標(biāo)簽。
1.3樣本不均衡處理
所謂的不均衡數(shù)據(jù)集,是指數(shù)據(jù)集中各類別的樣本量極不均衡。通常多數(shù)類與少數(shù)類樣本比例明顯大于1∶1時(shí),可認(rèn)為屬于不均衡樣本?;诓痪鈽颖居?xùn)練的模型,會(huì)傾向于受到多數(shù)樣本類別的控制。為盡可能避免此類影響,一般要從數(shù)據(jù)或算法的角度,對(duì)不均衡數(shù)據(jù)進(jìn)行處理。在不同類別樣本占比不是特別懸殊的情況下,可以考慮隨機(jī)采樣方法。本文構(gòu)建的225個(gè)地震序列的特征參數(shù)中,主余型序列樣本數(shù)量最多,為113個(gè),占50%,孤立型和震群型所占比例相當(dāng),均為25%,可見雖然樣本數(shù)據(jù)不均衡,但比列并不特別懸殊,可以用隨機(jī)采樣中的過采樣,從少數(shù)類樣本中對(duì)特征進(jìn)行隨機(jī)采樣,以組合構(gòu)建新的樣本,從而使樣本數(shù)據(jù)均衡柚子皮.2020.不平衡數(shù)據(jù)的機(jī)器學(xué)習(xí).https://blog.csdn.net/pipisorry/article/details/78091626.。
此外,應(yīng)使用交叉驗(yàn)證來開展模型評(píng)價(jià)。交叉驗(yàn)證中,通過多次劃分,大大降低了由某一次隨機(jī)劃分帶來的偶然性,通過多次劃分、多次訓(xùn)練,模型也能遇到各種各樣的數(shù)據(jù),從而提高其泛化能力,以確保不會(huì)出現(xiàn)過擬合現(xiàn)象(Kamekin.2018.不平衡數(shù)據(jù)集的處理.https://www.cnblogs.com/kamekin/p/9824294.html.)。
1.4特征數(shù)據(jù)缺失處理
一般來說,未經(jīng)處理的原始數(shù)據(jù)中通常會(huì)存在缺失值、離群值等,因此在建模訓(xùn)練之前需要對(duì)缺失值進(jìn)行處理。如圖3所示,川滇地區(qū)僅225個(gè)小數(shù)據(jù)樣本,數(shù)據(jù)缺失會(huì)進(jìn)一步加劇樣本不足的問題。缺失值處理有刪除、統(tǒng)計(jì)值填充、統(tǒng)一值填充、前后值均值填充、插值法填充、建模預(yù)測(cè)填充等多種方法(Phoenix Studio.2020.特征工程之缺失值處理.https://blog.csdn.net/weixin_41503009/article/details/105550244.)。在統(tǒng)計(jì)值填充方法中,“統(tǒng)計(jì)值”可選擇平均值、中位數(shù)、眾數(shù)、最大值、最小值等,具體使用哪一種統(tǒng)計(jì)值要具體問題具體分析。根據(jù)本文特征參數(shù)數(shù)據(jù)樣本特點(diǎn),筆者采用同類樣本中位值對(duì)缺失特征進(jìn)行補(bǔ)齊。
具體做法是:對(duì)每一個(gè)特征參數(shù),分別計(jì)算多震型、主余型、孤立型特征中位值,之后對(duì)該類樣本中缺失該特征的樣本,以該中位值進(jìn)行補(bǔ)齊。例如對(duì)主余型樣本的歸一化能量熵(101Entropy),基于172個(gè)無Entropy值缺失的樣本,計(jì)算其中位值,進(jìn)而對(duì)有Entropy值缺失的主余型樣本,用該中位值進(jìn)行補(bǔ)齊。對(duì)多震型、孤立型樣本也做類似計(jì)算處理。對(duì)所有缺失特征進(jìn)行中位值補(bǔ)齊之后,所有樣本都可參與模型訓(xùn)練。結(jié)果顯示,缺失特征補(bǔ)齊的數(shù)據(jù)預(yù)處理方式,不但可顯著增加可用樣本量,更可以明顯提升特征與序列分類之間的關(guān)聯(lián)性(蔣海昆,王錦紅,2023)。
1.5數(shù)據(jù)拆分
在機(jī)器學(xué)習(xí)中,人們通常將原始數(shù)據(jù)按照比例分割為訓(xùn)練集和測(cè)試集。訓(xùn)練集用于訓(xùn)練模型,如通過利用訓(xùn)練集中數(shù)據(jù),訓(xùn)練擬合一些參數(shù)來建立分類模型;測(cè)試集用來評(píng)價(jià)模型好壞,測(cè)試集不參與模型訓(xùn)練,主要用于測(cè)試已訓(xùn)練好的模型的準(zhǔn)確能力等,但不能作為與調(diào)參、選擇特征等算法相關(guān)選擇的依據(jù)。
本文采用train_test_split函數(shù)將數(shù)據(jù)矩陣隨機(jī)劃分為訓(xùn)練子集和測(cè)試子集。采用震后0 h數(shù)據(jù)集,計(jì)算了訓(xùn)練集、測(cè)試集取不同比例值時(shí)決策樹預(yù)測(cè)正確的樣本率。圖4給出了比例值為0.2、0.25和0.3時(shí),決策樹模型給出的訓(xùn)練集和測(cè)試集預(yù)測(cè)正確的樣本率隨決策樹最大擬合深度的變化圖。
結(jié)果顯示,決策樹最大擬合深度為1~10時(shí),訓(xùn)練集預(yù)測(cè)正確率隨決策樹最大擬合深度逐漸增大,在最大擬合深度達(dá)到10以后,正確率相對(duì)穩(wěn)定,且取不同比例值對(duì)訓(xùn)練集預(yù)測(cè)正確率影響較小,但對(duì)測(cè)試集影響較大,最大擬合深度取0.25比例值,測(cè)試集的預(yù)測(cè)正確率相對(duì)較高。這表明,在本文構(gòu)建的225個(gè)樣本中,當(dāng)測(cè)試集占整個(gè)數(shù)據(jù)集的25%時(shí),模型預(yù)測(cè)正確的樣本率最高。
1.6特征選擇
特征選擇旨在通過去除不相關(guān)、冗余或嘈雜的特征,從原始特征中選擇一小部分相關(guān)特征,以減少算力和存儲(chǔ)消耗并簡化模型,以便于實(shí)際應(yīng)用過程中的特征構(gòu)建。
對(duì)于地震預(yù)測(cè)問題,目前尚難有足夠的認(rèn)識(shí)去判斷特征與目標(biāo)之間、特征與特征之間的相關(guān)性。這種情況下需要依靠數(shù)學(xué)或工程上的方法來更好地進(jìn)行特征選擇,常見的方法有過濾法、包裹法、嵌入法等,其中過濾法按照發(fā)散性或者相關(guān)性對(duì)各特征進(jìn)行評(píng)分。設(shè)定閾值或者待選擇閾值的個(gè)數(shù)特征選擇,常用的有方差選擇法、相關(guān)性選擇法、特征重要性選擇法、互信息選擇法、卡方檢驗(yàn)選擇法(微塵-黃含馳.2022.特征選擇——詳盡綜述.https://zhuanlan.zhihu.com/p/514845162.)。
本文特征選擇處理流程如圖5所示。圖中互信息可用于表征隨機(jī)變量之間的相互依賴或相關(guān)性程度(蔣海昆,王錦紅,2023),而卡方檢驗(yàn)表征的是統(tǒng)計(jì)樣本的實(shí)際觀測(cè)值與理論推斷值之間的偏離程度。實(shí)際觀測(cè)值與理論推斷值之間的偏離程度決定卡方值的大小,卡方值越大表明二者偏差程度越大,反之二者偏差越小。若兩個(gè)值完全相等,卡方值就為0,表明兩者完全符合。
2基于決策樹的序列類型預(yù)測(cè)模型
2.1決策樹模型及其參數(shù)設(shè)置
決策樹為基于實(shí)例的歸納學(xué)習(xí)方法,它能從給定的無序的訓(xùn)練樣本中,提煉出樹型的分類模型,即從一系列具有眾多特征和標(biāo)簽的數(shù)據(jù)中總結(jié)出決策規(guī)則,并用樹狀圖的結(jié)構(gòu)呈現(xiàn)這些規(guī)則。
與其它機(jī)器學(xué)習(xí)分類算法相比較,決策樹分類算法相對(duì)簡單,只要訓(xùn)練樣本集能夠使用特征向量和類別進(jìn)行表示,就可以考慮構(gòu)造決策樹分類算法。預(yù)測(cè)分類算法的復(fù)雜度只與決策樹的層數(shù)有關(guān),數(shù)據(jù)處理效率高,適合于實(shí)時(shí)分類的場(chǎng)景。史翔宇(2021)利用包括震級(jí)-頻度分布類參數(shù)、地震頻度類參數(shù)、地震能量類參數(shù)和綜合類參數(shù)等11個(gè)特征參數(shù)作為機(jī)器學(xué)習(xí)模型的輸入變量,選擇了廣義線性模型(GLM)、基于決策樹的隨機(jī)森林模型(RF)、梯度提升機(jī)模型(GBM)和深度神經(jīng)網(wǎng)絡(luò)模型(DNN)共4種機(jī)器學(xué)習(xí)算法構(gòu)建地震預(yù)測(cè)模型,結(jié)果表明,基于決策樹的隨機(jī)森林模型具有最好的預(yù)測(cè)效果。
決策樹的兩個(gè)重要參數(shù)為特征選擇標(biāo)準(zhǔn)criterion和決策樹最大深度max_depth。決策樹需要找出最佳節(jié)點(diǎn)和最佳的分枝方法,衡量這個(gè)“最佳”的指標(biāo)叫做“不純度”。通常來說,“不純度”越低,決策樹對(duì)訓(xùn)練集的擬合越好。criterion參數(shù)正是用來決定不純度的計(jì)算方法(數(shù)據(jù)小斑馬.2019.決策樹③——決策樹參數(shù)介紹.https://blog.csdn.net/cindy407/article/details/93300235.),對(duì)其參數(shù)設(shè)置有兩種選擇,即信息熵Entropy和基尼系數(shù)Gini:
Gini(t)=1-∑[DD(]c-1[]i=0[DD)]p(i[JB<1|]t)2[JY](2)
式中:t代表給定的節(jié)點(diǎn);i代表標(biāo)簽的任意分類;p(i[JB<1|]t)代表標(biāo)簽分類i在結(jié)點(diǎn)t上所占的比例。
基尼系數(shù)反映了從數(shù)據(jù)集中隨機(jī)抽取兩個(gè)樣本,其類別標(biāo)記不一致的概率。信息熵對(duì)“不純度”更加敏感、懲罰最強(qiáng)。在實(shí)際使用中二者的效果基本相同,但信息熵的計(jì)算比基尼系數(shù)更為復(fù)雜。另外,因?yàn)樾畔㈧貙?duì)“不純度”更加敏感,所以將其作為指標(biāo)時(shí),決策樹的生長會(huì)更加“精細(xì)”,因此對(duì)于高維數(shù)據(jù)或者噪音很多的數(shù)據(jù),信息熵很容易過擬合,而基尼系數(shù)在這種情況下效果往往比較好,因此本文決策樹的criterion參數(shù)設(shè)置使用基尼系數(shù)。
采用震后0 h和3 d數(shù)據(jù)集,計(jì)算決策樹模型給出的訓(xùn)練集和測(cè)試集預(yù)測(cè)正確率隨決策樹最大擬合深度的變化(圖6)。由圖6可見,決策樹最大擬合深度為1~10 h,訓(xùn)練集預(yù)測(cè)正確率隨決策樹最大擬合深度逐漸增大,10以后相對(duì)穩(wěn)定。因此本文決策樹最大擬合深度max_depth設(shè)置為10,可確保模型預(yù)測(cè)正確率盡可能高且避免過度擬合。
2.2分類結(jié)果評(píng)價(jià)方式
在機(jī)器學(xué)習(xí)領(lǐng)域,通常用多個(gè)參數(shù)從不同的角度對(duì)預(yù)測(cè)模型的優(yōu)劣進(jìn)行綜合評(píng)價(jià),而不是用準(zhǔn)確率或其它單個(gè)指標(biāo)。例如某醫(yī)學(xué)算法,其預(yù)測(cè)某種疾病的準(zhǔn)確率為99.9%,但這種疾病本身的發(fā)病率只有0.1%,換言之,即使不使用模型預(yù)測(cè),直接判斷所有人都不得這種疾病的準(zhǔn)確率也能達(dá)到99.9%。因此,對(duì)于極度偏斜的數(shù)據(jù)(例如某種疾病患者和健康人數(shù)量差別特別大),僅用準(zhǔn)確率等簡單參數(shù)評(píng)價(jià)分類模型的好壞是有局限性的(Miracle.2021.機(jī)器學(xué)習(xí)——混淆矩陣(Confusion Matrix).https://blog.csdn.net/qq_39276337/article/details/119632707.)。地震序列類型判定也存在類似問題,由于后續(xù)無更大地震的主余型和孤立型序列合計(jì)比例比較高,無需預(yù)測(cè)而直接判定后續(xù)不會(huì)發(fā)生更大地震可能的準(zhǔn)確率平均可達(dá)80%左右(蔣海昆,2015)。據(jù)此,本文通過混淆矩陣定義更多的衡量指標(biāo)以科學(xué)客觀評(píng)價(jià)模型預(yù)測(cè)效能。
對(duì)于本文涉及的三類地震序列(多震型、主余型、孤立型),混淆矩陣類似于一個(gè)3×3表格,用來記錄分類器的預(yù)測(cè)結(jié)果,其中矩陣的行表示真實(shí)值、列表示預(yù)測(cè)值,結(jié)果有4種:TP、TN、FN、FP。首字母T或F分別代表預(yù)測(cè)結(jié)果是否符合事實(shí)(True或False),第二個(gè)字母N或P代表預(yù)測(cè)結(jié)果(Negative或Positive),具體描述見表2。
基于混淆矩陣即可計(jì)算評(píng)價(jià)指標(biāo),本文主要使用準(zhǔn)確率Accuracy、查準(zhǔn)率Precision、查全率Recall三個(gè)指標(biāo),其計(jì)算公式如下:
準(zhǔn)確率表示所有預(yù)測(cè)正確(包括正類和負(fù)類)的樣本占總樣本的比例,代表整體的預(yù)測(cè)準(zhǔn)確程度;查準(zhǔn)率為正確預(yù)測(cè)為正的樣本占全部預(yù)測(cè)為正的樣本比例,代表對(duì)正樣本結(jié)果中的預(yù)測(cè)準(zhǔn)確程度;查全率為正確預(yù)測(cè)為正的樣本占全部實(shí)際為正的樣本比例,代表實(shí)際為正的樣本中被預(yù)測(cè)為正樣本的概率。
表3給出了震后0 h數(shù)據(jù)集選擇不同比例特征參數(shù)時(shí)的混淆矩陣及評(píng)價(jià)指標(biāo)計(jì)算結(jié)果。在實(shí)際地震序列預(yù)測(cè)中,由于主余型序列自然概率較高,因而其預(yù)測(cè)的自然命中率也相對(duì)較高。多震型序列自然概率較低,且社會(huì)的恐震情緒會(huì)影響和干擾預(yù)測(cè)研究人員的決策,故在實(shí)際工作中幾乎很少、也很難做出多震型序列的預(yù)測(cè)。因此在模型中,研究人員相對(duì)更看重多震型預(yù)測(cè)的查全率和查準(zhǔn)率。
由表3可知,對(duì)于多震型序列,特征參數(shù)選擇率在10%~50%時(shí),查全率總體較低(0.65~0.69);特征參數(shù)選擇率在60%以上時(shí),Recall_C1查全率在0.80以上。對(duì)于多震型序列,其漏報(bào)的危害性更大,因此研究人員希望其查全率盡可能高。綜合分析認(rèn)為,在建立震后0 h數(shù)據(jù)集的震后預(yù)測(cè)模型時(shí),選擇60%的特征參數(shù)為最優(yōu)解,此時(shí)的混淆矩陣如圖7所示。
3決策樹模型給出的特征參數(shù)重要性
經(jīng)過地震序列數(shù)據(jù)收集、特征參數(shù)處理、數(shù)據(jù)特征工程構(gòu)建、決策樹模型參數(shù)設(shè)置后,采用混淆矩陣對(duì)模型預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià),就可以得到?jīng)Q策樹模型給出的特征參數(shù)重要性。
3.1特征參數(shù)重要性整體類別分析
圖8為決策樹模型給出的0 h數(shù)據(jù)集特征參數(shù)重要性。從特征參數(shù)類別來看,其重要性排序“主震附近區(qū)域歷史地震序列類型占比”優(yōu)于“主震震源機(jī)制相關(guān)參數(shù)”優(yōu)于“主震相關(guān)參數(shù)”,其中,最重要的參數(shù)為40M5.0Ty1,顯著高于其它特征參數(shù)。40M5.0Ty1為震中附近指定范圍內(nèi)M≥5.0歷史地震序列類型為震群型的比例,這與震后首次會(huì)商做震后趨勢(shì)預(yù)測(cè)時(shí),常用的震中附近歷史地震序列類型統(tǒng)計(jì)的思路一致(蔣海昆等,2015;劉珠妹等,2019;Liu et al,2023)。
采用同樣方法,用決策樹模型給出震后1 h至5 d共9個(gè)數(shù)據(jù)集特征參數(shù)重要性。結(jié)果顯示,震后1~6 h, 4個(gè)數(shù)據(jù)集特征重要性排序從高到低分別為:“指定時(shí)段ML≥x小震頻次及震級(jí)”優(yōu)于“主震震源機(jī)制相關(guān)參數(shù)” 優(yōu)于“指定時(shí)段最大余震震級(jí)” 優(yōu)于“主震相關(guān)參數(shù)”優(yōu)于“主震附近區(qū)域歷史地震序列類型占比”;震后12 h至5 d共5個(gè)數(shù)據(jù)集,特征重要性排序?yàn)椋骸爸付〞r(shí)段最大余震震級(jí)”優(yōu)于“指定時(shí)段ML≥x小震頻次及震級(jí)”優(yōu)于“主震震源機(jī)制相關(guān)參數(shù)”優(yōu)于“主震相關(guān)參數(shù)”優(yōu)于“主震附近區(qū)域歷史地震序列類型占比”,但“指定時(shí)段序列衰減相關(guān)參數(shù)”“指定時(shí)段G-R關(guān)系相關(guān)參數(shù)”和“指定時(shí)段歸一化能量熵”重要性為0,對(duì)序列分類沒有貢獻(xiàn)。由此可見,針對(duì)川滇地區(qū)地震序列資料,除震后0 h外,“主震附近區(qū)域歷史地震序列類型占比”類參數(shù)的重要性值不高,表明隨著序列數(shù)據(jù)資料的增加,序列類型判斷更倚重動(dòng)態(tài)的序列數(shù)據(jù)資料,而不是靜態(tài)的歷史地震序列類型統(tǒng)計(jì)數(shù)據(jù)。
由于對(duì)計(jì)算樣本量及其本身計(jì)算誤差等多方面的影響,“序列衰減相關(guān)參數(shù)”和“G-R關(guān)系相關(guān)參數(shù)”對(duì)序列判斷的貢獻(xiàn)率極低,這非常出乎意料,因?yàn)樾蛄袇?shù)具有明確的物理意義,可以描述地震序列頻度隨時(shí)間的衰減特征和G-R特征。
地震序列參數(shù)在計(jì)算科學(xué)性、區(qū)域研究系統(tǒng)性以及震后早期階段序列參數(shù)的穩(wěn)定性、序列參數(shù)與地質(zhì)構(gòu)造、地球物理特征的相關(guān)性等方面,存在一系列問題(畢金孟等,2022a)。首先,在計(jì)算科學(xué)性方面,在震后早期階段,由于大量余震的集中發(fā)生,會(huì)明顯降低主震后數(shù)小時(shí)的地震監(jiān)測(cè)能力(Iwata,2008),使參與擬合的地震數(shù)目偏少,導(dǎo)致使用依賴地震記錄完備性的參數(shù)擬合方法遇到較大困難。其次,早期序列參數(shù)的劇烈變化,反映了主震發(fā)生后震源區(qū)應(yīng)力的快速調(diào)整過程,將序列參數(shù)用于震后地震序列類型快速判斷、地震預(yù)測(cè)等研究時(shí)需謹(jǐn)慎(畢金孟,蔣長勝,2019)。
畢金孟等(2022b)研究了震后1d和30 d數(shù)據(jù)擬合p值相關(guān)性,發(fā)現(xiàn)其相關(guān)性弱,這是由于p值表征的是余震活動(dòng)的長期衰減特性,需要較長時(shí)間的數(shù)據(jù)來精確估計(jì),因此震后早期階段,想要精確計(jì)算并利用其做序列類型預(yù)測(cè)十分困難。其次,受區(qū)域深部介質(zhì)環(huán)境的影響,震源區(qū)的應(yīng)力調(diào)整、斷層愈合以及破裂特征等多方面因素,序列參數(shù)差異明顯,其共性特征難以總結(jié)。
最關(guān)鍵的是,人們對(duì)序列參數(shù)在地震序列分類中的應(yīng)用及其研究有較大爭議,如宋金等(2013)研究了44 次水庫地震序列的b值平均值,發(fā)現(xiàn)震群型序列的與主余型加孤立型序列的 b值平均值有較為顯著的差異,但兩者數(shù)值分布范圍有部分重疊;李忠華等(2000)計(jì)算了云南地區(qū)27個(gè)地震序列p值,發(fā)現(xiàn)盡管主余型序列和震群型序列的p值平均值不同,但兩者取值區(qū)間有較大的重疊,不容易從 p值來區(qū)分序列類型;蔣海昆等(2006b)針對(duì)中國大陸293次記錄相對(duì)完備的地震序列,分震后不同時(shí)段進(jìn)行參數(shù)計(jì)算,結(jié)果顯示b值始終無序列分類能力;中國大陸地區(qū)中強(qiáng)地震序列震后早期階段ETAS 模型參數(shù)的平均統(tǒng)計(jì)特征顯示,b值隨不同區(qū)域、不同主震斷層類型或不同序列類型的變化不明顯,p值與主震斷層類型關(guān)系不明顯,不同類型序列p值有一定差異(蔣海昆等,2007c)。
因此,序列參數(shù)受計(jì)算數(shù)據(jù)、計(jì)算方法、物性特征因素方面的影響,其在序列類型預(yù)測(cè)中的應(yīng)用還處于不斷探索階段。
3.2單個(gè)特征參數(shù)重要性分析
從最重要的特征參數(shù)結(jié)果來看,震后0 h,最重要的特征參數(shù)為震中附近指定范圍內(nèi)M≥5.0歷史地震序列類型為震群型的比例;震后1~6 h,最重要的特征參數(shù)為不同時(shí)間段序列余震的折合震級(jí),該參數(shù)反映指定時(shí)段余震活動(dòng)震級(jí)分布的離散程度;震后12 h至5 d,最重要的特征參數(shù)為不同時(shí)間段的震級(jí)差,這與序列近80%的最大余震發(fā)生在主震后5 d內(nèi)有關(guān)(祁玉萍等,2021)。在實(shí)際的地震序列分類工作中,主震與地震序列后續(xù)最大余震震級(jí)差常用于地震序列類型的分類定義,因此模型給出的結(jié)果與地震序列類型的定義是相互印證的。
此外,主震震源機(jī)制相關(guān)參數(shù)對(duì)震后不同時(shí)段內(nèi)序列預(yù)測(cè)尤為重要,這些參數(shù)表征的是主震破裂方式,以及主震附近區(qū)域平均P軸的方位、傾角及其標(biāo)準(zhǔn)差,P軸方位和傾角相對(duì)于區(qū)域平均結(jié)果的偏差及離散程度(蔣海昆,王錦紅,2023)。蔣海昆等(2006)對(duì)208次地震的主震破裂滑動(dòng)類型與序列類型作了統(tǒng)計(jì),發(fā)現(xiàn)當(dāng)主震破裂滑動(dòng)以傾滑或逆沖為主時(shí),序列絕大多數(shù)情況下是主余型,屬于多震型的可能性很小。而川滇地區(qū)的地震序列類型研究結(jié)果顯示,地震序列類型與區(qū)域構(gòu)造運(yùn)動(dòng)形式、斷層幾何結(jié)構(gòu)有關(guān)(蘇有錦等,1999;蔣海昆等,2006a;皇甫崗等,2007;祁玉萍等,2021),而地震的震源力學(xué)機(jī)制又直接受控于區(qū)域構(gòu)造。因此不難理解,主震震源機(jī)制相關(guān)參數(shù)對(duì)震后序列類型預(yù)測(cè)有較高貢獻(xiàn)度。
主震參數(shù)尤其是其緯度、震級(jí),對(duì)序列分類似乎具有一定的貢獻(xiàn)。從川滇地區(qū)地震序列類型空間分布來看,盡管不同區(qū)域多震型地震序列類型有較大差異,但總體而言,多震型地震相對(duì)集中發(fā)生在緯度偏低的云南地區(qū),越往北多震型地震越少,四川松潘以北再無多震型地震(圖1)。這種緯度分布特征可以用來進(jìn)行粗略的序列類型預(yù)測(cè),也可以解釋主震緯度在模型中對(duì)序列分類的重要性。祁玉萍等(2021)對(duì)南北地震帶中段86 次5.0級(jí)以上的地震序列統(tǒng)計(jì)結(jié)果顯示,隨著震級(jí)增大,多震型、孤立型地震所占的比例減少,而主余型地震所占的比例增加。蘇有錦等(2014)對(duì)全球7級(jí)地震研究結(jié)果顯示,當(dāng)主震震級(jí)M≥8.2時(shí),均為主余型;當(dāng)主震震級(jí)M≥7.8時(shí),不存在孤立型地震。以上研究結(jié)果表明,主震震級(jí)對(duì)序列類型分辨有一定幫助。
圖9給出了震后不同時(shí)段決策樹模型測(cè)試集的準(zhǔn)確率統(tǒng)計(jì)結(jié)果,由圖可見,震后隨著時(shí)間的推移,決策樹模型測(cè)試集的準(zhǔn)確率有一定的波動(dòng)變化,如震后6 h,高于震后12 h和18 h,震后5 d略低于震后3 d,這可能與前文所述的特征參數(shù)選擇率有關(guān),但準(zhǔn)確率整體呈現(xiàn)上升趨勢(shì),表明隨著震后序列資料的增加,模型預(yù)測(cè)的準(zhǔn)確率會(huì)不斷上升,最高值為震后3 d的0.823 5,表明震后3 d可以對(duì)序列類型進(jìn)行相對(duì)可靠的判斷,而國內(nèi)目前通行的做法就是震后3 d向公眾和政府公布序列類型預(yù)測(cè)結(jié)果(蔣海昆等,2015)。
本文關(guān)注的重點(diǎn)是特征參數(shù)的重要性,而不是地震序列預(yù)測(cè)的準(zhǔn)確率,對(duì)于川滇地區(qū)而言,由于主余型和孤立型地震序列在統(tǒng)計(jì)中占有較高的樣本,某次地震發(fā)生后,即使不做任何分析,預(yù)測(cè)其為主余型和孤立型地震序列的正確率仍然高達(dá)75%(表1),但這是簡單的兩分類問題結(jié)果(多震型、主余型+孤立型),而按照本文的三分類結(jié)果,震后3 d準(zhǔn)確率高達(dá)82%,可見三分類結(jié)果明顯優(yōu)于的兩分類結(jié)果,因而對(duì)序列類型預(yù)測(cè)而言,機(jī)器學(xué)習(xí)確實(shí)比現(xiàn)有“經(jīng)驗(yàn)+統(tǒng)計(jì)”的傳統(tǒng)預(yù)測(cè)方法有更高的預(yù)測(cè)效率。
4結(jié)論
本文基于1966—2021年川滇地區(qū)225次5級(jí)以上地震序列數(shù)據(jù),構(gòu)建了用于機(jī)器學(xué)習(xí)地震序列類型判定的10個(gè)不同時(shí)間段的特征參數(shù)集,對(duì)特征參數(shù)的不均衡和缺失數(shù)據(jù)情況作了處理,然后采用決策樹模型對(duì)特征參數(shù)的重要性進(jìn)行研究,得到以下結(jié)論:
(1)從宏觀上看,不同時(shí)間段特征參數(shù)重要性類別有一定差異:對(duì)于震后0 h數(shù)據(jù)集,“主震附近區(qū)域歷史地震序列類型占比”優(yōu)于“主震震源機(jī)制相關(guān)參數(shù)” 優(yōu)于“主震相關(guān)參數(shù)”;對(duì)于震后1~6 h數(shù)據(jù)集,“指定時(shí)段ML≥x小震頻次及震級(jí)” 優(yōu)于“主震震源機(jī)制相關(guān)參數(shù)” 優(yōu)于“指定時(shí)段最大余震震級(jí);對(duì)于震后12 h至5 d數(shù)據(jù)集,“指定時(shí)段最大余震震級(jí)” 優(yōu)于“指定時(shí)段ML≥x小震頻次及震級(jí)” 優(yōu)于“主震震源機(jī)制相關(guān)參數(shù)”。這些情況表明隨著序列數(shù)據(jù)資料的增加,序列類型判斷更倚重動(dòng)態(tài)的序列數(shù)據(jù)資料,而不是靜態(tài)的歷史地震序列類型統(tǒng)計(jì)數(shù)據(jù)。但在沒有地震序列目錄的情況下,震后0 h只能依靠歷史地震序列類型比例這個(gè)參數(shù),其中5級(jí)以上地震歷史序列類型對(duì)震后趨勢(shì)預(yù)測(cè)判斷尤為重要。
(2)“指定時(shí)段序列衰減相關(guān)參數(shù)”“指定時(shí)段G-R關(guān)系相關(guān)參數(shù)”和“指定時(shí)段歸一化能量熵”對(duì)計(jì)算樣本量有一定要求,在“九五”數(shù)字化地震臺(tái)網(wǎng)改建之前,川滇地區(qū)監(jiān)測(cè)能力較弱,導(dǎo)致部分樣本的部分特征參數(shù),如G-R關(guān)系b值、序列衰減系數(shù)p值、h值等無法計(jì)算,特征參數(shù)缺失嚴(yán)重,完備性較低。決策樹模型顯示序列參數(shù)對(duì)序列分類貢獻(xiàn)率極低,這可能與其受其較高的計(jì)算數(shù)據(jù)要求、科學(xué)的計(jì)算方法、復(fù)雜的物性特征等因素的影響有一定的關(guān)系。盡管序列參數(shù)在序列類型預(yù)測(cè)中的應(yīng)用已有一些研究成果,但整體而言尚處于早期研究階段。
(3)模型給出的數(shù)據(jù)集在不同時(shí)段最重要的特征參數(shù)為:震后0 h,最重要的特征參數(shù)為震中附近指定范圍內(nèi)M≥5.0歷史地震序列類型為震群型的比例;震后1~6 h,最重要的特征參數(shù)為地震序列在不同時(shí)間段的余震的折合震級(jí);震后12 h至5 d,最重要的特征參數(shù)為不同時(shí)間段的震級(jí)差。模型給出的結(jié)果與實(shí)踐中預(yù)報(bào)結(jié)果以及地震序列類型的定義相互印證。
(4)不同時(shí)間段數(shù)據(jù)集結(jié)果顯示,主震震源機(jī)制相關(guān)參數(shù)和主震參數(shù)對(duì)地震序列的分類有較高的貢獻(xiàn)率。地震序列類型與區(qū)域構(gòu)造運(yùn)動(dòng)形式和斷層幾何結(jié)構(gòu)有關(guān)。在川滇地區(qū),多震型地震序列相對(duì)集中發(fā)生在緯度偏低的云南的部分區(qū)域,且隨著地震震級(jí)增大,多震型、孤立型地震所占的比例減少。
本文通過決策樹模型給出的川滇地區(qū)不同時(shí)段數(shù)據(jù)集特征參數(shù)重要性結(jié)果,可為震后早期階段,從繁雜眾多的特征參數(shù)中篩選、剔除、確定合適的參數(shù)提供一定思路,提高地震序列跟蹤工作效率,滿足政府、社會(huì)及公眾的需求。
參考文獻(xiàn):
畢金孟,蔣長勝,來貴娟.2022a.全球部分強(qiáng)震的序列參數(shù)分布特征[J].地震,42(1):33-53.Bi J M,Jiang C S,Lai G J.2022a.The numerical characteristics of sequence parameters of global strong earthquakes[J].Earthquake,42(1):33-53.(in Chinese)
畢金孟,蔣長勝,來貴娟,等.2022b.中國大陸強(qiáng)震的早期余震概率預(yù)測(cè)效能評(píng)估與制約因素[J].地球物理學(xué)報(bào),65(7):2532-2545.Bi J M,Jiang C S,Lai G J,et al.2022b.Effectiveness evaluation and constraints of early aftershock probability forecasting for strong earthquakes in continental China[J].Chinese Journal of Geophysics,65(7):2532-2545.(in Chinese)
畢金孟,蔣長勝.2019.華北地區(qū)地震序列參數(shù)的分布特征[J].地球物理學(xué)報(bào),62(11):4300-4312.Bi J M,Jiang C S.2019.Distribution characteristics of earthquake sequence parameters in North China[J].Chinese Journal of Geophysics,62(11):4300-4312.(in Chinese)
崔子健,李志雄,陳章立,等.2012.判別小震群序列類型的新方法研究——譜振幅相關(guān)分析法[J].地球物理學(xué)報(bào),55(5):1718-1724.Cui Z J,Li Z X,Chen Z L,et al.2012.A study on the new method for determining small earthquake sequence type—Correlation analysis of spectral amplitude[J].Chinese Journal of Geophysics,55(5):1718-1724.(in Chinese)
皇甫崗,秦嘉政,李忠華,等.2007.云南地震類型分區(qū)特征研究[J].地震研究,29(2):142-150.Huangfu G,Qin J Z,Li Z H,et al.2007.Subarea characteristics of earthquake types in Yunnan[J].Journal of Seismological Research,29(2):142-150.(in Chinese)
黃浩,付虹.2014.2008年以來滇西地區(qū)地震序列的譜振幅相關(guān)系數(shù)變化特征[J].地震學(xué)報(bào),36(4):631-639.Huang H,F(xiàn)u H.2014.Characteristics of the correlation coefficient of spectral amplitude of earthquake sequences in western Yunnan region since 2008[J].Acta Seismologica Sinica,36(4):631-639.(in Chinese)
蔣長勝,吳忠良,莊建倉.2013.地震的“序列歸屬”問題與 ETAS模型——以唐山序列為例[J].地球物理學(xué)報(bào),56(9):2971-2981.Jiang C S,Wu Z L,Zhuang J C.2013.ETAS model applied to the Earthquake-Sequence Association(ESA)problem:the Tangshan sequence[J].Chinese Journal of Geophysics,56(9):2971-2981.(in Chinese)
蔣海昆,代磊,侯海峰,等.2006a.余震序列性質(zhì)判定單參數(shù)判據(jù)的統(tǒng)計(jì)研究[J].地震,26(3):17-25.Jiang H K,Dai L,Hong H F,et al.2006a.Statistic study on the criterion index for classification of aftershock sequences[J].Earthquake,26(3):17-25.(in Chinese)
蔣海昆,李永莉,曲延軍,等.2006b.中國大陸中強(qiáng)地震序列類型的空間分布特征[J].地震學(xué)報(bào),28(4):389-398.Jiang H K,Li Y L,Qu Y J,et al.2006b.Spatial distribution features of sequence types of moderate and strong earthquakes in Chinese Mainland[J].Acta Seismologica Sinica,28(4):389-398.(in Chinese)
蔣海昆,曲延軍,李永莉,等.2006c.中國大陸中強(qiáng)地震余震序列的部分統(tǒng)計(jì)特征[J].地球物理學(xué)報(bào),49(4):1110-1117.Jiang H K,Qu Y J,Li Y L,et al.2006c.Some statistic features of aftershock sequences in Chinese mainland[J].Chinese Journal of Geophysics,49(4):1110-1117.(in Chinese)
蔣海昆,王錦紅.2023.適用于機(jī)器學(xué)習(xí)的地震序列類型判定特征重要性討論[J].地震研究,46(2):155-172.Jiang H K,Wang J H.2023.Discussion on the importance of the features for the judgement of earthquake sequence types applicable to machine learning[J].Journal of Seismological Research,46(2):155-172.(in Chinese)
蔣海昆,楊馬陵,付虹,等.2015.震后趨勢(shì)判定參考指南[M].北京:地震出版社.Jiang H K,Yang M L,F(xiàn)u H,et al.2015.Reference Guide for Earthquake Trend Determination[M].Beijing:Seismological Press.(in Chinese)
蔣海昆,鄭建常,代磊,等.2007a.中國大陸余震序列類型的綜合判定[J].地震,27(1):17-25.Jiang H K,Zheng J C,Dai L,et al.2007a.Synthetical judgment of types of aftershock sequences in Chinese Mainland[J].Earthquake,27(1):17-25.(in Chinese)
蔣海昆,鄭建常,吳瓊,等.2007b.中國大陸中強(qiáng)以上地震余震分布尺度的統(tǒng)計(jì)特征[J].地震學(xué)報(bào),29(2):151-164.Jiang H K,Zheng J C,Wu Q,et al.2007b.Statistical features of aftershock distribution size for moderate and large earthquakes in Chinese Mainland[J].Acta Seismologica Sinica,29(2):151-164.(in Chinese)
蔣海昆,鄭建常,吳瓊,等.2007c.傳染型余震序列模型震后早期參數(shù)特征及其地震學(xué)意義[J].地球物理學(xué)報(bào),50(6):1778-1786.Jiang H K,Zheng J C,Wu Q,et al.2007.Earlier statistical features of ETAS model parameters and their seismological meanings[J].J Geophys,50(6):1778~1786.(in Chinese)
李忠華,蘇有錦,蔡明軍,等.2000.云南地區(qū)地震序列的p值和b值變化特征[J].地震研究,20(4):74-78.Li Z H,Su Y J,Cai M J,et al.2000.Characteristics of P value and b value of earthquake sequences in Yunnan region[J].Journal of Seismological Research,20(4):74-78.(in Chinese)
劉瑞豐,陳運(yùn)泰,任梟,等.2015.震級(jí)的測(cè)定[M].北京:地震出版社.Liu R F,Chen Y T,Ren X,et al.2015.Determination of earthquake magnitude[M].Beijing:Seismological Press.(in Chinese)
劉正榮,孔紹麟.1986.地震頻度衰減與地震預(yù)報(bào)[J].地震研究,9(1):6-8.Liu Z R,Kong S L.1986.Earthquake frequency attenuation and earthquake prediction[J].Journal of Seismological Research,9(1):6-8.(in Chinese)
劉珠妹,蔣海昆,李盛樂,等.2019.基于震例類比的震后趨勢(shì)早期判定技術(shù)系統(tǒng)建設(shè)[J].中國地震,35(4):602-615.Liu Z M,Jiang H K,Li S L,et al.2019.Aftershock analysis and forecasting system construction based on seismic analogy[J].Earthquake Research in China,35(4):602-615.(in Chinese)
祁玉萍,龍鋒,林圣杰,等.2021.南北地震帶中段及周邊中強(qiáng)地震序列類型的特征[J].地震地質(zhì),43(1):177-196.Qi Y P,Long F,Lin S J,et al.2021.A study on the earthquake sequence type in the middle section of the north-south seismic belt and its surrounding regions[J].Seismology and Geology,43(1):177-196.(in Chinese)
史翔宇.2021.基于機(jī)器學(xué)習(xí)回歸算法的地震預(yù)測(cè)研究及其在中國地震科學(xué)實(shí)驗(yàn)場(chǎng)的應(yīng)用[D].北京:中國地震局地震預(yù)測(cè)研究所.Shi X Y.2021.Research on earthquake prediction based on machine learning regression algorithm and its application in China Seismic Experimental Site[D].Beijing:Institute of Earthquake Prediction,China Earthquake Administration.(in Chinese)
宋金,楊馬陵,吳時(shí)平,等.2013.基于序列參數(shù)的水庫地震類型綜合判定研究[J].中國地震,29(4):462-471.Song J,Yang M L,Wu S P,et al.2013.Synthesis on the types of reservoir earthquake sequences based on sequence parameters[J].Earthquake Research in China,29(4):462-471.(in Chinese)
蘇有錦,李忠華,趙小艷,等.2014.全球7級(jí)以上地震序列研究[M].昆明:云南大學(xué)出版社.Su Y J,Li Z H,Zhao X Y,et al.2014.Research on global earthquake sequences with magnitudes 7 and above[M].Kunming:Yunnan University Press.(in Chinese)
蘇有錦,劉祖蔭,蔡明軍,等.1999.云南地區(qū)強(qiáng)震分布的深部地球介質(zhì)背景[J].地震學(xué)報(bào),21(3):313-332.Su Y J,Liu Z Y,Cai M J,et al.1999.Deep Earth Medium Background of Strong Earthquake Distribution in Yunnan Region[J].Acta Seismologica Sinica,21(3):313-332.(in Chinese)
王亞文,蔣長勝.2017.南北地震帶地震臺(tái)網(wǎng)監(jiān)測(cè)能力評(píng)估的不同方法比較研究[J].地震學(xué)報(bào),39(3):315-329.Wang Y W,Jiang C S.2017.Comparison among different methods for assessing monitoring capability of seismic station in North-South Seismic Belt[J].Acta Seismologica Sinica,39(3):315-329.(in Chinese)
隗永剛,蔣長勝.2021.人工智能技術(shù)在地震減災(zāi)應(yīng)用中的研究進(jìn)展[J].地球物理學(xué)進(jìn)展,36(2):516-524.Wei Y G,Jiang C S.2021.Research progress of artificial intelligence technology in the application of earthquake disaster reduction[J].Progress in Geophysics,36(2):516-524.(in Chinese)
吳開統(tǒng),焦遠(yuǎn)碧,呂培苓,等.1990.地震序列概論[M].北京:北京大學(xué)出版社.Wu K T,Jiao Y B,Lyu P L,et al.1990.Introduction to Earthquake Sequences[M].Beijing:Beijing University Press.(in Chinese)
周翠英,張宇霞,王紅衛(wèi).1996.以模式識(shí)別方法提取地震序列早期判斷的綜合指標(biāo)[J].地震學(xué)報(bào),18(1):118-124.Zhou C Y,Zhang Y X,Wang H W.1996.Extracting comprehensive indicators for early judgment of earthquake sequences using pattern recognition methods[J].Acta Seismologica Sinica,18(1):118-124.(in Chinese)
Asencio-Cortés G,Martínez-lvarez F,Morales-Esteban A,et al 2016.A sensitivity study of seismicity indicators in supervised learning to improve earthquake prediction[J].Knowledge-Based Systems,101:15-30.
Asencio-Cortés G,Morales-Esteban A,Shang X,et al.?2018.?Earthquake prediction in California using regression algorithms and cloud-based big data infrastructure[J].Computers & Geosciences,115:198~210.
Asim K M,Moustafa S S R,Niaz I A,et al. 2020.Seismicity analysis and machine learning models for short-term low magnitude seismic activity predictions in Cyprus[J].Soil Dynamics and Earthquake Engineering,130:105932.
Ben-Zion Y,Lyakhovsky V.2006.Analysis of aftershocks in a lithospheric model with seismogenic zone governed by damage rheology[J].Geophys J Int,165:197-210.
Ben-Zion Y,Rice J R.1993.Earthquake failure sequences along a cellular fault zone in a three-dimensional elastic Solid containing asperity and nonasperity regions[J].J Geophys Res,B8:14109-14131.
Corbi F,Sandri L,Bedford J,et al.?2019.Machine learning can predict the timing and size of analog earthquakes[J].Geophysical Research Letters,46(3):1303-1311.
DeVries P M R,Viegas F,Wattenberg M,et al.2018.Deep learning of aftershock patterns following large earthquakes[J].Nature,560(7720):632-634.
Gulia L,Wiemer S.2019.Real-time discrimination of earthquake foreshocks and aftershocks[J].Nature,574(7777):193-199.
Hulbert C,Rouet-Leduc B,Johnson P A,et al 2019.Similarity of fast and slow earthquakes illuminated by machine learning[J].Nature Geoscience,12(1):69-74.
Iwata T.2008.Low detection capability of global earthquakes after the occurrence of large earthquakes:Investigation of the Harvard CMT catalogue[J].Geophysical Journal International,174(3):849-856.
Jordan T H,Chen Y T,Gasparini P,et al.?2011.Operational earthquake forecasting:State of knowledge and guidelines for utilization[J].Annals of Geophysics,54(4):315-391.
Liu Z,Jiang H,Li S.2023.Implementation and verification of a real time system for automatic aftershock forecasting in China[J].Earth Science Informatics,16:1891-1907.
Martínez-lvarez F,Reyes J,Morales-Esteban A,et al. 2013.Determining the best set of seismicity indicators to predict earthquakes.Two case studies:Chile and the Iberian Peninsula[J].Knowledge-Based Systems,50:198-210.
Panakkat A,Adeli H.2007.Neural network models for earthquake magnitude prediction using multiple seismicity indicators[J].International Journal of Neural Systems,17(1):13-33.
U.S.Geological Survey.2017.Advanced national seismic system—Current status,development opportunities,and priorities for 2017-2027(ver.1.1)[R//OL].Reston,VA,USA,2017-07-18[2023-07-10].https://pubs.usgs.gov/publication/cir1429.
Research on the Importance of Feature Parameters in Seismic Sequence [JZ]Type Determination in SichuanYunnan Region Based on Decision Tree
ZHAO Xiaoyan1,JIANG Haikun2,MENG Lingyuan2,SU Youjin1,HE Suge1
(1.Yunnan Earthquake Agency,Kunming 650224,Yunnan,China)[JZ](2.China Earthquake Networks Center,Beijing 100045,China)
Abstract
Based on the catalog of 225 earthquakes with magnitude 5 or above,the catalog of earthquake sequences,and the focal mechanism of the historical earthquakes in Sichuan-Yunnan region from 1966 to 2021,and referring to the previous research and practice on the estimation of the tendency of the aftershock activity,10 sample datasets for the judging features of the earthquake sequence types have been constructed.According to the earthquake sequences types—swarm type,mainshockaftershock type,as well isolated type—three labels have been made.After processing the imbalanced state and the missing state of the feature parameters,a decision tree model was used to study and analyze the importance of feature parameters.The results showed that there were differences in the importance categories of the feature parameters in different periods.As the sequence data increased,sequence type judgement relied more on dynamic sequence data;the parameters related to the main shocks focal mechanism and the main shocks parameters had a high contribution rate to the sequence classification,while the contribution rate of sequence parameters was extremely low.In overall,the results provided by the model are consistent with the actual empirical prediction methods.The above results can provide some ideas for the preliminary screening,exclusion,and selection of the complex and numerous feature parameters.
Keywords:earthquake sequence type;machine learning;characteristic parameters;decision tree
*收稿日期:2023-09-26.
基金項(xiàng)目:國家重點(diǎn)研發(fā)計(jì)劃(2021YFC3000705-08);云南省重點(diǎn)研發(fā)項(xiàng)目(社會(huì)發(fā)展專項(xiàng))(202203AC100003).
第一作者簡介:趙小艷(1982-),高級(jí)工程師,主要從事地震預(yù)報(bào)研究.E-mail:47535120@qq.com.
通信作者簡介:蔣海昆(1964-),研究員,博士,主要從事余震統(tǒng)計(jì)、余震機(jī)理及余震預(yù)測(cè)研究.E-mail:jianghaikun@seis.ac.cn.
趙小艷,蔣海昆,孟令媛,等.2024.基于決策樹的川滇地區(qū)地震序列類型判定特征重要性研究[J].地震研究,47(3):321-335,doi:10.20015/j.cnki.ISSN1000-0666.2024.0039.
Zhao X Y,Jiang H K,Meng L Y,et al.2024.Research on the importance of feature parameters in seismic sequence type determination in SichuanYunnan region based on decision tree[J].Journal of Seismological Research,47(3):321-335,doi:10.20015/j.cnki.ISSN1000-0666.2024.0039.