王秀英 張聰聰 楊德賀
1 中國地震局地殼應(yīng)力研究所,北京市安寧莊路1號,100085
傳統(tǒng)的前兆數(shù)據(jù)分析方法在實際使用中存在局限性,尤其是觀測數(shù)據(jù)精度和采樣率大幅提高后,這種局限性愈發(fā)突出。這是因為,采樣精度和頻率的提高導(dǎo)致數(shù)據(jù)量激增,使數(shù)據(jù)呈現(xiàn)的形態(tài)和變化更趨復(fù)雜多樣。高頻高精度數(shù)據(jù)中攜帶了更多低頻數(shù)據(jù)所不具有的信息,同時也帶來了更多干擾和影響。觀測數(shù)據(jù)量的變化引發(fā)了對數(shù)據(jù)分析方法改變的需求,大數(shù)據(jù)分析方法正是基于這樣一種需求應(yīng)運而生。大數(shù)據(jù)分析方法目前在互聯(lián)網(wǎng)和信息行業(yè)得到快速發(fā)展和應(yīng)用,其價值和應(yīng)用思想也正在被更多行業(yè)接納和引入,將大數(shù)據(jù)的研究思路應(yīng)用于科學(xué)研究也是目前的發(fā)展趨勢,并在多個科學(xué)研究領(lǐng)域得到應(yīng)用[1-2]。
地震前兆觀測經(jīng)過多年發(fā)展,目前已形成一個覆蓋全國的數(shù)字化、網(wǎng)絡(luò)化、智能化的觀測網(wǎng)絡(luò)體系。觀測產(chǎn)出數(shù)據(jù)量巨大,依靠人工分析很難勝任,迫切需要引入新的研究方法。因此,本文嘗試將大數(shù)據(jù)的研究思想引入前兆數(shù)據(jù)異常識別分析中。通過對2014-08-03云南魯?shù)?.5級及該區(qū)域之前幾個地震與多測項地震前兆數(shù)據(jù)聯(lián)合應(yīng)用的相關(guān)性探索,展示前兆數(shù)據(jù)大數(shù)據(jù)應(yīng)用的一種思路。
觀測數(shù)據(jù)取自“十五”前兆數(shù)據(jù)庫,選擇魯?shù)榈卣鹫鹬兄車?50km 范圍內(nèi)的前兆數(shù)據(jù),共有5個臺站24個測項分量數(shù)據(jù)參與計算。參與計算的測項分量如表1所示。
表1 臺站測項分量及測項數(shù)量Tab.1 Observation item and total items of each station
自2013年以來,除本次魯?shù)榈卣鸷?014-04-05地震,研究區(qū)附近沒有其他較大地震。因此,先選取這些測項分量2013-01-01~2014-08-02的時均值數(shù)據(jù)作為研究對象,進行魯?shù)榈卣鸬那罢讛?shù)據(jù)異常識別;之后,利用該區(qū)域更長時段的數(shù)據(jù),進行更多實例的驗證。
傳統(tǒng)前兆數(shù)據(jù)分析方法都是針對單一測項的分析模式,異常識別靠人工觀察,在識別為異常后需逐一排除干擾和影響,才能進行異常分析。針對較多測項、較長時間的觀測數(shù)據(jù)進行分析時,單測項逐一分析的方式顯然不可行。因此,需要利用算法自動檢測并識別異常。
本文所用的異常識別算法是結(jié)合前兆觀測數(shù)據(jù)特點研制的,主要檢測原理是:將前兆觀測數(shù)據(jù)作為一個時間序列,利用搜索算法找到時間序列的關(guān)鍵點,再用關(guān)鍵點將時間序列劃分為若干子序列,以子序列的長度、高度、均值、方差作為子序列的模式,利用搜索算法選出其中明顯偏離其他模式的子模式,將其作為一個異常情況。由于前兆數(shù)據(jù)是按日保存的,單純利用一日的數(shù)據(jù)可能存在不同日數(shù)據(jù)銜接部位異常情況的丟失。因此,實際計算時可以將幾個月的數(shù)據(jù)作為一個大的時間序列,然后采用向前滑動的方式,將計算窗口隨時間逐步推進,最終得到檢測時段的異常檢測結(jié)果。本文計算中采用6個月時長作為檢測窗長,3個月時長作為滑動步長。
本文所用的算法可以檢測數(shù)據(jù)序列中各種異于正常的形態(tài)變化,所以各種情況引起的數(shù)據(jù)異常波動形態(tài)都會被檢測出,有時可能一個序列會檢測出多個異常。有關(guān)該異常檢測算法的詳細說明,請參閱文獻[3],這里不再重復(fù)。
利用異常識別算法對24個測項分量自2013年以來的時均值數(shù)據(jù)作自動掃描檢測,得到異常檢測結(jié)果。計算過程中會遇到個別測項個別觀測日連續(xù)缺數(shù)較多的情況,這時應(yīng)舍棄該日數(shù)據(jù),然后分別對單測項異常檢測和多測項聯(lián)合應(yīng)用的異常檢測結(jié)果按自然月進行累計統(tǒng)計。對多個測項逐一累計統(tǒng)計的結(jié)果顯示了很強的隨機性,這里不再討論這種情況。但當(dāng)將多個測項的檢測結(jié)果進行綜合累計時,則表現(xiàn)了一些規(guī)律性。圖1為按照自然月將全部測項的檢測結(jié)果以異常天數(shù)、異常次數(shù)累計的統(tǒng)計結(jié)果。這里異常天數(shù)累積的方法為:如果某日數(shù)據(jù)中檢測出異常情況,則該日累積,沒有異常情況則該日不累積;異常次數(shù)的累積方法為將異常檢測結(jié)果中檢測的異常數(shù)據(jù)個數(shù)直接累積,如果某日有多個異常數(shù)據(jù),則對多個異常數(shù)據(jù)進行累計。這里統(tǒng)計兩個量的目的是便于比較,當(dāng)兩個量同時增加時,表明異常時間和異常數(shù)量都在增加,對應(yīng)事件(如地震)的可能性增加;僅有一個量增加時,有可能是干擾因素造成的,還需更進一步分析。
圖1 全部測項按自然月累計統(tǒng)計結(jié)果Fig.1 Statistical results of all observation items based on monthly calculation
從圖1中可以看到,無論是按異常天數(shù),還是按異常個數(shù)的累計統(tǒng)計結(jié)果,在2013-01~2014-03之間表現(xiàn)得比較隨機,而2014-04 后,統(tǒng)計結(jié)果較之前有了明顯增加,而且比較集中。2014-08,由于參加統(tǒng)計的只有兩天的數(shù)據(jù),在圖上表現(xiàn)得并不明顯。
實際上,由于連續(xù)多個數(shù)據(jù)缺失導(dǎo)致當(dāng)日數(shù)據(jù)被舍棄的原因,每個月每個測項參與計算的實際數(shù)據(jù)天數(shù)會有差異。為消除這種差異,將統(tǒng)計結(jié)果按參與計算的天數(shù)和參與計算的測項數(shù)進行平均,所得結(jié)果稱之為異常比。具體做法為:首先,計算某個測項在統(tǒng)計時段的異常數(shù)據(jù)點數(shù),將統(tǒng)計結(jié)果除以參與統(tǒng)計的天數(shù),如果沒有缺數(shù),統(tǒng)計天數(shù)即為統(tǒng)計時長,但實際中缺數(shù)現(xiàn)象非常普遍,通過參與計算數(shù)據(jù)天數(shù)的平均可消除每個統(tǒng)計時段天數(shù)不一致帶來的影響。其次,匯總不同測項的累積平均異常數(shù)據(jù),將統(tǒng)計結(jié)果除以參與統(tǒng)計的測項數(shù)。由于斷數(shù)、停測、增加新測項等原因,會出現(xiàn)不同統(tǒng)計時段中參與統(tǒng)計的測項個數(shù)有差異的情況,通過對測項的平均可消除不同統(tǒng)計時段中測項數(shù)量不同帶來的影響。
采用異常比這種方式主要是考慮前兆數(shù)據(jù)在實際使用中,缺數(shù)、斷數(shù)、變更觀測等情況比較普遍,如果僅采用有連續(xù)觀測的數(shù)據(jù),可能實際能參與計算的數(shù)據(jù)寥寥無幾。大數(shù)據(jù)應(yīng)用的基本思路是允許數(shù)據(jù)的混雜性,基于這種思想,計算中允許數(shù)據(jù)缺失、不連續(xù),有數(shù)據(jù)的片段就可以參與運算。
將圖1中兩種統(tǒng)計結(jié)果消除這種影響后的統(tǒng)計結(jié)果如圖2所示。
圖2 全部測項按自然月累計的異常比統(tǒng)計結(jié)果Fig.2 Ratio statistical results of all items based monthly calculation
從圖2可以看出,按異常比取值后的統(tǒng)計結(jié)果中,2014-04后異常突出的情況更加明顯,尤其是2014-08,雖然只有兩天的數(shù)據(jù)參與計算,利用比例關(guān)系會看到非常明顯的異常情況。2014-04魯?shù)榈卣鹬氨緟^(qū)發(fā)生一次5級以上地震,圖2中2014-04的統(tǒng)計結(jié)果中可能包含了這次地震的影響,也可能隱含了魯?shù)?.5級的影響,這里不作過多的糾結(jié)。2014-05 雖然異常水平稍有降低,但之后的6、7兩月異常水平明顯提高。這種情況至少具有一定的提示或警示意義。
單從圖2的統(tǒng)計結(jié)果,似乎看到了一些規(guī)律性的東西,這種現(xiàn)象是巧合,還是真的具有相關(guān)性,需要進一步驗證。對2013年之前更長時段的數(shù)據(jù)展開計算分析,將時間追溯至2008-01-01,由于有些臺站2008年初尚未處于運行穩(wěn)定期,數(shù)據(jù)質(zhì)量不太好,因此只以表1中比較集中的1、3、4號臺站數(shù)據(jù)作為計算對象。
另外,由于前述統(tǒng)計中,針對魯?shù)榈卣鹬唤y(tǒng)計了地震當(dāng)月2d的數(shù)據(jù),有可能會產(chǎn)生局部放大的效應(yīng),所以對更長時段的數(shù)據(jù)計算及統(tǒng)計結(jié)果中分別利用自然月和震前1月(30d)的數(shù)據(jù)再進行計算比較。2008-01-01~2014-08-02在參與計算的幾個臺站周圍有2次4級地震、3次5級以上地震(包含本次魯?shù)榈卣穑?。?中給出了以不同時段統(tǒng)計的異常比的結(jié)果,及其與地震的對應(yīng)關(guān)系。
表2 地震與異常比對應(yīng)關(guān)系統(tǒng)計Tab.2 Statistical data of earthquakes and their corresponding abnormal ratio
從表2可以看到,隨著時間推移,異常比的均值和方差大致保持相似,符合平穩(wěn)隨機序列的特征,所以按一定時段統(tǒng)計得到的異常比序列可以看作一個平穩(wěn)隨機序列,也即長時段的異常比序列大致穩(wěn)定于一定的水平,可以看作一個背景參考值,當(dāng)異常比明顯超過背景水平時值得關(guān)注。
表2中列出了5個地震按自然月和震前1月(30d)得到的異常比統(tǒng)計結(jié)果。按震前當(dāng)月數(shù)據(jù)的統(tǒng)計結(jié)果,2014-08-03 M6.5地震的異常比超過了3倍均方差的檢測標(biāo)準(zhǔn);另2次5級以上地震的異常比也都接近2 倍均方差的檢測標(biāo)準(zhǔn);2次4級以上地震的異常比都小于均值,沒有明顯變化。為和其他按自然月統(tǒng)計標(biāo)準(zhǔn)一致,按震前1月的數(shù)據(jù)統(tǒng)計異常比,3次5級以上地震的異常比均超過1倍均方差標(biāo)準(zhǔn),2次4級以上地震的異常比變化不明顯。由此可見,對于研究時段的數(shù)據(jù),當(dāng)按同樣統(tǒng)計時段檢測時,5級以上地震會有比較明顯的異常比變化;震級越大,異常比變化表現(xiàn)得越明顯。另外,對于異常比有明顯變化而無地震的 情 況 統(tǒng) 計,只 有2010-01 和2010-03 兩次。
僅就研究時段得到的結(jié)果而言,異常比統(tǒng)計結(jié)果與地震之間具有一定的相關(guān)性,且震級越大,這種相關(guān)性表現(xiàn)越明顯。本文僅進行了按月的統(tǒng)計,也可以采用半月、周等其他時段長度進行統(tǒng)計分析,可能會發(fā)現(xiàn)更好的規(guī)律。因為由經(jīng)驗可知,震級越大,越早出現(xiàn)異常,影響范圍越大;震級越小,越晚出現(xiàn)異常,影響范圍越小。不同震級的地震,異常出現(xiàn)的時間和影響范圍,需要通過不同的條件組合,才能發(fā)現(xiàn)對異常反應(yīng)最為突出的情況。這部分內(nèi)容還需要展開更多計算和分析工作,會在后續(xù)的文章中介紹。
本文發(fā)現(xiàn)的這種相關(guān)性是否普遍存在,目前無法給出確定結(jié)論,只有通過對更多數(shù)據(jù)和震例數(shù)據(jù)的計算統(tǒng)計,才能確定這種相關(guān)性的大小。如果能確定這種相關(guān)性的存在,而且相關(guān)性較高,可以利用這種方法對數(shù)據(jù)進行日常監(jiān)控,發(fā)現(xiàn)有持續(xù)的異常情況時發(fā)出預(yù)警,為分析預(yù)報、前兆臺網(wǎng)提供輔助信息。有關(guān)這方面的研究應(yīng)用,還需展開更多工作。
對本文呈現(xiàn)的規(guī)律性及方法設(shè)計依據(jù)的初步分析如下。
單個測項由于觀測中會受到各種因素影響,有些因素只影響個別測項或小區(qū)域范圍的測項,有些因素則可能會影響多個測項或大區(qū)域范圍內(nèi)的測項。把影響個別測項的因素定義為偶然影響因素,而把同時影響較多測項的因素定義為系統(tǒng)影響因素。偶然影響因素包括諸如電源影響、外界干擾、人為干擾、儀器自身因素等,它們引起的數(shù)據(jù)異常,從單測項時間軸分布上來看,具有隨機性。系統(tǒng)性影響因素包括地震、地球物理場大的變化、其他大的事件等,它們引起的數(shù)據(jù)異常,從單測項時間軸分布來看,也是隨機的。這樣,針對單測項數(shù)據(jù)的分析研究,對數(shù)據(jù)的精度和連續(xù)性具有極高的要求,需要精確定位和分析事件,最終的影響因素可能仍難確定。
有必要將盡可能多的測項數(shù)據(jù)引入研究中,如本文的計算方法,將盡量多測項的異常進行疊加。這是因為,偶然因素引起的異常,在數(shù)量、位置、時間等方面都是隨機的,疊加后仍然是偶然的或隨機的。前文中多測項累計統(tǒng)計數(shù)據(jù)符合平穩(wěn)隨機數(shù)據(jù)序列的特征,這些隨機事件累加的結(jié)果會形成一定的背景水平。而系統(tǒng)因素引起的異常,由于同時會影響到很多測項,將它們累計時,即使存在隨機異常背景,仍可以得到疊加放大,從而被突出反映。
對單個測項進行精細分析時,需要逐個事件落實。由于影響因素較多,很難進行準(zhǔn)確原因的追溯。但當(dāng)模糊化處理具體測項的具體異常事件,同時也模糊化時間尺度時,反而會使某些真正的系統(tǒng)性影響因素得以突出,并且很容易識別。
作為前兆數(shù)據(jù)利用大數(shù)據(jù)思想進行研究的一次嘗試,本文僅使用了一種非常簡單的異常檢測算法。無論是地震還是其他因素導(dǎo)致的異常在形態(tài)上都表現(xiàn)得多種多樣,需要不同方法的配合,才能比較全面地檢測出各種情況引起的異常。所以,真正的應(yīng)用,還需結(jié)合前兆數(shù)據(jù)和異常種類的特點研究更多的異常檢測方法,通過多種方法的配合,可以互相印證,或者至少可以加強某種認識,對前兆數(shù)據(jù)的分析應(yīng)用也是非常有益的。
需要特別指出,本文選取的臺站和數(shù)據(jù)是在地震發(fā)生后,由地震的位置選取臺站,而真正的數(shù)據(jù)應(yīng)用,事先并不知道哪里發(fā)生地震,不可能針對具體某幾個臺站展開運算,而應(yīng)將全部臺站都作為研究對象,通過計算逐步篩選,計算篩選方法還需要大量的研究和實證工作。通過計算逐步篩選,最終確定或鎖定某些臺站對系統(tǒng)性事件的貢獻最大。確定參與計算的臺站需要對大量臺站的大量數(shù)據(jù)進行梳理分析,與目前單測項數(shù)據(jù)分析方法截然不同,更多的工作將轉(zhuǎn)向大數(shù)據(jù)計算和從海量計算結(jié)果中尋求規(guī)律的研究。由本文的分析過程可以看到,無論按哪種分類結(jié)果進行統(tǒng)計,都需要相當(dāng)數(shù)量的測項參與,才會呈現(xiàn)出一定的規(guī)律性;對單個測項的統(tǒng)計結(jié)果,規(guī)律都不明顯。而這正是大數(shù)據(jù)分析的核心思想,當(dāng)更多的數(shù)據(jù)融合使用時,某些規(guī)律不是被淹沒,而是更加明晰。
對單測項數(shù)據(jù)的精細分析和對更多測項綜合分析的對比,使我們對舍恩伯格在《大數(shù)據(jù)時代》[2]中的論述理解得更加透徹:小數(shù)據(jù)使我們的視野局限在可以分析和確定的方面,導(dǎo)致對世界的整體理解可能產(chǎn)生偏差和錯誤,而大數(shù)據(jù)則可以使我們從不同角度更細致地觀察和研究數(shù)據(jù)的方方面面。與局限在小數(shù)據(jù)范圍相比,使用所有數(shù)據(jù)帶來了更高的精確性,可以讓我們看到一些以前無法發(fā)現(xiàn)的細節(jié),更清楚地看到少量樣本數(shù)據(jù)無法揭示的細節(jié)信息。
最后還需要指出的是,雖然在本文中,魯?shù)榈卣鸺傲硗鈳讉€地震震前異常比累計統(tǒng)計結(jié)果有較為明顯的增加,看似異常與地震有很好的對應(yīng)關(guān)系,但由于震例數(shù)據(jù)較少,不能確定這種相關(guān)性是普適的。這種相關(guān)性是否存在,或者相關(guān)性的大小是多少,還需要對更多震例和數(shù)據(jù)展開研究,才能給出確定性結(jié)論。本文的研究過程,是將地震監(jiān)測數(shù)據(jù)與大數(shù)據(jù)應(yīng)用思想結(jié)合的一次嘗試,具有一定的積極意義,是對傳統(tǒng)數(shù)據(jù)分析方法的補充和完善。
[1]Hey T,Tansley S,Tolle K.The Fourth Paradigm:Data-Intensive Scientific Discovery[J].Communications in Computer &Information Science,2009,317(8):1-1
[2]Mayer-Schonberger V,Cukier K.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].杭州:浙江人民出版社,2012(Mayer-Schonberger V,Cukier K.Big Data:A Revolution That Will Transform How We Live,Work,and Think[M].Hangzhou:Zhejiang People’s Publishing House,2012)
[3]張聰聰,王秀英.前兆觀測異常數(shù)據(jù)檢測方法研究[J].震災(zāi)防御技術(shù),2014(9):615-621(Zhang Congcong,Wang Xiuying.Study on the Detecting Method of Abnormal Earthquake Precursor Observation Data[J].Technology for Earthquake Disaster Prevention,2014(9):615-621)