滕 飛,劉鑒竹,祝錦燁,勾紅葉
(1. 西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院, 四川 成都 611756; 2. 西南交通大學(xué) 土木工程學(xué)院, 四川 成都 610031)
截至2017年6月,我國已建成73條線路的高鐵防災(zāi)減災(zāi)系統(tǒng),其中風(fēng)力監(jiān)測(cè)點(diǎn)2612處,形成了能夠?qū)崟r(shí)監(jiān)測(cè)鐵路沿線大風(fēng)情況的高鐵防災(zāi)網(wǎng)[1],為災(zāi)害情況下的行車預(yù)警提供了數(shù)據(jù)支持。目前高鐵大風(fēng)預(yù)警采用基于風(fēng)速預(yù)測(cè)的人工調(diào)度處置模式,但由于風(fēng)力監(jiān)測(cè)系統(tǒng)與指揮調(diào)度系統(tǒng)物理隔離,效率較低,與高速鐵路遇大風(fēng)行車的預(yù)警需求還存在一定差距[2]。日本的京葉線引入了大風(fēng)預(yù)警系統(tǒng),主要根據(jù)風(fēng)速計(jì)的監(jiān)測(cè)值預(yù)測(cè)短期內(nèi)風(fēng)速的上限值,當(dāng)任意監(jiān)測(cè)點(diǎn)預(yù)測(cè)風(fēng)速的上限值或檢測(cè)值超出報(bào)警閾值,即發(fā)布列車運(yùn)行限速命令[3],德國高鐵也采用了相似的風(fēng)速短時(shí)預(yù)報(bào)系統(tǒng)[4]。近年來,鐵路沿線風(fēng)速預(yù)測(cè)的研究受到關(guān)注[5-10],但基于單值預(yù)測(cè)的方法時(shí)效性較差,預(yù)測(cè)的時(shí)間粒度在分鐘量級(jí),不符合由《高速鐵路自然災(zāi)害及異物侵限監(jiān)測(cè)系統(tǒng)鐵路局中心系統(tǒng)暫行技術(shù)條件》規(guī)定的高鐵行車遇大風(fēng)的報(bào)警事件規(guī)則[11-12]。根據(jù)《鐵路自然災(zāi)害及異物侵限監(jiān)測(cè)系統(tǒng)工程涉及暫行規(guī)定》,風(fēng)速持續(xù)10 s在15~20 m/s時(shí),行車時(shí)速不高于300 km/h;風(fēng)速持續(xù)10 s在20~25 m/s時(shí),行車時(shí)速不高于200 km/h;風(fēng)速持續(xù)10 s在25~30 m/s時(shí),行車時(shí)速不高于120 km/h;風(fēng)速持續(xù)10 s大于30 m/s時(shí),禁止動(dòng)車組進(jìn)入風(fēng)區(qū),而解除報(bào)警則需連續(xù)600 s低于超限值[13-14]。
總體來說,現(xiàn)施行的高鐵大風(fēng)預(yù)警技術(shù),依賴于預(yù)測(cè)的準(zhǔn)確程度和時(shí)效程度,難以達(dá)到秒級(jí)粒度條件下的高精度預(yù)測(cè),不符合現(xiàn)有的高鐵遇大風(fēng)事件的報(bào)警規(guī)則,易發(fā)生誤報(bào)和漏報(bào)。故此,本文提出基于序列模式挖掘的預(yù)警方法,將單值預(yù)測(cè)問題轉(zhuǎn)化為序列狀態(tài)的判定問題,對(duì)發(fā)生在報(bào)警事件前的序列集合進(jìn)行模式挖掘,找出有意義的預(yù)警序列模式,用于預(yù)測(cè)報(bào)警事件的發(fā)生。頻繁序列模式代表了序列集合的特征,是該序列集合中頻繁發(fā)生的子序列[13]。頻繁序列模式曾在很多領(lǐng)域得到應(yīng)用,如在氣象領(lǐng)域?qū)Ω邷?、大風(fēng)、暴雨等報(bào)警事件的預(yù)警,能夠識(shí)別出發(fā)生在報(bào)警事件前的序列特征,進(jìn)而做出有效的預(yù)警提示。值得注意的是,序列模式雖然能夠有效地提前識(shí)別出報(bào)警事件,但由于非預(yù)警序列與預(yù)警序列存在一定的相似度,易造成誤報(bào),給調(diào)度人員傳遞出不必要的預(yù)警信息。因此,去除冗余和無效的頻繁序列模式成為解決此問題的關(guān)鍵。
此外,監(jiān)測(cè)系統(tǒng)采集的風(fēng)數(shù)據(jù)體量巨大且源源不斷。以蘭新高鐵線為例,每個(gè)風(fēng)監(jiān)測(cè)點(diǎn)一年的采樣數(shù)據(jù)超過100億條,數(shù)據(jù)量超過1 TB。序列模式挖掘算法復(fù)雜度較高,無法在單機(jī)完成計(jì)算。因此,預(yù)警模式挖掘方法需要支持并行化,增加頻繁序列模式的長度[14]。本文選用并行計(jì)算框架Spark,實(shí)現(xiàn)了基于內(nèi)存存儲(chǔ)的預(yù)警模式挖掘并行化算法,相較于傳統(tǒng)磁盤陣列存儲(chǔ),可以在極大降低I/O操作時(shí)延的同時(shí),保持良好的橫向擴(kuò)展性,適合用于處理實(shí)際應(yīng)用中的工業(yè)數(shù)據(jù)[15]。
針對(duì)上述問題,本文提出了基于序列模式挖掘的高鐵大風(fēng)預(yù)警方法。通過尋找預(yù)警頻繁序列和非預(yù)警頻繁序列的最長公共子序列,剔除頻繁序列模式中的冗余和無效模式,構(gòu)建了預(yù)警模式庫。利用蘭新高鐵沿線實(shí)測(cè)數(shù)據(jù)對(duì)預(yù)警模式挖掘和預(yù)測(cè)方法進(jìn)行了實(shí)驗(yàn),驗(yàn)證了該方法的有效性、區(qū)域適用性和執(zhí)行效率。該方法在提高預(yù)測(cè)準(zhǔn)確率的基礎(chǔ)上降低漏報(bào)率,同時(shí)減少了模式匹配所需的時(shí)間,為提前預(yù)警預(yù)留充分的時(shí)間窗口,更加符合實(shí)際應(yīng)用的需求。
目前,我國高鐵行車指揮采用人工調(diào)度處置模式,存在方式落后、效率低下等問題[2]。近年來,有學(xué)者研究了如何提高大風(fēng)預(yù)警的準(zhǔn)確性。Liu等[5-6,10]先后提出了基于遞歸經(jīng)驗(yàn)?zāi)B(tài)分解的自回歸積分滑動(dòng)平均模型(AutoRegressive Integrated Moving Average model, ARIMA)預(yù)測(cè)方法和基于小波神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)方法,在預(yù)測(cè)精度和時(shí)效性方面都取得了較好的結(jié)果。然而ARIMA模型的參數(shù)定階問題難以自動(dòng)化得到結(jié)果,而基于小波神經(jīng)網(wǎng)絡(luò)方法的預(yù)測(cè)誤差會(huì)隨著時(shí)間的推移而增大,不符合實(shí)際需求。針對(duì)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)對(duì)非平穩(wěn)風(fēng)速的預(yù)測(cè)精度較差的問題,路學(xué)海等[7]提出了改進(jìn)的量子粒子群算法結(jié)合小波神經(jīng)網(wǎng)絡(luò)的滾動(dòng)預(yù)測(cè)方法,優(yōu)化了小波神經(jīng)網(wǎng)絡(luò)的初始參數(shù);王瑞等[8]利用Kalman濾波去除了數(shù)據(jù)冗余,提出基于徑向基函數(shù)(Radial Basis Function, RBF)神經(jīng)網(wǎng)絡(luò)的滾動(dòng)預(yù)測(cè)方法。上述兩項(xiàng)研究均是仿真研究,未能利用鐵路沿線的實(shí)測(cè)風(fēng)速數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。Li等[9]將風(fēng)向引入高鐵大風(fēng)預(yù)警問題中,研究了基于Kalman濾波的風(fēng)速、風(fēng)向預(yù)測(cè),進(jìn)而輸出高鐵行車的綜合風(fēng)險(xiǎn)系數(shù)。
上述基于風(fēng)速預(yù)測(cè)的預(yù)警技術(shù)存在以下兩個(gè)問題。首先,以上研究側(cè)重于提高風(fēng)速預(yù)測(cè)的準(zhǔn)確性,而非針對(duì)實(shí)際的報(bào)警事件進(jìn)行預(yù)測(cè)。事實(shí)上,高鐵沿線的風(fēng)速值預(yù)測(cè)問題與高鐵大風(fēng)預(yù)警問題并不能完全等價(jià)。其次,現(xiàn)實(shí)中高鐵大風(fēng)報(bào)警規(guī)則精確到秒,而以上研究中風(fēng)速序列的時(shí)間單位為分鐘或小時(shí),難以滿足秒級(jí)粒度的實(shí)際需求。故此,本文將高鐵大風(fēng)的單值預(yù)測(cè)問題轉(zhuǎn)化為更細(xì)粒度的序列狀態(tài)判定,通過挖掘報(bào)警事件前序數(shù)據(jù)中的頻繁模式,找出報(bào)警事件的變化規(guī)律,符合高鐵大風(fēng)報(bào)警規(guī)則這類持續(xù)超限報(bào)警的應(yīng)用背景。
序列模式挖掘被廣泛應(yīng)用于許多領(lǐng)域的事件預(yù)測(cè)。嚴(yán)兆斌等[16]針對(duì)公路隧道交通事故問題,利用PrefixSpan算法生成了隧道交通事件序列模式,反映隧道交通事件的序列特征,并用于建立隧道交通事件規(guī)則庫。馮鈞等[17]針對(duì)洪水預(yù)報(bào)問題,提出構(gòu)建適用于待預(yù)報(bào)流域的暴雨洪水模式庫的思想,通過對(duì)歷史水文數(shù)據(jù)進(jìn)行符號(hào)化模式挖掘處理,完成中小河流暴雨洪水模式庫構(gòu)建。張光蘭等[18]針對(duì)通信網(wǎng)絡(luò)的報(bào)警預(yù)測(cè)問題,提出一種基于拓?fù)浼s束的序列模式挖掘方法來發(fā)現(xiàn)有意義的報(bào)警序列模式以實(shí)現(xiàn)報(bào)警預(yù)測(cè),從而保證通信網(wǎng)絡(luò)的穩(wěn)定性和可靠性。Niyazmand等[19]針對(duì)報(bào)警泛濫問題,利用改進(jìn)的PrefixSpan算法對(duì)天然氣加工廠的報(bào)警數(shù)據(jù)做序列模式挖掘,利用得到的頻繁序列模式定位造成報(bào)警泛濫的原因。Yasmin等[20]對(duì)基于序列模式挖掘的分類算法進(jìn)行改進(jìn),在提高分類速度、可擴(kuò)展性的同時(shí),保持了分類的準(zhǔn)確性,解決了高精度的數(shù)值數(shù)據(jù)難以挖掘的問題。此外,序列模式挖掘用于預(yù)警的研究還涉及庫存采購預(yù)警[21]、交通堵塞預(yù)警[22]、傳感器故障預(yù)警[23]等領(lǐng)域,但在列車行車報(bào)警預(yù)警方面還鮮有涉及[24]。
上述基于模式挖掘的預(yù)警研究,均是從報(bào)警事件前的序列集合中挖掘出有意義的模式,以作為預(yù)測(cè)報(bào)警事件的依據(jù)。然而,預(yù)警數(shù)據(jù)和非預(yù)警數(shù)據(jù)在一定程度上是具有共性的,若只考慮預(yù)警狀態(tài)到報(bào)警狀態(tài)的模式,會(huì)在實(shí)際應(yīng)用中造成大量的誤報(bào)警。對(duì)此,本文不僅針對(duì)預(yù)警數(shù)據(jù)做序列模式挖掘,還分析了非預(yù)警數(shù)據(jù)的頻繁序列模式,通過去除冗余提高了預(yù)警的準(zhǔn)確率。
首先對(duì)預(yù)警模式挖掘方法所涉及的符號(hào)及名稱給出相關(guān)定義:
定義1 超限報(bào)警事件。根據(jù)報(bào)警規(guī)則(超限值OverVal、超限持續(xù)時(shí)間Tper)確定以起點(diǎn)索引si和終點(diǎn)索引ei的n條報(bào)警序列(i∈[1,n]且i∈Z,n≥ 1),如圖1的序列c所示。
定義2 預(yù)警序列。給定固定窗口大小為Tew,預(yù)警序列是截取每條報(bào)警序列數(shù)據(jù)前Tew個(gè)值組成的序列,即序列索引在(si-Tew)~(si-1)對(duì)應(yīng)的值構(gòu)成的序列,如圖1的序列b所示,雖然該序列含有超限數(shù)據(jù),但其超限持續(xù)時(shí)間小于相關(guān)閾值,并不符合報(bào)警事件規(guī)則。
定義3 非預(yù)警序列。非預(yù)警序列是序列索引在(si-Tinter)~(si-Tew)的值構(gòu)成的序列,如圖1的序列a所示。為使預(yù)警序列數(shù)據(jù)和非預(yù)警序列數(shù)據(jù)在相同的窗口大小下進(jìn)行序列模式挖掘,應(yīng)將每條序列長度大于Tew的非預(yù)警序列進(jìn)行數(shù)據(jù)分段,以每段序列長度為Tew的序列集合形式組成非預(yù)警序列集,以保證模式挖掘的結(jié)果均是Tew內(nèi)發(fā)生的頻繁序列模式。
序列模式挖掘是指從序列數(shù)據(jù)庫中尋找頻繁子序列作為模式的知識(shí)發(fā)現(xiàn)過程,即輸入一個(gè)序列數(shù)據(jù)庫和支持度閾值,輸出所有不小于支持度閾值序列的過程[25]。序列模式挖掘算法可分為基于Apriori和基于模式增長兩類。本文涉及序列模式挖掘算法,并以基于模式增長類的PrefixSpan算法為例給出相關(guān)定義。
定義4 子序列。對(duì)于序列a=
定義6 前綴。設(shè)每個(gè)元素中的所有項(xiàng)目按照字典順序排列,給定序列a=
圖1 預(yù)警序列及非預(yù)警序列Fig.1 Alarm sequence and non-alarm sequence
定義7 投影。給定序列a和b,如果b是a的子序列,則a對(duì)應(yīng)于前綴b的投影a′需滿足b是a′的前綴;a′是a滿足上述條件的最大子序列。
定義8 后綴。設(shè)序列a關(guān)于子序列b=
定義9 投影數(shù)據(jù)庫。設(shè)a為序列數(shù)據(jù)庫S中的一個(gè)序列模式,序列b以a為前綴,則a的投影數(shù)據(jù)庫為S中所有以a為前綴的序列相對(duì)于a的后綴,記為S|a。
例:考慮表1中的序列集合,設(shè)置支持度閾值sup為0.75。
1)對(duì)數(shù)據(jù)庫中的所有項(xiàng)進(jìn)行支持度統(tǒng)計(jì),將支持度低于閾值的項(xiàng)從數(shù)據(jù)庫中刪除,得到前綴長度為1的頻繁序列模式{ ∶4, ∶2};
2)對(duì)于每個(gè)長度為1滿足支持度要求的前綴進(jìn)行遞歸挖掘,以為前綴投影數(shù)據(jù)庫的結(jié)果為{<(_B),B>,<(AB),B>, ,<(_B),A,B>},滿足支持度要求的有{B∶4,_B∶3},即以為前綴挖掘到的前綴長度為2的頻繁序列模式有{,<(AB)>},同理可得以為前綴挖掘到的前綴長度為2的頻繁序列模式有{},即前綴長度為2的頻繁序列模式為{,<(AB)>,};
3) 遞歸執(zhí)行2),得到前綴長度為3的頻繁序列模式有<(A,B),B>。若投影數(shù)據(jù)庫為空或投影數(shù)據(jù)庫中各項(xiàng)支持度計(jì)數(shù)都低于閾值則遞歸返回。綜上,在該例中由PrefixSpan算法得到大于支持度閾值0.75的頻繁序列模式集為{,,,<(AB)>,<(A,B),B>}。
表1 序列數(shù)據(jù)集示例Tab.1 An example of sequence dataset
為了除去預(yù)警數(shù)據(jù)和非預(yù)警數(shù)據(jù)的公共頻繁序列,降低將非預(yù)警序列識(shí)別成預(yù)警序列的概率,本節(jié)提出預(yù)警序列模式挖掘方法,其流程如圖2所示。主要步驟有:①根據(jù)報(bào)警規(guī)則生成預(yù)警序列數(shù)據(jù)和非預(yù)警序列數(shù)據(jù);②利用序列模式挖掘算法生成預(yù)警頻繁序列和非預(yù)警頻繁序列;③采用最長公共子序列算法去除預(yù)警數(shù)據(jù)和非預(yù)警數(shù)據(jù)的公共頻繁序列,以生成預(yù)警模式庫;④在測(cè)試或?qū)嶋H應(yīng)用中,將目標(biāo)序列與預(yù)警模式庫中的模式進(jìn)行模式匹配,若能匹配成功則表示在這段時(shí)間后將發(fā)生報(bào)警事件,應(yīng)及時(shí)通知相關(guān)人員發(fā)布預(yù)警信號(hào)。
圖2 預(yù)警序列模式挖掘方法流程圖Fig.2 Flow chart of sequential pattern mining for early warning
首先根據(jù)第2節(jié)中對(duì)于預(yù)警序列和非預(yù)警序列的定義,在原始的時(shí)間序列數(shù)據(jù)中篩選出報(bào)警事件數(shù)據(jù)、預(yù)警序列數(shù)據(jù)和非預(yù)警序列數(shù)據(jù)。考慮到時(shí)間序列普遍維度很高,不能直接進(jìn)行模式挖掘,且對(duì)于需要對(duì)每個(gè)前綴做投影操作的序列模式挖掘算法而言,若存在大量的單項(xiàng),會(huì)直接增加算法的時(shí)間復(fù)雜度和空間復(fù)雜度。為解決時(shí)間序列的高維特性,通常會(huì)進(jìn)行時(shí)間序列符號(hào)化操作,該操作能提高存儲(chǔ)的效率,加快處理速度。
為了降低將非預(yù)警序列識(shí)別成預(yù)警序列的概率,分別對(duì)預(yù)警序列和非預(yù)警序列做序列模式挖掘,進(jìn)而得到兩者的公共頻繁序列模式,即不能明顯區(qū)分是否預(yù)警的序列特征,在預(yù)警序列的頻繁模式集中除去包含非預(yù)警頻繁序列的特征,僅保留能準(zhǔn)確辨識(shí)預(yù)警的分類依據(jù),完成預(yù)警模式庫的構(gòu)建。
最長公共子序列(Longest Common Subsequence, LCS)算法旨在求得兩個(gè)或多個(gè)已知序列的最長子序列[26]。此處的子序列是指從序列中得到各個(gè)元素屬于原始序列(順序且不一定連續(xù)的序列)。如字符串序列“aabcd”和“abcabc”中,兩者的公共子序列有順序且相鄰的“abc”,也有順序且不相鄰的“aabc”,所以兩者的最長公共子序列為“aabc”。該算法在預(yù)警模式挖掘方法流程中,應(yīng)用于去除預(yù)警序列和非預(yù)警序列的公共頻繁序列模式和驗(yàn)證是否預(yù)警,其實(shí)現(xiàn)的功能均為在目標(biāo)序列中檢測(cè)是否存在非預(yù)警頻繁序列的特征。
當(dāng)序列的數(shù)量一定時(shí),LCS求解可以采用動(dòng)態(tài)規(guī)劃方法,以空間換時(shí)間的思想,用數(shù)組保存中間狀態(tài),方便后續(xù)計(jì)算。記序列X的前i個(gè)元素為Xi={x_1,x_2,…,x_i},序列Y的前j個(gè)元素為Yj={y_1,y_2,…,y_j};序列X和序列Y的最長公共子序列為LCSXY;序列X的前i個(gè)元素和序列Y的前j個(gè)元素的最長公共子序列為LCSXiYj。設(shè)置二維數(shù)組C[i,j]記錄X和Y子序列的最長公共子序列長度,則可得到式(1)的狀態(tài)轉(zhuǎn)移方程。根據(jù)式(1),可通過遞歸計(jì)算出每個(gè)子序列的LCS,并依據(jù)二維數(shù)組C回溯得到最長公共子序列LCSXY。通過基于LCS的模式匹配方法,求得預(yù)警模式和測(cè)試集中每條窗口序列的最長公共子序列,若最長公共子序列與該預(yù)警模式相等則表示匹配成功。
(1)
在第2節(jié)中,從基于PrefixSpan算法的頻繁序列模式挖掘的示例中可以發(fā)現(xiàn),原始算法的結(jié)果集為所有滿足支持度閾值的頻繁序列模式集,而對(duì)于預(yù)警模式庫來說,長度較短的頻繁序列模式不宜作為預(yù)警模式,由相同前綴組成的非最長頻繁模式會(huì)造成結(jié)果集的冗余,且模式庫中會(huì)因此類頻繁序列模式的存在而增加模式驗(yàn)證的運(yùn)行時(shí)間[27]。算法1給出了預(yù)警序列模式挖掘算法,分別以相同支持度閾值挖掘預(yù)警序列數(shù)據(jù)庫和非預(yù)警序列數(shù)據(jù)庫中大于模式長度閾值且由相同前綴組成的最長頻繁序列模式,并采用LCS算法在預(yù)警頻繁序列中除去包含非預(yù)警頻繁序列模式的特征,完成預(yù)警序列模式庫的構(gòu)建。
算法1 預(yù)警序列模式挖掘算法Alg.1 Early warning sequence pattern mining algorithm
本文數(shù)據(jù)存儲(chǔ)介質(zhì)為Oracle 11 g,在Spark2.7.0搭建的完全分布式環(huán)境下進(jìn)行實(shí)驗(yàn)。Spark集群總節(jié)點(diǎn)數(shù)為3,每個(gè)節(jié)點(diǎn)的配置為:Intel(R) Xeon(R)四核E5-2620 2.10 GHz處理器;8 G內(nèi)存;Ubuntu 16.04LTS的操作系統(tǒng)。
實(shí)驗(yàn)采用蘭新高速鐵路沿線風(fēng)基站2017年實(shí)測(cè)數(shù)據(jù),其采樣頻率為1 Hz。在模式挖掘?qū)嶒?yàn)之前對(duì)原始數(shù)據(jù)進(jìn)行了缺失值、異常值等數(shù)據(jù)預(yù)處理。
選用蘭新高鐵沿線位于百里風(fēng)區(qū)的5696風(fēng)基站實(shí)測(cè)的共15 638 400個(gè)風(fēng)速值構(gòu)成的時(shí)間序列。根據(jù)高鐵行車限速規(guī)定,設(shè)置風(fēng)速超限值OverVal=15 m/s;超限持續(xù)時(shí)間Tper=10 s。根據(jù)《客運(yùn)專線防災(zāi)安全監(jiān)控系統(tǒng)總體技術(shù)方案》,對(duì)風(fēng)速變化快的強(qiáng)對(duì)流短時(shí)大風(fēng),預(yù)警時(shí)間不少于2 min;而對(duì)風(fēng)速變化慢的季節(jié)性大風(fēng),預(yù)警時(shí)間不少于5 min。因?qū)嶒?yàn)數(shù)據(jù)屬于百里風(fēng)區(qū),故設(shè)置預(yù)警時(shí)間Tew=120 s,非預(yù)警時(shí)間Tinter=7200 s。
在上述實(shí)驗(yàn)過程的符號(hào)化階段,考慮到大風(fēng)報(bào)警事件規(guī)則要求風(fēng)速超限具有持續(xù)性的特點(diǎn),將某一范圍的風(fēng)速值映射為某一符號(hào),表2為符號(hào)化映射規(guī)則(風(fēng)速單位為m/s)。風(fēng)速小于OverVal超限值(15 m/s)按照風(fēng)力等級(jí)對(duì)照表劃分,大于OverVal超限值(15 m/s)按照?qǐng)?bào)警事件的臨界風(fēng)速劃分。
表2 符號(hào)化映射規(guī)則Tab.2 Symbolic mapping rules
為了檢驗(yàn)該預(yù)警模式挖掘方法的有效性,據(jù)二八定律,將預(yù)警序列集按報(bào)警時(shí)間先后順序以8 ∶2的比例分為預(yù)警訓(xùn)練集和預(yù)警測(cè)試集,并在非預(yù)警序列集上以相同比例劃分為非預(yù)警訓(xùn)練集和非預(yù)警測(cè)試集。為使得序列模式挖掘算法得到的頻繁模式均發(fā)生在一定的時(shí)間內(nèi),固定窗口大小為預(yù)警時(shí)間(本實(shí)驗(yàn)中Tew=120 s),將非預(yù)警序列集中大于窗口大小的序列劃分長度為Tew子序列。本實(shí)驗(yàn)利用訓(xùn)練集中的預(yù)警序列和非預(yù)警序列做預(yù)警模式挖掘,在測(cè)試集中進(jìn)行預(yù)警模式驗(yàn)證實(shí)驗(yàn)。預(yù)警模式挖掘算法中的輸入?yún)?shù)sup,Lmax,Lmin分別設(shè)置為0.3、120、60,一共得到15 442條序列長度大于Lmin的頻繁模式,經(jīng)過濾相同前綴組成的非最長頻繁模式后,保留8009條由前綴組成的最長頻繁模式作為預(yù)警模式庫。部分具有典型的預(yù)警模式見表3(由于模式長度較長,在表3中將預(yù)警模式庫的結(jié)果表示為[‘符號(hào)’ ∶持續(xù)出現(xiàn)的次數(shù)]的字典集合),表中風(fēng)速單位為m/s。
表3 部分典型預(yù)警模式Tab.3 Partial typical early warning patterns
由預(yù)警模式庫可知,在1級(jí)報(bào)警事件發(fā)生前風(fēng)速不會(huì)發(fā)生大幅度的突變,且風(fēng)速在8~15 m/s范圍內(nèi)變化。圖3的五種典型預(yù)警模式,其“典型”在風(fēng)速在不同區(qū)段間的趨勢(shì)變化規(guī)律,“非典型”的預(yù)警模式與這五種的區(qū)別在于風(fēng)速在不同區(qū)段持續(xù)的次數(shù)不同,其形狀規(guī)律與以上五種相似,如圖3所示。
(a) 穩(wěn)定變化型 (b) 先降后升型(a) Stable (b) Fall-rise
(c) 波動(dòng)型(c) Fluctuant
(d) 先降后階梯型 (e) 階梯型(d) Fall-step-up (e) Step-up圖3 預(yù)警模式大致形狀總結(jié)Fig.3 Shapes of early warning patterns
本實(shí)驗(yàn)的驗(yàn)證指標(biāo)如下:
本實(shí)驗(yàn)分別選用FPGrowth、PrefixSpan兩種不同的模式挖掘算法進(jìn)行驗(yàn)證,序列模式挖掘算法FPGrowth需要反復(fù)循環(huán)掃描數(shù)據(jù)庫,復(fù)雜度較高。而PrefixSpan挖掘算法,無須生成候選序列,數(shù)據(jù)量較大的情況下只需掃描2次數(shù)據(jù)庫進(jìn)行遞歸計(jì)算,效率更好。選取蘭新高鐵沿線位于百里風(fēng)區(qū)的5696風(fēng)基站在2017年實(shí)測(cè)的風(fēng)速序列,該實(shí)驗(yàn)旨在驗(yàn)證去除非預(yù)警頻繁序列對(duì)預(yù)警準(zhǔn)確率的影響。
表4中,傳統(tǒng)方法只考慮預(yù)警序列模式,而本文方法剔除了非預(yù)警頻繁序列。實(shí)驗(yàn)結(jié)果表明,基于序列模式挖掘的預(yù)警方法能夠識(shí)別出報(bào)警前的序列特征,起到預(yù)警作用,對(duì)比傳統(tǒng)序列模式挖掘方法,其準(zhǔn)確率和漏報(bào)率都有所改進(jìn),原因是傳統(tǒng)序列模式挖掘方法不能有效區(qū)別預(yù)警序列和非預(yù)警序列共有的頻繁模式,這一點(diǎn)在FPGrowth上表現(xiàn)得尤為明顯。FPGrowth算法特殊的數(shù)據(jù)組織形式,要求一個(gè)序列中的元素最多出現(xiàn)一次,使得挖掘得到的序列模式的種類少于PrefixSpan算法,但卻包含了更多的公共頻繁模式。因此,F(xiàn)PGrowth極易產(chǎn)生假預(yù)警,將非預(yù)警序列預(yù)測(cè)為預(yù)警序列,導(dǎo)致準(zhǔn)確率很低。由此可見,預(yù)警模式挖掘方法可對(duì)冗余和無效的模式進(jìn)行有效過濾。
表4 模型性能Tab.4 Model performance %
為了驗(yàn)證本文算法的區(qū)域適用性,選取蘭新高鐵沿線多個(gè)風(fēng)基站進(jìn)行該驗(yàn)證實(shí)驗(yàn)。表5顯示了蘭新高鐵沿線的8528、8496、8512三個(gè)風(fēng)基站在2017全年數(shù)據(jù)的預(yù)警結(jié)果,準(zhǔn)確率和漏報(bào)率這兩個(gè)指標(biāo)均保持較好的一致性,說明本文提出的方法具有較好的區(qū)域適用性。
表5 區(qū)域適用性Tab.5 Regional applicability %
由于單機(jī)上計(jì)算超時(shí),本文采用3個(gè)節(jié)點(diǎn)的Spark Cluster進(jìn)行并行計(jì)算。不同長度預(yù)警序列的匹配時(shí)間對(duì)比情況如表6所示。基于模式序列的預(yù)警方法旨在在較短的時(shí)間內(nèi)相對(duì)高精度地預(yù)測(cè)出未來的報(bào)警事件。由于模式匹配算法復(fù)雜度較高,需要留出充分的時(shí)間窗口才能達(dá)到預(yù)警效果。期望的預(yù)警時(shí)間越早,預(yù)留給匹配的時(shí)間就越長。本文提出的預(yù)警方法較傳統(tǒng)方法可降低匹配時(shí)間。對(duì)于2 min預(yù)警序列,本文方法可將預(yù)警窗口從113.2 s延長至116.6 s。對(duì)于20 min預(yù)警序列,采用傳統(tǒng)方法,匹配時(shí)間消耗19.5 min,實(shí)際有效預(yù)警窗口僅為0.5 min,而本文方法可將有效預(yù)警窗口延長至9.1 min,這說明本文方法具有較高的工程實(shí)用性。
表6 任務(wù)運(yùn)行時(shí)間比較Tab.6 Runtime comparison
本文針對(duì)蘭新高鐵動(dòng)車組列車遇大風(fēng)行車限速報(bào)警事件進(jìn)行了預(yù)警方法研究。針對(duì)單值預(yù)測(cè)法精度不夠且不符合高鐵大風(fēng)事件的報(bào)警規(guī)則,提出了基于序列模式的預(yù)警方法??紤]到非預(yù)警序列模式對(duì)預(yù)警準(zhǔn)確率的影響,提出了預(yù)警和非預(yù)警序列的公共頻繁模式過濾方法,從而得到預(yù)警序列獨(dú)有的序列特征,完成了高鐵行車遇大風(fēng)預(yù)警模式庫構(gòu)建,并使用蘭新高鐵沿線的多個(gè)風(fēng)基站數(shù)據(jù)驗(yàn)證了該方法的有效性,證明了該方法具有區(qū)域適用性。該預(yù)警模式挖掘方法從實(shí)際應(yīng)用出發(fā),可在提高預(yù)測(cè)準(zhǔn)確率的基礎(chǔ)上降低漏報(bào)率,同時(shí)有效地減少了模式匹配所需的時(shí)間,為提前預(yù)警預(yù)留更長的時(shí)間窗口,符合實(shí)際應(yīng)用的需求。