孫九兵 王珊珊
【摘 要】本文基于滑坡時間序列位移,根據相空間理論構建位移時間序列矩陣,利用熵值理論求取熵值。通過熵值變化及位移預測誤差反饋調整該時序相空間重構的嵌入維數,然后利用支持向量機學習創(chuàng)建支持向量回歸機模型。并通過實例進行位移時間序列預測,預測效果好。
【關鍵詞】滑坡;時間序列;相空間
0 前言
在對滑坡的位移演化研究中,由于滑坡的形態(tài)、類型、規(guī)模等各不相同,一般選擇單個滑坡研究其位移時間曲線的變化。在傳統(tǒng)的位移時序研究方法[1-2]中,是采用時間序列分析法直接從位移這個序列研究滑坡的時間演變。隨著滑坡可以被視為一種具有混沌特征的復雜過程這一觀點的提出,根據混沌系統(tǒng)特征預測滑坡位移可能比統(tǒng)計學方法的預測更好[3]。相空間重構理論是混沌時間序列預測的基礎。在滑坡這個受地質條件、地下水、地震和人類工程活動等多種因素影響而發(fā)展演化的多維非線性動力系統(tǒng)中,位移作為滑坡變形破壞的重要反饋信息,包括整個系統(tǒng)的非線性動力特征,通過位移數據的相空間重構可體現整個系統(tǒng)的運動特征。
1 相空間重構理論
1.1 滑坡位移時間序列相空間
相空間重構理論系統(tǒng)中分量之間存在著相互作用,并且任一分量的變化與其他分量之間不可分割,這些分量的信息也可以說就隱藏在任何一個分量的變化過程中[4-5]。因此系統(tǒng)的混沌行為可以通過系統(tǒng)長期演變的任一單變量時間序列來研究[6]。
對滑坡位移時間序列重構相空間,引入延遲時間和嵌入維,建立恰當的模型,根據一維位移序列轉換出多維的相空間,可研究滑坡位移系統(tǒng)的動態(tài)特征[7]。
1.2 嵌入維
記逆序重構的相空間轉置矩陣為時序重構矩陣(1),取m為整數N/2,則該矩陣包括所有的樣本。
a)為方便計算,首先對重構的位移時間序列矩陣按照原序列按照自底向上的順序進行擴充,并在空白位置填補零值。令dij表示擴充后位移時間序列矩陣中第i行第j列的位移記錄值,則根據熵值理論的要求,其熵值計算如式(2),式中,k是一個常數1/In(l2),l1,l2分別為擴充后位移時間序列矩陣的行數和列數。并且當pij=0時,則令In(pij)=0。
b)找出峰值點對應的維數。定義在熵值變化量曲線中的任意三個連續(xù)維數,如果中間維數對應的值大于兩端維數對應的值,則稱中間維數對應的熵值變化量為峰值,中間維數為峰值維。即先對上式(2)中求得的熵值求取其變化量,再從中尋找峰值對應的峰值維,如式(3):
Fi=max{(hi-hi-1),(hi+1-hi),(hi+1-hi)},i∈{1,2,…,l2}(3)
其下標i就是峰值點對應的峰值維。根據這個維數可以重新構建相空間位移時序矩陣作為模型的訓練集。如果峰值維只有一個,則可以唯一確定相空間重構維,否則需要根據多個峰值維以相同的方式分別建立位移時序預測子模型,并計算子模型的均方根誤差,選取均方根誤差最小的峰值維作為整個序列的重構嵌入維數。
2 支持向量機
支持向量機[8-9]是一種比較好的實現了結構風險最小化思想的方法,對給定的數據逼近的精度與逼近函數的復雜性之間尋求折衷,以期獲得最好的推廣能力。從理論上說,支持向量機解決了在神經網絡方法中無法避免的局部極值問題,并將實際問題通過非線性變換轉換到高維的特征空間,在高維空間中構造線性決策函數來實現原空間中的非線性決策函數,巧妙地解決了維數問題,并保證了有較好的推廣能力[10-11]。一般采用回歸在邊坡位移非線性時間序列中預測期位移值[12]。
3 模型建立
Oracle Data Mining (ODM) 強大的數據挖掘功能以 Oracle 數據庫中的原生 SQL 函數形式提供[13]。Oracle SVM會基于算法的復雜度及樣本不大的原因自動取樣來實現線性擴展[14]。但在創(chuàng)建模型之前,為了滿足數據的平穩(wěn)性,還需要進行趨勢移動、目標轉換、屬性選擇數據處理。
3.1 數據處理
采取對已知觀測數據序列進行對數變換可以在一定程度上減小不可觀測的誤差和預測變量的相關性,差分可以消除其趨勢以及降低其波動幅度,Z-score方法的常態(tài)化可以使其在零值附近波動而成為平穩(wěn)序列,即tdi=log(di),tdi+1=tdi+1-tdi,tdi=(tdi-td)/σtd,其中td,σtd分別為參與模型訓練的樣本均值及方差。
3.2 模型建立
ODM通過PL/SQL API等接口的調用可以實現數據挖掘的建模、測試及應用模型等基本功能,并為多種數據挖掘算法提供支持[15-17]。其中ODM SVM回歸支持通過時間延遲或lag方法的時序建模,提供時序預測功能,但是訓練更簡化。在其簡單的形式中,以時序想要預測內容作為目標,目標的過去值被作為模型的輸入。
在滑坡的位移時序模型建立中,其位移是模型預測的目標,而位移樣本數據則會預留小部分作為檢驗數據,其余數據則作為位移過去值成為模型的輸入部分。單變量位移序列通過時序重構矩陣變換后則構成模型的訓練集。這一過程不僅使單變量的序列從一維擴展到了多維,還給加入其他影響因素提供了機會。鑒于位移數據的非平穩(wěn)性,在訓練模型之前還需要經過一系列的數據處理。然后通過在處理后的訓練集上利用PL/SQL API訓練創(chuàng)建SVR數據挖掘模型。同時利用得到的模型進行多步預測,并對預測結果經過與數據處理相反的還原操作后得到預測的位移序列后n個時刻的實際預測值。
4 以白家包滑坡為例
4.1 數據準備
本文以庫區(qū)三期監(jiān)測滑坡的秭歸白家包滑坡作為研究對象。滑坡體上共布置有4個GPS監(jiān)測點。監(jiān)測時間始于2006年。對滑坡地表觀測原位移數據通過樣條差值處理得到65個觀測數據,整個數據分為兩部分,第一部分取前59個為觀測樣本數據,剩余數據組成第二部分,作為檢驗數據。對數據進行分析發(fā)現:監(jiān)測數據都與時間有關,具有一定的連續(xù)性,適合采用回歸算法以及擬合算法來建立模型。
4.2 相空間定維
時序重構矩陣的變換與相空間重構維數密切相關。而在相空間中,其維數直接關系到時間演變因子與其他因子的各種相互作用,因此,維數的確定是重構的一個關鍵。
在本實例中,4個監(jiān)測點的位移時序分別使用相同的方式進行處理及預測。首先利用單個監(jiān)測點等距處理后第一部份的54個樣本初次確定時序重構矩陣,其重構時延默認為1,維數初值是樣本數的一半為27。然后根據變換得到的時序重構矩陣求取其熵值信息。在熵值信息中可以發(fā)現,噪聲的影響會隨著維數的擴大而增加,且各個監(jiān)測點位移序列得到的熵值大小相差不大。因此,我們需要選擇一個合適的范圍進一步觀察。當本實例中的熵值大于0.85時,其對應的維數不僅滿足相空間維數確定的經驗賦值法,而且也符合時間序列所代表活動先驗知識中選取維數的范圍。故主要處理熵值大于0.85時的部分,進一步求取其對應熵值與相鄰維對應熵值差的絕對值作為該維對應的熵變化量,從而確定熵變化量曲線。再根據熵的變化量曲線尋找其峰值維的過程中,發(fā)現每個監(jiān)測點分別包含2個維數待定選項。為了確定最終的維數,則先以樣本數據第一部分的子集作為輸入,根據這些維數分別以相同方式建立子模型并求取其RMSE。
不同維數最終得到的預測值之間存在明顯差異,為盡可能預測其變化趨勢,需要根據誤差反饋進一步調整維數。選擇其誤差最小時對應維數作為該序列的合適重構維數,即4個監(jiān)測點位移分別確定維數為6,7,16和15。
4.3 滑坡位移時間序列預測
各個監(jiān)測點觀測序列分別利用最終確定的嵌入維數重復位移時間序列矩陣構建過程,從而使原始的一維序列通過變形得到用于短期預測的學習樣本。通過對學習樣本的訓練得到支持向量機時序預測模型,并以檢驗數據以外的所有樣本作為模型輸入,模擬后續(xù)情況下的位移時間序列預測。其預測值同樣需要經過與數據處理過程完全逆向的還原操作。各個監(jiān)測點的預測結果(如表1所示)與原位移相對接近,前四步的誤差均保持在6%以內,預測效果較好。
5 結束語
從理論上說,相空間重構中的嵌入維數選擇越大越好。但隨著嵌入維數的增大,其噪聲的影響也會放大,因此需要選擇合適的嵌入維數。但用于相空間重構的維數也不可能不斷擴大,在實際中往往需要一個學習效果好且相對穩(wěn)定的模型進行預測。對比發(fā)現,基于熵值理論尋找的維數通過重構后訓練集的預測效果擬合較好,能夠提高一定的準確性。從而說明,熵值理論對尋找合適的相空間嵌入維可能會有幫助。另外,SVM回歸提供的時序預測功能訓練簡化,能夠使用大量變量,因此被廣泛應用于金融預測、電力負載預測等很多領域。
【參考文獻】
[1]徐峰,等.基于時間序列分析的滑坡位移預測模型研究[J].巖石力學與工程學報,2011,30(4).
[2]彭令,牛瑞卿,吳婷.時間序列分析與支持向量機的滑坡位移預測[J].浙江大學學報:工學版,2013,47(9).
[3]周創(chuàng)兵,陳益峰.基于相空間重構的邊坡位移預測[J].巖土力學,2000,21(3).
[4]吳湘寧,胡炫,胡光道,胡成玉,李桂玲.Oracle 中使用支持向量機的時間序列預測方法[J].計算機工程與應用,2013,49(14):121-125.
[5]唐璐,齊歡.混沌和神經網絡結合的滑坡預測方法[J].巖石力學與工程學報,2003,22(12):1984:1986.
[6]劉華明,齊歡,蔡志強.滑坡預測的非線性混沌模型[J].巖土力學與工程學報,2003,22(3):434-437.
[7]楊虎,吳北平,汪利.混沌序列PSO-RBF耦合模型在滑坡位移預測中的應用[J].科學技術與工程,2013,13(30).
[8]劉華煜.基于支持向量機的機器學習研究[D].大慶石油學院,2005.
[9]林大超,安鳳平,郭章林,張立寧.滑坡位移的多模態(tài)支持向量機模型預測[J].巖土力學,2011,4(32):451-458.
[10]熊天安,劉邦兵,雷暢.相空間重構理論支持下的滑坡預測方法[J].地理空間信息,2011(3).
[11]董輝,傅鶴林,冷伍明.支持向量機的時間序列回歸與預測[J].系統(tǒng)仿真學報,2006,18(7):1785-1788.
[12]劉開云,喬春生,滕文彥.邊坡位移非線性時間序列采用支持向量機算法的智能建模與預測研究[J].巖土工程學報,2004(1):57-61.
[13]陳榮鑫,陳維斌.基于Oracle ODM的數據挖掘研究[J].微機發(fā)展,2005(7):84-85.
[14]劉維會.不平衡數據集上支持向量機算法研究[D].山東科技大學,2010.Liu weihui. Study of Support Vector Machine Algorithms on Unbalanced Dataset. ShandongUniversityofSeienceandTechnolog,2010.
[15]朱傳華.三峽庫區(qū)地質災害數據倉庫與數據挖掘應用研究[D].中國地質大學,2010.
[16]http://blog.csdn.net/wonder4/article/details/1919156[Z].
[17]Oracle USA, Inc. Oracle data mining application developers guide 11g release 1 (11.1), B28131-04[R]. CA, USA: Red-wood City, 2008[Z].
[責任編輯:湯靜]