冀汶莉 郗劉濤 柴敬
摘 要:完備的光纖監(jiān)測數(shù)據(jù)是智能開采中礦壓顯現(xiàn)前兆信息識別、上覆巖層變形預(yù)測的基礎(chǔ),而實際得到的監(jiān)測數(shù)據(jù)大多是不完整的。為有效填補(bǔ)光纖監(jiān)測數(shù)據(jù)的缺失值,文中以采場覆巖光纖監(jiān)測物理模擬實驗中光纖傳感器采集的數(shù)據(jù)為基礎(chǔ),分析了缺失數(shù)據(jù)的特征,建立了多測點單屬性小樣本缺失數(shù)據(jù)的最小二乘支持向量機(jī)(LSSVM)缺失數(shù)據(jù)填補(bǔ)方法。并將LSSVM與BP神經(jīng)網(wǎng)絡(luò)、3次樣條插值等方法,在Fv11,F(xiàn)v12光纖的6個不同數(shù)據(jù)集上,按照離散型、連續(xù)型、混合型3種數(shù)據(jù)缺失類型并產(chǎn)生不同缺失率,進(jìn)行對比實驗。針對離散型隨機(jī)產(chǎn)生20%缺失數(shù)據(jù),LSSVM,BP神經(jīng)網(wǎng)絡(luò)、3次樣條插補(bǔ)方法的均方根誤差(RMSE)平均值分別為0.003 2,0.005 6,0.006 9,最大偏離量(MDE)平均值分別為0.012,0.022,0.028;針對連續(xù)型隨機(jī)產(chǎn)生36%缺失數(shù)據(jù),3種不同方法的RMSE平均值分別為0.006 1,0.007 7,0.009 0,MDE平均值分別為
0.021,0.028,0.041;前2類實驗結(jié)果表明LSSVM方法均優(yōu)于其他2種缺失值插補(bǔ)方法。當(dāng)隨機(jī)產(chǎn)生兼具離散和連續(xù)型缺失且缺失比例不同時,缺失比例小于30%時LSSVM方法略優(yōu)于其他2種方法,當(dāng)缺失率大于36%時LSSVM明顯優(yōu)于其他2種方法。綜合所有實驗結(jié)果表明,LSSVM插補(bǔ)方法對單屬性小樣本缺失數(shù)據(jù)填補(bǔ)是一種簡單有效的填補(bǔ)方法。
關(guān)鍵詞:采礦工程;覆巖變形光纖監(jiān)測;數(shù)據(jù)填補(bǔ);最小二乘支持向量機(jī);分布式光纖傳感中圖分類號:TP 391.9
文獻(xiàn)標(biāo)志碼:A
文章編號:1672-9315(2021)01-0160-12
DOI:10.13800/j.cnki.xakjdxxb.2021.0121
LSSVM method of missing data imputation of optical fiber
monitoring with mining-induced overburden
JI Wenli1,2,XI Liutao1,CHAI Jing2,3
(1.College of Communication and Information? Engineering,Xian University of Science and Technology,Xian 710054,China;
2.Key Laboratory of Western Mine Exploitation and Hazard Prevention,Ministry of Education,
Xian University of Science and Technology,Xian 710054,China;
3.College of Energy Science and Engineering,Xian University of Science and Technology,Xian 710054,China)
Abstract:Continuity,integrity and accuracy of monitoring data for optical fiber is a very foundation that precursory information is identified and predicted about overburden deformation and dynamic phenomenon during mining.In order to implement the imputation of missing value effectively which has the characteristic of multipoint sampling and local small sample during collection of fiber sensing,a novel algorithm model was?proposed?named LSSVM to deal with missing data imputation.The data set was obtained from the fiber sensing in physical simulation experiment of monitoring overburden deformation,with the characteristics of missing data analyzed.In this paper,a comparison has been made of? the LSSVM with BP network imputation model and cubic spline interpolation imputation algorithm on two different fibers Fv11 and Fv12 about 6 data sets.The missing data was generated randomly by the different missing ratios.Firstly,random 20% missing data was generated for discrete type.The experimental results show that the average of RMSE are 0.003 2,0.005 6,0.006 9,and the average of?MDE are 0.012,0.022,0.028 by using LSSVM,BP network and Cubic spline method.Secondly,random 36% missing data was generated for continuous type.The experimental results show that the average of RMSE are 0.006 1,0.007 7,0.009 0,and the average of MDE are 0.021,0.028,0.041 about three methods.Accordingly the LSSVM model is better than the other two methods.Finally,the missing data for both discrete and continuous missing characteristics was generated with different missing rates.The results show that the LSSVM model is slightly better than the other two methods with the missing ratio by less than 30%.When the missing ratio is 50%,LSSVM is significantly better than the other two methods.All the experimental results show that the proposed method is effective? for filling missing data.Key words:mining engineering;optical fiber monitoring of overburden deformation;missing value imputation;LSSVM;distributed optical fiber sensing
0 引 言
中國工程院主持研究的《我國煤炭資源高效回收及節(jié)能戰(zhàn)略研究》中指出煤炭目前仍然是中國的重要能源[1]。隨著煤炭資源的深度開采,采場上覆巖層出現(xiàn)大空間、大變形的特點[2-5]。
與沖擊地壓的產(chǎn)生有直接關(guān)系的采場上覆巖層的復(fù)雜變形和運動過程仍難以有效監(jiān)測、準(zhǔn)確表征和精確預(yù)測。分布式光纖傳感器技術(shù)結(jié)合數(shù)據(jù)挖掘技術(shù)為解決上述問題提供了可行思路[6-7]。無論是采動覆巖分布式光纖實際監(jiān)測應(yīng)用,還是以研究煤巖動力災(zāi)害的發(fā)生規(guī)律以及災(zāi)害前兆信息識別為目標(biāo)的分布式光纖監(jiān)測的實驗室大尺度物理模擬實驗,由于光纖傳感器的物理特性以及周圍地質(zhì)環(huán)境的影響使數(shù)據(jù)缺失的情況客觀存在,這將會導(dǎo)致基于監(jiān)測數(shù)據(jù)的學(xué)習(xí)算法學(xué)習(xí)到的參數(shù)出現(xiàn)偏差,標(biāo)準(zhǔn)差增大,泛化能力減弱等問題[8-11],最終將影響煤礦災(zāi)害前兆信息的精準(zhǔn)辨識和預(yù)警效果。
目前對于缺失數(shù)據(jù)處理常用的方法有2類,一是傳統(tǒng)方法,如刪除法、均值法、以及插值法來填補(bǔ)少數(shù)離散缺失值[12]。刪除方法在遇到連續(xù)缺失或者數(shù)據(jù)變化幅度較大的情況,不但會丟失一些重要的信息,而且導(dǎo)致數(shù)據(jù)集規(guī)??赡軠p小。LITTLE和RUBIN詳細(xì)描述了直接剔除缺失記錄可能會導(dǎo)致的嚴(yán)重風(fēng)險[13-14]。均值在填補(bǔ)小于5%的缺失數(shù)據(jù)時是一種較為有效的方法[15]。插值法是一種在工程應(yīng)用中較為常用的插補(bǔ)方法[16]。二是以BP神經(jīng)網(wǎng)絡(luò)為代表的機(jī)器學(xué)習(xí)方法或組合方法,如極大似然估計(EM)結(jié)合聚類方法[17-18]、樸素貝葉斯[19]、決策樹方法進(jìn)行缺失數(shù)據(jù)填補(bǔ)[20-21]。極大似然估計是在假設(shè)缺失屬性和非缺失屬性之間存在依賴關(guān)系,通過這個依賴關(guān)系對缺失數(shù)據(jù)進(jìn)行迭代估計,算法的收斂速度慢且效率低。聚類方法是通過測量多屬性特征值之間的距離來確定相似性,通過最相似的數(shù)據(jù)屬性值來填補(bǔ)缺失數(shù)據(jù),在缺失數(shù)據(jù)比例較高時,填充的精確度會快速降低。上述方法為解決多屬性數(shù)據(jù)缺失的填補(bǔ)提供了思路,但不適合文中所面對的多測點單屬性小樣本的缺失數(shù)據(jù)填補(bǔ)問題。
為解決多測點單屬性小樣本缺失數(shù)據(jù)的填補(bǔ)問題,文中以分布式光纖監(jiān)測系統(tǒng)所獲得的不同監(jiān)測點光纖頻率值為研究對象,建立了最小二乘支持向量LSSVM缺失數(shù)據(jù)填補(bǔ)模型。并將LSSVM與BP神經(jīng)網(wǎng)絡(luò)、3次樣條插值方法進(jìn)行對比試驗,結(jié)果表明3次樣條插值和BP神經(jīng)網(wǎng)絡(luò)的填補(bǔ)結(jié)果魯棒性和泛化性差,LSSVM插補(bǔ)模型更適合多測點單屬性小樣本中缺失值的插補(bǔ)。
1 數(shù)據(jù)樣本與缺失特征分析
1.1 數(shù)據(jù)來源
煤礦開采的上覆巖層變形過程的大尺度物理模擬實驗如圖1所示,幾何相似比為1∶200,模型尺寸為2 000 mm×200 mm×980 mm,從右側(cè)200 mm處向左側(cè)開挖煤層。在模型中布置垂直傳感光纖(Fv11,F(xiàn)v12),以及百分表。以分布式光纖傳感系統(tǒng)監(jiān)測的Fv11,F(xiàn)v12上的頻率變化來研究上覆巖層的變形發(fā)展過程。在監(jiān)測過程中,由于實驗環(huán)境和實驗材料的物理特性以及周圍地質(zhì)環(huán)境的影響,導(dǎo)致采集的Fv11,F(xiàn)v12上光纖頻率數(shù)據(jù)具有數(shù)據(jù)缺失現(xiàn)象,實驗數(shù)據(jù)片段見表1,表2。
1.2 分布式光纖監(jiān)測數(shù)據(jù)缺失特征
1997年RUBIN和LITTEL提出了目前公認(rèn)的數(shù)據(jù)缺失分類,根據(jù)隨機(jī)缺失程度分為3類[13]:完全隨機(jī)缺失(missing completely at random,MCAR)、隨機(jī)缺失(missing at random,MAR)和非隨機(jī)缺失(not missing at random,NMAR)。完全隨機(jī)缺失是指數(shù)據(jù)缺失的產(chǎn)生是完全隨機(jī),不依賴于其他任何變量。隨機(jī)缺失是依賴于某種因素,不是完全隨機(jī)缺失,這也是一種最為常見的數(shù)據(jù)缺失情況。非隨機(jī)缺失與變量自身或一些不可抗、或未觀察到的值相關(guān)。
從表1和表2可以看出,分布式光纖監(jiān)測數(shù)據(jù)中的缺失數(shù)據(jù)類型屬于MCAR,MAR類以及NMAR類。其中NMAR類的缺失數(shù)據(jù),表現(xiàn)為大范圍連續(xù)0值,可能的原因是光纖拉伸應(yīng)變超過了自身的測量量程[22-23]。文中著眼研究MCAR,MAR類以及NMAR類連續(xù)缺失數(shù)據(jù)少于5個的填補(bǔ)方法。如果是大于10個以上連續(xù)0值的NMAR類數(shù)據(jù)缺失填補(bǔ),是缺失數(shù)據(jù)填補(bǔ)領(lǐng)域的難題之一,擬利用深度學(xué)習(xí)相關(guān)算法從實驗反演或趨勢預(yù)測的角度探索解決方法,因此文中方法不考慮此類缺失數(shù)據(jù)的填補(bǔ)問題。
為便于分析,文中用D表示分布式光纖實驗監(jiān)測數(shù)據(jù)全集,描述方法如下式(1)所示。
D={C1,C2,C3,…,Cn}
(1)
式中 C1為描述不同光纖傳感器位置信息;C2為描述傳感器的初始中心頻率;C3到Cn為描述實驗過程中模擬煤礦開采,開挖到一定位置所有光纖傳感器當(dāng)前時刻采集的光纖頻率值;C1和C2數(shù)據(jù)是已知的,文中重點討論C3到Cn任意一列缺失數(shù)據(jù)的填補(bǔ)算法,需要注意C3~Cn是相互獨立的,其中Ci可以認(rèn)為是長時間序列多測點單屬性局部小樣本監(jiān)測數(shù)據(jù)。
定義1:數(shù)據(jù)缺失模式的定義如公式(2)所示。
(2)
如果Vj(Ci)等于0表示當(dāng)前位置loca(i,j)監(jiān)測值是缺失狀態(tài)。當(dāng)采用機(jī)器學(xué)習(xí)算法時,以Ci列中沒有缺失的數(shù)據(jù)來推測該列缺失數(shù)據(jù)的值。
2?基于最小二乘支持向量機(jī)(LS-SVM)數(shù)據(jù)填補(bǔ)模型
2.1 監(jiān)測數(shù)據(jù)的空間相關(guān)性分析
在物理模擬實驗過程中每一次開采會得到一組監(jiān)測數(shù)據(jù)即Ci(3≤i≤n),這些監(jiān)測數(shù)據(jù)是進(jìn)行異常數(shù)據(jù)識別、覆巖變形趨勢預(yù)測等研究工作的數(shù)據(jù)基礎(chǔ)。數(shù)據(jù)缺失會極大降低數(shù)據(jù)分析的準(zhǔn)確性和精度,也會影響規(guī)律的正確發(fā)現(xiàn)和變形趨勢的預(yù)測。在圖2(a),2(b)中分別描述了Fv11光纖第一個測點6.940到最后一個測點8.234共127個測點,在開挖到36 cm、54 cm處采集到的光纖頻率數(shù)據(jù)和位置的關(guān)系。從圖中可看出監(jiān)測值和監(jiān)測位置之間有某種非線性關(guān)系,其原因是由于不同巖層的巖性、彈性模量以及厚度有所不同,導(dǎo)致監(jiān)測點的光纖中心頻率在煤層開采過程中發(fā)生不同程度的偏移。Fv12光纖監(jiān)測數(shù)據(jù)也有同樣的表現(xiàn)形式。SVM是有數(shù)學(xué)證明基礎(chǔ)的較新小樣本非線性回歸和分類的機(jī)器學(xué)習(xí)方法[24],LSSVM是SVM的擴(kuò)展,在保持較高非線性擬合度的基礎(chǔ)上降低了算法的計算復(fù)雜度[25]。通過對監(jiān)測數(shù)據(jù)的空間相關(guān)性分析可知,樣本數(shù)據(jù)具有小樣本、非線性的特征,文中提出LSSVM的多測點單屬性缺失數(shù)據(jù)插補(bǔ)方法。
2.2 算法基本原理
最小二乘支持向量機(jī)是傳統(tǒng)支持向量機(jī)算法的擴(kuò)展,它利用最小二乘線性系統(tǒng)代替了傳統(tǒng)的支持向量機(jī)所采用的二次規(guī)劃方法,在優(yōu)化模型的基礎(chǔ)上提高了算法的執(zhí)行速度。
假設(shè)訓(xùn)練集為
Ci=[ci1,ci2,ci3,…,cim,…,cin],cim為某一個測點的位置和巖層屬性組成的向量。輸出為
Y=[f1,f2,f3,…,fm,…,fn]
,fm為cim位置點的光纖頻率值。將向量cik通過非線性映射(xi)函數(shù)映射到一個高維的特征空間,然后在這個特征空間中構(gòu)造優(yōu)化的線性回歸函數(shù),如公式(3)所示。
=wT(x)+b
(3)
式中 為預(yù)測值;wT為需要學(xué)習(xí)的權(quán)重;b為偏差值。在權(quán)值
w空間(或原始空間)中的優(yōu)化問題可以描述為公式(4),約束條件為公式(5),其中e為允許的擬合誤差;γ 為正則化參數(shù)。
上述約束優(yōu)化問題通過引入拉格朗日函數(shù)將其轉(zhuǎn)化為對偶問題來進(jìn)行求解,如公式(6)所示,αi為拉格朗日乘子。
2.3 基于最小二乘支持向量機(jī)缺失數(shù)據(jù)填補(bǔ)算法
首先在實驗數(shù)據(jù)集
D={C1,C2,C3,…,Cn}中取不含有缺失數(shù)據(jù)的Ci列(3≤i≤n),在其上利用隨機(jī)函數(shù)人為產(chǎn)生見表1具有MCAR類和MAR類、NMAR類(連續(xù)5個以下的0值)特征的缺失數(shù)據(jù),為了驗證該方法的插補(bǔ)效果保留原有的對應(yīng)監(jiān)測數(shù)據(jù)。然后將Ci中正常監(jiān)測值數(shù)據(jù)形成的子集作為訓(xùn)練樣本S_train,挖空的數(shù)據(jù)形成的子集作為測試樣本S_test。算法具體步驟如下。
1)對數(shù)據(jù)進(jìn)行預(yù)處理。獲取到的監(jiān)測數(shù)據(jù)中存在著噪聲數(shù)據(jù),首先使用小波變換的處理方法將數(shù)據(jù)集Ci中每個監(jiān)測點的頻率數(shù)據(jù)中包含的噪聲數(shù)據(jù)濾除,使曲線更平滑。
2)在Ci數(shù)據(jù)集中隨機(jī)產(chǎn)生缺失數(shù)據(jù)。為了能夠驗證學(xué)習(xí)模型的有效性,在Ci集上通過隨機(jī)函數(shù)確定需要挖去的數(shù)據(jù),形成MCAR類和MAR類、NMAR類特征的缺失數(shù)據(jù)。
3)將以上2步處理好的Ci劃分為S_train和S_test樣本。
4)設(shè)置σ2,γ參數(shù)初始值。根據(jù)經(jīng)驗在實驗過程中設(shè)置γ,σ2這2個參數(shù)的初始值分別為10和0.1。參數(shù)γ是權(quán)衡模型復(fù)雜度與誤差之間的關(guān)系,σ為函數(shù)的寬度參數(shù),控制了函數(shù)的徑向作用范圍,對系統(tǒng)的泛化能力具有一定影響。
5)對S_train樣本進(jìn)行LSSVM模型訓(xùn)練,輸入為位置信息和覆巖層屬性組成的向量,輸出為該點的頻率值。
6)計算MSE指標(biāo)。MSE(Mean Squared Error)是平均平方誤差,在回歸問題中常用的參數(shù)指標(biāo),用來評估在訓(xùn)練過程中模型的可用性。
7)判斷MSE是否不變且最小。如果MSE趨于平穩(wěn)且達(dá)到最小就直接到8),否則調(diào)整γ,σ2參數(shù),返回執(zhí)行5)。
8)輸出LSSVM插補(bǔ)回歸模型。輸出最優(yōu)參數(shù)(γ,σ2),將最優(yōu)參數(shù)帶入LSSVM模型,構(gòu)建缺失數(shù)據(jù)插補(bǔ)的回歸模型。
3 實驗結(jié)果分析
文中仿真實驗的數(shù)據(jù)樣本集分別由圖1所示的采場覆巖變形大尺度物理模擬實驗中,F(xiàn)v11和Fv12這2根光纖上各127個傳感器點,在5次模擬煤礦開采過程中采集不含有缺失數(shù)據(jù)的監(jiān)測數(shù)據(jù)組成的6個樣本數(shù)據(jù)集,數(shù)據(jù)精度為單浮點型光纖中心頻率值(GHz)。為了便于實驗分析將這些數(shù)據(jù)集分別定義為:Fv11-2,F(xiàn)v11-12,F(xiàn)v11-23,F(xiàn)v12-12,F(xiàn)v12-27,F(xiàn)v12-33其中2,12,23,27,33分別為第2次,12次,23次,27次,33次模擬工作面開采。
在這些數(shù)據(jù)集上人為構(gòu)造不同缺失率下的數(shù)據(jù)缺失,并保留原有的監(jiān)測數(shù)據(jù)進(jìn)行插補(bǔ)效果驗證。為了驗證算法的有效性和普適性,算法分別在確定缺失率情況下針對離散缺失值和連續(xù)缺失值,以及不同缺失率兼具離散和連續(xù)缺失等3種情況進(jìn)行仿真實驗并做了結(jié)果分析。采用BP神經(jīng)網(wǎng)絡(luò)插補(bǔ)方法、3次樣條插值方法作為對比算法。
文中采用均方根誤差(root mean squared error,RMSE)、最大的偏離量(maximum deviation error,MDE)作為模型的評估指標(biāo)。其中均方根誤差是回歸算法常用的評價指標(biāo),這個值越小表示填補(bǔ)的數(shù)據(jù)越準(zhǔn)確。然而當(dāng)極少的填補(bǔ)值為異常值時可能導(dǎo)致這個均方根誤差較大,不能很好的評價算法的性能。為了更好的評估算法的性能,文中引入了最大的偏離量MDE作為另外一個評價指標(biāo)。RMSE和MDE值越小表示填補(bǔ)越準(zhǔn)確,算法性能越好。
式中 yi為利用插值方法所得的補(bǔ)插值;fi為實際光纖頻率監(jiān)測值;n為缺失數(shù)據(jù)個數(shù)。在公式(10)中MAX表示插補(bǔ)值與實際值差值絕對值的最大值。
3.1 ?離散型缺失值插補(bǔ)實驗分析
按照20%的缺失比率分別在Fv11和Fv12光纖監(jiān)測數(shù)據(jù)形成的6個樣本集上,隨機(jī)產(chǎn)生單點離散型缺失數(shù)據(jù),使用LSSVM,BP神經(jīng)網(wǎng)絡(luò)、3次樣條3種插補(bǔ)方法進(jìn)行缺失值插補(bǔ)實驗,實驗結(jié)果如圖3、圖4、圖5、圖6所示。
圖3和圖5中綠色曲線分別表示對Fv11和Fv12不同6個數(shù)據(jù)集的缺失值插補(bǔ)擬合,不同形狀的圖示點表示不同插補(bǔ)算法計算的插補(bǔ)值。從2個圖中可以看出當(dāng)缺失數(shù)據(jù)為單點離散型時,3種缺失值的插補(bǔ)方法基本可以較好的完成缺失值的插補(bǔ)。但從圖3(a)、圖3(b)、圖3(c)、圖4(a)、4(b)、4(c)可直觀看出3次樣條插值在某些數(shù)據(jù)集中端點和末尾處填補(bǔ)偏差較大。圖3(c)在橫坐標(biāo)7.7~7.8處,以及圖5(c)橫坐標(biāo)12.4~12.5處不連續(xù),反映出相鄰的2個監(jiān)測點在此時受巖石力影響不同,在數(shù)值上差別較大出現(xiàn)了跳躍現(xiàn)象,在圖中表示為間斷或跳躍現(xiàn)象。
在圖3(c)、4(c)顯示在Fv11-23數(shù)據(jù)集上橫坐標(biāo)7.8~8附近,以及圖5(a)、6(a)顯示在Fv12-33數(shù)據(jù)集上橫坐標(biāo)12~12.2附近,3種插值方法在該位置的絕對誤差都比較大,原因是真實監(jiān)測值在這個位置附近出現(xiàn)了突變,趨勢很陡峭。在Fv11和Fv12數(shù)據(jù)集上直觀從圖4,圖5中可以看出,LSSVM的絕對誤差是最小的。
表3描述了Fv11,F(xiàn)v12上 6個數(shù)據(jù)集LSSVM,BP神經(jīng)網(wǎng)絡(luò)、3次樣條插值算法評估指標(biāo)RMSE和MDE的值。對表3分析可知在Fv11的3個數(shù)據(jù)集上,LSSVM算法的RMSE,MDE略優(yōu)于BP神經(jīng)網(wǎng)絡(luò),3次樣條插值指標(biāo)最高,性能相對最差。在Fv12數(shù)據(jù)集上LSSVM算法的RMSE,MDE略優(yōu)于3次樣條插值,BP神經(jīng)網(wǎng)絡(luò)插補(bǔ)方法指標(biāo)最高。原因是BP神經(jīng)網(wǎng)絡(luò)在Fv12波動性較大的數(shù)據(jù)集上可能會陷入局部最優(yōu),導(dǎo)致填補(bǔ)性能指標(biāo)差。
3.2 ?連續(xù)缺失值插補(bǔ)實驗分析
在Fv11和Fv12監(jiān)測數(shù)據(jù)中產(chǎn)生的6個樣本數(shù)據(jù)集上進(jìn)行連續(xù)缺失情況的插補(bǔ)實驗。按照36%的缺失比例隨機(jī)在2個數(shù)據(jù)集上產(chǎn)生連續(xù)缺失數(shù)據(jù)(連續(xù)缺失數(shù)據(jù)個數(shù)為3~5個之間),然后在相應(yīng)的數(shù)據(jù)集上使用LSSVN,BP神經(jīng)網(wǎng)絡(luò)、3次樣條插補(bǔ)方法進(jìn)行缺失值填補(bǔ)實驗。實驗結(jié)果如圖7、圖8、圖9、圖10所示。
從圖7,圖8可知,在Fv11數(shù)據(jù)集上進(jìn)行連續(xù)缺失值插補(bǔ)時,LSSVM具有較好的擬合趨勢。但在圖7(a)、圖8(a)的橫坐標(biāo)7.3~7.5范圍內(nèi)3次樣條連續(xù)填補(bǔ)的偏差較大,圖7(b)、圖8(b)的橫坐標(biāo)7.3~7.5范圍內(nèi)3次樣條、BP神經(jīng)網(wǎng)絡(luò)的連續(xù)填補(bǔ)偏差較大,而且在連續(xù)值插補(bǔ)時可能會改變數(shù)據(jù)的變化趨勢。圖7(c)、圖8(c)的橫坐標(biāo)7.5~7.9范圍內(nèi)3次樣條的連續(xù)插補(bǔ)偏差較大。從圖9、圖10可知在Fv12的數(shù)據(jù)集上進(jìn)行連續(xù)缺失值插補(bǔ)時,LSSVM具有較好的擬合趨勢。但在圖9(a)、10(a)橫坐標(biāo)12.4~12.6范圍內(nèi),3次樣條和BP神經(jīng)網(wǎng)絡(luò)的連續(xù)缺失插補(bǔ)偏差較大,而且在連續(xù)值插補(bǔ)時可能會改變數(shù)據(jù)的變化趨勢。在圖9(b)、10(b)的開始位置3次樣條連續(xù)填補(bǔ)的偏差較大。
從圖8和圖10可以看出,當(dāng)缺失值呈現(xiàn)連續(xù)狀態(tài),3種缺失值插補(bǔ)算法的絕對誤差都在增大。3次樣條插值的絕對誤差在Fv11數(shù)據(jù)集上變化幅度較大,在Fv12數(shù)據(jù)集上BP神經(jīng)網(wǎng)絡(luò)變化幅度略高于3次樣條,但LSSVM在2個數(shù)據(jù)集上都有好的擬合表現(xiàn)。
表4展示了LSSVM,BP神經(jīng)網(wǎng)絡(luò)和3次樣條插補(bǔ)算法在Fv11,F(xiàn)v12數(shù)據(jù)集上進(jìn)行連續(xù)缺失值插補(bǔ)時評估指標(biāo)RMSE和MDE值。整體來看連續(xù)缺失值插補(bǔ)比離散型插補(bǔ),3種方法的RMSE,MDE值都有提高。通過對表4分析可知,在Fv11和Fv12不同的數(shù)據(jù)集上LSSVM均優(yōu)于BP神經(jīng)網(wǎng)絡(luò)和3次樣條插補(bǔ)方法。同時可看出在Fv11不同數(shù)據(jù)集上,由于BP神經(jīng)網(wǎng)絡(luò)和3次樣條插值均有較大的填補(bǔ)誤差,因此這2個方法在Fv11數(shù)據(jù)集上表現(xiàn)近似。在Fv12-33數(shù)據(jù)集上BP神經(jīng)網(wǎng)絡(luò)插補(bǔ)方法性能在3個算法中最差,原因是由于該數(shù)據(jù)集非線性波動可能使BP神經(jīng)網(wǎng)絡(luò)陷入局部最優(yōu)。在Fv12-12數(shù)據(jù)集上由于3次樣條插補(bǔ)在起始點處誤差最大,導(dǎo)致其RMSE,MDE值較高。在Fv12-27數(shù)據(jù)集上由于出現(xiàn)了監(jiān)測值的大跳變導(dǎo)致3種算法的RMSE值和MDE值都變大,但變化平穩(wěn)。
3.3 ?不同缺失比例缺失數(shù)據(jù)插補(bǔ)實驗分析
在實際應(yīng)用和大尺度物理模擬實驗中,較為常見的是監(jiān)測數(shù)據(jù)同時具有離散和連續(xù)2種缺失形式的情況。為了驗證LSSVM算法對于缺失值填補(bǔ)算法的泛化性和適用性,利用隨機(jī)函數(shù)在Fv11,F(xiàn)v12的6個數(shù)據(jù)集上同時產(chǎn)生離散和連續(xù)2種缺失形態(tài),并在此基礎(chǔ)上分別形成不同比例的隨機(jī)缺失,缺失比例分別為10%,20%,30%,36%,44%,50%。通常情況下無論是物理模擬實驗環(huán)境還是實際應(yīng)用環(huán)境,缺失數(shù)據(jù)率低于30%。為了驗證算法的極限性能,也為了更準(zhǔn)確的分析隨著缺失比例的增大,RMSE和MDE值的變化趨勢,在30%到50%的缺失比例區(qū)間增加了36%和44%的缺失比例。分別采用LSSVM,BP神經(jīng)網(wǎng)絡(luò)和3次樣條插補(bǔ)算法在Fv11和Fv12對應(yīng)的數(shù)據(jù)集上進(jìn)行所有缺失比例下數(shù)據(jù)的填補(bǔ)實驗。為了保證實驗結(jié)果的客觀性,文中對于每組實驗進(jìn)行50次迭代,表7和表8顯示了不同數(shù)據(jù)集上不同缺失比例下評估指標(biāo)RMSE和MDE值。
表7和表8顯示,在Fv11-12和Fv11-2數(shù)據(jù)集上當(dāng)缺失比例為20%及以下時,3種插值方法的RMSE都相差不大,但LSSVM的MDE指標(biāo)明顯優(yōu)于3次樣條、BP神經(jīng)網(wǎng)絡(luò)2種方法。隨著缺失比例逐漸增大,3種插值方法的RMSE值和MDE值較之前有著明顯的上升,但LSSVM的RMSE值均低于3次樣條插值法和BP神經(jīng)網(wǎng)絡(luò)方法,LSSVM的MDE指標(biāo)顯著低于其他2種方法。對于Fv11-23數(shù)據(jù)集3次樣條的RMSE值和MDE值都是最高的,性能也是最差的??傮w上在Fv11數(shù)據(jù)集不同缺失比例數(shù)據(jù)插補(bǔ)實驗中,LSSVM表現(xiàn)最好,BP神經(jīng)網(wǎng)絡(luò)次之,3次樣條插值最差。
在Fv12數(shù)據(jù)集,隨著缺失比例逐漸增大,3種插值方法的RMSE值和MDE值同樣有明顯的上升,但LSSVM的RMSE和MDE指標(biāo)值均明顯低于3次樣條插值法和BP神經(jīng)網(wǎng)絡(luò)。當(dāng)缺失比例低于30%時BP神經(jīng)網(wǎng)和3次樣條插補(bǔ)方法性能基本相似,LSSVM略高于2種方法。當(dāng)缺失比例從36%升高到50%時,由于3次樣條插值方法采用的是數(shù)值計算的方式,缺失值填補(bǔ)的準(zhǔn)確性快速下降,而基于機(jī)器學(xué)習(xí)的LSSVM方法和BP神經(jīng)網(wǎng)絡(luò)顯示出了較強(qiáng)的非線性學(xué)習(xí)能力,因此評估指標(biāo)均好于3次樣條插值,其中LSSVM表現(xiàn)最好。
綜合實驗分析可知,LSSVM在2根不同光纖產(chǎn)生的6個不同數(shù)據(jù)集上,不同類型、不同缺失比例下的缺失值插補(bǔ)效果穩(wěn)定,性能均高于BP神經(jīng)網(wǎng)絡(luò)和3次樣條插補(bǔ)方法。LSSVM缺失數(shù)據(jù)插補(bǔ)方法對于長時間序列中多測點單屬性局部小樣本缺失數(shù)據(jù)填補(bǔ)是一種有效的填補(bǔ)方法。
4 結(jié) 論
1)采場覆巖光纖監(jiān)測數(shù)據(jù)呈現(xiàn)了多測點單屬性小樣本的特性,文中建立了多測點單屬性小樣本缺失數(shù)據(jù)LSSVM填補(bǔ)模型。
2)LSSVM填補(bǔ)方法在不同數(shù)據(jù)集上,針對不同缺失類型的數(shù)據(jù)插補(bǔ)性能評價指標(biāo)均高于其他2種方法,預(yù)測精度也高于其他2種方法。該方法對單屬性小樣本缺失數(shù)據(jù)填補(bǔ)是一種穩(wěn)定有效的填補(bǔ)方法。
3)3次樣條插補(bǔ)方法在端點處可能存在較大的誤差,且隨著缺失比例提高填補(bǔ)精度下降較快。BP神經(jīng)網(wǎng)絡(luò)插補(bǔ)方法隨著原始數(shù)據(jù)的曲線形狀不同,在缺失值插補(bǔ)時可能會出現(xiàn)局部最優(yōu)或改變數(shù)據(jù)趨勢的情況。
參考文獻(xiàn)(References):
[1] 袁亮.國煤炭資源高效回收及節(jié)能戰(zhàn)略研究[M].北京:科學(xué)出版社,2017.
[2]袁亮,姜耀東,何學(xué)秋,等.煤礦典型動力災(zāi)害風(fēng)險精準(zhǔn)判識及監(jiān)控預(yù)警關(guān)鍵技術(shù)研究進(jìn)展[J].煤炭學(xué)報,2018,43(2):306-319.YUAN Liang,JIANG Yaodong,HE Xueqiu,et al.Research progress of precise risk accurate identification and monitoring early warning on typical dynamic disasters in coal mine[J].Journal of China Coal society,2018,43(3):306-319.
[3]袁亮.我國深部煤與瓦斯共采戰(zhàn)略思考[J].煤炭學(xué)報,2016,41(1):1-6.YUAN Liang.Strategic thinking of simultaneous exploitation of coal and gas in deep mining[J].Journal of China Coal Society,2016,41(1):1-6.
[4]袁亮,薛俊華,劉泉聲等.煤礦深部巖巷圍巖控制理論與支護(hù)技術(shù)[J].煤炭學(xué)報,2011,36(4):535-543.YUAN Liang,XUE Junhua,LIU Quansheng et al.Surrounding rock stability control theory and support technique in deep rock roadway for coal mine[J].Journal of China Coal Society,2011,36(4):535-543.
[5]王家臣,劉峰,王蕾.煤炭科學(xué)開采與開采科學(xué)[J].煤炭學(xué)報,2016,41(11):2651-2660.
WANG Jiachen,LIU Feng,WANG Lei.Sustainable coal mining and mining sciences[J].Journal of China Coal Society,2016,41(11):2651-2660.
[6]柴敬,趙文華,李毅等.采場上復(fù)巖層沉降變形的光纖檢測實驗[J].煤炭學(xué)報,2013,23(1):55-60.CHAI Jing,ZHAO Wenhua,LI Yi,et al.FBG monitoring test on settlement deformation of overlaying strata in similar models[J].Journal of China Coal Society,2013,23(1):55-60.
[7]MARCEL F,JAN N,PAVEL M,et al.Analysis of the highway tunnels monitoring using an optical fiber implemented into primary lining[J].Journal of Electrical Engineering,2017,68(5):364-370.
[8]楊旭,朱振峰,徐美香,等.多視角數(shù)據(jù)缺失補(bǔ)全[J].軟件學(xué)報,2018,29(4):945-956.YANG Xu,ZHU Zhenfeng,XU Meixiang,et al.Missing view completion for multi-view data[J].Journal of Software,2018,29(4):945-956.
[9]陳靜杰,車潔.基于標(biāo)準(zhǔn)歐氏距離的燃油流量缺失數(shù)據(jù)填補(bǔ)算法[J].計算機(jī)科學(xué),2017,44(6A):109-113.CHEN Jingjie,CHE Jie.Fuel flow missing value imputation method based on standardized euclidean distance[J].Computer Science,2017,44(6A):109-113.
[10]JAUME B,CLAUDIO B,MARIYA A P,et al.Assessment,restoration and reclamation of mining influenced soils[M].London:Academic Press,2017.
[11]JOCELYN T C,ERIC C C,RICHARD G B,et al.A method for k-means clustering of missing data[J].The American Statistician,2016,70(1):91-99.
[12]龔尚紅,潘庭龍,吳定會,等.基于MCMC的微網(wǎng)光伏數(shù)據(jù)缺失填補(bǔ)方法的研究[J].可再生能源,2018,36(3):346-351.
GONG Shanghong,PAN Tinglong,WU Dinghui,et al.Research on missing data imputation of Micro-Grid PV system based on MCMC[J].Renewable Energy Resources,2018,36(3):346-351.
[13]LITTLE R J A,RUBIN D B.Statistical analysis with missing data[M].Hoboken:John Wiley & Sons,2002.
[14]DICK U,HAIDER P, SCHEFFER T.Learning from incomplete data with infinite imputations[C]//in Proceedings of the 25th international conference on Machine learning,Helsinki Finland,Jul,2008:232-239.
[15]龐新生.缺失數(shù)據(jù)處理方法的比較[J].統(tǒng)計與決策,2010(24):152-155.PANG Xinsheng.Comparing method of missing data imputation[J].Statistics & Decision,2010(24):152-155.
[16]李黎,尚俊云,馮艷麗,等.關(guān)節(jié)型工業(yè)機(jī)器人軌跡規(guī)劃研究綜述[J].計算機(jī)工程與應(yīng)用,2018,54(5):36-50.LI Li,SHANG Junyun,F(xiàn)ENG Yanli,et al.Research of trajectory planning for articulated industrial robot:A review[J].Computer Engineering and Applications,2018,54(5):36-50.
[17]ZHAO J W,SHAO J.Approximate conditional likelihood for generalized linear models with general missing data mechanism[J].Journal? of Systems Science & Complexity,2017,30:139-153.
[18]MUAMMER ALBAYRAK,KEMAL TURHAN,BUR IN KURT.A missing data imputation approach using clustering and maximum likelihood estimation[C]//2017 Medical Technologies National Congress,Trabzon,Turkey,2017:1334-1338.
[19]SUSANTI S P,AZIZAH F N.Imputation of missing value using dynamic bayesian network for multivariate time series data[C]//2017 International Conference on Data and Software Engineering(ICoDSE),Sumatra Selatan,Indonesia,2017:1124-1128.
[20]KEERIN P,KURUTACH W,BOONGOEN T.Cluster-based KNN missing value imputation for DNA microarray data[C]//2012 IEEE International Conference on Systems,Man,and Cybernetics,COEX,Seoul,Korea,October,2012:445-451.
[21]XU X L,CHONG W Z,LI H C,et al.Missing data imputation based on the evidence chain[J].IEEE Access,2018(6):12983-12984.
[22]劉少林,張丹,張平松,等.基于分布式光纖傳感技術(shù)的采動覆巖變形監(jiān)測[J].工程地質(zhì)學(xué)報,2016,24(6):1118-1126.LIU Shaolin,ZHANG Dan,ZHANG Pingsong,et al.Deformation monitoring of overburden based on distributed optical fiber sensing[J].Journal of Engineering Geology,2016,24(6):1118-1126.
[23]袁強(qiáng).采動覆巖變形的分布式光纖檢測與表征模擬試驗研究[D].西安:西安科技大學(xué),2017.
YUAN Qiang.Experimental study on detection and representation of mining-induced overburden deformation with distributed optical fiber sensing[D].Xian:Xian University of Science and Technology,2017.
[24]陳永義,俞小鼎,高學(xué)浩.處理非線性分類和回歸問題的一種新方法(Ⅰ)——支持向量機(jī)方法簡介[J].氣象應(yīng)用學(xué)報,2004,15(3):345-355.
CHEN Yongyi,YU Xiaoding,GAO Xuehao.A new method for non-linear classification and non-linear regression Ⅰ:Introduction to support vector machine[J].Journal of Applied Meteo Rological Science,2004,15(3):345-355.
[25]XIE W,WANG Y C,LIU X Q,et al.Nonlinear joint PP-PS AVO inversion based on improved Bayesian inference and LSSVM[J].Applied Geophysics,2019,16(1):64-76.
[26]鄧軍,雷昌奎,曹凱,等.煤自燃預(yù)測的支持向量回歸方法[J].西安科技大學(xué)學(xué)報,2018,38(2):176-181.DENG Jun,LEI Changkui,CAO Kai,et al.Support vector regression approach for predicting coal spontaneous combustion[J].Journal of Xian University of Science and Technology,2018,38(2):176-181.
[27]陳同俊,王新,管永偉.基于SVR和地震屬性的構(gòu)造煤厚度定量預(yù)測[J].煤炭學(xué)報,2015,40(5):1103-1108.CHEN Tongjun,WANG Xin,GUAN Yongwei.Quantitative prediction of tectonic coal seam thickness using support vector regression and seismic attributes[J]Journal of China Coal Society,2015,40(5):1103-1108.
[28]段國榮,劉元會.用差異演化-粒子群混合算法確定含水層參數(shù)[J].西安科技大學(xué)學(xué)報,2019,39(3):549-554.DUAN Guorong,LIU Yuanhui.Determination of aquifer parameters by
differential evolution-particle swarm optimization mixed algorithm[J].Journal of Xian University of Science and Technology,2019,39(3):549-554.
收稿日期:2019-12-30?? 責(zé)任編輯:楊泉林
基金項目:
國家重點研發(fā)計劃項目(2018YFC0808301);國家自然科學(xué)基金資助項目(51804244)
通信作者:
冀汶莉,女,陜西西安人,碩士,副教授,E-mail:jiwenli@xust.edu.cn