沈 震,徐良驥,劉瀟鵬,秦長(zhǎng)才,王振兵
(安徽理工大學(xué)測(cè)繪學(xué)院,安徽 淮南 232001)
?
機(jī)器學(xué)習(xí)輔助下的概率積分法參數(shù)預(yù)計(jì)模型尋優(yōu)
沈震,徐良驥,劉瀟鵬,秦長(zhǎng)才,王振兵
(安徽理工大學(xué)測(cè)繪學(xué)院,安徽 淮南 232001)
收集整理了多組地表移動(dòng)觀測(cè)站資料作為訓(xùn)練樣本和檢驗(yàn)樣本,以工作面地質(zhì)采礦條件為輸入集,概率積分法預(yù)計(jì)參數(shù)為輸出集,利用機(jī)器學(xué)習(xí)方法對(duì)概率積分法預(yù)測(cè)參數(shù)進(jìn)行了預(yù)測(cè)。選取支持向量機(jī)、BP神經(jīng)網(wǎng)絡(luò)和偏最小二乘法3種機(jī)器學(xué)習(xí)方法對(duì)訓(xùn)練樣本進(jìn)行訓(xùn)練,利用訓(xùn)練所得模型預(yù)測(cè)檢驗(yàn)樣本中的概率積分法預(yù)測(cè)參數(shù),并將預(yù)測(cè)結(jié)果與觀測(cè)站實(shí)測(cè)值進(jìn)行對(duì)比。結(jié)果表明,利用支持向量機(jī)預(yù)測(cè)下沉系數(shù)、主要影響角正切值及水平移動(dòng)系數(shù)的精度最高,其平均相對(duì)誤差分別達(dá)到7.46%、4.00%、13.17%;拐點(diǎn)偏距及開采影響傳播角利用偏最小二乘法預(yù)計(jì)精度最高,平均相對(duì)誤差分別為10.83%、0.88%;總體而言支持向量機(jī)的預(yù)測(cè)精度最為穩(wěn)定。
概率積分法預(yù)計(jì)參數(shù);支持向量機(jī);BP神經(jīng)網(wǎng)絡(luò);偏最小二乘法;模型尋優(yōu)
機(jī)器學(xué)習(xí)是指通過(guò)計(jì)算機(jī)編程實(shí)現(xiàn)從已知數(shù)據(jù)樣本中自動(dòng)分析獲得規(guī)律,并利用分析結(jié)果對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)的方法。本文選取了機(jī)器學(xué)習(xí)中有代表性的3種方法:支持向量機(jī)、BP神經(jīng)網(wǎng)絡(luò)及偏最小二乘法對(duì)概率積分法參數(shù)進(jìn)行預(yù)測(cè)。
1. 支持向量機(jī)
支持向量機(jī),其主要思想是利用一個(gè)非線性映射K,將原本線性不可分的數(shù)據(jù)集合映射到高維空間,即
K(x,z)=φ(x)·φ(z)
(1)
式中,K為核函數(shù);φ是從x到內(nèi)積特征空間F的映射。在高維空間中選擇一個(gè)超平面實(shí)現(xiàn)數(shù)據(jù)的最優(yōu)分類,式(2)、式(3)分別為決策函數(shù)和分類平面的數(shù)學(xué)模型,利用此最優(yōu)超平面對(duì)預(yù)測(cè)數(shù)據(jù)進(jìn)行分類或預(yù)測(cè)[7-8]。
yi=sgn(wxi+b)
(2)
wxi+b=0
(3)
2. BP神經(jīng)網(wǎng)絡(luò)模型
BP神經(jīng)網(wǎng)絡(luò)屬于按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。訓(xùn)練開始前計(jì)算機(jī)隨機(jī)生成一組向量作為權(quán)值分配給各輸入分量,隨后由事先定義的決策函數(shù)F根據(jù)輸入量計(jì)算得到輸出數(shù)據(jù),并根據(jù)輸出結(jié)果與真實(shí)數(shù)據(jù)之間的誤差反復(fù)修正權(quán)向量,直至輸出結(jié)果與真實(shí)數(shù)據(jù)的中誤差達(dá)到限值,最后利用網(wǎng)絡(luò)學(xué)習(xí)所得到的模型對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)[8-9]。
3. 偏最小二乘法
偏最小二乘法,其通過(guò)對(duì)自變量及應(yīng)變量矩陣進(jìn)行主成分分解以提取其中的隱藏因子,隨后通過(guò)迭代計(jì)算確定回歸系數(shù),并利用一個(gè)線性模型來(lái)描述自變量與因變量之間的關(guān)系。其數(shù)學(xué)模型如下
Y=b0+b1X1+b2X2+…+bnXn
(4)
式中,Y為因變量向量;X1、X2、…、Xn為自變量元素;b0為截距;b1、b2、…、bn為自變量元素對(duì)應(yīng)的回歸系數(shù)[10]。
1. 樣本數(shù)據(jù)預(yù)處理
北京大學(xué)人民醫(yī)院魏來(lái)(摘要637)報(bào)告了中國(guó)3期臨床研究,sofosbuvir/velpatasvir(SOF/VEL)治療基因1~6型患者12周,耐受性好,12周總SVR為96%。不論是否有肝硬化基因1型、2型、6型均獲得100%的12周SVR?;?型12周SVR為83%(其中有16%患者為經(jīng)治)?;?b型有肝硬化的患者SVR相對(duì)低。一項(xiàng)來(lái)自意大利的研究顯示SOF/VEL治療基因3型12周,在代償期肝硬化患者中的12周SVR為96.4%,在失代償期肝硬化患者療效欠佳。聯(lián)合使用利巴韋林(RBV)未增加療效優(yōu)勢(shì)。
本文以23個(gè)地表移動(dòng)觀測(cè)站數(shù)據(jù)作為樣本,其中前19組為訓(xùn)練樣本,后4組為檢驗(yàn)樣本。根據(jù)概率積分法預(yù)測(cè)參數(shù)、工作面地質(zhì)采礦條件及機(jī)器學(xué)習(xí)方法特點(diǎn),選取7個(gè)地質(zhì)采礦條件參數(shù)作為樣本的輸入集,包括:平均開采深度H0、開采厚度m、覆巖平均堅(jiān)固性系數(shù)f、松散層厚度w、采動(dòng)程度n、煤層傾角α及重復(fù)采動(dòng)影響。其中,采動(dòng)程度n由工作面傾向長(zhǎng)度L與平均開采深度H0的比值L/H0計(jì)算;重復(fù)采動(dòng)項(xiàng)中0代表首采,1代表重復(fù)采動(dòng);覆巖平均堅(jiān)固性系數(shù)f計(jì)算公式為
(5)
式中,mi為第i層煤層法向厚度;Ri為該層單向抗壓強(qiáng)度。樣本輸入集見表1。
表1 工作面基本參數(shù)
輸出集為概率積分法預(yù)測(cè)參數(shù),分別為:下沉系數(shù)q、水平移動(dòng)系數(shù)b、主要影響角正切值tanβ、開采影響傳播角θ、拐點(diǎn)偏距與采深的比值S/H0,樣本輸出集見表2[11-12]。
表2 概率積分法預(yù)測(cè)參數(shù)
由于樣本數(shù)據(jù)中包含多種參數(shù),且參數(shù)取值范圍區(qū)別較大,若直接進(jìn)行訓(xùn)練會(huì)導(dǎo)致部分參數(shù)占有更大的比重,影響訓(xùn)練結(jié)果,因此在確定樣本數(shù)據(jù)后對(duì)樣本數(shù)據(jù)進(jìn)行歸一化處理以提高訓(xùn)練精度。
2. 模型訓(xùn)練
(1) 支持向量機(jī)訓(xùn)練結(jié)果
利用Matlab中的Libsvm工具箱對(duì)歸一化后的樣本數(shù)據(jù)進(jìn)行訓(xùn)練,其中基礎(chǔ)模型使用epsilon-SVR模型,核函數(shù)采用RBF(徑向基)核函數(shù),核函數(shù)gamma值設(shè)為2.8[13]。以下沉系數(shù)為例,訓(xùn)練結(jié)果均方誤差MSE=0.035 3,圖1為訓(xùn)練值與原始值對(duì)比圖。
(2) BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練結(jié)果
BP神經(jīng)網(wǎng)絡(luò)模型由輸入層、輸出層及隱藏層組成,其中輸入層和輸出層分別對(duì)應(yīng)樣本數(shù)據(jù)中的輸入集和輸出集。隱藏層可為一層或多層,隱藏層的節(jié)點(diǎn)數(shù)過(guò)少將削弱模型精度,過(guò)多會(huì)降低運(yùn)算速度,本文經(jīng)過(guò)試驗(yàn)對(duì)比將隱藏層層數(shù)設(shè)為1,節(jié)點(diǎn)數(shù)設(shè)置為17,神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖2所示[14]。
圖1 支持向量機(jī)訓(xùn)練結(jié)果
圖2 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
利用BP神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練樣本進(jìn)行訓(xùn)練,在9998次訓(xùn)練后精度趨于穩(wěn)定,均方誤差MSE=0.016 7。
(3) 偏最小二乘法訓(xùn)練結(jié)果
利用偏最小二乘法對(duì)訓(xùn)練樣本進(jìn)行訓(xùn)練,可得到每個(gè)因變量相對(duì)于自變量的線性模型,以下沉系數(shù)q為例,其關(guān)于工作面地質(zhì)采礦條件的線性模型如下
q=1.562 3-0.000 9H0+0.001 6w-0.282 7n-0.000 3α-0.045 1m-0.077 9f-0.015 0r
(6)
訓(xùn)練結(jié)果與原始數(shù)據(jù)均方誤差為0.011 3。
利用訓(xùn)練所得模型對(duì)檢驗(yàn)樣本中的概率積分法參數(shù)進(jìn)行預(yù)測(cè)。支持向量機(jī)、BP神經(jīng)網(wǎng)絡(luò)及偏最小二乘法預(yù)測(cè)結(jié)果見表3—表5。
表3 支持向量機(jī)預(yù)測(cè)值
表4 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)值
表5 偏最小二乘法預(yù)測(cè)值
將3種方法預(yù)測(cè)值與地表移動(dòng)觀測(cè)站解算結(jié)果進(jìn)行對(duì)比,計(jì)算其平均相對(duì)誤差平均值及最大相對(duì)誤差,結(jié)果見表6。
表6 預(yù)測(cè)精度對(duì)比 (%)
由表6可知,下沉系數(shù)q、主要影響角正切值tanβ及水平移動(dòng)系數(shù)b利用支持向量機(jī)進(jìn)行預(yù)測(cè)時(shí)精度最高;拐點(diǎn)偏距與采深的比值S/H0及開采影響傳播角θ利用偏最小二乘法預(yù)測(cè)時(shí)精度最高;就總體預(yù)測(cè)結(jié)果而言,支持向量機(jī)的預(yù)測(cè)精度最高。
1) 以觀測(cè)站實(shí)測(cè)數(shù)據(jù)為樣本數(shù)據(jù),采用支持向量機(jī)、BP神經(jīng)網(wǎng)絡(luò)及偏最小二乘法3種機(jī)器學(xué)習(xí)方法對(duì)概率積分法參數(shù)進(jìn)行了預(yù)測(cè),結(jié)果證明機(jī)器學(xué)習(xí)方法能夠較為準(zhǔn)確地預(yù)測(cè)概率積分法參數(shù),為開采沉陷工作提供參考。
2) 不同的機(jī)器學(xué)習(xí)方法預(yù)測(cè)概率積分法參數(shù)時(shí)精度不盡相同,應(yīng)根據(jù)實(shí)際情況選擇精度最高的預(yù)測(cè)模型或多種模型結(jié)合,如利用支持向量機(jī)方法預(yù)測(cè)下沉系數(shù)q、主要影響角正切值tanβ及水平移動(dòng)系數(shù)b,而拐點(diǎn)偏距及開采影響傳播角θ則可使用偏最小二乘法進(jìn)行預(yù)測(cè)。
[1]何國(guó)清,楊倫,凌賡娣,等.礦山開采沉陷學(xué)[M].徐州:中國(guó)礦業(yè)大學(xué)出版社,1995.
[2]鄒友峰.開采沉陷預(yù)計(jì)參數(shù)的確定方法[J].焦作工學(xué)院學(xué)報(bào)(自然科學(xué)版),2001,20(4):253-257.
[3]麻鳳海,楊帆.采礦地表沉陷的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)[J].中國(guó)地質(zhì)災(zāi)害與防治學(xué)報(bào),2001,12(3):87-90.
[4]郭文兵,鄧喀中,鄒友峰.概率積分法預(yù)計(jì)參數(shù)選取的神經(jīng)網(wǎng)絡(luò)模型[J].中國(guó)礦業(yè)大學(xué)學(xué)報(bào),2004,33(3):88-92.
[5]楊帆,麻鳳海.地表移動(dòng)預(yù)計(jì)參數(shù)選取的神經(jīng)網(wǎng)絡(luò)法[J].中國(guó)地質(zhì)災(zāi)害與防治學(xué)報(bào),2004,15(1):102-106.
[6]YAN W Y, HE Q.Multi-class Fuzzy Support Vector Machine Based on Dismissing Margin[C]∥Proceedings of the Eighth International Conference on Machine Learning and Cybernetics. Baoding, China: [s.n.], 2009: 1139-1144.
[7]林卉,朱慶,胡召玲.模糊支持向量機(jī)和變化矢量分析相結(jié)合的礦區(qū)土地覆蓋變化檢測(cè)[J]. 測(cè)繪通報(bào),2014(11):25-27.
[8]梁月吉,任超,楊秀發(fā),等.結(jié)合雙樹復(fù)小波和廣義回歸神經(jīng)網(wǎng)絡(luò)的鐘差預(yù)報(bào)方法研究[J].測(cè)繪通報(bào),2016(1):6-10,18.
[9]Kerh T,Gunaratnam D,Chan Y.Neural Computing with Genetic Algorithm in Evaluating Potentially Hazardous Metropolitan Areas Result from Earthquake[J].Neural Computing & Application,2010,19(4):521-529.
[10]羅批,郭繼昌,李鏘,等.基于偏最小二乘回歸建模的探討[J].天津大學(xué)學(xué)報(bào)(自然科學(xué)與工程技術(shù)版),2002,35(6):783-786.
[11]徐良驥,王少華,馬榮振,等.厚松散層開采條件下覆巖運(yùn)動(dòng)與地表移動(dòng)規(guī)律研究[J].測(cè)繪通報(bào),2015(10):52-56.
[12]劉偉韜,劉歡,陳志興,等.地表沉陷預(yù)計(jì)參數(shù)精度分析[J].測(cè)繪科學(xué),2016(8):1-8.
[13]范昕煒.支持向量機(jī)算法的研究及其應(yīng)用[D].杭州:浙江大學(xué),2003.
[14]劉天舒.BP神經(jīng)網(wǎng)絡(luò)的改進(jìn)研究及應(yīng)用[D].哈爾濱:東北農(nóng)業(yè)大學(xué),2011.
Probability Integral Method Parameters Prediction Model Optimization Based on Machine Learning Methods
SHEN Zhen,XU Liangji,LIU Xiaopeng,QIN Changcai,WANG Zhenbing
沈震,徐良驥,劉瀟鵬,等.機(jī)器學(xué)習(xí)輔助下的概率積分法參數(shù)預(yù)計(jì)模型尋優(yōu)[J].測(cè)繪通報(bào),2016(10):35-38.DOI:10.13474/j.cnki.11-2246.2016.0324.
2016-05-10
國(guó)家自然科學(xué)基金(41472323);安徽省對(duì)外科技合作計(jì)劃(1503062020)
沈震(1990—),男,碩士生,研究方向?yàn)榈V山開采沉陷。E-mail:abczhenxx@qq.com
P258
B
0494-0911(2016)10-0035-04