徐靜安 吳 芳 都麗紅
第二十六講“支持向量機(SVM)簡介及DPS應(yīng)用操作”簡要介紹了SVM的概念、原理、模型、算法及支持向量回歸(SVR)案例在DPS系統(tǒng)中的操作應(yīng)用。由于SVM是基于小樣本的統(tǒng)計理論,在小樣本案例中,計算結(jié)果能獲得較好的統(tǒng)計效果。一些情況下,難以獲得“充分大”的大樣本實驗數(shù)據(jù),例如:難以安排大范圍考察的試驗設(shè)計的場合,如中試以上規(guī)模的裝置;實驗周期較長的響應(yīng),如材料老化、蠕變,穩(wěn)定性同位素平衡時間,農(nóng)化盆栽試驗,弱腐蝕體系甲醇汽油的腐蝕行為等;實驗費用大的對象,如部件的破壞性檢測;等等。而與傳統(tǒng)的、經(jīng)典的基于大樣本統(tǒng)計理論的算法相比,SVR在統(tǒng)計分析、數(shù)據(jù)挖掘中有其獨特功能。
此外,在數(shù)據(jù)樣本的收集中,有涉及歷史性的過去記錄,有涉及地域性的宏觀尺度記錄,也有在實驗中因種種原因?qū)е虏糠州斎胱兞康娜笔?,難以保證數(shù)據(jù)的完整性。一般回歸算法無法處理缺失數(shù)據(jù),而SVR算法具有處理缺失數(shù)據(jù)的功能。下面采用一個案例對一般回歸算法和SVR算法進行回歸精度對比,同時采用SVR對含缺失項數(shù)據(jù)進行回歸處理。
案例摘編于唐啟義著《DPS數(shù)據(jù)處理系統(tǒng)——實驗設(shè)計、統(tǒng)計分析及數(shù)據(jù)挖掘》(第二版)第25.1節(jié)第658頁,該案例為研究醫(yī)院所需要的人力,對某地區(qū)17家醫(yī)院調(diào)查了一組數(shù)據(jù),考察5個變量因子[日平均病人數(shù)x1,月平均 X光透視人數(shù)x2,月平均所占用的床位天數(shù)x3,當(dāng)?shù)厝丝跀?shù)相關(guān)的參數(shù)(人口數(shù)除以1000)x4,平均每個病人住院天數(shù)x5]與月平均使用的人小時數(shù)y之間的關(guān)系,數(shù)據(jù)表如表1所示。
在醫(yī)院所需要的人力數(shù)據(jù)例子中,有9個樣本含有缺失數(shù)據(jù),數(shù)據(jù)缺失率達到9/17=53%,含缺失項的數(shù)據(jù)表如表2所示。
表1 17組完整數(shù)據(jù)
該案例包含M=5個輸入變量,共N=17組隨機數(shù)據(jù),由于沒有可能進行試驗設(shè)計,屬于社會統(tǒng)計類隨機數(shù)據(jù),N/M=17/5=3.4,為小樣本問題。對表1中的17組完整數(shù)據(jù)和表2中含缺失項的17組數(shù)據(jù),分別采用二次多項式逐步回歸方法和SVM算法進行學(xué)習(xí)建模,比較其回歸效果。
(1)將表1中的17組完整數(shù)據(jù)輸入DPS,選中數(shù)據(jù)塊,在菜單下選擇“多元分析”→“支持向量機(SVM)”→“SVM回歸”,各參數(shù)設(shè)為默認值,計算結(jié)
表2 17組含缺失項的數(shù)據(jù)
果如下:
支持向量機系數(shù)
項目 rho Prob.
Const -0.4281 0.0693
α1 SV1 SV2 SV3 SV4 SV5
-1 -1 -0.9902-1 -0.9531-0.8401
-1 -0.885-1 -0.8848-1 -0.1221
………………
0.5101 1 1 1 1 -0.2878
各樣本實際值與擬合值對比:
樣本序號 觀察值 擬合值 擬合誤差
1 566.52 1009.6226 -443.1026
2 696.82 1087.6993 -390.8793
3 1033.15 1158.4982 -125.3482
4 1603.62 1421.6036 182.0164
5 1611.37 1428.2817 183.0883
6 1613.27 1801.5872 -188.3172
7 1854.17 1546.367 307.803
8 2160.55 1699.5056 461.0444
9 2305.58 2516.8053 -211.2253
10 3503.93 3692.2467 -188.3167
11 3571.89 2955.2134 616.6766
12 3741.4 3927.4732 -186.0732
13 4026.52 3835.5278 190.9922
14 10343.81 10166.245 177.5647
15 11732.17 11543.797 188.3732
16 15414.94 15232.666 182.2737
17 18854.45 18664.536 189.9138
相關(guān)指數(shù)R=0.99869
決定系數(shù)=0.99738
計算結(jié)果與《DPS數(shù)據(jù)處理系統(tǒng)——實驗設(shè)計、統(tǒng)計分析及數(shù)據(jù)挖掘》第43.4節(jié)第1 079頁的計算結(jié)果一致,證明軟件及操作正常。
(2)SVR計算時需要根據(jù)經(jīng)驗對模型參數(shù)進行合適的調(diào)整,針對表1中的17組完整數(shù)據(jù),默認ε-SVR回歸,核類型默認RBF核函數(shù),設(shè)置參數(shù)Gamma=0.5,Cost=20,點“確定”進行計算,結(jié)果如下:支持向量機系數(shù)
項目 rho Prob.
Const -0.39725 0.063673778
α1 SV1 SV2 SV3 SV4
-6.3964-1.0000 -0.9902 -1.0000 -0.9531
-0.5338-0.8850 -1.0000 -0.8848 -1.0000
… … … … …
0.5281 1.0000 1.0000 1.0000 1.0000
各樣本實際值與擬合值對比:
樣本序號 觀察值 擬合值 擬合誤差
1 566.52 754.3669 -187.8469
2 696.82 885.3938 -188.5738
3 1033.15 852.3373 180.8127
4 1603.62 1422.6666 180.9534
5 1611.37 1544.7208 66.6492
6 1613.27 1799.0961 -185.8261
7 1854.17 1699.2218 154.9482
8 2160.55 1971.2461 189.3039
9 2305.58 2490.3879 -184.8079
10 3503.93 3683.8212 -179.8912
11 3571.89 3384.1579 187.7321
12 3741.40 3927.6738 -186.2738
13 4026.52 3880.1318 146.3882
14 10343.81 10162.0147 181.7953
15 11732.17 11548.3234 183.8466
16 15414.94 15226.429 6 188.5104
17 18854.45 18668.4301 186.0199
相關(guān)指數(shù)R=0.99959
決定系數(shù)=0.99917
計算結(jié)果表明,計算參數(shù)的調(diào)整、優(yōu)化、有助于提高SVR的統(tǒng)計效果。
將表2中17組含缺失項的數(shù)據(jù)輸入DPS,選中數(shù)據(jù)塊,在菜單下選擇“多元分析”→“支持向量機(SVM)”→“SVM回歸”,默認ε-SVR回歸,核類型默認RBF核函數(shù),設(shè)置參數(shù)Gamma=0.5,Cost=20,點“確定”進行計算,結(jié)果如下:
支持向量機系數(shù)
項目 rho Prob.
Const -0.240427 0.171624867
α1 SV1 SV2 SV3 SV4 SV5
-0.8623-1.0000-0.9902-1.0000-0.9531-0.8401
-1.1279-0.8850-1.0000-0.8848-1.0000-0.1221
………………
0.5758 1.0000 1.0000 1.0000 1.0000-0.2878
各樣本實際值與擬合值對比:
樣本序號 觀察值 擬合值 擬合誤差
1 566.52 746.4817 -179.9617
2 696.82 876.8195 -179.9995
3 1033.15 1219.5511 -186.4011
4 1603.62 1418.2401 185.3799
5 1611.37 1420.9649 190.4051
6 1613.27 1798.8477 -185.5777
7 1854.17 2034.3811 -180.2111
8 2160.55 1979.5489 181.0011
9 2305.58 2486.7392 -181.1592
10 3503.93 3694.4714 -190.5414
11 3571.89 3382.0229 189.8671
12 3741.4 3555.2059 186.1941
13 4026.52 4184.9494 -158.4294
14 10343.81 10167.4259 176.3841
15 11732.17 11552.0609 180.1091
16 15414.94 15234.8054 180.1346
17 18854.45 18674.3155 180.1345
相關(guān)指數(shù)R=0.99957
決定系數(shù)=0.99914
計算結(jié)果表明,SVR算法對小樣本缺失數(shù)據(jù)處理能獲得較好的統(tǒng)計效果。
上述計算中擬合模型相關(guān)指數(shù)對比見表3。
從計算結(jié)果可知,采用SVM算法,對17組完整數(shù)據(jù)的擬合相關(guān)指數(shù)R和對17組含缺失數(shù)據(jù)的擬合相關(guān)指數(shù)R相當(dāng),說明SVR算法在處理8組完整數(shù)據(jù)加9組缺失數(shù)據(jù),即數(shù)據(jù)缺失率達到53%時,仍可以提取出缺失數(shù)據(jù)中的有用信息,充分體現(xiàn)出其在處理小樣本問題時的優(yōu)勢。
表3 擬合模型相關(guān)指數(shù)對比
上述計算、比對、分析僅限于統(tǒng)計上的擬合功能,而當(dāng)今數(shù)理統(tǒng)計領(lǐng)域開發(fā)出不同算法軟件的功能模塊,大都具有較強的擬合功能,評價一種算法模型的好壞,更需要考察不同算法的預(yù)報功能,可惜原案例無此項內(nèi)容。
對算法模型預(yù)報功能的評價通常有兩種方法:一種是對訓(xùn)練集,采用“留一法”求出press,進行比對分析;第二種是建立測試集進行驗證計算。
為了探索不同算法的預(yù)報功能,現(xiàn)從17組數(shù)據(jù)中隨機提取3組(第2,4,13組)作為測試集樣本,剩余的N=14組作為訓(xùn)練集樣本,N/M=14/5=2.8,小樣本問題,采用二次多項式逐步回歸算法和SVR進行回歸計算,評價預(yù)測結(jié)果的好壞。
(1)采用二次多項式逐步回歸算法對17組完整數(shù)據(jù)中的剩余14組建立回歸模型,對第2,4,13組數(shù)據(jù)進行預(yù)測,結(jié)果如下:
回歸方程:
y=-7426.28906-1845.1406302×X1-
0.4271682968 ×X2+63.26921322×X3-44.40050542×
X4+3519.913415×X5-385.8870710×X5×X5+
375.6553905 ×X1×X5+0.07593567801×X2×X5-
12.443195223 ×X3×X5
方差分析表
變異來源 平方和 自由度 均方 F值 p值
回歸 4.59×1089 50972674 5559.168 1×10-7
殘差 36676.48 4 9169.119
總變異 4.59×10813
回歸系數(shù) 標(biāo)準(zhǔn)回歸系數(shù) 偏相關(guān) t值 p值
X1-1845.14 -53.2561 -0.96444 7.297596 0.001875
X2-0.42717 -1.6416 -0.97505 8.784748 0.000926
X363.26921 55.68987 0.965787 7.448154 0.001736
X4-44.4005 -0.85545 -0.98688 12.22365 0.000257
X53519.913 0.969894 0.978138 9.407209 0.000712
X5×X5-385.887 -1.59376 -0.98364 10.91892 0.0004
X1×X5375.655 4 89.93544 0.968777 7.81486 0.001447
X2×X50.075936 2.09125 0.980267 9.917849 0.00058
X3×X5-12.4432 -90.7839 -0.9687 7.804232 0.001455
復(fù)相關(guān)系數(shù)R=0.999960 決定系數(shù)R2=0.999920
剩余標(biāo)準(zhǔn)差SSE=95.7555 Durbin-Watson統(tǒng)計量d=2.5854
調(diào)整相關(guān)系數(shù)Ra=0.999870
調(diào)整決定系數(shù)Ra2=0.999740
訓(xùn)練樣本擬合值:
樣本序號 觀察值 擬合值 擬合誤差
1 566.52 610.4081 -43.8881
3 1 033.15 963.0159 70.13408
5 1611.37 1751.8510 -140.481
6 1 613.27 1 612.7010 0.569138
7 1854.17 1764.7250 89.44493
8 2160.55 2148.5900 11.95987
9 2305.58 2270.0490 35.53089
10 3503.93 3506.5050 -2.57484
11 3571.89 3579.4300 -7.54024
12 3741.40 3762.2790 -20.8793
14 10343.81 10331.0000 12.81042
15 11732.17 11735.6200 -3.44694
16 15 414.94 15 413.1500 1.79406
17 18854.45 18857.8800 -3.432 97
測試樣本預(yù)測值:
樣本序號 觀察值 預(yù)測值 預(yù)測偏差 預(yù)測標(biāo)準(zhǔn)偏差
2 696.82 843.9442 147.1242
4 1603.62-794.921 -2398.54 1971.8
13 4026.52 2611.822 -1414.7
(2)針對 17組完整數(shù)據(jù),采用 SVR,以第 2、4、13組數(shù)據(jù)作為測試樣本,其他數(shù)據(jù)作為訓(xùn)練樣本進行建模計算,默認ε-SVR回歸,核類型默認RBF核函數(shù),設(shè)置參數(shù) Gamma=0.3,Cost=20,點“確定”進行計算,結(jié)果如下:支持向量機系數(shù)
項目 rho Prob.
Const-0.356110.063326
α1 SV1 SV2 SV3 SV4 SV5
-4.66463-1 -1 -1 -0.97101 -0.94769
3.726036 -0.98039-0.96486-0.98042-1 -1
… … … … … …
0.553303 1 1 1 1 -0.36308訓(xùn)練樣本擬合值:
樣本序號 觀察值 擬合值 擬合誤差
1 566.52 756.746 -190.226
3 1033.15 855.7748 177.3752
5 1611.37 1788.403 -177.033
6 1613.27 1800.227 -186.957
7 1854.17 1876.436 -22.2655
8 2160.55 1968.713 191.8368
9 2305.58 2491.968 -186.388
10 3503.93 3313.772 190.1577
11 3571.89 3380.206 191.6835
12 3741.40 3921.155 -179.755
14 10343.81 10170.09 173.7226
15 11732.17 11556.64 175.5282
16 15414.94 15259.42 155.5162
17 18854.45 18668.6 185.8466
相關(guān)指數(shù)R=0.99966
決定系數(shù)=0.99932
測試樣本預(yù)測值:
樣本序號 觀察值 預(yù)測值 預(yù)測偏差 預(yù)測標(biāo)準(zhǔn)偏差
2 696.82 1593.944 897.124
4 1603.62 749.4422 -854.18 894.9
13 4026.52 3767.107 -259.41
(3)17組含缺失項的數(shù)據(jù),采用SVR,以第2、4、13組數(shù)據(jù)作為測試樣本,缺失率9/14=64%,其他數(shù)據(jù)作為訓(xùn)練樣本進行建模計算,默認ε-SVR回歸,核類型默認RBF核函數(shù),設(shè)置參數(shù)Gamma=0.3,Cost=1,點“確定”進行計算,結(jié)果如下:
支持向量機系數(shù)
項目 rho Prob.
Const-0.35402 0.142411
α1 SV1 SV2 SV3 SV4 SV5
-0.64801-1 -1 -1 -0.97101 -0.94769
-0.77518-0.96486-0.98042-1 -1 0
… … … … … …
0.464509 1 1 1 1 -0.36308
訓(xùn)練樣本擬合值:
樣本序號 觀察值 擬合值 擬合誤差
1 566.52 747.4165 -180.897
3 1033.15 1214.047 -180.897
5 1611.37 1436.007 175.363
6 1613.27 1794.589 -181.319
7 1854.17 2094.739 -240.569
8 2160.55 1173.97 986.5798
9 2305.58 2796.808 -491.228
10 3503.93 5938.361 -2434.43
11 3571.89 2222.868 1349.022
12 3741.4 3549.414 191.986 2
14 10343.81 10160.17 183.6415
預(yù)報功能對比計算結(jié)果匯總見表4。
從上述結(jié)果匯總表可以看出:
15 11732.17 11 915.03 -182.859
16 15414.94 15234.02 180.9159
17 18 854.45 18668.4 186.0548
相關(guān)指數(shù)R=0.98984
決定系數(shù)=0.97978
測試樣本預(yù)測值:
樣本序號 預(yù)測值 觀察值 偏差 預(yù)測標(biāo)準(zhǔn)偏差
2 3013.668 696.82 2316.85
4 539.3487 1603.62 -1064.3 1927.9
13 3060.658 4026.52 -965.86
(1)在N/M=2.8小樣本條件下,由于訓(xùn)練集是隨機組合樣本,二次多項式逐步回歸算法盡管表現(xiàn)出良好的R,S擬合功能,但預(yù)測標(biāo)準(zhǔn)偏差比擬合S大了1~2個數(shù)量級,預(yù)報功能欠佳。
表4 預(yù)報功能對比計算結(jié)果匯總
(2)用SVR計算得到的預(yù)測標(biāo)準(zhǔn)偏差遠小于用二次多項式逐步回歸算法得到的預(yù)測標(biāo)準(zhǔn)偏差。因為對于隨機樣本而言,N/M=2.8,顯然是小樣本數(shù)據(jù),說明基于小樣本統(tǒng)計理論的SVR算法具有稀疏性、穩(wěn)健性特點;而二次多項式逐步回歸算法是基于樣本“充分大、無限大”的大樣本統(tǒng)計理論,樣本不夠“充分大”,會影響統(tǒng)計結(jié)果的穩(wěn)定性,尤其影響預(yù)報精度。
(3)二次多項式逐步回歸算法的預(yù)測標(biāo)準(zhǔn)偏差和用SVR計算含缺失項數(shù)據(jù)的預(yù)測標(biāo)準(zhǔn)偏差相當(dāng),充分說明了SVR對缺失數(shù)據(jù)及小樣本問題的處理能力。但是對于N/M=2.8的小樣本,缺失率高達64%時,SVR預(yù)測標(biāo)準(zhǔn)偏差還是偏高,因此需要盡可能控制缺失率。
(4)關(guān)于樣本量大小問題,《化學(xué)計量學(xué)方法》指出,對無試驗設(shè)計的隨機樣本,采用一般回歸分析,根據(jù)經(jīng)驗規(guī)則應(yīng)滿足N/M>5。筆者理解這是樣本“充分大”的條件。對基于試驗設(shè)計及二次多項式逐步回歸算法,N/M有所降低,我們將作進一步討論。但SVR處理小樣本、含缺失數(shù)據(jù)的獨特功能值得學(xué)習(xí)、應(yīng)用、推廣。
都麗紅在天津大學(xué)讀博士期間就關(guān)注人工神經(jīng)網(wǎng)絡(luò)等算法,我們時有討論。這段時間她也支持吳芳等青年同志,結(jié)合在研項目探索學(xué)習(xí)SVR算法。
本文定稿于2015年五一假期,科技工作者要善于學(xué)習(xí)新知識,敢于探索新領(lǐng)域,勤于實踐“數(shù)字化技術(shù)+”的科技創(chuàng)新開發(fā)的新模式。五一假過后是五四青年節(jié),青年同仁們努力啊,勞動托起夢想。
帝斯曼Arnitel HTTPC為汽車行業(yè)帶來柔性增壓熱進氣管新標(biāo)準(zhǔn)
最近,荷蘭皇家帝斯曼集團的耐高溫材料家族又添新成員——Arnitel HTTPC。
利用Arnitel HT TPC材料方案幫助汽車廠商打造極具創(chuàng)新性的一體式柔性熱增壓管,實現(xiàn)生產(chǎn)工藝一步成型,不僅極大地提高了生產(chǎn)效率,還可將生產(chǎn)成本減少約50%,減重達40%。同時,大幅降低了發(fā)動機運行中熱增壓管變形、泄漏和脫開的風(fēng)險,為汽車行業(yè)帶來柔性增壓熱進氣管新標(biāo)準(zhǔn)。