基于GEP的最小二乘支持向量機模型參數(shù)選擇

2012-09-24 13:44錢曉山陽春華

智能系統(tǒng)學報 2012年3期

錢曉山，陽春華

(1.中南大學信息科學與工程學院，湖南長沙 410083;2.宜春學院物理科學與工程技術(shù)學院，江西宜春 336000)

支持向量機(support vector machine，SVM)是Vapnik等［1-2］于1995年首先提出，它在解決小樣本、非線性和高維模式識別問題中表現(xiàn)出許多優(yōu)越特性，已成為智能科學技術(shù)研究領(lǐng)域的熱點［3-4］.最小二乘支持向量機(least squares support vector machine，LSSVM)［5-6］是標準支持向量機的一種擴展，是支持向量機在二次損失下的一種特殊形式，它采用最小二乘線性系統(tǒng)作為損失函數(shù)，將求解二次規(guī)劃問題轉(zhuǎn)化為求解一組線性方程;因而該方法求解速度較快，并廣泛應(yīng)用于非線性函數(shù)估計和逼近中，取得了較好的效果.

實踐證明，最小二乘支持向量機的精度和泛化性能受核函數(shù)的參數(shù)以及懲罰系數(shù)的影響較大，因此，研究最小二乘支持向量機參數(shù)選擇的方法對其發(fā)展有重要的實際意義.目前已經(jīng)有一些最小二乘支持向量機參數(shù)優(yōu)選方法，文獻［7］針對LSSVM用交叉驗證的方法進行核參數(shù)選擇后應(yīng)用于PCA的軟測量建模;文獻［8］將遺傳算法用于核參數(shù)選擇后對直流電機進行建模;文獻［9］用粒子群算法進行核參數(shù)優(yōu)選后用于軟測量建模.以上算法進行參數(shù)尋優(yōu)時易陷入局部最優(yōu)，從而影響了整個模型的精度及泛化性能.文獻［10］利用GEP和交叉驗證法優(yōu)選支持向量機的核參數(shù)，算法性能得到了大大改善.基因表達式編程(gene expression programming，GEP)是由葡萄牙科學家C.Ferreira提出的一種基于基因型組(genome)和表現(xiàn)型組(phenome)的新型遺傳算法，它繼承和發(fā)展了遺傳算法GA和遺傳編程GP，集成了它們的優(yōu)點，因此該方法具有更強的解決問題的能力，在函數(shù)參數(shù)優(yōu)化、演化建模、神經(jīng)網(wǎng)絡(luò)、分類和 TSP問題等領(lǐng)域得到了廣泛應(yīng)用［11-12］.本文提出了基于基因表達式編程的最小二乘支持向量機的參數(shù)尋優(yōu)方法，在執(zhí)行變異操作時，變異算子按照進化代數(shù)和染色體所含基因數(shù)目的不同而動態(tài)變化，這樣優(yōu)化了算法的收斂速度和精度.同時通過與粒子群算法和遺傳算法參數(shù)尋優(yōu)方法比較，并用標準測試函數(shù)和實際工業(yè)過程生產(chǎn)數(shù)據(jù)進行驗證，結(jié)果表明了該模型的預測精度較高.

1 基于GEP的支持向量機參數(shù)選擇

1.1 基因表達式編程方法

GEP沿襲了GA和GP中的復制、變異、交叉等遺傳算子以及“物競天擇，適者生存”的自然選擇思想，其解決問題的能力更強，比傳統(tǒng)的GA和GP等遺傳算法要快100～60 000倍［12］.

在GEP中，個體采用固定長度的線性編碼來表示.個體染色體由1個或多個基因組成，每個基因由基因頭h和基因尾t構(gòu)成，h中可以出現(xiàn)運算符或終結(jié)點，而 t中只能出現(xiàn)終結(jié)點，并且 h和 t滿足L(t)=L(h)×(n－1)+1，其中，n為h中運算符、函數(shù)的最大參數(shù)個數(shù).GEP算法在對個體染色體進行適應(yīng)度評價時，需要先將染色體按照自頂向下、自左至右的順序?qū)⑵渚幋a為表達式樹(expression tree，ET)，再采用中根遍歷ET的方法進行解碼操作，計算其適應(yīng)度［12］.

基因表達式編程的實現(xiàn)技術(shù)主要包括編碼方式、遺傳算子、插串操作、重組算子、適應(yīng)度函數(shù)選擇、數(shù)值變量等［13］，每個部分的具體實現(xiàn)可參考文獻［13］，這里不作詳細敘述，變異算子動態(tài)變化機制可參考文獻［14］.

1.2 最小二乘支持向量機

在支持向量機回歸法［15］中，設(shè)樣本為 n維向量，某區(qū)域的m個樣本及其值表示為

首先通過非線性變換z=φ(xi)將m維向量映射到l(l?m)維這個高維特征空間中，之后采用線性函數(shù)f(x)=wφ(x)+b來對其擬合，并容許出現(xiàn)擬合誤差，目標是使回歸模型在模型推廣能力和經(jīng)驗風險之間找到最佳平衡點，即結(jié)構(gòu)風險最小.LSSVM回歸算法的優(yōu)化目標為

式中:wTw為控制模型的復雜度，C為誤差懲罰參數(shù)，J為誤差控制函數(shù).利用拉格朗日法求解式(1)的優(yōu)化問題，定義拉格朗日函數(shù):

式中:αi(i=1，2，…，m)是拉格朗日乘子.

根據(jù)KKT優(yōu)化條件:

定義核函數(shù) K(xi，yi)= φ(xi)·φ(yi)，根據(jù)式(2)，將求解優(yōu)化問題轉(zhuǎn)化為求解線性方程:

解上述線性方程組可得到拉格朗日乘子αi和參數(shù)b，由此確定LSSVM的輸出為

1.3 基于GEP的最小二乘支持向量機模型參數(shù)選擇

由于最小二乘支持向量機的參數(shù)選擇直接影響整個模型的收斂性、穩(wěn)定性和精度，而GEP與GA和GP相比，具有更強的全局搜索能力［16-17］;因此，將GEP算法引入到以徑向基函數(shù)為核函數(shù)的LSS-VM模型的參數(shù)優(yōu)化中，形成基于GEP的LSSVM模型.與PSO和GA優(yōu)化算法比較，該算法可以得到更高的精度，其泛化性能和穩(wěn)定性也大大提高.

染色體編碼和適應(yīng)度函數(shù)選擇是進行懲罰系數(shù)C和核函數(shù)寬度σ參數(shù)優(yōu)化的2個重要方面.在GEP中，多基因結(jié)構(gòu)可以用來進行有效的搜索以解決函數(shù)優(yōu)化的問題，且最佳參數(shù)是在不停變化的隨機數(shù)值常數(shù)上的數(shù)學運算中發(fā)現(xiàn)的.為此，在染色體編碼中采用處理隨機數(shù)值常數(shù)的染色體組織結(jié)構(gòu).隨機數(shù)值常數(shù)集的選取十分容易，通?？梢赃x擇由10 個隨機常數(shù)構(gòu)成的集合，如 R={0，1，2，3，4，5，6，7，8，9}，這對大部分問題就能夠達到很好的效果.適應(yīng)度函數(shù)選擇如式(3):

式中:yi為實際值，y'i為支持向量機的輸出，n為樣本數(shù).利用GEP算法對懲罰系數(shù)C和核函數(shù)寬度σ進行尋優(yōu)，具體算法步驟如下:

1)針對參數(shù)C、σ初始化種群，隨機產(chǎn)生60組初始染色體，每個染色體由5個基因構(gòu)成，每個基因頭長度為15(或更多)，初始化時采用KARVA編碼;

2)讀取樣本數(shù)據(jù)，根據(jù)當前參數(shù)C、σ訓練LSSVM，得到支持向量機的輸出y'i;

3)按式(3)計算適應(yīng)值，并將適應(yīng)值排序，保存適應(yīng)值最高的個體;

4)執(zhí)行變異，按照染色體所含基因的多少決定變異的基因位個數(shù)，本文選擇每個基因變異1個基因位的方法;

5)執(zhí)行IS插串、RIS插串和Gene插串;

6)執(zhí)行單點重組、兩點重組和基因重組;

7)若運行到預先設(shè)定的最大代數(shù)或者適應(yīng)度函數(shù)值收斂到設(shè)定精度，則執(zhí)行8)，否則執(zhí)行2);

8)選擇出最優(yōu)染色體并保存記錄;

9)對染色體解碼，構(gòu)建LSSVM模型.

2 算法性能驗證

2.1 仿真測試

為了驗證上述方法的有效性，選用標準測試函數(shù)進行仿真.實驗平臺配置為2.8 GHz主頻率，1 GB內(nèi)存，采用Matlab 7.0進行仿真實驗.

1)取一維sinc函數(shù):

式中:φ是均值為0、方差為0.1的高斯噪聲.輸入變量取150個［－4，4］之間的數(shù)據(jù)構(gòu)成LSSVM的訓練樣本，以最小均方誤差為目標，利用GEP算法對懲罰系數(shù)C和徑向基核函數(shù)參數(shù)σ進行優(yōu)選，其中LSSVM采用ξ=0.15的一次不敏感損失函數(shù).GEP算法中選60組為初始染色體，最大迭代次數(shù)為500.為便于比較，采用同樣大小的初始群體和最大迭代次數(shù)的PSO和GA(交叉概率為0.5，變異概率為0.047)進行多次實驗.圖1顯示了3種算法的尋優(yōu)過程對比結(jié)果，從中可以看出，GEP和PSO的下降速度較快，而GA速度較慢，經(jīng)過多次實驗發(fā)現(xiàn)GA和PSO尋優(yōu)的成功率低于GEP，并且有時陷入局部最優(yōu)，總的看來，GEP算法的尋優(yōu)能力和收斂速度都比PSO和GA算法好.由圖2可見，使用3種算法各自尋優(yōu)的參數(shù)對sinc函數(shù)進行測試，發(fā)現(xiàn)GEP算法的擬合效果最好，且偏離實際值的幅度較小.測試統(tǒng)計結(jié)果如表1所示，從中看出新方法的測試誤差最小.取1 000組數(shù)據(jù)樣本按4∶1的比例隨機分組，訓練樣本數(shù)量為800，測試樣本為200，其他設(shè)置如同sinc函數(shù)測試實驗，得到的測試結(jié)果如表2所示.在二維函數(shù)的測試中，經(jīng)過多次實驗可以發(fā)現(xiàn)，與一維函數(shù)相比，二維函數(shù)的測試結(jié)果更能體現(xiàn)GEP的優(yōu)越性，且相比于其他2個算法，基于GEP算法的LSSVM模型的擬合誤差大大降低，進一步說明了該方法的有效性.

圖1 尋優(yōu)過程比較Fig.1 Comparison of optimization process

圖2 模型仿真結(jié)果比較Fig.2 Comparison of model simulation results

表1 Sinc函數(shù)測試結(jié)果比較Table 1 Comparison of sinc function test results

2)取二維Rosenbrock函數(shù):

表2 Rosenbrock函數(shù)測試結(jié)果比較Table 2 Comparison of Rosenbrock function test results

2.2 工業(yè)生成過程驗證

氧化鋁蒸發(fā)過程是一類具有非線性、大滯后、多變量等特征的能量交換的復雜工業(yè)過程，在蒸發(fā)器內(nèi)加熱蒸汽，釋放潛熱，轉(zhuǎn)移到料液中，使溶劑發(fā)生相變，溶液濃度得以提高.出料濃度是衡量產(chǎn)品質(zhì)量的重要指標，由于技術(shù)、成本的限制難以實現(xiàn)在線檢測，目前質(zhì)量檢測多以人工現(xiàn)場采集和實驗室化驗為主，檢測結(jié)果嚴重滯后，不利于該過程的穩(wěn)定控制.出液濃度的影響因素主要包括蒸發(fā)器的真空度、進料的流量、溫度和濃度、加熱蒸汽的流量和壓力、蒸發(fā)器的料液位、不凝性氣體和冷凝水的排除等［18］.通過理論分析和生產(chǎn)經(jīng)驗選取影響較大的5個變量:進料溫度T1、進料流量F1、進料濃度Lin、新蒸汽溫度T2、新蒸汽流量F2.以某氧化鋁廠帶閃蒸和強制循環(huán)的七效逆流降膜蒸發(fā)的蒸發(fā)過程為例，該廠實際生產(chǎn)1個月的數(shù)據(jù)作為訓練數(shù)據(jù)和測試數(shù)據(jù)，建立基于GEP算法的LSSVM的蒸發(fā)過程出料濃度預測模型為

式中:Lout為預測模型輸出，即出口料液濃度;GEPLSSVM 為模型標示;T1、F1、Lin、T2、F2為已知樣本的輸入.選用經(jīng)過糾錯、剔除和歸一化處理后的400組工業(yè)數(shù)據(jù)中的300組用于建模，100組用于模型驗證，選取ξ=0.02的一次不敏感損失函數(shù)和徑向基核函數(shù)，通過GEP算法對最小二乘支持向量機建模參數(shù)進行優(yōu)化，得到最優(yōu)參數(shù)集 ξ=0.02、C=428.56、σ =0.072.再用得到的最優(yōu)參數(shù)訓練 LSSVM，最終的出料濃度預測結(jié)果如圖3所示.

圖3 模型泛化比較結(jié)果Fig.3 Comparison of model generalization results

圖4 GEP-LSSVM模型預測相對誤差Fig.4 Relative error of GEP-LSSVM model predict

圖3顯示了 GEP-LSSVM、PSO-LSSVM和 GALSSVM預測模型的泛化能力，從圖中可知，GEPLSSVM模型的預測效果最好.通過進一步的數(shù)據(jù)分析，GEP-LSSVM模型預測結(jié)果中相對誤差(如圖4所示)小于8%的樣本達到92%，其最大相對誤差小于 12%，均方差 MSE(mean square error)為6.082 7 ×10－5，具有較高的精度;另外，該模型相比于PSO-LSSVM的預測能力(MSE為8.95 9×10－5)和 GA-LSSVM的預測能力(MSE為1.618 5×10－4)，有了較大的提高.

3 結(jié)束語

最小二乘支持向量機的參數(shù)選擇是支持向量機應(yīng)用推廣的一個重要方面，如何將各種算法應(yīng)用于其中，一直以來是一個既有實際價值又有理論意義的研究課題.本文將GEP算法用于最小二乘支持向量機的參數(shù)優(yōu)化，其中變異算子按照進化代數(shù)和染色體所含基因數(shù)目動態(tài)變化的機制進行變異操作，通過多個實驗驗證了該方法的有效性.然后將其應(yīng)用于氧化鋁蒸發(fā)過程出料濃度的預測模型的建立，仿真結(jié)果表明了該預測模型預測精度高，完全滿足實際工業(yè)生產(chǎn)的需要，同時也對其應(yīng)用到其他生產(chǎn)過程有著一定的指導意義.另外，GEP算法本身的改進及其對支持向量機核參數(shù)的編碼和解碼方法也有待進一步研究.

［1］VAPNIK V N.The nature of statistical learning theory［M］.New York，USA:Springer-Verlag，1995.

［2］VAPNIK V，LEVIN E，CUN Y L.Measuring the VC-dimension of a learning machine［J］.Neural Computation，1994，6(5):851-876.

［3］SMOLA A J，SCHOLKOPF B.A tutorial on support vector regression［J］.Statistic and Computing，2004，14(3):199-222.

［4］SANCHEZ A D.Advanced support vector machines and kernel methods［J］.Neurocomputing，2003，55(1):5-20.

［5］SUYKENS J A K，VANDEWALL J.Least squares support vector machine classifiers［J］.Neural Processing Letters，1999，9(3):293-300.

［6］PELCKMANS K，SUYKENS J A K，DE MOOR B.Building sparse representations and structure determination on LSSVM substrates［J］.Neurocomputing，2005，64:137-159.

［7］鄭小霞，錢鋒.基于PCA和最小二乘支持向量機的軟測量建模［J］.系統(tǒng)仿真學報，2006，18(3):739-741.

ZHENG Xiaoxia，QIAN Feng.Soft sensor modeling based on PCA and support vector machines［J］.Journal of System Simulation，2006，18(3):739-741.

［8］趙吉文，劉永斌，孔凡讓，等.核參數(shù)遺傳選優(yōu)的SVM在直線電機建模中的應(yīng)用［J］.系統(tǒng)仿真學報，2006，18(12):3547-3549.

ZHAO Jiwen，LIU Yongbin，KONG Fanrang，et al.Application of SVM with genetic algorithms optimizing kernel parameters in linear motor model［J］.Journal of System Simulation，2006，18(12):3547-3549.

［9］劉瑞蘭，牟盛靜，蘇宏業(yè)，等.基于支持向量機和粒子群算法的軟測量建模［J］.控制理論與應(yīng)用，2006，23(6):895-899，906.

LIU Ruilan，MOU Shengjing，SU Hongye，et al.Modeling soft sensor based on support vector machine and particle swarm optimization algorithms［J］.Control Theory and Applications，2006，23(6):895-899，906.

［10］THADANI K，JAYARAMAN V K，SUNDARARAJAN V.Evolutionary selection of kernels in support vector machines［C］//International Conference on Advanced Computing and Communications.Mangalore，India，2006:19-24.

［11］FERREIRA C.Gene expression programming in problem solving［C/OL］.［2010-12-10］.http://www.gene-expression-programming.com/webpapers/GEPtutorial.pdf.

［12］FERREIRA C.Gene expression programming:a new adaptive algorithm for solving problems［J］.Complex Systems，2001，13(2):87-129.

［13］MITCHELL M.An introduction to genetic algorithms［M］.Cambridge，UK:The MIT Press，1996:143-164.

［14］錢曉山，陽春華.改進基因表達式編程在股票中的研究與應(yīng)用［J］.智能系統(tǒng)學報，2010，5(4):303-307.

QIAN Xiaoshan，YANG Chunhua.Improved gene expression programming algorithm-tested by predicting stock indexes［J］.CAAI Transactions on Intelligent Systems，2010，5(4):303-307.

［15］張春曉，張濤.基于最小二乘支持向量機和粒子群算法的兩相流含油率軟測量方法［J］.中國電機工程學報，2010，30(2):86-91.

ZHANG Chunxiao，ZHANG Tao.Soft measurement method for oil holdup of two phase flow based on least squares support vector machine and particle swarm optimization［J］.Proceedings of the CSEE，2010，30(2):86-91.

［16］RIVERO D，DORADO J，RABUNAL J，et al.Using genetic programming for artificial neural network development and simplification［C］//Proceedings of the 5th WSEAS International Conference on Computational Intelligence，Man-Machine Systems and Cybernetics.Venice，Italy，2006:65-71.

［17］XU Kaikuo，LIU Yintian，RONG Tang，et al.A novel method for real parameter optimization based on gene expression programming［J］. Applied Soft Computing，2009，9(2):725-737.

［18］徐文熙，穆文俊.化工原理(上)［M］.北京:中國石化出版社，1992.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡