国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于GEP的最小二乘支持向量機模型參數(shù)選擇

2012-09-24 13:44錢曉山陽春華
智能系統(tǒng)學報 2012年3期
關(guān)鍵詞:染色體變異向量

錢曉山,陽春華

(1.中南大學信息科學與工程學院,湖南長沙 410083;2.宜春學院 物理科學與工程技術(shù)學院,江西 宜春 336000)

支持向量機(support vector machine,SVM)是Vapnik等[1-2]于1995年首先提出,它在解決小樣本、非線性和高維模式識別問題中表現(xiàn)出許多優(yōu)越特性,已成為智能科學技術(shù)研究領(lǐng)域的熱點[3-4].最小二乘支持向量機(least squares support vector machine,LSSVM)[5-6]是標準支持向量機的一種擴展,是支持向量機在二次損失下的一種特殊形式,它采用最小二乘線性系統(tǒng)作為損失函數(shù),將求解二次規(guī)劃問題轉(zhuǎn)化為求解一組線性方程;因而該方法求解速度較快,并廣泛應(yīng)用于非線性函數(shù)估計和逼近中,取得了較好的效果.

實踐證明,最小二乘支持向量機的精度和泛化性能受核函數(shù)的參數(shù)以及懲罰系數(shù)的影響較大,因此,研究最小二乘支持向量機參數(shù)選擇的方法對其發(fā)展有重要的實際意義.目前已經(jīng)有一些最小二乘支持向量機參數(shù)優(yōu)選方法,文獻[7]針對LSSVM用交叉驗證的方法進行核參數(shù)選擇后應(yīng)用于PCA的軟測量建模;文獻[8]將遺傳算法用于核參數(shù)選擇后對直流電機進行建模;文獻[9]用粒子群算法進行核參數(shù)優(yōu)選后用于軟測量建模.以上算法進行參數(shù)尋優(yōu)時易陷入局部最優(yōu),從而影響了整個模型的精度及泛化性能.文獻[10]利用GEP和交叉驗證法優(yōu)選支持向量機的核參數(shù),算法性能得到了大大改善.基因表達式編程(gene expression programming,GEP)是由葡萄牙科學家C.Ferreira提出的一種基于基因型組(genome)和表現(xiàn)型組(phenome)的新型遺傳算法,它繼承和發(fā)展了遺傳算法GA和遺傳編程GP,集成了它們的優(yōu)點,因此該方法具有更強的解決問題的能力,在函數(shù)參數(shù)優(yōu)化、演化建模、神經(jīng)網(wǎng)絡(luò)、分類和 TSP問題等領(lǐng)域得到了廣泛應(yīng)用[11-12].本文提出了基于基因表達式編程的最小二乘支持向量機的參數(shù)尋優(yōu)方法,在執(zhí)行變異操作時,變異算子按照進化代數(shù)和染色體所含基因數(shù)目的不同而動態(tài)變化,這樣優(yōu)化了算法的收斂速度和精度.同時通過與粒子群算法和遺傳算法參數(shù)尋優(yōu)方法比較,并用標準測試函數(shù)和實際工業(yè)過程生產(chǎn)數(shù)據(jù)進行驗證,結(jié)果表明了該模型的預測精度較高.

1 基于GEP的支持向量機參數(shù)選擇

1.1 基因表達式編程方法

GEP沿襲了GA和GP中的復制、變異、交叉等遺傳算子以及“物競天擇,適者生存”的自然選擇思想,其解決問題的能力更強,比傳統(tǒng)的GA和GP等遺傳算法要快100~60 000倍[12].

在GEP中,個體采用固定長度的線性編碼來表示.個體染色體由1個或多個基因組成,每個基因由基因頭h和基因尾t構(gòu)成,h中可以出現(xiàn)運算符或終結(jié)點,而 t中只能出現(xiàn)終結(jié)點,并且 h和 t滿足L(t)=L(h)×(n-1)+1,其中,n為h中運算符、函數(shù)的最大參數(shù)個數(shù).GEP算法在對個體染色體進行適應(yīng)度評價時,需要先將染色體按照自頂向下、自左至右的順序?qū)⑵渚幋a為表達式樹(expression tree,ET),再采用中根遍歷ET的方法進行解碼操作,計算其適應(yīng)度[12].

基因表達式編程的實現(xiàn)技術(shù)主要包括編碼方式、遺傳算子、插串操作、重組算子、適應(yīng)度函數(shù)選擇、數(shù)值變量等[13],每個部分的具體實現(xiàn)可參考文獻[13],這里不作詳細敘述,變異算子動態(tài)變化機制可參考文獻[14].

1.2 最小二乘支持向量機

在支持向量機回歸法[15]中,設(shè)樣本為 n維向量,某區(qū)域的m個樣本及其值表示為

首先通過非線性變換z=φ(xi)將m維向量映射到l(l?m)維這個高維特征空間中,之后采用線性函數(shù)f(x)=wφ(x)+b來對其擬合,并容許出現(xiàn)擬合誤差,目標是使回歸模型在模型推廣能力和經(jīng)驗風險之間找到最佳平衡點,即結(jié)構(gòu)風險最小.LSSVM回歸算法的優(yōu)化目標為

式中:wTw為控制模型的復雜度,C為誤差懲罰參數(shù),J為誤差控制函數(shù).利用拉格朗日法求解式(1)的優(yōu)化問題,定義拉格朗日函數(shù):

式中:αi(i=1,2,…,m)是拉格朗日乘子.

根據(jù)KKT優(yōu)化條件:

定義核函數(shù) K(xi,yi)= φ(xi)·φ(yi),根據(jù)式(2),將求解優(yōu)化問題轉(zhuǎn)化為求解線性方程:

解上述線性方程組可得到拉格朗日乘子αi和參數(shù)b,由此確定LSSVM的輸出為

1.3 基于GEP的最小二乘支持向量機模型參數(shù)選擇

由于最小二乘支持向量機的參數(shù)選擇直接影響整個模型的收斂性、穩(wěn)定性和精度,而GEP與GA和GP相比,具有更強的全局搜索能力[16-17];因此,將GEP算法引入到以徑向基函數(shù)為核函數(shù)的LSS-VM模型的參數(shù)優(yōu)化中,形成基于GEP的LSSVM模型.與PSO和GA優(yōu)化算法比較,該算法可以得到更高的精度,其泛化性能和穩(wěn)定性也大大提高.

染色體編碼和適應(yīng)度函數(shù)選擇是進行懲罰系數(shù)C和核函數(shù)寬度σ參數(shù)優(yōu)化的2個重要方面.在GEP中,多基因結(jié)構(gòu)可以用來進行有效的搜索以解決函數(shù)優(yōu)化的問題,且最佳參數(shù)是在不停變化的隨機數(shù)值常數(shù)上的數(shù)學運算中發(fā)現(xiàn)的.為此,在染色體編碼中采用處理隨機數(shù)值常數(shù)的染色體組織結(jié)構(gòu).隨機數(shù)值常數(shù)集的選取十分容易,通??梢赃x擇由10 個隨機常數(shù)構(gòu)成的集合,如 R={0,1,2,3,4,5,6,7,8,9},這對大部分問題就能夠達到很好的效果.適應(yīng)度函數(shù)選擇如式(3):

式中:yi為實際值,y'i為支持向量機的輸出,n為樣本數(shù).利用GEP算法對懲罰系數(shù)C和核函數(shù)寬度σ進行尋優(yōu),具體算法步驟如下:

1)針對參數(shù)C、σ初始化種群,隨機產(chǎn)生60組初始染色體,每個染色體由5個基因構(gòu)成,每個基因頭長度為15(或更多),初始化時采用KARVA編碼;

2)讀取樣本數(shù)據(jù),根據(jù)當前參數(shù)C、σ訓練LSSVM,得到支持向量機的輸出y'i;

3)按式(3)計算適應(yīng)值,并將適應(yīng)值排序,保存適應(yīng)值最高的個體;

4)執(zhí)行變異,按照染色體所含基因的多少決定變異的基因位個數(shù),本文選擇每個基因變異1個基因位的方法;

5)執(zhí)行IS插串、RIS插串和Gene插串;

6)執(zhí)行單點重組、兩點重組和基因重組;

7)若運行到預先設(shè)定的最大代數(shù)或者適應(yīng)度函數(shù)值收斂到設(shè)定精度,則執(zhí)行8),否則執(zhí)行2);

8)選擇出最優(yōu)染色體并保存記錄;

9)對染色體解碼,構(gòu)建LSSVM模型.

2 算法性能驗證

2.1 仿真測試

為了驗證上述方法的有效性,選用標準測試函數(shù)進行仿真.實驗平臺配置為2.8 GHz主頻率,1 GB內(nèi)存,采用Matlab 7.0進行仿真實驗.

1)取一維sinc函數(shù):

式中:φ是均值為0、方差為0.1的高斯噪聲.輸入變量取150個[-4,4]之間的數(shù)據(jù)構(gòu)成LSSVM的訓練樣本,以最小均方誤差為目標,利用GEP算法對懲罰系數(shù)C和徑向基核函數(shù)參數(shù)σ進行優(yōu)選,其中LSSVM采用ξ=0.15的一次不敏感損失函數(shù).GEP算法中選60組為初始染色體,最大迭代次數(shù)為500.為便于比較,采用同樣大小的初始群體和最大迭代次數(shù)的PSO和GA(交叉概率為0.5,變異概率為0.047)進行多次實驗.圖1顯示了3種算法的尋優(yōu)過程對比結(jié)果,從中可以看出,GEP和PSO的下降速度較快,而GA速度較慢,經(jīng)過多次實驗發(fā)現(xiàn)GA和PSO尋優(yōu)的成功率低于GEP,并且有時陷入局部最優(yōu),總的看來,GEP算法的尋優(yōu)能力和收斂速度都比PSO和GA算法好.由圖2可見,使用3種算法各自尋優(yōu)的參數(shù)對sinc函數(shù)進行測試,發(fā)現(xiàn)GEP算法的擬合效果最好,且偏離實際值的幅度較小.測試統(tǒng)計結(jié)果如表1所示,從中看出新方法的測試誤差最小.取1 000組數(shù)據(jù)樣本按4∶1的比例隨機分組,訓練樣本數(shù)量為800,測試樣本為200,其他設(shè)置如同sinc函數(shù)測試實驗,得到的測試結(jié)果如表2所示.在二維函數(shù)的測試中,經(jīng)過多次實驗可以發(fā)現(xiàn),與一維函數(shù)相比,二維函數(shù)的測試結(jié)果更能體現(xiàn)GEP的優(yōu)越性,且相比于其他2個算法,基于GEP算法的LSSVM模型的擬合誤差大大降低,進一步說明了該方法的有效性.

圖1 尋優(yōu)過程比較Fig.1 Comparison of optimization process

圖2 模型仿真結(jié)果比較Fig.2 Comparison of model simulation results

表1 Sinc函數(shù)測試結(jié)果比較Table 1 Comparison of sinc function test results

2)取二維Rosenbrock函數(shù):

表2 Rosenbrock函數(shù)測試結(jié)果比較Table 2 Comparison of Rosenbrock function test results

2.2 工業(yè)生成過程驗證

氧化鋁蒸發(fā)過程是一類具有非線性、大滯后、多變量等特征的能量交換的復雜工業(yè)過程,在蒸發(fā)器內(nèi)加熱蒸汽,釋放潛熱,轉(zhuǎn)移到料液中,使溶劑發(fā)生相變,溶液濃度得以提高.出料濃度是衡量產(chǎn)品質(zhì)量的重要指標,由于技術(shù)、成本的限制難以實現(xiàn)在線檢測,目前質(zhì)量檢測多以人工現(xiàn)場采集和實驗室化驗為主,檢測結(jié)果嚴重滯后,不利于該過程的穩(wěn)定控制.出液濃度的影響因素主要包括蒸發(fā)器的真空度、進料的流量、溫度和濃度、加熱蒸汽的流量和壓力、蒸發(fā)器的料液位、不凝性氣體和冷凝水的排除等[18].通過理論分析和生產(chǎn)經(jīng)驗選取影響較大的5個變量:進料溫度T1、進料流量F1、進料濃度Lin、新蒸汽溫度T2、新蒸汽流量F2.以某氧化鋁廠帶閃蒸和強制循環(huán)的七效逆流降膜蒸發(fā)的蒸發(fā)過程為例,該廠實際生產(chǎn)1個月的數(shù)據(jù)作為訓練數(shù)據(jù)和測試數(shù)據(jù),建立基于GEP算法的LSSVM的蒸發(fā)過程出料濃度預測模型為

式中:Lout為預測模型輸出,即出口料液濃度;GEPLSSVM 為模型標示;T1、F1、Lin、T2、F2為已知樣本的輸入.選用經(jīng)過糾錯、剔除和歸一化處理后的400組工業(yè)數(shù)據(jù)中的300組用于建模,100組用于模型驗證,選取ξ=0.02的一次不敏感損失函數(shù)和徑向基核函數(shù),通過GEP算法對最小二乘支持向量機建模參數(shù)進行優(yōu)化,得到最優(yōu)參數(shù)集 ξ=0.02、C=428.56、σ =0.072.再用得到的最優(yōu)參數(shù)訓練 LSSVM,最終的出料濃度預測結(jié)果如圖3所示.

圖3 模型泛化比較結(jié)果Fig.3 Comparison of model generalization results

圖4 GEP-LSSVM模型預測相對誤差Fig.4 Relative error of GEP-LSSVM model predict

圖3顯示了 GEP-LSSVM、PSO-LSSVM和 GALSSVM預測模型的泛化能力,從圖中可知,GEPLSSVM模型的預測效果最好.通過進一步的數(shù)據(jù)分析,GEP-LSSVM模型預測結(jié)果中相對誤差(如圖4所示)小于8%的樣本達到92%,其最大相對誤差小于 12%,均方差 MSE(mean square error)為6.082 7 ×10-5,具有較高的精度;另外,該模型相比于PSO-LSSVM的預測能力(MSE為8.95 9×10-5)和 GA-LSSVM的預測能力(MSE為1.618 5×10-4),有了較大的提高.

3 結(jié)束語

最小二乘支持向量機的參數(shù)選擇是支持向量機應(yīng)用推廣的一個重要方面,如何將各種算法應(yīng)用于其中,一直以來是一個既有實際價值又有理論意義的研究課題.本文將GEP算法用于最小二乘支持向量機的參數(shù)優(yōu)化,其中變異算子按照進化代數(shù)和染色體所含基因數(shù)目動態(tài)變化的機制進行變異操作,通過多個實驗驗證了該方法的有效性.然后將其應(yīng)用于氧化鋁蒸發(fā)過程出料濃度的預測模型的建立,仿真結(jié)果表明了該預測模型預測精度高,完全滿足實際工業(yè)生產(chǎn)的需要,同時也對其應(yīng)用到其他生產(chǎn)過程有著一定的指導意義.另外,GEP算法本身的改進及其對支持向量機核參數(shù)的編碼和解碼方法也有待進一步研究.

[1]VAPNIK V N.The nature of statistical learning theory[M].New York,USA:Springer-Verlag,1995.

[2]VAPNIK V,LEVIN E,CUN Y L.Measuring the VC-dimension of a learning machine[J].Neural Computation,1994,6(5):851-876.

[3]SMOLA A J,SCHOLKOPF B.A tutorial on support vector regression[J].Statistic and Computing,2004,14(3):199-222.

[4]SANCHEZ A D.Advanced support vector machines and kernel methods[J].Neurocomputing,2003,55(1):5-20.

[5]SUYKENS J A K,VANDEWALL J.Least squares support vector machine classifiers[J].Neural Processing Letters,1999,9(3):293-300.

[6]PELCKMANS K,SUYKENS J A K,DE MOOR B.Building sparse representations and structure determination on LSSVM substrates[J].Neurocomputing,2005,64:137-159.

[7]鄭小霞,錢鋒.基于PCA和最小二乘支持向量機的軟測量建模[J].系統(tǒng)仿真學報,2006,18(3):739-741.

ZHENG Xiaoxia,QIAN Feng.Soft sensor modeling based on PCA and support vector machines[J].Journal of System Simulation,2006,18(3):739-741.

[8]趙吉文,劉永斌,孔凡讓,等.核參數(shù)遺傳選優(yōu)的SVM在直線電機建模中的應(yīng)用[J].系統(tǒng)仿真學報,2006,18(12):3547-3549.

ZHAO Jiwen,LIU Yongbin,KONG Fanrang,et al.Application of SVM with genetic algorithms optimizing kernel parameters in linear motor model[J].Journal of System Simulation,2006,18(12):3547-3549.

[9]劉瑞蘭,牟盛靜,蘇宏業(yè),等.基于支持向量機和粒子群算法的軟測量建模[J].控制理論與應(yīng)用,2006,23(6):895-899,906.

LIU Ruilan,MOU Shengjing,SU Hongye,et al.Modeling soft sensor based on support vector machine and particle swarm optimization algorithms[J].Control Theory and Applications,2006,23(6):895-899,906.

[10]THADANI K,JAYARAMAN V K,SUNDARARAJAN V.Evolutionary selection of kernels in support vector machines[C]//International Conference on Advanced Computing and Communications.Mangalore,India,2006:19-24.

[11]FERREIRA C.Gene expression programming in problem solving[C/OL].[2010-12-10].http://www.gene-expression-programming.com/webpapers/GEPtutorial.pdf.

[12]FERREIRA C.Gene expression programming:a new adaptive algorithm for solving problems[J].Complex Systems,2001,13(2):87-129.

[13]MITCHELL M.An introduction to genetic algorithms[M].Cambridge,UK:The MIT Press,1996:143-164.

[14]錢曉山,陽春華.改進基因表達式編程在股票中的研究與應(yīng)用[J].智能系統(tǒng)學報,2010,5(4):303-307.

QIAN Xiaoshan,YANG Chunhua.Improved gene expression programming algorithm-tested by predicting stock indexes[J].CAAI Transactions on Intelligent Systems,2010,5(4):303-307.

[15]張春曉,張濤.基于最小二乘支持向量機和粒子群算法的兩相流含油率軟測量方法[J].中國電機工程學報,2010,30(2):86-91.

ZHANG Chunxiao,ZHANG Tao.Soft measurement method for oil holdup of two phase flow based on least squares support vector machine and particle swarm optimization[J].Proceedings of the CSEE,2010,30(2):86-91.

[16]RIVERO D,DORADO J,RABUNAL J,et al.Using genetic programming for artificial neural network development and simplification[C]//Proceedings of the 5th WSEAS International Conference on Computational Intelligence,Man-Machine Systems and Cybernetics.Venice,Italy,2006:65-71.

[17]XU Kaikuo,LIU Yintian,RONG Tang,et al.A novel method for real parameter optimization based on gene expression programming[J]. Applied Soft Computing,2009,9(2):725-737.

[18]徐文熙,穆文俊.化工原理(上)[M].北京:中國石化出版社,1992.

猜你喜歡
染色體變異向量
向量的分解
聚焦“向量與三角”創(chuàng)新題
變異危機
變異
多一條X染色體,壽命會更長
為什么男性要有一條X染色體?
能忍的人壽命長
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
變異的蚊子
西乌珠穆沁旗| 景泰县| 偏关县| 乐都县| 江陵县| 宁远县| 东海县| 淳安县| 海盐县| 三河市| 广元市| 怀远县| 永州市| 阿荣旗| 乐陵市| 大竹县| 桐梓县| 定日县| 客服| 康乐县| 金昌市| 永福县| 年辖:市辖区| 上思县| 霍林郭勒市| 阜康市| 芜湖市| 潢川县| 库伦旗| 渝北区| 宁蒗| 乐至县| 祁连县| 鄂州市| 松潘县| 滦平县| 抚州市| 泸州市| 潮州市| 德庆县| 潼南县|