胡照躍 白艷萍
(作者單位:中北大學(xué)理學(xué)院數(shù)學(xué)系)
?
基于PCA-SVM組合模型的股票價(jià)格預(yù)測(cè)
胡照躍白艷萍
股票市場(chǎng)是個(gè)非穩(wěn)定的時(shí)間序列,本文將支持向量機(jī)與主成分分析(PCA-SVM)結(jié)合對(duì)股票進(jìn)行回歸預(yù)測(cè)分析,以?shī)W特迅(002227)為對(duì)象進(jìn)行建模和預(yù)測(cè)研究。選取奧特迅90天的股票技術(shù)指標(biāo)歷史數(shù)據(jù)作為訓(xùn)練樣本對(duì)收盤價(jià)進(jìn)行預(yù)測(cè),10天數(shù)據(jù)進(jìn)行檢驗(yàn),并通過(guò)圖像擬合來(lái)驗(yàn)證神經(jīng)網(wǎng)絡(luò)股票預(yù)測(cè)的可行性和準(zhǔn)確性。
支持向量機(jī);主成分分析;股票預(yù)測(cè)
1.引言
股票是市場(chǎng)經(jīng)濟(jì)的產(chǎn)物,股票的發(fā)行與交易促進(jìn)了市場(chǎng)經(jīng)濟(jì)的發(fā)展。對(duì)股票投資者來(lái)說(shuō),未來(lái)股價(jià)變化趨勢(shì)預(yù)測(cè)越準(zhǔn)確,對(duì)利潤(rùn)的獲取及風(fēng)險(xiǎn)的規(guī)避就越有把握。傳統(tǒng)的股票技術(shù)分析方法有移動(dòng)平均線法、點(diǎn)數(shù)圖法、K線圖法等,它們可以預(yù)測(cè)一段時(shí)間內(nèi)股指變換的大致走勢(shì),但短期股票價(jià)格的變化往往是投資者更感興趣的信息。不少研究者將目光投向基于人工神經(jīng)網(wǎng)絡(luò)建立的預(yù)測(cè)模型,并取得了較好的預(yù)測(cè)效果[1]。SVM對(duì)經(jīng)驗(yàn)的依賴較小,能夠獲得全局最優(yōu)解,具有良好的泛化性能,從而有效地克服了神經(jīng)網(wǎng)絡(luò)等方法無(wú)法避免局部極值的問(wèn)題。由于影響股票預(yù)測(cè)的因素很多,這些因素之間存在高度的非線性、存在數(shù)據(jù)冗余等特征。因此,本文用主成分分析法對(duì)輸入因子進(jìn)行主成分提取并結(jié)合支持向量機(jī)對(duì)股票的開盤數(shù)進(jìn)行預(yù)測(cè)。
2.支持向量機(jī)
支持向量機(jī)(SVM)是一種機(jī)器學(xué)習(xí)方法,它的基礎(chǔ)是Vapnik創(chuàng)建的統(tǒng)計(jì)學(xué)習(xí)理論,采用了結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則,在最小化樣本點(diǎn)誤差的同時(shí),縮小模型泛化能力。而且它是一個(gè)凸二次優(yōu)化問(wèn)題[2],能保證找到的極值解就是全局最優(yōu)解。支持向量機(jī)可用于模式分類和非線性回歸,它的主要思想是建立一個(gè)分類超平面作為決策曲面,使得正例和反例之間的隔離邊緣被最大化。
在SVM算法中,為了使預(yù)測(cè)結(jié)果具有更高的精確度,在對(duì)樣本進(jìn)行訓(xùn)練之前,則需要對(duì)某些參數(shù)進(jìn)行優(yōu)化。本文中支持向量機(jī)算法中的核函數(shù)選取徑向基核函數(shù),本文通過(guò)交叉驗(yàn)證法對(duì)寬度參數(shù)σ以及優(yōu)化懲罰參數(shù)C做出尋優(yōu)。SVM模型采用的核函數(shù)是徑向基(RBF)函數(shù):
(1)
3.主成分分析(PCA)
主成分分析(Principal Component Analysis)又稱主分量分析,是由皮爾遜(Pearson)于1901年首先引入,后來(lái)由霍特林(Hotelling)于1933年進(jìn)行了發(fā)展。主成分分析的目的就是設(shè)法將原來(lái)眾多具有一定相關(guān)性的變量,重新組合為一組新的相互無(wú)關(guān)的綜合變量來(lái)代替原來(lái)變量[3]。其數(shù)學(xué)模型如下:
對(duì)于一個(gè)樣本資料,觀測(cè)p個(gè)變量x1,x2,…xp,n個(gè)樣品的數(shù)據(jù)資料陣為:
(2)
主成分分析就是將p個(gè)觀測(cè)變量綜合成為p個(gè)新的變量(綜合變量)[4],即
(3)
4.實(shí)驗(yàn)結(jié)果分析
本文中的股票數(shù)據(jù)來(lái)自通信達(dá)股票交易軟件,所用軟件為MATLAB(R2014a)仿真軟件。本文基于支持向量機(jī)模型,結(jié)合主成分分析方法,建立了一個(gè)股票預(yù)測(cè)模型。選取了奧特迅(002227)從2015年8月25日到2016年1月25日這期間內(nèi)102個(gè)交易日每日的各種指標(biāo)。引用這期間內(nèi)的今日最高價(jià)、今日最低價(jià)、今日開盤價(jià)、今日收盤價(jià)、今日成交量、5日移動(dòng)平均線、10日移動(dòng)平均線、30日移動(dòng)平均線、60日移動(dòng)平均線、KDJ.K、KDJ.D、和KDJ.J這12個(gè)技術(shù)指標(biāo)作為輸入變量,將第二日收盤價(jià)作為輸出變量。選擇其中90組作為訓(xùn)練樣本集,12組作為檢驗(yàn)測(cè)試樣本,輸入樣本和測(cè)試樣本的數(shù)據(jù)均統(tǒng)一歸一化到(0,1)之間的實(shí)數(shù)。
經(jīng)過(guò)計(jì)算機(jī)的仿真實(shí)驗(yàn),奧特迅測(cè)試的SVM算法和PCA-SVM算法計(jì)算結(jié)果見表1。比較表1中各算法的計(jì)算結(jié)果可以看出,PCA-SVM算法較SVM算法無(wú)論在收斂速度上,還是在誤差及精度上,都取得了更好的效果。由于股價(jià)預(yù)測(cè)的復(fù)雜性非常高,受各方面的因素影響,隨機(jī)事件也很多,要準(zhǔn)確預(yù)測(cè)股價(jià),要想提高投資的獲利能力,可以考慮加入其他方法加以輔助。
表1 奧特迅各算法計(jì)算結(jié)果比較
圖1-1SVM開盤價(jià)預(yù)測(cè)誤差圖圖1-2PCA-SVM開盤價(jià)預(yù)測(cè)誤差圖
圖1奧特迅測(cè)試結(jié)果圖
5.結(jié)論
股票市場(chǎng)是一個(gè)高度復(fù)雜的非線性系統(tǒng),其變化既有內(nèi)在的規(guī)律性,同時(shí)也受到了政治事件、宏觀經(jīng)濟(jì)情況、交易員的心理狀況等諸多因素的影響。本文利用PCA-SVM神經(jīng)網(wǎng)絡(luò)模型來(lái)進(jìn)行股票價(jià)格的預(yù)測(cè),并對(duì)國(guó)內(nèi)股市的漲跌進(jìn)行了初步的嘗試。此模型融合了主成分分析方法對(duì)輸入變量進(jìn)行降維處理,在縮短模型訓(xùn)練時(shí)間的同時(shí),又保證了預(yù)測(cè)結(jié)果的精確性。從仿真的結(jié)果來(lái)看,對(duì)股票價(jià)格的短期預(yù)測(cè)能夠取得較好的效果,將該模型應(yīng)用于股市預(yù)測(cè)具有很強(qiáng)的現(xiàn)實(shí)意義和推廣價(jià)值,但是在SVM核函數(shù)參數(shù)優(yōu)化方面仍有可以改進(jìn)的地方,需要進(jìn)一步地探討。
(作者單位:中北大學(xué)理學(xué)院數(shù)學(xué)系)
[1]黃靜.神經(jīng)網(wǎng)絡(luò)模型在股票預(yù)測(cè)上的應(yīng)用[J].電腦知識(shí)與技術(shù)(學(xué)術(shù)交流).2007(07)
[2]馬法堯.模糊SVM在股市預(yù)測(cè)中的算法研究與應(yīng)用[J].西南民族大學(xué)學(xué)報(bào)(人文社科版).2006(10)
[3]謝中華.MATLAB統(tǒng)計(jì)分析與應(yīng)用:40個(gè)案例分析[M].北京航空航天大學(xué)出版社.2010:354-373
[4]高惠璇.應(yīng)用多元統(tǒng)計(jì)分析[M].北京大學(xué)出版社.2005:265-290.
胡照躍(1991-),男,漢族,海南??谌耍斜贝髮W(xué)理學(xué)院 2013級(jí)碩士研究生,研究方向:現(xiàn)代優(yōu)化算法。
白艷萍(1966-),女,漢族,山西太原人,中北大學(xué)理學(xué)院教授,研究方向:現(xiàn)代優(yōu)化算法。