楊樂,張瑞
(西北大學(xué)數(shù)學(xué)系,陜西 西安 710127)
基于在線序列ELM算法的高效股票預(yù)測
楊樂,張瑞
(西北大學(xué)數(shù)學(xué)系,陜西 西安 710127)
傳統(tǒng)的股票預(yù)測方法通常采用前一段時(shí)間的股票價(jià)格預(yù)測后一段時(shí)間的股票價(jià)格.本文提出了一種僅用前一天的股票數(shù)據(jù)預(yù)測后一段時(shí)間的股票數(shù)據(jù)的新方法,先對股市收集到的原始數(shù)據(jù)進(jìn)行錯(cuò)位排序,然后采用在線序列ELM算法進(jìn)行預(yù)測.預(yù)測結(jié)果顯示,這樣不僅預(yù)測精度高,而且速度也很快.
在線序列ELM算法;錯(cuò)位排序;最小二乘法;股票預(yù)測
隨著股票市場的發(fā)展,各種各樣的股票預(yù)測方法不斷產(chǎn)生,常見的有ARIMA模型,灰色理論,支持向量回歸機(jī),馬爾科夫預(yù)測方法[1]等.這些預(yù)測方法在一定程度上揭示了股市的某種運(yùn)行規(guī)律,但是股票市場內(nèi)部結(jié)構(gòu)的復(fù)雜性和外部因素的多變性又直接會(huì)影響股市預(yù)測的準(zhǔn)確性.有效的預(yù)測,關(guān)鍵在于發(fā)現(xiàn)正確的規(guī)律.從數(shù)學(xué)角度看,就是找到股票數(shù)據(jù)之間的某種映射(函數(shù))關(guān)系.由于神經(jīng)網(wǎng)絡(luò)具有可逼近任意非線性連續(xù)函數(shù)的學(xué)習(xí)能力,因而運(yùn)用神經(jīng)網(wǎng)絡(luò)進(jìn)行股票預(yù)測已成為近幾年來的研究熱點(diǎn).
目前,大多數(shù)股票預(yù)測方法都是基于BP(back-propagation)神經(jīng)網(wǎng)絡(luò)而提出的[27],但由于BP網(wǎng)絡(luò)在訓(xùn)練過程中需要對網(wǎng)絡(luò)的權(quán)值和閾值進(jìn)行修正,不僅非常耗時(shí),而且極易陷入局部極小.所以針對股票市場這樣一個(gè)實(shí)時(shí)性較強(qiáng)的場合,BP網(wǎng)絡(luò)的應(yīng)用勢必受到限制.不同于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)理論,文獻(xiàn)[8]提出了一種新的算法—ELM(extreme learningmachine)算法. ELM算法中,輸入權(quán)值和隱層閾值隨機(jī)選取,而輸出權(quán)值則可直接計(jì)算得到.整個(gè)過程一次完成,無需迭代.目前ELM算法已成功地應(yīng)用于大量的回歸問題與分類問題之中,結(jié)果表明ELM算法不僅學(xué)習(xí)速度快,而且與其它學(xué)習(xí)算法相比,具有更好的泛化性能.但在實(shí)際應(yīng)用中,所有數(shù)據(jù)可能不是一次性添加到網(wǎng)絡(luò)中.當(dāng)新數(shù)據(jù)添加到網(wǎng)絡(luò)時(shí),ELM算法會(huì)把新數(shù)據(jù)和舊數(shù)據(jù)放到一起重新訓(xùn)練網(wǎng)絡(luò),因此會(huì)花費(fèi)很長時(shí)間.為解決這一問題,文獻(xiàn)[9]把序列學(xué)習(xí)思想應(yīng)用于ELM算法并提出了在線序列ELM算法.在該算法中,數(shù)據(jù)可以一個(gè)一個(gè)或一塊一塊地添加到網(wǎng)絡(luò)中,并且原先的數(shù)據(jù)學(xué)習(xí)完成后就會(huì)拋棄不再使用.基于股市數(shù)據(jù)的在線特點(diǎn),采用在線序列ELM算法,預(yù)測并分析股市走勢,從而降低投資風(fēng)險(xiǎn),顯然有著十分重要的意義[1011].
(d)置k=k+1,返回步驟(2).
在線序列ELM算法的主要優(yōu)點(diǎn)在于:(1)放棄已學(xué)習(xí)過的數(shù)據(jù);(2)學(xué)習(xí)速度快.正是因?yàn)樯鲜鰞蓚€(gè)優(yōu)點(diǎn),對于股市這樣一個(gè)實(shí)時(shí)性很強(qiáng)的市場,采用在線序列ELM算法進(jìn)行預(yù)測才具有較強(qiáng)的可行性.
本文采用在線序列ELM算法,用前一天的股票數(shù)據(jù)來預(yù)測后一段時(shí)間內(nèi)的股票數(shù)據(jù),其主要思想分為以下三個(gè)步驟:
(1)訓(xùn)練部分
4.1 數(shù)據(jù)處理
本文選取東風(fēng)汽車1999年7月27日至2011年12月30日(共2997個(gè)交易日)的最高價(jià)、最低價(jià)、收盤價(jià)作為樣本數(shù)據(jù).所有實(shí)驗(yàn)均在電腦配置為CPU 2.40 CHz、2.00 GB RAM和MATLAB 7.6.0環(huán)境下運(yùn)行.
設(shè)最初從股市上收集到的數(shù)據(jù)為Z={z1,z2,···,z2997},其中zi=(zi1,zi2,zi3)T.
首先對所有數(shù)據(jù)進(jìn)行如下歸一化處理:
其中z j(max)和z j(min)分別表示z1,···,z2997中第j個(gè)分量的最大值和最小值.
其次,對處理后的數(shù)據(jù)集進(jìn)行錯(cuò)位排序形成新的數(shù)據(jù)集:
其中xi=zi,ti=zi+1分別表示第i個(gè)輸入數(shù)據(jù)和其對應(yīng)的目標(biāo)輸出.把?中的前1000個(gè)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),1001個(gè)到2000個(gè)的數(shù)據(jù)作為測試數(shù)據(jù),x2001作為預(yù)測輸入分別預(yù)測后三(t2002,t2003,t2004)天、五 (t2002,t2003,t2004,t2005,t2006)天的股票數(shù)據(jù).由于本文中期望輸出的維數(shù)是多維,因此定義新的均方根誤差為
其中oij和tij為第i個(gè)數(shù)據(jù)的實(shí)際輸出和期望輸出的第j個(gè)分量,d表示數(shù)據(jù)的維數(shù),N表示數(shù)據(jù)的個(gè)數(shù).訓(xùn)練和測試實(shí)驗(yàn)N均取1000,前一天的股票數(shù)據(jù)預(yù)測后三、五天股票數(shù)據(jù)的預(yù)測實(shí)驗(yàn)N分別選取3和5.
4.2 參數(shù)設(shè)置
在實(shí)驗(yàn)中,最優(yōu)隱節(jié)點(diǎn)個(gè)數(shù)采用十字交叉驗(yàn)證法[7]確定為8個(gè),初始數(shù)據(jù)個(gè)數(shù) N0設(shè)定為15,每次增加數(shù)據(jù)的個(gè)數(shù)為10.考慮到RBF神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)簡單,具有良好的全局逼近性能,以及非線性映射能力和高度非線性的特點(diǎn),在線序列ELM算法的激活函數(shù)定為RBF函數(shù).
4.3 實(shí)驗(yàn)結(jié)果
本小節(jié)所列出的實(shí)驗(yàn)結(jié)果(如表1,表2所示)均為20次實(shí)驗(yàn)的平均結(jié)果.
用 2007年 12月 10日的最高價(jià)、最低價(jià)、收盤價(jià)預(yù)測 2007年 12月 11-13日的最高價(jià)、最低價(jià)、收盤價(jià)的實(shí)驗(yàn)結(jié)果如表 1所示.從表 1中可以看出,預(yù)測出的 11日的最高價(jià)與實(shí)際最高價(jià)的取值只相差 0.009.雖然預(yù)測 13日的誤差比較大,但是考慮到輸入僅是2007年12月10日這一天的股票數(shù)據(jù),以此進(jìn)行后一段時(shí)間的預(yù)測誤差理論上也應(yīng)該增大.盡管如此,預(yù)測這三日的股票信息總體精度卻能達(dá)到0.023,而用時(shí)卻只有0.018秒.
表1 股票預(yù)測數(shù)據(jù)
用2007年12月 10日的最高價(jià)、最低價(jià)、收盤價(jià)預(yù)測2007年 12月11-15日的最高價(jià)、最低價(jià)、收盤價(jià)的實(shí)驗(yàn)結(jié)果如表2所示.從表中可以看出預(yù)測這五天股票數(shù)據(jù)的精度已達(dá)到0.0234與預(yù)測11-13日這三天股票數(shù)據(jù)的精度僅相差0.0004.這也就充分顯示了,該論文用于股票綜合數(shù)據(jù)長期預(yù)測的精確性.
本論文基于在線序列ELM算法提出了一種僅用前一天的最高價(jià)、最低價(jià)、收盤價(jià)分別預(yù)測出后三天、五天的最高價(jià)、最低價(jià)和收盤價(jià)的新方法.此方法的最大優(yōu)點(diǎn)在于,所需輸入少,預(yù)測周期長.表1和表2的實(shí)驗(yàn)結(jié)果顯示,對原始數(shù)據(jù)進(jìn)行錯(cuò)位排序后,再采用在線序列ELM學(xué)習(xí)算法進(jìn)行前一天的股票數(shù)據(jù)預(yù)測后三天和后五天的股票數(shù)據(jù)實(shí)驗(yàn),預(yù)測精度變化不大.由此說明,本論文所提出的方法可以作為股票整體信息長期預(yù)測的有效新方法.
表2 股票預(yù)測數(shù)據(jù)
[1]朱瑜.股市預(yù)測方法研究[D].西安:西北工業(yè)大學(xué)圖書館,2006.
[2]陳政,楊天奇.基于RBF神經(jīng)網(wǎng)絡(luò)的股票市場預(yù)測[J].計(jì)算機(jī)應(yīng)用與軟件,2010,27(3):108-110.
[3]林香,姜青山.一種基于遺傳BP網(wǎng)絡(luò)的預(yù)測模型[J].計(jì)算研究與發(fā)展,2006,43:338-343.
[4]向小東,郭輝煌.BP算法的改進(jìn)及其在股票價(jià)格預(yù)測中的應(yīng)用[J].西南交通大學(xué)學(xué)報(bào),2001,36(4):425-427.
[5]吳微,陳維強(qiáng).用BP神經(jīng)網(wǎng)絡(luò)預(yù)測股票市場漲跌[J].大連理工大學(xué)學(xué)報(bào),2001,41(1):9-15.
[6]王英健,戎麗霞.基于遺傳BP算法的神經(jīng)網(wǎng)絡(luò)及其在模式識(shí)別中的應(yīng)用[J].長沙交通學(xué)院學(xué)報(bào),2005,21(1):53-56.
[7]沈波.基于BP神經(jīng)網(wǎng)絡(luò)的股價(jià)預(yù)測應(yīng)用研究[D].長沙:湖南大學(xué)圖書館,2010.
[8]Bin Huangguang,Yu Zhuqin.Extreme learningmachine:theory and app lications[J].Neural Com putation, 2006,70:489-501.
[9]Ying Liangnan,Bin Huangguang.A fast accurate online sequential learning algorithm for feed forward networks[J].IEEE Trans.Neural Networks,2006,17(6):1411-1423.
[10]Wei Zhaojian,HuiWangzhi.Online sequential extreme learning machine with forgetting mechanism[J]. Neural Com putation,2012,87:79-89.
[11]Li Sunzhan,M ing Choitsan.Sales forecasting using extrem e learning m achine with app lications in fashion retailing[J].Decision Support System s,2008,46:411-419.
Aneffi cient stock forecasting m ethod based on on line sequential ex trem e learn ing m achine
Yang Le,Zhang Rui
(Department of Mathematics,Northwest University,Xi′an 710127,China)
Traditional stock p rediction m ethod usually uses the stock price of som e tim e ago to forecast after a period of time′s.This paper puts forward a new method which uses the stock data of the day before to forecast the follow ing period of tim e′s.App ly dislocation ranking m ethod to the original data,after which use online sequential extrem e learningm achine algorithm to forecast.Forecasting results show s that the forecast precision and speed is high.
online sequence extrem e learning m achine,dislocation ranking m ethod,least squares solution, stock forecast
O29
A
1008-5513(2012)06-0834-05
2012-09-08.
國家自然科學(xué)基金(61075050).
楊樂(1987-),碩士生,研究方向:ELM s技術(shù)的理論及應(yīng)用.
張瑞(1971-),博士,副教授,研究方向:人工神經(jīng)網(wǎng)絡(luò),計(jì)算智能,機(jī)器學(xué)習(xí).
2010 M SC:03C65