国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于最優(yōu)小波包變換、ARIMA與SVR的股票價(jià)格預(yù)測(cè)研究

2015-11-30 21:58高天
關(guān)鍵詞:波包股價(jià)差分

高天

摘 要:

股票價(jià)格序列的變化往往具有高度的非平穩(wěn)性和異方差性,使得單一的預(yù)測(cè)方法難以準(zhǔn)確預(yù)測(cè)。利用最優(yōu)小波包變換,將股票價(jià)格序列分解為一系列特征規(guī)律較明顯的小波包系數(shù),對(duì)其中的趨勢(shì)部分采用ARIMA進(jìn)行預(yù)測(cè),對(duì)細(xì)節(jié)部分采用SVR進(jìn)行預(yù)測(cè),最后將預(yù)測(cè)結(jié)果進(jìn)行重構(gòu)得到股價(jià)預(yù)測(cè)序列。實(shí)證研究結(jié)果表明:該預(yù)測(cè)方法結(jié)構(gòu)明確,計(jì)算高效,能夠以較高的精度對(duì)股價(jià)變化進(jìn)行預(yù)測(cè)。

關(guān)鍵詞:

最優(yōu)小波包變換; ARIMA; SVR;股票價(jià)格;預(yù)測(cè)

文章編號(hào):2095-5960(2015)06-0057-13;中圖分類號(hào):F830.91;文獻(xiàn)標(biāo)識(shí)碼:A

一、引言

股票價(jià)格序列的變化由于受到整個(gè)外在經(jīng)濟(jì)環(huán)境、政策法規(guī)和公司經(jīng)營(yíng)狀況和其他不可預(yù)知因素的影響,往往具有高度的非平穩(wěn)性和異方差性,這使得股票價(jià)格序列這種復(fù)雜的金融時(shí)間序列難以通過(guò)一些直觀的方法進(jìn)行預(yù)測(cè)。在這種情況下,學(xué)術(shù)界嘗試使用各種非線性的技術(shù)來(lái)對(duì)股票價(jià)格序列進(jìn)行建模。目前用來(lái)預(yù)測(cè)股票價(jià)格的方法主要有ARMA、ARIMA、GARCH等時(shí)間序列回歸方法[1] [2] [3]和人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等智能算法[4] [5] [6]。但是對(duì)于股票價(jià)格這種復(fù)雜的金融時(shí)間序列簡(jiǎn)單地采用一種方法來(lái)預(yù)測(cè)很難得到滿意的結(jié)果,究其原因主要是股價(jià)序列波動(dòng)過(guò)于劇烈,趨勢(shì)性不夠明顯。

針對(duì)這個(gè)問(wèn)題,一些文獻(xiàn)中提出使用混合模型來(lái)進(jìn)行股價(jià)預(yù)測(cè),比如使用ARIMA和RBF神經(jīng)網(wǎng)絡(luò)[7]、ARIMA和SVM相結(jié)合[8]。但這些方法只是對(duì)預(yù)測(cè)方法進(jìn)行改進(jìn),并沒(méi)有對(duì)數(shù)據(jù)本身進(jìn)行處理,依然沒(méi)有解決股價(jià)序列的高度非線性問(wèn)題。有的文獻(xiàn)提出使用小波變換對(duì)股價(jià)序列先進(jìn)行分解,然后再使用各種方法進(jìn)行預(yù)測(cè)[9] [10] [11],小波分析有數(shù)學(xué)顯微鏡之稱,它對(duì)于復(fù)雜信號(hào)的分解非常有效,這些研究提高了對(duì)于股價(jià)預(yù)測(cè)的精度,但是在進(jìn)行小波變換時(shí)僅對(duì)趨勢(shì)部分進(jìn)行了分解,對(duì)由此產(chǎn)生的細(xì)節(jié)部分則沒(méi)有有效的分析。有的文獻(xiàn)提出使用小波包基對(duì)股價(jià)序列趨勢(shì)和細(xì)節(jié)部分同時(shí)進(jìn)行分解[12],然而與不同的股價(jià)序列特性對(duì)應(yīng)的小波包基并不一樣,而且分解細(xì)節(jié)部分過(guò)多使得在分解層數(shù)高時(shí)計(jì)算量非常大且會(huì)降級(jí)預(yù)測(cè)精度。因此本文提出了一種基于最優(yōu)小波包變換、ARIMA和SVR的預(yù)測(cè)方法,該方法首先對(duì)股價(jià)序列進(jìn)行多層分解,其次使用信息熵代價(jià)函數(shù)尋找到對(duì)應(yīng)于股價(jià)序列的最優(yōu)小波包基,再次對(duì)分解得到的趨勢(shì)系數(shù)使用ARIMA進(jìn)行回歸預(yù)測(cè),對(duì)細(xì)節(jié)系數(shù)進(jìn)行白噪聲檢驗(yàn),通過(guò)檢驗(yàn)的細(xì)節(jié)系數(shù)使用SVR進(jìn)行回歸預(yù)測(cè),最后將預(yù)測(cè)得到的各部分系數(shù)通過(guò)小波包重構(gòu)合成最終的預(yù)測(cè)結(jié)果。

二、基于最優(yōu)小波包變換、ARIMA與SVR的股票價(jià)格預(yù)測(cè)模型

股票價(jià)格由于受到政治經(jīng)濟(jì)社會(huì)心理等各方面因素的影響,往往具有高度的非平穩(wěn)性和異方差性,直接使用上述各種預(yù)測(cè)方法往往效果很差,特別是容易產(chǎn)生“平移現(xiàn)象”(由于股價(jià)波動(dòng)太劇烈,使得預(yù)測(cè)模型對(duì)某時(shí)點(diǎn)的預(yù)測(cè)僅僅是單純復(fù)制上個(gè)時(shí)點(diǎn)的觀察值,從圖形上看起來(lái)就像序列滯后一期平移一樣)和“放棄預(yù)測(cè)”(同樣由于股價(jià)波動(dòng)的高度非平穩(wěn)性和異方差性,使得某些單一方法“跟不上”股價(jià)的變動(dòng),從而使得這些方法的預(yù)測(cè)值往往在一個(gè)值附近小幅波動(dòng),看起來(lái)就好像沒(méi)有預(yù)測(cè)一樣,如圖1所示),因此需要對(duì)股價(jià)時(shí)序進(jìn)行特征提取。使用差分的方法是一種趨勢(shì)提取的選擇,但是股價(jià)的變動(dòng)含有許多無(wú)法預(yù)測(cè)的白噪聲,并且波動(dòng)非常頻繁,使得直接使用差分的方法效果并不好,因此需要對(duì)股價(jià)時(shí)間序列進(jìn)行預(yù)處理,提取股價(jià)線性特征和非線性特征,分別對(duì)線性特征和非線性特征采用最合適的預(yù)測(cè)方法。

本文首先使用最優(yōu)小波包變換,將股價(jià)序列分解成一個(gè)低頻趨勢(shì)部分和若干個(gè)高頻細(xì)節(jié)部分。由于信息熵代價(jià)函數(shù)的引入,使得最優(yōu)小波包變換相比于小波包變換方法分解出的各部分在信息熵意義下包含最多的有效信息,能夠提升預(yù)測(cè)的精度。其中趨勢(shì)部分體現(xiàn)了股價(jià)的整體變動(dòng)趨勢(shì),由于將低頻部分和高頻部分進(jìn)行分解,使得低頻趨勢(shì)部分不再具有高度的波動(dòng)性,在這種情況下考慮使用ARIMA這種成熟的時(shí)間序列預(yù)測(cè)方法對(duì)低頻趨勢(shì)部分進(jìn)行預(yù)測(cè),可得到股價(jià)變動(dòng)總體變動(dòng)方向。高頻細(xì)節(jié)部分由于受到各方面短期影響因素的影響,其中一部分由于高度的波動(dòng)性和異方差性,分解后仍然無(wú)法從中提取有效的預(yù)測(cè)信息,因此考慮將其剔除。在本文中使用LBQ隨機(jī)白噪聲檢驗(yàn)進(jìn)行篩選,對(duì)沒(méi)有通過(guò)LBQ檢驗(yàn)而被認(rèn)定為白噪聲的細(xì)節(jié)系數(shù)剔除出預(yù)測(cè)范圍,剩下的高頻細(xì)節(jié)系數(shù)集直接使用傳統(tǒng)的時(shí)間序列分析方法效果很差,因此考慮使用能夠有效處理高度非線性和小樣本容量特性問(wèn)題的統(tǒng)計(jì)學(xué)習(xí)方法來(lái)進(jìn)行高頻細(xì)節(jié)部分的預(yù)測(cè)。在本文中使用支持向量回歸機(jī)(Support Vector Mechine for Regression,下稱SVR)對(duì)細(xì)節(jié)系數(shù)進(jìn)行預(yù)測(cè),SVR是有監(jiān)督統(tǒng)計(jì)學(xué)習(xí)方法的一種,由于基于嚴(yán)格的VC維理論,能夠使得預(yù)測(cè)的結(jié)構(gòu)風(fēng)險(xiǎn)最小化,因此相比于傳統(tǒng)預(yù)測(cè)方法,在對(duì)于高度非線性和異方差性問(wèn)題的處理上更具優(yōu)勢(shì)。最后得到了各部分的預(yù)測(cè)序列,使用對(duì)應(yīng)與最優(yōu)小波包分解方法的最優(yōu)小波包重構(gòu),將各部分預(yù)測(cè)序列重構(gòu)為原始股價(jià)序列的形式,就得到了股價(jià)預(yù)測(cè)序列,組合模型整體框架如圖1所示。

三、最優(yōu)小波包變換

(一)小波變換

小波變換[13]這一概念的首次提出是由法國(guó)的石油工程師J.Morlet1974年在研究利用人造地震來(lái)探明原油儲(chǔ)量時(shí)提出的一種地震回波信號(hào)解析變換方法。1986年數(shù)學(xué)家Y.Meyer首次構(gòu)造出了一個(gè)真正的小波基之后,小波分析才真正開始得到學(xué)術(shù)界的重視并迅速得到發(fā)展,其中比利時(shí)女?dāng)?shù)學(xué)家I.Daubechies撰寫的《Ten Lectures on Wavelets》[14]對(duì)小波變換在學(xué)術(shù)界的普及起了重要的作用。小波變換是一個(gè)時(shí)域上和頻域上的局部變換,通過(guò)伸縮變換和平移變換等運(yùn)算對(duì)函數(shù)或信號(hào)進(jìn)行多尺度分析,它的出現(xiàn)彌補(bǔ)了Fourier變換無(wú)法在時(shí)頻域局部展開獲得細(xì)節(jié)的缺陷,同時(shí)具有數(shù)學(xué)上嚴(yán)格意義的突變點(diǎn)診斷能力,從而小波分析技術(shù)被稱之為“數(shù)學(xué)顯微鏡”,它是信號(hào)分析發(fā)展史上的重要里程碑。目前小波分析在信號(hào)處理、圖像壓縮、語(yǔ)音編碼、模式識(shí)別、地震勘探、大氣科學(xué)、金融建模以及許多非線性研究領(lǐng)域內(nèi)得到了廣泛的應(yīng)用。

小波(Wavelet)函數(shù)的數(shù)學(xué)定義是:設(shè)ψ(t)∈L2(R)

若其Fourier變換()滿足:Wψ=∫R()2wdw∞時(shí),則稱ψ(t)為小波母函數(shù),并稱上式是小波函數(shù)的可容許條件。

將小波母函數(shù)ψ(t)進(jìn)行伸縮和平移,設(shè)其尺度系數(shù)為a,小波系數(shù)為b,記變換后的函數(shù)為ψa,b(t),則:

ψa,b(t)=a-12ψt-τa,a,b∈R;a≠0

稱ψa,b(t)為參數(shù)a和b的小波基函數(shù),它們是由同一母函數(shù)ψ(t)經(jīng)伸縮和平移后得到的一組函數(shù)系列。

金融市場(chǎng)數(shù)據(jù)大多是以離散信號(hào)形式存放的,所以需要將連續(xù)小波變換離散化才能夠應(yīng)用到金融時(shí)間序列分析中。需要注意的是這里所說(shuō)的離散化都是針對(duì)尺度系數(shù)a和平移系數(shù)b。一般來(lái)說(shuō),令:

a=12j,b=k2j,j,k∈Z,則有ψa,b(t)=2j/2ψ(2jt-k)

也寫作ψj,k(t)。為了能重構(gòu)信號(hào)f(t),要求{ψj,k}j,k∈Z是L2(R)的Riesz基。

(二)多尺度分析

著名數(shù)學(xué)家Mallat提出了多分辨分析(Multiresolution Analysis,MRA)的概念,統(tǒng)一了以前的各種具體小波基的構(gòu)造方法,更重要的是,Mallat多分辨率分析的框架,提出了現(xiàn)今廣泛使用的Mallat快速小波變換算法,空間L2(R)的多分辨分析是指構(gòu)造該空間內(nèi)一個(gè)子空間列{Vj}j∈Z,使其具有以下性質(zhì):

(1) 單調(diào)性:

…V2V1V0V-1V-2…

(2) 逼近性:

close∪∞j=-∞Vf=L2(R),∩∞j=-∞Vf={0}

(3) 伸縮性:

(t)∈Vj(2t)∈Vj-1

(4) 平移不變性:

(t)∈Vj(t-2j-1k)∈Vj, k∈Z

(5)Riesz基存在性:

存在(t)∈V0,使得{(2-jt-k)}k∈Z構(gòu)成Vj的Riesz基。

則稱j,k=2-j/2(2-jt-k),k∈Z為尺度函數(shù),特別地,若{(2-jt-k)}k∈Z構(gòu)成Vj的標(biāo)準(zhǔn)正交基,則稱j,k為正交尺度函數(shù)。

(三)最優(yōu)小波包變換

首先引入小波包基,設(shè){hn}n∈Z為正交尺度函數(shù)μ0(t)對(duì)應(yīng)的低通濾波器,{gn}n∈Z為正交小波函數(shù)μ1(t)對(duì)應(yīng)的高通濾波器,并有g(shù)n=(-1)nh1-n,則由:

μ2n(t)=2∑k∈Zhkμn(2t-k)μ2n+1(t)=2∑k∈Zgkμn(2t-k)

定義的函數(shù)μn,n=0,1,2,…稱為由正交尺度函數(shù)μ0=所確定的小波包基庫(kù)。

令Unj表示由2j/2μn(2jt-k)的線性組合而成的子空間,則有:

Unj+1=U2nj⊕U2n+1j,j∈Z

則子空間U03的三層小波包分解如圖2所示:

小波包基庫(kù)中的一組正交基稱為小波包基,例如圖3中正交的陰影部分,不同的子空間時(shí)域和頻域特征對(duì)應(yīng)于不同的小波包基,這些小波包分解得到的不同部分系數(shù)應(yīng)當(dāng)具有顯著的差異并能夠充分反映不同部分的特點(diǎn),所以如果部分系數(shù)的差異性很大,則這部分的系數(shù)就能夠充分刻畫原始的時(shí)間序列,因此應(yīng)該選擇一種最優(yōu)的小波包基,使時(shí)間序列的特性體現(xiàn)在盡可能少的系數(shù)上。在本文中我們通過(guò)設(shè)定信息熵代價(jià)函數(shù)來(lái)選擇,某小波包基對(duì)應(yīng)的熵值最小,該小波包基就是最優(yōu)小波包基。

在一個(gè)正交小波包基下將原序列展開,使得原序列對(duì)應(yīng)一個(gè)小波包系數(shù)序列s={si},則信息熵代價(jià)函數(shù)可以定義為:

E(s) = -∑is2i log(s2i )

然后求出使以上信息熵代價(jià)函數(shù)最小的正交小波包基即可得到最能反映原序列特征的最優(yōu)小波包基。

四、ARIMA時(shí)間序列回歸模型

(一)ARIMA模型數(shù)學(xué)描述

當(dāng)某金融時(shí)間序列通過(guò)白噪聲檢驗(yàn)后,便可以進(jìn)行回歸預(yù)測(cè),標(biāo)準(zhǔn)的處理方法是使用求和自回歸移動(dòng)平均模型(ARIMA)[15]對(duì)時(shí)間序列進(jìn)行回歸預(yù)測(cè)。

把具有如下結(jié)構(gòu)的模型稱之為自回歸移動(dòng)平均模型或ARIMA(p,d,q):

Φ (B)dxt = Θ(B)εt E(εt) = 0,Var(εt ) = σ2ε ,E(εt εs ) = 0,s≠tE(xs εt ) = 0,s < t

其中:

d=(1-B)d,

Φ(B)=1-1B-…-pBp,為p階自回歸的系數(shù)多項(xiàng)式,

Θ(B)=1-θ1B-…-θqBq,為q階移動(dòng)平均系數(shù)多項(xiàng)式。

上式也可以記作:

dxt=Θ(B)Φ(B)εt

(二)ARIMA模型時(shí)間序列回歸流程

ARIMA(p,d,q)模型的原理其實(shí)是進(jìn)行d階差分運(yùn)算后的ARMA(p,q)模型,這說(shuō)明當(dāng)時(shí)間序列非平穩(wěn)時(shí)可以通過(guò)求差分運(yùn)算來(lái)使得時(shí)間序列平穩(wěn)化,從而對(duì)差分后的時(shí)間序列使用ARMA模型進(jìn)行回歸預(yù)測(cè)。使用ARIMA模型進(jìn)行時(shí)間序列建?;貧w分為以下幾個(gè)步驟:

1.數(shù)據(jù)預(yù)處理。對(duì)待處理時(shí)間序列數(shù)據(jù)進(jìn)行預(yù)處理,主要包括缺失值的處理。

2.檢驗(yàn)時(shí)間序列的平穩(wěn)性。若時(shí)間序列平穩(wěn)可直接采用ARMA模型進(jìn)行回歸預(yù)測(cè),若非平穩(wěn)則需要進(jìn)入第三步進(jìn)行差分處理。通??梢圆捎脝挝桓鶛z驗(yàn)來(lái)判定是否平穩(wěn),例如可以使用DF檢驗(yàn)和ADF檢驗(yàn)。

3.差分運(yùn)算。若時(shí)間序列非平穩(wěn),則需要進(jìn)行差分處理,可依次從一階差分到高階差分來(lái)比較,選擇使得差分序列滯后自相關(guān)圖和偏自相關(guān)圖能夠明確定階的最小差分階數(shù)。

4.自回歸移動(dòng)平均定階。觀察自相關(guān)圖和偏自相關(guān)圖,若自相關(guān)圖q階滯后截尾,偏自相關(guān)圖p階滯后截尾,則可選擇ARIMA(p,d,q)模型進(jìn)行回歸。

5.進(jìn)行回歸,并對(duì)回歸擬合結(jié)果進(jìn)行顯著性檢驗(yàn)。主要包括:(1)對(duì)回歸質(zhì)量的檢驗(yàn),比如AIC、BIC、SIC值;(2)對(duì)回歸系數(shù)顯著性進(jìn)行檢驗(yàn);(3)對(duì)殘差是否為白噪聲進(jìn)行檢驗(yàn),若殘差判定為白噪聲,則原時(shí)間序列有效趨勢(shì)信息提取完畢,一般可使用Ljung-Box Q檢驗(yàn);(4)對(duì)殘差自相關(guān)圖和偏自相關(guān)圖進(jìn)行觀察,確認(rèn)殘差是否可認(rèn)為是白噪聲。

6.模型比較。使用不同的參數(shù)進(jìn)行回歸,然后選擇效果最好的作為最終的預(yù)測(cè)模型,一般可選擇使AIC、BIC、SIC最小,且通過(guò)上述回歸結(jié)果檢驗(yàn)的模型。然后通過(guò)該最佳模型預(yù)測(cè)出的預(yù)測(cè)值即為ARIMA模型的預(yù)測(cè)結(jié)果。

五、支持向量回歸機(jī)(SVR)

(一)非線性SVR數(shù)學(xué)描述

支持向量回歸機(jī)[16](Support Vector Machine for Regression,SVR或SVM-R)是一種結(jié)構(gòu)風(fēng)險(xiǎn)最小化的統(tǒng)計(jì)學(xué)回歸方法。支持向量回歸機(jī)在有限樣本的情況下能夠在模型復(fù)雜度較低的前提下實(shí)現(xiàn)較高的推廣能力和預(yù)測(cè)精度。SVR通過(guò)解一個(gè)凸二次規(guī)劃問(wèn)題來(lái)獲得最優(yōu)決策函數(shù),因此SVR最后得到的是全局最優(yōu)解,有效地避免了在一些傳統(tǒng)機(jī)器學(xué)習(xí)方法中收斂于局部最優(yōu)解的固有缺陷。另外SVR對(duì)于高度非線性的回歸問(wèn)題,相比于其他方法,具有更好的處理能力。SVR通過(guò)將輸入的數(shù)據(jù)從歐式空間變換到高維的希爾伯特特征空間中,然后在高維希爾伯特特征空間中構(gòu)造一個(gè)線性形式的決策函數(shù)來(lái)解決在歐式空間中難以直接解決的高度非線性回歸問(wèn)題。它更是通過(guò)創(chuàng)造性的引入核函數(shù)避免了在高維希爾伯特特征空間中高維運(yùn)算的復(fù)雜性,使得回歸算法的復(fù)雜度與維數(shù)無(wú)關(guān),從而避免了“維數(shù)災(zāi)難”。

非線性支持向量回歸問(wèn)題的數(shù)學(xué)描述如下:

給定訓(xùn)練集T={(x1,y1),…,(xl,yl)}∈(Rn×R)l,其中xi∈Rn,yi∈R,i=1,…,l.根據(jù)這個(gè)訓(xùn)練集在Rn上尋找一個(gè)最優(yōu)的決策函數(shù)g(x)=(w·Φ(x))+b,使得y^s=g(xs)為任意輸入數(shù)據(jù)xs對(duì)應(yīng)輸出ys的預(yù)測(cè)值,其中Φ(x)為從Rn歐氏空間到Hilbert特征空間的映射。此問(wèn)題可通過(guò)構(gòu)造一個(gè)二次凸規(guī)劃問(wèn)題來(lái)求解:

minw,b 12‖w‖2+C∑li=1(ξi+ξi),

(w·Φ(xi))+b-yi≤ε+ξi,i=1,…,l

s.t. yi-(w·Φ(xi))-b≤ε+ξi,i=1,…,l

ξ()i≥0,i=1,…,l

其中,C是懲罰函數(shù),ξ()=(ξ1,ξ1,…,ξl,ξl)T但是該問(wèn)題無(wú)法直接求解,因此根據(jù)二次凸規(guī)劃的性質(zhì),通過(guò)引入Lagrange函數(shù)來(lái)尋找上述原最優(yōu)問(wèn)題的對(duì)偶問(wèn)題:

L(w,b,ξ(*),η(*),α(*)) =12‖w‖2 + C∑li = 1(ξi + ξ*i)-∑li = 1(ηi ξi + η*i ξ*i )-∑li = 1αi (ε + ξi + yi -(w·Φ (xi ))-b)-∑li = 1α*i(ε + ξ*i-yi + (w·Φ (xi )) + b)

其中α()=(α1,α1,…,αl,αl)T,η()=(η1,η1,…,ηl,ηl)T為L(zhǎng)agrange乘子向量。

不難證明,原問(wèn)題的對(duì)偶問(wèn)題為:

minα()∈Rl 12∑li,j=1(αi-αi)(αj-αj)(Φ(xi)·Φ(xj))+ε∑li=1(αi+αi)-∑li=1yi(αi-αi)

s.t. ∑li=1(αi-αi)=0,0≤α()i≤C,i=1,…,l.

通過(guò)解這個(gè)最小化問(wèn)題得到的()=(1,1,…,l,l)T便是支持向量的系數(shù),然后我們便可以構(gòu)造出最優(yōu)決策回歸函數(shù):

y=g(x)=∑li=1(i-i)K(x,xi)+b

得到最優(yōu)決策回歸函數(shù),便可以進(jìn)行回歸預(yù)測(cè)了。

(二)核函數(shù)

從上述回歸問(wèn)題可以發(fā)現(xiàn),變換Φ的使用只有在計(jì)算內(nèi)積Φ(xi)·Φ(xj)時(shí)才會(huì)用到,在Hilbert維數(shù)很高時(shí)這種內(nèi)積運(yùn)算的時(shí)間復(fù)雜度非常高,因此有沒(méi)有什么方法能夠直接計(jì)算Φ(xi)·Φ(xj)呢,這便是核函數(shù):

K(x,x′)=Φ(x)·Φ(x′)

核函數(shù)的引入使得原本復(fù)雜的Hilbert高維特征空間的向量?jī)?nèi)積運(yùn)算能夠被迅速地計(jì)算出來(lái),這使得支持向量機(jī)得以擺脫高維運(yùn)算帶來(lái)的巨大運(yùn)算量,避免了“維數(shù)災(zāi)難”,隨著20世紀(jì)末21世紀(jì)初計(jì)算機(jī)高性能運(yùn)算能力的急劇提升,使得支持向量機(jī)迅速地從理論走向了實(shí)踐,得以在許多領(lǐng)域得到應(yīng)用,并取得了相當(dāng)好的效果。

核函數(shù)一般來(lái)說(shuō)有:

1.多項(xiàng)式核函數(shù):K(x,x′)=(x·x′+g)d,其中d為多項(xiàng)式的階數(shù)。

2.Gauss徑向基核函數(shù):K(x,x′)=exp(-‖x-x′‖2/σ2),其中參數(shù)σ為Gauss徑向基核函數(shù)的待定參數(shù),一般來(lái)說(shuō),當(dāng)無(wú)法確定核函數(shù)類型時(shí),選擇Gauss徑向基核函數(shù)作為SVR的核函數(shù)來(lái)進(jìn)行回歸,結(jié)果都不會(huì)太差。

另外還有指數(shù)徑向基核函數(shù)、神經(jīng)網(wǎng)絡(luò)多隱層感知核函數(shù)、 B 樣條插值核函數(shù)等,不同的核函數(shù)對(duì)于回歸結(jié)果有著顯著地影響,甚至直接影響到回歸結(jié)果的好壞和推廣泛化的能力。因此在回歸的過(guò)程中,一個(gè)最大的難點(diǎn)就是選擇合適的核函數(shù)。但遺憾的是,至今為止并沒(méi)有行之有效的核函數(shù)選擇方法,只能夠通過(guò)分別使用不同的核函數(shù)來(lái)進(jìn)行回歸,并選擇其中表現(xiàn)最好的核函數(shù)作為最終的核函數(shù)形式。

此外,在使用SVR進(jìn)行時(shí)間序列回歸時(shí),模型中有許多待定參數(shù),比如懲罰系數(shù)C、ε參數(shù)、多項(xiàng)式核函數(shù)參數(shù)中的階數(shù)d和Gauss徑向基核函數(shù)中的參數(shù)σ等,不同的參數(shù)值對(duì)于最后的回歸結(jié)果好壞有著顯著地影響,因此這也是運(yùn)用支持向量機(jī)中的另外一個(gè)難點(diǎn),即模型參數(shù)的尋優(yōu),目前常用的支持向量機(jī)參數(shù)尋優(yōu)算法主要有:遺傳算法(Genetic Algorithm,GA)、粒子群優(yōu)化算法(Particle Swarm Optimization,PSO)、模擬退火算法(Simulated Annealing,SA)和SMO優(yōu)化算法(Sequential Minimal Optimization,SMO)等。

六、基于最優(yōu)小波包變換、ARIMA與SVR的股票價(jià)格預(yù)測(cè)步驟

以下以4層小波包分解系數(shù)為例,描述組合預(yù)測(cè)的步驟:

1.首先對(duì)原始股價(jià)序列進(jìn)行預(yù)處理,剔除其中的缺失值,并且考慮到股價(jià)的特性,對(duì)股價(jià)序列進(jìn)行對(duì)數(shù)變換。然后對(duì)股價(jià)序列進(jìn)行最優(yōu)小波包分解,選擇的小波包基標(biāo)準(zhǔn)是使信息熵代價(jià)函數(shù)達(dá)到最小,在4層小波包分解下能夠得到的系數(shù)編號(hào)按照二叉樹的結(jié)構(gòu)(如圖3)從左到右,從上到下順序編號(hào)。趨勢(shì)系數(shù)的編號(hào)是c15,而其他的細(xì)節(jié)系數(shù)由于股價(jià)序列的選擇不一樣可能產(chǎn)生的細(xì)節(jié)系數(shù)編號(hào)也不一樣。

2.對(duì)分解出的趨勢(shì)系數(shù)c15來(lái)說(shuō)其趨勢(shì)性明顯,且在經(jīng)過(guò)四層分解后,其序列剔除了高頻細(xì)節(jié)部分的干擾,趨勢(shì)性相較于未分解前的原股價(jià)時(shí)間序列更為明確,采用ARIMA(p,d,q)模型對(duì)c15進(jìn)行擬合預(yù)測(cè)。首先觀察自相關(guān)圖和偏自相關(guān)圖采取逐階實(shí)驗(yàn)的方法來(lái)選擇c15的差分階數(shù)。然后觀察自相關(guān)圖和偏自相關(guān)圖對(duì)差分后的趨勢(shì)系數(shù)進(jìn)行自回歸和移動(dòng)平均定階,然后進(jìn)行擬合預(yù)測(cè),對(duì)擬合的殘差序列進(jìn)行LBQ隨機(jī)白噪聲檢驗(yàn),若殘差序列通過(guò)LBQ檢驗(yàn),說(shuō)明原始序列的信息基本提取完畢。

3.對(duì)于分解出的高頻細(xì)節(jié)系數(shù)集{ck},k∈S,其中S為經(jīng)過(guò)最優(yōu)小波包變換得到的除了趨勢(shì)系數(shù)c15之外的細(xì)節(jié)系數(shù)集,首先使用 LBQ檢驗(yàn)對(duì){ck},k∈S進(jìn)行隨機(jī)性檢驗(yàn),未通過(guò)檢驗(yàn)的系數(shù)序列,不能拒絕系數(shù)序列為白噪聲序列的假設(shè),則直接放棄該系數(shù)序列。然后對(duì)剩下的系數(shù)序列進(jìn)行支持向量回歸,首先將系數(shù)序列映射到[0,1]區(qū)間上,然后將已知的系數(shù)序列作為訓(xùn)練集,使用參數(shù)尋優(yōu)算法,選擇最合適的參數(shù)得到最優(yōu)預(yù)測(cè)模型,對(duì)于給定的輸入屬性集,獲得預(yù)測(cè)的系數(shù)值。

4.最后通過(guò)ARIMA得到了趨勢(shì)系數(shù)預(yù)測(cè)序列和通過(guò)SVR得到了細(xì)節(jié)系數(shù)預(yù)測(cè)序列,然后將各部分預(yù)測(cè)序列通過(guò)最優(yōu)小波包重構(gòu)得到最終的股價(jià)預(yù)測(cè)序列。

七、股票價(jià)格預(yù)測(cè)實(shí)證分析

實(shí)證分析數(shù)據(jù)來(lái)自于深證A股桑德環(huán)境(000826)自2001年1月1日到2010年1月1日的日收盤價(jià)數(shù)據(jù),共2015個(gè)樣本觀測(cè)值。桑德環(huán)境公司是一家在深圳證券交易所公開上市的國(guó)內(nèi)環(huán)保龍頭企業(yè),其市值保持在較大的規(guī)模,同時(shí)成交量大,交易活躍,并且其各項(xiàng)盈利指標(biāo)每年均保持穩(wěn)定的快速增長(zhǎng)。其信息披露公開透明,同時(shí)股價(jià)對(duì)公開披露信息反映迅速,其股價(jià)變動(dòng)具有很強(qiáng)的規(guī)律性,因此很適合用來(lái)作為本文提出的股價(jià)預(yù)測(cè)模型實(shí)證分析的樣本。對(duì)樣本前2000個(gè)收盤價(jià)作為已知數(shù)據(jù)建立模型,并根據(jù)此模型預(yù)測(cè)未來(lái)15日的日收盤價(jià)。股票價(jià)格序列如圖4所示。

圖4 桑德環(huán)境2001至2010日收盤價(jià)

本文使用MATLAB的小波工具箱和計(jì)量工具箱進(jìn)行小波變換與ARIMA回歸,使用LIBSVM工具箱進(jìn)行SVR回歸預(yù)測(cè)。最后的預(yù)測(cè)結(jié)果使用MAPE進(jìn)行衡量,MAPE可表示為:

MAPE=1n∑ni=1Ai-PiAi

其中Ai為第i天的實(shí)際值,Pi為第i天的預(yù)測(cè)值,總預(yù)測(cè)集大小為n。

首先對(duì)股價(jià)序列求對(duì)數(shù)處理,然后使用db4小波對(duì)原始股價(jià)序列進(jìn)行4層小波包分解,代價(jià)函數(shù)使用信息熵函數(shù),得到了趨勢(shì)系數(shù)c15和細(xì)節(jié)系數(shù)集c2,c10,c16,c17,c18,c19,c20。

(一)趨勢(shì)系數(shù)的ARIMA回歸

首先對(duì)趨勢(shì)系數(shù)c15進(jìn)行ARIMA回歸,c15的自相關(guān)圖和偏自相關(guān)圖如圖5所示:

圖5 c15的自相關(guān)圖和偏自相關(guān)圖

左圖縱坐標(biāo)文本為ACF,橫坐標(biāo)文本為L(zhǎng)ag Number;右圖縱坐標(biāo)文本為 Partial ACF,橫坐標(biāo)文本為 Lag Number

可見(jiàn)該序列具有很強(qiáng)的趨勢(shì)性,因此嘗試一階差分,一階差分后自相關(guān)圖和偏自相關(guān)圖如圖6:

圖6 c15一階差分后的自相關(guān)圖和偏自相關(guān)圖

左圖縱坐標(biāo)文本為ACF,橫坐標(biāo)文本為L(zhǎng)ag Number;右圖縱坐標(biāo)文本為 Partial ACF,橫坐標(biāo)文本為 Lag Number

可見(jiàn)從一階差分自相關(guān)圖和偏自相關(guān)圖并不能得到明確的定階結(jié)果,實(shí)際上只有到三階差分才可以定階,三階差分后自相關(guān)圖和偏自相關(guān)圖如圖7所示:

圖7 c15三階差分后的自相關(guān)圖和偏自相關(guān)圖

左圖縱坐標(biāo)文本為ACF,橫坐標(biāo)文本為L(zhǎng)ag Number;右圖縱坐標(biāo)文本為 Partial ACF,橫坐標(biāo)文本為 Lag Number

從圖7中可以確定應(yīng)當(dāng)采用ARIMA(4,3,1)或者ARIMA(5,3,1),通過(guò)標(biāo)準(zhǔn)化BIC準(zhǔn)則應(yīng)當(dāng)選擇ARIMA(4,3,1)。使用ARIMA(4,3,1)對(duì)趨勢(shì)系數(shù)c15進(jìn)行擬合預(yù)測(cè),擬合結(jié)果如表1所示:

c15的ARIMA回歸預(yù)測(cè)值為4.5115,實(shí)際值為43974。

(二)細(xì)節(jié)系數(shù)的SVR回歸

接下來(lái)對(duì)細(xì)節(jié)系數(shù)集進(jìn)行預(yù)測(cè),首先進(jìn)行LBQ檢驗(yàn),對(duì)c17,c19,c20進(jìn)行檢驗(yàn)時(shí),不能拒絕是白噪聲序列的原假設(shè),因此去除掉c17,c19,c20。對(duì)剩下的c2,c10,c16,c18進(jìn)行三階滯后SVR一步回歸,將滯后三階的觀察值作為屬性集,將已觀察到的系數(shù)作為訓(xùn)練集。需要注意的是,在進(jìn)行SVR一步預(yù)測(cè)時(shí),往往需要得到最近的小波包系數(shù)序列,但這種情況下不能直接將待預(yù)測(cè)的序列部分也同時(shí)進(jìn)行小波包分解,這樣會(huì)使得已知的小波包系數(shù)帶有未來(lái)幾天對(duì)當(dāng)前來(lái)說(shuō)未知的信息,如果使用這樣的小波包系數(shù)序列進(jìn)行預(yù)測(cè),會(huì)使得預(yù)測(cè)結(jié)果和實(shí)際股價(jià)極為一致,但實(shí)際上,由于受到經(jīng)濟(jì)環(huán)境、社會(huì)政策、投資者心理和公司運(yùn)營(yíng)的不確定性,股票市場(chǎng)具有很強(qiáng)的不可預(yù)知性,任何量化方法都達(dá)不到非常高的準(zhǔn)確率,因此在任何一個(gè)預(yù)測(cè)時(shí)點(diǎn)上,只能根據(jù)已知的信息逐步進(jìn)行小波包分解,才能避免當(dāng)前的小波包系數(shù)帶有未來(lái)信息,從而得到真實(shí)的預(yù)測(cè)值。第一步對(duì)數(shù)據(jù)歸一化預(yù)處理,將系數(shù)序列映射到[0,1]區(qū)間。在進(jìn)行SVR回歸預(yù)測(cè)前需要選擇核函數(shù)的形式,從實(shí)證預(yù)測(cè)精度效果來(lái)說(shuō),多項(xiàng)式核函數(shù)比其他核函數(shù)更加適合進(jìn)行本文的回歸。多項(xiàng)式核函數(shù)的形式為:

K(x,y)=(x·y+g)d

對(duì)于SVR模型來(lái)說(shuō),決定模型精確度的重要一環(huán)是確定懲罰系數(shù)C和核函數(shù)Gamma系數(shù),在本文中使用PSO粒子群優(yōu)化算法進(jìn)行參數(shù)尋優(yōu),PSO粒子群優(yōu)化算法利用個(gè)體的信息共享使整體問(wèn)題求解空間從無(wú)序到有序的收斂過(guò)程,從而獲得最優(yōu)解。PSO粒子群優(yōu)化算法與GA遺傳算法相比較而言,求解過(guò)程更為簡(jiǎn)單,但同時(shí)還能保持較好的精度。另外在參數(shù)尋優(yōu)時(shí)同時(shí)使用5折Cross—Validation算法,進(jìn)一步提高參數(shù)尋優(yōu)效果。

在進(jìn)行SVR預(yù)測(cè)時(shí)發(fā)現(xiàn),直接使用系數(shù)序列進(jìn)行訓(xùn)練和預(yù)測(cè)會(huì)產(chǎn)生“放棄預(yù)測(cè)”的現(xiàn)象,以細(xì)節(jié)系數(shù)c18為例,如圖10所示。

產(chǎn)生這一現(xiàn)象的主要原因是序列波動(dòng)過(guò)于劇烈,變動(dòng)趨勢(shì)特征不明顯,使得對(duì)于SVR來(lái)說(shuō)做出預(yù)測(cè)的效果還不如放棄預(yù)測(cè)效果好??紤]到這種情況,對(duì)所有細(xì)節(jié)系數(shù)進(jìn)行5階滯后指數(shù)平滑法來(lái)提取特征。圖11是處理后的擬合預(yù)測(cè)效果。

從圖11可以發(fā)現(xiàn),在5階滯后指數(shù)平滑后,SVR能夠有效地?cái)M合和做出預(yù)測(cè),對(duì)其他細(xì)節(jié)系數(shù)采用相同的處理方法,最終可以得到c2,c10,c16,c18的SVR預(yù)測(cè)序列,如圖12、13、14、15所示。

(三)小波包重構(gòu)預(yù)測(cè)序列

通過(guò)SVR獲得各個(gè)細(xì)節(jié)系數(shù)預(yù)測(cè)序列后,將各預(yù)測(cè)系數(shù)序列重構(gòu)為股價(jià)預(yù)測(cè)序列?;旌夏P秃虯RIMA模型的未來(lái)15天的日收盤價(jià)預(yù)測(cè)結(jié)果對(duì)比圖16所示,其中星號(hào)線段為實(shí)際日收盤價(jià),三角號(hào)線段為本文提出的混合模型的預(yù)測(cè)日收盤價(jià),十字號(hào)線段為ARIMA模型的預(yù)測(cè)日收盤價(jià):

圖16 未來(lái)15天的日收盤價(jià)預(yù)測(cè)結(jié)果

從表3最終的預(yù)測(cè)結(jié)果來(lái)看,總體預(yù)測(cè)較好,并且總體MAPE達(dá)到了5.61%,并沒(méi)有產(chǎn)生一些方法容易產(chǎn)生的“平移現(xiàn)象”和“放棄預(yù)測(cè)現(xiàn)象”,而ARIMA模型的MAPE為4.31%,但是從圖16可以很明顯地看到ARIMA做出的預(yù)測(cè)有明顯的“平移現(xiàn)象”,雖然其MAPE誤差較低,但是預(yù)測(cè)效果很差。而如果從劃分時(shí)間段來(lái)看,本文提出的混合模型在前7天的預(yù)測(cè)效果較好,其MAPE達(dá)到了2.5%,而且從圖形上來(lái)看,其預(yù)測(cè)值也基本與實(shí)際值吻合,ARIMA在前7天則較差,其MAPE達(dá)到了5.42%,且預(yù)測(cè)效果較差,7天內(nèi)只預(yù)測(cè)對(duì)了兩天。觀察后8天,混合模型預(yù)測(cè)的效果則稍差一些,其MAPE為9.4%,但其走勢(shì)方向還是一致的,這樣的結(jié)果最主要的原因可能是對(duì)股價(jià)序列進(jìn)行小波包分解后,趨勢(shì)系數(shù)序列反映了股價(jià)變動(dòng)的大致方向,但是該序列的預(yù)測(cè)值在四層小波包分解時(shí)大致覆蓋了15天的價(jià)格序列,因此在比較臨近的幾天內(nèi)是比較準(zhǔn)確的,但是隨著預(yù)測(cè)天數(shù)越來(lái)越靠后,這樣的信息并不能有效反映相隔較遠(yuǎn)日期的趨勢(shì)變化從而產(chǎn)生局部失真,而高頻部分由于尺度較小,因此能夠迅速地反映出近期的價(jià)格波動(dòng),因此在后半段的波動(dòng)變化較為一致,而ARIMA仍然有明顯的“平移現(xiàn)象”,還是沒(méi)有做出有效預(yù)測(cè)。也就是說(shuō)本文所提出的方法在預(yù)測(cè)未來(lái)7天以內(nèi)的股價(jià)是較為可靠的,而在未來(lái)8到15天則可以較準(zhǔn)確判斷股價(jià)變動(dòng)方向。

八、結(jié)論

本文提出了一種基于最優(yōu)小波包變換、ARIMA和SVR的股票價(jià)格序列預(yù)測(cè)方法,這種方法首先對(duì)股票價(jià)格序列進(jìn)行小波包分解,并根據(jù)信息熵代價(jià)函數(shù)提取了最優(yōu)小波包基,然后對(duì)提取的趨勢(shì)系數(shù)使用ARIMA模型進(jìn)行回歸預(yù)測(cè),對(duì)提取的細(xì)節(jié)系數(shù)集使用SVR模型進(jìn)行回歸預(yù)測(cè),然后將各系數(shù)預(yù)測(cè)序列通過(guò)小波包重構(gòu)合成為最終的股票價(jià)格預(yù)測(cè)序列。通過(guò)實(shí)盤股票桑德環(huán)境的日收盤價(jià)對(duì)方法的有效性進(jìn)行了檢驗(yàn),實(shí)驗(yàn)結(jié)果表明該方法能夠有效地進(jìn)行中短期預(yù)測(cè),并且避免了“平移現(xiàn)象”和“放棄預(yù)測(cè)現(xiàn)象”。

參考文獻(xiàn):

[1]祁筠超. 基于ARIMA模型對(duì)恒生指數(shù)的實(shí)證分析[J]. 經(jīng)濟(jì)師, 2014(8):108-110.

[2]董博倫, 徐東鈺. 基于ARIMA模型的農(nóng)產(chǎn)品類股價(jià)預(yù)測(cè)與分析[J]. 現(xiàn)代商業(yè), 2015(3):186-188.

[3]張超. 基于誤差校正的ARMA-GARCH股票價(jià)格預(yù)測(cè)[J]. 南京航空航天大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版), 2014(3):43-48.

[4]陳園園, 劉俊, 傅強(qiáng). 基于EMD的神經(jīng)網(wǎng)絡(luò)股價(jià)預(yù)測(cè)方法[J]. 新疆大學(xué)學(xué)報(bào)(哲學(xué)人文社會(huì)科學(xué)版) , 2014(4):6-11.

[5]張浩, 張代遠(yuǎn). 基于三次樣條權(quán)函數(shù)神經(jīng)網(wǎng)絡(luò)的股價(jià)預(yù)測(cè)[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2014(6):27-31.

[6]Weimin Ma, Yingying Wang, Ningfang Dong. Study on Stock Price Prediction Based on BP Neural Network[A]. Proceedings of 2010 IEEE International Conference on Emergency Management and Management Sciences(ICEMMS2010)[C]. 2010.

[7]俞國(guó)紅, 楊德志, 叢佩麗.ARIMA和RBF神經(jīng)網(wǎng)絡(luò)相融合的股票價(jià)格預(yù)測(cè)研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2013(18):245-248.

[8]程昌品, 陳強(qiáng), 姜永生. 基于ARIMA-SVM組合模型的股票價(jià)格預(yù)測(cè)[J]. 計(jì)算機(jī)仿真, 2012(6):343-346.

[9]杜建衛(wèi), 王超峰. 小波分析方法在金融股票數(shù)據(jù)預(yù)測(cè)中的應(yīng)用[J]. 數(shù)學(xué)的實(shí)踐與認(rèn)識(shí), 2008(7):68-75.

[10]張坤, 郁湧, 李彤. 基于小波和神經(jīng)網(wǎng)絡(luò)相結(jié)合的股票價(jià)格模型[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2009(23):5496-5498.

[11]隋學(xué)深, 齊中英. 基于多尺度特征和支持向量機(jī)的股市趨勢(shì)預(yù)測(cè)[J]. 哈爾濱工業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版), 2008(4):77-81.

[12]常松, 何建敏. 基于小波包和神經(jīng)網(wǎng)絡(luò)的股票價(jià)格預(yù)測(cè)模型[J]. 中國(guó)管理科學(xué), 2001(5):8-15.

[13]孫延奎. 小波分析及其應(yīng)用[M]. 北京:機(jī)械工業(yè)出版社, 2005:245-257.

[14]Daubenchies I. Ten Lectures on Wavelet[M]. Pennsylvania: Capital City Press,1992:105-114.

[15]薛薇. SPSS統(tǒng)計(jì)分析方法及應(yīng)用[M]. 北京: 電子工業(yè)出版社, 2009: 41-159.

[16]鄧乃揚(yáng), 田英杰. 支持向量機(jī):理論、算法與拓展[M]. 北京:科學(xué)出版社,2009:63-111.

責(zé)任編輯:蕭敏娜

吳錦丹 蕭敏娜 常明明

猜你喜歡
波包股價(jià)差分
數(shù)列與差分
盤中股價(jià)升跌引起持股者情緒變化
基于小波包Tsallis熵和RVM的模擬電路故障診斷
我國(guó)金融機(jī)構(gòu)股價(jià)和主要財(cái)務(wù)指標(biāo)的相關(guān)性分析
股價(jià)創(chuàng)股災(zāi)以來(lái)新低的股票
基于小波包變換的電力系統(tǒng)諧波分析
小波包理論與圖像小波包分解
基于差分隱私的大數(shù)據(jù)隱私保護(hù)
相對(duì)差分單項(xiàng)測(cè)距△DOR
基于小波包的全信息解調(diào)方法及其應(yīng)用
阳城县| 翁源县| 乐都县| 民丰县| 金门县| 博客| 京山县| 锡林浩特市| 扎囊县| 饶阳县| 通许县| 奇台县| 逊克县| 许昌市| 贞丰县| 靖边县| 张家川| 兴隆县| 赤峰市| 闻喜县| 五常市| 拜泉县| 张家港市| 永康市| 历史| 镇沅| 乐业县| 浙江省| 会理县| 大丰市| 堆龙德庆县| 四川省| 虹口区| 凤冈县| 永和县| 江口县| 玉门市| 义乌市| 金华市| 化德县| 沙湾县|