国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度稀疏修正神經(jīng)網(wǎng)絡(luò)在股票預(yù)測中的應(yīng)用

2018-09-22 05:39鄧烜堃馬彥勤
關(guān)鍵詞:權(quán)值神經(jīng)元神經(jīng)網(wǎng)絡(luò)

鄧烜堃,萬 良,馬彥勤

(1.貴州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽 550025; 2.貴州大學(xué) 計算機(jī)軟件與理論研究所,貴州 貴陽 550025)

0 引 言

隨著經(jīng)濟(jì)的發(fā)展,中國股市機(jī)制日趨完善和健全,吸引了越來越多的投資者投身到股票交易市場當(dāng)中。股票價格的預(yù)測一直是投資者關(guān)注的重要問題,從股票產(chǎn)生之初,人們就開始研究股票的價格走勢,希望從股票價格的歷史走勢中分析出特定的規(guī)律,從而指導(dǎo)投資者進(jìn)行買賣操作。

股票價格預(yù)測的準(zhǔn)確與否直接影響到投資者的盈利或者虧損,專家和學(xué)者針對股票預(yù)測問題提出了不同的方案和解決思路。文獻(xiàn)[1]提出了一種基于ARMA-GARCH的股票預(yù)測模型,對傳統(tǒng)的時間序列模型ARMA進(jìn)行了改進(jìn),優(yōu)化了預(yù)測效果。文獻(xiàn)[2]提出了一種基于FOA算法優(yōu)化的SVR模型,相比傳統(tǒng)模型,該模型進(jìn)一步減小了誤差。文獻(xiàn)[3]提出一種將自適應(yīng)遺傳算法和粗糙集相結(jié)合的預(yù)測模型,通過實驗證明了該模型具有較好的精度。

股票預(yù)測是一項極具挑戰(zhàn)性的任務(wù)。由于股票系統(tǒng)是非線性的復(fù)雜動態(tài)系統(tǒng),其價格走勢具有很強(qiáng)的波動性,并且影響價格的因素眾多,線性模型并不能很好地解決股票預(yù)測問題。人工神經(jīng)網(wǎng)絡(luò)(ANN)具有良好的非線性特點,適用于研究股票預(yù)測問題。

人工神經(jīng)網(wǎng)絡(luò)的研究起源于感知器(perceptron)[4],感知器通過模擬神經(jīng)細(xì)胞的工作原理使計算機(jī)有了學(xué)習(xí)—推理的能力。但是,單層感知器甚至無法解決異或問題,促使了BP(error back propagation)學(xué)習(xí)算法[5]的產(chǎn)生。使用BP學(xué)習(xí)算法可以訓(xùn)練多層感知器,解決更加復(fù)雜的問題,如手寫體識別[6]。但是,BP學(xué)習(xí)算法依舊無法訓(xùn)練深層神經(jīng)網(wǎng)絡(luò),直到深度信念網(wǎng)絡(luò)(deep belief nets)[7]的出現(xiàn)才破解了這一難題。使用受限布爾茲曼機(jī)(restricted Boltzmann machines)對神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練[8],使神經(jīng)網(wǎng)絡(luò)可以向更深的層次進(jìn)展。

隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)的改變不僅在于層數(shù)的增加,解決問題的能力也大大提高,并在圖像識別[9]、語音識別[10]、文本處理[11]等領(lǐng)域的應(yīng)用日益增多。因此,文中使用深度神經(jīng)網(wǎng)絡(luò)建立股票模型,并對其性能進(jìn)行實驗驗證。

1 BP神經(jīng)網(wǎng)絡(luò)

1.1 BP神經(jīng)網(wǎng)絡(luò)模型

BP神經(jīng)網(wǎng)絡(luò)是應(yīng)用較廣泛的多層感知器模型,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)通常包含三個部分:輸入層、隱藏層和輸出層。BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程由兩部分組成:信號向前傳播和誤差反向傳播。誤差反向傳播的學(xué)習(xí)過程使得BP神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的非線性映射能力、泛化能力和容錯能力。

1.2 BP學(xué)習(xí)算法

BP學(xué)習(xí)算法是一種基于Delta學(xué)習(xí)規(guī)則的算法,其原理是利用梯度下降的方法,將每次訓(xùn)練產(chǎn)生的誤差向前傳導(dǎo),依次更新每層的權(quán)值和偏置值,反復(fù)迭代,最終達(dá)到收斂條件后迭代結(jié)束。

定義X為輸入向量,Y為隱藏層輸出向量,輸出層輸出向量為O,D為期望輸出向量,f(x)為激活函數(shù),η為學(xué)習(xí)率。

首先,定義系統(tǒng)的損失函數(shù),見式1:

(1)

其中,k表示第k個神經(jīng)元。

對于隱藏層和輸出層,使用梯度下降法調(diào)整權(quán)值,其中權(quán)值改變量Δw的第一個下標(biāo)為前一層的第j個神經(jīng)元,第二個下標(biāo)為后一層的第k個神經(jīng)元,m為前一層神經(jīng)元的數(shù)目,對于輸出層,權(quán)值的變化量為:

Δwjk=η(dk-ok)f'(netk)yj

(2)

(3)

對于隱藏層,權(quán)值的變化量為:

(4)

(5)

從式4可以看出,隱藏層權(quán)值調(diào)整的過程中引入了輸出層的權(quán)值,輸出層誤差的調(diào)整會傳導(dǎo)到隱藏層,這就是BP算法的核心思想。

傳統(tǒng)的BP學(xué)習(xí)算法在更新權(quán)值時只考慮第t輪迭代的更新,并沒有考慮第t輪以前權(quán)值的改變,這使得神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中可能會發(fā)生振蕩[12]。文中使用改進(jìn)BP學(xué)習(xí)算法,在權(quán)值更新的過程中引入了動量項。添加了動量項后提高了模型的訓(xùn)練速度,且在梯度下降的過程中防止陷入局部極小值,提高了模型的準(zhǔn)確度。

增加了動量項的權(quán)值調(diào)整公式如下所示:

ΔW(t)=ηδX+aΔW(t-1)

(6)

其中,W為權(quán)值矩陣;a為動量系數(shù),a的取值一般在(0,1)之間。

1.3 激活函數(shù)

激活函數(shù)(activation function)又稱轉(zhuǎn)移函數(shù),是神經(jīng)網(wǎng)絡(luò)重要的組成要素。激活函數(shù)通常具有以下幾方面的性質(zhì):非線性、連續(xù)性、單調(diào)性。神經(jīng)網(wǎng)絡(luò)模型本身不具備求解非線性問題的能力,之所以能處理非線性問題,很大程度上歸功于激活函數(shù)。由于激活函數(shù)的上述特性,神經(jīng)元可以將輸入映射為非線性的輸出。隨著神經(jīng)元個數(shù)的增加和網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜化,提升了神經(jīng)網(wǎng)絡(luò)模型的非線性表達(dá)能力。

2 深度稀疏修正神經(jīng)網(wǎng)絡(luò)

文中設(shè)計了一種深度稀疏修正神經(jīng)網(wǎng)絡(luò)模型(deep sparse rectifier neural networks,DSRNN),該模型基于BP學(xué)習(xí)算法,并采用了深度學(xué)習(xí)中的技術(shù)。與傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)相比主要有以下不同:

(1)使用新型激活函數(shù)ReLU(rectified linear units)。傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)通常使用logistic、tanh等非線性激活函數(shù)。文中使用的ReLU是一種分段線性激活函數(shù)。

(2)設(shè)計了深層的網(wǎng)絡(luò)結(jié)構(gòu)。傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)由于其算法的局限,通常只有一個隱藏層,而DSRNN有多個隱藏層,是一種深度神經(jīng)網(wǎng)絡(luò)。

(3)使用了新的權(quán)值初始化方法。傳統(tǒng)的權(quán)值初始化方法不利于誤差的反向傳播,針對梯度消失問題,文中提出了一種新的權(quán)值初始化方法。

2.1 稀疏性與修正線性函數(shù)

神經(jīng)科學(xué)家通過研究生物大腦發(fā)現(xiàn),大腦同一時間被激活的神經(jīng)元數(shù)目約在1%~4%[13],這種特性被稱作稀疏性。Bengio[14]針對稀疏性的優(yōu)勢進(jìn)行了探討,在面臨特征種類多且特征之間關(guān)系復(fù)雜的數(shù)據(jù)時,特征之間可能會相互耦合,輸入數(shù)據(jù)的微小改變都可能會產(chǎn)生不同的輸出結(jié)果。但是,利用神經(jīng)元的稀疏性可以解決這個問題,通過將部分不重要的神經(jīng)元置為關(guān)閉狀態(tài),僅保持部分的神經(jīng)元激活,神經(jīng)網(wǎng)絡(luò)可以從眾多特征中解析出少量關(guān)鍵特征,簡化數(shù)據(jù)之間復(fù)雜的耦合關(guān)系,從而過濾噪音,增強(qiáng)模型的魯棒性。

獲得稀疏性的關(guān)鍵在于只激活部分的神經(jīng)元,其余的神經(jīng)元置為關(guān)閉。為了達(dá)到這個目的,文中使用了ReLU作為激活函數(shù)。ReLU由Glorot等[15]提出,隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,廣泛應(yīng)用于圖像識別領(lǐng)域,并在卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)中有不錯的效果[16]。

ReLU的出現(xiàn)顛覆了對傳統(tǒng)激活函數(shù)的認(rèn)識,傳統(tǒng)的激活函數(shù)在設(shè)計上通常滿足連續(xù)性、對稱性、可微性,如S型函數(shù)(sigmoid function)logistic和tanh,其定義為式7和式8。

(7)

(8)

相比較早期的階躍型激活函數(shù),S型函數(shù)可以將數(shù)值壓縮到一個很小的區(qū)間內(nèi),其可微性也可以使S型函數(shù)直接應(yīng)用于BP神經(jīng)網(wǎng)絡(luò),提高了神經(jīng)網(wǎng)絡(luò)求解復(fù)雜問題的能力。

隨后,Charles Dugas等[17]提出了softplus激活函數(shù),定義為式9:

f(x)=lg(1+ex)

(9)

softplus繼承了傳統(tǒng)激活函數(shù)的對稱性和可微性,但是放棄了對稱性,使得softplus出現(xiàn)了一端激活的狀態(tài),因此具有一定的生物特性。同時,softplus還是一種不飽和非線性函數(shù),因此不會出現(xiàn)S型函數(shù)中的梯度飽和現(xiàn)象。

ReLU既不對稱,在0處也不可微,其本質(zhì)上是一種閾值函數(shù)(threshold function),定義為式10。

f(x)=max(0,x)

(10)

以0為閾值,大于0的原值輸出,小于0的使用0作為輸出,使得神經(jīng)元可以很容易地獲得稀疏性。相比S型函數(shù),ReLU的線性部分也有利于梯度傳導(dǎo),因此更加適用于深度神經(jīng)網(wǎng)絡(luò)。

2.2 模型設(shè)計

股票數(shù)據(jù)維度復(fù)雜,波動性強(qiáng),淺層的神經(jīng)網(wǎng)絡(luò)難以把握數(shù)據(jù)中蘊(yùn)藏的規(guī)律,因此文中使用深層神經(jīng)網(wǎng)絡(luò)設(shè)計股票預(yù)測模型。DSRNN一共有7層,包含1個輸入層、5個隱藏層、1個輸出層。輸入層的神經(jīng)元個數(shù)與輸入數(shù)據(jù)的維度相對應(yīng)。通常隱藏層的層數(shù)越多,模型的擬合能力就越強(qiáng),但是,層數(shù)的增加也意味著模型越難以訓(xùn)練。綜合數(shù)據(jù)集的規(guī)模以及反復(fù)試驗后的最優(yōu)結(jié)果,將DSRNN設(shè)置為5個隱藏層。隱藏層神經(jīng)元的數(shù)量可以不固定,但是經(jīng)過實驗驗證,每一層的神經(jīng)元數(shù)量最好大于輸入層神經(jīng)元數(shù),這樣可以使輸入層的每一個特征與其他特征組合更加充分,學(xué)習(xí)到數(shù)據(jù)中更多的細(xì)節(jié)。輸出層有1個神經(jīng)元,用于輸出計算結(jié)果。模型所有層之間使用全連接的方式,拓?fù)浣Y(jié)構(gòu)如圖1所示。

圖1 DSRNN拓?fù)浣Y(jié)構(gòu)

DSRNN基于BP算法,因此DSRNN的計算過程也包含向前傳播和向后傳播兩個部分。在向前傳播過程中,隱藏層的輸出y如式11:

(11)

其中,bji為神經(jīng)元j和i之間的偏置值。

在反向傳播的過程中,使用梯度下降算法,逐層計算誤差并更新權(quán)值,權(quán)值調(diào)整公式為:

(12)

其中,w的第三個下標(biāo)l表示第l層。

將式12逐層展開,可以得到每一層的權(quán)值調(diào)整公式。輸出層到第六層的權(quán)值調(diào)整為:

wjk6=wjk6-η(dk-ok)yj5

(13)

第六層到第五層的權(quán)值調(diào)整為:

wji5=wji5-η(dk-ok)wji6yj4

(14)

第五層到第四層的權(quán)值調(diào)整為:

wji4=wji4-η(dk-ok)wji6wji5yj3

(15)

第四層到第三層的權(quán)值調(diào)整為:

wji3=wji3-η(dk-ok)wji6wji5wji4yj2

(16)

第三層到第二層的權(quán)值調(diào)整為:

wji2=wji2-η(dk-ok)wji6wji5wji4wji3yj1

(17)

第二層到輸入層的權(quán)值調(diào)整為:

wji1=wji1-η(dk-ok)wji6wji5wji4wji3wji1xi

(18)

在權(quán)值調(diào)整過程中,若隱藏層中輸出的y≤0,根據(jù)ReLU的性質(zhì),權(quán)值不會發(fā)生調(diào)整。

2.3 權(quán)值初始化方法

權(quán)值初始化的合適與否對深度網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)模型十分重要。深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,使用BP算法反向傳播誤差時,誤差會隨著傳播層數(shù)的增加而逐漸減小。通過分析式12~18可以發(fā)現(xiàn),由于w是一個小于0的數(shù),連續(xù)的相乘會使結(jié)果越來越接近0,導(dǎo)致靠前的神經(jīng)元權(quán)值改變量極小,誤差不容易收斂,這種現(xiàn)象叫做梯度消失(gradient vanish)[18]。但是,合適的初始化方法可以加快誤差的收斂速度,并且可以減小模型陷入局部極小值的概率。

傳統(tǒng)的權(quán)值初始化方法如式19和式20。式19是一種常用的初始化方法,權(quán)值的取值服從-0.5到0.5的均勻分布;式19稱為標(biāo)準(zhǔn)權(quán)值初始化方法(standard weight initialization),權(quán)值初始化的范圍根據(jù)當(dāng)前層的結(jié)構(gòu)而定,其中n為當(dāng)前層節(jié)點的數(shù)量,取值服從均勻分布。

w~U[-0.5,0.5]

(19)

(20)

針對DSRNN權(quán)值的初始化,文中提出了一種新的權(quán)值初始化方法。為了使信息有效地在神經(jīng)網(wǎng)絡(luò)中傳播,每一層輸出的方差應(yīng)盡可能相等。首先,任意一層輸出的方差可以表示如下:

Var(wixi)=E[wi]2Var(xi)+E[xi]2Var(wi)+Var(wi)Var(xi)

(21)

由于w和x的期望均為0,式21可進(jìn)一步化簡為:

Var(wixi)=Var(wi)Var(xi)

(22)

w和x獨立同分布,其中n為第i層節(jié)點的數(shù)量,則有:

Var(y)=niVar(wi)Var(xi)

(23)

假設(shè)每一層輸出的方差均相等,對于單獨一層來說,等價于輸入和輸出的方差相等,式23可以表示為:

(24)

在多層神經(jīng)網(wǎng)絡(luò)中,為了保證每一層輸出的方差都相等,應(yīng)滿足:

?i,niVar[wi]=ni+1Var[wi]

(25)

聯(lián)立式24和式25,可得到w的方差為:

(26)

根據(jù)均勻分布的性質(zhì),已知其方差,可以求得其分布區(qū)間,w的分布區(qū)間為:

(27)

式27即為文中提出的權(quán)值初始化方法,該方法初始化時考慮了第i層和第i+1層神經(jīng)元個數(shù)。經(jīng)實驗驗證,該方法在多層神經(jīng)網(wǎng)絡(luò)中有利于誤差反向傳播。

2.4 模型輸入輸出

模型的輸入為股票交易中的歷史數(shù)據(jù)。但是,原始數(shù)據(jù)維度高,且存在多重共線性以及噪聲等問題,不利于模型訓(xùn)練。因此,需要對數(shù)據(jù)進(jìn)行預(yù)處理,使處理后的數(shù)據(jù)方便神經(jīng)網(wǎng)絡(luò)計算。文中數(shù)據(jù)預(yù)處理包含歸一化和特征降維兩個部分。

1.歸一化。

首先,先將輸入的數(shù)據(jù)樣本進(jìn)行歸一化處理。由于原始數(shù)據(jù)量綱不同,這會導(dǎo)致數(shù)量級較大的數(shù)據(jù)對最終的結(jié)果產(chǎn)生較大的影響,而數(shù)量級較小數(shù)據(jù)對結(jié)果幾乎沒有產(chǎn)生影響。這對最終的實驗結(jié)果造成了極大的干擾,因此需要將數(shù)據(jù)的數(shù)量級進(jìn)行統(tǒng)一。文中使用線性函數(shù)歸一化(min-max scaling)方法:

(28)

通過歸一化操作,將數(shù)據(jù)壓縮到(0,1)之間,并防止使用logistic和tanh激活函數(shù)的神經(jīng)元出現(xiàn)梯度飽和的現(xiàn)象[19]。

2.特征降維。

數(shù)據(jù)歸一化后,使用PCA(principal component analysis)法進(jìn)行特征降維。特征降維的主要目的是從眾多特征中提取出主要特征,通過投影變換,組成新的低維特征空間[20]。特征降維對于神經(jīng)網(wǎng)絡(luò)有兩點好處:去除了數(shù)據(jù)中的噪音,防止過度擬合;簡化了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),減少了神經(jīng)元個數(shù),降低了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度。

特征降維的過程主要分為:

(1)對歸一化后的數(shù)據(jù)集M計算其協(xié)方差矩陣,得到一個n*n的矩陣X,其中M為n*m的矩陣,m為數(shù)據(jù)集M的特征維度。

(2)計算矩陣X的特征值和特征向量。

(3)使用步驟2求出的特征值計算方差貢獻(xiàn)度。為了減少信息的損失,將方差貢獻(xiàn)度的閾值設(shè)置在95%,即最終將累計方差貢獻(xiàn)度在95%以上且排在前k個的特征值選出,記錄其對應(yīng)的特征向量。

(4)使用步驟3選出的特征向量組成新的矩陣Y,矩陣M在Y上做投影運(yùn)算,得到一個n*k的新矩陣Z,Z即為降維后的數(shù)據(jù)。

模型輸出為股票的預(yù)測價格,但是輸出值在-1到1之間,不方便與真實值進(jìn)行比較,需要反歸一化處理,反歸一化方法如下:

x=x'(max-min)+min

(29)

其中,max、min為求解式28時計算出的最大和最小值。

3 實 驗

3.1 實驗數(shù)據(jù)

使用貴州茅臺(600519)2013年1月4日至2017年5月4日的交易數(shù)據(jù)作為數(shù)據(jù)集。該數(shù)據(jù)集包含28個維度的數(shù)據(jù),基本囊括了技術(shù)分析中的常用指標(biāo)。分別是開盤價,收盤價,最高價,成交量,最低價,換手率,MA5,MA10,MA20,VOLUME(VOLUME,MA5,MA10),MACD(DIF,DEA,MACD),RSI(RSI1,RSI2,RSI3),KDJ(K,D,J),PSY(PSY,PSYMA),VR(VR,MAVR),CCI,ROC(ROC,MAROC)。

數(shù)據(jù)集使用2.4節(jié)提到的方法進(jìn)行歸一化和降維處理,降維后得到只有6個維度的數(shù)據(jù)集。這6個維度的數(shù)據(jù)實際方差貢獻(xiàn)率為95.2%,包含了數(shù)據(jù)中絕大部分的特征。處理后的數(shù)據(jù)集劃分為兩部分:訓(xùn)練集和測試集。訓(xùn)練集包含831條數(shù)據(jù),測試集包含220條數(shù)據(jù),分別用于模型訓(xùn)練和模型測試。

3.2 實驗結(jié)果與分析

文中使用第一天的數(shù)據(jù)擬合第二天的股票價格,從準(zhǔn)確度和魯棒性兩個方面將DSRNN與傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)進(jìn)行了對比,并比較了DSRNN使用文中提出的初始化方法和傳統(tǒng)初始化方法后誤差收斂的差異。實驗的詳細(xì)結(jié)果如下:

1.模型準(zhǔn)確度。

為了比較模型的準(zhǔn)確性,使用了帶動量項的神經(jīng)網(wǎng)絡(luò)模型,同時也對比了不帶動量項的神經(jīng)網(wǎng)絡(luò)模型,動量系數(shù)為0.7。表1中的數(shù)據(jù)是使用相同權(quán)值初始化方式,不同的激活函數(shù)計算得出。其中訓(xùn)練誤差由測試集數(shù)據(jù)計算誤差平方和(SSE)得出,預(yù)測誤差由輸出值和目標(biāo)值計算平均絕對誤差(MAE)得到,數(shù)據(jù)是10次測量取平均值的結(jié)果。

表1 不同模型預(yù)測結(jié)果對比

分析表1數(shù)據(jù)可以看出,使用動量項優(yōu)化過的模型比沒經(jīng)過優(yōu)化的模型在訓(xùn)練精度和預(yù)測精度方面均有了顯著提高,說明使用動量項優(yōu)化可行且有效??傮w來看,DSRNN在兩種條件下比其他三種模型都具有更好的表現(xiàn)。由于DSRNN是一種深度神經(jīng)網(wǎng)絡(luò),在訓(xùn)練時可以學(xué)習(xí)到數(shù)據(jù)中更多的特征,從而可以更好地把握數(shù)據(jù)中隱含的規(guī)律,因此具有較高的精度。

2.模型健壯性。

DSRNN擁有較多的神經(jīng)元,但是,過多的神經(jīng)元通常也會導(dǎo)致過度擬合的問題。為了比較不同神經(jīng)網(wǎng)絡(luò)模型在不同隱層節(jié)點數(shù)目下抵抗過度擬合的能力,使用5~20個隱藏層神經(jīng)元分別進(jìn)行實驗。數(shù)據(jù)為10次測量取平均值所得,結(jié)果如表2所示。

表2 不同隱層節(jié)點數(shù)目預(yù)測結(jié)果對比

分析表2數(shù)據(jù)可知,隨著隱藏層節(jié)點數(shù)目的增加,基于tanh、softplus和logistic的模型均出現(xiàn)了不同程度的過度擬合。即數(shù)據(jù)在訓(xùn)練集上表現(xiàn)優(yōu)異,訓(xùn)練誤差逐漸減小,但是在測試集上誤差卻不斷增加。這是由于隱藏層神經(jīng)元過多導(dǎo)致的,過多的隱藏層神經(jīng)元會學(xué)習(xí)到數(shù)據(jù)中更多的細(xì)節(jié),但是過度地強(qiáng)調(diào)細(xì)節(jié)會使模型的泛化能力減弱,因此在測試集中表現(xiàn)較差。

與其他幾種模型不同,DSRNN并沒有表現(xiàn)出過度擬合的現(xiàn)象,隨著隱藏層神經(jīng)元的增加,訓(xùn)練誤差和預(yù)測誤差均保持在比較穩(wěn)定的狀態(tài)。由于DSRNN的稀疏性會自動地關(guān)閉其中不重要的神經(jīng)元,激活的神經(jīng)元始終保持在相對穩(wěn)定的數(shù)量,避免了過度擬合的發(fā)生。因此,DSRNN具有更好的魯棒性。

3.權(quán)值初始化方式。

DSRNN相比傳統(tǒng)的淺層神經(jīng)網(wǎng)絡(luò)更不容易訓(xùn)練,因此不好的權(quán)值初始化方式會影響DSRNN的性能。為了證明文中提出的初始化方式對DSRNN性能的提高,進(jìn)行了以下實驗。為表述簡便起見,將式19表示為A,式20表示為B,式27表示為C,分別對權(quán)值進(jìn)行初始化,記錄實驗誤差。對10次實驗結(jié)果取平均,如表3所示。

表3 不同初始化方式預(yù)測結(jié)果對比

由表3可知,模型收斂后,三種初始化方式最終的訓(xùn)練誤差和預(yù)測誤差相差無幾,具有相似的精度,因此需要比較三種方式在訓(xùn)練過程中的差異。文中采集了三種初始化方式在前600輪訓(xùn)練中的誤差變動數(shù)據(jù),并繪制成圖2。

圖2 訓(xùn)練過程中的誤差變動

可以看出,經(jīng)過600次訓(xùn)練,三種方案最終收斂到了相同精度。比較訓(xùn)練的過程可以發(fā)現(xiàn),A進(jìn)行了約300多輪訓(xùn)練收斂,B進(jìn)行了約400多輪訓(xùn)練收斂,C則進(jìn)行了200多輪訓(xùn)練就收斂,C的誤差收斂速度明顯快于A和B,說明文中提出的初始化方法要優(yōu)于其余兩種初始化方法,在DSRNN中有利于誤差的反向傳播,大大提升了模型的訓(xùn)練效率。

4 結(jié)束語

由于股票系統(tǒng)具有非線性的特點,傳統(tǒng)的預(yù)測方法往往精度不高,對此設(shè)計了一種深度神經(jīng)網(wǎng)絡(luò)DSRNN用于股票預(yù)測。針對深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中梯度消失的問題,DSRNN使用了ReLU激活函數(shù)并提出一種新的權(quán)值初始化方法。實驗結(jié)果表明,設(shè)計的股票預(yù)測模型DSRNN相比傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)模型,具有更好的準(zhǔn)確度和健壯性,抗過度擬合能力強(qiáng)。而權(quán)值初始化方法可以提高誤差在DSRNN中的傳播效率,使其有更快的訓(xùn)練速度。模型的平均相對誤差(ARE)在3.5%左右,而股票的漲跌幅限制在10%以內(nèi),因此對實際的投資具有一定的指導(dǎo)意義。

猜你喜歡
權(quán)值神經(jīng)元神經(jīng)網(wǎng)絡(luò)
一種融合時間權(quán)值和用戶行為序列的電影推薦模型
基于遞歸模糊神經(jīng)網(wǎng)絡(luò)的風(fēng)電平滑控制策略
基于5G MR實現(xiàn)Massive MIMO權(quán)值智能尋優(yōu)的技術(shù)方案研究
AI講座:神經(jīng)網(wǎng)絡(luò)的空間對應(yīng)
一種基于互連測試的綜合優(yōu)化算法?
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
基于神經(jīng)網(wǎng)絡(luò)的中小學(xué)生情感分析
仿生芯片可再現(xiàn)生物神經(jīng)元行為
計算機(jī)測量與控制(2018年3期)2018-03-27
這個神經(jīng)元負(fù)責(zé)改變我們的習(xí)慣