魏 敏
(鄭州大學(xué) 商學(xué)院,鄭州 450001)
金融機(jī)構(gòu)的主要功能是融通資金和匯集資本,金融機(jī)構(gòu)存款余額指的是金融機(jī)構(gòu)一段時間內(nèi)的存款金額。隨著創(chuàng)新型存款產(chǎn)品的增多和大眾金融意識的增強(qiáng),儲蓄熱度持續(xù)升高,研究金融機(jī)構(gòu)存款余額發(fā)展趨勢,對制定宏觀經(jīng)濟(jì)戰(zhàn)略、財政貨幣政策,指導(dǎo)金融部門運(yùn)作與經(jīng)營,保持國民經(jīng)濟(jì)健康發(fā)展等具有重要的現(xiàn)實意義。
現(xiàn)有關(guān)存款余額預(yù)測的研究層出不窮,大多數(shù)的研究將其看作一種金融時間序列,研究方法則由線性模型向非線性模型、單一模型向組合模型預(yù)測過度。在眾多預(yù)測模型中,ARIMA模型得益于對序列線性擬合的有效性和短期預(yù)測的準(zhǔn)確性最為流行。李明明分別利用ARIMA模型、季節(jié)指數(shù)預(yù)測模型以及兩者的組合對居民儲蓄存款進(jìn)行預(yù)測,結(jié)果發(fā)現(xiàn)組合模型的擬合更為精確。除傳統(tǒng)計量模型外,更多的模型也廣泛應(yīng)用于存款余額的預(yù)測。馮宇利用權(quán)重分配法來確定灰色模型、三次指數(shù)平滑模型和BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測方法的權(quán)重,建立了三者的組合預(yù)測對吉林省金融機(jī)構(gòu)存款余額進(jìn)行了預(yù)測,得到了較為準(zhǔn)確的結(jié)果。由于現(xiàn)實中的金融時間序列存在不平穩(wěn)、非線性的特點,傳統(tǒng)的計量模型和淺層神經(jīng)網(wǎng)絡(luò)模型無法得到更為準(zhǔn)確的預(yù)測結(jié)果。但是深度學(xué)習(xí)模型中的長短時記憶神經(jīng)網(wǎng)絡(luò)(Long Short Term Memory,LSTM)通過非線性映射技術(shù),可以有效地解決此類問題。Hochreiter提出了LSTM神經(jīng)網(wǎng)絡(luò)后,其便廣泛應(yīng)用于金融時間序列的預(yù)測,如股票指數(shù)、人民幣匯率、稅收等,均取得了較為理想的結(jié)果。
金融數(shù)據(jù)本身蘊(yùn)含著豐富的信息,但是,單一模型無法全面地捕捉到序列背后的信息。為了更好地利用傳統(tǒng)計量模型與深度學(xué)習(xí)模型方法的優(yōu)點,研究利用組合模型對河南省金融機(jī)構(gòu)存款余額進(jìn)行預(yù)測。首先介紹了ARIMA模型和LSTM模型的結(jié)構(gòu)原理,在實證了ARIMA對存款余額線性部分?jǐn)M合和LSTM模型預(yù)測存款余額非線性部分?jǐn)M合的基礎(chǔ)上,通過構(gòu)建組合模型,顯示了ARIMA-LSTM在預(yù)測存貸款余額上的優(yōu)勢。
在金融時間序列預(yù)測中,模型根據(jù)原序列是否平穩(wěn)以及回歸中所含部分的不同,分為移動平均過程(MA)、自回歸過程(AR)、自回歸移動平均過程(ARMA)以及差分自回歸移動平均模型(ARIMA)過程。ARIMA模型的基本結(jié)構(gòu)為不包括季節(jié)性因素的ARIMA(p,d,q)模型和包括季節(jié)性因素的ARIMA(p,d,q)(P,D,Q)模型。
在ARIMA(p,d,q)(P,D,Q)模型中,p、d、q分別表示自回歸階數(shù)、差分次數(shù)和移動平均階數(shù),P表示季節(jié)性自回歸階次,Q表示季節(jié)性移動平均階次,D表示季節(jié)性差分階數(shù),表達(dá)式如(1)所示。
LSTM通過輸入門(inputgate)、遺忘門(forgetgate)和輸出門(output gate)對輸入的數(shù)據(jù)進(jìn)行計算輸出。具體來說,輸入門和遺忘門分別控制新輸入值和當(dāng)前單元狀態(tài)對新單元狀態(tài)的影響程度,表達(dá)式如(2)和(3)。其中,X是神經(jīng)元的輸入,h是神經(jīng)元的輸出,i是神經(jīng)元輸入門的輸出,f是神經(jīng)元遺忘門的輸出,b、b、b、b為權(quán)值矩陣,公式中的⊙表示哈達(dá)瑪(Hadamard)乘積,rec是修正線性單元(Rectified Linear Unit,ReLU)激活函數(shù)。表達(dá)式(4)中c~是更新的狀態(tài),通過計算可以更新當(dāng)前時刻接收到的數(shù)據(jù)。
細(xì)胞狀態(tài)負(fù)責(zé)跟蹤過去時刻的相關(guān)信息,公式(5)同時反映了有選擇地記住當(dāng)前時刻的信息和有選擇地保留過去時刻的信息的過程。
O是神經(jīng)元輸出門的輸出,輸出門如表達(dá)式(6)所示。輸出層將真實值與預(yù)測值進(jìn)行比較得到誤差函數(shù),根據(jù)誤差函數(shù)修正后便可以得出最終的輸出部分。
通過以上步驟,LSTM便能夠通過調(diào)整各個控制門的權(quán)重對其相應(yīng)的輸入數(shù)據(jù)進(jìn)行訓(xùn)練而得到,進(jìn)而對時間序列進(jìn)行預(yù)測。
本研究將河南省2010年至2020年金融機(jī)構(gòu)本外幣存貸款余額共計132個月度數(shù)據(jù)作為研究對象,將2021年1-5月數(shù)據(jù)作為預(yù)測對象,編制河南省金融機(jī)構(gòu)存款余額時間序列(如圖2所示)。
圖1 組合預(yù)測模型框架圖
圖2 2010年至2020年河南省金融機(jī)構(gòu)本外幣存貸款余額 單位:億元
建立ARIMA模型首先需要確定序列是否平穩(wěn),根據(jù)存款余額時間序列圖可初步看出,序列具有明顯的增長趨勢,并非平穩(wěn)序列。利用R軟件對存款余額原始序列進(jìn)行ADF檢驗(檢驗結(jié)果如表1所示),同樣顯示出存款余額時間序列不平穩(wěn)。
表1 原始序列ADF檢驗表
對原始序列進(jìn)行一階差分來消除非平穩(wěn)性。一階差分后的相關(guān)內(nèi)涵如圖3上部分所示,從自相關(guān)函數(shù)圖中可以看出,延遲12階的自相關(guān)系數(shù)明顯超出兩倍標(biāo)準(zhǔn)差范圍。這說明,進(jìn)行差分后的序列雖然消除了趨勢項,但仍存在著季節(jié)效應(yīng)。通過12步差分運(yùn)算消除季節(jié)性。存款余額季節(jié)差分圖3下部分所示,k=12時,自相關(guān)系數(shù)落入置信區(qū)間,說明季節(jié)性基本消除。
圖3 存款余額時間序列差分圖
同時,序列也通過了單位根檢驗(Dickey-Fuller=-4.8726,p-value=0.01),序列平穩(wěn)后,進(jìn)入模型識別階段。經(jīng)過研究的檢驗和R軟件auto.arima函數(shù)的識別,確定ARIMA(0,1,0)(0,1,1)12模型。然后,利用Box.test函數(shù)檢驗擬合的時序模型的殘差是否存在自相關(guān)性。結(jié)果如表2所示,p值大于0.05,說明殘差序列不存在相關(guān)性,選定的模型能夠很好地捕獲原序列中的相關(guān)關(guān)系。最后,輸出模型預(yù)測值和殘差,以便LSTM模型的計算。
表2 殘差白噪聲檢驗
研究的實驗環(huán)境基于Python3.6平臺,采用Keras深度學(xué)習(xí)框架搭建LSTM網(wǎng)絡(luò)。為找出模型返回最高精度的最優(yōu)參數(shù)配置,設(shè)置全部數(shù)據(jù)的80%為訓(xùn)練集,20%為測試集。此外,為減少數(shù)據(jù)不同量綱帶來的影響,通過對sklearn包中MinMaxScaler函數(shù)的調(diào)用,在數(shù)據(jù)處理前將數(shù)據(jù)進(jìn)行歸一化處理。預(yù)測完畢再對預(yù)測值進(jìn)行反歸一化,便可得到真實預(yù)測值。為了驗證模型的泛化能力,采用均方根誤差(RMSE)、平均絕對誤差(MAE)指標(biāo)評估預(yù)測模型的性能。
劃分?jǐn)?shù)據(jù)集后設(shè)置模型超參數(shù),LSTM神經(jīng)網(wǎng)絡(luò)的優(yōu)勢在于可以靈活調(diào)節(jié)模型參數(shù)。超參數(shù)中的層中神經(jīng)元數(shù)和層數(shù)尤為重要。按照以往的研究,將神經(jīng)元個數(shù)設(shè)置為10、20和50。設(shè)置訓(xùn)練批次為64,迭代次數(shù)為32,并使用過去5組數(shù)據(jù)作為特征,后一組數(shù)據(jù)作為標(biāo)簽對存款余額殘差序列進(jìn)行訓(xùn)練。通過表3可知,當(dāng)單元數(shù)都為50時,模型的效果最好。當(dāng)繼續(xù)增加單元數(shù)時,模型的損失值變大,效果并不如50的單元數(shù),所以將50設(shè)置為最適宜的單元數(shù)。
表3 不同單元數(shù)對比分析
模型的層數(shù)反應(yīng)網(wǎng)絡(luò)的深度,研究在進(jìn)行模型最佳層數(shù)分析時,在每一層LSTM層后加上Dropout層,以便神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中舍棄某部分不需要的神經(jīng)元,提高訓(xùn)練速度減少過擬合。將每層的單元數(shù)均設(shè)置為50對層數(shù)進(jìn)行測試。不同層數(shù)實證結(jié)果如表4,通過對比兩個評價指標(biāo)發(fā)現(xiàn),兩層的模型效果最佳。原因可能在于一層的模型無法抓取數(shù)據(jù)背后的信息,三層的模型過于復(fù)雜導(dǎo)致冗余現(xiàn)象。模型訓(xùn)練完畢后,輸出預(yù)測的殘差值。
表4 不同層數(shù)對比分析
經(jīng)過實證研究,選定ARIMA(0,1,0)(0,1,1)模型的預(yù)測值作為最終預(yù)測的存款余額線性部分,選定兩層各50單元數(shù)的LSTM模型的預(yù)測值作為最終預(yù)測的存款余額的非線性部分。則ARIMA模型和ARIMA-LSTM模型擬合值如下所示,其中ARIMA模型擬合值的相對誤差的平均值為0.0039,而ARIMA-LSTM組合模型擬合值的相對誤差0.0027。組合模型的誤差降低了28.21%,說明相對于單一的ARIMA模型,組合模型對預(yù)測精度的提升具有一定的幫助。
表6 ARIMA模型預(yù)測值
表6 ARIMA-LSTM組合模型預(yù)測值
金融是現(xiàn)代經(jīng)濟(jì)的核心,是實體經(jīng)濟(jì)的血脈。金融機(jī)構(gòu)存款余額的穩(wěn)定增長顯示出金融機(jī)構(gòu)聚集資金的能力增強(qiáng)。依據(jù)金融時間序列分析的原理和方法判斷數(shù)據(jù)的趨勢變化研究具有一定的現(xiàn)實意義。就金融機(jī)構(gòu)存款余額的預(yù)測來說,ARIMA和LSTM組合模型能夠綜合兩者在線性和非線性方面的優(yōu)勢,充分利用自身強(qiáng)大的數(shù)據(jù)特征提取能力和學(xué)習(xí)能力,避免單一模型的不足。
總之,本研究主要分析了ARIMA-LSTM組合模型在金融機(jī)構(gòu)存貸款預(yù)測中的應(yīng)用。首先,介紹了模型的原理;其次,結(jié)合ARIMA的線性預(yù)測優(yōu)勢和LSTM對非線性數(shù)據(jù)的挖掘能力,得出了季節(jié)ARIMA模型對存款余額線性趨勢,LSTM模型對存款余額非線性趨勢有較好的預(yù)測效果。最后,建立了用于預(yù)測存款余額的組合模型。從實證結(jié)果來看,ARIMA-LSTM預(yù)測的預(yù)測誤差均小于單一模型,說明組合模型在存款余額預(yù)測中有著良好的適用性。