国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于基本面數(shù)據(jù)和注意力機(jī)制的股票趨勢(shì)預(yù)測(cè)

2021-07-03 03:51白迪
現(xiàn)代計(jì)算機(jī) 2021年12期
關(guān)鍵詞:基本面神經(jīng)網(wǎng)絡(luò)變量

白迪

(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)

0 引言

在金融市場(chǎng)中,資產(chǎn)的價(jià)格和回報(bào)的預(yù)測(cè)一直是金融從業(yè)者和學(xué)者們最具挑戰(zhàn)和激動(dòng)人心的問題之一[1-2]。研究估計(jì),機(jī)器學(xué)習(xí)應(yīng)用于銀行和金融部門的年潛在價(jià)值占全球收入的5.2%,約為3000 億美元[3]。與傳統(tǒng)的財(cái)務(wù)模型相比,機(jī)器學(xué)習(xí)提出利用以前未使用的新數(shù)據(jù)源進(jìn)行準(zhǔn)確預(yù)測(cè)的希望。近年來,有許多使用基本面數(shù)據(jù)進(jìn)行股票價(jià)格和回報(bào)預(yù)測(cè)的研究,并且取得了良好的效果,并且證明了機(jī)器學(xué)習(xí)在基本面數(shù)據(jù)對(duì)股票價(jià)格和回報(bào)預(yù)測(cè)的有效性[5]。

人類的注意力機(jī)制是從直覺中得到,他是利用有限的注意力資源從大量信息中快速篩選出高價(jià)值信息的手段。深度學(xué)習(xí)中的注意力機(jī)制借鑒了人類的注意力思維方式[6],并被廣泛應(yīng)用到計(jì)算機(jī)視覺和自然語言處理中。而在進(jìn)行基本面數(shù)據(jù)進(jìn)行資產(chǎn)價(jià)格和回報(bào)預(yù)測(cè)時(shí),由于基本面的數(shù)據(jù)量較大,每個(gè)基本面指標(biāo)對(duì)于預(yù)測(cè)結(jié)果的影響也是不同的,因此本文使用帶有注意力機(jī)制的機(jī)器學(xué)習(xí)進(jìn)行資產(chǎn)價(jià)格和回報(bào)的預(yù)測(cè)。

1 問題描述

本實(shí)驗(yàn)使用基本面數(shù)據(jù)預(yù)測(cè)資產(chǎn)下一季度的回報(bào)率,其輸入如公式(1)所示:

其中xt,i代表在時(shí)間t 時(shí)刻第i 個(gè)基本面指標(biāo),共有N 個(gè)指標(biāo)。模型預(yù)測(cè)的輸出為資產(chǎn)的回報(bào)率。計(jì)算公式如下所示:

其中closet代表資產(chǎn)在t 時(shí)刻的收盤價(jià),Predictedt代表了資產(chǎn)在t 時(shí)刻預(yù)測(cè)出的回報(bào)率。

2 數(shù)據(jù)準(zhǔn)備

2.1 數(shù)據(jù)獲取

本實(shí)驗(yàn)所采集的股票數(shù)據(jù)使用的是滬深300 指數(shù)成分股。選用滬深300 指數(shù)成分股作為實(shí)驗(yàn)數(shù)據(jù)主要有兩個(gè)原因。第一:滬深300 指數(shù)的金融基本面指標(biāo)在數(shù)據(jù)量方面相對(duì)完整和龐大。這是因?yàn)檫@些股票都是大盤股,而且它們中的大多數(shù)上市時(shí)間相對(duì)較早。第二,滬深300 成分股在不同行業(yè)間相對(duì)平衡,而且它覆蓋了銀行、鋼鐵、石油、電力、煤炭、水泥、家電、機(jī)械、紡織、食品、釀酒、化纖、有色金屬、交通運(yùn)輸、電子器件、商業(yè)百貨、生物制藥、酒店旅游、房地產(chǎn)等數(shù)十個(gè)主要行業(yè)的龍頭企業(yè)。但由于滬深300 成分股的組成經(jīng)常處于變化中,本實(shí)驗(yàn)采用2019 年12 月的成分股作為它的組成。本文滬深300 成分股的歷史數(shù)據(jù)來自于量化交易網(wǎng)站聚寬。

2.2 填充缺失數(shù)據(jù)

成分股中原始的基本面數(shù)據(jù)有相當(dāng)一部分?jǐn)?shù)據(jù)條目缺失。由于數(shù)據(jù)集中缺失數(shù)據(jù)的存在可能為數(shù)據(jù)處理制造問題,從而最終產(chǎn)生無效的結(jié)論。對(duì)于機(jī)器學(xué)習(xí)問題,特別是在大多數(shù)機(jī)器學(xué)習(xí)方法的設(shè)計(jì)中都要求有完整的數(shù)據(jù)用于訓(xùn)練和測(cè)試,因此在創(chuàng)建機(jī)器學(xué)習(xí)模型前必須對(duì)缺失數(shù)據(jù)進(jìn)行處理。

數(shù)據(jù)缺失值的產(chǎn)生有三種機(jī)制,第一,完全隨機(jī)缺失:某個(gè)變量是否缺失與它自身的值無關(guān),也與其他任何變量的值無關(guān)。第二,隨機(jī)缺失:在控制了其他變量已觀測(cè)到的值后,某個(gè)變量是否缺失與他自身的值無關(guān)。第三,非隨機(jī)缺失:即使控制了其他變量已觀測(cè)到的值,某個(gè)變量是否缺失仍然與它自身的值有關(guān)。

如文獻(xiàn)[7-8]中所述,通常處理缺失數(shù)據(jù)有以下幾種方法:

(1)整列刪除:整列刪除移除有一個(gè)或多個(gè)缺失值的記錄。對(duì)于完全隨機(jī)丟失的數(shù)據(jù),整列刪除只會(huì)導(dǎo)致統(tǒng)計(jì)能力的下降。如果數(shù)據(jù)不是隨機(jī)缺失的,這種方法可能產(chǎn)生有偏參數(shù)估計(jì)。

(2)成對(duì)刪除:整列狀態(tài)刪除通常用一個(gè)特殊碼代表無效值和缺失值,同時(shí)保留數(shù)據(jù)集中的全部變量和樣本。但是,在具體計(jì)算時(shí)只采用有完整答案的樣本,因而不同的分析因涉及的變量不同,其有效樣本量也會(huì)有所不同。這是一種保守的處理方法,最大限度地保留了數(shù)據(jù)集中的可用信息。

(3)向前填充/向后填充:向前填充/向后填充即使用后一位/前一位的數(shù)據(jù)填充缺失數(shù)據(jù)。

(4)最大似然估計(jì)法:最大似然估計(jì)法使用可用數(shù)據(jù)的最大似然函數(shù)來計(jì)算最大似然估計(jì)。同樣,最大似然估計(jì)法還假設(shè)數(shù)據(jù)如果不是完全隨機(jī)缺失,至少是隨機(jī)缺失的。

原始數(shù)據(jù)中有大量的數(shù)據(jù)缺失集中在一些特征上,而其他缺失數(shù)據(jù)分布的較為離散。本文使用了特征刪除和均值替代的方法。如果某個(gè)特征有大量或超過50%的數(shù)據(jù)缺失,該特征項(xiàng)將會(huì)被移除。經(jīng)過特征刪除后,經(jīng)統(tǒng)計(jì)刪除的數(shù)據(jù)共有8%。若某只股票有超過10%的基本面數(shù)據(jù)為空,這刪除該股票的數(shù)據(jù)。剩余的缺失數(shù)據(jù)使用向后填充法填補(bǔ)。

2.3 趨勢(shì)平穩(wěn)化

本實(shí)驗(yàn)的目標(biāo)變量是預(yù)測(cè)季度的回報(bào)率。由于原始數(shù)據(jù)中有許多的特征擁有一個(gè)與時(shí)間相關(guān)的全局趨勢(shì),這些具有全局趨勢(shì)的特征可能會(huì)阻礙我們機(jī)器學(xué)習(xí)模型的泛化能力,從而導(dǎo)致不可靠的預(yù)測(cè)結(jié)果。因此我們對(duì)所有的特征進(jìn)行了百分比的轉(zhuǎn)換,如公式(3)所示:

2.4 小結(jié)

經(jīng)過數(shù)據(jù)處理后,最終共有138 支股票和23 個(gè)特征被選取。每只股票有59 個(gè)觀測(cè)值,從2005 年第一季度到2019 年第四季度。這23 個(gè)特征值如表1所示。

表1 數(shù)據(jù)集經(jīng)過預(yù)處理后的特征值

3 實(shí)驗(yàn)與分析

3.1 數(shù)據(jù)集劃分

在金融預(yù)測(cè)問題中,特別是數(shù)據(jù)有限的情況下,使用機(jī)器學(xué)習(xí)的方法時(shí)較容易出現(xiàn)過擬合。因此,我們將數(shù)據(jù)集劃分為訓(xùn)練集,驗(yàn)證集和測(cè)試集。訓(xùn)練集占總數(shù)據(jù)的60%,測(cè)試集和驗(yàn)證集分別占總數(shù)據(jù)的20%。即從2005 年第一季度至2013 年第四季度為訓(xùn)練集,從2014 年第一季度至2016 年第四季度為驗(yàn)證集,從2017 年第一季度至2019 年第四季度為測(cè)試集。除此之外為了最大化的利用數(shù)據(jù),在驗(yàn)證之后我們使用訓(xùn)練集的數(shù)據(jù)和驗(yàn)證集的數(shù)據(jù)訓(xùn)練模型,然后進(jìn)行測(cè)試[5]。我們的策略如圖1 所示。

圖1 數(shù)據(jù)集劃分策略

3.2 數(shù)據(jù)歸一化

由于不同特征的數(shù)值范圍可能不一致,因此本實(shí)驗(yàn)對(duì)每個(gè)特征進(jìn)行標(biāo)準(zhǔn)化,以提升我們預(yù)測(cè)模型的性能[9]。歸一化公式(4)如下所示:

其中x是原始的特征向量,xˉ為特征向量的平均值,σ為特征向量標(biāo)準(zhǔn)差。為了防止訓(xùn)練集使用到驗(yàn)證集和測(cè)試集信息,需要對(duì)訓(xùn)練集與驗(yàn)證集、測(cè)試集分開進(jìn)行歸一化處理本實(shí)驗(yàn)對(duì)訓(xùn)練集歸一化后,使用訓(xùn)練集的平均值和標(biāo)準(zhǔn)差對(duì)驗(yàn)證集和測(cè)試集進(jìn)行歸一化。

3.3 損失函數(shù)

當(dāng)訓(xùn)練一個(gè)回歸模型時(shí),損失函數(shù)取決于特定的算法。此外,模型訓(xùn)練中的損失函數(shù)也是一個(gè)可以調(diào)優(yōu)的超參數(shù)。對(duì)于前饋神經(jīng)網(wǎng)絡(luò),我們使用均方根誤差(RMSE)作為訓(xùn)練的損失函數(shù)。對(duì)于隨機(jī)森林,不涉及訓(xùn)練周期和損失函數(shù),RMSE 如公式(5)所示:

3.4 基線模型

在本實(shí)驗(yàn)中,使用的基線模型為FNN 和RF,使用這兩個(gè)模型用來預(yù)測(cè)季度的回報(bào)[5]。

(1)前饋神經(jīng)網(wǎng)絡(luò)

前饋神經(jīng)網(wǎng)絡(luò)使用的開發(fā)工具為:Python 和Ten?sorFlow 的接口Keras。前饋神經(jīng)網(wǎng)絡(luò)其隱藏層的數(shù)量(Hidden layers)、每個(gè)隱藏層神經(jīng)單元的個(gè)數(shù)(Layer sizes)、激活函數(shù)(Activation)、訓(xùn)練的周期(Training ep?ochs)、學(xué)習(xí)率(Learning rate)和優(yōu)化器(Optimizer)如表2 所示。

表2 前饋神經(jīng)網(wǎng)絡(luò)的超參數(shù)

(2)隨機(jī)森林

隨機(jī)森林使用的開發(fā)工具為Python 的scikit-learn庫。其超參數(shù)設(shè)置如表3 所示。

表3 隨機(jī)森林的超參數(shù)

3.5 帶有注意力機(jī)制前饋神經(jīng)網(wǎng)絡(luò)

由于不同的基本面指標(biāo)對(duì)預(yù)測(cè)結(jié)果的影響不同,因此本實(shí)驗(yàn)的注意力機(jī)制作用在指標(biāo)上。帶注意力的模型使用的開發(fā)工具為Python 和TensorFlow 的接口Keras。其模型的參數(shù)如表4 所示。

表4 帶有注意力機(jī)制的前饋神經(jīng)網(wǎng)絡(luò)的超參數(shù)

3.6 實(shí)驗(yàn)比較

本文使用了前饋神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林和帶有注意力機(jī)制的前饋神經(jīng)網(wǎng)絡(luò)三種模型。股票預(yù)測(cè)結(jié)果在不同時(shí)間的均方根誤差如圖2 所示,三種模型的平均均方根誤差如表5 所示。

表5 三種模型的均方根誤差

圖2 三種模型結(jié)果對(duì)比

由圖2,帶有注意力機(jī)制的模型其均方誤根差在多數(shù)季度要小于前饋神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林的均方根誤差。在表5 中,帶有注意力機(jī)制的前饋神經(jīng)網(wǎng)絡(luò)的效果分別比前饋神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林的效果提升了43.75%和47.05%,也證明了帶有注意力機(jī)制的前饋神經(jīng)網(wǎng)絡(luò)的有效性。

4 結(jié)語

機(jī)器學(xué)習(xí)在股票價(jià)格和回報(bào)測(cè)試是一個(gè)熱門的課題。本文使用帶有注意力機(jī)制的前饋神經(jīng)網(wǎng)絡(luò)結(jié)合基本面信息對(duì)股票的回報(bào)進(jìn)行預(yù)測(cè),并取得了較好的結(jié)果。但仍存在不足之處,例如在金融領(lǐng)域中,使用基本面數(shù)據(jù)時(shí),其所在的行業(yè)信息也是很重要的一個(gè)因素,因此可以嘗試將行業(yè)信息加入模型中進(jìn)行預(yù)測(cè)。

猜你喜歡
基本面神經(jīng)網(wǎng)絡(luò)變量
基于神經(jīng)網(wǎng)絡(luò)的船舶電力系統(tǒng)故障診斷方法
基于人工智能LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)成績(jī)預(yù)測(cè)
MIV-PSO-BP神經(jīng)網(wǎng)絡(luò)用戶熱負(fù)荷預(yù)測(cè)
三次樣條和二次刪除相輔助的WASD神經(jīng)網(wǎng)絡(luò)與日本人口預(yù)測(cè)
關(guān)于證券投資的行業(yè)選擇與上市公司分析
對(duì)偉星股份的基本面分析
試論中國股票市場(chǎng)的基本面與技術(shù)面聯(lián)合估價(jià)
基本面和流動(dòng)性仍是影響債市的關(guān)鍵因素
分離變量法:常見的通性通法
不可忽視變量的離散與連續(xù)