国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

引入商品信息的股票價(jià)格趨勢(shì)預(yù)測(cè)

2021-03-07 13:00:10王臻杰周鑫
現(xiàn)代計(jì)算機(jī) 2021年1期
關(guān)鍵詞:股票價(jià)格變動(dòng)基線

王臻杰,周鑫

(1.四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065;2.四川武警警官學(xué)院,成都610000)

0 引言

自從股票二級(jí)市場(chǎng)誕生以后,股票價(jià)格的變動(dòng)趨勢(shì)的預(yù)測(cè)問(wèn)題就成為了一個(gè)被很多人關(guān)注的研究方向。經(jīng)過(guò)了多年的研究,關(guān)于股票市場(chǎng)能否被預(yù)測(cè)大致有兩個(gè)派別:一派相信有效市場(chǎng)假說(shuō)和隨機(jī)游走理論,認(rèn)為股票市場(chǎng)上的股票價(jià)格的變動(dòng)趨勢(shì)短期上是隨機(jī)而不可預(yù)測(cè)的,任何可用于預(yù)測(cè)股票價(jià)格變動(dòng)趨勢(shì)的信息已經(jīng)在股票價(jià)格中充分體現(xiàn)。然而,很多研究者相信第二種派別的觀點(diǎn)——股票價(jià)格的變動(dòng)趨勢(shì)是可預(yù)測(cè)的,并對(duì)此做了很多研究。

對(duì)股票的分析大致有兩個(gè)方向:基本面分析[1]和技術(shù)面分析[2]。對(duì)股票的基本面分析主要討論企業(yè)的財(cái)務(wù)狀況和業(yè)務(wù)狀況,對(duì)一支股票短期的價(jià)格變動(dòng)趨勢(shì)的預(yù)測(cè)主要運(yùn)用技術(shù)面的方法。技術(shù)面分析立足于對(duì)股票交易數(shù)據(jù)的分析,通過(guò)分析技術(shù)指標(biāo)進(jìn)行選股。某只股票價(jià)格特定粒度的K線包含了此粒度的時(shí)間窗口內(nèi)該支股票的收盤價(jià)、開(kāi)盤價(jià)、最高價(jià)和最低價(jià)。

最初投資者主要依靠個(gè)人的專家知識(shí)進(jìn)行技術(shù)面分析以預(yù)測(cè)股價(jià),人類專家提出了若干理論,包括道氏理論、波浪理論和江恩理論。后來(lái),隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,開(kāi)始有人利用機(jī)器學(xué)習(xí)技術(shù)來(lái)預(yù)測(cè)股價(jià)的變動(dòng)趨勢(shì)?;跈C(jī)器學(xué)習(xí)的股票價(jià)格變動(dòng)趨勢(shì)預(yù)測(cè)有很多相關(guān)研究:2015年,秦璐使用基于區(qū)域標(biāo)記法的代價(jià)敏感支持向量機(jī)預(yù)測(cè)股價(jià)[3];2018年,程小林提出基于概率后綴樹(shù)的股票時(shí)間序列預(yù)測(cè)方法研究[4],張瀟等人使用滬深股市作為數(shù)據(jù)源,探討了隨機(jī)森林算法在股票價(jià)格趨勢(shì)預(yù)測(cè)任務(wù)中的應(yīng)用[5]。

2008年后,隨著經(jīng)典的深度學(xué)習(xí)算法的提出和硬件的進(jìn)步,深度學(xué)習(xí)技術(shù)開(kāi)始被廣泛的應(yīng)用。一些研究者開(kāi)始利用深度學(xué)習(xí)技術(shù)預(yù)測(cè)股票價(jià)格趨勢(shì)變動(dòng)?;谏疃葘W(xué)習(xí)技術(shù)的股票價(jià)格趨勢(shì)變動(dòng)研究大致可分為三類:①將股票的OHLCV數(shù)據(jù)(開(kāi)盤價(jià)、最高價(jià)、最低價(jià)、收盤價(jià)和交易量)和技術(shù)指標(biāo)作為輸入,價(jià)格變動(dòng)趨勢(shì)作為輸出,使用深度學(xué)習(xí)模型進(jìn)行學(xué)習(xí)的研究。2020年孫存浩等人使用BP-LSTM網(wǎng)絡(luò)預(yù)測(cè)股票指數(shù)[6];②在股票的OHLCV數(shù)據(jù)和技術(shù)指標(biāo)外,引入相應(yīng)的消息數(shù)據(jù),例如政府公告、財(cái)政新聞等作為輸入的研究。2019年,張夢(mèng)吉等人引入財(cái)經(jīng)新聞數(shù)據(jù)作為模型的輸入,預(yù)測(cè)股票價(jià)格變動(dòng)趨勢(shì)[7]。③同時(shí)使用多支股票的OHLCV數(shù)據(jù)和技術(shù)指標(biāo)作為輸入,以它們的價(jià)格變動(dòng)趨勢(shì)作為輸出的多目標(biāo)學(xué)習(xí)研究。2018年,Tao Ma和Guolin Ke在2010年至2018年的四大行股票數(shù)據(jù)集上使用多目標(biāo)學(xué)習(xí)以預(yù)測(cè)它們的股價(jià)漲跌,取得了優(yōu)于單目標(biāo)學(xué)習(xí)的表現(xiàn)。

雖然采用深度學(xué)習(xí)技術(shù)的股票價(jià)格趨勢(shì)變動(dòng)研究取得了相當(dāng)?shù)某晒H欢壳盀橹?,沒(méi)有研究者在研究中考慮股票的價(jià)格變動(dòng)趨勢(shì)和相關(guān)的商品的價(jià)格變動(dòng)趨勢(shì)的聯(lián)系。眾所周知,股票的價(jià)格反映的是投資者們的預(yù)期,而與某公司業(yè)務(wù)緊密相關(guān)的商品價(jià)格的變化無(wú)疑會(huì)影響這一預(yù)期,例如石油價(jià)格對(duì)航空股票的影響和煤炭?jī)r(jià)格對(duì)電力股票價(jià)格的影響[8]。

為了填補(bǔ)基于股票和相應(yīng)商品價(jià)格的股票價(jià)格趨勢(shì)預(yù)測(cè)研究的空白,本文提出了引入商品信息的股票價(jià)格變動(dòng)趨勢(shì)預(yù)測(cè)方法,該方法基于深度學(xué)習(xí)技術(shù)。它的預(yù)測(cè)模型以股票和相應(yīng)商品的主力期貨的OHL?CV數(shù)據(jù)和技術(shù)指標(biāo)為輸入,使用LSTM網(wǎng)絡(luò)提取期貨和股票的輸入數(shù)據(jù)的深層特征,dropout防止過(guò)擬合,MLP網(wǎng)絡(luò)作為分類器,第t+1天相對(duì)于第t天的股票價(jià)格變動(dòng)趨勢(shì)為預(yù)測(cè)的目標(biāo)。

之所以使用商品的期貨價(jià)格數(shù)據(jù)而不是現(xiàn)貨價(jià)格數(shù)據(jù),是因?yàn)槠谪浺彩且环N反映未來(lái)商品價(jià)格的金融產(chǎn)品,可以使用專家研究金融產(chǎn)品技術(shù)指標(biāo)的先驗(yàn)知識(shí)。另外,期貨相比現(xiàn)貨,更能反映市場(chǎng)對(duì)相關(guān)行業(yè)的預(yù)期。[9]

本文的主要貢獻(xiàn)如下:

(1)本文提出了引入商品信息的股票價(jià)格變動(dòng)趨勢(shì)預(yù)測(cè)方法,該方法使用結(jié)構(gòu)相同的LSTM網(wǎng)絡(luò)并行提取期貨和股票的OHLCV數(shù)據(jù)和技術(shù)指標(biāo)的高維特征用于預(yù)測(cè),相比于使用不同結(jié)構(gòu)的網(wǎng)絡(luò)分別對(duì)期貨和股票的輸入數(shù)據(jù)進(jìn)行高維特征提取,這種做法減少了超參數(shù)優(yōu)化時(shí)的工作量。

(2)本文在山東黃金股票和黃金主力期貨數(shù)據(jù)集上,應(yīng)用本文提出的引入商品市場(chǎng)信息的股價(jià)變動(dòng)趨勢(shì)預(yù)測(cè)方法。實(shí)驗(yàn)結(jié)果證明了該方法的預(yù)測(cè)能力優(yōu)于只使用股票O(jiān)HLCV數(shù)據(jù)和技術(shù)指標(biāo)進(jìn)行預(yù)測(cè)的基線方法。

(3)本文提出了一種基于本文提出的方法的模擬交易策略并在測(cè)試集上進(jìn)行了模擬交易,取得了優(yōu)于基線交易策略的業(yè)績(jī)。

1 引入商品市場(chǎng)信息的股票價(jià)格變動(dòng)趨勢(shì)預(yù)測(cè)

本文提出的引入商品市場(chǎng)信息的股票價(jià)格變動(dòng)趨勢(shì)預(yù)測(cè)方法主要可分為四個(gè)部分:①數(shù)據(jù)預(yù)處理。②引入商品市場(chǎng)信息的股票價(jià)格變動(dòng)趨勢(shì)預(yù)測(cè)模型。③基于貝葉斯優(yōu)化方法的超參數(shù)調(diào)優(yōu)。④使用最優(yōu)模型預(yù)測(cè)。其中,前三個(gè)部分是本文提出的方法的主要組成部分。本節(jié)接下將具體介紹這三個(gè)主要部分,具體分析了每個(gè)部分中使用的技術(shù)的基本原理和選擇這些技術(shù)的原因。

1.1 數(shù)據(jù)預(yù)處理

本文提出的方法使用的原始數(shù)據(jù)集是以天為粒度的股票和期貨的K線數(shù)據(jù)和交易量。在介紹具體的預(yù)處理方法之前,本文先列出所用原始數(shù)據(jù)的形式化表達(dá)。以天為粒度的原始數(shù)據(jù)的形式化表達(dá)如公式(1)所示:

其中dt表示交易日期表示t周期內(nèi)的股票開(kāi)盤價(jià)表示t周期內(nèi)的股票最低價(jià)表示t周期內(nèi)的股票最高價(jià)表示t周期內(nèi)的股票收盤價(jià);vt表示t周期內(nèi)的股票成交量。連續(xù)n個(gè)周期的股票交易數(shù)據(jù)的表達(dá)形式如公式(2)所示:

將公式(2)中的xt使用具體交易數(shù)據(jù)進(jìn)行表達(dá)時(shí),則X也可表示為公式(3):

如前文專家提出了很多在交易實(shí)踐中被認(rèn)為有效的由K線和成交量生成的技術(shù)指標(biāo)[10],因此,本文提出的預(yù)測(cè)方法也引入了技術(shù)面分析領(lǐng)域的專家先驗(yàn)知識(shí)以提高模型的性能。獲取股票和期貨的OHLCV數(shù)據(jù)和成交量后,本文提出的方法對(duì)數(shù)據(jù)做進(jìn)一步處理,計(jì)算出由K線和交易量生成的技術(shù)指標(biāo)。本文選擇MACD、RSI和SMA三個(gè)技術(shù)指標(biāo)作為預(yù)測(cè)模型使用的技術(shù)指標(biāo)。

SMA是收盤價(jià)的n日移動(dòng)平均線,計(jì)算方式是將最近n天的收盤價(jià)相加,然后除以n。

MACD的全稱是異同移動(dòng)平均線,是從雙指數(shù)移動(dòng)平均線發(fā)展而來(lái)的。MACD的計(jì)算過(guò)程如下所示:首先由收盤價(jià)計(jì)算出快的指數(shù)移動(dòng)平均線和慢的指數(shù)移動(dòng)平均線,二者相減,得到快線DIF,再用2×(快線DIF-DIF加權(quán)移動(dòng)均線DEA)算出MACD柱。人類專家通過(guò)計(jì)算MACD來(lái)分析資產(chǎn)收盤價(jià)的短期趨勢(shì)和長(zhǎng)期趨勢(shì)的差離狀況來(lái)給出買入或賣出信號(hào)。

RSI是相對(duì)強(qiáng)弱指標(biāo)的簡(jiǎn)寫,與SMA和MACD不同,RSI討論的不是均線之間的差離程度,RSI主要關(guān)注的是金融資產(chǎn)在固定時(shí)間間隔內(nèi)買方和賣方力量的對(duì)比。RSI的計(jì)算相對(duì)簡(jiǎn)單,只考慮一段時(shí)間內(nèi)n個(gè)周期上漲資金和下跌資金的比值。

使用原始數(shù)據(jù)計(jì)算生成RSI、SMA和MACD后,將這三個(gè)技術(shù)指標(biāo)和原有的K線數(shù)據(jù)和交易量在時(shí)間維度上合并,作為本文提出的預(yù)測(cè)股價(jià)變動(dòng)趨勢(shì)的模型的輸入數(shù)據(jù)。

引入商品市場(chǎng)信息的股價(jià)預(yù)測(cè)模型使用的數(shù)據(jù)集是由按照時(shí)間窗口長(zhǎng)度和預(yù)測(cè)目標(biāo)生成的特征時(shí)間窗口和標(biāo)簽構(gòu)成的,然而,不同種類的特征之間的量綱差距巨大,這會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)訓(xùn)練困難,無(wú)法收斂,所以還要對(duì)每個(gè)特征時(shí)間窗口內(nèi)進(jìn)行歸一化。

之所以不在之前進(jìn)行整個(gè)數(shù)據(jù)集的歸一化,是因?yàn)楣善钡臍v史行情數(shù)據(jù)和技術(shù)指標(biāo)具有時(shí)間序列特性,如果在整個(gè)數(shù)據(jù)集上進(jìn)行歸一化,等于在過(guò)去的特征時(shí)間窗口中引入了未來(lái)的信息,所以,股票價(jià)格變動(dòng)趨勢(shì)預(yù)測(cè)問(wèn)題數(shù)據(jù)集的歸一化只能在特征時(shí)間窗口內(nèi)進(jìn)行。

常見(jiàn)的數(shù)據(jù)歸一化的方式由兩種,分別是最大最小歸一化和z-score歸一化,最大最小歸一化對(duì)原始特征數(shù)據(jù)進(jìn)行線性變化,z-score歸一化將將原始特征數(shù)據(jù)基于均值和標(biāo)準(zhǔn)差進(jìn)行歸一化。設(shè)原始特征A為的最大值為max,最小值為min,均值為μ,標(biāo)準(zhǔn)差為σ,最大最小歸一化和z-score歸一化的計(jì)算公式如公式(4)和公式(5)所示:

本文提出的方法關(guān)注于預(yù)測(cè)第t+1的股價(jià)相對(duì)于第t天股價(jià)的變動(dòng)趨勢(shì)。由于影響股票短期漲跌的因素主要表現(xiàn)在短期的市場(chǎng)環(huán)境中,本文使用最近的固定時(shí)間長(zhǎng)度的歷史數(shù)據(jù)來(lái)預(yù)測(cè)股價(jià)的漲跌。

設(shè)時(shí)間窗口長(zhǎng)度為time_window,本文提出的模型在第t天使用t-time_window天到第t天的數(shù)據(jù)構(gòu)成股票和期貨的time_window*8大小的特征時(shí)間窗口作為預(yù)測(cè)的輸入,最終的由時(shí)間窗口time_window生成的輸入數(shù)據(jù)的表達(dá)形式如公式(6)所示:

輸出標(biāo)簽取決于下一交易日的收盤價(jià)pc,t+1與當(dāng)日的收盤價(jià)pc,t的大小,若差值大于0則表示上漲,標(biāo)簽值為1,若差值小于等于0則表示下跌,標(biāo)簽值為0,本文提出的方法的標(biāo)簽構(gòu)建方法如式(7)所示:

1.2 引入商品市場(chǎng)信息的股票價(jià)格預(yù)測(cè)模型

在過(guò)去的股票價(jià)格變動(dòng)趨勢(shì)研究中,研究者們普遍使用了卷積神經(jīng)網(wǎng)絡(luò)或循環(huán)神經(jīng)網(wǎng)絡(luò)[11]。這是因?yàn)榻鹑诋a(chǎn)品價(jià)格時(shí)間序列本身就是一種有很大的噪聲干擾的時(shí)間序列。循環(huán)神經(jīng)網(wǎng)絡(luò)本身就是為了處理時(shí)間序列問(wèn)題而提出,而卷積神經(jīng)網(wǎng)絡(luò)具有一定的降噪功能,提供了特征提取過(guò)程的魯棒性,因此,這兩類網(wǎng)絡(luò)在股票價(jià)格變動(dòng)趨勢(shì)中得到了廣泛應(yīng)用。

本文提出的模型使用了循環(huán)神經(jīng)網(wǎng)絡(luò)的變種LSTM網(wǎng)絡(luò),大致可分為兩個(gè)模塊:基于LSTM網(wǎng)絡(luò)的高維特征提取模塊和基于MLP網(wǎng)絡(luò)的分類器模塊,接下來(lái)本文會(huì)具體介紹這兩個(gè)模塊。

深度學(xué)習(xí)之所以在很多任務(wù)上取得了超過(guò)人類專家和傳統(tǒng)機(jī)器學(xué)習(xí)方法的效果,是因?yàn)椴煌跈C(jī)器學(xué)習(xí)由人類手動(dòng)構(gòu)建的特征的方式,深度學(xué)習(xí)使用端到端的方式讓深度學(xué)習(xí)模型進(jìn)行特征學(xué)習(xí),逐步將低維特征轉(zhuǎn)化為高維特征。特征的好壞很大程度上決定了模型的性能,深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)了特征學(xué)習(xí)。在股票價(jià)格變動(dòng)趨勢(shì)這一問(wèn)題上,本文認(rèn)為,采用由OHLCV數(shù)據(jù)和技術(shù)指標(biāo)進(jìn)行特征學(xué)習(xí)生成的高維特征是提高分類器分類性能的有效手段。

長(zhǎng)短時(shí)記憶(LSTM)網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的變種,基于LSTM網(wǎng)絡(luò)的模型在諸如自然語(yǔ)言處理和語(yǔ)音識(shí)別等時(shí)間序列相關(guān)的問(wèn)題上都取得相當(dāng)出色的成績(jī)。LSTM的網(wǎng)絡(luò)主要由LSTM單元組成,LSTM單元內(nèi)部具有門控機(jī)制控制信息的流向,這些門控機(jī)制包括輸入門、輸出門和遺忘門,通過(guò)這些門控機(jī)制,LSTM單元可以記住任意時(shí)間間隔內(nèi)的輸入,因此,LSTM網(wǎng)絡(luò)克服了循環(huán)神經(jīng)網(wǎng)絡(luò)依照BPTT算法反向傳播損失時(shí)梯度消失的問(wèn)題。LSTM網(wǎng)絡(luò)的數(shù)據(jù)流向如公式(8)到公式(12)所示,其中,xt代表了LSTM單元的輸入向量,it代表輸入門的激活向量,遺忘門的激活向量為ot,輸出門的激活向量設(shè)為ht,LSTM單元的狀態(tài)向量為ct。

正如本文之前所述,本文提出的引入商品市場(chǎng)信息的股票價(jià)格變動(dòng)趨勢(shì)預(yù)測(cè)模型使用相同結(jié)構(gòu)的LSTM網(wǎng)絡(luò)提取股票和商品期貨的高維特征。LSTM網(wǎng)絡(luò)可以多層疊加,構(gòu)成多層LSTM神經(jīng)網(wǎng)絡(luò)。將l個(gè)時(shí)間步的n維特征向量輸入最后一層隱藏層維度為m的多層LSTM神經(jīng)網(wǎng)絡(luò)后,會(huì)輸出第一維度為l,第二維度為m的隱藏層狀態(tài)(m>n)。本文提出的引入商品市場(chǎng)信息的股票價(jià)格趨勢(shì)預(yù)測(cè)模型提取高維特征時(shí),分別取股票和期貨的隱藏層狀態(tài)的最后一個(gè)時(shí)間步的1*m維特征向量,拼接在一起,得到了維度為1*2m的高維特征向量用于接下來(lái)的分類。

MLP網(wǎng)絡(luò)(多層感知器神經(jīng)網(wǎng)絡(luò))的歷史相當(dāng)久遠(yuǎn),現(xiàn)在基于MLP模型的預(yù)測(cè)方法一般被作為基于其它深度學(xué)習(xí)模型的預(yù)測(cè)方法比較的基線方法?,F(xiàn)在流行的深度學(xué)習(xí)模型中,常常在高維特征向量后添加MLP結(jié)構(gòu)用于分類。本文提出的引入商品市場(chǎng)信息的股價(jià)變動(dòng)趨勢(shì)預(yù)測(cè)模型采取了相似的結(jié)構(gòu)。因?yàn)楸疚难芯康墓善眱r(jià)格變動(dòng)趨勢(shì)預(yù)測(cè)是二元分類問(wèn)題,所以輸出層的神經(jīng)元數(shù)目為2,輸出層的激活函數(shù)選擇Sig?moid激活函數(shù)或直接使用線性函數(shù)。

雖然本文提出的模型并不復(fù)雜,然而,由于股價(jià)變動(dòng)趨勢(shì)預(yù)測(cè)問(wèn)題自身的特點(diǎn),可用于本文提出的模型訓(xùn)練的數(shù)據(jù)集較小,且充斥著噪聲。因此,如果模型在本文選擇的數(shù)據(jù)集上訓(xùn)練的epoch較多,很容易出現(xiàn)過(guò)擬合的情況,導(dǎo)致雖然在訓(xùn)練集上有近百分之百的預(yù)測(cè)準(zhǔn)確率,但是,在未訓(xùn)練過(guò)的數(shù)據(jù)集上表現(xiàn)糟糕。

因此,為了減少過(guò)擬合,必須有效阻止模型學(xué)習(xí)到數(shù)據(jù)集的觀察值和市場(chǎng)的真實(shí)值的偏差和防止模型過(guò)分的擬合噪聲點(diǎn)。

深度學(xué)習(xí)中最常用的減少過(guò)擬合的正則方法是dropout,dropout方法會(huì)在訓(xùn)練時(shí)隨機(jī)讓一層的神經(jīng)元的部分失活,本文提出的模型在輸出高維特征向量的網(wǎng)絡(luò)層后進(jìn)行了dropout防止過(guò)擬合。

1.3 超參數(shù)調(diào)優(yōu)

在1.2小節(jié)中,本文介紹了預(yù)測(cè)模型的大致結(jié)構(gòu)。然而,深度學(xué)習(xí)模型的超參數(shù)對(duì)模型的性能和訓(xùn)練速度有著很大的影響。本文提出的預(yù)測(cè)模型主要的超參數(shù)有學(xué)習(xí)率、dropout率、高維特征提取模塊的LSTM網(wǎng)絡(luò)的層數(shù)、分類模塊的多層感知機(jī)的隱藏層個(gè)數(shù),每個(gè)網(wǎng)絡(luò)層的神經(jīng)元個(gè)數(shù)以及輸出層神經(jīng)元的激活函數(shù)。

為了提高深度學(xué)習(xí)模型的性能,需要對(duì)模型的超參數(shù)做超參數(shù)優(yōu)化,然而,超參數(shù)優(yōu)化是組合優(yōu)化問(wèn)題,無(wú)法像模型內(nèi)部的可訓(xùn)練參數(shù)一樣使用梯度下降法優(yōu)化。簡(jiǎn)單的超參數(shù)優(yōu)化方法包括網(wǎng)格搜索和隨機(jī)搜索。這兩種優(yōu)化方法都是嘗試各種超參數(shù)組合然后選擇一個(gè)模型性能最佳的配置。

這兩種方法都沒(méi)能利用不同超參數(shù)組合之間可能存在的關(guān)系,在超參數(shù)搜索空間維度較大的時(shí)候,使用這兩種方法搜索得到性能較優(yōu)的超參數(shù)組合所需的時(shí)間復(fù)雜度會(huì)變得太大。本文的超參數(shù)空間維度最高可達(dá)10維,且有很多維度的參數(shù)值是連續(xù)的,使用網(wǎng)格搜索和隨機(jī)搜索并不適合,因此,本文使用貝葉斯優(yōu)化方法優(yōu)化本文的超參數(shù)結(jié)構(gòu)。

貝葉斯優(yōu)化方法與網(wǎng)格搜索和隨機(jī)搜索不同,它是一種根據(jù)當(dāng)前已嘗試過(guò)的超參數(shù)組合的結(jié)果,來(lái)預(yù)測(cè)下一個(gè)可能達(dá)到最大收益的超參數(shù)組合的自適應(yīng)算法[12]。

具體來(lái)說(shuō),貝葉斯優(yōu)化方法假設(shè)優(yōu)化的目標(biāo)函數(shù)服從高斯過(guò)程,根據(jù)已有的實(shí)驗(yàn)結(jié)果對(duì)這個(gè)過(guò)程建模,再使用收益函數(shù)計(jì)算得出下一組超參數(shù)的組合。收益函數(shù)在調(diào)優(yōu)過(guò)程中用來(lái)權(quán)衡開(kāi)發(fā)和探索,盡量選擇高斯過(guò)程曲線上均值和方差都大的點(diǎn)。

本文提出的引入商品市場(chǎng)信息的股價(jià)變動(dòng)趨勢(shì)預(yù)測(cè)方法使用貝葉斯優(yōu)化方法對(duì)1.3小節(jié)中提出的模型進(jìn)行超參數(shù)調(diào)優(yōu),選擇其中性能最好的模型用于預(yù)測(cè)股票價(jià)格。

1.4 預(yù)測(cè)方法流程

本文提出的引入商品市場(chǎng)信息的股票價(jià)格變動(dòng)趨勢(shì)的方法的預(yù)測(cè)流程大致包括三步,第一步進(jìn)行數(shù)據(jù)初始化,第二步是構(gòu)建引入商品市場(chǎng)信息的股票預(yù)測(cè)模型并訓(xùn)練,根據(jù)訓(xùn)練的結(jié)果進(jìn)行貝葉斯調(diào)優(yōu),最終選擇最優(yōu)超參數(shù)組合,第三步是使用最優(yōu)模型進(jìn)行股票預(yù)測(cè)。

這一流程的偽代碼形式如下所示,其中f表示模型初始化函數(shù),Hspace表示超參數(shù)空間,M表示貝葉斯優(yōu)化過(guò)程構(gòu)建的高斯過(guò)程,pre_processing表示數(shù)據(jù)預(yù)處理,F(xiàn)itmodel表示貝葉斯優(yōu)化過(guò)程由高斯過(guò)程生成超參數(shù)組合的函數(shù),modelt,modelforecast分別表示貝葉斯優(yōu)化每次生成的模型和性能最佳的模型。

下一節(jié),本文將要介紹前面提出的方法在實(shí)際數(shù)據(jù)集上實(shí)驗(yàn)后的結(jié)果。

2 實(shí)驗(yàn)結(jié)果和分析

本節(jié)在實(shí)際數(shù)據(jù)集上應(yīng)用第一節(jié)提出的引入商品市場(chǎng)信息的股票價(jià)格變動(dòng)趨勢(shì)預(yù)測(cè)方法,評(píng)估了本文提出的方法在分類和指導(dǎo)交易兩方面上的性能,并且和基線方法進(jìn)行了比較。本節(jié)進(jìn)行的實(shí)驗(yàn)在兩臺(tái)機(jī)器上進(jìn)行,數(shù)據(jù)的預(yù)處理和運(yùn)用調(diào)優(yōu)后的模型預(yù)測(cè)股價(jià)并模擬交易在單核CPU為Intel i5-8250u、8G內(nèi)存的筆記本上進(jìn)行,需要更多算力的模型構(gòu)建、訓(xùn)練和貝葉斯優(yōu)化部分在P4gpu,16G內(nèi)存的百度智能云虛擬機(jī)上進(jìn)行。

2.1 實(shí)驗(yàn)數(shù)據(jù)集獲取和預(yù)處理

本文選擇山東黃金股票和滬市黃金主力期貨作為本文提出的方法進(jìn)行實(shí)驗(yàn)的數(shù)據(jù)集。這是因?yàn)辄S金股票的價(jià)格受國(guó)際金價(jià)影響很大,黃金期貨的價(jià)格恰恰反映了國(guó)際金價(jià),二者之間存在顯著關(guān)系[13]。

圖1 數(shù)據(jù)集標(biāo)簽分布圖

山東黃金是國(guó)內(nèi)典型的大型黃金公司,選擇山東黃金作為實(shí)驗(yàn)的預(yù)測(cè)目標(biāo)具有典型性。之所以選擇黃金主力期貨作為引入的商品,是因?yàn)橹髁ζ谪浭瞧谪浭袌?chǎng)上最活躍,成交量最大的期貨,因其容易成交的特性,投機(jī)者們基本都參與這一交易。因此,主力期貨價(jià)格能夠很好地表示商品價(jià)格。

本文通過(guò)JQData提供的本地API接口下載2010年1月1日至2016年12月31日內(nèi)的交易日的山東黃金和滬市黃金主力OHLCV數(shù)據(jù)作為原始數(shù)據(jù)集,經(jīng)過(guò)第二節(jié)提到的數(shù)據(jù)預(yù)處理過(guò)程后,前70%的特征時(shí)間窗口和標(biāo)簽作為訓(xùn)練集,70%到85%的數(shù)據(jù)作為驗(yàn)證集用以在訓(xùn)練和超參數(shù)調(diào)優(yōu)時(shí)評(píng)估模型的性能,85%之后的數(shù)據(jù)作為測(cè)試集用以評(píng)估模型的分類性能和指導(dǎo)交易盈利的能力。

訓(xùn)練集、驗(yàn)證集和測(cè)試集上的數(shù)據(jù)的標(biāo)簽的分布如圖1所示,由圖可知,在三集上,上漲類標(biāo)簽和下跌類標(biāo)簽大致是平衡的,不需要特別使用解決不均衡類別問(wèn)題的技巧。

2.2 超參數(shù)空間和基線方法

本文使用開(kāi)源工具包optuna完成調(diào)優(yōu)工作,本文提出的模型的超參數(shù)空間包括了LSTM網(wǎng)絡(luò)和MLP網(wǎng)絡(luò)的神經(jīng)元個(gè)數(shù),學(xué)習(xí)率和dropout比例,輸出層的激活函數(shù),具體的超參數(shù)的取值范圍和采樣方式如表1所示,其中l(wèi)代指LSTM網(wǎng)絡(luò)的層數(shù),suggest_int代表在值域內(nèi)對(duì)整數(shù)均勻采樣,suggest_uniform表示在值域內(nèi)均勻采樣,suggest_loguniform代表在值域連續(xù)對(duì)數(shù)均勻采樣,suggest_discrete代表離散采樣。模型一次訓(xùn)練經(jīng)過(guò)200個(gè)epoch,依照訓(xùn)練完后模型在測(cè)試集上的損失進(jìn)行下一次超參數(shù)選擇。

表1 本文提出的預(yù)測(cè)模型的超參數(shù)空間

為了比較本文提出的方法和未引入商品信息的方法的優(yōu)劣,本文選擇基于LSTM網(wǎng)絡(luò)的模型的方法和基于MLP網(wǎng)絡(luò)的模型的方法作為基線方法,這兩種基線方法的預(yù)測(cè)模型只使用山東黃金股票自身的數(shù)據(jù)作為輸入。

2.3 評(píng)價(jià)指標(biāo)

評(píng)價(jià)股價(jià)變動(dòng)趨勢(shì)預(yù)測(cè)方法的指標(biāo)可分為兩類:一類注重分類性能,一類關(guān)注基于此方法的交易策略[16]的優(yōu)劣。本文提出的預(yù)測(cè)方法實(shí)際上是一個(gè)簡(jiǎn)單的二元分類問(wèn)題,因此本文采用準(zhǔn)確率評(píng)價(jià)本文提出的方法的分類性能。評(píng)價(jià)一個(gè)交易策略的優(yōu)劣,人類專家也提出了多種績(jī)效指標(biāo),本文使用收益率、夏普比例和最大回撤率來(lái)評(píng)價(jià)本文提出的方法在這一方面的優(yōu)劣性。它們?nèi)叩亩x如公式(13)到公式(15)所示,其中。Vali為投資時(shí)段內(nèi)某天的凈值,Rf為無(wú)風(fēng)險(xiǎn)年化收益率,σp為策略在整個(gè)時(shí)間段內(nèi)年化收益率的標(biāo)準(zhǔn)差。

收益率是用獲利除以本金,收益率直觀的表示了在一段時(shí)間內(nèi),投資者大致獲得了多少收益,然而,只用收益率評(píng)判策略沒(méi)有考慮到策略潛在的風(fēng)險(xiǎn)。夏普比例則考慮了這一方面的問(wèn)題,引入投資時(shí)段內(nèi)的年化收益率的標(biāo)準(zhǔn)差來(lái)權(quán)衡策略的風(fēng)險(xiǎn)。為了比較策略在投資時(shí)間段內(nèi)的最壞情況,本文引入最大回撤率作為評(píng)價(jià)指標(biāo)之一,最大回撤率指的是在整個(gè)投資周期內(nèi)選定任意一點(diǎn)往后看,凈值達(dá)到最低點(diǎn)時(shí)收益率的回撤幅度。

2.4 實(shí)驗(yàn)結(jié)果

本文提出的引入商品信息的股價(jià)變動(dòng)趨勢(shì)預(yù)測(cè)方法最終使用的預(yù)測(cè)模型的超參數(shù)如下,0.15左右的dropout比例,輸出層選擇sigmoid激活函數(shù),2層MLP網(wǎng)絡(luò),第一層神經(jīng)元數(shù)目為44,第二層為22,1層LSTM網(wǎng)絡(luò),神經(jīng)元個(gè)數(shù)為36。

本文提出的模型的在數(shù)據(jù)集上的預(yù)測(cè)準(zhǔn)確率和基線方法的對(duì)比表2所示。

表2 本文提出的模型與基線模型的預(yù)測(cè)準(zhǔn)確率

由表2內(nèi)容可知,基于LSTM的基線模型在測(cè)試集和驗(yàn)證集上都要優(yōu)于基于MLP的模型,而本文提出的引入商品信息的股票價(jià)格變動(dòng)趨勢(shì)預(yù)測(cè)問(wèn)題又要優(yōu)于LSTM基線模型,這證明了本文提出的方法的有效性。

本文提出了一種基于此模型的簡(jiǎn)單的模擬交易策略。如果模型預(yù)測(cè)標(biāo)簽為上漲,則該策略選擇以當(dāng)天的收盤價(jià)買入,在第二天以收盤價(jià)賣出,否則不做交易。

為了評(píng)判基于這一策略優(yōu)劣,本文選擇和另外兩種交易策略對(duì)比。它們是買入并持有策略(buy and hold)和追漲殺跌(buy the winners)策略。買入并持有策略下投資者買入股票一直到投資時(shí)間段結(jié)束時(shí)賣出。如果昨天股票價(jià)格呈上升趨勢(shì),追漲殺跌策略會(huì)買入,反之則賣出。

本文在測(cè)試集上,共227個(gè)交易日的交易時(shí)間段內(nèi),基于這三種策略進(jìn)行了模擬交易,初始資金為10000元,三種策略的在整個(gè)時(shí)間段內(nèi)的資產(chǎn)凈值曲線如圖2所示。三種策略的最大回撤率、收益率和夏普比例如表3所示。

由表3和圖2的內(nèi)容可知,基于本文提出的方法的交易策略在夏普比率、收益率和最大回撤率上都高于兩種基線策略,這代表基于本文方法的交易策略在收益和穩(wěn)定性方面都要優(yōu)于另外兩種基線交易策略。因此,本文提出的方法在模擬交易中的績(jī)效和分類性能上都要優(yōu)于基線方法,這說(shuō)明了引入商品信息作為輸入的預(yù)測(cè)方法能夠幫助投資者在市場(chǎng)中獲利。

圖2 三種策略的資產(chǎn)凈值變化

表3 本文策略與基線策略的績(jī)效指標(biāo)

3 結(jié)語(yǔ)

本文提出了一種引入商品信息的股票價(jià)格趨勢(shì)預(yù)測(cè)方法,并詳細(xì)論述了該方法的主要組成部分和預(yù)測(cè)流程:數(shù)據(jù)預(yù)處理,包括計(jì)算技術(shù)指標(biāo),生成特征時(shí)間窗口與標(biāo)簽和歸一化,劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集;在超參數(shù)空間中采樣并構(gòu)建使用股票和期貨的特征時(shí)間窗口預(yù)測(cè)股價(jià)的模型,在數(shù)據(jù)集上訓(xùn)練模型并評(píng)判模型的性能;使用貝葉斯優(yōu)化方法進(jìn)行超參數(shù)調(diào)優(yōu),重復(fù)建模、訓(xùn)練、評(píng)價(jià)的過(guò)程;選出最佳的超參數(shù)組合。

本文在山東黃金和黃金期貨主力數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文提出的方法在預(yù)測(cè)能力上要優(yōu)于基于MLP網(wǎng)絡(luò)的基線方法和基于LSTM網(wǎng)絡(luò)的基線方法,兩種方法基線都只使用了股票的OHLCV數(shù)據(jù)生成的特征時(shí)間窗口作為輸入。這說(shuō)明了本文引入商品信息的做法的有效性。基于本文提出的方法的交易策略在測(cè)試集上模擬交易的結(jié)果在收益率和穩(wěn)定性方面都要優(yōu)于兩種基線交易策略,說(shuō)明了本文提出的方法能夠幫助投資者在市場(chǎng)中獲利。

本文提出的方法只引入了一種與預(yù)測(cè)的股票相關(guān)的商品的信息,然而,在現(xiàn)實(shí)生活中,股票和商品的關(guān)系是相當(dāng)復(fù)雜的,多種商品和多種股票間可能存在多對(duì)多的關(guān)系,因此,在以后的工作中考慮使用多個(gè)相關(guān)的商品信息和多支股票協(xié)同預(yù)測(cè)多支股票,并使用圖神經(jīng)網(wǎng)絡(luò)代替LSTM網(wǎng)絡(luò)處理作為預(yù)測(cè)模型處理輸入這種存在復(fù)雜關(guān)系的輸入。

猜你喜歡
股票價(jià)格變動(dòng)基線
基于GARCH族模型的重慶啤酒股票價(jià)格波動(dòng)研究
適用于MAUV的變基線定位系統(tǒng)
航天技術(shù)與甚長(zhǎng)基線陣的結(jié)合探索
科學(xué)(2020年5期)2020-11-26 08:19:14
北上資金持倉(cāng)、持股變動(dòng)
北向資金持倉(cāng)、持股變動(dòng)
南向資金持倉(cāng)、持股變動(dòng)
變動(dòng)的是心
一種改進(jìn)的干涉儀測(cè)向基線設(shè)計(jì)方法
論股票價(jià)格準(zhǔn)確性的社會(huì)效益
我國(guó)股票價(jià)格指數(shù)與“克強(qiáng)指數(shù)”的關(guān)系研究
安远县| 达日县| 固阳县| 和林格尔县| 株洲县| 阿拉善盟| 陆丰市| 林口县| 桂林市| 大姚县| 滦平县| 鄂尔多斯市| 尉氏县| 大新县| 墨玉县| 奈曼旗| 页游| 泸水县| 都匀市| 鹤壁市| 沈阳市| 辛集市| 花莲县| 新龙县| 肇州县| 武安市| 荆门市| 酉阳| 建阳市| 会泽县| 达州市| 平山县| 竹溪县| 科技| 泰兴市| 武夷山市| 贺州市| 罗田县| 弋阳县| 漳浦县| 吉林市|