国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于XGBoost 的股指漲跌預(yù)測(cè)策略研究*

2023-07-11 07:31張雪芳
關(guān)鍵詞:決策樹位點(diǎn)樣本

張雪芳 溫 馨

(武漢郵電科學(xué)研究院 武漢 430074)

1 引言

在我國(guó)經(jīng)濟(jì)快速發(fā)展的背景下,股票市場(chǎng)應(yīng)運(yùn)而生。股市是股票發(fā)行流通的平臺(tái),同時(shí)也是上市公司募集資本的重要途經(jīng)之一。另一方面,隨著人民經(jīng)濟(jì)水平的提高和股票市場(chǎng)的發(fā)展,進(jìn)行股票投資也成為了人們的主要理財(cái)方式之一。股票投資的目的是,如何在最小化風(fēng)險(xiǎn)的情況下獲得投資收益的最大化,而如何選擇投資策略,成為眾多投資者面臨的主要問題。本文選擇XGBoost 算法作為基礎(chǔ),構(gòu)建股票指數(shù)漲跌預(yù)測(cè)模型。通過以往的研究結(jié)果,選取財(cái)報(bào)中的相關(guān)數(shù)據(jù)作為輸入特征,對(duì)后一天的漲跌情況進(jìn)行預(yù)測(cè),并通過網(wǎng)格搜索法確立最佳權(quán)重。本文用二元數(shù)據(jù)表示模型預(yù)測(cè)的結(jié)果,“+1”即為上漲,“-1”即為下跌,并對(duì)不同年份、不同模型的效果進(jìn)行比較,判斷模型的預(yù)測(cè)效果。本文進(jìn)一步比較了LR算法、SVM算法、隨機(jī)森林算法和XGBoost 算法的優(yōu)劣,證明XGBoost 模型在股指預(yù)測(cè)中有較優(yōu)的效果,最后得出基于XGBoost 模型量化分析的結(jié)論建議。

2 XGBoost理論分析研究

XGBoost 算法是基于Adaboost 和GBDT 等提升樹算法基礎(chǔ)上進(jìn)行優(yōu)化的算法,它是通過集成多個(gè)弱分類器來實(shí)現(xiàn)學(xué)習(xí)的。通過一個(gè)含有n 條記錄以及m 個(gè)解釋變量的訓(xùn)練集D={(xi,yi)},|D|=n,xi∈Rm,yi∈R,第i個(gè)樣本所預(yù)測(cè)的值,可以表示為由k個(gè)決策樹聯(lián)合的模型,記作:其中,fk代表第k個(gè)決策樹,F(xiàn)是函數(shù)空間,代表所有決策樹的集合。

與GBDT 的目標(biāo)函數(shù)不同,XGBoost 在原有的目標(biāo)函數(shù)之上增加了正則化項(xiàng),來減弱過擬合,增強(qiáng)泛化性。目標(biāo)函數(shù)公式如下:

其中,函數(shù)l 可以選擇不同的損失函數(shù),Ω(fk)代表第k棵樹的懲罰項(xiàng),具體公式如下:

其中,wk,j代表第k 顆樹中第j 個(gè)葉子的權(quán)值,T 代表葉子節(jié)點(diǎn)數(shù),γ和λ是用來平衡重要性的參數(shù)。通過對(duì)L 式進(jìn)行二階泰勒級(jí)數(shù)的近似展開,得到如下公式。

其中,pi是的Logit變換。

XGBoost算法的優(yōu)點(diǎn)如下:

1)模型支持并行化運(yùn)算,計(jì)算效率更高;

2)算法支持列抽樣,不僅可以降低過擬合,增強(qiáng)泛化能力,還可以有效減少計(jì)算量;

3)有缺失值處理的機(jī)制,對(duì)缺失的數(shù)據(jù),能夠自動(dòng)學(xué)習(xí)出樹節(jié)點(diǎn)的分裂選擇方向;

4)相比于GBDT 僅使用了一階導(dǎo)信息,XGBoost 使用的是二階泰勒級(jí)數(shù)進(jìn)行展開,可以學(xué)習(xí)到更精細(xì)的數(shù)據(jù)模式,增強(qiáng)模型準(zhǔn)確性;

5)在損失中增加了L1、L2 正則化,可以大大提高泛化能力。

3 實(shí)驗(yàn)數(shù)據(jù)的分析處理

滬深300 指數(shù)是從滬深兩個(gè)市場(chǎng)中選取的排名前300 的股票組成的,具有流動(dòng)性較好并且資金規(guī)模較大的特點(diǎn)。其中的股票多為A 股中的市值較大的公司,市場(chǎng)代表性好,能夠較好地反映市場(chǎng)龍頭公司的股票價(jià)格走勢(shì)。受新冠疫情造成的全球股市低迷的影響,本文選取了2012 年1 月1 日到2019年12月31日,共計(jì)1945個(gè)交易日的采集數(shù)據(jù)進(jìn)行研究,采集了年度財(cái)務(wù)報(bào)告中的數(shù)據(jù)比率指標(biāo)進(jìn)行預(yù)測(cè)。本文所采用的財(cái)務(wù)指標(biāo)特征和股價(jià)數(shù)據(jù)均來自于瑞斯數(shù)據(jù)庫(kù)。

在實(shí)際量化投資模型構(gòu)建時(shí),由于原始數(shù)據(jù)量比較大,并且存在著數(shù)據(jù)缺失、量綱不統(tǒng)一的臟數(shù)據(jù),因此首先有必要對(duì)數(shù)據(jù)進(jìn)行處理。

3.1 處理特異值

直接刪除異常值樣本簡(jiǎn)單粗暴,但是存在一定問題。刪除特異值樣本導(dǎo)致樣本在這一范圍區(qū)間內(nèi)的數(shù)目減少,致使樣本總體分布發(fā)生改變,對(duì)模型效果有不利的影響。因此本文采用的處理方法是,將財(cái)務(wù)指標(biāo)中數(shù)據(jù)分布大于95%分位點(diǎn)的數(shù)據(jù)用95%分位點(diǎn)的數(shù)據(jù)值替換,而小于5%分位點(diǎn)的數(shù)據(jù)用5%分位點(diǎn)的數(shù)據(jù)值替換。某股票財(cái)務(wù)數(shù)據(jù)指標(biāo)以及替換后的指標(biāo)統(tǒng)計(jì)如表1~2所示。

表1 財(cái)務(wù)指標(biāo)統(tǒng)計(jì)

表2 異常值處理后的財(cái)務(wù)指標(biāo)統(tǒng)計(jì)

表3 默認(rèn)參數(shù)下模型的運(yùn)行結(jié)果

表4 不同算法AUC評(píng)分比較

表5 不同年份下每種模型的效果比較

3.2 數(shù)據(jù)規(guī)約

構(gòu)建模型時(shí),并不是輸入特征越多越好。如果數(shù)據(jù)量非常大,造成冗余信息過多,XGBoost 訓(xùn)練的過程會(huì)消耗大量的時(shí)間。因此,可以通過數(shù)據(jù)規(guī)約的方式進(jìn)行降維,保留數(shù)據(jù)有效性的同時(shí)降低數(shù)據(jù)維數(shù),消除冗余數(shù)據(jù),可以有效減小消耗。本文采用主成分分析法(PCA)進(jìn)行數(shù)據(jù)規(guī)約。具體步驟如下:

1)對(duì)原始輸入矩陣做標(biāo)準(zhǔn)化轉(zhuǎn)換,統(tǒng)一量綱;

2)計(jì)算不同特征的相關(guān)系數(shù)矩陣R;

3)計(jì)算相關(guān)系數(shù)矩陣R 的特征值以及特征向量,得到載荷矩陣,保留前m 個(gè)特征值以及對(duì)應(yīng)的特征向量,此時(shí)數(shù)據(jù)的正交性最大,即在有效降低冗余同時(shí),可以保留最大的信息量。

4 參數(shù)優(yōu)化及實(shí)驗(yàn)比較

XGBoost參數(shù)優(yōu)化的一般步驟如下:

1)選擇較高的學(xué)習(xí)率,例如設(shè)置學(xué)習(xí)率為0.1,可以在一定區(qū)間內(nèi)用窮舉法進(jìn)行參數(shù)尋優(yōu),獲得準(zhǔn)確率較高的參數(shù)組合;

2)在給定的學(xué)習(xí)率和決策樹數(shù)量下,進(jìn)XGBoost 各個(gè)參數(shù)調(diào)優(yōu)(max_depth、min_child_weight、subsample、gamma等);

3)XGBoost的正則化參數(shù)調(diào)優(yōu);

4)選用更低的學(xué)習(xí)率,精細(xì)化的確定理想?yún)?shù)。

默認(rèn)參數(shù)下,模型的運(yùn)行效果如下。

首先,在固定學(xué)習(xí)率的條件下,對(duì)Min_chile_weight、Max_depth 參數(shù)尋優(yōu),測(cè)試其在不同組合下的模型效果。其次,固定上述三個(gè)參數(shù),對(duì)gamma參數(shù)尋優(yōu)。接下來,調(diào)整subsample 和colsample_bytree參數(shù)。最后,對(duì)reg_alpha參數(shù)進(jìn)行優(yōu)化。

通過上述調(diào)優(yōu),將模型測(cè)試集的AUC 提高到了0.6782,有一定的優(yōu)化效果。

最終,比較了不同算法的AUC 評(píng)分,示意如下。

不同年份年報(bào)數(shù)據(jù)下的模型效果比較如下表所示。

從上述結(jié)果可以看出,XGBoost 算法的效果是要優(yōu)于SVM、RF、LR 的。同時(shí),XGBoost 對(duì)模型有較好的解釋性,更加適用于特征數(shù)量較少、對(duì)解釋性要求較高的場(chǎng)合。

5 結(jié)語

本文從股票投資的視角出發(fā),研究了XGBoost算法在量化分析中的應(yīng)用,基于財(cái)務(wù)數(shù)據(jù)對(duì)股票趨勢(shì)進(jìn)行分析,有一定的有效性。并比較了XGBoost、RF、SVM、LR 算法的優(yōu)缺點(diǎn),具有一定的借鑒意義。在實(shí)際的股票交易中,每日股票漲跌的幅度是一定范圍內(nèi)的變化值,而不是只有二元的結(jié)果。此外,每次交易伴隨一定的稅費(fèi),因此短期內(nèi)多次交易不是最優(yōu)的決策。在后續(xù)的研究中可以就相關(guān)方向進(jìn)行進(jìn)一步的總結(jié)與完善。

猜你喜歡
決策樹位點(diǎn)樣本
鎳基單晶高溫合金多組元置換的第一性原理研究
CLOCK基因rs4580704多態(tài)性位點(diǎn)與2型糖尿病和睡眠質(zhì)量的相關(guān)性
用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
二項(xiàng)式通項(xiàng)公式在遺傳學(xué)計(jì)算中的運(yùn)用*
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
推動(dòng)醫(yī)改的“直銷樣本”
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
基于決策樹的出租車乘客出行目的識(shí)別
村企共贏的樣本
哈尔滨市| 涡阳县| 柳林县| 安溪县| 河间市| 吉首市| 皮山县| 灵璧县| 乌鲁木齐市| 酒泉市| 长治市| 上犹县| 清镇市| 华阴市| 尖扎县| 家居| 中西区| 五寨县| 黑山县| 邳州市| 新河县| 广河县| 水城县| 璧山县| 镇原县| 乌鲁木齐县| 阿拉善盟| 永泰县| 曲麻莱县| 临武县| 平安县| 龙海市| 梓潼县| 邯郸县| 东兰县| 合阳县| 科技| 淄博市| 博兴县| 吉水县| 柳河县|