基于支持向量機(jī)的股票量化交易策略實(shí)驗(yàn)與研究

2022-04-25 00:40:16熊峰

大眾投資指南 2022年4期

熊峰

（1．中國科學(xué)院合肥物質(zhì)科學(xué)研究院，安徽合肥 230031； 2．中國科學(xué)技術(shù)大學(xué)，安徽合肥 230026）

在分析過程中，主要就機(jī)器學(xué)習(xí)當(dāng)中的SVM分類技術(shù)進(jìn)行研究，再利用股票的分類指標(biāo)，當(dāng)作分類的基礎(chǔ)數(shù)據(jù)，可以實(shí)現(xiàn)對(duì)股票進(jìn)行分類，以此來對(duì)股票的收益率進(jìn)行相應(yīng)的預(yù)測(cè)。在獲取的分類的結(jié)果之后，也能很好地對(duì)各種性質(zhì)的股票進(jìn)行組合，使得能夠保障計(jì)算出的收益率，大于市場(chǎng)當(dāng)中的平均收益率。

一、支持的向量機(jī)的背景介紹

支持向量機(jī)（SVM）是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的新數(shù)據(jù)挖掘方法。它在解決小樣本，非線性和高維模式識(shí)別問題方面具有許多獨(dú)特的優(yōu)勢(shì)?；驹瓌t主要來自結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則和風(fēng)險(xiǎn)資本水平。支持向量機(jī)和二分類模式識(shí)別問題，也有人使用支持向量機(jī)進(jìn)行函數(shù)擬合。根據(jù)這兩個(gè)目的，支持向量機(jī)分為支持向量分類機(jī)和支持向量回歸機(jī)。常用的另一種數(shù)據(jù)挖掘方法是神經(jīng)網(wǎng)絡(luò)方法。與神經(jīng)網(wǎng)絡(luò)相比，支持向量機(jī)具有扎實(shí)的統(tǒng)計(jì)基礎(chǔ)。具有以下優(yōu)點(diǎn)：

第一，根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小的原則，降低了提升誤差的上限，具有優(yōu)良的提升性能，解決了神經(jīng)網(wǎng)絡(luò)過擬合的現(xiàn)象。

第二，此問題的解決方案與具有線性約束的凸二次規(guī)劃問題相同。它具有全局最優(yōu)解，可以解決神經(jīng)網(wǎng)絡(luò)的局部最小問題。

第三，將原始問題映射到高維空間，在高維空間中構(gòu)造線性分類函數(shù)以劃分原始問題，并引入核函數(shù)來解決該問題。

以上優(yōu)點(diǎn)可以解決維度災(zāi)難問題。

結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則：在統(tǒng)計(jì)學(xué)習(xí)理論中，實(shí)際風(fēng)險(xiǎn)分為兩部分。一個(gè)是代表給定樣本分類函數(shù)誤差的經(jīng)驗(yàn)風(fēng)險(xiǎn)，另一個(gè)是置信度風(fēng)險(xiǎn)。代表了可以在多大程度上可以信任分類器在未知數(shù)據(jù)上分類的結(jié)果。從統(tǒng)計(jì)學(xué)習(xí)中要獲最優(yōu)函數(shù)，追求的不是經(jīng)驗(yàn)風(fēng)險(xiǎn)最優(yōu)化，而是結(jié)構(gòu)風(fēng)險(xiǎn)最優(yōu)化。我們的目標(biāo)是最大限度地減少機(jī)器學(xué)習(xí)方法的經(jīng)驗(yàn)風(fēng)險(xiǎn)，但后來發(fā)現(xiàn)許多分類函數(shù)可以輕松實(shí)現(xiàn)樣本集很高的準(zhǔn)確性，但完全用于實(shí)盤分類的時(shí)候結(jié)果卻很不理想。此時(shí)選擇一個(gè)足夠復(fù)雜的分類函數(shù)以準(zhǔn)確存儲(chǔ)每個(gè)樣本，但是樣本之外的數(shù)據(jù)不能正確分類。這樣做的主要原因是，在訓(xùn)練小樣本時(shí)，如果樣本數(shù)量與總樣本大小比例太小，小樣本不能很好地反映所有樣本的行為，這就導(dǎo)致推廣性很低。此時(shí)我們需要了解分類函數(shù)對(duì)未知數(shù)據(jù)的分類能力，需要用致信度風(fēng)險(xiǎn)來衡量。

通過篩選了一些在中國具有代表性和知名度的股票。通常，與大型股票指數(shù)相比，單個(gè)股票的波動(dòng)性更為“隨機(jī)”。解決方案是提出一套可行的方法，在實(shí)際操作中，可以根據(jù)實(shí)際情況靈活選擇參數(shù)和數(shù)據(jù)指標(biāo)。如果對(duì)單個(gè)股票的研究能夠產(chǎn)生一致的結(jié)果，它將在投資中有很強(qiáng)的指導(dǎo)性，但是將單個(gè)股票的特性推廣到其他股票研究也有一定風(fēng)險(xiǎn)。

二、分類預(yù)測(cè)的基本流程

（一）模型輸入變量以及輸出變量的選擇

對(duì)于支持向量機(jī)而言，需要依據(jù)樣本當(dāng)中的特征x以及屬性y，來對(duì)樣本進(jìn)行分類。為此，在對(duì)輸入向量的合理性確定的過程中，其輸出向量y有著重要的作用。在進(jìn)行特征變量選擇的過程中，需要重視起特征向量與預(yù)測(cè)結(jié)果之間的關(guān)聯(lián)。同時(shí)，對(duì)于輸入向量當(dāng)中的一些無關(guān)特征向量上，會(huì)使得取得的問題具有較高的復(fù)雜性，降低成功預(yù)測(cè)的可能性。

在基礎(chǔ)行情方面，一般情況下主要的指標(biāo)為漲幅、成交量、持倉量、最高價(jià)、最低價(jià)以及收盤價(jià)，但是對(duì)于股票的技術(shù)性指標(biāo)分析上，則需要重視起對(duì)MA5、CCI、OBV以及RSI等指標(biāo)的分析。而在對(duì)實(shí)際的股票數(shù)據(jù)進(jìn)行分析的過程中，由于在基礎(chǔ)行情指標(biāo)，以及在技術(shù)性指標(biāo)當(dāng)中信息數(shù)據(jù)可能會(huì)存在相同的情況，為此在進(jìn)行問題解決的過程中，會(huì)存在著一定的困難。因此針對(duì)這種問題，需要在分析的過程中，利用主成分分析方法來進(jìn)行處理，對(duì)問題進(jìn)行降維。

獲取均線，MACD等指標(biāo)數(shù)據(jù)。

data[‘5’] = data.close.rolling（5）.mean（）

data[‘20’] = data.close.rolling（20）.mean（）

data[‘60’] = data.close.rolling（60）.mean（）

DIFF， DEA， hist = talib.MACD（data[‘close’]，f a s t p e r i o d=f a s t p e r i o d， s l o w p e r i o d=s l o w p e r i o d， signalperiod=signalperiod）

data[‘CCI’] = talib.CCI（data.high，data.low，data.close，timeperiod=14）

data[‘upperband’]，data[‘middleband’]，data[‘lowerband’] =talib.BBANDS（data.close，timeperiod=20， nbdevup=2， nbdevdn=2）

（二）分類問題的基本流程

現(xiàn)階段提出了各種類型的分析方法和建模的方式，但是對(duì)于機(jī)器學(xué)習(xí)領(lǐng)域分類方面，采用的流程比較相似，例如需要進(jìn)行模式設(shè)計(jì)以及學(xué)習(xí)模式的設(shè)計(jì)。在統(tǒng)計(jì)學(xué)理論下，設(shè)計(jì)模式主要體現(xiàn)于訓(xùn)練集進(jìn)行集中的訓(xùn)練，以此獲取到一個(gè)分類器。對(duì)于學(xué)習(xí)模式而言，主要是在訓(xùn)練的過程中，利用各種參數(shù)進(jìn)行訓(xùn)練，最后再對(duì)其測(cè)試集進(jìn)行相應(yīng)的測(cè)試，并對(duì)測(cè)試的結(jié)果進(jìn)行分類決策分析。

（三）數(shù)據(jù)預(yù)處理

首先需要進(jìn)行缺失值的處理，本文對(duì)A股當(dāng)中出現(xiàn)的財(cái)務(wù)指標(biāo)數(shù)據(jù)進(jìn)行分析，但是對(duì)于另一些公司而言，一旦在一段時(shí)間內(nèi)停牌，就會(huì)導(dǎo)致數(shù)據(jù)并不會(huì)很好的體現(xiàn)財(cái)務(wù)指標(biāo)，為此就造成了數(shù)據(jù)的缺失值出現(xiàn)。對(duì)于這一部門的缺失值處理，就需要進(jìn)行手工的處理，將數(shù)據(jù)進(jìn)行補(bǔ)全。但是一旦出現(xiàn)了大量的缺失值，就需要對(duì)數(shù)據(jù)進(jìn)行刪除。

其次對(duì)原始數(shù)據(jù)處理之外，還需要對(duì)數(shù)據(jù)經(jīng)行標(biāo)準(zhǔn)化在多維樣本數(shù)據(jù)中，由于每個(gè)標(biāo)量都來自不同的字段并且具有不同的值范圍，因此不同的分量具有不同的數(shù)據(jù)大小，并且較大的分量也非常大。對(duì)模型的影響越大，組件越小，對(duì)模型的影響就越小。這就像在構(gòu)建模型之前人為地將權(quán)重添加到其他指標(biāo)一樣比例。甚至丟失了一些信息，使其變得非常不科學(xué)。另外，由于計(jì)算機(jī)可以表示的數(shù)據(jù)的精度是有限的，所以如果單個(gè)數(shù)據(jù)太大或太小，則計(jì)算出的數(shù)據(jù)將很容易越界并丟失信息?；谝陨峡紤]，必須在一定程度上處理選擇的原始數(shù)據(jù)，數(shù)據(jù)處理具體步驟如下：

1．去極值：一般去極值的處理方法就是確定該項(xiàng)指標(biāo)的上下限，然后超過或者低于限值的數(shù)據(jù)統(tǒng)統(tǒng)即為限值。

2．缺失值處理：得到新的因子暴露度序列后，將因子暴露度缺失的地方設(shè)為中信一級(jí)行業(yè)相同個(gè)股的平均值。

3．行業(yè)市值中性化：將填充缺失值后的因子暴露度對(duì)行業(yè)變量和取對(duì)數(shù)后的市值做線性回歸，取殘差作為新的因子暴露度。

4．標(biāo)準(zhǔn)化：將中性化處理后的因子暴露度序列減去其現(xiàn)在的均值、除以其標(biāo)準(zhǔn)差，得到一個(gè)新的近似服從N（0，1）分布的序列。

5．主成分分析：為避免特征之間的共線性，對(duì)標(biāo)準(zhǔn)化處理后的指標(biāo)等因子暴露度進(jìn)主成分分析，得到維度轉(zhuǎn)換后的新特征。

（四）模型參數(shù)尋優(yōu)

在應(yīng)用支持向量機(jī)對(duì)其分類的問題進(jìn)行預(yù)測(cè)的過程中，需要進(jìn)行懲罰參數(shù)C以及核函數(shù)G的確定，一旦這兩個(gè)影響因素?zé)o法確定，就會(huì)出現(xiàn)過度學(xué)習(xí)的問題。在對(duì)C和G進(jìn)行確定的過程中，主要是利用遺傳算法進(jìn)行參數(shù)的尋找，但是在本文的分析過程中，采用了粒子群算法之后，可以利用其智能優(yōu)化的算法類型，進(jìn)行尋優(yōu)機(jī)制的優(yōu)化處理，以此尋找到最優(yōu)解。

使用風(fēng)格搜索尋找最佳參數(shù)。

grid_search = GridSearchCV（SVC（）， param_grid， cv=5， return_train_score=True）

grid_search.fit（X_train_scaled，y_train）

表1 訓(xùn)練結(jié)果

mean_train_score mean_test_score param_C param_gamma rank_test_score 1.0 0.526035 100 0.01 35 1.0 0.561699 100 0.1 31 1.0 0.574980 100 1 1 1.0 0.574980 100 10 1 1.0 0.574980 100 100 1

圖1 參數(shù)搜索熱力圖

（五）模型的評(píng)價(jià)指標(biāo)

在本文的分析過程中，需要對(duì)建立起來的模型進(jìn)行系統(tǒng)分析和檢驗(yàn)，為此需要應(yīng)用到股票價(jià)格的分類預(yù)測(cè)。之后再將預(yù)測(cè)的結(jié)果，在不同高斯核函數(shù)下，對(duì)建立起來的SVM預(yù)測(cè)模型進(jìn)行數(shù)據(jù)的比較分析。

（六）模型總流程

首先需要取A股的股票數(shù)據(jù)，之后再依據(jù)歷史的行情，將行情的變量以及技術(shù)指標(biāo)的變量輸入其中。之后利用主成分分析方法，對(duì)其輸入的向量數(shù)據(jù)進(jìn)行系統(tǒng)的分析和降維，這樣的處理方式，可以有效地降低模型的復(fù)雜程度。然后需要使用最優(yōu)核函數(shù)，建立起動(dòng)態(tài)分類預(yù)測(cè)模型，同時(shí)在對(duì)建立起來的動(dòng)態(tài)預(yù)測(cè)模型上，輸入行情指標(biāo)以及技術(shù)指標(biāo)，這樣便建立起來較為合適的交易策略。

（七）分析結(jié)論

在對(duì)支持向量機(jī)進(jìn)行模型進(jìn)行分類的過程中，其輸入向量的確定，起到關(guān)鍵的作用。對(duì)于股票市場(chǎng)而言，股票的各種指標(biāo)，會(huì)受到大宗商品的影響，對(duì)于輸入向量的合理處理，是進(jìn)行問題解決的關(guān)鍵所在。相比較其他類型的機(jī)器學(xué)習(xí)算法處理方式，在本文的技術(shù)分析過程中，對(duì)于股票的預(yù)測(cè)效果比較好。同時(shí)為了進(jìn)一步的權(quán)衡，在股票市場(chǎng)當(dāng)中的提煉更有效的技術(shù)指標(biāo)，不斷的提升預(yù)測(cè)股票的準(zhǔn)確率。

三、結(jié)論

股指期貨推出后，市場(chǎng)對(duì)它的重視程度超過預(yù)期。除了股指期貨套利業(yè)務(wù)受到追捧外，風(fēng)險(xiǎn)偏好較大的投資者也希望通過期貨指數(shù)的杠桿效應(yīng)在投機(jī)業(yè)務(wù)中獲利。這時(shí)候判斷股指走勢(shì)就比以前重要了。我們將利用SVM的簡單預(yù)測(cè)模型，通過研究與股指密切相關(guān)的指標(biāo)來預(yù)測(cè)滬深300的走勢(shì)，在實(shí)際交易中具有很強(qiáng)的參考價(jià)值。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡