国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于支持向量機(jī)的股票量化交易策略實(shí)驗(yàn)與研究

2022-04-25 00:40:16熊峰
大眾投資指南 2022年4期
關(guān)鍵詞:股票向量分類

熊峰

(1.中國科學(xué)院合肥物質(zhì)科學(xué)研究院,安徽 合肥 230031; 2.中國科學(xué)技術(shù)大學(xué),安徽 合肥 230026)

在分析過程中,主要就機(jī)器學(xué)習(xí)當(dāng)中的SVM分類技術(shù)進(jìn)行研究,再利用股票的分類指標(biāo),當(dāng)作分類的基礎(chǔ)數(shù)據(jù),可以實(shí)現(xiàn)對(duì)股票進(jìn)行分類,以此來對(duì)股票的收益率進(jìn)行相應(yīng)的預(yù)測(cè)。在獲取的分類的結(jié)果之后,也能很好地對(duì)各種性質(zhì)的股票進(jìn)行組合,使得能夠保障計(jì)算出的收益率,大于市場(chǎng)當(dāng)中的平均收益率。

一、支持的向量機(jī)的背景介紹

支持向量機(jī)(SVM)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的新數(shù)據(jù)挖掘方法。它在解決小樣本,非線性和高維模式識(shí)別問題方面具有許多獨(dú)特的優(yōu)勢(shì)?;驹瓌t主要來自結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則和風(fēng)險(xiǎn)資本水平。支持向量機(jī)和二分類模式識(shí)別問題,也有人使用支持向量機(jī)進(jìn)行函數(shù)擬合。根據(jù)這兩個(gè)目的,支持向量機(jī)分為支持向量分類機(jī)和支持向量回歸機(jī)。常用的另一種數(shù)據(jù)挖掘方法是神經(jīng)網(wǎng)絡(luò)方法。與神經(jīng)網(wǎng)絡(luò)相比,支持向量機(jī)具有扎實(shí)的統(tǒng)計(jì)基礎(chǔ)。具有以下優(yōu)點(diǎn):

第一,根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小的原則,降低了提升誤差的上限,具有優(yōu)良的提升性能,解決了神經(jīng)網(wǎng)絡(luò)過擬合的現(xiàn)象。

第二,此問題的解決方案與具有線性約束的凸二次規(guī)劃問題相同。它具有全局最優(yōu)解,可以解決神經(jīng)網(wǎng)絡(luò)的局部最小問題。

第三,將原始問題映射到高維空間,在高維空間中構(gòu)造線性分類函數(shù)以劃分原始問題,并引入核函數(shù)來解決該問題。

以上優(yōu)點(diǎn)可以解決維度災(zāi)難問題。

結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則:在統(tǒng)計(jì)學(xué)習(xí)理論中,實(shí)際風(fēng)險(xiǎn)分為兩部分。一個(gè)是代表給定樣本分類函數(shù)誤差的經(jīng)驗(yàn)風(fēng)險(xiǎn),另一個(gè)是置信度風(fēng)險(xiǎn)。代表了可以在多大程度上可以信任分類器在未知數(shù)據(jù)上分類的結(jié)果。從統(tǒng)計(jì)學(xué)習(xí)中要獲最優(yōu)函數(shù),追求的不是經(jīng)驗(yàn)風(fēng)險(xiǎn)最優(yōu)化,而是結(jié)構(gòu)風(fēng)險(xiǎn)最優(yōu)化。我們的目標(biāo)是最大限度地減少機(jī)器學(xué)習(xí)方法的經(jīng)驗(yàn)風(fēng)險(xiǎn),但后來發(fā)現(xiàn)許多分類函數(shù)可以輕松實(shí)現(xiàn)樣本集很高的準(zhǔn)確性,但完全用于實(shí)盤分類的時(shí)候結(jié)果卻很不理想。此時(shí)選擇一個(gè)足夠復(fù)雜的分類函數(shù)以準(zhǔn)確存儲(chǔ)每個(gè)樣本,但是樣本之外的數(shù)據(jù)不能正確分類。這樣做的主要原因是,在訓(xùn)練小樣本時(shí),如果樣本數(shù)量與總樣本大小比例太小,小樣本不能很好地反映所有樣本的行為,這就導(dǎo)致推廣性很低。此時(shí)我們需要了解分類函數(shù)對(duì)未知數(shù)據(jù)的分類能力,需要用致信度風(fēng)險(xiǎn)來衡量。

通過篩選了一些在中國具有代表性和知名度的股票。通常,與大型股票指數(shù)相比,單個(gè)股票的波動(dòng)性更為“隨機(jī)”。解決方案是提出一套可行的方法,在實(shí)際操作中,可以根據(jù)實(shí)際情況靈活選擇參數(shù)和數(shù)據(jù)指標(biāo)。如果對(duì)單個(gè)股票的研究能夠產(chǎn)生一致的結(jié)果,它將在投資中有很強(qiáng)的指導(dǎo)性,但是將單個(gè)股票的特性推廣到其他股票研究也有一定風(fēng)險(xiǎn)。

二、分類預(yù)測(cè)的基本流程

(一)模型輸入變量以及輸出變量的選擇

對(duì)于支持向量機(jī)而言,需要依據(jù)樣本當(dāng)中的特征x以及屬性y,來對(duì)樣本進(jìn)行分類。為此,在對(duì)輸入向量的合理性確定的過程中,其輸出向量y有著重要的作用。在進(jìn)行特征變量選擇的過程中,需要重視起特征向量與預(yù)測(cè)結(jié)果之間的關(guān)聯(lián)。同時(shí),對(duì)于輸入向量當(dāng)中的一些無關(guān)特征向量上,會(huì)使得取得的問題具有較高的復(fù)雜性,降低成功預(yù)測(cè)的可能性。

在基礎(chǔ)行情方面,一般情況下主要的指標(biāo)為漲幅、成交量、持倉量、最高價(jià)、最低價(jià)以及收盤價(jià),但是對(duì)于股票的技術(shù)性指標(biāo)分析上,則需要重視起對(duì)MA5、CCI、OBV以及RSI等指標(biāo)的分析。而在對(duì)實(shí)際的股票數(shù)據(jù)進(jìn)行分析的過程中,由于在基礎(chǔ)行情指標(biāo),以及在技術(shù)性指標(biāo)當(dāng)中信息數(shù)據(jù)可能會(huì)存在相同的情況,為此在進(jìn)行問題解決的過程中,會(huì)存在著一定的困難。因此針對(duì)這種問題,需要在分析的過程中,利用主成分分析方法來進(jìn)行處理,對(duì)問題進(jìn)行降維。

獲取均線,MACD等指標(biāo)數(shù)據(jù)。

data[‘5’] = data.close.rolling(5).mean()

data[‘20’] = data.close.rolling(20).mean()

data[‘60’] = data.close.rolling(60).mean()

DIFF, DEA, hist = talib.MACD(data[‘close’],f a s t p e r i o d=f a s t p e r i o d, s l o w p e r i o d=s l o w p e r i o d, signalperiod=signalperiod)

data[‘CCI’] = talib.CCI(data.high,data.low,data.close,timeperiod=14)

data[‘upperband’],data[‘middleband’],data[‘lowerband’] =talib.BBANDS(data.close,timeperiod=20, nbdevup=2, nbdevdn=2)

(二)分類問題的基本流程

現(xiàn)階段提出了各種類型的分析方法和建模的方式,但是對(duì)于機(jī)器學(xué)習(xí)領(lǐng)域分類方面,采用的流程比較相似,例如需要進(jìn)行模式設(shè)計(jì)以及學(xué)習(xí)模式的設(shè)計(jì)。在統(tǒng)計(jì)學(xué)理論下,設(shè)計(jì)模式主要體現(xiàn)于訓(xùn)練集進(jìn)行集中的訓(xùn)練,以此獲取到一個(gè)分類器。對(duì)于學(xué)習(xí)模式而言,主要是在訓(xùn)練的過程中,利用各種參數(shù)進(jìn)行訓(xùn)練,最后再對(duì)其測(cè)試集進(jìn)行相應(yīng)的測(cè)試,并對(duì)測(cè)試的結(jié)果進(jìn)行分類決策分析。

(三)數(shù)據(jù)預(yù)處理

首先需要進(jìn)行缺失值的處理,本文對(duì)A股當(dāng)中出現(xiàn)的財(cái)務(wù)指標(biāo)數(shù)據(jù)進(jìn)行分析,但是對(duì)于另一些公司而言,一旦在一段時(shí)間內(nèi)停牌,就會(huì)導(dǎo)致數(shù)據(jù)并不會(huì)很好的體現(xiàn)財(cái)務(wù)指標(biāo),為此就造成了數(shù)據(jù)的缺失值出現(xiàn)。對(duì)于這一部門的缺失值處理,就需要進(jìn)行手工的處理,將數(shù)據(jù)進(jìn)行補(bǔ)全。但是一旦出現(xiàn)了大量的缺失值,就需要對(duì)數(shù)據(jù)進(jìn)行刪除。

其次對(duì)原始數(shù)據(jù)處理之外,還需要對(duì)數(shù)據(jù)經(jīng)行標(biāo)準(zhǔn)化在多維樣本數(shù)據(jù)中,由于每個(gè)標(biāo)量都來自不同的字段并且具有不同的值范圍,因此不同的分量具有不同的數(shù)據(jù)大小,并且較大的分量也非常大。對(duì)模型的影響越大,組件越小,對(duì)模型的影響就越小。這就像在構(gòu)建模型之前人為地將權(quán)重添加到其他指標(biāo)一樣比例。甚至丟失了一些信息,使其變得非常不科學(xué)。另外,由于計(jì)算機(jī)可以表示的數(shù)據(jù)的精度是有限的,所以如果單個(gè)數(shù)據(jù)太大或太小,則計(jì)算出的數(shù)據(jù)將很容易越界并丟失信息?;谝陨峡紤],必須在一定程度上處理選擇的原始數(shù)據(jù),數(shù)據(jù)處理具體步驟如下:

1.去極值:一般去極值的處理方法就是確定該項(xiàng)指標(biāo)的上下限,然后超過或者低于限值的數(shù)據(jù)統(tǒng)統(tǒng)即為限值。

2.缺失值處理:得到新的因子暴露度序列后,將因子暴露度缺失的地方設(shè)為中信一級(jí)行業(yè)相同個(gè)股的平均值。

3.行業(yè)市值中性化:將填充缺失值后的因子暴露度對(duì)行業(yè)變量和取對(duì)數(shù)后的市值做線性回歸,取殘差作為新的因子暴露度。

4.標(biāo)準(zhǔn)化:將中性化處理后的因子暴露度序列減去其現(xiàn)在的均值、除以其標(biāo)準(zhǔn)差,得到一個(gè)新的近似服從N(0,1)分布的序列。

5.主成分分析:為避免特征之間的共線性,對(duì)標(biāo)準(zhǔn)化處理后的指標(biāo)等因子暴露度進(jìn)主成分分析,得到維度轉(zhuǎn)換后的新特征。

(四)模型參數(shù)尋優(yōu)

在應(yīng)用支持向量機(jī)對(duì)其分類的問題進(jìn)行預(yù)測(cè)的過程中,需要進(jìn)行懲罰參數(shù)C以及核函數(shù)G的確定,一旦這兩個(gè)影響因素?zé)o法確定,就會(huì)出現(xiàn)過度學(xué)習(xí)的問題。在對(duì)C和G進(jìn)行確定的過程中,主要是利用遺傳算法進(jìn)行參數(shù)的尋找,但是在本文的分析過程中,采用了粒子群算法之后,可以利用其智能優(yōu)化的算法類型,進(jìn)行尋優(yōu)機(jī)制的優(yōu)化處理,以此尋找到最優(yōu)解。

使用風(fēng)格搜索尋找最佳參數(shù)。

grid_search = GridSearchCV(SVC(), param_grid, cv=5, return_train_score=True)

grid_search.fit(X_train_scaled,y_train)

表1 訓(xùn)練結(jié)果

mean_train_score mean_test_score param_C param_gamma rank_test_score 1.0 0.526035 100 0.01 35 1.0 0.561699 100 0.1 31 1.0 0.574980 100 1 1 1.0 0.574980 100 10 1 1.0 0.574980 100 100 1

圖1 參數(shù)搜索熱力圖

(五)模型的評(píng)價(jià)指標(biāo)

在本文的分析過程中,需要對(duì)建立起來的模型進(jìn)行系統(tǒng)分析和檢驗(yàn),為此需要應(yīng)用到股票價(jià)格的分類預(yù)測(cè)。之后再將預(yù)測(cè)的結(jié)果,在不同高斯核函數(shù)下,對(duì)建立起來的SVM預(yù)測(cè)模型進(jìn)行數(shù)據(jù)的比較分析。

(六)模型總流程

首先需要取A股的股票數(shù)據(jù),之后再依據(jù)歷史的行情,將行情的變量以及技術(shù)指標(biāo)的變量輸入其中。之后利用主成分分析方法,對(duì)其輸入的向量數(shù)據(jù)進(jìn)行系統(tǒng)的分析和降維,這樣的處理方式,可以有效地降低模型的復(fù)雜程度。然后需要使用最優(yōu)核函數(shù),建立起動(dòng)態(tài)分類預(yù)測(cè)模型,同時(shí)在對(duì)建立起來的動(dòng)態(tài)預(yù)測(cè)模型上,輸入行情指標(biāo)以及技術(shù)指標(biāo),這樣便建立起來較為合適的交易策略。

(七)分析結(jié)論

在對(duì)支持向量機(jī)進(jìn)行模型進(jìn)行分類的過程中,其輸入向量的確定,起到關(guān)鍵的作用。對(duì)于股票市場(chǎng)而言,股票的各種指標(biāo),會(huì)受到大宗商品的影響,對(duì)于輸入向量的合理處理,是進(jìn)行問題解決的關(guān)鍵所在。相比較其他類型的機(jī)器學(xué)習(xí)算法處理方式,在本文的技術(shù)分析過程中,對(duì)于股票的預(yù)測(cè)效果比較好。同時(shí)為了進(jìn)一步的權(quán)衡,在股票市場(chǎng)當(dāng)中的提煉更有效的技術(shù)指標(biāo),不斷的提升預(yù)測(cè)股票的準(zhǔn)確率。

三、結(jié)論

股指期貨推出后,市場(chǎng)對(duì)它的重視程度超過預(yù)期。除了股指期貨套利業(yè)務(wù)受到追捧外,風(fēng)險(xiǎn)偏好較大的投資者也希望通過期貨指數(shù)的杠桿效應(yīng)在投機(jī)業(yè)務(wù)中獲利。這時(shí)候判斷股指走勢(shì)就比以前重要了。我們將利用SVM的簡單預(yù)測(cè)模型,通過研究與股指密切相關(guān)的指標(biāo)來預(yù)測(cè)滬深300的走勢(shì),在實(shí)際交易中具有很強(qiáng)的參考價(jià)值。

猜你喜歡
股票向量分類
向量的分解
分類算一算
聚焦“向量與三角”創(chuàng)新題
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
本周創(chuàng)出今年以來新高的股票
本周創(chuàng)出今年以來新高的股票
本周連續(xù)上漲3天以上的股票
近期連續(xù)漲、跌3天以上的股票
萨迦县| 甘南县| 柳林县| 遵化市| 泽州县| 门头沟区| 三门县| 上栗县| 宜兴市| 天全县| 常州市| 织金县| 敦化市| 嘉兴市| 鱼台县| 华宁县| 濉溪县| 蓬莱市| 皮山县| 漳州市| 叙永县| 南充市| 察雅县| 宜君县| 平昌县| 奉化市| 弥渡县| 新邵县| 宜丰县| 侯马市| 大姚县| 延吉市| 象州县| 达拉特旗| 张掖市| 南京市| 菏泽市| 肇庆市| 古蔺县| 常宁市| 江油市|