国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于集成學(xué)習(xí)的高送轉(zhuǎn)股票研究

2017-03-31 05:44:10王凱龍衛(wèi)江
時代金融 2016年36期
關(guān)鍵詞:集成學(xué)習(xí)投資組合

王凱+龍衛(wèi)江

【摘要】高送轉(zhuǎn)預(yù)案公告發(fā)布前,高送轉(zhuǎn)股票具有顯著的累計正收益,因此預(yù)測高送轉(zhuǎn)股票對于投資具有重要意義。高送轉(zhuǎn)股票的預(yù)測是分類預(yù)測問題,本文利用上市公司三季度財報數(shù)據(jù),采用3種集成學(xué)習(xí)算法:由K-近鄰算法、決策樹以及加lasso懲罰項的邏輯斯蒂回歸算法構(gòu)建預(yù)測模型——“組合”模型,經(jīng)典的集成學(xué)習(xí)算法——AdaBoost算法以及隨機(jī)森林算法進(jìn)行建模。本文采用準(zhǔn)確率以及G-mean作為模型評價標(biāo)準(zhǔn),結(jié)果顯示:“組合”模型的準(zhǔn)確率最高,隨機(jī)森林和“組合”模型的G-mean表現(xiàn)相當(dāng),均優(yōu)于adaboost算法。由于每年高送轉(zhuǎn)股票所占比例小于50%,數(shù)據(jù)可以看成是非平衡數(shù)據(jù),為了改善“組合”模型較差的召回率,本文采用K-Means聚類的欠抽樣方法,將此方法用在“組合”模型上,效果顯著。最后分別對上面三種模型預(yù)測的股票構(gòu)建投資組合,并以HS300指數(shù)做基準(zhǔn)。結(jié)果顯示:“組合”模型預(yù)測得到的高送轉(zhuǎn)股票組合表現(xiàn)優(yōu)于另外兩種集成學(xué)習(xí)模型。

【關(guān)鍵詞】高送轉(zhuǎn) 集成學(xué)習(xí) 非平衡數(shù)據(jù) 投資組合

一、引言

所謂“高送轉(zhuǎn)股票”是指上市公司大比例送紅股或大比例以資本公積金轉(zhuǎn)增股票,市場送轉(zhuǎn)股比例超過0.5的股票為“高送轉(zhuǎn)股票”。雖然上市公司送股、轉(zhuǎn)增股票及不影響其當(dāng)期現(xiàn)金流,也不影響其未來現(xiàn)金流,從而這種分紅并不影響公司價值,但高送轉(zhuǎn)事件向市場傳遞了公司發(fā)展良好、行業(yè)發(fā)展前景樂觀的信息,這導(dǎo)致不少投資者盲目的投資具有高送轉(zhuǎn)概念的股票。據(jù)文獻(xiàn)研究:中國股市具有明顯的高送轉(zhuǎn)公告效應(yīng),即高送轉(zhuǎn)股票在預(yù)案日公布前會出現(xiàn)正的超額收益率[1],陳珠明(2010)通過實證研究發(fā)現(xiàn):高送轉(zhuǎn)股票在預(yù)案公告日之前具有顯著的超額收益[2],因此,投資者為了在高送轉(zhuǎn)事件中獲取更多的超額收益率,在公告前預(yù)測高送轉(zhuǎn)股票顯得至關(guān)重要了。影響上市公司實施高送轉(zhuǎn)的因素有很多,車仲春等人認(rèn)為高送轉(zhuǎn)股票通常具有高積累、高業(yè)績、高股價和小股本這些特征[3],同時結(jié)合市場上一些券商的研究,本文將影響高送轉(zhuǎn)事件的主要因素定為:每股資本公積金、每股未分配利潤、每股收益、每股凈資產(chǎn)、每股現(xiàn)金凈流量、每股營業(yè)收入、上市時間以及股價九大因素。因此,投資者將預(yù)測高送轉(zhuǎn)事件是否發(fā)生視為一個二分類問題,即股票要么“高送轉(zhuǎn)”,要么“不高送轉(zhuǎn)”。由于高送轉(zhuǎn)股票在A股市場上所占比例遠(yuǎn)小于50%,此分類問題可以看成是非平衡數(shù)據(jù)分類問題,因此本文將采用K-Means聚類的欠抽樣方法[4]解決非平衡問題。

二、高送轉(zhuǎn)預(yù)測模型構(gòu)建及評價

(一)數(shù)據(jù)來源

本文研究的樣本是2009年至2015年剔除ST、PT股票的全部A股市場股票,選用的指標(biāo)數(shù)據(jù)如表1所示,數(shù)據(jù)來源于天軟(Tinysoft)數(shù)據(jù)庫。

(二)模型算法

令T年為測試集年份,為了構(gòu)建“高送轉(zhuǎn)”預(yù)測模型,我們訓(xùn)練集數(shù)據(jù)選為T-1年的三季度數(shù)據(jù),訓(xùn)練集樣本選取T-1年10月31日這天公布三季度報的非ST、PT股票,訓(xùn)練集的響應(yīng)變量則由T-1年樣本公告預(yù)案日公布的送、轉(zhuǎn)股比例是否超過0.5決定,如果超過0.5,表明樣本為“高送轉(zhuǎn)”股票,訓(xùn)練集的樣本標(biāo)簽為1,否則為0;本文的測試集樣本為T年10月31日公布三季度報的非ST、PT股票。

首先,我們將分別使用K-近鄰算法、決策樹決策樹以及正則化的Logistic回歸構(gòu)建預(yù)測模型,并對這三種預(yù)測結(jié)果進(jìn)行投票以構(gòu)建一種“組合”模型,同時我們也分別采用集成學(xué)習(xí)算法Adaboost、隨機(jī)森林來構(gòu)建“高送轉(zhuǎn)”預(yù)測模型。

1.K-近鄰算。K-近鄰算法[5]的工作原理是:存在一個樣本數(shù)據(jù)集合,并且樣本集中的每一數(shù)據(jù)都存在標(biāo)簽,輸入沒有標(biāo)簽的新數(shù)據(jù)后,將新數(shù)據(jù)的每個特征與樣本數(shù)據(jù)集中數(shù)據(jù)對應(yīng)的特征進(jìn)行比較,然后算法提取樣本集中前K個最相似(最近鄰)的數(shù)據(jù),選擇數(shù)據(jù)中出現(xiàn)次數(shù)最多的分類,作為新數(shù)據(jù)的分類。采用K-近鄰算法需要對自變量數(shù)據(jù)歸一化,這里采用下面公式對數(shù)據(jù)歸一化:

newValue=(oldValue-min)/(max-min) (1)

其中min和max分別是對應(yīng)屬性數(shù)據(jù)集的最小特征值和最大特征值。

對應(yīng)K-近鄰算法,模型的參數(shù)主要為K和距離,通過對該樣本數(shù)據(jù)進(jìn)行檢驗,發(fā)現(xiàn)K取3,距離選用歐氏距離時,預(yù)測結(jié)果較好。

2.決策樹算法。決策樹算法[5]由Breiman等人在1984年提出的,是應(yīng)用廣泛的決策樹學(xué)習(xí)方法,該算法有兩部分組成:(1)決策樹生成;(2)決策樹剪枝。本文決策樹生成就是遞歸地構(gòu)建二叉決策樹的過程,對回歸樹用平方誤差最小化準(zhǔn)則,對分類樹用基尼指數(shù)最小化準(zhǔn)則,進(jìn)行特征選擇,生成二叉樹。決策樹剪枝算法由兩部分組成:首先從生成的決策樹T0底端開始不斷剪枝,直到根節(jié)點(diǎn),形成1個子樹序列{T0,T1,…,Tn};然后通過交叉驗證法在獨(dú)立的驗證數(shù)據(jù)集上對子樹序列進(jìn)行測試,從中選擇最優(yōu)子樹。

3.正則化Logistic算法。二項邏輯斯蒂回歸模型[5]是一種分類模型,由條件分布P(Y|X)表示,形式為參數(shù)化的邏輯斯蒂分布,條件概率分布如下:

P(Y=1|x)=exp(w*x+b)/[1+exp(wx+b)] (2)

P(Y=0|x)=1/(1+exp(wx+b)) (3)

其中隨機(jī)變量Y取值為1或0,隨機(jī)變量x為實數(shù),w和b是參數(shù)。

邏輯斯蒂回歸模型學(xué)習(xí)時,對于給定的訓(xùn)練數(shù)據(jù)集T={(x1,y1),(x2,y2),…,(xn,yn)},可以應(yīng)用極大釋然估計求出參數(shù)。為了解決多重共線性的問題,本文采用增加lasso懲罰項的方法,采用10折交叉驗證求出lasso的最優(yōu)參數(shù)lambda,然后求出邏輯斯蒂回歸。

4.AdaBoost算。AdaBoost算法[5]是一種常用的集成學(xué)習(xí)算法,它從弱學(xué)習(xí)算法出發(fā),反復(fù)學(xué)習(xí),得到一系列弱分類器,然后組合這些弱分類器,構(gòu)成一個強(qiáng)分類器。AdaBoost根據(jù)每次訓(xùn)練樣本中樣本的分類是否正確,來確定下一次學(xué)習(xí)時的樣本權(quán)值,將修改權(quán)值的樣本再次進(jìn)行弱分類算法學(xué)習(xí),這樣構(gòu)成一個弱分類器組合,AdaBoost采取加權(quán)多數(shù)表決的方法,具體的,加大分類誤差率小的弱分類器的權(quán)值,使其在表決中起到較大的作用,減少分類誤差率大的弱分類器的權(quán)值,使其在表決中起到較小的作用。

5.隨機(jī)森林算法。隨機(jī)森林算法(RF)[6]是Breiman在2001年提出的一種集成算法。它利用bootstrap重抽樣方法從原始樣本中抽取多個樣本,對每個bootstrap樣本進(jìn)行決策樹建模,然后通過投票取得最終分類結(jié)果。

6.基于K-Means聚類的欠抽樣算法。K-Means聚類是最常用的聚類方法之一,常采用距離作為樣本相似性的度量,即樣本之間的距離越小,則樣本的相似性越高。

欠抽樣是通過減少多數(shù)類樣本的數(shù)量來平衡兩類樣本的,欠抽樣可以有效減少數(shù)據(jù)的不平衡性,然而欠抽樣會破壞多數(shù)類樣本的整體結(jié)構(gòu),針對此問題本文使用了一種基于K-Means聚類的欠抽樣算法[3]:首先,將多類數(shù)據(jù)聚類,然后采用欠抽樣計數(shù)按照一定比例在多類數(shù)據(jù)的每個類別里抽取一定數(shù)量的樣本。

(三)模型評價指標(biāo)

本文所使用的數(shù)據(jù)為非平衡數(shù)據(jù),關(guān)注的重點(diǎn)是高送轉(zhuǎn)股票,因此本文以高送轉(zhuǎn)股票(正類樣本)的準(zhǔn)確率作為模型評價指標(biāo),同時G-mean也是衡量分類器性能的常用指標(biāo),表2是二分類的混淆矩陣:

其中,TP和TN分別表示正確預(yù)測的正類和負(fù)類的樣本數(shù)量,F(xiàn)P和FN分別表示誤分類的正類和負(fù)類的樣本數(shù)量。在高送轉(zhuǎn)預(yù)測模型中,高送轉(zhuǎn)股票占比比較少,我們關(guān)注更多的是發(fā)生高送轉(zhuǎn)的股票(正類樣本),正類樣本的準(zhǔn)確率為:

三、實驗

下面分別使用由K-近鄰,決策樹以及邏輯斯蒂回歸構(gòu)成的“組合”模型、Adaboost算法模型以及隨機(jī)森林算法模型,對2009年~2014年的年報公布的“高送轉(zhuǎn)”股票進(jìn)行預(yù)測,訓(xùn)練數(shù)據(jù)集選用相應(yīng)年份前一年的三季度財報數(shù)據(jù)。分別求出每個模型每年的正類準(zhǔn)確率、召回率以及G-mean值,結(jié)果如下面圖所示:

由上面兩個圖形可以看出,“組合”模型的準(zhǔn)確率較高,而在G-mean值上,隨機(jī)森林與“組合”模型的表現(xiàn)相當(dāng)。由此可以看出,“組合”模型在高送轉(zhuǎn)預(yù)測模型中表現(xiàn)的最好。

為了處理非平衡數(shù)據(jù),本文采用K-mean聚類的欠抽樣技術(shù)減少數(shù)據(jù)的非平衡度,本文將每年正、負(fù)類比例調(diào)整為2,然后比較“組合”模型在數(shù)據(jù)平衡化前后的表現(xiàn),以G-mean值作為衡量整體分類性能的指標(biāo),比較結(jié)果如下圖所示:

由上圖可知,平衡化數(shù)據(jù)后模型的整體分類性能有所提高,這表明對于非平衡數(shù)據(jù),先對非平衡數(shù)據(jù)進(jìn)行平衡化處理,之后再進(jìn)行分類,可以提高模型的整體分類性能。采取欠抽樣計數(shù)只是處理非平衡數(shù)據(jù)眾多技術(shù)之一,對于欠抽樣,最理想的正、負(fù)類的比例并不一定是1:1,針對不同的數(shù)據(jù),可以不斷嘗試以獲得使模型達(dá)到較好的表現(xiàn)。

為了檢驗“組合”模型、adaboost算法模型以及隨機(jī)森林模型的投資表現(xiàn),本文對每年模型預(yù)測得到的高送轉(zhuǎn)股票進(jìn)行等權(quán)配資,每年的1月30日后一交易日開倉,當(dāng)持倉票發(fā)布年報時,將這只股票平倉,在3月30日將還在持倉的股票全部平倉,共231個交易日,另外以HS300指數(shù)為基準(zhǔn),則各個模型及基準(zhǔn)的凈值曲線如圖6所示,各個模型的最終收益率、年化收益率、夏普比率以及最大回撤率如表3所示:

由圖5可以看出,高送轉(zhuǎn)股票具有高送轉(zhuǎn)公告效應(yīng),每個模型表現(xiàn)均明顯優(yōu)于基準(zhǔn)HS300指數(shù),同時,“組合2”模型的表現(xiàn)表現(xiàn)要好于非平衡數(shù)據(jù)下的“組合”模型,而它們均優(yōu)于Adaboost和隨機(jī)森林模型。本次實驗表明,經(jīng)過平衡化處理的“組合2”模型對于投資有較好的指導(dǎo)作用。

四、結(jié)論

本文為了建立有效的高送轉(zhuǎn)股票預(yù)測模型,以KNN,邏輯斯蒂回歸以及決策樹為基分類器構(gòu)建了“組合”模型,同時也采用Adaboost以及隨機(jī)森林等集成學(xué)習(xí)算法構(gòu)建預(yù)測模型。本文以高送轉(zhuǎn)股票(正類)的準(zhǔn)確率以及G-mean值為模型的評價指標(biāo),發(fā)現(xiàn)“組合”模型表現(xiàn)高于Adaboost算法以及隨機(jī)森林算法,同時具有令人滿意的準(zhǔn)確率,這說明多分類器構(gòu)建的分類模型在高送轉(zhuǎn)股票應(yīng)用中有很多的實際價值。本文針對數(shù)據(jù)的非平衡性,使用了基于K-mean聚類的欠抽樣技術(shù),采用“組合”模型進(jìn)行實驗,結(jié)果顯示:平衡化數(shù)據(jù)后,“組合”模型的投資效用有所提升。

參考文獻(xiàn)

[1]沈海平.我國上市公司高送轉(zhuǎn)公告效應(yīng)的實證研究[J].區(qū)域金融市場,2011,28(4):47-51.

[2]車仲春,趙玉新,關(guān)爽.上市公司“高送轉(zhuǎn)”政策的趨勢與特征分析[J].會計之友,2013,(6):26-31.

[3]陳珠明,史余森.高送轉(zhuǎn)股票財富效應(yīng)的實證研究[J].系統(tǒng)工程,2010,(10)

[4]周賓賓.基于非平衡數(shù)據(jù)的集成學(xué)習(xí)分類及應(yīng)用[D].廣州:華南理工大學(xué),2014.

[5]統(tǒng)計學(xué)習(xí)方法/李航著.——北京:清華大學(xué)出版社,2012.3.

[6]Verikas A,Gelzinis A,Bacauskiene M.Mining data with random forests:a survey and results of new tests[J].Pattern Recognition,2011.44(2):330-349.

作者簡介:王凱(1992-),男,漢族,河南周口,華南理工大學(xué)碩士研究生,研究方向:金融工程;龍衛(wèi)江(1962-),男,博士,副教授,研究方向:金融工程。

猜你喜歡
集成學(xué)習(xí)投資組合
基于集成學(xué)習(xí)的房價預(yù)測模型
基于局部有效性的選擇性決策樹集成
基于稀疏編碼器與集成學(xué)習(xí)的文本分類
基于屬性權(quán)重的Bagging回歸算法研究
個人理財投資組合策略分析
商情(2016年43期)2016-12-23 14:27:30
企業(yè)財經(jīng)管理對投資組合保險的應(yīng)用思考
含有模糊約束的最優(yōu)投資組合模型
不確定收益的最優(yōu)投資組合模型
中國市場(2016年24期)2016-07-06 16:35:24
基于改進(jìn)的LogitBoost算法的垃圾網(wǎng)頁檢測研究
科技視界(2015年27期)2015-10-08 11:01:28
我國開放式證券投資基金投資組合研究
英德市| 丘北县| 石棉县| 万宁市| 安阳市| 漠河县| 神木县| 龙岩市| 新竹市| 石门县| 成安县| 张家港市| 措勤县| 阜康市| 新营市| 朝阳区| 涿州市| 尉犁县| 尖扎县| 巩留县| 祁连县| 酉阳| 道真| 黄石市| 苍山县| 琼结县| 政和县| 新宾| 城步| 磐安县| 图片| 信丰县| 察隅县| 无极县| 蕉岭县| 克拉玛依市| 邵阳县| 咸丰县| 衡阳市| 济宁市| 乾安县|