李豫 方子強(qiáng)
摘要:本文主要針對(duì)300多個(gè)反映上市公司是否高送轉(zhuǎn)的因子于3000多個(gè)上市公司的日數(shù)據(jù)與年數(shù)據(jù)的研究,利用機(jī)器學(xué)習(xí)的思想對(duì)因子進(jìn)行篩選和對(duì)上市公司未來(lái)高送轉(zhuǎn)的預(yù)測(cè)。首先,對(duì)年數(shù)據(jù)和日數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理后,利用向后逐步回歸模型對(duì)大量因子進(jìn)行篩選,其次利用因子分析法對(duì)逐步回歸篩選出5個(gè)公共因子,這篩選出的5個(gè)公共因子可以很好的解釋上市公司是否高送轉(zhuǎn)的情況,在某種程度可以解釋為5個(gè)公共因子所相關(guān)的因子即為上市公司實(shí)施高送轉(zhuǎn)方案影響較大的因子。最后建立多元邏輯回歸模型,對(duì)公共因子做進(jìn)一步解釋和對(duì)上市公司第8年實(shí)施高送轉(zhuǎn)進(jìn)行預(yù)測(cè)。通過(guò)機(jī)器學(xué)習(xí)的算法結(jié)合經(jīng)濟(jì)學(xué)知識(shí)和實(shí)際生活,最終得到了很好量化上市公司實(shí)施高送轉(zhuǎn)方案影響較大的因子。并結(jié)合問(wèn)題一選取的因子建立了邏輯回歸模型預(yù)測(cè)上市公司第八年實(shí)施高送轉(zhuǎn)的情況。通過(guò)建立訓(xùn)練集和測(cè)試集的方法對(duì)模型進(jìn)行訓(xùn)練的方法,最終可以將模型的預(yù)測(cè)成功率穩(wěn)定在80%。從經(jīng)濟(jì)學(xué)和實(shí)際生活進(jìn)行考慮,該模型可以很好的預(yù)測(cè)出上市公司未來(lái)高送轉(zhuǎn)的情況,具有很大的現(xiàn)實(shí)意義。
關(guān)鍵詞:機(jī)器學(xué)習(xí);向后逐步回歸;因子分析法
1 引言
高送轉(zhuǎn)是指送紅股或者轉(zhuǎn)增股票的比例很大,是上市公司分紅的一種方式。上市上市公司在施行高送轉(zhuǎn)方案后會(huì)做除權(quán)處理,投資者可以通過(guò)填權(quán)行情從股票增值中獲利,如果我們可以通過(guò)股票研究影響高送轉(zhuǎn)的因子從而精確的預(yù)測(cè)出下一年會(huì)施行高送轉(zhuǎn)方案的公司并提前買入的話,這將對(duì)投資的收益和安全性具有很大的現(xiàn)實(shí)意義。而影響高送的因子主要分成兩類:一類是基本因子,另一類是成長(zhǎng)因子。我們需要對(duì)基本因子和成長(zhǎng)因子和其他一些因子進(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)分析。
2 模型的建立
首先考量了年數(shù)據(jù)有大約24000行數(shù)據(jù),360個(gè)因子,其中很多因子和行數(shù)據(jù)由于不同的原因出現(xiàn)了大量缺失值和稀疏矩陣。我們對(duì)于不同情況的空缺值進(jìn)行考量,將通過(guò)以下的方案進(jìn)行數(shù)據(jù)清洗??杖敝荡笥?0%的數(shù)據(jù)列,由于缺失值過(guò)多,若使用其他數(shù)值替代會(huì)很不合理,所以對(duì)于空缺值大于30%的列直接刪除,不予考慮。對(duì)于空缺值小于30%的數(shù)列,由于缺失的數(shù)據(jù)不算太多,如果直接刪除又會(huì)損失掉可利用的信息,所以我們不妨對(duì)于這一部分的數(shù)據(jù)列用均值進(jìn)行替代。除了每股送轉(zhuǎn)的缺失值用0替代。因?yàn)槊抗伤娃D(zhuǎn)的值缺失,即表示為該公司沒(méi)有進(jìn)行送轉(zhuǎn),那么每股送轉(zhuǎn)就為0。在有些上市年限未能達(dá)到7年,就導(dǎo)致了一些行數(shù)據(jù)缺失。那么不妨就上市年限少于7年的公司進(jìn)行刪除,篩選出了7年內(nèi)每年都公布了高轉(zhuǎn)送預(yù)案的公司進(jìn)行著重分析會(huì)對(duì)股票高送轉(zhuǎn)影響因子這樣復(fù)雜的問(wèn)題簡(jiǎn)化了。
3 模型的求解
對(duì)于日數(shù)據(jù),數(shù)據(jù)清理部分與年數(shù)據(jù)相同。最終刪除了49個(gè)因子。保留了11個(gè)因子,對(duì)于這11個(gè)因子通過(guò)查閱相關(guān)文獻(xiàn),和分析其經(jīng)濟(jì)學(xué)意義,最終保留了平均股價(jià)和成交量這兩個(gè)最能夠反映企業(yè)高送轉(zhuǎn)的因子。我們對(duì)每年每天每個(gè)公司的平均股價(jià)和成交量求平均值。將最后預(yù)處理后的數(shù)據(jù)加入到年數(shù)據(jù)中當(dāng)成新的兩個(gè)因子,在后面的步驟一起進(jìn)行分析。這樣我們就綜合了年數(shù)據(jù)與日數(shù)據(jù)對(duì)上市公司是否實(shí)施高送轉(zhuǎn)的因子進(jìn)行分析了。
對(duì)因子的系數(shù)進(jìn)行可視化,可以觀察到,上市公司是否進(jìn)行高送轉(zhuǎn)的主要影響因子,最大的是股價(jià)因子。而成長(zhǎng)因子、利潤(rùn)因子、方案因子只會(huì)在股價(jià)因子水平一定的條件下部分影響股票的高送轉(zhuǎn)。也就是說(shuō)主要影響股票高送轉(zhuǎn)的還是股價(jià)、總股本、每股收益等于股價(jià)相關(guān)的因子。而上市年限、每股未分配利潤(rùn),每股資本公積、是否存在定增方案等因子有一定的相關(guān)性。
4 總結(jié)
綜合了機(jī)器學(xué)習(xí)的向后逐步回歸、因子分析法、多元邏輯回歸等模型方法對(duì)上市公司實(shí)施高送轉(zhuǎn)方案的影響因子做了相應(yīng)研究,得出來(lái)了影響高送轉(zhuǎn)較大的因子,并對(duì)上市公司第八年實(shí)施高送轉(zhuǎn)方案進(jìn)行預(yù)測(cè)。首先對(duì)數(shù)據(jù)清洗和預(yù)處理篩選出了225個(gè)因子和16240個(gè)研究數(shù)據(jù)。接著對(duì)剩下的225個(gè)因子作向后逐步回歸。選出了29個(gè)線性相關(guān)的因子,然后由于29個(gè)因子之間也具有很強(qiáng)的相關(guān)性,所以還可以利用因子分析法進(jìn)行降維,最后降維保留了5個(gè)公共因子。這5個(gè)公共因子分別為成長(zhǎng)因子、利潤(rùn)因子、股價(jià)因子、方案因子、其他因子。那么我們則可以認(rèn)為這5個(gè)公共因子是對(duì)上市公司實(shí)施高送轉(zhuǎn)方案影響較大的因子。而這五個(gè)公共因子又表示了不同因子,即這些不同因子就是企業(yè)實(shí)施高送方案影響較大的因子。最后通過(guò)分析得出股價(jià)、總股本、上市年限、每股未分配利潤(rùn)、每股公積金、企業(yè)負(fù)債等因子會(huì)影響上市公司實(shí)施高送轉(zhuǎn)方案。通過(guò)對(duì)5個(gè)公共因子進(jìn)行二分類邏輯回歸,可以通過(guò)這個(gè)多元邏輯回歸模型對(duì)上市公司第8年上市公司實(shí)施高送轉(zhuǎn)的情況進(jìn)行預(yù)測(cè)并且可以通過(guò)該模型得到的5個(gè)公共因子有更加深入的分析。最后的結(jié)論是:在得出的5個(gè)公共因子進(jìn)行二元回歸分析,可以得出在五個(gè)公共因子里面股價(jià)因子(股價(jià)、每股收益等)會(huì)對(duì)上市公司實(shí)施高送轉(zhuǎn)有最大的影響,對(duì)于資產(chǎn)因子、利潤(rùn)因子、方案因子有一定的影響。在優(yōu)化后的二分類邏輯回歸用于預(yù)測(cè)上市公司高送轉(zhuǎn)的情況,有80%預(yù)測(cè)成功率。認(rèn)為可以在一定情況下可以相信該模型。這會(huì)對(duì)投資的安全性和收益性有很大的意義。
參考文獻(xiàn)
[1]喻永生.股票價(jià)格預(yù)測(cè)中機(jī)器學(xué)習(xí)的應(yīng)用[J].科技經(jīng)濟(jì)導(dǎo)刊,2018(12):188.
[2]唐思佳,熊昕,謝滿,丁力,張上.基于機(jī)器學(xué)習(xí)的優(yōu)化股票多因子模型[J].信息與電腦(理論版),2019(23):30-32.
[3]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.
[4]王偉.基于深度學(xué)習(xí)的股票數(shù)據(jù)分析技術(shù)的研究與應(yīng)用[D].北京:北京郵電大學(xué),2019.
[5]王悅.上市公司高送轉(zhuǎn)的影響因素分析[J].中外企業(yè)家,2019(29):15.