余應(yīng)敏 劉 婧 余浩文
1.中央財(cái)經(jīng)大學(xué)會(huì)計(jì)學(xué)院 2.中央財(cái)經(jīng)大學(xué)粵港澳大灣區(qū)(黃埔)研究院
我國經(jīng)濟(jì)處于蓬勃發(fā)展階段,資本市場規(guī)模日趨龐大。然而毋庸諱言,某些金融產(chǎn)品的定價(jià)與其內(nèi)在價(jià)值存在一定的偏差,而該偏差的出現(xiàn)會(huì)導(dǎo)致量化投資。量化投資是使用計(jì)算機(jī)科學(xué)技術(shù)結(jié)合金融學(xué)及數(shù)學(xué)模型的相關(guān)理論用以實(shí)現(xiàn)投資理念及投資策略的相關(guān)過程。相較于傳統(tǒng)投資模型:主要以基本面分析法及量化分析法為主,量化投資主要基于數(shù)據(jù)及模型探尋相應(yīng)的投資方式。其分類如表1所示。
表1 量化投資研究方向
伴隨著投資分析技術(shù)的不斷進(jìn)步,量化投資發(fā)展迅速,量化因子數(shù)量也隨之激增,2022年國泰安量化因子庫相關(guān)數(shù)據(jù)顯示,其數(shù)據(jù)庫主要量化因子數(shù)已達(dá)10類,共計(jì)254個(gè)因子;2018年清華大學(xué)國家金融研究院民生財(cái)富管理研究中心推出的《中國A股市場量化因子白皮書》顯示,符合中國市場行情的因子大約為56個(gè),主要包括交易摩擦類因子、動(dòng)量類因子、價(jià)值類因子、成長類因子、盈利類因子和財(cái)務(wù)流動(dòng)性類因子等;同時(shí),隨著量化研究的逐漸深入,各種因子數(shù)量也正呈井噴式涌現(xiàn)。有鑒于此,對(duì)量化因子進(jìn)行篩選顯得尤為必要。
本文基于遺傳算法,通過對(duì)所選取的32個(gè)市場主流因子進(jìn)行有效性分析,篩選出符合我國資本市場的量化投資因子,由此建立相對(duì)優(yōu)異的投資選股策略。筆者認(rèn)為,該策略具備一定優(yōu)勢(shì):(1)信息客觀及時(shí):以計(jì)算機(jī)與數(shù)學(xué)模型為主要工具,將人為情緒與投資系統(tǒng)區(qū)分開;(2)立足市場現(xiàn)實(shí):結(jié)合市場數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,結(jié)合實(shí)際選擇最符合市場現(xiàn)實(shí)的量化因子,從而構(gòu)建最終選股策略;(3)結(jié)合優(yōu)秀理論:遺傳算法有效結(jié)合生物進(jìn)化理論,對(duì)較大規(guī)模的量化因子庫進(jìn)行篩選,選取有效因子(適者生存);(4)可調(diào)節(jié)性強(qiáng):程序化算法可以依據(jù)研究需求,相機(jī)調(diào)節(jié)基因因子的個(gè)數(shù)及相應(yīng)時(shí)間窗格大小。
量化思想最先起源于國外,是數(shù)理工具運(yùn)用于金融學(xué)上產(chǎn)生的一種新的思考方式,并非伴隨著金融學(xué)產(chǎn)生。1952年美國經(jīng)濟(jì)學(xué)家馬科維茨(Markowitz)發(fā)表的《投資組合選擇理論》一文首次提出將定量研究引入當(dāng)時(shí)只存在定性描述的投資組合理論中,利用證券一段時(shí)間的平均收益率作為收益率衡量,使用標(biāo)準(zhǔn)差作為風(fēng)險(xiǎn)度量的均值-方差模型由此誕生。基于模型假設(shè),Markowitz確立了有效邊際理論,建立了資產(chǎn)優(yōu)化配置模型?;贛arkowitz的資產(chǎn)組合理論基礎(chǔ),William Sharpe、John Lintner和Jan Mossin先后對(duì)資本資產(chǎn)定價(jià)模型(CAPM)進(jìn)行檢驗(yàn)和改良,形成了現(xiàn)代CAPM。
其中:r表示組合S的收益變量;r表示市場組合的收益變量;r表示當(dāng)前市場的無風(fēng)險(xiǎn)收益率;β表示組合S對(duì)于市場風(fēng)險(xiǎn)的敏感度,計(jì)算公式為:
Ross受CAPM模型啟發(fā)建立了套利定價(jià)理論(Arbitrage Pricing Theory,APT),多因子定價(jià)為APT理論的典型代表,從而為后期多因子選股策略的誕生奠定了理論基礎(chǔ)。
據(jù)統(tǒng)計(jì),量化投資在美國已經(jīng)有40余年的歷史。1970年,量化投資剛剛興起,而在2001年,量化投資規(guī)模已超過880億美元;之后更是增長迅猛,諸如James Simons和David Shaw等更是名聲大噪。近年來,隨著科技進(jìn)步與機(jī)器學(xué)習(xí)的日益發(fā)展,量化投資與算法的結(jié)合逐漸緊密,Vrontos et al.采用機(jī)器學(xué)習(xí)構(gòu)建模型,不僅利用了各類統(tǒng)計(jì)指標(biāo)評(píng)判模型預(yù)測的能力,還結(jié)合大量的投資策略評(píng)估模型結(jié)果的經(jīng)濟(jì)意義,研究結(jié)果表明,不論是在統(tǒng)計(jì)意義上還是經(jīng)濟(jì)意義上,文中所用的機(jī)器模型在隱含波動(dòng)率預(yù)測方面都要比主流計(jì)量模型更有效。Markus et al.構(gòu)建了一系列復(fù)雜的預(yù)測指標(biāo),采用不同機(jī)器學(xué)習(xí)模型測試。研究發(fā)現(xiàn),流動(dòng)性指標(biāo)在不同機(jī)器學(xué)習(xí)模型中都表現(xiàn)出一致的重要性,而反映價(jià)值的基本面指標(biāo)則顯次要;散戶的存在,使得股價(jià)在短期變得更容易預(yù)測(在小盤股表現(xiàn)更為突出);長期而言,大盤股和國有企業(yè)可預(yù)測性更好;僅多頭的策略,在考慮交易成本后,仍然可以取得顯著的收益。
1975年美國密歇根大學(xué)霍蘭德(Holland)教授基于生物進(jìn)化理論提出了遺傳算法,在之后幾十年中,很快在各個(gè)領(lǐng)域中得到了廣泛的應(yīng)用,在金融投資領(lǐng)域更是有著重要的作用,如Hyejung Chung et al.利用現(xiàn)有的財(cái)務(wù)數(shù)據(jù)建立了長短時(shí)記憶網(wǎng)絡(luò)和遺傳算法融合的股票市場預(yù)測模型,提出使用遺傳算法(GA)確定LSTM網(wǎng)絡(luò)的時(shí)間窗口大小和拓?fù)浣Y(jié)構(gòu)的系統(tǒng)方法,研究股票市場數(shù)據(jù)的時(shí)間特性,進(jìn)行投資時(shí)間窗口的優(yōu)化;Bonde et al.使用遺傳算法和進(jìn)化策略進(jìn)行特征選擇及權(quán)重優(yōu)化,每個(gè)屬性的輸入在根據(jù)其連接權(quán)重進(jìn)行放大后被賦予一個(gè)sigmoid函數(shù),試圖找到每個(gè)屬性的連接權(quán)重,以預(yù)測股票的最高價(jià)格,實(shí)驗(yàn)結(jié)果表明,在每種情況下,算法都能夠以至少70%的準(zhǔn)確度進(jìn)行預(yù)測。國內(nèi)學(xué)者陳詩樂提出了基于遺傳算法(GA)的股票特征選擇方法,并結(jié)合股票數(shù)據(jù)時(shí)序性和非線性特點(diǎn),實(shí)現(xiàn)了基于LSTM與Transformer模型的深度學(xué)習(xí)股票預(yù)測方法;何盼等提出運(yùn)用遺傳算法(GA)與模擬退火算法相結(jié)合的方式,建立股票走勢(shì)預(yù)估模型,有效弱化了各自的缺陷,避免了局部最優(yōu)解的情況,提高了股票走勢(shì)預(yù)估的精準(zhǔn)度。
本文將遺傳算法作為主要研究算法,對(duì)染色體上不同基因個(gè)數(shù)和不同投資周期條件下對(duì)因子有效性的影響及對(duì)策略收益的影響進(jìn)行研究。借鑒梁曉穎的因子篩選思想,并在其基礎(chǔ)上引入遺傳算法對(duì)篩選的因子進(jìn)行迭代,完成了策略的優(yōu)化。首先,對(duì)所選因子庫進(jìn)行相應(yīng)分類,劃分為盈利因子、估值因子、成長因子、分紅因子、杠桿因子、規(guī)模因子、流動(dòng)性因子、動(dòng)量因子8類;其次,以個(gè)股因子得分為依據(jù),選出得分較高的個(gè)股進(jìn)行投資組合的構(gòu)建,以投資組合收益的高低作為該因子組合好壞的評(píng)價(jià)指標(biāo);最后,基于遺傳算法,將表現(xiàn)優(yōu)異的因子組合盡可能地保留并遺傳給后代,在多次迭代后,滿足終止遺傳迭代的條件下,選出最優(yōu)因子組合;本文選取時(shí)間窗口為2016—2020年,在基本的因子基礎(chǔ)上加入遺傳算法的因子選擇技術(shù),通過運(yùn)用前24個(gè)月度滬深300指數(shù)成分股數(shù)據(jù),對(duì)各因子進(jìn)行篩選和檢驗(yàn),構(gòu)建相對(duì)有效的多因子選股模型,并使模型更加穩(wěn)健和實(shí)用。
基于多因子量化選股理論,本文從Wind金融終端導(dǎo)出市值、總資產(chǎn)、凈資產(chǎn)等32個(gè)因子數(shù)據(jù);根據(jù)因子代表的含義,將32個(gè)因子劃分成盈利因子、估值因子、成長因子、分紅因子、杠桿因子、規(guī)模因子、流動(dòng)性因子、動(dòng)量因子8類。
1.盈利因子。盈利因子旨在選擇具有較強(qiáng)獲利能力的優(yōu)秀公司,本文選取的盈利因子有:(1)凈資產(chǎn)收益率=凈利潤/凈資產(chǎn);(2)銷售毛利率=毛利/銷售收入×100%;(3)銷售凈利率=凈利潤/銷售收入×100%;(4)經(jīng)營性現(xiàn)金凈流量=(凈利潤+折舊-稅收)/營業(yè)總收入;(5)息稅前利潤=(凈利潤+利息+所得稅)/營業(yè)總收入;(6)總資產(chǎn)收益率=凈利潤/年均資產(chǎn)額×100%;(7)投入資本回報(bào)率=息前稅后經(jīng)營利潤/投入資本×100%;(8)銷售費(fèi)用率=銷售費(fèi)用/營業(yè)總收入×100%。
2.估值因子。估值因子包括:(1)市盈率=每股市價(jià)/每股收益;(2)市凈率=每股市價(jià)/每股凈資產(chǎn);(3)市現(xiàn)率=每股市價(jià)/每股現(xiàn)金流;(4)市銷率=每股市價(jià)/主營業(yè)務(wù)收入。
3.成長因子。增長率=(本期對(duì)象值-上期對(duì)象值)/上期對(duì)象值×100%;公司最根本價(jià)值在其凈資產(chǎn)和持續(xù)不斷創(chuàng)造價(jià)值的能力,成長因子的主要作用是選擇能持續(xù)創(chuàng)造價(jià)值的股票,創(chuàng)造能力越強(qiáng)則說明成長性越好,公司價(jià)值越高。本文選取的成長性因子有:(1)基本每股收益增長率=(本期每股收益-上期每股收益)/上期每股收益×100%;(2)凈利潤增長率=(本期凈利潤-上期凈利潤)/上期凈利潤×100%;(3)營業(yè)收入增長率=(本期營業(yè)收入-上期營業(yè)收入)/上期營業(yè)收入×100%;(4)營業(yè)利潤增長率=(本期營業(yè)利潤-上期營業(yè)利潤)/上期營業(yè)利潤×100%;(5)凈資產(chǎn)收益率增長率=留存收益增加量/年初凈資產(chǎn)×100%;(6)凈資產(chǎn)增長率=資產(chǎn)增加額/凈資產(chǎn)總額×100%;(7)每股經(jīng)營活動(dòng)產(chǎn)生的現(xiàn)金流量凈額增長率=(本期經(jīng)營活動(dòng)現(xiàn)金凈流量-上期經(jīng)營活動(dòng)現(xiàn)金凈流量)/上期經(jīng)營活動(dòng)現(xiàn)金凈流量×100%。
4.分紅因子。分紅因子反映公司對(duì)股東的分紅情況。本文選取的分紅因子有:股息率、每股股利=股利總額/流通股數(shù)。
5.杠桿因子。杠桿因子用來衡量公司整體運(yùn)行的負(fù)債與權(quán)益配比情況的因子。本文選取的杠桿因子有:(1)長期負(fù)債占比;(2)資產(chǎn)負(fù)債率=負(fù)債/資產(chǎn)總額;(3)全部資產(chǎn)現(xiàn)金回收率=經(jīng)營活動(dòng)現(xiàn)金凈流量/平均資產(chǎn)總額×100%;(4)股東權(quán)益比=股東權(quán)益/資產(chǎn)總額。
6.規(guī)模因子。規(guī)模因子旨在找尋較大規(guī)模公司的股票建立投資組合。本文選取的規(guī)模因子有:(1)市值=市場價(jià)格×發(fā)行總股數(shù);(2)總資產(chǎn);(3)凈資產(chǎn)即股東權(quán)益=總資產(chǎn)-總負(fù)債。
7.流動(dòng)性因子。流動(dòng)性因子旨在找尋流動(dòng)性較好的股票建立投資組合。本文選取的流動(dòng)性因子有:(1)換手率=成交量/發(fā)行總股數(shù)×100%;(2)流通市值:一般由當(dāng)前可交易流通股股數(shù)×當(dāng)前股價(jià)計(jì)算獲得;(3)流通股本:上市公司發(fā)行在外的流通股股數(shù)。
8.動(dòng)量因子。動(dòng)量因子旨在找尋在前期具有一定漲幅,從而擁有上漲慣性的股票建立投資組合。本文選取的動(dòng)量因子為漲跌幅,即股票股價(jià)的漲跌幅度。
根據(jù)達(dá)爾文進(jìn)化論的思想,種群是生物進(jìn)化的基本單位,種群一旦產(chǎn)生,就受到自然界的選擇作用,不適應(yīng)自然環(huán)境的個(gè)體會(huì)被自然界不斷地淘汰,整個(gè)種群的基因頻率向適應(yīng)環(huán)境的方向發(fā)展,此種選擇淘汰機(jī)理即為自然選擇。遺傳算法(GA)是基于生物進(jìn)化論的自然選擇和基于遺傳機(jī)理的生物進(jìn)化過程的算法模型,主要是通過計(jì)算機(jī)模擬仿真自然界物種的進(jìn)化過程尋求問題的最優(yōu)解;從一個(gè)初始種群出發(fā),種群由基因編碼而來的個(gè)體組成;個(gè)體攜帶會(huì)決定其個(gè)體表現(xiàn)的染色體,一條染色體上有多個(gè)基因,基因在染色體上呈直線排列;為了研究基因頻率,遺傳算法需要完成從表現(xiàn)型到基因型的編碼工作,編碼方法主要有二進(jìn)制編碼、格雷碼編碼、浮點(diǎn)編碼、符號(hào)編碼等;初始種群產(chǎn)生后,就可以開始進(jìn)行模擬生物進(jìn)化過程,在每一輪的進(jìn)化中,適應(yīng)力強(qiáng)的個(gè)體更容易將基因遺傳給下一代,并通過組合交叉、基因變異等方式,演化出新一代種群;這個(gè)不斷繁衍、演化、進(jìn)化的過程,會(huì)使得后生代生物更加適應(yīng)于環(huán)境。遺傳算法的基本運(yùn)算過程如圖1所示:(1)編碼、初始化種群:將實(shí)際問題編碼,隨機(jī)生成N個(gè)個(gè)體作為初始種群;(2)個(gè)體適應(yīng)度計(jì)算:根據(jù)求解的問題,設(shè)置有一定意義的適應(yīng)度函數(shù),計(jì)算種群中每個(gè)個(gè)體的適應(yīng)度大小;(3)選擇運(yùn)算:基于個(gè)體適應(yīng)度,通過某種篩選原則作用于群體,目的是使當(dāng)代較優(yōu)的個(gè)體將基因直接遺傳或交叉配對(duì)至下一代;(4)交叉運(yùn)算:基于單點(diǎn)交叉、兩點(diǎn)交叉、多點(diǎn)交叉等交叉算子,作用于群體父代,將基因部分交叉重組遺傳至下一代;(5)變異運(yùn)算:設(shè)定基因變異概率,基于個(gè)體編碼方法的不同,有二進(jìn)制變異和實(shí)值變異等變異算法;(6)終止條件判斷:可以設(shè)置最大進(jìn)化代數(shù)T,當(dāng)?shù)螖?shù)等于T時(shí)終止,也可以設(shè)置其他的終止條件。通過編碼工作能夠?qū)栴}解決方案轉(zhuǎn)化成遺傳學(xué)概念中的染色體,染色體和問題解決方案之間一一對(duì)應(yīng)。隨后,設(shè)定適應(yīng)度函數(shù)計(jì)算各個(gè)解決方案對(duì)求解問題的適應(yīng)能力,適應(yīng)力高的解決方案更容易采用。最后,在迭代(iterate)計(jì)算過程中,求解問題最優(yōu)解就猶如生物進(jìn)化論中生物不斷進(jìn)化的過程,在滿足一定條件后,迭代過程所得到的個(gè)體通過解碼,即為所需要求解的問題最優(yōu)解決方案。
圖1 遺傳算法流程
基于多因子量化選股,本文引入遺傳算法的應(yīng)用:從因子庫中挑選32個(gè)因子,將其劃分為盈利因子、估值因子、成長因子、分紅因子、杠桿因子、規(guī)模因子、流動(dòng)性因子、動(dòng)量因子8類;將部分因子作為一個(gè)因子組合,以個(gè)股因子得分為依據(jù),選出得分較高的個(gè)股進(jìn)行投資組合的構(gòu)建,以投資組合的收益率作為該因子組合好壞的評(píng)價(jià)指標(biāo);基于遺傳算法,將表現(xiàn)優(yōu)異的因子組合盡可能地保留并遺傳給后代,在多次迭代后,滿足終止遺傳迭代的條件下,選出最優(yōu)因子組合。
⒈編碼、種群初始化規(guī)則:本文采用多層嵌套字典的方式,將32個(gè)因子數(shù)據(jù)構(gòu)建成一個(gè)因子庫數(shù)據(jù)。隨后,將因子名稱存放于一個(gè)列表當(dāng)中,通過產(chǎn)生0—31范圍內(nèi)的5、8、10個(gè)隨機(jī)整數(shù)作索引與字典鍵值對(duì)應(yīng)的機(jī)制,實(shí)現(xiàn)從因子庫中隨機(jī)抽取5、8、10個(gè)因子,對(duì)初始種群染色體進(jìn)行編碼。因子庫數(shù)據(jù)結(jié)構(gòu)如圖2所示。
圖2 因子庫數(shù)據(jù)結(jié)構(gòu)圖
⒉淘汰機(jī)制:在種群進(jìn)行繁衍前,需要選擇一個(gè)評(píng)估種群個(gè)體適應(yīng)度并進(jìn)行自然選擇淘汰。本文以投資組合收益率為基礎(chǔ),構(gòu)建得分函數(shù)作為適應(yīng)度函數(shù);在自然選擇過程中,淘汰得分位于初始種群數(shù)量后10%以外的個(gè)體,保留得分位于前10%的個(gè)體。
⒊繁衍機(jī)制:每代繁衍中,從當(dāng)代種群保留個(gè)體中隨機(jī)抽取兩條染色體進(jìn)行組合交叉繁衍,組合交叉方式采取單點(diǎn)交叉,每代繁衍100個(gè)子染色體。在繁衍過程中,有一定概率(本文設(shè)置為5%),產(chǎn)生基因突變。
⒋繁衍過程:種群在進(jìn)行繁衍時(shí),組合交叉方式采用單點(diǎn)交叉,在染色體上隨機(jī)選擇一個(gè)位置點(diǎn),與另一條染色體交換該位置點(diǎn)右側(cè)的第一個(gè)基因,實(shí)現(xiàn)兩條染色體之間的基因互換,單點(diǎn)交叉過程具體如圖3。
圖3 單點(diǎn)交叉方式
⒈投資組合的構(gòu)建過程。在確定因子所組成的因子組合后,對(duì)樣本池中各股進(jìn)行因子打分,為了消除量綱的影響,需要對(duì)各因子打分進(jìn)行標(biāo)準(zhǔn)化處理;股票與該因子組合的得分即為該股票各因子得分之和,投資組合由因子得分位于前30的股票組成。
⒉得分函數(shù)設(shè)置:鑒于本文旨在構(gòu)建組合收益最大化的投資策略,故設(shè)置與投資組合收益率相關(guān)的得分函數(shù)。(1)設(shè)置時(shí)間觀察窗口:自2016年2月至2018年1月,即24個(gè)月度(M)的股票收益數(shù)據(jù);(2)股票選取原則:投資組合由因子得分位于前30的股票構(gòu)成;(3)投資組合調(diào)整周期:分別以1、3、6月(M)為一個(gè)調(diào)倉周期,在周期開始的首月,根據(jù)上一周期末最后一月的實(shí)時(shí)因子得分和上一年度財(cái)報(bào)因子構(gòu)建新的投資組合;(4)投資組合倉位權(quán)重設(shè)置:采用等權(quán)倉位控制,將資金均勻分布至投資組合中30只股票;(5)投資組合買賣倉位總額設(shè)置:每一期調(diào)倉,買賣新的投資組合時(shí),倉位總額為上期期末倉位余額;(6)因子組合得分:將因子組合得分等價(jià)于在2016年2月至2018年1月各投資周期基于該因子組合構(gòu)建的投資組合的累計(jì)收益率。
⒈因子庫。個(gè)數(shù)為32,劃分為盈利因子、估值因子、成長因子、分紅因子、杠桿因子、規(guī)模因子、流動(dòng)性因子、動(dòng)量因子8類。
⒉樣本池。樣本池(股票池)大小為300只個(gè)股,個(gè)股來源于Wind所示滬深300指數(shù)成分;樣本池?cái)?shù)據(jù)選樣時(shí)間區(qū)間為2016年1月1日至2020年12月31日,共五年;樣本數(shù)據(jù)字段主要涉及日期、前收盤價(jià)(元)、開盤價(jià)(元)、最高價(jià)(元)、最低價(jià)(元)、收盤價(jià)(元)等;樣本數(shù)據(jù)為月度數(shù)據(jù)。
⒊遺傳設(shè)置。染色體:每條染色體上都攜帶基因,一個(gè)基因?qū)?yīng)一個(gè)因子。本文設(shè)置染色體上可攜帶基因個(gè)數(shù)分別為5、8、10,分別探究在上述情況下,最佳因子組合所對(duì)應(yīng)的收益率,并進(jìn)行比較,得出構(gòu)成最佳因子組合的因子個(gè)數(shù)與因子成分;種群個(gè)數(shù):種群個(gè)數(shù)N初始設(shè)置為1 000;每代保留個(gè)數(shù):每一代經(jīng)過自然選擇淘汰后保留的種 群 個(gè) 數(shù) 為N×10%,N為初始種群數(shù),自然選擇淘汰即按所設(shè)置的得分函數(shù)進(jìn)行排序,選出得分在前10%的個(gè)體;突變概率:設(shè)置基因突變概率為5%;交叉方式:采用“單點(diǎn)交叉”,通過在當(dāng)代種群中隨機(jī)選擇兩條染色體,在隨機(jī)選擇的位置點(diǎn)上進(jìn)行分割并交換右側(cè)的部分交叉一個(gè)基因;繁衍速度:每代繁衍、產(chǎn)生100個(gè)染色體;最大迭代次數(shù):設(shè)置最大繁衍迭代次數(shù)為100;終止判定條件:(1)遺傳迭代次數(shù)達(dá)到100次。(2)在連續(xù)8次迭代過程中,具有最佳投資收益的投資組合所對(duì)應(yīng)的因子組合不變。
本文基于遺傳算法對(duì)染色體上不同基因個(gè)數(shù)和不同投資周期條件下對(duì)因子有效性的影響及對(duì)策略收益的影響進(jìn)行研究;以個(gè)股因子得分為依據(jù),選出得分較高的個(gè)股進(jìn)行投資組合的構(gòu)建;探究了投資周期為1/3/6的周期跨度和5/8/10個(gè)因子組合的策略方案、共計(jì)9種超參數(shù)組合??傮w而言,在算法迭代過程中,出現(xiàn)了優(yōu)勝劣汰即子代策略收益率大于父代的現(xiàn)象,符合遺傳算法基于生物進(jìn)化論的基本思想,再次印證了使用遺傳算法作為基本研究范式的可行性。以下是針對(duì)不同周期跨度及不同因子組合數(shù)的詳細(xì)分析。
⒈選取1個(gè)月(1M)為投資間隔策略
從圖4中可以發(fā)現(xiàn),在每次迭代過程中,子代基本展現(xiàn)出優(yōu)于父代的優(yōu)良特性,尤其是在迭代初期,性狀得到快速優(yōu)化,優(yōu)化過程在后期趨近于平緩。本文選取8代為迭代停止界限,即在迭代過程中若8代內(nèi)未出現(xiàn)基因的進(jìn)一步優(yōu)化則說明基因性狀已經(jīng)達(dá)成局部最優(yōu),染色體基因趨近穩(wěn)定。從染色體基因個(gè)數(shù)來看,迭代速率與染色體個(gè)數(shù)之間未表現(xiàn)出顯性關(guān)系,可能是由于5—8個(gè)、8—10個(gè)之間增加的基因?qū)δP托Ч绊戄^為隨機(jī)且難以測量,由此就目前研究情況來看,染色體基因個(gè)數(shù)與模型效果之間關(guān)系并不明顯,可在后續(xù)展開更多樣本的研究。同時(shí),由圖4可以發(fā)現(xiàn),基因個(gè)數(shù)為8和10的迭代次數(shù)多于5,可初步認(rèn)為迭代次數(shù)與基因個(gè)數(shù)間呈現(xiàn)一定正相關(guān)關(guān)系,其原因可能在于策略廣度的增加導(dǎo)致了基因互換過程的排列組合數(shù)增加。
圖4 投資間隔為1狀態(tài)下不同基因數(shù)迭代收益情況走勢(shì)圖
2.選取3個(gè)月(3M)為投資間隔策略
類似于選取1個(gè)月(1M)為投資間隔的情況,從圖5中可以發(fā)現(xiàn),在每次迭代過程中,子代基本展現(xiàn)出優(yōu)于父代的優(yōu)良特性,同樣是在迭代初期,性狀得到快速優(yōu)化,后期趨近于平緩。通過組間對(duì)比可以發(fā)現(xiàn),相較于投資間隔為1個(gè)月(1M)的情況,在策略收益上出現(xiàn)了明顯的降低,可以初步認(rèn)定投資期間隔對(duì)策略收益影響較大;同樣,基于組(1)中的相關(guān)結(jié)論,依然可以判定,染色體基因個(gè)數(shù)與策略收益之間沒有明顯的相關(guān)關(guān)系;基因個(gè)數(shù)與和迭代次數(shù)之間呈現(xiàn)正相關(guān),投資間隔不會(huì)對(duì)迭代次數(shù)產(chǎn)生明顯影響。
圖5 投資間隔為3狀態(tài)下不同基因數(shù)迭代收益情況走勢(shì)圖
⒊選取6個(gè)月(6M)為投資間隔策略
在第(3)組中,由于生物進(jìn)化論中基因性狀的隨機(jī)性,導(dǎo)致選取6個(gè)月為投資間隔周期,基因個(gè)數(shù)為5時(shí)在初始情況出現(xiàn)接近局部最優(yōu)的情況,因此也導(dǎo)致了圖6的出現(xiàn),同樣驗(yàn)證了遺傳算法與生物進(jìn)化論的相似性,體現(xiàn)了實(shí)驗(yàn)的科學(xué)性;另外,投資間隔變化后又一次出現(xiàn)了總體收益降低的情況,驗(yàn)證了前文投資周期越長、策略總體收益會(huì)降低的假設(shè),其他結(jié)論與前文所述結(jié)論無沖突之處。
圖6 投資間隔為6狀態(tài)下不同基因數(shù)迭代收益情況走勢(shì)圖
綜上所述,通過圖形本文可得到初步結(jié)論:(1)投資間隔較長時(shí),策略總體的超額收益會(huì)出現(xiàn)降低。(2)策略的優(yōu)化速率在迭代過程中會(huì)表現(xiàn)出先快速增長后趨向于平緩的狀態(tài)。(3)基因個(gè)數(shù)與收益率水平未體現(xiàn)出明顯關(guān)系,可能是由于基因個(gè)數(shù)由5個(gè)增長到更多的過程中,后續(xù)增長基因?qū)Σ呗詢?yōu)化效果的影響較為隨機(jī)導(dǎo)致。(4)由于生物進(jìn)化論的隨機(jī)性,使用遺傳算法在某些情況下可能會(huì)出現(xiàn)初始基因性狀接近局部最優(yōu)的情況,迭代曲線趨近于平緩。(5)一般情況下,基因個(gè)數(shù)較多時(shí),生物進(jìn)化需要的迭代次數(shù)隨之增加。
本文遺傳參數(shù)組合中,分別將投資間隔設(shè)置為1個(gè)月(1M)、3個(gè)月(3M)、6個(gè)月(6M),染色體基因個(gè)數(shù)設(shè)置為5、8、10,為了實(shí)現(xiàn)投資組合收益最大化,探討了不同投資間隔、不同染色體基因個(gè)數(shù)情況下,投資組合的收益率變化情況;對(duì)所有可能的遺傳參數(shù)組合進(jìn)行了因子回測,將各種情況下的收益率同滬深300指數(shù)收益率進(jìn)行比較,得出最優(yōu)遺傳參數(shù)組合。
如圖7所示,當(dāng)投資間隔為1個(gè)月(1M),染色體基因個(gè)數(shù)分別為5、8、10時(shí),因子策略最終累計(jì)收益率分別可達(dá)504.46%、459.39%、416.69%,同期市場(滬深300)累計(jì)收益率為25.17%;選出的投資組合表現(xiàn)都遠(yuǎn)遠(yuǎn)高于市場(滬深300)表現(xiàn)。本文采用的是復(fù)利型投資策略,累計(jì)收益率變化幅度較大,但從多因子策略每一周期平均收益率看,不同染色體數(shù)所對(duì)應(yīng)的多因子策略每一周期平均收益率都分布于5%左右,差異不大。
圖7 投資間隔1M、染色體基因個(gè)數(shù)不同情況下的投資組合收益率
如圖8所示,當(dāng)投資間隔為3個(gè)月(3M),染色體基因個(gè)數(shù)分別為5、8、10時(shí),因子策略最終累計(jì)收益率分別可達(dá)210.13%、239.06%、226.33%,同期市場(滬深300)累計(jì)收益率為25.17%;在投資間隔3個(gè)月(3M)時(shí),基于遺傳算法構(gòu)建的因子組合選出的投資組合表現(xiàn)都遠(yuǎn)遠(yuǎn)高于市場(滬深300)表現(xiàn)。從多因子策略每一周期平均收益率看,不同染色體數(shù)所對(duì)應(yīng)的多因子策略每一周期平均收益率都分布于11.5%左右,差異不大。
圖8 投資間隔3M、染色體基因個(gè)數(shù)10投資組合收益率比對(duì)
如圖9所示,當(dāng)投資間隔為3個(gè)月(3M),染色體基因個(gè)數(shù)分別為5、8、10時(shí),因子策略最終累計(jì)收益率分別可達(dá)172.43%、181.87%、182.09%,同期市場(滬深300)累計(jì)收益率為-39.06%;在投資間隔1個(gè)月(1M)時(shí),基于遺傳算法構(gòu)建的因子組合選出的投資組合表現(xiàn)都遠(yuǎn)遠(yuǎn)高于市場(滬深300)表現(xiàn);三種因子策略因子個(gè)數(shù)的變化對(duì)策略最終累計(jì)收益率影響更小,策略間最大變動(dòng)幅度僅為9.66%。
圖9 投資間隔6M、染色體基因個(gè)數(shù)10投資組合收益率比對(duì)
基于上述分析,(1)在同一投資間隔下,因子個(gè)數(shù)分別于5、8、10構(gòu)成的最佳因子組合所選取的投資組合收益率變動(dòng)不大;可能是由于各個(gè)因子反映的信息可能存在一定的重合,如“總資產(chǎn)”同“凈資產(chǎn)”之間有著一定的相關(guān)關(guān)系,導(dǎo)致選出的股票組合差異不大。因子個(gè)數(shù)跨度不大的情況下,遺傳算法所提取的信息有限,對(duì)投資組合收益率影響也有限。(2)在同一投資間隔下,三種因子策略的平均收益率變化情況較為一致,上漲期同時(shí)上漲、下跌期同時(shí)下跌,最終三種策略的累計(jì)收益率不同源于其上漲期各自的上漲幅度不同。(3)投資間隔期越大,因子個(gè)數(shù)的變動(dòng)對(duì)投資組合收益率的影響也越大。這主要是因?yàn)橥顿Y間隔期越小時(shí),能夠及時(shí)根據(jù)上期表現(xiàn)最好的因子進(jìn)行當(dāng)期的投資組合構(gòu)建,倘若投資間隔期增大,則會(huì)造成“鎖倉”的現(xiàn)象,不能及時(shí)調(diào)整有效的投資組合,一旦因子表現(xiàn)不佳,則投資組合收益率影響波動(dòng)較大。(4)本文采取遺傳算法篩選最優(yōu)因子組合與復(fù)利型投資策略組合進(jìn)行量化投資。遺傳算法依據(jù)每一代優(yōu)勝劣汰的機(jī)制,最終所得到的最佳因子組合在大多數(shù)投資周期都能實(shí)現(xiàn)正收益。
本文將Wind滬深300指數(shù)成分股作為股票池,利用遺傳算法對(duì)凈資產(chǎn)收益率、銷售毛利率等32個(gè)因子所組成的多因子策略進(jìn)行研究,探究在不同投資期中,選擇不同的多因子策略進(jìn)行投資的收益分布情況,得出不同投資期所對(duì)應(yīng)的最佳多因子策略,并得出以下結(jié)論:(1)遺傳算法能在眾多因子策略組合選出局部最優(yōu)策略。在訓(xùn)練期,本文選取1個(gè)月(1M)、3個(gè)月(3M)和6個(gè)月(6M)三種投資周期與五因子策略、八因子策略和十因子策略組成的九種策略組合進(jìn)行分析,發(fā)現(xiàn)在迭代過程中每組策略組合均實(shí)現(xiàn)一定程度的進(jìn)化,其中進(jìn)化次數(shù)最多的策略組合為投資周期為一季度加十因子投資策略,迭代46次達(dá)到局部最優(yōu),在因子組合和投資周期的選擇問題中,遺傳算法有助于投資者選擇相對(duì)而言收益更高的策略組合。(2)同一周期內(nèi)因子個(gè)數(shù)對(duì)收益率影響不大。本文根據(jù)所選1個(gè)月、3個(gè)月和6個(gè)月三種投資周期不同因子個(gè)數(shù)的策略組合投資收益得出,同一周期內(nèi)因子個(gè)數(shù)若未出現(xiàn)較大幅度的提升,其所選出股票獲得的收益也并沒有較多的提升;可能是各個(gè)因子反映的信息存在一定的重合,因子個(gè)數(shù)跨度不大可能造成從因子提取的信息沒有較大的提升,所選出的股票組合差異不大的問題。故因子個(gè)數(shù)差異不大的因子策略具有一定的無差異性。(3)不同投資周期和因子組合的選擇對(duì)應(yīng)的投資收益率也不同。本文采取復(fù)利型投資策略進(jìn)行研究,即將本金和上一投資周期所獲得收益全部作為下一投資周期本金進(jìn)行投資。研究發(fā)現(xiàn),遺傳算法通過每一代優(yōu)勝劣汰機(jī)制,選擇出的因子組合能在大多數(shù)周期內(nèi)實(shí)現(xiàn)正收益,而當(dāng)所選因子組合在大部分周期能實(shí)現(xiàn)正收益的情況下,投資周期越短,最終投資者的收益率將越高,故本文投資周期為1個(gè)月的收益率普遍大于投資周期為3個(gè)月和6個(gè)月的策略組合。同時(shí)投資信息的及時(shí)性也是導(dǎo)致投資周期為1個(gè)月的收益率普遍大于投資周期為3個(gè)月和6個(gè)月的策略組合的原因之一,投資周期較短的策略組合,能夠根據(jù)較新的信息進(jìn)行決策,所選出的股票組合在短時(shí)期內(nèi)收益更趨近穩(wěn)定,同一時(shí)間段內(nèi)復(fù)利得到收益也就高于投資周期較長的投資收益。
本文的局限:(1)數(shù)據(jù)來源可進(jìn)一步擴(kuò)充。本文選取Wind滬深300指數(shù)成分股作為股票池,凈資產(chǎn)收益率、銷售毛利率等32個(gè)因子作為因子池進(jìn)行研究,所得出的策略組合可能會(huì)出現(xiàn)在其他股票中失效的情況,策略組合的普遍性還有待研究;同時(shí),本研究所選因子池仍存在可以優(yōu)化的空間,可能存在優(yōu)秀因子沒有入池的風(fēng)險(xiǎn);可考慮選擇更多的因子加入因子池,增加因子組合的豐富度,以選出投資收益表現(xiàn)最為優(yōu)異的因子組合。(2)受限于遺傳算法的固有局限,初始種群采用隨機(jī)選取的方法取得,可能存在收益最高的因子群未被選中且后續(xù)雜交和基因突變?nèi)匀晃传@取的風(fēng)險(xiǎn),而錯(cuò)失最佳因子組合策略。(3)計(jì)算資源的限制。受限于計(jì)算資源,本文只選取了選取1個(gè)月、3個(gè)月和6個(gè)月三種投資周期與五因子策略、八因子策略和十因子策略組成的九種策略組合進(jìn)行分析,超參組合測試尚不完善,仍存在一些策略組合未被考慮模型內(nèi);同時(shí),染色體數(shù)量、因子數(shù)量、種群數(shù)量、繁衍速度和種群保留數(shù)量等超參的選取可以進(jìn)一步優(yōu)化,使用更大的染色體數(shù)量、因子數(shù)量、種群數(shù)量、種群保留數(shù)量和更快的繁衍速度,可能會(huì)得到更好的結(jié)果。(4)采取復(fù)利型投資策略進(jìn)行研究,具有嚴(yán)格的周期性。眾所周知,投資者情緒易受股價(jià)波動(dòng)的影響,當(dāng)某一周期多因子策略組合給投資者帶來損失時(shí),投資者對(duì)策略組合的信任度可能會(huì)下降,最終可能無法獲得較好的收益;同時(shí),復(fù)利型投資策略風(fēng)險(xiǎn)較高、未考慮到避險(xiǎn)的情形。(5)因子得分權(quán)重關(guān)系有待進(jìn)一步優(yōu)化。資源所限,采用了最高每條染色體上10個(gè)基因個(gè)數(shù)的組合,雖能體現(xiàn)因子之間一定的權(quán)重關(guān)系,但存在可優(yōu)化的空間。(6)采用等比例方式進(jìn)行股票投資,股票收益率按照所選股票每個(gè)股票買進(jìn)一股的模式進(jìn)行計(jì)算,未將各個(gè)股票具體股價(jià)考慮進(jìn)去,實(shí)務(wù)中,可能存在對(duì)不同股價(jià)的股票采用對(duì)應(yīng)的權(quán)重,所獲投資收益更高的情形。