楊亞東
【摘要】股票市場屬于非線性系統(tǒng),復雜性高而信噪比低。目前,多個領域中已經(jīng)證實,機器學習是一種能夠針對模糊非線性數(shù)據(jù)建模的工具,所以機器學習具有天然的應用到量化投資領域的優(yōu)勢。從本質上看,選股是排序問題,投資者希望在眾多的股票中選擇出具有更好未來表現(xiàn)的股票?;诖耍疚姆治隽死脵C器學習量化選股的方法。
【關鍵詞】機器學習 量化投資 選股
相對于國外來說,我國屬于剛剛開始發(fā)展量化投資,存在的不足之處仍比較多,但從實際情況看,A股市場具有較短的發(fā)展歷程,與已經(jīng)發(fā)展的比較成熟的海外市場相比,市場有效程度比較弱,錯誤定價的股票數(shù)量比較多,普遍存在非理性人投資行為,也正是因為此種不成熟特征的存在,為我國量化投資的發(fā)展提供了巨大的空間。因此,在現(xiàn)階段A股市場中,更適合的量化投資方式為公正、理性、客觀的。由此看來,本文研究量化選股的方法具有十分重要的現(xiàn)實意義。
一、短線選股策略
本節(jié)構建樣本集時,特征選擇為20個交易日內(nèi)個股的收盤價走勢,訓練樣本方法采用兩種,分別為機器學習算法GBDT、GBRank,模式識別有機器學習自動進行。
(一)數(shù)據(jù)準備
需準備的數(shù)據(jù)包含2部分,一部分為樣本內(nèi)數(shù)據(jù),屬于訓l練集,另一部分為樣本外數(shù)據(jù),屬于測試集。本文數(shù)據(jù)均來源于Wind資訊,時間段為2006年1月1日2016年11月30日,均為A股收盤價。之后分割該時問段的數(shù)據(jù),使其變?yōu)椴淮嬖诮患膬刹糠郑柧殬颖臼褂?006年1月1日2012年11月5日數(shù)據(jù),測試樣本使用剩余時間段的數(shù)據(jù)。訓l練樣本和測試樣本生產(chǎn)時,如果股票上市后的交易日未滿21個,做剔除處理,最后,生產(chǎn)約240萬訓練樣本。
(二)提取特征
構建策略時,關鍵性的一步為特征提取,因本章短線選股策略是在模式識別基礎上進行的,因此,關注K線形態(tài)特,征過程中僅選擇20個交易日的。首先,通過指數(shù)移動平均線,過濾到收盤價的噪聲,隨后進行價格走勢形態(tài)特征向量的描述,描述序列為收益率序列,最后,完成特征提取。
(三)模型訓練
排序模型訓練時,利用兩種算法進行。第一種為GBDT,訓練中,股票問相對順序不做考慮,僅擬合其絕對得分,訓練樣本構建過程中,3個交易日后,若樣本漲幅≥1%,則得分=1,否則樣本得分=O,根據(jù)此種方式,訓練樣本集即可獲得,接著以訓練樣本集作為GBDT的輸入樣本集,訓練排序模型,此過程中,由于GBDT存在較多的參數(shù),如果調(diào)參采用交叉驗證方式,將會耗費大量的時間,因此,本文按照知識和經(jīng)驗,調(diào)優(yōu)逐步的進行,完整訓練后,排出函數(shù)h輸出,通過h,即可開展打分操作,依據(jù)分數(shù)由高到低,排序未來3天內(nèi)漲幅會超過1%的股票,供投資者選擇。第二種為GBRank,這是一種pairwise方法,僅對同一時段內(nèi)股票的相對漲跌幅做出考慮,保證訓練樣本不會受到系統(tǒng)性風險的影響,訓練樣本集獲取后,輸入到GBRank中,訓練排序模型,參數(shù)直接選擇相同于GBDT的,最終,排除函數(shù)h獲得,排序未來3天內(nèi)股票的表現(xiàn)。
二、長線選股策略
因短線選股策略僅能排序3天以內(nèi)的,時間較短,本節(jié)提出的長線選股策略可排序未來20個交易日內(nèi)的股票。
(一)數(shù)據(jù)準備
本節(jié)中,數(shù)據(jù)來源、選取時間段、劃分訓練樣本和測試樣本的方法均相同于1.1,不過,訓練樣本和測試樣本生成時,要將股票上市時間不足3個月的剔除,以能與44維的要求相符合。最后,生成約160萬的訓練樣本。
(二)特征提取
因要構建長線選股策略,因此要對個股在過去20個交易內(nèi)、2個月交易日內(nèi)、3個月交易日內(nèi)的動量因子做出關注。首先。動量、反轉效應特征向量描述時,采用的序列為個股動量因子序列,z-score標準化處理每一維度的特征向量;其次,以元素所處維度為依據(jù),將每個元素的分位數(shù)計算出來;最后,組合上述兩步處理后的特征向量,使特征向量達到44維,此種特征向量能夠輸入到機器學習中。
(三)模型訓練
模型訓練時,同樣采用1.3中的兩種方法。利用GBDT訓練過程中,訓練方式采用pointwise,無需對股票問相對順序做出考慮,僅需擬合其絕對分數(shù),20個交易日后,與股票漲幅均值相比,樣本股價漲幅更大時,得分=1,樣本股價漲幅更小時,得分=O,此處劃分樣本參照的標準為漲幅均指,以能保證排序的客觀性、準確性,隨后,獲得訓練樣本集,并輸入到GBDT中,訓練排序模型,由于本節(jié)特征向量維度要顯著高于1.3節(jié)的,因此設置參數(shù)時會不同于1.3,要增加回歸樹最大深度、并增加葉子結點數(shù)上限,完成訓練后,排序函數(shù)h獲得,通過h,即可完成未來20個交易日內(nèi)的股票排序工作。利用GBRank訓練過程中,訓練方法相同于1.3此種方法,獲得訓練樣本集后,輸入到GBRank中,接著訓練排序模型,設定的參數(shù)完全相同于本節(jié)的GBDT方法,最終,排序函數(shù)h獲得,完成排序。
三、結論
機器學習基礎上,本文構建了短線和長線量化選股策略,能夠排序未來3個交易日及未來20個交易日內(nèi)的股票,利于投資者實現(xiàn)量化選股,從而提高投資者投資的理性程度,促進我國A股市場的良好發(fā)展。不過,本文構建選股策略后,并未進行實際的實驗,因而還需要進一步的開展驗證研究。
參考文獻:
[1]馮楠,陳有為.基于量化趨勢跟蹤的計算機自動化選股模型的設計與實現(xiàn)[J].自動化與儀器儀表,2016,(08).
[2]李姝錦,胡曉旭,王聰.淺析基于大數(shù)據(jù)的多因子量化選股策略[J].經(jīng)濟研究導刊,2016,(17).