經(jīng)濟行為呈現(xiàn)出高度的復雜性和不確定性[1]。以證券交易為例,海量的多種策略類型的投資交易者相互博弈,并受到全球經(jīng)濟活動的影響,使得證券數(shù)據(jù)異常龐大而且充滿了復雜的隨機性。對證券數(shù)據(jù)的研究,提取其特征和規(guī)律可應用于金融理論分析或交易指導,例如產(chǎn)生交易信號、投資策略等。因而長期以來,對證券數(shù)據(jù)的有效分析一直以來都是熱點研究領域。
在證券數(shù)據(jù)研究的早期,研究者主要靠著數(shù)學工具以及市場的經(jīng)驗和一些經(jīng)濟學知識來判斷證券的漲跌,或預測證券的價格。其后,隨著社會科學不斷的發(fā)展,研究者提出量化計算證券數(shù)據(jù)的更多規(guī)律特征,從而發(fā)展成為量化投資技術[2-4]??傮w而言,因證券交易數(shù)據(jù)作為一種時間序列總體上體現(xiàn)出高度的復雜性和不確定性,研究者們嘗試利用各種方法、工具尋找出證券數(shù)據(jù)的規(guī)律,然而目前卻仍然沒有完善、成熟的理論或者算法來解釋證券數(shù)據(jù)中的規(guī)律和包含的信息。
機器學習技術具有類似人的思維能力,亦被稱之為人工智能,其中深度學習技術[5]是機器學習領域的核心學習技術,推動著人工智能時代往前邁出一大步。利用機器學習相關算法對證券數(shù)據(jù)進行研究是一大熱點與新穎的研究方向。
本文采用深度學習算法來研究證券歷史數(shù)據(jù),通過學習趨勢交易者對證券數(shù)據(jù)的思維方式,從中獲取證券數(shù)據(jù)的特征信息并挖掘證券交易中隱藏的規(guī)律。由于證券數(shù)據(jù)的趨勢特征具有周期性和穩(wěn)定性,深度學習如果能提取出證券數(shù)據(jù)中的特征趨勢,這樣就可以分析證券市場的運動方向,給投資者提供可靠的指導信息。
在機器學習領域,卷積神經(jīng)網(wǎng)絡有著非常強大的功能,能夠提取局部數(shù)據(jù)的特征、局部數(shù)據(jù)與局部數(shù)據(jù)之間的聯(lián)系。本文選擇神經(jīng)網(wǎng)絡和深度學習技術作來提取證券數(shù)據(jù)的趨勢特征。
證券歷史數(shù)據(jù)來自于國內(nèi)A股市場,考慮到次新股的歷史交易周期偏短,因此剔除了上市時間不足1年的次新股,得到近2200只證券的歷史交易數(shù)據(jù)作為訓練樣本和回測數(shù)據(jù),典型的證券數(shù)據(jù)以及趨勢指標(MACD、均線等)計算結果見表1。
表1 證券歷史數(shù)據(jù)與趨勢指標
表1中的數(shù)據(jù)作為輸入數(shù)據(jù),其中的行數(shù)據(jù)代表不同時間周期的歷史交易數(shù)據(jù)或技術指標值,數(shù)據(jù)的交易周期包括天、周、月、分鐘等。此外,深度學習模型還需要輸入期望數(shù)據(jù),即標簽數(shù)據(jù)。本文采用漲/跌這兩種趨勢分類,由此得到對輸入數(shù)據(jù)趨勢(trend)的期望輸出標簽數(shù)據(jù)。
本文模型訓練數(shù)據(jù)為日線和周線數(shù)據(jù)。在深度學習模型的訓練過程中,數(shù)據(jù)的處理流程如圖1所示。先將數(shù)據(jù)分為m組的二維數(shù)據(jù),二維數(shù)據(jù)的大小為(dateLen,input_dim)。dateLen表示每組二維數(shù)據(jù)包含日線數(shù)據(jù)的天數(shù),input_dim表示輸入特征向量個數(shù)。接下來分割數(shù)據(jù),任意從表中截取 行 列( 即卷積核的大小,遠小于所有交易個數(shù),小于輸入特征向量)的數(shù)據(jù),將一組二維數(shù)據(jù)又分為n個局部數(shù)據(jù)。每個截取的小塊數(shù)據(jù)的特征、各個截取的小塊數(shù)據(jù)之間的聯(lián)系就是隱藏在證券數(shù)據(jù)中的特征。利用深度學習模型將這些特征利用卷積核提取出來并記錄在每一步的輸出數(shù)據(jù)中。
圖1 深度學習模型的數(shù)據(jù)預處理過程
將上述輸入數(shù)據(jù)集作為本文的訓練樣本數(shù)據(jù)集,訓練樣本數(shù)據(jù)集在訓練過程中按照時間先后順序會被分為訓練集與驗證集,訓練集占80%,驗證集占20%。訓練過程中將每一組數(shù)據(jù)通過已經(jīng)構建好的模型進行訓練,每一組訓練完成后都會保存當前組訓練完的權重值以及每組訓練的結果。當下一組的數(shù)據(jù)訓練時,會加載上一組訓練完成的權重值,接續(xù)上輪的訓練后權重值繼續(xù)加以訓練,直到所有的數(shù)據(jù)通過模型的訓練過程。圖2是訓練函數(shù)誤差的收斂情況,表明隨著訓練輪數(shù)的增加,訓練集的準確率也是逐步提高到趨于穩(wěn)定,最終訓練集的準確率達到了72%;驗證集的準確率基本也是先增加再趨于穩(wěn)定狀態(tài),最終準確率達到了68%,且其相對于訓練集,更早進入了穩(wěn)定狀態(tài),對證券數(shù)據(jù)的趨勢特征分析效果優(yōu)良。
圖2 漲/跌趨勢分類的訓練誤差收斂情況
本文研究了利用卷積神經(jīng)網(wǎng)絡與深度學習技術,構造一種證券數(shù)據(jù)趨勢分析模型來提取證券歷史數(shù)據(jù)特征信息。首先研究了對證券歷史數(shù)據(jù)的預處理和樣本標簽化處理,然后采用分塊的循環(huán)訓練模式。仿真結果表明,本模型對證券數(shù)據(jù)的漲/跌特征提取的效果良好,主要趨勢特征趨勢分類的準確率達到68%,穩(wěn)定性高、可泛化性好,具備一定的參考價值和應用價值。