饒 瑞,潘志松,黎 維,劉松儀,張 磊,李云波
(陸軍工程大學 1.指揮控制工程學院;2.通信工程學院,江蘇 南京 210007)
算法交易(Algorithmic trading,AT)[1]是金融領域的研究熱點,是指在無人工干預條件下,由計算機按照事先設定好的交易策略執(zhí)行指令,其核心為交易的算法模型[2]。高頻交易(High frequency trading,HFT)[3]是通過頻繁交易來賺取買賣差價的一種算法交易[4],可看成在線決策問題[5],包含2個部分:環(huán)境特征感知和在線正確決策。這2部分是高頻交易面臨的2大難點,同時,頻繁交易帶來的高額交易費用大大影響投資收益。
對金融環(huán)境的特征感知,主要是從非平穩(wěn)的、嘈雜的金融時序數(shù)據(jù)中提取有效的特征表示?,F(xiàn)有的人工提取方法嚴重依賴于以往經驗,易受人為主觀因素的影響。針對在線正確決策問題,算法模型不僅要能利用已有的經驗,還要能自主探索未知環(huán)境,實現(xiàn)動態(tài)交互,并在恰當時機做出正確的交易動作。深度學習(Deep learning,DL)[6]具有很強的特征提取能力。強化學習(Reinforcement learning,RL)[7]可進行在線自學習和連續(xù)決策,包含智能體(Agent)和環(huán)境(Environment)2個部分[8],是一種憑借試錯和與環(huán)境交互的方式[9]不斷進行策略改善,使得累積收益最大的機器學習算法。兩者結合后可得到既有感知能力又有決策能力的深度強化學習(Deep reinforcement learning,DRL)[10]算法,可大致將其分為2類:基于值(Valued-based)[11]的強化學習方法和基于策略(Policy-based)[12]的強化學習方法。有學者將兩者聯(lián)合,形成演員-評論家(Actor-critic,AC)[13]算法。基于值的RL先輸出值函數(shù),再選擇動作;基于策略的RL直接輸出動作,但算法不易收斂。AC算法將兩者結合,同時含有輸出動作的Actor網絡和輸出值函數(shù)的Critic網絡,用后者指導前者的動作輸出,算法穩(wěn)定,且收斂較快。DRL在游戲、無人機等領域的成功應用,激起了學者們將其用在量化交易上的濃厚興趣,且已有不少的研究成果。
文獻[14]在3支不同趨勢的日級股票上,搭建基于全連接的深度確定性策略梯度(Deep deterministic policy gradient,DDPG)[15]模型,結果表明該模型僅在走勢平緩的股票上表現(xiàn)良好,模型泛化能力較差。文獻[16]針對高頻的小時級數(shù)據(jù),在單一證券上進行固定數(shù)量交易,對動作進行重塑,搭建基于近端策略優(yōu)化(Proximal policy optimization,PPO)[17]算法的交易模型,結果表明基于AC的強化學習算法可用于高頻交易,且表現(xiàn)較好。文獻[18]將異步優(yōu)勢動作評價(Asynchronous advantage actor-critic,A3C)算法[19]運用到分鐘級的投資交易上,主要研究不同網絡設置(如節(jié)點數(shù)、隨機丟包等)對收益的不同影響。文獻[20]將DDPG算法運用在日級股票數(shù)據(jù)上,進行投資組合,驗證了DDPG算法策略的組合收益高于最小方差投資組合策略和道瓊斯工業(yè)平均指數(shù)。文獻[14,16,18,20]主要是利用強化學習的自主決策能力解決自動化交易問題,驗證AC算法在量化交易上的可行性,沒有過多涉及環(huán)境的特征提取。
文獻[21]使用Q-Learning算法,并在虛擬股票數(shù)據(jù)上進行實驗驗證,虛擬數(shù)據(jù)缺乏可信度。文獻[22]首次在量化交易領域應用了基于策略的強化學習方法,并稱之為直接強化學習(Direct reinforcement learning,Direct RL),在日級數(shù)據(jù)上驗證了該方法收益效果優(yōu)于Q-learning算法,但該算法中的遞歸結構降低了網絡的訓練速度。文獻[23]在日級數(shù)據(jù)上,先用格拉布斯方法去噪,再搭建基于全連接的Direct RL交易模型,結果表明數(shù)據(jù)去噪有利于環(huán)境信息表征,對策略性能的提升有較大幫助。文獻[24]提出基于任務感知的深度Direct RL算法,利用模糊函數(shù)對數(shù)據(jù)進行降噪,并用全連接網絡進行特征提取。文獻[25]利用門控循環(huán)單元(Gate recurrent unit,GRU)網絡提取環(huán)境特征,進行直接強化學習。文獻[5,23,24]重點在數(shù)據(jù)處理和環(huán)境的特征提取方面,驗證了環(huán)境特征表示對交易策略的性能有極重要的影響,而對于在線決策的算法,則都采用直接強化學習。
現(xiàn)有文獻研究有側重于環(huán)境特征提取的,有強調強化學習算法的,日級數(shù)據(jù)頻率偏多,但將兩者聯(lián)合并用于高頻交易的較少。在高頻交易中,交易太過頻繁帶來的高額交易費用給算法帶來了新的挑戰(zhàn)。本文提出融合長短期記憶(Long short term memory,LSTM)網絡[25]細胞結構的DDPG高頻交易算法模型。在進行連續(xù)交易時,利用LSTM可長時間記憶歷史數(shù)據(jù)的特點[26],先將當前時刻的狀態(tài)傳遞給其細胞結構,自適應地提取環(huán)境特征,該特征是當前狀態(tài)和歷史信息的抽象表示,是環(huán)境的綜合特征,用于指導后續(xù)的交易決策;再利用DDPG算法進行自主學習和連續(xù)決策。此外在特定場景下對狀態(tài)、動作和獎勵進行約束重塑,最后在分鐘級的上證50指數(shù)基金上進行實驗驗證,并逐一分析細胞結構和重塑獎勵對收益的影響。
為從高頻金融時序數(shù)據(jù)中獲取環(huán)境特征,并進行動態(tài)連續(xù)決策,以獲得最大累積收益,本文搭建了1個融合LSTM細胞結構的DDPG深度強化學習高頻交易算法模型。
1.1.1 交易智能體的任務描述
將強化學習應用到量化交易上,其學習目的是為了得到1個從狀態(tài)到動作的最優(yōu)映射策略π*,使得交易智能體在未來連續(xù)的一段時間內,根據(jù)該策略進行連續(xù)動作選擇,可得到最大的累積收益值。因此,交易智能體的目標函數(shù)如下
(1)
式中:t′為未來的交易時刻長度,rt為每個交易時刻的單步收益值。由于智能體的訓練集和測試集不同,因此對交易模型的泛化能力要求更高。
1.1.2 狀態(tài)特征、動作和獎勵設置
環(huán)境狀態(tài)一般包括原始金融時序數(shù)據(jù)特征和人工提取的技術指標,記pt為t時刻的收盤價,相鄰時刻的收盤差價為Δpt=pt-pt-1,t時刻的持倉量為pot,則在時刻t,環(huán)境的狀態(tài)特征向量如下
ot=[Δpt-t′+1Δpt-t′+2… Δptpot-1]
(2)
t時刻的狀態(tài)特征由前t′時刻內相鄰時刻的收盤差價和t-1時刻的持倉量組成。Agent在t時刻的動作包含做空、持有和做多,分別用-1、0和1表示。由于高頻交易頻繁換倉,交易費用在很大程度上決定了收益高低,式(3)是常用的單步獎勵函數(shù)[20]。
rt=at*Δpt-c*|pot-pot-1|
(3)
記C=c*|pot-pot-1|,表示發(fā)生交易時的手續(xù)費,式(3)表明,獎勵函數(shù)即為收益函數(shù),當不進行交易時,無交易費用;否則,加入交易費用。
1.1.3 狀態(tài)、動作和獎勵的重塑
本文僅對單一標的物進行固定數(shù)量的操作,每次交易數(shù)量為1,且不進行加倉操作,因此狀態(tài)和動作需滿足此約束,對其進行重塑,它們之間的轉移關系見圖1。
圖1 狀態(tài)-動作轉移示意圖
圖1中,長方形表示交易智能體的重塑狀態(tài),圓形表示交易動作,橢圓形是對應動作的獎勵值。Agent從無交易觀望開始,進行做多建倉(或做空建倉),單向收取交易費用(建倉時不收,平倉時收取),獎勵值r=0,持倉量po=1(po=-1);由于不進行加倉操作,因此當相鄰2個時刻的動作相同時,Agent則進入做多持有(或做空持有)狀態(tài),獎勵值r=a*Δp,持倉量po=1(po=-1),保持不變,無交易費用;當相鄰時刻的動作不同時,則進行平倉操作,可由建倉狀態(tài)(做多建倉或做空建倉)或持有狀態(tài)(做多持有或做空持有)轉移到平倉狀態(tài)(做多平倉或做空平倉),獎勵值中需考慮換倉的手續(xù)費,為r=a*Δp-C,持倉量po由1(-1)變?yōu)?。若不考慮換倉費用,則Agent會不計交易成本,不斷進行建倉—平倉—建倉操作,在實際交易中,交易成本必須納入考慮,在追求低買高賣時,保證扣除交易費用后,收益越大越好。
獎勵函數(shù)引導交易智能體向著累積收益最大的方向更新。在式(3)中,獎勵設置僅考慮了交易費用。但在實際中,交易費用與平倉的交易價格息息相關,價格高低對收益影響很大。因此在獎勵函數(shù)中加入收盤價pt進行重塑如下
(4)
1.2.1 LSTM網絡的細胞結構
金融時序數(shù)據(jù)具有很強的相關性,歷史數(shù)據(jù)中含有的某些信息對后續(xù)的交易決策有一定的指導作用,自適應地從歷史數(shù)據(jù)中提取有用信息十分重要。LSTM網絡常用于處理時序數(shù)據(jù),其基本構成單元稱為細胞(Cell),具有對過去信息的記憶功能,記憶信息的更新通過細胞中的門(Gate)結構實現(xiàn),門的實質是加了激活函數(shù)的單層神經網絡,可實現(xiàn)對信息的篩選如下
Gate=f(x*w+b)
(5)
式中:x為輸入向量,w和b為網絡學習的權重和偏置,f(·)可為不同形式的激活函數(shù)。
細胞結構見圖2。圖2中ot為智能體的狀態(tài)特征向量,ht為細胞的輸出值,同時也是提取到的環(huán)境特征。ct為細胞狀態(tài),用于保存歷史信息,“×”表示向量各位置對應相乘,實現(xiàn)信息的篩選,“+”表示向量各位置對應相加,實現(xiàn)信息的更新。ft、it和o′t依次為遺忘門、輸入門和輸出門[27]的值,計算同式(5)。σ為sigmoid函數(shù)。經過遺忘門和輸入門進行細胞狀態(tài)更新,見式(6),接著新細胞狀態(tài)通過輸出門得到細胞輸出值如下
ct=ft×ct-1+it×tanh(wi·[ot,ht-1]+bi)
(6)
ht=tanh(ct)×ot
(7)
式中:ct中同時含有之前時刻的歷史信息ct-1和ht-1以及當前時刻的輸入信息ot,ht是對新細胞信息ct的自適應輸出,該值是當前輸入信息和歷史信息的1個綜合特征表征,不僅是對環(huán)境的特征提取,還能指導后續(xù)的動作決策。這說明在進行交易時,綜合考慮了當前可獲得的顯示信息和隱藏在歷史數(shù)據(jù)中的隱性信息。
圖2 LSTM細胞結構示意圖
1.2.2 融合LSTM細胞結構的DDPG算法
DDPG算法是AC算法之一,其前身——確定性策略梯度(Deterministic policy gradient,DPG)算法[12]使用Q表記錄值函數(shù),而它使用深度網絡來近似值函數(shù),本文用它來最大化投資收益。在LSTM網絡中,通常會同時處理多個時間步的數(shù)據(jù),但強化學習在交易算法中進行的是單步連續(xù)操作,動作間相互影響,前一交易完成后,細胞狀態(tài)的信息更新和持倉量的變化都將影響后續(xù)的交易決策。本文將LSTM單元融入交易智能體后,相鄰時刻間的交互流程框架見圖3。
圖3 相鄰交易時刻智能體與環(huán)境的交互示意圖
圖3展示了相鄰交易時刻智能體與環(huán)境的互動,橫軸為交易時間軸??v向來看,在每一時刻,智能體中的輸入信息除環(huán)境的狀態(tài)向量ot外,還包括前一時刻LSTM細胞的隱藏輸出ht-1和細胞狀態(tài)ct-1,智能體的動作作用于環(huán)境外,還會影響下一時刻持倉量的變化。LSTM細胞為全局的特征提取器,主要是為了自適應保存和傳遞位于t′時刻之前的數(shù)據(jù)信息,以提供給交易智能體更多有價值的信息,幫助其做出更準確的交易動作。圖3中的DDPG智能體,除了LSTM細胞外,還包括4個網絡,具體結構以及單步交易中的網絡更新見圖4。
圖4 單個時刻中DDPG交易智能體更新示意圖
在圖4中,除交易環(huán)境外,其余為DDPG交易智能體,其中的左側為DDPG算法中的執(zhí)行者(Actor)模塊,右側為其評論者(Critic)模塊。每個模塊中分別含有在線網絡(Online net)和目標網絡(Target net),這2個網絡結構完全一樣。強化學習要求狀態(tài)間盡可能獨立,因此先用經驗回放(Experience replay)存儲經驗樣本,再用隨機方式采集樣本更新網絡。訓練時在線網絡實時更新,目標網絡采用軟更新策略,引入目標網絡有助于訓練穩(wěn)定。圖4中LSTM細胞為圖2所示細胞結構。令Actor模塊的在線網絡和目標網絡的參數(shù)為θ和θ-,Critic模塊的在線網絡和目標網絡的參數(shù)為φ和φ-。則算法步驟如下:
(1)金融環(huán)境給出狀態(tài)特征ot,首先傳遞給Agent中的Actor網絡,先經過LSTM細胞單元提取環(huán)境特征ht,見式(7),再將特征ht送入決策網絡,計算動作at=μ(ot;θ);
(2)環(huán)境轉移狀態(tài)到ot+1,并給出獎勵值rt;
(3)存儲經驗樣本(oi,ai,ri,oi+1)到經驗池;
(4)利用隨機方式,在經驗池中采集N個經驗樣本,進行網絡更新。首先,把采樣樣本的(oi,ai)送到Critic的在線網絡,得到Qi(oi,ai;φ);接著用Actor的目標網絡計算動作ai+1=μ′(oi+1;θ-);得到下一時刻的動作后,進一步計算目標Q值,如下
(8)
通過均方誤差計算Critic的在線網絡的損失,如下
(9)
Actor的在線網絡的損失如下
(10)
通過梯度計算,更新在線網絡如下
φ←φ+lr*L(critic;φ)
θ←θ+lr*L(actor;θ)
(11)
式中:lr是學習率,最后通過軟更新(Soft update)策略,更新對應的目標網絡參數(shù)如下
φ-←υφ+(1-υ)φ-
θ-←υθ+(1-υ)θ-
(12)
式中:υ是1個很小的值,稱為更新系數(shù),文中取0.01。
數(shù)據(jù)來源:SSE 50股指期貨,代碼:000016,采樣頻率:1 min,時間范圍:2018-01-02 09:30至2020-07-01 10:00,共145 000條數(shù)據(jù),前70%為訓練集,后30%為測試集,收盤價走勢見圖5。
圖5 收盤價走勢及數(shù)據(jù)集劃分圖
圖5中,藍色為訓練集,紅色為測試集。在訓練集上,價格呈現(xiàn)“波動下降—急劇上升—震蕩”的模式;在測試集上,呈現(xiàn)“震蕩—急劇下降—波動上升—急劇下降—震蕩上升”的模式。價格無固定規(guī)律。
交易智能體的訓練環(huán)境為Ubuntu16,使用Pytorch框架,智能體每min進行1次決策,訓練時交易費用為收盤價的0.02%。在Actor網絡中,LSTM細胞結構輸入大小為61,隱層單元大小為128,Decision網絡為2層全連接,第1層的輸入和輸出維度均為128,使用Relu激活函數(shù),第2層的輸入和輸出維度分別為128和1,使用Tanh激活函數(shù);Critic網絡也是2層全連接,第1層的輸入和輸出維度分別為300和128,使用Relu激活函數(shù),第2層的輸入和輸出維度分別為128和1。經驗池的設置:經驗池大小為50 000,隨機采樣的樣本數(shù)N為32,學習率為0.000 1,優(yōu)化器Adam,折扣系數(shù)為0.95。
利用不同的策略在不同評價指標上進行實驗對比,并在不同交易費用下,驗證本文算法動作執(zhí)行的高效性。
2.2.1 評價指標
本文用到的評價指標有累積收益(Cumulative profit)曲線、最終收益(End profit,EP)、夏普比率(Sharp ratio)[28]、完整交易次數(shù)(Complete transaction times,CTT)。
累積收益曲線:從測試集開始到結束,在每一個時刻,根據(jù)交易策略自動連續(xù)執(zhí)行交易動作,得到的收益累積值。最后1個時刻對應的累積收益值,即為最終收益值,該值可反映策略的盈利情況。
夏普比率:在承受單位風險的情況下,策略的收益情況[29]。值越大策略越優(yōu)。定義如下
(13)
式中:E(R)和σ(R)分別為收益的期望值和標準差,Rf為無風險利率。
完整交易次數(shù):在整個測試期間,進行完整交易的總次數(shù)。該指標對收益影響很大,頻繁換倉操作會帶來高額的手續(xù)費用。
2.2.2 對比策略
本文使用的交易算法為融合LSTM細胞結構的DDPG算法(DDPG-LSTM),對比策略如下:
(1)買入持有(Buy holding),即從交易的第1個時刻開始做多買入,保持做多持有,直到交易的最后1個時刻將其做多平倉。
(2)基于全連接的DQN算法[21](DQN-FC),使用經典的基于值函數(shù)的算法——DQN算法,該算法僅有2個網絡,其結構和DDPG-FC中的Actor網絡完全一樣。
(3)基于全連接的DDPG算法[14](DDPG-FC),該算法將DDPG-LSTM中的LSTM細胞換成FC層,并使用Relu激活函數(shù),其余設置不變。
本文將基于策略自身以及本策略與其他策略在各指標上的表現(xiàn)進行分析論證。首先,本文將LSTM細胞結構融入DDPG算法中,其中有2個關鍵點:利用細胞結構來更新保存環(huán)境歷史狀態(tài)和利用收盤價格進行獎勵重塑??刂七@2個關鍵變量進行實驗,得到圖6。
圖6 DDPG算法控制關鍵變量的收益圖
圖6中的3條曲線都是在DDPG-LSTM下進行的,交易費用為收盤價的0.01%。其中DDPG-LSTM_0僅用了細胞結構對環(huán)境信息的存儲,DDPG-LSTM_1僅用了重塑的獎勵函數(shù),DDPG-LSTM_2兩者都用了??梢奃DPG-LSTM_0的收益效果最差,說明在獎勵函數(shù)中加入收盤價格對算法收益至關重要。在表1中可看到,DDPG-LSTM_1的交易次數(shù)約為DDPG-LSTM_2的5倍,而其收益值僅是DDPG-LSTM的1.5倍,動作的平均收益遠遠低于DDPG-LSTM_2。當交易費用由0.01%上升到0.02%時,從圖7中可看到,DDPG-LSTM_1的收益值大幅下降,而DDPG-LSTM_2的收益保持穩(wěn)定,說明DDPG-LSTM_2對交易費用的包容性更強。綜上可得,本文設置的獎勵函數(shù)以及利用LSTM細胞結構保存和傳遞環(huán)境特征,前者不僅能提升收益,還能大幅降低交易次數(shù),后者能進一步減少交易次數(shù),提升算法在收益方面的穩(wěn)定性,在面對不同的交易費用時,收益變化幅度在投資者的接受范圍內。
表1 DDPG算法控制關鍵變量的指標值表
圖7 DDPG算法對交易費用的敏感度實驗曲線圖
接下來,將DDPG-LSTM_2用DDPG-LSTM來代替,并分析其在測試集上的表現(xiàn),見圖8。圖8(b)曲線中值較大的幾處位置對應著圖5中價格下跌幅度較大的位置,反映了模型能對稍縱即逝的交易機會做出快速正確的反應。圖8(c)中越密集的地方說明交易頻率越高,在整個階段,交易并不均勻,根據(jù)價格波動變換交易頻率:波動平緩時,保守投資,交易頻率低;波動較大時,換倉頻繁,才能不錯過最佳投資時機。圖8(d)中前期收益平穩(wěn)緩慢增長,準確捕獲2次大跌的交易機會后,收益值相應地出現(xiàn)2次激增,最后趨于平穩(wěn),最終的累積收益為正。最后,將DDPG-LSTM算法與其他策略進行對比,見圖9和表2。
圖8 DDPG-LSTM策略結果圖
圖9 各策略的收益曲線圖
表2 各策略的指標值表
分析圖9和表2:首先,除買入持有策略外,其余策略最終都能獲利,說明深度強化學習算法在高頻交易中的可行性高;其次,策略DDPG-LSTM優(yōu)于其他策略,最終收益至少是其余策略的2.3倍,夏普比率高達1.364,說明在同樣風險下,DDPG-LSTM策略能獲得更高的收益,是一種低風險高收益的穩(wěn)健型投資策略;最后,DDPG-LSTM的交易次數(shù)僅為426次,分別約占DQN-FC和DDPG-FC的1/20和1/5,交易少但利潤高,說明DDPG-LSTM算法采取行動的有效性高,且較少的交易次數(shù)可避免頻繁交易帶來的高額交易費,對交易費率的包容性更高。
本文搭建了融合LSTM細胞結構的DDPG高頻交易算法,并對狀態(tài)和動作進行重塑,在獎勵函數(shù)中考慮交易費率和收盤價格,其中收盤價和LSTM細胞結構的聯(lián)合是算法成功的關鍵。最后在價格波動大的SSE 50指數(shù)基金的分鐘級數(shù)據(jù)集上進行實驗,結果表明,該算法策略可實現(xiàn):
(1)環(huán)境特征的有效提取,LSTM細胞結構對當前信息和歷史信息進行綜合表征,得到1個能有效指導后續(xù)交易的環(huán)境特征;
(2)捕獲稍縱即逝的交易機會,及時做出正確決策,且采取動作的有效性高,避免了頻繁交易帶來的高額費用;
(3)在獎勵函數(shù)中加入收盤價并利用LSTM細胞結構對歷史信息進行保存,不僅能提升收益和減少交易次數(shù),還能降低高額交易費率造成的收益不穩(wěn)定問題;
(4)在面對較高的交易費率時,收益的變化幅度較小。
本文算法沒有加入技術指標,為進一步提升投資收益,可在后續(xù)工作中加入金融技術特征,進行輔助決策。此外,對單個標的物的投資風險較大,可考慮對多個標的物進行高頻投資組合,形成對沖,分散風險。