寧濤
摘要:本文針對我國期貨市場流動性較好的期貨品種,對比分析了時間時鐘(time clock)和成交量時鐘(volume clock)兩種行情采樣方法,研究發(fā)現:相較于時間時鐘采樣方法,基于成交量時鐘采樣得到的數據序列成交量分布更均勻且肥尾效應減弱,統(tǒng)計特性顯著改善。本文基于指數移動均線日內策略對兩種采樣方法的組合績效進行了實證研究,結果表明:基于成交量時鐘的組合績效在不同交易頻率下均有提高,且基于時間時鐘采樣的成交量波動率越大,績效的改善就越顯著,成交量時鐘采樣方法更適合用于較高頻率的策略。
關鍵詞:行情采樣方法 成交量時鐘 日內策略 高頻交易
一、引言
基于量價信息的市場行情數據在二級市場的投資決策中是非常重要的一類數據輸入源,特別是對于基于小時級別以下K線序列的中高頻CTA策略和基于市場微觀結構的高頻交易策略,交易決策的依據主要是基于量價信息提取的數據特征。市場行情數據是指交易所內交易行為產生的信息流,國外發(fā)達國家的二級市場一般能夠向市場參與者提供實時的高頻分筆報撤單和逐筆成交回報數據(tick 數據),國內的股票和期貨交易所一般僅能提供固定時間頻率的行情快照數據。中低頻量化交易策略大體上分為擇時策略和選股策略兩種類型,包括時間序列和橫截面兩個維度[1],無論是基于機器學習還是基于傳統(tǒng)統(tǒng)計方法的中低頻量化策略,非結構的原始行情數據由于存在較多的噪音不能直接用于策略的統(tǒng)計建模,原始tick 數據一般需要通過采樣聚合等方法清洗加工成結構化的數據序列,例如K線時間序列數據。López de Prado(2019)[2]指出合理的數據分析和管理是構建一套有效量化策略的關鍵環(huán)節(jié),學界和業(yè)界最常用的數據清洗加工方法是基于自然時間時鐘的數據采樣方法,即按一定的時間間隔進行行情數據的采樣統(tǒng)計,例如按年、日、小時、分鐘等頻率對行情數據進行采樣以形成不同頻率的K線數據?;跁r間時鐘的數據采樣方法符合人的直覺且操作簡單,但存在一些明顯的缺點,López de Prado(2018)[3]指出傳統(tǒng)的時間時鐘采樣方法主要存在兩個主要問題:第一,市場中交易行為不按固定的時間頻率產生,即交易信息在時間維度上的分布不均勻,這會導致基于固定時間的行情采樣方法在交易活躍的時間段采樣不足,在交易寡淡的時間段又會過度采樣;第二,基于時間時鐘采樣得到的數據序列的統(tǒng)計特性較差,例如呈現序列自相關和異方差性,不滿足正態(tài)分布和獨立同分布等統(tǒng)計假設,這會導致建模和計算更加復雜。
近些年來,隨著計算機技術的飛速發(fā)展,高頻交易已經成為市場中不可忽視的一股力量,高頻交易由技術和數據進行驅動,其交易信息主要是基于訂單流和限價訂單薄提取的市場微觀結構,其交易類型包括套利、做市、方向交易等[4]。高頻交易的收益主要來源于對市場微觀結構中的信息識別,故其對數據的精細化處理和執(zhí)行速度的要求都異??量蹋珽asley等(2012)[5]指出高頻交易和中低頻量化交易之間除了廣為人知的速度差別外,更重要的是信息處理模式的進化。中低頻策略一般是在時間時鐘的數據基礎上統(tǒng)計建模,而高頻交易是基于事件(event-based)來處理信息,市場微觀結構的基本信息單元顯然不是按時間間隔等距分布,基于事件的數據處理方法更合乎邏輯[6]?;诔山涣繒r鐘(volume clock)的數據處理方式就是一種典型的基于事件的信息處理方式,成交量時鐘是用一定數量的成交量作為“計時”單位,Easley等(2012)[5]研究表明基于成交量時鐘采樣得到的數據序列更接近正態(tài)分布,劉睿智(2016)[7]針對國內滬深300股指期貨的研究同樣表明成交量時鐘采樣得到的收益率更接近正態(tài)分布,良好的統(tǒng)計特性可以大幅簡化策略開發(fā)流程和提高策略執(zhí)行的速度。高頻交易中知情交易者的逆向選擇有可能導致高頻做市商產生虧損,為了衡量高頻做市商面臨的這種訂單流毒性(Order Flow Toxicity)的大小,Easley等(2011)[8]提出了一種衡量訂單流毒性大小的指標——基于成交量的知情交易概率(Volume-Synchronized Probability of Informed Trading,VPIN),其原理是以成交量時鐘做高頻數據統(tǒng)計的 “計時”工具,對交易的買賣量不平衡進行量化,進而計算得到訂單流毒性。另外,劉文文和張合金(2013)[9]針對我國滬深300股指期貨的研究也發(fā)現VPIN指標可以很好地監(jiān)測市場大幅波動時的指令流毒性,基于成交量時鐘的VPIN指標不僅可以被高頻做市商用作風險管理工具,也可以被中低頻交易者和監(jiān)管機構用來做極端風險的警示。此外,Easley等(2012)[10]提出了基于成交量時鐘的整體交易分類方法(Bulk Volume Classification,BVC),主要是來估計主動買單和主動賣單的百分比,具體方法是在以成交量時鐘采樣得到的數據單元內,根據數據單元的起點和終點的價格變化來計算買賣交易量的百分比,Easley(2016)[11]和Panayides(2019)[12]進一步研究表明BVC方法可以更好地分辨市場數據中的交易意圖??偠灾山涣繒r鐘在高頻交易中的諸多應用表明基于事件的信息處理模式能夠更有效地獲取市場中的有用信息。
本文的研究目的是探索基于成交量時鐘的信息處理模式在中高頻CTA策略中的應用前景,本文余下的內容:針對國內期貨市場流動性較好的34個期貨品種,對比分析成交量時鐘和時間時鐘兩種采樣方法的統(tǒng)計特性,進一步研究兩種采樣方法對典型CTA日內策略績效的影響。為表述簡便,后文將時間時鐘和成交量時鐘分別簡述為“time clock”和“volume clock”,將基于成交量時鐘采樣得到的K線序列和基于成交量時鐘采樣得到的K線序列分別簡述為“time-bars”和“volume-bars”。
二、研究對象和方法
(一)研究對象
本文選取國內期貨市場流動性較好的34個品種作為研究對象,所選取的期貨品種覆蓋國內的四個期貨交易所:中國金融期貨交易所、上海期貨交易所、大連商品交易所、鄭州商品交易所,具體的期貨品種參見表1。本文研究的期貨行情原始tick數據源來自中泰證券(上海)資產管理有限公司的行情收錄數據庫,本文研究中的數據采樣和統(tǒng)計、日內策略績效統(tǒng)計分析的時間區(qū)間為2015年5月4日至2020年 4月3日,測試的數據為各期貨品種的主力連續(xù)合約,數據在換月節(jié)點做差值前復權處理以消除換月產生的跳空缺口。
(二)行情采樣方法
針對原始tick數據,分別基于自然時間時鐘(time clock)和成交量時鐘(volume clock)兩種方法對一分鐘頻率的數據進行采樣。
1.time clock行情采樣方法?;趖ime clock的采樣方法是以固定的交易時間間隔做行情數據的采樣統(tǒng)計,生成的K線序列time-bars。本文針對特定的交易品種,按各個期貨品種的實盤交易時段,在每個交易日的交易時段內每間隔1分鐘對行情進行一次采樣統(tǒng)計,由1分鐘采樣時段內的tick數據統(tǒng)計數據得到該1分鐘K線的開盤價、最高價、最低價、收盤價、成交量(K線內的累積成交量)、持倉量(K線結束時刻的持倉量)等信息。
2.volume clock行情采樣方法。基于volume clock的行情采樣方法則是以固定的成交量間隔做行情數據的采樣統(tǒng)計,生成的K線序列volume-bars。本文為方便對比分析兩種采樣方法產生K線序列的統(tǒng)計特性,在生成volume-bars的過程中保證每個交易日的volume-bars數量和time-bars數量相同。volume clock以固定成交量作為“計時器”,其計算如式(1)所示:
(1)
其中,是期貨品種j在交易日i內的總成交量,是交易日i內1分鐘頻率time-bars的總數量,計算得到的是期貨品種j在交易日i內用volume clock采樣的成交量計數基準。
三、time-clock和 volume-clock采樣方法的統(tǒng)計分析
針對國內的34個期貨品種,具體對比分析time clock和volume clock兩種采樣方法對行情采樣結果統(tǒng)計特性的影響,本文主要分析成交量波動率、價格變動和真實波幅這三個指標。
(一)成交量波動率
本文用采樣方法得到的time-bars和volume-bars的成交量分布的波動率來表征成交量分布的均勻性,其中單個期貨品種的成交量波動率定義如下:
(2)
其中,和分別表示第i個交易volume分布的標準差和均值,N為交易日的總天數。
圖1給出了不同品種在兩種采樣方法下的成交量波動率對比,可以看到,相比于傳統(tǒng)的time clock方法,volume clock采樣得到的成交量分布對于所有品種都有顯著的下降,即volume clock采樣方法使得成交量數據序列的分布更均勻。
(二)價格變動
本文用相鄰兩根K線收盤價變化的相對值來表征價格變動(Price Change,PC),具體如下式所示:
(3)
其中,表示時刻K線的收盤價,表示前一根K線的收盤價,本文主要考慮行情采樣方法對中高頻策略的影響,在計算相應指標時僅考慮日內波動不計入隔日跳空,故針對每個交易日的第一根K線,用開盤價代替,且針對每個交易日的價格變動指標用該交易日內PC的均值和標準差做z-sore標準化。
本文用超額峰度來衡量不同期貨品種的價格變動PC的超額峰度(),的定義如式(4)所示。
(4)
由圖2可知,相較于time-bars,volume-bars價格變動指標的超額峰度顯著減小,表明volume采樣方法可以降低價格變動分布的肥尾效應,價格變動的分布更接近正態(tài)分布,統(tǒng)計特性更好,有利于基于K線收盤價統(tǒng)計建模的策略。
(三)真實波幅
本文用真實波幅(True Range,TR)來衡量行情的波動,真實波幅用當前K線的最高、最低價,以及前一根K線的收盤價進行計算,具體如下所示:
(5)
其中,、分別代表時刻K線的最高價和最低價,為上一根K線的收盤價,針對每個交易日第一根K線的處理和PC指標的計算一致,用開盤價代替,即不計入隔日跳空對TR的影響,僅考慮采樣方法對日內連續(xù)行情的影響。和PC指標類似,在每個交易日對指標TR做z-score標準化。
本文用真實波幅的超額峰度來衡量不同行情采樣方法下日內行情波動的肥尾程度,定義如下:
(6)
針對time-bars和volume-bars,不同期貨品種的對比如圖3所示。從圖中可以看到,volume clock采樣方法下的顯著低于time clock方法,表明volume采樣方法得到的價格波動率分布的肥尾效應也顯著降低,TR分布更接近正態(tài)分布。TR代表K線的長度,衡量了單根K線的平均波動幅度,TR異常離群值的減少可以提高策略對行情劇烈變動的適應性。
四、關于日內策略的實證檢驗和分析
上文的統(tǒng)計分析表明:針對1分鐘頻率的數據,volume clock采樣得到的行情統(tǒng)計特性顯著優(yōu)于傳統(tǒng)time clock方法,K線收盤價分布和真實波幅分布的肥尾效應都顯著降低,采樣數據上的異常離群值減少,分布相對更集中,交易信息的密度。下文進一步實證分析不同行情采樣方法對典型日內策略的績效影響,為保證研究的實用價值,在評價策略績效的過程中應避免使用未來數據,故后文在應用volume clock進行行情采樣的過程中,用歷史交易日成交量的指數加權平均值作為當日總成交量的估計值,的計算如下:
(7)
其中,為第i日的成交量,為計算指數加權系數α的周期數,本文設置為5,即用5日指數加權平均的日成交量作為i+1日總成交量的估計值,行情采樣的其他步驟和上文一致。
(一)日內策略的邏輯
本文采用簡單的指數移動雙均線構造日內策略,迭代計算指數移動雙均線中的短期均線和長期均線,具體算法如(8)式和(9)式所示。
(8)
(9)
其中,和分別代表短期均線和長期均線的指數加權均值,和分別代表計算短期均線和長期均線的指數加權權重系數,和分別是快線和慢線對應的時間周期。
指數加移動均線日內策略的交易信號計算規(guī)則具體如下:
(1)且,若策略在t時刻的倉位為0,則觸發(fā)買入信號,開多倉;若策略在t時刻為多頭持倉,則保持倉位不變;若策略在t時刻為空頭持倉,則觸發(fā)平倉和買入信號,買平空倉并開多倉。
(2)且,若策略在t時刻的倉位為0,則觸發(fā)賣出信號,開空倉;若策略在t時刻為空頭持倉,則保持倉位不變;若策略在t時刻為多頭持倉,則觸發(fā)平倉和賣出信號,賣平多倉并開空倉。
(3)在每個交易日收盤前進行平倉,具體實現如下:在每個交易日倒數第二根K線檢查策略持倉,若策略持倉不為0,則觸發(fā)平倉操作,保證策略日內完成平倉不留隔夜倉位。
(4)策略每次的開倉手數和波動率的倒數成正比,這里用波動率來代表策略的風險,該方法可以保證回測計算得到的績效在時間維度上的風險近似恒定且不同策略的波動率也大致相同,不同策略線性加權后的投資組合在時間維度上同樣可以保證風險等權。另外,參考Faith(2007)[13]用交易品種的平均真實波幅來衡量交易風險的方法,本文亦采用指數移動平均真實波幅(Exponential Moving Average True Range,EMATR)來衡量波動率,EMATR的計算采用TR的5日指數加權均值來表示,每個交易日結束后迭代更新EMATR,在交易日中保持EMATR的值不變。每次開倉手數()的計算公式如下:
(10)
其中,為初始本金,設置為1000萬,為分配給每個策略的風險額度比例,本文設置為2%,為所回測期貨品種的合約乘數,相當于交易1手期貨合約所代表的風險額度。
(二)策略回測設置和組合構建
1.回測參數設置?;販y的時間周期為2015-05-04至2020-04-03,每個品種回測時的開平倉手續(xù)費參考各個交易所給出的實際手續(xù)費,且按照每筆交易的起止時間區(qū)分平金和平昨,暫時不考慮日內鎖倉,若日內有平倉操作均按平倉處理,本文的研究不考慮算法交易的優(yōu)化,每筆交易的成交價統(tǒng)一設置為觸發(fā)信號時的中間價。
2.投資組合構建方法。為了減小單個策略評價績效的隨機性,本文將每個品種的回測績效看作一個單獨的子策略,用所有子策略的組合績效來評價不同采樣方法對日內策略總體績效的影響,投資組合的構建從2016年1月開始,給最初的組合構建預留半年左右的歷史數據,每隔5個交易日做一次策略權重的再分配。為了避免未來數據的窺探給組合績效的統(tǒng)計帶來前視偏差(Look-ahead bias),投資組合計算所需的收益率和協(xié)方差矩陣僅采用再分配時間點之前的歷史數據進行計算,投資組合的求解是一個二次規(guī)劃問題,具體如下:
(11)
其中,是投資組合分配給子策略i的資金權重,li是個子策略i的杠桿倍數,L是組合的總杠桿倍數,在本文中設置為3,即再投資組合權重再分配的過程中固定策略組合的總杠桿率為三倍且保持每個子策略的資金等權重分配。
(三)實證結果分析
本文用不同品種樣本外的投資組合績效來評價日內策略在time-bars和volume-bars中的績效表現。參考Grinold和Kahn(2014)[14]提出的信息比率(Information Ratio,IR)構造方式,以time-bars為比較基準,構造衡量volume-bars相對于time-bars的超額收益信息比率來直觀對比兩種方法的優(yōu)劣,其定義如下所示:
(12)
其中,和分別是volume-bars和time-bars對應的收益率序列,是殘差收益率序列,和分別代表殘差收益率期望和殘差風險。不同策略參數下投資組合的交易頻率用所有品種的日均交易次數來衡量,交易頻率的定義如下:
(13)
其中,M表示投資組合中策略總個數,本文中對應所研究期貨品種的總個數34,和分別代表第i個期貨品種在volume-bars和time-bars數據下的總交易次數,是總交易天數。
上文所述的指數移動雙均線策略的控制參數一共有兩個:短期均線的時間周期,長期均線的時間周期。為了對比time-bars和volume-bars在不同交易頻率下的績效表現,本文共設置15組參數,不同參數下volume-bars和time-bars的績效對比如表2所示。
圖4給出了和IR的關系圖,可以看到,在所測試的參數區(qū)間內,的值基本大于零,即volume-bars的組合績效普遍優(yōu)于time-bars,且隨著的增加,IR的值接近線性增加。實證結果表明,針對中高頻的日內策略,volume clock采樣方法能夠普遍提高策略的績效表現,且交易頻率越高績效的提高就越顯著。
上文中不同的策略參數導致了不同的交易頻率,這近似等價于不同采樣頻率下的相同策略參數,即較高的交易頻率對應較高的數據采樣頻率,較低的交易頻率對應較低的數據采樣頻率。下文進一步對比不同數據采樣周期的平均成交量波動率,這里的平均波動率由不同品種的加權平均計算得到,具體如下式:
(14)
其中,是品種的成交量波動率,M是交易品種總數,本文為34。
圖5給出了不同數據采樣周期(基于time clock)和平均成交量波動率的關系圖,本文共對比分析了8種不同采樣周期的數據,包含周期:1分鐘、2分鐘、3分鐘、5分鐘、10分鐘、15分鐘、30分鐘、60分鐘。從圖中明顯看到,隨著采樣頻率的提高,平均成交量波動率隨之增大,結合上文對圖4的分析,可以得到如下結論:基于傳統(tǒng)的time clock的成交量分布越不均勻,也就是成交量波動率越大時,volume clock對策略績效的提升效果就越顯著。
圖6給出了參數4的投資組合累積凈值表現對比作為示例,相比于time-bars,volume-bars的日內策略績效在投資組合的測試區(qū)間顯著改善,特別是2018年之后的績效改善尤為顯著,volume-bars在組合的整個時間區(qū)間上績效表現較為一致,而time-bars的績效表現在2018年之后出現明顯的衰減。
五、結論
數據分析和管理是量化交易中至關重要的一個環(huán)節(jié),本文借鑒高頻交易基于事件的信息處理模式,研究了成交量時鐘在中高頻CTA中的應用。針對國內期貨市場,本文分析對比了傳統(tǒng)時間時鐘和成交量時鐘采樣方法的統(tǒng)計特性,進一步研究了典型日內策略在不同采樣方法下的表現。統(tǒng)計特性的對比分析表明:相比于傳統(tǒng)的時間時鐘采樣方法,成交量時鐘采樣方法采樣得到的數據序列,成交量分布更均勻且肥尾效應減弱,日內的價差和波動率的異常離群值減少,統(tǒng)計特性顯著改善。指數移動雙均線日內策略的實證結果表明:相比于time-bars,volume-bars的績效在不同交易頻率下均有提高,且基于time clock的成交量波動率越大,volume clock采樣方法對績效的改善就越顯著,績效在整個測試時間區(qū)間上表現的一致性更好,volume clock采樣方法適合用于交易頻率較高的策略。
本文研究表明高頻交易中基于事件的信息處理模式同樣適用于中高頻的日內CTA策略,從應對流動性缺乏的極端行情、避開交易擁堵、開發(fā)中高頻策略這幾個方面考慮,基于成交量時鐘采樣這類根據交易信息變化自適應調節(jié)的行情采樣方法是具有實踐應用價值的。本文僅針對國內期貨市場研究了成交量時鐘在簡單日內策略上的應用,成交量采樣方法在不同策略類型和不同市場類型上的應用還有待進一步深入研究。量化投資的技術工具在飛速發(fā)展,各種策略模式也在快速更新迭代,要想不淪為高頻交易的“獵物”,傳統(tǒng)的非高頻策略也應該隨著市場環(huán)境的演變而不斷向前進化。
參考文獻:
[1]楊博理,賈芳.量化煉金術:中低頻量化交易策略研發(fā)[M].北京:機械工業(yè)出版社,2017.
[2]Lopez de Prado M.The 10 Reasons Most Machine Learning Funds Fail[J].Journal of Portfolio Management,2018,44 (6).
[3]Lopez de Prado M.Advances in Financial Machine Learning[M].New York:John Wiley & Sons,2018.
[4]Aldridge I.High-Frequency Trading,2e[M].New York:John Wiley & Sons,2013.
[5]Easely D,Lopez de Prado M,OHara M.The Volume Clock:Insights into the High Frequency Paradigm[J].Journal of Portfolio Management,2012,39(1).
[6]OHara M.High Frequency Market Microstructure[J].Journal of Financial Economics,2015,116(2).
[7]劉睿智,周勇.期貨市場訂單流動性層面的遛狗效應:基于交易量刻度的高頻交易數據研究[J],中國管理科學,2016,4.
[8]Easely D,Lopez de Prado M,OHara M.The Microstructure of the Flash Crash:Flow Toxicity,Liquidity Crashes and the Probability of Informed Trading[J].Journal of Portfolio Management,2011,37(2).
[9]劉文文,張合金.測量高頻交易領域中的指令流毒性:基于我國滬深300指數期貨的實證研究[J].中國經濟問題,2013,1.
[10]Easely D,Lopez de Prado M,OHara M.Bulk Volume Classification[R].Working paper,2012.
[11]Easely D,Lopez de Prado M,OHara M.Discerning Information from Data[J].Journal of Financial Economics,2016,120(2016).
[12]Panayides M A,Shohfi T D,Smith J D.Bulk Volume Classification and Information Detection[J].Journal of Banking and Finance,2019,103(2019).
[13]Faith C.Way of the Turtle:The Secret Methods that Turned Ordinary People into Legendary Trader[M].Singapore:McGraw-Hill,2007.
[14][美]格林諾德(Grinold R C),[美]卡恩(Kahn R N).主動投資組合管理:創(chuàng)造高收益并控制風險的量化投資方法(原書第2版)[M].李騰,楊柯敏,劉震,譯.北京:機械工業(yè)出版社,2014.
作者單位:中泰證券股份有限公司博后工作站;清華大學五道口金融學院