李晨輝 舒子宸 陳俁睿 李雙宏 肖雅雯
(1.東方證券股份有限公司系統(tǒng)研發(fā)總部 上海 200010)(2.哥倫比亞大學梅爾曼公共衛(wèi)生學院 紐約 10032)(3.上海交通大學電子信息與電氣工程學院 上海 200240)
股票市場是一個公認的具有復雜度的系統(tǒng),通過股市中各股票之間的相關性構建網絡,對于研究股市的運行機理有著很好的幫助。國內外許多專家學者將復雜網絡的方法應用到股票市場的研究中,通過Pearson相關系數(shù)和歸一化互信息(normal mutual information,NMI)去衡量各支股票股價波動之間相關程度,并采用相應的網絡構造方法,如最小生成樹法(Minimum Spanning Tree,MST)[1-5],最大平面過濾圖法(Planar Maximal Filtering Graph,PMFG)[6~7]以及閾值篩選法[8~10]。此外,隨機過程以及隨機矩陣理論同樣被利用與分析股市的相關性中[11~14]。但是,MST生成的網絡中包含很少的連邊,雖能減少網絡的復雜性從而利于分析,但也有可能破壞股市內部結構與關聯(lián)信息,使得分析結果并不準確,因此不便用于考察股市網絡的動態(tài)演化情況。近年來,研究者開始改用PMFG和閾值篩選法來進行股票市場網絡的研究。相較于MST和PMFG這兩種方法,閾值篩選法更為簡單易用,但同時也更依賴于研究者的建模經驗。根據(jù)近幾年的研究進展[15~16],在進行指數(shù)構建和策略因子設計時A股市場中度值較大的股票能夠取得不錯的市場表現(xiàn)。社團劃分算法的提出和發(fā)展也為對股票市場網絡的分析提供了新的方法,其中被廣泛應用的有Newman的fast greedy算法[17],Pascal Pons的walktrap算法[18]和Vincent D.Blondel等的BGLL算法[19]。相關文獻已證明以上算法能夠有效發(fā)現(xiàn)股票市場中的社團結構。Pereira等[20]對不同規(guī)模股票市場的復雜網絡特性研究中利用BGLL社團劃分算法發(fā)現(xiàn)H股市場同樣具有層次化結構,BGLL已越來越多被用于股票市場動態(tài)網絡研究。
參考相關研究,本文從選取股票間相關性指標和股票網絡構建方法出發(fā),通過比對不同的指標和方法,確定以Pearson相關系數(shù)作為衡量股票價格波動間的相關性指標,通過閾值法構建股票市場時序動態(tài)網絡。隨后,構建度中心性策略并進行實證性分析,根據(jù)所得結果確定度中心性策略的有效性和策略的優(yōu)缺點。在此基礎上,本文創(chuàng)造性的引入社團挖掘算法來對度中心性策略進行改進,通過實證研究選定挖掘算法,并調整參數(shù),構建了基于社團分析的度中心性策略。本文的主要創(chuàng)新點在于:
1)根據(jù)相關分析結果構建了度中心性策略,并且利用社團挖掘算法來對權益組合進行大幅度改進。首先,選用了研究中常用的FN,walktrap和BGLL三種算法進行網絡挖掘,并通過Salton,Jaccard,Sorenson和繼承比率四個相似性指標,在網絡結構分析的同時比對三種挖掘算法的優(yōu)劣,從中選出最優(yōu)者用于選股。隨后,將動態(tài)網絡的思想引入到選股的過程當中,通過比較多個時間窗口下的社團挖掘結果,從不同的社團中選取屬性相對穩(wěn)定的大度值股票構建權益組合。實證分析表明,由此改進的度中心性策略能夠在保留大度值股票上漲行情跑贏大盤的優(yōu)點的同時維持波動性的相對穩(wěn)定,從而可以取得較好的市場表現(xiàn)。
2)本文探討了不同相關性指標和網絡構建方法下的股市網絡,通過彼此間的比較,發(fā)現(xiàn)了A股市場和美國股市等其他股票市場在網絡特性上的不同,并進行了相應的分析論證。
本章分別采用兩種相關性的度量Pearson相關系數(shù)和NMI去衡量滬深股市中的各支股票價格波動之間相關性并擇優(yōu),隨后通過閾值法以及PMFG算法兩種不同的股市網絡構建方法嘗試構建的中國股市網絡,分析其動態(tài)演化特性,尋找股市網絡與證券市場狀況之間的聯(lián)系,從而找尋一種合適的股市相關性網絡建模方法反應真實股市的狀況。
本文所使用數(shù)據(jù)來自聚寬(joinQuant)提供的金融數(shù)據(jù)接口,主要包括日收盤價,包含從2010年1月4日 至2020年2月20日 共計3798支股 票 的日收盤價格。其中,使用2010年1月4日至2016年12月30日共1700個交易日的數(shù)據(jù)用于選定相關性指標和網絡構建方法,剩余部分則進行基于時序動態(tài)網絡的投資策略的實證性分析。
收益率的計算公式如下:
其中,股票i在t時段的價格(收盤價或均價)為pi(t),上一個時段的價格(收盤價或均價)為pi(t-Δt)。
設定以100個交易日為時間窗口長度,20個交易日為步長,分別計算不同時間窗口下的Pearson相關系數(shù)和NMI,得到股票間的相關系數(shù)矩陣,構建兩個均有81個時間窗口的加權時序動態(tài)網絡模型。Pearson相關系數(shù)和NMI的均值變化情況如圖1所示。
圖1 兩種相關性指標均值的變化情況
不難看到,相較于Pearson相關系數(shù),NMI的均值較高且波動區(qū)間很小,說明NMI均值難以反映股票市場行情走勢。進一步分析并觀察NMI數(shù)值分布的變化情況,如圖2所示。
圖2 股票價格波動之間歸一化互信息分布的變化情況
2010年1月至2016年12月 區(qū)間內,NMI分布集中在0.8~1之間且方差較小。結合之前結果,NMI不適合選定為相關性指標用于動態(tài)網絡分析。究其原因,我國A股市場嚴格的漲跌停板制度和交易過程中明顯的板塊效應影響了基于歸一化互信息的股市網絡的性質[21~22]。因此,依據(jù)上述相關性指標性質分析結果,選擇Pearson相關系數(shù)來描述股票間關系。
已有研究[2,6,23~24]中將閾值范圍定為Pearson相關系數(shù)均值變化區(qū)間下界和上界加上一倍標準差之和??疾扉撝担?.45,0.70]區(qū)間內的網絡性質,以0.05為步長擇取閾值參數(shù)生成網絡。當兩股票間Pearson相關系數(shù)值大于閾值時,則在網絡中對應節(jié)點間加入連邊;否則不加入。所得到的無權動態(tài)網絡的連邊密度變化情況如圖3所示。
圖3 不同閾值下網絡連邊密度的變化情況
隨著閾值θ的增大,連邊密度均值和變化幅度均逐漸變小,并且隨時間的動態(tài)變化是穩(wěn)定的,表現(xiàn)在它們的動態(tài)曲線具有相近的趨勢。為使得生成的時序動態(tài)網絡隨著時間存在明顯的變化情況,同時變化幅度不宜過于劇烈,綜合考慮選定θ=0.60。
為了考察股市閾值網絡拓撲結構的穩(wěn)定性,引入一個相似性指標,其定義為相鄰兩個時間窗口的股市網絡中共有連邊的比例[16]:
其中,Ei為第i個網絡的連邊集合,|Ei|為其對應的連邊數(shù)目。兩種不同算法所得到網絡的相似性指標變動情況分別如圖4和圖5所示。
圖4 閾值法下股市網絡相似性指標的變化情況
圖5 算法下股市網絡相似性指標的變化情況
可以看到,閾值法所得到的股市動態(tài)網絡在相似性指標上明顯高于PMFG所得網絡。前者相似性指標均值為0.623,而后者的相似性指標均值僅為0.279。這意味著對于PMFG所構建的網絡,在2010年1月至2016年12月的區(qū)間內,前一時間窗口的連邊平均只有27.9%被下一時間窗口所繼承。因此,基于PMFG所得網絡的連邊動態(tài)變化劇烈,無法滿足能有效反映網絡演化過程這一要求。綜上所述,選擇以Pearson相關系數(shù)作為衡量股票價格波動間的相關性指標,通過閾值法構建股票市場時序動態(tài)網絡。
在上文所構建的時序動態(tài)網絡的基礎上,引入度中心性投資策略,并進行實證分析。所使用日收盤價數(shù)據(jù)來自聚寬(joinQuant),共涉及3798支股票,所在時間段為2017年3月8日至2020年2月20日,在剔除了法定節(jié)假日等股票市場非交易日后,剩余720個交易日記錄。利用Pearson相關系數(shù)衡量股票價格波動間相關性,并通過閾值篩選法來構建股票市場時序動態(tài)網絡。
對于所得網絡,依據(jù)度中心性來選股構建權益組合。具體方式如下:選取前一時間窗口網絡中度值為前20名的股票,按照資金等額分配的原則確定這些股票的倉位,構建權益組合。該權益組合在本時間窗口開始時建立,持有至20個交易日后,即下一時間窗口開始前。由此所得到的投資策略表現(xiàn)如圖6所示。
圖6 基于度中心性的投資策略的市場表現(xiàn)情況
在同上證綜指和滬深300指數(shù)走勢的比對中,可以發(fā)現(xiàn),基于度中心性策略所構建的權益組合在大多數(shù)情況下能夠跑贏市場,但也存在如下問題:當整體市場行情向好時,能取得明顯高于市場指數(shù)的收益;在處于震蕩行情時,表現(xiàn)和市場指數(shù)相近,并不能取得超額收益;而在處于熊市時,表現(xiàn)較差,跌幅大于市場整體表現(xiàn)。以上的實證性研究表明,在A股市場當中,處于股票市場網絡中心位置的大度值節(jié)點更容易受到宏觀經濟和國家政策的影響,在出現(xiàn)利好時,其能夠擁有較優(yōu)的表現(xiàn),獲取超額收益。因而,在市場情緒開始提升或是市場整體估值偏低時,投資具有股市網絡的中心節(jié)點是不錯的選擇。更進一步,我們希望通過對度中心性節(jié)點進行“分散”,實現(xiàn)風險降低效果。
在選定所需的社團挖掘算法的過程中,最為重要的評判標準便是算法能否反映動態(tài)網絡各時間窗口下對應社團的相似性(繼承性)。選取的節(jié)點相似性指標有Jaccard指標,Salton指標和Sorenson指標,并將這些指標中所用的對應數(shù)據(jù)從節(jié)點相關擴展至社團相關[15~16]:
在式(3)~(5)中,A1為上一時間窗口(片層)中的社團,A2為本時間窗口(片層)中繼承自A1的社團;Γ(A1)為前一時間窗口下社團A1內的節(jié)點集合;|Γ(A1)∩Γ(A2)|代表社團A1和A2的交集內節(jié)點個數(shù);k(A1)為社團A1內的節(jié)點間度值之和。此外,為了更直觀的體現(xiàn)所在時間窗口下的社團同所繼承的社團之間的節(jié)點相似程度,提出繼承比率指標:
對于相鄰時間窗口(片層)的社團繼承關系確定的原則為:對于后一時間窗口內的一個社團,遍歷其與前一時間窗口下的所有社團的交集,認為其繼承自與其交集內節(jié)點數(shù)目最大的前一時間窗口下社團。
在這里,我們依舊使用第三部分所得到的網絡進行分析和選定,而候選的社團挖掘算法有FN,walktrap和BGLL三種,在每一個時間窗口中,對于社團挖掘算法所得的各個社團分別計算上述四個指標,而后進行加總平均。股票市場網絡在不同社團劃分算法下片層間相似性指標結果如表1所示。
表1 不同社團劃分算法下社團相似性指標均值
不難看到,F(xiàn)N算法所得結果在繼承比率和Jaccard這兩項指標明顯高于另外兩種算法,說明不同時間窗口下,社團內節(jié)點變化較??;相較之下,walktrap算法在Salton和Sorenson指標上表現(xiàn)優(yōu)于FN算法,即其在網絡拓撲結構上相對穩(wěn)定??紤]到策略中主要關注社團節(jié)點的穩(wěn)定性,最終選定使用FN算法進行社團劃分。
基于社團分析的度中心性策略具體步驟如下:設定動態(tài)網絡構建時間長度為140個交易日,在該段時間內,以100個交易日為時間窗口長度,20個交易日為步長,得到3個時間窗口,并以此便獲得了時序動態(tài)網絡。在該動態(tài)網絡中,利用FN算法進行社團挖掘,找尋能夠始終位于同一社團的股票,并從不同社團中均勻挑出共20支股票構建權益組合。該權益組合持有20個交易日,直到下一個動態(tài)網絡給出新的權益組合。對這一改進后的策略進行實證分析,結果如圖7所示。
圖7 基于社團分析的度中心性策略市場表現(xiàn)情況
可以看到,基于社團分析的度中心性策略整體市場表現(xiàn)要明顯優(yōu)于之前的度中心性策略,相關的市場表現(xiàn)指標可見表2,其中,兩種策略的波動率是按照初始價值等于滬深300指數(shù)計算的,而計算夏普比率時使用的無風險收益率為rf=2%。
表2 兩種不同的度中心性策略市場表現(xiàn)相關指標
盡管基于社團分析的度中心性策略在波動率指標上沒有明顯的下降,但收益率和最大回撤率的明顯改善已經證明了策略的有效性,由此使得夏普比率提高了1.34倍。基于社團分析的度中心性策略把社團挖掘,動態(tài)網絡和度中心性的思想融合在了一起,在一定程度上實現(xiàn)了分散化的要求,并保留了大度值股票能夠跑贏市場的特性,因此取得較好的市場表現(xiàn)。
本文分別采用兩種相關性度量Pearson相關系數(shù)和歸一化互信息(NMI)指標衡量滬深股市中各支股票價格波動之間相關性,并通過閾值法以及PMFG算法分別構建股市網絡,分析所得股市網絡的網絡性質的演化過程。通過比較分析,并考慮到我國股市實際情況,選定Pearson相關系數(shù)作為股票間相關性指標,并利用閾值法構建時序動態(tài)網絡,網絡的時間窗口長度為100個交易日,步長為20個交易日,閾值為0.60。
在獲得股票市場時序動態(tài)網絡后,參考相關研究,選取度中心性占優(yōu)的股票構造投資組合,分析表明處于股市網絡中心位置的股票可以從利好政策中獲取明顯超額收益,但波動較為明顯,未進行良好的風險分散。為此進行改進,引入動態(tài)網絡和社團挖掘算法,通過從不同社團中找尋位置穩(wěn)定且具有大度值的股票構建權益組合。實證研究顯示,基于社團分析的度中心性策略的市場表現(xiàn)明顯優(yōu)于之前,可以給出投資者在中國股市中選股的相關建議。