李雙宏 舒子宸 肖雅雯
(1.東方證券股份有限公司系統(tǒng)研發(fā)總部 上海 200010)(2.哥倫比亞大學(xué)梅爾曼公共衛(wèi)生學(xué)院 紐約 10032)
對(duì)股票市場(chǎng)的建模與分析主要從20世紀(jì)五十年代開(kāi)始。Harry M.Markowitz在1952年提出了均值-方差組合模型,通過(guò)協(xié)方差來(lái)衡量股票間的相關(guān)性[1]。隨后的數(shù)十年,研究者大多對(duì)影響股票價(jià)格的因子進(jìn)行了進(jìn)一步研究,其中以William F.Sharpe的夏普單指數(shù)模型[2]以及Eugene F.Fama和Kenneth R.French在1992年提出的三因素模型[3]最為著名。在衡量股票間相關(guān)程度時(shí),主要通過(guò)Pearson相關(guān)系數(shù)和歸一化互信息這兩種方式。而在構(gòu)建股票市場(chǎng)網(wǎng)絡(luò)時(shí),國(guó)內(nèi)外學(xué)者對(duì)最小生成樹(shù)法(MST),最大平面過(guò)濾圖法(PMFG),閾值篩選法,隨機(jī)過(guò)程以及隨機(jī)矩陣?yán)碚摰确椒ňM(jìn)行了嘗試和研究,成功地揭示了股市的某些運(yùn)行機(jī)理,并對(duì)各網(wǎng)絡(luò)構(gòu)建方法的優(yōu)劣勢(shì)作了全面的對(duì)比。
由于MST和PMFG存在破壞股市內(nèi)部結(jié)構(gòu)和股票間的關(guān)聯(lián)信息以及邊信息大量損失問(wèn)題[4~5],不便用于考察股市網(wǎng)絡(luò)的動(dòng)態(tài)演化情況,近年來(lái),研究者開(kāi)始改用閾值篩選法來(lái)進(jìn)行股票市場(chǎng)網(wǎng)絡(luò)的研究。相較于前兩種方法,閾值篩選法更為簡(jiǎn)單易用。在閾值篩選法中,股票節(jié)點(diǎn)的連邊保留與否取決于其與設(shè)定閾值的比較關(guān)系。同時(shí),社團(tuán)劃分算法的提出和發(fā)展也為對(duì)股票市場(chǎng)網(wǎng)絡(luò)的分析提供了新的方法,其中被廣泛應(yīng)用的有Newman的fast greedy算法[6],Pascal Pons的walktrap算法[7]和Vincent D.Blondel等的BGLL算法[8]。文獻(xiàn)[9~12]中已證明以上算法能夠有效發(fā)現(xiàn)股票市場(chǎng)中的社團(tuán)結(jié)構(gòu)。
以往研究中[13~14]均使用的是日收盤(pán)價(jià)數(shù)據(jù),且在描述股票間關(guān)系時(shí)所選取數(shù)據(jù)的時(shí)間跨度常為數(shù)百個(gè)交易日,反映的是股票市場(chǎng)中主要指數(shù)成分股長(zhǎng)期的變化情況。為了能夠有效觀察到股市中短期的演化情況,本文將嘗試從已取得較好效果的閾值篩選法出發(fā),改進(jìn)方法,調(diào)整參數(shù),探索構(gòu)建基于日內(nèi)數(shù)據(jù)的涵蓋整個(gè)股票市場(chǎng)的時(shí)序動(dòng)態(tài)網(wǎng)絡(luò),并分別使用fast greedy,walktrap和BGLL算法進(jìn)行社團(tuán)結(jié)構(gòu)分析。本文的主要?jiǎng)?chuàng)新點(diǎn)在于:
1)將對(duì)股市網(wǎng)絡(luò)的研究對(duì)象擴(kuò)展到整個(gè)股票市場(chǎng)中的所有股票,而不再限于指數(shù)的成分股集合或部分板塊。過(guò)往的研究者多關(guān)注構(gòu)成主要市場(chǎng)指數(shù)的成分股和具有相同特征的股票集合,如大市值股票,某板塊內(nèi)股票。如此構(gòu)建股市網(wǎng)絡(luò)雖能夠在一定程度上保留市場(chǎng)整體信息的同時(shí)減少構(gòu)建過(guò)程中的計(jì)算復(fù)雜度,卻往往忽略了市場(chǎng)中處于“邊緣”的股票對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的影響。為盡可能保留市場(chǎng)價(jià)格信息,本文選擇構(gòu)建針對(duì)全股票市場(chǎng)的網(wǎng)絡(luò),并將所有股票納入到分析研究的范圍中。
2)利用日內(nèi)價(jià)格數(shù)據(jù)構(gòu)建能夠反映市場(chǎng)中短期行情變化的股市網(wǎng)絡(luò),并在此基礎(chǔ)上采用多種社團(tuán)劃分算法進(jìn)行社團(tuán)結(jié)構(gòu)分析。上述研究所用數(shù)據(jù)均為日收盤(pán)價(jià)數(shù)據(jù),著眼于股票市場(chǎng)的長(zhǎng)期網(wǎng)絡(luò)結(jié)構(gòu)演化情況。鑒于本文的研究目的之一是為投資決策提供參考,因而改用日內(nèi)價(jià)格數(shù)據(jù)以更好地捕捉中短期的市場(chǎng)變化。
3)選用了研究中常用的fast greedy,walktrap和BGLL三種算法進(jìn)行網(wǎng)絡(luò)劃分,采用Salton,Jaccard和Sorenson相似性指標(biāo),并自行設(shè)計(jì)和提出了繼承比這一相似性指標(biāo),在網(wǎng)絡(luò)結(jié)構(gòu)分析的同時(shí)比對(duì)三種劃分算法的優(yōu)劣,從中選出最優(yōu)者用于以后的分析研究。
假設(shè)時(shí)序動(dòng)態(tài)網(wǎng)絡(luò)中包含N只股票,當(dāng)前片層對(duì)應(yīng)的觀測(cè)時(shí)間區(qū)間為[t0,t0+T]。在觀測(cè)區(qū)間的任一時(shí)點(diǎn)τ股票i的收益率為
其中,股票i在τ時(shí)段的價(jià)格(收盤(pán)價(jià)或均價(jià))為Pi(τ),上一個(gè)時(shí)段的價(jià)格(收盤(pán)價(jià)或均價(jià))為Pi(τ-Δt)。
在獲得了該觀測(cè)區(qū)間內(nèi)所有股票的收益率序列后,計(jì)算股票間的Pearson相關(guān)系數(shù)pij(t0),即有:
其中,ri和rj分別為股票i和股票j在該觀測(cè)時(shí)間區(qū)間的對(duì)數(shù)收益率序列,E(ri)和E(rj)分別為股票i和股票j在該觀測(cè)時(shí)間區(qū)間的收益率數(shù)學(xué)期望;對(duì)于加權(quán)時(shí)序動(dòng)態(tài)網(wǎng)絡(luò),該片層下節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的連邊權(quán)重即為ρij(t0);而對(duì)于閾值篩選法下的無(wú)權(quán)網(wǎng)絡(luò),連邊存在與否通過(guò)與閾值進(jìn)行比較決定。
選取2019年10月8日至2020年3月31日A股股票30分鐘均價(jià)數(shù)據(jù),涉及3809支股票,共計(jì)952個(gè)交易時(shí)段記錄。采樣步長(zhǎng)以使得網(wǎng)絡(luò)參數(shù)同全市場(chǎng)指數(shù)變化的相關(guān)性最大,從而能夠有效反映股票市場(chǎng)網(wǎng)絡(luò)演化為選取標(biāo)準(zhǔn),計(jì)劃分別選擇ΔT=24個(gè)交易時(shí)段和ΔT=8個(gè)交易時(shí)段來(lái)進(jìn)行測(cè)試,最終選定能有效反映網(wǎng)絡(luò)演化過(guò)程的為步長(zhǎng)。先進(jìn)行數(shù)據(jù)對(duì)齊,時(shí)間窗口內(nèi)按第二部分所述方法計(jì)算股票間相關(guān)系數(shù)。兩個(gè)不同步長(zhǎng)下,股票間相關(guān)系數(shù)均值變化如圖1和圖2所示。
圖1 步長(zhǎng)為24個(gè)交易時(shí)段網(wǎng)絡(luò)平均相關(guān)系數(shù)與市場(chǎng)指數(shù)走勢(shì)對(duì)比
圖2 步長(zhǎng)為8個(gè)交易時(shí)段網(wǎng)絡(luò)平均相關(guān)系數(shù)與市場(chǎng)指數(shù)走勢(shì)對(duì)比
當(dāng)步長(zhǎng)ΔT=8個(gè)交易時(shí)段時(shí),相關(guān)系數(shù)為-0.5540,同步長(zhǎng)ΔT=24個(gè)交易時(shí)段時(shí)的結(jié)果相差無(wú)幾。對(duì)于所構(gòu)建的網(wǎng)絡(luò),再分別利用fast greedy社團(tuán)劃分算法來(lái)進(jìn)行劃分,發(fā)現(xiàn)社團(tuán)個(gè)數(shù)基本維持在2~3個(gè)左右,且在輸出社團(tuán)內(nèi)節(jié)點(diǎn)個(gè)數(shù)進(jìn)行觀察后可知,絕大多數(shù)股票集中于幾個(gè)大規(guī)模社團(tuán)中,這符合社團(tuán)個(gè)數(shù)保持相對(duì)穩(wěn)定這一要求。最后,為判斷所構(gòu)造的時(shí)序動(dòng)態(tài)網(wǎng)絡(luò)是否滿足能有效地觀察到演化過(guò)程這一要求,最為重要的標(biāo)準(zhǔn)之一便是評(píng)估動(dòng)態(tài)網(wǎng)絡(luò)各片層間對(duì)應(yīng)社團(tuán)的相似性(繼承性)。采用基于局部信息的節(jié)點(diǎn)相似性指標(biāo):Jaccard指標(biāo),Salton指標(biāo)和Sorenson指標(biāo),來(lái)設(shè)計(jì)和選取社團(tuán)相似性指標(biāo),并將所對(duì)應(yīng)數(shù)據(jù)從節(jié)點(diǎn)相關(guān)擴(kuò)展至社團(tuán)相關(guān)[15~16]。
在式(3)~(5)中,A1為上一時(shí)間窗口(片層)中的社團(tuán),A2為本時(shí)間窗口(片層)中繼承自A1的社團(tuán);Γ(A1)為前一時(shí)間窗口下社團(tuán)A1內(nèi)的節(jié)點(diǎn)集合;Γ(A1)∩Γ(A2)代表社團(tuán)A1和A2的交集內(nèi)節(jié)點(diǎn)個(gè)數(shù);kA1為社團(tuán)A1內(nèi)的節(jié)點(diǎn)間度值之和。此外,為了更直觀的體現(xiàn)所在時(shí)間窗口下的社團(tuán)同所繼承的社團(tuán)之間的節(jié)點(diǎn)相似程度,本文中另設(shè)計(jì)繼承比率這一指標(biāo),其定義式如下:
對(duì)于相鄰時(shí)間窗口(片層)的社團(tuán)繼承關(guān)系的確定,判定原則為對(duì)于后一時(shí)間窗口內(nèi)的一個(gè)社團(tuán),遍歷其與前一時(shí)間窗口下的所有社團(tuán)的交集,認(rèn)為其繼承自與其交集內(nèi)節(jié)點(diǎn)數(shù)目最大的前一時(shí)間窗口下社團(tuán)。
考慮到步長(zhǎng)ΔT=24個(gè)交易時(shí)段時(shí)的股票市場(chǎng)加權(quán)網(wǎng)絡(luò)同股市整體價(jià)格變化的相關(guān)性更大,先對(duì)其進(jìn)行社團(tuán)劃分和社團(tuán)結(jié)構(gòu)分析。首先利用上一章中fast greedy社團(tuán)劃分算法所得到的結(jié)果進(jìn)行片層間相似性分析,相關(guān)指標(biāo)的變化如圖3所示。
圖3 步長(zhǎng)為24個(gè)交易時(shí)段fast greedy算法劃分后社團(tuán)相似性指標(biāo)變化
在每一個(gè)時(shí)間窗口,對(duì)于其劃分所得的各個(gè)社團(tuán)分別計(jì)算上述四個(gè)指標(biāo),而后進(jìn)行加總平均,最終所得均值展現(xiàn)在了圖3中。需要特別說(shuō)明的是,計(jì)算所得的Salton和Sorenson指標(biāo)值過(guò)小而不便于比對(duì),因而進(jìn)行分析時(shí)分別對(duì)其數(shù)值乘上100予以放大,隨后的相似性分析中也將采用同樣的操作。根據(jù)Salton指標(biāo)和Sorenson指標(biāo)的定義式可以發(fā)現(xiàn),要使得兩個(gè)指標(biāo)的數(shù)值相近,應(yīng)使得被考察的兩個(gè)社團(tuán)在節(jié)點(diǎn)度值之和上近似相等。對(duì)于繼承比率和Jaccard指標(biāo)而言,指標(biāo)構(gòu)成僅僅與節(jié)點(diǎn)相關(guān),當(dāng)且僅當(dāng)所考察的社團(tuán)的節(jié)點(diǎn)組成大致相同時(shí),兩個(gè)指標(biāo)才能取得較大數(shù)值。而從圖3中不難看到,Salton指標(biāo)和Sorenson指標(biāo)在2019年10月到2020年3月近半年的時(shí)間跨度中維持了近似相等的狀態(tài),說(shuō)明從度中心性的角度進(jìn)行考量,片層間社團(tuán)的相似性較高。然而,從繼承比率和Jaccard指標(biāo)來(lái)看,社團(tuán)的相似性較低,這說(shuō)明從社團(tuán)內(nèi)節(jié)點(diǎn)集的角度出發(fā),片層間社團(tuán)的繼承關(guān)系不夠明顯。
使用fast greedy算法所得社團(tuán)劃分結(jié)果在良好反映網(wǎng)絡(luò)動(dòng)態(tài)演化過(guò)程這一評(píng)價(jià)維度上表現(xiàn)不夠理想,認(rèn)為可能和所使用社團(tuán)劃分算法分辨率限制等不足有關(guān)[17],因而嘗試使用另外兩種基于模塊度的劃分算法——walktrap和BGLL算法來(lái)進(jìn)行社團(tuán)劃分,而后對(duì)當(dāng)前網(wǎng)絡(luò)片層間的相似性進(jìn)行分析。兩種算法劃分結(jié)果在不同時(shí)間窗口下非單節(jié)點(diǎn)社團(tuán)個(gè)數(shù)均在2到8個(gè)之間波動(dòng),保持了相對(duì)穩(wěn)定。至于劃分結(jié)果的社團(tuán)相似性,相關(guān)指標(biāo)展示如圖4和5所示。從Salton指標(biāo)和Sorenson指標(biāo)來(lái)看,兩種算法基本保持了Salton指標(biāo)和Sorenson指標(biāo)的近似相等,度中心性維度上的社團(tuán)相似性較高。從繼承比率和Jaccard指標(biāo)來(lái)看,片層間相對(duì)應(yīng)社團(tuán)的節(jié)點(diǎn)相似性依舊較低,這意味著對(duì)于個(gè)股而言,其難以長(zhǎng)時(shí)間處于對(duì)應(yīng)的社團(tuán)中,這不利于基于時(shí)序動(dòng)態(tài)網(wǎng)絡(luò)社團(tuán)劃分結(jié)果的高穩(wěn)定性股票選取和權(quán)益組合構(gòu)建。類似的結(jié)果在表1中得到了印證。在表1中,給出了不同社團(tuán)劃分算法下,從2019年10月到2020年3月的38個(gè)時(shí)間窗口下相關(guān)指標(biāo)的均值。繼承比率和Jaccard指標(biāo)表征的節(jié)點(diǎn)相似性在三種不同的社團(tuán)劃分算法中均錄得較低值,這已然證明了股票市場(chǎng)時(shí)序動(dòng)態(tài)網(wǎng)絡(luò)中特定社團(tuán)無(wú)法長(zhǎng)期穩(wěn)定存在,ΔT=24個(gè)交易時(shí)段的步長(zhǎng)過(guò)大,不利于觀察股市網(wǎng)絡(luò)的動(dòng)態(tài)演化過(guò)程。
圖4 步長(zhǎng)為24個(gè)交易時(shí)段walk trap算法劃分后社團(tuán)相似性指標(biāo)變化
表1 步長(zhǎng)為24個(gè)交易時(shí)段不同社團(tuán)劃分算法下社團(tuán)相似性指標(biāo)均值
現(xiàn)對(duì)于步長(zhǎng)ΔT=8個(gè)交易時(shí)段所構(gòu)建的股票市場(chǎng)加權(quán)網(wǎng)絡(luò)進(jìn)行社團(tuán)劃分和社團(tuán)結(jié)構(gòu)分析。同樣地,先利用fast greedy社團(tuán)劃分算法結(jié)果進(jìn)行片層間相似性分析,Jaccard等四個(gè)指標(biāo)的變化圖如圖6所示。
圖5 步長(zhǎng)為24個(gè)交易時(shí)段BGLL算法劃分后社團(tuán)相似性指標(biāo)變化
圖6 步長(zhǎng)為8個(gè)交易時(shí)段fast greedy算法劃分后社團(tuán)相似性指標(biāo)變化
對(duì)應(yīng)地,步長(zhǎng)ΔT=8個(gè)交易時(shí)段的股票市場(chǎng)加權(quán)網(wǎng)絡(luò)在不同社團(tuán)劃分算法下片層間相似性指標(biāo)結(jié)果如表2所示。
表2 步長(zhǎng)為8個(gè)交易時(shí)段不同社團(tuán)劃分算法下社團(tuán)相似性指標(biāo)均值
同ΔT=24個(gè)交易時(shí)段所構(gòu)建的股市網(wǎng)絡(luò)相比,當(dāng)前加權(quán)網(wǎng)絡(luò)進(jìn)行社團(tuán)劃分后Salton指標(biāo)和Sorenson指標(biāo)仍近似相等,從度中心性的角度而言,保持了較高的相似性;同時(shí),繼承比率和Jaccard指標(biāo)也在半年的時(shí)間段內(nèi)始終處于較大數(shù)值,這說(shuō)明從對(duì)應(yīng)社團(tuán)的節(jié)點(diǎn)構(gòu)成而言,相似性有了明顯提升,即意味著能夠更為細(xì)致而準(zhǔn)確地觀察到股票市場(chǎng)加權(quán)網(wǎng)絡(luò)的動(dòng)態(tài)演化過(guò)程,并根據(jù)繼承關(guān)系從中選取符合相關(guān)條件的穩(wěn)定性較高個(gè)股。這里給出從2019年11月11日到2019年11月20日期間相鄰的四個(gè)片層(時(shí)間窗口)的社團(tuán)劃分結(jié)果,使用gephi軟件,通過(guò)Force Atlas算法實(shí)現(xiàn)可視化,如圖7所示。不同圖中涂色為橙色,綠色和紫色的社團(tuán)存在著繼承關(guān)系,即下一張圖中的某顏色社團(tuán)繼承自上一張中的同色社團(tuán)。可以看到,盡管存在著社團(tuán)的演化,但絕大多數(shù)為一個(gè)大規(guī)模社團(tuán)的拆分和合并,如圖7(d)中淡藍(lán)色涂色社團(tuán)即繼承于圖7(c)中橙色社團(tuán),繼承比率為61.68%,因而依舊能夠保持較高的相似性。
圖7 社團(tuán)劃分結(jié)果
此外,社團(tuán)劃分結(jié)果同行業(yè)分類也密切相關(guān)。從整個(gè)時(shí)序動(dòng)態(tài)網(wǎng)絡(luò)中隨機(jī)抽取三個(gè)片層,分別為2019年12月20日 到2019年12月26日 的 片 層,2020年1月14日 到2020年1月20日 的 片 層 和2020年2月19日到2020年2月25日的片層。獲得這三個(gè)片層在fast greedy算法下的社團(tuán)劃分結(jié)果,取出其中規(guī)模最大的兩個(gè)社團(tuán),社團(tuán)內(nèi)節(jié)點(diǎn)個(gè)數(shù)如表3所展示??梢钥吹?,片層中絕大多數(shù)的股票節(jié)點(diǎn)均集中在最大的兩個(gè)社團(tuán)當(dāng)中。
表3 片層內(nèi)社團(tuán)股票節(jié)點(diǎn)個(gè)數(shù)及總占比
行業(yè)分類參照的是證監(jiān)會(huì)2019年第四季度的行業(yè)分類表,并將包含股票過(guò)多的制造業(yè)拆分至二級(jí)分類進(jìn)行行業(yè)結(jié)構(gòu)分析。對(duì)于社團(tuán)內(nèi)出現(xiàn)的2020年上市股票,則被列入無(wú)法識(shí)別這一類別。在計(jì)算社團(tuán)內(nèi)股票在各行業(yè)占比時(shí),使用的是該社團(tuán)內(nèi)歸屬于某行業(yè)的股票節(jié)點(diǎn)個(gè)數(shù)與某行業(yè)的股票總個(gè)數(shù)的比值。不難從表4和表5的對(duì)比中發(fā)現(xiàn),在抽取所得的片層中,雖然最大的兩個(gè)社團(tuán)內(nèi)部的節(jié)點(diǎn)個(gè)數(shù)相差并不大,但兩者內(nèi)部股票節(jié)點(diǎn)的行業(yè)構(gòu)成差別明顯,且在本文的測(cè)試時(shí)間段內(nèi)保持了相對(duì)的穩(wěn)定。這不僅證明了社團(tuán)劃分的有效性,而且不同社團(tuán)內(nèi)股票的類別差異也能夠?yàn)榉稚⒒顿Y提供參考。
本文通過(guò)將股市網(wǎng)絡(luò)的研究對(duì)象擴(kuò)展到所有股票,而非限于指數(shù)的成分股集合或部分板塊,更加充分地挖掘市場(chǎng)“邊緣”股票對(duì)網(wǎng)絡(luò)構(gòu)建的影響信息。創(chuàng)新性地選用了日內(nèi)均價(jià)數(shù)據(jù)來(lái)構(gòu)建涵蓋整個(gè)股票市場(chǎng)的時(shí)序動(dòng)態(tài)網(wǎng)絡(luò),觀察股票市場(chǎng)網(wǎng)絡(luò)在短期內(nèi)的社團(tuán)結(jié)構(gòu)性質(zhì)和演化過(guò)程,捕捉中短期市場(chǎng)變化。針對(duì)閾值篩選法所得網(wǎng)絡(luò)存在不連通等問(wèn)題,提出直接構(gòu)建基于價(jià)格數(shù)據(jù)的Pearson相關(guān)系數(shù)的股票市場(chǎng)加權(quán)網(wǎng)絡(luò)。在確定股票市場(chǎng)加權(quán)網(wǎng)絡(luò)參數(shù)和短期市場(chǎng)走勢(shì)相關(guān)后,設(shè)計(jì)提出改進(jìn)的繼承比相似性指標(biāo),與Jaccard和Salton等片層間社團(tuán)相似性指標(biāo)更為全面地分析網(wǎng)絡(luò)構(gòu)建與社團(tuán)劃分的有效性。最終選定了較好的加權(quán)網(wǎng)絡(luò)步長(zhǎng)參數(shù)和所使用的社團(tuán)劃分算法。根據(jù)所得結(jié)果,基于日內(nèi)均價(jià)數(shù)據(jù)的Pearson相關(guān)系數(shù)所構(gòu)建的股票市場(chǎng)加權(quán)網(wǎng)絡(luò)可以反映市場(chǎng)的短期走勢(shì)變化(相關(guān)指標(biāo)為負(fù)相關(guān)),且在fast greedy社團(tuán)劃分算法下,加權(quán)網(wǎng)絡(luò)的劃分結(jié)果與行業(yè)分類有明顯而穩(wěn)定的對(duì)應(yīng)關(guān)系,可以用于指導(dǎo)在股票市場(chǎng)的分散化投資。