程紅梅
(安徽建筑大學(xué)經(jīng)濟(jì)與管理學(xué)院,安徽 合肥,230601)
股票市場作為社會(huì)經(jīng)濟(jì)系統(tǒng)的“經(jīng)濟(jì)晴雨表”,其穩(wěn)定性和健康性是國民經(jīng)濟(jì)健康穩(wěn)定發(fā)展的內(nèi)在要求,越來越多的學(xué)者關(guān)注以股票市場為代表的金融領(lǐng)域研究[1-6]。在綜合因素的影響下,相關(guān)研究一般均將股票市場視作由交易賬戶、股票市場中的交易關(guān)系為基本元素的復(fù)雜網(wǎng)絡(luò)[5-8]。股票價(jià)格的漲跌、股票交易量等股票市場的指征屬性都可以在股票網(wǎng)絡(luò)上體現(xiàn),基于不同的復(fù)雜網(wǎng)絡(luò)模型和超網(wǎng)絡(luò)模型,股票市場的行為被細(xì)致地分析。
股票市場相關(guān)性研究中,以股票為點(diǎn)、股票之間的關(guān)系為邊構(gòu)造的股票網(wǎng)絡(luò)模型已經(jīng)成為股票相關(guān)性分析研究的重要工具。隨著計(jì)算機(jī)軟硬件性能的顯著提升、大數(shù)據(jù)技術(shù)的普及以及人工智能研究的新進(jìn)展[9-10],基于股票網(wǎng)絡(luò)的股票相關(guān)性分析被越來越多的研究所關(guān)注[1-3,7,8]。
本文的研究面向基于股票網(wǎng)絡(luò)的股票市場行為分析,基于股票價(jià)格序列,研究了使用歐式距離計(jì)量股票差異性的原理與方法,并在實(shí)現(xiàn)股票差異性計(jì)量的基礎(chǔ)上,討論了基于股票差異性的相關(guān)性股票獲取方法。本文的第二部分討論了基于股價(jià)變化序列的股票距離的定義及其估計(jì)方法;第三部分對(duì)基于距離最佳逼近k維歐氏索引的股票相關(guān)性方法進(jìn)行了描述;實(shí)驗(yàn)結(jié)果與分析在第四部分給出,第五部分對(duì)研究進(jìn)行了總結(jié)并未來的研究進(jìn)行了展望。
一只股票在交易期間內(nèi)每個(gè)時(shí)刻的成交價(jià)格是該股票的特征時(shí)間序列。任意兩只股票的差異性可以使用它們各自特征時(shí)間序列的距離度量。
設(shè)函數(shù)f:[0L]→R、g:[0L]→R是[0L]上的連續(xù)函數(shù),即f(x),g(x)∈C[0L],泛函G(f,g)如式(1)規(guī)定。
引理1:設(shè)泛函G(f,g) 如式(1)規(guī)定,則對(duì)?f(x),g(x)∈C[0L],G(f,g)≥0。且 當(dāng) 且 僅 當(dāng)f=g時(shí),G(f,g)= 0。
證明:
(1) ∵對(duì)?f(x),g(x)∈C[0L],f(x),g(x)∈R
∴|f(x)-g(x) |≥0
∴對(duì)?f(x),g(x)∈C[0L],G(f,g)≥0。
(2) 又 對(duì)?f(x)∈C[0L],|f(x)-f(x) |= 0,故G(f,f)= 0。
(3) 再設(shè)?f(x),g(x) ∈C[0L],f≠g,
G(f,g)= 0,則:
∵f≠g
∴?x0∈[0L],f(x0)≠g(x0),不 妨 設(shè)f(x0)>g(x0)
∵f(x),g(x)∈C[0L]
∴?0 ≤δ1<δ2≤L,x0∈[δ1δ2],對(duì)?x∈[δ1δ2],f(x)>g(x)
∴假設(shè)不成立,故G(f,g)= 0 且僅當(dāng)f=g時(shí)。
∴綜合(1)(2)(3),引理成立。
引理2:設(shè)泛函G(f,g) 如式(1)規(guī)定,則對(duì)?f(x),g(x)∈C[0L],G(f,g)=G(g,f)。
證明:
∵對(duì)?f(x),g(x)∈C[0L],f(x),g(x)∈R,|f(x)-g(x) |= |g(x)-f(x)|
∴G(f,g)=G(g,f)
引理3:設(shè)泛函G(f,g)如式(1)規(guī)定,則對(duì)?f(x),g(x),h(x)∈C[0L],G(f,g)≤G(f,h)+G(h,g)。
根據(jù)引理1~3,式(1)定義的泛函G(f,g)是函數(shù)f(x)到g(x)的歐氏距離,故函數(shù)f(x)、g(x)間的歐氏距離如定義1 規(guī)定。
定義1:設(shè)函數(shù)f:[0L]→R、g:[0L]→R是[0L]上的連續(xù)函數(shù),泛函G(f,g)如式(1)規(guī)定,若G(f,g)= 0 當(dāng)且僅當(dāng)f(x)=g(x),則G(f,g)是函數(shù)f(x)、g(x)間的歐氏距離。
進(jìn)一步可以證明,對(duì)引理1,若不強(qiáng)調(diào)“當(dāng)且僅當(dāng)f=g時(shí),G(f,g)= 0”,則對(duì)式(1)規(guī)定的泛函G(f,g),函數(shù)f、g在區(qū)間[0L]上連續(xù)的條件可以不再要求。此時(shí),泛函G(f,g)滿足引理4。而根據(jù)引理2~4,函數(shù)f(x)到函數(shù)g(x)的泛化歐氏距離如定義2 規(guī)定。
引理4:設(shè)函數(shù)f:[0L]→R、g:[0L]→R是[0L] 上的函數(shù),泛函G(f,g) 如式(1)規(guī)定,則對(duì)?f(x),g(x)∈C[0L],G(f,g)≥0。
證明:∵f:[0L]→R、g:[0L]→R是[0L]上的函數(shù)
∴f(x),g(x)∈R
∴|f(x)-g(x) |≥0
∴G(f,g)≥0。
定義2:設(shè)函數(shù)f:[0L]→R、g:[0L]→R是[0L] 上的 函 數(shù),泛 函G(f,g) 如 式(1)規(guī) 定,則G(f,g)是函數(shù)f(x)、g(x)間的泛化歐氏距離。
對(duì) 函 數(shù)f(x),g(x)∈C[0L],設(shè)0 =t0<t1<…<tn-1<tn=L, Δi=ti-ti-1,i= 1,2…n, 若G?(f,g)如式(2)規(guī)定,則G(f,g)≈G?(f,g)。顯然,G?(f,g)是對(duì)函數(shù)f、g的歐氏距離或者泛化歐氏距離G(f,g) 的估計(jì),且max{Δi|i= 1,2…n}}越小,G?(f,g)對(duì)G(f,g)的估計(jì)越準(zhǔn)確。
一般的,對(duì)不同股票的價(jià)格序列,可以依據(jù)式(2)對(duì)股票的差異性進(jìn)行估計(jì)。特別的,若股票價(jià)格的變化是連續(xù)函數(shù)時(shí),依據(jù)式(2)估計(jì)的股票的差異性是股票間的歐式距離,而若認(rèn)為股票的價(jià)格是非連續(xù)變化時(shí),依據(jù)式(2)估計(jì)的股票的差異性是股票間的歐式泛化距離。
交易時(shí)間內(nèi),市場內(nèi)影響股票價(jià)格的因素眾多,不同的因素對(duì)不同股票的價(jià)格影響程度不一。股票價(jià)格作為諸多因素影響的最終結(jié)果,不同股票價(jià)格的關(guān)聯(lián)變化特性反映了不同股票間的內(nèi)在聯(lián)系,因此,股票價(jià)格的相關(guān)性是股票相關(guān)性的一種外在表現(xiàn):當(dāng)股票價(jià)格相關(guān)頻繁發(fā)生時(shí),相關(guān)股票應(yīng)存在某種意義上的關(guān)聯(lián)。一方面,股票價(jià)格的相關(guān)性可以使用股票價(jià)格序列的相關(guān)系數(shù)度量,而股票價(jià)格序列相關(guān)系數(shù)的計(jì)算需要確定股票價(jià)格的協(xié)方差,而計(jì)算協(xié)方差時(shí),無論是序列的期望還是方差的精度都直接影響相關(guān)系數(shù)對(duì)股票相關(guān)性的準(zhǔn)備程度的衡量,這意味著使用相關(guān)系數(shù)定量股票價(jià)格的相關(guān)性,需要較長時(shí)間段內(nèi)的股票價(jià)格序列。而量化較短時(shí)間段的股票價(jià)格序列的相關(guān)性時(shí),一般基于歷史價(jià)格序列的均值進(jìn)行估計(jì)[2]。另一方面,依據(jù)式(2)可以基于股票價(jià)格序列的歐式泛化距離量化股票價(jià)格序列的差異性,而股票價(jià)格序列的差異性越小,股票價(jià)格序列的相關(guān)性越大。進(jìn)一步,若已知股票價(jià)格序列間的歐式泛化距離,還可以使用多維尺度分析技術(shù)將股票價(jià)格序列映射為2 維或3 維空間中的點(diǎn),這樣,就可以在2 維或3 維空間中通過觀察股票價(jià)格序列對(duì)應(yīng)點(diǎn)間的空間臨近關(guān)系直觀顯示股票價(jià)格序列的相關(guān)性。
定義3:設(shè)L1、L2是股票S1、S2某一時(shí)間段內(nèi)的同粒度股價(jià)序列,d(L1,L2)是序列L1、L2如定義2規(guī)定的距離。若對(duì)α>0,d(L1,L2)≤α,則稱股票S1、S2股價(jià)α相關(guān)。
定義4:設(shè)L1i、L2i是股票S1、S2第i 時(shí)間段內(nèi)的同粒度股價(jià)序列,i= 1,2…n。若對(duì)任意0 <β≤1,股票S1、S2的股價(jià)α相關(guān)的次數(shù)不少于n×β,則稱股票S1、S2β(α)相關(guān)。
定 義 5:設(shè) 數(shù) 據(jù) 集P={P1,P2…Pn},對(duì)?Pi∈P,若Qi=(qi1,qi2…qik)是k維歐氏空間中與Pi∈P對(duì)應(yīng)的k維向量,則稱Qi是Pi的k歐氏索引,而Q={Q1,Q2…Qn}則是P的k歐氏索引集。
設(shè)P={P1,P2…Pn}是給定交易時(shí)間內(nèi)某個(gè)時(shí)間段內(nèi)的n支股票的股票價(jià)格序列集,由定義2 知n支股票的距離可計(jì)算。
定義2 規(guī)定的股票價(jià)格序列集P的距離最佳逼近k維歐氏索引集可以使用多維標(biāo)度分析(multidimensional scaling,MDS)方法求解。在k=2 或者k=3 時(shí),可以將每支股票視作2 維或者3 維空間中的一個(gè)點(diǎn)從而直觀的展示各支股票的空間相對(duì)位置,直觀的表達(dá)股票的β(α)相關(guān)性。算法1 給出了基于股票價(jià)格序列集和距離最佳逼近k維歐氏索引集β(α)相關(guān)的股票獲取過程的形式描述。
定義6 規(guī)定的股票價(jià)格序列集P的距離最佳逼近k維歐氏索引集可以使用多維標(biāo)度分析(multidimensional scaling,MDS)方法求解。在k=2 或者k=3 時(shí),可以將每支股票視作2 維或者3 維空間中的一個(gè)點(diǎn)從而直觀的展示各支股票的空間相對(duì)位置,直觀的表達(dá)股票的β(α)相關(guān)性。算法1 給出了基于股票價(jià)格序列集和距離最佳逼近k維歐氏索引集β(α)相關(guān)的股票獲取過程的形式描述。
算法1:基于股票價(jià)格序列集和距離最佳逼近k 維歐氏索引集β(α)相關(guān)的股票獲取過程
輸入:股票價(jià)格觀測窗口寬度L,閾值α、β,全部股票的價(jià)格序列矩陣Mmxn,維數(shù)k/*m 只股票,每只股票有n 個(gè)價(jià)格數(shù)據(jù)*/輸出:相關(guān)的股票序列集RS
1)股票價(jià)格序列集合PS 置空;
2)for 每一只股票
從價(jià)格序列的第一個(gè)數(shù)值開始,自前向后逐一析取連續(xù)L個(gè)股票價(jià)格作為股票價(jià)格序列增加到股票價(jià)格序列集合PS 中;每只股票可構(gòu)造p(=n-L+1)個(gè)股票價(jià)格序列。
3) 為PS 中的每只股票價(jià)格序列建立k維歐式索引;
4)使用全部股票價(jià)格序列的k維歐式索引計(jì)算每個(gè)觀察時(shí)刻(共p個(gè))全部股票的歐式距離矩陣dM;
/*dM 有p個(gè)元素,每個(gè)元素是全部股票的1個(gè)歐氏距離矩陣*/
5)依據(jù)dM 和α 計(jì)算每個(gè)觀察時(shí)刻任意兩只股票的相關(guān)性到bM;
/* bM 有p個(gè)元素,每個(gè)元素是記錄每個(gè)觀察時(shí)刻任意全部股票的相關(guān)矩陣;由于任意兩只股票的距離不大于boundary 時(shí)股票相關(guān),相關(guān)矩陣對(duì)應(yīng)元素取值為1,否則為0*/
6)將bM 中的α 個(gè)相關(guān)矩陣?yán)奂拥较嚓P(guān)判別矩陣cM;
7) cM 中,若兩只股票的相關(guān)性累加值不小于p×β,則記錄這兩只股票相關(guān)到RS 中。
實(shí)驗(yàn)選取了2017 年7 月12 日交易時(shí)間內(nèi),在滬深兩市交易的25 支銀行股票的每分鐘的成交價(jià)格為數(shù)據(jù)源(每支股票共有240 個(gè)數(shù)據(jù))。由于各股票的價(jià)格差異顯著,實(shí)驗(yàn)使用每支股票的每分鐘成交價(jià)相對(duì)開盤價(jià)的漲跌幅(=(成交價(jià)-開盤價(jià))/開盤價(jià))為實(shí)驗(yàn)數(shù)據(jù)。25 支股票的漲跌幅情況如圖1所示,同時(shí)從圖1 也可以觀察出某些股票的成交價(jià)格的漲跌存在著一致性。
為驗(yàn)證算法1 的有效性,我們使用了依據(jù)式(2)計(jì)算的股票價(jià)格序列距離與算法1 中使用股票價(jià)格序列的k維歐式索引的距離作為對(duì)比。對(duì)比試驗(yàn)結(jié)果表明,在分別選取合適的α、β的前提下,兩種方法均可以構(gòu)造同樣的相關(guān)股票數(shù)據(jù)集。例如,為獲得相關(guān)股票集{民生銀行600016,交通銀行601328}時(shí),算法1 使用的參數(shù)α、β分別取值為0.04 和0.99,而在直接使用股票價(jià)格序列距離時(shí),參數(shù)α、β 分別取值為0.01 和0.9。實(shí)驗(yàn)中,股票價(jià)格觀測窗口寬度L取值為10,即通過分析過去10 min 以來的股票成交價(jià)格來判斷任意兩只股票是否相關(guān)。
圖1 25支銀行股的漲跌
相比較直接使用股票價(jià)格序列距離獲取β(α)相關(guān)的股票集,使用算法1 獲取β(α)相關(guān)的股票集時(shí),在維度參數(shù)k=2 或者3 時(shí),可以在2 維平面或者3 維空間中直接展示各股票的相對(duì)位置。由于所使用的索引是k維歐氏索引,展示各股票的相對(duì)位置關(guān)系時(shí),每只股票是所在空間中的一個(gè)點(diǎn),而不同點(diǎn)間的距離直接反映了與每個(gè)點(diǎn)對(duì)應(yīng)的股票的相關(guān)程度:點(diǎn)間的距離越小,對(duì)應(yīng)股票的相關(guān)性越大。圖2 給出了實(shí)驗(yàn)用25 只股票在2 維空間中的相對(duì)位置231 次疊加后股票空間的分布效果,這種效果是圖1 中描述的25 支股票價(jià)格波動(dòng)的另一角度的詮釋。典型時(shí)刻25 只股票在2 維歐式空間中的相對(duì)位置關(guān)系由圖3 的(a)-(h)子圖給出。圖3的每個(gè)子圖中,圖題為股票相對(duì)位置所處的時(shí)刻。顯然,股票價(jià)格序列的k維歐氏索引能夠直觀的刻畫股票的相關(guān)性。
圖2 股票相對(duì)位置疊加后的股票空間分布
圖3 典型時(shí)刻股票的相對(duì)位置
股票的相關(guān)性檢測是股票市場中異常行為監(jiān)測與管理的基礎(chǔ),為獲取正常交易的股票的相關(guān)性,本文基于股票價(jià)格序列定義了股票的距離和泛化距離實(shí)現(xiàn)了股票差異性的定量計(jì)算?;诙康墓善本嚯x,本文使用多尺度分析技術(shù)實(shí)現(xiàn)了股票價(jià)格序列在k維歐式空間的索引:股票價(jià)格序列的k維歐式空索引一方面可以用于在2 維或3 維空間中直觀的顯示股票之間的差異性,另一方面還可以使得基于歐式距離的聚類或者分類技術(shù)有效的應(yīng)用于股票數(shù)據(jù)的深度分析過程。同時(shí),本文在股票股價(jià)相關(guān)的基礎(chǔ)上定義了股票的β(α)相關(guān),設(shè)計(jì)了獲取β(α)相關(guān)股票的方法,實(shí)現(xiàn)了基于股票價(jià)格序列的相關(guān)性股票的有效獲取。進(jìn)一步,基于股票價(jià)格序列的β(α)相關(guān)的相關(guān)性股票的獲取也為以股票為點(diǎn)、股票之間的關(guān)系為邊構(gòu)造的股票網(wǎng)絡(luò)模型中邊的有效描述提供了一種新量化手段。
關(guān)于股票相關(guān)性,本文僅僅考慮了股票間的正相關(guān)特性,負(fù)相關(guān)股票獲取的模型與方法是未來必須關(guān)注的研究。同時(shí),本文研究直接使用了股票的價(jià)格序列,已經(jīng)進(jìn)行的研究顯示基于股票價(jià)格的變化可以更細(xì)致的揭示股票之間的內(nèi)在關(guān)聯(lián)特性,基于股票價(jià)格變化的股票相關(guān)性模型與相關(guān)股票獲取方法設(shè)計(jì)是值得關(guān)注的研究。