趙麗麗, 唐 鎮(zhèn), 王建勇, 王建波, 楊會杰
(1.上海理工大學管理學院,上海 200093;2.邢臺學院物理系,邢臺 054001)
物理理論是時間序列分析技術(shù)發(fā)展的一個基本源泉[1-3].物理學理論的每一個進步,往往首先被用于時間序列分析.混沌、分形、自組織臨界、隨機介質(zhì)、少數(shù)者博弈理論等的發(fā)展,給時間序列分析注入了新的思想和技術(shù)手段,是非線性時間序列分析的理論和思想基礎(chǔ).復(fù)雜網(wǎng)絡(luò)理論是近年來發(fā)展起來的統(tǒng)計物理的一個重要分支[4].一個復(fù)雜系統(tǒng)的諸多元素及其之間的關(guān)系,可以用復(fù)雜網(wǎng)絡(luò)描述.網(wǎng)絡(luò)的節(jié)點和邊代表元素和它們之間的關(guān)系.復(fù)雜網(wǎng)絡(luò)弱化元素之間的作用細節(jié),而著重體現(xiàn)元素之間的相互作用關(guān)系的拓撲結(jié)構(gòu),從而凸顯這種結(jié)構(gòu)與復(fù)雜系統(tǒng)性質(zhì)之間的關(guān)系.隨著信息技術(shù)的發(fā)展,各個學科領(lǐng)域積累了海量的原始數(shù)據(jù),從這些數(shù)據(jù)中提取復(fù)雜系統(tǒng)的信息,是當前的基本任務(wù).復(fù)雜網(wǎng)絡(luò)理論已經(jīng)成為完成這一任務(wù)的最有希望的候選技術(shù)方法.實際上復(fù)雜網(wǎng)絡(luò)理論已經(jīng)成為很多學科發(fā)展的新視角和指導思想,如系統(tǒng)生物學[5].近年來一個活躍的研究課題是試圖把復(fù)雜網(wǎng)絡(luò)理論應(yīng)用于時間序列分析,從復(fù)雜網(wǎng)絡(luò)這一全新的視角出發(fā),發(fā)展一套從時間序列映射到復(fù)雜網(wǎng)絡(luò)的方法.期望能夠提取到新的序列結(jié)構(gòu)特征,從而深入認識復(fù)雜系統(tǒng)的結(jié)構(gòu)和動力學機制.這些方法將應(yīng)用于金融、生理醫(yī)學、生物等序列分析中.
文獻中已經(jīng)建議了多種時間序列映射到復(fù)雜網(wǎng)絡(luò)的方案,但是這些方法的有效性都是采用理論模型產(chǎn)生的標準序列驗證的.當用于現(xiàn)實中的時間序列分析時,必須回答的問題包括:時間序列非定態(tài)對網(wǎng)絡(luò)結(jié)構(gòu)的影響、環(huán)境噪聲和統(tǒng)計漲落對網(wǎng)絡(luò)結(jié)構(gòu)的影響及復(fù)雜網(wǎng)絡(luò)能夠提供哪些其它序列分析方法不能得到的性質(zhì).也就是復(fù)雜網(wǎng)絡(luò)應(yīng)用于序列分析的優(yōu)勢和局限性.筆者綜述了當前時間序列復(fù)雜網(wǎng)絡(luò)研究的進展,并對上述3個問題進行一些探索.
文獻[6-8]采用復(fù)雜網(wǎng)絡(luò)理論對偽周期時間序列進行了分析.把序列的每一個周期片段映射成一個節(jié)點,如果兩個周期片斷的相空間距離或者相關(guān)系數(shù)滿足一定條件,這兩個序列片斷對應(yīng)的節(jié)點就相連,從而構(gòu)建網(wǎng)絡(luò).對網(wǎng)絡(luò)的統(tǒng)計性質(zhì),如度分布、平均路徑長度、聚類系數(shù)等進行考察,發(fā)現(xiàn)不同動力學過程產(chǎn)生的序列,對應(yīng)的網(wǎng)絡(luò)拓撲結(jié)構(gòu)表現(xiàn)出明顯的差異——噪聲周期信號生成隨機網(wǎng)絡(luò);混沌時間序列生成具有小世界和無標度特性的網(wǎng)絡(luò).網(wǎng)絡(luò)的統(tǒng)計性質(zhì)可以反映和量化嵌入混沌吸引子的不穩(wěn)定周期軌道的層次結(jié)構(gòu).
采用這種方法對時間序列進行分析,的確可以從宏觀尺度挖掘到網(wǎng)絡(luò)的一些信息,如度分布、平均路徑長度等;但有的網(wǎng)絡(luò)即使全局性信息相同,但仍存在顯著的局部性差異,這就要求從微觀尺度探測系統(tǒng)內(nèi)部的結(jié)構(gòu)特征.文獻[8]研究了網(wǎng)絡(luò)的不同子圖出現(xiàn)的相對頻率,用來刻畫不同類型的連續(xù)性系統(tǒng),找出隱藏在內(nèi)部的信息差異,并據(jù)此為序列分類.事實證明,這種方法確實可以將混沌、超混沌和噪聲等信號區(qū)分開來.
文獻[9-13]從時間序列分析的相空間重構(gòu)出發(fā),把長度固定的時間序列片段映射為網(wǎng)絡(luò)的節(jié)點,這些節(jié)點之間的關(guān)聯(lián)系數(shù)作為判斷這些節(jié)點之間是否連接的依據(jù).當關(guān)聯(lián)系數(shù)絕對值大于某一閾值的時候,認為兩個節(jié)點連接.該文中提出了一個有效確定閾值的方法,也就是同時調(diào)相空間維數(shù)和閾值,使得在一個很寬的參數(shù)范圍內(nèi),度分布服從的函數(shù)形式不變,并且擬合參數(shù)不再變化,該穩(wěn)定區(qū)被認為反映了序列本身的一些固有的性質(zhì).這種方法應(yīng)用于現(xiàn)實中的時間序列,發(fā)現(xiàn)能夠很好地反映不同股票序列之間的差異.當然,這種方法也存在問題,要想準確地估計兩個狀態(tài)變量間的相關(guān)系數(shù),通常需要足夠大的嵌入維數(shù),因此就會丟失序列上的局部信息,甚至會給系統(tǒng)帶來偽相關(guān).
文獻[14-15]提出了一種基于流體動力學復(fù)雜網(wǎng)絡(luò)的等價方法,并成功地應(yīng)用于氣液兩相流中導電信號的非線性系統(tǒng).文獻[16]也采用相似的技術(shù),考慮了多個序列之間的關(guān)系網(wǎng)絡(luò).把每個時間序列作為節(jié)點,而序列之間的關(guān)聯(lián)系數(shù)作為連接與否的依據(jù).
文獻[17-18]提出了一種可見圖的方法.時間序列的點映射成節(jié)點,如果兩個節(jié)點之間的所有節(jié)點都落在這兩個節(jié)點連線的下面,也就是兩個節(jié)點“可見”,兩者之間建立邊連接.這種網(wǎng)絡(luò)的優(yōu)點是保持了原時間序列的大部分性質(zhì),周期序列、隨機序列、分形序列分別轉(zhuǎn)化為規(guī)則網(wǎng)絡(luò)、隨機網(wǎng)絡(luò)和無標度網(wǎng)絡(luò).
可見圖的一個重要的應(yīng)用是估算分數(shù)布朗運動的休斯特指數(shù)(Hurst exponent).分數(shù)布朗運動的可見圖的度分布滿足冪律函數(shù),理論推導知,冪律指數(shù)α是休斯特指數(shù)H的線性函數(shù),α=3-2H.文獻[19]考察了分數(shù)布朗運動和多重分形隨機游走序列的可見圖方法,獨立地得出此結(jié)論.
可見圖首先應(yīng)用于匯率序列的分析[12].選取6個重要的匯率序列作為研究對象(CAD加元,EUR歐元,JPY日元,GBP英鎊,NZD新西蘭元和AUD澳元).結(jié)果表明,這些序列最后轉(zhuǎn)化成了無標度和具有層次結(jié)構(gòu)的網(wǎng)絡(luò),度分布的標度指數(shù)和H之間服從分數(shù)布朗運動的分析預(yù)測.將可見圖方法與小波最大模方法算出的H結(jié)果進行對比,證明了可見圖算法的可靠性.歐元和日元的匯率被廣泛用來評估風險和估計風險投資中的趨勢.這兩種匯率序列的可見圖的層次性比其它匯率序列的要弱得多,這說明可見圖揭示出了匯率序列的非平凡性質(zhì).
可見圖也用于心跳信號分析[20].研究發(fā)現(xiàn),相應(yīng)的網(wǎng)絡(luò)都是無標度網(wǎng)絡(luò)、具有很高的聚類系數(shù)、明顯的層次結(jié)構(gòu)和明顯的同配混合性,尤其是可以用網(wǎng)絡(luò)的同配系數(shù)識別充血性心力衰竭.文獻[21]對此提出了質(zhì)疑,指出序列長度(網(wǎng)絡(luò)的規(guī)模)對同配混合模式的影響,認為同配系數(shù)不能作為劃分健康者與病人的指標.
由于可見圖構(gòu)造規(guī)則的原因,可見圖很難進行理論分析,為此文獻[22]提出了可見圖的子圖——水平可見圖.水平可見圖的定義是在可見圖基礎(chǔ)上簡化而來的.構(gòu)建規(guī)則是序列數(shù)據(jù)點作為節(jié)點,如果兩個節(jié)點的值大于它們之間的所有節(jié)點的值,在這兩個節(jié)點之間建立一條邊.該方法可以很容易地將混沌與隨機序列區(qū)分開來,包括低維混沌、噪聲低維混沌、高維混沌序列.與其它算法相比較,該算法的計算成本低,可以得到精確的解析解.但是,該方法是否可以量化混沌,還要考慮到表達混沌的一些通用指標(如李亞普諾夫指數(shù)、相關(guān)維數(shù)等),此問題有待于進一步深入研究.
綜上所述,時間序列映射到復(fù)雜網(wǎng)絡(luò),采用復(fù)雜網(wǎng)絡(luò)理論提取時間序列特征,已經(jīng)開展了一些具有啟發(fā)意義的方法和理論研究.對實際序列分析表明這一方向具有潛在的應(yīng)用前景.但是,這些研究都是針對理論模型產(chǎn)生的標準序列進行的.當應(yīng)用于現(xiàn)實序列的分析時,仍有許多基本的問題需要解決.現(xiàn)實時間序列是非平穩(wěn)的,也不可避免地受到噪聲的影響.理論上可以看作是平穩(wěn)序列與趨勢序列以及噪聲信號的疊加.因此,必須回答的問題包括混合序列中各種成分競爭特點和復(fù)雜網(wǎng)絡(luò)研究時間序列能夠給出那些新的信息.筆者將以可見圖方法為例,考慮具有不同修斯特指數(shù)的分數(shù)布朗運動的混合序列,探索這些成分之間的競爭特點.與小波分析方法比較,闡釋可見圖方法的優(yōu)缺點,指出聯(lián)合使用小波分析和可見圖的必要性.進一步把可見圖方法推廣到二維地貌的描述,提出二維可見圖(2D visibility graph)概念.在此基礎(chǔ)上指出發(fā)展方向.
實際時間序列往往是多個時間序列的整合,如各種經(jīng)濟指數(shù)、股市綜合指數(shù)等.如何理解這些時間序列的復(fù)雜網(wǎng)絡(luò)性質(zhì),是一個基本的問題.為此研究了多個分數(shù)布朗運動疊加序列中多成分競爭問題[23],分析了時間序列競爭對可見圖性質(zhì)的影響.發(fā)現(xiàn)對于由兩個不同指數(shù)分數(shù)布朗運動序列得到的混合序列,可見圖的性質(zhì)由具有較小 H指數(shù)的序列成分決定.這個結(jié)論可以推廣到多成分混合序列.
首先產(chǎn)生兩個標準化的fBm序列{y1i|i=1,2,…,N}和{y2i|i=1,2,…,N},對應(yīng)的分形指數(shù)分別為H1和H2.一個混合序列可以表示為
式中,f為調(diào)節(jié)序列中兩個序列成分相對強度的參數(shù).
一個多重的疊加序列可以表示為
式中,w為組分的個數(shù);
圖1為兩個分數(shù)布朗運動混合序列與原始序列的度分布p(k)函數(shù)與度k關(guān)系示意圖.混合相對強度為1,H1和H2分別為0.2,0.5.原始序列和混合序列的可見圖都為無標度網(wǎng)絡(luò),并且混合序列的無標度指數(shù)與H為0.2的序列的無標度指數(shù)相近.
圖2為混合序列可見圖度分布指數(shù)αm與混合成份的H1和H2的關(guān)系.發(fā)現(xiàn)混合序列的度分布都滿足冪律,并且冪律指數(shù)與具有較小的H指數(shù)的分數(shù)布朗運動序列的指數(shù)相同.圖3(見下頁)為f對αm的影響,可以觀察到大約f≥0.2的時候,較小H的序列成分在可見圖中占主導地位.
圖1 混合序列可見圖的p(k)與k的關(guān)系Fig.1 Degree distibution,p(k)for visibility graphs of nvxed series
圖2 αm與混合成份H1和H2的關(guān)系Fig.2 Relation of αmversusH1ang H2
現(xiàn)在的研究,主要是針對一維時間序列開展的.而實際上二維空間的數(shù)據(jù)分析,有著更加廣泛的應(yīng)用背景.在生物、物理、地理、大氣等諸多領(lǐng)域,地貌(landscape)是一個重要的概念[24].如蛋白質(zhì)折疊過程由二維空間上的勢能曲面決定.而一個表面的粗糙度是認識力學、催化等作用的重要概念.因此,如何把復(fù)雜網(wǎng)絡(luò)理論應(yīng)用于地貌研究,有著重要的理論和應(yīng)用價值.為此本文提出二維可見圖(2D visibility graph)概念,作為應(yīng)用的例子研究了分形表面的結(jié)構(gòu)特征.
圖3 f對αm的影響Fig.3 Impacf of f on αm
對于二維空間的數(shù)據(jù),對其行、列分別應(yīng)用可見圖規(guī)則,構(gòu)成二維可見圖.二維規(guī)則分形粗糙表面可以由生成元逐次迭代生成,測度量是表面上的幾何高度,即在二維表面上各點處的幾何高度是按一定的生成規(guī)則分布的[25].
多分形用于二維粗糙表面的定量表征,簡單分形維數(shù)僅可以對粗糙表面做整體上的表征,多重分形譜可以全面反映表面上幾何高度的概率分布,但無法體現(xiàn)空間結(jié)構(gòu)特征.利用復(fù)雜網(wǎng)絡(luò)中度分布、群集系數(shù)、層次結(jié)構(gòu)、社區(qū)結(jié)構(gòu)等參量,不僅可以從統(tǒng)計角度對物體表面粗糙程度進行表征,還可以更清晰地反映表面的局部信息.
選擇32×32和64×64尺度的生成元為P/P/ P/(1-3P)的二維規(guī)則粗糙表面.計算原始地貌和打亂順序的地貌二維可見圖的度分布見圖4所示的二維可見圖度分布指數(shù)α與第一生成元取值P的關(guān)系,層次結(jié)構(gòu)圖見圖5所示的層次結(jié)構(gòu)指數(shù)β與P的關(guān)系.
從圖中可以看出,不同尺度下,同一類型的標度指數(shù)變化不大.原始地貌和打亂次序的地貌的可見圖的節(jié)點度布服從冪律分布,并且原始地貌的冪律指數(shù)明顯低于打亂順序的地貌的冪律指數(shù),說明二維可見圖能提取到地貌結(jié)構(gòu)相關(guān)的信息.從層次結(jié)構(gòu)圖來看,分形地貌的β更接近于1,因此其層次結(jié)構(gòu)明顯好于打亂順序之后的網(wǎng)絡(luò).
圖4 α與P的關(guān)系Fig.4 Relation ofα versus p
圖5 β與P的關(guān)系Fig.5 Relation of β versus p
作為一種新的時間序列分析工具,時間序列的復(fù)雜網(wǎng)絡(luò)理論能否給出一些新的,其它方法不能揭示的時間序列特征和隱含的動力學性質(zhì),這是必須要回答的問題.
關(guān)于這一問題,本文比較了分數(shù)布朗運動的線性疊加序列和多分形序列的可見圖的性質(zhì).發(fā)現(xiàn)對于這兩種不同的時間序列,小波方法發(fā)現(xiàn)都具有多分形性質(zhì),不能有效識別之間的差異;而可見圖的度分布,對于線性疊加序列小的 H成份占優(yōu)勢,仍呈現(xiàn)為無標度特征;多分形序列的可見圖的度分布失去了無標度特征.因此,結(jié)合小波分析和可見圖方法,才能更好地區(qū)分這兩種時間序列.
考慮兩個有不同的H值的單分形序列疊加后的競爭行為.圖6為線性疊加分數(shù)布朗運動的多份形譜D(h)與分形維數(shù)h的關(guān)系,圖6中給出了H分別為0.5和0.8的兩個序列疊加(權(quán)重因子為1)得到的混合序列的多分形譜.這一疊加序列是一個多重分形序列,其分形強度Δ h=0.39.也就是說兩個單分形序列疊加的序列已經(jīng)不是單分形的序列了,而是具有一定分形強度的多重分形序列.H值為0.54.也就是混合序列的H更接近于H為0.5的序列成分.這也進一步驗證了具有較小H值的成分主導混合序列性質(zhì)的結(jié)論.
圖6 D(h)與h的關(guān)系Fig.6 Multl-frolfal spectram,D(h)
現(xiàn)考慮二進制模型產(chǎn)生的多重分形時間序列xk=an(k-1)(1-a)nmax-n(k-1),k=1,2,…,N.其中0. 5<a<1,序列長度為N=2nmax,參數(shù)n(k)為把十進制數(shù)k轉(zhuǎn)換成二進制并計算出其中1的個數(shù),例如n(13)=3.
上述二進制模型給出的時間序列是多重分形序列.以a=0.75,序列長度為65 536為例,由圖7所示的二進制模型產(chǎn)生的多分型序列可見圖的p(k)與k關(guān)系可見,p(k)在雙對數(shù)坐標下呈非線性.調(diào)整參數(shù)a從0.5到1,以0.05為間隔,得到的結(jié)果都呈現(xiàn)非冪率分布.
因此,小波分析不能區(qū)分單分形疊加得到的混合序列和模型產(chǎn)生的多分形序列.這是一個值得注意的問題,因為文獻中經(jīng)常采用多分形模型去模擬和再現(xiàn)現(xiàn)實中的具有多分形特征的時間序列.可見圖能夠區(qū)分這兩種多分形序列,但是不能區(qū)分單分形和混合序列.因此聯(lián)合運用小波分析和可見圖分析才能較好地識別這兩種完全不同性質(zhì)的序列,給出可靠的關(guān)于序列形成機制的結(jié)論.
圖7 多分形序列可見圖p(k)與k關(guān)系Fig.7 Degree distibution p(k)for visibilify graphs of multi-fractal series
采用復(fù)雜網(wǎng)絡(luò)理論分析時間序列,處于剛剛起步階段.發(fā)展有效的時間序列映射到網(wǎng)絡(luò)的方法是關(guān)鍵.從理論走向應(yīng)用必須解決一系列的問題,這是進一步發(fā)展的方向.一個普遍存在的問題是噪聲問題.復(fù)雜系統(tǒng)不可避免地會受到外界的噪聲的影響;同時現(xiàn)實的時間序列都是有限長度的,基于有限個長度的時間序列的關(guān)聯(lián)分析,會帶來統(tǒng)計上的漲落.因此,噪聲對結(jié)果的影響是必須解決的問題之一.
另一個是趨勢的影響.時間序列一般來講存在著宏觀意義上的趨勢,如人口數(shù)量在漲落的同時持續(xù)的增加、股票價格的總體上漲等.這些趨向的存在,是以統(tǒng)計理論為基礎(chǔ)的序列關(guān)聯(lián)所不允許的.在時間序列分析中,消除趨向帶來的偽結(jié)果,一直是研究的核心內(nèi)容之一.因此,時間序列的趨向?qū)Y(jié)果的影響以及如何消除這一影響是必須解決的問題之二.
第三個,也是核心的問題,發(fā)展起來的方法能否給出新的,其它方法不能給出的性質(zhì).這也是諸多方法的缺陷所在.
[1] MANTEGNA R N,STABLEY H E.Introduction to Economic Physics:Correlations&Complexity in Finance [M].Cambridge:Cambridge University Press,2000.
[2] SM ALL M.Applied Nonlinear Time Series Analysis: Applications in Physics[M].Singapore:World Scientific,2005.
[3] STANEY H E,PLEROU V,GABAIX X.A statistical physics view of financial fluctuations:Evidence for scaling and universality[J].Physica A,2008, 387:3967-3981.
[4] ALBERT R,BARABASI A L.Statistical mechanics of complex networks[J].Rev Mod Phys,2002,74: 47-97.
[5] ALON U.An Introduction to Systems Biology:Design Principles of Biological Circuits[M].Pennsylvania:Chapman&Hall/CRC,2006.
[6] ZHANG J,SAM LL M.Complex network from pseudoperiodic time series:Topology versus dynamics [J].Phys Rev Lett,2006,96:238701.
[7] ZHANG J,LUO X,NAKAMURA T,et al.Detecting temporal and spatial correlations in pseudo-periodic time series[J].Phys Rev E,2007,75:016218.
[8] XU X,ZHANG J,SMA LL M.Super-family phenomena and motif of networks induced from time series[J].Proc Natl Acad Sci,2008,105:19601 -19605.
[9] YANG Y,YANG H.Complex network-based time series analysis[J].PhysicaA,2008,387:1381 -1386.
[10] JIANG Z,YANG H,WANG J.Complexities of human promoter sequences[J].Physica A,2009,388: 1299-1302.
[11] WANG J,YANG H.Complex network-based analysis of air temperature data in China[J].M od Phys Lett B,2009,23:1781-1789.
[12] YANG Y,WANG J,YANG H,et al.Visibility graph approach to exchange rate series[J].Physica A,2009,388:4431-4437.
[13] DONNER R V,ZOU Y.Recurrence networks—a novel paradigm for nonlinear time series analysis[J]. New J Phys,2010,12:033025.
[14] GAO Z,JIN N.Flow-pattern identification and nonlinear dynamics of gas-liquid two-phase flow in complex networks [J].Phys Rev E,2009, 79:066303.
[15] GAO Z,JIN N.Community structure detection in complex networks with applicationstogas-liquid two-phase flow[J].LNICST,2009,5:1917-1928.
[16] LUO F.Constructing gene co-expression networks and predicting functions of unknown genes by random matrix theory[J].BMC Bioinformatics,2007,8:299.
[17] LACASA L,LUQUE B,LUQUE J,et al.From time series to complex networks:The visibility graph [J].Proc Natl Acad Sci,2008,105:4972-4975.
[18] LACASA L,LUQUE B,LUQUE J,et al.The visibility graph:A new method for estimatingthe hurst exponent of fractional Brownian motion[J].Europhys Lett,2009,86:30001.
[19] NI X,JIANG Z,ZHOU W.Degree distributions of the visibility graphs mapped from fractional Brownian motions and multi-fractal random walks[J].Phys Lett A,2009,373:3822-3826.
[20] SHAO Z.Network analysis of human heartbeat dynamics[J].Appl Phys Lett,2010,96:073703.
[21] ZHAO D,LI X.Comment on“Network analysis of human heartbeat dynamics”[J].Appl Phys Lett, 2010,96:266101.
[22] LUQUE B,LACASA L,BALLESTEROS F,et al. Horizontal visibility graphs:Exact results for random time series[J].Phys Rev E,2009,80:046103.
[23] 王建波.基于復(fù)雜網(wǎng)絡(luò)理論的時間序列分析[D].上海:上海理工大學,2010.
[24] BAI Y.Protein Folding Protocols[M].New Jersey: Human Press,2008.
[25] 孫霞,吳自勤,黃畇.分形原理及其應(yīng)用[M].合肥:中國科學技術(shù)大學出版社,2003:60-67.