汪麗娜 成媛媛 臧臣瑞
1) (內(nèi)蒙古工業(yè)大學理學院,呼和浩特 010051)
2) (內(nèi)蒙古自治區(qū)生命數(shù)據(jù)統(tǒng)計分析理論與神經(jīng)網(wǎng)絡建模重點實驗室,呼和浩特 010051)
3) (中國聯(lián)合網(wǎng)絡通信有限公司內(nèi)蒙古分公司,呼和浩特 010050)
為了有效控制海量數(shù)據(jù)時間序列網(wǎng)絡的規(guī)模并使得網(wǎng)絡更貼近實際,符號化時間序列網(wǎng)絡成為研究熱點.結(jié)合周期性時間序列的seasonal-trend-loess方法和符號化轉(zhuǎn)化方法,本文提出一種新的符號化時間序列建網(wǎng)方法.該方法考慮了單個數(shù)據(jù)值的狀態(tài)又結(jié)合了序列的長遠變化趨勢.以符號模式為節(jié)點;依時間順序推移,以節(jié)點間的鄰接轉(zhuǎn)換關系定義連邊;根據(jù)轉(zhuǎn)換方向和轉(zhuǎn)換頻次確定連邊的方向和權(quán)重,建立有向加權(quán)網(wǎng)絡.分別以航空旅客吞吐量時間序列和因特網(wǎng)流量時間序列為實驗數(shù)據(jù)構(gòu)建的兩個時間序列網(wǎng)絡,有明顯差異的拓撲特征;進一步對移動通信語音時間序列做了實證分析,挖掘時間序列數(shù)據(jù)的本質(zhì)規(guī)律.
將時間序列通過某種對應關系映射為復雜網(wǎng)絡的思想最早由Zhang和Small提出,這一創(chuàng)造性的想法為時間序列的分析方法提供了新的研究方向和視角.2006年,Zhang和Small[1]首次由偽周期時間序列構(gòu)建了復雜網(wǎng)絡.之后,時間序列網(wǎng)絡方法成為熱門的研究方向之一并被應用到許多領域,如:醫(yī)學[2]、金融學[3]、交通運輸[4,5].目前,普遍應用的時間序列建網(wǎng)方法有:基于相空間重構(gòu)法建網(wǎng)[6,7]、基于可視圖方法建網(wǎng)[8,9]、基于遞歸法建網(wǎng)[10]和基于符號模式建網(wǎng)[11-13].
基于相空間重構(gòu)法建網(wǎng)是經(jīng)典的時間序列建網(wǎng)方法之一.Yue和Yang[6]提出基于相空間建網(wǎng)方法分析時間序列.將時間序列劃分、重構(gòu),轉(zhuǎn)化為一系列長度一定的向量;然后以向量為節(jié)點,根據(jù)向量間的Pearson相關系數(shù)確定連邊,構(gòu)建出一個無向無權(quán)網(wǎng)絡.應用該方法分析時間序列時,確定向量的滯后期以及確定相關系數(shù)的閾值比較復雜.為此,一些科學家對相空間重構(gòu)建網(wǎng)方法進行了改進.其中,Gao和Jin[7]引入偽最近鄰方法[14]估計嵌入維數(shù)和延遲時間,使得由時間序列重構(gòu)相空間變得更加精確,從而可以根據(jù)復雜網(wǎng)絡的拓撲特征得出最佳的相關系數(shù)閾值.但是,由于該方法在確定閾值時存在不確定性,導致建立的網(wǎng)絡的魯棒性較差.
可視圖建網(wǎng)方法[8,9]是另外一種經(jīng)典建網(wǎng)方法.該方法將時間序列柱狀圖中的每個時間序列值視為一個網(wǎng)絡節(jié)點,如果柱狀圖中的兩個柱體可以無障礙可視,則柱體對應的兩個節(jié)點之間連邊,從而構(gòu)建出一個無向無權(quán)網(wǎng)絡.網(wǎng)絡的總節(jié)點數(shù)等于時間序列數(shù)據(jù)值的總個數(shù).由于可視圖建網(wǎng)方法的生成過程簡便、網(wǎng)絡魯棒性較好,使得該法應用于醫(yī)學[15]、地質(zhì)學[16]、經(jīng)濟學[17]、天文學[18]等眾多領域.根據(jù)類似的原理,Luque等[19]于2009年提出水平可視時間序列建網(wǎng)方法.周婷婷等[20]提出有限穿越水平可視圖時間序列建網(wǎng)方法,高忠科等[21]運用有限穿越水平可視圖方法分析了兩相流的形成動力學.傳統(tǒng)的可視圖方法是有限穿越水平可視圖方法在可視距為1時的特殊情況.此外,高忠科等[22]還提出了多尺度有限穿越水平可視圖時間序列建網(wǎng)方法,它是水平可視圖和有限穿越水平可視圖的進一步拓展.
遞歸網(wǎng)絡建網(wǎng)方法由Marwan等[10]提出.Subramaniyam和Hyttinen[23]應用遞歸網(wǎng)絡建網(wǎng)方法分析了腦電圖時間序列,研究癲癇病患者的行為動力學.近幾年,基于符號模式建網(wǎng)方法成為新的研究熱點.符號化時間序列建網(wǎng)方法考慮了節(jié)點之間的方向和權(quán)重,構(gòu)建的加權(quán)有向網(wǎng)絡更加貼近實際.Karimi和Darooneh[11]對平穩(wěn)時間序列做符號化轉(zhuǎn)化,將時間序列映射為網(wǎng)絡,發(fā)現(xiàn)網(wǎng)絡度的組合參數(shù)對不同流型之間的過渡非常敏感,可以用來區(qū)分不同的流型.之后,曾明等[12]提出符號化模式表征建網(wǎng)方法,將原始時間序列標準化、符號化處理后,映射為一個有向加權(quán)網(wǎng)絡并分析了網(wǎng)絡的拓撲性質(zhì).符號化模式表征建網(wǎng)方法可以區(qū)分周期時間序列和混沌時間序列.此外,Zhang和Na[13]應用符號化模式表征的建網(wǎng)方法研究了空氣質(zhì)量指數(shù)等問題.
針對一類周期性時間序列,本文提出一種基于STL (seasonal and trend decomposition using loess,STL)方法的符號化有向加權(quán)網(wǎng)絡建網(wǎng)方法.與其他的符號化建網(wǎng)方法相比,本文提出的基于STL方法的時間序列建網(wǎng)方法以數(shù)據(jù)點為基元構(gòu)建網(wǎng)絡,既考慮了單個數(shù)據(jù)的狀態(tài)又融合了時間序列的長遠變化趨勢.首先,依據(jù)STL方法將時間序列轉(zhuǎn)化為三個狀態(tài)項:季節(jié)項、趨勢項和隨機項;然后,使用符號化方法對狀態(tài)值做區(qū)間劃分和符號轉(zhuǎn)化,使得每個數(shù)據(jù)值表示為由狀態(tài)符號構(gòu)成的符號模式;接著,以符號模式為節(jié)點,依時間順序推移,把數(shù)據(jù)間的鄰接轉(zhuǎn)換關系定義為節(jié)點間的連邊;最后以轉(zhuǎn)換方向和轉(zhuǎn)換頻次作為連邊的方向和權(quán)重,建立有向加權(quán)網(wǎng)絡.
STL方法是一種基于局部加權(quán)回歸的時間序列分析方法[24].運用局部多項式回歸擬合方法,STL方法將時間序列表示為趨勢、季節(jié)和余項三部分.即時間序列Yn= {yi,i = 1,2,…,n }通過STL可以轉(zhuǎn)化為趨勢Tn= {ti,i = 1,2,…,n },季節(jié)Sn= {si,i = 1,2,…,n }和余項Rn= {ri,i =1,2,…,n };其中n 表示時間序列長度.STL方法由內(nèi)循環(huán)和外循環(huán)組成;內(nèi)循環(huán)包含去趨勢、周期序列平滑等六步;外循環(huán)的主要作用是引入穩(wěn)健性權(quán)重項,以控制數(shù)據(jù)中異常值產(chǎn)生的影響.STL方法具有快速的計算速度和分析含缺失值時間序列的能力.此外,STL方法對具有趨勢和季節(jié)性成分的數(shù)據(jù)形成可靠估計,使得這些數(shù)據(jù)不會被異常行為所扭曲.
網(wǎng)絡中,節(jié)點的度k 定義為直接與節(jié)點相連的連邊的數(shù)目.對于一個給定的有向加權(quán)網(wǎng)絡G,假設網(wǎng)絡的權(quán)值鄰接矩陣為W= (wij),則節(jié)點i 的加權(quán)出度和加權(quán)入度分別為
則節(jié)點i 的加權(quán)度為
網(wǎng)絡的加權(quán)出度分布p (s—)定義為加權(quán)出度為s—的節(jié)點被隨機選中的概率.類似地,網(wǎng)絡的加權(quán)入度分布p (s+)定義為加權(quán)入度為s+的節(jié)點被隨機選中的概率.實際應用中,為了降低分布的尾部噪音,常常采用累積分布分析網(wǎng)絡的拓撲特征.累積分布描述了序列中頻數(shù)不小于某個特定值的概率.本文分析了時間序列網(wǎng)絡的累積加權(quán)入度分布,累積加權(quán)出度分布和累積加權(quán)度分布.
在基于STL方法的符號化有向加權(quán)網(wǎng)絡中,節(jié)點的加權(quán)出度越大表示節(jié)點對應的數(shù)據(jù)值在時間序列中出現(xiàn)的頻率越高,這表明該節(jié)點向其他節(jié)點轉(zhuǎn)化的次數(shù)越多.如果節(jié)點的加權(quán)度值很小,則說明該狀態(tài)在時間序列中出現(xiàn)的頻次很少,可能是一些突發(fā)情況導致的時間序列值突然增大或減小.
網(wǎng)絡中,節(jié)點的聚集程度可以用節(jié)點的聚類系數(shù)來描述.節(jié)點i 的聚類系數(shù)定義為
其中,ki為節(jié)點i 的度,aij是鄰接矩陣A= (aij)的元素.當且僅當節(jié)點i ,j ,k 構(gòu)成一個三角形時,aijajkaki= 1,否則aijajkaki= 0.網(wǎng)絡中所有節(jié)點的聚類系數(shù)的平均值定義為網(wǎng)絡的聚類系數(shù).社會網(wǎng)絡中,節(jié)點的聚類系數(shù)可以表示“朋友的朋友也是朋友”的傾向性大小.在基于STL方法的符號化有向加權(quán)網(wǎng)絡中,節(jié)點i 的聚類系數(shù)越大,表明符號模式i 的相鄰符號模式之間轉(zhuǎn)換越頻繁.
節(jié)點i 和節(jié)點j 之間的最短路徑長度lij定義為從節(jié)點i 到節(jié)點j 的最短路徑上連邊的數(shù)量.網(wǎng)絡的平均路徑長度L定義為任意兩個節(jié)點的最短路徑長度的平均值,即
以經(jīng)過某個節(jié)點的最短路徑的數(shù)目刻畫節(jié)點重要性的指標被稱為介數(shù)中心性,簡稱介數(shù).網(wǎng)絡中,節(jié)點i 的介數(shù)用bi表示,定義為
其中,nst是從節(jié)點s 到節(jié)點t 的最短路徑的數(shù)目,nist為從節(jié)點s 到節(jié)點t 的nst條最短路徑中經(jīng)過節(jié)點i 的最短路徑的數(shù)目.從信息傳輸?shù)慕嵌瓤?網(wǎng)絡中介數(shù)越高的節(jié)點重要性越大,對網(wǎng)絡的信息傳輸影響越大.
針對一類具有周期性特征的時間序列數(shù)據(jù),本文提出基于STL方法的符號化有向加權(quán)網(wǎng)絡建網(wǎng)方法.原始時間序列數(shù)據(jù)經(jīng)過STL分析以及符號化處理之后,不僅保持了數(shù)據(jù)的信息量,而且可以在短期細節(jié)和長期趨勢兩方面體現(xiàn)時間序列數(shù)據(jù)的特點.具體的時間序列網(wǎng)絡建立過程如下.
a) STL分析.依據(jù)STL方法,將時間序列轉(zhuǎn)化為季節(jié)項、趨勢項和余項之和,即Yn= Sn+ Tn+Rn.其中n 是時間序列的長度,Sn= {si,i = 1,2,…,n }是季節(jié)項,Tn= {ti,i = 1,2,…,n }是趨勢項,Rn= {ri,i = 1,2,…,n }是余項.
b)符號化.根據(jù)三個狀態(tài)項對原時間序列的影響程度,選用不同權(quán)重的符號化階數(shù)對狀態(tài)變量序列做層次劃分.得到三組符號化時間序列:
其中g(shù) (si),g (ti),g (ri)表示符號.此時,每個時間序列值表示為符號模式
c)構(gòu)建網(wǎng)絡.以互不相同的符號模式為節(jié)點,以兩個不同符號模式的相鄰關系作為連邊,以兩個互異符號模式相鄰的次數(shù)和符號模式的先后順序作為連邊的權(quán)重和方向,建立一個有向加權(quán)網(wǎng)絡.
為了實現(xiàn)對真實時間序列數(shù)據(jù)的比較分析,在執(zhí)行STL分析與符號化之前,對原始時間序列數(shù)據(jù){xi,i = 1,2,…,n }進行歸一化處理.采用歸一化方法:yi= (xi—xmin)/(xmax—xmin).歸一化之后的時間序列{yi,i = 1,2,…,n }保持了原時間序列的周期性特征和變化趨勢等特點,并且取值范圍在[0,1].
在執(zhí)行數(shù)據(jù)符號化時,如果符號化階數(shù)太小,會導致時間序列信息的流失;如果符號化階數(shù)太大,會使得符號模式過多,不能體現(xiàn)符號化的優(yōu)勢.因此,考慮到準確體現(xiàn)時間序列特點和構(gòu)建網(wǎng)絡的規(guī)模需要適度,經(jīng)過多次試驗才確定了最優(yōu)的符號化階數(shù).季節(jié)項的符號化階數(shù)為m1= 8,趨勢項的符號化階數(shù)為m2= 18,隨機項的符號化階數(shù)為m3= 4.
為了驗證所提出的基于STL方法的時間序列網(wǎng)絡建模方法的有效性和實用性,分別以具有非平穩(wěn)特征的航空旅客吞吐量時間序列和具有平穩(wěn)特征的因特網(wǎng)流量時間序列為例,使用新方法建立有向加權(quán)網(wǎng)絡.分析網(wǎng)絡的度分布、聚類系數(shù)、平均路徑長度等拓撲性質(zhì),從網(wǎng)絡拓撲特征的角度對這兩個實際時間序列做比較分析.
航空旅客吞吐量數(shù)據(jù)取自澳門國際機場專營股份有限公司(Macau International Airport Co.Ltd.)的官方網(wǎng)站.時間序列跨度從1996年1月到2017年12月.每月記錄一次吞吐量數(shù)據(jù),表示該月內(nèi)航空旅客的人數(shù),共有264條記錄.時間序列整體呈現(xiàn)上升趨勢,其周期為12.此外,ADF檢測結(jié)果顯示,該時間序列數(shù)據(jù)為非平穩(wěn)性時間序列.
航空旅客吞吐量時間序列的STL分析如圖1(a)—(d)所示.季節(jié)項時間序列以周期規(guī)律呈現(xiàn),每個周期有12個值,反映這個周期內(nèi)數(shù)據(jù)波動的細微變化.趨勢項時間序列體現(xiàn)了原時間序列的變化趨勢.整體而言,數(shù)據(jù)呈上升狀態(tài);但是,其中有兩個時間段下降明顯.隨機項時間序列為季節(jié)項和趨勢項的殘差值,呈現(xiàn)不規(guī)則變化.
圖1(e)是航空旅客吞吐量時間序列網(wǎng)絡.該網(wǎng)絡有107個節(jié)點,178條有向邊.節(jié)點的面積大小與節(jié)點的加權(quán)度有關,加權(quán)度越大,節(jié)點的面積越大;連邊的寬度反映了連邊的權(quán)重,邊權(quán)越大,連邊的寬度越寬.網(wǎng)絡中加權(quán)度最大的節(jié)點是V42和V43,它們的加權(quán)度都是20;網(wǎng)絡中加權(quán)度最小的節(jié)點比較多,加權(quán)度值為1.網(wǎng)絡中邊權(quán)的最大值為7,即圖中連接V42和V43的邊;網(wǎng)絡中邊權(quán)的最小值為1.航空旅客吞吐量時間序列網(wǎng)絡的平均加權(quán)度為4.430,聚類系數(shù)為0.169,平均路徑長度為13.355.
航空旅客吞吐量時間序列網(wǎng)絡具有指數(shù)加權(quán)度分布.s+表示節(jié)點的加權(quán)入度,s-表示節(jié)點的加權(quán)出度,s 表示節(jié)點的加權(quán)度.單對數(shù)坐標系下,航空旅客吞吐量時間序列網(wǎng)絡的累積加權(quán)度分布近似呈直線型,擬合優(yōu)度檢驗顯示三個度分布均服從指數(shù)分布.其中,網(wǎng)絡的累積加權(quán)入度分布服從指數(shù)為0.3990的指數(shù)分布(可決系數(shù)R2= 0.9280),如圖2(a)所示;網(wǎng)絡的累積加權(quán)出度分布服從指數(shù)為0.6151的指數(shù)分布(R2= 0.9960),如圖2(b)所示;網(wǎng)絡的累積加權(quán)度分布服從指數(shù)為0.2555的指數(shù)分布(R2= 0.9670),如圖2(c)所示.
圖1 (a)-(d)航空旅客吞吐量時間序列的STL分析 (a)原始時間序列;(b)季節(jié)項時間序列;(c) 趨勢項時間序列;(d) 隨機項時間序列;(e)航空旅客吞吐量時間序列網(wǎng)絡Fig.1.(a)-(d) The STL analyzing for the air passengers throughput time series:(a) Original time series;(b) seasonal time series;(c) trend time series;(d) remainder time series;(e) the time series network of the air passengers throughput data.
圖2 航空旅客吞吐量時間序列網(wǎng)絡度分布 (a)累積加權(quán)入度分布;(b)累積加權(quán)出度分布;(c)累積加權(quán)度分布Fig.2.The degree distribution of the time series network for air passengers throughput data:(a) The cumulative weighted in-degree distribution;(b) the cumulative weighted out-degree distribution;(c) the cumulative weighted degree distribution.
因特網(wǎng)流量數(shù)據(jù)[25]表示英國學術(shù)網(wǎng)絡主干網(wǎng)的聚合流量.數(shù)據(jù)時間截取于2005年1月16日至2005年1月26日.每5 min記錄一次流量數(shù)據(jù),1天有288條記錄,11天共產(chǎn)生3168條記錄.該時間序列是周期為288的周期性時間序列.ADF檢測顯示,因特網(wǎng)流量時間序列為平穩(wěn)時間序列.
圖3(a)—(d)是因特網(wǎng)流量時間序列的STL分析圖.2005年1月16日、22日和23日分別為星期日、星期六和星期日,這三天產(chǎn)生的因特網(wǎng)流量偏小.星期一至星期五的流量時間序列整體趨勢一致且較為穩(wěn)定.季節(jié)項時間序列以周期規(guī)律呈現(xiàn),包含11個周期,每個周期有288個數(shù)據(jù),反映這個周期內(nèi)數(shù)據(jù)波動的細微變化.趨勢項時間序列從星期一至星期五,數(shù)據(jù)伏動較小,呈現(xiàn)平穩(wěn)狀態(tài);在星期六、星期日,數(shù)據(jù)伏動有明顯的下降.隨機項時間序列呈現(xiàn)不規(guī)則變化.
根據(jù)本文第3節(jié)提出的方法,將因特網(wǎng)流量時間序列映射為一個有向加權(quán)網(wǎng)絡(圖3(e)).該網(wǎng)絡有160個節(jié)點,244條有向邊.節(jié)點V79和V80的加權(quán)度值最大,為54;網(wǎng)絡中存在大量加權(quán)度值較小的節(jié)點.連邊權(quán)重的最大值為22,如圖3(e)所示,恰好是連接節(jié)點V79和節(jié)點V80的連邊的權(quán)重.因特網(wǎng)流量時間序網(wǎng)絡的平均加權(quán)度為5.538,聚類系數(shù)為0.249,平均路徑長度為25.61.
因特網(wǎng)流量時間序列網(wǎng)絡的度分布服從冪律分布.如圖4所示,在雙對數(shù)坐標下,累積加權(quán)度分布近似呈直線型,擬合優(yōu)度檢驗顯示三個累積加權(quán)度分布均服從冪律分布.其中,網(wǎng)絡的累積加權(quán)入度分布服從冪指數(shù)為1.202的冪律分布(可決系數(shù)R2= 0.9960),如圖4(a)所示;網(wǎng)絡的累積加權(quán)出度分布服從冪指數(shù)為1.202的冪律分布(R2=0.9957),如圖4(b)所示;網(wǎng)絡的累積加權(quán)度分布服從冪指數(shù)為1.223的冪律分布(R2= 0.9940),如圖4(c)所示.綜上,三個累積度分布均服從冪指數(shù)小于2的冪律分布.因特網(wǎng)流量時間序列網(wǎng)絡是一個無標度網(wǎng)絡.
圖3 (a)-(d)因特網(wǎng)流量時間序列的STL分析 (a)原始時間序列;(b)季節(jié)項時間序列;(c) 趨勢項時間序列;(d) 隨機項時間序列;(e)因特網(wǎng)流量時間序列網(wǎng)絡Fig.3.(a)-(d) The STL decomposition results of the Internet traffic time series:(a) Original time series;(b) seasonal time series;(c) trend time series;(d) remainder time series;(e) the time series network of the Internet traffic data.
圖4 因特網(wǎng)流量時間序列網(wǎng)絡的度分布 (a)累積加權(quán)入度分布;(b)累積加權(quán)出度分布;(c)累積加權(quán)度分布Fig.4.The degree distribution of the time series network for the Internet traffic data:(a) The cumulative weighted in-degree distribution;(b) the cumulative weighted out-degree distribution;(c) the cumulative weighted degree distribution.
航空旅客吞吐量時間序列是非平穩(wěn)時間序列,因特網(wǎng)流量時間序列是平穩(wěn)時間序列.采用所提出的STL分析符號化時間序列網(wǎng)絡建模方法,得到網(wǎng)絡的拓撲特征總結(jié)如表1所示.航空旅客吞吐量時間序列的數(shù)據(jù)長度是102數(shù)量級,構(gòu)建的加權(quán)有向時間序列網(wǎng)絡的節(jié)點數(shù)為102數(shù)量級;因特網(wǎng)流量時間序列的數(shù)據(jù)長度是103數(shù)量級,構(gòu)建的加權(quán)有向時間序列網(wǎng)絡的節(jié)點數(shù)為102數(shù)量級.航空旅客吞吐量時間序列具有非平穩(wěn)性.隨著時間的推移,符號模式很大程度上不重復,使得符號化時間序列的符號模式種類較多,從而航空旅客吞吐量時間序列網(wǎng)絡的節(jié)點數(shù)亦較多.因特網(wǎng)流量時間序列的趨勢項整體呈平穩(wěn)狀態(tài),對應的符號化序列不規(guī)則重復.在轉(zhuǎn)換成符號模式的過程中,符號模式的重復率較高,轉(zhuǎn)換頻率較大,從而種類較少,連邊的權(quán)重較大.所以,因特網(wǎng)流量時間序列網(wǎng)絡具有較少的節(jié)點數(shù)和較大的平均加權(quán)度.
表1 兩類時間序列網(wǎng)絡拓撲特征的比較Table 1.The comparison for topological characteristics of two kinds time series networks.
依據(jù)所提出的基于STL方法的時間序列建網(wǎng)方法,將移動通信語音業(yè)務時間序列映射為一個有向加權(quán)網(wǎng)絡.刪除數(shù)據(jù)記錄不完整的周期,并對初始數(shù)據(jù)進行歸一化處理,得到一個數(shù)值范圍在[0,1]的長度為52032的時間序列,如圖5(a)所示,為前10個周期的語音時間序列數(shù)據(jù).通過STL分析,季節(jié)項由長度為24的單周期季節(jié)趨勢循環(huán)推移生成;趨勢項呈現(xiàn)不規(guī)則起伏變化.
由語音時間序列數(shù)據(jù)建立的有向加權(quán)網(wǎng)絡如圖5(e)所示.該網(wǎng)絡有230個節(jié)點,1275條邊.網(wǎng)絡中,節(jié)點加權(quán)度的最大值為7740,連邊權(quán)重的最大值為2555.網(wǎng)絡的平均加權(quán)度為260.626,聚類系數(shù)為0.298,平均路徑長度為5.142.
圖5 (a)-(d)語音時間序列數(shù)據(jù)的STL分析 (a)原始時間序列;(b)季節(jié)項時間序列;(c) 趨勢項時間序列;(d) 隨機項時間序列;(e)基于STL方法的語音時間序列網(wǎng)絡Fig.5.(a)-(d) The STL analyzing for the mobile traffic data:(a) Original time series;(b) seasonal time series;(c) trend time series;(d) remainder time series;(e) based on the STL decomposition,the time series network of the mobile traffic data.
圖6 語音時間序列網(wǎng)絡的度分布 (a)累積加權(quán)入度分布;(b)累積加權(quán)出度分布;(c)累積加權(quán)度分布Fig.6.The degree distribution of the time series network for the mobile traffic data:(a) The cumulative weighted in-degree distribution;(b) the cumulative weighted out-degree distribution;(c) the cumulative weighted degree distribution.
語音時間序列網(wǎng)絡的累積加權(quán)度分布服從冪律分布,度分布如圖6所示.累積加權(quán)度在雙對數(shù)坐標下呈近似線性關系.網(wǎng)絡的累積加權(quán)入度分布(圖6(a))、累積加權(quán)出度分布(圖6(b))和累積加權(quán)度分布(圖6(c))均服從冪律分布.語音時間序列網(wǎng)絡是一個無標度網(wǎng)絡.
通過網(wǎng)絡的一些局部拓撲特征,分析了語音時間序列數(shù)據(jù)值的特點.移動通信語音時間序列網(wǎng)絡依局部拓撲特征參數(shù)由大到小排序如表2所示.依節(jié)點的聚類系數(shù)由大到小排序,節(jié)點的符號模式如第一列所示;依節(jié)點的加權(quán)出度由大到小排序,節(jié)點的符號模式如第三列所示;依節(jié)點的介數(shù)中心性由大到小排序,節(jié)點的符號模式如第五列所示.
節(jié)點的聚類系數(shù)為1表示該模式的任意兩個鄰居模式之間都存在連邊,即該節(jié)點的鄰居節(jié)點之間彼此相連,如圖5(e)中的節(jié)點dcb的聚類系數(shù)為1,說明節(jié)點dcb的鄰居節(jié)點之間也是相鄰關系.在時間序列中,符號dcb對應于0點或1點.這個時間位于趨勢項時間序列的局部極大值處.類似地,其他聚類系數(shù)為1的節(jié)點對應于語音時間序列數(shù)據(jù)時,均由趨勢項的局部極大值或局部極小值映射而來.這代表了一天的語音量高峰期或低谷期.
表2 網(wǎng)絡節(jié)點模式特征表Table 2.The table for characteristics of node patterns.
加權(quán)出度較大的節(jié)點對應于時間序列上局部極大值和局部極小值之間的時刻.例如,圖5(e)中節(jié)點faa對應于語音時間序列上的12點、15點和19點等數(shù)據(jù).結(jié)合實際情況,可知加權(quán)出度大的節(jié)點對應于時間序列上的上班時間與休息時間的過渡時刻.對于周期性時間序列而言,這樣的數(shù)據(jù)較多,使得對應的節(jié)點的加權(quán)度較大.語音時間序列網(wǎng)絡中,一些節(jié)點的介數(shù)中心性很大,這些符號模式對網(wǎng)絡上信息的流動有較大的影響力.節(jié)點eoa的介數(shù)中心性為9810.72,該符號模式對應于時間序列中每天的14點和20點.
采用復雜網(wǎng)絡的量化統(tǒng)計量挖掘時間序列的內(nèi)在信息為時間序列分析方法提供了一個全新的視角.其中,時間序列網(wǎng)絡建模是最重要的方法之一.經(jīng)典方法構(gòu)建出無向無權(quán)網(wǎng)絡,主要有相空間重構(gòu)法和可視圖方法以及他們的拓展模型.這些方法實施簡便,但是,卻忽略了時間的單向性和基元之間的關聯(lián)程度的差異.針對上述問題,科學家們提出了符號化時間序列建網(wǎng)方法,基于該類方法構(gòu)建的加權(quán)有向網(wǎng)絡更加貼近實際.已有的符號化時間序列建網(wǎng)方法以時間序列相鄰數(shù)據(jù)的變化趨勢的符號組為基元,考慮了數(shù)據(jù)的變化過程,卻忽略了數(shù)據(jù)值本身的特征.本文提出的基于STL方法的時間序列網(wǎng)絡方法,既考慮了單個數(shù)據(jù)值的狀態(tài),又考慮了時間序列的長遠變化趨勢.以時間序列上的數(shù)據(jù)點為基元構(gòu)建網(wǎng)絡,可以通過網(wǎng)絡的局部拓撲特征體現(xiàn)時間序列單個數(shù)據(jù)值的信息.
本文提出的基于STL方法的時間序列建網(wǎng)方法,結(jié)合周期性時間序列的STL分析和符號轉(zhuǎn)化方法構(gòu)建出一個有向加權(quán)網(wǎng)絡.首先,依據(jù)STL方法將時間序列的每個數(shù)據(jù)值表示為三個狀態(tài)值.其次,通過對狀態(tài)值做區(qū)間劃分和符號化轉(zhuǎn)化,將每個數(shù)據(jù)值表示為狀態(tài)符號.最后,依時間順序推移,以節(jié)點間的鄰接轉(zhuǎn)換關系定義連邊;根據(jù)轉(zhuǎn)換方向和轉(zhuǎn)換頻次確定連邊的方向和權(quán)重,建立有向加權(quán)網(wǎng)絡.有向加權(quán)網(wǎng)絡的拓撲特征可以反映時間序列的特點:1)周期時間序列經(jīng)STL分析之后,趨勢項可以展示時間序列的長期變化特點;2)對于平穩(wěn)性周期時間序列,其周期項的規(guī)則性和趨勢項的平穩(wěn)性,使得在轉(zhuǎn)換成符號模式時,符號模式的重復率較高,轉(zhuǎn)換頻率較大,所以生成網(wǎng)絡的連邊的權(quán)重較大;3)在有向加權(quán)網(wǎng)絡中,聚類系數(shù)較大的節(jié)點對應著時間序列的高峰期或低谷期;而加權(quán)出度較大的節(jié)點對應著時間序列上的局部極大值和局部極小值之間的過渡時刻.
在構(gòu)建網(wǎng)絡時,使用了航空旅客吞吐量時間序列、因特網(wǎng)流量時間序列和移動通信語音業(yè)務量時間序列.它們的共性是均為周期性時間序列,差異性表現(xiàn)在平穩(wěn)性上.本文研究重點是基于時間序列構(gòu)建新的建網(wǎng)方法,適用于具有周期性的時間序列.時間序列表示為周期態(tài)、趨勢態(tài)和隨機態(tài)的符號形式,這些時刻符號不僅體現(xiàn)時間序列值的細節(jié)變化,而且反映時間序列的長期發(fā)展趨勢.在確定符號化階數(shù)時,需要通過實驗驗證,尚缺乏普適性的規(guī)則.未來將繼續(xù)完善方法并探索它們在動態(tài)建模[26,27]等領域的應用.