孫曉丹,張鳴鳴
(1.哈爾濱工程大學(xué)經(jīng)濟(jì)管理學(xué)院,哈爾濱150001;2.中國(guó)社會(huì)科學(xué)院研究生院,北京100102)
基于分位點(diǎn)回歸系數(shù)聚類的時(shí)間序列分類方法
孫曉丹1,張鳴鳴2
(1.哈爾濱工程大學(xué)經(jīng)濟(jì)管理學(xué)院,哈爾濱150001;2.中國(guó)社會(huì)科學(xué)院研究生院,北京100102)
時(shí)間序列曲線分類的目的是為了找到曲線之間相似波動(dòng)結(jié)構(gòu)、減少建模工作量和進(jìn)行預(yù)測(cè),所以分類的結(jié)果將直接影響模型的質(zhì)量和預(yù)測(cè)的精度。為此,文章提出了一種新的時(shí)序曲線分類方法—分位點(diǎn)回歸系數(shù)聚類法。它可以有效地避免一些分類方法帶來(lái)的局限性,能夠更為全面、詳盡地考查待分類時(shí)序數(shù)據(jù)的運(yùn)行方式,改善分類的效果并為預(yù)測(cè)提供強(qiáng)大的支持。
分位點(diǎn)回歸;公共變量;層次聚類;整體預(yù)測(cè)
時(shí)間序列曲線分類方法作為一個(gè)新的研究領(lǐng)域,在經(jīng)濟(jì)分析、時(shí)間序列數(shù)據(jù)挖掘、以及計(jì)算機(jī)科學(xué)中已經(jīng)得到研究工作者們極大的關(guān)注。Liao(2005)把時(shí)間序列分類方法研究分為了三個(gè)主要的方向[1]:(1)基于原始數(shù)據(jù)分類法;(2)基于序列特征分類法,例如A.M.Alonso(2006);(3)基于模型分類法。本文所提出的分類方法屬于上述的第三個(gè)方向?,F(xiàn)在較為流行的基于模型分類方法是源于自回歸AR過程,大多數(shù)研究過程是通過找到數(shù)據(jù)均值過程的結(jié)構(gòu)和AR distance來(lái)進(jìn)行分類的,例如Piccolo(1990)[2],Maharaj(1996)[3]和Maharaj(1999)[4],Xiong和Yeung(2002)[5]等。
除了上述三種分類方法外,利用平滑曲線的方法進(jìn)行分類應(yīng)該屬于一種純統(tǒng)計(jì)手段。雖然它可以把趨勢(shì)大致相同的曲線歸為一類,但由于沒有考慮到時(shí)間序列曲線其中較為頻繁的波動(dòng),所以這種方法就會(huì)把一些本應(yīng)該歸為不同類別的曲線因其趨勢(shì)大致相同而被歸為了一類。另外,還有一種采用先提出若干種典型的模式,再按照模式對(duì)數(shù)據(jù)進(jìn)行分類的方法[6]。筆者認(rèn)為:(1)由于曲線的形式千差萬(wàn)別,幾種典型的曲線模式不可能把曲線的所有形態(tài)都包含進(jìn)去;(2)典型的曲線模式雖然可以使預(yù)測(cè)變的簡(jiǎn)單,但對(duì)于特殊形態(tài)曲線的分類及預(yù)測(cè)并無(wú)好的效果。
在本文中,我們擬提出一種基于模型的分類方法QRP Clustering,這是利用回歸參數(shù)進(jìn)行聚類,最終達(dá)到劃分曲線的一種方法。考慮到眾多時(shí)間序列曲線(股票價(jià)格序列)其波動(dòng)形態(tài)、趨勢(shì)大都不同,采用普通最小二乘回歸不能完全體現(xiàn)因變量(待分類曲線變量)的分布特征。在這種意義下,時(shí)間序列在高點(diǎn)位和低點(diǎn)位運(yùn)行的分布形態(tài)并沒有被展現(xiàn)出來(lái),這主要是因?yàn)槠胀ㄗ钚《嘶貧w只是在平均意義下研究因變量與自變量之間的關(guān)系。本文所應(yīng)用的分位點(diǎn)回歸Koenker and Bassett(1978)[7]可以為研究隨機(jī)變量間統(tǒng)計(jì)關(guān)系提供一種更為全面的視角。
最小二乘回歸中的經(jīng)典估計(jì)方程—條件均值方程,它的作用體現(xiàn)在描述因變量的均值是如何隨著自變量向量X觀測(cè)的變化而變化的。但是,當(dāng)我們關(guān)心的不是這種均值變化,而是試圖描述y的分布狀態(tài)時(shí),最小二乘回歸就不能滿足我們的需要。而本文引入的分位點(diǎn)回歸則采用條件分位數(shù)方程,即因變量y的條件分布的分位數(shù)被表示為已觀測(cè)自變量的方程,并通過最小化加權(quán)絕對(duì)值殘差和來(lái)進(jìn)行估計(jì)[8]。
對(duì)于單自變量普通回歸模型:y=XTβ+ε,其中X=(1,x)T,β=參數(shù)向量β一般是通過二次損失函數(shù)r(u)=u2來(lái)估計(jì)的,確切的說就是給定一組觀測(cè)值最小化損失函數(shù)來(lái)求得β,損失函數(shù)為:
與普通回歸相類似,中位數(shù)回歸所關(guān)心的也是條件期望的參數(shù)估計(jì)問題,只不過期望函數(shù)、損失函數(shù)變成了E[|Y-θ|| X=x]和ρ0.5(u)=0.5|u|,其參數(shù)估計(jì)過程是最小化β)來(lái)求得β。中位數(shù)回歸是分位點(diǎn)回歸的一種特例,它是分位數(shù)等于0.5時(shí)的分位點(diǎn)回歸,分位點(diǎn)回歸則更具有一般性。
分位點(diǎn)回歸估計(jì)的是條件分位數(shù)方程參數(shù)的問題??紤]一般性回歸模型的設(shè)定:y表示因變量,為自變量,并且有n個(gè)獨(dú)立的觀測(cè)值對(duì)于任意的0<τ< 1:Q(τ)=inf{y:F(y)≥τ}表示y的τ分位數(shù)。所以線性條件分位數(shù)方程就可以定義為:
對(duì)于任意的0<τ<1,定義損失函數(shù),ρτ(u)=u(τ-I(u<0)),其中I(u<0)為示性函數(shù)在上述定義的基礎(chǔ)上,就可以得到條件分位點(diǎn)回歸參數(shù)向量β的估計(jì)值:
本文只用一元線性分位點(diǎn)回歸,沒有用多項(xiàng)式分位點(diǎn)回歸及非參數(shù)分位點(diǎn)回歸,是基于以下考慮:第一,應(yīng)用多項(xiàng)式分位點(diǎn)回歸時(shí),每一分位點(diǎn)的回歸系數(shù)至少會(huì)增加一個(gè),這會(huì)帶來(lái)聚類變量的成倍增加。同時(shí),由于多項(xiàng)式回歸是由自變量的一次方項(xiàng)、二次方項(xiàng)等構(gòu)成,這還會(huì)導(dǎo)致聚類變量出現(xiàn)嚴(yán)重的多重共線性。第二,采用非參數(shù)分位點(diǎn)回歸,即y=m (X),由于其對(duì)應(yīng)每條曲線回歸函數(shù)形式并不一定相同,故無(wú)法確定聚類變量。
(1)待分類時(shí)間序列數(shù)據(jù):上證180中的64支股票2007年1月4日至2008年4月30日322個(gè)交易日每日收盤價(jià)格序列(如:圖2)。(2)公共變量:上證綜合指數(shù)序列。公共變量是基于上海證券交易所掛牌交易的個(gè)股收盤價(jià)序列與上證綜合指數(shù)序列在某種程度上存在著一定的數(shù)量關(guān)系而選取的,數(shù)據(jù)情況見圖2。
在聚類分析中需要定義點(diǎn)點(diǎn)距離的算法,我們選取最為常用的歐氏(Euclid)距離。
這里的“點(diǎn)”指的是p維空間點(diǎn),點(diǎn)點(diǎn)距離表示由p個(gè)變量構(gòu)成的兩個(gè)樣本點(diǎn)之間的距離。
在本文中,設(shè)有n條待分類時(shí)間序列曲線S1,S2,…,Sn,每條時(shí)序曲線所對(duì)應(yīng)的數(shù)據(jù)作為自變量與公共變量S做分位點(diǎn)回歸,則第i條序列曲線與S的回歸系數(shù)與回歸截距分別為和把和作為聚類變量進(jìn)行聚類分析,數(shù)據(jù)矩陣表示如下:
在聚類分析中,不僅要考慮各個(gè)類的特征,而且要計(jì)算類與類之間的距離。為了使同類樣品(曲線)之間的離差平方和較小,類與類之間的離差平方和較大,所以選擇了層次聚類中的Ward method(離差平方和法)作為聚類方法。下面列出了QRP Clustering主要的四個(gè)步驟。
(1)選取公共變量。對(duì)于同屬性待分類的時(shí)間序列數(shù)據(jù),總能找到與之有關(guān)聯(lián)的公共變量,這是進(jìn)行分位點(diǎn)回歸的關(guān)鍵。另外,公共變量的選取也可以采用對(duì)各條曲線求平均的做法,那么這條平均線就與各個(gè)待分類曲線具有一定的相關(guān)關(guān)系。
(2)時(shí)序數(shù)據(jù)的標(biāo)準(zhǔn)化。
(3)利用R語(yǔ)言編程,把時(shí)序數(shù)據(jù)分別進(jìn)行分位點(diǎn)回歸,回歸方程的自變量為公共變量(本文為上證綜合指數(shù))(這里采用0.05;0.25;0.5;0.75;0.95,五個(gè)分位數(shù))。
(4)5個(gè)分位點(diǎn)回歸系數(shù)及5個(gè)回歸截距被看作為10個(gè)聚類變量進(jìn)行聚類分析,得到分類結(jié)果見圖3~9。利用一元線性回歸系數(shù)聚類得到的分類結(jié)果見圖10~16。
聚類分析可以根據(jù)實(shí)際的要求選擇分類數(shù)目。對(duì)于具有較大數(shù)目的時(shí)間序列曲線,我們本著既要使類與類之間有較大的區(qū)分度,又要使類內(nèi)有較好的一致性。一般情況下,分類的時(shí)候既不能分類太少,因?yàn)檫@樣必然會(huì)導(dǎo)致類內(nèi)曲線參差不齊無(wú)法達(dá)到分類的效果,甚至對(duì)以后的整體預(yù)測(cè)帶來(lái)很大的影響;而且又不能分類太多,因?yàn)檫@就失去分類的真正意義了。本文實(shí)際數(shù)據(jù)共64條曲線樣本,分別進(jìn)行了4個(gè)不同分組數(shù)目的實(shí)驗(yàn)(Clusters=5,6,7,8;見表1),經(jīng)過比對(duì)選擇了7類(Clusters=7)作為最終的分類數(shù)目。
本文利用分位數(shù)回歸系數(shù)作為聚類變量,把64條時(shí)間序列曲線分成了7個(gè)曲線組,每一組曲線都具有大致相同的趨勢(shì)與波動(dòng)形態(tài),其中與一元線性回歸系數(shù)聚類方法所得到的結(jié)果(圖10~16)進(jìn)行對(duì)比也充分說明了QRP Clustering達(dá)到了很好的分類效果,有效地提高了分類的精度。對(duì)于那些趨勢(shì)大體相同階段波動(dòng)不同的曲線,利用分位點(diǎn)回歸可以更全面地分析時(shí)序曲線的特征,因?yàn)榉治稽c(diǎn)回歸可以根據(jù)分位數(shù)的設(shè)定把兩個(gè)時(shí)序變量的關(guān)系變成多個(gè)回歸形式,這樣就可以更為全面、詳盡地考查待分類時(shí)序數(shù)據(jù)的運(yùn)行方式,尤其是對(duì)那些波動(dòng)劇烈且具有極端值的序列曲線。
對(duì)于分類完成后的各組曲線,可以分析各組曲線的特征,并進(jìn)一步達(dá)到建模和整體預(yù)測(cè)的需要。這里我們闡述兩個(gè)問題:
(1)建模。對(duì)每組曲線(已分類)建立模型可以有多種選擇。例如,①選擇該組任意一條曲線作為該組的代表曲線進(jìn)行建模;②選擇處于中間位置的曲線作為代表曲線;③對(duì)該組曲線在每一時(shí)點(diǎn)上的曲線數(shù)值進(jìn)行平均化處理,這便會(huì)形成一條新的序列曲線,然后用得到的新曲線作為代表曲線進(jìn)行建模。
(2)整體預(yù)測(cè)。當(dāng)代表曲線選擇完成后,具體的建模方法就要根據(jù)進(jìn)一步的時(shí)序曲線的特征分析來(lái)進(jìn)行。常用的時(shí)間序列曲線模型有ARMA、ARIMA、ARCH、GARCH等等。模型建立完畢后,就可以根據(jù)建立的時(shí)間序列模型進(jìn)行每組曲線的整體預(yù)測(cè)。
[1]Liao,T.Clustering Time Series Data:A survey[J].Pattern Recognition,2005,(38).
[2]Piccolo,D.A Distance Measure for Classifying ARIMA Models [J].Journal of Time Series Analysis,1990,(11).
[3]Maharaj,E.A.A Significance Test for Classifying ARMA Models [J].Journal of Statistical Computation and Simulation,1996,(54).
[4]Maharaj,E.A.Comparison and Classification of Stationary Multivariate Time Series[J].Pattern Recognition,1999,(32).
[5]Xiong,Y.,Yeung,D.Y.Mixtures of ARMA Models for Model-Based Time Series Clustering[J].In:Proceedings of the IEEE International Conference on Data Mining,2002,1~4.
[6]范新洪,張春梅,葉慧萍.基于負(fù)荷曲線分類的電力負(fù)荷預(yù)測(cè)方法[J].現(xiàn)代計(jì)算機(jī),2007,(6).
[7]Koenker,R.Bassett,G.,Regression Quantile[J].Econometrica,1978, (46).
[8]Yu,K.,Lu,Z.,Stander,J.Quantile Regression:Application and Current Research Areas[J].The Statistician,2003,(52).
(責(zé)任編輯/亦民)
O212
A
1002-6487(2011)06-0021-03
孫曉丹(1980-),男,黑龍江齊齊哈爾人,博士后,講師,研究方向:復(fù)雜數(shù)據(jù)經(jīng)濟(jì)統(tǒng)計(jì)分析與產(chǎn)業(yè)經(jīng)濟(jì)。
張鳴鳴(1981-),女,黑龍江塔河人,博士研究生,研究方向:服務(wù)經(jīng)濟(jì)與財(cái)稅政策。