何韓吉,鄧光明,b
(桂林理工大學(xué) a.理學(xué)院;b.應(yīng)用統(tǒng)計研究所,廣西 桂林 541004)
在常用的聚類方法中,系統(tǒng)聚類、K均值聚類均運用于無序樣本,即樣本的地位是彼此獨立的。而有序聚類則是對有序樣本本身進行聚類,即樣本的次序是有一定關(guān)聯(lián)的。因此,在實際應(yīng)用中,對于樣本次序不能變動的情況,催生了有序樣本的聚類問題。有序聚類是研究對有序樣本進行分類的一種統(tǒng)計方法,在多學(xué)科、多領(lǐng)域有著廣泛的應(yīng)用[1]。有序聚類算法能夠比較成功地對有序樣本進行一定的聚類,但是由于數(shù)據(jù)受時間的影響較大,需要對時序數(shù)據(jù)的趨勢性進行考慮,提取趨勢性特征對有序樣本進行劃分。然而,針對有序聚類的研究較少,基于趨勢性特征的有序聚類研究更少。
國內(nèi)外學(xué)者基于有序聚類分析方法在多方面進行了相關(guān)應(yīng)用和理論探索。目前來看,對于有序聚類的研究主要包含以下兩個方面。一是對有序聚類方法在其他領(lǐng)域的一些應(yīng)用,包括在其他領(lǐng)域的有序聚類分析和通過有序聚類思想進行一些探索性分析。如楊毅等針對有序的面板數(shù)據(jù)時間尺度的維度問題,用主成分分析處理為一維數(shù)據(jù),并進一步通過有序聚類進行分類,結(jié)果顯示出良好的應(yīng)用前景[2]。符璐等建立了以F統(tǒng)計量為基礎(chǔ)的有序樣本分類方法,測度空氣質(zhì)量影響因子影響程度的變化,從而評價政府治理環(huán)境的效應(yīng)[3]。陳遠中等通過趨勢性特征引入了突變點,將突變點應(yīng)用到有序聚類中,從而能夠根據(jù)突變點對有序樣本進行劃分,但其方法的計算復(fù)雜度增加[4]。Li等在水文過程預(yù)測中,為了有效地提取相關(guān)特征,將有序聚類方法用于頻譜分類,從而提高了預(yù)測的精確性[5]。Kashida等將甲基紅染料共價結(jié)合到雙鏈DNA中來進行有序聚類,發(fā)現(xiàn)甲基紅團簇的光譜特征[6]。二是將現(xiàn)有的有序聚類方法推廣到多維數(shù)據(jù)的情況中。如嚴廣松等對多維數(shù)據(jù)進行壓縮,變成一維數(shù)據(jù),提出了投影尋蹤方法、綜合評判法和主成分分析法進行一維壓縮;將系統(tǒng)聚類應(yīng)用在有序樣本聚類上,經(jīng)過系統(tǒng)聚類的迭代計算獲得最終的有序樣本聚類結(jié)果[7]。任娟等提出了多指標面板數(shù)據(jù)融合聚類分析方法,具體是由因子分析提取信息,使用系統(tǒng)聚類法確定分類情況,通過有序聚類對樣本進行動態(tài)分析和揭示類的演變進程[8-9]。
現(xiàn)有的有序聚類分析研究主要存在兩個問題。一是對數(shù)據(jù)的特征體現(xiàn)不夠。一般方法中所使用的類直徑度量為平均法,因此會將均值差異較小的樣本均為一類,從而忽略了數(shù)值變化的正負效應(yīng),即趨勢性。二是基于趨勢性改進的方法計算復(fù)雜度高?,F(xiàn)有的方法中定義了突變點這個度量,計算的復(fù)雜度與平均法相比增加不少,且會在聚類過程中過度突出突變點,從而導(dǎo)致突變點單獨成類的風險。本文通過構(gòu)建基于鄰近點斜率的度量方法,計算斜率間的均值,簡化了計算復(fù)雜度,加強了趨勢性度量的重要性,提出了更加突出趨勢性的有序聚類分析方法。
對于無序樣本,其聚類的處理已經(jīng)有了充分的研究和討論。但是,對于存在一定相關(guān)性的樣本,即有序樣本,則需要考慮樣本的次序。有序樣本問題一般使用費希爾最優(yōu)求解法來求得最優(yōu)的聚類結(jié)果。設(shè)n維有序樣本向量為X=(X(1),X(2),…,X(n))′,具體的算法與計算步驟如下:
1.定義類的直徑。設(shè)某一類G包含的樣本是{X(i),X(i+1),…,X(j)},該類的均值坐標為:
(1)
用D(i,j)表示這一類的直徑,直徑可定義為:
(2)
2.定義分類的損失函數(shù)。費希爾最優(yōu)求解法定義的分類損失函數(shù)的思想類似于系統(tǒng)聚類法中的Ward法,即要求分類后產(chǎn)生的離差平方和的增量最小。用b(n,k)表示將n個有序樣本分為k類的某一種分法:
G1={i1,i1+1,…,i2-1},
G2={i2,i2+1,…,i3-1},
…
Gk={ik,ik+1,…,n}
其中,i1=1 (3) 其中ik+1=n+1。 3.求最優(yōu)分類法的遞推公式。算法思想是尋找最優(yōu)分割點jk,使分類后產(chǎn)生的離差平方和的增量最小,即求出使得L[b(n,k)]最小的最優(yōu)分類法,記為p(n,k)。因此,我們得到費希爾最優(yōu)求解法的遞推公式為: (4) 針對樣本均值類直徑的度量,會導(dǎo)致在一些時序中,聚類結(jié)果偏向于極值點,從而不能很好地反映序列的趨勢情況。所以,本文提出了基于序列斜率的類直徑計算方法,力求表現(xiàn)序列的趨勢,將同一趨勢的樣本劃為同一類。具體的算法與計算步驟如下: 1.計算相鄰序列之間的斜率。假設(shè)某一p維有序樣本向量為Y=(Y(1),Y(2),…,Y(p))′,對應(yīng)的p維時序向量為t=(t(1),t(2),…,t(p))′,則相鄰序列之間的斜率為: (5) 則新的斜率序列Lij={li,i+1,li+1,i+2,…,lj-2,j-1,lj-1,j}。 2.根據(jù)斜率定義類的直徑。設(shè)某一類G包含的樣本是{Y(i),Y(i+1),…,Y(j)},則對應(yīng)的斜率樣本為{li,i+1,li+1,i+2,…,lj-2,j-1,lj-1,j},此類的均值坐標為: (6) 用D(i,j)表示這一類的直徑,被定義為: (7) 不難發(fā)現(xiàn),如果某一類別只包含兩個樣本,那么其D(i,j)≡0,說明最少三個樣本或者三個時序數(shù)據(jù),才能看出一定的發(fā)展趨勢,這與我們的常識也是相符合的。此外,當斜率相等時,直徑為0,說明它們之間的差異很??;當出現(xiàn)斜率的較大變化時,直徑會變大,從而說明它們之間的差異比較大。 對比較特殊的單調(diào)性數(shù)據(jù)和比較復(fù)雜的波動性數(shù)據(jù)進行數(shù)值模擬,揭示新方法的優(yōu)勢。 首先,考慮在單調(diào)性數(shù)據(jù)上的模擬。需要生成具有五組不同斜率的時序數(shù)據(jù)的遞增序列,實驗數(shù)據(jù)具體為:第一組為1~21、等差為1的序列;第二組為23~41、等差為2的序列;第三組為44~71、等差為3的序列;第四組為72~81、等差為1的序列;第五組為83~99、等差為2的序列。一共為60個時序數(shù)據(jù)。如圖1所示,整體為一遞增序列,但是各段的斜率和上升速度有所差異。 圖1 單調(diào)上升序列折線圖 為了更好地比較兩種方法,假定序列聚為5類,比較兩種情況之下聚類的差異,以及與實際情況相比的正確性。如表1所示,表中的組內(nèi)成員為序列號,可以發(fā)現(xiàn)改進后的方法與本文初始生成的五組數(shù)據(jù)完全吻合,而原始方法卻在第3~5類出現(xiàn)了一些偏差。因此,在單調(diào)序列的應(yīng)用上,改進后的方法能夠提高聚類的精度和準確性,并且更能夠體現(xiàn)時序數(shù)據(jù)的趨勢性。 表1 單調(diào)序列模擬結(jié)果 進一步通過圖2的圖像比較可以看到,原始方法在斜率出現(xiàn)變化時會出現(xiàn)誤判的情況,不能在趨勢上完成正確的聚類。而改進后的方法則完全將上升速度相同的時間點聚為了一類,體現(xiàn)了改進方法的優(yōu)越性。 圖2 單調(diào)上升序列聚類結(jié)果圖 其次,考慮在時序中比較常見的波動性數(shù)據(jù),即存在一些周期性特征的時序數(shù)據(jù),生成具有五組不同斜率的時序數(shù)據(jù)的遞增序列。實驗數(shù)據(jù)為:第一組為1~10、等差為1的序列;第二組為9.5~5、等差為0.5的序列;第三組為7~25、等差為2的序列;第四組為25~16、等差為1的序列;第五組為17~35、等差為2的序列;第六組為33~25、等差為1的序列。一共為60個時序數(shù)據(jù),如圖3所示。 圖3 波動上升序列折線圖 與單調(diào)上升序列類似,假定聚為6類,比較兩種情況之下聚類的差異,以及與實際情況相比的正確性。如表2所示,可以發(fā)現(xiàn)改進后的方法與我們初始生成的五組數(shù)據(jù)完全吻合;而原始方法卻出現(xiàn)了截然不同的結(jié)果,更加偏向于在波峰與波谷處進行聚類,即趨勢轉(zhuǎn)折點。對斜率的變化明顯不夠敏感。因此,在波動性序列的應(yīng)用上,改進后的方法能夠準確地識別出上升和下降的趨勢,這對于在高頻數(shù)據(jù)上的趨勢性提取有著較為廣泛的應(yīng)用性。 表2 波動序列模擬結(jié)果 進一步通過圖4的圖像比較可以看到,原始方法在轉(zhuǎn)折點處進行聚類,由轉(zhuǎn)折點向兩側(cè)分布,不能在趨勢上完成正確的聚類。而改進后的方法則可以將同樣上升或下降速度的點聚為一類,更加能夠體現(xiàn)序列的趨勢變化。 圖4 波動上升序列聚類結(jié)果圖 本文選取了中國2016年8月至2019年7月鐵路客運量月度數(shù)據(jù),單位為萬人,從而通過這些數(shù)據(jù)尋找中國鐵路客運量的規(guī)律。數(shù)據(jù)來源為國家統(tǒng)計局網(wǎng)站,使用R語言進行實證分析。圖5為客運量的折線圖,由于波動較多,很難看出整體趨勢和客運量的規(guī)律變化。 圖5 鐵路客運量月度數(shù)據(jù)折線圖 從表3可以看出,相鄰時間聚成的類直徑均為0,與上面討論的結(jié)果一致。由于數(shù)據(jù)的量級比較大,所以類的直徑比較大,但是不影響聚類效果。 表3 類的直徑 表4中我們得到了最小分類損失,通過它進行進一步的聚類選擇。 表4 最小分類損失函數(shù) 一般通過常識來確定分類的數(shù)量,否則可以從L[p(n,k)]隨k的變化趨勢圖中找到拐點處,根據(jù)拐點處信息確定k。從圖6中看到,在k=6時,有一次拐點,所以聚類個數(shù)確定為6個。 圖6 k與L[p(n,k)]的關(guān)系 基于改進的有序聚類方法,得到了有序聚類結(jié)果。由表5所示,不難發(fā)現(xiàn)鐵路客運量的規(guī)律特征,每兩類幾乎是對應(yīng)著相同的月份,即在一年的時間內(nèi),客運量存在著兩種發(fā)展態(tài)勢。這樣的聚類結(jié)果是符合客觀事實的,可以說改進的有序聚類方法是有效的。 表5 有序聚類結(jié)果 通過表6中的數(shù)據(jù)對比兩種聚類方法,可以直觀看出,兩種方法對客運量都進行了較好的劃分,但是我們進一步通過圖7和圖8對比發(fā)現(xiàn),改進之后的聚類結(jié)果更能夠體現(xiàn)趨勢性特征,并且可以看出鐵路客運量受到季節(jié)性因素的影響,全年有兩段時期:每年的9-10月的波動下降期,11月到次年8月的持續(xù)上升期;而原始方法的聚類則看不出這樣的趨勢存在,只是將接近的數(shù)值聚在了同一類中,只能看出每年的鐵路客運量的高峰集聚區(qū)和低谷集聚區(qū)。 表6 平均法與斜率法的結(jié)果對比 圖7 鐵路客運量月度數(shù)據(jù)斜率度量聚類結(jié)果折線圖 圖8 鐵路客運量月度數(shù)據(jù)平均度量聚類結(jié)果折線圖 本文針對有序聚類對波動性時序數(shù)據(jù)聚類的情況下,不能很好地對同一趨勢的樣本進行有效聚類的情況,考慮了時序的趨勢性特征,提出了改進的類直徑度量方法,使用了斜率來對直徑進行度量。該方法可以很好地提取時序數(shù)據(jù)的趨勢性特征,從而對相同趨勢的樣本進行聚類。模擬結(jié)果表明:對于同類數(shù)據(jù)的識別,改進的方法正確率更高,聚類效果更好;尤其是對波動性數(shù)據(jù)的聚類,改進的方法性能遠遠高于原有方法。實證分析也再次說明,基于趨勢性度量改進的有序聚類方法的聚類結(jié)果貼合實際情況,并且突出了趨勢性特征的表現(xiàn),能夠?qū)Υ罅繒r序數(shù)據(jù)進行有效的有序聚類。(二)改進類的直徑
三、數(shù)值模擬
(一)單調(diào)性數(shù)據(jù)
(二)波動性數(shù)據(jù)
四、實證分析
(一)數(shù)據(jù)來源
(二)定義斜率類直徑
(三)計算最小分類損失函數(shù)
(四)聚類數(shù)量的確定
(五)基于斜率度量的有序聚類結(jié)果
(六)與原有方法的比較
五、結(jié) 論