国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于趨勢性度量的有序聚類方法探討

2020-04-27 05:21何韓吉鄧光明
統(tǒng)計與信息論壇 2020年3期
關(guān)鍵詞:趨勢性時序斜率

何韓吉,鄧光明,b

(桂林理工大學(xué) a.理學(xué)院;b.應(yīng)用統(tǒng)計研究所,廣西 桂林 541004)

一、引 言

在常用的聚類方法中,系統(tǒng)聚類、K均值聚類均運用于無序樣本,即樣本的地位是彼此獨立的。而有序聚類則是對有序樣本本身進行聚類,即樣本的次序是有一定關(guān)聯(lián)的。因此,在實際應(yīng)用中,對于樣本次序不能變動的情況,催生了有序樣本的聚類問題。有序聚類是研究對有序樣本進行分類的一種統(tǒng)計方法,在多學(xué)科、多領(lǐng)域有著廣泛的應(yīng)用[1]。有序聚類算法能夠比較成功地對有序樣本進行一定的聚類,但是由于數(shù)據(jù)受時間的影響較大,需要對時序數(shù)據(jù)的趨勢性進行考慮,提取趨勢性特征對有序樣本進行劃分。然而,針對有序聚類的研究較少,基于趨勢性特征的有序聚類研究更少。

國內(nèi)外學(xué)者基于有序聚類分析方法在多方面進行了相關(guān)應(yīng)用和理論探索。目前來看,對于有序聚類的研究主要包含以下兩個方面。一是對有序聚類方法在其他領(lǐng)域的一些應(yīng)用,包括在其他領(lǐng)域的有序聚類分析和通過有序聚類思想進行一些探索性分析。如楊毅等針對有序的面板數(shù)據(jù)時間尺度的維度問題,用主成分分析處理為一維數(shù)據(jù),并進一步通過有序聚類進行分類,結(jié)果顯示出良好的應(yīng)用前景[2]。符璐等建立了以F統(tǒng)計量為基礎(chǔ)的有序樣本分類方法,測度空氣質(zhì)量影響因子影響程度的變化,從而評價政府治理環(huán)境的效應(yīng)[3]。陳遠中等通過趨勢性特征引入了突變點,將突變點應(yīng)用到有序聚類中,從而能夠根據(jù)突變點對有序樣本進行劃分,但其方法的計算復(fù)雜度增加[4]。Li等在水文過程預(yù)測中,為了有效地提取相關(guān)特征,將有序聚類方法用于頻譜分類,從而提高了預(yù)測的精確性[5]。Kashida等將甲基紅染料共價結(jié)合到雙鏈DNA中來進行有序聚類,發(fā)現(xiàn)甲基紅團簇的光譜特征[6]。二是將現(xiàn)有的有序聚類方法推廣到多維數(shù)據(jù)的情況中。如嚴廣松等對多維數(shù)據(jù)進行壓縮,變成一維數(shù)據(jù),提出了投影尋蹤方法、綜合評判法和主成分分析法進行一維壓縮;將系統(tǒng)聚類應(yīng)用在有序樣本聚類上,經(jīng)過系統(tǒng)聚類的迭代計算獲得最終的有序樣本聚類結(jié)果[7]。任娟等提出了多指標面板數(shù)據(jù)融合聚類分析方法,具體是由因子分析提取信息,使用系統(tǒng)聚類法確定分類情況,通過有序聚類對樣本進行動態(tài)分析和揭示類的演變進程[8-9]。

現(xiàn)有的有序聚類分析研究主要存在兩個問題。一是對數(shù)據(jù)的特征體現(xiàn)不夠。一般方法中所使用的類直徑度量為平均法,因此會將均值差異較小的樣本均為一類,從而忽略了數(shù)值變化的正負效應(yīng),即趨勢性。二是基于趨勢性改進的方法計算復(fù)雜度高?,F(xiàn)有的方法中定義了突變點這個度量,計算的復(fù)雜度與平均法相比增加不少,且會在聚類過程中過度突出突變點,從而導(dǎo)致突變點單獨成類的風險。本文通過構(gòu)建基于鄰近點斜率的度量方法,計算斜率間的均值,簡化了計算復(fù)雜度,加強了趨勢性度量的重要性,提出了更加突出趨勢性的有序聚類分析方法。

二、有序聚類的原理與改進

(一)有序聚類的原理[10]

對于無序樣本,其聚類的處理已經(jīng)有了充分的研究和討論。但是,對于存在一定相關(guān)性的樣本,即有序樣本,則需要考慮樣本的次序。有序樣本問題一般使用費希爾最優(yōu)求解法來求得最優(yōu)的聚類結(jié)果。設(shè)n維有序樣本向量為X=(X(1),X(2),…,X(n))′,具體的算法與計算步驟如下:

1.定義類的直徑。設(shè)某一類G包含的樣本是{X(i),X(i+1),…,X(j)},該類的均值坐標為:

(1)

用D(i,j)表示這一類的直徑,直徑可定義為:

(2)

2.定義分類的損失函數(shù)。費希爾最優(yōu)求解法定義的分類損失函數(shù)的思想類似于系統(tǒng)聚類法中的Ward法,即要求分類后產(chǎn)生的離差平方和的增量最小。用b(n,k)表示將n個有序樣本分為k類的某一種分法:

G1={i1,i1+1,…,i2-1},

G2={i2,i2+1,…,i3-1},

Gk={ik,ik+1,…,n}

其中,i1=1

(3)

其中ik+1=n+1。

3.求最優(yōu)分類法的遞推公式。算法思想是尋找最優(yōu)分割點jk,使分類后產(chǎn)生的離差平方和的增量最小,即求出使得L[b(n,k)]最小的最優(yōu)分類法,記為p(n,k)。因此,我們得到費希爾最優(yōu)求解法的遞推公式為:

(4)

(二)改進類的直徑

針對樣本均值類直徑的度量,會導(dǎo)致在一些時序中,聚類結(jié)果偏向于極值點,從而不能很好地反映序列的趨勢情況。所以,本文提出了基于序列斜率的類直徑計算方法,力求表現(xiàn)序列的趨勢,將同一趨勢的樣本劃為同一類。具體的算法與計算步驟如下:

1.計算相鄰序列之間的斜率。假設(shè)某一p維有序樣本向量為Y=(Y(1),Y(2),…,Y(p))′,對應(yīng)的p維時序向量為t=(t(1),t(2),…,t(p))′,則相鄰序列之間的斜率為:

(5)

則新的斜率序列Lij={li,i+1,li+1,i+2,…,lj-2,j-1,lj-1,j}。

2.根據(jù)斜率定義類的直徑。設(shè)某一類G包含的樣本是{Y(i),Y(i+1),…,Y(j)},則對應(yīng)的斜率樣本為{li,i+1,li+1,i+2,…,lj-2,j-1,lj-1,j},此類的均值坐標為:

(6)

用D(i,j)表示這一類的直徑,被定義為:

(7)

不難發(fā)現(xiàn),如果某一類別只包含兩個樣本,那么其D(i,j)≡0,說明最少三個樣本或者三個時序數(shù)據(jù),才能看出一定的發(fā)展趨勢,這與我們的常識也是相符合的。此外,當斜率相等時,直徑為0,說明它們之間的差異很??;當出現(xiàn)斜率的較大變化時,直徑會變大,從而說明它們之間的差異比較大。

三、數(shù)值模擬

對比較特殊的單調(diào)性數(shù)據(jù)和比較復(fù)雜的波動性數(shù)據(jù)進行數(shù)值模擬,揭示新方法的優(yōu)勢。

(一)單調(diào)性數(shù)據(jù)

首先,考慮在單調(diào)性數(shù)據(jù)上的模擬。需要生成具有五組不同斜率的時序數(shù)據(jù)的遞增序列,實驗數(shù)據(jù)具體為:第一組為1~21、等差為1的序列;第二組為23~41、等差為2的序列;第三組為44~71、等差為3的序列;第四組為72~81、等差為1的序列;第五組為83~99、等差為2的序列。一共為60個時序數(shù)據(jù)。如圖1所示,整體為一遞增序列,但是各段的斜率和上升速度有所差異。

圖1 單調(diào)上升序列折線圖

為了更好地比較兩種方法,假定序列聚為5類,比較兩種情況之下聚類的差異,以及與實際情況相比的正確性。如表1所示,表中的組內(nèi)成員為序列號,可以發(fā)現(xiàn)改進后的方法與本文初始生成的五組數(shù)據(jù)完全吻合,而原始方法卻在第3~5類出現(xiàn)了一些偏差。因此,在單調(diào)序列的應(yīng)用上,改進后的方法能夠提高聚類的精度和準確性,并且更能夠體現(xiàn)時序數(shù)據(jù)的趨勢性。

表1 單調(diào)序列模擬結(jié)果

進一步通過圖2的圖像比較可以看到,原始方法在斜率出現(xiàn)變化時會出現(xiàn)誤判的情況,不能在趨勢上完成正確的聚類。而改進后的方法則完全將上升速度相同的時間點聚為了一類,體現(xiàn)了改進方法的優(yōu)越性。

圖2 單調(diào)上升序列聚類結(jié)果圖

(二)波動性數(shù)據(jù)

其次,考慮在時序中比較常見的波動性數(shù)據(jù),即存在一些周期性特征的時序數(shù)據(jù),生成具有五組不同斜率的時序數(shù)據(jù)的遞增序列。實驗數(shù)據(jù)為:第一組為1~10、等差為1的序列;第二組為9.5~5、等差為0.5的序列;第三組為7~25、等差為2的序列;第四組為25~16、等差為1的序列;第五組為17~35、等差為2的序列;第六組為33~25、等差為1的序列。一共為60個時序數(shù)據(jù),如圖3所示。

圖3 波動上升序列折線圖

與單調(diào)上升序列類似,假定聚為6類,比較兩種情況之下聚類的差異,以及與實際情況相比的正確性。如表2所示,可以發(fā)現(xiàn)改進后的方法與我們初始生成的五組數(shù)據(jù)完全吻合;而原始方法卻出現(xiàn)了截然不同的結(jié)果,更加偏向于在波峰與波谷處進行聚類,即趨勢轉(zhuǎn)折點。對斜率的變化明顯不夠敏感。因此,在波動性序列的應(yīng)用上,改進后的方法能夠準確地識別出上升和下降的趨勢,這對于在高頻數(shù)據(jù)上的趨勢性提取有著較為廣泛的應(yīng)用性。

表2 波動序列模擬結(jié)果

進一步通過圖4的圖像比較可以看到,原始方法在轉(zhuǎn)折點處進行聚類,由轉(zhuǎn)折點向兩側(cè)分布,不能在趨勢上完成正確的聚類。而改進后的方法則可以將同樣上升或下降速度的點聚為一類,更加能夠體現(xiàn)序列的趨勢變化。

圖4 波動上升序列聚類結(jié)果圖

四、實證分析

(一)數(shù)據(jù)來源

本文選取了中國2016年8月至2019年7月鐵路客運量月度數(shù)據(jù),單位為萬人,從而通過這些數(shù)據(jù)尋找中國鐵路客運量的規(guī)律。數(shù)據(jù)來源為國家統(tǒng)計局網(wǎng)站,使用R語言進行實證分析。圖5為客運量的折線圖,由于波動較多,很難看出整體趨勢和客運量的規(guī)律變化。

圖5 鐵路客運量月度數(shù)據(jù)折線圖

(二)定義斜率類直徑

從表3可以看出,相鄰時間聚成的類直徑均為0,與上面討論的結(jié)果一致。由于數(shù)據(jù)的量級比較大,所以類的直徑比較大,但是不影響聚類效果。

表3 類的直徑

(三)計算最小分類損失函數(shù)

表4中我們得到了最小分類損失,通過它進行進一步的聚類選擇。

表4 最小分類損失函數(shù)

(四)聚類數(shù)量的確定

一般通過常識來確定分類的數(shù)量,否則可以從L[p(n,k)]隨k的變化趨勢圖中找到拐點處,根據(jù)拐點處信息確定k。從圖6中看到,在k=6時,有一次拐點,所以聚類個數(shù)確定為6個。

圖6 k與L[p(n,k)]的關(guān)系

(五)基于斜率度量的有序聚類結(jié)果

基于改進的有序聚類方法,得到了有序聚類結(jié)果。由表5所示,不難發(fā)現(xiàn)鐵路客運量的規(guī)律特征,每兩類幾乎是對應(yīng)著相同的月份,即在一年的時間內(nèi),客運量存在著兩種發(fā)展態(tài)勢。這樣的聚類結(jié)果是符合客觀事實的,可以說改進的有序聚類方法是有效的。

表5 有序聚類結(jié)果

(六)與原有方法的比較

通過表6中的數(shù)據(jù)對比兩種聚類方法,可以直觀看出,兩種方法對客運量都進行了較好的劃分,但是我們進一步通過圖7和圖8對比發(fā)現(xiàn),改進之后的聚類結(jié)果更能夠體現(xiàn)趨勢性特征,并且可以看出鐵路客運量受到季節(jié)性因素的影響,全年有兩段時期:每年的9-10月的波動下降期,11月到次年8月的持續(xù)上升期;而原始方法的聚類則看不出這樣的趨勢存在,只是將接近的數(shù)值聚在了同一類中,只能看出每年的鐵路客運量的高峰集聚區(qū)和低谷集聚區(qū)。

表6 平均法與斜率法的結(jié)果對比

圖7 鐵路客運量月度數(shù)據(jù)斜率度量聚類結(jié)果折線圖

圖8 鐵路客運量月度數(shù)據(jù)平均度量聚類結(jié)果折線圖

五、結(jié) 論

本文針對有序聚類對波動性時序數(shù)據(jù)聚類的情況下,不能很好地對同一趨勢的樣本進行有效聚類的情況,考慮了時序的趨勢性特征,提出了改進的類直徑度量方法,使用了斜率來對直徑進行度量。該方法可以很好地提取時序數(shù)據(jù)的趨勢性特征,從而對相同趨勢的樣本進行聚類。模擬結(jié)果表明:對于同類數(shù)據(jù)的識別,改進的方法正確率更高,聚類效果更好;尤其是對波動性數(shù)據(jù)的聚類,改進的方法性能遠遠高于原有方法。實證分析也再次說明,基于趨勢性度量改進的有序聚類方法的聚類結(jié)果貼合實際情況,并且突出了趨勢性特征的表現(xiàn),能夠?qū)Υ罅繒r序數(shù)據(jù)進行有效的有序聚類。

猜你喜歡
趨勢性時序斜率
顧及多種弛豫模型的GNSS坐標時序分析軟件GTSA
清明
物理圖像斜率的變化探討
基于不同建設(shè)時序的地鐵互聯(lián)互通方案分析
農(nóng)產(chǎn)品流通競爭力的趨勢性和區(qū)域分異性
基于FPGA 的時序信號光纖傳輸系統(tǒng)
基于M—K方法及成分提取的海洋表層熱狀分析
求斜率型分式的取值范圍
中國經(jīng)濟發(fā)展新常態(tài)十大趨勢性變化及因應(yīng)策略
導(dǎo)數(shù)幾何意義的深層次應(yīng)用