国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于趨勢性度量的有序聚類方法探討

2020-04-27 05:21何韓吉鄧光明

統(tǒng)計與信息論壇 2020年3期

關(guān)鍵詞：趨勢性時序斜率

何韓吉，鄧光明，b

(桂林理工大學(xué) a.理學(xué)院；b.應(yīng)用統(tǒng)計研究所，廣西桂林 541004)

一、引言

在常用的聚類方法中，系統(tǒng)聚類、K均值聚類均運用于無序樣本，即樣本的地位是彼此獨立的。而有序聚類則是對有序樣本本身進行聚類，即樣本的次序是有一定關(guān)聯(lián)的。因此，在實際應(yīng)用中，對于樣本次序不能變動的情況，催生了有序樣本的聚類問題。有序聚類是研究對有序樣本進行分類的一種統(tǒng)計方法，在多學(xué)科、多領(lǐng)域有著廣泛的應(yīng)用[1]。有序聚類算法能夠比較成功地對有序樣本進行一定的聚類，但是由于數(shù)據(jù)受時間的影響較大，需要對時序數(shù)據(jù)的趨勢性進行考慮，提取趨勢性特征對有序樣本進行劃分。然而，針對有序聚類的研究較少，基于趨勢性特征的有序聚類研究更少。

國內(nèi)外學(xué)者基于有序聚類分析方法在多方面進行了相關(guān)應(yīng)用和理論探索。目前來看，對于有序聚類的研究主要包含以下兩個方面。一是對有序聚類方法在其他領(lǐng)域的一些應(yīng)用，包括在其他領(lǐng)域的有序聚類分析和通過有序聚類思想進行一些探索性分析。如楊毅等針對有序的面板數(shù)據(jù)時間尺度的維度問題，用主成分分析處理為一維數(shù)據(jù)，并進一步通過有序聚類進行分類，結(jié)果顯示出良好的應(yīng)用前景[2]。符璐等建立了以F統(tǒng)計量為基礎(chǔ)的有序樣本分類方法，測度空氣質(zhì)量影響因子影響程度的變化，從而評價政府治理環(huán)境的效應(yīng)[3]。陳遠中等通過趨勢性特征引入了突變點，將突變點應(yīng)用到有序聚類中，從而能夠根據(jù)突變點對有序樣本進行劃分，但其方法的計算復(fù)雜度增加[4]。Li等在水文過程預(yù)測中，為了有效地提取相關(guān)特征，將有序聚類方法用于頻譜分類，從而提高了預(yù)測的精確性[5]。Kashida等將甲基紅染料共價結(jié)合到雙鏈DNA中來進行有序聚類，發(fā)現(xiàn)甲基紅團簇的光譜特征[6]。二是將現(xiàn)有的有序聚類方法推廣到多維數(shù)據(jù)的情況中。如嚴廣松等對多維數(shù)據(jù)進行壓縮，變成一維數(shù)據(jù)，提出了投影尋蹤方法、綜合評判法和主成分分析法進行一維壓縮；將系統(tǒng)聚類應(yīng)用在有序樣本聚類上，經(jīng)過系統(tǒng)聚類的迭代計算獲得最終的有序樣本聚類結(jié)果[7]。任娟等提出了多指標面板數(shù)據(jù)融合聚類分析方法，具體是由因子分析提取信息，使用系統(tǒng)聚類法確定分類情況，通過有序聚類對樣本進行動態(tài)分析和揭示類的演變進程[8-9]。

現(xiàn)有的有序聚類分析研究主要存在兩個問題。一是對數(shù)據(jù)的特征體現(xiàn)不夠。一般方法中所使用的類直徑度量為平均法，因此會將均值差異較小的樣本均為一類，從而忽略了數(shù)值變化的正負效應(yīng)，即趨勢性。二是基于趨勢性改進的方法計算復(fù)雜度高?，F(xiàn)有的方法中定義了突變點這個度量，計算的復(fù)雜度與平均法相比增加不少，且會在聚類過程中過度突出突變點，從而導(dǎo)致突變點單獨成類的風險。本文通過構(gòu)建基于鄰近點斜率的度量方法，計算斜率間的均值，簡化了計算復(fù)雜度，加強了趨勢性度量的重要性，提出了更加突出趨勢性的有序聚類分析方法。

二、有序聚類的原理與改進

(一)有序聚類的原理[10]

對于無序樣本，其聚類的處理已經(jīng)有了充分的研究和討論。但是，對于存在一定相關(guān)性的樣本，即有序樣本，則需要考慮樣本的次序。有序樣本問題一般使用費希爾最優(yōu)求解法來求得最優(yōu)的聚類結(jié)果。設(shè)n維有序樣本向量為X=(X(1)，X(2)，…，X(n))′，具體的算法與計算步驟如下：

1.定義類的直徑。設(shè)某一類G包含的樣本是{X(i)，X(i+1)，…，X(j)}，該類的均值坐標為：

(1)

用D(i，j)表示這一類的直徑，直徑可定義為：

(2)

2.定義分類的損失函數(shù)。費希爾最優(yōu)求解法定義的分類損失函數(shù)的思想類似于系統(tǒng)聚類法中的Ward法，即要求分類后產(chǎn)生的離差平方和的增量最小。用b(n，k)表示將n個有序樣本分為k類的某一種分法：

G1={i1，i1+1，…，i2-1}，

G2={i2，i2+1，…，i3-1}，

…

Gk={ik，ik+1，…，n}

其中，i1=1

(3)

其中ik+1=n+1。

3.求最優(yōu)分類法的遞推公式。算法思想是尋找最優(yōu)分割點jk，使分類后產(chǎn)生的離差平方和的增量最小，即求出使得L[b(n，k)]最小的最優(yōu)分類法，記為p(n，k)。因此，我們得到費希爾最優(yōu)求解法的遞推公式為：

(4)

(二)改進類的直徑

針對樣本均值類直徑的度量，會導(dǎo)致在一些時序中，聚類結(jié)果偏向于極值點，從而不能很好地反映序列的趨勢情況。所以，本文提出了基于序列斜率的類直徑計算方法，力求表現(xiàn)序列的趨勢，將同一趨勢的樣本劃為同一類。具體的算法與計算步驟如下：

1.計算相鄰序列之間的斜率。假設(shè)某一p維有序樣本向量為Y=(Y(1)，Y(2)，…，Y(p))′，對應(yīng)的p維時序向量為t=(t(1)，t(2)，…，t(p))′，則相鄰序列之間的斜率為：

(5)

則新的斜率序列Lij={li，i+1，li+1，i+2，…，lj-2，j-1，lj-1，j}。

2.根據(jù)斜率定義類的直徑。設(shè)某一類G包含的樣本是{Y(i)，Y(i+1)，…，Y(j)}，則對應(yīng)的斜率樣本為{li，i+1，li+1，i+2，…，lj-2，j-1，lj-1，j}，此類的均值坐標為：

(6)

用D(i，j)表示這一類的直徑，被定義為：

(7)

不難發(fā)現(xiàn)，如果某一類別只包含兩個樣本，那么其D(i，j)≡0，說明最少三個樣本或者三個時序數(shù)據(jù)，才能看出一定的發(fā)展趨勢，這與我們的常識也是相符合的。此外，當斜率相等時，直徑為0，說明它們之間的差異很??；當出現(xiàn)斜率的較大變化時，直徑會變大，從而說明它們之間的差異比較大。

三、數(shù)值模擬

對比較特殊的單調(diào)性數(shù)據(jù)和比較復(fù)雜的波動性數(shù)據(jù)進行數(shù)值模擬，揭示新方法的優(yōu)勢。

(一)單調(diào)性數(shù)據(jù)

首先，考慮在單調(diào)性數(shù)據(jù)上的模擬。需要生成具有五組不同斜率的時序數(shù)據(jù)的遞增序列，實驗數(shù)據(jù)具體為：第一組為1～21、等差為1的序列；第二組為23～41、等差為2的序列；第三組為44～71、等差為3的序列；第四組為72～81、等差為1的序列；第五組為83～99、等差為2的序列。一共為60個時序數(shù)據(jù)。如圖1所示，整體為一遞增序列，但是各段的斜率和上升速度有所差異。

圖1 單調(diào)上升序列折線圖

為了更好地比較兩種方法，假定序列聚為5類，比較兩種情況之下聚類的差異，以及與實際情況相比的正確性。如表1所示，表中的組內(nèi)成員為序列號，可以發(fā)現(xiàn)改進后的方法與本文初始生成的五組數(shù)據(jù)完全吻合，而原始方法卻在第3～5類出現(xiàn)了一些偏差。因此，在單調(diào)序列的應(yīng)用上，改進后的方法能夠提高聚類的精度和準確性，并且更能夠體現(xiàn)時序數(shù)據(jù)的趨勢性。

表1 單調(diào)序列模擬結(jié)果

進一步通過圖2的圖像比較可以看到，原始方法在斜率出現(xiàn)變化時會出現(xiàn)誤判的情況，不能在趨勢上完成正確的聚類。而改進后的方法則完全將上升速度相同的時間點聚為了一類，體現(xiàn)了改進方法的優(yōu)越性。

圖2 單調(diào)上升序列聚類結(jié)果圖

(二)波動性數(shù)據(jù)

其次，考慮在時序中比較常見的波動性數(shù)據(jù)，即存在一些周期性特征的時序數(shù)據(jù)，生成具有五組不同斜率的時序數(shù)據(jù)的遞增序列。實驗數(shù)據(jù)為：第一組為1～10、等差為1的序列；第二組為9.5～5、等差為0.5的序列；第三組為7～25、等差為2的序列；第四組為25～16、等差為1的序列；第五組為17～35、等差為2的序列；第六組為33～25、等差為1的序列。一共為60個時序數(shù)據(jù)，如圖3所示。

圖3 波動上升序列折線圖

與單調(diào)上升序列類似，假定聚為6類，比較兩種情況之下聚類的差異，以及與實際情況相比的正確性。如表2所示，可以發(fā)現(xiàn)改進后的方法與我們初始生成的五組數(shù)據(jù)完全吻合；而原始方法卻出現(xiàn)了截然不同的結(jié)果，更加偏向于在波峰與波谷處進行聚類，即趨勢轉(zhuǎn)折點。對斜率的變化明顯不夠敏感。因此，在波動性序列的應(yīng)用上，改進后的方法能夠準確地識別出上升和下降的趨勢，這對于在高頻數(shù)據(jù)上的趨勢性提取有著較為廣泛的應(yīng)用性。

表2 波動序列模擬結(jié)果

進一步通過圖4的圖像比較可以看到，原始方法在轉(zhuǎn)折點處進行聚類，由轉(zhuǎn)折點向兩側(cè)分布，不能在趨勢上完成正確的聚類。而改進后的方法則可以將同樣上升或下降速度的點聚為一類，更加能夠體現(xiàn)序列的趨勢變化。

圖4 波動上升序列聚類結(jié)果圖

四、實證分析

(一)數(shù)據(jù)來源

本文選取了中國2016年8月至2019年7月鐵路客運量月度數(shù)據(jù)，單位為萬人，從而通過這些數(shù)據(jù)尋找中國鐵路客運量的規(guī)律。數(shù)據(jù)來源為國家統(tǒng)計局網(wǎng)站，使用R語言進行實證分析。圖5為客運量的折線圖，由于波動較多，很難看出整體趨勢和客運量的規(guī)律變化。

圖5 鐵路客運量月度數(shù)據(jù)折線圖

(二)定義斜率類直徑

從表3可以看出，相鄰時間聚成的類直徑均為0，與上面討論的結(jié)果一致。由于數(shù)據(jù)的量級比較大，所以類的直徑比較大，但是不影響聚類效果。

表3 類的直徑

(三)計算最小分類損失函數(shù)

表4中我們得到了最小分類損失，通過它進行進一步的聚類選擇。

表4 最小分類損失函數(shù)

(四)聚類數(shù)量的確定

一般通過常識來確定分類的數(shù)量，否則可以從L[p(n，k)]隨k的變化趨勢圖中找到拐點處，根據(jù)拐點處信息確定k。從圖6中看到，在k=6時，有一次拐點，所以聚類個數(shù)確定為6個。

圖6 k與L[p(n，k)]的關(guān)系

(五)基于斜率度量的有序聚類結(jié)果

基于改進的有序聚類方法，得到了有序聚類結(jié)果。由表5所示，不難發(fā)現(xiàn)鐵路客運量的規(guī)律特征，每兩類幾乎是對應(yīng)著相同的月份，即在一年的時間內(nèi)，客運量存在著兩種發(fā)展態(tài)勢。這樣的聚類結(jié)果是符合客觀事實的，可以說改進的有序聚類方法是有效的。

表5 有序聚類結(jié)果

(六)與原有方法的比較

通過表6中的數(shù)據(jù)對比兩種聚類方法，可以直觀看出，兩種方法對客運量都進行了較好的劃分，但是我們進一步通過圖7和圖8對比發(fā)現(xiàn)，改進之后的聚類結(jié)果更能夠體現(xiàn)趨勢性特征，并且可以看出鐵路客運量受到季節(jié)性因素的影響，全年有兩段時期：每年的9-10月的波動下降期，11月到次年8月的持續(xù)上升期；而原始方法的聚類則看不出這樣的趨勢存在，只是將接近的數(shù)值聚在了同一類中，只能看出每年的鐵路客運量的高峰集聚區(qū)和低谷集聚區(qū)。

表6 平均法與斜率法的結(jié)果對比

圖7 鐵路客運量月度數(shù)據(jù)斜率度量聚類結(jié)果折線圖

圖8 鐵路客運量月度數(shù)據(jù)平均度量聚類結(jié)果折線圖

五、結(jié) 論

本文針對有序聚類對波動性時序數(shù)據(jù)聚類的情況下，不能很好地對同一趨勢的樣本進行有效聚類的情況，考慮了時序的趨勢性特征，提出了改進的類直徑度量方法，使用了斜率來對直徑進行度量。該方法可以很好地提取時序數(shù)據(jù)的趨勢性特征，從而對相同趨勢的樣本進行聚類。模擬結(jié)果表明：對于同類數(shù)據(jù)的識別，改進的方法正確率更高，聚類效果更好；尤其是對波動性數(shù)據(jù)的聚類，改進的方法性能遠遠高于原有方法。實證分析也再次說明，基于趨勢性度量改進的有序聚類方法的聚類結(jié)果貼合實際情況，并且突出了趨勢性特征的表現(xiàn)，能夠?qū)Υ罅繒r序數(shù)據(jù)進行有效的有序聚類。

猜你喜歡

趨勢性時序斜率

顧及多種弛豫模型的GNSS坐標時序分析軟件GTSA

導(dǎo)航定位學(xué)報(2022年5期)2022-10-13

小獼猴智力畫刊(2022年3期)2022-03-28

物理圖像斜率的變化探討

物理之友(2020年12期)2020-07-16

基于不同建設(shè)時序的地鐵互聯(lián)互通方案分析

鐵道建筑技術(shù)(2020年11期)2020-05-22

農(nóng)產(chǎn)品流通競爭力的趨勢性和區(qū)域分異性

商業(yè)經(jīng)濟研究(2019年10期)2019-05-24

基于FPGA 的時序信號光纖傳輸系統(tǒng)

電子制作(2017年13期)2017-12-15

基于M—K方法及成分提取的海洋表層熱狀分析

環(huán)球人文地理·評論版(2017年1期)2017-04-09

求斜率型分式的取值范圍

福建中學(xué)數(shù)學(xué)(2016年7期)2016-12-03

中國經(jīng)濟發(fā)展新常態(tài)十大趨勢性變化及因應(yīng)策略

全球化(2015年9期)2015-02-28

導(dǎo)數(shù)幾何意義的深層次應(yīng)用

中學(xué)數(shù)學(xué)雜志(初中版)(2014年1期)2014-02-28

統(tǒng)計與信息論壇2020年3期

統(tǒng)計與信息論壇的其它文章: 基于BMA方法的中國房價長期影響因素研究
——兼論房地產(chǎn)長效機制構(gòu)建; 大數(shù)據(jù)環(huán)境下的統(tǒng)計元數(shù)據(jù)建設(shè); 性別差異、預(yù)期壽命對最優(yōu)退休年齡的影響研究; 基于直覺灰數(shù)集的灰色多屬性決策方法; 利用大數(shù)據(jù)編制CPI代表性項目抽樣方法研究; 產(chǎn)業(yè)空間集聚中心引力指數(shù)算法的設(shè)計及應(yīng)用
——基于長三角一體化視角的企業(yè)微觀數(shù)據(jù)驗證