李海林,張麗萍
(1. 華僑大學(xué)信息管理與信息系統(tǒng)系 福建 泉州 362021;2. 華僑大學(xué)應(yīng)用統(tǒng)計與大數(shù)據(jù)研究中心 福建 廈門 361021)
大數(shù)據(jù)背景下,數(shù)據(jù)挖掘與分析成為信息處理和知識管理等相關(guān)學(xué)科領(lǐng)域重點關(guān)注的研究對象[1]。在各種復(fù)雜數(shù)據(jù)類型中,廣泛存在于金融市場和工業(yè)工程等領(lǐng)域的時間序列是一種與時間密切相關(guān)的數(shù)據(jù),根據(jù)變量屬性維度的大小其可分為單變量和多變量兩種時間序列。相應(yīng)地,時間序列數(shù)據(jù)挖掘是從時間序列數(shù)據(jù)庫中發(fā)現(xiàn)信息與知識的理論與方法,為幫助政府和企業(yè)管理者在相關(guān)領(lǐng)域中提供更為可靠的輔助決策與技術(shù)支持[2]。時間序列的高維性具有時間維度長、屬性變量多、數(shù)據(jù)體量大等特征,給傳統(tǒng)數(shù)據(jù)挖掘技術(shù)的實施帶來了極大困擾,在一定程度上阻礙了其在時間序列數(shù)據(jù)分析領(lǐng)域中的應(yīng)用與發(fā)展。因此,運用數(shù)據(jù)挖掘技術(shù)從高維時間序列數(shù)據(jù)中發(fā)現(xiàn)信息和知識成為了數(shù)據(jù)分析領(lǐng)域中具有挑戰(zhàn)性且最主要的研究方向之一[3]。
傳統(tǒng)時間序列數(shù)據(jù)分析主要基于某種數(shù)據(jù)分布假設(shè),再選取和制定計量經(jīng)濟模型來對時間序列數(shù)據(jù)預(yù)測分析。在大數(shù)據(jù)時代,除了需要傳統(tǒng)的統(tǒng)計模型對時間序列數(shù)據(jù)進行預(yù)測與分析之外,鑒于時間序列數(shù)據(jù)具有時間維度長、屬性變量多和數(shù)據(jù)體量大等高維性特征,借助機器學(xué)習(xí)、模式識別、智能計算和數(shù)據(jù)挖掘等模型和算法對高維時間序列數(shù)據(jù)可以進行深入研究與挖掘。聚類是數(shù)據(jù)挖掘相關(guān)研究和應(yīng)用中非常重要的方法,涉及計算機科學(xué)、模式識別、人工智能和機器學(xué)習(xí)等多個研究領(lǐng)域,同時也常被用于教育、營銷、醫(yī)學(xué)和生物信息學(xué)等學(xué)科,在大數(shù)據(jù)、人工智能和機器人等熱點領(lǐng)域有突出貢獻[4]。如在大規(guī)模群體決策中,聚類分析被用于劃分大規(guī)模群體、處理非合作行為和社區(qū)發(fā)現(xiàn)等[5-6]。聚類分析也是一項重要而且基礎(chǔ)的工作,其過程包括了時間序列的數(shù)據(jù)表達、特征提取、相似性度量以及具體聚類模型與算法等。為此,本文對時間數(shù)據(jù)挖掘中的聚類分析進行綜述研究,首先介紹了目前時間序列聚類方法分類,然后分別從特征表示、相似性度量、聚類算法和簇原型等方面進行國內(nèi)外研究狀況分析,最后分析了目前研究存在的不足,同時給出了未來的研究方向。
時間序列聚類研究大體上可分為3 種類型[7],分別為整體時間序列聚類、子序列聚類和時間點聚類。整體時間序列聚類把每條時間序列視為數(shù)據(jù)對象,對具有共同數(shù)據(jù)特征的時間序列對象進行聚類。它常以相似性度量為基礎(chǔ),結(jié)合數(shù)據(jù)降維和特征表示來找出兩個數(shù)據(jù)對象之間的共性,進而實現(xiàn)時間序列數(shù)據(jù)的簇劃分。
如圖1 所示,分別使用主成分分析(principal component analysis, PCA)和 對 稱 性 主 成 分 分 析(asynchronism-based principal component analysis,APCA)[8]對10 條Synthetic_Control 時間序列數(shù)據(jù)進行特征表示,并使用相應(yīng)的相似性度量方法結(jié)合層次聚類實現(xiàn)整體時間序列的聚類分析。
圖1 兩種方法對整體時間序列數(shù)據(jù)層次聚類
子序列聚類通常指對一條時間較長的一元序列利用滑動窗和矢量量化等方法進行子序列劃分,并使用相應(yīng)聚類方法實現(xiàn)分段子序列的聚類。子序列聚類方法可以有效地發(fā)現(xiàn)較長時間序列中的頻繁模式和異常片段,也能夠發(fā)現(xiàn)不同時間序列數(shù)據(jù)之間存在的共同模式和關(guān)聯(lián)關(guān)系。
時間點聚類則是從時間點和相應(yīng)數(shù)據(jù)點兩個角度出發(fā)來研究基于時間點的數(shù)據(jù)對象之間的近似性,把具有較高相似性的時間點聚合成同一簇,進而實現(xiàn)時間序列數(shù)據(jù)點劃分[7-8]。該方法能夠用來對一條時間序列進行分段劃分,實現(xiàn)數(shù)據(jù)降維和特征表示,與傳統(tǒng)時間序列分割表示方法相比,具有較高的時間效率。
目前國內(nèi)外學(xué)者對于子序列聚類的研究目前尚存一些爭議[9]。鑒于整體時間序列聚類的模型與算法可直接或間接應(yīng)用于子序列聚類和時間點聚類,大部分集中于對整體時間序列聚類的研究。主要研究方法有:1) 傳統(tǒng)聚類方法,如K-Means、模糊聚類和基于密度的等聚類方法,根據(jù)時間序列的數(shù)據(jù)特征定制合適的距離度量函數(shù),實現(xiàn)原始時間序列數(shù)據(jù)聚類[10];2) 對時間序列數(shù)據(jù)通過特征空間轉(zhuǎn)化[11],將原始時間序列數(shù)據(jù)轉(zhuǎn)化為另一特征空間的數(shù)據(jù)對象,再選取合適的傳統(tǒng)聚類方法在特征空間中對數(shù)據(jù)對象進行聚類[12];3) 通過時間序列數(shù)據(jù)的多分辨率解析,在不同分辨率視角下結(jié)合不同方法進行聚類分析,提升傳統(tǒng)方法的聚類效果[13]。
針對時間序列數(shù)據(jù)挖掘中的聚類分析主要集中在整體時間序列的聚類研究,通常整體時序數(shù)據(jù)聚類方法也可用于子序列聚類中,使得整體時間序列聚類顯得更為重要。由于時間的連續(xù)性,對時間點聚類的研究相對較少。
如圖2 所示,重點從整體時間序列聚類的視角來分析時間序列數(shù)據(jù)挖掘領(lǐng)域中的聚類研究狀況。有關(guān)整體時間序列聚類的國內(nèi)外相關(guān)文獻主要從4 個方向?qū)ζ溥M行了相關(guān)理論和方法的研究,分別為數(shù)據(jù)降維與特征表示、相似性度量、聚類模型與算法和簇原型,采用不同的技術(shù)手段和理論方法從這4 個方向進行分析與探究。
圖2 時間序列數(shù)據(jù)聚類的主要研究問題
目前已經(jīng)出現(xiàn)了不少成熟經(jīng)典的聚類模型與算法,但一些基本問題始終是該領(lǐng)域的研究重點,其中包括不同結(jié)構(gòu)特征數(shù)據(jù)的相似性度量、高維數(shù)據(jù)的降維與特征表示、基于噪聲數(shù)據(jù)的聚類魯棒性、大規(guī)模數(shù)據(jù)集聚類算法的有效性選擇等[14]。高維時間序列數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)不同,隨著時間維度的增加,各時間點產(chǎn)生的數(shù)據(jù)具有不確定性[15],在聚類分析過程中除了要解決因高維性給有關(guān)模型和算法帶來精度不高和復(fù)雜度過大等問題,還需要考慮動態(tài)實時、不確定性和高噪聲等其他特征因素給聚類結(jié)果帶來的影響。另外,時間序列聚類結(jié)果所產(chǎn)生的模式通常也被用于其他時間序列挖掘任務(wù)和方法中,如時間序列的數(shù)據(jù)降維與特征表示、模式匹配、關(guān)聯(lián)分析、分類、數(shù)據(jù)可視化等[16-18],使得整個時間序列數(shù)據(jù)挖掘任務(wù)具有更為出色的效果。
時間序列數(shù)據(jù)挖掘包括特征表示、相似性度量、聚類、分類、關(guān)聯(lián)規(guī)則、模式發(fā)現(xiàn)和可視化等重要任務(wù)和關(guān)鍵技術(shù)[2]。聚類分析與特征表示和相似性度量方法一樣,通常作為其他時間序列挖掘任務(wù)的子程序或中間件,以便更好地提升相關(guān)挖掘技術(shù)的性能和質(zhì)量[10]。時間序列聚類分析研究的另一個重要動力來自于實際應(yīng)用領(lǐng)域中超大容量數(shù)據(jù)的獲取,包括經(jīng)濟金融、電子信息、醫(yī)療行業(yè)、航空航天、天體氣象等。這些與時間相關(guān)的高維數(shù)據(jù)隱藏著大量有價值的信息和知識,需要通過聚類分析對時間序列數(shù)據(jù)進行模式發(fā)現(xiàn),進而有針對性地對相關(guān)模式和知識進行處理,以便數(shù)據(jù)科學(xué)家和管理者進行技術(shù)分析和決策支持。
由于時間序列數(shù)據(jù)自身存在一定的特殊性,使得數(shù)據(jù)降維與特征表示以及相似性度量方法成為其他時間序列數(shù)據(jù)挖掘方法研究的基礎(chǔ)任務(wù),其質(zhì)量好壞在一定程度上影響其他挖掘任務(wù)的效果[19]。文獻[20]對單變量和多變量兩種時間序列數(shù)據(jù)的特征表示和相似性度量進行了較為系統(tǒng)的研究,研究成果能較好地改善和提高有關(guān)挖掘技術(shù)和方法的質(zhì)量和效率。同時,聚類自身也可用來發(fā)現(xiàn)時間序列中的頻繁模式或時間序列數(shù)據(jù)庫中的奇異模式,甚至作為一種降維手段來實現(xiàn)數(shù)據(jù)特征表示[21]。另外,在大部分情況下,時間序列聚類通常是建立在特征表示和相似性度量基礎(chǔ)之上的一種機器學(xué)習(xí)方法,實現(xiàn)獲得較高質(zhì)量的聚類分析結(jié)果[10]。
數(shù)據(jù)降維和特征表示是高維時間序列數(shù)據(jù)挖掘中至關(guān)重要的過程,其目的是對高維數(shù)據(jù)進行數(shù)據(jù)變換,在低維空間下使用相應(yīng)的特征來表示原始時間序列的關(guān)鍵信息,進而提高時間序列聚類算法的效率和質(zhì)量。目前,已有一些較為成熟的方法對一元時間序列進行特征表示,包括矢量量化[22]、分段表示[23]、聚合符號化表示[24]、多項式回歸參數(shù)[25]和模型參數(shù)[26]等。鑒于多元時間序列數(shù)據(jù)的廣泛性和重要性,主要從序列的時間和屬性兩個維度進行數(shù)據(jù)降維,代表性方法有基于主成分分析的[27]、基于獨立成成分的[12]、基于奇異值分解的[28]等。
將時間序列數(shù)據(jù)轉(zhuǎn)化為復(fù)雜網(wǎng)絡(luò)方法,再使用復(fù)雜網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)特征來表示原始時間序列數(shù)據(jù)也是目前較為常用的一種時間序列數(shù)據(jù)特征表示方法,通常包括基于可視圖、基于相空間重構(gòu)法、基于遞歸法和基于符號模式等建網(wǎng)方法[29]。特別地,可視圖可以將周期時間序列、隨機時間序列和分形時間序列分別轉(zhuǎn)化為規(guī)則網(wǎng)絡(luò)、隨機網(wǎng)絡(luò)和無標(biāo)度網(wǎng),其拓?fù)浣Y(jié)構(gòu)能夠較好地反映時間序列的數(shù)據(jù)特征。若時間序列中兩個數(shù)據(jù)所表示的直方條能夠畫一條不與任何中間直方條相交的直線,則此直方條組所對應(yīng)的數(shù)據(jù)組之間可以形成網(wǎng)絡(luò)連邊,即:
基于數(shù)據(jù)降維和特征表示的時間序列聚類主要從基于形態(tài)的、基于特征的和基于模式的等方面來研究?;谛螒B(tài)的時間序列聚類[30]主要從數(shù)據(jù)形態(tài)變化的角度來匹配序列之間的相似性,包括同步形態(tài)和異步形態(tài),進而聚類算法可將具有相似性形態(tài)變化特征的時序?qū)ο髿w入同一簇。基于特征的時間序列聚類[31]將時間序列進行數(shù)據(jù)轉(zhuǎn)化,在低維的特征空間中進行時間序列的聚類分析?;谀J降臅r間序列聚類[10]則是將原始時間序列轉(zhuǎn)化為模型參數(shù),結(jié)合傳統(tǒng)聚類算法實現(xiàn)時間序列的模式識別。
相似性度量也是時間序列聚類算法中必不可少的中間件,基于相似性度量的聚類算法有時間序列數(shù)據(jù)劃分聚類、層次聚類和基于密度的聚類等。文獻[32]提出了時間序列相似性搜索過程中距離度量的理論基礎(chǔ),要求設(shè)計的快速近似度量函數(shù)滿足真實距離的下界性,以免相似性檢索時發(fā)生漏報情況。
目前存在各種不同的時間序列距離度量方法[19],最典型的兩種方法為歐氏距離(Euclidean distance,ED)和動態(tài)時間彎曲方法(dynamic time warping,DTW)[11,33-34]。歐氏距離通常要求兩條時間序列具有相等的長度,即對于兩條時間序列A與B,有:
如圖3 所示,歐氏距離對時間序列進行了同步硬性度量,動態(tài)時間彎曲方法根據(jù)最優(yōu)化匹配路徑,實現(xiàn)異步相似形態(tài)的度量。前者滿足三角不等式,比較適用于時間序列的相似性搜索,但其結(jié)果易受異常數(shù)據(jù)點的影響,且無法度量不等長時間序列之間的相似性;后者利用動態(tài)規(guī)劃方法從兩條時間序列中找到一條距離最優(yōu)的彎曲路徑,使具有相似形態(tài)的異步數(shù)據(jù)相互匹配,進而實現(xiàn)不等長時間序列之間的距離度量,但其平方階的時間復(fù)雜度限制了其在高維時間序列數(shù)據(jù)聚類過程中的應(yīng)用。
圖3 歐氏距離與動態(tài)時間彎曲度量
大量實驗表明,在時間序列數(shù)據(jù)聚類中,使用SBD 可以獲得比使用DTW 更好的聚類性能和效果。
另外,一些基于特征表示的距離度量方法也常用于時間序列的聚類分析,如基于多項式參數(shù)的[25]和基于主成分分析的[27]等距離度量方法在時間序列數(shù)據(jù)挖掘中起到了提升聚類效果的作用。
時間序列數(shù)據(jù)聚類主要包括層次聚類、劃分聚類、基于模型的聚類、基于密度的聚類、基于格的聚類和多步聚類等[18]。時間序列層次聚類[36]是一種具有直觀效果的聚類方法,分為基于凝聚和基于分裂的層次聚類。特別地,為了檢索特征表示或相似性度量方法的有效性,通常被用來直觀顯示基于形態(tài)的或基于特征的時間序列聚類情況。
劃分聚類[37]是時間序列聚類算法研究中最為常用的方法之一,通常借助于相似性度量函數(shù)來實現(xiàn)簇劃分,具體方法包括K-Means、K-Medoids和 FCM。例如,在時間序列SBD 距離計算中,使用K-Means 的思想來對時間序列進行快速有效地聚類,通過尋找最優(yōu)參數(shù)來達到目標(biāo)評價函數(shù)最優(yōu),即:
基于劃分的聚類方法需要事先設(shè)定聚類個數(shù),但在應(yīng)用中通常無法確定聚類個數(shù),特別是對海量高維時間序列數(shù)據(jù)來說,該參數(shù)的確定顯得更加困難。文獻[38]研究了適當(dāng)?shù)某跏贾行膶r間序列K-Means 聚類的質(zhì)量和效率有很大影響。文獻[39]認(rèn)為K-Means 和K-Medoids 與層次聚類相比,其具有較好的時間性能,比較適用于時間序列的聚類分析。與這兩種聚類相比,F(xiàn)CM 是一種基于模糊理論的軟劃分,該方法在一定程度上考慮了時間序列數(shù)據(jù)對象的不確定性問題[40]。
基于模型的聚類與其他方法不同,它假設(shè)同一簇中數(shù)據(jù)服從某種模型的數(shù)據(jù)分布,通過數(shù)據(jù)模型學(xué)習(xí)來試圖調(diào)整近似模型,使其接近數(shù)據(jù)客觀存在的真實模型[41]。目前也有一些較為成熟的方法[10],如自組織映射、多項式回歸分析、高斯混合模型、ARIMA 模型、馬爾可夫鏈和隱馬爾可夫模型等。然而,基于模型的聚類方法存在一些問題有待研究:一方面,模型需要用戶事先設(shè)定假設(shè)模型和模型參數(shù),若假設(shè)模型與真實模型相差甚遠(yuǎn),則會導(dǎo)致最終的聚類結(jié)果不準(zhǔn)確;另一方面,此類模型需要較長的計算時間,不利于高維時間序列數(shù)據(jù)和動態(tài)時間相關(guān)數(shù)據(jù)的聚類分析。
基于密度的和基于格的聚類方法[42-43]先將時間序列數(shù)據(jù)轉(zhuǎn)化為另一種數(shù)據(jù)形態(tài),使其能夠適用于傳統(tǒng)數(shù)據(jù)挖掘中的聚類算法,如DBSCAN、OPTICS、STING 和Wave Cluster 等方法。多步聚類方法[44]則是從聚類算法設(shè)計和分析的角度出發(fā),通過多種方法對時間序列數(shù)據(jù)進行分步聚類,其效果通常要優(yōu)于傳統(tǒng)基于特征表示的、基于相似性度量的和基于模型的聚類方法。
數(shù)據(jù)挖掘中的聚類算法[4]較為成熟,除了具有較為完善的理論基礎(chǔ),其在許多領(lǐng)域都有很好的應(yīng)用效果,因此,它們也可以直接或間接應(yīng)用于時間序列數(shù)據(jù)的聚類分析。然而,由于時間序列數(shù)據(jù)具有時間和變量高維性、概念漂移、隨機性和混沌現(xiàn)象等特點[29,45],需要進行數(shù)據(jù)降維、特征表示和相似性度量,也包括異常點發(fā)現(xiàn)等前期處理工作。根據(jù)傳統(tǒng)聚類算法思路設(shè)計適用于時間序列數(shù)據(jù)聚類的模型和算法,如將傳統(tǒng)聚類思路結(jié)合復(fù)雜網(wǎng)絡(luò)特征,實現(xiàn)多變量時間序列數(shù)據(jù)的聚類[46-47]。
簇原型[48]是指某一特定簇的近似代表對象,其質(zhì)量好壞直接影響某些聚類算法的分類效果,如K均值、模糊聚類和近鄰傳播聚類(AP)等算法都需要定義相應(yīng)的簇原型。在時間序列數(shù)據(jù)聚類領(lǐng)域中,簇原型大體可分為3 種,分別是簇中心代表點[49]、簇的平均序列[50]和基于局部搜索的簇原型[37]。
通過基于DTW 的距離計算來重復(fù)交替迭代計算簇中心序列和分配簇成員,實現(xiàn)時間序列數(shù)據(jù)的聚類。
如圖4 所示,圖4a 顯示了同一個簇中3 條時間序列樣本的形態(tài)波動示例,圖4b 中較粗曲線表示了DBA 方法的簇平均序列,易發(fā)現(xiàn)基于DBA的簇平均序列的形態(tài)波動與簇成員的形態(tài)波動相似?;诰植克阉鞯拇卦蚚37]是一種在簇類中進行局部搜索找出簇原型的方法,與基于簇中心代表點的和基于簇平均序列的K中心點聚類算法相比,基于局部搜索簇原型的K中心聚類具有較好的挖掘效果。
圖4 簇平均代表序列
時間序列數(shù)據(jù)挖掘中的聚類研究成果主要應(yīng)用于兩個方面:1)將聚類算法作為其他時間序列數(shù)據(jù)挖掘技術(shù)和方法的子程序或中間件,其聚類結(jié)果可以輔助其他數(shù)據(jù)分析任務(wù)的順利進行并提高數(shù)據(jù)挖掘任務(wù)的效果[51-52];2)聚類算法可被運用在具體的實際生產(chǎn)和生活領(lǐng)域中,如生物信息、天體氣象、經(jīng)濟金融、醫(yī)療衛(wèi)生、語音識別和工業(yè)工程等[53-57],根據(jù)具體背景知識來發(fā)現(xiàn)相關(guān)行業(yè)時間序列數(shù)據(jù)中的興趣模式、異常模式和頻繁模式。
在工業(yè)工程領(lǐng)域中,文獻[58]提出了一種基于灰色關(guān)聯(lián)聚類的特征提取算法,利用灰色關(guān)聯(lián)度作為動態(tài)聚類歐氏距離的思想,構(gòu)建以某型渦扇發(fā)動機為例的灰色關(guān)聯(lián)聚類特征提取模型,以便滿足故障診斷要求。特別地,在金融數(shù)據(jù)分析應(yīng)用領(lǐng)域中,通過時間序列聚類分析方法可以發(fā)現(xiàn)股票市場中相似的股票群,結(jié)合滑窗法可以實現(xiàn)基于動態(tài)衍化聚類的股票識別。金融市場被眾多因素共同影響,不僅有宏觀的政治、經(jīng)濟等環(huán)境因素,還有微觀的企業(yè)運作方式、人們的心理作用等因素。通過對金融時間序列進行聚類,可以挖掘出金融市場的內(nèi)在機制,對揭示數(shù)據(jù)背后的發(fā)展變化規(guī)律有重要作用。文獻[59]提出一種基于影響力計算模型的股票網(wǎng)絡(luò)中心節(jié)點層次聚類算法,利用社區(qū)發(fā)現(xiàn)方法對股票時間序列進行聚類。文獻[60]提出一種基于支持向量回歸和自組織神經(jīng)網(wǎng)絡(luò)的聚類方法,提取投資組合選擇方法,實現(xiàn)了金融股票價格和波動率的預(yù)測分析,對印度國家證券交易所102 支股票進行最優(yōu)投資組合,具有低風(fēng)險高盈利的特征。文獻[61]針對金融股價時間序列數(shù)據(jù)的時間屬性變量高維性,提出利用三階段聚類模型,對股票進行增量式聚類,進而發(fā)現(xiàn)上市公司之間的聯(lián)動關(guān)系。
時間序列數(shù)據(jù)聚類研究主要集中于整體序列數(shù)據(jù)對象,在數(shù)據(jù)降維與特征表示、相似性度量、聚類模型與算法、簇原型和應(yīng)用等方法上取得了一定的學(xué)術(shù)進展,擁有應(yīng)用價值,但仍存在一些問題有待探討,以便系統(tǒng)性地研究和提高聚類分析在時間序列數(shù)據(jù)資料中的挖掘質(zhì)量和應(yīng)用性能。
1) 傳統(tǒng)時間序列聚類模型與算法主要以一元時間序列數(shù)據(jù)為研究對象,通過數(shù)據(jù)轉(zhuǎn)換、特征表示或模型參數(shù)實現(xiàn)時間維度的降維,利用數(shù)據(jù)挖掘中經(jīng)典聚類方法進行分析,缺少兼顧時間序列數(shù)據(jù)時間維度長、屬性變量多和數(shù)據(jù)體量大等高維性的問題。特別地,數(shù)據(jù)體量大造成算法在運行期間需要消耗巨大的內(nèi)存空間,使得以靜態(tài)處理方式為基礎(chǔ)的傳統(tǒng)聚類算法在此類高維時間序列數(shù)據(jù)集中無法得到有效地運行。因此,根據(jù)高維時間序列數(shù)據(jù)自身的特點,需要研究適用于高維時間序列數(shù)據(jù)的實時、動態(tài)或者增量運行的聚類算法。
2) 基于原始數(shù)據(jù)的時間序列距離度量通常需要較大的時間復(fù)雜度和空間復(fù)雜度,并且大部分距離度量方法對數(shù)據(jù)中的扭曲數(shù)據(jù)較為敏感,使其在計算過程中無法獲得直觀的度量效果。數(shù)據(jù)降維后的特征表示在一定程度上能夠改善此種境況,降低了聚類算法和模型的復(fù)雜性,但特征表示對高維原始時間序列數(shù)據(jù)的精確定位難以實現(xiàn),最終影響聚類模型與算法的精度。針對基于特征表示和相似性度量方法的高維時間序列數(shù)據(jù)聚類模型與算法研究,需要改變傳統(tǒng)方法僅對高維數(shù)據(jù)進行某個特定維度上的數(shù)據(jù)降維和特征表示,制定適用于特征表示后由于信息丟失而造成距離度量不準(zhǔn)確的情況,進而提升相關(guān)模型與算法的聚類效果。
3) 動態(tài)時間彎曲是時間序列數(shù)據(jù)挖掘領(lǐng)域中最為常用的相似性度量方法,它能有效地匹配時間序列數(shù)據(jù)中的近似形態(tài)趨勢,對時間點異常數(shù)據(jù)不敏感,能夠度量不等長時間序列之間的相似性,具有較好的度量質(zhì)量和較高的準(zhǔn)確性等優(yōu)勢。在高維時間序列數(shù)據(jù)庫中,過長的時間維度、過多的屬性變量和過大的數(shù)據(jù)體量造成動態(tài)時間彎曲方法容易平滑時間序列局部形態(tài)的特點,不能有效反映高維時間序列數(shù)據(jù)對象之間的形態(tài)變化關(guān)系,無法實現(xiàn)真實距離的有效度量,進而影響基于動態(tài)時間彎曲的高維時間序列聚類效果。如何提高動態(tài)時間彎曲方法的精確度量和計算性能是高維時間序列聚類研究中需要解決的問題之一。
4) 關(guān)于時間序列聚類的研究目前大多數(shù)集中在提升特征表示、距離度量和簇原型的質(zhì)量或效率上,對于聚類本身的設(shè)計與研究相對不足。雖然已有學(xué)者利用多步聚類方法在一定程度上改進了傳統(tǒng)聚類算法在時間序列數(shù)據(jù)中的分析效果,但也存在步驟繁瑣、聚類結(jié)果易受參數(shù)設(shè)置影響、計算性能較低等問題。同時,由于時間序列數(shù)據(jù)高維性和其他特征因素的影響,聚類方法在相關(guān)應(yīng)用中大多數(shù)局限于變量屬性少、時間維度短和數(shù)據(jù)量少等對象的分析,較少考慮不確定性和高噪聲等因素的影響,使得聚類分析理論和方法在實際應(yīng)用中具有局限性。為此,通過總結(jié)現(xiàn)有的時間序列聚類算法優(yōu)缺點,結(jié)合具體問題中的數(shù)據(jù)特征,在考慮多種特征因素影響的情況下來構(gòu)建符合高維時間序列數(shù)據(jù)的高性能聚類算法值得深入研究。
本文梳理了目前常用的時序聚類算法,綜述了該領(lǐng)域中的相關(guān)研究成果,歸納了已有研究存在的不足,提出了一些值得研究的方向。研究發(fā)現(xiàn),時間序列數(shù)據(jù)挖掘中聚類模型與算法的研究順應(yīng)了大數(shù)據(jù)時代潮流,解決了高維性給傳統(tǒng)時間序列聚類分析帶來不能快速有效挖掘的問題,提高和拓展了時間序列數(shù)據(jù)挖掘領(lǐng)域中的相關(guān)理論和方法。時間序列數(shù)據(jù)聚類研究成果能給政府部門和企業(yè)對相關(guān)事務(wù)決策提供更為完備成熟的理論基礎(chǔ)與技術(shù),以便進行更為科學(xué)合理的智能管理。