楊振凱,李 響,陳 達(dá)
(1. 信息工程大學(xué) 地理空間信息學(xué)院,河南 鄭州 450001;2. 31682部隊(duì),甘肅 蘭州 730020)
空間分析是傳統(tǒng)地理信息系統(tǒng)(Geographic Information System,GIS)的核心和靈魂。近年來(lái),由于受到不斷增長(zhǎng)的大量空間數(shù)據(jù)的驅(qū)動(dòng),從數(shù)據(jù)出發(fā)的空間數(shù)據(jù)挖掘技術(shù)、基于人工智能的空間分析技術(shù)以及時(shí)空大數(shù)據(jù)分析技術(shù)受到重視并得到了深入發(fā)展[1-2]。文獻(xiàn)[3-4]提出了全空間信息系統(tǒng)和多粒度時(shí)空對(duì)象的概念,將系統(tǒng)中的分析功能由傳統(tǒng)的空間分析擴(kuò)展到了時(shí)空大數(shù)據(jù)分析;文獻(xiàn)[5]提出了多粒度時(shí)空對(duì)象的數(shù)據(jù)描述框架,認(rèn)為全空間信息系統(tǒng)擁有更寬泛、更細(xì)化、更動(dòng)態(tài)、更多關(guān)聯(lián)的復(fù)雜時(shí)空數(shù)據(jù)。這些都為在同一系統(tǒng)中實(shí)現(xiàn)復(fù)雜的時(shí)空分析奠定了基礎(chǔ)。
聚類分析是時(shí)空數(shù)據(jù)挖掘領(lǐng)域極為重要的分析方法之一,經(jīng)歷了傳統(tǒng)聚類分析(僅考慮屬性的相似性)、空間聚類分析(考慮實(shí)體在位置上的接近或相鄰關(guān)系)及時(shí)空聚類分析(考慮時(shí)間上的臨近性以及屬性的多維特征)等發(fā)展階段。隨著數(shù)據(jù)信息種類和數(shù)量的增加以及面向?qū)ο髸r(shí)空數(shù)據(jù)模型的發(fā)展,基于時(shí)空對(duì)象的分析將成為時(shí)空數(shù)據(jù)的主要分析方式之一。文獻(xiàn)[6]認(rèn)為地理時(shí)空對(duì)象中封裝了對(duì)象的時(shí)態(tài)性、空間特性、屬性特性、相關(guān)的行為操作以及與其他對(duì)象的關(guān)系;文獻(xiàn)[5]提出多粒度時(shí)空對(duì)象具有時(shí)空參照、空間位置、空間形態(tài)、組成結(jié)構(gòu)、關(guān)聯(lián)關(guān)系、認(rèn)知能力、行為能力和屬性特征8個(gè)描述方面,并需要?jiǎng)討B(tài)描述,是對(duì)現(xiàn)實(shí)世界多粒度時(shí)空實(shí)體較為完整的描述方式。由此可見(jiàn),聚類計(jì)算應(yīng)考慮如何對(duì)時(shí)空對(duì)象的多方面特征及其變化進(jìn)行描述和度量,才能實(shí)現(xiàn)復(fù)雜而完善的聚類分析。
就目前而言,時(shí)間維、空間維和屬性維是時(shí)空數(shù)據(jù)的“三維特征”,也是時(shí)空對(duì)象最為重要的描述方面。本文從時(shí)空對(duì)象的角度,顧及時(shí)空對(duì)象的空間位置、屬性特征及其變化特點(diǎn),研究基于時(shí)空對(duì)象的聚類分析方法流程和應(yīng)用特點(diǎn)。這里所說(shuō)的時(shí)空對(duì)象,是指客觀世界存在的、具有生命周期的實(shí)體的抽象,其變化特征主要通過(guò)時(shí)間序列來(lái)體現(xiàn)。
目前空間聚類分析方法的研究相對(duì)成熟,具有比較廣泛的應(yīng)用??臻g聚類分析主要解決兩類問(wèn)題:①空間點(diǎn)實(shí)體聚類分析;②空間擴(kuò)展形態(tài)實(shí)體的聚類分析[7]。前者將空間實(shí)體簡(jiǎn)化為實(shí)體點(diǎn),是聚類分析中最為常見(jiàn)的情況;而對(duì)于實(shí)體形狀和維度不能忽略的情況,則采用第2種方法進(jìn)行分析,如面狀建筑物的聚類方法研究等。
為了度量對(duì)象之間的接近或相似程度,需要定義一定的相似性度量標(biāo)準(zhǔn)。在某些情況下,特征空間中的“距離”具有更形象的意義,因此,距離作為相異度的度量標(biāo)準(zhǔn)也被廣泛使用。
1)空間距離度量。點(diǎn)實(shí)體之間的距離計(jì)算是空間各種實(shí)體距離計(jì)算的基礎(chǔ),需要滿足非負(fù)性、對(duì)稱性和三角不等式條件。對(duì)于Rm中的兩個(gè)點(diǎn)Pi(xi1,xi2,…,xim)和Pj(xj1,xj2,…,xjm),距離按式(1)定義:
式中,根據(jù)n的不同取值可分別計(jì)算曼哈頓距離、歐氏距離、最大范數(shù)距離等。
2)專題屬性相似性度量。對(duì)于單維數(shù)值型的屬性,可以直接使用空間距離的計(jì)算方法;對(duì)于兩個(gè)包含多維專題屬性的空間實(shí)體,常用的距離度量包括切氏距離、馬氏距離、Caberra距離和平均距離等。衡量?jī)蓚€(gè)屬性向量的相近程度經(jīng)常使用相似性測(cè)度的方法,包括角度相似系數(shù)、相關(guān)系數(shù)、指數(shù)相似系數(shù)等;而對(duì)于某些特殊的屬性(如取值為布爾型),可采取匹配測(cè)度的方法。
空間聚類可以分為兩種形式:一種是依據(jù)實(shí)體間的空間距離進(jìn)行聚類,另一種則同時(shí)考慮實(shí)體間空間位置臨近與專題屬性相似。從方法上劃分,這些空間聚類算法可分為基于劃分、基于層次、基于密度、基于圖論、基于模型、基于格網(wǎng)以及混合的算法。空間聚類方法的擴(kuò)展研究方向主要包括多尺度、多形態(tài)、顧及障礙、局部密度適應(yīng)性、評(píng)價(jià)方法等方面[8-9]。
時(shí)空聚類分析是時(shí)空數(shù)據(jù)挖掘研究?jī)?nèi)容的重要組成部分,旨在從時(shí)空數(shù)據(jù)集中發(fā)現(xiàn)具有相似特征的實(shí)體或現(xiàn)象集合,在地震監(jiān)測(cè)分析、居民行為模式識(shí)別、交通通行狀況評(píng)估等方面具有重要應(yīng)用價(jià)值[10]。文獻(xiàn)[11]從時(shí)空聚類研究?jī)?nèi)容的角度,將目前的時(shí)空聚類研究?jī)?nèi)容歸為五類:時(shí)空事件、地理參考變量、地理參考時(shí)間序列、移動(dòng)物體和軌跡,并將時(shí)空聚類的框架用圖1的情況展示。其中時(shí)空事件、地理參考時(shí)間序列和軌跡具有明顯的時(shí)間變化特點(diǎn),是目前時(shí)空聚類應(yīng)用較多的領(lǐng)域。
圖1 時(shí)空聚類研究?jī)?nèi)容Fig.1 Context for ST clustering
時(shí)空事件是指在某個(gè)時(shí)間點(diǎn)、某個(gè)空間位置上發(fā)生的事件,典型的時(shí)空事件包括地震、傳染病例、戰(zhàn)爭(zhēng)等[12]。這里區(qū)分時(shí)空事件和時(shí)空對(duì)象,認(rèn)為時(shí)空事件是對(duì)時(shí)空對(duì)象某一時(shí)間段(通常是某一時(shí)刻)特殊的狀態(tài)變化和行為的描述。在基于時(shí)空事件的聚類方法中,人們并不關(guān)注參與事件的時(shí)空對(duì)象本身(如究竟是哪個(gè)人感染了疾病),或是無(wú)法描述參與事件的時(shí)空對(duì)象(如是哪些地球板塊之間運(yùn)動(dòng)形成了地震),而是對(duì)事件的位置和時(shí)間感興趣,希望通過(guò)聚類方法發(fā)現(xiàn)這些事件的某種關(guān)聯(lián)性。現(xiàn)有的時(shí)空事件聚類分析方法大致可以分為3種類型:①時(shí)空掃描統(tǒng)計(jì);②時(shí)空密度聚類;③時(shí)空混合距離[13-15]。
時(shí)空觀測(cè)變量又稱為專題屬性時(shí)間序列,主要是針對(duì)空間位置固定、專題屬性隨時(shí)間變化的時(shí)空數(shù)據(jù),將觀測(cè)屬性視為附加了空間位置和時(shí)間標(biāo)簽的時(shí)空實(shí)體,進(jìn)一步針對(duì)時(shí)空實(shí)體進(jìn)行聚類[16]。屬性分布往往和空間和時(shí)間都有一定的關(guān)聯(lián),需要考慮時(shí)空耦合性,因此該方法也稱為基于時(shí)空耦合的聚類方法。與時(shí)空事件類似,基于時(shí)空觀測(cè)變量的聚類方法也是將時(shí)空數(shù)據(jù)抽象為時(shí)空坐標(biāo)系中的一個(gè)點(diǎn)進(jìn)行聚類計(jì)算,其方法同樣分為時(shí)空掃描統(tǒng)計(jì)、時(shí)空密度以及時(shí)空混合距離3種。
軌跡聚類是時(shí)空聚類計(jì)算中極為重要的一部分,通過(guò)對(duì)各種時(shí)空軌跡數(shù)據(jù)進(jìn)行聚類分析,可以提取時(shí)空軌跡數(shù)據(jù)中的相似性并識(shí)別異常特征,有助于發(fā)現(xiàn)有意義的模式。時(shí)空軌跡是描述移動(dòng)對(duì)象運(yùn)動(dòng)時(shí)間和位置的數(shù)據(jù),其意義是連續(xù)的,但通常用一組時(shí)空點(diǎn)序列以離散的方式表示。文獻(xiàn)[17]將時(shí)空軌跡聚類方法歸納為6類:時(shí)間全區(qū)間相似的聚類方法、全區(qū)間變換對(duì)應(yīng)相似的聚類方法、多子區(qū)間對(duì)應(yīng)相似的聚類方法、單子區(qū)間對(duì)應(yīng)相似的聚類方法、單點(diǎn)對(duì)應(yīng)相似的聚類方法和無(wú)時(shí)間區(qū)間對(duì)應(yīng)相似的聚類方法。軌跡數(shù)據(jù)獲取最為便捷,數(shù)據(jù)種類多種多樣,基于軌跡數(shù)據(jù)的聚類分析應(yīng)用范圍涵蓋了人類行為、交通物流、應(yīng)急疏散管理、動(dòng)物習(xí)性和市場(chǎng)營(yíng)銷等諸多方面。
基于時(shí)空對(duì)象的聚類與傳統(tǒng)的聚類分析方法的不同表現(xiàn)在:前者是針對(duì)某個(gè)時(shí)間段或在生命周期內(nèi),研究時(shí)空對(duì)象的空間位置、多維屬性等特征的相似性,對(duì)時(shí)空對(duì)象進(jìn)行聚類計(jì)算。若只針對(duì)單一時(shí)間點(diǎn)進(jìn)行聚類處理或時(shí)空對(duì)象沒(méi)有發(fā)生任何變化,則與空間聚類方法沒(méi)有本質(zhì)區(qū)別。時(shí)空對(duì)象的聚類分析方法流程如圖2所示。
圖2 時(shí)空對(duì)象的聚類分析方法流程Fig.2 Clustering process of ST objects
在時(shí)空對(duì)象的生命周期內(nèi),空間位置和多維屬性往往隨著時(shí)間而變化,表現(xiàn)為對(duì)應(yīng)于時(shí)間節(jié)點(diǎn)的空間位置序列(軌跡)和屬性序列,統(tǒng)稱為時(shí)間序列。對(duì)于某個(gè)研究的時(shí)間段,時(shí)空對(duì)象可能始終存在,也可能由于生命周期不同而分布于不同的時(shí)間區(qū)間,但都要考慮如下問(wèn)題:
1)軌跡的相似性描述方法。軌跡表達(dá)的意義連續(xù),采樣點(diǎn)的坐標(biāo)有二維三維之分;軌跡相似性度量方法較多,目前主要采用的方法為時(shí)間全區(qū)間相似計(jì)算方法。除了軌跡間歐式距離度量方法之外,還可以采用MBR距離、DTW距離、編輯距離等。
2)多維屬性的相似性描述方法。屬性信息的多樣性決定了屬性序列的種類相對(duì)復(fù)雜。從實(shí)際意義方面,屬性變量可分為離散型和連續(xù)型變量;從取值類型方面,屬性變量可能是數(shù)值型、布爾型甚至是文本型;從維度來(lái)看,時(shí)空對(duì)象的屬性分為一元序列和多元序列。屬性時(shí)間序列相似性表達(dá)需要依據(jù)傳統(tǒng)序列挖掘中的序列相似性查找與匹配算法,確定通用的相似性計(jì)算模型。
總體來(lái)看,時(shí)間序列的相似性度量還需要考慮研究對(duì)象的時(shí)間區(qū)間長(zhǎng)度是否一致、采樣點(diǎn)間隔是否均勻、是否含有噪聲數(shù)據(jù),甚至原始數(shù)據(jù)不是序列表達(dá)形式等問(wèn)題,必要時(shí)需要對(duì)序列數(shù)據(jù)進(jìn)行重采樣處理。
基于時(shí)空對(duì)象的聚類計(jì)算主要是根據(jù)研究的時(shí)間段,建立對(duì)象間的相似度(或距離)計(jì)算模型和判別方法,選擇某種聚類方法,將所有對(duì)象劃分為不同的簇(或孤立對(duì)象),其內(nèi)容如圖3所示。
圖3 基于時(shí)空對(duì)象的聚類計(jì)算Fig.3 Clustering calculation of ST objects
1)時(shí)空對(duì)象相似度計(jì)算模型。時(shí)空對(duì)象的屬性變化特征與空間變化特征應(yīng)作為時(shí)空聚類中重要的影響因素之一。除此之外,對(duì)象本身可能存在不隨時(shí)間改變的本質(zhì)屬性,或是某些屬性達(dá)到閾值或級(jí)別特征,可作為相似度計(jì)算的先決條件。如在軌跡聚類計(jì)算中,兩條軌跡的長(zhǎng)度差異過(guò)大,可認(rèn)為不屬于同一級(jí)別而直接排除對(duì)象相似性。對(duì)于時(shí)空對(duì)象存在多個(gè)屬性時(shí)間序列的情況,還需要研究多時(shí)間序列對(duì)于聚類處理的綜合影響,如某些屬性的變化相似性對(duì)于聚類的重要性遠(yuǎn)大于其他因素,應(yīng)賦予較高的權(quán)重比。
2)時(shí)空對(duì)象的聚類方法設(shè)計(jì)。在建立時(shí)空對(duì)象之間相似度或者距離的計(jì)算模型之后,需要采用某種搜索策略對(duì)所有對(duì)象訪問(wèn),有時(shí)還需要進(jìn)行多次遍歷,從而使得某種迭代過(guò)程收斂或滿足閾值條件。聚類過(guò)程中,需要考察算法的通用性,即是否對(duì)于時(shí)空對(duì)象的絕大多數(shù)特征都可以計(jì)算;需要考慮聚類算法對(duì)于數(shù)據(jù)參與運(yùn)算順序的敏感性,即在多次重復(fù)實(shí)驗(yàn)中以不同的順序進(jìn)行計(jì)算是否能保持聚類結(jié)果的穩(wěn)定性;需要考慮對(duì)噪聲和孤立點(diǎn)數(shù)據(jù)的處理能力,盡可能自主識(shí)別和篩選孤立點(diǎn)數(shù)據(jù)??紤]現(xiàn)實(shí)世界中時(shí)空對(duì)象的復(fù)雜性,一種聚類算法可能是不足的,必要時(shí)應(yīng)采用多種算法相結(jié)合的計(jì)算模型。
有效性評(píng)價(jià)一直是聚類分析中的難題?,F(xiàn)階段對(duì)于空間聚類,尤其是時(shí)空聚類有效性評(píng)價(jià)研究較少,以至于評(píng)價(jià)方法遠(yuǎn)遠(yuǎn)落后于聚類算法本身的發(fā)展。時(shí)空對(duì)象聚類的有效性評(píng)價(jià)主要解決兩方面的問(wèn)題:①針對(duì)某個(gè)應(yīng)用背景,選擇哪種時(shí)空對(duì)象聚類處理方法是最合適的;②針對(duì)某種時(shí)空對(duì)象聚類算法,選擇怎樣的參數(shù)配置是合適的。聚類結(jié)果的定量評(píng)價(jià)將為用戶選擇方法和調(diào)整參數(shù)提供重要的依據(jù)。
衡量時(shí)空對(duì)象聚類方法的標(biāo)準(zhǔn)體現(xiàn)在兩方面:一是準(zhǔn)確性,主要通過(guò)各類有效性評(píng)價(jià)指標(biāo),通過(guò)對(duì)聚類結(jié)果生成簇的分離程度和緊密程度進(jìn)行計(jì)算得出;二是算法效率,主要通過(guò)理論上的算法復(fù)雜度和實(shí)際執(zhí)行情況進(jìn)行判斷。已有的空間聚類評(píng)價(jià)方法可以為時(shí)空對(duì)象聚類評(píng)價(jià)方法提供借鑒和參考,如相對(duì)評(píng)價(jià)法中的DUNN指數(shù)、DB指數(shù)、SD指數(shù)等。
1)聚類分析考慮時(shí)空對(duì)象的“三維特征”,分析內(nèi)容更為全面。與此相比,現(xiàn)有的時(shí)空聚類方法在分析的內(nèi)容方面存在一定不足。如軌跡聚類只關(guān)注于移動(dòng)物體隨著時(shí)間的空間位置移動(dòng),缺乏對(duì)于多維屬性信息的描述;而基于觀測(cè)變量的聚類則主要針對(duì)于空間位置固定而屬性信息變化的問(wèn)題進(jìn)行研究。事實(shí)上,這些都可以看作時(shí)空聚類分析中的特殊情況;對(duì)于地理空間中既具有屬性變化特征又具有位置變化特征的實(shí)體來(lái)說(shuō),上述聚類方法還不能適用。
2)基于對(duì)象進(jìn)行聚類分析,更符合人們對(duì)于世界的認(rèn)知規(guī)律。在多粒度時(shí)空對(duì)象的描述模型中,多維屬性特征和空間位置都是其中的一部分且需要?jiǎng)討B(tài)描述;由于目前基于地圖模型的傳統(tǒng)GIS數(shù)據(jù)描述能力有限,導(dǎo)致許多觀測(cè)數(shù)據(jù)無(wú)法形成對(duì)象化的描述與分析。如在基于觀測(cè)變量的時(shí)空聚類中,往往是以某個(gè)時(shí)刻某個(gè)觀測(cè)地點(diǎn)的屬性作為實(shí)體點(diǎn)進(jìn)行聚類運(yùn)算,屬性維擴(kuò)展性差,缺少對(duì)于時(shí)間段內(nèi)對(duì)象的變化特征描述,割裂了對(duì)象的完整性。
1)傳統(tǒng)地理分析應(yīng)用,以臺(tái)風(fēng)運(yùn)動(dòng)為例。西北太平洋地區(qū),尤其是東北亞地區(qū),臺(tái)風(fēng)災(zāi)害多發(fā),這些地區(qū)的臺(tái)風(fēng)運(yùn)動(dòng)特點(diǎn)對(duì)社會(huì)經(jīng)濟(jì)發(fā)展帶來(lái)深刻的影響。臺(tái)風(fēng)具有明顯的生命周期特征,在其生命周期內(nèi)軌跡和屬性都有一定的變化。臺(tái)風(fēng)的變化屬性主要包括移動(dòng)速度、中心風(fēng)速、氣壓等,其等級(jí)可作為聚類分析的先決條件。通過(guò)對(duì)軌跡和屬性綜合信息的相似性比較和對(duì)象聚類,可以對(duì)臺(tái)風(fēng)活動(dòng)進(jìn)行更準(zhǔn)確的認(rèn)識(shí)和分類,甚至輔助預(yù)測(cè)臺(tái)風(fēng)的運(yùn)動(dòng)特征。
2)其他領(lǐng)域分析應(yīng)用,以體育運(yùn)動(dòng)為例。隨著人們對(duì)于運(yùn)動(dòng)和健康的關(guān)注持續(xù)增加,各種運(yùn)動(dòng)記錄方法、儀器和數(shù)據(jù)也不斷產(chǎn)生。Sport GIS是GIS應(yīng)用從宏觀空間擴(kuò)展至微觀空間的發(fā)展方向之一,用于體育訓(xùn)練和運(yùn)動(dòng)員狀態(tài)分析。如根據(jù)記錄的足球或籃球運(yùn)動(dòng)員在球場(chǎng)上的活動(dòng)軌跡,以及移動(dòng)速度、心率等狀態(tài)信息的變化,通過(guò)聚類分析研究某個(gè)運(yùn)動(dòng)員頻繁出現(xiàn)的運(yùn)動(dòng)狀態(tài),或根據(jù)不同運(yùn)動(dòng)員的數(shù)據(jù)研究相似的活動(dòng)特征,這些都將為分析運(yùn)動(dòng)員的身體狀況、合理制定訓(xùn)練比賽計(jì)劃提供依據(jù)。
本文針對(duì)時(shí)空數(shù)據(jù)的時(shí)間維、空間維和屬性維特征,總結(jié)并分析了空間聚類和時(shí)空聚類的研究現(xiàn)狀,提出了基于時(shí)空對(duì)象的聚類方法的主要流程和應(yīng)用特點(diǎn)。以多粒度時(shí)空對(duì)象對(duì)現(xiàn)實(shí)世界進(jìn)行抽象和建模是全空間信息系統(tǒng)的基本特征,對(duì)象化的管理和分析代表了新一代空間信息系統(tǒng)的應(yīng)用需求方向。多粒度時(shí)空對(duì)象包含了豐富的特征描述信息,如何對(duì)形態(tài)、組成結(jié)構(gòu)等方面加入聚類的相似性計(jì)算方法將是今后時(shí)空對(duì)象聚類的拓展研究方向。