王靜
摘 要:本文介紹了空間數(shù)據(jù)挖掘的概念,分析了基于GIS的空間數(shù)據(jù)挖掘的流程,詳細(xì)介紹了空間數(shù)據(jù)挖掘在GIS中的應(yīng)用和可視化方法,最后提出GIS空間數(shù)據(jù)挖掘的存在問題,闡述了技術(shù)的發(fā)展前景。
關(guān)鍵詞:GIS 空間數(shù)據(jù)挖掘 可視化
中圖分類號:P208 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2013)03(c)-0063-02
1 空間數(shù)據(jù)挖掘的概念
空間數(shù)據(jù)包括了空間屬性數(shù)據(jù)和非空間屬性數(shù)據(jù),空間屬性描述了空間拓?fù)潢P(guān)系和方位、距離等關(guān)系,空間屬性數(shù)據(jù)按照空間索引結(jié)構(gòu)存儲和查找??臻g數(shù)據(jù)挖掘(Spatial Data Mining,SDM)指的是從空間數(shù)據(jù)庫中抽取隱含的知識、空間關(guān)系或非顯式地存儲在空間數(shù)據(jù)庫中的其它模式等[1]。從空間數(shù)據(jù)中提取信息,提取的信息包含了復(fù)雜的空間關(guān)系,因此空間數(shù)據(jù)挖掘與其他數(shù)據(jù)挖掘方法上有其獨(dú)有的特點(diǎn)。空間數(shù)據(jù)挖掘需要綜合數(shù)據(jù)挖掘與空間數(shù)據(jù)庫技術(shù)??臻g數(shù)據(jù)挖掘可用于對空間數(shù)據(jù)的理解,空間關(guān)系和空間與非空間數(shù)據(jù)間關(guān)系的發(fā)現(xiàn),空間知識庫的構(gòu)造,空間數(shù)據(jù)庫的重組和空間查詢的優(yōu)化。
空間數(shù)據(jù)是地理信息系統(tǒng)的重要數(shù)據(jù),可以是地表在地理信息系統(tǒng)中的二維投影,也可以是多維的立體數(shù)據(jù)。由于雷達(dá)、衛(wèi)星、傳感器等技術(shù)的飛速發(fā)展,空間數(shù)據(jù)的數(shù)量、大小和復(fù)雜性都在快速地增加,出現(xiàn)GB,TB甚至于PB級的海量數(shù)據(jù),獲取實(shí)質(zhì)性有用的數(shù)據(jù),就需要空間數(shù)據(jù)挖掘技術(shù)。所以空間數(shù)據(jù)挖掘就是處理空間數(shù)據(jù)的技術(shù)方法,是挖掘出隱藏在空間數(shù)據(jù)庫中的非顯性知識、空間關(guān)系等。GIS從本質(zhì)說是一個空間數(shù)據(jù)管理系統(tǒng),將空間數(shù)據(jù)挖掘技術(shù)應(yīng)用于GIS,是將GIS中的數(shù)據(jù)轉(zhuǎn)化成知識的有效方法。
1989年8月,在美國底特律市召開的第一屆國際聯(lián)合人工智能學(xué)術(shù)會議上,首次出現(xiàn)了從數(shù)據(jù)庫中發(fā)現(xiàn)知識(knowledge discovery in database,KDD)的概念。1994年,在加拿大渥太華舉行的GIS國際學(xué)術(shù)會議上,李德仁院士首次提出了從GIS數(shù)據(jù)庫中發(fā)現(xiàn)知識(knowledge discovery from GIS,KDG)的概念,并系統(tǒng)分析了空間知識發(fā)現(xiàn)的特點(diǎn)和方法,認(rèn)為它能夠把GIS有限的數(shù)據(jù)變成無限的知識,使GIS成為智能化的信息系統(tǒng)。1995年,在加拿大召開的第一屆知識發(fā)現(xiàn)和數(shù)據(jù)挖掘國際學(xué)術(shù)會上。又出現(xiàn)了數(shù)據(jù)挖掘(data mining,DM),后又相繼出現(xiàn)了數(shù)據(jù)發(fā)掘、數(shù)據(jù)開采、數(shù)據(jù)采掘、知識提取、信息發(fā)現(xiàn)等。同時,李德仁院士也把KDD進(jìn)一步發(fā)展為空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn),系統(tǒng)地研究或提出了可用的理論、技術(shù)和方法,并取得了很多創(chuàng)新性成果,奠定了空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)在地球空間信息學(xué)中的學(xué)科地位和基礎(chǔ)[2]。
2 空間數(shù)據(jù)挖掘的流程
空間數(shù)據(jù)挖掘是空間數(shù)據(jù)庫中知識發(fā)現(xiàn)過程的一個基本步驟。數(shù)據(jù)挖掘步驟是通過將有趣的模式提供給用戶,或作為新的知識存放在知識庫中這種與用戶或知識庫交互的方式來進(jìn)行的知識發(fā)現(xiàn)過程的其中最重要的一步,因?yàn)樗砂l(fā)現(xiàn)隱藏的不為人知的模式。它由以下步驟組成[3]。
(1)數(shù)據(jù)清理:通過填寫空缺的值。平滑噪聲數(shù)據(jù),識別、刪除孤立點(diǎn),并“清理”不一致數(shù)據(jù)。(2)數(shù)據(jù)集成:對多種數(shù)據(jù)源進(jìn)行集成。(3)數(shù)據(jù)選擇:從數(shù)據(jù)庫中檢索與任務(wù)相關(guān)的數(shù)據(jù)。(4)數(shù)據(jù)變換:通過匯總或聚集等操作將數(shù)據(jù)變換成適合數(shù)據(jù)挖掘的形式。(5)數(shù)據(jù)挖掘:使用智能的方法來提取數(shù)據(jù)模式。先對數(shù)據(jù)挖掘的目標(biāo)和知識類型進(jìn)行確定,然后根據(jù)所需要的知識類型選擇合適的挖掘算法,最后從數(shù)據(jù)庫中按照選定的挖掘算法獲得所需的知識。(6)模式評估:通過某種興趣度量來評估真正有趣的知識模式。(7)知識表示:通過知識可視化表示技術(shù)向用戶展示挖掘的知識通過對以上過程不斷地循環(huán)操作,可以對所挖掘出來的知識進(jìn)行不斷求精和深化。
而面向GIS的空間數(shù)據(jù)挖掘的過程大致可分為:確定挖掘內(nèi)容、數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、挖掘方法選擇、過程處理、挖掘知識應(yīng)用。具體流程如圖1所示。
首先用戶提出問題,系統(tǒng)接受用戶的要求,將其轉(zhuǎn)化為GIS數(shù)據(jù)庫模塊的輸入?yún)?shù)。挖掘向?qū)Ы邮苡脩舻拿?,觸發(fā)空間數(shù)據(jù)挖掘核心模塊。用戶則根據(jù)需要選擇挖掘技術(shù),對預(yù)處理后的數(shù)據(jù)進(jìn)行挖掘。挖掘后的知識再通過提取反饋給用戶[4]。
3 空間數(shù)據(jù)挖掘在GIS中的應(yīng)用
空間數(shù)據(jù)挖掘技術(shù)與地理信息系統(tǒng)GIS的結(jié)合具有非常廣泛的應(yīng)用空間。數(shù)據(jù)挖掘與GIS集成具有三種模式:其一為松散耦合式,也稱外部空間數(shù)據(jù)挖掘模式,這種模式基本上將GIS當(dāng)作一個空間數(shù)據(jù)庫看待,在GIS環(huán)境外部借助其它軟件或計算機(jī)語言進(jìn)行空間數(shù)據(jù)挖掘,與GIS之間采用數(shù)據(jù)通訊的方式聯(lián)系。其二為嵌入式,又稱內(nèi)部空間數(shù)據(jù)挖掘模式,即在GIS中將空間數(shù)據(jù)挖掘技術(shù)融合到空間分析功能中去。第三為混合型空間模型法,是前兩種方法的結(jié)合,即盡可能利用GIS提供的功能,最大限度的減少用戶自行開發(fā)的工作量和難度,又可以保持外部空間數(shù)據(jù)挖掘模式的靈活性[5]。
利用空間數(shù)據(jù)挖掘技術(shù)可以從空間數(shù)據(jù)庫中發(fā)現(xiàn)如下幾種主要類型的知識:普遍的幾何知識、空間分布規(guī)律、空間關(guān)聯(lián)規(guī)律、空間聚類規(guī)則、空間特征規(guī)則、空間區(qū)分規(guī)則、空間演變規(guī)則、面向?qū)ο蟮摹D壳?,這些知識已比較成熟地應(yīng)用于軍事、土地、電力、電信、石油和天然氣、城市規(guī)劃、交通運(yùn)輸、環(huán)境監(jiān)測和保護(hù),110和120快速反應(yīng)系統(tǒng)等資源管理和城市管理領(lǐng)域。在市場分析、企業(yè)客戶關(guān)系管理、銀行保險、人口統(tǒng)計、房地產(chǎn)開發(fā)、個人位置服務(wù)等領(lǐng)域也正得到廣泛關(guān)注與應(yīng)用,實(shí)際上,它正在深入到人們工作和生活的各個方面。
4 基于GIS空間數(shù)據(jù)挖掘結(jié)果的可視化
空間數(shù)據(jù)挖掘是面向更具可視化要求的地理空間數(shù)據(jù)的知識發(fā)現(xiàn)過程。可視化能提供同用戶對空間目標(biāo)的心理認(rèn)知過程相適應(yīng)的信息表現(xiàn)和分析環(huán)境,可以考慮將空間數(shù)據(jù)挖掘過程置于可視化的環(huán)境之下??梢暬c空間數(shù)據(jù)挖掘的結(jié)合促使數(shù)據(jù)挖掘經(jīng)歷了一個數(shù)據(jù)可視化——挖掘算法的應(yīng)用——挖掘結(jié)構(gòu)的驗(yàn)證和可視化表達(dá)——挖掘算法的進(jìn)一步改進(jìn)和完善的循環(huán)往復(fù)的提高過程,可視化在其中扮演著重要的角色[6]。
而基于GIS空間數(shù)據(jù)挖掘的可視化主要表現(xiàn)為與GIS相關(guān)的各類地圖及其各類符號和要素。GIS平臺中常用的可視化方法主要包括。
(1)基本查詢技術(shù):包括地圖縮放、平移、視點(diǎn)選取等基本的空間查詢與選擇技術(shù)。
(2)色彩:利用人們對色彩的視覺敏感程度很高的特點(diǎn),是用色彩來反映數(shù)據(jù)的變化趨勢(如地貌中的分層設(shè)色)、突出反映某些分布規(guī)律或者數(shù)據(jù)的本身特征(不飽和數(shù)據(jù)表示不確定性)等。在交互可視化中應(yīng)該給予用戶充分的自由來選取各種色彩模式用于描述數(shù)據(jù)。用戶可以任意調(diào)整色相、亮度和飽和度等,系統(tǒng)環(huán)境也應(yīng)該提供一些缺省或者是某些比較有效的色彩模式供用戶選擇。
(3)統(tǒng)計圖技術(shù):統(tǒng)計圖是最常用的可視化技術(shù),用于顯示數(shù)據(jù)集的統(tǒng)計和發(fā)布信息,統(tǒng)計圖包括散點(diǎn)圖、箱圖、平行坐標(biāo)圖、柱狀圖、星形圖、輪廓圖。這些統(tǒng)計圖在交互可視化環(huán)境中一般同地圖和其他數(shù)據(jù)視圖相連,成為數(shù)據(jù)整體可視化的一部分,還可以使用聚焦、高亮、色彩來加強(qiáng)其可視化和交互能力。
(4)專題圖可視化技術(shù):可以通過系統(tǒng)內(nèi)置的地圖制圖知識在地圖上自動表達(dá)數(shù)據(jù)信息,這樣可以減輕用戶這方面的負(fù)擔(dān)以及避免由于地圖知識的缺乏而造成的不適當(dāng)表達(dá),以便用戶投入主要精力來進(jìn)行數(shù)據(jù)探索分析。專題圖可視化技術(shù)協(xié)助用戶交互式地探索空間數(shù)據(jù),通過一些通用的、與領(lǐng)域無關(guān)的法則的形式,自動地選擇相應(yīng)的一些表達(dá)式來說明諸如屬性數(shù)據(jù)類型、取值范圍和屬性字段之間的關(guān)系。專題圖可視化還可用于交互式的可視化數(shù)據(jù)分析,并提供多種制圖表達(dá)方法和工具以便用戶更易于表達(dá)隱含信息。
(5)其他交互技術(shù):一些特殊的交互方法,如虛擬現(xiàn)實(shí)、觸摸交互、聲音交互等。
5 基于GIS空間數(shù)據(jù)挖掘存在問題
基于GIS的數(shù)據(jù)挖掘主要是空間數(shù)據(jù)和屬性數(shù)據(jù)一體化的挖掘模式,與按傳統(tǒng)的通過查詢方式獲得的知識相比,它是一種更深層次的數(shù)據(jù)處理分析。目前在這一領(lǐng)域的研究取得了一些成功,但未來的發(fā)展中,還有很多理論和方法有待進(jìn)一步研究[7~8]。
(1)改進(jìn)挖掘的算法和效率:基于GIS數(shù)據(jù)挖掘這一塊,因?yàn)橛兴陨眍I(lǐng)域的知識,既增大了挖掘算法的搜索空間,也增加了盲目搜索的可能性。因此要結(jié)合GIS數(shù)據(jù)和領(lǐng)域本身的特點(diǎn)改進(jìn)算法,提高算法的效率以及設(shè)計出更好的相關(guān)挖掘算法。
(2)綜合式挖掘模式:在面向GIS挖掘其隱含知識規(guī)則方面,采用某種單一的方法往往挖掘出的知識甚微,因此需要通過幾種挖掘技術(shù)并行的綜合挖掘模式挖掘,才能從大量的GIS數(shù)據(jù)中挖掘出更多更有用的知識。
(3)G1S軟件、空間數(shù)據(jù)庫與數(shù)據(jù)挖掘技術(shù)的集成:當(dāng)前的GIS軟件和空間數(shù)據(jù)庫還不能有效地支持?jǐn)?shù)據(jù)挖掘,而是通過先提取相關(guān)數(shù)據(jù),再利用挖掘技術(shù)對數(shù)據(jù)進(jìn)行挖掘,這種方式可以說增大了挖掘的工作量,降低了挖掘的效率。所以未來的研究還會向?qū)崿F(xiàn)三者的集成應(yīng)用方面發(fā)展。
6 結(jié)語
空間數(shù)據(jù)挖掘技術(shù)對GIS數(shù)據(jù)進(jìn)行更高層次的分析,能從空間數(shù)據(jù)庫中抽取隱藏的、為人們感興趣的空間模式和特征、空間和非空間數(shù)據(jù)之間的概要關(guān)系以及其它概要數(shù)據(jù)特征。將可視化技術(shù)作為一件GIS數(shù)據(jù)挖掘工具,可以利用可視化技術(shù)豐富的圖形表達(dá)能力與高度的交互機(jī)制,充分調(diào)動用戶的主觀能動性,融入用戶的知識與經(jīng)驗(yàn),真正實(shí)現(xiàn)探索性數(shù)據(jù)分析。目前,有關(guān)這方面的研究才剛剛起步,對它的研究重點(diǎn)應(yīng)放在構(gòu)建空間數(shù)據(jù)挖掘的系統(tǒng)的理論框架上。如何將GIS與空間數(shù)據(jù)挖掘有效集成還有待進(jìn)一步深入研究。
參考文獻(xiàn)
[1]李德仁,王樹良,史文中,等.論空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)[J].武漢大學(xué)學(xué)報(信息科學(xué)版),2001,26(6):491-499.
[2]王樹良.基于數(shù)據(jù)場與云模型的空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)[D].武漢:武漢大學(xué),2002.
[3]王新洲.論空間數(shù)據(jù)處理與空間數(shù)據(jù)挖掘[D].武漢大學(xué)學(xué)報(信息科學(xué)版),2006,31(1).
[4]呂曹芳.基于GIS的空間數(shù)據(jù)挖掘研究進(jìn)展[J].皖西學(xué)院學(xué)報,2010,4:43-46.
[5]劉湘南,黃方,王甲,等.GIS空間分析原理與方法[M].北京:科學(xué)出版社,2005.
[6]Jiawei H,Kamber M.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.
[7]唐澤圣,孫延奎,鄧俊輝.科學(xué)計算可視化理論與應(yīng)用研究進(jìn)展[J].清華大學(xué)學(xué)報,2001,41(4,5):199-202.
[8]賈澤露,劉耀林,張彤.可視化交互空間數(shù)據(jù)挖掘技術(shù)的探討[J].測繪科學(xué),2004,25(9):34-37.