唐忠立 張宏奎 湯 鑫 王 倩
(長沙理工大學 交通運輸工程學院, 湖南 長沙 410114)
用戶生成內容(User Generated Content)是Web 2.0時代的顯著特征之一[1]。隨著智能手機、相機以及平板電腦等支持全球定位系統(tǒng)(Global Positioning System,GPS)芯片設備的普及,大眾獲取地理信息的能力持續(xù)增強,越來越多的用戶以高分辨率遙感影像和GPS軌跡為基礎,利用Web 2.0創(chuàng)建豐富的矢量地理信息。這一新趨勢在“志愿者地理信息”(Volunteered Geographical Information,VGI)[2]或“眾包地理數據”(Crowd-sourced Geodata)[3]的普及下日趨流行。由于眾源數據具有免費共享、覆蓋面積廣、準實時更新等特點,彌補了傳統(tǒng)地理信息更新遲緩等問題[4-5]。當前,自發(fā)地理信息已廣泛應用于應急制圖、災后救援、旅游服務等領域[6-10]。
開放街道地圖(OpenStreetMap,OSM)被認為是最成功、最受歡迎的志愿者地理信息項目之一[4,6-7],在Web 2.0環(huán)境下,群體協(xié)作已經成為一種新的模式,利用大眾的參與來高效地完成傳統(tǒng)上由少數專業(yè)人員承擔的任務。目前,雅虎地圖、Bing Map等均為其提供了影像數據支持。OSM數據由大眾自發(fā)標報并維護,形成了一種由大眾發(fā)起的“創(chuàng)建-瀏覽-更新”數據管理模式,也正是這種自發(fā)性不可避免地導致了OSM的數據質量問題,例如,用戶基于已有版本新建新版本數據造成數據冗余問題,嚴重影響其數據的深化應用。因此,相對于專業(yè)數據而言,OSM的數據具有質量各異、覆蓋不均勻、缺少統(tǒng)一規(guī)范、冗余而不完整、隱私和安全難以管控等缺點[2,11-13]。建筑物數據在矢量數據運用中具有極大影響力,OSM建筑物數據的冗余直接影響其應用,因而建筑物面目標冗余清理必不可少。
當前學界對OSM冗余數據清理的研究甚少,李德仁等認為垃圾信息及惡意內容的鑒別與清除、重復內容及數據冗余的檢測與清理、涉及隱私與秘密等內容的處理是數據清理的主要對象[14]。QIAN等提出在添加增量數據時通過拓撲一致性篩選出拓撲沖突數據,利用空間聚類算法清理重復數據[15],采用人工交互方式管理數據的屬性信息,但并未進一步實現具體的清理算法。NEIS等以維基百科中用戶標注的屬性信息作為參考基準,根據志愿者在地圖上注釋的數量對用戶信譽進行評估,在此基礎上制定多種規(guī)則對數據進行檢測與篩選,并開發(fā)了基于規(guī)則的OSM惡意破壞數據自動檢測系統(tǒng)[16],但其忽略了空間數據的幾何特性。MUMMIDI等提出了從在線用戶提供的地圖注釋中提取、清理興趣點(Point Of Interest,POI)的方法[17],該方法針對用戶貢獻的信息內容各異的問題,從志愿者在地圖注釋的詳細信息中鑒別有效的地名,并提取作為興趣點對空間數據進行清理,但該方法未顧及空間數據的幾何因素。此外,Open Watchlist和OSM Mapper兩款工具也是對OSM數據管控的有效手段,均使用簡易信息聚合 (Really Simple Syndication,RSS)通知志愿者指定區(qū)域內的信息變化,但無法進一步識別重復、虛假及低質量等數據。雖然OSM已包含部分質量保證及驗證方法,但僅向用戶反饋目標重復標報等信息,并無實際處理措施。可見,OSM數據冗余問題已引起學者關注。
為此,本文針對OSM建筑物冗余的問題,在自發(fā)地理信息點、線、面數據的檢測與合并、篩選與清理等相關研究的基礎上,提出了一種基于層次規(guī)則的OSM建筑物面目標冗余清理模型:該模型首先采用層次遞進的方式對OSM建筑物數據進行冗余識別,并依據拓撲模型進行冗余分類,將分類后的冗余數據通過層次規(guī)則進行清理,再將清理后的數據重復2次冗余識別及清理的流程,最后采用OSM長沙市區(qū)建筑物冗余數據進行實驗分析。
由于大眾對地理對象的認知與標報目的均不相同,在OSM上的貢獻行為很大程度取決于用戶習慣與喜好,故貢獻者在添加、修改、刪除等行為上也不相同。概括而言,OSM數據存在以下問題較為突出:(1)貢獻者對地理空間對象認知經驗相異,對現存目標進行新建操作;(2)相同用戶貢獻連續(xù)版本;(3)有意的破壞行為。圖1所示的“東成大廈”及“體育藝術館”即為OSM平臺志愿者編輯導致的冗余數據。
圖1 OSM平臺冗余數據示例
針對OSM建筑物數據的特點及存在的問題,借助OSM錯誤數據系統(tǒng)篩選規(guī)則[16],綜合考慮建筑物的幾何特征及屬性特征,構建了一套由冗余識別、分類及層次規(guī)則清理組合而成體系,進而提出基于層次規(guī)則的OSM建筑物面目標冗余清理模型。首先該模型根據拓撲關系模型識別存在拓撲沖突的面目標,然后計算拓撲沖突面目標間的面積重疊率,精確識別建筑物冗余,并按拓撲沖突類型將建筑物冗余分類;其次,選取屬性信息完整性、均值面積、閾值面積、面積差、規(guī)則角比差、不規(guī)則角比差、不規(guī)則角差、斜率符合值及綜合值等9項指標對不同類型的建筑物冗余構建相應的層次規(guī)則,并依據層次規(guī)則清理建筑物冗余;最后,將首次清理后的數據重復進行2次冗余識別及清理的操作。該模型從冗余識別到分類再到冗余清理的流程如圖2所示。
圖2 OSM建筑物面目標冗余數據清理流程圖
不同個體對現實世界中同一地理實體的認知差異,導致地理實體與數據項之間“一對多”的情況,即常見的重復標報問題,進而導致OSM數據冗余、不一致性、存儲空間浪費等一系列問題。因此,冗余目標清理是提升OSM數據質量的必要環(huán)節(jié),其前提是冗余識別。冗余目標在拓撲、距離等空間關系以及幾何、屬性特征等方面表現明顯,地理實體與OSM空間目標的一一映射關系使得建筑物目標及其冗余之間呈相交、包含等拓撲關系。為此,引入冗余識別所涉及的拓撲關系模型及重疊率等指標,并采取層次遞進的方式進行精確識別。
2.1.1拓撲關系模型
簡單面/面目標之間的基本拓撲關系共八種,包括相離(Disjoint)、包含(Contains)、包含于(Inside)、相等(Equal)、相接(Meet)、覆蓋于(CoveredBy)、覆蓋(Covers)、相交(Overlaps)[18],將基本拓撲關系組合可表達復合的拓撲關系。對OSM建筑物目標及其冗余而言,實際涉及的拓撲類型及組合包括包含于(Inside)、覆蓋(Co-vers)、相交(Overlaps)及復合(Complex)共4種,其中,復合型指多種拓撲關系的組合,其組合個數比例可表述為Inside∶Covers∶Overlap=NInside∶NCovers∶NOverlap,其中NInside、NCovers、NOverlap均為大于或者等于1的整數,且NInside+NCovers+NOverlap≥3。OSM建筑物目標冗余識別涉及其中4種拓撲關系,如圖3所示。
圖3 OSM建筑物面目標冗余中的四種拓撲類型
2.1.2面積重疊率
引入面積重疊率主要是定量化精確識別相交冗余,并為識別包含、覆蓋及復合冗余提供定量化依據。其計算如式(1):
(1)
式中,FA、FB和FA∩B分別表示建筑物面目標A、B以及A∩B的面積。函數Fmin取兩個建筑物面目標A和B中較小的面積值。此外,取S(A,B)最小閾值為20%[19]。
冗余識別是進行冗余清理的前提,拓撲空間表達模型是拓撲沖突檢測的基礎,面積重疊率指標是精確識別的定量化依據。故選取以上兩個指標形成一套由淺入深的層次遞進的冗余識別方法,并將其冗余數據按拓撲類型進行分類。其冗余識別流程及分類情況如下:
(1) 首先通過拓撲關系模型識別發(fā)生拓撲沖突的面目標。
(2) 然后根據式(1)計算面目標間的重疊率,精確識別冗余面目標。
(3) 最后根據圖3所示拓撲關系類型將建筑物冗余分成包含型、相交型及復合型,如圖4所示。
圖4 OSM建筑物面目標冗余類型示例
層次規(guī)則的構建是保障冗余清理的有力支撐,指標的選取是規(guī)則構建的關鍵因素。傳統(tǒng)文獻在定義數據清理指標方面不全,文中提出了8項約束指標構建層次規(guī)則,具體定義如下:
(1) 屬性信息完整性
(2)
式中,F表示屬性信息完整值,i表示第i個屬性因素(1≤i≤n,n表示屬性因素的數量),Si表示i個屬性信息的值,Si的取值為{0,1},0代表第i個屬性因素為空,1代表第i個屬性因素存在。
(2) 均值面積
(3)
式中,A為區(qū)域內建筑物平均面積,Si為第i個面目標面積,N為清理發(fā)生拓撲沖突的面目標總個數。
(3) 面積差ΔS:即包含建筑物面積S包含與被包含建筑物面積S被包含(S被包含=∑Si)。
(4) 閾值面積T:即包含建筑物面積S1與被包含面目標個數I之比。
(5) 規(guī)則角比差ΔXab及不規(guī)則角比差ΔYab:即ΔXab=Ra-Rb,ΔYab=Ia-Ib,分別設定閾值為δ及?。其中R及I計算式如下:
(4)
(5)
式中,R為規(guī)則角比值,I為不規(guī)則角比值,其中將小于78.6°設定為不規(guī)則角,將87°~93°設定為規(guī)則角,Sθ為滿足規(guī)則角的值(Sθ∈{0,1}),Sω為滿足不規(guī)則角的值(Sω∈{0,1}),L為閉合多邊形邊的數目。
(6) 不規(guī)則角差Δθ:即Δθ=∑θA-∑θB,θA和θB為面目標A和B的不規(guī)則角。
(7) 斜率符合值SCv:
(6)
(7)
式中,Sv為斜率符合值;kab為多邊形臨近道路的邊的斜率值;kLH為道路臨近多邊形的線段的斜率值;S為斜率比值;n為多邊形中參與計算的總線段數。如圖5所示,圖中M、H、L表示道路折點,a~f表示多邊形折點。
圖5 斜率比值示例圖
(8) 綜合值c:根據清理需求對前7類指標按需組合,即包含型c=∑[Fi+Ri-Ii+(Sv)i]/n;相交型c=A+Sv。
根據以上8項指標構建包含型及相交型層次規(guī)則,其中包含型層次規(guī)則中以包含面目標及被包含面目標為例說明,相交型規(guī)則中以面目標A、B為例說明。規(guī)則1、規(guī)則2及規(guī)則3為包含型冗余清理的規(guī)則,層次關系為:規(guī)則1為父級規(guī)則,規(guī)則2為規(guī)則1的子級規(guī)則,規(guī)則3為規(guī)則2的子級規(guī)則;規(guī)則4、規(guī)則5及規(guī)則6為相交型冗余清理規(guī)則,層次關系為:規(guī)則4及規(guī)則5為父級規(guī)則,規(guī)則6為規(guī)則5的子級規(guī)則。各類型層次規(guī)則如下。
規(guī)則1:若S1≥2A,則清理包含面目標;若0 規(guī)則2:若{ΔS>T},則清理被包含面目標;若{ΔS≤T},則輸出至子規(guī)則3。 規(guī)則3:若{c包含>c被包含},則清理被包含面目標;反之,則清理包含面目標。 規(guī)則4:當L1=L2=4 時,若Δθ≥0,則保留A清理B;反之,則保留B清理A。 規(guī)則5:當L1,L2至少有一個不等于4時,若{δmin≤ΔXab≤δmax,-?min≤ΔYab≤-?max}或{-δmin≤ΔXab≤-δmax,?min≤ΔYab≤?max},則保留A清理B;反之,則保留B清理A;若{-δmax<ΔXab<δmin,-?max<ΔYab 規(guī)則6:若{-7°≤Δθ≤7°且cA>cB},則保留A清理B;若{-7°≤Δθ≤7°且cA 對于包含型冗余數據,將包含及被包含面目標作為兩類清理對象,該冗余類型運用其層次規(guī)則清理冗余面目標的流程如圖6所示。 圖6 包含型冗余清理流程 對于相交型冗余數據,以面目標A和B為例,若發(fā)生三個以上面目標冗余,則兩兩進行清理,該冗余類型運用其層次規(guī)則清理冗余面目標的流程如圖7所示。 圖7 相交型冗余清理流程圖 對于復合型冗余數據,可將其視為“包含型”和“相交型”冗余的組合,因此,其清理過程可按照先清理包含型冗余再清理相交型冗余順序依次進行。 為了評價冗余清理的效果,此處采用精確率P(Precision)、r召回率(Recall)及調和平均值F1對結果進行分析,各指標定義如下: (1) 精確率 (8) 式中,PT是被正確清理且已清理冗余數據的實例數;PF是被錯誤清理且已清理冗余數據的實例數。 (2) 召回率 (9) 式中,FN是數據冗余且未清理冗余數據的實例數。 (3) 調和平均值F1 (10) 式中,F1值為精確率和召回率的調和平均值。F1分數在1處達到最佳值(精確率和召回率均為1),在0處達到最差值。 為了驗證本文所提出的基于層次規(guī)則的OSM建筑物冗余清理模型的合理性,選取了OSM真實的歷史數據進行實驗。實驗采用開源免費數據庫(POSTGRES)存儲下載的OSM建筑物歷史數據,文件格式為XML,由于OSM的總數量大且數據的完整性及完善度受貢獻者活躍程度的影響較大,因此新一線城市或二線城市中建筑物冗余數量相對較多,故選取長沙市建筑物數據進行分析,如圖8所示。實驗區(qū)域內建筑物面目標數共為30 505個,發(fā)生拓撲沖突的面目標為780個,符合冗余數據樣本為722個。本文利用ArcMap 10.2及C#程序處理數據,將冗余清理實驗結果通過ArcMap 10.2顯示,由于實驗區(qū)域較大且冗余數據比較分散,故展示局部區(qū)域清理實驗結果,如圖9所示。 圖8 實驗區(qū)域示意圖 圖9 局部區(qū)域建筑物冗余清理前后對比圖 依據層次規(guī)則對三種類型的OSM建筑物冗余進行清理,實驗結果見表1。然后將清理后的目標級與天地圖上相對應目標在形狀及大小方面進行比對,將比對的結果分為符合、基本符合、一般符合、不符合及虛假數據5個等級,實驗結果見表2。最后,基于表1清理后數據統(tǒng)計,計算P、r及F1值,并評價清理效果,其結果如表3。 由表1可知,整體冗余樣本數滿足實驗要求,其中包含型及相交型樣本數更是充足。故在此基礎上,其實驗結果具有較高的可信度。PT值及PF值分別反映冗余清理的正確率及錯誤率,從表1中可看出三種類型冗余清理的正確率均達到了85%以上,且清理的錯誤率在10%左右,其中包含型及相交型的PF值更是低于10%,表明該模型清理建筑物冗余不僅能達到其數據清理的要求而且其清理的準確性高。FN值反映的是該模型冗余清理無效的實例數,從表中可看出三種冗余類型的FN值均低于6%,表明本文提出的基于層次規(guī)則的建筑物冗余清理模型能夠清理出絕大部分冗余數據,是控制管理OSM建筑物冗余數據的一種有效方法。 表1 實驗區(qū)冗余數據清理實驗結果 從表2可知,清理后三種類型目標級的比對滿足符合及基本符合的等級所占比例均在65%以上,其不符合數據及虛假數據均在10%左右,根據定性推理[20]思想,可反映出本文實驗所用的OSM建筑物數據質量較好。故此,表明該模型對于OSM建筑物冗余數據的清理有較高的可靠性。 表2 目標級冗余數據清理實驗結果 單位:個 從表3可知,三種冗余類型均有較高的P值及r值,表明該模型清理效果較好。結合式(8)及式(9)可看出,其精確率與召回率為此消彼長的關系,在提升一個指標的同時必然會使另一個指標下降。在精確率與召回率合格條件下,ΔPr(P與r之差的絕對值)越小其清理效果越佳,其中包含型及相交型的ΔPr均較小,表明該模型對包含型及相交型的清理效果較好。其復合型的ΔPr稍大,這意味著該模型對此類冗余清理效果比其他兩類冗余清理效果稍低一些,由于其實驗樣本數較少,對此類冗余清理效果評價可能會存在一定的偏差。但是,從整體上看,三類冗余的ΔPr值與F1值均處于一個較好的水平,亦表明該模型的有效性,同時,也為OSM建筑物數據的管控提供了一個新的視角。 表3 冗余清理統(tǒng)計分析 單位:% 本文針對OSM平臺上建筑物數據冗余問題,基于層次化、規(guī)則化的理論方法,結合建筑物要素的幾何、屬性、拓撲三類信息,構建了一套從冗余識別到冗余分類再到冗余清理的體系,進而提出一種基于層次規(guī)則的OSM建筑物目標冗余的清理模型。本模型對于眾源地理信息準實時的特點來說,能夠很好地解決不活躍地區(qū)建筑物冗余更新遲緩的問題,并且可以高效地清理出冗余數據,提高數據的實用性。相對于一些現有的數據清理方法,本文所提模型既考慮了專業(yè)建筑物數據管理中存在的問題,又顧及了眾源建筑物數據冗余的問題,其清理模式更加符合OSM建筑物數據管理的要求。試驗結果表明,該模型能夠準確地清理出絕大部分的冗余數據,亦證明其模型的有效性,為OSM建筑物數據清理提供了一個新的視角。 本文所提出建筑物冗余清理模型主要是針對規(guī)則建筑物冗余,尚未過多顧及不規(guī)則建筑物的幾何、屬性及拓撲等信息,且建筑物的幾何特征及拓撲特征在該模型中占比較重,若對于相應的不規(guī)則建筑物冗余的清理,該模型的清理效果相對較差,此外,貢獻者信譽度、版本號及編輯時間等因素對冗余清理也會產生一定的影響。如何實現將其他多方面的影響因素納入建筑物冗余清理模型,進一步優(yōu)化冗余清理模型,以便更加精確地清理建筑物冗余是后續(xù)工作中需要繼續(xù)探究的問題。3.2 冗余清理
3.3 冗余清理評價
4 試驗與分析
5 結束語