倪金生, 劉翔, 楊勁林, 潘健, 蘇曉玉
(1.北京航天泰坦科技股份有限公司,北京 100070; 2.中國地質大學(北京)土地科學技術學院,北京 100083)
多源動態(tài)異構空間標繪內容整合研究
倪金生1, 劉翔1, 楊勁林1, 潘健2, 蘇曉玉1
(1.北京航天泰坦科技股份有限公司,北京 100070; 2.中國地質大學(北京)土地科學技術學院,北京 100083)
為使復雜的海量多源空間標繪內容規(guī)范化、標準化,確保標繪內容的正確性,亟需對空間標繪內容進行整合。針對多源異構空間標繪信息中存在的同標異物、異標同物等情況,分析不同應用類型標繪數(shù)據(jù)的自身特點,以最大限度地消除差異性為標準,采用粗糙集理論對信息進行分類,通過建立語義本體庫進行源數(shù)據(jù)分析、提取和轉換等工作,建立數(shù)據(jù)整合標準與質量控制體系,突破數(shù)據(jù)源之間標準的差異以及異常數(shù)據(jù)的限制,實現(xiàn)了多源標繪內容的自動/半自動整合。以全球地名數(shù)據(jù)為例,隨機選取4組實驗數(shù)據(jù)進行屬性約簡和規(guī)則提取,并對相關數(shù)據(jù)進行整合。實驗結果表明,算法可行性強,數(shù)據(jù)整合流程具備高效性,能夠應用于大數(shù)據(jù)集的分類。
多源動態(tài)異構; 標繪信息; 內容整合
隨著計算機與網(wǎng)絡通信技術的飛速發(fā)展,類似于Google Earth這類可以提供標繪平臺的應用服務軟件深受大眾的歡迎。但是由于數(shù)以萬千的用戶在此類平臺上進行標繪,標繪信息類型數(shù)據(jù)量大,結構復雜,現(xiàn)勢性要求高,在一定程度上超出了人工分析的能力,因而會出現(xiàn)數(shù)據(jù)的不一致性以及對其準確性的質疑[1-2]。如何處理海量多種數(shù)據(jù)源的異構標繪信息,高效地去除同物異標、同標異物的內容,實現(xiàn)多尺度空間信息的整合,已成為當前標繪信息內容整合的研究熱點和主要技術難點。為此,針對標繪信息的內容整合研究,尋求一種能夠從繁雜的標繪信息中正確高效的去偽存真、去粗存精的技術勢在必行。
多源動態(tài)異構空間標繪內容整合的核心是從雜亂無章的數(shù)據(jù)中提取出標繪信息,通過對數(shù)據(jù)自組織模型的構建,實現(xiàn)不同數(shù)據(jù)類型(文字、圖像、聲音、視頻和三維模型等)的標繪信息按主題自動歸類; 同時針對不同標繪情況(同標同物、異標異物、同物異標和同標異物等)的自身特點,進行源數(shù)據(jù)分析、提取和轉換等工作,建立數(shù)據(jù)標繪信息整合標準與質量控制體系(容錯率和正確率),突破數(shù)據(jù)源之間標準的差異以及異常數(shù)據(jù)控制,實現(xiàn)面向應用的多尺度空間信息整合,從而保證標繪信息的唯一性與正確性。
1.1 標繪信息主題類別
標繪信息主題類別是依據(jù)人們所關心的熱點問題,參照目前國內網(wǎng)易、新浪和搜狐等門戶網(wǎng)站的分類體系,采用以主題立類為主,以學科立類為輔的分類方式,進行標繪信息的主題劃分,為后續(xù)雜亂無章的標繪信息自動分類提供依據(jù)。
參照中國網(wǎng)絡信息分類[3]編制意見,將標繪信息主題劃分為生活服務、經(jīng)濟、資源、社會文化、自然災害、政法軍事和社會安全等16大類139中類。
1.2 標繪信息自動分類
標繪信息自動分類采用粗糙集理論[4-6]。粗糙集理論是一種新的數(shù)學工具,可以分析和處理模糊和不確定性知識,它是基于對于論域中的每一個元素都能找到某些信息與之相關聯(lián)的假定之上。
在論域U范圍內,對于子集x∈U和等級關系R,可以根據(jù)R的上、下近似集的描述來劃定集合,其中Φ 為空集[7-8]。定義如下:
1)x的R-下近似集為{x∈U: [x]R?X};
2)x的R+上近似集為{x∈U: [x]R∩X≠Φ};
3)x的正域為PosR(x)=R-x。
標繪信息自動分類算法是基于概率粗糙集,把正則條件熵作為評判屬性重要程度的指標,進行屬性簡化,最后輸出相應的標繪分類準則和置信度。
具體步驟如下: ①根據(jù)設置一定條件的屬性把標繪信息樣本數(shù)據(jù)分為一組等價類,即“X1,X2,...,Xn”,每個等價類是在一個所有條件屬性上取值相同的樣本集合。同樣,我們也可以重新劃分一組數(shù)據(jù)集合,即“Y1,Y2,...,Ym”,即一個類別對應一個等價類; ②分析Xi和Yj(1≤i≤n,1≤j≤m)的情況。如果Y的集合下近似集包含X的集合,則X是一條確定性的原則,那么可信度為100%。如果Y的集合上近似集包含X的集合,則X是一條非確定性規(guī)則,那么可信度等于Xi集合中屬于Yj集合的百分比; 如果它們的交集是空的,則不產(chǎn)生相應規(guī)則; ③將帶有標繪信息的樣本數(shù)據(jù)進行歸類; ④合并相關的規(guī)則[9]。其中,規(guī)則由X?Y可信度(confident)記為Pr(X∪Y)/Pr(X)=support(X∪Y)/support(X),表示包含X的集合,同時也有可能包含Y,記作con(X?Y)。
根據(jù)不同應用類型數(shù)據(jù)(文字、圖像和聲音)的自身特點,對源數(shù)據(jù)進行分析、提取和轉換等工作,建立數(shù)據(jù)整合標準與質量控制體系(容錯率和正確率),消除數(shù)據(jù)源之間標準的差異,實現(xiàn)面向應用的多尺度空間數(shù)據(jù)整合。
2.1 標繪內容差異性消除
為了實現(xiàn)多源動態(tài)異構空間數(shù)據(jù)的無縫整合,首先必須對獲取的標繪內容進行加工與整理,爭取能夠消除標繪內容的大多數(shù)差異性,減少后期工作內容。
2.1.1 語義性差異
地理信息的多種類特點決定了其多語義性,對同一地理信息的語義也可有不同的理解,因而會造成語義分異問題(如“同標異物、同物異標”問題)。語義性差異的解決更多依賴于人工干預,通過建立數(shù)據(jù)的語義映射表來實現(xiàn)。如圖1所示通過描述和規(guī)范河流的拓撲規(guī)則和地理關聯(lián),可以讓不同部門、單位和個人之間進行語義共享[10]。
(a) 交通部門(b) 水利部門(c) 地理要素
圖1 語義差異性消除實例
Fig.1 Semantic difference to eliminate
2.1.2 時空尺度差異
空間數(shù)據(jù)的尺度是由時間尺度和空間尺度構成的: 在時間尺度上,不同時間標繪的數(shù)據(jù)在名稱與位置上均不相同; 在空間尺度上,不同用途、不同需求的標繪數(shù)據(jù)對地理信息描述的詳實度也是不同的。對于這2種尺度差異的消除,采用的原則是: 用來整合的地理數(shù)據(jù)應該具有相同的空間尺度,時間尺度的差異則根據(jù)語義定義進行選擇、過濾。
2.1.3 坐標體系差異
不同的部門標繪的數(shù)據(jù)根據(jù)各自的要求采用的坐標系不同,因此數(shù)據(jù)疊加時會帶來偏差。由于坐標系采用的橢球基準不同或者投影方式不同而無法整合到一起,甚至在相同投影方式下坐標基準、中央子午線和分帶方式等的不同也會造成坐標系之間存在很大的偏差。如果要把數(shù)據(jù)整合到一起,必須將不同坐標系的坐標通過坐標轉換模型轉換到同一橢球基準、投影方式和分帶方式的坐標系中。
2.1.4 數(shù)據(jù)精度差異
由于數(shù)據(jù)采集的來源不同,在面積、邊長和位置等方面存在差異。數(shù)據(jù)精度主要取決于圖形標繪人員的經(jīng)驗水平和坐標數(shù)據(jù)的精確度,包括坐標點后的小數(shù)位數(shù)等。以WGS84坐標系為例,地球長半徑為6 378 137 m,則僅在緯度方向上,1″對應的弧長就有幾十m。所以,對于大地經(jīng)緯度坐標,至少應精確至秒后的1位小數(shù),最好保留2位小數(shù)。在數(shù)據(jù)精度與坐標體系和空間尺度差異同時存在時,通過坐標體系和空間尺度的差異性消除進行數(shù)據(jù)精度差異性的控制。
2.1.5 同名實體表達方式差異
使用不同的標識(點、線或面)對同一種地物要素(房屋、道路和湖泊等)進行表達將會產(chǎn)生差異。整合前用同一實體表示同一地物,通過空間拓撲關系檢查進行差異性消除。
2.2 標繪內容整合
標繪內容整合主要包括: 通過建立語義本體庫(建立規(guī)則),進行數(shù)據(jù)過濾,采用容錯機制進行數(shù)據(jù)管理,最后利用拓撲關系整合進行數(shù)據(jù)位置的顯示調整,具體流程如圖2所示。
圖2 標繪內容整合流程
2.2.1 語義本體庫建立
通過對概念的嚴格定義和概念之間的關系來確定概念的精確含義,表示共同認可的、可共享的知識,從而解決語義異構的問題。在建立語義本體庫時根據(jù)建立的術語約束來建立本體中的類、屬性和個體。
采用SWEET對地理信息及知識體系進行描述,采用ISO19115/ ISO19119標準規(guī)范分解元數(shù)據(jù)以及建立空間信息服務分類體系。SWEET定義了一個基礎概念,該概念是關于地理信息科學,不同的地理信息在此基礎上共享一個語義本體。該本體含有相當數(shù)量的術語以及與之相關的精準定義,同時對概念間的關系與聯(lián)系做出精確描述。其中還有一些以OWL為主要表達形式的本體,不僅含有正交意義(物理量、時間、空間和地球領域等),而且集納了相關知識概念(事件、現(xiàn)象等)。一般意義上,研究人員將SWEET設計為高級本體,允許創(chuàng)建地理信息各個相關領域的具體應用本體,以補充完善SWEET的內涵。因此,地理語義本體在被創(chuàng)建時,可以借鑒SWEET(圖3)并進行一定程度的調整和擴充,這將減少構建具體應用本體的工作量,并降低出錯的概率。
圖3 SWEET本體及其關系
SWEET本體類結構(SWEET 1.1)在構建本體庫的基礎上,采用SWRL(semantic web rule language)語言來進行各術語間不同邏輯關系(包含關系、等價關系等)的描述,并建立語義映射表。
2.2.2 數(shù)據(jù)過濾
元數(shù)據(jù)的衡量準則是規(guī)則元數(shù)據(jù),它的作用是判斷元數(shù)據(jù)能否符合相關要求。質量控制的標準就是該數(shù)據(jù)文件對應的規(guī)則元數(shù)據(jù),數(shù)據(jù)校驗則包括對規(guī)則和規(guī)則元數(shù)據(jù)的校驗。
2.2.3 容錯管理
在數(shù)據(jù)整理中,并不是所有數(shù)據(jù)都滿足規(guī)則的,需要在確保標繪內容完整性的條件下對不正確數(shù)據(jù)進行備份、消除等處理。因此有必要建立一個容錯數(shù)據(jù)庫,用來存儲各種邏輯錯誤和格式錯誤,實現(xiàn)容錯管理。具體原則如下:
1)根據(jù)數(shù)據(jù)類型確立容錯規(guī)則。針對同一類數(shù)據(jù),設立相同容錯規(guī)則。例如國名的全稱和簡稱之間建立相等的容錯規(guī)則。
2)主要數(shù)據(jù)源優(yōu)先原則。若2個或2個以上數(shù)據(jù)源就相同數(shù)據(jù)發(fā)生沖突時,采取主要數(shù)據(jù)源優(yōu)先原則。例如稅務數(shù)據(jù)來自于國家稅務局和其他研究數(shù)據(jù)庫,則以國家稅務局為準。
3)接近數(shù)據(jù)真實性原則。對于來自不同數(shù)據(jù)源的同一數(shù)據(jù)項,當無法評定優(yōu)先級別,且沒有辦法取得真實數(shù)據(jù)的情況下,求取平均數(shù)據(jù)以盡可能接近真實數(shù)據(jù)。建立容錯規(guī)則可以在一定程度消除數(shù)據(jù)沖突,但沒有辦法完全消除。建議根據(jù)實際情況修改數(shù)據(jù)規(guī)則或進行其他處理。
4)空間拓撲關系整合??臻g拓撲關系相當復雜,主要分點與點、線與線、面與面、點與線、線與面的相離關系、鄰接關系、重合關系、包含關系和相交關系。多源空間數(shù)據(jù)的整合可能會導致空間關系不完全符合邏輯,比如房屋建到了馬路上、鐵路修到了城墻上等。必須檢查和分析空間拓撲關系,尋找邏輯有問題的數(shù)據(jù),進行糾偏,使數(shù)據(jù)在邏輯上保持相應的合理性。
基于數(shù)據(jù)獲取的途徑,動態(tài)異構空間標繪信息分別通過地圖搜索引擎,人工標繪以及網(wǎng)絡數(shù)據(jù)截取等方式獲取。其中,地圖搜索引擎通過收集互聯(lián)網(wǎng)上眾多的網(wǎng)頁并對其中每個詞進行索引,建立索引數(shù)據(jù)庫的全文搜索引擎。利用地名自動識別及空間定位技術,將具有空間屬性信息的網(wǎng)頁依據(jù)標繪信息數(shù)據(jù)庫組織規(guī)則自動入庫。全球地名數(shù)據(jù)庫(whole world geographic names database,WWGNames)即是通過地圖搜索引擎獲取的一種數(shù)據(jù),該數(shù)據(jù)以點矢量形式存儲,包括地名點名稱(中文或英文)、別名(中文或英文)、經(jīng)度、緯度、國家代碼和行政區(qū)劃編碼等屬性(圖4)。
圖4 數(shù)據(jù)表
表1 實驗結果表
實驗結果表明,聯(lián)合粗糙集算法和數(shù)據(jù)整合,隨著數(shù)據(jù)集的增加,運行時間也會隨之增加。此實驗結果符合時間復雜度分析,證實了粗糙集算法和數(shù)據(jù)整合的可行性和高效性,非常適合大數(shù)據(jù)集的分析與分類。
本文主要采用了粗糙集的分類方法,以正則條件熵為衡量屬性的標準,以語義本體庫為規(guī)則,進行數(shù)據(jù)的語義差別消除,有效地實現(xiàn)了多源異構空間標繪內容的分類。
通過建立語義本體庫、數(shù)據(jù)整合標準與質量控制體系,開展了對文字、圖像和聲音等不同類型標繪信息的自動/半自動整合研究,并實現(xiàn)了面向應用的多尺度空間數(shù)據(jù)整合。研究表明,本文的空間信息整合方法耗時少,正確率高。
但是由于所建立的語義規(guī)則和整合標準不能涵蓋全部數(shù)據(jù)類型,可能導致少部分樣本記錄無法正確整合,因此在這一方面還有待進一步研究完善。
[1] 陳靜,龔健雅,向隆剛.全球多尺度空間數(shù)據(jù)模型研究[J].地理信息世界,2011(4):24-27,43. Chen J,Gong J Y,Xiang L G.Research on global multi-scales spatial data model[J].Geomatics World,2011(4):24-27,43.
[2] 謝遠飛,劉洋,李海軍.空間數(shù)據(jù)挖掘方法綜述[J].全球定位系統(tǒng),2010,35(5):65-68,75. Xie Y F,Liu Y,Li H J.Summarization of spatial data mining methods[J].GNSS World of China,2010,35(5):65-68,75.
[3] 吳禮志.《中國網(wǎng)絡信息分類法》編制研究[D].武漢:武漢大學,2004. Wu L Z.Research on Establishing Chinese Network Information Classification[D].Wuhan:Wuhan University,2004.
[4] Pawlak Z.Rough sets[J].International Journal of Computer and Information Sciences,1982,11(5):341-356.
[5] 劉少輝,盛秋戩,吳斌,等.Rough集高效算法的研究[J].計算機學報,2003,26(5):524-529. Liu S H,Sheng Q J,Wu B,et al.Research on efficient algorithms for rough set methods[J].Chinese Journal of Computers,2003,26(5):524-529.
[6] 張文修,吳偉志,梁吉業(yè),等.粗糙集理論與方法[M].北京:科學出版社,2001. Zhang W X,Wu W Z,Liang J Y,et al.Rough Set Theory and Method[M].Beijing:Science Press,2001.
[7] 林鵬,楊波.粗糙集理論與方法[M].北京:科學出版社,2002. Lin P,Yang B.Rough Set Theory and Method[M].Beijing:Science Press,2002.
[8] 王宏磊.基于粗糙集理論的自行炮營指揮系統(tǒng)效能分析[J].艦船電子工程,2011,31(3):45-47,55. Wang H L.Operational of self-propelled howitzer ability quantification analysis based on information system of rough fair theory[J].Ship Electronic Engineering,2011,31(3):45-47,55.
[9] 魏曉云.關聯(lián)規(guī)則挖掘方法的應用研究[J].電腦與信息技術,2007,15(3):17-19,36. Wei X Y.Application of data mining in introducing talents[J].Computer and Information Technology,2007,15(3):17-19,36.
[10]陳常松,張傳霞.GIS語義共享的實質及其實現(xiàn)途徑[J].測繪科學,2000,25(1):29-33. Chen C S,Zhang C X.The essence of GIS semantics sharing and its realization[J].Science of Surveying and Mapping,2000,25(1):29-33.
(責任編輯: 陳理)
Research on content integration for multi-dynamic plotting information
NI Jinsheng1, LIU Xiang1, YANG Jinlin1, PAN Jian2, SU Xiaoyu1
(1.BeijingAerospaceTITANTechnologyCo.,Ltd.,Beijing100070,China; 2.SchoolofLandScienceandTechnology,ChinaUniversityofGeosciences(Beijing),Beijing100083,China)
In order to deal with the multi-source and multi-scale spatial data content integration and ensure the plotting correctness of the content, the authors have handled the multi-dynamic plotting information in which there exist such cases as the plotting marked with the same thing, different standards for foreign body, synonymous standard, and the same standard for the foreign body. The key problem is to analyze the characteristics of plotting information for themselves, perform source data analysis, extraction and conversion, and build data integration standards and quality control system. In addition, the authors have broken through the restriction that data are always from different sources or with outlines. As a result, the authors have achieved the application-oriented multi-scale spatial data integration.
multi-dynamic; plotting information; content integration
10.6046/gtzyyg.2017.01.31
倪金生,劉翔,楊勁林,等.多源動態(tài)異構空間標繪內容整合研究[J].國土資源遙感,2017,29(1):208-212.(Ni J S,Liu X,Yang J L,et al.Research on content integration for multi-dynamic plotting information[J].Remote Sensing for Land and Resources,2017,29(1):208-212.)
2015-09-17;
2016-01-08
國家863計劃項目“星機地綜合定量遙感系統(tǒng)與應用示范”(編號: 2013AA12A303)和 “全球海量空間信息更新關聯(lián)與主動服務系統(tǒng)”(編號: 2013AA12A402)共同資助。
倪金生(1964-),男,博士,主要從事于遙感與地理信息系統(tǒng)方面的研究。Email: jasonni@apollotg.com。
TP 311
A
1001-070X(2017)01-0208-05