楊學(xué)軍++夏正清
作者簡介:(1971—),男,工程師,主要從事測量工程、地理信息系統(tǒng)等相關(guān)工作與研究。
摘要:當前,我省正全面推進各行業(yè)的大數(shù)據(jù)系統(tǒng)建設(shè),旨在打造西南地區(qū)大數(shù)據(jù)中心。本文在此背景下,探討了我省測繪地理信息大數(shù)據(jù)的現(xiàn)狀,簡要闡述了我省測繪地理信息大數(shù)據(jù)建設(shè)的目標和原則,并概略講述了測繪地理信息大數(shù)據(jù)系統(tǒng)的設(shè)計目標進行闡述,對該系統(tǒng)的邏輯架構(gòu)進行了討論。通過建設(shè)本省測繪地理信息大數(shù)據(jù)系統(tǒng),可為全省綜合大數(shù)據(jù)庫系統(tǒng)的建設(shè)提供技術(shù)積累和數(shù)據(jù)積累;也使我省測繪地理信息數(shù)據(jù)這一重要“金礦”得到充分的挖掘與應(yīng)用,從而也帶動了我省測繪地理信息產(chǎn)業(yè)的跨越式發(fā)展。
關(guān)鍵字:測繪地理信息 大數(shù)據(jù) 系統(tǒng)設(shè)計 大數(shù)據(jù)系統(tǒng)
中圖分類號: P208 文獻標識碼:A文章編號:1672-3791(2015)01(c)0000-00
2014年3月1日在北京中關(guān)村舉行的貴州· 北京大數(shù)據(jù)產(chǎn)業(yè)推介會上,貴州省省長陳敏爾說到:“大數(shù)據(jù)是大產(chǎn)業(yè)、大紅利、大變革、大機遇,貴州省委、省政府高度重視大數(shù)據(jù)發(fā)展,將大數(shù)據(jù)作為全省產(chǎn)業(yè)轉(zhuǎn)型升級的戰(zhàn)略重點之一,促進就業(yè)增長、形成新的經(jīng)濟增長極”[1]。中國移動、中國聯(lián)通和中國電信將投資150億元在貴安新區(qū)建立云計算基地,總規(guī)模將超過10萬個機柜、200萬臺服務(wù)器[2]。在這樣一個機遇與挑戰(zhàn)并存的時代下,作為測繪地理信息產(chǎn)業(yè)如何在大數(shù)據(jù)產(chǎn)業(yè)中發(fā)揮效益是當代測繪人應(yīng)該思考一個重要內(nèi)容。
測繪地理信息部門提供了用于各種工程建設(shè)的基礎(chǔ)資料,如1:5萬及1:1萬基礎(chǔ)地理信息數(shù)據(jù)、大比例尺地形圖;今年全省又在開展地理國情普查,這項工作將產(chǎn)生更多的數(shù)據(jù),如覆蓋全省的0.5米分辨率衛(wèi)星影像、部分地區(qū)0.2米航空影像、各行業(yè)的專題數(shù)據(jù)等。如何充分利用和挖掘這些數(shù)據(jù)是測繪地理信息部門未來發(fā)展的關(guān)鍵,今后測繪地理信息部門將在不斷更新現(xiàn)有數(shù)據(jù)的基礎(chǔ)上,加強大數(shù)據(jù)的開發(fā)與應(yīng)用。
1 測繪地理信息大數(shù)據(jù)現(xiàn)狀
1.1 大數(shù)據(jù)概念
大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法通過現(xiàn)有主流軟件工具在合理時間內(nèi)達到收集、管理、處理,并整理為幫助決策層提供積極的信息[3]。
1.2 測繪地理信息大數(shù)據(jù)來源
對于測繪地理信息大數(shù)據(jù)有以下三種來源:互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、各種測繪成果。
互聯(lián)網(wǎng)數(shù)據(jù)主要來自于數(shù)字城市項目中公眾服務(wù)平臺產(chǎn)生的各種數(shù)據(jù),如日志、留言、圖片標注等非結(jié)構(gòu)化的數(shù)據(jù);
物聯(lián)網(wǎng)主要來自于具有信息采集功能的電子設(shè)備所產(chǎn)生的數(shù)據(jù),如CORS(連續(xù)運行衛(wèi)星定位服務(wù)綜合系統(tǒng))系統(tǒng)提供的定位數(shù)據(jù)、遙感衛(wèi)星提供的影像數(shù)據(jù)、測量機器人或各類監(jiān)測設(shè)備提供的監(jiān)測數(shù)據(jù),物聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)可以是非結(jié)構(gòu)化的、也可以使半結(jié)構(gòu)化的,其數(shù)據(jù)量龐大、且其價值密度低,如何存儲和快速處理這些數(shù)據(jù)是目前面臨的挑戰(zhàn);
各種測繪成果主要指基礎(chǔ)測繪成果和其它測繪成果?;A(chǔ)測繪成果為1:5萬和1:1萬的3D產(chǎn)品(即DOM、DEM、DLG),這是測繪地理信息管理部門最為重要,也是較難獲取的數(shù)據(jù),這些數(shù)據(jù)大都為結(jié)構(gòu)化的數(shù)據(jù),隨著更新周期的頻繁其數(shù)據(jù)量也在不斷增大。貴州省現(xiàn)有6000余幅1萬圖幅和400余幅5萬圖幅,按照每幅3D產(chǎn)品數(shù)據(jù)量平均200MB來計算,現(xiàn)有基礎(chǔ)測繪資料也有1.3TB。其它測繪成果包括如大比例尺地形圖、地理國情普查數(shù)據(jù)、地籍圖等。
隨著測繪技術(shù)手段不斷創(chuàng)新,利用高分辨率航片生產(chǎn)不同比例尺的基礎(chǔ)測繪成果已稱為必然,但這伴隨而來的是海量航片數(shù)據(jù)的存儲與快速加工,這將是測繪地理信息大數(shù)據(jù)的有一重要來源,也勢必會帶動我省測繪地理信息大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展。
1.3 測繪地理信息大數(shù)據(jù)的特征[3][4]
測繪地理信息大數(shù)據(jù)和其它大數(shù)據(jù)一樣,除具有數(shù)據(jù)量大、數(shù)據(jù)類型復(fù)雜、數(shù)據(jù)種類多等共有特性外,與其它大數(shù)據(jù)最本質(zhì)的區(qū)別就是其具有空間信息,而其它大數(shù)據(jù)僅有屬性信息,數(shù)據(jù)的處理就沒有測繪地理信息大數(shù)據(jù)那么復(fù)雜。
1.3.1 數(shù)據(jù)量大(Volume)
通過1.2中的分析可以看出,測繪地理信息大數(shù)據(jù)既有柵格數(shù)據(jù)、也有矢量數(shù)據(jù)、還有多媒體數(shù)據(jù),特別是定期或不定期的航拍形成的高分辨率航空影像,目前1000KM2的數(shù)據(jù)量就可達1TB。如定期更新,歷史數(shù)據(jù)與現(xiàn)有數(shù)據(jù)共同存儲,數(shù)據(jù)量將可達PB、甚至EB級別。
1.3.2 數(shù)據(jù)多樣化(Variety)
有以關(guān)系型數(shù)據(jù)庫存儲的數(shù)據(jù),此類數(shù)據(jù)在大數(shù)據(jù)類型中定義為結(jié)構(gòu)化數(shù)據(jù),如全國第二次土地調(diào)查數(shù)據(jù)庫、全國礦業(yè)權(quán)核查數(shù)據(jù)庫、全國地理國情普查數(shù)據(jù)庫等;有半結(jié)構(gòu)化的數(shù)據(jù),如CORS系統(tǒng)產(chǎn)生數(shù)據(jù)、基于位置的服務(wù)(LBS)產(chǎn)生的數(shù)據(jù)、各類監(jiān)測傳感器傳回的數(shù)據(jù)等;有非結(jié)構(gòu)化的數(shù)據(jù),如原始航空影像、在公眾服務(wù)系統(tǒng)中產(chǎn)生的日志、文字等。
1.3.3 數(shù)據(jù)高速更新(Velocity)
作為衛(wèi)星影像獲取平臺,QuickBird可1-6天就可更新當前地點的影像,WorldView2為1-3天;作為航空影像獲取平臺,可根據(jù)用戶需求,數(shù)小時就可更新;數(shù)據(jù)高速更新的同時勢必帶動數(shù)據(jù)的高速處理,這將與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有本質(zhì)不同。
1.3.4 低密度(Veracity)
在大量的數(shù)據(jù)中,有價值的信息是很少的,這些有用信息是通過分析處理才能發(fā)現(xiàn)的,雖然價值密度低,但其體檢的價值極高,如用衛(wèi)片進行土地執(zhí)法,一景數(shù)百平方公里的影像中僅能提供幾平方公里或更少的圖斑數(shù)據(jù)。
1.4 我省測繪地理信息大數(shù)據(jù)現(xiàn)狀
隨著數(shù)字城市在我省陸續(xù)開始建設(shè),CORS系統(tǒng)的穩(wěn)步推進,地理國情普查及監(jiān)測項目的開展,基礎(chǔ)測繪的定期更新,全省高分辨率航空影像的覆蓋,測繪地理信息大數(shù)據(jù)在我省已經(jīng)稱為重要的大數(shù)據(jù)組成部分。
現(xiàn)在我省測繪地理管理部門面臨最大的困難就是日益增長的數(shù)據(jù)量與數(shù)據(jù)處理及應(yīng)用速度跟不上的矛盾,一方面全省每天都有新的數(shù)據(jù)產(chǎn)生,另一方面我們還在使用幾年前的數(shù)據(jù)。這就是我省如今測繪地理信息大數(shù)據(jù)的現(xiàn)狀,建設(shè)本省測繪地理信息大數(shù)據(jù)系統(tǒng)既符合行業(yè)發(fā)展需求,也符合省政府將貴州省打造為全國數(shù)據(jù)中心的戰(zhàn)略目標。
2 測繪地理信息大數(shù)據(jù)系統(tǒng)設(shè)計
2.1 概念
測繪地理信息大數(shù)據(jù)系統(tǒng)就是將所有測繪地理信息大數(shù)據(jù)聚集起來,加以綜合分析和處理,挖掘出對大眾及政府關(guān)注的有價值信息,以供人們了解過去與現(xiàn)在,并能預(yù)測未來變化趨勢的系統(tǒng)。主要由以下幾個部分組成:大數(shù)據(jù)、集群計算機、分布式數(shù)據(jù)庫、分布式文件系統(tǒng)、高速網(wǎng)絡(luò)、用戶。
2.2 與現(xiàn)有系統(tǒng)的關(guān)系
現(xiàn)有系統(tǒng)指不同大數(shù)據(jù)系統(tǒng)的系統(tǒng),如OA辦公系統(tǒng)、各種管理系統(tǒng)、公眾服務(wù)平臺等。
大數(shù)據(jù)系統(tǒng)與現(xiàn)有系統(tǒng)的關(guān)系有:
1、協(xié)同關(guān)系
現(xiàn)有系統(tǒng)為大數(shù)據(jù)系統(tǒng)提供結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),沒有這些數(shù)據(jù)的支撐,大數(shù)據(jù)系統(tǒng)就是個空殼。
2、依賴關(guān)系
現(xiàn)有系統(tǒng)目前對某個小領(lǐng)域內(nèi)的數(shù)據(jù)還算得心應(yīng)手,但對大數(shù)據(jù)確是無力應(yīng)對,所以現(xiàn)有系統(tǒng)需要大數(shù)據(jù)系統(tǒng)的支持,以最大效益化地挖掘和利用各種數(shù)據(jù)。
3、并列關(guān)系
就目前而言,現(xiàn)有系統(tǒng)提供了大數(shù)據(jù)所需的各種數(shù)據(jù),大數(shù)據(jù)基于這些數(shù)據(jù)進行了有用信息的提取,兩者是并列關(guān)系,同時并存。
2.3 系統(tǒng)設(shè)計目標和原則[3]
2.3.1 系統(tǒng)設(shè)計目標
1、可以存儲海量數(shù)據(jù)
存儲海量數(shù)據(jù)主要有三個方面的內(nèi)容:首先是系統(tǒng)能夠存儲隨著時間變化不斷增長的數(shù)據(jù);其次為系統(tǒng)能夠存儲各種不同結(jié)構(gòu)、不同格式的數(shù)據(jù);最后系統(tǒng)應(yīng)具有靈活性,即既可以存儲單個很小的數(shù)據(jù),也可以存儲單個很大的數(shù)據(jù)。
2、可以進行高速處理
系統(tǒng)要保證數(shù)據(jù)量激增而不影響其處理速度,仍能夠滿足用戶對請求的響應(yīng)速度。
3、可快速開發(fā)出并行服務(wù)
系統(tǒng)應(yīng)提供并行服務(wù)的開發(fā)框架,讓開發(fā)人員能依此框架快速開發(fā)出面向大數(shù)據(jù)的程序代碼。
4、可運行在計算機集群上
這是系統(tǒng)的重要目標,為了節(jié)約成本,提高效率,系統(tǒng)可以安裝并運行在廉價的計算機上,并有管理協(xié)調(diào)數(shù)百萬臺計算機集群工作的功能。
5、有強大的空間數(shù)據(jù)處理能力
這是測繪地理信息大數(shù)據(jù)系統(tǒng)的獨有特征,系統(tǒng)能充分利用位置數(shù)據(jù)、路徑數(shù)據(jù)、屬性數(shù)據(jù)在三維空間進行分析,以為用戶提供意想不到的信息。
2.3.2 系統(tǒng)建設(shè)原則
1、實用性
實用性體現(xiàn)在以下幾個方面:一是系統(tǒng)既可以滿足幾個節(jié)點構(gòu)成的小規(guī)模集群,也可以滿足上百萬個節(jié)點組成的大規(guī)模集群;二是系統(tǒng)必須支持多種協(xié)議格式,允許用戶基于這些協(xié)議與系統(tǒng)進行交互;三是系統(tǒng)在一個節(jié)點上安裝后,可以快速將其復(fù)制到多個節(jié)點上。
2、可靠性
當核心節(jié)點出現(xiàn)故障時,系統(tǒng)能快速切換到備份節(jié)點;當計算節(jié)點出現(xiàn)故障,相應(yīng)的任務(wù)會自動分發(fā)到鄰近節(jié)點上繼續(xù)處理,而不會對數(shù)據(jù)造成任何損失。
3、安全性
數(shù)據(jù)是整個系統(tǒng)的核心,安全性主要體現(xiàn)在兩個方面,一是節(jié)點故障不能造成數(shù)據(jù)破壞和損失;二是數(shù)據(jù)自生的防護,系統(tǒng)應(yīng)有超強的防火墻,避免數(shù)據(jù)被非法獲取。
4、可擴展性
系統(tǒng)應(yīng)支持熱插拔,主控節(jié)點可隨時感知節(jié)點的增加和減少,并做出重新分發(fā)任務(wù)的工作;節(jié)點的增加和減少應(yīng)不影響系統(tǒng)的可靠性和安全性。
5、完整性
系統(tǒng)應(yīng)具有數(shù)據(jù)采集、存儲、管理、分析、顯示等全生命周期的子系統(tǒng),能讓用戶基于該系統(tǒng)完成其應(yīng)用,而不在借助別的任何軟件或系統(tǒng)。
3 測繪地理信息大數(shù)據(jù)系統(tǒng)架構(gòu)
系統(tǒng)架構(gòu)的總體思想是“分層分域,主從模式”,具體的架構(gòu)邏輯圖見圖1。
圖1 測繪地理信息大數(shù)據(jù)系統(tǒng)邏輯架構(gòu)圖
Fig1. Surveying and mapping geographic information data system logic structure diagram
3.1 外部系統(tǒng)層
該層主要由現(xiàn)有系統(tǒng)組成,該層可為數(shù)據(jù)處理層提供數(shù)據(jù)輸入,也可使用數(shù)據(jù)處理層中的數(shù)據(jù)處理子系統(tǒng)處理大數(shù)據(jù)并使用數(shù)據(jù)顯示子系統(tǒng)顯示其處理結(jié)果。
3.2 數(shù)據(jù)處理層
數(shù)據(jù)處理層作為大數(shù)據(jù)處理系統(tǒng)的窗口,可喻為大數(shù)據(jù)系統(tǒng)的感官系統(tǒng),既能接收外部系統(tǒng)層提供的各種數(shù)據(jù)并顯示,也能接收數(shù)據(jù)分系層中對大數(shù)據(jù)進行分析挖掘后的數(shù)據(jù)并顯示。數(shù)據(jù)采集系統(tǒng)完成將結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的采集,并以分布式文件管理方式和分布式數(shù)據(jù)庫管理方式進行存儲;數(shù)據(jù)處理系統(tǒng)主要完成數(shù)據(jù)格式轉(zhuǎn)換、坐標系統(tǒng)轉(zhuǎn)換等簡單數(shù)據(jù)處理,以提供統(tǒng)一的大數(shù)據(jù)處理服務(wù),如需更多的數(shù)據(jù)處理功能,可將數(shù)據(jù)傳入數(shù)據(jù)分析層中進行處理;數(shù)據(jù)顯示系統(tǒng)將數(shù)據(jù)處理系統(tǒng)的結(jié)果以頁面方式提供給外部系統(tǒng)層。
3.3 數(shù)據(jù)分析層
數(shù)據(jù)分析層是大數(shù)據(jù)處理的核心部分,可喻為大數(shù)據(jù)系統(tǒng)的大腦,它主要完成大數(shù)據(jù)的分析挖掘任務(wù),提供結(jié)果數(shù)據(jù)給數(shù)據(jù)顯示系統(tǒng)以便進行結(jié)果輸出。數(shù)據(jù)管理系統(tǒng)旨在完成結(jié)構(gòu)化數(shù)據(jù)的各種分析和挖掘任務(wù);數(shù)據(jù)分析系統(tǒng)主要完成半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的分析和挖掘任務(wù);數(shù)據(jù)計算系統(tǒng)完成網(wǎng)絡(luò)分析、空間分析、位置分析等高級分析功能。
3.4 運維管理層
該層是大數(shù)據(jù)系統(tǒng)的中樞神經(jīng),負責大數(shù)據(jù)系統(tǒng)各項任務(wù)的分配與協(xié)作,保證數(shù)據(jù)的可靠性、安全性與完整性。作業(yè)節(jié)點子系統(tǒng)是對作業(yè)的任務(wù)進行調(diào)度分配和運行狀態(tài)的管理;名稱節(jié)點子系統(tǒng)提供目錄和文件的元數(shù)據(jù)管理,是分布式文件系統(tǒng)讀寫的統(tǒng)一入口;數(shù)據(jù)庫幾點子系統(tǒng)是分布式數(shù)據(jù)庫系統(tǒng)讀寫的統(tǒng)一入口;備份節(jié)點子系統(tǒng)實現(xiàn)數(shù)據(jù)的自動備份與相關(guān)日志的生成;統(tǒng)一系統(tǒng)節(jié)點子系統(tǒng)提供各種共享信息的統(tǒng)一協(xié)同服務(wù),從而避免數(shù)據(jù)共享沖突引起的數(shù)據(jù)不一致。
4 結(jié)論
當前,我省正在大力發(fā)展大數(shù)據(jù)產(chǎn)業(yè),測繪地理信息行業(yè)也將作為全省大數(shù)據(jù)中的一小朵云納入到全省大數(shù)據(jù)的建設(shè)中,但是為了更加及時、更加有效地使用測繪地理信息現(xiàn)有的大數(shù)據(jù),建設(shè)全省測繪地理信息大數(shù)據(jù)系統(tǒng)是有必要的,與全省綜合大數(shù)據(jù)系統(tǒng)的建設(shè)并不相悖,相反可起到試驗田的作用,以此可幫助建設(shè)全省綜合大數(shù)據(jù)庫系統(tǒng)提供技術(shù)積累和數(shù)據(jù)積累;另一方面,也使我省測繪地理信息數(shù)據(jù)這一重要“金礦”得到充分的挖掘與應(yīng)用,從而也帶動了我省測繪地理信息產(chǎn)業(yè)的跨越式發(fā)展。
參考文獻:
[1] 中國日報貴州記者站. 貴州力爭成為全國大數(shù)據(jù)中心,中國日報,2014.3.3,
http://www.chinadaily.com.cn/dfpd/gz/bwzg/2014-03/03/content_17317898.htm
[2] 呂慎. 大數(shù)據(jù) 看貴州,光明日報,2014.3.1 07版
[3] 大數(shù)據(jù)技術(shù)全解 基礎(chǔ)、設(shè)計、開發(fā)與實踐[M].北京:電子工業(yè)出版社,2014
[4] 尤文辰、徐躍通等.淺析GIS大數(shù)據(jù)[J].電腦知識與技術(shù),2013(9):5399-5402
[5] 喬朝飛.大數(shù)據(jù)及其對測繪地理信息工作的啟示[J].測繪通報,2013(1):107-109
[6] 林媛媛、林川等.淺談大數(shù)據(jù)時代下的GIS發(fā)展[J].江西測繪,2013(3):15-16