国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多源異構(gòu)的城市地質(zhì)數(shù)據(jù)集成關(guān)鍵技術(shù)研究

2020-03-31 19:25付博王文文張詩檬韓征劉釗陶光毅
城市地質(zhì) 2020年1期
關(guān)鍵詞:數(shù)據(jù)集成

付博 王文文 張詩檬 韓征 劉釗 陶光毅

摘? 要:城市地質(zhì)數(shù)據(jù)存在“信息孤島”,打破“信息孤島”實現(xiàn)數(shù)據(jù)融合是城市地質(zhì)大數(shù)據(jù)建設(shè)的必然要求。因此,采用多源異構(gòu)技術(shù)實現(xiàn)數(shù)據(jù)融合是十分必要的。多源異構(gòu)數(shù)據(jù)集成方法是將結(jié)構(gòu)化、空間、非結(jié)構(gòu)化的城市地質(zhì)數(shù)據(jù)按照統(tǒng)一的分類方式、統(tǒng)一的ETL標(biāo)準(zhǔn)、統(tǒng)一的存儲模式和統(tǒng)一的調(diào)度方法在關(guān)系型、非關(guān)系型數(shù)據(jù)庫中進(jìn)行有效的存儲和管理,其中涉及的關(guān)鍵技術(shù)包括用于多來源、多格式、多用途調(diào)查監(jiān)測數(shù)據(jù)集成的結(jié)構(gòu)化數(shù)據(jù)集成方法,用于不同介質(zhì)、不同格式、不同標(biāo)準(zhǔn)成果資料集成的非結(jié)構(gòu)化數(shù)據(jù)集成方法,以及用于存儲多源異構(gòu)城市地質(zhì)數(shù)據(jù)的信息資源管理系統(tǒng)的建設(shè)方法。

關(guān)鍵詞:多源異構(gòu);城市地質(zhì);監(jiān)測預(yù)警;數(shù)據(jù)集成

Research on Key Technologies of Urban Geological Data Integration based on Multi-source Heterogeneity

FU Bo1, WANG Wenwen1, ZHANG Shimeng1, HAN Zheng1, LIU Zhao1, TAO Guangyi2

(1.Information Center of Beijing Institute of Geology, Beijing 100195;

2.Beijing Zhongkeguanggu Languang Technology Co., Beijing100041)

Abstract: Information islands of urban geological data are common. Breaking the information islands and realizing data fusion is an inevitable requirement for urban geological big data construction. Therefore, it is necessary to use multi-source heterogeneous technology to achieve data fusion. Structured, spatial, and unstructured urban geological data are processed according to a unified classification method, a unified ETL standard, a unified storage mode, and a unified scheduling method in relational and non-relational databases, so that data can be effectively managed and stored. The key technologies of multi-source heterogeneity are multi-source structured and unstructured data integration methods and the construction method of information resource management system, which are introduced in this paper.

Keywords: Multi-source heterogeneity; Urban geology; Monitoring and forecast; Data integration

0 前言

大數(shù)據(jù)具有規(guī)模大、種類多、生成速度快、價值巨大但密度低的特點。大數(shù)據(jù)應(yīng)用就是利用數(shù)據(jù)分析的方法,從大數(shù)據(jù)中挖掘有效信息,為用戶提供輔助決策,實現(xiàn)大數(shù)據(jù)價值的過程(張引等,2013)。就學(xué)術(shù)界而言,Nature早在2008年就推出了Big Data??琒cience在2011年2月推出???《Dealing with Data》(孟小峰等,2013),說明大數(shù)據(jù)對于科學(xué)研究的重要性。越來越多的國家將大數(shù)據(jù)引入到生產(chǎn)生活的各個領(lǐng)域中,如美國6個聯(lián)邦部門和機(jī)構(gòu)宣布投資2億美元,共同提高收集、儲存、保留、管理、分析和共享海量數(shù)據(jù)所需核心技術(shù);英國政府發(fā)布了對公開數(shù)據(jù)進(jìn)行研究的戰(zhàn)略決策,建立了有“英國數(shù)據(jù)銀行”之稱的data.gov.uk網(wǎng)站,進(jìn)一步支持和開發(fā)大數(shù)據(jù)技術(shù)在科技、商業(yè)、農(nóng)業(yè)等領(lǐng)域的發(fā)展。而在國內(nèi),2015年國務(wù)院發(fā)布了《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》,明確指出了大數(shù)據(jù)的重要意義,大數(shù)據(jù)成為推動經(jīng)濟(jì)轉(zhuǎn)型發(fā)展的新動力、重塑國家競爭優(yōu)勢的新機(jī)遇、提升政府治理能力的新途徑(程學(xué)旗等,2016)。

物聯(lián)網(wǎng)的概念于1999年由麻省理工學(xué)院的Auto-ID實驗室提出,將書籍、鞋、汽車部件等物體裝上微小的識別裝置,就可以時刻知道物體的位置、狀態(tài)等信息(劉強(qiáng)等,2010)。目前,就物聯(lián)網(wǎng)概念而言,目前較為公認(rèn)的物聯(lián)網(wǎng)的定義是:通過射頻識別(RFID)、紅外感應(yīng)器、全球定位系統(tǒng)、激光掃描器等信息傳感設(shè)備,按約定的協(xié)議,把任何物品與互聯(lián)網(wǎng)連接起來,進(jìn)行信息交換和通訊,以實現(xiàn)智能化識別、定位、跟蹤、監(jiān)控和管理的一種網(wǎng)絡(luò)(劉楷華等,2011)。物聯(lián)網(wǎng)是新一代信息技術(shù)的重要組成部分,也是“信息化”時代的重要發(fā)展階段(劉曉峰等,2018),物聯(lián)網(wǎng)用途廣泛,遍及智能交通、環(huán)保、公共安全、智能消防、工業(yè)監(jiān)測、衛(wèi)生醫(yī)療、食品、敵情偵查和情報搜集等多個領(lǐng)域(劉浩力等,2011)。而在地質(zhì)方面,北京市已經(jīng)建成的“突發(fā)地質(zhì)災(zāi)害監(jiān)測預(yù)警系統(tǒng)”已經(jīng)部署了各類野外傳感器一千余臺套,實現(xiàn)了對崩塌、滑坡、泥石流及采空塌陷等山區(qū)重點突發(fā)地質(zhì)災(zāi)害隱患點的監(jiān)測全覆蓋。系統(tǒng)以GPRS和北斗衛(wèi)星雙通道傳輸模式實現(xiàn)數(shù)據(jù)傳輸,通過對其形變數(shù)據(jù)的自動和人工采集、分析,實現(xiàn)對其變化趨勢的中短期預(yù)報。

云計算技術(shù)的產(chǎn)生,使數(shù)據(jù)的處理從個人計算機(jī)或服務(wù)器轉(zhuǎn)移到了因特網(wǎng),而且實現(xiàn)了超級計算,用戶只需要購買或通過因特網(wǎng)租用計算能力,不再需要購買成本昂貴的硬件系統(tǒng)(樸德慧,2015)。云計算通過將各種互聯(lián)的計算、存儲、數(shù)據(jù)、應(yīng)用等資源進(jìn)行有效整合并實現(xiàn)多層次的虛擬化與抽象,有效地將大規(guī)模的計算資源以可靠服務(wù)的形式提供給用戶,從而將用戶從復(fù)雜的底層硬件邏輯、網(wǎng)絡(luò)協(xié)議、軟件架構(gòu)中解放出來(吳吉義等,2009)。云計算在科研、醫(yī)學(xué)、天文學(xué)等各個領(lǐng)域有著廣泛的應(yīng)用前景(陳全等,2009)。而對于地質(zhì)領(lǐng)域,中國地調(diào)局建設(shè)的“地質(zhì)云”采用混合云技術(shù)架構(gòu),匯聚了大量的異構(gòu)地質(zhì)數(shù)據(jù)。系統(tǒng)完成了數(shù)十個國家地質(zhì)數(shù)據(jù)庫的云端統(tǒng)一注冊管理,并實現(xiàn)13萬余檔地質(zhì)資料的統(tǒng)一接入。地質(zhì)調(diào)查專業(yè)用戶可基于“地質(zhì)云”業(yè)務(wù)網(wǎng)獲取各類共享數(shù)據(jù),普通社會用戶可基于互聯(lián)網(wǎng)在線獲取地質(zhì)信息產(chǎn)品?!暗刭|(zhì)云”開創(chuàng)了全新的工作模式,地質(zhì)調(diào)查用戶可以隨時隨地上傳調(diào)查結(jié)果至云端,實現(xiàn)云端數(shù)據(jù)處理和儲存,也可以實時從云端獲取數(shù)據(jù)。野外作業(yè)人員可以通過地質(zhì)云實現(xiàn)各類背景數(shù)據(jù)的自動推送,地調(diào)業(yè)務(wù)管理人員可實現(xiàn)云端在線處理項目管理。

城市地質(zhì)信息化工作主要是以傳統(tǒng)的方式建立獨立的信息系統(tǒng),由于各系統(tǒng)的數(shù)據(jù)庫所采用的技術(shù)、平臺及網(wǎng)絡(luò)標(biāo)準(zhǔn)不統(tǒng)一,導(dǎo)致了大量的數(shù)據(jù)資源共通、共享與共用還存在較大的障礙,從而無法將大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)技術(shù)應(yīng)用到城市地質(zhì)的調(diào)查和監(jiān)測過程中,從而沒有“大平臺”的建設(shè)理念。

對此,未來若想要將大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)等新一代信息技術(shù)應(yīng)用到地質(zhì)領(lǐng)域,首先需要解決的問題就是多源異構(gòu)數(shù)據(jù)集成的問題,研究不同格式、不同類型、不同分類方法、不同儲存方式等多源數(shù)據(jù)的集成方法。只有打通了數(shù)據(jù)共享交互的關(guān)節(jié),才能打破“業(yè)務(wù)壁壘”消除“信息孤島”,實現(xiàn)數(shù)據(jù)資源的共享互換。

首都地質(zhì)資源環(huán)境承載力監(jiān)測預(yù)警平臺將建設(shè)成為地質(zhì)勘查管理與服務(wù)的大數(shù)據(jù)應(yīng)用平臺,總體架構(gòu)設(shè)計分為基礎(chǔ)層、數(shù)據(jù)層、支撐層、服務(wù)層、應(yīng)用層、用戶層。平臺建成后將提供預(yù)警預(yù)報、決策支持、技術(shù)會商、應(yīng)急處置等服務(wù),各類專業(yè)技術(shù)人員提供地質(zhì)數(shù)據(jù)綜合利用、地質(zhì)資料查詢檢索、三維地質(zhì)結(jié)構(gòu)瀏覽展示服務(wù),同時,向社會公眾展示各類地勘工作成果。

平臺涉及到地面沉降、地下水環(huán)境、突發(fā)地質(zhì)災(zāi)害、礦山地質(zhì)環(huán)境等各專業(yè)領(lǐng)域的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),因此需要將涉及到的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),使用多源異構(gòu)數(shù)據(jù)集成技術(shù)進(jìn)行管理和存儲。未來多源異構(gòu)技術(shù)就是首都地質(zhì)資源環(huán)境承載力監(jiān)測預(yù)警平臺的“樞軸”和“調(diào)度中心”,將使得包含地面沉降、地下水環(huán)境在內(nèi)的八大監(jiān)測預(yù)警系統(tǒng)之間的數(shù)據(jù)自由流轉(zhuǎn)、信息交換共享成為可能。

1 多源異構(gòu)數(shù)據(jù)集成的總體思路

1.1 城市地質(zhì)數(shù)據(jù)存儲管理中存在的主要問題

北京各類城市地質(zhì)數(shù)據(jù)由不同部門進(jìn)行多頭管理,多家單位所存儲的不同類型、不同格式的地質(zhì)數(shù)據(jù)無法進(jìn)行數(shù)據(jù)交互,而對于數(shù)據(jù)更為深入的綜合分析和挖掘更是遙不可及。存在的主要問題包括:

(1)在城市地質(zhì)數(shù)據(jù)標(biāo)準(zhǔn)化方面,存在空間數(shù)據(jù)格式不統(tǒng)一、結(jié)構(gòu)化數(shù)據(jù)格式不統(tǒng)一和成果資料分類標(biāo)準(zhǔn)不統(tǒng)一的問題。具體表現(xiàn)在:①空間數(shù)據(jù)具有MapGis(WT/WL/WP)、ArcGis(Shp)、AutoCAD(dwg/dxf/dwt)等格式,上述空間數(shù)據(jù)格式之間的通用性較差,成果轉(zhuǎn)換難度較大。②結(jié)構(gòu)化數(shù)據(jù)尚未建立統(tǒng)一的標(biāo)準(zhǔn),如對于突發(fā)地災(zāi)的雨量監(jiān)測數(shù)據(jù),有的是以每天的降水總量為監(jiān)測值,有的是以每分鐘的降水增量為監(jiān)測值,而對于鉆孔數(shù)據(jù)的命名方式各部門標(biāo)準(zhǔn)也不統(tǒng)一,這造成同一巖性的命名截然不同。③成果資料的分類方式千差萬別,有的單位按照數(shù)據(jù)類型分為結(jié)構(gòu)化,空間,非結(jié)構(gòu)化數(shù)據(jù);有的單位按照專業(yè)領(lǐng)域分為水文地質(zhì)、工程地質(zhì)、環(huán)境地質(zhì)類數(shù)據(jù);有的則按照匯交格式分為標(biāo)準(zhǔn)格式和非標(biāo)準(zhǔn)格式數(shù)據(jù)。

(2)在城市地質(zhì)數(shù)據(jù)的存儲介質(zhì)和管理工具方面,不同單位的管理方式也是天差地別。①當(dāng)前城市地質(zhì)的存儲介質(zhì)包括紙介質(zhì)、光盤介質(zhì)、電子介質(zhì)等,多種介質(zhì)之間很難進(jìn)行有效的數(shù)據(jù)共享。②各個城市地質(zhì)系統(tǒng)使用獨立的數(shù)據(jù)庫系統(tǒng)進(jìn)行支撐,沒有實現(xiàn)集成,獨立系統(tǒng)造成“信息孤島”現(xiàn)象嚴(yán)重。③用于存儲城市地質(zhì)數(shù)據(jù)的數(shù)據(jù)庫管理工具多種多樣。有的采用Oracle、MySQL、PG等數(shù)據(jù)庫管理系統(tǒng),有采用存儲圖件的ArcGIS、MapGIS等管理軟件,有采用存儲檔案資料的Trip、MongoDB等管理系統(tǒng),沒有形成統(tǒng)一的存儲方式。

1.2 城市地質(zhì)多源異構(gòu)數(shù)據(jù)集成技術(shù)的總體框架

城市地質(zhì)多源異構(gòu)數(shù)據(jù)集成技術(shù)的總體框架包括地質(zhì)信息資源管理系統(tǒng)、關(guān)系型與非關(guān)系型數(shù)據(jù)庫、數(shù)據(jù)的ETL和多源異構(gòu)空間數(shù)據(jù)(圖1)。

(1)多源異構(gòu)城市地質(zhì)數(shù)據(jù)的三重分類方法

所謂三重分類就是按照資料類型、所屬地質(zhì)要素、數(shù)據(jù)格式的三種分類方法將城市地質(zhì)數(shù)據(jù)切割為獨立的數(shù)據(jù)立方體的過程。首先將數(shù)據(jù)按照動態(tài)監(jiān)測類、基礎(chǔ)資料類、專業(yè)成果類和三維模型類進(jìn)行分類,此為一級分類。一級分類完成后,將根據(jù)數(shù)據(jù)所屬的“專業(yè)領(lǐng)域”“地質(zhì)要素”“地質(zhì)單元”進(jìn)行二重分類,最后,將劃分好的二級子類數(shù)據(jù)按照結(jié)構(gòu)化、空間數(shù)據(jù),非結(jié)構(gòu)化的數(shù)據(jù)再次分類,從而形成了相對獨立又緊密連接的數(shù)據(jù)立方體。

(2)關(guān)系型數(shù)據(jù)庫的架構(gòu)體系

關(guān)系型數(shù)據(jù)庫主要是通過引用元數(shù)據(jù)表和地質(zhì)要素,將包括地面沉降、地下水環(huán)境、突發(fā)地質(zhì)災(zāi)害等八大監(jiān)測預(yù)警系統(tǒng)中所有結(jié)構(gòu)化表格串聯(lián)和綁定的方式建立的體系。其物理上采用PG數(shù)據(jù)庫對178張結(jié)構(gòu)化表格進(jìn)行存儲,每一個監(jiān)測預(yù)警體系中均使用統(tǒng)一的“地質(zhì)要素統(tǒng)一編號表”進(jìn)行串聯(lián),從而將全部178張數(shù)據(jù)表進(jìn)行了有機(jī)的集成。

(3)空間數(shù)據(jù)庫的架構(gòu)體系

地質(zhì)多源空間數(shù)據(jù)包括地下水環(huán)境、地面沉降、地?zé)崤c淺層地溫能、突發(fā)地質(zhì)災(zāi)害、土壤地質(zhì)環(huán)境等業(yè)務(wù)領(lǐng)域,空間數(shù)據(jù)的主要存儲方式是采用ArcSDE+PG的架構(gòu)體系,因此涉及到ArcGIS類型的數(shù)據(jù)將采用ArcSDE的方式進(jìn)行存儲和管理,而涉及到MapGis和AutoCAD格式的數(shù)據(jù)將轉(zhuǎn)換為ArcGIS格式,或采用非結(jié)構(gòu)化數(shù)據(jù)的管理方式進(jìn)行管理。而對于全局管理而言,地質(zhì)多源空間數(shù)據(jù)集成將采用TRIP非關(guān)系型數(shù)據(jù)庫、PostgreSQL關(guān)系型數(shù)據(jù)庫和ArcGIS空間數(shù)據(jù)庫共同組成多源異構(gòu)空間數(shù)據(jù)庫。每個圖層及其元數(shù)據(jù)形成TRIP圖層數(shù)據(jù)庫中的一條記錄,圖層存儲在非結(jié)構(gòu)化字段,圖層元數(shù)據(jù)存儲在同一條記錄的結(jié)構(gòu)化字段。而圖層的元數(shù)據(jù)由TRIP數(shù)據(jù)庫導(dǎo)入PostgreSQL數(shù)據(jù)庫,圖層的空間數(shù)據(jù)導(dǎo)入ArcGIS空間數(shù)據(jù)庫。

(4)Trip非結(jié)構(gòu)化數(shù)據(jù)庫的架構(gòu)體系

非關(guān)系數(shù)據(jù)庫突破了關(guān)系型數(shù)據(jù)庫嚴(yán)格的表結(jié)構(gòu),解決了關(guān)系數(shù)據(jù)庫不易表達(dá)復(fù)雜嵌套數(shù)據(jù)結(jié)構(gòu)的問題,存儲的數(shù)據(jù)對象包括非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)。視處理數(shù)據(jù)對象而言,目前非關(guān)系型數(shù)據(jù)庫主要有鍵值存儲、列存儲、文檔型和圖形四大類。

TRIP數(shù)據(jù)庫屬于文檔型非關(guān)系數(shù)據(jù)庫,數(shù)據(jù)庫中文檔是處理信息的基本單位。數(shù)據(jù)庫存儲每個對象的所有信息,并且每一個被存儲的對象可與任一其它對象不同。TRIP數(shù)據(jù)庫由記錄組成,記錄由字段組成,字段存放數(shù)據(jù)。TRIP數(shù)據(jù)庫允許創(chuàng)建不同類型的字段,包括字符串、數(shù)值、日期、時間、文本、二進(jìn)制等字段,其中文本字段用于存儲文本中的句子和段落和從電子文件中抽取的字符,二進(jìn)制字段用于存儲任何類型的字符,包括ASCII字符,以及圖像、視頻、音頻等二進(jìn)制數(shù)據(jù),能夠滿足多種類型、多種格式的結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)及元數(shù)據(jù)存儲的需要。同一數(shù)據(jù)庫不同記錄的非結(jié)構(gòu)化數(shù)據(jù)的格式可不同,同一條記錄中多個非結(jié)構(gòu)化數(shù)據(jù)的格式可不同。一個數(shù)據(jù)庫能被分成若干個數(shù)據(jù)完整的子數(shù)據(jù)庫,若干個子數(shù)據(jù)庫可合成一個數(shù)據(jù)完整的數(shù)據(jù)庫。TRIP數(shù)據(jù)庫適用于大規(guī)模、多種類、多種格式數(shù)據(jù)的存儲、備份和管理。

TRIP數(shù)據(jù)庫能與搜索引擎集成,對結(jié)構(gòu)化數(shù)據(jù)的文字信息和非結(jié)構(gòu)化數(shù)據(jù)(電子文件)中抽取的文字信息進(jìn)行全文索引,包括:對字符串字段每個字、詞、詞干、整個字段內(nèi)容進(jìn)行索引,對文本字段每個字、詞、詞干進(jìn)行全文索引。對日期、時間和數(shù)值進(jìn)行索引,檢索范圍包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)(電子文件)中抽取的文字信息及元數(shù)據(jù)的文字信息。能夠?qū)?shù)值、日期、時間、文字信息進(jìn)行統(tǒng)計分析,借助中文自動分詞和專業(yè)中文分詞詞典大幅度提高數(shù)據(jù)的查準(zhǔn)率和檢索速度。

(5)地質(zhì)信息資源管理系統(tǒng)

信息資源管理系統(tǒng)可以管理三個不同類型的數(shù)據(jù)庫,包括空間數(shù)據(jù)庫ArcGIS,關(guān)系型數(shù)據(jù)庫PostgreSQL以及TRIP非關(guān)系型數(shù)據(jù)庫。數(shù)據(jù)導(dǎo)入時將原文件、圖件圖層、XML關(guān)聯(lián)文件 、XML數(shù)據(jù)地理信息、監(jiān)測點站井地理信息以及監(jiān)測數(shù)據(jù)導(dǎo)入非關(guān)系型數(shù)據(jù)庫中,關(guān)系型數(shù)據(jù)庫從非關(guān)系數(shù)據(jù)庫中獲取部分?jǐn)?shù)據(jù)以及關(guān)聯(lián)信息,并導(dǎo)入空間數(shù)據(jù)庫。空間數(shù)據(jù)庫通過關(guān)系型數(shù)據(jù)庫的導(dǎo)入地理信息以及關(guān)聯(lián)文件,實現(xiàn)空間數(shù)據(jù)的存儲、分析、調(diào)取與利用。

(6)元數(shù)據(jù)表功能和意義

元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù)(data about data),主要是描述數(shù)據(jù)屬性的信息,用來支持如指示存儲位置、歷史數(shù)據(jù)、資源查找、文件記錄等功能。通過元數(shù)據(jù)表可以將數(shù)據(jù)聯(lián)系起來,如非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)表可以包含項目編號、資料題名、資料類型、保護(hù)期、關(guān)鍵詞等信息,這些信息提取出來之后,就可以將元數(shù)據(jù)匯聚到統(tǒng)一的表格中,從而實現(xiàn)不同類型數(shù)據(jù)的統(tǒng)計分析。

(7)多源異構(gòu)標(biāo)準(zhǔn)化規(guī)則

制定數(shù)據(jù)標(biāo)準(zhǔn)化處理的技術(shù)方法應(yīng)當(dāng)參照國家及行業(yè)相關(guān)的標(biāo)準(zhǔn)規(guī)范,如《地質(zhì)信息元數(shù)據(jù)》《成果地質(zhì)資料電子文件制作與匯交格式》《地質(zhì)鉆孔(井)基本數(shù)據(jù)文件格式》等,并且應(yīng)當(dāng)按照平臺規(guī)定的空間參考系統(tǒng);為了保證數(shù)據(jù)的完整性和一致性,需要建立數(shù)據(jù)ETL的標(biāo)準(zhǔn)化規(guī)則,在地質(zhì)信息資源管理系統(tǒng)中開發(fā)實現(xiàn)用于數(shù)據(jù)抽取、數(shù)據(jù)的清洗轉(zhuǎn)換和數(shù)據(jù)加載的算法。

對于不同類型的數(shù)據(jù),需要制定不同的規(guī)則(表1)。

(8)城市地質(zhì)數(shù)據(jù)倉庫的結(jié)構(gòu)

地勘領(lǐng)域空間數(shù)據(jù)將成為實現(xiàn)“智慧地質(zhì)”的核心組件。數(shù)據(jù)倉庫將包括關(guān)系型數(shù)據(jù)庫中全部數(shù)據(jù),通過數(shù)據(jù)抽取、轉(zhuǎn)化、上傳規(guī)則的制定,來實現(xiàn)數(shù)據(jù)流從數(shù)據(jù)庫向數(shù)據(jù)倉庫的定期轉(zhuǎn)移。本次數(shù)據(jù)倉庫的設(shè)計將針對城市地質(zhì)數(shù)據(jù)倉庫的主題、維度和粒度進(jìn)行劃分。首先,倉庫中數(shù)據(jù)的組織主要是以基礎(chǔ)比例尺的方式來實現(xiàn)不同比例尺數(shù)據(jù)的拆解與聚合,其次,確定倉庫的主題域,包括業(yè)務(wù)領(lǐng)域、維度、比例尺、監(jiān)測預(yù)警系統(tǒng)、地質(zhì)要素等。最后,按照地質(zhì)單元、圖層、時相、地質(zhì)要素進(jìn)行維度劃分。數(shù)據(jù)遵循此流程進(jìn)入數(shù)據(jù)倉庫,就可以實現(xiàn)多地質(zhì)要素數(shù)據(jù)的融合。

2 關(guān)鍵技術(shù)問題

2.1 地質(zhì)多源結(jié)構(gòu)化數(shù)據(jù)集成方法

首都地質(zhì)資源環(huán)境承載力監(jiān)測預(yù)警平臺未來將通過物聯(lián)網(wǎng)技術(shù)接入地下水環(huán)境、地面沉降、重大線性工程等八大監(jiān)測預(yù)警系統(tǒng),所涉及的傳感器包括GPS、水準(zhǔn)點、水位監(jiān)測井、雨量計、泥位計、分層標(biāo)、基巖標(biāo)、攝像頭等數(shù)十種,數(shù)據(jù)類型具有ArcGIS、MapGIS、Auto CAD、txt、Excel、遙感影像等多種格式。數(shù)據(jù)來源也千差萬別,數(shù)據(jù)獲取方式也多種多樣。同時,為了進(jìn)行綜合分析和預(yù)警預(yù)報,平臺還將接入以非結(jié)構(gòu)化數(shù)據(jù)為主的歷史資料、GIS圖件、物化探數(shù)據(jù)、遙感數(shù)據(jù)、數(shù)字化成果、模型數(shù)據(jù)。

系統(tǒng)將根據(jù)八大監(jiān)測預(yù)警系統(tǒng)各自的業(yè)務(wù)體系,首先建立起對應(yīng)的結(jié)構(gòu)化數(shù)據(jù)框架,從而形成八大結(jié)構(gòu)化數(shù)據(jù)的框架體系。比如對于地面沉降監(jiān)測預(yù)警系統(tǒng),首先通過地面沉降監(jiān)測站統(tǒng)一編號表對地面沉降監(jiān)測站進(jìn)行編號,將地面沉降監(jiān)測站編號作為鍵值與地面沉降監(jiān)測站基本信息表對應(yīng),將地面沉降監(jiān)測站基本信息表中監(jiān)測方法統(tǒng)一要素編號作為鍵值與多源異構(gòu)數(shù)據(jù)統(tǒng)一編號表對應(yīng),多源異構(gòu)數(shù)據(jù)統(tǒng)一編號表通過監(jiān)測方法統(tǒng)一要素編號作為鍵值與地面沉降GPS水準(zhǔn)一體化監(jiān)測點、地面沉降GPS監(jiān)測點、地面沉降水準(zhǔn)監(jiān)測點等各基本信息表一一對應(yīng),監(jiān)測點原編號或監(jiān)測井原編號作為鍵值與各個監(jiān)測數(shù)據(jù)表對應(yīng)。八個監(jiān)測預(yù)警系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫框架建立方法同上。

八個監(jiān)測預(yù)警系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù)框架都包含多源異構(gòu)數(shù)據(jù)統(tǒng)一編號表,表中包含監(jiān)測方法要素統(tǒng)一編號、所屬地質(zhì)要素、所屬專業(yè)領(lǐng)域、所屬監(jiān)測預(yù)警系統(tǒng)等字段,地質(zhì)要素包括地下水水位、地溫場環(huán)境、地表形變、地層形變等類型,通過所屬地質(zhì)要素為紐帶,可以將八大監(jiān)測預(yù)警系統(tǒng)的表格進(jìn)行有效的橫向集成。同時,由于元數(shù)據(jù)表可以對結(jié)構(gòu)化、空間和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行縱向的集成,從而就形成了整個結(jié)構(gòu)化數(shù)據(jù)表的集成。

2.2 地質(zhì)多源非結(jié)構(gòu)化數(shù)據(jù)集成方法

(1)數(shù)據(jù)來源與種類

地質(zhì)多源非結(jié)構(gòu)化數(shù)據(jù)包括地下水環(huán)境、地面沉降監(jiān)測等領(lǐng)域,其數(shù)據(jù)類型包括基礎(chǔ)資料、三維模型數(shù)據(jù)、監(jiān)測數(shù)據(jù)中的電子文件。基礎(chǔ)資料匯交的數(shù)據(jù)格式一般是ED-Maker,每個XML格式地質(zhì)資料文件目錄關(guān)聯(lián)多個不同格式的電子文件;三維模型的數(shù)據(jù)格式一般是Creator、ArcGIS、MapGIS、網(wǎng)格天地等;監(jiān)測數(shù)據(jù)中的電子文件有pdf格式、excel、word等。

(2)基于異構(gòu)類型數(shù)據(jù)庫的地質(zhì)多源非結(jié)構(gòu)化數(shù)據(jù)集成

地質(zhì)多源非結(jié)構(gòu)化數(shù)據(jù)集成采用由TRIP非關(guān)系型數(shù)據(jù)庫、PostgreSQL關(guān)系型數(shù)據(jù)庫和ArcGIS空間數(shù)據(jù)庫組成的聚合類型數(shù)據(jù)庫,分別對基礎(chǔ)資料、三維模型和監(jiān)測數(shù)據(jù)中的電子文件進(jìn)行集成和管理。

(3)基礎(chǔ)資料集成

每個XML格式地質(zhì)資料文件目錄中的數(shù)據(jù)形成TRIP目錄數(shù)據(jù)庫中的一條記錄,包括地理坐標(biāo),全部存儲在結(jié)構(gòu)化字段,然后由TRIP目錄數(shù)據(jù)庫導(dǎo)入PostgreSQL目錄表,其中地理坐標(biāo)再由PostgreSQL目錄表導(dǎo)入ArcGIS數(shù)據(jù)表。文件目錄關(guān)聯(lián)的每個電子文件和相關(guān)信息形成TRIP電子文件數(shù)據(jù)庫中的一條記錄,電子文件存儲在非結(jié)構(gòu)化字段,電子文件相關(guān)信息存儲在同一條記錄的結(jié)構(gòu)化字段,然后將電子文件的相關(guān)信息由TRIP電子文件數(shù)據(jù)庫導(dǎo)入PostgreSQL電子文件相關(guān)信息表。PostgreSQL目錄表與PostgreSQL電子文件相關(guān)信息表形成關(guān)聯(lián)。

(4)三維模型數(shù)據(jù)集成

每個三維模型和相關(guān)信息形成TRIP三維模型數(shù)據(jù)庫中的一條記錄,三維模型存儲在非結(jié)構(gòu)化字段,三維模型相關(guān)信息存儲在同一條記錄的結(jié)構(gòu)化字段,然后將三維模型的相關(guān)信息由TRIP三維模型數(shù)據(jù)庫導(dǎo)入PostgreSQL三維模型相關(guān)信息表。

(5)監(jiān)測數(shù)據(jù)中的電子文件集成

每個電子文件和相關(guān)信息形成TRIP監(jiān)測數(shù)據(jù)電子文件數(shù)據(jù)庫中的一條記錄,電子文件存儲在非結(jié)構(gòu)化字段,電子文件相關(guān)信息存儲在同一條記錄的結(jié)構(gòu)化字段,然后將電子文件的相關(guān)信息由TRIP監(jiān)測數(shù)據(jù)電子文件數(shù)據(jù)庫導(dǎo)入PostgreSQL監(jiān)測數(shù)據(jù)電子文件相關(guān)信息表。

2.3 地質(zhì)多源信息資源管理及檢索系統(tǒng)

地質(zhì)信息資源管理系統(tǒng)對于結(jié)構(gòu)化數(shù)據(jù)多采用關(guān)系型數(shù)據(jù)庫,對于非結(jié)構(gòu)化數(shù)據(jù)的儲存,基本上采用數(shù)據(jù)掛接關(guān)系型數(shù)據(jù)庫、離線存址和嵌入型關(guān)系型數(shù)據(jù)庫3種方式,但其都具有明顯的不足之處,因為這些方式的本質(zhì)還是采用文件夾的方法對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行管理。因此,引進(jìn)擅長管理非結(jié)構(gòu)化數(shù)據(jù)的非關(guān)系型數(shù)據(jù)庫管理系統(tǒng)是非常必要的。而關(guān)系型數(shù)據(jù)庫和非關(guān)系型數(shù)據(jù)庫管理系統(tǒng)各有所長,因此采用關(guān)系型數(shù)據(jù)庫和非關(guān)系型數(shù)據(jù)庫管理系統(tǒng)共同實現(xiàn)地質(zhì)信息資源的儲存和管理是比較科學(xué)的做法(圖2)。

(1)系統(tǒng)的組成

地質(zhì)多源非結(jié)構(gòu)化數(shù)據(jù)集成采用由TRIP非關(guān)系型數(shù)據(jù)庫、PostgreSQL關(guān)系型數(shù)據(jù)庫和ArcGIS空間數(shù)據(jù)庫組成的聚合異構(gòu)類型數(shù)據(jù)庫,能夠充分發(fā)揮不同類型數(shù)據(jù)庫檢索的優(yōu)勢和特點。在本系統(tǒng)中,TRIP非關(guān)系數(shù)據(jù)庫的檢索基于全文索引、中文自動分詞和中文分詞詞典,對結(jié)構(gòu)化字段、非結(jié)構(gòu)化文本字段進(jìn)行檢索,PostgreSQL關(guān)系數(shù)據(jù)庫管理系統(tǒng)可對結(jié)構(gòu)化字段進(jìn)行檢索,ArcGIS空間數(shù)據(jù)庫可對空間信息進(jìn)行存儲,同時可以配合Trip數(shù)據(jù)庫管理系統(tǒng)對空間數(shù)據(jù)進(jìn)行檢索。

(2)框選的檢索方法

框選檢索是用鼠標(biāo)在地圖上繪制多邊形,利用多邊形的坐標(biāo)獲取區(qū)域內(nèi)的非結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)、空間數(shù)據(jù)及相關(guān)信息。①非結(jié)構(gòu)化數(shù)據(jù)框選檢索,獲取并顯示框選區(qū)域內(nèi)文件數(shù)量和文件詳細(xì)信息,包括項目題名、匯交人檔號、匯交時間、文件名等,并可在線瀏覽電子文件。②結(jié)構(gòu)化數(shù)據(jù)框選檢索,獲取并顯示框選區(qū)域內(nèi)站/點/井信息和監(jiān)測數(shù)據(jù)。③空間數(shù)據(jù)框選檢索,獲取并顯示框選區(qū)域內(nèi)圖層的空間數(shù)據(jù)。

(3)文字的檢索方法

文字檢索對非結(jié)構(gòu)化數(shù)據(jù)中的文字、結(jié)構(gòu)化數(shù)據(jù)中的文字、與空間數(shù)據(jù)相關(guān)的文字信息進(jìn)行檢索。①非結(jié)構(gòu)化數(shù)據(jù)(電子文件)全文檢索,是對從電子文件中抽取的全部文字和電子文件的元數(shù)據(jù)、以及電子文件相關(guān)的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行檢索,獲取并顯示命中結(jié)果的文件數(shù)量和文件詳細(xì)信息,包括項目題名、匯交人檔號、匯交時間、表格名等,并可在線瀏覽電子表格數(shù)據(jù),包括監(jiān)測站點基本信息、監(jiān)測數(shù)據(jù)、調(diào)查數(shù)據(jù)等。②非結(jié)構(gòu)化數(shù)據(jù)(電子文件)關(guān)鍵詞檢索,是對電子文件的元數(shù)據(jù)以及相關(guān)的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行檢索,獲取并顯示命中結(jié)果的文件數(shù)量和文件一般信息,包括項目題名、匯交人檔號、匯交時間、文件名等,并可在線瀏覽電子文件。

3 應(yīng)用實例

本次研究的地質(zhì)多源結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的集成方法以及信息資源管理系統(tǒng)的建設(shè)方法已經(jīng)初步應(yīng)用到首都地質(zhì)資源環(huán)境承載能力監(jiān)測預(yù)警信息平臺,錄入了上百條數(shù)據(jù),幾十張圖,上百檔非結(jié)構(gòu)化數(shù)據(jù),均可以實現(xiàn)關(guān)鍵詞檢索,畫框檢索和空間檢索,應(yīng)用效果良好(圖3)。

4 結(jié)論

本文對基于多源異構(gòu)的城市地質(zhì)數(shù)據(jù)集成總體方案和關(guān)鍵技術(shù)進(jìn)行深入的研究,并對城市地質(zhì)的數(shù)據(jù)分類方法、結(jié)構(gòu)化數(shù)據(jù)的集成方法、結(jié)構(gòu)化數(shù)據(jù)的集成方法和地質(zhì)多源信息資源管理及檢索系統(tǒng)進(jìn)行了詳細(xì)的研討和論述,未來為地質(zhì)資源環(huán)境承載力監(jiān)測預(yù)警平臺的建設(shè)提供指導(dǎo)。

但限于大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)技術(shù)等新一代信息化技術(shù)在地質(zhì)領(lǐng)域的應(yīng)用剛剛起步,很多地質(zhì)大數(shù)據(jù)方面的研究也剛剛開始,對于不同單位、不同領(lǐng)域之間數(shù)據(jù)共享交換需求也有待明確,因此未來還有很多工作需要開展。如對全市地質(zhì)資源環(huán)境領(lǐng)域傳感器格式和通訊規(guī)約的研究和制定,以及對多種空間數(shù)據(jù)格式融合方式的研究都亟于開展,為未來實現(xiàn)城市地質(zhì)數(shù)據(jù)的共享和融合奠定基礎(chǔ)。

參考文獻(xiàn):

陳全,鄧倩妮,2009.云計算及其關(guān)鍵技術(shù)[J].計算機(jī)應(yīng)用(9):2562-2567.

程學(xué)旗, 靳小龍, 楊婧, 等, 2016.大數(shù)據(jù)技術(shù)進(jìn)展與發(fā)展趨勢[J]. 科技導(dǎo)報, 34(14):49-59.

劉強(qiáng), 崔莉, 陳海明, 2010.物聯(lián)網(wǎng)關(guān)鍵技術(shù)與應(yīng)用[J].計算機(jī)科學(xué)(6):7-10+16.

劉楷華, 李雄, 2011.物聯(lián)網(wǎng)應(yīng)用現(xiàn)狀及發(fā)展機(jī)遇[J].電腦知識與技術(shù)(5):45-46+60.

劉曉峰,李偉淵, 2018.淺談物聯(lián)網(wǎng)在信息社會的發(fā)展前景與應(yīng)用[J].廣西通信技術(shù)(1): 32-34+40.

劉浩力,2011.物聯(lián)網(wǎng)應(yīng)用及發(fā)展前景淺析[J].中國信息界(8):31-32.

孟小峰, 慈祥, 2013.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機(jī)研究與發(fā)展(1):148-171.

樸德慧,2015.云計算控制技術(shù)研究[J].數(shù)字技術(shù)與應(yīng)用(2):110-110.

吳吉義,平玲娣,潘雪增,等, 2009.云計算:從概念到平臺[J].電信科學(xué)(12):29-36.

張引,陳敏,廖小飛, 2013.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J].計算機(jī)研究與發(fā)展, 50(S2):216-233.

猜你喜歡
數(shù)據(jù)集成
造船生產(chǎn)計劃管理信息化
基于“三流合一”的云南煙草商業(yè)系統(tǒng)供應(yīng)鏈的構(gòu)建
成本與制造數(shù)據(jù)集成分析
基于Biztalk的異構(gòu)醫(yī)療信息系統(tǒng)數(shù)據(jù)集成研究
信息系統(tǒng)集成與數(shù)據(jù)集成策略研究
XML數(shù)據(jù)交換技術(shù)在中醫(yī)智能化診斷數(shù)據(jù)集成中的應(yīng)用
數(shù)字圖書館分布式存儲設(shè)計
高校一表通系統(tǒng)建設(shè)探究
淺談數(shù)據(jù)集成相關(guān)技術(shù)
基于數(shù)據(jù)集成的水上項目國家隊數(shù)據(jù)庫網(wǎng)絡(luò)管理平臺的設(shè)計與開發(fā)
慈溪市| 临夏县| 辽宁省| 汉川市| 烟台市| 论坛| 钟祥市| 杭锦旗| 新化县| 云南省| 松滋市| 克什克腾旗| 丰台区| 商洛市| 辛集市| 电白县| 建宁县| 北海市| 洪江市| 上犹县| 昂仁县| 永德县| 区。| 沙坪坝区| 盐边县| 荥阳市| 汝阳县| 宁河县| 醴陵市| 林西县| 阳春市| 清徐县| 孝昌县| 聂拉木县| 行唐县| 淅川县| 靖西县| 安康市| 尼勒克县| 绍兴县| 衢州市|