国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)倉(cāng)庫(kù)的海綿城市工程數(shù)據(jù)集成技術(shù)研究

2021-06-24 12:53白向榮趙江鋒薛華鋒賈新會(huì)
山西建筑 2021年13期
關(guān)鍵詞:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)源海綿

白向榮 趙江鋒 薛華鋒 劉 華 蘇 鋒 賈新會(huì)

(1.中電建路橋集團(tuán)有限公司,北京 100048; 2.中國(guó)水利水電第三工程局有限公司華中公司,陜西 西安 710024;3.中國(guó)電建集團(tuán)西北勘測(cè)設(shè)計(jì)研究院有限公司,陜西 西安 710065)

1 概述

近年來(lái)城市化進(jìn)程不斷加快,各種城市化問(wèn)題也隨之而來(lái),為應(yīng)對(duì)和解決城市水問(wèn)題,海綿城市這一理念被提出[1]。西安市每逢中到大雨均會(huì)出現(xiàn)不同程度的內(nèi)澇問(wèn)題,特別是2016年7月24日,西安城區(qū)遭遇超50年一遇極端暴雨,造成小寨十字及周邊多個(gè)街區(qū)發(fā)生內(nèi)澇,小寨海綿城市建設(shè)迫在眉睫[2]。為深入剖析海綿城市建設(shè)運(yùn)行管理需求,需充分利用現(xiàn)代信息技術(shù),將海綿城市工程各類(lèi)異構(gòu)數(shù)據(jù)進(jìn)行有效集成,打造海綿城市工程數(shù)據(jù)集成平臺(tái),為小寨海綿城市智慧管控平臺(tái)[3]提供強(qiáng)大的數(shù)據(jù)支撐。

近年來(lái),多個(gè)行業(yè)已開(kāi)展了數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)工作。比如,東營(yíng)市水利局將區(qū)域水利資料數(shù)字化,組建數(shù)據(jù)倉(cāng)庫(kù),進(jìn)而構(gòu)建東營(yíng)水利數(shù)據(jù)中心[4];黨懷義[5]分析了試飛大數(shù)據(jù)的特征,介紹了飛行試驗(yàn)數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與應(yīng)用;電力調(diào)度綜合數(shù)據(jù)倉(cāng)庫(kù)的建設(shè),為電力調(diào)度帶來(lái)了極大的便利[6];煙草數(shù)字倉(cāng)庫(kù)提高了貨物周轉(zhuǎn)效率,節(jié)約了供貨成本,為企業(yè)管理庫(kù)存提供了便利[7];張維國(guó)[8]分析了數(shù)據(jù)倉(cāng)庫(kù)在高校教務(wù)系統(tǒng)中的應(yīng)用。海綿城市工程建設(shè)也同樣離不開(kāi)數(shù)據(jù)集成技術(shù),本文對(duì)海綿城市工程數(shù)據(jù)集成需求、集成設(shè)計(jì)方案、集成平臺(tái)應(yīng)用展開(kāi)研究,以期為小寨海綿城市建設(shè)提供一定的理論指導(dǎo)。

2 數(shù)據(jù)集成需求分析

2.1 數(shù)據(jù)源分析

海綿城市涉及海量的多源異構(gòu)數(shù)據(jù),支撐著海綿城市的建設(shè)和運(yùn)營(yíng),以小寨海綿城市為例,通過(guò)對(duì)數(shù)據(jù)源進(jìn)行分析整理,按數(shù)據(jù)源類(lèi)型可將數(shù)據(jù)劃分為GIS地理信息數(shù)據(jù)、在線實(shí)測(cè)數(shù)據(jù)、人工填報(bào)數(shù)據(jù)和其他數(shù)據(jù),每一類(lèi)別涵蓋了多種數(shù)據(jù)類(lèi)型,具體的數(shù)據(jù)類(lèi)型如表1所示。

表1 數(shù)據(jù)源類(lèi)別劃分

2.2 主題庫(kù)建設(shè)

本文針對(duì)小寨海綿城市工程數(shù)據(jù)源的分析,并結(jié)合實(shí)際建設(shè)目標(biāo),將小寨海綿城市數(shù)據(jù)倉(cāng)庫(kù)劃分為地理信息主題庫(kù)、運(yùn)行管理主題庫(kù)、在線監(jiān)測(cè)主題庫(kù)和建設(shè)文檔主題庫(kù)。其中,地理信息主題庫(kù)主要包括基礎(chǔ)地形數(shù)據(jù)和雨水系統(tǒng)布局?jǐn)?shù)據(jù)信息,運(yùn)行管理主題庫(kù)主要包括運(yùn)行管理信息和建設(shè)考核統(tǒng)計(jì)信息,在線監(jiān)測(cè)主題庫(kù)主要包括儀器監(jiān)測(cè)信息和儀器狀態(tài)信息,建設(shè)文檔主題庫(kù)主要包括海綿城市建設(shè)相關(guān)的文檔信息與規(guī)章文檔信息。按照數(shù)據(jù)類(lèi)型,將小寨海綿城市多源數(shù)據(jù)集成到相應(yīng)的主題庫(kù)內(nèi),為小寨海綿城市建設(shè)與運(yùn)行提供數(shù)據(jù)支撐。

3 數(shù)據(jù)集成設(shè)計(jì)方案

數(shù)據(jù)倉(cāng)庫(kù)是傳輸系統(tǒng)的云倉(cāng)庫(kù),倉(cāng)庫(kù)中的數(shù)據(jù)來(lái)源主要有區(qū)域基礎(chǔ)地形數(shù)據(jù)、城區(qū)內(nèi)澇數(shù)據(jù)、河道水質(zhì)數(shù)據(jù)、設(shè)備狀況數(shù)據(jù)、文檔數(shù)據(jù)等不同的源數(shù)據(jù),這些數(shù)據(jù)傳輸集成到數(shù)據(jù)倉(cāng)庫(kù)中,經(jīng)過(guò)數(shù)據(jù)的清洗及預(yù)處理后,通過(guò)海綿城市工程數(shù)據(jù)集成平臺(tái)為小寨海綿城市建設(shè)提供數(shù)據(jù)服務(wù)。

3.1 架構(gòu)設(shè)計(jì)

為實(shí)現(xiàn)海綿城市異構(gòu)數(shù)據(jù)的有效集成,基于平臺(tái)需求及數(shù)據(jù)庫(kù)需求,建立基于數(shù)據(jù)倉(cāng)庫(kù)的海綿城市工程數(shù)據(jù)集成平臺(tái)技術(shù)架構(gòu),如圖1所示。

1)數(shù)據(jù)源層。就海綿城市而言,數(shù)據(jù)倉(cāng)庫(kù)的主要數(shù)據(jù)源為行政區(qū)劃數(shù)據(jù)、管網(wǎng)數(shù)據(jù)、項(xiàng)目管理數(shù)據(jù)、統(tǒng)計(jì)填報(bào)數(shù)據(jù)、在線實(shí)測(cè)數(shù)據(jù)、模型數(shù)據(jù)、文檔數(shù)據(jù)等,包含有結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)源層數(shù)據(jù)具有格式各異、標(biāo)準(zhǔn)不一、結(jié)構(gòu)復(fù)雜等特點(diǎn),需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和加工轉(zhuǎn)換后,以某種形式統(tǒng)一存儲(chǔ)、集成。

2)數(shù)據(jù)采集層。針對(duì)海綿城市數(shù)據(jù)結(jié)構(gòu)復(fù)雜、數(shù)據(jù)繁多的特點(diǎn),采用ETL工具進(jìn)行海綿城市各系統(tǒng)業(yè)務(wù)數(shù)據(jù)庫(kù)數(shù)據(jù)的采集,并對(duì)重復(fù)數(shù)據(jù)、異常數(shù)據(jù)、臟數(shù)據(jù)等不符合要求的數(shù)據(jù)進(jìn)行清洗轉(zhuǎn)換,最終將處理完畢的數(shù)據(jù)存儲(chǔ)至數(shù)據(jù)存儲(chǔ)層。

3)數(shù)據(jù)存儲(chǔ)層。海綿城市在建設(shè)、監(jiān)測(cè)、運(yùn)行管理中所產(chǎn)生的源數(shù)據(jù),進(jìn)行數(shù)據(jù)的抽取和轉(zhuǎn)化后,以某種特定形式集成到小寨海綿城市數(shù)據(jù)倉(cāng)庫(kù)中。倉(cāng)庫(kù)內(nèi)并不僅存儲(chǔ)原始數(shù)據(jù),而是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后,存儲(chǔ)為細(xì)節(jié)數(shù)據(jù),方便數(shù)據(jù)后期的挖掘和分析。數(shù)據(jù)通過(guò)獲取層傳輸?shù)酱鎯?chǔ)層后,依據(jù)數(shù)據(jù)分類(lèi)分別錄入到地理信息主題庫(kù)、在線監(jiān)測(cè)主題庫(kù)、運(yùn)行管理主題庫(kù)以及建設(shè)文檔主題庫(kù)。

4)數(shù)據(jù)展現(xiàn)層。數(shù)據(jù)展現(xiàn)層支持對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的聚合數(shù)據(jù)、細(xì)節(jié)數(shù)據(jù)等開(kāi)放數(shù)據(jù)進(jìn)行搜索、查閱及導(dǎo)出,根據(jù)管理人員的需求,可進(jìn)行多類(lèi)別搜索、多格式導(dǎo)出,方便管理人員以更為靈活的方式獲取數(shù)據(jù)。海綿城市產(chǎn)生的海量數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)倉(cāng)庫(kù)的有效集成后,基于Hadoop大數(shù)據(jù)分析平臺(tái),進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)挖掘,從而為管理者提供決策支持。

5)元數(shù)據(jù)管理。元數(shù)據(jù)是數(shù)據(jù)的“數(shù)據(jù)”,因此又稱解釋性數(shù)據(jù)[9]。通過(guò)管理元數(shù)據(jù),可進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)中模型定義記錄、數(shù)據(jù)狀態(tài)監(jiān)控以及數(shù)據(jù)抽取、轉(zhuǎn)化、導(dǎo)出的任務(wù)狀態(tài)。

3.2 ETL設(shè)計(jì)

1)數(shù)據(jù)抽取。由于海綿城市實(shí)際數(shù)據(jù)源的數(shù)量是不確定的,因此通過(guò)對(duì)海綿城市數(shù)據(jù)源進(jìn)行實(shí)際調(diào)研,這些數(shù)據(jù)源可能是在不同的硬件平臺(tái)上,使用不同的操作系統(tǒng),因?yàn)閿?shù)據(jù)可能以不同格式存儲(chǔ)在不同數(shù)據(jù)庫(kù)中,如何從不同數(shù)據(jù)源中提取數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)中,是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵問(wèn)題。本文根據(jù)不同數(shù)據(jù)源的特點(diǎn),采取不同的抽取策略。一種是針對(duì)數(shù)據(jù)量較大,無(wú)法預(yù)知數(shù)據(jù)量級(jí)時(shí),采用增量抽取策略,例如,一些在線監(jiān)測(cè)數(shù)據(jù),由于監(jiān)測(cè)設(shè)備每天都會(huì)產(chǎn)生大量的監(jiān)測(cè)數(shù)據(jù),全部抽取是不可能的,因此采取增量抽取策略,只抽取當(dāng)天的實(shí)時(shí)數(shù)據(jù)進(jìn)行查看;另一種是針對(duì)一些特殊場(chǎng)景數(shù)據(jù),例如在抽取海綿城市建設(shè)中與區(qū)域地理位置相關(guān)的數(shù)據(jù)時(shí),本身其數(shù)據(jù)量是確定的,同時(shí)數(shù)據(jù)量也不是很大,可以采用全量抽取策略。

2)數(shù)據(jù)轉(zhuǎn)換和清洗。由于海綿城市涉及海量的多源異構(gòu)數(shù)據(jù),數(shù)據(jù)源多而雜,數(shù)據(jù)格式和存儲(chǔ)形式多而繁雜,針對(duì)這一問(wèn)題,在進(jìn)行數(shù)據(jù)抽取后,需要對(duì)抽取的數(shù)據(jù)進(jìn)行統(tǒng)一的格式轉(zhuǎn)換,通常采用以下幾種方法:字段的映射與運(yùn)算、字段的拆分與合并、日期運(yùn)算和聚合運(yùn)算等。在對(duì)數(shù)據(jù)轉(zhuǎn)換后,將系統(tǒng)中出現(xiàn)的相同、不完整、定義模糊的數(shù)據(jù)進(jìn)行篩選,可以通過(guò)首先抽取一小部分?jǐn)?shù)據(jù)檢測(cè)所抽取的數(shù)據(jù)是否符合要求,若不符合要求則將其剔除,然后對(duì)目標(biāo)數(shù)據(jù)進(jìn)行相應(yīng)的處理和糾正。

3)數(shù)據(jù)加載。數(shù)據(jù)加載是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要一步,加載的方法主要分為全量加載和增量加載,其中全量加載是將全表刪除后再進(jìn)行重新數(shù)據(jù)加載,增量加載是只更新變化的數(shù)據(jù)源和受影響的數(shù)據(jù)源。兩種方法視情況而定,在前期數(shù)據(jù)量較小或者每次抽取有1/4源數(shù)據(jù)需要更新的情況下,采用全量加載,其余情況采用增量加載。

3.3 應(yīng)用算法

由于海綿城市工程數(shù)據(jù)量、數(shù)據(jù)類(lèi)型繁多,本研究采用聚類(lèi)分析K-means算法進(jìn)行數(shù)據(jù)挖掘。K-means算法的原理是在n個(gè)數(shù)據(jù)對(duì)象中,依據(jù)條件選擇k個(gè)對(duì)象,作為初始聚類(lèi)中心,然后依據(jù)聚類(lèi)中心對(duì)象,計(jì)算每個(gè)對(duì)象到均值之間的距離值,完成后再以最小距離為依據(jù)重新劃分,重復(fù)上述過(guò)程,直到準(zhǔn)則函數(shù)收斂[10]。平方誤差的準(zhǔn)則定義公式為:

(1)

其中,x為簇內(nèi)樣本;u為簇的中心;E值越小,說(shuō)明簇內(nèi)樣本距離越小,相似度越高。

本研究首先指定K個(gè)點(diǎn)作為初始聚類(lèi)中心,計(jì)算每個(gè)點(diǎn)離中心的距離,將其歸到與其最近的簇,形成k個(gè)簇;然后再計(jì)算每個(gè)簇的均值,再將其歸到與之最近的簇,如此往復(fù),直至不再發(fā)生變化或達(dá)到最大迭代次數(shù)為止[11]。

4 海綿城市工程數(shù)據(jù)集成平臺(tái)應(yīng)用

4.1 固有數(shù)據(jù)集成可視化

海綿城市工程存在大量異構(gòu)數(shù)據(jù),包括地理信息數(shù)據(jù)、工程建設(shè)數(shù)據(jù)、模型數(shù)據(jù)、原有設(shè)備數(shù)據(jù)等,將這些數(shù)據(jù)錄入集成平臺(tái),實(shí)現(xiàn)數(shù)據(jù)的調(diào)用、查看、分析及可視化管理。

4.2 監(jiān)控?cái)?shù)據(jù)集成可視化

基于物聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算等技術(shù),實(shí)現(xiàn)遠(yuǎn)程數(shù)據(jù)及雨情數(shù)據(jù)的同步監(jiān)控,涵蓋設(shè)施,設(shè)備,儀表,雨量、流量、液位、水質(zhì)等多項(xiàng)指標(biāo)的監(jiān)測(cè)數(shù)據(jù)接入集成平臺(tái),實(shí)現(xiàn)層、分類(lèi)、分區(qū)的智能監(jiān)測(cè)并可進(jìn)行人工采樣復(fù)核的監(jiān)測(cè)管理方案,可對(duì)各項(xiàng)數(shù)據(jù)進(jìn)行查詢,分析及可視化管理。

4.3 運(yùn)行管理數(shù)據(jù)集成可視化

海綿城市工程在建設(shè)過(guò)程以及運(yùn)維過(guò)程中將產(chǎn)生大量異構(gòu)數(shù)據(jù),將這些數(shù)據(jù)進(jìn)行處理加工后接入集成平臺(tái),實(shí)現(xiàn)運(yùn)行管理過(guò)程的實(shí)時(shí)記錄,并可對(duì)建設(shè)文檔、設(shè)備檔案、運(yùn)維任務(wù)、運(yùn)維報(bào)表、運(yùn)維考核等數(shù)據(jù)進(jìn)行查詢、分析及可視化管理。

4.4 數(shù)據(jù)管理

數(shù)據(jù)管理是海綿城市工程數(shù)據(jù)集成平臺(tái)的核心模塊,通過(guò)該模塊可進(jìn)行多類(lèi)型多格式數(shù)據(jù)的批量輸入與輸出,支持?jǐn)?shù)據(jù)生成數(shù)據(jù)表、趨勢(shì)線、分布圖等多種展示形式,方便管理者更清晰直觀的進(jìn)行決策。同時(shí)提供數(shù)據(jù)統(tǒng)計(jì)分析功能,幫助管理者快速、準(zhǔn)確的分析工作的重難點(diǎn)問(wèn)題。

5 結(jié)語(yǔ)

針對(duì)海綿城市工程中大量種類(lèi)繁多的數(shù)據(jù),對(duì)數(shù)據(jù)集成需求進(jìn)行分析,提出基于數(shù)據(jù)倉(cāng)庫(kù)的海綿城市工程數(shù)據(jù)集成方案,將小寨海綿城市中的數(shù)據(jù)進(jìn)行統(tǒng)一集成,并通過(guò)海綿城市工程數(shù)據(jù)集成平臺(tái)實(shí)現(xiàn)數(shù)據(jù)可視化,為小寨海綿城市智慧管控系統(tǒng)提供有力的數(shù)據(jù)支撐。

猜你喜歡
數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)源海綿
2021年1—6月日本海綿鈦產(chǎn)銷(xiāo)數(shù)據(jù)統(tǒng)計(jì)
解讀“海綿寶寶”
超級(jí)海綿在哪里?
基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)傾斜解決方案研究
一種多源數(shù)據(jù)融合過(guò)程中的實(shí)體關(guān)聯(lián)性計(jì)算方法
利用屬性集相關(guān)性與源誤差的多真值發(fā)現(xiàn)方法研究
海綿是植物嗎?
Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的應(yīng)用
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
乌苏市| 万全县| 东方市| 龙川县| 涡阳县| 高阳县| 昌都县| 沈丘县| 固安县| 炎陵县| 八宿县| 万年县| 堆龙德庆县| 钟祥市| 神池县| 昭觉县| 康马县| 景东| 文水县| 缙云县| 双牌县| 金川县| 揭东县| 松阳县| 大田县| 田林县| 铜鼓县| 怀来县| 广元市| 津市市| 文安县| 安岳县| 靖江市| 奈曼旗| 湟源县| 松滋市| 全州县| 康乐县| 祁连县| 剑河县| 威远县|