国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

堤防工程數(shù)據(jù)標(biāo)準(zhǔn)化研究

2019-10-23 08:52羅登昌于起超3馬丹璇
關(guān)鍵詞:堤防結(jié)構(gòu)化標(biāo)準(zhǔn)化

羅登昌,韓 旭,于起超3,馬丹璇

(1.長(zhǎng)江勘測(cè)規(guī)劃設(shè)計(jì)研究有限責(zé)任公司,武漢 430010; 2.長(zhǎng)江巖土工程總公司(武漢),武漢 430010;3.中南設(shè)計(jì)集團(tuán)(武漢)工程技術(shù)研究院有限公司,武漢 430071)

1 研究背景

21世紀(jì)水利面臨3大問題:洪澇災(zāi)害、水資源短缺、水環(huán)境惡化,其根源是水資源不合理的開發(fā)與利用,而解決這一根源的最好方法是水利信息化。通過水利信息化可實(shí)時(shí)有效的配置、治理及保護(hù)水資源。

堤防工程作為水利工程重要組成部分,其信息化成果勢(shì)必會(huì)推動(dòng)水利信息化進(jìn)程,然而堤防信息化的基礎(chǔ)是堤防數(shù)據(jù)標(biāo)準(zhǔn)化,數(shù)據(jù)標(biāo)準(zhǔn)化的研究將助力堤防數(shù)據(jù)信息化發(fā)展。通過查閱大量數(shù)據(jù)標(biāo)準(zhǔn)化文獻(xiàn)了解國(guó)內(nèi)外研究現(xiàn)狀,目前,國(guó)外未見堤防數(shù)據(jù)標(biāo)準(zhǔn)化的文獻(xiàn)。

國(guó)內(nèi)學(xué)者主要在生態(tài)環(huán)境數(shù)據(jù)、引調(diào)水工程、城市地質(zhì)調(diào)查等方面對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化進(jìn)行研究:李喆等[1]深入分析長(zhǎng)江流域生態(tài)環(huán)境數(shù)據(jù)的主要種類及其特點(diǎn),分別給出長(zhǎng)江流域生態(tài)環(huán)境信息庫(kù)中特征數(shù)據(jù)集、柵格數(shù)據(jù)集和TIN數(shù)據(jù)集的組織方式,討論空間數(shù)據(jù)與屬性數(shù)據(jù)的連接方法;饒小康[2]針對(duì)水利工程灌漿大數(shù)據(jù),設(shè)計(jì)平臺(tái)總體架構(gòu),搭建Hadoop分布式集群,設(shè)計(jì)并行化數(shù)據(jù)挖掘算法,實(shí)現(xiàn)水利工程灌漿大數(shù)據(jù)平臺(tái),實(shí)現(xiàn)了數(shù)據(jù)資源的集成共享、業(yè)務(wù)的高效處理、數(shù)據(jù)信息的知識(shí)發(fā)現(xiàn),提高了數(shù)據(jù)存儲(chǔ)和處理效率和精度;牛廣利等[3]對(duì)安全監(jiān)測(cè)實(shí)際工作需求,設(shè)計(jì)和研發(fā)了一套基于云平臺(tái)的大壩安全監(jiān)測(cè)數(shù)據(jù)管理及分析系統(tǒng),實(shí)現(xiàn)了安全監(jiān)測(cè)數(shù)據(jù)的智能感知、云端管理、專業(yè)分析與監(jiān)控預(yù)警;Zhang等[4]等先對(duì)多源數(shù)據(jù)的來源進(jìn)行分析,然后從基礎(chǔ)數(shù)據(jù)組、鉆孔數(shù)據(jù)組、地質(zhì)測(cè)繪數(shù)據(jù)組及巖石屬性數(shù)據(jù)組4方面分析各自數(shù)據(jù)的特點(diǎn)并制定了多源數(shù)據(jù)標(biāo)準(zhǔn);王繼民等[5]結(jié)合南水北調(diào)東線工程,提出數(shù)據(jù)標(biāo)準(zhǔn)化的內(nèi)容范圍、要素單位、取用精度和采集頻率及操作要點(diǎn);黃偉等[6]在異構(gòu)系統(tǒng)中利用數(shù)據(jù)平面、應(yīng)用平面以及對(duì)應(yīng)用系統(tǒng)整合的方式實(shí)現(xiàn)了數(shù)據(jù)共享;吳涵宇等[7]采用數(shù)據(jù)集成方式把異構(gòu)的、分布式的水利行業(yè)相關(guān)數(shù)據(jù)匯集,以空間數(shù)據(jù)為框架,通過統(tǒng)一的數(shù)據(jù)模型設(shè)計(jì)和對(duì)象編碼體系構(gòu)建數(shù)據(jù)庫(kù)群,從而實(shí)現(xiàn)科學(xué)、高效、有序的應(yīng)對(duì)體系和資源共享模式;徐德馨等[8]針對(duì)武漢市地質(zhì)條件和城市地質(zhì)調(diào)查工作需要,建立了武漢市城市地質(zhì)調(diào)查數(shù)據(jù)分類和編碼體系,制定了數(shù)據(jù)庫(kù)設(shè)計(jì)規(guī)范,為地質(zhì)調(diào)查數(shù)據(jù)信息化管理奠定了堅(jiān)實(shí)基礎(chǔ);劉慧梅[9]從數(shù)據(jù)管理方面、信息系統(tǒng)建設(shè)方面、管理制度方面及行業(yè)交流4個(gè)方面闡述了信息化必須要做好的工作。

國(guó)內(nèi)外學(xué)者在堤防工程數(shù)據(jù)標(biāo)準(zhǔn)化領(lǐng)域的研究鮮見,而且目前數(shù)據(jù)標(biāo)準(zhǔn)化主要是對(duì)結(jié)構(gòu)化數(shù)據(jù)標(biāo)準(zhǔn)化的研究,對(duì)于非結(jié)構(gòu)數(shù)據(jù)標(biāo)準(zhǔn)化的研究較少,標(biāo)準(zhǔn)化的研究具有片面性,同時(shí)在標(biāo)準(zhǔn)化的過程中沒有或較少涉及數(shù)據(jù)的清洗,然而數(shù)據(jù)清洗是標(biāo)準(zhǔn)化中很關(guān)鍵的一步,標(biāo)準(zhǔn)化的研究缺乏系統(tǒng)性。

本文根據(jù)堤防工程數(shù)據(jù)的特點(diǎn),并對(duì)數(shù)據(jù)收集到清洗入庫(kù)的全過程進(jìn)行分析,數(shù)據(jù)標(biāo)準(zhǔn)化主要包含3方面內(nèi)容:結(jié)構(gòu)化數(shù)據(jù)標(biāo)準(zhǔn)化、非結(jié)構(gòu)化數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)入庫(kù)與清洗。

2 結(jié)構(gòu)化數(shù)據(jù)標(biāo)準(zhǔn)化

本文堤防工程結(jié)構(gòu)化數(shù)據(jù)的標(biāo)準(zhǔn)化主要包括3個(gè)步驟:①堤防工程數(shù)據(jù)分類;②數(shù)據(jù)編碼;③數(shù)據(jù)表設(shè)計(jì)。

2.1 數(shù)據(jù)分類

堤防數(shù)據(jù)來源于多專業(yè)、多部門,根據(jù)其屬性特點(diǎn)分為8類數(shù)據(jù),分別為工程、水文氣象、人文經(jīng)濟(jì)、地理、地質(zhì)、物探、險(xiǎn)情和監(jiān)測(cè)數(shù)據(jù),見圖1。

圖1 堤防工程數(shù)據(jù)管理系統(tǒng)數(shù)據(jù)分類

堤防工程的8類數(shù)據(jù)分述如下:

(1)工程數(shù)據(jù)。工程數(shù)據(jù)包括堤防設(shè)計(jì)工程數(shù)據(jù)、堤防堤基處理工程數(shù)據(jù)、堤防加固工程數(shù)據(jù)、堤防擴(kuò)建工程數(shù)據(jù)、堤防改建工程數(shù)據(jù)、堤防管理工程數(shù)據(jù)、建筑物與構(gòu)筑物數(shù)據(jù)、護(hù)岸工程數(shù)據(jù)。

(2)水文氣象數(shù)據(jù)。水文氣象數(shù)據(jù)包括河段概況信息數(shù)據(jù)、氣象信息數(shù)據(jù)、水文站信息數(shù)據(jù)、平均徑流量年內(nèi)分配數(shù)據(jù)、平均輸沙量年內(nèi)分配數(shù)據(jù)、暴雨信息數(shù)據(jù)、洪水信息數(shù)據(jù)、設(shè)計(jì)洪水位數(shù)據(jù)、設(shè)計(jì)枯水位數(shù)據(jù)及施工分期設(shè)計(jì)水位數(shù)據(jù)。

(3)人文經(jīng)濟(jì)數(shù)據(jù)。人文經(jīng)濟(jì)數(shù)據(jù)包括社會(huì)信息數(shù)據(jù)、經(jīng)濟(jì)信息數(shù)據(jù)、生態(tài)環(huán)境狀況信息及災(zāi)害信息數(shù)據(jù)。

(4)地理數(shù)據(jù)。地理數(shù)據(jù)包括基本GIS信息數(shù)據(jù)及測(cè)量成果數(shù)據(jù)。其中基本GIS信息數(shù)據(jù)包括測(cè)量控制點(diǎn)數(shù)據(jù)、水洗數(shù)據(jù)、居民點(diǎn)及設(shè)施數(shù)據(jù)、交通數(shù)據(jù)、管線數(shù)據(jù)、境界與政界數(shù)據(jù)、地貌數(shù)據(jù)、植被與土質(zhì)數(shù)據(jù)、地名數(shù)據(jù)、數(shù)字正射影像數(shù)據(jù)及地籍測(cè)量數(shù)據(jù);測(cè)量成果數(shù)據(jù)包括地形圖和斷面圖。

(5)地質(zhì)數(shù)據(jù)。地質(zhì)數(shù)據(jù)包括勘探數(shù)據(jù)、工程地質(zhì)數(shù)據(jù)及試驗(yàn)數(shù)據(jù)。其中勘探數(shù)據(jù)包括鉆探數(shù)據(jù)和坑探數(shù)據(jù);工程地質(zhì)數(shù)據(jù)包括區(qū)域地質(zhì)數(shù)據(jù)、工程地質(zhì)成果數(shù)據(jù)、水文地質(zhì)基本數(shù)據(jù)以及施工地質(zhì)數(shù)據(jù);試驗(yàn)數(shù)據(jù)包括室內(nèi)試驗(yàn)數(shù)據(jù)和原位試驗(yàn)數(shù)據(jù)。

(6)物探數(shù)據(jù)。物探數(shù)據(jù)包括直流電阻率法數(shù)據(jù)、自然電場(chǎng)法數(shù)據(jù)、瞬變電磁法數(shù)據(jù)、探地雷達(dá)法數(shù)據(jù)、擬流場(chǎng)法數(shù)據(jù)、彈性波法數(shù)據(jù)、溫度場(chǎng)法數(shù)據(jù)、同位素示蹤法數(shù)據(jù)、層析成像數(shù)據(jù)及其他方法得到的數(shù)據(jù)。

(7)險(xiǎn)情數(shù)據(jù)。險(xiǎn)情數(shù)據(jù)包括險(xiǎn)情概況信息數(shù)據(jù)、險(xiǎn)情段的水文信息數(shù)據(jù)、堤身形態(tài)數(shù)據(jù)、堤身地質(zhì)信息數(shù)據(jù)、堤基地質(zhì)信息數(shù)據(jù)、岸坡地質(zhì)信息數(shù)據(jù)、微地貌信息及其他信息數(shù)據(jù)。

(8)監(jiān)測(cè)數(shù)據(jù)。監(jiān)測(cè)數(shù)據(jù)包括堤防水下變形監(jiān)測(cè)數(shù)據(jù)、滲流與地下水監(jiān)測(cè)數(shù)據(jù)、物探監(jiān)測(cè)數(shù)據(jù)、壓力監(jiān)測(cè)數(shù)據(jù)、應(yīng)力應(yīng)變及溫度監(jiān)測(cè)數(shù)據(jù)、變形監(jiān)測(cè)數(shù)據(jù)及環(huán)境因子監(jiān)測(cè)數(shù)據(jù)。

2.2 數(shù)據(jù)編碼

分析8類數(shù)據(jù)中每類數(shù)據(jù)包含的層級(jí)關(guān)系,得到各類數(shù)據(jù)最多所需要的層級(jí),其中工程數(shù)據(jù)、水文氣象數(shù)據(jù)、人文經(jīng)濟(jì)數(shù)據(jù)、地理數(shù)據(jù)、地質(zhì)數(shù)據(jù)、物探數(shù)據(jù)、險(xiǎn)情數(shù)據(jù)、監(jiān)測(cè)數(shù)據(jù)需要的層級(jí)數(shù)分別為4,2,1,4,6,4,1,4。根據(jù)折中又不影響數(shù)據(jù)全部錄入原則,最后確定用五級(jí)節(jié)點(diǎn)目錄來劃分?jǐn)?shù)據(jù)結(jié)構(gòu),每級(jí)目錄給予一個(gè)分類碼,前4級(jí)目錄分類碼從“1~9”及小寫英文字母中取值,其中小寫英文字母去掉“o”和“z”,目錄等級(jí)不夠的用數(shù)字0填補(bǔ),最后的底層目錄(第5級(jí)目錄)用2位數(shù)字編碼,范圍從“01~99”中取值,以給文檔和表格編號(hào),見圖2。每級(jí)分類碼及底層編碼均未滿,數(shù)據(jù)庫(kù)的擴(kuò)展性強(qiáng)。

圖2 堤防工程數(shù)據(jù)管理系統(tǒng)數(shù)據(jù)編碼示意圖

2.3 數(shù)據(jù)表設(shè)計(jì)

針對(duì)數(shù)據(jù)編碼底層目錄中的結(jié)構(gòu)化數(shù)據(jù)表進(jìn)行設(shè)計(jì)[10-12],其主要包括6方面內(nèi)容。

(1)中文表名。由漢字組成,一般來說字?jǐn)?shù)<20,簡(jiǎn)明扼要地表達(dá)該表所描述的內(nèi)容。

(2)表主題。進(jìn)一步闡述表的內(nèi)容和目的。

(3)表標(biāo)識(shí)。該表在數(shù)據(jù)庫(kù)中的真實(shí)表名,命名規(guī)則是:T_xxx_X,其中T為表格式類碼;xxx為中文關(guān)鍵字的英文簡(jiǎn)寫,一般來說長(zhǎng)度不超過30個(gè)字符;X為主題標(biāo)識(shí),一一對(duì)應(yīng)8種數(shù)據(jù),從大寫字母A—H中取值。

(4)表號(hào)。即為數(shù)據(jù)編碼,從編碼圖中獲得。

(5)表體。表體設(shè)計(jì)主要包含7方面的內(nèi)容:序號(hào)、字段名、字段標(biāo)識(shí)、類型及長(zhǎng)度、必填項(xiàng)、單位及主鍵,其中序號(hào)是對(duì)字段個(gè)數(shù)的統(tǒng)計(jì);字段名根據(jù)表格所要表示內(nèi)容確定;字段標(biāo)識(shí)是字段在數(shù)據(jù)數(shù)據(jù)庫(kù)中的表現(xiàn)方式,命名規(guī)則是字段名中文關(guān)鍵字的英文縮寫,一般來說字母?jìng)€(gè)數(shù)<10,不足10個(gè)時(shí)用全名;類型及長(zhǎng)度是對(duì)字段的類型和長(zhǎng)度進(jìn)行定義,其中類型一般包括定長(zhǎng)字符串char、變長(zhǎng)字符串varchar、整型int、雙精型double、日期型date及時(shí)間型time,長(zhǎng)度需要根據(jù)字段可能表示長(zhǎng)度確定,宜多不能少;必填項(xiàng)是對(duì)字段名是否為非空字段進(jìn)行定義,非空就填Y,否則不填;單位是根據(jù)字段的屬性選用國(guó)際通用單位,有則填,無則不填;主鍵是對(duì)字段是否為主鍵進(jìn)行設(shè)定,主鍵必須為非空。

(6)代碼。字段取值為固定選項(xiàng)時(shí),宜以字段代碼代替文字輸入[13-14]。本數(shù)據(jù)代碼采用一個(gè)表格將所有的代碼填入其中,下不封口,見表1。

表1 堤防工程數(shù)據(jù)管理系統(tǒng)數(shù)據(jù)代碼

代碼表主要包含6方面內(nèi)容:字典名稱即為字段名;字典類型為標(biāo)段標(biāo)識(shí);字典碼為不同字典值的代碼;字典值為每個(gè)字典碼代表的中文含義;排序是字典值的順序;備注主要標(biāo)識(shí)應(yīng)用的規(guī)范,對(duì)于已有規(guī)范規(guī)定的代碼,字典碼按規(guī)取值,備注里填寫引用的規(guī)范;對(duì)于無規(guī)范規(guī)定的字典碼,按照字典值個(gè)數(shù),用數(shù)字來表示字典碼。

3 非結(jié)構(gòu)化數(shù)據(jù)標(biāo)準(zhǔn)化

Java Script對(duì)象表示法(Java Script Object Notation,JSON)是一種輕量級(jí)的數(shù)據(jù)交換格式,具有良好的可讀性以及快速編寫特性,可以在不同平臺(tái)間完成數(shù)據(jù)交換。

本文采取“非結(jié)構(gòu)化數(shù)據(jù)-JSON-結(jié)構(gòu)化數(shù)據(jù)”的轉(zhuǎn)換方式,將非結(jié)構(gòu)化技術(shù)資料的元數(shù)據(jù)信息轉(zhuǎn)換為可存儲(chǔ)在數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù),為非結(jié)構(gòu)化數(shù)據(jù)標(biāo)準(zhǔn)化問題提供解決方法。

針對(duì)堤防工程數(shù)據(jù)的分類,利用JSON對(duì)堤防工程相關(guān)非結(jié)構(gòu)化數(shù)據(jù)的共有屬性進(jìn)行描述和表達(dá)。這些非結(jié)構(gòu)化數(shù)據(jù)多以Word文檔、圖片和多媒體文件的形式表現(xiàn),其共有屬性具有一定的結(jié)構(gòu)性,例如Word文檔中的工程地質(zhì)勘察報(bào)告,其共有屬性包含:描述堤段所在流域、省份、堤壩分段(描述堤段所屬大范圍堤段),數(shù)據(jù)分類(8類數(shù)據(jù)中的一種),樁號(hào)(描述堤段的起始樁號(hào)),主要描述內(nèi)容等。在文檔上傳的時(shí)候錄入這些共有信息,見圖3,然后根據(jù)這些結(jié)構(gòu)性信息編寫相關(guān)的JSON文檔,最終將帶有JSON信息的非結(jié)構(gòu)化文檔儲(chǔ)存在數(shù)據(jù)庫(kù)中,方便后期對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行檢索。

圖3 堤防工程數(shù)據(jù)文檔上傳界面

4 數(shù)據(jù)入庫(kù)與清洗

堤防工程數(shù)據(jù)來源于多個(gè)部門,且分屬不同的系統(tǒng),數(shù)據(jù)在標(biāo)準(zhǔn)化過程中有以下2方面的問題。

(1)數(shù)據(jù)源的異構(gòu)性。堤防數(shù)據(jù)的數(shù)據(jù)源較為復(fù)雜,主要包含2類數(shù)據(jù):結(jié)構(gòu)化數(shù)據(jù),如關(guān)系型數(shù)據(jù);非結(jié)構(gòu)化數(shù)據(jù),如Word文檔、視頻、圖片等。針對(duì)不同的數(shù)據(jù)類型,采用的數(shù)據(jù)清洗和入庫(kù)的方式是不同的。傳統(tǒng)方式只能對(duì)每一種數(shù)據(jù)源單獨(dú)開發(fā)一套數(shù)據(jù)采集、清洗、入庫(kù)規(guī)則程序,數(shù)據(jù)標(biāo)準(zhǔn)化過程復(fù)雜,很難做到對(duì)數(shù)據(jù)的統(tǒng)一管理。

(2)數(shù)據(jù)質(zhì)量不高。主要表現(xiàn)在以下幾個(gè)方面:①源表與目標(biāo)表存在“一對(duì)一”“一對(duì)多”或“多對(duì)一”的映射關(guān)系;②源表字段與目標(biāo)字段的名稱、數(shù)據(jù)類型、呈現(xiàn)方式等存在差異;③數(shù)據(jù)字段格式不統(tǒng)一,比如時(shí)間和參數(shù)等,存在大量的轉(zhuǎn)換、合并、拆分、截取、替換、計(jì)算等處理等清洗操作。因此在數(shù)據(jù)標(biāo)準(zhǔn)化過程中需制定大量的清洗規(guī)則。

基于上述問題,本文提出一種關(guān)于數(shù)據(jù)清洗的數(shù)據(jù)標(biāo)準(zhǔn)化的方法,能夠?qū)崿F(xiàn)異構(gòu)數(shù)據(jù)源統(tǒng)一接入和數(shù)據(jù)清洗的動(dòng)態(tài)配置,降低了數(shù)據(jù)標(biāo)準(zhǔn)化的復(fù)雜度。

4.1 數(shù)據(jù)清洗架構(gòu)

數(shù)據(jù)清洗架構(gòu)如圖4所示,主要包括數(shù)據(jù)接入、數(shù)據(jù)清洗、調(diào)度中心幾個(gè)模塊。數(shù)據(jù)接入模塊解決了異構(gòu)數(shù)據(jù)源不能統(tǒng)一處理的問題,不同類型數(shù)據(jù)通過不同方式接入到系統(tǒng)中,并通過數(shù)據(jù)清洗模塊進(jìn)行統(tǒng)一處理,最終統(tǒng)一放入目標(biāo)庫(kù)中。

圖4 數(shù)據(jù)清洗架構(gòu)

4.2 數(shù)據(jù)接入

對(duì)2種不同數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)源分別進(jìn)行數(shù)據(jù)抽取,數(shù)據(jù)接入模塊如圖5所示,其主要由SQL執(zhí)行模塊、定時(shí)器模塊和文件監(jiān)聽模塊組成。將抽取后的數(shù)據(jù)統(tǒng)一推送至消息隊(duì)列Kafka中,Kafka是一種高吞吐量分布式發(fā)布訂閱消息系統(tǒng),數(shù)據(jù)清洗模塊再對(duì)消息隊(duì)列中的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗。

圖5 數(shù)據(jù)接入模塊

(1)SQL執(zhí)行模塊。SQL執(zhí)行模塊是針對(duì)關(guān)系型數(shù)據(jù)庫(kù)的一種抽取模塊,通過編寫SQL腳本,定時(shí)獲取數(shù)據(jù)庫(kù)中某些列的數(shù)據(jù),并將數(shù)據(jù)推送到Kafka中。

(2)定時(shí)器模塊。定時(shí)調(diào)用SQL執(zhí)行模塊和文件監(jiān)控模塊,讀取結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),通過調(diào)節(jié)定時(shí)參數(shù),可以控制數(shù)據(jù)讀取的速率。

(3)文件監(jiān)聽模塊。文件監(jiān)聽模塊主要是監(jiān)聽某個(gè)或某些文件夾文件的增加情況,當(dāng)有新文件增加時(shí),讀取并解析文件,并將解析后的數(shù)據(jù)推送到Kafka中,主要實(shí)現(xiàn)流程如下:

①利用定時(shí)器模塊的定時(shí)循環(huán)執(zhí)行文件監(jiān)控程序。

②利用WatchService實(shí)時(shí)監(jiān)聽文件夾是否有新文件增加,通過阻塞式IO流實(shí)現(xiàn)文件上傳服務(wù)器,并進(jìn)行解析文本操作,如果是Excel,則按照行進(jìn)行提取。

③將解析后的結(jié)構(gòu)化數(shù)據(jù)推送到Kafka中。

4.3 調(diào)度中心

調(diào)度中心用來管理數(shù)據(jù)清洗的腳本文件,實(shí)現(xiàn)清洗腳本的動(dòng)態(tài)注冊(cè)與加載。當(dāng)增加一種數(shù)據(jù)源時(shí),首先進(jìn)行數(shù)據(jù)調(diào)研,建立源表和目標(biāo)表,源字段和目標(biāo)字段之間映射關(guān)系,制定數(shù)據(jù)遷移方案,然后對(duì)不同的數(shù)據(jù)編寫各自的數(shù)據(jù)清洗腳本,并通過WEB界面動(dòng)態(tài)注冊(cè)到調(diào)度中心。

4.4 數(shù)據(jù)清洗

數(shù)據(jù)清洗主要包括數(shù)據(jù)驗(yàn)證和數(shù)據(jù)轉(zhuǎn)換,其主要任務(wù)是解析用戶注冊(cè)的數(shù)據(jù)清洗腳本和配置信息,并生成數(shù)據(jù)清洗的程序,從源數(shù)據(jù)庫(kù)抽取相應(yīng)數(shù)據(jù),進(jìn)行相應(yīng)轉(zhuǎn)換操作(字段合并、字段拆分、類型轉(zhuǎn)換、值替換、字段計(jì)算等)。

(1)數(shù)據(jù)驗(yàn)證。進(jìn)行數(shù)據(jù)驗(yàn)證基于以下2個(gè)原因:①防止出現(xiàn)無法預(yù)料的異常錯(cuò)誤造成轉(zhuǎn)換操作中止;②審核數(shù)據(jù)是否滿足預(yù)先設(shè)定要求,因此需在數(shù)據(jù)清洗預(yù)處理階段進(jìn)行數(shù)據(jù)驗(yàn)證。數(shù)據(jù)驗(yàn)證主要是通過正則表達(dá)式驗(yàn)證字段數(shù)據(jù)的有效性,正則表達(dá)式可驗(yàn)證數(shù)據(jù)是否是數(shù)字、字符、連字符、空格、取值范圍等,例如:驗(yàn)證輸入文本文件名稱以“txt”開始,后面緊跟日期格式“yyyy-mm-dd”,正則表達(dá)式可設(shè)置為“txt(20)dd-(0[1-9]|1[012])-([01][1-9]|3[01]).txt”,“txt2016-12-15.txt”為符合規(guī)則文件名稱,“txt5016-24-35.txt”為不符合規(guī)則文件名稱。

(2)數(shù)據(jù)轉(zhuǎn)換。腳本解析模塊解析用戶提交的腳本和配置,生成字段映射表和相應(yīng)執(zhí)行程序,抽取源數(shù)據(jù)庫(kù)數(shù)據(jù),根據(jù)字段映射表對(duì)字段數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換、合并、拆分、計(jì)算等操作,數(shù)據(jù)轉(zhuǎn)換模型如圖6所示,最后將標(biāo)準(zhǔn)化數(shù)據(jù)寫入目標(biāo)數(shù)據(jù)庫(kù)中。

圖6 數(shù)據(jù)轉(zhuǎn)換模型

5 結(jié) 論

(1)通過數(shù)據(jù)分類、數(shù)據(jù)編碼及表設(shè)計(jì)3個(gè)步驟的操作,對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,可為其他數(shù)據(jù)庫(kù)中存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)提供借鑒。

(2)利用JSON描述文檔的關(guān)鍵信息,將帶有文檔屬性的JSON連同文檔一起存入數(shù)據(jù)庫(kù),可為非結(jié)構(gòu)化數(shù)據(jù)標(biāo)準(zhǔn)化提供思路。

(3)統(tǒng)一接入和動(dòng)態(tài)配置的數(shù)據(jù)接入和清洗方法,大大提高了數(shù)據(jù)清洗的兼容性,降低了數(shù)據(jù)清洗過程的復(fù)雜度,提高了堤防工程數(shù)據(jù)標(biāo)準(zhǔn)化過程的效率,可為其他多源數(shù)據(jù)快速而高效清洗提供參考。

猜你喜歡
堤防結(jié)構(gòu)化標(biāo)準(zhǔn)化
標(biāo)準(zhǔn)化簡(jiǎn)述
促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
改進(jìn)的非結(jié)構(gòu)化對(duì)等網(wǎng)絡(luò)動(dòng)態(tài)搜索算法
基于三維數(shù)值模擬的堤防抗沖刷及穩(wěn)定性分析
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
左顧右盼 瞻前顧后 融會(huì)貫通——基于數(shù)學(xué)結(jié)構(gòu)化的深度學(xué)習(xí)
石料拋填施工工藝在水利堤防施工中的應(yīng)用
緊鄰堤防深基坑開挖方法研究與應(yīng)用
標(biāo)準(zhǔn)化是綜合交通運(yùn)輸?shù)谋U稀庾x《交通運(yùn)輸標(biāo)準(zhǔn)化體系》
論汽車維修診斷標(biāo)準(zhǔn)化(上)