国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺析海洋數(shù)據(jù)成果質(zhì)量問題與清洗方法

2019-12-04 04:16:01呂文斌秦笠偉洪敏慎
關(guān)鍵詞:數(shù)據(jù)治理海洋

呂文斌 秦笠偉 洪敏慎

摘要:隨著上海市水務(wù)海洋數(shù)據(jù)中心的建設(shè)運(yùn)行,每天都要匯聚全市多個(gè)涉海部門的大量海洋類監(jiān)測數(shù)據(jù)。針對這些不同源端數(shù)據(jù)存在的一些結(jié)構(gòu)問題、格式問題、缺失問題、噪點(diǎn)問題等,進(jìn)行了技術(shù)清洗和規(guī)范整合。

關(guān)鍵詞:海洋;數(shù)據(jù)治理;數(shù)據(jù)清洗

中圖分類號(hào):P285.7 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2019)08-0222-02

0 引言

隨著信息時(shí)代的發(fā)展,各類海洋數(shù)據(jù)成果的數(shù)量也呈現(xiàn)幾何級(jí)別的增長趨勢,海洋數(shù)據(jù)目前主要可以分類為海洋基礎(chǔ)地理數(shù)據(jù)、海洋基礎(chǔ)資料數(shù)據(jù)、海洋管理專題信息、海洋業(yè)務(wù)運(yùn)行數(shù)據(jù)、海洋綜合信息產(chǎn)品和海洋元數(shù)據(jù)等,這些數(shù)據(jù)集合的存儲(chǔ)結(jié)構(gòu)模式存在著結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù),其中非結(jié)構(gòu)化數(shù)據(jù)所占的比例巨大。由于存在著大量的數(shù)據(jù)質(zhì)量問題,這些數(shù)據(jù)在進(jìn)行整合應(yīng)用分析前需要進(jìn)行清洗以保證正確的分析結(jié)果,本文主要探討了當(dāng)前海洋數(shù)據(jù)成果中存在的質(zhì)量問題以及對應(yīng)這些問題的清洗方法。

1 海洋數(shù)據(jù)成果存在的質(zhì)量問題

目前海洋數(shù)據(jù)成果存在的問題類型主要可以分為以下八種情況:

1.1 海洋數(shù)據(jù)結(jié)構(gòu)存在問題

指的是某些海洋數(shù)據(jù)集合中的海洋對象數(shù)據(jù)結(jié)構(gòu)不滿足關(guān)系型數(shù)據(jù)庫的范式定義。比如:在航道對象中定義的寬度屬性存在上下限的范圍,根據(jù)數(shù)據(jù)庫的第一范式規(guī)則應(yīng)該定義兩個(gè)字段分別用于填寫寬度上限和寬度下限,而某些數(shù)據(jù)源中則把航道的寬度數(shù)據(jù)使用一個(gè)字段進(jìn)行表示上下限“10-20”。

這類問題通常發(fā)生在半結(jié)構(gòu)化和非結(jié)構(gòu)化類型的數(shù)據(jù)源中,數(shù)據(jù)管理單位沒有把海洋對象的屬性進(jìn)行完全區(qū)分,導(dǎo)致原本是兩種或以上的屬性字段被記錄在一個(gè)屬性字段中。

1.2 海洋數(shù)據(jù)屬性字段格式規(guī)范不統(tǒng)一

指的是某些數(shù)據(jù)源中海洋對象的屬性字段格式存在隨意性,標(biāo)準(zhǔn)規(guī)范不統(tǒng)一。比如:在非結(jié)構(gòu)化數(shù)據(jù)源中對于日期格式的定義有些是年月日,有些是日月年。

這類問題通常發(fā)生在非結(jié)構(gòu)化類型的數(shù)據(jù)源中,因?yàn)榉墙Y(jié)構(gòu)化數(shù)據(jù)缺乏一些必要的數(shù)據(jù)類型,導(dǎo)致存儲(chǔ)相關(guān)數(shù)據(jù)時(shí)根據(jù)輸入者的習(xí)慣確定相關(guān)格式,導(dǎo)致出現(xiàn)了很多不符合規(guī)范格式的數(shù)據(jù)。

1.3 海洋數(shù)據(jù)屬性單位不規(guī)范

指的是海洋數(shù)據(jù)屬性在單位上不統(tǒng)一,不規(guī)范。比如:在深度的計(jì)量上有些使用“米”作為單位,有些使用“千米”作為單位。

這類問題在結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)源中常見,因?yàn)槿狈ο嚓P(guān)的數(shù)據(jù)標(biāo)準(zhǔn),數(shù)據(jù)的管理者通常按照自身習(xí)慣自由選擇單位進(jìn)行數(shù)據(jù)的填報(bào),導(dǎo)致不同數(shù)據(jù)源制式單位的不一致。

1.4 海洋數(shù)據(jù)記錄中存在離散型噪點(diǎn)

是指數(shù)據(jù)記錄中出現(xiàn)了明顯的離散點(diǎn)或者異常值。比如:監(jiān)測雨量的氣象站點(diǎn)出現(xiàn)了負(fù)值雨量的情況。

這類問題發(fā)生的原因可能是由于監(jiān)測設(shè)備出現(xiàn)了跳數(shù)或者異常,導(dǎo)致入庫數(shù)據(jù)存在問題。

1.5 海洋數(shù)據(jù)記錄的重復(fù)存儲(chǔ)

指同一數(shù)據(jù)記錄被進(jìn)行重復(fù)存儲(chǔ)。比如:外高橋碼頭被同時(shí)存儲(chǔ)為兩條數(shù)據(jù)記錄。

這類問題在結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)源中常見,主要由于缺乏對于數(shù)據(jù)對象的主鍵定義,導(dǎo)致數(shù)據(jù)庫中存在重復(fù)記錄。

1.6 無效的海洋數(shù)據(jù)記錄

是指某些無效的數(shù)據(jù)記錄被存儲(chǔ)在數(shù)據(jù)源中。比如:因?yàn)殇浫脲e(cuò)誤,某個(gè)并不存在的監(jiān)測站點(diǎn)保存在海洋監(jiān)測站點(diǎn)表中,或者原對象被改名、廢除等,但是數(shù)據(jù)源沒有及時(shí)進(jìn)行更新。這類問題在結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)源中常見。

1.7 海洋數(shù)據(jù)記錄的屬性缺失

指的是數(shù)據(jù)記錄的某些屬性發(fā)生了丟失,包含海洋監(jiān)測數(shù)據(jù)記錄或海洋實(shí)體對象記錄等。比如:監(jiān)測站點(diǎn)在上傳記錄中丟失監(jiān)測值。這類問題在結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)源中常見,主要由于海洋監(jiān)測數(shù)據(jù)記錄的屬性缺失可能由于監(jiān)測硬件設(shè)備異常導(dǎo)致;海洋實(shí)體對象記錄的屬性丟失可能是由于缺乏相關(guān)的數(shù)據(jù)支持導(dǎo)致無法填寫。

1.8 海洋數(shù)據(jù)記錄的缺失

指在海洋數(shù)據(jù)記錄在數(shù)據(jù)源中的存儲(chǔ)缺失,包含海洋監(jiān)測數(shù)據(jù)記錄或海洋實(shí)體對象記錄等。海洋實(shí)體對象記錄的缺失可能是由于對于新建的對象或者改名的對象沒有實(shí)時(shí)更新至數(shù)據(jù)庫中導(dǎo)致;監(jiān)測數(shù)據(jù)記錄的丟失可能由于數(shù)據(jù)入庫過程中發(fā)生了通訊異常或是監(jiān)測硬件發(fā)生故障導(dǎo)致。

2 海洋數(shù)據(jù)清洗方法

2.1 人工智能處理

針對海洋數(shù)據(jù)結(jié)構(gòu)問題、海洋數(shù)據(jù)屬性字段格式規(guī)范問題、海洋數(shù)據(jù)屬性單位規(guī)范問題以及無效的海洋數(shù)據(jù)記錄問題,需要根據(jù)可能出現(xiàn)的情況,在數(shù)據(jù)交換過程中定義相關(guān)的數(shù)據(jù)清洗流程,并不斷的通過數(shù)據(jù)集訓(xùn)練人工智能神經(jīng)網(wǎng)絡(luò)判別上述問題并進(jìn)行修正,例如對于不滿足數(shù)據(jù)庫定義第一范式的數(shù)據(jù)結(jié)構(gòu)問題,需要把源數(shù)據(jù)通過對比和字段拆分,比如表示航道寬度的“10-20”拆分為下限的10和上限的20并分別存儲(chǔ)在兩個(gè)字段中;將存在數(shù)據(jù)字段格式問題的數(shù)據(jù)記錄轉(zhuǎn)換為標(biāo)準(zhǔn)規(guī)范格式,比如在對時(shí)間字段進(jìn)行標(biāo)準(zhǔn)化時(shí),可以嘗試通過數(shù)字位數(shù)去識(shí)別年份,通過數(shù)值范圍去區(qū)別月份跟日期,或者可能出現(xiàn)的年月日組合情況去識(shí)別時(shí)間并轉(zhuǎn)換為日期格式存儲(chǔ);對于屬性單位不一致的情況,首先要確定標(biāo)準(zhǔn)的單位制式,然后根據(jù)單位之間的差距進(jìn)行換算處理,比如米和千米差了1000倍,假設(shè)使用米作為標(biāo)準(zhǔn)單位,需要對使用千米的數(shù)據(jù)乘以1000等;對于無效數(shù)據(jù)記錄可以根據(jù)每年海洋數(shù)據(jù)的更新頻次進(jìn)行判別,如果出現(xiàn)較長年份未更新的情況,則把數(shù)據(jù)記錄標(biāo)志為無效。

2.2 海洋數(shù)據(jù)去重

解決海洋數(shù)據(jù)記錄的重復(fù)存儲(chǔ)問題可以通過對交換的源端數(shù)據(jù)進(jìn)行排序后篩選,根據(jù)判別唯一性條件的數(shù)據(jù)屬性字段對數(shù)據(jù)集合進(jìn)行排序,通過比較排序后相鄰的數(shù)據(jù)記錄的相似度和重復(fù)性情況,通過分析后對判定為重復(fù)記錄的數(shù)據(jù)進(jìn)行合并。

2.3 海洋缺失數(shù)據(jù)插值

對于海洋數(shù)據(jù)記錄的屬性缺失和海洋數(shù)據(jù)記錄的缺失問題可以通過插值法進(jìn)行修正和補(bǔ)充,常見的插值法主要有均值填充法和熱卡填充法。對于實(shí)時(shí)監(jiān)測數(shù)據(jù)發(fā)生的少數(shù)數(shù)據(jù)屬性丟失或者記錄丟失情況可以選用均值填充法,選擇丟失數(shù)據(jù)鄰近關(guān)系最大的一組記錄計(jì)算均值,然后使用均值進(jìn)行填充屬性或者插入缺失記錄;對于缺失較大規(guī)模的監(jiān)測數(shù)據(jù)屬性或者數(shù)據(jù)記錄,比如丟失了某一段時(shí)間的數(shù)據(jù),可以選用熱卡填充法進(jìn)行補(bǔ)充數(shù)據(jù),在歷史數(shù)據(jù)庫中根據(jù)丟失數(shù)據(jù)日的自然狀況如:風(fēng)速、風(fēng)向、溫度等設(shè)定排序條件,選擇歷史數(shù)據(jù)源中與丟失時(shí)間段情況相似度最高的記錄進(jìn)行填補(bǔ)。對于實(shí)體對象數(shù)據(jù)出現(xiàn)的屬性丟失或者記錄丟失,可以采用熱卡填充法,選擇數(shù)據(jù)庫中存儲(chǔ)與丟失記錄相似或最近的對象記錄進(jìn)行填補(bǔ)。除上述兩種常見的插值法外,還存在回歸填補(bǔ)法、多重填補(bǔ)方法、K-最近鄰法、有序最近鄰法、基于貝葉斯的方法等,可以根據(jù)海洋數(shù)據(jù)的實(shí)際情況進(jìn)行選擇使用。

2.4 海洋數(shù)據(jù)去噪

對于海洋數(shù)據(jù)記錄中存在離散型噪點(diǎn)問題可以分為不滿足數(shù)據(jù)屬性字段規(guī)范性約束條件數(shù)據(jù)(比如:長度字段出現(xiàn)了負(fù)值)和離散型噪點(diǎn)數(shù)據(jù)。

對于明顯不滿足數(shù)據(jù)屬性字段規(guī)范性約束條件的數(shù)據(jù),可以通過設(shè)定相關(guān)屬性字段的值域范圍邊界,在數(shù)據(jù)交換過程對于屬性值超出邊界的記錄進(jìn)行過濾,后續(xù)可以采用插值法填補(bǔ)被過濾的記錄。

對于離散型噪點(diǎn)數(shù)據(jù)的判定,通??梢曰谙湫蛨D進(jìn)行分析,先把歷史樣本數(shù)據(jù)進(jìn)行從小到大排序,然后獲取位于25%處的數(shù)值設(shè)為下四分位值即L,獲取位于75%處的數(shù)值設(shè)為上四分位值即U,由此可計(jì)算出上四分位與下四分位的插值IQR,即:IQR=U-L,然后在數(shù)據(jù)抽取過程中出現(xiàn)屬性值超過下界L-1.5IQR或者超過上界U+1.5IQR視為離散型噪點(diǎn)進(jìn)行過濾。使用箱型圖進(jìn)行分析的優(yōu)勢在于確定異常值范圍邊界的條件是根據(jù)樣本數(shù)據(jù)進(jìn)行判定,結(jié)果比較客觀。除了基于箱型圖的噪點(diǎn)判定方法外,還有根據(jù)屬性字段之間的距離差,根據(jù)屬性字段的空間密度分布情況進(jìn)行判斷的方法,可以根據(jù)具體的實(shí)際情況進(jìn)行分析應(yīng)用。

3 關(guān)鍵技術(shù)

3.1 海洋數(shù)據(jù)規(guī)范

對于海洋數(shù)據(jù)成果進(jìn)行數(shù)據(jù)清洗,規(guī)范標(biāo)準(zhǔn)的制定是重要的環(huán)節(jié),完善的標(biāo)準(zhǔn)規(guī)范一般包含以下內(nèi)容:

3.1.1 海洋對象范圍的確定

標(biāo)準(zhǔn)規(guī)范中需要確定海洋對象范圍,需要明確規(guī)定海洋數(shù)據(jù)集合中存在的要素對象以及其分類,對于一些相似或者相近的對象可以直接合并歸類為一種海洋對象實(shí)體。

3.1.2 對象屬性的規(guī)范

標(biāo)準(zhǔn)規(guī)范需要明確各個(gè)海洋對象屬性的數(shù)量、名稱以及其約束性條件,包括:必填項(xiàng)與選填項(xiàng)、默認(rèn)值等。

3.1.3 字段類型的規(guī)范

標(biāo)準(zhǔn)規(guī)范需要定義各個(gè)海洋對象屬性的字段類型、字段大小、字段所使用的單位以及字段取值的閾值范圍。

3.1.4 對象名稱的規(guī)范

針對同一對象在不同單位出現(xiàn)不同名存儲(chǔ)的情況,規(guī)范標(biāo)準(zhǔn)需要規(guī)定最終具有命名權(quán)利的機(jī)構(gòu),其它單位要根據(jù)確定規(guī)范的對象名稱對其數(shù)據(jù)進(jìn)行調(diào)整。

3.2 管理制度的規(guī)范

對于海洋數(shù)據(jù)管理需要明確落實(shí)責(zé)任單位主體,對于數(shù)據(jù)的更新機(jī)制、溝通反饋機(jī)制、數(shù)據(jù)質(zhì)量評估機(jī)制以及考評機(jī)制需要作出明確規(guī)定。

3.2.1 ETL技術(shù)

ETL技術(shù)主要由三個(gè)部分組成:數(shù)據(jù)的抽?。‥xtract)、數(shù)據(jù)的清洗轉(zhuǎn)換(Transform)和數(shù)據(jù)的加載(Load)。使用ETL工具將來自各個(gè)不同的數(shù)據(jù)源中存儲(chǔ)的海洋數(shù)據(jù)資源抽取到指定的中轉(zhuǎn)數(shù)據(jù)存儲(chǔ)中,然后通過對海洋數(shù)據(jù)進(jìn)行質(zhì)量清洗轉(zhuǎn)換后根據(jù)業(yè)務(wù)需要寫入不同業(yè)務(wù)模式的數(shù)據(jù)庫用于應(yīng)用分析,以提高分析的準(zhǔn)確度。主流開源的ETL工具有Apache Kafka、Apache Camel、Logstash和Kettle等。

3.2.2 人工智能技術(shù)

人工智能技術(shù)是通過深層神經(jīng)網(wǎng)絡(luò)算法來模擬人類的大腦學(xué)習(xí)過程,從而去解決相關(guān)的問題,用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的樣本數(shù)據(jù)量多少以及算法的有效性決定了人工智能解決問題的能力強(qiáng)弱。在海洋數(shù)據(jù)質(zhì)量處理方面,可以通過歷史積累的大量海洋數(shù)據(jù)資源幫助人工智能技術(shù)進(jìn)行模仿式的學(xué)習(xí),將事先分類完成正確的海洋數(shù)據(jù)與存在質(zhì)量問題的海洋數(shù)據(jù)反復(fù)引導(dǎo)人工智能識(shí)別、判斷和修正,從而建立人工智能海洋數(shù)據(jù)質(zhì)量判別知識(shí)儲(chǔ)備庫,為之后自動(dòng)進(jìn)行數(shù)據(jù)甄別和改正提供技術(shù)支撐。主流開源的人工智能框架有TensorFlow、Apache SystemML、Caffe和OpenCog等。

4 結(jié)語

本文對海洋數(shù)據(jù)集合中存在的問題進(jìn)行了分類,并逐一進(jìn)行了成因的分析,并對這些問題在數(shù)據(jù)交換過程進(jìn)行清洗的方法進(jìn)行了探討,這些方法對于提高海洋數(shù)據(jù)質(zhì)量有著重要的幫助。如何將這些方法跟實(shí)際的海洋數(shù)據(jù)整合工作相結(jié)合,為提升海洋數(shù)據(jù)清洗工作效率發(fā)揮更好的作用,值得更多的思考。

參考文獻(xiàn)

[1] 黃冬梅,趙丹楓,魏立斐,等.大數(shù)據(jù)背景下海洋數(shù)據(jù)管理的挑戰(zhàn)與對策[J].計(jì)算機(jī)科學(xué),2016(6):17-23.

[2] 宋德瑞,曹可,張建麗,等.大數(shù)據(jù)視域下的海洋信息化建設(shè)構(gòu)想[J].海洋開發(fā)與管理,2017(9):50-52.

[3] 許莉莉,湯海榮,張燕歌.海洋信息化標(biāo)準(zhǔn)體系研究[J].中國標(biāo)準(zhǔn)導(dǎo)報(bào),2015(1):49-51.

[4] 王洪艷,郭云峰.大數(shù)據(jù)技術(shù)在人工智能中的應(yīng)用研究[J].數(shù)字技術(shù)與應(yīng)用,2015(12):109-110.

[5] 劉高嶺.海洋信息元數(shù)據(jù)目錄服務(wù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].青島:中國海洋大學(xué),2008.

Analysis on the Quality Problems and Cleaning Methods of Marine Data

LV Wen-bin1,QIN Li-wei2,HONG Min-shen2

(1.Shanghai Ocean Information Center,Shanghai? 200050;2.Shanghai Net Yue Information Technology Co., Ltd.,Shanghai? 200050)

Abstract:With the construction and operation of the Shanghai Water and Marine Data Center, a large number of marine monitoring data from various sea-related departments in the city are gathered every day. For some structural problems, format problems, missing problems, noise problems, etc. of these different source data, technical cleaning and specification integration were carried out.

Key words:ocean; data governance; data cleaning

猜你喜歡
數(shù)據(jù)治理海洋
出發(fā),去看看未來的海洋
海洋的路
愛的海洋
琴童(2017年7期)2017-07-31 18:33:48
第一章 向海洋出發(fā)
基于本體的企業(yè)運(yùn)營數(shù)據(jù)治理
云端數(shù)據(jù)治理初探
《海洋之歌》
運(yùn)用流程化手段提升資產(chǎn)管理水平
大數(shù)據(jù)治理模型與治理成熟度評估研究
大數(shù)據(jù)時(shí)代城市治理:數(shù)據(jù)異化與數(shù)據(jù)治理
海南省| 霞浦县| 无极县| 五常市| 邳州市| 新龙县| 安福县| 长顺县| 伽师县| 凤台县| 吉隆县| 冀州市| 无锡市| 安义县| 长沙市| 西华县| 汉寿县| 英德市| 台山市| 炉霍县| 云安县| 建德市| 社会| 平泉县| 宜兰县| 田阳县| 准格尔旗| 屏边| 湛江市| 长海县| 贡觉县| 长泰县| 石棉县| 通化市| 舟曲县| 磐安县| 陆河县| 太白县| 色达县| 潞西市| 万宁市|