国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

農(nóng)業(yè)微氣象觀測數(shù)據(jù)清洗和質(zhì)控技術(shù)研究

2020-10-09 10:13:00周強(qiáng)
湖北農(nóng)業(yè)科學(xué) 2020年14期

周強(qiáng)

摘要:基于農(nóng)田特有氣象觀測設(shè)備和環(huán)境屬性,建立農(nóng)業(yè)氣象數(shù)據(jù)清洗標(biāo)準(zhǔn)和質(zhì)控方法,以提升農(nóng)業(yè)氣象觀測數(shù)據(jù)質(zhì)量。針對數(shù)據(jù)屬性異常和重復(fù)記錄情形,選取Bohn數(shù)據(jù)清洗模型的空缺值清洗方法和噪聲數(shù)據(jù)清洗方法。通過農(nóng)業(yè)微氣象觀測站點(diǎn)空間內(nèi)觀測要素歷史數(shù)據(jù)統(tǒng)計,獲取清潔數(shù)據(jù)指標(biāo),應(yīng)用于數(shù)據(jù)質(zhì)量動態(tài)閾值生成方法,建立農(nóng)業(yè)微氣象數(shù)據(jù)質(zhì)量控制模型。清洗質(zhì)控后的數(shù)據(jù)評估指標(biāo)表明,經(jīng)過數(shù)據(jù)清洗和質(zhì)控模型后數(shù)據(jù)準(zhǔn)確率和重復(fù)性均有明顯改善。數(shù)據(jù)清洗質(zhì)控方法有助于準(zhǔn)確獲取農(nóng)業(yè)氣象災(zāi)害監(jiān)測信息,為農(nóng)業(yè)的防災(zāi)減災(zāi)提供有效決策支撐。

關(guān)鍵詞:農(nóng)業(yè)微氣象;數(shù)據(jù)質(zhì)控;Bohn數(shù)據(jù)清洗模型

中圖分類號:P49;TP274? ? ? ? ?文獻(xiàn)標(biāo)識碼:A

文章編號:0439-8114(2020)14-0037-04

DOI:10.14088/j.cnki.issn0439-8114.2020.14.006 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):

Abstract: In order to improve the quality of agrometeorological observation data, the cleaning standard and quality control method of agrometeorological data are established based on the unique meteorological observation equipment and environmental attributes of farmland. For the case of abnormal data attributes and repeated records, the method of cleaning the blank value of Bohn data cleaning model and the method of cleaning the noise data are selected. Through the historical data statistics of observation elements in the space of agricultural micro meteorological observation station, the clean data index is obtained and applied to the dynamic threshold generation method of data quality, and the quality control model of agricultural micro meteorological data is established. The data evaluation indexes after cleaning and quality control showed that the accuracy and repeatability of the data are significantly improved after data cleaning and quality control model. The data cleaning quality control method is helpful to obtain the monitoring information of agrometeorological disaster accurately and provide effective decision support for agricultural disaster prevention and reduction.

Key words: agromicro meteorology; data quality control; Bohn data cleaning model

農(nóng)田氣象信息是農(nóng)業(yè)生產(chǎn)管理的重要參考依據(jù),隨著物聯(lián)網(wǎng)監(jiān)測技術(shù)的迅速發(fā)展,農(nóng)業(yè)設(shè)施微型氣象觀測站點(diǎn)已大規(guī)模布設(shè)。數(shù)據(jù)質(zhì)量問題伴隨農(nóng)業(yè)氣象觀測數(shù)據(jù)的急劇增長而日益凸顯,從而促使了數(shù)據(jù)清洗技術(shù)在農(nóng)業(yè)氣象數(shù)據(jù)方面的應(yīng)用。

國內(nèi)對數(shù)據(jù)清洗技術(shù)的研究還處于初步階段,通常是在統(tǒng)計回歸方法中驗證數(shù)據(jù)進(jìn)行一些基礎(chǔ)研究。于力超等[1]基于關(guān)聯(lián)規(guī)則的缺失數(shù)據(jù)插補(bǔ)和最近鄰插補(bǔ)方法,利用挖掘得到的關(guān)聯(lián)規(guī)則提升度和支持度乘積的倒數(shù)作為權(quán)重,解決了最近距離樣本單元產(chǎn)生不同插補(bǔ)值的問題。戴明鋒等[2]在分析數(shù)據(jù)缺失機(jī)制前提下,通過二分類Logistic回歸插補(bǔ)法,根據(jù)發(fā)生概率大小確定插補(bǔ)值。劉燕[3]選取近鄰擇優(yōu)補(bǔ)差法繼承Logistic回歸插補(bǔ)法的高精確度和最近鄰插補(bǔ)法的單元擇優(yōu)性,通過模擬比較多種回歸插補(bǔ)方法發(fā)現(xiàn),基于回歸的近鄰擇優(yōu)插補(bǔ)法可以獲得更好的插補(bǔ)效果。

隨著氣象部門觀測手段自動化和數(shù)據(jù)傳輸速度持續(xù)的提高,在地面自動站觀測資料質(zhì)量控制技術(shù)方面也積累了一定的經(jīng)驗[4-6]。肖心園等[7]針對不同異常數(shù)據(jù)提出了基于3次樣條插值和皮爾遜相關(guān)的光伏數(shù)據(jù)清洗方法,可以得到更優(yōu)化的數(shù)據(jù)利用率和重構(gòu)正確率。潘騰輝等[8]提出了一種ETL與數(shù)據(jù)清洗結(jié)合的分布式數(shù)據(jù)集成工具,將數(shù)據(jù)清理的技術(shù)引入到ETL中,基于統(tǒng)計聚類方法和關(guān)聯(lián)規(guī)則的數(shù)據(jù)清洗算法,清洗數(shù)據(jù)信息的框架。

氣象數(shù)據(jù)質(zhì)量控制方法多通過閾值和一致性檢驗完成,但結(jié)合農(nóng)業(yè)特定應(yīng)用領(lǐng)域,需要用農(nóng)業(yè)和氣象并存的屬性規(guī)則判定。本研究選取符合農(nóng)業(yè)氣象特性的數(shù)據(jù)清洗和質(zhì)控方法,建立農(nóng)業(yè)微氣象數(shù)據(jù)質(zhì)控流程,檢測并剔除數(shù)據(jù)文件中所有明顯的錯誤和不一致,同時對比和合并相似重復(fù)記錄,以期及時高效地為用戶提供可靠的農(nóng)田氣象觀測信息,提升農(nóng)業(yè)生產(chǎn)效率。

1 數(shù)據(jù)清洗質(zhì)控技術(shù)介紹

1.1 數(shù)據(jù)清洗技術(shù)

數(shù)據(jù)清洗目的在于刪除重復(fù)信息、糾正存在的錯誤,并提供數(shù)據(jù)一致性[9-11]。數(shù)據(jù)清洗的主要內(nèi)容如圖1所示,依據(jù)數(shù)據(jù)源種類不同,解決數(shù)據(jù)屬性、完整性和惟一性等方面的問題。

從數(shù)據(jù)清洗方法上進(jìn)行分類,結(jié)果如圖2所示。數(shù)據(jù)清洗原理通常是指利用數(shù)理統(tǒng)計、數(shù)據(jù)挖掘或預(yù)定義的清理規(guī)則將臟數(shù)據(jù)轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)。

以目前被普遍采用的Bohn數(shù)據(jù)清洗模型為例,首先對源數(shù)據(jù)進(jìn)行數(shù)據(jù)檢查,通過統(tǒng)計分析的方法識別可能的錯誤值或異常值,如偏差分析、識別不遵守分布或回歸方程的值,利用常識性規(guī)則和業(yè)務(wù)特定規(guī)則等簡單規(guī)則庫檢查數(shù)據(jù)值,并使用不同屬性間的約束、外部的數(shù)據(jù)來檢測和清理數(shù)據(jù)。通過聚類分析方法分析數(shù)據(jù)詞法,明確各個字段內(nèi)不同要素的連貫性,同時確保所有數(shù)據(jù)字段與已知清單匹配。最后判斷記錄間的屬性值是否相等來檢測記錄是否相等,相等的記錄合并或清除為一條記錄。

1.2 數(shù)據(jù)質(zhì)控技術(shù)

氣象領(lǐng)域?qū)?shù)據(jù)質(zhì)量控制方法有其特殊的規(guī)范和要求,主要是要求數(shù)據(jù)符合天氣學(xué)、氣候?qū)W原理,以氣象要素的時間、空間變化規(guī)律和各要素間相互聯(lián)系的規(guī)律為線索,分析氣象資料是否合理[12-15]。常用的處理方法如下。

1)臺站氣候極值檢查。極值是指某個固定測站歷史記錄中某要素曾出現(xiàn)過的最大值(最小值),氣象資料要素值是否超出極值的檢查為極值檢查。判斷資料的基礎(chǔ)是進(jìn)一步核實超出對應(yīng)觀測站點(diǎn)要素極值的觀測資料。

2)時間一致性檢查。利用氣象要素隨時間變化的規(guī)律,對氣象資料變化進(jìn)行時間一致性的檢查,各要素資料不能超出一定時間內(nèi)的變化范圍,超出的資料為可疑資料。

3)空間一致性檢查。根據(jù)氣象參數(shù)具有一定的空間分布特點(diǎn)而進(jìn)行的檢查。通常采用空間回歸檢驗法進(jìn)行空間一致性檢查,其有效性取決于觀測站網(wǎng)的密度和被檢參數(shù)與空間的相關(guān)程度[16-19]。

將逐日的觀測站要素數(shù)據(jù)與被檢站周邊站點(diǎn)相關(guān)系數(shù)進(jìn)行顯著性檢驗,找出相關(guān)性最好的5個站,被檢測觀測要素與5個相關(guān)站逐一建立一元線性回歸方程。

式中,yi,j為第j個初步參考站第i日要素實測值,為被檢站第i日要素估計值。

最后,計算被檢站全月要素觀測值與各回歸方程估計值間的均方根偏差([s2j])。

式中,xi為被檢站第i日的實測值;m為全月日數(shù)。

分別計算被檢站被檢要素第i日加權(quán)估計值[xi]及要素估計值的加權(quán)標(biāo)準(zhǔn)差([s])。

式中,j為第j個最終參考站;n為最終參考站的總數(shù),在這里n=5。

當(dāng)[xi-xi]>[fs]時,表示被檢站第i日的實測值xi未通過空間一致性檢查。[fs]為控制系數(shù),取值范圍為3.0~5.0。

2 農(nóng)業(yè)微氣象數(shù)據(jù)質(zhì)控方法

本研究中的數(shù)據(jù)治理方法主要分為數(shù)據(jù)清洗和質(zhì)量控制兩方面。首先根據(jù)農(nóng)業(yè)微型氣象觀測站設(shè)備特性,建立適用于數(shù)據(jù)清洗流程的農(nóng)業(yè)氣象數(shù)據(jù)屬性標(biāo)準(zhǔn)。針對數(shù)據(jù)屬性異常和重復(fù)記錄情形,選取高效的辨識算法以及相應(yīng)的空缺值清洗方法和噪聲數(shù)據(jù)清洗方法?;谵r(nóng)業(yè)微氣象觀測站點(diǎn)空間內(nèi)觀測要素歷史數(shù)據(jù),應(yīng)用數(shù)據(jù)質(zhì)量動態(tài)閾值生成方法,建立氣象數(shù)據(jù)質(zhì)量控制模型。

2.1 基于Bohn的數(shù)據(jù)清洗模型

對于大多數(shù)農(nóng)業(yè)氣象觀測數(shù)據(jù)來說,數(shù)據(jù)格式較為固定,常規(guī)數(shù)據(jù)或者特定數(shù)據(jù)都是進(jìn)行專門的定義,比如氣溫為連續(xù)數(shù)字,日照可以用0、1表示,但對于挖掘或者提取到的數(shù)據(jù)來說,字段的類型格式、長度及語義都可能存在差異,這就需要對數(shù)據(jù)清洗重新設(shè)定規(guī)范格式。

基于Bohn模型建立的數(shù)據(jù)清洗流程如圖3所示。按照數(shù)據(jù)清洗需求建立農(nóng)業(yè)氣象數(shù)據(jù)標(biāo)準(zhǔn),采用關(guān)聯(lián)規(guī)則方法中效率較高的FP-樹頻集算法辨識數(shù)據(jù)屬性質(zhì)量?;诳杖敝登逑捶椒ê驮肼晹?shù)據(jù)清洗方法,將判斷出的異常屬性數(shù)據(jù)進(jìn)行篩除分離;通過遞歸字段匹配算法,在適當(dāng)?shù)奈恢檬褂瞄g隙,允許不匹配字符的缺失,識別字符串縮寫的情形,檢測出標(biāo)識同一個數(shù)據(jù)實體的重復(fù)記錄。最后利用多趟近鄰排序法,將數(shù)據(jù)庫中的記錄排序,比較鄰近記錄,來判識排除重復(fù)記錄。

2.2 農(nóng)業(yè)微氣象數(shù)據(jù)的質(zhì)量控制模型

借鑒氣象觀測數(shù)據(jù)質(zhì)量控制方法,建立針對微氣象數(shù)據(jù)的涵蓋閾值、時空一致性以及要素一致性等標(biāo)準(zhǔn)檢查的質(zhì)量控制模型(圖4)。模型重點(diǎn)包括基于站點(diǎn)回歸模型的動態(tài)閾值生成技術(shù),開展基于動態(tài)質(zhì)控閾值標(biāo)準(zhǔn)的微氣象時空一致性檢驗;基于空間回歸方法的空間一致性檢驗,通過異構(gòu)異源觀測數(shù)據(jù)輔助的要素一致性檢驗。

3 農(nóng)業(yè)微氣象數(shù)據(jù)質(zhì)控模型評估

為評估上述數(shù)據(jù)清洗和質(zhì)控方法的效果,引入查準(zhǔn)率、精確度和查重率3項指標(biāo)分別檢測數(shù)據(jù)樣本。選取10個具有訂正站的農(nóng)田小氣候氣象觀測站點(diǎn),分別以使用率較高的氣溫和相對濕度要素為例,利用2019年全年逐小時的觀測數(shù)據(jù)作為整體樣本評估數(shù)據(jù)。

以訂正站數(shù)據(jù)為標(biāo)準(zhǔn),將樣本數(shù)據(jù)劃分為真實正確樣本(TP)、真實錯誤樣本(FP)、清洗正確樣本(TN)、清洗錯誤樣本(FN)4種情形,令TP、FP、TN、FN分別表示其對應(yīng)的樣本數(shù),則本次被清洗數(shù)據(jù)總數(shù)=TP+FN,識別樣本總數(shù)=TP+FP+TN+FN。

查準(zhǔn)率P=TP/(TP+FP)表示為正確數(shù)據(jù)占清洗后真實總樣本的比率。精確度A=(TP+TN)/(TP+FN+FP+TN)則是清洗質(zhì)控后正確的樣本數(shù)占樣本總數(shù)的比例。查全率R=TP/(TP+FN)是正確識別樣本和被清洗數(shù)據(jù)總數(shù)的百分比。

選取氣溫和相對濕度兩類氣象要素,分別計算其評估指數(shù)的逐月變化情況,結(jié)果如圖5所示。從清洗質(zhì)控后的結(jié)果來看,不同月份的數(shù)據(jù)質(zhì)量存在一定差異,其中兩類要素的查全率和查準(zhǔn)率都在80%左右,其中相對濕度的查全識別效果較好,而溫度的逐月查準(zhǔn)率均優(yōu)于相對濕度;氣溫和相對濕度的最低精確度分別是71.0%和72.6%。經(jīng)過數(shù)據(jù)清洗和質(zhì)控模型后數(shù)據(jù)準(zhǔn)確率和重復(fù)性均有明顯改善,農(nóng)業(yè)微氣象數(shù)據(jù)清洗質(zhì)控方法可以有效提升觀測數(shù)據(jù)質(zhì)量。

5 小結(jié)與討論

本研究將農(nóng)業(yè)系統(tǒng)特有氣象觀測數(shù)據(jù)與氣象行業(yè)傳統(tǒng)監(jiān)測數(shù)據(jù)深度融合,建立農(nóng)業(yè)微氣象數(shù)據(jù)屬性標(biāo)準(zhǔn),采用FP-樹頻集和多趟近鄰排序等算法,實現(xiàn)清洗模型和質(zhì)量控制模型在農(nóng)業(yè)微氣象數(shù)據(jù)治理中的應(yīng)用。

基于回歸模型的農(nóng)業(yè)微氣象觀測歷史數(shù)據(jù)集以及動態(tài)檢測閾值的生成技術(shù),建立了可以實現(xiàn)異源異構(gòu)觀測數(shù)據(jù)輔助的要素一致性檢驗的農(nóng)業(yè)微氣象數(shù)據(jù)質(zhì)量控制模型。評估表明數(shù)據(jù)清洗質(zhì)控方法可以準(zhǔn)確獲取農(nóng)業(yè)氣象災(zāi)害監(jiān)測信息,科學(xué)防治農(nóng)業(yè)氣象災(zāi)害,為農(nóng)業(yè)的防災(zāi)減災(zāi)、應(yīng)急決策提供有效的支持服務(wù)和技術(shù)手段,為實現(xiàn)農(nóng)業(yè)生產(chǎn)的安全、優(yōu)質(zhì)、高效運(yùn)行發(fā)揮積極作用。

參考文獻(xiàn):

[1] 于力超,金勇進(jìn),王 俊. 缺失數(shù)據(jù)插補(bǔ)方法探討——基于最近鄰插補(bǔ)法和關(guān)聯(lián)規(guī)則法[J]. 統(tǒng)計與信息論壇,2015,30(1):35-40.

[2] 戴明鋒,金勇進(jìn),查奇芬,等. 二分類Logistic回歸插補(bǔ)法及其應(yīng)用[J]. 數(shù)學(xué)的實踐與認(rèn)識,2013, 43(21):162-167.

[3] 劉 燕. 基于Logistic回歸的近鄰擇優(yōu)插補(bǔ)法[D]. 天津:天津財經(jīng)大學(xué),2013.

[4] 俞榮華,田增平,周傲英. 一種檢測多語言文本相似重復(fù)記錄的綜合方法[J]. 計算機(jī)科學(xué),2002, 29(1):118-121.

[5] 趙一凡,卞 良,叢 昕. 數(shù)據(jù)清洗方法研究綜述[J]. 軟件導(dǎo)刊,2017,16(12):222-224.

[6] OTHMAN L B,YAHIA S B. GBARMVC: Generic basis of association rules based approach for missing values completion[J]. International journal of computing & information sciences,2011,9(1):16-22.

[7] 肖心園,江 冰,任其文,等. 基于插值法和皮爾遜相關(guān)的光伏數(shù)據(jù)清洗[J]. 信息技術(shù),2019(5):19-22,28.

[8] 潘騰輝,林金城,鄭細(xì)燁,等. 面向數(shù)據(jù)庫清洗的數(shù)據(jù)質(zhì)量控制設(shè)計[J]. 信息技術(shù),2017(10):133-136.

[9] 李昌華,卜亮亮,劉 欣. 基于聚類和神經(jīng)網(wǎng)絡(luò)對建筑節(jié)能氣候數(shù)據(jù)清洗的算法[J]. 計算機(jī)應(yīng)用,2018,38(S1):83-86,111.

[10] 竇以文,屈玉貴,陶士偉,等. 北京自動氣象站實時數(shù)據(jù)質(zhì)量控制應(yīng)用[J]. 氣象,2008,34(8):77-81.

[11] SHAFER M A,F(xiàn)IEBRICH C A,ARNDT D S,et al. Quality assurance procedures in the oklahoma mesonetwork[J]. Journal of atmospheric & oceanic technology,2000,17(4):474-494.

[12] 陳奕隆. 美國自動地面觀測系統(tǒng)[J]. 氣象科技,1994(3):48-54.

[13] 廖 捷,周自江. 全球常規(guī)氣象觀測資料質(zhì)量控制研究進(jìn)展與展望[J]. 氣象科技進(jìn)展,2018,8(1):56-62.

[14] 任芝花,張志富,孫 超,等. 全國自動氣象站實時觀測資料三級質(zhì)量控制系統(tǒng)研制[J]. 氣象,2015, 41(10):1268-1277.

[15] 韓海濤,李仲龍. 地面實時氣象數(shù)據(jù)質(zhì)量控制方法研究進(jìn)展[J]. 干旱氣象,2012,30(2):261-265.

[16] JEFFERY S R,ALONSO G,F(xiàn)RANKLIN M J,et al. Declarative support for sensor data cleaning[A]. Proceedings of 4th international conference on pervasive computing[C]. Springer, New York,2006.83-100.

[17]GILL S,LEE B. A framework for distributed cleaning of data streams[J]. Procedia computer science,2015,52(1):1186-1191.

[18] 李良富,王漢杰,劉金玉,等. 基于黑板模型的地面氣象數(shù)據(jù)質(zhì)量控制[J]. 氣象科技,2006,34(2):199-204.

[19] 范文波. 地面氣象觀測數(shù)據(jù)綜合質(zhì)量控制方法研究與實現(xiàn)[D]. 南京:南京信息工程大學(xué),2016.

郸城县| 忻城县| 明光市| 乐平市| 临泉县| 城市| 高密市| 通辽市| 山丹县| 通州区| 平南县| 昌黎县| 建昌县| 兴文县| 沙河市| 滕州市| 永安市| 姜堰市| 平和县| 万荣县| 苏尼特右旗| 北流市| 昔阳县| 竹山县| 翁牛特旗| 棋牌| 辉县市| 洪湖市| 印江| 林芝县| 永丰县| 西贡区| 万安县| 来宾市| 盐池县| 开化县| 西华县| 淮南市| 曲周县| 博白县| 维西|