徐小俊
摘 要 以國家農(nóng)業(yè)科學(xué)數(shù)據(jù)共享中心熱帶作物科學(xué)數(shù)據(jù)分中心所建數(shù)據(jù)庫為例,從實(shí)踐的角度探討熱作數(shù)據(jù)庫數(shù)據(jù)審核的經(jīng)驗(yàn)和方法,同時(shí)對(duì)目前數(shù)據(jù)審核存在的問題進(jìn)行分析,并提出建議。
關(guān)鍵詞 熱帶作物 ;數(shù)據(jù)庫 ;數(shù)據(jù)審核
中圖分類號(hào) S162
Discussion on Data Audit of Tropical Crops Database
XU Xiaojun
(Institute of Scientific and Technical Information / Tropical Crops Science Data Sub-center of the National Agricultural Scientific Data Sharing Center, CATAS,Danzhou,Hainan 571737)
Abstract Data auditing is an important part of the construction of database resources, is the construction of high quality assurance of database. In this article, Tropical Crops Science Data Sub-center of the National Agricultural Scientific Data Sharing Center was taken as an example to discuss the experience and method of data auditing from the angle of practice,at the same time to analyze the problems of data audit and puts forward some suggestions.
Key words tropical crops ; database ; data audit
“數(shù)據(jù)”在信息社會(huì)的價(jià)值充分體現(xiàn)在眾多領(lǐng)域中,可以說擁有高質(zhì)量的數(shù)據(jù)資源已成為當(dāng)今各競爭主體的迫切需要。農(nóng)業(yè)科研單位對(duì)高質(zhì)量數(shù)據(jù)的需求則更為凸顯。高質(zhì)量的數(shù)據(jù)資源是農(nóng)業(yè)科研的基礎(chǔ)資源,但面對(duì)海量、復(fù)雜的數(shù)據(jù)信息怎么去分析鑒別其真?zhèn)?,挖掘其核心價(jià)值,數(shù)據(jù)審核就顯得尤為重要。通過審核數(shù)據(jù)可以最大程度地檢查數(shù)據(jù)的錯(cuò)誤和失真,便于對(duì)數(shù)據(jù)進(jìn)行修正,確保數(shù)據(jù)的質(zhì)量,為支撐農(nóng)業(yè)科研打下良好的基礎(chǔ)。目前,農(nóng)業(yè)科研單位自上而下都建立了各類數(shù)據(jù)庫,熱帶作物科學(xué)數(shù)據(jù)分中心(以下簡稱“分中心”)承擔(dān)著熱區(qū)作物科學(xué)數(shù)據(jù)庫的資源建設(shè),對(duì)于提高入庫數(shù)據(jù)資源的質(zhì)量,把好數(shù)據(jù)入庫關(guān),實(shí)現(xiàn)為熱帶農(nóng)業(yè)科技創(chuàng)新和發(fā)展提供信息支撐,為國家科技整體水平的提高提供可靠的農(nóng)業(yè)科學(xué)數(shù)據(jù)資源保障等至關(guān)重要[1]。
1 分中心簡介
分中心(http://trop.agridata.cn/index.asp)是國家農(nóng)業(yè)科學(xué)數(shù)據(jù)共享中心(以下簡稱“主中心”,http://www.agridata.cn/,主中心于2006年正式上線運(yùn)行,由科技部“國家科技基礎(chǔ)條件平臺(tái)建設(shè)”支持建設(shè)的數(shù)據(jù)中心試點(diǎn)之一)下屬的6個(gè)分中心之一,分中心建設(shè)由中國熱帶農(nóng)業(yè)科學(xué)院科技信息研究所負(fù)責(zé),主要是承擔(dān)在子任務(wù)合同書的規(guī)范下,對(duì)熱作數(shù)據(jù)資源的整合,參與標(biāo)準(zhǔn)規(guī)范制定與修訂,數(shù)據(jù)庫(集)提交以及數(shù)據(jù)共享服務(wù)(公益性)等。目前,分中心已建成五大主題數(shù)據(jù)庫,包括熱帶作物遺傳資源數(shù)據(jù)庫、熱帶作物栽培數(shù)據(jù)庫、熱帶作物生物學(xué)數(shù)據(jù)庫、熱帶作物育種數(shù)據(jù)庫、熱帶作物基礎(chǔ)數(shù)據(jù)庫。第六大主題數(shù)據(jù)庫——熱區(qū)作物栽培數(shù)據(jù)庫則正在建設(shè)中。分中心在數(shù)據(jù)分級(jí)分類和用戶分級(jí)的基礎(chǔ)上,將所有已建成的數(shù)據(jù)庫通過農(nóng)業(yè)科學(xué)數(shù)據(jù)中心共享網(wǎng)絡(luò)系統(tǒng)面向全社會(huì)免費(fèi)開放,主要服務(wù)于科研人員。服務(wù)形式包括:在線服務(wù)(數(shù)據(jù)瀏覽、檢索、下載、提問等多種形式)和離線服務(wù)(電子郵件、光盤、電話、印刷物等)。通過多種方式和手段,使整合的數(shù)據(jù)資源實(shí)現(xiàn)全部共享,讓更多的農(nóng)業(yè)科技人員通過共享平臺(tái)獲得益處[2]。
2 數(shù)據(jù)審核
2.1 數(shù)據(jù)審核的環(huán)境
目前,數(shù)據(jù)的審核更多是以人工審核為主,原因有以下幾點(diǎn):一是農(nóng)業(yè)系統(tǒng)的各類數(shù)據(jù)庫還處于起步和發(fā)展階段,數(shù)據(jù)庫的處理軟件還在不斷完善中,只能完成部分邏輯審核,還不能實(shí)現(xiàn)數(shù)據(jù)的智能批量審核;二是各個(gè)主題庫的結(jié)構(gòu)和采集標(biāo)準(zhǔn)都不太一樣,難以用數(shù)據(jù)軟件統(tǒng)一進(jìn)行審核;三是有些數(shù)據(jù)信息存在的問題具有隱蔽性和復(fù)雜性,單靠數(shù)據(jù)軟件的審核也難以發(fā)現(xiàn)問題。
2.2 數(shù)據(jù)審核的原則和方法
2.2.1 制定一套科學(xué)完善的數(shù)據(jù)采集標(biāo)準(zhǔn)
農(nóng)業(yè)方面的數(shù)據(jù)庫專業(yè)性較強(qiáng),根據(jù)生產(chǎn)、科研等方面的需要數(shù)據(jù)分類繁多,各主題數(shù)據(jù)庫包含大量的數(shù)據(jù)集,有的數(shù)據(jù)集復(fù)雜,有的數(shù)據(jù)集相對(duì)簡單,往往同一主題庫下面的數(shù)據(jù)集的特征和結(jié)構(gòu)都各不相同。要審核這些特征各異的數(shù)據(jù)庫必須制定一套科學(xué)完善的數(shù)據(jù)采集標(biāo)準(zhǔn),再對(duì)照這些標(biāo)準(zhǔn)逐一進(jìn)行審核。數(shù)據(jù)庫標(biāo)準(zhǔn)的設(shè)計(jì)要體現(xiàn)描述規(guī)范和數(shù)據(jù)價(jià)值的充分挖掘。表1是分中心第6大主題庫——熱區(qū)主要栽培作物數(shù)據(jù)庫結(jié)構(gòu)說明和采集標(biāo)準(zhǔn)(部分)。
2.2.2 數(shù)據(jù)審核的原則
(1)可靠性原則:收集的信息必須是真實(shí)對(duì)象或環(huán)境所產(chǎn)生的,必須保證信息來源可靠,確保收集的信息能反映真實(shí)的狀況。數(shù)據(jù)來源要體現(xiàn)原始性和基礎(chǔ)性,包括觀測、地面監(jiān)測站(點(diǎn))、檢測、調(diào)查、試驗(yàn)、實(shí)驗(yàn)以及研究等科學(xué)技術(shù)活動(dòng)過程中產(chǎn)生的原始性數(shù)據(jù),以及按照不同科技活動(dòng)需求進(jìn)行系統(tǒng)加工整理的各類數(shù)據(jù)[3]。
(2)規(guī)范性原則:包括數(shù)據(jù)的描述規(guī)范,計(jì)量單位、符號(hào)和學(xué)名規(guī)范,字體、字段長度、圖片、參考文獻(xiàn)等要符合規(guī)范。
(3)完整性原則:收集的數(shù)據(jù)信息各字段的描述須完整,能反映事物全貌。
(4)實(shí)時(shí)性原則:能及時(shí)收集近期的數(shù)據(jù)信息。
(5)準(zhǔn)確性原則:收集的數(shù)據(jù)信息與應(yīng)用需求密切相關(guān)且表達(dá)無誤,能體現(xiàn)數(shù)據(jù)信息的核心價(jià)值。
(6)易用性原則:收集到的信息要按照一定的標(biāo)準(zhǔn)進(jìn)行整理保存,以適當(dāng)?shù)男问奖磉_(dá)出來,以便于使用。
(7)寧缺毋濫原則:對(duì)無應(yīng)用價(jià)值的數(shù)據(jù)退回提交單位,對(duì)于有應(yīng)用價(jià)值但描述不規(guī)范數(shù)據(jù)給出修改建議后反饋提交單位,待修改后再重新提交。
2.2.3 數(shù)據(jù)審核的方法
目前,農(nóng)業(yè)數(shù)據(jù)審核還沒有現(xiàn)成的方法可以參照,以下是從實(shí)踐的角度探討熱作數(shù)據(jù)庫數(shù)據(jù)審核的經(jīng)驗(yàn)和方法:
(1)數(shù)據(jù)質(zhì)量分析 數(shù)據(jù)審核首先要對(duì)數(shù)據(jù)質(zhì)量進(jìn)行分析。簡而言之,數(shù)據(jù)質(zhì)量就是反映出數(shù)據(jù)對(duì)特定應(yīng)用的滿足程度[4]。數(shù)據(jù)質(zhì)量的高低歸根結(jié)底表現(xiàn)為對(duì)應(yīng)用的滿足程度,卓有成效的數(shù)據(jù)分析應(yīng)該和具體應(yīng)用緊密結(jié)合[5]。數(shù)據(jù)作為特殊產(chǎn)品,到目前為止,還沒有統(tǒng)一的標(biāo)準(zhǔn)來衡量數(shù)據(jù)的質(zhì)量[6]。熱作數(shù)據(jù)從實(shí)踐的角度進(jìn)行數(shù)據(jù)質(zhì)量分析,主要包括以下2點(diǎn):
一是審查數(shù)據(jù)來源是否真實(shí)可靠。數(shù)據(jù)的來源很大程度上反映了數(shù)據(jù)的真實(shí)程度,越是原始采集的數(shù)據(jù)真實(shí)程度越高,例如觀測、監(jiān)測、調(diào)查、試驗(yàn)、實(shí)驗(yàn)等科學(xué)活動(dòng)中產(chǎn)生的原始數(shù)據(jù)。還有來自權(quán)威期刊、網(wǎng)站等媒介的數(shù)據(jù)真實(shí)可靠性也較高。一些數(shù)據(jù)經(jīng)過加工整理因?yàn)槿藶榈囊蛩厝菀桩a(chǎn)生誤差,例如自下而上的統(tǒng)計(jì)等。而一些來自缺乏專業(yè)審核的大眾媒介的數(shù)據(jù)值得注意,將提交的數(shù)據(jù)通過網(wǎng)絡(luò)搜索進(jìn)行對(duì)比,可以發(fā)現(xiàn)該數(shù)據(jù)信息是否來自互聯(lián)網(wǎng)或來自互聯(lián)網(wǎng)的比例,通過這種方法有時(shí)會(huì)發(fā)現(xiàn)有些數(shù)據(jù)來源與標(biāo)注的來源途徑、研究機(jī)構(gòu)和參考文獻(xiàn)不相符的情況。
二是審查數(shù)據(jù)本身是否體現(xiàn)了核心價(jià)值。數(shù)據(jù)的價(jià)值在于運(yùn)用,每種作物的特性和價(jià)值各異,數(shù)據(jù)的價(jià)值通過某個(gè)字段或某些字段表達(dá)出來,數(shù)據(jù)在各字段的描述過程中要有所側(cè)重,以表1熱區(qū)主要栽培作物數(shù)據(jù)庫為例,有的作物的數(shù)據(jù)價(jià)值體現(xiàn)在“栽培技術(shù)”字段,有的作物的數(shù)據(jù)價(jià)值體現(xiàn)在“病蟲害防治”,有的作物的數(shù)據(jù)價(jià)值體現(xiàn)在“主要用途”,有的則體現(xiàn)在“開發(fā)利用前景”等。在某個(gè)領(lǐng)域越新的研究,有所突破的研究越能體現(xiàn)數(shù)據(jù)的核心價(jià)值;相反,陳舊的、大眾化的數(shù)據(jù)價(jià)值越低。
通過數(shù)據(jù)質(zhì)量分析可以對(duì)提交的數(shù)據(jù)進(jìn)行篩選,對(duì)數(shù)據(jù)質(zhì)量低的數(shù)據(jù)退回提交單位,通過質(zhì)量分析的數(shù)據(jù)再進(jìn)行下一輪審核,可以大大減少不必要的時(shí)間耗費(fèi)。
(2)對(duì)照法規(guī)、標(biāo)準(zhǔn)等逐一進(jìn)行全面審核 對(duì)照主中心頒布的《數(shù)據(jù)檢查和質(zhì)量控制管理辦法》等數(shù)據(jù)法規(guī)和標(biāo)準(zhǔn)、數(shù)據(jù)庫的結(jié)構(gòu)說明和采集標(biāo)準(zhǔn)以及作物描述規(guī)范對(duì)通過質(zhì)量分析的數(shù)據(jù)信息進(jìn)行全面審核,指出不符合的地方,給出修改建議。
(3)邏輯審核 因?yàn)檐浖O(shè)計(jì)滯后的原因,目前邏輯審核還難以通過數(shù)據(jù)庫管理軟件的審核功能來實(shí)現(xiàn),主要通過人工檢查字段的描述是否一致,有無相矛盾的地方;數(shù)值是否過大或過小,是否在合理范圍之內(nèi),有無可疑數(shù)據(jù)等。
(4)經(jīng)驗(yàn)判斷 依靠相關(guān)知識(shí)和經(jīng)驗(yàn)來判斷數(shù)據(jù)的描述是否有誤,相關(guān)的數(shù)值是否可疑。如,復(fù)核《海南島桑樹種質(zhì)資源》數(shù)據(jù)信息時(shí)發(fā)現(xiàn)有段描述中桑樹的高度為100多米,根據(jù)常識(shí),桑樹最高也就在10多米,顯然100多米大大超出了合理的范圍。
3 數(shù)據(jù)審核存在的問題和建議
3.1 存在問題
3.1.1 重量不重質(zhì)
數(shù)據(jù)的審核在很長的時(shí)間內(nèi)沒有引起足夠的重視。很多數(shù)據(jù)庫建設(shè)之初更注重的是“量”,就是不斷向數(shù)據(jù)庫里面添加數(shù)據(jù),隨著數(shù)據(jù)庫的數(shù)據(jù)達(dá)到一定量之后,反過來再看數(shù)據(jù)庫里面的數(shù)據(jù)才發(fā)現(xiàn)存在不少“問題數(shù)據(jù)”和毫無價(jià)值的“垃圾數(shù)據(jù)”,例如,一些數(shù)據(jù)信息的描述存在錯(cuò)字、錯(cuò)詞、亂碼等表達(dá)有誤的情況,有的則是摘自互聯(lián)網(wǎng)的大眾化數(shù)據(jù)信息。此外,由于基礎(chǔ)數(shù)據(jù)的收集存在“信息壁壘”,工作難度極高,一些科研人員為了完成任務(wù)對(duì)數(shù)據(jù)信息進(jìn)行“造假”,從期刊、網(wǎng)絡(luò)等途徑東拼西湊一些沒有太多應(yīng)用價(jià)值的數(shù)據(jù)信息卻標(biāo)注上某科研機(jī)構(gòu)的研究等。
3.1.2 缺乏相關(guān)專業(yè)的培訓(xùn)指導(dǎo)
數(shù)據(jù)的行業(yè)性特征比較明顯,農(nóng)業(yè)數(shù)據(jù)的審核除了涉及統(tǒng)計(jì)、計(jì)算機(jī)等方面的知識(shí)外,還要有較好的農(nóng)學(xué)方面的知識(shí)背景,可以說是一項(xiàng)跨學(xué)科、復(fù)雜、難度較高的工作。但由于許多客觀原因(技術(shù)力量、人才等),長久以來關(guān)于這方面的培訓(xùn)幾乎沒有。
3.1.3 缺乏一套專門的農(nóng)業(yè)數(shù)據(jù)審核手冊(cè)
農(nóng)業(yè)系統(tǒng)的數(shù)據(jù)庫還處于發(fā)展完善階段,雖然也制訂了一些管理辦法和規(guī)范,但過于分散,對(duì)于數(shù)據(jù)審核還沒有形成一套科學(xué)的數(shù)據(jù)審核規(guī)則,所以數(shù)據(jù)審核沒有現(xiàn)成的規(guī)則可以參照,主要依靠審核人員的知識(shí)水平、經(jīng)驗(yàn)積累及借鑒和探索來進(jìn)行。
3.1.4 數(shù)據(jù)管理軟件的更新升級(jí)跟不上發(fā)展的需要
目前的數(shù)據(jù)軟件從2006年上線后一直運(yùn)行到現(xiàn)在,在軟件的設(shè)計(jì)上還存在不完善的地方,比如還不能實(shí)現(xiàn)一般的數(shù)據(jù)質(zhì)量分析和審核。
3.2 建議
鑒于熱帶作物數(shù)據(jù)庫數(shù)據(jù)審核現(xiàn)狀,為了促使熱帶作物數(shù)據(jù)庫數(shù)據(jù)審核更加科學(xué)、更加真實(shí)可靠,建議農(nóng)業(yè)科研機(jī)構(gòu)自上而下都充分重視數(shù)據(jù)審核工作,定期對(duì)科研機(jī)構(gòu)和人員開展宣傳教育,并及時(shí)開展相關(guān)的數(shù)據(jù)審核培訓(xùn),必要時(shí)可以借鑒別的行業(yè)好的經(jīng)驗(yàn)和做法,對(duì)審核人員進(jìn)行培訓(xùn)指導(dǎo),不斷提高審核人員的業(yè)務(wù)水平。同時(shí),及時(shí)編寫一套權(quán)威的農(nóng)業(yè)方面的數(shù)據(jù)審核手冊(cè),對(duì)數(shù)據(jù)審核進(jìn)行專業(yè)指導(dǎo),對(duì)現(xiàn)有的數(shù)據(jù)庫管理系統(tǒng)進(jìn)行更新升級(jí),并大力研發(fā)自動(dòng)化的數(shù)據(jù)分析工具和審核軟件應(yīng)用到數(shù)據(jù)庫數(shù)據(jù)審核。
參考文獻(xiàn)
[1] 農(nóng)業(yè)科學(xué)數(shù)據(jù)共享中心簡介[EB/OL].[2014-05-23].http://trop.agridata.cn/ch_intro.asp?r=1.
[2] 農(nóng)業(yè)科學(xué)數(shù)據(jù)共享管理辦法[EB/OL].[2014-05-23].http://trop.agridata.cn/ch_law.asp.
[3] 農(nóng)業(yè)科學(xué)數(shù)據(jù)匯交管理辦法[EB/OL].[2014-05-23].http://www.agridata.cn/homepage/ch_law.asp.
[4] Lee Y W,Strong D M. Knowing-why about data processes and data quality[J].Journal of Management Information Systems,2003,20(3):13-39.
[5] Strong D M,Lee Y W,Wang R Y. Data quality in context[J]. Communication of The ACM,1997,40(5):103-110.
[6] 丁海龍,徐宏炳. 數(shù)據(jù)質(zhì)量分析及應(yīng)用[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2007(3):236-238.
(3)完整性原則:收集的數(shù)據(jù)信息各字段的描述須完整,能反映事物全貌。
(4)實(shí)時(shí)性原則:能及時(shí)收集近期的數(shù)據(jù)信息。
(5)準(zhǔn)確性原則:收集的數(shù)據(jù)信息與應(yīng)用需求密切相關(guān)且表達(dá)無誤,能體現(xiàn)數(shù)據(jù)信息的核心價(jià)值。
(6)易用性原則:收集到的信息要按照一定的標(biāo)準(zhǔn)進(jìn)行整理保存,以適當(dāng)?shù)男问奖磉_(dá)出來,以便于使用。
(7)寧缺毋濫原則:對(duì)無應(yīng)用價(jià)值的數(shù)據(jù)退回提交單位,對(duì)于有應(yīng)用價(jià)值但描述不規(guī)范數(shù)據(jù)給出修改建議后反饋提交單位,待修改后再重新提交。
2.2.3 數(shù)據(jù)審核的方法
目前,農(nóng)業(yè)數(shù)據(jù)審核還沒有現(xiàn)成的方法可以參照,以下是從實(shí)踐的角度探討熱作數(shù)據(jù)庫數(shù)據(jù)審核的經(jīng)驗(yàn)和方法:
(1)數(shù)據(jù)質(zhì)量分析 數(shù)據(jù)審核首先要對(duì)數(shù)據(jù)質(zhì)量進(jìn)行分析。簡而言之,數(shù)據(jù)質(zhì)量就是反映出數(shù)據(jù)對(duì)特定應(yīng)用的滿足程度[4]。數(shù)據(jù)質(zhì)量的高低歸根結(jié)底表現(xiàn)為對(duì)應(yīng)用的滿足程度,卓有成效的數(shù)據(jù)分析應(yīng)該和具體應(yīng)用緊密結(jié)合[5]。數(shù)據(jù)作為特殊產(chǎn)品,到目前為止,還沒有統(tǒng)一的標(biāo)準(zhǔn)來衡量數(shù)據(jù)的質(zhì)量[6]。熱作數(shù)據(jù)從實(shí)踐的角度進(jìn)行數(shù)據(jù)質(zhì)量分析,主要包括以下2點(diǎn):
一是審查數(shù)據(jù)來源是否真實(shí)可靠。數(shù)據(jù)的來源很大程度上反映了數(shù)據(jù)的真實(shí)程度,越是原始采集的數(shù)據(jù)真實(shí)程度越高,例如觀測、監(jiān)測、調(diào)查、試驗(yàn)、實(shí)驗(yàn)等科學(xué)活動(dòng)中產(chǎn)生的原始數(shù)據(jù)。還有來自權(quán)威期刊、網(wǎng)站等媒介的數(shù)據(jù)真實(shí)可靠性也較高。一些數(shù)據(jù)經(jīng)過加工整理因?yàn)槿藶榈囊蛩厝菀桩a(chǎn)生誤差,例如自下而上的統(tǒng)計(jì)等。而一些來自缺乏專業(yè)審核的大眾媒介的數(shù)據(jù)值得注意,將提交的數(shù)據(jù)通過網(wǎng)絡(luò)搜索進(jìn)行對(duì)比,可以發(fā)現(xiàn)該數(shù)據(jù)信息是否來自互聯(lián)網(wǎng)或來自互聯(lián)網(wǎng)的比例,通過這種方法有時(shí)會(huì)發(fā)現(xiàn)有些數(shù)據(jù)來源與標(biāo)注的來源途徑、研究機(jī)構(gòu)和參考文獻(xiàn)不相符的情況。
二是審查數(shù)據(jù)本身是否體現(xiàn)了核心價(jià)值。數(shù)據(jù)的價(jià)值在于運(yùn)用,每種作物的特性和價(jià)值各異,數(shù)據(jù)的價(jià)值通過某個(gè)字段或某些字段表達(dá)出來,數(shù)據(jù)在各字段的描述過程中要有所側(cè)重,以表1熱區(qū)主要栽培作物數(shù)據(jù)庫為例,有的作物的數(shù)據(jù)價(jià)值體現(xiàn)在“栽培技術(shù)”字段,有的作物的數(shù)據(jù)價(jià)值體現(xiàn)在“病蟲害防治”,有的作物的數(shù)據(jù)價(jià)值體現(xiàn)在“主要用途”,有的則體現(xiàn)在“開發(fā)利用前景”等。在某個(gè)領(lǐng)域越新的研究,有所突破的研究越能體現(xiàn)數(shù)據(jù)的核心價(jià)值;相反,陳舊的、大眾化的數(shù)據(jù)價(jià)值越低。
通過數(shù)據(jù)質(zhì)量分析可以對(duì)提交的數(shù)據(jù)進(jìn)行篩選,對(duì)數(shù)據(jù)質(zhì)量低的數(shù)據(jù)退回提交單位,通過質(zhì)量分析的數(shù)據(jù)再進(jìn)行下一輪審核,可以大大減少不必要的時(shí)間耗費(fèi)。
(2)對(duì)照法規(guī)、標(biāo)準(zhǔn)等逐一進(jìn)行全面審核 對(duì)照主中心頒布的《數(shù)據(jù)檢查和質(zhì)量控制管理辦法》等數(shù)據(jù)法規(guī)和標(biāo)準(zhǔn)、數(shù)據(jù)庫的結(jié)構(gòu)說明和采集標(biāo)準(zhǔn)以及作物描述規(guī)范對(duì)通過質(zhì)量分析的數(shù)據(jù)信息進(jìn)行全面審核,指出不符合的地方,給出修改建議。
(3)邏輯審核 因?yàn)檐浖O(shè)計(jì)滯后的原因,目前邏輯審核還難以通過數(shù)據(jù)庫管理軟件的審核功能來實(shí)現(xiàn),主要通過人工檢查字段的描述是否一致,有無相矛盾的地方;數(shù)值是否過大或過小,是否在合理范圍之內(nèi),有無可疑數(shù)據(jù)等。
(4)經(jīng)驗(yàn)判斷 依靠相關(guān)知識(shí)和經(jīng)驗(yàn)來判斷數(shù)據(jù)的描述是否有誤,相關(guān)的數(shù)值是否可疑。如,復(fù)核《海南島桑樹種質(zhì)資源》數(shù)據(jù)信息時(shí)發(fā)現(xiàn)有段描述中桑樹的高度為100多米,根據(jù)常識(shí),桑樹最高也就在10多米,顯然100多米大大超出了合理的范圍。
3 數(shù)據(jù)審核存在的問題和建議
3.1 存在問題
3.1.1 重量不重質(zhì)
數(shù)據(jù)的審核在很長的時(shí)間內(nèi)沒有引起足夠的重視。很多數(shù)據(jù)庫建設(shè)之初更注重的是“量”,就是不斷向數(shù)據(jù)庫里面添加數(shù)據(jù),隨著數(shù)據(jù)庫的數(shù)據(jù)達(dá)到一定量之后,反過來再看數(shù)據(jù)庫里面的數(shù)據(jù)才發(fā)現(xiàn)存在不少“問題數(shù)據(jù)”和毫無價(jià)值的“垃圾數(shù)據(jù)”,例如,一些數(shù)據(jù)信息的描述存在錯(cuò)字、錯(cuò)詞、亂碼等表達(dá)有誤的情況,有的則是摘自互聯(lián)網(wǎng)的大眾化數(shù)據(jù)信息。此外,由于基礎(chǔ)數(shù)據(jù)的收集存在“信息壁壘”,工作難度極高,一些科研人員為了完成任務(wù)對(duì)數(shù)據(jù)信息進(jìn)行“造假”,從期刊、網(wǎng)絡(luò)等途徑東拼西湊一些沒有太多應(yīng)用價(jià)值的數(shù)據(jù)信息卻標(biāo)注上某科研機(jī)構(gòu)的研究等。
3.1.2 缺乏相關(guān)專業(yè)的培訓(xùn)指導(dǎo)
數(shù)據(jù)的行業(yè)性特征比較明顯,農(nóng)業(yè)數(shù)據(jù)的審核除了涉及統(tǒng)計(jì)、計(jì)算機(jī)等方面的知識(shí)外,還要有較好的農(nóng)學(xué)方面的知識(shí)背景,可以說是一項(xiàng)跨學(xué)科、復(fù)雜、難度較高的工作。但由于許多客觀原因(技術(shù)力量、人才等),長久以來關(guān)于這方面的培訓(xùn)幾乎沒有。
3.1.3 缺乏一套專門的農(nóng)業(yè)數(shù)據(jù)審核手冊(cè)
農(nóng)業(yè)系統(tǒng)的數(shù)據(jù)庫還處于發(fā)展完善階段,雖然也制訂了一些管理辦法和規(guī)范,但過于分散,對(duì)于數(shù)據(jù)審核還沒有形成一套科學(xué)的數(shù)據(jù)審核規(guī)則,所以數(shù)據(jù)審核沒有現(xiàn)成的規(guī)則可以參照,主要依靠審核人員的知識(shí)水平、經(jīng)驗(yàn)積累及借鑒和探索來進(jìn)行。
3.1.4 數(shù)據(jù)管理軟件的更新升級(jí)跟不上發(fā)展的需要
目前的數(shù)據(jù)軟件從2006年上線后一直運(yùn)行到現(xiàn)在,在軟件的設(shè)計(jì)上還存在不完善的地方,比如還不能實(shí)現(xiàn)一般的數(shù)據(jù)質(zhì)量分析和審核。
3.2 建議
鑒于熱帶作物數(shù)據(jù)庫數(shù)據(jù)審核現(xiàn)狀,為了促使熱帶作物數(shù)據(jù)庫數(shù)據(jù)審核更加科學(xué)、更加真實(shí)可靠,建議農(nóng)業(yè)科研機(jī)構(gòu)自上而下都充分重視數(shù)據(jù)審核工作,定期對(duì)科研機(jī)構(gòu)和人員開展宣傳教育,并及時(shí)開展相關(guān)的數(shù)據(jù)審核培訓(xùn),必要時(shí)可以借鑒別的行業(yè)好的經(jīng)驗(yàn)和做法,對(duì)審核人員進(jìn)行培訓(xùn)指導(dǎo),不斷提高審核人員的業(yè)務(wù)水平。同時(shí),及時(shí)編寫一套權(quán)威的農(nóng)業(yè)方面的數(shù)據(jù)審核手冊(cè),對(duì)數(shù)據(jù)審核進(jìn)行專業(yè)指導(dǎo),對(duì)現(xiàn)有的數(shù)據(jù)庫管理系統(tǒng)進(jìn)行更新升級(jí),并大力研發(fā)自動(dòng)化的數(shù)據(jù)分析工具和審核軟件應(yīng)用到數(shù)據(jù)庫數(shù)據(jù)審核。
參考文獻(xiàn)
[1] 農(nóng)業(yè)科學(xué)數(shù)據(jù)共享中心簡介[EB/OL].[2014-05-23].http://trop.agridata.cn/ch_intro.asp?r=1.
[2] 農(nóng)業(yè)科學(xué)數(shù)據(jù)共享管理辦法[EB/OL].[2014-05-23].http://trop.agridata.cn/ch_law.asp.
[3] 農(nóng)業(yè)科學(xué)數(shù)據(jù)匯交管理辦法[EB/OL].[2014-05-23].http://www.agridata.cn/homepage/ch_law.asp.
[4] Lee Y W,Strong D M. Knowing-why about data processes and data quality[J].Journal of Management Information Systems,2003,20(3):13-39.
[5] Strong D M,Lee Y W,Wang R Y. Data quality in context[J]. Communication of The ACM,1997,40(5):103-110.
[6] 丁海龍,徐宏炳. 數(shù)據(jù)質(zhì)量分析及應(yīng)用[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2007(3):236-238.
(3)完整性原則:收集的數(shù)據(jù)信息各字段的描述須完整,能反映事物全貌。
(4)實(shí)時(shí)性原則:能及時(shí)收集近期的數(shù)據(jù)信息。
(5)準(zhǔn)確性原則:收集的數(shù)據(jù)信息與應(yīng)用需求密切相關(guān)且表達(dá)無誤,能體現(xiàn)數(shù)據(jù)信息的核心價(jià)值。
(6)易用性原則:收集到的信息要按照一定的標(biāo)準(zhǔn)進(jìn)行整理保存,以適當(dāng)?shù)男问奖磉_(dá)出來,以便于使用。
(7)寧缺毋濫原則:對(duì)無應(yīng)用價(jià)值的數(shù)據(jù)退回提交單位,對(duì)于有應(yīng)用價(jià)值但描述不規(guī)范數(shù)據(jù)給出修改建議后反饋提交單位,待修改后再重新提交。
2.2.3 數(shù)據(jù)審核的方法
目前,農(nóng)業(yè)數(shù)據(jù)審核還沒有現(xiàn)成的方法可以參照,以下是從實(shí)踐的角度探討熱作數(shù)據(jù)庫數(shù)據(jù)審核的經(jīng)驗(yàn)和方法:
(1)數(shù)據(jù)質(zhì)量分析 數(shù)據(jù)審核首先要對(duì)數(shù)據(jù)質(zhì)量進(jìn)行分析。簡而言之,數(shù)據(jù)質(zhì)量就是反映出數(shù)據(jù)對(duì)特定應(yīng)用的滿足程度[4]。數(shù)據(jù)質(zhì)量的高低歸根結(jié)底表現(xiàn)為對(duì)應(yīng)用的滿足程度,卓有成效的數(shù)據(jù)分析應(yīng)該和具體應(yīng)用緊密結(jié)合[5]。數(shù)據(jù)作為特殊產(chǎn)品,到目前為止,還沒有統(tǒng)一的標(biāo)準(zhǔn)來衡量數(shù)據(jù)的質(zhì)量[6]。熱作數(shù)據(jù)從實(shí)踐的角度進(jìn)行數(shù)據(jù)質(zhì)量分析,主要包括以下2點(diǎn):
一是審查數(shù)據(jù)來源是否真實(shí)可靠。數(shù)據(jù)的來源很大程度上反映了數(shù)據(jù)的真實(shí)程度,越是原始采集的數(shù)據(jù)真實(shí)程度越高,例如觀測、監(jiān)測、調(diào)查、試驗(yàn)、實(shí)驗(yàn)等科學(xué)活動(dòng)中產(chǎn)生的原始數(shù)據(jù)。還有來自權(quán)威期刊、網(wǎng)站等媒介的數(shù)據(jù)真實(shí)可靠性也較高。一些數(shù)據(jù)經(jīng)過加工整理因?yàn)槿藶榈囊蛩厝菀桩a(chǎn)生誤差,例如自下而上的統(tǒng)計(jì)等。而一些來自缺乏專業(yè)審核的大眾媒介的數(shù)據(jù)值得注意,將提交的數(shù)據(jù)通過網(wǎng)絡(luò)搜索進(jìn)行對(duì)比,可以發(fā)現(xiàn)該數(shù)據(jù)信息是否來自互聯(lián)網(wǎng)或來自互聯(lián)網(wǎng)的比例,通過這種方法有時(shí)會(huì)發(fā)現(xiàn)有些數(shù)據(jù)來源與標(biāo)注的來源途徑、研究機(jī)構(gòu)和參考文獻(xiàn)不相符的情況。
二是審查數(shù)據(jù)本身是否體現(xiàn)了核心價(jià)值。數(shù)據(jù)的價(jià)值在于運(yùn)用,每種作物的特性和價(jià)值各異,數(shù)據(jù)的價(jià)值通過某個(gè)字段或某些字段表達(dá)出來,數(shù)據(jù)在各字段的描述過程中要有所側(cè)重,以表1熱區(qū)主要栽培作物數(shù)據(jù)庫為例,有的作物的數(shù)據(jù)價(jià)值體現(xiàn)在“栽培技術(shù)”字段,有的作物的數(shù)據(jù)價(jià)值體現(xiàn)在“病蟲害防治”,有的作物的數(shù)據(jù)價(jià)值體現(xiàn)在“主要用途”,有的則體現(xiàn)在“開發(fā)利用前景”等。在某個(gè)領(lǐng)域越新的研究,有所突破的研究越能體現(xiàn)數(shù)據(jù)的核心價(jià)值;相反,陳舊的、大眾化的數(shù)據(jù)價(jià)值越低。
通過數(shù)據(jù)質(zhì)量分析可以對(duì)提交的數(shù)據(jù)進(jìn)行篩選,對(duì)數(shù)據(jù)質(zhì)量低的數(shù)據(jù)退回提交單位,通過質(zhì)量分析的數(shù)據(jù)再進(jìn)行下一輪審核,可以大大減少不必要的時(shí)間耗費(fèi)。
(2)對(duì)照法規(guī)、標(biāo)準(zhǔn)等逐一進(jìn)行全面審核 對(duì)照主中心頒布的《數(shù)據(jù)檢查和質(zhì)量控制管理辦法》等數(shù)據(jù)法規(guī)和標(biāo)準(zhǔn)、數(shù)據(jù)庫的結(jié)構(gòu)說明和采集標(biāo)準(zhǔn)以及作物描述規(guī)范對(duì)通過質(zhì)量分析的數(shù)據(jù)信息進(jìn)行全面審核,指出不符合的地方,給出修改建議。
(3)邏輯審核 因?yàn)檐浖O(shè)計(jì)滯后的原因,目前邏輯審核還難以通過數(shù)據(jù)庫管理軟件的審核功能來實(shí)現(xiàn),主要通過人工檢查字段的描述是否一致,有無相矛盾的地方;數(shù)值是否過大或過小,是否在合理范圍之內(nèi),有無可疑數(shù)據(jù)等。
(4)經(jīng)驗(yàn)判斷 依靠相關(guān)知識(shí)和經(jīng)驗(yàn)來判斷數(shù)據(jù)的描述是否有誤,相關(guān)的數(shù)值是否可疑。如,復(fù)核《海南島桑樹種質(zhì)資源》數(shù)據(jù)信息時(shí)發(fā)現(xiàn)有段描述中桑樹的高度為100多米,根據(jù)常識(shí),桑樹最高也就在10多米,顯然100多米大大超出了合理的范圍。
3 數(shù)據(jù)審核存在的問題和建議
3.1 存在問題
3.1.1 重量不重質(zhì)
數(shù)據(jù)的審核在很長的時(shí)間內(nèi)沒有引起足夠的重視。很多數(shù)據(jù)庫建設(shè)之初更注重的是“量”,就是不斷向數(shù)據(jù)庫里面添加數(shù)據(jù),隨著數(shù)據(jù)庫的數(shù)據(jù)達(dá)到一定量之后,反過來再看數(shù)據(jù)庫里面的數(shù)據(jù)才發(fā)現(xiàn)存在不少“問題數(shù)據(jù)”和毫無價(jià)值的“垃圾數(shù)據(jù)”,例如,一些數(shù)據(jù)信息的描述存在錯(cuò)字、錯(cuò)詞、亂碼等表達(dá)有誤的情況,有的則是摘自互聯(lián)網(wǎng)的大眾化數(shù)據(jù)信息。此外,由于基礎(chǔ)數(shù)據(jù)的收集存在“信息壁壘”,工作難度極高,一些科研人員為了完成任務(wù)對(duì)數(shù)據(jù)信息進(jìn)行“造假”,從期刊、網(wǎng)絡(luò)等途徑東拼西湊一些沒有太多應(yīng)用價(jià)值的數(shù)據(jù)信息卻標(biāo)注上某科研機(jī)構(gòu)的研究等。
3.1.2 缺乏相關(guān)專業(yè)的培訓(xùn)指導(dǎo)
數(shù)據(jù)的行業(yè)性特征比較明顯,農(nóng)業(yè)數(shù)據(jù)的審核除了涉及統(tǒng)計(jì)、計(jì)算機(jī)等方面的知識(shí)外,還要有較好的農(nóng)學(xué)方面的知識(shí)背景,可以說是一項(xiàng)跨學(xué)科、復(fù)雜、難度較高的工作。但由于許多客觀原因(技術(shù)力量、人才等),長久以來關(guān)于這方面的培訓(xùn)幾乎沒有。
3.1.3 缺乏一套專門的農(nóng)業(yè)數(shù)據(jù)審核手冊(cè)
農(nóng)業(yè)系統(tǒng)的數(shù)據(jù)庫還處于發(fā)展完善階段,雖然也制訂了一些管理辦法和規(guī)范,但過于分散,對(duì)于數(shù)據(jù)審核還沒有形成一套科學(xué)的數(shù)據(jù)審核規(guī)則,所以數(shù)據(jù)審核沒有現(xiàn)成的規(guī)則可以參照,主要依靠審核人員的知識(shí)水平、經(jīng)驗(yàn)積累及借鑒和探索來進(jìn)行。
3.1.4 數(shù)據(jù)管理軟件的更新升級(jí)跟不上發(fā)展的需要
目前的數(shù)據(jù)軟件從2006年上線后一直運(yùn)行到現(xiàn)在,在軟件的設(shè)計(jì)上還存在不完善的地方,比如還不能實(shí)現(xiàn)一般的數(shù)據(jù)質(zhì)量分析和審核。
3.2 建議
鑒于熱帶作物數(shù)據(jù)庫數(shù)據(jù)審核現(xiàn)狀,為了促使熱帶作物數(shù)據(jù)庫數(shù)據(jù)審核更加科學(xué)、更加真實(shí)可靠,建議農(nóng)業(yè)科研機(jī)構(gòu)自上而下都充分重視數(shù)據(jù)審核工作,定期對(duì)科研機(jī)構(gòu)和人員開展宣傳教育,并及時(shí)開展相關(guān)的數(shù)據(jù)審核培訓(xùn),必要時(shí)可以借鑒別的行業(yè)好的經(jīng)驗(yàn)和做法,對(duì)審核人員進(jìn)行培訓(xùn)指導(dǎo),不斷提高審核人員的業(yè)務(wù)水平。同時(shí),及時(shí)編寫一套權(quán)威的農(nóng)業(yè)方面的數(shù)據(jù)審核手冊(cè),對(duì)數(shù)據(jù)審核進(jìn)行專業(yè)指導(dǎo),對(duì)現(xiàn)有的數(shù)據(jù)庫管理系統(tǒng)進(jìn)行更新升級(jí),并大力研發(fā)自動(dòng)化的數(shù)據(jù)分析工具和審核軟件應(yīng)用到數(shù)據(jù)庫數(shù)據(jù)審核。
參考文獻(xiàn)
[1] 農(nóng)業(yè)科學(xué)數(shù)據(jù)共享中心簡介[EB/OL].[2014-05-23].http://trop.agridata.cn/ch_intro.asp?r=1.
[2] 農(nóng)業(yè)科學(xué)數(shù)據(jù)共享管理辦法[EB/OL].[2014-05-23].http://trop.agridata.cn/ch_law.asp.
[3] 農(nóng)業(yè)科學(xué)數(shù)據(jù)匯交管理辦法[EB/OL].[2014-05-23].http://www.agridata.cn/homepage/ch_law.asp.
[4] Lee Y W,Strong D M. Knowing-why about data processes and data quality[J].Journal of Management Information Systems,2003,20(3):13-39.
[5] Strong D M,Lee Y W,Wang R Y. Data quality in context[J]. Communication of The ACM,1997,40(5):103-110.
[6] 丁海龍,徐宏炳. 數(shù)據(jù)質(zhì)量分析及應(yīng)用[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2007(3):236-238.