国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于生命周期理論的農(nóng)業(yè)科學(xué)數(shù)據(jù)中心化管理模式

2022-01-19 12:00高飛周國民滿芮
大數(shù)據(jù) 2022年1期
關(guān)鍵詞:數(shù)據(jù)管理數(shù)據(jù)中心科學(xué)

高飛,周國民,滿芮

1. 中國農(nóng)業(yè)科學(xué)院作物科學(xué)研究所,北京 100081;2. 國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心,北京 100081;3. 中國農(nóng)業(yè)科學(xué)院農(nóng)田灌溉研究所,河南 新鄉(xiāng) 453002;4. 中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081

0 引言

近年來,農(nóng)業(yè)科學(xué)數(shù)據(jù)資源的建設(shè)、管理與共享工作得到了世界各國政府、科研機(jī)構(gòu)和科學(xué)家的高度重視,相關(guān)國際組織和農(nóng)業(yè)科學(xué)數(shù)據(jù)平臺格外活躍,農(nóng)業(yè)科學(xué)數(shù)據(jù)管理工作持續(xù)推進(jìn),為農(nóng)業(yè)科技創(chuàng)新提供了有力支撐。聯(lián)合國糧食及農(nóng)業(yè)組織(Food and Agriculture Organization,F(xiàn)AO)發(fā)布了農(nóng)業(yè)環(huán)境指標(biāo)、農(nóng)業(yè)科技指標(biāo)、土地利用、漁業(yè)資源等10多個數(shù)據(jù)庫,積極促進(jìn)農(nóng)業(yè)科技創(chuàng)新研究。國際橡膠研究組織(International Rubber Study Group,IRSG)搭建了世界天然橡膠產(chǎn)業(yè)數(shù)據(jù)庫,數(shù)據(jù)覆蓋世界主要天然橡膠的生產(chǎn)面積、產(chǎn)量、庫存量、貿(mào)易量、市場價格以及主要天然橡膠消費(fèi)國的消費(fèi)量、進(jìn)出口量、進(jìn)出口價格等。國際椰子共同體(International Coconut Community,ICC)、國際可可組織(International Cocoa Organization,ICO)、國際胡椒組織(International Pepper Community,IPC)等分別搭建了對應(yīng)的熱帶作物產(chǎn)業(yè)數(shù)據(jù)庫,為熱帶作物經(jīng)濟(jì)研究提供了數(shù)據(jù)支撐。我國科學(xué)數(shù)據(jù)平臺建設(shè)始于21世紀(jì)初[1],2014年建成地球系統(tǒng)科學(xué)、人口與健康、農(nóng)業(yè)等8個領(lǐng)域的國家科技資源共享平臺,2019年科學(xué)技術(shù)部、財政部對原有國家平臺進(jìn)行優(yōu)化調(diào)整,形成了20個國家科學(xué)數(shù)據(jù)中心,推進(jìn)相關(guān)領(lǐng)域科技資源向國家平臺匯聚與整合。從科學(xué)數(shù)據(jù)資源建設(shè)現(xiàn)狀來看,科學(xué)數(shù)據(jù)中心化管理是未來發(fā)展趨勢,但數(shù)據(jù)中心如何管理科學(xué)數(shù)據(jù)、進(jìn)行數(shù)據(jù)共享還需探索。

1 模型與理論基礎(chǔ)

1.1 科學(xué)數(shù)據(jù)生命周期

科學(xué)數(shù)據(jù)產(chǎn)生于科學(xué)實(shí)驗(yàn)、調(diào)查、觀測等科學(xué)研究活動,服務(wù)于科研工作者,其生命周期與科研工作流程緊密相關(guān)。從現(xiàn)有文獻(xiàn)來看,根據(jù)研究內(nèi)容的不同,科學(xué)數(shù)據(jù)生命周期各階段劃分略有不同,大致可分為數(shù)據(jù)計劃、數(shù)據(jù)獲?。ㄉa(chǎn))、數(shù)據(jù)處理、數(shù)據(jù)存儲、數(shù)據(jù)共享(重用)5個階段。楊傳汶等人[2]在此基礎(chǔ)上增加了數(shù)據(jù)更新階段,并提出了基于科研動態(tài)的數(shù)據(jù)服務(wù),如協(xié)助制訂數(shù)據(jù)計劃、設(shè)計元數(shù)據(jù)、提供保存工具、提供領(lǐng)域?qū)<倚畔?、提供?shù)據(jù)檢索服務(wù)、數(shù)據(jù)評價交流和協(xié)助數(shù)據(jù)更新完善等。儲節(jié)旺等人[3]將數(shù)據(jù)共享細(xì)分為共享、分析、再利用3個環(huán)節(jié),構(gòu)建了科學(xué)數(shù)據(jù)管理體系,包括科學(xué)數(shù)據(jù)管理制度、管理風(fēng)險防控體系、數(shù)據(jù)質(zhì)量評估和基于科學(xué)數(shù)據(jù)生命周期的數(shù)據(jù)資源配置、技術(shù)支持、人才隊伍建設(shè)和信息素養(yǎng)培育。夏義堃等人[4]從學(xué)科特性和學(xué)術(shù)倫理角度出發(fā),認(rèn)為應(yīng)從基礎(chǔ)層(政策標(biāo)準(zhǔn)、基礎(chǔ)設(shè)施、數(shù)據(jù)能力、資金保證)、流程控制層(數(shù)據(jù)管理計劃、采集、組織、保存、共享利用)和主體層(資助機(jī)構(gòu)、研究機(jī)構(gòu)、出版商、數(shù)據(jù)平臺)3個層面對生命科學(xué)數(shù)據(jù)的質(zhì)量進(jìn)行控制。陳欣等人[5]進(jìn)行了社會科學(xué)數(shù)據(jù)特征研究,將數(shù)據(jù)生命周期簡化為創(chuàng)建、分析、公開3個階段。姚占雷等人[6]基于人文社科數(shù)據(jù)生命周期各階段特點(diǎn),構(gòu)建了數(shù)據(jù)管理平臺,滿足人文社科研究學(xué)者的科研需求。生命周期是一種有效的分析工具,可以清晰地反映數(shù)據(jù)創(chuàng)建后的各階段特點(diǎn),本文采用此方法進(jìn)行農(nóng)業(yè)科學(xué)數(shù)據(jù)中心化管理模式研究。

1.2 農(nóng)業(yè)科學(xué)數(shù)據(jù)生命周期管理模型

本文基于國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心(以下簡稱數(shù)據(jù)中心)的數(shù)據(jù)管理實(shí)例,將農(nóng)業(yè)科學(xué)數(shù)據(jù)管理活動分為數(shù)據(jù)資源建設(shè)、匯交、加工、長期保存、共享5個階段,如圖1所示。本文的農(nóng)業(yè)科學(xué)數(shù)據(jù)資源主要包括科技項(xiàng)目科學(xué)數(shù)據(jù)、長期觀測科學(xué)數(shù)據(jù)和學(xué)科領(lǐng)域自建科學(xué)數(shù)據(jù)。數(shù)據(jù)匯交從廣義上來說是數(shù)據(jù)擁有者將科學(xué)數(shù)據(jù)提交到科學(xué)數(shù)據(jù)管理機(jī)構(gòu)的過程,除了科技項(xiàng)目科學(xué)數(shù)據(jù)、長期觀測科學(xué)數(shù)據(jù),學(xué)科領(lǐng)域自建科學(xué)數(shù)據(jù)也可被提交至科學(xué)數(shù)據(jù)管理機(jī)構(gòu)。例如,在發(fā)表論文時,出版社往往要求論文使用的數(shù)據(jù)同時發(fā)表,但并不是所有出版社都能提供數(shù)據(jù)存儲服務(wù)。這時,作者可以將數(shù)據(jù)提交至科學(xué)數(shù)據(jù)管理機(jī)構(gòu)進(jìn)行公開發(fā)表。數(shù)據(jù)加工主要針對元數(shù)據(jù)和數(shù)據(jù)實(shí)體,通過添加科學(xué)數(shù)據(jù)資源標(biāo)識、智能分類、融匯等控制數(shù)據(jù)質(zhì)量,進(jìn)行規(guī)范化管理。數(shù)據(jù)長期保存要對數(shù)據(jù)進(jìn)行分級分類管理,同時保證數(shù)據(jù)存儲環(huán)境安全,保證數(shù)據(jù)可以重復(fù)使用,實(shí)現(xiàn)對科學(xué)研究過程的追溯。數(shù)據(jù)管理的最終目的是實(shí)現(xiàn)數(shù)據(jù)共享,數(shù)據(jù)中心應(yīng)將元數(shù)據(jù)在網(wǎng)絡(luò)上進(jìn)行共享,并提供數(shù)據(jù)檢索服務(wù)。

數(shù)據(jù)管理標(biāo)準(zhǔn)是貫穿整個數(shù)據(jù)生命周期的,包括數(shù)據(jù)采集、匯交、格式交換、質(zhì)量控制、元數(shù)據(jù)等標(biāo)準(zhǔn)規(guī)范。同時,由于數(shù)據(jù)以幾何倍數(shù)增長,科學(xué)數(shù)據(jù)管理離不開基礎(chǔ)設(shè)施(分析工具、存儲系統(tǒng)、管理工具)的輔助。

2 農(nóng)業(yè)科學(xué)數(shù)據(jù)管理的主要問題

2.1 農(nóng)業(yè)科學(xué)數(shù)據(jù)資源缺乏長期管護(hù)

數(shù)字時代的到來使數(shù)據(jù)存儲更加便捷,但可靠性卻大大降低。存儲設(shè)備過時、讀取設(shè)備淘汰都可能導(dǎo)致數(shù)據(jù)無法使用。而與傳統(tǒng)的文獻(xiàn)信息相比,由數(shù)字技術(shù)支撐的數(shù)字信息在存儲、傳輸和持久保存方面存在一系列與生俱來的問題。數(shù)字信息的存活和使用必須要得到特別的維護(hù)和管理,以確保數(shù)字信息長期存活和數(shù)字信息真實(shí)可信,能夠被未來的使用者理解和應(yīng)用。但農(nóng)業(yè)科學(xué)數(shù)據(jù),特別是原始數(shù)據(jù),大量分散在相關(guān)行業(yè)的政府部門、研究機(jī)構(gòu)、農(nóng)業(yè)企業(yè)等,無法進(jìn)行統(tǒng)一管理,缺乏有效的數(shù)據(jù)管護(hù),不利于科研人員使用,難以發(fā)揮農(nóng)業(yè)科學(xué)數(shù)據(jù)在研究中的作用。

2.2 農(nóng)業(yè)科學(xué)數(shù)據(jù)質(zhì)量參差不齊

農(nóng)業(yè)數(shù)字資源規(guī)模龐大、增長快速,但質(zhì)量參差不齊,主要表現(xiàn)為數(shù)據(jù)重復(fù)保存、數(shù)據(jù)丟失、分類不合理、缺少相關(guān)質(zhì)量說明文檔等。原始數(shù)據(jù)由項(xiàng)目團(tuán)隊保存,而項(xiàng)目團(tuán)隊往往缺乏管理意識,造成數(shù)據(jù)質(zhì)量降低。例如,研究人員根據(jù)自身經(jīng)驗(yàn)創(chuàng)建元數(shù)據(jù),會出現(xiàn)元數(shù)據(jù)冗余、丟失、編碼錯誤、前后不一致、版本混亂等問題。

2.3 農(nóng)業(yè)科學(xué)數(shù)據(jù)共享率低

農(nóng)業(yè)數(shù)字資源數(shù)據(jù)結(jié)構(gòu)復(fù)雜、多變,內(nèi)容組分權(quán)屬邊界模糊,獲得與使用條件煩瑣復(fù)雜,導(dǎo)致我國科學(xué)數(shù)據(jù)開放共享程度不夠理想,與社會大眾的需求差距較大。有學(xué)者調(diào)查研究發(fā)現(xiàn),科學(xué)數(shù)據(jù)的權(quán)益不清是我國科學(xué)數(shù)據(jù)開放共享程度不夠理想的重要原因之一,科學(xué)數(shù)據(jù)持有者擔(dān)心開放共享數(shù)據(jù)后帶來權(quán)益糾紛等不良影響。此外,我國科學(xué)數(shù)據(jù)流失嚴(yán)重,國際上很多有影響力的雜志要求論文發(fā)表前必須提交支撐論文的基礎(chǔ)科學(xué)數(shù)據(jù),學(xué)者為了發(fā)表論文常常在沒有將數(shù)據(jù)匯交到國內(nèi)管理機(jī)構(gòu)的情況下向國外提供數(shù)據(jù)。

3 農(nóng)業(yè)科學(xué)數(shù)據(jù)中心化管理模式

3.1 數(shù)據(jù)管理標(biāo)準(zhǔn)

數(shù)據(jù)中心需要制定相關(guān)的管理標(biāo)準(zhǔn)以便計算機(jī)識別和處理數(shù)據(jù),使數(shù)據(jù)更容易被發(fā)現(xiàn)和重用。

(1)農(nóng)業(yè)科學(xué)數(shù)據(jù)采集標(biāo)準(zhǔn)

農(nóng)業(yè)科學(xué)數(shù)據(jù)采集標(biāo)準(zhǔn)定義了農(nóng)業(yè)數(shù)據(jù)采集各階段需要遵循的基本規(guī)則,對采集對象、采集方法、原始數(shù)據(jù)的獲得與記錄等過程進(jìn)行了定義和結(jié)構(gòu)化,使數(shù)據(jù)采集無歧義,便于計算機(jī)理解與記錄。數(shù)據(jù)采集對象應(yīng)明確其位置屬性、時間屬性和基本特點(diǎn)。采集指標(biāo)需經(jīng)過數(shù)據(jù)化標(biāo)準(zhǔn)專家、領(lǐng)域?qū)<业臉?biāo)準(zhǔn)化處理,形成可直接組成獨(dú)立于語法數(shù)據(jù)交換格式的、可重用的數(shù)據(jù)采集指標(biāo)。采集的原始數(shù)據(jù)不允許修改,以確保數(shù)據(jù)記錄的連續(xù)性和完整性。

(2)農(nóng)業(yè)科學(xué)數(shù)據(jù)質(zhì)量控制

數(shù)據(jù)的質(zhì)量是影響科學(xué)數(shù)據(jù)重用的關(guān)鍵性因素之一,而農(nóng)業(yè)科學(xué)數(shù)據(jù)由于其內(nèi)容的廣闊性、結(jié)構(gòu)的復(fù)雜性,數(shù)據(jù)質(zhì)量控制尤為重要。針對農(nóng)業(yè)科學(xué)數(shù)據(jù)的特點(diǎn),數(shù)據(jù)中心制定了農(nóng)業(yè)科學(xué)數(shù)據(jù)質(zhì)量檢查與控制規(guī)范。農(nóng)業(yè)科學(xué)數(shù)據(jù)質(zhì)量應(yīng)從定量與非定量標(biāo)準(zhǔn)兩方面進(jìn)行控制。數(shù)據(jù)質(zhì)量定量評估標(biāo)準(zhǔn)主要包括:①完整性,數(shù)據(jù)集中是否存在冗余數(shù)據(jù)或缺少數(shù)據(jù);②邏輯一致性,即數(shù)據(jù)概念是否符合概念模式規(guī)則、值是否在值域范圍內(nèi)、數(shù)據(jù)存儲與數(shù)據(jù)集物理結(jié)構(gòu)是否一致、數(shù)據(jù)集拓?fù)潢P(guān)系是否一致;③位置精度,包括絕對精度、相對精度和柵格數(shù)據(jù)位置精度;④時間精度,包括時間測量精度、時間一致性、時間正確性;⑤專題精度,即數(shù)據(jù)分類是否正確、非定量屬性(如數(shù)據(jù)集標(biāo)題、關(guān)鍵字、數(shù)據(jù)版本等)描述是否正確、數(shù)值屬性精度是否準(zhǔn)確。數(shù)據(jù)質(zhì)量非定量評估標(biāo)準(zhǔn)主要包括:數(shù)據(jù)集創(chuàng)建目的是否說明、數(shù)據(jù)用途是否填寫,以及數(shù)據(jù)志(數(shù)據(jù)從收集、獲取、匯編到現(xiàn)狀的整個生命周期)是否記錄清晰。在數(shù)據(jù)控制管理過程中,這兩種類型的數(shù)據(jù)質(zhì)量評估結(jié)果都應(yīng)當(dāng)被提供,每個數(shù)據(jù)質(zhì)量結(jié)果都有一個數(shù)值類型,且這個結(jié)果可以被計算機(jī)識別。

(3)農(nóng)業(yè)科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)

農(nóng)業(yè)科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)對完整描述數(shù)據(jù)對象的數(shù)據(jù)項(xiàng)集合、著錄規(guī)則進(jìn)行了定義,適用于資料共享、數(shù)據(jù)發(fā)布、數(shù)據(jù)集編目、數(shù)據(jù)交換和網(wǎng)絡(luò)查詢服務(wù)等。農(nóng)業(yè)科學(xué)數(shù)據(jù)元數(shù)據(jù)應(yīng)提供標(biāo)識、內(nèi)容、分發(fā)、質(zhì)量、表現(xiàn)、參照、圖示表達(dá)、擴(kuò)展、限制和維護(hù)等信息。元數(shù)據(jù)標(biāo)準(zhǔn)體系分為標(biāo)準(zhǔn)和引用兩部分。標(biāo)準(zhǔn)部分包括標(biāo)識信息、內(nèi)容信息、分發(fā)信息、數(shù)據(jù)質(zhì)量信息、數(shù)據(jù)表現(xiàn)信息、參照系信息、圖示表達(dá)目錄信息、元數(shù)據(jù)擴(kuò)展信息、應(yīng)用模式信息、限制信息和維護(hù)信息;引用部分包括覆蓋范圍信息以及引用和責(zé)任方信息。元數(shù)據(jù)內(nèi)容框架如圖2所示,每一部分信息都用統(tǒng)一建模語言(unified modeling language,UML)包表示。元數(shù)據(jù)實(shí)體可按需要聚集或重復(fù),以滿足標(biāo)準(zhǔn)規(guī)定的必選要求和領(lǐng)域的其他要求。對于公共元數(shù)據(jù)來說,標(biāo)識信息為必選項(xiàng),其他信息為可選項(xiàng)。

圖2 元數(shù)據(jù)內(nèi)容框架

針對農(nóng)業(yè)科學(xué)數(shù)據(jù)生命周期管理,數(shù)據(jù)中心還制定了數(shù)據(jù)匯交管理辦法、農(nóng)業(yè)科學(xué)數(shù)據(jù)服務(wù)規(guī)范、數(shù)據(jù)發(fā)布管理規(guī)則、農(nóng)業(yè)科學(xué)數(shù)據(jù)信息安全管理規(guī)范、農(nóng)業(yè)科學(xué)數(shù)據(jù)中心用戶管理規(guī)范、農(nóng)業(yè)科學(xué)數(shù)據(jù)集成和訪問規(guī)范等標(biāo)準(zhǔn)規(guī)范。

3.2 數(shù)據(jù)匯交與加工

(1)數(shù)據(jù)匯交管理

數(shù)據(jù)中心作為數(shù)據(jù)管理機(jī)構(gòu)對匯交數(shù)據(jù)進(jìn)行管理與加工維護(hù)。農(nóng)業(yè)科學(xué)數(shù)據(jù)匯交內(nèi)容包括匯交方案、質(zhì)量自查報告和科學(xué)數(shù)據(jù)。匯交方案應(yīng)明確以下內(nèi)容:數(shù)據(jù)匯交義務(wù)人、數(shù)據(jù)的種類和范圍、數(shù)據(jù)產(chǎn)生方式、數(shù)據(jù)格式、數(shù)據(jù)管理機(jī)構(gòu)、數(shù)據(jù)質(zhì)量說明、匯交形式和進(jìn)度、數(shù)據(jù)的科學(xué)價值和使用領(lǐng)域、數(shù)據(jù)保護(hù)期限和其他說明事項(xiàng)。項(xiàng)目承擔(dān)單位對數(shù)據(jù)的真實(shí)性、完整性、一致性進(jìn)行自查后提交質(zhì)量自查報告??茖W(xué)數(shù)據(jù)是項(xiàng)目數(shù)據(jù)匯交的核心,應(yīng)包含實(shí)體數(shù)據(jù)、數(shù)據(jù)描述信息和輔助工具軟件。國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心配備專門的數(shù)據(jù)保護(hù)和管理(保管)人員,采取現(xiàn)代化的手段保存數(shù)據(jù),保證匯交數(shù)據(jù)的安全;同時積極創(chuàng)造條件,保證農(nóng)業(yè)科學(xué)數(shù)據(jù)的合理利用,推動數(shù)據(jù)共享。數(shù)據(jù)中心對匯交的科學(xué)數(shù)據(jù)進(jìn)行分類、分級存儲和管理,確保數(shù)據(jù)的物理安全。數(shù)據(jù)中心在數(shù)據(jù)驗(yàn)收后及時公布項(xiàng)目匯交科學(xué)數(shù)據(jù)元數(shù)據(jù),在保護(hù)項(xiàng)目承擔(dān)單位合法權(quán)益的基礎(chǔ)上,做好數(shù)據(jù)共享和服務(wù)工作。

(2)數(shù)據(jù)加工

數(shù)據(jù)中心保存的原始數(shù)據(jù)不能直接在網(wǎng)絡(luò)上共享,還需要經(jīng)過一定的加工處理。在元數(shù)據(jù)層面,對照科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn),補(bǔ)全元數(shù)據(jù)的必選項(xiàng),對于可選項(xiàng),則根據(jù)學(xué)科領(lǐng)域要求進(jìn)行適當(dāng)?shù)臄U(kuò)展或刪除。例如:①元數(shù)據(jù)不全問題,常見于缺少描述信息、地址信息、郵編地址信息等字段,需要進(jìn)行補(bǔ)全;②實(shí)體數(shù)據(jù)格式問題,常見于格式錯誤、格式可讀性差(以PDF報告提供數(shù)據(jù)、以圖片形式提供表格數(shù)據(jù))等,需要進(jìn)行修正、識別和提??;③實(shí)體數(shù)據(jù)字段問題,常見于字段定義不規(guī)范、字母字段缺少含義解釋等,需要進(jìn)行修改和標(biāo)注;④數(shù)據(jù)可用性不足,常見于提交的論文、報告、證書等不可用,需要進(jìn)行修改。

數(shù)據(jù)中心還需為科學(xué)數(shù)據(jù)添加數(shù)據(jù)身份標(biāo)識??萍假Y源標(biāo)識是科技資源實(shí)體唯一的身份編碼,例如:海南島熱帶作物種質(zhì)資源考察庫的科技資源標(biāo)識為CSTR:17058.11.E0015.20210616.00.ds.0385。其中,CSTR為中國科技資源代號,17058為國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心代碼,11表示該資源類型為科學(xué)數(shù)據(jù),E0015表示數(shù)據(jù)生產(chǎn)者所在單位為中國熱帶農(nóng)業(yè)科學(xué)院科技信息研究所,20210616表示數(shù)據(jù)創(chuàng)建日期,00兩個數(shù)字分別表示數(shù)據(jù)來源為調(diào)查、數(shù)據(jù)類型為數(shù)值型,ds表示該資源為數(shù)據(jù)集合,最后4位為數(shù)據(jù)流水編碼,其結(jié)構(gòu)如圖3所示。

圖3 農(nóng)業(yè)科技資源標(biāo)識符結(jié)構(gòu)示意圖

對于數(shù)據(jù)實(shí)體,需進(jìn)行一致性檢測(生成MD5碼)和智能分類、融匯。例如:①基于同一種作物,對不同項(xiàng)目產(chǎn)生的匯交數(shù)據(jù)中涉及本作物的內(nèi)容進(jìn)行提取、標(biāo)注和統(tǒng)一量度,并進(jìn)行跨數(shù)據(jù)集融合,以構(gòu)建針對本作物的數(shù)據(jù)專題;②基于某地理區(qū)域進(jìn)行坐標(biāo)計算后,針對多個數(shù)據(jù)集,對涉及本地理區(qū)域范圍的數(shù)據(jù)進(jìn)行提取,并進(jìn)行跨數(shù)據(jù)集融合,以構(gòu)建針對本區(qū)域的數(shù)據(jù)專題。

3.3 數(shù)據(jù)長期保存

(1)數(shù)據(jù)分類

數(shù)據(jù)資源長期保存是各國數(shù)據(jù)平臺高度關(guān)注的戰(zhàn)略問題,數(shù)據(jù)分類是長期保存的重要環(huán)節(jié)。數(shù)據(jù)中心對現(xiàn)有農(nóng)業(yè)科學(xué)數(shù)據(jù)資源進(jìn)行調(diào)研,然后結(jié)合科學(xué)數(shù)據(jù)用戶需求,對農(nóng)業(yè)領(lǐng)域的數(shù)據(jù)資源目錄信息進(jìn)行重新編制,歸并總結(jié)出14大類58小類的全新資源分類體系(見表1)。新的資源分類體系不僅使科學(xué)數(shù)據(jù)資源分類更加明晰,也方便用戶進(jìn)行索引和檢索。由于農(nóng)業(yè)科研和生產(chǎn)高速發(fā)展,數(shù)據(jù)資源分類體系需要隨時進(jìn)行微調(diào)以適應(yīng)新的需求。

表1 農(nóng)業(yè)科學(xué)數(shù)據(jù)資源體系

(2)數(shù)據(jù)分級

由于農(nóng)業(yè)科學(xué)數(shù)據(jù)包含的學(xué)科領(lǐng)域眾多,涉及糧食安全、種子安全、生物安全、經(jīng)濟(jì)安全等方面,必須根據(jù)數(shù)據(jù)的重要程度和涉及的安全問題進(jìn)行分級管理。數(shù)據(jù)安全分級指按照數(shù)據(jù)遭受破壞后造成的影響進(jìn)行安全等級劃分,以達(dá)到對不同安全等級的數(shù)據(jù)實(shí)施不同安全防護(hù)的目的。農(nóng)業(yè)科學(xué)數(shù)據(jù)分級根據(jù)數(shù)據(jù)遭受破壞后造成的影響等從高到低分為5級、4級、3級、2級、1級等指導(dǎo)性的分級初始值,各級判斷準(zhǔn)則如下。

● 5級數(shù)據(jù)判斷準(zhǔn)則:遭受破壞后,對國家安全產(chǎn)生較大影響的農(nóng)業(yè)數(shù)據(jù),通常包括地形地貌、遙感影像、氣候資源等;數(shù)據(jù)安全性遭到破壞后,對公眾權(quán)益或農(nóng)業(yè)企業(yè)利益造成嚴(yán)重影響的數(shù)據(jù),如科技成果、轉(zhuǎn)基因庫等。

● 4級數(shù)據(jù)判斷準(zhǔn)則:數(shù)據(jù)遭到破壞后,對公眾權(quán)益造成一般影響,或?qū)€人隱私或農(nóng)業(yè)企業(yè)的合法權(quán)益造成嚴(yán)重影響,但不影響國家安全,如農(nóng)業(yè)科研項(xiàng)目投資、農(nóng)業(yè)金融與投資等。

● 3級數(shù)據(jù)判斷準(zhǔn)則:數(shù)據(jù)用于部分場景,一般針對特定人員公開,且僅被必須知悉的對象訪問或使用,如產(chǎn)品追溯、產(chǎn)地追溯等;數(shù)據(jù)遭到破壞或數(shù)據(jù)安全性遭到破壞后,對公眾權(quán)益造成輕微影響,或?qū)€人隱私或農(nóng)業(yè)企業(yè)的合法權(quán)益造成一般影響,但不影響國家安全,如種質(zhì)資源等。

● 2級數(shù)據(jù)判斷準(zhǔn)則:只對部分受限用戶公開,通常指內(nèi)部管理且不宜廣泛公開的數(shù)據(jù),如農(nóng)業(yè)區(qū)劃等;數(shù)據(jù)的安全性遭到破壞后,對個人隱私或農(nóng)業(yè)企業(yè)的合法權(quán)益造成輕微影響,但對國家安全、公眾權(quán)益的影響極小,如農(nóng)產(chǎn)品質(zhì)量追溯等。

● 1級數(shù)據(jù)判斷準(zhǔn)則:數(shù)據(jù)一般可被公開或可被公眾獲知、使用,如組織機(jī)構(gòu)等;農(nóng)業(yè)組織或農(nóng)業(yè)科學(xué)數(shù)據(jù)管理者主動公開的信息,如生產(chǎn)許可等。數(shù)據(jù)遭到破壞或數(shù)據(jù)安全性遭到破壞后,可能不會對個人隱私或農(nóng)業(yè)企業(yè)的合法權(quán)益造成影響,或僅造成微弱影響,但不影響國家安全、公眾權(quán)益,如商品信息等。

數(shù)據(jù)長期保存需要使用質(zhì)量較好的存儲介質(zhì),以延長數(shù)據(jù)保存時間。不管存儲在什么介質(zhì)里,都需要對數(shù)據(jù)進(jìn)行定期檢查、修復(fù),實(shí)現(xiàn)定期轉(zhuǎn)存。備份方案根據(jù)數(shù)據(jù)安全級別進(jìn)行區(qū)分,重要數(shù)據(jù)至少保存3份。數(shù)據(jù)保存使用標(biāo)準(zhǔn)的、可互相兼容的或開放的、無損的數(shù)據(jù)格式。如文本文件應(yīng)選擇ODF格式,表格文件應(yīng)選擇ASCII格式,視頻文件應(yīng)選擇MPEG-4格式,圖片文件應(yīng)選擇TIFF或JPEG2000格式,網(wǎng)頁應(yīng)選擇XML或PDF格式。

3.4 數(shù)據(jù)共享服務(wù)

科學(xué)數(shù)據(jù)共享指科學(xué)數(shù)據(jù)不受其擁有單位的限制,可以在更大范圍內(nèi)被利用的一種業(yè)務(wù)合作與共享方式。數(shù)據(jù)中心通過建設(shè)科學(xué)數(shù)據(jù)共享平臺,實(shí)現(xiàn)數(shù)據(jù)的長期保存,幫助科技工作者有效地管理數(shù)據(jù)、統(tǒng)一數(shù)據(jù)的引用標(biāo)識符、提高數(shù)據(jù)的可發(fā)現(xiàn)性。國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心平臺架構(gòu)如圖4所示。

圖4 國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心平臺架構(gòu)

國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心門戶網(wǎng)站是農(nóng)業(yè)科學(xué)數(shù)據(jù)展示、查詢、宣傳的總平臺,用戶交互的總門戶,具有數(shù)據(jù)匯交、資源瀏覽、智能搜索、知識問答、專題服務(wù)等多項(xiàng)功能。其可向全社會廣大用戶提供高效、便捷的農(nóng)業(yè)科學(xué)數(shù)據(jù)資源目錄和數(shù)據(jù)實(shí)體服務(wù)。

數(shù)據(jù)平臺建有4個應(yīng)用系統(tǒng):農(nóng)業(yè)科學(xué)數(shù)據(jù)匯交系統(tǒng)、農(nóng)業(yè)科學(xué)數(shù)據(jù)加工系統(tǒng)、農(nóng)業(yè)科學(xué)數(shù)據(jù)長期保存系統(tǒng)和農(nóng)業(yè)科學(xué)數(shù)據(jù)工作服務(wù)系統(tǒng)。農(nóng)業(yè)科學(xué)數(shù)據(jù)匯交系統(tǒng)主要對科技項(xiàng)目科學(xué)數(shù)據(jù)、長期觀測科學(xué)數(shù)據(jù)和學(xué)科領(lǐng)域自建科學(xué)數(shù)據(jù)三大類數(shù)據(jù)進(jìn)行收集,實(shí)現(xiàn)科學(xué)數(shù)據(jù)匯交計劃和匯交內(nèi)容的提交、審核、跟進(jìn)、反饋和審批。農(nóng)業(yè)科學(xué)數(shù)據(jù)加工系統(tǒng)對原始數(shù)據(jù)的元數(shù)據(jù)和實(shí)體數(shù)據(jù)進(jìn)行加工,添加科學(xué)數(shù)據(jù)資源標(biāo)識,進(jìn)行科學(xué)數(shù)據(jù)智能分類、融匯。加工后的數(shù)據(jù)被保存在農(nóng)業(yè)科學(xué)數(shù)據(jù)長期保存系統(tǒng),由數(shù)據(jù)中心進(jìn)行管理維護(hù)。農(nóng)業(yè)科學(xué)數(shù)據(jù)工作服務(wù)系統(tǒng)匯聚了各學(xué)科領(lǐng)域數(shù)據(jù)中心信息,可為中心工作提供便捷的統(tǒng)計、監(jiān)測和管理的窗口。

農(nóng)業(yè)科學(xué)專題數(shù)據(jù)庫由加工系統(tǒng)處理后形成的觀測數(shù)據(jù)集、精品數(shù)據(jù)集、匯交數(shù)據(jù)集組成,是中心為用戶提供的主要數(shù)據(jù)產(chǎn)品。用戶可以通過平臺門戶獲取需要的專題科研數(shù)據(jù)。

4 開發(fā)應(yīng)用

4.1 匯交系統(tǒng)

國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心開發(fā)了農(nóng)業(yè)科學(xué)數(shù)據(jù)匯交系統(tǒng),用于農(nóng)業(yè)科學(xué)數(shù)據(jù)匯交計劃和數(shù)據(jù)實(shí)體的提交、審核、跟進(jìn)、反饋。本系統(tǒng)有五大功能模塊:系統(tǒng)首頁、科學(xué)數(shù)據(jù)匯交計劃、自查質(zhì)量信息報告、科學(xué)數(shù)據(jù)匯交內(nèi)容、基本信息管理,如圖5所示。

圖5 農(nóng)業(yè)科學(xué)數(shù)據(jù)匯交系統(tǒng)

● 系統(tǒng)首頁:提醒用戶需要辦理的業(yè)務(wù),并及時了解已辦業(yè)務(wù)的狀態(tài)。

● 科學(xué)數(shù)據(jù)匯交計劃:包含更新任務(wù)書,在線填寫和導(dǎo)入科學(xué)數(shù)據(jù)匯交計劃。

● 自查質(zhì)量信息報告:用于對科學(xué)數(shù)據(jù)匯交內(nèi)容進(jìn)行自查。

● 科學(xué)數(shù)據(jù)匯交內(nèi)容:用于填寫科學(xué)數(shù)據(jù)描述信息,上傳匯總數(shù)據(jù)集、使用軟件。

● 基本信息管理:可以修改密碼、單位名稱、聯(lián)系人、聯(lián)系電話、電子郵箱等基本信息。

4.2 加工系統(tǒng)

國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心開發(fā)了農(nóng)業(yè)科學(xué)數(shù)據(jù)加工系統(tǒng)(如圖6所示),根據(jù)統(tǒng)一的格式,對科技計劃項(xiàng)目科學(xué)數(shù)據(jù)匯交審核系統(tǒng)、長期性數(shù)據(jù)匯交系統(tǒng)、總中心門戶、分中心門戶、實(shí)驗(yàn)站門戶等其他系統(tǒng)收集的數(shù)據(jù)資源進(jìn)行加工處理,以滿足數(shù)據(jù)共享的規(guī)范及要求。系統(tǒng)功能主要包含:原始數(shù)據(jù)查看、元數(shù)據(jù)加工、數(shù)據(jù)審核、數(shù)據(jù)分布、加工任務(wù)分配、用戶管理、個人信息管理等。

圖6 數(shù)據(jù)加工示例

4.3 長期保存系統(tǒng)

農(nóng)業(yè)科學(xué)數(shù)據(jù)長期保存系統(tǒng)實(shí)現(xiàn)了PB級農(nóng)業(yè)科學(xué)數(shù)據(jù)對象的長期安全存儲,為由國家科技計劃項(xiàng)目形成的科學(xué)數(shù)據(jù)支撐數(shù)據(jù)的長期保存提供一流的倉儲。農(nóng)業(yè)科學(xué)數(shù)據(jù)長期保存系統(tǒng)整體分為前后端兩部分:后端保存系統(tǒng)、前端展示系統(tǒng)。后端保存系統(tǒng)主要用于與其他業(yè)務(wù)系統(tǒng)進(jìn)行后臺數(shù)據(jù)同步,不直接對外提供服務(wù);前端展示系統(tǒng)主要用于對外展示保存系統(tǒng)內(nèi)的元數(shù)據(jù)信息,提供簡單的檢索和查看服務(wù),也提供可供其他系統(tǒng)調(diào)用的數(shù)據(jù)接口(如圖7所示)。系統(tǒng)主界面展示了4項(xiàng)統(tǒng)計信息和幾條最近更新的資源。點(diǎn)擊資源名稱可跳轉(zhuǎn)到對應(yīng)的資源詳情頁查看資源元數(shù)據(jù)信息。

圖7 農(nóng)業(yè)科學(xué)數(shù)據(jù)長期保存系統(tǒng)

4.4 數(shù)據(jù)共享服務(wù)

國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心門戶網(wǎng)站提供豐富的數(shù)據(jù)服務(wù),除了基礎(chǔ)的數(shù)據(jù)檢索服務(wù),還包括參考咨詢服務(wù)、數(shù)據(jù)挖掘分析、數(shù)據(jù)配套工具導(dǎo)航、數(shù)據(jù)庫(集)收錄認(rèn)證與查詢、用戶卡、用戶反饋等,如圖8所示。

圖8 數(shù)據(jù)共享服務(wù)

5 結(jié)束語

數(shù)據(jù)管理的目的是整合數(shù)據(jù),促進(jìn)數(shù)據(jù)重用,引導(dǎo)知識發(fā)現(xiàn)和創(chuàng)新[7]。良好的數(shù)據(jù)管理可以提高數(shù)字出版物的質(zhì)量,簡化數(shù)據(jù)發(fā)現(xiàn)、評估、重用的過程。英國數(shù)據(jù)檔案(UK data archive,UKDA)作為數(shù)據(jù)整合與重用研究實(shí)踐的先驅(qū),針對數(shù)據(jù)收集、數(shù)據(jù)清理、數(shù)據(jù)錄入、數(shù)據(jù)保存、數(shù)據(jù)訪問建立了一系列管理標(biāo)準(zhǔn)。澳大利亞統(tǒng)計局(Australian Bureau of Statistics,ABS)與政府、研究機(jī)構(gòu)和企業(yè)合作,整合社會、經(jīng)濟(jì)和環(huán)境數(shù)據(jù)集,并構(gòu)建了5個安全框架進(jìn)行數(shù)據(jù)管理??茖W(xué)數(shù)據(jù)管理是研究熱點(diǎn),我國學(xué)者在借鑒國外先進(jìn)經(jīng)驗(yàn)的基礎(chǔ)上,結(jié)合學(xué)科領(lǐng)域數(shù)據(jù)共享需求,提出了科學(xué)數(shù)據(jù)管理政策建議[8-14]。農(nóng)業(yè)科學(xué)數(shù)據(jù)與農(nóng)業(yè)科技活動緊密相關(guān),數(shù)據(jù)采集、保存、利用都需具備一定的專業(yè)素養(yǎng),因此需要數(shù)據(jù)管理機(jī)構(gòu)(科學(xué)數(shù)據(jù)中心)進(jìn)行管理。本文從數(shù)據(jù)管理主體的角度對農(nóng)業(yè)科學(xué)數(shù)據(jù)管理模式進(jìn)行研究,構(gòu)建了農(nóng)業(yè)科學(xué)數(shù)據(jù)生命周期管理模型,對各數(shù)據(jù)階段的任務(wù)、機(jī)制進(jìn)行解析,并根據(jù)理論研究進(jìn)行了初步應(yīng)用開發(fā)。但通過計算機(jī)發(fā)現(xiàn)、訪問、集成和分析與任務(wù)相關(guān)的科學(xué)數(shù)據(jù)仍是科學(xué)數(shù)據(jù)管理的一大挑戰(zhàn),本文對數(shù)據(jù)智能管理算法與實(shí)現(xiàn)方面的探索較少,還需進(jìn)一步研究。

猜你喜歡
數(shù)據(jù)管理數(shù)據(jù)中心科學(xué)
企業(yè)級BOM數(shù)據(jù)管理概要
關(guān)于間接蒸發(fā)冷機(jī)組在數(shù)據(jù)中心中應(yīng)用的節(jié)能分析
定制化汽車制造的數(shù)據(jù)管理分析
航發(fā)葉片工藝文件數(shù)據(jù)管理技術(shù)研究
點(diǎn)擊科學(xué)
科學(xué)大爆炸
2018年數(shù)據(jù)中心支出創(chuàng)新高
數(shù)據(jù)挖掘在學(xué)生成績數(shù)據(jù)管理中的應(yīng)用研究
數(shù)據(jù)挖掘在學(xué)生成績數(shù)據(jù)管理中的應(yīng)用研究
2017第十屆中國數(shù)據(jù)中心大會榜單
普陀区| 淅川县| 措美县| 新巴尔虎左旗| 城市| 乐山市| 磐安县| 凤城市| 阳西县| 新竹市| 伊川县| 花莲市| 靖宇县| 内江市| 车致| 孝义市| 浦东新区| 含山县| 安陆市| 合山市| 远安县| 湖州市| 介休市| 奎屯市| 左贡县| 郴州市| 东台市| 盐池县| 临武县| 滨海县| 美姑县| 南皮县| 卫辉市| 唐山市| 青阳县| 双柏县| 运城市| 灵璧县| 博白县| 大同县| 游戏|