国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于元數(shù)據(jù)的數(shù)據(jù)發(fā)現(xiàn)和數(shù)據(jù)評價

2015-09-08 01:36:23周國民
現(xiàn)代情報 2015年4期
關(guān)鍵詞:科學(xué)標(biāo)準(zhǔn)資源

趙 華 周國民 王 健

(中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081)

?

·信息資源開發(fā)與利用·

基于元數(shù)據(jù)的數(shù)據(jù)發(fā)現(xiàn)和數(shù)據(jù)評價

趙 華 周國民 王 健

(中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081)

元數(shù)據(jù)在信息資源發(fā)現(xiàn)過程中發(fā)揮了重要作用。科學(xué)數(shù)據(jù)元數(shù)據(jù)也不例外,它為用戶發(fā)現(xiàn)、評價和再利用科學(xué)數(shù)據(jù)提供了依據(jù)。本文在闡述科學(xué)數(shù)據(jù)和科學(xué)數(shù)據(jù)元數(shù)據(jù)內(nèi)涵的基礎(chǔ)上,對科學(xué)數(shù)據(jù)的用戶需求進(jìn)行了分析,重點(diǎn)分析了用戶查找與發(fā)現(xiàn)科學(xué)數(shù)據(jù)的過程,此外,本文針對如何完善科學(xué)數(shù)據(jù)元數(shù)據(jù)提出建議,以促進(jìn)用戶對科學(xué)數(shù)據(jù)的發(fā)現(xiàn)和使用。

元數(shù)據(jù);數(shù)據(jù)發(fā)現(xiàn);數(shù)據(jù)評價;用戶需求;認(rèn)知

科學(xué)數(shù)據(jù)作為一類重要的科技資源,在人們從事科學(xué)研究和進(jìn)行管理決策時是不可缺少的??茖W(xué)數(shù)據(jù)的開放與共享在各領(lǐng)域得到了強(qiáng)烈的支持。然而科學(xué)數(shù)據(jù)共享問題十分復(fù)雜,宏觀上涉及數(shù)據(jù)共享政策法規(guī)、共享制度和共享平臺以及組織體系等多個方面,微觀上涉及數(shù)據(jù)標(biāo)準(zhǔn)、元數(shù)據(jù)標(biāo)準(zhǔn)以及用戶信息需求等角度??茖W(xué)數(shù)據(jù)共享的核心問題是用戶能夠及時發(fā)現(xiàn)和有效利用科學(xué)數(shù)據(jù),因此數(shù)據(jù)發(fā)現(xiàn)是關(guān)鍵。在信息管理領(lǐng)域,信息發(fā)現(xiàn)的研究一直占有重要的地位,同樣在科學(xué)數(shù)據(jù)共享方面,數(shù)據(jù)發(fā)現(xiàn)和數(shù)據(jù)利用也是用戶最為關(guān)注的話題。眾所周知,元數(shù)據(jù)作為發(fā)現(xiàn)信息和共享信息的有效工具,在科學(xué)數(shù)據(jù)的共享中發(fā)揮著重要作用。本文結(jié)合科學(xué)數(shù)據(jù)元數(shù)據(jù)的內(nèi)容構(gòu)成,對用戶的數(shù)據(jù)需求和用戶查找數(shù)據(jù)的過程展開分析,旨在闡明元數(shù)據(jù)在科學(xué)數(shù)據(jù)發(fā)現(xiàn)過程中發(fā)揮的作用,并對現(xiàn)有科學(xué)數(shù)據(jù)元數(shù)據(jù)的不足之處進(jìn)行分析,并提出相應(yīng)的解決措施。

1 科學(xué)數(shù)據(jù)概述

科學(xué)數(shù)據(jù)是指科技活動或通過其它方式所獲取到的反映客觀世界的本質(zhì)、特征、變化規(guī)律等的原始數(shù)據(jù),以及根據(jù)不同科技活動需要,進(jìn)行系統(tǒng)加工整理的各類數(shù)據(jù)集,用于支撐科研活動的科學(xué)數(shù)據(jù)的集合[1]??梢娍茖W(xué)數(shù)據(jù)與科學(xué)研究活動密切相關(guān),既來源于科學(xué)研究活動,又可用于科學(xué)研究活動。隨著人類從事的科研活動的廣度與深度的增長,加之各種先進(jìn)科學(xué)儀器的誕生,科學(xué)數(shù)據(jù)的數(shù)量正以指數(shù)數(shù)量級猛增。

科學(xué)數(shù)據(jù)分類方法有多種,可以按照學(xué)科進(jìn)行分類,如物理數(shù)據(jù)、化學(xué)數(shù)據(jù),人文科學(xué)數(shù)據(jù);也可以按照數(shù)據(jù)收集方法進(jìn)行分類,如觀察數(shù)據(jù)、計(jì)算機(jī)模擬數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)等。美國國家科學(xué)委員會把科學(xué)數(shù)據(jù)分為三類[2]:第一類是可重復(fù)數(shù)據(jù),只要把與數(shù)據(jù)產(chǎn)生相關(guān)的方法以及變量、參數(shù)等進(jìn)行存檔,這類數(shù)據(jù)是可再次產(chǎn)生的,實(shí)驗(yàn)研究數(shù)據(jù)通常屬于這類數(shù)據(jù),這也正是科學(xué)研究活動中產(chǎn)生的最多的一類數(shù)據(jù)。第二類是觀察數(shù)據(jù),這類數(shù)據(jù)產(chǎn)生于特定的時間和空間,是不可再生的,通常生態(tài)領(lǐng)域和生物多樣性領(lǐng)域的數(shù)據(jù)屬于觀察數(shù)據(jù)。這類數(shù)據(jù)只能收集1次,難以驗(yàn)證。第三類是統(tǒng)計(jì)數(shù)據(jù),這類數(shù)據(jù)往往來自自下而上的統(tǒng)計(jì),統(tǒng)計(jì)數(shù)據(jù)最重要的就是統(tǒng)計(jì)的方法、標(biāo)準(zhǔn),以及統(tǒng)計(jì)的時效性。

科學(xué)數(shù)據(jù)作為高度結(jié)構(gòu)化的信息資源,盡管不同學(xué)科領(lǐng)域的數(shù)據(jù)在存儲、格式、數(shù)據(jù)處理、方法和數(shù)據(jù)需求上存在很大的區(qū)別。但科學(xué)數(shù)據(jù)具有幾個共同的特點(diǎn):(1)科學(xué)數(shù)據(jù)來源規(guī)范??茖W(xué)數(shù)據(jù)的產(chǎn)生源于人們從事的科學(xué)研究活動,不論是原始數(shù)據(jù),還是經(jīng)過加工處理的數(shù)據(jù),都是源于某項(xiàng)科學(xué)研究活動的開展。(2)科學(xué)數(shù)據(jù)產(chǎn)生方式規(guī)范。不論是觀測數(shù)據(jù),還是科學(xué)實(shí)驗(yàn)數(shù)據(jù),都具備科學(xué)的數(shù)據(jù)產(chǎn)生方法。(3)科學(xué)數(shù)據(jù)的內(nèi)容和形式具有規(guī)范性。不管是哪個學(xué)科領(lǐng)域的科學(xué)數(shù)據(jù),其內(nèi)容、組織與結(jié)構(gòu)必定是結(jié)構(gòu)化的,盡管數(shù)據(jù)的結(jié)構(gòu)與形式不同,但都遵循了研究領(lǐng)域制定的規(guī)則。(4)科學(xué)數(shù)據(jù)具有存儲和使用價值。科學(xué)數(shù)據(jù)的產(chǎn)生,注入了科研工作者的勞動成果,具有可再利用的價值。

2 科學(xué)數(shù)據(jù)元數(shù)據(jù)

元數(shù)據(jù)是“關(guān)于數(shù)據(jù)的數(shù)據(jù)”,作為描述信息資源的一種工具,對信息資源的內(nèi)容、屬性以及特征進(jìn)行說明與解釋,具有定位、發(fā)現(xiàn)、證明、評估、選擇信息資源等功能[3]。元數(shù)據(jù)除了對信息資源本身進(jìn)行描述外,還包括了對信息資源獲取方式、元數(shù)據(jù)維護(hù)信息的描述。國際上通用的DC元數(shù)據(jù)[4],對資源的描述角度包括資源內(nèi)容、知識產(chǎn)權(quán)和外部屬性3個方面,其中資源內(nèi)容描述的元素包含題名、主題、描述、來源、語言、關(guān)聯(lián)和覆蓋范圍,知識產(chǎn)權(quán)描述包含創(chuàng)作者、出版者和其他參與者與權(quán)限管理,外部屬性描述包括日期、類型、格式和標(biāo)識。

用于描述科學(xué)數(shù)據(jù)資源的元數(shù)據(jù),稱之為科學(xué)數(shù)據(jù)元數(shù)據(jù)。元數(shù)據(jù)對科學(xué)數(shù)據(jù)的描述應(yīng)遵循于科研人員查找科學(xué)數(shù)據(jù)的過程,立足于回答幾個問題:有什么數(shù)據(jù)?數(shù)據(jù)怎么樣?如何組織?如何獲取?怎么使用?與之相關(guān)的其他數(shù)據(jù)如何?[5]Keith Jeffery提出科學(xué)數(shù)據(jù)元數(shù)據(jù)描述分為3個層次,第一層通常是對科學(xué)數(shù)據(jù)的一般描述;第二層元數(shù)據(jù)是科學(xué)情境元數(shù)據(jù),反映數(shù)據(jù)的多方面屬性;第三層元數(shù)據(jù)的描述粒度更細(xì),也涵蓋了科學(xué)數(shù)據(jù)更為詳細(xì)的信息[6]。Jian Qin等把元數(shù)據(jù)對科學(xué)數(shù)據(jù)的描述劃分的更為詳細(xì),包括9大類[7]:管理類,包括元數(shù)據(jù)自身信息和數(shù)據(jù)存檔信息;情境類,包括與數(shù)據(jù)集相關(guān)研究項(xiàng)目、數(shù)據(jù)收集方法、設(shè)備等信息;描述類,體現(xiàn)數(shù)據(jù)來源、發(fā)布及相關(guān)信息;空間地理信息;通用信息;標(biāo)識信息,便于用戶識別數(shù)據(jù)的標(biāo)識符和名稱等;語義信息,用于描述數(shù)據(jù)內(nèi)容的術(shù)語和主題分類信息;時間信息,數(shù)據(jù)內(nèi)容覆蓋的時間信息、數(shù)據(jù)加工處理的時間信息;技術(shù)類信息,描述數(shù)據(jù)格式以及使用的參數(shù)、模型和測量方法等信息。由于科學(xué)數(shù)據(jù)相比其他信息資源更具復(fù)雜性,因此,科學(xué)數(shù)據(jù)元數(shù)據(jù)的內(nèi)容也必定更為復(fù)雜。目前,國際上已經(jīng)建立多個元數(shù)據(jù)標(biāo)準(zhǔn),比較常見的包括地理學(xué)科領(lǐng)域FGDC元數(shù)據(jù)標(biāo)準(zhǔn)[8]和ISO/TC 211標(biāo)準(zhǔn)[9],生物多樣性領(lǐng)域的Darwin Core元數(shù)據(jù)標(biāo)準(zhǔn)[10],生態(tài)學(xué)領(lǐng)域的Ecological Metadata Language(EML)[11],氣象領(lǐng)域元數(shù)據(jù)標(biāo)準(zhǔn)CF(Climate Forecast)[12]和社會科學(xué)領(lǐng)域的元數(shù)據(jù)標(biāo)準(zhǔn)Data Documentation Initiative(DDI)[13]。其中FGDC元數(shù)據(jù)標(biāo)準(zhǔn)最有影響力,使用最廣泛。對上述元數(shù)據(jù)標(biāo)準(zhǔn)的內(nèi)容進(jìn)行分析后,可以發(fā)現(xiàn)元數(shù)據(jù)對科學(xué)數(shù)據(jù)的描述涵蓋了三部分內(nèi)容:物理特性描述,數(shù)據(jù)內(nèi)容方面描述,科學(xué)數(shù)據(jù)情境方面描述。物理特征描述是指科學(xué)數(shù)據(jù)資源的大小、格式、作者、狀態(tài)、存儲位置、使用限制、安全限制等方面信息;數(shù)據(jù)內(nèi)容方面的描述包含了資源題目、摘要、描述、所屬領(lǐng)域、領(lǐng)域主題以及術(shù)語、產(chǎn)生方法、產(chǎn)生工具等信息;數(shù)據(jù)情境方面的描述包含數(shù)據(jù)來源、與之相關(guān)的研究項(xiàng)目信息、與之相關(guān)的學(xué)術(shù)出版物等信息。不論哪個領(lǐng)域的科學(xué)數(shù)據(jù),也不論其數(shù)據(jù)存儲、格式和使用存在著多大的差異,其元數(shù)據(jù)描述內(nèi)容都基于這些角度。

3 科學(xué)數(shù)據(jù)用戶需求分析

科學(xué)數(shù)據(jù)的用戶群體包括普通大眾、管理者以及科研工作人員,其中科研工作者是科學(xué)數(shù)據(jù)的主要用戶。通過共享科學(xué)數(shù)據(jù),公眾和管理者可以很容易地了解公共資助的科學(xué)研究結(jié)果,而科研人員則可以實(shí)現(xiàn)科學(xué)數(shù)據(jù)的再生產(chǎn)和再利用,也可以讓其他研究人員對數(shù)據(jù)提出新問題??茖W(xué)數(shù)據(jù)共享的最終目的不僅是讓其他人利用這些數(shù)據(jù),更是讓別人不再走彎路,從而提高科研效率、節(jié)約科研成本,從而促進(jìn)全社會科學(xué)研究的創(chuàng)新與發(fā)展。用戶通過文獻(xiàn)查找,往往會伴隨著科學(xué)數(shù)據(jù)的發(fā)現(xiàn),但已經(jīng)發(fā)表的文獻(xiàn)通常是對科學(xué)數(shù)據(jù)進(jìn)行歸納、分析和總結(jié)的結(jié)果,是作者科研水平和知識水平的反映,屬于抽象化的知識。對于學(xué)術(shù)文章所涉及到的原始數(shù)據(jù),用戶同樣具有需求,這些數(shù)據(jù)不會隨著學(xué)術(shù)文章的發(fā)表而終結(jié)自己的價值,相反,這些原始數(shù)據(jù)對于數(shù)據(jù)用戶而言是無價之寶,來自不同領(lǐng)域的用戶對該原始數(shù)據(jù)的再利用將會產(chǎn)生更大的價值。由此看來,用戶查找科學(xué)數(shù)據(jù)的意圖包括幾個方面:(1)以數(shù)據(jù)作為研究對象,通過查找相關(guān)科學(xué)數(shù)據(jù),對數(shù)據(jù)進(jìn)行分析,產(chǎn)生新的研究成果,或者用于支撐自身的科研工作。(2)通過數(shù)據(jù)的查找,發(fā)現(xiàn)相關(guān)的研究團(tuán)隊(duì)、研究機(jī)構(gòu),為自身尋找潛在的合作者。(3)了解相關(guān)領(lǐng)域數(shù)據(jù)研究動態(tài)與趨勢,開辟新的研究領(lǐng)域,同時還能學(xué)習(xí)到先進(jìn)的數(shù)據(jù)分析方法為己所用。出于不同的目的需要,用戶在理解科學(xué)數(shù)據(jù)時的側(cè)重點(diǎn)也會不同。Greenberg分析了醫(yī)藥科學(xué)領(lǐng)域最知名的數(shù)據(jù)倉儲Dryad的需求層次模型[14],該模型與馬斯洛需求層次模型相對應(yīng),需求由低到高包括存儲數(shù)據(jù)、發(fā)現(xiàn)數(shù)據(jù)、使用和分析數(shù)據(jù)3個層次,其中數(shù)據(jù)存儲是最低層次的需求。對于數(shù)據(jù)用戶來說,數(shù)據(jù)發(fā)現(xiàn)是基本需求,隨著需求層次的提高,用戶對數(shù)據(jù)的需求發(fā)展為使用和分析數(shù)據(jù)。當(dāng)用戶需求處于分析和使用數(shù)據(jù)層次時,用戶需要了解數(shù)據(jù)最全面的信息。

4 科學(xué)數(shù)據(jù)用戶查找和評價數(shù)據(jù)的過程分析

科學(xué)數(shù)據(jù)查找屬于信息檢索問題,由于科學(xué)數(shù)據(jù)屬于一類特殊的信息,雖海量、分散但并非到處可見,因此用戶發(fā)現(xiàn)數(shù)據(jù)的途徑通常包括從數(shù)據(jù)生產(chǎn)者處或者同行處查找,從數(shù)據(jù)中心或者圖書館進(jìn)行檢索,從數(shù)據(jù)出版商處查找等。用戶查找數(shù)據(jù)的過程,與用戶查找其他信息資源的過程一樣,是一個查找與評價的循環(huán)過程,用戶根據(jù)需要設(shè)定查詢條件進(jìn)行查詢,并對查到的數(shù)據(jù)進(jìn)行評價,根據(jù)查詢結(jié)果,不斷地縮小自己的查找范圍,以至于最終找到適合的數(shù)據(jù)資源。用戶的整個查找過程實(shí)際上是不斷地對數(shù)據(jù)資源進(jìn)行評價與選擇的過程。

用戶可以通過數(shù)據(jù)目錄、元數(shù)據(jù)等工具查找科學(xué)數(shù)據(jù),而當(dāng)用戶對查詢到的數(shù)據(jù)進(jìn)行評價時,往往更多地依賴于描述科學(xué)數(shù)據(jù)的元數(shù)據(jù)內(nèi)容。因此用戶在獲取數(shù)據(jù)之前,發(fā)現(xiàn)和評價科學(xué)數(shù)據(jù)都需要元數(shù)據(jù)的支持。支持用戶查找科學(xué)數(shù)據(jù)的元數(shù)據(jù)元素包括,數(shù)據(jù)集的名稱、作者、出版日期、資源鏈接、數(shù)據(jù)集摘要、關(guān)鍵詞、資源類型、文件格式、使用限制、時間空間覆蓋、與之相關(guān)數(shù)據(jù)集和出版物以及一些重要的時間日期等信息[15]。這些元數(shù)據(jù)元素大部分集中在標(biāo)識信息部分,這部分元數(shù)據(jù)對科學(xué)數(shù)據(jù)集的基本信息進(jìn)行了描述,通過這些信息,用戶能夠?qū)茖W(xué)數(shù)據(jù)集獲得大致的了解。其中數(shù)據(jù)集關(guān)鍵詞、數(shù)據(jù)集標(biāo)題和數(shù)據(jù)集摘要等內(nèi)容,不僅僅幫助用戶發(fā)現(xiàn)數(shù)據(jù)集,還幫助用戶對數(shù)據(jù)集是否滿足需要做出初步的判斷。

用戶判斷科學(xué)數(shù)據(jù)是否可用的過程,實(shí)際上是對科學(xué)數(shù)據(jù)的相關(guān)性做出判斷的過程?!跋嚓P(guān)性”是信息檢索領(lǐng)域一個基本的概念,目前已經(jīng)出現(xiàn)了對于文本、音樂、影像等信息的用戶相關(guān)性標(biāo)準(zhǔn)方面的研究,但對于用戶評價科學(xué)數(shù)據(jù)時所用的標(biāo)準(zhǔn),目前還正處于研究探索階段??梢源_定的是用戶判斷科學(xué)數(shù)據(jù)相關(guān)性的依據(jù)就來自于元數(shù)據(jù)元素??茖W(xué)界普遍認(rèn)為,描述科學(xué)數(shù)據(jù)的元數(shù)據(jù)內(nèi)容越豐富越有利于用戶發(fā)現(xiàn)有用的數(shù)據(jù),考慮到元數(shù)據(jù)編著的成本,以及用戶查找數(shù)據(jù)的時間和精力等因素的限制,元數(shù)據(jù)元素并非是越多越好,其描述內(nèi)容也并非是越詳細(xì)越好。按照人類認(rèn)知事物的普遍規(guī)律來看,通常會先從整體上對數(shù)據(jù)擁有大致的了解,用戶首先關(guān)注于數(shù)據(jù)集標(biāo)題、關(guān)鍵詞、摘要、生產(chǎn)者、大小、格式、狀態(tài)等元數(shù)據(jù)元素之外,如果這些信息不足以確定數(shù)據(jù)是否有用時,用戶會進(jìn)一步選擇查看更為詳細(xì)的元數(shù)據(jù)內(nèi)容。此時用戶對元數(shù)據(jù)的關(guān)注點(diǎn)會依據(jù)數(shù)據(jù)類型的不同而發(fā)生相應(yīng)的改變,如對于科學(xué)實(shí)驗(yàn)數(shù)據(jù),用戶往往會更關(guān)心數(shù)據(jù)產(chǎn)生的相關(guān)方法以及變量和參數(shù)等,用戶可能會對數(shù)據(jù)進(jìn)行驗(yàn)證和分析,因此描述數(shù)據(jù)產(chǎn)生方法方面的元數(shù)據(jù)成了用戶的關(guān)注點(diǎn)。對于觀察數(shù)據(jù),用戶關(guān)注的是提供描述數(shù)據(jù)產(chǎn)生的時間和空間以及數(shù)據(jù)采集儀器等元數(shù)據(jù)內(nèi)容,而對于統(tǒng)計(jì)數(shù)據(jù),用戶關(guān)注更多的是統(tǒng)計(jì)機(jī)構(gòu)的權(quán)威性和統(tǒng)計(jì)數(shù)據(jù)的可靠性。此外,由于相關(guān)性的判斷具有主觀性,用戶在判斷數(shù)據(jù)是否相關(guān)時,還會受到個人偏好、知識水平、表達(dá)能力和判斷能力等因素的影響。相比數(shù)據(jù)來源的可靠性,也許有的用戶更青睞于把數(shù)據(jù)集更新程度作為一個判斷標(biāo)準(zhǔn),也可能有的用戶會把數(shù)據(jù)集是否容易獲取作為判斷標(biāo)準(zhǔn)??茖W(xué)數(shù)據(jù)作為一種重要的信息資源,有必要借鑒其他信息資源領(lǐng)域相關(guān)性標(biāo)準(zhǔn)的研究方法與理論,對用戶判斷數(shù)據(jù)相關(guān)性的標(biāo)準(zhǔn)以及判斷機(jī)制進(jìn)行深入的探討,在此基礎(chǔ)上,針對用戶的需求,完善科學(xué)數(shù)據(jù)資源組織,促進(jìn)數(shù)據(jù)的發(fā)現(xiàn)與使用。

5 科學(xué)數(shù)據(jù)元數(shù)據(jù)改進(jìn)與完善

科學(xué)數(shù)據(jù)元數(shù)據(jù)具有管理數(shù)據(jù)、發(fā)現(xiàn)數(shù)據(jù)、評價和使用數(shù)據(jù)的功能。數(shù)據(jù)用戶通過檢索數(shù)據(jù)中心或者圖書館的數(shù)據(jù)資源,查詢到一系列的信息,這些信息均以元數(shù)據(jù)元素的組合形式呈現(xiàn)在用戶面前,為用戶判斷元數(shù)據(jù)所描述的數(shù)據(jù)是否符合自己的信息需求提供參考。因此對用戶而言,元數(shù)據(jù)主要發(fā)揮數(shù)據(jù)發(fā)現(xiàn)和數(shù)據(jù)評價的功能。因此為滿足用戶的信息需求,提高用戶發(fā)現(xiàn)數(shù)據(jù)和利用數(shù)據(jù)的效率,需要從完善與改進(jìn)科學(xué)數(shù)據(jù)元數(shù)據(jù)上著手。

(1)對于科學(xué)數(shù)據(jù)屬性的描述不夠全面,例如并不是在所有的標(biāo)準(zhǔn)中都涉及到了數(shù)據(jù)集使用信息,有的標(biāo)準(zhǔn)只是提到了使用限制和使用方法。其實(shí)在用戶對數(shù)據(jù)集可用與否做出判斷時,還會參考數(shù)據(jù)的使用歷史和引用信息等。還比如大部分元數(shù)據(jù)標(biāo)準(zhǔn)中沒有包含對數(shù)據(jù)采集的描述,有的標(biāo)準(zhǔn)中雖有提及,但該項(xiàng)內(nèi)容并不是必選項(xiàng),也有的元數(shù)據(jù)標(biāo)準(zhǔn)只是把數(shù)據(jù)采集信息揉合于數(shù)據(jù)集摘要信息的描述中,這對于用戶從海量的信息中,提取出這個信息較為困難,遠(yuǎn)不如把數(shù)據(jù)采集單列出來呈獻(xiàn)給用戶效果好。

(2)由于科學(xué)數(shù)據(jù)元數(shù)據(jù)本身復(fù)雜于文本信息元數(shù)據(jù),元數(shù)據(jù)元素?cái)?shù)量多,用戶往往只能先通過查看核心元數(shù)據(jù)來判斷目標(biāo)數(shù)據(jù)集是否相關(guān),是否可用。當(dāng)用戶檢索到的元數(shù)據(jù)記錄較多時,往往不會瀏覽每個元數(shù)據(jù)元素,因此元數(shù)據(jù)元素的排列順序顯得尤為重要,此時需要把關(guān)鍵的元數(shù)據(jù)元素放在靠前的位置,通常指能夠反映數(shù)據(jù)集內(nèi)容和質(zhì)量的元數(shù)據(jù)元素置于靠前的位置,如數(shù)據(jù)集題目、摘要、關(guān)鍵詞、關(guān)于數(shù)據(jù)集的說明等信息。

(3)缺乏第三方元數(shù)據(jù)。元數(shù)據(jù)的產(chǎn)生通常由專業(yè)的信息資源專家來完成,或者由信息資源的作者自己完成,不論是信息管理專業(yè)人員還是信息資源的作者,他們理解信息資源的角度與用戶必定存在不同之處,且他們的認(rèn)知過程存在著很大的差別。由此,由用戶來完善元數(shù)據(jù)、改進(jìn)元數(shù)據(jù)已經(jīng)成為一種趨勢。目前在圖書館領(lǐng)域元數(shù)據(jù)中,專門出現(xiàn)了評價類元數(shù)據(jù),其內(nèi)容涉及了同行專家對信息資源的評價、用戶使用信息后的反饋與評價信息等,尤其是在教育信息資源方面,用戶在評價和選擇資源時往往很依賴這些評價類元數(shù)據(jù)內(nèi)容,也叫第三方元數(shù)據(jù)或注釋類元數(shù)據(jù)[16]。而在科學(xué)數(shù)據(jù)元數(shù)據(jù)中,還沒有出現(xiàn)這些內(nèi)容。實(shí)際上,不少科學(xué)數(shù)據(jù)是以數(shù)據(jù)產(chǎn)品的形式出現(xiàn),同行專家評價信息和用戶對資源的使用評價,在用戶做出選擇使用數(shù)據(jù)前通常也會發(fā)揮著一定的作用。

6 總 結(jié)

用戶通過元數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)和評價數(shù)據(jù)過程,也是用戶對科學(xué)數(shù)據(jù)的認(rèn)知過程。因此在整合科學(xué)數(shù)據(jù)資源時,對元數(shù)據(jù)的完善僅僅從科學(xué)數(shù)據(jù)的資源特性角度著手遠(yuǎn)遠(yuǎn)不夠,還需要從分析用戶對科學(xué)數(shù)據(jù)的認(rèn)知點(diǎn)著手,明確用戶判斷數(shù)據(jù)相關(guān)性的標(biāo)準(zhǔn),分析用戶對元數(shù)據(jù)的關(guān)注點(diǎn),按照這個原則來對元數(shù)據(jù)內(nèi)容進(jìn)行完善。本文的研究只是借鑒了人類現(xiàn)有的對其他類型信息資源的認(rèn)知研究,而對于人們對科學(xué)數(shù)據(jù)的認(rèn)知方面的探討,更多地需要大量的實(shí)證研究來支持,以探明用戶對這類特殊信息資源的認(rèn)知規(guī)律,這正是此方面研究今后的努力方向。

[1]中華人民共和國科學(xué)技術(shù)部.SDS/T1003-2004,科學(xué)數(shù)據(jù)共享工程技術(shù)標(biāo)準(zhǔn)[S].

[2]Willis,C.,Greenberg,J.,& White,H..Analysis and synthesis of metadata goals for scientific data[J].Journal of the American Society for Information Science and Technology,2012,63(8):1505-1520.

[3]劉嘉.元數(shù)據(jù)導(dǎo)論[M].北京,華藝出版社,2002.

[4]陳彩紅.國內(nèi)外元數(shù)據(jù)標(biāo)準(zhǔn)宏觀比較[J].河北科技圖苑,2011,24(1):65-67.

[5]W.K.Michener et al.Non-Geospatial Metadata for the Ecological[J].Sciences.Ecological Applications,1997,7:330-342.

[6]Boyd,David.CERIF tutorial and UK data surgery.Blog posted on February 16,2012.Retrieved,June 28,2012,from http:∥data.blogs.ilrt.org/2012/02/16/cerif-tutorial-and-uk-data-surgery/.

[7]Qin J,Li K.How Portable Are the Metadata Standards for Scientific Data?A Proposal for a Metadata Infrastructure[EB].http:∥dcevents.dublincore.org/IntConf/index/pages/view/2013-peerAbstracts#Qin,2013-10-28.

[8]Di L.The development of remote-sensing related standards at FGDC,OGC,and ISO TC 211[C].Geoscience and Remote Sensing Symposium,2003.IGARSS’03.Proceedings.2003 IEEE International.IEEE,2003,1:643-647.

[9]Federal Geographic Data Committee.FGDC Metadata Quick Guide[EB].https:∥www.fgdc.gov/metadata/documents/MetadataQuickGuide.pdf,2006-04-24.

[10]Wieczorek.J.et al.Darwin Core:An evolving community-developed biodiversity data standard[J].PLoS ONE,2012,7(1):1-7.

[11]Eric H Fegraus,Andelman S,Jones M Bet al.Maximizing the Value of Ecological Data with Structured Metadata:An Introduction to Ecological Metadata Language(EML)and Principles for Metadata Creation Read[J].Bulletin of the Ecological Society of America,2005,86(3):158-168.

[12]Gregory J.The CF metadata standard[J].CLIVAR Exchanges,2003,8(4):1-5.

[13]Ryssevik J.The Data Documentation Initiative(DDI)metadata specification[OL].Ann Arbor,MI:Data Documentation Alliance,2001.Retrieved from http:∥www.ddialliance.org/sites/default/files/ryssevik_0.pdf,2014-01-01.

[14]Greenberg.J,White.H.C,Carrier.S,Scherle.R..A metadata best practice for a scientific data repository[J].Journal of Library Metadata,2009,9(3-4):194-212.

[15]Ball A.Metadata for Data Citation and Discovery[J].Describe,Disseminate,Discover:Metadata for Effective Data Citation,2012.

[16]You S.Evaluative Metadata in Educational Digital Libraries:How Users Use Evaluative Metadata in the Process of Document Selection[J].TCDL Bulletin,2010,4(2):1-11.

(本文責(zé)任編輯:郭沫含)

Data Discovery and Evaluation Based on Metadata

Zhao Hua Zhou Guomin Wang Jian

(Agricultural Information Institute,CAAS,Beijing 100081,China)

Metadata plays an important role in the process of information resource discovery.Scientific metadata is no exception,which helps users to find,evaluate and re-use scientific data.This paper analysed user needs based on describing scientific data and metadata.It focused on analyzing the process of users search and discovery scientific data,meanwhile the paper put forward some suggestions to improve scientific metadata in order to help user to discover and re-use data.

metadata;data discovery;data evaluation;user needs;cognition

2014-09-19

中央公益性科研院所基本科研業(yè)務(wù)費(fèi)專項(xiàng)基金“科學(xué)數(shù)據(jù)元數(shù)據(jù)認(rèn)知評價方法研究”(項(xiàng)目編號:2015-J-03)和國家社會科學(xué)基金項(xiàng)目“科學(xué)數(shù)據(jù)用戶相關(guān)性標(biāo)準(zhǔn)與使用模式實(shí)證研究”(項(xiàng)目編號:14BTQ056)。

趙 華(1980-),女,助理研究員,碩士,研究方向:信息管理、科學(xué)數(shù)據(jù)共享,發(fā)表文章5篇。

10.3969/j.issn.1008-0821.2015.04.014

G250.73

A

1008-0821(2015)04-0065-04

猜你喜歡
科學(xué)標(biāo)準(zhǔn)資源
2022 年3 月實(shí)施的工程建設(shè)標(biāo)準(zhǔn)
基礎(chǔ)教育資源展示
一樣的資源,不一樣的收獲
科學(xué)大爆炸
忠誠的標(biāo)準(zhǔn)
美還是丑?
資源回收
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
科學(xué)
一家之言:新標(biāo)準(zhǔn)將解決快遞業(yè)“成長中的煩惱”
專用汽車(2016年4期)2016-03-01 04:13:43
益阳市| 米脂县| 临邑县| 区。| 徐水县| 偏关县| 崇信县| 汝南县| 乌兰浩特市| 江口县| 永城市| 山阳县| 晋中市| 聊城市| 万源市| 黄大仙区| 宁国市| 大足县| 甘泉县| 泰兴市| 嘉兴市| 绥化市| 阜南县| 进贤县| 九江县| 长丰县| 喀喇沁旗| 建湖县| 孟村| 米易县| 庐江县| 安宁市| 衢州市| 乌拉特中旗| 五家渠市| 岑巩县| 读书| 桓台县| 江西省| 靖宇县| 定兴县|