丁楠黎嬌李文雨澤白晉銘潘有能
(1.浙江大學圖書館 浙江杭州 310027)
(2.浙江大學公共管理學院信息資源管理系 浙江杭州 310058)
·信息分析與科學評價·
基于引用的科學數(shù)據(jù)評價研究*
丁楠黎嬌李文雨澤白晉銘潘有能
(1.浙江大學圖書館 浙江杭州 310027)
(2.浙江大學公共管理學院信息資源管理系 浙江杭州 310058)
科學研究離不開數(shù)據(jù)的支持,科學數(shù)據(jù)評價是對科學數(shù)據(jù)實施有效管理、促進數(shù)據(jù)共享與重用的基礎。文章借鑒引文分析方法,選取數(shù)據(jù)發(fā)布量、數(shù)據(jù)被引量、數(shù)據(jù)平均被引頻次及h指數(shù)等指標,構建了基于引用的數(shù)據(jù)評價體系,并以DCI中的人口調查數(shù)據(jù)為例進行了實證研究。研究發(fā)現(xiàn)通過數(shù)據(jù)引用可以有效地對科學數(shù)據(jù)的發(fā)布及存儲機構的影響力進行評估,而DCI雖然由于建立時間較短而不夠成熟,但仍可為科學數(shù)據(jù)的定量評價提供強有力支持。
數(shù)據(jù)共享數(shù)據(jù)引用數(shù)據(jù)評價引文分析
現(xiàn)代科學經(jīng)過數(shù)百年的發(fā)展,產(chǎn)生了數(shù)量龐大而又結構復雜的科學數(shù)據(jù),在這些已有數(shù)據(jù)的基礎上開展進一步研究是科學研究的一種重要模式。從某種程度上來說,基礎數(shù)據(jù)的質量直接決定了研究的質量,因此科學數(shù)據(jù)的評價具有重要意義。然而目前國內(nèi)外學界尚缺乏統(tǒng)一的數(shù)據(jù)引用規(guī)范,也沒有完整的科學數(shù)據(jù)評價標準,這為科學數(shù)據(jù)的評價帶來了很大的困難,也影響到了作者和機構共享數(shù)據(jù)的積極性。本項研究試圖借鑒傳統(tǒng)的引文分析,探討基于引用的科學數(shù)據(jù)評價方法,選擇合理的評價指標,從而達到對科學數(shù)據(jù)及相應的機構和數(shù)據(jù)倉儲進行客觀、有效地評價的目的,促進數(shù)據(jù)的共享與利用。圖書情報學領域的專家學者在引文分析研究中已經(jīng)積累了寶貴的經(jīng)驗并形成了一些較為成熟的方法,這些經(jīng)驗與方法可為數(shù)據(jù)引用分析提供借鑒。但數(shù)據(jù)引用分析與引文分析仍有明顯區(qū)別,引文分析的對象主要是文獻,而數(shù)據(jù)引用分析的對象是原始數(shù)據(jù)或派生數(shù)據(jù),在科研素材體系中處于更底層的位置,其粒度也相對更細。對數(shù)據(jù)引用進行分析可以從更原始、更基礎的層面上了解科研產(chǎn)出情況,從而提供一個新的對科研機構或學者進行評價的視角。
目前專門針對科學數(shù)據(jù)評價的研究尚不多見,絕大部分的相關研究都是直接針對“數(shù)據(jù)”這一概念,大致可以分為兩種類型:一種是如何評價一般開放數(shù)據(jù),即對數(shù)據(jù)本身的評價;另外一種則是如何評價特定數(shù)據(jù)環(huán)境中的數(shù)據(jù),即將數(shù)據(jù)置身于數(shù)據(jù)庫或信息系統(tǒng)中進行評價。
(1)對數(shù)據(jù)本身的評價。對數(shù)據(jù)本身的評價方法可分為單維度準確性評估和基于多維度指標的評價等。在單維度準確性評估中,針對總量數(shù)據(jù),可采用邏輯規(guī)則檢驗、經(jīng)驗參數(shù)比對、相關指標變動趨勢對比、基于模型的異常數(shù)值識別與參數(shù)穩(wěn)定性分析等方法,針對個體數(shù)據(jù),則可采用統(tǒng)計分布檢驗與基于統(tǒng)計分布的異常數(shù)值識別、基于事后重復調查的偏差估計、誤差效應的測量及其模型建構等方法?;诙嗑S度指標的評價方法通常在給出精確性(給定數(shù)據(jù)集合與相應正確實際的相符程度)、可達性(數(shù)據(jù)可以得到的程度)、一致性(數(shù)據(jù)能以相同格式表達的程度)、完整性(數(shù)據(jù)無缺失的程度)、時效性(數(shù)據(jù)的時間特性對應用的滿足程度)等指標的定義和計算方法的基礎上,對計算結果進行再加工。
(2)對特定數(shù)據(jù)環(huán)境中的數(shù)據(jù)的評價。根據(jù)所處數(shù)據(jù)環(huán)境的不同,該類評價方法又可細分為基于數(shù)據(jù)庫的評價和基于信息系統(tǒng)的評價。在基于數(shù)據(jù)庫的評價中,依照用戶的不同可將評價指標分為數(shù)據(jù)使用質量和數(shù)據(jù)質量兩方面。數(shù)據(jù)使用質量包括數(shù)據(jù)查詢率、安全性、敏捷性、可響應性、可使用性(可采集到的數(shù)據(jù)是否在數(shù)據(jù)超市中得到應用)、有效性(數(shù)據(jù)的更新頻率);對數(shù)據(jù)質量的評價存在于數(shù)據(jù)倉庫其他模塊對數(shù)據(jù)的操作當中,是反映數(shù)據(jù)倉庫物理層數(shù)據(jù)的固有屬性,包括完整度(非法空值記錄的條數(shù))、可信度、正確度(缺省值的記錄條數(shù))、一致性、唯一性等。在基于信息系統(tǒng)的評價中,數(shù)據(jù)被視為有生命周期的產(chǎn)品,從數(shù)據(jù)表示質量、數(shù)據(jù)值質量、數(shù)據(jù)模型質量和數(shù)據(jù)體系結構質量4個維度,對數(shù)據(jù)質量進行評價。
以上兩種方法在進行數(shù)據(jù)評價時,盡管針對層面和開展角度有所不同,但都需要建立一個評價體系并設立各種指標,此外還需確定指標的權重,從而不可避免地具有較大的主觀性。更為重要的是,該類評價方法的適應性在復雜的數(shù)據(jù)環(huán)境中將遭受極大的考驗,正如很難有一套指標體系直接對各個學科中的論文質量進行評價一樣。因此,本項研究將摒棄直接對數(shù)據(jù)質量進行評價的思路,而試圖通過科學數(shù)據(jù)被引用的情況來評價其影響力,并從側面反映數(shù)據(jù)的質量及重要程度,從而保證了該評價方法的客觀、有效及廣泛的適用性。
數(shù)據(jù)引用類似于文獻引用,是指作者在論文中以參考文獻、腳注或文中注等方式,對其所引用的數(shù)據(jù)提供來源出處的做法。與文獻引用類似,數(shù)據(jù)被引用意味著數(shù)據(jù)進入了交流領域被獲取和使用,并產(chǎn)生影響。數(shù)據(jù)引用不但意味著使用者對被引用數(shù)據(jù)及其所有者的認可,還可在數(shù)據(jù)管理與共享中起到重要作用。首先,科研工作者可通過數(shù)據(jù)引用信息定位并獲取數(shù)據(jù),從而促進數(shù)據(jù)的共享與重用;其次,科研人員或管理者可通過數(shù)據(jù)引用獲取科學研究的原始數(shù)據(jù),重現(xiàn)研究過程,從而對其結果進行驗證;最后,數(shù)據(jù)引用可以增強數(shù)據(jù)生產(chǎn)者的被認同感,激勵研究人員進行科研創(chuàng)造和共享。
目前,基于文獻引用的引文分析方法在長期發(fā)展中已趨于完善和成熟,并被廣泛應用于各個層面的測度評價研究,包括微觀層面(作者個人、研究小組)、中觀層面(機構、期刊)和宏觀層面(國家、跨國區(qū)域)。常用的引文分析指標則有發(fā)文量、被引量、篇均被引次數(shù)、影響因子、h指數(shù)等,其中發(fā)文量和被引量是兩個基本的測度,篇均被引次數(shù)和影響因子主要用于衡量機構或期刊論文的平均影響力。由于影響因子可以消除由于載文量不同和論文質量參差不齊所造成的對期刊被引率的影響,從而能夠在不同期刊間進行比較,目前已在引文分析和期刊評價中得到廣泛應用。h指數(shù)是近年新出現(xiàn)的一種評價指標,綜合考慮到了論文發(fā)表的數(shù)量和質量,在各個層面的測度評價中具有較強的適應性。因為數(shù)據(jù)引用與文獻引用之間的相似性,這些指標也可以被數(shù)據(jù)引用分析所借鑒。參照引文分析方法,并綜合考慮數(shù)據(jù)評價的特點與可行性,本項研究擬選取微觀層面的團體作者和中觀層面的數(shù)據(jù)倉儲作為研究對象,統(tǒng)計其數(shù)據(jù)發(fā)布量、數(shù)據(jù)被引量、數(shù)據(jù)平均被引頻次及h指數(shù)。其中,數(shù)據(jù)發(fā)布量即一定時間段內(nèi)某研究團體或數(shù)據(jù)倉儲發(fā)布的總數(shù)據(jù)量,發(fā)布數(shù)據(jù)是被引用的前提,所以該指標是基于引用的數(shù)據(jù)質量評價的基本指標;數(shù)據(jù)被引量即發(fā)布的所有數(shù)據(jù)被引用的總次數(shù),用于衡量某研究團體或數(shù)據(jù)倉儲所發(fā)布數(shù)據(jù)的總體影響;數(shù)據(jù)平均被引頻次即數(shù)據(jù)被引量除以數(shù)據(jù)發(fā)布量,該指標用于衡量某研究團體或數(shù)據(jù)倉儲所發(fā)布數(shù)據(jù)的平均影響;h指數(shù)則綜合考慮數(shù)據(jù)的質和量,某個研究團體或數(shù)據(jù)倉儲的h指數(shù)為n是指其發(fā)布的數(shù)據(jù)中至少有n條數(shù)據(jù)每條被引了至少n次。
2012年10月,全球領先的信息供應商湯森路透旗下的知識產(chǎn)權與科技事業(yè)部宣布推出數(shù)據(jù)引用索引(Data Citation Index,DCI),并將其作為Web of Knowledge平臺上一個新的研究資源,旨在推動對數(shù)據(jù)的檢索、引用與評價,并把這些數(shù)據(jù)與Web of Knowledge中的文獻連接起來。借鑒SCI、SSCI等引文索引系統(tǒng)的成功經(jīng)驗,數(shù)據(jù)引用索引試圖為數(shù)據(jù)的管理、共享、評價提供強有力支持。使用者只需在數(shù)據(jù)引用索引中進行檢索,便可獲得所需要數(shù)據(jù)的元數(shù)據(jù)信息,包括數(shù)據(jù)的創(chuàng)建者、機構、標題、創(chuàng)建日期等,還可鏈接到所在數(shù)據(jù)倉儲(Data Repository)中。數(shù)據(jù)倉儲是數(shù)據(jù)的實際存儲地,其中包含數(shù)據(jù)研究(Data Study)和數(shù)據(jù)集(Data Set)。一個數(shù)據(jù)研究中往往包含了若干個數(shù)據(jù)集,例如某數(shù)據(jù)倉儲中存有大量人口普查數(shù)據(jù),所有這些數(shù)據(jù)可作為一個數(shù)據(jù)研究,而這些數(shù)據(jù)又可分為20世紀70年代的人口數(shù)據(jù)、20世紀80年代的人口數(shù)據(jù)等,這些不同年代的人口數(shù)據(jù)即是多個數(shù)據(jù)集。對數(shù)據(jù)倉儲來說,數(shù)據(jù)引用索引的出現(xiàn)不但能提高其數(shù)據(jù)的被引率,還完善了其元數(shù)據(jù),提供了引用信息,讓數(shù)據(jù)生產(chǎn)者知道有哪些作者或機構利用了其數(shù)據(jù),也讓數(shù)據(jù)使用者了解到哪些數(shù)據(jù)屬于高被引數(shù)據(jù)。數(shù)據(jù)引用索引的出現(xiàn)有利于建立有效的數(shù)據(jù)評價機制,激發(fā)數(shù)據(jù)生產(chǎn)者和擁有者共享數(shù)據(jù)的積極性。
4.1 方法與數(shù)據(jù)
考慮到數(shù)據(jù)的相對全面性和完整性,本項研究選擇Web of Science的DCI數(shù)據(jù)庫作為數(shù)據(jù)來源。因為DCI目前所收錄的數(shù)據(jù)量還較為有限,其中圖書情報學領域的數(shù)據(jù)尤為少見,本項研究選取了和圖書情報學同屬于社會科學大類的人口調查領域進行研究,即在主題檢索中輸入Population Survey進行查詢,時間范圍為1900~2014年,共獲得13796條數(shù)據(jù),然后將數(shù)據(jù)以txt形式下載并導入Excel中進行處理及統(tǒng)計分析。需要注意的是,不同于Web of Science核心合集,DCI目前的功能尚不完善,平均被引頻次及h指數(shù)等均需下載數(shù)據(jù)后自行計算,而作者及機構信息也需進一步精煉。
4.2 數(shù)據(jù)倉儲引用分析
經(jīng)統(tǒng)計,人口調查領域被引次數(shù)排名前10的數(shù)據(jù)倉儲如表1所示。
可以看出,英國國家數(shù)據(jù)倉儲(UK Data Archive,UKDA)和美國高校校際政治與社會研究聯(lián)盟(Inter University Consortium for Political and Social Research,ICPSR)的總被引次數(shù)和h指數(shù)均遙遙領先。其中UKDA是英國最大的人文社會科學數(shù)據(jù)收藏機構,由英國埃塞克斯大學(University of Essex)、經(jīng)濟與社會研究會(Economic and Social Research Council,ESRC)和國家檔案局(National Archives)等機構合作建設,其數(shù)據(jù)收錄范圍涵蓋了人文社會科學及環(huán)境保護中的各個領域,資源豐富、類型多樣。而ICPSR是全球最大的社會科學數(shù)據(jù)中心,成立于1962年,隸屬于美國密歇根大學。ICPSR擁有涵蓋約6000個主題的50余萬種數(shù)據(jù)資料,主要以會員制的形式提供服務,目前已有約700家學術機構會員遍布全球,包括中國的北京大學、中國人民大學等。UKDA和ICPSR中均收錄有大量的人口調查數(shù)據(jù),并得到了廣泛應用。
UKDA和ICPSR之所以能在社會科學領域產(chǎn)生如此大的影響,其原因不但在于收錄的數(shù)據(jù)量較大,還和這兩個機構非常重視服務與推廣有關。例如,UKDA自1975年起便發(fā)行數(shù)據(jù)通報,2007年起發(fā)行電子報,2010年開始舉辦數(shù)據(jù)使用案例的征集活動。ICPSR同樣也非常重視數(shù)據(jù)的有效使用,自1963年開始便在每年暑假舉行社會科學定量研究方法培訓班,近年來均吸引到全球近千名青年教師與學生前往學習與交流。
澳大利亞南極數(shù)據(jù)中心(AUSTRALIAN ANTARCTIC DATA CENTRE,AADC)雖然被DCI收錄的數(shù)據(jù)只有41條,但總被引達3082次,平均被引頻次達到75.17,說明這些數(shù)據(jù)的權威性和認可度較高。而Figshare是創(chuàng)立于2012年的為科研人員提供發(fā)布各類研究產(chǎn)出的平臺,其理念是可發(fā)現(xiàn)(discoverable)、可共享(shareable)和可引用(citable),數(shù)據(jù)是其主要的發(fā)布形式之一,任何用戶均可在Figshare上面發(fā)布數(shù)據(jù)。因為數(shù)據(jù)發(fā)布者的分散性和成立時間較短,目前Figshare上的數(shù)據(jù)被引較少。
表1 被引次數(shù)排名前10的數(shù)據(jù)倉儲
綜合來看,目前DCI中人口調查領域具有較大影響力的數(shù)據(jù)倉儲主要是UKDA和ICPSR,而Figshare由于其先進的理念和廣泛的用戶群,有望在數(shù)據(jù)引用領域產(chǎn)生更大的影響。
4.3 機構引用分析
經(jīng)統(tǒng)計,人口調查領域被引次數(shù)排名前10的機構如表2所示。
表2 被引次數(shù)排名前10的機構
可以看出,數(shù)據(jù)被引次數(shù)排名前十的機構中大部分為政府機構,其中英國的政府機構占據(jù)4席,包括被引次數(shù)最多的英國國家統(tǒng)計署(Office for National Statistics,ONS),英國國家統(tǒng)計署成立于1996年,由原英國中央統(tǒng)計署(Central Statistical Office,CSO)和人口普查與調查署(Office of Population Censuses and Surveys,OPCS)合并而成,而CSO和OPCS在合并前的數(shù)據(jù)引用次數(shù)分別排在第6和第8。美國的政府機構占據(jù)3席,其中美國商務部(United States Department of Commerce)的數(shù)據(jù)被引次數(shù)僅次于英國國家統(tǒng)計署,主要原因在于其下屬的美國人口調查局(United States Census Bureau)負責全美的人口普查,并提供除人口數(shù)目之外的經(jīng)濟指標、商業(yè)統(tǒng)計等數(shù)據(jù)。此外,美國衛(wèi)生和公眾服務部(United States Department of Health and Human Services)以及美國司法部(United States Department of Justice)也在人口調查數(shù)據(jù)領域具有較大的影響。除英美兩國的機構外,澳大利亞就業(yè)部(Department of Employment)雖然發(fā)布的數(shù)據(jù)量不大,但其數(shù)據(jù)平均被引頻次遠遠高于其他機構,體現(xiàn)出較強的影響力。
除政府機構外,英國的倫敦大學學院(University College London)及英國國家社會研究中心(National Centre for Social Research)也具有較強的影響力,二者發(fā)布的數(shù)據(jù)量較小,但總被引次數(shù)較高,數(shù)據(jù)平均被引頻次均超過10。
從上述案例可以看出,通過數(shù)據(jù)引用可以有效地對科學數(shù)據(jù)的發(fā)布及存儲機構的影響力進行評估。對人口調查領域的數(shù)據(jù)引用現(xiàn)狀進行分析后發(fā)現(xiàn),該領域的被引數(shù)據(jù)主要集中于UKDA和ICPSR這兩個著名的數(shù)據(jù)倉儲,其h指數(shù)遠遠超過其他數(shù)據(jù)倉儲。而數(shù)據(jù)被引次數(shù)較多的機構大多為英美等發(fā)達國家的政府機構,這也從一個側面說明這些國家的政府信息公開度較高,政府機構發(fā)布的數(shù)據(jù)也得到了較為廣泛的應用。綜合來看,h指數(shù)作為一個兼顧數(shù)量和質量的指標,可以較好地用于評價科學數(shù)據(jù)的影響力。
同時,由表1和表2中可以看出,基于數(shù)據(jù)引用h指數(shù)體現(xiàn)出的一些特征與基于文獻引用的h指數(shù)相類似:如果數(shù)據(jù)發(fā)布量和總被引次數(shù)較大,那么h指數(shù)也相對較大,但是h指數(shù)的大小同時還極大地受到被引次數(shù)結構的影響,換而言之,高被引數(shù)據(jù)集的數(shù)量決定了數(shù)據(jù)引用h指數(shù)的大小。
DCI是數(shù)據(jù)引用分析與評價的重要工具,但目前仍存在一定的問題:首先,DCI目前收錄的數(shù)據(jù)量較小,且主要來自于較為知名的數(shù)據(jù)倉儲,其他大部分數(shù)據(jù)倉儲及更多的未進入到倉儲中的數(shù)據(jù)尚未被收錄;其次,DCI目前所收錄數(shù)據(jù)的地區(qū)及學科分布不均衡,其數(shù)據(jù)主要來源于英國和美國,且集中在生命科學、物理學和社會科學;第三,DCI目前的檢索與分析功能較弱,機構及作者甄別功能的缺失增加了數(shù)據(jù)篩選的難度,h指數(shù)等評價指標也需手工計算。
更重要的是,DCI至今尚未正式公布其工作機理,如數(shù)據(jù)來源如何甄選、數(shù)據(jù)如何搜集、數(shù)據(jù)被引情況(是否被引及被引次數(shù))如何甄別等,事實上,這些問題至關重要。對數(shù)據(jù)引用進行檢索、利用與評價,總體上來說可以從兩個方面進行:一是建設數(shù)據(jù)引用數(shù)據(jù)庫,類似于目前較為成熟的引文數(shù)據(jù)庫,將每篇論文的數(shù)據(jù)引用情況進行統(tǒng)計和標引,使用時直接檢索獲取。由于數(shù)據(jù)引用長期以來一直未形成統(tǒng)一規(guī)范的格式,各個學科或期刊根據(jù)自己的特點和要求提出了不同規(guī)范,而這些規(guī)范在形式和嚴格程度上均有較大區(qū)別。面對甄別數(shù)據(jù)引用現(xiàn)象時可能出現(xiàn)的各種復雜情況,目前的計算機程序尚無法獨立完成數(shù)據(jù)標引工作,必須加以人工干預。因此,數(shù)據(jù)引用數(shù)據(jù)庫的發(fā)展和完善將需要較長時間。另一種方式是建設數(shù)據(jù)引用搜索引擎,即利用現(xiàn)有的數(shù)據(jù)庫,根據(jù)用戶要求通過對引文(甚至原文)的檢索獲取某個數(shù)據(jù)倉儲、機構或個人的數(shù)據(jù)被引情況。這種方式的優(yōu)點在于可以利用現(xiàn)有成熟且豐富的引文和全文數(shù)據(jù)庫資源,而無需專門建設數(shù)據(jù)引用數(shù)據(jù)庫。但如何判斷某條引文乃至某處正文屬于數(shù)據(jù)引用是一個待解決的難題,需要綜合運用文本挖掘技術和引文分析技術以提高準確度。
盡管有種種不足,但DCI畢竟是新推出的數(shù)據(jù)庫產(chǎn)品,所涉及到的又是全新的研究領域,有SCI、SSCI等引文索引成功案例在前,憑借湯森路透強大的經(jīng)濟實力和技術支持,相信DCI將日趨完善,并為科學評價與分析發(fā)揮重大作用。
本文參照引文評價方法,選取數(shù)據(jù)發(fā)布量、數(shù)據(jù)被引量、數(shù)據(jù)平均被引頻次及h指數(shù)等指標,構造了一個基于引用的數(shù)據(jù)評價體系,該體系既適用于數(shù)據(jù)生產(chǎn)者(作者、團體作者),也適用于數(shù)據(jù)儲存者(數(shù)據(jù)倉儲)。為驗證該評價方法的可行性,本文利用Web of Knowledge平臺新推出的DCI數(shù)據(jù)庫中的人口調查主題數(shù)據(jù)進行了實驗,發(fā)現(xiàn)雖然由于DCI數(shù)據(jù)庫的建立時間較短、不夠成熟,其功能相較Web of Science核心數(shù)據(jù)集合有較大缺失,但仍可為科學數(shù)據(jù)的定量評價提供強有力的支持,從而促進科學數(shù)據(jù)的共享與重用。
[1]Hailey M.,Mark P.The anatomy of a data citation:Discovery,reuse,and credit[J].Journal of Librarianship and Scholarly Communication,2012,1(1):1035.
[2]侯經(jīng)川,方靜怡.數(shù)據(jù)引證研究:進展與展望[J].中國圖書館學報,2013,39(1):112-118.
[3]墨愚.數(shù)據(jù)引用的學術規(guī)范[J].編輯學刊,2004,(3):68-69.
[4]王華,金勇進.統(tǒng)計數(shù)據(jù)準確性評估:方法分類及適用性分析[J].統(tǒng)計研究,2009,26(1):32-37.
[5]袁滿,張磊.數(shù)據(jù)質量多屬性加權評價算法[J].齊齊哈爾大學學報(自然科學版),2010,26(1):26-28.
[6]丁海龍,徐宏炳.數(shù)據(jù)質量分析及應用[J].計算機技術與發(fā)展,2007,17(3):236-237.
[7]孟巍.數(shù)據(jù)倉庫數(shù)據(jù)質量評價研究及其應用[D].河北:河北工業(yè)大學,2004.
[8]向上.信息系統(tǒng)中的數(shù)據(jù)質量評價方法研究[J].現(xiàn)代情報,2007,27(3):67-70.
[9]丁楠,潘有能.數(shù)據(jù)引用索引工作機理與應用現(xiàn)狀綜析[J].情報理論與實踐,2014,37(6):59-62.
Scientific Data Evaluation based on Data Citation
Data is the footstone of science research.The evaluation of scientific data can promote the management of scientific data,then facilitate the sharing and reuse of data.Based on themethod of citation analysis,the authors propose a scientific data evaluation system which includes indices such as data publication,data citation,citation per data and hindex.An experiment is implemented w ith the data of population survey in DCI.The result shows this system is useful for the evaluation of institutions which published and stored scientific data.The result also shows DCI can provide strong support to the quantitative evaluation of scientific data.
data sharing;data citation;data evaluation;citation analysis
G250.25
:A
:1003-6938(2014)05-0095-05
丁楠(1980-),女,浙江大學圖書館館員;黎嬌,女,浙江大學公共管理學院信息資源管理系本科生;李文雨澤,女,浙江大學公共管理學院信息資源管理系本科生;白晉銘,女,浙江大學公共管理學院信息資源管理系本科生;潘有能(1977-),男,博士,浙江大學公共管理學院信息資源管理系副教授。
*本文系浙江省哲學社會科學規(guī)劃項目“社會科學數(shù)據(jù)引用行為與評價機制研究”(項目編號:13NDJC130YB)和國家自然科學基金項目“基于關聯(lián)數(shù)據(jù)的信息聚合模型與實現(xiàn)研究”(項目編號:71273225)研究成果之一。
2014-09-05;責任編輯:劉全根