劉亞男,劉江榮,肖 明,于 佳
隨著數(shù)據(jù)密集型研究范式興起,科研數(shù)據(jù)的透明性、知識(shí)產(chǎn)權(quán)保護(hù)及數(shù)據(jù)的再利用價(jià)值等問(wèn)題引起重視,科研數(shù)據(jù)引用行為也日益受到關(guān)注。規(guī)范的數(shù)據(jù)引用指導(dǎo)和引用行為對(duì)提升科研成果的可溯源性和透明性、保護(hù)數(shù)據(jù)利益相關(guān)者的知識(shí)產(chǎn)權(quán)以及完善科研數(shù)據(jù)的貢獻(xiàn)識(shí)別及獎(jiǎng)勵(lì)機(jī)制等都具有重要意義。國(guó)外圍繞科研數(shù)據(jù)的引用實(shí)踐開展很多調(diào)查研究,對(duì)研究科研項(xiàng)目成果的數(shù)據(jù)引用情況、科研人員的數(shù)據(jù)引用行為模式等提供了重要依據(jù)。目前我國(guó)關(guān)于科研數(shù)據(jù)引用行為的實(shí)證研究還比較少,暴露了我國(guó)數(shù)據(jù)引用研究和實(shí)踐方面的諸多不足。本文通過(guò)對(duì)國(guó)家自然科學(xué)基金、社會(huì)科學(xué)基金資助的學(xué)術(shù)成果中科研數(shù)據(jù)引用的實(shí)踐狀況進(jìn)行實(shí)證分析,嘗試了解我國(guó)科研人員數(shù)據(jù)引用行為模式,為相應(yīng)規(guī)范和策略的制定提供參考。
科研數(shù)據(jù)是指對(duì)科研過(guò)程和結(jié)果具有支持作用的任何格式或以任何媒介存在的數(shù)據(jù)。包括科研人員在研究過(guò)程中通過(guò)觀察、實(shí)驗(yàn)、模擬、調(diào)查、分析所創(chuàng)建的數(shù)據(jù),以及從其他機(jī)構(gòu)收集的二手?jǐn)?shù)據(jù),可以是文本、數(shù)值、圖像、音頻、視頻、模型、計(jì)算機(jī)代碼或特定工具的輸出結(jié)果等多種形式。科研數(shù)據(jù)引用是類似于研究人員通常為期刊文獻(xiàn)、報(bào)告或會(huì)議文獻(xiàn)中提供文獻(xiàn)參考的方式來(lái)提供數(shù)據(jù)參考的做法,通過(guò)一定的標(biāo)識(shí)技術(shù)和參考機(jī)制,對(duì)所使用的數(shù)據(jù)資源進(jìn)行描述,標(biāo)識(shí)數(shù)據(jù)的來(lái)源,從而加強(qiáng)對(duì)科研數(shù)據(jù)的知識(shí)產(chǎn)權(quán)保護(hù),也便于對(duì)數(shù)據(jù)引用情況進(jìn)行統(tǒng)計(jì)和分析。國(guó)外對(duì)科研數(shù)據(jù)引用行為的研究主要集中在針對(duì)特定數(shù)據(jù)集和針對(duì)期刊論文中的數(shù)據(jù)引用行為的研究。
針對(duì)特定數(shù)據(jù)集的引用行為研究方面,Parsons 等[1]對(duì)美國(guó)國(guó)家冰雪數(shù)據(jù)中心(National Snow and Ice Data Center,NSIDC)的使用中分辨率成像光譜儀資料的論文進(jìn)行分析,研究表明該中心并未提供引用相關(guān)的指導(dǎo)說(shuō)明,并且只有少量作者在文中明確注明引用了該中心的數(shù)據(jù)。Mooney[2]對(duì)大學(xué)間政治社會(huì)研究聯(lián)盟(Interuniversity Consortium for Political and Social Research,ICPSR)數(shù)據(jù)中心的數(shù)據(jù)集引用情況進(jìn)行分析,結(jié)果表明部分作者引用數(shù)據(jù)時(shí)不會(huì)注明數(shù)據(jù)來(lái)源。Henderson 等[3]對(duì)使用CRAWDAD倉(cāng)儲(chǔ)庫(kù)中數(shù)據(jù)集的1281 篇論文中的數(shù)據(jù)引用行為進(jìn)行分析,發(fā)現(xiàn)通常情況下論文作者能夠以一定合理的方式引用數(shù)據(jù),僅11.5%的論文沒(méi)有說(shuō)明數(shù)據(jù)來(lái)源,但普遍存在引用的是數(shù)據(jù)相關(guān)的論文而非數(shù)據(jù)本身、無(wú)法提供獲取數(shù)據(jù)的唯一標(biāo)識(shí)符DOI(Digital Object Identifier)等問(wèn)題。Read 等[4](2015)分析了NIH 資助的發(fā)表于2011年的論文,排除掉存儲(chǔ)在PubMed 倉(cāng)儲(chǔ)庫(kù)以及在文章中有明確引用過(guò)該數(shù)據(jù)倉(cāng)儲(chǔ)的論文,通過(guò)將其他論文作為隨機(jī)樣本來(lái)評(píng)估隱形數(shù)據(jù)集的情況,結(jié)果顯示大概12%的文章提到了存儲(chǔ)數(shù)據(jù)集在倉(cāng)儲(chǔ)庫(kù)中,其余88%的為隱形數(shù)據(jù)。
針對(duì)期刊論文中的數(shù)據(jù)引用行為研究,Enriquez 等[5]選擇環(huán)境科學(xué)領(lǐng)域的6 種期刊,對(duì)期刊中2000-2010年的500 篇文章的數(shù)據(jù)引用行為進(jìn)行研究,結(jié)果表明221 篇文章有數(shù)據(jù)再利用行為,其中53%注明了引用數(shù)據(jù)的相關(guān)論文,47%提及了引用數(shù)據(jù)的存儲(chǔ)機(jī)構(gòu),只有13%的文章標(biāo)注了DOI。Sarah C.Williams[6]發(fā)現(xiàn)農(nóng)作物學(xué)科的科研人員在研究中使用的科研數(shù)據(jù)來(lái)源非常廣泛,然而數(shù)據(jù)引用行為非常不規(guī)范。Stuart等[7]對(duì)140 種社會(huì)學(xué)期刊的科研數(shù)據(jù)相關(guān)政策進(jìn)行調(diào)研,并選擇其中5 種期刊,按照抽樣的方式篩選這些期刊上近兩年來(lái)發(fā)表的論文,確定作者是否真的引用和共享他們的數(shù)據(jù)以及與其相關(guān)的影響因素。結(jié)果發(fā)現(xiàn)140 種期刊中只有少數(shù)有明確的科研數(shù)據(jù)引用政策,并且為具有較高影響因素和數(shù)據(jù)引用政策的期刊撰寫文章的作者更可能引用數(shù)據(jù)并使數(shù)據(jù)真正可訪問(wèn)。Womack[8]使用分層隨機(jī)抽樣的方法從2014年生物學(xué)、化學(xué)、數(shù)學(xué)和物理學(xué)影響因子排名前10 名的期刊中選取文章,對(duì)其數(shù)據(jù)引用和數(shù)據(jù)共享情況進(jìn)行分析,結(jié)果表明即使是在高影響力期刊中,數(shù)據(jù)引用行為仍然非常不規(guī)范,使用DOI 和直接鏈接到原始數(shù)據(jù)的行為非常少。另外所有學(xué)科的文章中都很少提供大規(guī)模原始數(shù)據(jù)的鏈接來(lái)共享數(shù)據(jù),但總體來(lái)說(shuō)數(shù)學(xué)和生物學(xué)在數(shù)據(jù)共享方面比化學(xué)和物理學(xué)要好一些。Mengnan Zhao 等[9]通過(guò)對(duì)發(fā)表在PLoS One 的600 篇論文進(jìn)行編碼和數(shù)據(jù)集引用情況進(jìn)行分析,結(jié)果發(fā)現(xiàn)不同學(xué)科之間對(duì)數(shù)據(jù)集的采集和引用有很大的差異,只有有限的文章通過(guò)DOI的方式來(lái)引用數(shù)據(jù)集,另外只有少于30%的文章中有數(shù)據(jù)集重用的現(xiàn)象。
目前我國(guó)對(duì)科研數(shù)據(jù)引用行為的研究較少,已有研究集中在對(duì)有關(guān)科學(xué)數(shù)據(jù)引用的標(biāo)準(zhǔn)規(guī)范方面。黃如花等[10]在調(diào)研了國(guó)外科研數(shù)據(jù)引用規(guī)范的基礎(chǔ)上,提出我國(guó)應(yīng)該將科研數(shù)據(jù)引用納入科研評(píng)價(jià)體系,完善科學(xué)數(shù)據(jù)引用規(guī)范。彭潔等[11]通過(guò)問(wèn)卷調(diào)查的方式,調(diào)查科技期刊和科研人員對(duì)科學(xué)數(shù)據(jù)引用的態(tài)度、平臺(tái)、動(dòng)機(jī)、標(biāo)注和描述,對(duì)各個(gè)因素進(jìn)行對(duì)比,提出針對(duì)期刊論文、科研數(shù)據(jù)庫(kù)和科研人員三種模式的科學(xué)數(shù)據(jù)引用框架。王雪等[12]認(rèn)為應(yīng)基于引用行為建立針對(duì)科學(xué)數(shù)據(jù)的評(píng)估機(jī)制,有利于科研人員認(rèn)識(shí)到科學(xué)數(shù)據(jù)再利用的價(jià)值,并正視數(shù)據(jù)引用的重要性,從而規(guī)范化數(shù)據(jù)引用。
采用抽樣調(diào)查和內(nèi)容分析研究方法,選取自然科學(xué)領(lǐng)域和人文社科領(lǐng)域20 種期刊作為抽樣對(duì)象,按照等距抽樣原則選取2015-2016年的基金項(xiàng)目論文。參考已有研究成果構(gòu)建科研數(shù)據(jù)引用完整性標(biāo)準(zhǔn),并根據(jù)構(gòu)建的標(biāo)準(zhǔn)對(duì)論文進(jìn)行內(nèi)容分析,從引用元數(shù)據(jù)、引用位置和引用完整性三個(gè)方面對(duì)論文中作者的數(shù)據(jù)引用行為進(jìn)行分析。
2.2.1 樣本選擇
自然科學(xué)基金和社會(huì)科學(xué)基金項(xiàng)目是國(guó)家級(jí)科研基金,其資助項(xiàng)目的選題、成果反映了我國(guó)自然科學(xué)、社會(huì)科學(xué)各學(xué)科研究的國(guó)家水平。本文選擇期刊論文中的基金項(xiàng)目論文成果作為研究對(duì)象,對(duì)我國(guó)各學(xué)科領(lǐng)域的研究人員科研數(shù)據(jù)引用行為模式和特點(diǎn)進(jìn)行分析。選擇中國(guó)知網(wǎng)全文數(shù)據(jù)庫(kù),利用核心期刊導(dǎo)航功能,按照期刊復(fù)合影響因子進(jìn)行高低排序,在社會(huì)科學(xué)領(lǐng)域和自然科學(xué)領(lǐng)域各選擇10 種期刊,共20 種核心期刊。樣本文獻(xiàn)來(lái)源期刊信息見(jiàn)表1、表2。
表1 樣本文獻(xiàn)來(lái)源期刊信息(社會(huì)科學(xué)領(lǐng)域)
表2 樣本文獻(xiàn)來(lái)源期刊信息(自然科學(xué)領(lǐng)域)
2.2.2 文獻(xiàn)選擇
在20 種期刊中,采用等距抽樣方法,選擇2015-2016年兩年中上半年第1 期和下半年第1期(即雙月刊每年的1、4 期,單月刊每年的1、7期,半月刊每年的第1、13 期)刊登的論文為初步篩選對(duì)象。然后利用數(shù)據(jù)庫(kù)中的“基金來(lái)源”字段篩選論文中獲得自然科學(xué)基金項(xiàng)目和社會(huì)科學(xué)基金項(xiàng)目論文,共計(jì)815 篇文章為研究樣本文獻(xiàn)。具體數(shù)量分布見(jiàn)表3、表4。
表3 樣本文獻(xiàn)分布情況(自然科學(xué)類)
表4 樣本文獻(xiàn)分布情況(人文社科類)
2.2.3 樣本處理
為分析基金項(xiàng)目論文中科研數(shù)據(jù)的引用規(guī)范程度,需分析論文中的具體引用行為。由于目前還沒(méi)有較大規(guī)模的標(biāo)注數(shù)據(jù)對(duì)內(nèi)容進(jìn)行自動(dòng)識(shí)別,筆者主要使用人工方式對(duì)數(shù)據(jù)引用行為和規(guī)范程度進(jìn)行內(nèi)容分析,判斷和歸類相關(guān)內(nèi)容。為了保證分析結(jié)果的有效性、一致性,減少標(biāo)引人員的判斷失誤,在正式標(biāo)引前對(duì)論文的篩選步驟、判斷標(biāo)準(zhǔn)、分析角度等進(jìn)行反復(fù)討論和完善,補(bǔ)充了很多標(biāo)引時(shí)可能遇到的問(wèn)題的解決辦法,保證了統(tǒng)計(jì)分析結(jié)果的一致性和準(zhǔn)確性。篩選步驟如下:
(1)確認(rèn)文章是否涉及科研數(shù)據(jù)。通過(guò)閱讀樣本文獻(xiàn)的摘要內(nèi)容進(jìn)行初步判斷,進(jìn)而分析文章的整體框架結(jié)構(gòu),分析文章是否會(huì)涉及到科研數(shù)據(jù)。
(2)確認(rèn)文章中的科研數(shù)據(jù)是屬于作者創(chuàng)建的數(shù)據(jù)還是引用的數(shù)據(jù)。如果文章中使用了數(shù)據(jù),則需要進(jìn)一步判斷數(shù)據(jù)的來(lái)源,對(duì)屬于作者自己創(chuàng)建、搜集的數(shù)據(jù)不在本文的分析范圍。如果可以判斷該篇文章的數(shù)據(jù)屬于引用數(shù)據(jù),則選為本文分析的樣本。
(3)深入分析數(shù)據(jù)引用行為的相關(guān)內(nèi)容。論文中與引用數(shù)據(jù)相關(guān)的時(shí)間變量包括數(shù)據(jù)覆蓋時(shí)間區(qū)間、數(shù)據(jù)發(fā)布時(shí)間、數(shù)據(jù)獲取時(shí)間等不同表述,本文只標(biāo)引數(shù)據(jù)的發(fā)布時(shí)間和獲取時(shí)間。此外,在數(shù)據(jù)個(gè)數(shù)計(jì)算方面,有些表格或圖表會(huì)出現(xiàn)同時(shí)引用多個(gè)數(shù)據(jù)的情況,本文在標(biāo)注時(shí)使用作者注明的數(shù)據(jù)來(lái)源數(shù)量作為引用數(shù)據(jù)個(gè)數(shù),并根據(jù)引用的元數(shù)據(jù)情況進(jìn)行引用完整性評(píng)分。
通過(guò)對(duì)所獲取的樣本文獻(xiàn)中的數(shù)據(jù)引用行為進(jìn)行標(biāo)注,統(tǒng)計(jì)每篇文章的引用數(shù)據(jù)的數(shù)量及引用的完整性情況,并對(duì)獲得的數(shù)據(jù)分類統(tǒng)計(jì),可獲取各領(lǐng)域基金項(xiàng)目論文中數(shù)據(jù)引用的情況,見(jiàn)表5。在815 篇基金項(xiàng)目論文中,有數(shù)據(jù)引用行為的論文有250 篇,占30.7%,總數(shù)據(jù)602 個(gè),平均每篇論文數(shù)據(jù)次數(shù)為2.4 次。
為了解我國(guó)基金項(xiàng)目論文中科研數(shù)據(jù)引用行為的完整性,參照Hailey Mooney 等[13]文中采用的數(shù)據(jù)引用完整性指標(biāo)(Data Citation Adequacy Index,DCAI)構(gòu)建方法,建立數(shù)據(jù)引用完整性衡量標(biāo)準(zhǔn)。主要處理方法是:通過(guò)對(duì)多個(gè)引用規(guī)范格式進(jìn)行解構(gòu),將列出的數(shù)據(jù)引用的元素、引用的格式、引用的顆粒度情況等進(jìn)行對(duì)比,找出通用的核心要素,結(jié)合核心要素在文中出現(xiàn)的位置,構(gòu)建“數(shù)據(jù)引用完整性衡量標(biāo)準(zhǔn)”。最終確定的衡量標(biāo)準(zhǔn)包括兩個(gè)維度:引用單元和數(shù)據(jù)引用在文中出現(xiàn)的位置。在引用單元方面,通過(guò)對(duì)各國(guó)際組織、數(shù)據(jù)中心和期刊機(jī)構(gòu)的推薦引用格式進(jìn)行對(duì)比,創(chuàng)建者(Author/Creator)、發(fā)布年份(Publication Year)、 標(biāo) 題 (Title)、 發(fā) 布 機(jī) 構(gòu)(Publisher)和唯一標(biāo)識(shí)符(Identifier)作為強(qiáng)制要求的引用要素。尤其隨著近年DataCite 等機(jī)構(gòu)對(duì)數(shù)據(jù)唯一標(biāo)識(shí)符的深入研究和廣泛推廣,為數(shù)據(jù)注冊(cè)DOI 成為大部分?jǐn)?shù)據(jù)中心和期刊的共同趨勢(shì)和強(qiáng)烈建議。所以本文在構(gòu)建衡量矩陣時(shí)對(duì)Hailey Mooney 的賦值進(jìn)行細(xì)微調(diào)整,將提供數(shù)據(jù)唯一標(biāo)識(shí)符的權(quán)值修改為2,這從某種程度上顯示數(shù)據(jù)引用技術(shù)機(jī)制的進(jìn)步。由于其他引用要素,如資源類型(Resource type)、版本(Version)在特定的推薦格式中出現(xiàn)頻率較高,所以分別賦予一定權(quán)重,從而區(qū)分完整性較高的引用行為。在引用出現(xiàn)位置方面,分別對(duì)未在文中出現(xiàn)引用、在正文中出現(xiàn)、在備注或致謝中出現(xiàn)、在參考文獻(xiàn)列表中出現(xiàn)的四種情況分別賦予一定權(quán)值。筆者根據(jù)研究認(rèn)為,在參考文獻(xiàn)部分中引用數(shù)據(jù)的規(guī)范程度最高,相應(yīng)的權(quán)值也是最高。最后構(gòu)建“科研數(shù)據(jù)引用規(guī)范性衡量標(biāo)準(zhǔn)”,如表6所示。
表5 樣本總體情況
表6 數(shù)據(jù)引用規(guī)范性衡量標(biāo)準(zhǔn)
類似于文獻(xiàn)引用,數(shù)據(jù)引用包括作者、數(shù)據(jù)標(biāo)題、出版機(jī)構(gòu)、出版時(shí)間、訪問(wèn)地址等數(shù)據(jù),根據(jù)這些數(shù)據(jù)的完整程度,本文從引用元數(shù)據(jù)、引用位置和引用完整性三方面對(duì)我國(guó)基金項(xiàng)目論文中的科研數(shù)據(jù)引用行為進(jìn)行分析,了解當(dāng)前我國(guó)科研數(shù)據(jù)的引用規(guī)范情況。
引用科研數(shù)據(jù)時(shí)推薦引用的五個(gè)核心要素分別是創(chuàng)建者、標(biāo)題、發(fā)布時(shí)間、發(fā)布機(jī)構(gòu)和獲取地址。通過(guò)對(duì)樣本文獻(xiàn)中的602 個(gè)引用數(shù)據(jù)進(jìn)行分析得知,引用數(shù)據(jù)時(shí)注明數(shù)據(jù)的發(fā)布機(jī)構(gòu)的做法最常見(jiàn),自然科學(xué)領(lǐng)域基金論文中有322 條數(shù)據(jù)、人文社科領(lǐng)域有196 條數(shù)據(jù)說(shuō)明數(shù)據(jù)發(fā)布機(jī)構(gòu)。其次是在引用的時(shí)候說(shuō)明數(shù)據(jù)的發(fā)布時(shí)間(自然科學(xué)領(lǐng)域=161,人文社科領(lǐng)域=103)及數(shù)據(jù)集名稱(自然科學(xué)領(lǐng)域=254,人文社科領(lǐng)域=40),而對(duì)數(shù)據(jù)的創(chuàng)建者、獲取數(shù)據(jù)的地址或DOI、數(shù)據(jù)資源類型和數(shù)據(jù)版本等信息則很少提供規(guī)范性的說(shuō)明,如圖1所示。這說(shuō)明研究人員在使用外部數(shù)據(jù)時(shí)有一定的引用意識(shí),然而由于缺乏規(guī)范的引用要求和指導(dǎo),只能模糊和籠統(tǒng)地引用數(shù)據(jù)的發(fā)布機(jī)構(gòu)或網(wǎng)站名稱,如“數(shù)據(jù)來(lái)源于中華人民共和國(guó)國(guó)家統(tǒng)計(jì)局網(wǎng)站”或“感謝中國(guó)地震局地球物理研究所‘國(guó)家數(shù)字測(cè)震臺(tái)網(wǎng)數(shù)據(jù)備份中心’為本研究提供地震波形數(shù)據(jù)”。而相對(duì)嚴(yán)謹(jǐn)?shù)淖髡邥?huì)對(duì)數(shù)據(jù)集的具體名稱、數(shù)據(jù)發(fā)布的時(shí)間等進(jìn)一步說(shuō)明,如“COSMIC 掩星探測(cè)資料來(lái)自于 2014年COSMIC 數(shù)據(jù)存檔與分析中心CDAAC 發(fā)布的后處理數(shù)據(jù)文檔IonProf”。
圖1 引用元數(shù)據(jù)情況分析
在調(diào)研的樣本文獻(xiàn)中,引用“數(shù)據(jù)創(chuàng)建者”主要有三種情況:一是在致謝中說(shuō)明感謝某位研究人員提供數(shù)據(jù);二是說(shuō)明數(shù)據(jù)來(lái)源是來(lái)自論文、專著或報(bào)告等出版物,并通過(guò)參考文獻(xiàn)引用該篇論文,或在正文中以“作者(年份)”的格式對(duì)數(shù)據(jù)來(lái)源進(jìn)行標(biāo)明;三是根據(jù)數(shù)據(jù)來(lái)源倉(cāng)儲(chǔ)庫(kù)的要求按照格式引用數(shù)據(jù),這種情況雖然最規(guī)范,但出現(xiàn)頻次最少。說(shuō)明引用格式不規(guī)范的情況較嚴(yán)重,不能很好地體現(xiàn)數(shù)據(jù)創(chuàng)建者的貢獻(xiàn)。
對(duì)“數(shù)據(jù)獲取地址”這個(gè)要素,在此次調(diào)研的樣本文獻(xiàn)中,大多數(shù)提供的都是數(shù)據(jù)來(lái)源的網(wǎng)站信息,而不能提供具體的數(shù)據(jù)獲取地址,如“高溫脅迫數(shù)據(jù)來(lái)源于中國(guó)氣象科學(xué)數(shù)據(jù)共享服務(wù)網(wǎng)(http://cdc.cma.gov.cn/home.do)的中國(guó)地面氣候標(biāo)準(zhǔn)值日值數(shù)據(jù)集”,這樣的引用雖然提供了數(shù)據(jù)的引用地址,但是卻無(wú)法精準(zhǔn)到數(shù)據(jù)的描述網(wǎng)頁(yè),而且由于網(wǎng)絡(luò)地址不能保證永久的有效性,通過(guò)網(wǎng)絡(luò)地址的引用方式也容易失去引用追溯的作用。而“數(shù)據(jù)唯一標(biāo)識(shí)符DOI”在一定程度上可以解決這種困境,但是從調(diào)研的結(jié)果來(lái)看,真正通過(guò)DOI 對(duì)數(shù)據(jù)進(jìn)行標(biāo)注的只有4 條數(shù)據(jù),可見(jiàn),目前我國(guó)基于DOI 的數(shù)據(jù)引用實(shí)踐還非常欠缺,這是與我國(guó)目前的引用意識(shí)、數(shù)據(jù)版權(quán)意識(shí)薄弱、DOI 注冊(cè)系統(tǒng)普及程度不高、數(shù)據(jù)規(guī)范引用指導(dǎo)不夠等多方面因素息息相關(guān)。
對(duì)“數(shù)據(jù)資源類型”及“數(shù)據(jù)版本”等要素的引用實(shí)踐相對(duì)而言更加匱乏。其中,自然科學(xué)領(lǐng)域的論文在數(shù)據(jù)來(lái)源的說(shuō)明中會(huì)添加對(duì)數(shù)據(jù)資源類型及版本的說(shuō)明,例如“本研究所用的長(zhǎng)時(shí)間序列遙感數(shù)據(jù)——GIMMSNDVI 3g 數(shù)據(jù)集,是由美國(guó)國(guó)家航天航空局推出的最新版的全球植被指數(shù)變化數(shù)據(jù),該數(shù)據(jù)集格式為ENVI 標(biāo)準(zhǔn)格式,投影為Albers,其時(shí)間分辨率為15d,空間分辨率為8km”,也有部分論文在引用時(shí)會(huì)注明網(wǎng)址和版本數(shù)據(jù)等具體信息,如“本文實(shí)際使用的重力異常數(shù)據(jù)來(lái)源于http://topex.ucsd.edu網(wǎng)站提供的最新22.1 版本數(shù)據(jù)”。而在人文社科領(lǐng)域?qū)λ褂脭?shù)據(jù)的具體資源情況表述相對(duì)要模糊一些,如“本文運(yùn)用的財(cái)政數(shù)據(jù)來(lái)自統(tǒng)計(jì)局2006年發(fā)布的《全國(guó)地市縣財(cái)政統(tǒng)計(jì)資料》,這些財(cái)政統(tǒng)計(jì)資料包含了32 個(gè)省級(jí)行政區(qū)、332個(gè)地級(jí)行政區(qū)和2859 個(gè)縣級(jí)行政區(qū)的財(cái)政一般預(yù)算和基金預(yù)算資料,詳細(xì)到‘類級(jí)’科目。”這種引用的顆粒度顯然是非常粗糙的,對(duì)閱讀文章的人而言,并不能明確地知道引用數(shù)據(jù)的具體情況,也無(wú)法實(shí)現(xiàn)研究成果的可溯源性和透明性。
在調(diào)研的樣本文獻(xiàn)中,以非常規(guī)范和完整的方式引用科研數(shù)據(jù)的情況不多,但是確實(shí)也有一些典型案例非常有指導(dǎo)意義。有些數(shù)據(jù)來(lái)源于國(guó)家統(tǒng)計(jì)局、國(guó)家稅務(wù)局、國(guó)家信息中心等機(jī)構(gòu)部門發(fā)布的統(tǒng)計(jì)資料或年鑒報(bào)告等,對(duì)這些資料的引用很多作者會(huì)選擇通過(guò)參考文獻(xiàn)的形式引用。此外,規(guī)范引用的數(shù)據(jù)與數(shù)據(jù)來(lái)源倉(cāng)儲(chǔ)庫(kù)有直接關(guān)系,有些倉(cāng)儲(chǔ)庫(kù)對(duì)引用該倉(cāng)儲(chǔ)庫(kù)的數(shù)據(jù)有比較明確的說(shuō)明和要求,這樣就在一定程度上使得研究人員在自己的研究成果中按照要求規(guī)范地引用科研數(shù)據(jù)。
為了解樣本文獻(xiàn)中的數(shù)據(jù)引用行為,進(jìn)一步對(duì)引用的位置進(jìn)行分析。由圖2可知,數(shù)據(jù)的引用位置主要集中在正文,自然科學(xué)領(lǐng)域和人文社科領(lǐng)域在正文處引用數(shù)據(jù)的頻次分別為239 次(61.1%)和140 次(66.4%)。對(duì)基于科研數(shù)據(jù)開展研究的的論文,通常會(huì)在開篇用一個(gè)章節(jié)介紹數(shù)據(jù)來(lái)源,所以對(duì)數(shù)據(jù)的引用說(shuō)明會(huì)出現(xiàn)在正文中。另外,系統(tǒng)工程、管理工程類論文,通常會(huì)在驗(yàn)證模型的實(shí)證部分引用數(shù)據(jù)集。
圖2 引用位置情況分析
在調(diào)研的樣本論文中,備注部分主要是指圖、表下部的說(shuō)明或腳注尾注的注釋等內(nèi)容。自然科學(xué)與人文社科分別有 42 次(10.7%)和 67 次(31.8%)引用記錄。通過(guò)備注引用數(shù)據(jù)表明作者對(duì)數(shù)據(jù)來(lái)源標(biāo)注更加明確,在規(guī)范程度上比正文更正式,針對(duì)性更強(qiáng)。但是,這種引用方式也存在著引用元素不完整,引用顆粒度太粗糙的情況。例如“圖表中數(shù)據(jù)整理歸納自1993年蘇州統(tǒng)計(jì)年鑒”,這樣雖然告知了引用數(shù)據(jù)的資料來(lái)源,但是卻沒(méi)有明確標(biāo)注數(shù)據(jù)的具體信息。備注部分的引用情況也和某些期刊要求有關(guān),部分期刊在收稿時(shí)要求“引用圖表,須在其下方注明出處”。另外,也有些期刊特別說(shuō)明要通過(guò)致謝的方式對(duì)論文有貢獻(xiàn)的人員或單位進(jìn)行感謝和說(shuō)明,人文社科論文普遍沒(méi)有致謝的內(nèi)容,自然科學(xué)領(lǐng)域的《地理學(xué)報(bào)》《地球物理學(xué)報(bào)》《應(yīng)用生態(tài)學(xué)報(bào)》三種期刊里都有致謝部分,所以很多數(shù)據(jù)及引用內(nèi)容被放置在了這個(gè)環(huán)節(jié),這在一定程度上提升了對(duì)數(shù)據(jù)創(chuàng)建者及數(shù)據(jù)發(fā)布存儲(chǔ)機(jī)構(gòu)的貢獻(xiàn)認(rèn)可,但是由于對(duì)數(shù)據(jù)引用的元數(shù)據(jù)列舉也不夠規(guī)范,并且致謝內(nèi)容多數(shù)都不提供數(shù)據(jù)的鏈接地址或DOI,所以無(wú)法更好地有助于數(shù)據(jù)的發(fā)現(xiàn)、共享和再利用。
對(duì)科研數(shù)據(jù)通過(guò)參考文獻(xiàn)的方式進(jìn)行引用是目前認(rèn)為最為規(guī)范的方式,在此次調(diào)研對(duì)象中,自然科學(xué)領(lǐng)域有48 條引用記錄,人文社科領(lǐng)域僅有4 條引用記錄。但是,值得注意的是,在這48 條記錄中,21 條是直接引用論文,11 條是引用統(tǒng)計(jì)年鑒或數(shù)據(jù)報(bào)告,3 條是引用著作或報(bào)告,2 條是引用政府網(wǎng)站信息,只有其余的11 條記錄是真正的引用了數(shù)據(jù)中心的數(shù)據(jù)集。這種情況也說(shuō)明即使論文作者嘗試通過(guò)參考文獻(xiàn)的方式規(guī)范地引用科研數(shù)據(jù),但是如果數(shù)據(jù)引用格式指導(dǎo)缺乏,規(guī)范化的引用也很難實(shí)現(xiàn)。
圖3 數(shù)據(jù)引用元數(shù)據(jù)按引用位置分類統(tǒng)計(jì)結(jié)果
由圖3可知,無(wú)論數(shù)據(jù)引用是出現(xiàn)在正文中、還是備注或致謝中,有80%~90%的數(shù)據(jù)引用記錄都會(huì)注明數(shù)據(jù)的發(fā)布機(jī)構(gòu),而數(shù)據(jù)的創(chuàng)建者、獲取地址和資源類型則較少提及。選擇通過(guò)參考文獻(xiàn)的方式引用科研數(shù)據(jù),表明數(shù)據(jù)來(lái)源倉(cāng)儲(chǔ)庫(kù)的規(guī)定對(duì)于科研數(shù)據(jù)引用規(guī)范化具有重要的作用。
很多數(shù)據(jù)來(lái)源的數(shù)據(jù)中心會(huì)強(qiáng)制要求對(duì)使用的數(shù)據(jù)通過(guò)引文的方式進(jìn)行規(guī)范引用,否則會(huì)限制該用戶后續(xù)對(duì)數(shù)據(jù)的獲取和使用權(quán)限,強(qiáng)制性要求使用戶必須重視對(duì)所使用數(shù)據(jù)的說(shuō)明,督促用戶規(guī)范引用行為的同時(shí)也增加了數(shù)據(jù)集、數(shù)據(jù)中心的傳播范圍和可發(fā)現(xiàn)程度,保障了相關(guān)利益者的合法權(quán)利。很多期刊投稿論文格式的刻板限制也是使得引用數(shù)據(jù)無(wú)法出現(xiàn)在引文列表中的重要原因,而對(duì)數(shù)據(jù)引用指導(dǎo)的缺乏,更加重了期刊論文中數(shù)據(jù)引用位置的不規(guī)范程度。此外,由上圖看到,當(dāng)作者以參考文獻(xiàn)的方式引用數(shù)據(jù)時(shí),通常會(huì)使用比較完善的元數(shù)據(jù)信息,這就證明了以引用論文的方式引用科研數(shù)據(jù)是目前的最佳做法??傮w來(lái)看,自然科學(xué)領(lǐng)域的引用情況要相對(duì)人文社科領(lǐng)域來(lái)講要稍好一些。
筆者對(duì)所獲得的樣本文獻(xiàn),按照前文構(gòu)造的數(shù)據(jù)引用完整性衡量標(biāo)準(zhǔn),對(duì)250 篇有數(shù)據(jù)引用行為文獻(xiàn)中的602 條數(shù)據(jù)引用記錄進(jìn)行評(píng)分,判斷數(shù)據(jù)引用的位置是發(fā)生在正文中、致謝或備注中、參考文獻(xiàn)中,并根據(jù)引用的元數(shù)據(jù)情況給予對(duì)應(yīng)的分值,獲得數(shù)據(jù)引用完整性得分的頻數(shù)分布,如圖4所示。
圖4 數(shù)據(jù)引用完整性得分頻數(shù)分布
經(jīng)過(guò)分析可知,自然科學(xué)領(lǐng)域的引用完整性程度整體要高于人文社科領(lǐng)域,尤其是高分段的引用得分要更多一些。但是,無(wú)論是自然科學(xué)還是人文社科領(lǐng)域,從整體上來(lái)看我國(guó)的引用完整性得分都集中在10 分以內(nèi),說(shuō)明引用行為不規(guī)范的情況比較嚴(yán)重。
我國(guó)自然科學(xué)類基金項(xiàng)目論文中,總體數(shù)據(jù)引用完整性程度頻次最多的是集中在4 分的分段,頻次是132,這類引用多是只在正文或致謝中出現(xiàn)引用數(shù)據(jù)的來(lái)源機(jī)構(gòu)名稱。例如“感謝美國(guó)冰雪數(shù)據(jù)中心(NSIDC)提供ICESat 數(shù)據(jù)”,這樣的引用只是比較簡(jiǎn)單的交代了數(shù)據(jù)的來(lái)源,但過(guò)于隨意和籠統(tǒng),并沒(méi)有準(zhǔn)確說(shuō)明使用的數(shù)據(jù)集的名稱、創(chuàng)建者、創(chuàng)建時(shí)間以及獲取的地址等信息,讀者也無(wú)法追溯論文所使用的數(shù)據(jù)來(lái)源。其次,自然科學(xué)領(lǐng)域的完整性分值集中在2 分和8分的分段,頻次分別是62 和66。得到2 分引用記錄通常只是在正文中交代1-2 個(gè)要素,屬于引用方式極不規(guī)范的情況。
在人文社會(huì)科學(xué)領(lǐng)域,總體數(shù)據(jù)引用完整性整體偏低,與自然科學(xué)領(lǐng)域相比分?jǐn)?shù)大部分分布在2 分至4 分的區(qū)間里,頻次分別為73 和57。這樣的引用記錄只是在文中介紹了數(shù)據(jù)的發(fā)布或存儲(chǔ)機(jī)構(gòu)名稱,沒(méi)有其他詳細(xì)的信息,如“數(shù)據(jù)均來(lái)自國(guó)泰安CSMAR 數(shù)據(jù)庫(kù)”。人文社科類文獻(xiàn)使用的數(shù)據(jù)種類繁多,有些甚至需要跨越很多省份地區(qū)、需要很多年的長(zhǎng)期調(diào)研才得到的數(shù)據(jù),比如有很多論文使用到了歷年的人口普查的數(shù)據(jù)或統(tǒng)計(jì)年鑒等資料,并且大多數(shù)只使用了其中的部分?jǐn)?shù)據(jù),并通過(guò)進(jìn)一步的處理和轉(zhuǎn)換后進(jìn)行研究。然而文章中卻缺少對(duì)所選用的數(shù)據(jù)集名稱、變量情況等內(nèi)容的說(shuō)明,也較少有標(biāo)注獲取地址或DOI 等信息,使得文章讀者無(wú)法追溯原始數(shù)據(jù)。
由前文文獻(xiàn)綜述部分所述可知,雖然基金組織、期刊論文和數(shù)據(jù)倉(cāng)儲(chǔ)庫(kù)對(duì)數(shù)據(jù)引用的指導(dǎo)逐漸重視,但無(wú)論是自然領(lǐng)域還是人文社科領(lǐng)域仍然存在數(shù)據(jù)引用方面意識(shí)薄弱及引用行為不夠規(guī)范等問(wèn)題。由此可見(jiàn),無(wú)論是自然科學(xué)領(lǐng)域還是人文社會(huì)科學(xué)領(lǐng)域的基金項(xiàng)目論文中,雖然不同領(lǐng)域的引用情況有差別,但總體來(lái)說(shuō)對(duì)科研數(shù)據(jù)的引用情況規(guī)范程度都不高,這不僅難以對(duì)研究成果進(jìn)行考證和追溯,也阻礙了科研數(shù)據(jù)的發(fā)現(xiàn)、共享和再利用,需要引起我國(guó)各相關(guān)利益群體的重視。
本文選取自然科學(xué)領(lǐng)域和人文社科領(lǐng)域共20 種期刊作為抽樣對(duì)象,按照等距抽樣的原則選取了近兩年來(lái)的基金項(xiàng)目論文,參考已有研究成果構(gòu)建出科研數(shù)據(jù)引用完整性衡量標(biāo)準(zhǔn),對(duì)文章作者的數(shù)據(jù)引用行為從引用元數(shù)據(jù)、引用位置和引用完整性三個(gè)方面進(jìn)行分析。在引用元數(shù)據(jù)方面,注明數(shù)據(jù)的發(fā)布機(jī)構(gòu)的做法是最常見(jiàn)的,其次是在引用的時(shí)候說(shuō)明數(shù)據(jù)的發(fā)布時(shí)間及數(shù)據(jù)集名稱,而對(duì)數(shù)據(jù)的創(chuàng)建者、獲取數(shù)據(jù)的地址或DOI、數(shù)據(jù)資源類型、獲取時(shí)間等信息則很少規(guī)范說(shuō)明,這種現(xiàn)象反映了我國(guó)科研數(shù)據(jù)引用行為不夠規(guī)范。在引用位置方面,主要集中出現(xiàn)在正文,其次是在備注部分。對(duì)科研數(shù)據(jù)通過(guò)參考文獻(xiàn)的方式進(jìn)行引用是目前認(rèn)為最為規(guī)范的方式,并且自然科學(xué)領(lǐng)域的數(shù)據(jù)引用行為要比人文社科領(lǐng)域更加規(guī)范。在引用完整性方面,通過(guò)構(gòu)建的引用完整性得分表可以看出,我國(guó)基金項(xiàng)目論文中對(duì)數(shù)據(jù)引用的完整性得分總體較低。但在自然科學(xué)領(lǐng)域方面,數(shù)據(jù)的引用完整性程度整體要高于人文社科領(lǐng)域。