史雅莉 司 莉
(1.湖北大學(xué)歷史文化學(xué)院 武漢 430062;2.武漢大學(xué)信息資源研究中心 武漢 430072)
隨著海量數(shù)據(jù)的不斷增長和科研環(huán)境的變化,數(shù)據(jù)引用在資源共享、知識傳播過程中將發(fā)揮越來越重要的作用。本研究以科學(xué)數(shù)據(jù)引用為研究對象,歸納當(dāng)前研究主題,以期為我國科學(xué)數(shù)據(jù)引用研究及實踐發(fā)展提供經(jīng)驗參考。中文文獻(xiàn)主要通過中國知網(wǎng)等數(shù)據(jù)庫,結(jié)合百度學(xué)術(shù)等文獻(xiàn)檢索平臺獲取。在CNKI高級檢索中,查找題名為“數(shù)據(jù)引用”且主題為“規(guī)范”的相關(guān)文獻(xiàn)。通過在萬方和維普數(shù)據(jù)庫中的題名檢索,百度學(xué)術(shù)、獨秀等平臺的主題檢索補充CNKI未收錄的文獻(xiàn)。同時通過檢索與本研究主題相關(guān)的重要作者的文獻(xiàn),加深對數(shù)據(jù)引用研究背景、研究方法等的了解。英文文獻(xiàn)主要通過Web of Science等數(shù)據(jù)庫,結(jié)合Google等學(xué)術(shù)檢索平臺獲取。以“data citation”“scientific data citation”或“research data citation”為檢索詞,模糊檢索包括以上字段的相關(guān)文獻(xiàn)。下載并導(dǎo)出檢索結(jié)果的題錄信息,對其進行初步分析和判斷,篩選與本研究主題密切相關(guān)的文獻(xiàn)。在此基礎(chǔ)上,筆者從國外科學(xué)數(shù)據(jù)引用研究進展、國內(nèi)科學(xué)數(shù)據(jù)引用研究進展、科學(xué)數(shù)據(jù)引用的國際會議及項目實踐三個層面對國內(nèi)外科學(xué)數(shù)據(jù)引用理論研究及實踐進展進行總結(jié)歸納。
國外有關(guān)科學(xué)數(shù)據(jù)引用行為的計量分析多為跨學(xué)科研究,及對當(dāng)前科學(xué)數(shù)據(jù)的引用率、重用情況進行的探索性研究。
關(guān)于不同領(lǐng)域科學(xué)數(shù)據(jù)引用行為分析,國外研究范圍涵蓋遺傳學(xué)、神經(jīng)科學(xué)、分子生物學(xué)等。Park等選取遺傳學(xué)領(lǐng)域為研究對象,采用探索性研究方法,對148個數(shù)據(jù)引用樣本進行分析,發(fā)現(xiàn)影響數(shù)據(jù)共享和數(shù)據(jù)重用的因素包括參考文獻(xiàn)、補充數(shù)據(jù)/信息、學(xué)術(shù)認(rèn)可、資金信息、作者信息等[1]。Leitner等對神經(jīng)科學(xué)和分子生物學(xué)數(shù)據(jù)出版物中用戶的數(shù)據(jù)引用情況進行了比較研究,發(fā)現(xiàn)NCBI MeSH中標(biāo)有數(shù)據(jù)集及其相關(guān)術(shù)語的出版物其引用影響參數(shù)遠(yuǎn)遠(yuǎn)高于相關(guān)領(lǐng)域的平均值[2]。Peter等對作者如何引用生物學(xué)蛋白質(zhì)數(shù)據(jù)庫(The Protein Data Bank,PDB)數(shù)據(jù)進行了調(diào)查。研究發(fā)現(xiàn)雖已發(fā)表了大量文章,但RCSB PDB的原始出版物仍在被大量引用且引用率均高于后續(xù)出版成果[3]。Ding等對中國圖情領(lǐng)域的科學(xué)數(shù)據(jù)引用行為作了深入分析[4]。Piwowar等對85個癌癥微陣列臨床試驗出版物的引用記錄進行調(diào)查,發(fā)現(xiàn)48%的開放微陣列數(shù)據(jù)起引用率占總數(shù)據(jù)引用率的85%。數(shù)據(jù)的可獲性與其文獻(xiàn)影響力之間的相關(guān)性可能進一步激勵研究人員共享其研究數(shù)據(jù)[5]。
關(guān)于科學(xué)數(shù)據(jù)重用中的引用行為分析,Piwowar等發(fā)現(xiàn)盡管數(shù)據(jù)創(chuàng)建者已使用其數(shù)據(jù)發(fā)表了大量研究成果,其他研究者對數(shù)據(jù)的重用仍會持續(xù)較長的周期,數(shù)據(jù)重用趨勢自2003年以來一直在增強[6]。引用“益處”會隨數(shù)據(jù)集時間積累的變化而變化:作者在首次出版數(shù)據(jù)集的兩年內(nèi)會利用自己的數(shù)據(jù)集發(fā)表大量論文,第三方研究者對該數(shù)據(jù)進行再利用所發(fā)表的論文周期可持續(xù)至少六年[7]。Valerie等則通過來源模式分析發(fā)現(xiàn),隨著時間的推移,數(shù)據(jù)重用情況很難通過標(biāo)準(zhǔn)檢索資源進行跟蹤[8]。Hailey等通過對期刊論文等的內(nèi)容分析,發(fā)現(xiàn)大多數(shù)期刊論文未能對二次分析研究中使用的數(shù)據(jù)提供足夠的引用信息。數(shù)據(jù)引用作為數(shù)據(jù)發(fā)布、共享和重用的重要組成部分,應(yīng)將其作為跨領(lǐng)域的實踐進行規(guī)范,促進數(shù)據(jù)共享和二次研究[9]。Ferro等通過科學(xué)數(shù)據(jù)引用的案例分析對數(shù)據(jù)重用現(xiàn)狀進行了解讀[10]。Hunter等認(rèn)為由于研究數(shù)據(jù)是高度動態(tài)的,科學(xué)家的重用行為往往只是引用整個數(shù)據(jù)集的一小部分,而目前大多數(shù)數(shù)據(jù)引用方法均是假設(shè)數(shù)據(jù)集是靜態(tài)的[11]。
從政策層面關(guān)注科學(xué)數(shù)據(jù)的引用也是國外學(xué)術(shù)界的一個研究熱點,國外學(xué)者探討了科學(xué)數(shù)據(jù)的引用原則及其實施框架、相關(guān)標(biāo)準(zhǔn)的必要性等。
Starr等回顧了《數(shù)據(jù)引用原則聯(lián)合聲明》(JDDCP)主要內(nèi)容,提出用于實施JDDCP的框架和標(biāo)識符方案,規(guī)范了標(biāo)識符解析所需的元數(shù)據(jù)元素及數(shù)據(jù)引用最佳實踐的初步建議。其指出實施指南的主要目標(biāo)受眾包括出版商、學(xué)術(shù)組織和普通研究人員等[12]。Costello等認(rèn)為數(shù)據(jù)出版應(yīng)遵循公認(rèn)的出版流程:自動質(zhì)量檢查,同行評審和編輯決策。數(shù)據(jù)引用、元數(shù)據(jù)及質(zhì)量控制相關(guān)標(biāo)準(zhǔn)的采用可促進跨數(shù)據(jù)集合的數(shù)據(jù)集成[13]。Latman對數(shù)據(jù)引用的作用、共同原則及其普及情況進行了詳細(xì)描述[14]。Force等認(rèn)為數(shù)據(jù)庫數(shù)據(jù)的引用及評估應(yīng)遵循相關(guān)標(biāo)準(zhǔn),尤其是其與學(xué)術(shù)研究的關(guān)聯(lián)度[15]。McCallum等認(rèn)為對科學(xué)家和研究人員研究成果引用工作的重視和認(rèn)可是對其重要的科研激勵。雖然論文文獻(xiàn)的引用規(guī)范已得到了長足的發(fā)展,但數(shù)據(jù)引用規(guī)則得到的關(guān)注較少[16]。
國外在科學(xué)數(shù)據(jù)引用技術(shù)探索方面發(fā)展較快,目前主要集中于對數(shù)據(jù)引文創(chuàng)建自動化技術(shù)的研發(fā),如DOI技術(shù)的嵌入和改進、數(shù)據(jù)引文自動生成器的系統(tǒng)設(shè)計與開發(fā)、以及數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)引用傳播中的應(yīng)用等。
Honor等提出在項目和圖像層面識別和引用數(shù)據(jù)。通過系統(tǒng)開發(fā)將數(shù)據(jù)重用的跟蹤降至單個圖像粒度,規(guī)范用戶數(shù)據(jù)引用行為[17]。Cook等以橡樹嶺國家實驗室分布式活動存檔中心的數(shù)據(jù)引用實踐為例,分析了其引用技術(shù)路徑及其在數(shù)據(jù)發(fā)現(xiàn)和訪問方面的重要作用。發(fā)現(xiàn)除增強數(shù)據(jù)發(fā)現(xiàn)和訪問外,數(shù)據(jù)引用還可為數(shù)據(jù)生成器、數(shù)據(jù)中心及其資助者提供信息,并通過引文索引確定數(shù)據(jù)集的學(xué)術(shù)影響力[18]。Hunter等介紹、實施和評估了動態(tài)數(shù)據(jù)引用方法,旨在克服引用數(shù)據(jù)對象動態(tài)變化所帶來的一系列問題,正式識別數(shù)據(jù)貢獻(xiàn)者[19]。McCallum等認(rèn)為在氣候變化及其潛在影響等社會相關(guān)主題研究中,數(shù)據(jù)引用越來越普遍,引用工具的開發(fā)將成為數(shù)據(jù)共享的強大動力。只有規(guī)范精確的數(shù)據(jù)引用才能使研究者重現(xiàn)研究成果并實現(xiàn)創(chuàng)新[20]。Park等基于數(shù)據(jù)挖掘技術(shù)對韓國科學(xué)引文數(shù)據(jù)庫研究數(shù)據(jù)的利用率進行了實證分析,強調(diào)數(shù)據(jù)挖掘、可視化技術(shù)在研究數(shù)據(jù)引用傳播中的重要性[21]。
當(dāng)前關(guān)于科學(xué)數(shù)據(jù)引用實踐所面臨的問題和挑戰(zhàn),國外研究主要涉及科學(xué)數(shù)據(jù)引用發(fā)展的學(xué)科差異、科學(xué)數(shù)據(jù)引用政策與實踐之間的不平衡、科學(xué)研究的評估體系存在缺失等方面。
科學(xué)數(shù)據(jù)引用發(fā)展存在學(xué)科差異。對此,Robinson等以DCI為數(shù)據(jù)來源,對數(shù)據(jù)引用實踐進行分析。發(fā)現(xiàn)數(shù)據(jù)引用實踐在大多數(shù)研究領(lǐng)域發(fā)展并不成熟。研究人員引用數(shù)據(jù)的方式也存在差異:雖然在生命科學(xué)與工程技術(shù)領(lǐng)域數(shù)據(jù)引用行為是最多的,但數(shù)據(jù)引用研究卻在社會科學(xué)與人文藝術(shù)領(lǐng)域更為突出。88.1%的數(shù)據(jù)記錄未被引用,一些存儲機構(gòu)顯示的未被引用率非常低[22]。
科學(xué)數(shù)據(jù)引用政策與實踐之間存在脫節(jié)。Hapgood等對空間氣候社區(qū)實施AGU數(shù)據(jù)政策時面臨的挑戰(zhàn)進行分析。認(rèn)為如果采用現(xiàn)有標(biāo)準(zhǔn)很多重要的空間氣候數(shù)據(jù)集都難以引用,應(yīng)考慮如何在數(shù)據(jù)政策的理想與數(shù)據(jù)引用實踐間取得平衡[23]。Parsons等認(rèn)為科學(xué)論文通過科學(xué)數(shù)據(jù)來證明其觀點的正確性,但是論文應(yīng)如何引導(dǎo)讀者了解這些數(shù)據(jù)本身,以及從哪里進一步審查這些數(shù)據(jù)的完整性。實際過程中,要根據(jù)引文政策中規(guī)定的信息來追蹤論文論據(jù)來源是非常困難[24]。Belter等對國家海洋學(xué)數(shù)據(jù)中心的3個數(shù)據(jù)集的引用量進行統(tǒng)計發(fā)現(xiàn),雖然建議為每個數(shù)據(jù)集提供正式的引用格式,但科學(xué)出版物中對這些數(shù)據(jù)集的引用存在很大差異[25]。Garfield等提出將引文計數(shù)作為科研評估指標(biāo)之一,完善現(xiàn)有科研評估指標(biāo)體系[26]。
數(shù)據(jù)貢獻(xiàn)者的數(shù)據(jù)引用意識較薄弱。He等認(rèn)為數(shù)據(jù)生產(chǎn)者對共享數(shù)據(jù)的認(rèn)識存在偏差越來越成為有效共享數(shù)據(jù)的現(xiàn)實障礙[27]。Henneken等證明提供相關(guān)數(shù)據(jù)的文章能夠獲得更高的引用率。但現(xiàn)實中要讓作者在提交和撰寫論文的過程中提供其相關(guān)數(shù)據(jù)卻非常困難[28]。Mooney等認(rèn)為作者對提供數(shù)據(jù)引文的必要性并未得到廣泛認(rèn)可。影響數(shù)據(jù)引用實踐發(fā)展的原因可能包括將數(shù)據(jù)引入學(xué)術(shù)記錄的時間較短且對數(shù)據(jù)引用格式的關(guān)注不夠等[29]。
除上述主題外,國外學(xué)者對于科學(xué)數(shù)據(jù)引用這一熱點問題的研究還聚焦于補充數(shù)據(jù)文件的引用、以DCI為基礎(chǔ)的數(shù)據(jù)引用現(xiàn)狀調(diào)研、引用數(shù)據(jù)對象的審查等。
關(guān)于派生數(shù)據(jù)的引用。Kafkas等對歐洲PubMed中心中全文本學(xué)術(shù)論文的數(shù)據(jù)引用行為進行了分析,其研究目的在于確認(rèn)補充數(shù)據(jù)文件是否應(yīng)被視為生物分子數(shù)據(jù)庫及其文獻(xiàn)整合的信息來源。該研究使用文本挖掘方法來識別和提取各種核心生物數(shù)據(jù)庫登錄號,發(fā)現(xiàn)補充數(shù)據(jù)文件包含比文章正文更多的數(shù)據(jù)庫引用。其認(rèn)為應(yīng)該改進補充數(shù)據(jù)的管理,以使這些信息更具可發(fā)現(xiàn)性和有用性[30]。
以DCI為基礎(chǔ)的數(shù)據(jù)引用現(xiàn)狀調(diào)研。Torres等以DCI為研究對象,對其學(xué)科覆蓋范圍,引用數(shù)據(jù)類型以及相關(guān)數(shù)據(jù)倉儲使用情況進行了調(diào)研分析[31]。Ikeuchi等也就此主題進行了研究[32]。Peters等探討了湯森路透DCI數(shù)據(jù)庫中研究數(shù)據(jù)的引用率及其時間分布,引用率與DOI可用性的關(guān)系。研究采用PlumX、ImpactStory和Altmetric.com三種工具收集Altmetrics等分并對相應(yīng)結(jié)果進行比較,發(fā)現(xiàn)PlumX的覆蓋范圍最廣。調(diào)查結(jié)果顯示,盡管自2008年以來發(fā)布的引用數(shù)據(jù)集已經(jīng)有所增加,但約85%的研究數(shù)據(jù)并未被引用。近幾年DCI中通過DOI引用的研究數(shù)據(jù)比例有所下降。Peters I等還對DCI中2011年至2013年的所有研究數(shù)據(jù)進行了引用和高精度調(diào)查與分析,發(fā)現(xiàn)Altmetrics得分的高低及其可用性存在學(xué)科差異[33]。
引用數(shù)據(jù)對象的審查。Larsson認(rèn)為在文章中引用無關(guān)或者錯誤的科學(xué)數(shù)據(jù)會破壞學(xué)術(shù)規(guī)范,引發(fā)學(xué)術(shù)不端。學(xué)術(shù)期刊的編輯和審稿人應(yīng)對文章的引用數(shù)據(jù)進行仔細(xì)審查[34]。Wang等提出可通過數(shù)據(jù)引用,對研究數(shù)據(jù)的學(xué)術(shù)影響進行審查,使其公正透明[35]。
數(shù)據(jù)引用行為是目前國內(nèi)學(xué)術(shù)界備受關(guān)注的研究主題之一。不少學(xué)者將不同學(xué)科領(lǐng)域期刊文獻(xiàn)中的數(shù)據(jù)引文信息作為研究對象,對用戶的數(shù)據(jù)引用行為特征進行分析和討論。其中,生物化學(xué)、社會學(xué)、人口學(xué)以及圖書情報學(xué)等領(lǐng)域備受關(guān)注。
王雪等采用計量方法對中英文文獻(xiàn)數(shù)據(jù)引用的行為特征進行分析,認(rèn)為英文文獻(xiàn)數(shù)據(jù)引用更為規(guī)范且數(shù)據(jù)重用率較高,中英文文獻(xiàn)質(zhì)量與其引用的數(shù)據(jù)集質(zhì)量之間存在顯著的相關(guān)關(guān)系[36]。邱均平等以生物化學(xué)領(lǐng)域為例,對科學(xué)數(shù)據(jù)共享與引用行為之間的關(guān)系進行定量分析,認(rèn)為數(shù)據(jù)共享有利于提升數(shù)據(jù)引用頻次及研究成果影響力[37]。丁楠等對《社會學(xué)研究》和《中國人口科學(xué)》兩大期刊的數(shù)據(jù)引用行為進行比較分析,發(fā)現(xiàn)社會學(xué)領(lǐng)域數(shù)據(jù)引用行為較多,年鑒及人口調(diào)查資料是其主要的數(shù)據(jù)來源,但存在大量不規(guī)范引用行為,對于已發(fā)表論文中數(shù)據(jù)的引用則通常較為規(guī)范[38]。丁楠等對《中國圖書館學(xué)報》《大學(xué)圖書館學(xué)報》《情報學(xué)報》的數(shù)據(jù)引用行為特征進行調(diào)查研究,發(fā)現(xiàn)前兩者的數(shù)據(jù)引用較多,《情報學(xué)報》數(shù)據(jù)引用行為較少但卻相對規(guī)范[39]。白娜娜也對該領(lǐng)域數(shù)據(jù)引用現(xiàn)狀作了類似研究[40]。劉祥洪通過定量研究發(fā)現(xiàn)人口學(xué)領(lǐng)域數(shù)據(jù)引用行為較普遍且對于政府機構(gòu)數(shù)據(jù)的引用最多,尤其是國家統(tǒng)計局相關(guān)數(shù)據(jù)。論文的數(shù)據(jù)被引頻次與其在CSSCI中的總被引頻次之間并無顯著相關(guān)性[41]。王文琪、屈亞杰分別對地學(xué)以及社會科學(xué)領(lǐng)域的數(shù)據(jù)引用行為作了實證研究[42-43]。
此外,張英杰等通過問卷調(diào)查了解了期刊編輯部對科學(xué)數(shù)據(jù)引用的態(tài)度和行為認(rèn)知,發(fā)現(xiàn)編輯部已認(rèn)識到科學(xué)數(shù)據(jù)引用的潛在價值,要求作者在論文提交時一并提交該論文的相關(guān)數(shù)據(jù),支持將其提交至編輯部自建的數(shù)據(jù)存儲平臺[44]。顧立平認(rèn)為將數(shù)據(jù)納入到引用對象范圍內(nèi),可精確地計算數(shù)據(jù)間的使用關(guān)系及個人的科研貢獻(xiàn)。其對數(shù)據(jù)級別計量下的學(xué)術(shù)引用關(guān)系進行了描述,從中體現(xiàn)了基于數(shù)據(jù)的不同引用方式[45]。
由于目前尚未出現(xiàn)統(tǒng)一的、國際性的科學(xué)數(shù)據(jù)引用標(biāo)準(zhǔn)且科學(xué)數(shù)據(jù)引用實踐發(fā)展尚處于起步階段,因此有關(guān)科學(xué)數(shù)據(jù)引用規(guī)范的內(nèi)容的討論也成為國內(nèi)研究的一個熱點。國內(nèi)關(guān)于科學(xué)數(shù)據(jù)引用規(guī)范的研究主要集中在對于國外相關(guān)標(biāo)準(zhǔn)的調(diào)研、構(gòu)建及實施科學(xué)數(shù)據(jù)引用規(guī)范中涉及到的關(guān)鍵問題等方面。
關(guān)于國內(nèi)外科學(xué)數(shù)據(jù)引用標(biāo)準(zhǔn)內(nèi)容構(gòu)建及調(diào)查。黃如花等調(diào)研了英、美、澳等國的15個組織機構(gòu)的引用規(guī)范,認(rèn)為應(yīng)創(chuàng)建科學(xué)數(shù)據(jù)引用文化并協(xié)調(diào)科研數(shù)據(jù)引用相關(guān)利益主體間的關(guān)系[46]。歐陽崢崢等通過對Biodiversity Data Journal等15種數(shù)據(jù)期刊的調(diào)研發(fā)現(xiàn),其中10種期刊明確要求采用DOI對其數(shù)據(jù)論文進行標(biāo)識[47]。李慧佳等對國外科學(xué)數(shù)據(jù)引用政策的制定情況進行了回顧并指出隨著研究數(shù)據(jù)倉儲、數(shù)據(jù)中心等的建立,科學(xué)數(shù)據(jù)的規(guī)范引用問題日益凸顯,科學(xué)數(shù)據(jù)的合理引用可使其學(xué)術(shù)價值得到更高的體現(xiàn)[48]。宋秀芬等介紹了DVN數(shù)據(jù)引用標(biāo)準(zhǔn),指出數(shù)據(jù)的永久引用依賴于永久標(biāo)識符和通用數(shù)字指紋[49]。宋宇等對數(shù)據(jù)引用共同原則進行了編譯,認(rèn)為其出現(xiàn)表明學(xué)界和出版界在數(shù)據(jù)引用實踐上已達(dá)成共識,即數(shù)據(jù)引文須用人機可識別的方式標(biāo)注出其歸屬且引用格式應(yīng)統(tǒng)一[14]。李丹丹等對Dspace、ICPSR、ANDS等研究機構(gòu)和高校的數(shù)據(jù)引用元數(shù)據(jù)元素進行比較研究,認(rèn)為數(shù)據(jù)引用的基本元素包括標(biāo)題、創(chuàng)建者、出版者、標(biāo)識符及出版年份,還探討了數(shù)據(jù)引用的關(guān)鍵技術(shù)及其應(yīng)用情況[50]。王衛(wèi)華等通過對當(dāng)前國外科學(xué)數(shù)據(jù)引用格式的研究狀況進行了調(diào)研和分析,結(jié)合中科院“數(shù)據(jù)應(yīng)用環(huán)境建設(shè)與服務(wù)”項目的實際需求,提出了國內(nèi)科學(xué)數(shù)據(jù)的引用規(guī)范及其實施過程中應(yīng)注意的問題[51]。
關(guān)于構(gòu)建及實施科學(xué)數(shù)據(jù)引用規(guī)范涉及的關(guān)鍵問題。王丹丹從“何時引用”“引用什么”“如何引用”三方面入手,探討了科學(xué)數(shù)據(jù)規(guī)范引用的關(guān)鍵問題,認(rèn)為完善的科學(xué)數(shù)據(jù)引用規(guī)范應(yīng)理清數(shù)據(jù)使用場景,明確引用數(shù)據(jù)的版本、粒度、 驗證方式等問題。還應(yīng)制定面向科學(xué)數(shù)據(jù)的元數(shù)據(jù)規(guī)范、建立承認(rèn)作者貢獻(xiàn)度的科研評價體系,提供支持科學(xué)數(shù)據(jù)引用的技術(shù)支持[52]。彭潔等對國內(nèi)外科學(xué)數(shù)據(jù)引用格式進行了實例分析,并從數(shù)據(jù)生產(chǎn)者、使用者、管理者以及政府的角度闡述了數(shù)據(jù)引用規(guī)范的推廣價值[53]。
科學(xué)數(shù)據(jù)引用標(biāo)準(zhǔn)化過程中面臨的一項重要挑戰(zhàn)就是如何有效引導(dǎo)用戶規(guī)范自身數(shù)據(jù)引用行為。為此,相關(guān)領(lǐng)域?qū)W者針對科學(xué)數(shù)據(jù)引用標(biāo)準(zhǔn)的實施策略展開了討論。
張靜蓓等結(jié)合數(shù)據(jù)出版的模式及流程,針對數(shù)據(jù)獨立出版、數(shù)據(jù)論文出版、合作出版、期刊自行出版4種不同的出版模式提出了相應(yīng)的數(shù)據(jù)引用策略及參照標(biāo)準(zhǔn)[54]。王貴等從技術(shù)實現(xiàn)的角度,提出通過VBA語言編程完成Excel和Word文檔中數(shù)據(jù)的交叉引用,提高用戶工作效率[55]。王輝等對普渡大學(xué)研究倉儲的數(shù)據(jù)引用方案進行了描述分析,提倡采用多重開放數(shù)據(jù)標(biāo)準(zhǔn),促進研究數(shù)據(jù)的發(fā)現(xiàn)和利用[56]。吳立宗等詳細(xì)介紹了中國西部環(huán)境與生態(tài)科學(xué)數(shù)據(jù)中心在數(shù)據(jù)引用方面所做的工作,探討了如何利用DOI技術(shù)實現(xiàn)科學(xué)數(shù)據(jù)的引用[57]。彭潔等在對科學(xué)數(shù)據(jù)引用中的主客體關(guān)系進行分析的基礎(chǔ)上,提出期刊學(xué)術(shù)論文—科學(xué)數(shù)據(jù)引用,數(shù)據(jù)中心的科學(xué)數(shù)據(jù)庫引用,科研人員的自引用三種科學(xué)數(shù)據(jù)引用路徑。認(rèn)為有效發(fā)揮權(quán)威期刊在學(xué)術(shù)圈的影響力,推動學(xué)術(shù)期刊論文開展科學(xué)數(shù)據(jù)引用是其中現(xiàn)實可行的切入點[58]。吳立宗等將DOI引入數(shù)據(jù)引用并提出相關(guān)發(fā)展思路:DOI注冊中心、數(shù)據(jù)中心、期刊編輯部三者應(yīng)通力合作,相互配合。DOI注冊中心應(yīng)允許所有類型的數(shù)據(jù)進行注冊并將符合數(shù)據(jù)引用及出版的數(shù)據(jù)引文信息進行集中管理。數(shù)據(jù)中心應(yīng)對數(shù)據(jù)的版權(quán)信息進行序化管理,針對符合條件的數(shù)據(jù)補充其引文信息。期刊編輯部應(yīng)引導(dǎo)作者在論文中對數(shù)據(jù)(集)進行規(guī)范化標(biāo)注和引用[59]。
高雅等通過對美國國立人類基因組研究院ENCODE項目科學(xué)數(shù)據(jù)出版模式的系統(tǒng)分析,認(rèn)為“Themed Thread”的數(shù)據(jù)出版理念和基于ENCODE的數(shù)據(jù)挖掘及可視化技術(shù)可幫助研究人員進行發(fā)掘數(shù)據(jù)潛在價值,促進科學(xué)數(shù)據(jù)的引用和共享[60]。楊波等提出科學(xué)文獻(xiàn)與科學(xué)軟件/數(shù)據(jù)集引用特征的關(guān)聯(lián)分析方法并以生物信息學(xué)為研究對象對該方法進行驗證[61]。沈夢軒從技術(shù)層面探討科學(xué)數(shù)據(jù)引用的實現(xiàn)方法,認(rèn)為用戶數(shù)據(jù)中心將元數(shù)據(jù)及其DOI上傳至元數(shù)據(jù)倉儲,元數(shù)據(jù)倉儲需元數(shù)據(jù)的DOI進行注冊并提供給用戶數(shù)據(jù)中心,實現(xiàn)引文創(chuàng)建[62]。
國內(nèi)較早關(guān)注科學(xué)數(shù)據(jù)引用這一主題的學(xué)者專家分別從不同角度針對科學(xué)數(shù)據(jù)引用的研究及實踐情況發(fā)表了各自的觀點,這為后期相關(guān)理論及實踐的發(fā)展提供了寶貴的素材。張靜蓓等從數(shù)據(jù)引用規(guī)范、文件管理軟件、數(shù)據(jù)引用的相關(guān)利益主體三方面對國外數(shù)據(jù)引用的研究進展進行總結(jié),發(fā)現(xiàn)引用格式不兼容、文件管理軟件支持不足、相關(guān)利益主體的責(zé)任義務(wù)不明確等是科學(xué)數(shù)據(jù)引用實踐所面臨的主要問題[63]。屈寶強等通過對科學(xué)數(shù)據(jù)引用研究進展和實踐現(xiàn)狀的分析,認(rèn)為后續(xù)研究應(yīng)側(cè)重于以下幾方面:①數(shù)據(jù)利用中的權(quán)益分配;②數(shù)據(jù)引用標(biāo)準(zhǔn)及實現(xiàn)方式的研究;③基于引用的科學(xué)數(shù)據(jù)計量評價[64]。張靜蓓等從數(shù)據(jù)引用的對象界定、元數(shù)據(jù)構(gòu)成等方面對科學(xué)數(shù)據(jù)引用規(guī)范研究現(xiàn)狀進行總結(jié)和梳理[65]。丁楠對我國數(shù)據(jù)引用的研究現(xiàn)狀及特點進行了梳理,認(rèn)為影響數(shù)據(jù)引用研究的制約因素主要有數(shù)據(jù)獲取困難、評價指標(biāo)體系缺失及對該領(lǐng)域研究的重視度不夠等,應(yīng)建立完善的數(shù)據(jù)引用評價機制,調(diào)動數(shù)據(jù)貢獻(xiàn)者的積極性[66]。
除上述研究主題外,國內(nèi)學(xué)者有關(guān)科學(xué)數(shù)據(jù)引用的研究還涉及數(shù)據(jù)引用索引、科學(xué)數(shù)據(jù)引用相關(guān)利益主體間的關(guān)系等。①關(guān)于數(shù)據(jù)引用索引的研究,丁楠等對數(shù)據(jù)引用索引的工作機理進行了分析,認(rèn)為通過引入數(shù)據(jù)引用索引可提高研究者共享數(shù)據(jù)的積極性。同時目前數(shù)據(jù)引用索引建設(shè)過程中存在數(shù)據(jù)量較小且學(xué)科分布不均、數(shù)據(jù)評價及可視化功能不足等[67]。劉祥洪采用文獻(xiàn)計量法,以數(shù)據(jù)被引量和數(shù)據(jù)平均被引頻次等為測量指標(biāo),對我國人口學(xué)領(lǐng)域中高被引數(shù)據(jù)及其發(fā)布機構(gòu)進行了評價研究[41]。②關(guān)于數(shù)據(jù)引用的利益相關(guān)者研究,張麗麗等從數(shù)據(jù)生命周期的角度探討了數(shù)據(jù)引用各利益主體的作用及相互關(guān)系[68]。這些利益主體具體包括數(shù)據(jù)的擁有者、整合者、監(jiān)管者、用戶及出版商[69]。③關(guān)于引文評價方法的研究。劉盛博等從引用內(nèi)容分析角度提出一種引文評價方法,通過正面引用、負(fù)面引用和中性引用評價指標(biāo)構(gòu)建基于引用內(nèi)容的引文評價平臺[70]。
近年來,科學(xué)數(shù)據(jù)引用問題引起了國際學(xué)術(shù)界的廣泛關(guān)注,有關(guān)數(shù)據(jù)引用的國際會議及研討活動陸續(xù)開展。國際極地年(International Polar Year,IPY)會議期間,就如何引用數(shù)據(jù)集問題開展了討論。GEOSS科學(xué)技術(shù)委員會也將數(shù)據(jù)引用納入到IPY指導(dǎo)方針并制定相關(guān)準(zhǔn)則。2011年5月,IQSS組織召開“數(shù)據(jù)引用的原則”研討會,對研究數(shù)據(jù)的引用規(guī)范問題進行了專門討論。2011年8月,CODATA-ICSTI組織了“發(fā)展數(shù)據(jù)屬性及引用行為規(guī)范”研討會。2012年3月,ASIS&T在“科學(xué)數(shù)據(jù)訪問與保存”峰會上組建“數(shù)據(jù)引用”專家組。2012年5月,JISC、DCC、Datacite舉辦“數(shù)據(jù)應(yīng)用與Datacite的介紹”研討會[64]。2012年冬季的地球科學(xué)信息聯(lián)盟(Earth Science Information Partners,ESIP)會議,以“通過協(xié)作增強聯(lián)系:在整個數(shù)據(jù)生命周期中吸納社區(qū)(成員)”為主題,通過了《面向數(shù)據(jù)提供者與歸檔者的數(shù)據(jù)引用準(zhǔn)則》。ESIP是一個開放化、網(wǎng)絡(luò)化的社區(qū),匯集了眾多科學(xué)研究、數(shù)據(jù)分析人才及信息技術(shù)從業(yè)者,旨在促進成員間的知識共享[70]。
與此同時,不少國際組織、研究機構(gòu)及圖書館也將數(shù)據(jù)引用提上議事日程,紛紛開展數(shù)據(jù)引用實踐工作。1998年,國際DOI聯(lián)盟成立,其是全球DOI最高管理機構(gòu),全面負(fù)責(zé)DOI的政策制定、注冊管理、技術(shù)支持等工作[57]。CODATA-ICSTI設(shè)立了專門的數(shù)據(jù)引用標(biāo)準(zhǔn)與實踐任務(wù)組,負(fù)責(zé)解決國際范圍內(nèi)數(shù)據(jù)引用的實踐變化及目前數(shù)據(jù)引用實踐相關(guān)方面的問題,并協(xié)助協(xié)調(diào)該領(lǐng)域的國際活動,促進學(xué)術(shù)界數(shù)據(jù)引用的共同實踐及其標(biāo)準(zhǔn)化[71]。2009年,德國國家科學(xué)技術(shù)圖書館、大英圖書館、法國科學(xué)技術(shù)信息研究所、丹麥技術(shù)信息中心、加拿大科學(xué)技術(shù)信息研究所、澳大利亞國家數(shù)據(jù)服務(wù)中心等聯(lián)合簽署“提升網(wǎng)絡(luò)科學(xué)數(shù)據(jù)開放獲取”的學(xué)術(shù)合作備忘錄,建立了DataCite全球數(shù)據(jù)引用服務(wù),使研究數(shù)據(jù)集成為可被引用的、獨立的、具有唯一標(biāo)識的科學(xué)對象[72]。其中,德國國家科學(xué)技術(shù)圖書館建立了科研數(shù)據(jù)入口網(wǎng)站GetInfo、DOI注冊代理和全球數(shù)據(jù)引用服務(wù)DataCite[73]。DataCite是圖書館及其相關(guān)組織的聯(lián)盟,致力于定義DOIs的引用方法。其定義和發(fā)布了DataCite元數(shù)據(jù)方案,描述了可能被納入引文的元數(shù)據(jù)元素[74]。
在項目實踐方面,數(shù)據(jù)引用也獲得了較快的發(fā)展。STD-DOI、DataCite、 PANGAEA、ICPSR、Dataverse Network等項目及其機構(gòu)紛紛圍繞數(shù)據(jù)引用展開了立項研究并出臺了針對各自平臺數(shù)據(jù)資源的引用規(guī)范。
2012年,湯森路透集團旗下的知識產(chǎn)權(quán)與科技事業(yè)部推出DCI,數(shù)據(jù)引用實踐又邁出了重要的一步。DCI為全球500多個數(shù)據(jù)存儲庫提供了一個接入點,跨多個學(xué)科提供了超過200萬個數(shù)據(jù)研究和數(shù)據(jù)集,并通過同行審查流程來監(jiān)控質(zhì)量研究數(shù)據(jù)[1]。這個數(shù)據(jù)庫將數(shù)據(jù)集和數(shù)據(jù)研究與其他引文索引的引文聯(lián)系起來。DCI收錄了科學(xué)網(wǎng)索引的論文數(shù)據(jù)。它依賴于數(shù)據(jù)存儲庫提供的信息[22]。2014年11月,IQSS的一項項目名稱為“Citation++:Data Citation,Provenance and Documentation”,通過添加數(shù)據(jù)引用出處協(xié)助可再生研究[46]。ANDS強調(diào)讓更多的研究者重復(fù)利用科學(xué)數(shù)據(jù)是國家發(fā)展戰(zhàn)略的重要目標(biāo)。為此,ANDS對其所有科學(xué)數(shù)據(jù)的引用進行了規(guī)范,并提供相關(guān)引用標(biāo)準(zhǔn)程序,以便科學(xué)數(shù)據(jù)更好地被共享利用[48]。DataVerse網(wǎng)絡(luò)研發(fā)項目中,社會科學(xué)界采用句柄定位器和“通用數(shù)值指紋”作為唯一標(biāo)識符的方法,對數(shù)據(jù)及其集合進行標(biāo)注和溯源[75]。
國內(nèi)中科院資源環(huán)境科學(xué)數(shù)據(jù)中心和中國寒區(qū)旱區(qū)科學(xué)數(shù)據(jù)中心建立了完善的數(shù)據(jù)評審制度并引入DOI技術(shù),進行數(shù)據(jù)注冊出版,為科學(xué)數(shù)據(jù)的規(guī)范引用奠定了基礎(chǔ)。2007年,中國西部環(huán)境與生態(tài)科學(xué)數(shù)據(jù)中心(簡稱“西部數(shù)據(jù)中心”)與中國科學(xué)技術(shù)信息研究所合作探討,采用DOI技術(shù)創(chuàng)建科學(xué)數(shù)據(jù)訪問地址,實現(xiàn)科學(xué)數(shù)據(jù)的永久訪問,促進科學(xué)數(shù)據(jù)引用并對其使用情況進行準(zhǔn)確的跟蹤與統(tǒng)計。“西部數(shù)據(jù)中心”獲得了由中國DOI中心分配的獨立DOI前綴10.3972,首選“黑河綜合遙感聯(lián)合試驗”數(shù)據(jù)作為試點開展數(shù)據(jù)出版和引用工作,并逐步推廣至中心的其他數(shù)據(jù)資源的出版及引用上[57]。中國寒區(qū)旱區(qū)科學(xué)數(shù)據(jù)中心網(wǎng)站公布的《使用條款與免責(zé)申明》規(guī)定:為保障數(shù)據(jù)開發(fā)者的著作權(quán),用戶在使用“寒區(qū)旱區(qū)科學(xué)數(shù)據(jù)中心”所提供的數(shù)據(jù)的基礎(chǔ)上產(chǎn)出的公開或未公開發(fā)表研究成果時,須在相關(guān)成果的顯著位置上明確注明數(shù)據(jù)來源[76]。用戶還須按照指定規(guī)范注明數(shù)據(jù)來源,從數(shù)據(jù)中心獲取的數(shù)據(jù)如果屬于保密范圍之內(nèi),須與“寒區(qū)旱區(qū)科學(xué)數(shù)據(jù)中心”簽署保密協(xié)議[75]。北京大學(xué)開放研究數(shù)據(jù)平臺(Peking University Open Research Data,PUORD)在其《用戶指南》中對研究數(shù)據(jù)的引用和下載作了明確說明。該《用戶指南》規(guī)定:用戶在查看數(shù)據(jù)集的信息頁面時,數(shù)據(jù)集標(biāo)題下方淺藍(lán)色背景的一段文字為該數(shù)據(jù)集的引文格式,其中包含多種元數(shù)據(jù)信息。當(dāng)用戶需要引用這些研究數(shù)據(jù)時,需按照相應(yīng)的學(xué)術(shù)寫作規(guī)范重新編排上述信息的順序和格式[77]。2013年,浙江大學(xué)的“社會科學(xué)數(shù)據(jù)引用行為與評價機制研究”項目由浙江省社會科學(xué)界聯(lián)合會規(guī)劃辦批準(zhǔn)立項,是國內(nèi)數(shù)據(jù)引用項目實踐的一次重要嘗試。。
①強調(diào)對數(shù)據(jù)引用問題的實證研究及其阻礙因素分析。不少國外學(xué)者以某個領(lǐng)域的數(shù)據(jù)引用現(xiàn)象作為研究對象,分析當(dāng)前科學(xué)數(shù)據(jù)引用現(xiàn)狀。生物化學(xué)、醫(yī)學(xué)、地球科學(xué)等是數(shù)據(jù)引用最為頻繁的學(xué)科領(lǐng)域,因而也吸引了眾多學(xué)者的關(guān)注。相關(guān)研究成果對當(dāng)前數(shù)據(jù)引用的阻礙因素進行了分析,主要包括:數(shù)據(jù)引用研究及實踐存在學(xué)科差異,某些數(shù)據(jù)引用實踐性較強的學(xué)科數(shù)據(jù)引用研究熱度不夠,導(dǎo)致理論與實踐脫節(jié);數(shù)據(jù)創(chuàng)建者不愿共享其研究數(shù)據(jù),數(shù)據(jù)監(jiān)管不力等也是當(dāng)前科學(xué)數(shù)據(jù)引用實踐中存在的主要問題。②重視科學(xué)數(shù)據(jù)引用標(biāo)準(zhǔn)的制定。國外學(xué)者在數(shù)據(jù)引用標(biāo)準(zhǔn)方面的研究起步較早,目前主要是結(jié)合數(shù)據(jù)引用實踐,對現(xiàn)有引用規(guī)范原則的適用性進行分析,提出改進建議。③在數(shù)據(jù)引用技術(shù)方面不斷探索和突破。繼DOI技術(shù)之后,國外學(xué)者繼續(xù)在數(shù)據(jù)引用技術(shù)方面進行突破創(chuàng)新,將DOI與XANT系統(tǒng)融合,降低引用數(shù)據(jù)粒度。還開發(fā)了ORNL DAAC等技術(shù),用以實現(xiàn)數(shù)據(jù)引用的自動化。但新技術(shù)通常是針對某個特定領(lǐng)域的具體需求而開發(fā)的,其應(yīng)用范圍及普適性有待進一步考證。
①側(cè)重于社會科學(xué)領(lǐng)域數(shù)據(jù)引用行為的分析。國內(nèi)學(xué)者目前主要對社會學(xué)、人口學(xué)及圖書情報相關(guān)學(xué)科領(lǐng)域的數(shù)據(jù)引用行為作了調(diào)研和分析,也有少數(shù)學(xué)者注意到了數(shù)據(jù)引用在自然科學(xué)領(lǐng)域的廣闊應(yīng)用前景。但目前的研究主要還是停留在社會科學(xué)領(lǐng)域。②高度關(guān)注數(shù)據(jù)引用的原則和規(guī)范。目前國際上尚未出現(xiàn)數(shù)據(jù)引用的統(tǒng)一指導(dǎo)標(biāo)準(zhǔn),國內(nèi)各研究機構(gòu)針對本地數(shù)據(jù)資源的引用規(guī)范也比較少。為引導(dǎo)數(shù)據(jù)的規(guī)范引用,國內(nèi)研究者針對數(shù)據(jù)引用的格式及原則問題展開了廣泛的討論。其中,不同類型引用對象的引用字段、引用版本、引用場景等問題均在討論范圍之內(nèi)。③注重對國外數(shù)據(jù)引用經(jīng)驗的介紹。國內(nèi)有關(guān)數(shù)據(jù)引用的研究成果中,有一大部分是對國外數(shù)據(jù)引用實踐經(jīng)驗、研究現(xiàn)狀的介紹和述評。國內(nèi)學(xué)者主要從引用位置、引用粒度、元數(shù)據(jù)元素及文件管理軟件等方面介紹國外成功經(jīng)驗,為國內(nèi)研究及實踐提供參考依據(jù)。
總的來說,數(shù)據(jù)引用已成為當(dāng)下多個學(xué)科領(lǐng)域共同關(guān)注的熱點問題。國外發(fā)達(dá)國家在學(xué)術(shù)研究和引用實踐上都處于先進水平,國內(nèi)起步相對較晚。在學(xué)術(shù)研究方面,國外注重實證研究和案例分析,并將研究重點逐步轉(zhuǎn)向自然科學(xué)領(lǐng)域,部分學(xué)者開始專注于數(shù)據(jù)引用技術(shù)的探索。國內(nèi)有關(guān)數(shù)據(jù)引用的研究還比較零散,涉及面較廣,主要關(guān)注于對國外研究情況及實踐經(jīng)驗的介紹、數(shù)據(jù)引用的政策制定等方面,研究重點目前還聚焦在人文社科領(lǐng)域。實踐方面,EarthData、CODATA-ICSTI、OECD等國際組織已對數(shù)據(jù)引用投入較高關(guān)注并引導(dǎo)項目實踐,國內(nèi)以中國科學(xué)院為首的相關(guān)部門及機構(gòu)緊隨國際步伐,積極推動研究數(shù)據(jù)的共享和重用。
(來稿時間:2018年8月)