聶東波,張靜林
(中國科學(xué)院武漢病毒研究所,湖北 武漢 430071)
數(shù)據(jù)共享與公開—科技期刊需關(guān)注的新問題
聶東波,張靜林
(中國科學(xué)院武漢病毒研究所,湖北 武漢 430071)
元數(shù)據(jù)共享是大數(shù)據(jù)時代的趨勢,它有利于文章發(fā)表后,科學(xué)界對其進行數(shù)據(jù)驗證、復(fù)制、再分析,提升科研投資資金的價值,加速領(lǐng)域內(nèi)科技進步。調(diào)查了國外主流學(xué)術(shù)期刊和2016年JCR發(fā)布的被收錄的196本中國期刊的作者指南,發(fā)現(xiàn)在國外科技期刊的“作者指南”中,數(shù)據(jù)共享一般都有詳盡規(guī)定和操作指南,但在被JCR收錄的中國期刊中卻只有10%的期刊有提及,且全部為與國外出版商合辦期刊。我國的科技期刊界也應(yīng)完善與數(shù)據(jù)共享相關(guān)的各項規(guī)定,制度及提供相關(guān)的可操作流程,以促進全球科技共享與進步。
數(shù)據(jù)共享;大數(shù)據(jù);科技期刊;國際期刊
科學(xué)數(shù)據(jù)作為學(xué)術(shù)研究的一部分,不僅是檢驗一項研究成果是否可信的重要證據(jù),更是進一步發(fā)展科技和從事科研的基石[1~3]。隨著大數(shù)據(jù)的電子化存儲和網(wǎng)絡(luò)獲取成為可能,以及信息技術(shù)的發(fā)展和開放獲取越來越成為主流,科學(xué)界對于科研數(shù)據(jù)共享(Data sharing)的要求也越來越高。國際主流科學(xué)界要從模糊的呼吁數(shù)據(jù)共享到強制的數(shù)據(jù)可用性(data availability)[3]??蒲袛?shù)據(jù)可用性是指科學(xué)數(shù)據(jù)與方法的長期存儲和公開。它避免了種種地域機構(gòu)保護以及個人原因造成的數(shù)據(jù)共享障礙,使得實驗重復(fù)和驗證更易進行,進一步促進了全球范圍內(nèi)的科學(xué)交流和傳播[2]。學(xué)術(shù)期刊界也出現(xiàn)了以專門發(fā)表大數(shù)據(jù)為特色的數(shù)據(jù)期刊,如Nature旗下的Scientific data,BMC旗下的Giga data,Wiley旗下的Geoscience Data Journal的等。本文以傳統(tǒng)的科技期刊為研究對象,探討在大數(shù)據(jù)背景下期刊的“作者指南”中對于數(shù)據(jù)共享應(yīng)有的規(guī)定與說明。并對比國內(nèi)外期刊的操作辦法,以期給我國科技期刊同行提供借鑒和思考。
1.1數(shù)據(jù)共享的定義
數(shù)據(jù)共享是指用于學(xué)術(shù)研究的數(shù)據(jù)需要與其他研究者共享?!白钚?shù)據(jù)集”是指用于得出文章結(jié)論、含有相關(guān)元數(shù)據(jù)和方法的數(shù)據(jù)集以及用于復(fù)制全文研究結(jié)果的其他數(shù)據(jù)。核心描述性數(shù)據(jù)、方法和研究結(jié)果應(yīng)包含在論文主體中。PLOS拒絕接受數(shù)據(jù)被描述為“未顯示數(shù)據(jù)”(data not shown)這種情形[4]。期刊編輯和審稿人應(yīng)根據(jù)具體情況要求部分文章的作者提供特殊數(shù)據(jù)類型。若文章所含數(shù)據(jù)集過大、無法通過資源庫或上傳文件共享,作者應(yīng)咨詢其旗下相關(guān)期刊。
1.2提供數(shù)據(jù)共享的幾大儲存知識庫
一些不是太大的文件可以作為補充材料(Supplementary Materials或Supporting Data)隨文放在網(wǎng)站上,一些太大的元數(shù)據(jù)分析文件則需要遞交到專門的存儲網(wǎng)站并在提交文章時提供該元數(shù)據(jù)的DOI或檢索號。較常見的國際通用大型數(shù)據(jù)庫如序列數(shù)據(jù)庫(如GenBank,EMBL, dbSNP),組學(xué)數(shù)據(jù)庫 (如ArrayExpress, BioGRID),結(jié)構(gòu)學(xué)數(shù)據(jù)庫(如Biological Magnetic Resonance Data Bank),神經(jīng)科學(xué)數(shù)據(jù)庫(如Functional Connectomes Project International Neuroimaging Data-Sharing Initiative (FCP/INDI)),模式生物數(shù)據(jù)庫(如Eukaryotic Pathogen Database Resources (EuPathDB)),分類學(xué)及物種多樣性數(shù)據(jù)庫(如Integrated Taxonomic Information System (ITIS), NCBI Taxonomy),生物醫(yī)學(xué)數(shù)據(jù)庫(如Influenza Research Database),生物化學(xué)數(shù)據(jù)庫(如caNanoLab),物理科學(xué)數(shù)據(jù)庫(如Australian Antarctic Data Centre (AADC)),社會科學(xué)數(shù)據(jù)庫(如Inter-university Consortium for Political and Social Research (ICPSR))。此外,不屬于常規(guī)分類的大數(shù)據(jù)則可以遞交到Dryad,figshare,GigaDB等專門的數(shù)據(jù)存儲機構(gòu)。大型國際數(shù)據(jù)的存儲期限往往比小型的地方數(shù)據(jù)更長久。
1.3兩大主流非專業(yè)數(shù)據(jù)庫的簡介
Dryad[5]:是目前學(xué)術(shù)界比較認(rèn)可的除專業(yè)數(shù)據(jù)庫以外的數(shù)據(jù)存儲機構(gòu),由一家非營利組織機構(gòu)經(jīng)營。目前已有102家期刊與Dryad合作,其優(yōu)勢是可以將數(shù)據(jù)提交整合到投稿流程中,作者只需要在投稿過程中將與該文章結(jié)論相關(guān)的元數(shù)據(jù)遞交至Dryad,就會得到一個關(guān)于本數(shù)據(jù)的DOI號,審稿人或讀者即可通過該DOI號獲取相關(guān)數(shù)據(jù)。
Figshare[6]:適用于任何格式和類型的數(shù)據(jù)。嚴(yán)格說來它并不是一個針對期刊的數(shù)據(jù)存儲庫,而是一個讓科研人員自由分享的平臺,其中一個特色是鼓勵發(fā)布陰性數(shù)據(jù)(negative data)和圖。這是非常有意義的,一方面可避免其他研究者無謂地重復(fù),另一方面這些數(shù)據(jù)可能在別人的研究中得到佐證,或者被進行合理解釋。目前也有很多期刊,出版社和學(xué)會等與其合作。
1.4共享數(shù)據(jù)(Data accessible)和一般的補充材料(Supplementary Materials)的異同
表1 補充材料和共享數(shù)據(jù)的異同比較
2.1國際期刊的做法
筆者調(diào)查了幾家國際期刊和出版機構(gòu),發(fā)現(xiàn)幾乎所有的國外主流期刊在作者指南中對于數(shù)據(jù)的可用性都有詳盡而明確規(guī)定,除了典型的數(shù)據(jù)期刊如Scientific Data[7],專門以論文的形式發(fā)表有科學(xué)價值的數(shù)據(jù)描述。其他的傳統(tǒng)科技期刊,如細(xì)胞(Cell)的 “材料和數(shù)據(jù)的發(fā)布”(Distribution of Materials and Data)[8];自然(Nature)的“數(shù)據(jù)和材料的可用性”(Availability of data and materials)[9]; 科學(xué) (Science) 的“數(shù)據(jù)和材料的可用性”(Data and materials availability)[10]; BMC的“開放數(shù)據(jù)”(Open Data)[11];eLife的“數(shù)據(jù)組和報告的標(biāo)準(zhǔn)”(Datasets and reporting standards)[12]。雖然標(biāo)題不一樣,但細(xì)則都是規(guī)定與論文結(jié)論相關(guān)的分析數(shù)據(jù),實驗材料等(即重復(fù)此實驗結(jié)果所需的全部素材)需要對讀者完全開放,否則被期刊視為不可接受(Unacceptable).
PLOS系列期刊的具體實踐是與文章結(jié)論相關(guān)的所有數(shù)據(jù)的都必須具有可用性(Data availability),可以讓讀者免費獲得而不得有任何限制,作者在在線投稿的同時需要簽署一份關(guān)于數(shù)據(jù)可用性的聲明。文章發(fā)表后,該項聲明會隨文發(fā)表。若文章出版后發(fā)現(xiàn)數(shù)據(jù)獲取存在限制,編輯部有權(quán)發(fā)布勘誤、聯(lián)系作者所在單位及贊助方、在極端事件中甚至?xí)蜂N出版[4]。
國外的科研數(shù)據(jù)共享從號召到如今的強制共享,已經(jīng)如火如荼進行了幾十年。相比較之下,國內(nèi)的期刊在這方面是如何操作的呢?筆者對2016年JCR收錄的196種科技期刊進行了調(diào)查,在其門戶網(wǎng)站查找“作者指南”欄目。經(jīng)統(tǒng)計發(fā)現(xiàn):196中期刊中,僅有20種提及數(shù)據(jù)共享,占所有被收錄期刊的10%,且全部為與國外出版商合辦期刊。
2.2國內(nèi)期刊在科研數(shù)據(jù)共享方面的現(xiàn)狀
90% JCR收錄期刊對于數(shù)據(jù)共享沒有規(guī)定,17個期刊有提及,介紹也比較簡單,沒有關(guān)于該如何操作的詳細(xì)指導(dǎo)或建議;部分與國外出版商合作的期刊,如香港職業(yè)治療雜志(英文版)、訓(xùn)練科學(xué)與健身雜志(英文版),應(yīng)用地球物理學(xué)(英文版)等則是直接鏈接到出版商的官方條款。顯示出國內(nèi)期刊在這方面關(guān)注較少。
目前國內(nèi)的政策制定者和基金資助方對于數(shù)據(jù)共享有一定的限制,導(dǎo)致作者和期刊在這方面小心翼翼,不太積極。福建農(nóng)林大學(xué)的黃曉磊教授的調(diào)查研究顯示,受到政策支持或鼓勵的科學(xué)家們則更愿意分享他們的科研數(shù)據(jù)[13]。無獨有偶,上海海事大學(xué)的Wan Zheng教授曾在《自然》上發(fā)文稱中國的數(shù)據(jù)共享政策與氛圍阻礙了中國的科學(xué)研究與創(chuàng)新[14]。
數(shù)據(jù)共享不單單是期刊編輯部將相關(guān)的規(guī)定放入“作者指南”就可以了,還需要國家政策的引導(dǎo)、作者的支持與配合,才能真正落到實處。筆者認(rèn)為,應(yīng)該從以下三方面入手,促進全球范圍的科研數(shù)據(jù)共享。
3.1政府和資金資助機構(gòu)等從政策上支持?jǐn)?shù)據(jù)共享
這是能否順利實行數(shù)據(jù)分享的基本條件也是最重要的條件。政策制定者們應(yīng)該看到,壟斷或限制數(shù)據(jù)分享,最終將損害自己的科研進展。上海生物信息技術(shù)研究中心李亦學(xué)主任也指出科研數(shù)據(jù)難以共享已成為國內(nèi)生命科學(xué)研究的一大障礙;而在大數(shù)據(jù)時代,其負(fù)面效應(yīng)還可能被繼續(xù)放大[15]。同時應(yīng)盡快建立健全科學(xué)數(shù)據(jù)共享的法律體系,明確規(guī)定科學(xué)數(shù)據(jù)共享的知識產(chǎn)權(quán)及數(shù)據(jù)惡意使用的法律后果,保證原始數(shù)據(jù)作者的權(quán)益。
3.2建立本國自有的大型數(shù)據(jù)存儲庫
從長遠的政治和經(jīng)濟角度來看,建立本國自有的大型數(shù)據(jù)儲存庫并鼓勵本國學(xué)者將原始數(shù)據(jù)上傳保存,具有重要意義。雖然放在國外數(shù)據(jù)庫上的原始數(shù)據(jù)也可以隨時免費查閱,但是長遠看來,元數(shù)據(jù)的長期保存,調(diào)用數(shù)據(jù)庫內(nèi)的小領(lǐng)域或行業(yè)數(shù)據(jù),進行綜合分析預(yù)測本領(lǐng)域的發(fā)展趨勢,以便相關(guān)部門在戰(zhàn)略上整體部署,及時修改政策,調(diào)整經(jīng)費劃撥比例等意義深遠。
3.3本國科技期刊應(yīng)積極響應(yīng)數(shù)據(jù)共享政策
作為推動科學(xué)進步的一種傳播工具,期刊理應(yīng)重視支持?jǐn)?shù)據(jù)共享,從發(fā)表政策上提倡甚至強制共享才可發(fā)表。中國的科技期刊也承擔(dān)著傳播科學(xué),促進科技進步的責(zé)任,理應(yīng)順應(yīng)國際趨勢和潮流,對于涉及數(shù)據(jù)共享的知識產(chǎn)權(quán)、法律法規(guī)等給作者以實用性指導(dǎo),并提供針對不同類型數(shù)據(jù)的操作指南和詳細(xì)的上傳流程,在促進全球科研數(shù)據(jù)共享及科學(xué)進步中展示科技大國的力量。
發(fā)表在PLOS Medicine上一份研究報告證實:相比沒有共享癌癥臨床數(shù)據(jù)的文章,發(fā)表后共享數(shù)據(jù)的文章其引用率提升了70%,并且該增量與期刊的影響因子,發(fā)表時間,作者來源等無關(guān)[16]。英國生態(tài)學(xué)會自2014年年初開始對其旗下的6份期刊強制實行來稿數(shù)據(jù)-檢索政策,要求支持實驗結(jié)論的數(shù)據(jù)必須完全公開。根據(jù)其實行6個月以后的調(diào)查結(jié)果顯示,總投稿量提升了6.7%[17].國際醫(yī)學(xué)期刊編輯委員會(ICMJE)最近也發(fā)表了一項提議:根據(jù)政府部門,基金資助機構(gòu)等的共識,準(zhǔn)備試行“強制共享臨床實驗數(shù)據(jù)”[18],該項提議已聯(lián)合發(fā)表在其旗下14家會員期刊上,并在其網(wǎng)站上廣泛征求關(guān)于具體要求的細(xì)節(jié)條款??梢?,元數(shù)據(jù)共享是大勢所趨,是科學(xué)發(fā)展的必然方向,有利于提高研究的再現(xiàn)性、提升科研投資資金的價值。對于期刊來說,也有利于提升文章的引用率和來稿量。
[1]Gary Marchionini, 楊冠燦, 盧昆. 科研數(shù)據(jù)管理: 保障數(shù)據(jù)質(zhì)量, 促進ischools新科學(xué)研究[J]. 圖書情報知識, 2013, 4:4~9.
[2]彭 潔,賀德方,張英杰. 數(shù)字出版環(huán)境中科學(xué)數(shù)據(jù)引用的實現(xiàn)路徑及策略調(diào)查分析[J]. 出版發(fā)行研究, 2014, 4:57~61.
[3]Scientific data archiving [EB/OL]. [2017-5-6]. https://en.wikipedia.org/wiki/Scientific_data_archiving
[4]PLOS ONE: Data Availability[EB/OL]. [2017-5-6]. http://journals.plos.org/plosone/s/data-availability
[5]Dryad[EB/OL]. 2017-5-6. http://datadryad.org/
[6]Figshare[EB/OL]. 2017-5-6. https://figshare.com/
[7]劉晶晶, 顧立平. 數(shù)據(jù)期刊的政策調(diào)研與分析[J]. 中國科技期刊研究, 2015, 26(4):331~339.
[8]CELL: Instruction for authors[EB/OL]. [2017-5-6]. http://www.cell.com/cell/authors#policies
[9]Nature: availability of data, material and methods[EB/OL]. [2017-5-6]. http://www.nature.com/authors/policies/availability.html.
[10]Science: editorial policies[EB/OL]. [2017-5-6]. http://www.sciencemag.org/authors/science-editorial-policies#dataavail.
[11]BiomedCentral: Open Data[EB/OL]. [2017-5-6]. http://www.biomedcentral.com/about/policies/open-data.
[12]eLife: Datasets and reporting standards[EB/OL]. [2016-9-4]. http://submit.elifesciences.org/html/elife_author_instructions.html#Data_statement.
[13]Huang X, Hawkins BA, Lei F, et al. Willing or unwilling to share primary biodiversity data: results and implications of an international survey [J]. Conservation Letters, 2012, 5:399~406.
[14]Wan Zheng. China’s scientific progress hinges on access to data [J]. Nature, 2015, 520: 587~587.
[15]李亦學(xué):科研數(shù)據(jù)難共享阻礙國內(nèi)生物科技發(fā)展[EB/OL]. 2013-07-17. http://www.biodiscover.com/news/research/105002.html.
[16]Taichman DB, Backus J, Baethge C, et al. Sharing clinical trial data: a proposal from the international committee of medical journal editors [J]. PLoS Medicine. 2016, 13(1):e1001950.
[17]Norman H. Mandating data archiving: experiences from the frontline [J]. Learned Publishing, 2014, 27: S35~S38.
[18]Taichman DB, Backus J, Baethge C, et al. Sharing clinical trial data: a proposal from the international committee of medical journal editors [J]. PLoS Medicine, 2016, 13(1): e1001950.
Address: Wuhan Institute of Virology, Chinese Academy of Sciences, 44 Xiaohongshan, Wuhan 430071, ChinaAbstract: Data sharing and archiving is the trend in big data era. It is benefit for data verification, replication and re-analysis, and then improves the value for scientific investment and accelerates the improvement of science and technology in related fields. To understand the situation about the policies and regulations of data archiving in Chinese scientific journals, the top international academic journals and all Chinese scientific journals indexed in JCR(Journal Citation Report) had been studied. It is found that data archiving and sharing are mentioned and regulated in total of 9.9% Chinese scientific journals comparing with the detailed instructions in mainstream international journals. In summary, The Chinese scientific journals should value data archiving, perfect the related regulations and provide practicable operation procedures for authors.
Keywords: data archiving; big data; Chinese scientific journals; international journals
Datasharingandarchiving—thenewquestionthatacademicjournalshouldconcern
NIE Dong-bo, ZHANG Jin-glin
G231
A
2096-3149(2017)03- 0071-04
10.3969/j.issn.2096-3149.2017.03.013
2017—03—11
聶東波(1983— ),女,編輯,碩士,從事科技期刊編輯工作.