孟佳琪 支鳳穩(wěn), 鄭彥寧
1.河北大學(xué)管理學(xué)院 保定 071002;
2.中國科學(xué)技術(shù)信息研究所 北京 100038
科學(xué)數(shù)據(jù)主要包括在自然科學(xué)、工程技術(shù)科學(xué)等領(lǐng)域,通過基礎(chǔ)研究、應(yīng)用研究、試驗(yàn)開發(fā)等產(chǎn)生的數(shù)據(jù),以及通過觀測監(jiān)測、考察調(diào)查、檢驗(yàn)檢測等方式取得并用于科學(xué)研究活動(dòng)的原始數(shù)據(jù)及其衍生數(shù)據(jù)[1]。在當(dāng)今大數(shù)據(jù)時(shí)代,科學(xué)數(shù)據(jù)已經(jīng)成為各國重要的戰(zhàn)略性科技資源[2],對其有效的管理與開放共享也直接關(guān)系著各國的資源利用率和國際競爭地位,作為推進(jìn)各國科技創(chuàng)新、提高國家核心競爭力、促進(jìn)社會經(jīng)濟(jì)發(fā)展的重要舉措,科學(xué)數(shù)據(jù)共享的重要地位日益凸顯。科研數(shù)據(jù)共享的價(jià)值和意義最早可追溯到1985 年,美國科學(xué)院(National Academy of Sciences)指出科研數(shù)據(jù)共享能夠強(qiáng)化開放科學(xué)需求,并對原始的結(jié)論加以驗(yàn)證和改進(jìn),進(jìn)而幫助研究者們克服狹隘的觀點(diǎn)和主觀的態(tài)度[1]。
經(jīng)過學(xué)者們的接續(xù)探索,有關(guān)科學(xué)數(shù)據(jù)共享的研究成果不斷涌現(xiàn)。目前,國內(nèi)主要聚焦于共享行為的影響因素[3]、共享模型與運(yùn)行機(jī)制[4]、共享政策[5-6]、共享對策及建議[7-8]等方面。伴隨著研究成果的積累,其研究視角和內(nèi)容也變得更加豐富與新穎。如將雙路徑模型(ELM)與技術(shù)接受模型(TAM)相結(jié)合,探索數(shù)據(jù)使用者視角下的共享行為的影響因素[9];打破醫(yī)學(xué)數(shù)據(jù)共享的常規(guī)思想,提出構(gòu)建醫(yī)學(xué)數(shù)據(jù)區(qū)塊鏈共享的管理體系[10];為推動(dòng)農(nóng)業(yè)科學(xué)數(shù)據(jù)共享進(jìn)程,構(gòu)建基于聯(lián)盟鏈的農(nóng)業(yè)科學(xué)數(shù)據(jù)管理模型AgriDSM[11]。
國外相關(guān)研究得益于更加豐富的信息資源和更加先進(jìn)的科學(xué)技術(shù),研究前沿和熱點(diǎn)與國內(nèi)不盡相同。如基于認(rèn)知文化和集體行動(dòng)理論,采用混合方法設(shè)計(jì)將調(diào)查數(shù)據(jù)與定性數(shù)據(jù)相結(jié)合來克服數(shù)據(jù)共享帶來的障礙[12];提出構(gòu)建一種數(shù)據(jù)共享平臺,為制定更加科學(xué)合理的政策提供信息,同時(shí)監(jiān)控?cái)?shù)據(jù)共享實(shí)踐,并引導(dǎo)隊(duì)列和數(shù)據(jù)基礎(chǔ)設(shè)施本身的資金優(yōu)先級[13];通過科學(xué)家們互相共享交換未經(jīng)審查的數(shù)據(jù),同時(shí)采用問卷調(diào)查的方法去了解數(shù)據(jù)共享的優(yōu)劣性,以此來揭示數(shù)據(jù)共享的問題與前景[14]。國內(nèi)外研究一直在不斷完善和發(fā)展演化中,從不同維度對比分析二者的研究現(xiàn)狀及演化過程,可以更好地了解我國在科學(xué)數(shù)據(jù)共享領(lǐng)域中的優(yōu)勢與不足,有助于為我國把握研究前沿、開展創(chuàng)新性的研究提供新思路。盡管已有學(xué)者對科學(xué)數(shù)據(jù)共享相關(guān)研究進(jìn)行了梳理,采用的方法與工具也多種多樣,如文獻(xiàn)計(jì)量學(xué)方法[15]、Citespace軟件[16]、聯(lián)機(jī)分析處理(OLAP)方法[17]、理論分析[18]等,但鮮有學(xué)者從多個(gè)維度對國內(nèi)外相關(guān)研究進(jìn)行可視化對比。此外,已有研究表明,ITGInsight 在分析數(shù)據(jù)量、清洗功能、安全性、兼容等方面更具特色和優(yōu)勢,已得到學(xué)者們的青睞[19]。本研究旨在探索國內(nèi)外科學(xué)數(shù)據(jù)共享領(lǐng)域的作者合著情況、機(jī)構(gòu)耦合情況、研究熱點(diǎn)與主題分布情況,同時(shí)識別出核心作者群、核心機(jī)構(gòu)群,以及各時(shí)期的研究演化情況。而ITGInsight 在功能上擁有更加突出的優(yōu)勢,更能清晰直觀展示各方面的現(xiàn)狀及態(tài)勢,如作者合著方面以不同顏色來區(qū)分各個(gè)作者合著群,且還可以顯示不同作者作為一作、二作、三作等不同的發(fā)文量。因此,本研究利用ITGInsight 可視化分析軟件,探索國內(nèi)外在科學(xué)數(shù)據(jù)共享領(lǐng)域的研究熱點(diǎn)、關(guān)聯(lián)網(wǎng)絡(luò),以厘清其研究現(xiàn)狀和演化發(fā)展態(tài)勢,作者及其機(jī)構(gòu)、關(guān)聯(lián)詞和主題詞的演化分布。借鑒國外相關(guān)研究的優(yōu)勢和經(jīng)驗(yàn),為促進(jìn)國內(nèi)科學(xué)數(shù)據(jù)共享理論研究與實(shí)踐發(fā)展提供有益的幫助。
本文以萬方數(shù)據(jù)庫、CNKI 為主要中文文獻(xiàn)來源,以Web of Science 數(shù)據(jù)庫為主要外文文獻(xiàn)來源,利用檢索式“主題:(科學(xué)數(shù)據(jù)共享)and 關(guān)鍵詞:(科學(xué)數(shù)據(jù)or 科研數(shù)據(jù)or 數(shù)據(jù)共享)”和“(TS=(scientific data sharing)) OR TS=(Scientific research data sharing)) AND AB=(data sharing)”分別進(jìn)行檢索,時(shí)間截止到 2022 年12 月9 日。對于中文文獻(xiàn),先進(jìn)行去重,再剔除無作者的、以“序”“前言”“簡介”“卷首語”為題的和專業(yè)相關(guān)度不高的文獻(xiàn)。而對于外文文獻(xiàn),先按照相關(guān)度從高到低排序,再從Web of Science 核心合集中剔除重復(fù)、關(guān)聯(lián)度低的文獻(xiàn),且語種設(shè)為“English”。經(jīng)過篩選,初步確定中文文獻(xiàn)共3095 篇、外文文獻(xiàn)共4642 篇,作為本文的研究對象。
對第一輪數(shù)據(jù)清洗后得到的詞表進(jìn)行二次清洗,得到最終用于可視化分析的有效文獻(xiàn),其中中文3065 篇,外文4562 篇。文章對2001—2022 年期間,國內(nèi)外有關(guān)科學(xué)數(shù)據(jù)共享的發(fā)文量做了統(tǒng)計(jì),以此對國內(nèi)外在該領(lǐng)域下的研究趨勢進(jìn)行分析與預(yù)測,見圖1。
圖1 2001-2022 國內(nèi)外科學(xué)數(shù)據(jù)共享年度發(fā)文量
從圖1 可以看出,無論是國內(nèi)還是國外,有關(guān)科學(xué)數(shù)據(jù)共享的發(fā)文量總體呈上升趨勢,尤其是國外在近幾年呈現(xiàn)出較為明顯的“指數(shù)式增長”特征。
國外在此期間的發(fā)文量總體可分為兩個(gè)階段,即緩慢增長階段和快速增長階段。在緩慢增長的這十年(2001—2011 年)中,OECD(Organization for Economic Cooperation and Development,經(jīng)濟(jì)合作與發(fā)展組織)成員國以及中國等30 多個(gè)國家于2004 年1 月簽署了《開放獲取公共資助的科學(xué)數(shù)據(jù)宣言》[20],成為開啟科學(xué)數(shù)據(jù)共享時(shí)代的導(dǎo)火索。隨后以英美、澳大利亞為代表的各政府部門、科研機(jī)構(gòu)和高校等制訂的一系列科學(xué)數(shù)據(jù)共享政策,如《開放獲取公共資助科學(xué)數(shù)據(jù)的原則和指南》(2007)[21]等,進(jìn)一步推動(dòng)了科學(xué)數(shù)據(jù)研究的進(jìn)程。自2012 年開始進(jìn)入快速增長階段,隨著各國的政策法規(guī)逐步趨于成熟,以2015年發(fā)布的《科學(xué)出版物與研究數(shù)據(jù)開放存取指南》(第二版)為代表,開啟了開放科學(xué)數(shù)據(jù)試點(diǎn)的實(shí)施工程,科學(xué)數(shù)據(jù)研究進(jìn)入快速發(fā)展階段。
我國的發(fā)文量分別在2012 年和2018 年出現(xiàn)兩個(gè)拐點(diǎn),共經(jīng)歷三個(gè)階段。2001—2012 年是緩慢上升期,我國于2000 年開始主導(dǎo)推進(jìn)科學(xué)數(shù)據(jù)的管理工作;隨著“實(shí)施科學(xué)數(shù)據(jù)共享工程”的建議被提出,“科學(xué)數(shù)據(jù)共享工程”于2002 年正式啟動(dòng),在此期間,我國科學(xué)數(shù)據(jù)共享工作一直處于初步發(fā)展的穩(wěn)定期。到2012年以后,進(jìn)入快速上升期,國家科學(xué)技術(shù)部于2014 年召開第一屆“中國科學(xué)數(shù)據(jù)大會”,國務(wù)院辦公廳于2018 年出臺首個(gè)國家層面的《科學(xué)數(shù)據(jù)管理辦法》,有效促進(jìn)了研究成果的產(chǎn)出。2018 年至今屬于起伏發(fā)展期,以國家層面的政策為依據(jù),各地方也相繼制定與完善適合本地實(shí)際的數(shù)據(jù)共享政策,相關(guān)研究成果整體呈上升趨勢,但在2022 年有所下降,這可能與成果發(fā)表的滯后性有關(guān)。
文章基于文獻(xiàn)計(jì)量、類比分析、定量定性分析等研究方法,利用ITGInsight 軟件,對國內(nèi)外科學(xué)數(shù)據(jù)共享領(lǐng)域的作者、機(jī)構(gòu)、關(guān)鍵詞及主題詞進(jìn)行預(yù)處理和數(shù)據(jù)分析,并以可視化的方式輸出網(wǎng)絡(luò)圖、聚類圖和演化圖,從而對該領(lǐng)域的發(fā)展現(xiàn)狀、不同特征以及未來發(fā)展的趨勢做出綜合性評述和總結(jié)。
ITGInsight 是一款高級的科技文本挖掘與可視化分析工具,主要針對專利、論文、報(bào)告、報(bào)刊等科技文本進(jìn)行數(shù)據(jù)挖掘和圖譜建立[22]。在本文中,作者合著、機(jī)構(gòu)耦合、關(guān)鍵詞同現(xiàn)以及主題演化部分均以ITGInsight 分析工具作為技術(shù)支持,并輔以Excel 對數(shù)據(jù)集進(jìn)行初步數(shù)據(jù)統(tǒng)計(jì)。首先,分別對國內(nèi)外所得的數(shù)據(jù)集進(jìn)行清洗,將時(shí)間設(shè)為2001—2022 年期間,從清洗后的數(shù)據(jù)中提取作者、機(jī)構(gòu)等研究子對象(提取條件為n ≥2,n 代表研究子對象的頻數(shù)),形成詞表;其次,利用得到的詞表對原數(shù)據(jù)集進(jìn)行數(shù)據(jù)分析;最后,分別對排名前50 的作者、機(jī)構(gòu)、關(guān)鍵詞、主題詞構(gòu)建圖譜,并對圖譜進(jìn)行解讀。
對不同格式、不同寫法但屬于同一作者的姓名進(jìn)行合并,利用ITGInsight 軟件分別提取國內(nèi)外在科學(xué)數(shù)據(jù)共享領(lǐng)域發(fā)文量中排名前50的作者,構(gòu)建作者合著網(wǎng)絡(luò)圖,并形成聚類關(guān)系圖。圖中節(jié)點(diǎn)數(shù)字代表該作者的發(fā)文總量,節(jié)點(diǎn)大小與之成正比,各節(jié)點(diǎn)之間的連線代表相連兩作者有合著關(guān)系,連線的粗細(xì)代表與該作者合著次數(shù)的多少,相同顏色的節(jié)點(diǎn)集合代表一個(gè)作者合著群。
2.1.1 中文文獻(xiàn)作者
從圖2 可以看出,發(fā)表中文文獻(xiàn)的大部分都是國內(nèi)作者,在科學(xué)數(shù)據(jù)共享領(lǐng)域研究中的前50位作者中共有6個(gè)合著群,1個(gè)作者合著對,其余沒有合作關(guān)系的8 位作者分別作為獨(dú)立個(gè)體存在。比較直觀的是,中文文獻(xiàn)作者之間的合著關(guān)系是比較緊密的,且在合著群內(nèi)部的聯(lián)系更加緊密。在這6 個(gè)作者合著群中,較核心的合著群體是以王卷樂、諸云強(qiáng)為代表的7 人作者團(tuán)體和以王健、趙華為代表的8 人作者團(tuán)體;其中,除分別以錢慶和王松為代表的4 人組成的合著群是獨(dú)立存在之外,其余4 個(gè)合著群之間也有合著關(guān)系。從作者個(gè)人來說,比較高產(chǎn)的核心作者有王卷樂、諸云強(qiáng)、王健、錢慶,所代表機(jī)構(gòu)是中國科學(xué)院地理科學(xué)與資源研究所、江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心、中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所、中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所。值得注意的是,在單人作者中關(guān)健的發(fā)文量就已達(dá)到了26 篇,是該領(lǐng)域中較為優(yōu)秀的研究者。
圖2 國內(nèi)作者合著網(wǎng)絡(luò)
2.1.2 外文文獻(xiàn)作者
相比中文文獻(xiàn),外文文獻(xiàn)作者之間的合著關(guān)系就略顯稀疏,相對的單人作者數(shù)量較多。從圖3 可以看出,發(fā)表外文文獻(xiàn)的作者既有國內(nèi)學(xué)者也有國外學(xué)者,且數(shù)量不一,在前50 位作者中共有4 個(gè)作者合著群,2 個(gè)作者合著對,其余沒有合作關(guān)系的9 位作者作為獨(dú)立個(gè)體存在。4 個(gè)作者合著群的發(fā)文量不相上下,其中以Chen, X、Wang, G 為代表的10 人作者團(tuán)體、以Zhao, Y、Chen, Y 為代表的11 人作者團(tuán)體和以Zhang, Z、Foster, I 為代表的10 人團(tuán)體之間也有合著關(guān)系;而以Alfonso, F 為代表的6 人作者團(tuán)體與其他3 個(gè)合著群沒有合著關(guān)系。以作者個(gè)人來說,每位作者的發(fā)文量趨于一個(gè)平均水平,不存在真正意義上的高產(chǎn)作者。此外,考慮到發(fā)表外文文獻(xiàn)的國內(nèi)作者及機(jī)構(gòu)可能會影響國外總體的合著程度,嘗試將這些作者排除在外,發(fā)現(xiàn)4 個(gè)合著群中有一半以上的人都是國內(nèi)作者。因此,若排除相關(guān)數(shù)據(jù),則更加凸顯出國外作者之間合作關(guān)系的稀疏,并不會影響最終的結(jié)論。
圖3 國外作者合著網(wǎng)絡(luò)
利用ITGInsight 軟件分別提取國內(nèi)外在科學(xué)數(shù)據(jù)共享領(lǐng)域發(fā)表文獻(xiàn)數(shù)量排名前50 的代表機(jī)構(gòu),構(gòu)建機(jī)構(gòu)耦合網(wǎng)絡(luò),并形成聚類關(guān)系圖。其中,每個(gè)節(jié)點(diǎn)代表一個(gè)機(jī)構(gòu),節(jié)點(diǎn)數(shù)字代表機(jī)構(gòu)發(fā)文量,節(jié)點(diǎn)大小與之成正比,節(jié)點(diǎn)之間若有連線則代表機(jī)構(gòu)之間有合著關(guān)系,不同顏色的節(jié)點(diǎn)代表不同的機(jī)構(gòu)個(gè)體。
2.2.1 國內(nèi)機(jī)構(gòu)
從圖4 可以看出,在排名前50 的國內(nèi)代表機(jī)構(gòu)中,大多以獨(dú)立的個(gè)體存在,基本不存在合著關(guān)系。據(jù)統(tǒng)計(jì),國內(nèi)在科學(xué)數(shù)據(jù)共享領(lǐng)域擁有研究成果的機(jī)構(gòu)共有1996 所,發(fā)表文獻(xiàn)數(shù)量在2 篇以上(包含2 篇)的機(jī)構(gòu)就有440 所。其中發(fā)表文獻(xiàn)最多的機(jī)構(gòu)是中國科學(xué)院地理科學(xué)與資源研究所,進(jìn)一步分析發(fā)現(xiàn),該機(jī)構(gòu)傾向于其他機(jī)構(gòu)少有涉足的地球科學(xué)方面的研究,也說明科學(xué)數(shù)據(jù)共享在地理科學(xué)、資源科學(xué)領(lǐng)域更具有可研究的價(jià)值和前景。其次,武漢大學(xué)、中信所、中科院等機(jī)構(gòu)也在科學(xué)數(shù)據(jù)共享領(lǐng)域取得了不錯(cuò)成就??偟膩砜?,這些代表機(jī)構(gòu)的發(fā)文量從8 到86 篇不等,上下幅度大且多都集中于30 篇以下,平均水平在16.8(840/50),總體偏下。
圖4 國內(nèi)機(jī)構(gòu)耦合網(wǎng)絡(luò)
2.2.2 國外機(jī)構(gòu)
如圖5 所示,國外機(jī)構(gòu)的耦合程度較國內(nèi)來說并沒有明顯差別。據(jù)統(tǒng)計(jì),國外在科學(xué)數(shù)據(jù)共享領(lǐng)域擁有研究成果的機(jī)構(gòu)有7533 所,發(fā)表文獻(xiàn)數(shù)量在2 篇以上(包含2 篇)的機(jī)構(gòu)就有1785 所。其中發(fā)文量較多的代表機(jī)構(gòu)有Stanford Univ、Univ Oxford、Harvard Univ、Univ Calif San Diego,這四個(gè)機(jī)構(gòu)的文獻(xiàn)量均在65 篇以上。進(jìn)一步分析發(fā)現(xiàn),這4 個(gè)機(jī)構(gòu)的研究主題集中于Data Sharing、Computer Science、Medical Informatics、Bioinformatics 等,這說明數(shù)據(jù)共享、計(jì)算科學(xué)、醫(yī)學(xué)情報(bào)和生物信息學(xué)等領(lǐng)域的學(xué)者更青睞科學(xué)數(shù)據(jù)共享的研究??偟膩砜矗鳈C(jī)構(gòu)的發(fā)文量從29 到100 篇不等,上下幅度中等且多都集中于30 篇以上,平均水平在42.36(2118/50),高于國內(nèi)。
圖5 國外機(jī)構(gòu)耦合網(wǎng)絡(luò)
關(guān)鍵詞同現(xiàn)分析可以幫助我們更加明確繪制概念、想法和問題之間關(guān)系[23],確定該文獻(xiàn)集合所代表的學(xué)科主題之間的關(guān)系,從而揭示該學(xué)科的研究水平及學(xué)科結(jié)構(gòu),概述該學(xué)科的研究熱點(diǎn),分析其發(fā)展過程及趨勢[24]。為此,本文利用ITGInsight 軟件分別提取出現(xiàn)頻次排名前50 的關(guān)鍵詞,構(gòu)建關(guān)鍵詞同現(xiàn)網(wǎng)絡(luò),形成聚類關(guān)系圖。其中,節(jié)點(diǎn)數(shù)字代表該關(guān)鍵詞的詞頻,節(jié)點(diǎn)大小與之成正比,各節(jié)點(diǎn)之間的連線代表關(guān)鍵詞之間的同現(xiàn)關(guān)系,連線的粗細(xì)代表同現(xiàn)次數(shù)的多少,相同顏色的節(jié)點(diǎn)集合代表一個(gè)關(guān)鍵詞網(wǎng)絡(luò)。
2.3.1 中文關(guān)鍵詞
以中文文獻(xiàn)的關(guān)鍵詞代表國內(nèi)的關(guān)鍵詞數(shù)據(jù),圖6 所示的是國內(nèi)出現(xiàn)頻次排名前50 的關(guān)鍵詞,各節(jié)點(diǎn)之間的關(guān)聯(lián)程度較為緊密,經(jīng)過聚類后,這些關(guān)鍵詞被分為了三大類。
圖6 國內(nèi)關(guān)鍵詞同現(xiàn)網(wǎng)絡(luò)
第一類是以“數(shù)據(jù)共享”“科學(xué)數(shù)據(jù)”為中心詞,其關(guān)聯(lián)詞或衍生詞以“開放數(shù)據(jù)”“科研數(shù)據(jù)”“農(nóng)業(yè)科學(xué)數(shù)據(jù)”“科技資源”“元數(shù)據(jù)”“數(shù)據(jù)管理”“開放科學(xué)”“開放共享”等為代表。這類關(guān)鍵詞大多研究的是各類科研、科技數(shù)據(jù)的共享以及如何被共享的問題,如早期浙江省為推動(dòng)科技資源開放共享而實(shí)施的創(chuàng)新券政策[25];基于我國現(xiàn)有的科學(xué)數(shù)據(jù)共享協(xié)議提出的魏公村科學(xué)數(shù)據(jù)雙許可證(草案)[26],同樣促進(jìn)了農(nóng)業(yè)科學(xué)數(shù)據(jù)的開放共享。
第二類是以“科學(xué)數(shù)據(jù)共享”“大數(shù)據(jù)”“數(shù)據(jù)庫”為中心詞,其關(guān)聯(lián)詞或衍生詞以“信息化”“云計(jì)算”“共享服務(wù)”“信息技術(shù)”“信息系統(tǒng)”等技術(shù)支持類詞為代表。這類關(guān)鍵詞主要研究科學(xué)數(shù)據(jù)共享的技術(shù)、平臺、系統(tǒng)、機(jī)制等,一般是解決其如何構(gòu)建、如何應(yīng)用、如何開發(fā)等問題。如國家微生物科學(xué)數(shù)據(jù)中心的建設(shè)[27],極大程度上使海量的微生物數(shù)據(jù)資源得到了有效的規(guī)范整合和開放共享;基于云計(jì)算技術(shù)面向服務(wù)的體系架構(gòu)(SOA)思想的提出,有助于實(shí)現(xiàn)科學(xué)數(shù)據(jù)的資源聚合[28]。
第三類是以“項(xiàng)目信息門戶”“工程施工信息管理”“施工管理信息系統(tǒng)”“地理信息系統(tǒng)”為主的信息管理類關(guān)鍵詞,顧名思義,這類關(guān)鍵詞與信息管理有關(guān),主要面向信息資源管理和共享服務(wù),旨在解決數(shù)據(jù)管理、數(shù)據(jù)應(yīng)用、數(shù)據(jù)治理等問題。如盛小平等[29]曾從數(shù)據(jù)管理和數(shù)據(jù)治理兩個(gè)層次出發(fā)去探索二者之間的差異與聯(lián)系,從而為制定科學(xué)數(shù)據(jù)開放共享政策提供幫助。
2.3.2 外文關(guān)鍵詞
以英文文獻(xiàn)的關(guān)鍵詞代表國外的關(guān)鍵詞數(shù)據(jù),圖7 所示的是國外出現(xiàn)頻次排名前50 的關(guān)鍵詞,各節(jié)點(diǎn)之間的關(guān)聯(lián)程度緊密,經(jīng)過聚類后,這些關(guān)鍵詞被分為了四大類,類別與國內(nèi)相比略有差異。
圖7 國外關(guān)鍵詞同現(xiàn)網(wǎng)絡(luò)
第 一 類 是 以“Data Sharing”“Open Science”“Reproducibility” 為 中 心 詞 的 數(shù) 據(jù)類關(guān)鍵詞,其下還有一些子類,如以“Data Management”“Open Access”“Collaboration”“Metadata”為代表的數(shù)據(jù)管理子類、以“Ontology”“Transparency”“Interoperability”為代表的數(shù)據(jù)特性子類、以“Bioinformatics”“Climate Change”為代表的生物科學(xué)子類等。與國內(nèi)涉足的地球科學(xué)領(lǐng)域相比,國外所涉足較多的是生物科學(xué)領(lǐng)域,主要研究生物科學(xué)、醫(yī)學(xué)界等如何實(shí)現(xiàn)科學(xué)數(shù)據(jù)共享的問題,如在臨床試驗(yàn)數(shù)據(jù)共享領(lǐng)域,Gudi, Nachiket 團(tuán)隊(duì)[30]基于現(xiàn)有數(shù)據(jù)共享政策,提出建立一個(gè)中立的體制來監(jiān)督數(shù)據(jù)信息的共享的建議。
第 二 類 是 以“COVID-19”“SARS-Cov-2”“Public Health”為中心詞的時(shí)事類關(guān)鍵詞,尤其是新冠疫情爆發(fā)之后,這類關(guān)鍵詞的數(shù)量呈爆發(fā)式增長,此外還包含了以“Social Media”“Twitter”為代表的社交媒介子類等。這類關(guān)鍵詞主要出現(xiàn)在如何實(shí)現(xiàn)新冠疫情有關(guān)數(shù)據(jù)共享的研究中,如San Torcuato, Maider 團(tuán)隊(duì)[31]持續(xù)跟蹤2020 年1 月至2021 年3 月有關(guān)COVID-19 的出版物和主題演變,目的就是為了調(diào)查探究與COVID-19 相關(guān)的研究交流、論文等數(shù)據(jù)共享的程度。
第 三 類 是 以“Machine Learning”“Big Data”“Cloud Computing”為中心詞,其關(guān)聯(lián)詞或衍生詞主要是以“Artificial Intelligence”“-Data Mining”“Blockchain”為代表的技術(shù)支持類關(guān)鍵詞,此外,還包括以“Privacy”為主的信息隱私安全子類和以“Cancer”為主的醫(yī)療健康子類。其中,信息隱私安全是近年來科學(xué)數(shù)據(jù)共享領(lǐng)域下比較火熱的研究議題,主要是用于解決數(shù)據(jù)共享過程中涉及到的信息泄露、信息隱私等問題,基于區(qū)塊鏈的協(xié)作科學(xué)實(shí)驗(yàn)信任架構(gòu)[32],有助于在保證互操作性、隱私性、可追溯性和信任度的基礎(chǔ)上實(shí)現(xiàn)科學(xué)數(shù)據(jù)共享。
第 四 類 是 以“Citizen Science”“Crowdsourcing”“Biodiversity”為主的生物科學(xué)類關(guān)鍵詞。新冠疫情爆發(fā)之后,各國學(xué)者呼吁相關(guān)科學(xué)數(shù)據(jù)公開與共享,并針對數(shù)據(jù)管理、數(shù)據(jù)共享、數(shù)據(jù)利用與數(shù)據(jù)治理方法與技術(shù)進(jìn)行了系列的探索,產(chǎn)出了豐富的研究成果??梢姡茖W(xué)數(shù)據(jù)共享也是新冠疫情背景之下促進(jìn)各國學(xué)術(shù)交流與科研產(chǎn)出的重要橋梁。
作為學(xué)科新興趨勢探測方法之一,高頻主題的演化分析有助于了解領(lǐng)域主題產(chǎn)生、消亡、增強(qiáng)、減弱、聚合和裂變的過程[33]。對高頻主題詞匯總分析,不僅可以識別研究熱點(diǎn),還能為后續(xù)的相關(guān)研究提供方向和依據(jù)。本文利用ITGInsight 軟件分別提取國內(nèi)外在科學(xué)數(shù)據(jù)共享領(lǐng)域中出現(xiàn)頻次排名前50 的主題詞,構(gòu)建主題詞演化網(wǎng)絡(luò)圖,同時(shí)列出排名前20 的主題詞,便于直觀了解。其中,節(jié)點(diǎn)數(shù)字代表該主題詞的詞頻,節(jié)點(diǎn)大小與之成正比,各節(jié)點(diǎn)之間的連線代表主題詞之間的演化關(guān)系,相同顏色節(jié)點(diǎn)的連線代表同一主題詞的演化路徑。
2.4.1 中文主題詞
以中文文獻(xiàn)的主題詞代表國內(nèi)的主題詞數(shù)據(jù),從圖8 可以看出,2001—2012 年,國內(nèi)學(xué)者主要對圖書館、信息化、數(shù)據(jù)庫等進(jìn)行研究,以數(shù)據(jù)統(tǒng)一發(fā)布和數(shù)據(jù)共享為目的構(gòu)建較為理想的服務(wù)體系框架[34],使在技術(shù)層面實(shí)現(xiàn)數(shù)據(jù)共享成為了可能。從2013 年開始,科學(xué)數(shù)據(jù)共享經(jīng)歷了為期五年的高產(chǎn)研究階段,研究主題多樣化,但始終離不開資源共享和圖書館建設(shè)兩大主題。相比前一階段,演化出來的新主題有工程施工、數(shù)據(jù)管理、信息系統(tǒng)、地理信息、科研人員等;進(jìn)一步分析得出,2014 年開始出現(xiàn)的工程施工,很大程度上與當(dāng)年發(fā)布的試點(diǎn)共享工程的政策有關(guān)。下一階段自2018 年開始,由于《科學(xué)數(shù)據(jù)管理辦法》出臺,使得科學(xué)數(shù)據(jù)共享領(lǐng)域研究有了新的進(jìn)展,研究主題開始涉及數(shù)據(jù)安全、標(biāo)準(zhǔn)規(guī)范、數(shù)據(jù)保護(hù)等。隨著大數(shù)據(jù)時(shí)代的到來以及新一代信息技術(shù)的飛速發(fā)展,數(shù)據(jù)共享已不再是一種奢求,數(shù)據(jù)安全與隱私保護(hù)問題成為國內(nèi)學(xué)者研究的重點(diǎn),而該領(lǐng)域下新主題的出現(xiàn)也許與此有關(guān)。此外,有關(guān)地球科學(xué)的研究也在此階段興起,近幾年全球氣候變暖、生態(tài)環(huán)境惡化等,使得國內(nèi)學(xué)者更重視地球科學(xué)研究,特別是進(jìn)入21 世紀(jì)以來,更加強(qiáng)調(diào)用先進(jìn)技術(shù)去認(rèn)識、理解和保護(hù)人類賴以生存的地球[35]。
圖8 國內(nèi)主題詞演化網(wǎng)絡(luò)
為了更加清晰地了解國內(nèi)有關(guān)科學(xué)數(shù)據(jù)共享的高頻主題詞,進(jìn)一步分析出該領(lǐng)域下的研究前沿及熱點(diǎn),進(jìn)而推測未來研究發(fā)展趨勢,將排名前20 的高頻主題詞列舉如下,見表1。
表1 國內(nèi)排名前20 的高頻主題詞及詞頻
可見,在科學(xué)數(shù)據(jù)共享領(lǐng)域,國內(nèi)研究最常見的熱門主題主要集中在數(shù)據(jù)庫、信息化、數(shù)據(jù)管理、資源共享、圖書館、科學(xué)技術(shù)等。顯而易見,構(gòu)建資源整合的數(shù)據(jù)庫是實(shí)現(xiàn)科學(xué)數(shù)據(jù)共享的重要前提,是提供共享數(shù)據(jù)來源的平臺保障,在逐漸信息化的同時(shí),還要對數(shù)據(jù)進(jìn)行管理,以保證數(shù)據(jù)資源能夠順利共享與利用。而地球科學(xué)、數(shù)據(jù)安全、數(shù)據(jù)保護(hù)等是目前比較前沿的熱門主題,上述分析也可以證實(shí)這一點(diǎn)。
2.4.2 外文主題詞
以英文文獻(xiàn)的主題詞代表國外的主題詞數(shù)據(jù),從圖9 可以看出,國外相關(guān)研究主題在整體上呈現(xiàn)出逐年延伸與擴(kuò)展的演化趨勢,可以將其分為三個(gè)階段:緩慢起步階段、穩(wěn)定增長階段和快速發(fā)展階段。2001—2010 年,研究主題詞由前期單一且比較分散的“scientific discipline”“l(fā)ife science”“data set”到后期轉(zhuǎn)變?yōu)椤皊cientific datum”“raw datum”“information retrieval”等,研究重點(diǎn)傾向于共享數(shù)據(jù)的獲取,如聯(lián)邦政府通過強(qiáng)制公開科研數(shù)據(jù)[36]、鼓勵(lì)科學(xué)發(fā)現(xiàn)和教育[37]來實(shí)現(xiàn)科學(xué)數(shù)據(jù)共享。自2011年開始,主題詞的演化開始呈快速增長趨勢,2012 年的“scientific inquiry”、2013 年的“data share website”、2016 年 的“na tech event”以及2017 年的“data collection”等都是新興代表,在這一階段,學(xué)者嘗試?yán)孟冗M(jìn)的理論、科學(xué)技術(shù)、工具與政策等去實(shí)現(xiàn)生物醫(yī)學(xué)領(lǐng)域的科學(xué)數(shù)據(jù)共享,如提出共享生物醫(yī)學(xué)大數(shù)據(jù)的政策框架[38]、突破科技實(shí)現(xiàn)共享人類樣本和患者數(shù)據(jù)[39]等。直到2019 年新冠疫情之后,隨之而起的熱門主題是“covid-19 pandemic”“-scientific research”“social medium”“public health”“biologica research”“surveillance system”“data management”等。該階段的研究一方面是為了處理隨疫情而來的大量新鮮數(shù)據(jù),另一方面是為了解決受疫情影響帶來的數(shù)據(jù)共享滯緩及其恢復(fù)的問題。如提倡及時(shí)共享試驗(yàn)數(shù)據(jù)[40],獲得一手的醫(yī)療臨床數(shù)據(jù),以期滿足應(yīng)對COVID-19 挑戰(zhàn)的需求,更快地實(shí)現(xiàn)對COVID-19 乃至所有疾病的科學(xué)理解;有團(tuán)隊(duì)研究發(fā)現(xiàn)抗擊新冠肺炎疫情最有效的方法之一就是國際信息共享,但這種國際共享需要在一定條件的基礎(chǔ)上[41];科學(xué)界在抗擊COVID-19 方面也取得了幾項(xiàng)重要進(jìn)展,并在全球注冊了2500 多項(xiàng)臨床試驗(yàn),這些數(shù)據(jù)有期待被共享[42]。這一階段整體上處于快速發(fā)展之中,盡管2022 年的主題詞有所減少(或許與研究成果發(fā)表的時(shí)滯性有關(guān))。隨著公眾逐漸認(rèn)識到數(shù)據(jù)共享的重要性及共享實(shí)踐在多領(lǐng)域的推進(jìn),科學(xué)數(shù)據(jù)共享的研究必將迎來更大的突破。
圖9 國外主題詞演化網(wǎng)絡(luò)
同樣將國外有關(guān)科學(xué)數(shù)據(jù)共享排名前20 的高頻主題詞列舉如下,以便進(jìn)一步分析出該領(lǐng)域下的研究前沿及熱點(diǎn),進(jìn)而推測未來研究發(fā)展趨勢,見表2。
表3 國內(nèi)外多維對比結(jié)果
在科學(xué)數(shù)據(jù)共享領(lǐng)域,國外熱門主題主要集中于研究問題、數(shù)據(jù)共享、社交媒體、corixa公司(醫(yī)藥研發(fā)公司)、科學(xué)共同體、基礎(chǔ)醫(yī)療全科醫(yī)生、氣候變化、開放數(shù)據(jù)、數(shù)據(jù)重用等。相比國內(nèi),國外在醫(yī)學(xué)領(lǐng)域、生物科學(xué)領(lǐng)域的科學(xué)數(shù)據(jù)共享研究成果更為突出,更加傾向于人類的生命健康科學(xué)研究。事實(shí)上,相比人文社會科學(xué),自然科學(xué)尤其是醫(yī)學(xué)、生物學(xué)領(lǐng)域的數(shù)據(jù)共享實(shí)踐也更為廣泛與深入。
通過對國內(nèi)外科學(xué)數(shù)據(jù)共享研究的可視化分析發(fā)現(xiàn),國內(nèi)外相關(guān)研究在作者合著、機(jī)構(gòu)耦合、關(guān)鍵詞同現(xiàn)和主題詞演化方面的表現(xiàn)不盡相同。接下來,本文將從這四個(gè)維度進(jìn)行進(jìn)一步的對比分析,深入挖掘國內(nèi)外在各維度下的異同,進(jìn)而為我國未來相關(guān)研究提供新思考。
受領(lǐng)域范圍、教育水平等因素的影響,外文文獻(xiàn)的獨(dú)立作者居多,各作者之間的合作關(guān)系也較為松散。而國內(nèi)作者則更傾向于合作發(fā)文,故多人作者團(tuán)體居多。從科研人員在科學(xué)數(shù)據(jù)共享中扮演的角色及其作用這一角度來看,作為科學(xué)數(shù)據(jù)開放共享的核心力量,科研人員擁有著作為生產(chǎn)者、傳播者、管理者和利用者的不同角色定位[43],這些角色也可能是影響他們合作關(guān)系的因素之一。其次從領(lǐng)域分布來看,同一個(gè)機(jī)構(gòu)或組織內(nèi)部的人更有可能擁有這種合作關(guān)系,而那些不同組織的人可能會因?yàn)槠綍r(shí)交集不深而失去這種合作的機(jī)會。
雖然國內(nèi)和國外的機(jī)構(gòu)耦合度并沒有太大差別,但各機(jī)構(gòu)的研究基礎(chǔ)與研究方向也會影響其發(fā)文量和發(fā)文的水平。如國外機(jī)構(gòu)立足社會需求,選擇能夠適應(yīng)當(dāng)前發(fā)展的研究話題,并進(jìn)行實(shí)證與仿真,可能會在某一時(shí)間段產(chǎn)出大量的研究成果。而國內(nèi)則更傾向于針對近幾年的熱點(diǎn)研究理論分析與總結(jié)歸納,研究方向與方法有待于豐富。此外,可能因?yàn)閲鴥?nèi)文獻(xiàn)機(jī)構(gòu)主要來自于中國,而國外來自于國際范圍內(nèi)的多個(gè)國家,所以國內(nèi)發(fā)文量相對偏低。
關(guān)鍵詞同現(xiàn)極大程度上反映了研究重點(diǎn)和研究方向,國內(nèi)的關(guān)鍵詞有較高的同現(xiàn)率且詞之間聚類明顯,說明國內(nèi)相關(guān)研究的重點(diǎn)清晰、方向明確。進(jìn)一步分析發(fā)現(xiàn),其在總體上更偏向于數(shù)據(jù)管理。相比國內(nèi),國外的關(guān)鍵詞同現(xiàn)率偏低,且各詞之間的聚類較為模糊,說明國外在科學(xué)數(shù)據(jù)共享領(lǐng)域的研究范圍跨度廣、方向多,進(jìn)一步分析發(fā)現(xiàn),其在總體上更偏向于數(shù)據(jù)利用一類。
由圖8、圖9 可以看出,國內(nèi)外的主題詞演化均有明顯的路徑特點(diǎn),國內(nèi)研究呈現(xiàn)跨領(lǐng)域、跨學(xué)科的特征,且主要圍繞如何高效實(shí)現(xiàn)數(shù)據(jù)共享這一目的開展,總體呈“S”型演化趨勢,近階段主題詞多集中于地球科學(xué)、數(shù)據(jù)管理、數(shù)據(jù)安全等。國外研究的跨領(lǐng)域、跨學(xué)科性更明顯,且學(xué)科之間具有較強(qiáng)的交叉性,研究主要圍繞如何實(shí)現(xiàn)共享數(shù)據(jù)的利用這一目的進(jìn)行,總體呈“J”型演化趨勢,近階段主題詞多集中于生物、醫(yī)學(xué)等。
文章基于ITGInsight 可視化分析軟件,利用文獻(xiàn)計(jì)量和對比分析相結(jié)合的方法,從作者合著、機(jī)構(gòu)耦合、關(guān)鍵詞同現(xiàn)和研究主題四個(gè)維度對國內(nèi)外科學(xué)數(shù)據(jù)共享的相關(guān)研究進(jìn)行深度挖掘,揭示了國內(nèi)外研究現(xiàn)狀,并總結(jié)了國內(nèi)外研究的不同特征,對了解和預(yù)測國內(nèi)該領(lǐng)域的研究重點(diǎn)及未來發(fā)展方向具有一定的參考意義。主要研究發(fā)現(xiàn)如下:
(1)國外研究發(fā)展迅速,作者合作關(guān)系松散,機(jī)構(gòu)耦合程度低,關(guān)鍵詞聚類模糊,主題分布廣泛且學(xué)科交叉性強(qiáng),偏向共享數(shù)據(jù)利用。
(2)國內(nèi)研究發(fā)展平緩,作者之間合作密切,機(jī)構(gòu)耦合程度低,關(guān)鍵詞聚類明顯,主題詞具有跨學(xué)科、跨領(lǐng)域的特點(diǎn),偏向數(shù)據(jù)管理。我國仍面臨諸如對科學(xué)數(shù)據(jù)共享的重視度不夠、科學(xué)數(shù)據(jù)主權(quán)流失、科學(xué)數(shù)據(jù)共享技術(shù)不成熟、科學(xué)數(shù)據(jù)共享范圍不廣等問題[44],這可能與國內(nèi)外政策、經(jīng)濟(jì)、技術(shù)等差異有關(guān)。
為促進(jìn)我國科學(xué)數(shù)據(jù)共享研究更好地發(fā)展,以更快地走向國際,引出新的議題思考與探索,本文嘗試就未來研究發(fā)展和方向提出以下幾點(diǎn)建議:
(1)政策保障??茖W(xué)數(shù)據(jù)共享工作的開展離不開政策法律的引導(dǎo)和推動(dòng)[45],有關(guān)部門應(yīng)該進(jìn)一步制定與完善相關(guān)政策,如共享策略、共享原則以及相關(guān)的數(shù)據(jù)安全與保護(hù)等政策,這也是科學(xué)數(shù)據(jù)共享中所面臨的主要障礙之一。
(2)資金支持。資本可得性障礙對科學(xué)數(shù)據(jù)共享效果具有反向的影響[37],建立合理的數(shù)據(jù)共享激勵(lì)機(jī)制,肯定數(shù)據(jù)生產(chǎn)的貢獻(xiàn),為其提供必要的經(jīng)費(fèi)支持,提升其數(shù)據(jù)共享行為。
(3)加強(qiáng)多方合作關(guān)系,促進(jìn)學(xué)科之間的交流與協(xié)作。首先,對外要將科學(xué)數(shù)據(jù)主權(quán)牢牢掌握在自己手中[17],加強(qiáng)國際合作交流,了解國外研究話題和研究熱點(diǎn),拓寬科學(xué)數(shù)據(jù)共享范圍;其次,對內(nèi)注重跨學(xué)科、跨機(jī)構(gòu)、跨地域之間的交流與合作,主動(dòng)汲取其他學(xué)科的理論優(yōu)勢和方法技術(shù),不斷拓展自身領(lǐng)域的新天地;最后,在保證科學(xué)數(shù)據(jù)主權(quán)的基礎(chǔ)上,注重在跨國數(shù)據(jù)流動(dòng)方面和各機(jī)構(gòu)之間的合作,同時(shí)也要充分調(diào)動(dòng)科學(xué)數(shù)據(jù)多方利益相關(guān)者的共享積極性,尤其是我國研究者的積極性。
(4)促進(jìn)新興技術(shù)應(yīng)用,強(qiáng)化數(shù)據(jù)管理。加強(qiáng)對科學(xué)數(shù)據(jù)的管理,為科學(xué)數(shù)據(jù)的廣泛獲取與開發(fā)利用提供支持[47],要利用好現(xiàn)代信息技術(shù),尤其是新興的區(qū)塊鏈、數(shù)據(jù)安全加密等技術(shù),解決科學(xué)數(shù)據(jù)共享過程中涉及到的數(shù)據(jù)安全性、數(shù)據(jù)嚴(yán)密性等問題,這也是目前國內(nèi)研究比較熱門的一個(gè)話題。此外,科學(xué)數(shù)據(jù)共享正面臨著向人文社會科學(xué)領(lǐng)域、向微觀數(shù)據(jù)管理、向多學(xué)科交叉融合的趨勢發(fā)展[48],數(shù)據(jù)的利用和價(jià)值正逐漸受到重視。隨著AI、元宇宙以及Chat-GPT 等新興概念和技術(shù)的涌入,未來將持續(xù)出現(xiàn)一些新特征、新模式、新方法,值得研究人員繼續(xù)探索和挖掘。
本研究還存在一些不足之處,有待進(jìn)一步關(guān)注與完善:
(1)文章所選用的文獻(xiàn)數(shù)據(jù)是經(jīng)過人工篩選、去重,可能會存在誤刪、漏刪和數(shù)據(jù)交叉或重疊等情況,盡管作者已盡量保證數(shù)據(jù)的準(zhǔn)確性。
(2)文章利用ITGInsight 軟件對文獻(xiàn)數(shù)據(jù)進(jìn)行可視化分析,研究結(jié)果很大程度上依賴于軟件本身,具有一定局限性,后續(xù)可嘗試借助其他方法和工具進(jìn)行綜合對比分析,從而使研究結(jié)果更加全面可信。
(3)文章關(guān)注作者、機(jī)構(gòu)、關(guān)鍵詞和主題詞四個(gè)維度,未曾涉及其他維度和各維度之間的關(guān)聯(lián),未來可以考慮對不同維度進(jìn)行交叉分析。