曾小紅
摘 要 以1995~2013年間CNKI中國期刊全文數(shù)據(jù)庫中收錄的科學數(shù)據(jù)研究方面的論文為樣本,分別從作者、期刊分布、研究機構(gòu)、關(guān)鍵詞等角度進行定量分析,揭示中國在科學數(shù)據(jù)領(lǐng)域的研究現(xiàn)狀、熱點及未來趨勢,為科學數(shù)據(jù)研究提供參考。
關(guān)鍵詞 科學數(shù)據(jù) ;文獻計量 ;研究 ;發(fā)展
分類號 G353.1
作為21世紀科學技術(shù)發(fā)展的基礎(chǔ),科學數(shù)據(jù)以其最基本、影響面最寬奠定了國家科技發(fā)展的重要基石,其不僅能滿足科技創(chuàng)新、社會發(fā)展、經(jīng)濟增長和國家安全等多種需求,且能見證國家科技歷史的發(fā)展,是人類社會發(fā)展的重要組成部分[1]。自中國開展科技基礎(chǔ)條件平臺建設(shè)以來,圍繞科學數(shù)據(jù)的共建共享已開展了多方面的研究,本文擬從近年來發(fā)表的有關(guān)科學數(shù)據(jù)研究的論文為切入點,定量分析中國科學數(shù)據(jù)的研究現(xiàn)狀。
1 材料與方法
1.1 文獻收集
以中國知識資源總庫(中國知網(wǎng)CNKI)為數(shù)據(jù)源,跨庫選擇數(shù)據(jù)庫為中國學術(shù)期刊網(wǎng)絡(luò)出版總庫、特色期刊、中國博士學位論文全文數(shù)據(jù)庫、中國優(yōu)秀碩士學位論文全文數(shù)據(jù)庫、中國優(yōu)秀碩士學位論文全文數(shù)據(jù)庫、2013增刊、中國重要會議論文全文數(shù)據(jù)庫、國際會議論文全文數(shù)據(jù)庫和中國學術(shù)輯刊全文數(shù)據(jù)庫。
檢索方式為高級檢索,檢索詞為“科學數(shù)據(jù)”,檢索入口為“篇名”、“主題”和“關(guān)鍵詞”,匹配模式為“精確”,檢索時間為1979年1月1日至2014年4月16日。檢索出570條文獻信息,通過手工排除不相關(guān)的文獻,最后獲得有效文獻466篇,在此基礎(chǔ)上對相關(guān)信息進行計量統(tǒng)計分析,以期對中國科學數(shù)據(jù)的研究現(xiàn)狀進行一個簡要分析。
1.2 文獻信息提取和處理
提取和記錄每一篇文獻的題錄信息,包括文獻來源、發(fā)表時間、第一作者、通訊作者、作者單位、期刊類別和關(guān)鍵詞。采用Excel對上述各項信息進行分析處理,統(tǒng)計每一項信息中各個類別出現(xiàn)的頻次和概率,通過數(shù)量的對比,獲得科學數(shù)據(jù)研究領(lǐng)域文獻的年代分布、文獻分布的主要期刊、主要研究人員和主要研究機構(gòu)。
2 數(shù)據(jù)結(jié)果分析
2.1 論文總量分布
由圖1可見,中國科學數(shù)據(jù)研究的第一篇研究論文發(fā)表于1995年,是西安交通大學陳鐵發(fā)表的有關(guān)科學數(shù)據(jù)顯示分析的科學數(shù)據(jù)圖顯分析軟件Tecplot[2]。此后直到2002年研究論文才達到6篇,2003年開始才有了顯著增長,達到27篇,此后科學數(shù)據(jù)的研究論文都在呈上升狀態(tài),2011、2012年有所減少,分別為26篇,31篇,2013年又上升為50篇。從發(fā)表論文累積量看,論文的增長趨勢尤為明顯。
通過對此期間論文發(fā)表情況比較,從1995年發(fā)表在《軟件世界》上的有關(guān)科學數(shù)據(jù)分析的軟件開始,科學數(shù)據(jù)的研究開展逐步拉開。1996年,李軍發(fā)表了一篇真正意義上的科學數(shù)據(jù)研究,即《地理學報》上刊登的《地球科學數(shù)據(jù)研究的初步探討》[3]。隨著2002年科技部聯(lián)合有關(guān)部門啟動了中國科技基礎(chǔ)條件平臺建設(shè)試點工作,中國科學數(shù)據(jù)研究才開始正式啟動[4],此后有關(guān)科技基礎(chǔ)條件平臺建設(shè)中的資源建設(shè)、共享、元數(shù)據(jù)、平臺建設(shè)、數(shù)據(jù)挖掘等有關(guān)的理論、實踐和技術(shù)應用和服務(wù)等全方位開展。
2.2 來源期刊分布
從來源期刊分布(表1)情況看,共涉及期刊253種期刊,從載文量在5篇以上的期刊列表中可以看出,中國基礎(chǔ)科學載文量對多,為27篇,占總發(fā)文量的5.79%;其次是圖書情報工作,載文量為14篇,占3.00%。在載文量在5篇以上的17種期刊中,自然科學、圖書情報、工業(yè)技術(shù)類期刊都有,說明中國科學數(shù)據(jù)的研究從自然科學中的數(shù)據(jù)來源、數(shù)據(jù)分析,及數(shù)據(jù)建設(shè)的載體都有全方位的開展研究。
按照科學數(shù)據(jù)研究發(fā)文期刊所屬學科領(lǐng)域?qū)ζ诳M行整理歸類,發(fā)現(xiàn)科學數(shù)據(jù)研究論文主要發(fā)表在“自然科學”類期刊,其次是“圖書情報”、“工業(yè)技術(shù)”、“科技信息”、“社會科學”、“農(nóng)業(yè)科學”和“醫(yī)藥衛(wèi)生”類期刊,其中“高校論文”、“會議論文”也都有涉及科學數(shù)據(jù)的研究,說明中國科學數(shù)據(jù)研究主要集中在自然科學中有關(guān)科學數(shù)據(jù)的集成、整合及其應用。
2.3 主要研究機構(gòu)分析
通過對樣本數(shù)據(jù)中作者的所屬機構(gòu)進行統(tǒng)計,其中把具有不同機構(gòu)名稱的同一機構(gòu)合并,如中國科學院國家圖書館、中國科學院國家圖書館武漢分館、中國科學院國家圖書館蘭州分館;吉林大學管理學院、吉林大學物理系、吉林大學信息管理系;中國地震局地震預測研究所、中國地震局地質(zhì)研究所、中國地震局第二監(jiān)測中心等,合并后統(tǒng)計共有235個研究機構(gòu)。表3為1995~2013年間國內(nèi)科學數(shù)據(jù)研究發(fā)文量10篇以上的研究機構(gòu),其中中國科學院地理科學與資源研究所發(fā)文量最多,為32篇,占總發(fā)文量的5.30%。在發(fā)文最多的11個研究機構(gòu)中,除了武漢大學外,其余都是科研機構(gòu)。說明在中國科學數(shù)據(jù)共享建設(shè)發(fā)展中,目前主要是科研機構(gòu)在進行科學數(shù)據(jù)的共建,并對相關(guān)的如科學數(shù)據(jù)共享平臺建設(shè)、標準規(guī)范等進行研究。
2.4 高產(chǎn)作者分析
通過對樣本數(shù)據(jù)中作者的統(tǒng)計,共出現(xiàn)741位作者。其中有540位發(fā)表1篇論文,105位發(fā)表2篇論文,42位發(fā)表3篇論文,16人發(fā)表4篇,15人發(fā)表5篇;發(fā)表6篇及以上的作者有23位(見表4)。
其中中國科學院計算機網(wǎng)絡(luò)信息中心的閻保平發(fā)文12篇,其研究的主要方向為大規(guī)模科學數(shù)據(jù)共享技術(shù)、數(shù)據(jù)網(wǎng)格、數(shù)據(jù)庫技術(shù)、信息發(fā)布技術(shù)等;中國科學院寒區(qū)旱區(qū)環(huán)境與工程研究所的王亮緒發(fā)文11篇,其研究方向為科學數(shù)據(jù)共享研究;中國人民解放軍總醫(yī)院的尹嶺發(fā)文11篇,其研究方向為:醫(yī)學科學數(shù)據(jù)共;中國科學院寒區(qū)旱區(qū)環(huán)境與工程研究所南卓銅發(fā)文10篇,其研究方向為科學數(shù)據(jù)共享和寒區(qū)環(huán)境建模、空間決策支持系統(tǒng);中國科學院寒區(qū)旱區(qū)環(huán)境與工程研究所吳立宗發(fā)文10篇,其研究方向為數(shù)據(jù)共享和冰川變化研究。
2.5 高頻詞分析
通過關(guān)鍵詞詞頻統(tǒng)計分析,在466篇科學數(shù)據(jù)研究論文中共出現(xiàn)1 103個關(guān)鍵詞,均關(guān)鍵詞約為2.37個/篇。其中詞頻為1的關(guān)鍵詞有834個,占75.61%;詞頻為2的關(guān)鍵詞有135個,占12.24%;詞頻為3的關(guān)鍵詞有51個,占4.62%;詞頻4~10的有60個,占5.44%;詞頻在10(含)以上的有21個,占1.90%。從表5可以看出,“科學數(shù)據(jù)”作為詞頻最高的關(guān)鍵詞,遠遠高于排位第二、第三的“數(shù)據(jù)共享”、“科學數(shù)據(jù)共享”,共出現(xiàn)了154次。在詞頻出現(xiàn)10次以上的關(guān)鍵詞中,“科學數(shù)據(jù)”、“數(shù)據(jù)共享”、“科學數(shù)據(jù)共享”、“元數(shù)據(jù)”、“共享”是出現(xiàn)最多的前五個關(guān)鍵詞。從中可以看出,在科學數(shù)據(jù)研究中,對科學數(shù)據(jù)本身的研究是最多的,其次是研究如何使科學數(shù)據(jù)共享,如何達到共享。
3 結(jié)語
對中國科學數(shù)據(jù)研究方面論文的定量分析,研究發(fā)現(xiàn),中國科學數(shù)據(jù)研究只要以科研單位為主要研究機構(gòu);關(guān)鍵詞分析表明,科學數(shù)據(jù)研究主要集中在科學數(shù)據(jù)本身的研究,及科學數(shù)據(jù)共享、元數(shù)據(jù)等方面。結(jié)合中國自2002年開始啟動國家科技基礎(chǔ)條件平臺建設(shè)至今,中國的科學數(shù)據(jù)共享建設(shè)已進入第二個階段。在前期主要進行科學數(shù)據(jù)的資源建設(shè),即數(shù)據(jù)庫建設(shè),此時以科學數(shù)據(jù)載體為主要研究內(nèi)容,包括元數(shù)據(jù)、數(shù)據(jù)庫、數(shù)據(jù)管理、數(shù)據(jù)中心、數(shù)據(jù)資源等關(guān)鍵詞主要出現(xiàn)在此期間的研究文獻中;第二階段,一方面除了繼續(xù)進行數(shù)據(jù)資源的建設(shè),加大了數(shù)據(jù)服務(wù)的力度,即以如何開展科學數(shù)據(jù)的共享為主,此后多出現(xiàn)數(shù)據(jù)共享、共享平臺、共享服務(wù)及數(shù)據(jù)挖掘等關(guān)鍵詞。
從科學數(shù)據(jù)的研究趨勢,結(jié)合國家科技基礎(chǔ)條件平臺建設(shè)的發(fā)展進程,中國在科學數(shù)據(jù)研究上,將進一步開展如何更好的進行科學數(shù)據(jù)共享服務(wù),以及如何深度挖掘科學數(shù)據(jù),有針對性的結(jié)合數(shù)據(jù)的需求開展各種專題服務(wù),使科學數(shù)據(jù)共享服務(wù)有的放矢。此外,由于長期以來中國科研體制狀況,大量科學數(shù)據(jù)還集中在科研人員手中,如何使國家投入巨額科研經(jīng)費取得的科學數(shù)據(jù)能夠真正的用之于民,使科學數(shù)據(jù)共建共享能夠得到規(guī)范化、制度化,這將是今后建設(shè)的重點。
參考文獻
[1] 徐冠華. 實施科學數(shù)據(jù)共享 增強國家科技競爭力[J].中國基礎(chǔ)科學,2003(1):5-9.
[2] 陳 鐵. 科學數(shù)據(jù)圖顯分析軟件Tecplot[J]. 軟件世界,1995(6):28.
[3] 李 軍. 地球科學數(shù)據(jù)研究的初步探討[J].地理學報,1996(S1):16.
[4] 國家科技基礎(chǔ)條件平臺建設(shè)簡介[o/l]. http://www.nstic.gov.cn/navigation/set.jsp.2014-8-2