溫有奎 喬曉東 張富財
(1.中國科學信息技術研究所 北京 100038;2.北京萬方數據股份有限公司 北京 100038)
我國的科技情報事業(yè)始創(chuàng)于1956年,走過了不平凡的發(fā)展歷程。陳超[1]認為60多年來,我國科技情報事業(yè)為國家科學技術發(fā)展、改革創(chuàng)新實踐發(fā)揮著“助推器”和“加速器”的作用,為推動科技、經濟與社會的發(fā)展做出了重要貢獻。邱均平等[2]認為情報科學理論研究基石的信息鏈從事實-數據-信息向知識-智慧發(fā)展。陳芬等[3]認為改革開放以來,情報學在我國取得了長足的發(fā)展。情報學的發(fā)展需要順應大數據發(fā)展的趨勢,在新“大情報觀”的指導下,結合社會發(fā)展的新水平、新動態(tài)、新技術和新發(fā)現,研究情報學領域的研究熱點及其演進趨勢。張勤[4]認為通過統計關鍵詞、主題詞、篇名詞等核心詞匯在某一類學術文獻中所出現的頻次,可以判別該學術領域的研究熱點、知識結構和發(fā)展趨勢。余豐民[5]認為,某時段學術論文的高頻關鍵詞即是該時段的研究熱點。本文對我國情報學期刊發(fā)表論文的關鍵詞進行統計分析,期望找到我國情報學理論研究熱點演變軌跡、揭示情報學科的發(fā)展與大學科發(fā)展的相互依存關系,進而探索情報學科未來研究熱點的預測方法。
許多學者采用文獻計量法等不同方法對情報學的熱點與前沿領域進行了統計分析。王莉亞等[6]以Scopus數據庫和web of Science數據共同收錄的圖書情報學領域的38種期刊在近10年間所刊載的研究論文為數據源。利用共詞聚類分析方法得出了國外情報學領域的7個研究熱點:知識管理、用戶技術接受行為、網絡環(huán)境下用戶信息行為、圖書館、網絡信息檢索、信息政策、圖書館館際互借。邱均平等[7]利用近五年來(2008-2012年)SCI和SSCI收錄的圖書情報學17種高影響力外文期刊所刊載論文及其題錄數據進行可視化計量研究,得出近五年國際圖書情報學的研究熱點分別是計量、管理、技術、網絡、檢索、醫(yī)學衛(wèi)生共六大研究領域。朱紅艷等[8]在2014年從Web of Science下載7種情報學代表性期刊的題錄數據,以2000-2010年數據為例,總結出21世紀以來情報學的7個主要研究主題:科學計量學、網絡資源管理與配置、信息檢索、信息系統、知識管理、用戶交互與服務、科學評價。李信等[9]在2017年以Web of Science核心集中的圖書情報學科的“大數據”“數據驅動”文獻為數據源,采用共詞分析和聚類分析方法,得到圖書情報領域8個方面的研究熱點主題:數字圖書館知識組織與語義互聯、社會網絡大數據、科研大數據管理與共享、云計算與信息安全、政府數據開放與共享、大數據驅動的知識發(fā)現、E-learning與高等教育、數據挖掘與數字人文等方面。李文娟等[10]在2014年使用高頻關鍵詞統計以及共現關鍵詞方法,對我國2006—2010年的發(fā)文情況進行分析,總結出在這期間我國情報學領域主要關注的4個領域:企業(yè)競爭情報、情報學理論、知識管理、信息檢索。李少惠等[11]在2020年以CNKI收錄的從2011—2020年的21個圖情核心期刊為數據源,揭示了近10年來我國圖情研究領域的11大熱點關切:基于知識圖譜的文獻計量分析、數據驅動下的圖書情報學、信息服務及服務質量評價、知識服務及相關問題、用戶信息需求及行為、圖書館閱讀推廣的理論和實踐、智慧圖書館建設與圖書館智慧服務、數字人文、圖書館聯盟、競爭情報以及公共文化服務與公共數字文化服務。
上述研究采用多種研究方法分析出情報學領域在不同階段的研究熱點,但對我國情報學科研究熱點的研究時間區(qū)間比較短,得出的研究熱點還比較宏觀,也未能展示研究熱點的演變軌跡與全學科的相互發(fā)展關系對未來研究熱點的預測方法。為進一步認識我國情報學期刊的研究熱點,本文將其研究實際區(qū)間擴大到20年,研究范圍擴大到與我國情報學期刊有關的范圍,將情報學科的研究與全學科對比研究,分析情報學科發(fā)展與全學科發(fā)展的相互影響關系,尋找情報學科特色和發(fā)展動力。
2.1國內情報學期刊熱點關鍵詞年度分布統計本文研究目的是揭示我國情報學領域期刊論文近20年來熱點關鍵詞的演變軌跡。根據這一目的,統計工作包括三個階段。
第一階段為情報領域期刊的選擇。按照萬方數據庫文獻分類法,“情報學分類代碼為N07”,共有14種期刊:競爭情報、情報工程、情報科學、情報理論與實踐、情報探索、情報學報、情報雜志、情報資料工作、圖書情報工作、圖書情報知識、圖書與情報、現代情報、中國中醫(yī)藥圖書情報雜志、中華醫(yī)學圖書情報雜志。在N07分類代碼的基礎上增加了其他刊名帶有“情報”的7種期刊,分別是“圖書館學、文獻學分類代碼為N06”的“大學圖書情報學刊,農業(yè)圖書情報學刊”;“預防醫(yī)學與公共衛(wèi)生學綜合代碼為D31”的“水產科技情報,預防醫(yī)學情報雜志”;“地理學分類代碼為B10”的“國土資源情報”;“地質學分類代碼為B11”的“地質科技情報”;“林學分類代碼為C07”的“林業(yè)科技情報”;最后共選擇國內情報學期刊21種。
第二階段為統計時間的選擇。統計數據來源于萬方數據庫,情報學領域21種期刊在萬方數據庫收錄的起始時間各有不同,收錄時間大多是在1989年左右。如《情報學報》1982年創(chuàng)刊,萬方數據庫的收錄時間為1989年,也有《中國中醫(yī)藥圖書情報雜志》1960年創(chuàng)刊,萬方數據庫從2013年收錄。為此統計時間選擇從2000年到2020年8月21日。
第三個階段是熱點關鍵詞的選擇。熱點關鍵詞選擇原則有2個條件,首先把在年度排序前30的關鍵詞作為熱點關鍵詞研究的統計對象。其次根據關鍵詞持續(xù)的年度大于某個合理值,即2017年以前出現的關鍵詞持續(xù)時間保持在4年以上,2018年出現的關鍵詞持續(xù)時間在保持在2年以上。
根據以上三個統計條件選出了60個關鍵詞作為情報學領域期刊論文的基本熱點關鍵詞,這60個熱點關鍵詞共出現了43 204次。選出60個熱點關鍵詞如表1所示。
表1 選出的60個熱點關鍵詞
2000-2020年情報學領域期刊的60個熱點關鍵詞的年度分布如圖1所示,可以看出這60個熱點關鍵詞每年保持在24~30次之間的數量變動。
圖1 2000-2020年情報學領域期刊的60個熱點
2.2情報學期刊論文熱點關鍵詞軌跡演變分析為分析60個熱點關鍵詞的年代分布特征和數量特征,將60個熱點關鍵詞按起始時間劃分成3個階段,第1個階段為2000年,包括24個關鍵詞,用圖2表示;第2階段為2001-2009年,包括21個關鍵詞,用圖3表示;第3個階段為2011-2019年,包括15個關鍵詞,用圖4所示。在這60個熱點關鍵詞中,大多數關鍵詞的出現次數都在幾百次左右,而有兩個熱點關鍵詞數量過大,超出了其他熱點關鍵詞的幾倍,如“圖書館”7 809次,“高校圖書館”6 184次,為了用圖形展示的數據細節(jié)更加清楚,將這兩個關鍵詞刪除,因此第一階段熱點關鍵詞在圖2中只保留了22個。圖2中縱坐標為關鍵詞出現的次數,橫坐標為年份。
從圖2可以看出,在2000年就出現了22個熱點關鍵詞,這說明了2000年及之前有些詞就出現了。因此把2000年出現的熱點關鍵詞稱作為 “20年前的熱點關鍵詞”,如“知識經濟、因特網、網絡信息資源、搜尋引擎、圖書館員、信息管理、信息技術、信息化、數據庫、圖書館管理、網絡環(huán)境、知識產權、電子商務、圖書館學、資源共享、信息資源、信息檢索、競爭情報、數字圖書館、信息服務、競爭情報、情報學”,也包括2000年出現的“高校圖書館、圖書館”。圖3是第二階段,2001-2009年之間開始出現的15個熱點關鍵詞,圖中縱坐標為關鍵詞出現的次數,橫坐標為年份。
圖2 2000年開始出現的22個熱點關鍵詞
圖3 2001-2009年之間開始出現的熱點關鍵詞
從圖3可以看出,2001-2009年之間開始出現了15個熱點關鍵詞,我們把這15個詞看成是“前10年的熱點關鍵詞”,如“數字化、讀者服務、統計分析、電子政務、引文分析、文獻計量學、數據挖掘、知識服務、學科館員、公共圖書館、數字資源、知識共享、大學生、科技查新、影響因素”。圖4為2011-2019年之間開始出現的21個、熱點關鍵詞,圖中縱坐標為關鍵詞出現的次數,橫坐標為年份。
圖4 2011-2019年之間開始出現的熱點關鍵詞
從圖4可以看出,2011-2019年之間開始出現了21個熱點關鍵詞,可以看成是“近10年的熱點關鍵詞”,如“云計算、圖書館服務、信息素養(yǎng)、文獻計量、社會網絡分析、共詞分析、知識圖譜、網絡輿情、學科服務、移動圖書館、大數據、可視化、閱讀推廣、專利分析、研究熱點、突發(fā)事件、智慧圖書館、人工智能、深度學習、情報工作、科學數據”。
3.1情報學期刊與全學科期刊關鍵詞比較分析為比較我國情報學期刊熱點關鍵詞的學科特性與全學科期刊的全局特性的關系,以便尋找國內情報學領域期刊論文熱點研究演變軌跡的全局性時代背景。為術語表達的簡便,將“21種情報學期刊”稱為“情報學期刊”,“除21種情報學期刊的全學科期刊”稱為“全學科期刊”。
統計方法分四個步驟。a.對“情報學期刊”關鍵詞進行詞頻統計,統計時間為2000-2020年,把各年度詞頻排序高于100的關鍵詞稱為熱點關鍵詞;b.由第一步的統計結果得到370個年度熱詞;c.分別用這370個熱點關鍵詞對“全學科期刊”和“情報學期刊”進行關鍵詞詞頻統計;d.比較“情報學期刊”與“全學科期刊”關鍵詞出現的時間差。
比較分析結果。a.由“情報學期刊”統計得到的370個年度熱詞全部出現在“全學科期刊”中;b.這370個年度熱詞在“全學科期刊”中出現年份為10年以上的關鍵詞為349個,“情報學期刊”中出現年份10年以上的關鍵詞為321個;c.“全學科期刊”與“情報學期刊”同年出現的關鍵詞的詞頻相差很大,例如“對策”相差495 807次;d.相同關鍵詞在“全學科期刊”與“情報學期刊”中出現的年份也有很大差別,例如“大數據”相差9年時間,詞頻相差45 984次;e.相同關鍵詞年度最大詞頻數也有很大差別,例如“對策”“全學科期刊”為1565,“情報學期刊”為 16。
3.2情報學期刊與全學科關鍵詞超前和滯后分析“情報學期刊”與“全學科期刊”關鍵詞出現的年份具有超前和滯后現象。數據分析以2010年為界,分兩個階段進行分析。
2000-2010年階段:2000-2010年開始出現的關鍵詞有332個,其中“情報學期刊”比“全學科期刊”超前年份出現的關鍵詞有10個,用表2表示,表中的年份數有符號“-”表示超前年份,“+”表示滯后年份。滯后的有322個關鍵詞,滯后年份在3年以上的有36個關鍵詞,用表3所示。
表2 “情報學期刊”比“全學科期刊”超前的關鍵詞
表3 “情報學期刊”比“全學科期刊”滯后年份
2011-2020年:這一時段,“情報期刊”出現的年度前100次的熱點關鍵詞共145個,“情報學期刊”比“全學科期刊”超前滯后的145個關鍵詞的數量圖如圖5所示。圖5中橫坐標為超前與滯后的年份數,負數為超前,正數為滯后??v坐標為超前與滯后的關鍵詞的個數。
圖5 2011-2020年“情報學科”與“全學科”145個
從圖5可以看出,超前9年的有2個詞(《圖書情報工作》,情報改革);同年出現的有26個詞;滯后1年的有40個詞;滯后11年的有2個詞(情報分析,數據驅動);滯后15年的有1個詞(中醫(yī)藥文化)。
2011年后“情報學科”超前與滯后“全學科”的36個關鍵詞如下表4所示。
表4 2011年后“情報學科”超前與滯后“全學科”的36個關鍵詞
統計分析發(fā)現,雖然“情報學期刊”與“全學科期刊”關鍵詞出現的年份存在超前與滯后現象,但是從2000-2020年的“情報學期刊”中統計關鍵詞出現年份為10年以上的有370個,在“全學科期刊”中出現349個,“情報學期刊”中出現321個。這說明了“情報學期刊”在吸收和創(chuàng)新過程中不斷發(fā)展,并具有自己學科的核心關鍵詞。我們可以利用“情報學期刊”與“全學科期刊”關鍵詞出現的年份存在滯后現象來預測新的關鍵詞。
4.1未來熱點關鍵詞的預測方法根據“全學科期刊”熱點關鍵詞比“情報學期刊”熱點關鍵詞早出現近10年的統計結果,參考文獻[12],選用G30(科學研究理論),G31(科學研究工作),G32(世界各國科學研究事業(yè)),G35(情報學,情報工作),G20(信息與傳播理論),G23(出版事業(yè)),G25(圖書館學,圖書館事業(yè)),G27(檔案學、檔案事業(yè)),TP39(計算技術、計算機技術)9個類,以建立一個相對具體的“參考全學科期刊”預測統計試驗范圍。首先用這9個類檢索出相關期刊,稱檢索出的相關期刊為“參考全學科期刊”。統計“參考全學科期刊”的所有關鍵詞,最后從這些關鍵詞中選擇出熱點關鍵詞,統計時間為2000-2020年,把每年出現的前300個關鍵詞作為熱點關鍵詞,一共選出833個關鍵詞,出現4 516 745次。其中2011年后出現的關鍵詞為258個。
分別統計“參考全學科期刊”2011年后出現的258關鍵詞在 “參考全學科期刊”“情報學期刊”中出現的關鍵詞的分布,比較258個關鍵詞在“參考全學科期刊”和“情報學期刊”的分布規(guī)律。258個關鍵詞分別在“參考全學科期刊”中出現的關鍵詞次數為624 873,在“情報學期刊”出現了174個關鍵詞,出現次數為630次。
4.2未來熱點關鍵詞的預測結果通過“情報學期刊”與“參考全學科期刊”關鍵詞出現次數之比值,選擇出比值大于0.20%的前30個熱點關鍵詞,如表5所示。
表5 30個熱點關鍵詞
續(xù)表5 30個熱點關鍵詞
經過統計預測分析之后,我們得到72個未來可能出現的熱點關鍵詞,如表6所示。
表6 2021年后“情報學期刊”可能出現的72個熱點關鍵詞
本文對國內2000-2020年發(fā)表的情報學期刊論文關鍵詞進行統計分析,獲得了60個熱點關鍵詞,將60個熱點關鍵詞分為三個階段:2000年及以前、2001-2009年,2010-2020年。三個階段的熱點關鍵詞代表了情報期刊論文的研究重點和基本演變軌跡。通過與全學科熱點關鍵詞的對比分析,發(fā)現情報學期刊論文熱點關鍵詞也有與全學科關鍵詞不同的獨有的熱點關鍵詞,同時情報學期刊論文有些熱點關鍵詞出現時間滯后全學科的關鍵詞10年。這一特點反映了領域學科與全學科的領域特性和全局特性的規(guī)律,也反映了情報學期刊論文的熱點關鍵詞緊跟全學科技術發(fā)展和社會需求不斷的引入和創(chuàng)新發(fā)展的特點,利用以上特點,通過“參考全學科期刊”期刊的方法統計分析“情報學期刊”與“參考全學科期刊”論文熱點關鍵詞超前和滯后的數據,預測了未來情報學期刊論文可能出現的72個熱點關鍵詞。雖然我們的統計預測方法得到了一些結果,但這些結果仍將需要在實踐中進一步的檢驗。