蘇福+柯平
摘要運用Citespace的信息可視化技術,對Web of Science中收錄的核心期刊文獻進行數(shù)據(jù)分析,遵循科學計量學中的引文分析法、共現(xiàn)分析法、詞頻分析法以及LLR算法、PageRank算法等理論,對2014-2015年被Web of Science中的SSCI庫收錄的27種圖書館學情報學類期刊所載的3287篇文獻進行分析,繪制出研究熱點、前沿的知識圖譜,發(fā)現(xiàn)網絡計量、信息需求、索引、信息檢索、組織工程、名稱匹配算法、網絡2.0、非源項、技術接受模型、三螺旋理論等主題是近2年國際圖書館學情報學領域持續(xù)研究的熱點。傳統(tǒng)圖書館學情報學領域、管理科學領域、計算機科學領域中的知識管理、網絡計量、h指數(shù)、核心活動、國際合作、接受和使用技術的統(tǒng)一理論、IT治理等主題將成為今后圖書館學情報學領域的研究趨勢和重點。
關鍵詞 圖書館學 情報學 研究熱點 信息可視化
1引言
被Web of Science(下文簡稱“WoS”)中的SSCI數(shù)據(jù)庫收錄的圖書館學情報學即INFORMATIONSCIENCE&LIBRARY SCIENCE(下文簡稱“LIS”)類期刊共計85種(截止2016年4月7日)。刊載在這些期刊上的研究成果,一方面反映了世界主要國家或地區(qū)LIS領域研究的熱點和前沿,另一方面,也反映了國際上高水平研究者的其他科研信息。以往由于載文量巨大,加之受分析技術工具的限制,研究者多是運用人工逐篇抽樣閱讀的方法,對國際頂級期刊的部分文獻進行研究,帶有較強的主觀性,無法完整、客觀地對某個時間段內的全部文章進行分析。專家的主觀分析雖然具有一定的指導意義,但往往缺乏公允性、完整性和客觀性。筆者將WoS中的與北京大學圖書館編輯的《國外人文社會科學核心期刊總覽》(下文簡稱《總覽》)中重合的27種圖書館學情報學類期刊作為研究對象,并根據(jù)2014年影響因子的高低作適當增減,運用Citespace可視化軟件,對WoS中2014-2015年刊載的3287篇文獻進行科學計量分析。本文要探討的問題是:近2年國際高水平的LIS期刊發(fā)表論文的研究熱點及其覆蓋的科學領域、科研機構,論文的國家或地區(qū)合作情況、核心作者與核心被引作者群、核心被引期刊概況。希望本文具有如下特點:全樣本數(shù)據(jù)的完整性、研究對象的時效性、分析工具的客觀性以及知識圖譜的直觀性等,為我國研究者了解和掌握國際LIS領域的研究熱點、前沿、對象、方法、研究者、研究機構、核心期刊等情況提供完整、及時、客觀、直觀的數(shù)據(jù)分析,減少研究者獲取本領域科研情報的盲目性,提高研究效率。
2研究方法
2.1引文分析法
1955年,加菲爾德(E.Garfield)在《科學》上發(fā)文提出了一種科學文獻書目系統(tǒng),可剔除對虛假、過時或完整性較差的數(shù)據(jù)的任意引用,使學者們可了解到對早期論文存在的批評。引文分析法至此正式產生。引文分析就是利用各種數(shù)學及統(tǒng)計學的方法和比較、歸納、抽象、概括等邏輯方法,對科學期刊、論文、著者等各種分析對象的引用與被引用現(xiàn)象進行分析,以便揭示其數(shù)據(jù)特征和內在規(guī)律的一種文獻計量的分析方法。本文使用引文分析法,主要原因是該方法能回答以下三個問題:第一,某些文獻為什么能持續(xù)成為研究者關注的核心?第二,這些核心文獻中已經出現(xiàn)或即將出現(xiàn)哪些趨勢?第三,某領域或學科的文獻與其他學科的交叉呈現(xiàn)出何種關系或態(tài)勢?引文分析有三種基本類型:①對引文數(shù)量進行研究,主要用于評價期刊和論文等。②對引文間的網狀關系或鏈狀關系進行研究??茖W論文間存在著一種引用關系網,如A被B引,B被C引,C又被A引等,研究這種關系主要用于揭示學科的發(fā)展與聯(lián)系,并展望未來前景等。③對引文反映出的主題相關性進行研究,主要用于揭示科學的結構和進行文獻檢索等。引文分析法的上述三種類型,分別回答和解釋了上述三個問題。
2.2詞頻分析法與共現(xiàn)分析法
本文所指的“詞”,即Citespace軟件中的“Term”。美國著名情報學專家薩隆(G·Salon)認為,Term表示主題詞、名詞、標引詞、情報項、文獻著錄項、標引與檢索的信息單元等。詞頻分析是將文獻中的多個因子聯(lián)系起來的引證分析方法,它能科學地評價文獻、文獻作者的學術水平,揭示學科的熱點、前沿以及發(fā)展趨勢。共現(xiàn)分析法則是將文獻中的各種共現(xiàn)信息定量化的分析方法,通過共現(xiàn)分析,可以發(fā)現(xiàn)研究對象之間的親疏關系,挖掘隱含的或潛在的有用知識,并揭示研究對象所代表的學科或主題的結構與變化。在計算機技術的輔助下,共現(xiàn)分析在構建概念空間和實現(xiàn)語義檢索、改進知識組織中文本的分類效果、分析文獻中的知識內容關聯(lián)、挖掘知識價值等方面彰顯出獨特的提煉和概括功能。通過軟件進行詞頻分析與共現(xiàn)分析,能較好地抽取出所分析文獻樣本的熱點、前沿趨勢以及科學結構等關鍵情報。
2.3科學知識圖譜與信息可視化方法
科學知識圖譜(Mapping Knowledge Domains)是顯示科學知識的發(fā)展進程與結構關系的一種圖形,用可視化技術描述人類隨時間擁有的知識及其載體,繪制、挖掘、分析和顯示科學技術知識以及它們之間的相互聯(lián)系。在組織內創(chuàng)造知識共享的環(huán)境以促進科學技術研究的合作和深入。
信息可視化涉及計算機生成交互式信息圖示的設計、開發(fā)和應用。首先要處理抽象的、非空間的數(shù)據(jù)。把非空間的數(shù)據(jù)轉換成直觀的、有意義的圖像對該領域極其重要,這個轉換的過程是一個創(chuàng)造性的過程,設計者可以賦予圖像新的意義。本文運用科學圖譜與信息可視化的理論,通過Citespace軟件,將需分析的文獻進行圖像轉化和處理,賦予客觀、科學的意義。
2.4 LLR算法與PageRank算法
本研究采用LLR算法對聚類進行命名。LLR即對數(shù)似然比算法,全稱Log-Likelihood Ratio。其基本原理是:假設對于類別Ci,詞Wi的頻度(oc),集中度(β)和分散度(丫)等指標組成向量Vji,選取聚類命名就是根據(jù)Vij來判斷Wi是否可以作為類別Ci的特征詞。LLR算法如下:
式中,LLR為詞Wi對于類別Ci的對數(shù)似然比,p(Ci\Vij)和p(Cj\Vij)分別為在類別Cj和Cj中的密度函數(shù)。
PageRank網頁排名,又稱網頁級別、Google左側排名或佩奇排名,是一種根據(jù)網頁之間相互的超鏈接計算的技術,作為網頁排名的要素之一,以Google公司創(chuàng)辦人拉里·佩奇(Larry Page)之姓來命名的。該算法的發(fā)明者對網絡超鏈接結構和文獻引文機制的相似性進行了研究,把引文分析思想借鑒到網絡文檔重要性的計算中來,利用網絡自身的超鏈接結構給所有的網頁確定一個重要性的等級數(shù),當從網頁A鏈接到網頁B時,就認為“網頁A投了網頁B一票”,增加了網頁B的重要性。最后根據(jù)網頁的得票數(shù)評定其重要性,以此來幫助實現(xiàn)排序算法的優(yōu)化,而這個重要性的量化指標就是PageRank值。文章運用Citespace中的Page-Rank算法,對相關數(shù)據(jù)結果進行PageRank排名,為數(shù)據(jù)分析提供另一個維度的視角。
3數(shù)據(jù)來源及分析工具
3.1數(shù)據(jù)來源
筆者通過WoS中的期刊引文分析報告(JCR:Journal Citation Reports社會科學版)查詢2014年(2015年尚未公布)的"INFORMATION SCIENCE&LIBRARY SCIENCE”類別中被收錄的所有期刊,共計85種(詳見表1,以影響因子的值作降序排列)。由于這85種期刊并未完全聚焦在圖書館學情報學領域,因此,本研究結合北京大學的《總覽》進行聚焦。《總覽》的編撰歷時2年多,由北京高校圖書館期刊工作研究會成員館、國家圖書館等相關單位的33位圖書館專業(yè)人員參加研究,163位學科專家參加了核心期刊的定性評審,具有較高的指導意義。圖書館學情報學檔案學期刊共計61種。經對比,WoS與《總覽》重合的圖書館學情報學期刊共計29種,并根據(jù)檢索結果以及影響因子適當增減。隨之,以Web of Science核心數(shù)據(jù)庫為檢索庫,以“出版物來源一下表27種期刊名稱”和“時間跨度一2014年-2015年”,文獻類型選擇“Article”,語言類型選擇“English”,共命中3287條文獻記錄,通過數(shù)據(jù)導出和處理,將文獻記錄以Citespace能識別的WoS輸出格式導入Citespace軟件中。
3.2分析工具
CiteSpace是一款著眼于分析科學文獻中蘊含的潛在知識,并在科學計量學(Scientometric)、數(shù)據(jù)和信息可視化(Data and Information Visualization)背景下逐漸發(fā)展起來的一款引文可視化分析軟件。本文使用Citespace 4.0.R4版本,對數(shù)據(jù)進行處理、分析、制圖。此外,使用WoS自帶的統(tǒng)計分析功能,結合Citespace的可視化分析功能,交叉配合使用。Citespace軟件有多個不同版本,開發(fā)者截至筆者投稿之日,仍然在優(yōu)化該軟件,故該軟件對某些項目的統(tǒng)計結果可能出現(xiàn)與WoS的統(tǒng)計有微小差異,可視為科學研究中的誤差,但不影響主要數(shù)據(jù)分析。該工具已經不僅僅提供引文空間的挖掘,而且還提供知識單元之間的共現(xiàn)分析功能,如作者、機構、國家/地區(qū)的合作等。
4結果分析
4.1研究熱點分析
研究熱點可看作某研究領域中,研究者共同關注的一個或多個研究主題,筆者認為共詞分析可反映目標領域的熱點概況。通過Citespace對Term與Node的提取,可對3287篇文獻的關鍵詞進行共詞(Co-words)聚類挖掘分析,運行結果如圖1所示。該圖反映了國際LIS領域近兩年的熱點問題,聚類號表示某詞經LLR算法聚類后所在的主題。Mo-durility(M)即網絡模塊化評價指標,值越大,表示網絡得到聚類越好,Q的取值區(qū)間為[0,1],當Q>0.3時得到的網絡社團結構是顯著的。Silhouette(S)是用來衡量網絡同質性的指標,當其值>0.5時表示聚類結果是合理的,越接近1,同質性越高。通過LLR算法,M=0.8835,S=0.5014,得出的圖譜合理、客觀,研究熱點聚類名稱如圖1、表2所示。
圖1中黑色字體表示不同文獻共同的關鍵詞,“#數(shù)字”表示運用LLR算法對共同關鍵詞提取后命名的聚類詞,每個色塊表示由各類不同的文獻組成的具有相近研究主題的聚類。通過對關鍵詞的聚類,得到15個研究主題,聚類間有交叉覆蓋的現(xiàn)象,表示這些聚類之間存在研究主題上的交叉,其關系較為緊密,與其他聚類不交叉的色塊表示該類主題具備較為獨立的研究性質。以“#0,#1……”等形式對聚類進行編號(Cluster ID),聚類號越小,表示該聚類的經典文獻數(shù)量(Size)越多,Silhouette值表示經典文獻之間的緊密程度,Mean(Year)項表示平均年份,可反映聚類中文獻的時效性,Top Terms即以LLR算法命名的聚類名稱。經過自動聚類并結合圖書館學情報學專業(yè)知識,相關度較高的關鍵詞聚類情況見表2。
基于LLR算法的聚類名稱,可客觀反映2014-2015年國際圖書館學情報學研究領域的熱點問題,可將上述聚類歸納為四個方面。
(1)傳統(tǒng)LIS領域。
布萊達(Mas-Bleda)等基于歐洲的在線出版物,使用爬蟲技術對1525名高被引科學家進行研究,這是第一個對鏈模式高被引研究者機構網站的研究,用以確定哪些網絡資源被科學家們發(fā)布。斯圖德(Sotudeh)等使用科學計量方法與比較的方法,就女性科學家在科學生產力、影響等方面與男性科學家進行對比研究,發(fā)現(xiàn)雖然女性科學家人數(shù)較少,但同樣有較好的科研成果和影響。拉弗蒂(Raf-ferty)等通過對八位用戶的調查訪談,對基于故事圖像的索引輸入法進行了探討。戈盧布(Gol-ub)等對將杜威十進制分類法(DDC)作為建立知識組織系統(tǒng)(KOS)增強社會標簽,提高主題索引和檢索信息效率進行了研究,結果表明受控詞匯表索引和檢索的重要性是顯而易見的??晾眨↘oler)等以發(fā)表在2007年的14個國際期刊中的文獻為研究對象,對土木工程領域開放獲取文獻的被引次數(shù)進行研究,結果表明開放不是引用的充分條件,但增加了期刊上發(fā)表文章的引用次數(shù)。阿爾瓦雷斯(A1-varez)等使用文獻計量方法對虹膜識別研究領域進行了全面概述。郭(Kuo)等使用共被引方法模型對核心文獻之間的關系進行了研究,實現(xiàn)了運用多元統(tǒng)計技術來構建知識結構的表征。吳(Wu)等通過對臺灣大學32名被試者進行調研,研究了研究生如何看待和使用谷歌學術搜索。索步爾(A1-Shboul)等運用角色法、系統(tǒng)設計法等,以約旦王國的一個先進的信息通訊技術環(huán)境抽樣為例,研究了集成現(xiàn)有的信息需求行為的模型。布龍斯坦(Bronstein)等運用分布式的信息檢索自我認知量表(IRSPS)對205名學生進行匿名問卷調查,發(fā)現(xiàn)參與者報告了高水平的自我效能感。
(2)醫(yī)學信息領域。
戈爾泰普(Gultepe)等開發(fā)了一個決策支持系統(tǒng),用于患高乳酸鹽血癥的高危病人的生命體征的常規(guī)測量,支持實驗室研究。斯塔爾茨(Stultz)等對劑量警報是否合適進行了評價,將警報與訂單分類,比較了兒科醫(yī)院內定制的和非客戶化的恰當?shù)膭┝烤娣秶X惛窈HR(Baghele)等運用文獻計量方法對Pubmed數(shù)據(jù)庫中印度牙醫(yī)的文獻的趨勢進行了評估,發(fā)現(xiàn)從1960年到2012年,每位印度牙醫(yī)平均貢獻了0.53篇文獻。
(3)心理學與計算機科學領域。
加維蘭(Gavilan)等探討了移動廣告引發(fā)的心理意象的作用及其對信任和購買意愿的中介效應。特拉(Tatry)對國與國之間的合作網絡映射到可視化的強度關系進行了研究。謝(Xie)探討了社會媒體在數(shù)字圖書館中的應用和識別等相關問題。
(4)管理科學領域。
齊(Chi)等研究了非源代碼項目的特點,并在社會科學文獻評價中對德國對政治科學出版物進行了研究,結果表明,非源代碼項目顯著提高了出版物的數(shù)量。蕭(Hsiao)等運用基于意圖的五個理論模型對大學生的行為意圖進行調查。克拉托赫維爾(Kratochvil)等對使用在線學習進行信息素養(yǎng)教學進行了研究。雷德斯多夫(Leydesdorff)等測量了三螺旋協(xié)同在俄羅斯國家級、省級區(qū)域創(chuàng)新系統(tǒng)中的水平。斯瓦爾(Swar)應用社會網絡分析技術的混合方法和三重螺旋指標,以網絡知識的視角對南亞的信息通信技術基礎設施的重要性進行了研究。
從上述領域的研究主題來看,研究熱點呈現(xiàn)的特點是集中在傳統(tǒng)的LIS領域,研究主題不斷深化、擴展,使用的研究方法規(guī)范、科學。近2年的國際LIS研究主題中,網絡計量、索引、文獻計量、信息需求、信息檢索是持續(xù)的研究熱點。
4.2研究前沿分析
筆者認為研究前沿分析主要以共被引(CitedReference)的文獻網絡關系加以體現(xiàn)。科學計量學的奠基人普賴斯(Price)提出“研究前沿”的概念,即科學引文網絡中高被引且時效性強的文獻集合。他認為研究前沿能動態(tài)地反應某研究領域的本質。加爾菲爾德(Garfield)將研究的前沿定義為一組核心的高被引論文和引用論文,認為研究前沿的名稱可以從論文標題中出現(xiàn)頻率最高的詞或短語中提取。陳超美認為研究前沿是一組及時、動態(tài)且有潛在研究價值的問題,研究前沿的知識基礎是引證和共引痕跡。本文中,Citespace的具體操作設置是:“Term Source”部分同上文,“Node Type”部分選取“Cited Reference”選項。運行數(shù)據(jù)后,得到研究前沿聚類圖,見圖2。
從圖2可見,將共被引文獻聚類后得到16個研究主題。結合圖書館學情報學專業(yè)知識,排除相關度較小的聚類后,以“#0,#1……”等形式對聚類進行編號,聚類號越小,其聚類的文獻數(shù)量越多。共被引文獻的聚類情況如表4所示。
基于LLR算法的聚類名稱可客觀反映2014-2015年國際圖書館情報學研究領域的前沿問題,將上述聚類歸納為三個方面。
(1)傳統(tǒng)LIS領域。
米克斯(Meeks)等對交集電子健康記錄(EHR)進行研究,檢查以往開發(fā)的概念模型的適用性,以實現(xiàn)全面了解其對英國國民健康服務(NHS)的影響。安珂爾(Ancker)等對電子健康記錄的影響(EHRs)結果的個體差異性進行了研究。洛倫岑(Lorentzen)等運用網絡計量學的方法,探討了計量學和網絡挖掘兩個領域潛在的更緊密的聯(lián)系和合作。韋加(Veiga)等通過對金融分析系統(tǒng)的實證研究,探討了企業(yè)系統(tǒng)(ES)的成功因素。薩沃萊寧(Savolainen)等基于激勵因素評價理論,研究了情緒和情感激勵在信息檢索過程中的五方面的影響。牛(Niu)等基于有效的科學引文角度,用文獻計量法分析了科學引文索引擴展數(shù)據(jù)庫中1992—2011年地球科學的相關科研情報。譚(Tan)等對1995年到2010年的科學引文索引擴展中的蛋白質學文獻進行了計量分析,評估全球相關科學成果產出,發(fā)現(xiàn)研究人員集中在生化研究方法、生物化學和分子生物學。
(2)管理科學領域。
韋加(Veiga)等通過對金融分析系統(tǒng)的實證研究,探討了企業(yè)系統(tǒng)(ES)的成功因素。常(Chang)等使用社會網絡分析來確認天文研究機構具有強有力的國際合作關系,研究發(fā)現(xiàn)最強的關系體現(xiàn)在相關機構的跨洲科研合作。蕭(Hsiao)等運用基于意圖的五個理論模型對大學生的行為意圖進行調查。
(3)計算機科學領域。
提圖埃爾(Turel)等對管理團隊提供的集中在信息技術資源的戰(zhàn)略管理進行了研究,綜合了資源和應急管理信息系統(tǒng)的觀點與公司治理理論,檢查董事會層面的IT治理的關鍵前因和后果(ITG)。龐(Pang)等基于資源觀,嘗試建立一種有效的測量技術,提出一種評估這些資源的協(xié)同效應對公司的能力影響的方法,并使用組織理論發(fā)現(xiàn)IT驅動的公司的戰(zhàn)略角色資源。陳(Chen)等研究了信息技術(IT)的業(yè)務價值,該研究通過調查填補了IT的業(yè)務價值的中介作用這一空白,研究了該業(yè)務流程的靈活性和環(huán)境因素的調節(jié)作用。該研究的對象屬于計算機科學領域,其研究方法則屬于管理科學領域。
從上述領域的研究主題來看,研究的前沿呈現(xiàn)的特點是運用傳統(tǒng)LIS方法研究跨學科領域的對象(如有機發(fā)光二極管、交集電子健康記錄、金融等)。LIS在計算機科學、管理科學、醫(yī)學、生物學實踐領域的應用將成為今后LIS領域的研究重點。
4.3科學領域結構
科學領域結構可反應LIS領域所涉及的各個學科之間的合作、交叉關系??蓮暮献髡叩木垲悺⑽墨I的聚類等方面進行探索,但最直觀的方式,是直接分析由WoS導出的數(shù)據(jù)中的分類號(Category),運行結果如圖3所示。
由圖3和表6可知,從發(fā)文量來看(圖中年輪的大小表示發(fā)文量的多少),LIS領域近兩年覆蓋的主要科學領域依次為:圖書館學情報學、計算機科學、健康護理科學與服務、醫(yī)學信息、政府與法律、法律、商業(yè)與經濟、管理領域。從PageRank維度來看,政府與法律的中性度最高,健康護理科學與服務、商業(yè)與經濟次之,圖書館學情報學、計算機科學、法律、管理緊隨其后。這表明,在圖書情報領域的高水平成果中,受網絡關注最高的是政府與法律領域。本研究樣本文獻構成的研究分布網絡顯示,上述研究領域互相交叉,這表明當前的學科研究趨勢正朝著以圖書館學情報學為主,以其他相關領域為輔的多學科交叉研究的方向演化。
5結論
本文依據(jù)Citespace的引文分析及可視化功能,在識別和探討LIS領域的研究熱點與前沿動態(tài)問題過程中,得出以下結論:
首先,通過對2014-2015年SSCI數(shù)據(jù)庫中27種核心圖書館學情報學期刊刊載的3287篇文獻進行研究,通過關鍵詞與主題的LLR聚類分析,發(fā)現(xiàn)傳統(tǒng)圖書館學情報學、管理科學、計算機科學以及醫(yī)療信息等領域的圖書館傳統(tǒng)服務和計量、信息需求與檢索、索引、信息檢索、組織工程、名稱匹配算法、網絡2.0、非源項、技術接受模型、三螺旋理論等主題是近兩年國際LIS領域的持續(xù)研究熱點。
其次,近兩年圖書館學情報學的研究主題不斷深化與擴展,當前的學科研究趨勢正朝著以圖書館學情報學為主,以其他相關領域為輔的多學科交叉研究的方向演化,同時,注重諸如計算機科學、健康護理科學與服務、醫(yī)學信息、政府與法律、法律、商業(yè)與經濟、管理等相關學科的先進理論、方法和技術的借鑒與應用,網絡關注度由高到低的領域為政府與法律、健康護理科學與服務、商業(yè)與經濟、圖書情報學、計算機科學、法律、管理。傳統(tǒng)LIS領域、管理科學領域、計算機科學領域以及醫(yī)療信息領域的知識管理、計量、h指數(shù)、高校圖書館、核心活動、國際合作、接受和使用技術的統(tǒng)一理論、IT治理等研究領域的相關主題將成為今后LIS領域的趨勢和重點。
最后,由于LIS是一個跨學科、可從多個角度的進行研究的領域,本研究不免存在局限性,但不失為一種有效地從限定時間段內的全樣本、公允性較高的數(shù)據(jù)中,探索數(shù)據(jù)之間的規(guī)律,從而為本領域的研究者提供客觀、實時、完整、有效的分析結果的方法。