郜康 竇一萍 朱袆卉 胡斯童 呂夢皓 馬攀
隨著科學技術日新月異的發(fā)展與醫(yī)學知識的不斷更新,本科生教學中采用的傳統(tǒng)教材由于更新再版的滯后性,已很難反映目前臨床上的前沿觀點與最新技術,因而需要學生在課后自行閱讀相關文獻以擴展自身視野,增加知識儲備。而在研究生培養(yǎng)中,醫(yī)學文獻的檢索與閱讀則成了其基石所在,學生需要通過不斷閱讀科學文獻以了解研究熱點與前沿,確定自己的研究方向,并在吸取前人經(jīng)驗教訓的基礎上,對自己的實驗方法進行完善與改進,最終做出有價值、高水平的科學研究。即便是從院校畢業(yè)后成為一名正式的醫(yī)務工作者,閱讀文獻對于他們拓寬課題立項思路、確保學術科研方向以及保障成果申報順利也都具有重要意義[1]。
在日常教學與文獻調研中[2.3],我們得知醫(yī)學生在文獻檢索與篩選中尚面臨一些問題。其中最大的一個問題在于面對浩如煙海的科學文獻時,他們有限的檢索能力與匱乏的閱讀經(jīng)驗往往令他們力不從心,二者間的矛盾常常使他們在知識的大門前望而生卻。一方面,醫(yī)學文獻具有類型復雜、數(shù)量龐大、增長快速、出版分散等特點[4],且正處于由傳統(tǒng)的紙質印刷型向數(shù)字化、網(wǎng)絡化發(fā)展的過渡時期,這些都對醫(yī)學生文獻檢索與篩選能力提出了很高的要求[5]。而另一方面,醫(yī)學生的文獻檢索課程大多是在本科階段以選修課的形式開設的,很多學生在學習時就有重視程度不足以及只是跟著老師一步一步操作而不愿“知其所以然”的現(xiàn)象,再加之日常學習中很少主動閱讀文獻,因而很多學生到了研究生階段“不得不”閱讀大量文獻時就出現(xiàn)了上述問題。我們嘗試將文獻計量學分析納入到教學中,希望能借助這一情報學領域的經(jīng)典方法幫助到面臨上述問題的醫(yī)學生,特別是那些具有科研選題與科研實踐需求的醫(yī)學研究生。
文獻計量學是一門應用數(shù)學與統(tǒng)計學等方法對文獻情報進行定量分析的學科[6],通過定量分析某一學科文獻,可以構建其知識結構并探索其發(fā)展趨勢,目前已被廣泛應用于許多研究領域[7-9]。從整體來看,這種分析方法與傳統(tǒng)的文獻綜述都是通過對以往研究進行整理,總結研究的現(xiàn)狀與不足,以期指導進一步的研究。所不同的是,文獻綜述更強調文章的內容性,即總結現(xiàn)有研究包括了哪些方面與不足,在撰寫時多是按照一個預先設定的研究脈絡引用已有文獻中具有代表性的論文。而文獻計量學分析更多強調的是對“量”的分析,不用詳細分析每一篇文獻的研究內容,而是對目標領域文獻的發(fā)表數(shù)量、作者分布、引文關系等進行分析,撰寫時引用的多是一些高被引的文獻。與傳統(tǒng)的文獻綜述相比,文獻計量分析能以可視化的方式更加直觀地對該領域的所有文獻進行系統(tǒng)分析,這有助于進入一個新領域的研究人員掌握領域的整體趨勢。文獻計量分析還有助于揭示領域的研究熱點與發(fā)展趨勢,并挖掘出那些具有里程碑意義的文獻。此外,目前的文獻計量分析軟件多簡單易用,例如HistCite、VOSviewer等,本文將介紹基于CiteSpace的這一分析方法。
CiteSpace[10,11]是由美國德雷塞爾大學陳超美教授開發(fā)的一款用于分析文獻數(shù)據(jù)的信息可視化軟件(圖1),可以以圖譜的形式展現(xiàn)科學和技術領域的知識地圖與信息全景,幫助剛進入該領域的研究人員建立全面的認識,有利于其分析學科的發(fā)展脈絡、識別研究熱點并預測未來的發(fā)展方向。我們將以microRNA在牙周病學與口腔種植學中的研究進展為例,從以下幾個方面簡要介紹CiteSpace的使用方法[12]。
2.1 功能介紹CiteSpace支持Web of Science(WoS)、Pubmed、知網(wǎng)等數(shù)據(jù)庫,相比而言,WoS的數(shù)據(jù)結構最為完整,支持所有項目的分析,而其他數(shù)據(jù)庫由于包含的數(shù)據(jù)完整性不同,支持分析的項目也有所不同。例如從知網(wǎng)導出的數(shù)據(jù)不包含參考文獻字段,則不能進行文獻的共被引分析。簡而言之,在選定研究項目與時間范圍后,通過在網(wǎng)絡配置區(qū)中選擇不同的節(jié)點類型,即可實現(xiàn)對文獻記錄不同目的的分析,并可通過裁剪功能對生成的網(wǎng)絡圖進行進一步精簡與優(yōu)化。
在網(wǎng)絡配置區(qū),節(jié)點提取依據(jù)(Selection Criteria)是一個設置相對較多的參數(shù),它用來設定在各個時間段內所提取對象的數(shù)量,該步驟可認為是對數(shù)據(jù)的精煉,以提取最具有影響力的數(shù)據(jù)進行可視化。例如在分析關鍵詞共現(xiàn)網(wǎng)絡時,選擇TOP N%并設定N=10,其含義為提取每個時間切片內頻次出現(xiàn)排名前10%的關鍵詞進行分析。
2.2 合作網(wǎng)絡分析 科學合作具有多種形式,Kataz和Martin將研究者們?yōu)樯a(chǎn)新的科學知識而在一起工作定義為科學合作[13]。在文獻計量學分析中,同一篇文獻中出現(xiàn)不同的國家/地區(qū)、機構或者作者即認為他們存在合作關系,可理解為宏觀、中觀以及微觀三個層次的合作關系,分別對應節(jié)點類型中的Country、Institution以及Author。
在合作網(wǎng)絡圖中,節(jié)點的大小代表了發(fā)文量的多少,不同顏色的年輪寬度代表了對應年份的發(fā)文量,節(jié)點間連線寬度代表了合作強度,連線的顏色表示了兩個節(jié)點首次合作的時間。以機構合作網(wǎng)絡圖(圖2)為例,山東大學、第四軍醫(yī)大學、伊利諾伊大學和四川大學是這一領域研究最多的幾所大學,由圖可知,他們各自擁有大量的合作伙伴,然而彼此之間的直接合作并不緊密。
2.3 期刊與學科分析 期刊與學科雙圖疊加功能可以在展示文獻間引用關系來龍去脈的同時幫助學生了解知識流向并確定所需重點關注的學科。在疊加圖中,左側是施引文獻所在的期刊分布,代表了目標領域所屬的主要學科,可以看作領域應用,右邊是被引文獻的期刊分布,代表了目標領域主要引用的學科,可以看作目標領域的知識基礎。二者之間的曲線的寬度代表了引證強度。如圖3所示,在這一領域,分子生物學/生物學/免疫學的研究最常被來自分子生物學/生物學/遺傳學的研究所引用??偟膩碚f,目前這一領域的研究主要集中在牙科、口腔外科與醫(yī)學、細胞生物學、生物化學與分子生物學等學科。
此外,CiteSpace的期刊共被引與聚類功能還可以自動分類具有相似刊文主題傾向的期刊,并從文獻中提取具有代表性的關鍵詞來表示這些傾向,了解期刊的收錄傾向則有助于學生在投稿時選擇到更合適的期刊。
2.4 關鍵詞共現(xiàn)與引文共被引分析 關鍵詞和主題聚類可以作為反映某一時期研究熱點的重要指標。在CiteSpace中,主要利用聚類與突現(xiàn)檢測功能尋找高價值關鍵詞/文獻、總結研究熱點以及預測研究趨勢。在引文共被引網(wǎng)絡圖中,關聯(lián)性高的被引文獻被劃分在同一聚類中。聚類的標簽由CiteSpace通過選取施引文獻中具有代表性的關鍵詞構成,在一定程度上反映了這一組文獻的研究熱點。而高價值的文獻在圖中對應節(jié)點處還被紅色或紫色的年輪環(huán)所充填。
由引文共被引分析圖(圖4)很容易推斷出microRNA在牙周病學與口腔種植學領域的研究熱點主要集中在了以下四個方面:牙周膜干細胞(聚類#0),牙周炎的病理過程(聚類#2、#3、#4、#5),成骨分化(聚類#1)以及內源性RNA競爭網(wǎng)絡(聚類#6、#7),其中,Xie YF[14],Stoecklin-Wasmer C[15]和Lee YH[16]三個人的研究具有較高的突現(xiàn)值(圖5 b)與共被引次數(shù)(表1),他們使用microarray技術測定了正常人和牙周炎患者牙周組織中microRNA的序列,篩選出了一批具有潛在研究價值的microRNA,他們的研究在這一領域是具有開創(chuàng)性意義的,為后來的學者在進一步研究中選擇研究目標打下了良好的基礎,因而在論文發(fā)表后的幾年內獲得了廣泛的關注(引文突現(xiàn))。關鍵詞突現(xiàn)檢測(圖5 a)也印證了上述結果,microarray從最開始就受到了廣泛的關注,并且是最早突現(xiàn)和持續(xù)時間最長的一個關鍵詞。
表1 高共被引次數(shù)的文獻
作為可視化分析軟件,CiteSpace不僅可以高度定制生成的網(wǎng)絡圖,例如配色、字號、形狀及節(jié)點是否顯示的閾值等,還能根據(jù)分析結果自動生成研究報告,有助于與其他人快速分享分析結果。
筆者認為,醫(yī)學生進入一個新的研究領域時應當遵循從整體到局部的原則。首先需要對海量的科學文獻建立起整體的認識,在此基礎上逐步深入,篩選出有價值的文獻并逐一閱讀,完成由廣度到深度的轉換。以往學生先泛讀,對檢索到的文獻有了直觀認識后再精讀,而筆者則建議先對目標領域進行文獻計量學分析,對領域有了整體認識后再閱讀具體文獻。
3.1 借助文獻增長規(guī)律了解發(fā)展趨勢 文獻是科學知識的客觀記錄,隨著科學技術的迅速發(fā)展,科學知識量會不斷增加,作為其載體的科學文獻也必然會隨之增長。觀察文獻增長情況是了解領域整體發(fā)展趨勢最為簡便的一種方法,借助數(shù)據(jù)庫提供的統(tǒng)計功能可以直觀感受到一個領域的興盛衰微。目前衡量文獻的增長情況通常有兩種方法,一種是統(tǒng)計每年出版文獻的累計總量,另一種是統(tǒng)計每年新出版的文獻數(shù)量。前者著眼于可用文獻總量的增長,后者則著重觀察領域發(fā)展的快慢變化[17]。
我們建議學生注意觀察那些科學文獻開始迅速增長的年份,因為這些年份可能發(fā)生過一些對行業(yè)有重大促進作用的事件,在科研領域最常見的則是實驗方法的改進或者新型材料的研發(fā)提高了領域整體的研究效率,在后續(xù)計量分析中,應當著重關注在這些年份附近發(fā)表的科學文獻。例如上述領域中的microarray,它是首批用于大量miRNA高通量分析的工具之一,被認為是比較與特定診斷相關的microRNA豐度時的一種合理的選擇[18]。microarray被應用到該領域的幾年后受到了持續(xù)的關注,Xie等人借助這一技術所取得的成果為這一領域的發(fā)展奠定了堅實的基礎[14-16]。此外,政策的支持與科研經(jīng)費的傾斜也可能是造成文獻數(shù)目激增的原因之一,借助CiteSpace還可以對科研基金進行耦合分析,在此不再贅述。
3.2 關注文獻分布特征 文獻的分布遵循著一定的規(guī)律,反映了科研活動及其產(chǎn)出的分布規(guī)律性。其中,集中規(guī)律是文獻分布最普遍的基本規(guī)律之一,主要體現(xiàn)在文獻信息的集中傳播和生產(chǎn)能力的集中,前者表現(xiàn)在某一學科的大部分文獻高度集中在少數(shù)期刊中,而后者表現(xiàn)在某一學科的大部分成果是由少數(shù)的科學家生產(chǎn)的。
如前文所述,借助期刊共被引功能可以幫助學生了解期刊收錄主題的傾向,一方面,關注收錄自己感興趣學科較多文獻的期刊,可以第一時間了解到目標領域的最新研究進展,而另一方面,也有助于在投稿時選擇更加合適的期刊。除此之外,較以往的學科共現(xiàn)圖譜,新版CiteSpace提供的期刊與學科雙圖疊加功能展示的信息更加豐富,其引證曲線完整地展示了引用的來龍去脈。通過觀察領域的學科分布,可以在一定程度上幫助學生了解該領域的研究類型。而通過對合作網(wǎng)絡進行分析,可以了解目標領域的研究中心在哪,進而找出對這一領域貢獻大的學科領頭人,以持續(xù)追蹤研究進展,緊跟研究前沿。
3.3 引文共被引分析與關鍵詞共現(xiàn)分析 引文共被引分析與關鍵詞共現(xiàn)分析是CiteSpace的核心功能。關鍵詞共現(xiàn)分析的基本原理是兩兩統(tǒng)計一組詞在文獻中出現(xiàn)的次數(shù)并以此測度二者之間的關聯(lián)強度。與之相似,在引文共被引分析中,兩篇文章共同被第三篇文章引用,則這兩篇文章構成共被引關系[19]。共被引強度越高,說明兩篇文章關聯(lián)性更強,研究主題更接近。這種借助引文關系的分析方法可以避免在分析熱點時發(fā)文量多的作者和機構對數(shù)據(jù)產(chǎn)生的影響。
在共被引分析中,高價值的文獻有兩類,年輪環(huán)分別被紫色和紅色所充填。具有紫色年輪環(huán)的文獻,說明其具有高的中介中心性。這一類文獻通常在圖中連接了兩個不同領域的關鍵樞紐,意味著它們的研究有可能整合了不同領域的研究成果,因而值得關注。
而使用了突現(xiàn)檢測功能后,節(jié)點的某些年輪被紅色填充,說明在對應時間范圍內該節(jié)點存在突發(fā)性變化,即被引頻率曾經(jīng)或仍在急速增加,例如一些具有劃時代意義的技術發(fā)明往往在短時間內即引起廣泛的關注。關注具有突發(fā)性變化的節(jié)點,將有助于找到那些對目標領域影響力大的研究并以此預測研究的趨勢。
我們建議學生在時間維度上綜合分析引文網(wǎng)絡的聚類標簽、重點關鍵詞以及高價值文獻,借此找出特定時期的研究熱點及趨勢,建立起整體的認識后再閱讀文獻將有助于他們更快、更準確地篩選出有價值的文獻,并在此基礎上進一步檢索、篩選出更多自己感興趣的文獻加以閱讀。
3.3 靈活使用分析工具 值得注意的是,CiteSpace作為一款工具,在實際分析時應當根據(jù)使用需要靈活選擇其功能,必要時還可搭配其他工具。例如在分析研究前沿與知識基礎時,可以進行文獻的共被引分析或者施引文獻的耦合分析。在分析科學領域結構時,可以進行學科共現(xiàn)分析或期刊的共被引分析。一旦文獻的數(shù)據(jù)集確定,不同的分析類型只是揭示的立足點不同,得到的核心結果應該是相同的。如前所述,除CiteSpace外,還有一些優(yōu)秀的文獻計量分析工具可供選擇,例如VOSviewer便因其簡單易用的特點深受廣大研究人員喜愛[20],而在進行一些基礎的數(shù)據(jù)統(tǒng)計時,如每年發(fā)文量、引用增長情況等,各大數(shù)據(jù)庫網(wǎng)站提供的分析工具也足以勝任。
本文對基于CiteSpace的文獻計量學分析方法做了簡要介紹,論述了如何借助這種分析方法幫助醫(yī)學生篩選出有研究價值的文獻。我們希望學生可以通過這種分析方法,在開始選題或者進入一個新領域時可以迅速地建立起全面的認識,了解研究的熱門與趨勢,并在此基礎上選擇出自己感興趣的研究前沿,有針對地去閱讀一些關鍵文獻與前沿文獻。此外,我們還建議在實際操作時應當根據(jù)需求靈活選擇分析軟件與功能,使這些工具真正成為醫(yī)學生科研之路上的良師益友。