■祝清松
中國電子科技集團公司第三十八研究所《雷達科學與技術》編輯部,安徽省合肥市高新區(qū)香樟大道199號 230088
科技文獻之間的相互引用形成學術引文網絡,表明了新知識對原有知識的使用情況,揭示出學術研究的動態(tài)變化,這對于發(fā)現(xiàn)學科間的關聯(lián)及進行學科發(fā)展趨勢分析和預測具有重要作用[1]??萍嘉墨I的引文價值是測度學術引文網絡中具有引用關系的科技文獻之間關聯(lián)程度的文獻計量指標,主要度量被引文獻對施引文獻的學術參考價值。
目前對科技文獻引文價值的測度主要基于引文分析展開研究。引文分析經過數十年的發(fā)展,在理論研究和實踐應用方面都取得了長足進展,已經廣泛應用于科學知識評價、科學發(fā)展模式揭示和科學前沿探測等方向[2],對科技創(chuàng)新和決策具有重要的支撐作用。然而,傳統(tǒng)引文分析將所有引文賦予相同權重,在此基本假設下,引文分析的相關測度主要基于被引頻次這個核心計量指標展開。由于同一施引文獻引用不同被引文獻的動機并不相同,因此只通過被引頻次并不能揭示出被引文獻對施引文獻所貢獻的學術價值。隨著全文本文獻可獲取性的不斷提高和文本挖掘技術的持續(xù)發(fā)展,基于全文本內容的引文分析將成為下一代的引文分析。Ding等[3]提出基于引文內容的語法和語義分析框架,分析了引文內容分析的潛在價值及應用方向,并將其作為傳統(tǒng)引文分析的有效補充。目前引文價值測度還停留在傳統(tǒng)引文分析層面,有必要對其進行改進。
因此,本文在相關研究基礎上,深入全文本內容來分析影響引文價值測度的關鍵因素,并提出基于關鍵影響因素的改進方法。改進方法能夠有效揭示施引與被引文獻之間的語法和語義關聯(lián),從而更好地測度被引文獻對施引文獻所貢獻的學術價值??萍计诳倪x題策劃和組稿約稿主要圍繞領域當前的研究熱點和發(fā)展趨勢展開。改進方法可以識別出學科領域中具有高引文價值的一組科技文獻簇,并通過對文獻簇的主題演化分析,進而更有效地揭示出科技文獻簇所表征研究領域的研究熱點和前沿趨勢,有利于領域科技期刊更有針對性地開展選題策劃和組稿約稿等編輯出版工作。
引文關系是科技文獻引文價值測度的關鍵。引文關系包括直接引文關系和間接引文關系,前者即直接引用關系,引文之間是施引與被引文獻的關系,后者指引文之間需要通過另一篇引文進行關聯(lián)的關系。參照Small給出的定義[4],間接引文關系可分為共引、耦合和傳遞三種關系。其中,傳遞關系的定義為:如果文獻A引用了文獻B,文獻B引用了文獻C,那么文獻A和文獻C之間即為傳遞關系。
目前具有代表性的引文價值測度方法包括Combined Linkage(CL) 算 法[4]、 Weighted Direct Citations(WDC) 算法[5]、Normalized Similarity Index(NSI)算法[6]。這些代表性算法所涉及直接引文關系的情況及間接引文關系的類型如表1所示。
表1 引文價值測度方法
為凸顯直接引文關系的重要性,CL算法將直接引文關系的權重設置為間接引文關系的兩倍。CL算法的計算公式如下:
WDC算法沒有涉及直接引文關系,僅利用了共引和耦合兩種間接引文關系來測度引文價值。WDC算法的計算公式如下:
NSI算法使用Jaccard方法進行標準化處理,代替了CL算法的平方根方法,計算結果更加合理。NSI算法的計算公式如下:
式(1)~(3)中,i和 j分別表示施引與被引文獻,(Ai,mAj,m, Ai,mAm,j, Am,iAm,j)表示三種間接引文關系,Cij表示直接引文關系。因為基于傳統(tǒng)引文分析的學術引文網絡是二值圖,而且i和j為直接引文關系,所以Cij只能用1來表示。因此,目前引文價值測度方法充分考慮各種間接引文關系,但忽略了最直接、最本質的直接引文關系。這是本文對引文價值測度方法改進的主要出發(fā)點。
引文價值測度忽略直接引文關系的問題本質上而言是被引頻次的權重問題。很多學者都針對該問題展開了研究,旨在對被引頻次進行修正。如在期刊評價方面,Moed和Zitt等[7-8]文獻計量學家提出了從施引文獻的引文數量角度對被引頻次進行改進的建議;針對不同主題領域的學科特性差異導致引文影響力評價存在的比較有效性問題,Moed在Garfield領域“引用潛力”指標的基礎上,提出了可以測度不同主題領域引文影響力的SNIP指標,其利用了來源標準化的方法,通過篇均引文數來校正不同主題領域引用行為的差異。但是,這些對被引頻次的修正仍然是從引文數量的角度出發(fā),而沒有從引文質量的角度思考。
隨著基于全文本內容引文分析的發(fā)展,引文分析的對象正在從篇向節(jié)、段、句深入,這使得引文分析的顆粒度更加精細化。如Ding等[9]提出了一種通過統(tǒng)計被引文獻在施引文獻全文中被提及的次數來計算總被引頻次的方法。這種基于全文本內容的引文分析與傳統(tǒng)的引文分析相比,可以更全面地揭示引文真實的被引頻次,可以更好地用于預測和挖掘新的高被引論文,在科學評價和科學預見等領域有著非常重要的應用價值[10]。以上這些研究為本文對引文價值測度的改進提供了借鑒作用。
針對目前科技文獻引文價值測度存在的問題,本文從基于全文本內容引文分析的視角出發(fā),歸納出影響引文價值測度的關鍵因素,旨在為引文價值測度方法的改進提供思路。經過總結與分析,本文將引文價值測度的關鍵影響因素歸納為語法和語義兩個層面,前者涉及引用頻次和引用位置,后者涉及引用類型和引用主題,如圖1所示。
圖1 引文價值測度的關鍵影響因素
引用位置是指施引文獻在全文中引用被引文獻的章節(jié)。引用位置直接反映了施引文獻的引用動機,即出現(xiàn)在不同章節(jié)的被引文獻對施引文獻的貢獻不同,在方法、實驗、結論等部分引用的引文往往比在引言、研究現(xiàn)狀或背景等部分引用的引文對施引文獻的學術價值更大。Halevi等[13]將引用位置分為引言、文獻綜述、方法論、結果、討論和結論。劉盛博[14]將引用位置分為引言、背景、方法、數據、結果、應用、討論和結論,并通過實驗發(fā)現(xiàn)在各個章節(jié)中引用文獻的目的性具有明顯差別:在引言中引用時,通常是陳述別人工作;在背景中引用時,除了陳述他人工作外,還會指出本文的研究特點;在方法中引用時,主要介紹施引文獻本身所使用的方法等。
引用類型是指通過對引用內容的語篇分析來識別施引文獻引用被引文獻的動機。引用內容是被引文獻出現(xiàn)在施引文獻全文中的句子或上下文,是施引文獻對被引文獻的重新組織。Small[15]將引用內容作為觀點表達的概念符號,認為將共被引聚類和被引內容分析結合起來能夠更好地揭示研究領域的知識基礎。引用類型主要包括引用功能(被引文獻對施引文獻的作用,如背景、基礎、比較等)和觀點傾向(施引文獻對被引文獻的態(tài)度或立場,如肯定、否定、中立等)兩種定義。不同引用功能和觀點傾向的被引文獻對施引文獻的學術價值不同。Nanba等[16]將引用類型分為類型B(將其他研究者的理論或方法作為理論基礎)、類型C(與相關工作進行比較,指出存在的問題或差距)和類型O(其他類型)三種。許德山[17]將引用類型分為理念引用、論據引用、參考引用和敘述引用。
科技文獻符合一定的主題分布規(guī)律,而且可以通過一組揭示其主要研究內容的主題詞來表征。因此,施引與被引文獻都可以用一組主題詞來表征各自的主題分布,并通過主題分布的相似度來測度被引文獻對施引文獻的學術價值。與施引文獻主題分布越一致的被引文獻對施引文獻的貢獻和價值越大。Liu等[18]基于此假設提出了利用有監(jiān)督主題模型(LLDA)和網絡分析算法(PageRank)來提高傳統(tǒng)文獻計量分析的全文本引文分析方法。其中,利用LLDA來表示文獻和引文的主題分布,并用頂點表示文獻,邊表示引文。文獻和引文的主題概率分布就可以轉換成頂點的先驗概率分布和邊的轉移概率分布,形成主題加強的引文圖。
通過以上分析可知,引用頻次、引用位置、引用類型和引用主題都對科技文獻引文價值的測度有很大影響。在相關研究的基礎上,本文提出一種基于關鍵影響因素的引文價值測度改進方法。為了更有針對性地論述改進方法,本文對間接引文關系不再贅述,僅闡述對直接引文關系的改進,并用Vdir表示基于直接引文關系的引文價值。被引文獻的引文價值由引用頻次、引用位置、引用類型和引用主題四個分量構成,分別用Vfre,Vpos,Vtyp和Vsub表示,其權重分別用a,b,c和d表示,且a+b+c+d=1。本文中測度引文價值的計算公式如下:
權重的設置表征了各個關鍵影響因素對引文價值測度的重要程度。本文對4個關鍵影響因素賦予相同權重,均設置為0.25。
以韓國高麗大學Shin研究團隊有關碳納米管纖維的一篇科技文獻為例。這篇文獻的正文包含了引言、實驗、結果與討論、結論四部分,并引用了6篇參考文獻,例文章節(jié)結構及引用情況如圖2所示。本文選取的實例主要是為了說明改進方法的基本思路,實際應用時還需要根據科技文獻的篇章結構、參考文獻情況等進行適當調整。
被引文獻在施引文獻全文中以特定的形式進行標記,即引用標記,如例文中的[2,3]和[4-6]等。引用頻次即通過識別引用標記來獲得。
Maricic等[19]將引用位置分為引言、方法、結果、討論或結論四部分,權重分別設置為15、30、30、25。本文以此為參考,給出引用位置的權重,如表2所示。
表2 引用位置的權重設置
本文借鑒許德山[16]依據情感傾向和使用類型給出的引文利用價值量化強度指標,如表3所示。引用類型的確定利用線索詞匹配的方法。
圖2 例文章節(jié)結構及引用情況
表3 引用類型的權重設置
利用C-value算法識別施引與被引文獻的主題分布,并選取排名前10的核心主題詞進行表征,結果如表4所示。通過核心主題詞匹配的方法測度施引與被引文獻的引用主題相關度。
根據實例分析的方法、數據和權重,得到例文的引文價值測度結果,如表5所示。
表4 施引與被引文獻的核心主題分布
由表5可知,被引文獻(4)的引文價值最大,其次是被引文獻(5)、(6)和(2),被引文獻(1)和(3)的引文價值最小。通過人工判讀分析可知:被引文獻(4)出現(xiàn)在施引文獻的實驗部分,借鑒其從多壁碳納米管紡出碳納米管纖維的方法,為施引文獻的研究提供了方法論,且被引了3次,表明其對施引文獻的貢獻較大;被引文獻(4)還與被引文獻(5)和(6)一起出現(xiàn)在結果和討論部分,為施引文獻實驗結果的討論提供了對比數據,且被引文獻(5)和(6)被引兩次;被引文獻(1)、(2)和(3)僅出現(xiàn)在引言部分,只提供了施引文獻研究的背景信息,表明其對施引文獻的貢獻較小。通過分析可知,實驗結果具有一定的合理性,在一定程度上驗證了本文改進方法的可行性。
實例分析針對的是單篇施引文獻中多篇被引文獻的引文價值測度情況,主要為了闡述改進方法的基本思路。在實際應用中,單篇被引文獻在多篇施引文獻中的引文價值測度情況更有意義,其對應傳統(tǒng)引文分析中的被引頻次。高引文價值的科技文獻相比高被引頻次的科技文獻對學科領域研究創(chuàng)新的學術價值更大。另外,除了對單篇文獻的引文價值測度,本文方法可推廣到科技期刊的引文價值測度,用于評價科技期刊在領域研究創(chuàng)新中所貢獻的實際學術價值。
本文針對目前科技文獻引文價值測度存在的問題,從基于全文本內容引文分析的視角出發(fā),從語法和語義兩個層面歸納出了影響引文價值測度的關鍵影響因素。在此基礎上,本文提出了引文價值測度的改進方法,并通過實例分析驗證了改進方法的可操作性和可行性。
基于全文本內容的引文分析使引文分析從數量角度轉向質量角度。隨著科技文獻全文數據變得越來越易得,尤其是結構化的全文數據,如Elsevier的XML全文數據,可以方便地從施引文獻全文中識別出引用頻次、引用位置、引用內容等信息[20]。這為本文提出的改進方法提供了數據基礎。另外,基于間接引文關系的引文價值測度方法還受到文獻數據庫收錄范圍的限制,數據庫的差異會導致測度結果的不同,而基于直接引文關系的引文價值測度方法不受此限制,結果更加客觀有效。
本文研究更多還是理論分析,下一步工作需要通過更多的領域實驗來驗證改進方法的普適性和應用性。尤其是需要進一步研究關鍵影響因素的權重設置,以及引用位置和引用類型的分類等問題。另外,引用類型的識別需要構建線索詞庫,在相關研究的基礎上還要注意數據的差異性研究。
[1]Hey T,Tansley S,Tolle K.第四范式:數據密集型科學發(fā)現(xiàn)[M].潘教峰,張曉林,等譯.北京:科學出版社,2012:199.
[2]梁永霞.引文分析學知識圖譜[M].大連:大連理工大學出版社, 2012:118.
[3]Zhang G, Ding Y, M ilojevic S.Citation content analysis(CCA): A framework for syntactic and semantic analysis of citation content[J].Journal of the American Society for Information Science and Technology, 2013, 64(7): 1490-1503.
[4]Small H.Update on sciencemapping: creating large document spaces[J].Scientometrics, 1997, 38(2): 275-293.
[5]Persson O.Identifying research themes w ith weighted direct citation links[J].Journal of Informetrics, 2010, 4(3): 415-422.
[6]Nassiri I, Masoudi-Nejad A, Jalili M, et al.Normalized sim ilarity index:An adjusted index to prioritize article citations[J].Journal of Informetrics, 2013,7(1): 91-98.
[7]Zitt M.Citing-side normalization of journal impact: A robust variant of the audience factor[ J].Journal of Informetrics,2010, 4(3):392-406.
[8]Moed H F.Measuring contextual citation impact of scientific journals[J].Journal of Informetrics, 2009, 4(3):265-277.
[9]Ding Y,Liu X, Guo C, et al.The distribution of references across texts: Some implications for citation analysis[J].Journal of Informetrics, 2013,7(3):583-592.
[10]胡志剛,陳超美,劉則淵,等.從基于引文到基于引用:一種統(tǒng)計引文總被引次數的新方法[J].圖書情報工作,2013,57(21):5-10.
[11]Herlach G.Can retrieval of information from citation indexesbe simplified?Multiplemention of a reference as a characteristic of link between cited and citing article[J].Journal of the American Society for Information Science, 1978, 29 (6):308-310.
[12]LieversW B, Pilkey A K.Characterizing the frequency of repeated citations: The effects of journal, subjectarea, and selfcitation[J].Information Processing and Management, 2012,48(6): 1116-1123.
[13]Halevi G, Moed H F.The thematic and conceptual flow of disciplinary research:A citation context analysis of the journal of informetrics, 2007 [ J].JournaI of the American Society for Information Science and Technology, 2013, 64(9): 1903-1913.
[14]劉盛博.科學論文的引用內容分析及其應用[D].大連:大連理工大學,2014.
[15]Small H G.Cited documents as concept symbols[J].Social Studies of Science, 1978,8(3): 327-340.
[16]許德山.科技論文引用中的觀點傾向分析[D].北京:中國科學院文獻情報中心,2012.
[17]Nanba H, Kando N, Okumura M.Classification of research papersusing citation linksand citation types:Towards automatic review article generation[C].Proceedings of the SIG Classification Research Workshop, 2000:117-134.
[18]Liu X, Zhang J, Guo C.Full-text citation analysis: A new method to enhance scholarly networks[J].Journal of the American Society for Information Science and Technology,2013,64 (9):1852-1863.
[19]Maricic S, Spaventi J, Pavicic L, et al.Citation context versus the frequency counts of citation histories[J].Journal of the American Society for Information Science, 1998, 49(6):530-540.
[20]胡志剛,陳超美,劉則淵,等.基于XML全文數據引文分析系統(tǒng)的設計與實現(xiàn)[J].現(xiàn)代圖書情報技術,2012,28(11):72-77.