張素芳 劉慧敏
華南師范大學經(jīng)濟與管理學院 廣州 511400
科學系統(tǒng)包含了大量元素和鏈接,研究者對學術(shù)論文的引文動態(tài)和科學演變越來越感興趣。被引頻次在一定程度上反映了論文受到的關(guān)注程度,然而通常只有少數(shù)的研究論文積累了絕大多數(shù)的被引頻次,而其他大多數(shù)論文只吸引了少數(shù)的其它論文的引用[1]。也就是說,一些研究論文比其他研究論文更有可能吸引研究者的注意。對于不斷增長的文獻數(shù)量,預測哪篇論文更有可能引起學術(shù)界的關(guān)注是很重要的。因此,被引頻次預測成為目前文獻計量領(lǐng)域的一個新的研究方向。該研究主題已經(jīng)涌現(xiàn)了不少的論文,在研究建模過程中,一些研究人員被大量的低被引頻次的論文所困擾,方法和影響因素特征的選擇多樣化,導致研究的重復累贅,盡管已經(jīng)有學者對該主題進行系統(tǒng)性的綜述,但是主要集中在影響因素和研究方法上,還未有學者從研究人員如何介入該領(lǐng)域研究提出有效的解決方案?;诖耍疚氖崂砹苏撐谋灰l次的影響因素,面向預測任務(wù),將被引頻次預測分為回歸任務(wù)和分類任務(wù),闡述這兩個方面單篇論文被引頻次的研究方法、論文的研究對象形式和預測周期等,最后根據(jù)現(xiàn)有研究中的普遍問題提出一些方案,以期為后續(xù)研究者提供借鑒和參考。本文主要的梳理框架如圖1所示:
圖1 綜述框架
學術(shù)論文的被引頻次預測已經(jīng)被廣泛地研究,在這些被引頻次預測的研究中,研究人員往往關(guān)注什么因素會影響論文的被引量,從而篩選重要的影響因素來對引文的被引量進行預測。F. Didegah和M. Thelwall[2]認為,論文引用動機復雜,引用者對論文的智力認知是論文被引量的內(nèi)在因素,其可以通過訪談和問卷進行調(diào)查,但是其具有耗時的缺點,并且由于引用動機的復雜性和學科依賴性,這種定性研究通常只涉及一小部分學者樣本,而外部因素可以大規(guī)模地量化和計算,因此可以用來預測未來的引文影響。影響被引率的外在因素包括被引用論文的作者、摘要、期刊、領(lǐng)域和參考文獻以及論文本身等屬性特征。本文研究僅局限于外部動機,將這些因素歸納為論文本身、作者、期刊、其他四大類。
在與論文相關(guān)的影響因素中,與被引頻次相關(guān)的主要因素之一是論文的主題,論文的主題是論文研究內(nèi)容的核心,它可以用來預測論文未來被引頻次[3]。論文的內(nèi)容可以從三個維度進行評價——論文所研究的主題的關(guān)注度、主題新穎性、主題的多樣性。熱門的主題通常也會吸引更多的關(guān)注和更多其它論文的引用[4],論文主題新穎也會增強其影響力和被引率[5],論文主題越有吸引力和新穎性越高,它被引頻次可能就會越多。此外,所研究的主題范圍和主題領(lǐng)域?qū)⒂绊懕灰l次,論文研究主題的多樣性會給論文的被引頻次帶來影響[6]。
在主題的識別研究中,大多數(shù)研究者都是使用隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型或其衍生模型進行主題識別,進而計算其主題的關(guān)注度/熱度、新穎性、多樣性等指標。主題關(guān)注度的測度主要從累計被引的角度進行計算,多樣性的測度主要從信息熵的角度進行計算,新穎性的測度主要從同行評議、引用、內(nèi)容三個角度進行計算[7],除去同行評議,另外兩種方法(引用對的共現(xiàn)頻率和主題內(nèi)容的共現(xiàn)頻率)都是基于一種共現(xiàn)思想進行考慮的。關(guān)于內(nèi)容新穎程度的研究有許多,但其研究的角度大致相同。
參考文獻的數(shù)量、權(quán)威度以及論文中參考文獻的多樣性也會增加論文的被引頻次[8]。參考文獻數(shù)量多的研究與較高的被引率相關(guān)[9]。平均參考文獻年份越年輕的論文,可能獲得更多的被引量,引用“舊出版物”的論文被引量明顯減少[10],因為論文信息隨著時間的流逝會過時[11]。一般來說,在發(fā)表后的前幾年,被引頻次達到峰值,隨著時間的推移,被引頻次逐漸減少。此外,參考文獻的權(quán)威度(累計被引頻次[12])和多樣性(施引文獻所屬研究領(lǐng)域[6]和跨國籍[2])也會對論文引文率產(chǎn)生影響。
還有研究發(fā)現(xiàn),某些類型的文檔比其他類型的文檔獲得更多的被引,如綜述論文比研究論文的被引用更多[13]。基金資助是科學研究的重要經(jīng)濟來源,充足的經(jīng)費可以使研究得到較好的物質(zhì)保障,一般來說,獲得更高水平資助的研究項目的論文能比未受資助的論文獲得更多的被引[8]。在一些研究中,論文早期被引率及其速度也被認為是其未來被引的預測因素[6]。論文早期被引是科學界對這篇論文的早期反饋,其被引速率在一定程度上反映了論文在科學界的傳播速度。論文的長度(其頁數(shù))也是增加被引頻次的因素之一[8],因為較長的論文包含了更多的信息[14]。論文的標題是整篇論文內(nèi)容最濃縮的概括,也是研究學者搜索論文最先看到的內(nèi)容,因此也有研究學者對這方面的內(nèi)容進行了研究,H. R. Jamali和M. Nikzad[15]認為,一個信息豐富的標題可以增加論文的被引次數(shù),但標題長度和被引之間沒有顯著的相關(guān)性,相對于被引頻次,標題特征對下載次數(shù)的影響更大[16]。開放獲取是指論文的可訪問性和可見性,能夠閱讀全文作者才能從該篇論文中獲取自己需要引用的內(nèi)容,因此發(fā)表在開放獲取期刊上的論文,往往比發(fā)表在非開放獲取期刊上的論文被引量更多[817]。
與論文相關(guān)的影響因素研究范圍非常廣泛,除了以上研究得比較多的影響因素,國外學者還對論文的方法論/研究設(shè)計、章節(jié)特征、是否使用數(shù)據(jù)/附錄等方面進行了詳細的研究[18]。盡管有論文研究這些因素在某些領(lǐng)域上與被引率是有相關(guān)性的,但在不同領(lǐng)域的研究中,這些因素與被引率不一定產(chǎn)生關(guān)系,或者只有微弱的關(guān)系。這些研究經(jīng)常忽略不同學科的差異[19],其實一些影響因素都是具有明顯的學科領(lǐng)域特征的,因此,構(gòu)建普適性的綜合指標并不是很好的選擇。筆者對以上綜述的影響因素進行了整體歸納,如表1所示:
表1 論文相關(guān)影響因素及描述
與作者相關(guān)的因素也會對論文的被引頻次產(chǎn)生影響。作者的數(shù)量是一種表明研究合作程度的衡量標準。高質(zhì)量的論文往往涉及多個科研人員的合作,作者合著(特別是國際上的合作[20])能增加論文的被引率[21]。然而,有一些研究卻發(fā)現(xiàn)了相反的結(jié)果,證明國際合作與論文被引頻次之間并無特別的聯(lián)系[8]。隨著引文時間窗口變長,作者數(shù)量與引文之間的相關(guān)性也會減弱[22]。但也有研究報告指出,不同領(lǐng)域的作者合作能增加論文的被引率[23]。因此,作者之間的合作是否影響論文的被引頻次存在著較大的分歧。
此外,論文作者數(shù)量和自引數(shù)呈正比的關(guān)系[24],但是,有研究發(fā)現(xiàn),自引率與非自引率的比例隨著論文積累的總被引頻次的增加而降低,自引往往集中出現(xiàn)在論文出版后的很短的時間內(nèi)[25]。因此從宏觀角度看,在分析論文被引時不需要在分析中排除自引[26]。
著名作者在其研究領(lǐng)域有著較高的聲望,其論文往往會有較高的被引量[27]。馬太效應使具有高被引特征的作者發(fā)表的論文比具有低被引特征的作者發(fā)表的論文更能獲得其它論文的引用[12]。因此,作者之前的論文的被引頻次可以被認為是對未來論文被引的一個很好的預測因素[28]。H指數(shù)是用來衡量科學界研究者能力的最常用的標準[29],聲望高的作者H指數(shù)往往很高,因此,在研究作者某一個領(lǐng)域的聲望對論文被引量的影響時,常用H指數(shù)作為一個計量的指標。作者所屬機構(gòu)的聲望很大部分依賴于作者。一般來說,排名高的學校的論文會有更多的被引量[30]。
除此之外,關(guān)于作者的人口統(tǒng)計學特征也被納入到測量指標之中。有研究發(fā)現(xiàn),白人和男性比非白人和女性有更高的影響力[31]。但也有研究表明人口統(tǒng)計學特征對于論文是否被引并無顯著性的影響[32]。
筆者對作者相關(guān)的影響因素做了以下的歸納,如表2所示:
表2 作者相關(guān)影響因素及描述
除了與論文與作者相關(guān)方面的影響外,有研究發(fā)現(xiàn)論文的被引頻次的主要決定因素是期刊層面的因素[33]。論文在出版期刊上獲得的平均被引量可以預測論文未來的被引量[6]。研究者在發(fā)表論文時往往會更傾向于發(fā)表在具有高影響力的刊物上,以提高他們論文的可見性,從而獲得更高的被引量。研究證明,在具有高影響力的期刊上發(fā)表論文能比在低影響力的期刊上發(fā)表的論文更容易獲得高被引[34]。盡管大量研究都證明了期刊的影響力與論文的被引量存在正相關(guān)關(guān)系,但是也有一些研究發(fā)現(xiàn),期刊影響因子不一定是被引頻次預測的影響指標[35]。也有研究者使用出版物的總被引量、生產(chǎn)力(刊載論文數(shù))作為研究的影響因素之一[36]。除此之外,部分研究認為期刊的語種對于論文被引率來說也是有一定的影響的[32],特別是英語期刊[12],會積累更多的被引量。以下是本文對期刊相關(guān)影響因素的歸納,如表3所示:
表3 期刊相關(guān)影響因素及描述
隨著研究的不斷深入,出現(xiàn)了社交網(wǎng)絡(luò)、時間等因素等新的研究視角。研究者開始分析社會網(wǎng)絡(luò)活動和文獻計量學之間的潛在聯(lián)系[37]??琢岬萚38]在歸納相關(guān)影響因素時,增加了替代計量角度的因素,但替代計量因素針對的是開放學術(shù)網(wǎng)絡(luò)平臺及社交網(wǎng)站進行研究,與傳統(tǒng)的學術(shù)論文網(wǎng)站存在一定的區(qū)別。除了社交網(wǎng)絡(luò)外,學術(shù)引文網(wǎng)絡(luò)也是一個很重要的因素。為了衡量作者的社交性,R. Yan等建立了一個作者協(xié)作網(wǎng)絡(luò),并用PageRank遞歸地計算了社交性[39]。由于學術(shù)論文的引用具有半衰期屬性,所以時間因素對于論文的被引頻次預測來說也是一個非常具有研究價值的因素。E. Butun和M.Kaya將作者的引文網(wǎng)絡(luò)和時間因素相結(jié)合,引入一個時間鏈路指標,考慮作者引文網(wǎng)絡(luò)的演化趨勢,利用復雜網(wǎng)絡(luò)中的局部和全局拓撲結(jié)構(gòu),根據(jù)引文網(wǎng)絡(luò)中的鏈路來預測鏈接的權(quán)重,這是第一個使用定向、加權(quán)和時間引文網(wǎng)絡(luò)來進行被引頻次預測的研究[40]。
筆者對其他類因素進行了歸納,如表4所示:
表4 其他影響因素及描述
隨著科學計量的發(fā)展,眾多的研究方法被引進到被引頻次預測研究中。從任務(wù)導向出發(fā),可以將預測問題定義為回歸問題,也可以將預測問題定義為分類問題?;貧w問題中,主要的研究方法分為以下三類:傳統(tǒng)的回歸分析方法、機器學習方法、深度學習方法。而分類問題,則主要是使用機器學習的方法進行研究。在引入的多種方法中,每種研究方法都有其特性和適用性。
將被引頻次預測定義為回歸問題,是指利用一篇論文的相關(guān)特征,預測這篇論文在某個時間節(jié)點的被引頻次[41]。回歸是目前最常用的一種預測方法[42]。本文將從傳統(tǒng)的回歸方法、機器學習方法和深度學習方法三個方面梳理論文的被引頻次預測研究現(xiàn)狀。
3.1.1 傳統(tǒng)回歸預測
在預測回歸問題上,早期研究人員更多地使用傳統(tǒng)的線性回歸方法進行擬合研究,C.Lokker等[43]人使用了17個參考文獻相關(guān)特征和3個期刊相關(guān)特征來預測臨床論文兩年被引頻次,其多元回歸預測結(jié)果訓練集的決定系數(shù)r2為0.60,測試集的決定系數(shù)r2為0.56,在進行被引頻次預測敏感度分析時,被引頻次排名前半部分和前三分之一的論文特異性為72%和82%,回歸預測對于高被引論文的預測效果更好,該結(jié)論并不僅僅在這篇文章中得到體現(xiàn),G. Abramo等[44]的研究中也有提及,其反映的事實是絕大多數(shù)論文是低被引的,只有少部分論文是高被引的[36]。T. Yu等[28]采用多元逐步回歸的方法,從論文的外部特征、作者的特征、發(fā)表期刊的特征和被引論文的特征中選擇好的特征變量,建立一個描述特征與引文影響之間關(guān)系的模型,用于預測論文發(fā)表5年后的被引頻次。L. Bornmann等[45]使用了WoS數(shù)據(jù)庫中1980年發(fā)表的所有論文,涵蓋各個學科,總計約50萬篇學科文獻,以發(fā)表后的第31年被引頻次作為因變量,進行論文的長期影響預測,研究發(fā)現(xiàn),只有論文發(fā)表后前幾年的被引頻次能顯著提高論文的長期影響預測,同樣的研究結(jié)果也被G. Abramo等發(fā)現(xiàn)。G. Abramo等[44]使用了兩種線性回歸模型,預測的平均準確性對于兩年以上的引文時間窗口是良好的,三年的引文時間窗口足夠預測科學文獻的長期影響,該模型對于低被引的科學文獻預測準確率較低,并且不同學科的準確率也不同。程子軒等[46]使用逐步回歸的方法,對圖書情報期刊論文發(fā)表后的第七年被引頻次進行預測,實驗發(fā)現(xiàn)了10個與學術(shù)論文被引頻次呈顯著相關(guān)的影響因素。
傳統(tǒng)的回歸分析方法是基于統(tǒng)計學進行的,這類模型對于小數(shù)據(jù)量、簡單的關(guān)系很有效,并且有直觀的理解和解釋,但是對于數(shù)據(jù)分布的要求十分高,對于結(jié)構(gòu)復雜的數(shù)據(jù)其處理精準度并不是很高。傳統(tǒng)回歸方法預測論文被引頻次的部分論文如表5所示:
表5 傳統(tǒng)回歸方法預測論文被引頻次的部分論文(回歸問題)
3.1.2 機器學習預測
隨著科學技術(shù)的發(fā)展,機器學習開始出現(xiàn)在被引頻次預測研究中,R. Yan等[47]利用高被引論文的基本特征,使用了多種機器學習方法進行比較,預測每種文獻的被引頻次,其最佳預測模型CART分類回歸樹在預測10年內(nèi)的被引頻次其決定系數(shù)r2平均預測性能為0.786,其研究發(fā)現(xiàn),作者的專業(yè)知識和期刊的影響力是該研究的顯著影響因素,孤立的內(nèi)容特征無法進行被引頻次預測。T. Chakraborty等[6]則認為,大多數(shù)的回歸方法存在一個潛藏的假設(shè),即所有發(fā)表論文的引文模式都具有相似的特征,該假設(shè)在一定程度上影響了預測的準確性,為此,他提出使用分層學習的方法,將論文分為了6種引文模式,分別對不同模式的論文使用支持向量機模型進行回歸模擬,其研究證明,分層學習是有效的,但該方法僅對于平均每年被引頻次大于1的論文有效。J. Chen和C. Zhang基于6種內(nèi)容特征和10項作者特征,引入IBM模型提取內(nèi)容特征計算論文主題之間的關(guān)聯(lián)概率,并使用二部網(wǎng)絡(luò)投影得到作者協(xié)作網(wǎng)絡(luò),使用梯度增強回歸樹(GBRT)來預測論文的引文計數(shù),實驗結(jié)果表明,GBRT的“內(nèi)容特征”組在KDDCUP數(shù)據(jù)集上的性能最高[48]。然而,在X. Zhu和Z. Ban[36]的研究中,其使用ArnetMiner數(shù)據(jù)集,引入學術(shù)網(wǎng)絡(luò)特征進行研究,發(fā)現(xiàn)作者的特征更重要,支持向量機SVM的r2最高,達到88.87%。機器學習方法預測論文被引頻次的部分論文見表6。
表6 機器學習方法預測論文被引頻次的部分論文(回歸問題)
3.1.3 深度學習預測
最近幾年,神經(jīng)網(wǎng)絡(luò)等深度學習方法開始被應用于被引頻次預測。深度學習模型是一種特殊的機器學習,它允許模型通過多個處理層學習具有多個抽象層次的數(shù)據(jù)[49]。在深度學習中,RNN、LSTM、GRU等時間序列神經(jīng)網(wǎng)絡(luò)可以預測未來一段時間的序列值,BP神經(jīng)網(wǎng)絡(luò)和CNN對于特征值處理更加有效。
A. Abrishami等[50]利用RNN循環(huán)神經(jīng)網(wǎng)絡(luò)學習論文的引文序列從而預測未來引文序列,但是在進行預測過程中,僅僅使用了論文發(fā)表后早期引文特征,并未將其他信息源如作者的功能、論文的內(nèi)容等作為數(shù)據(jù)進行輸入。LSTM模型是RNN模型的變種,S. Yuan等[51]結(jié)合了論文的內(nèi)在質(zhì)量、老化效應、馬太效應和近期效應4種現(xiàn)象,提出了基于RNN和LSTM的論文被引頻次預測模型,但也僅是使用時間序列進行預測,未使用作者、期刊、論文等相關(guān)特征。與前文多提到的研究相比,J. Wen等[52]則提取了用于預測論文被引頻次的特征,然后將這些特征輸入到GRU神經(jīng)網(wǎng)絡(luò)中進行預測。將預測結(jié)果與其他回歸模型進行了比較。實驗結(jié)果表明,該模型預測精度高,收斂速度快。引文計數(shù)的時間序列預測優(yōu)于現(xiàn)有的方法。
區(qū)別于時間序列數(shù)據(jù)預測方法,X. Ruan等[42]使用四層反向傳播(BP)神經(jīng)網(wǎng)絡(luò)模型來預測論文未來某個時間段總被引頻次,其研究結(jié)果發(fā)現(xiàn),BP神經(jīng)網(wǎng)絡(luò)的性能明顯優(yōu)于6個基線模型(XGBoost、RF、LR、SVR、KNN、RNN)。在預測效果方面,低被引論文的準確率高于高被引論文。J. Xu等[53]則提出了一種以數(shù)據(jù)為中心的方法,結(jié)合許多文獻特征,使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來預測長期的科學影響。
與依賴于統(tǒng)計學的線性回歸模型不同,深度學習方法對實驗數(shù)據(jù)的分布沒有嚴格的要求。神經(jīng)網(wǎng)絡(luò)的預測結(jié)果通常是具有魯棒性的。此外,淺層機器學習模型的性能取決于特征工程的質(zhì)量,特征工程質(zhì)量越好,模型的學習效率往往會越高。然而,特征工程的構(gòu)建、選擇和提取并非易事。相比之下,深度神經(jīng)網(wǎng)絡(luò)在其特征學習方面具有優(yōu)勢——自動特征工程[49],即它可以通過多層次和非線性變換,將初始的“底部”特征表示自動轉(zhuǎn)換為“高級特征”[42]。深度學習方法預測論文被引頻次的部分論文如表7所示。
表7 深度學習方法預測論文被引頻次的部分論文(回歸問題)
3.1.4 小結(jié)
上述提及的預測研究大部分都有對論文進行篩選處理,即刪除低被引論文后,再進行預測。其原因是低被引論文在回歸預測上的效果并不明顯,回歸預測在很多情況下僅適合預測高被引論文,然而,一篇新出版的論文,我們并不知道其是否屬于高被引論文,因此預測效果與實際應用會產(chǎn)生較大的差別。Y. DONG等[54]認為被引頻次預測具有長尾效應,不適合采用回歸方式進行預測,即預測的有效性從根本上受到被引頻次的冪律分布的限制,低被引論文普遍存在,而高被引論文則相對罕見。由于絕大多數(shù)文獻積累的被引頻次很少,傳統(tǒng)的回歸分析將很難度量論文的被引頻次。為了解決這種困難,通過提取高被引論文的特征,并將這些特征映射到論文的被引頻次上,可以一定程度上提高被引頻次的預測效率,但是由于低被引論文的數(shù)量太多,導致高被引論文的特征并不非常明顯,這將會使得實際應用數(shù)據(jù)集的預測效果大大降低。
被引頻次預測問題從回歸轉(zhuǎn)化為分類問題,盡管預測粒度變粗,但是預測結(jié)果更加符合引文數(shù)據(jù)分布規(guī)律,使得模型更加具有泛化性[41]。相比于回歸問題的預測方法,將預測任務(wù)視為分類問題的研究方法則比較單一,主要是使用各種機器學習的方法進行分類預測。由于分類任務(wù)是有監(jiān)督的學習,因此這類研究方法需要設(shè)定一個分類閾值,用以確定每篇文獻的標簽。常用來進行論文被引頻次預測的分類方法有支持向量機(SVM)、貝葉斯網(wǎng)絡(luò)(NB)、K最近鄰(KNN)、邏輯回歸(LRC)、決策樹、梯度提升決策樹(GBRT)、袋裝法(BAG)、隨機森林(RF)、XGBoost、AdaBoost算法等。
A. Ibanez等[55]將論文分為三類——很少被引(被引頻次小于等于1)、一些被引(被引頻次2-4)和許多被引(被引頻次超過4),采用機器學習方法,如樸素貝葉斯、邏輯回歸、決策樹和k最近鄰(KNN),來預測從第一年到第四年的被引頻次,結(jié)果表明,邏輯回歸算法和樸素貝葉斯算法的準確率最高。L. Fu和C.Aliferis[4]使用支持向量機(SVM) 在生物醫(yī)學領(lǐng)域預測一篇論文發(fā)表10年后被引量是否高于某個閾值(20、50、100、500),模型的預測AUC(Area Under Curve,線下曲線面積)為0.857-0.918。M. Wang等[56]將天文學和天體物理學領(lǐng)域的219篇論文分為高、中、低三組,使用了一個由5個決策樹分類器組成的多分類器系統(tǒng)來進行預測,并獲得了較高的分類能力,其研究表明,論文的內(nèi)部質(zhì)量和外部特征(主要表現(xiàn)為作者和期刊的聲譽),有助于提高論文的被引頻次預測。Y. Dong等[54]的研究發(fā)現(xiàn),作者出版文獻的主題和刊載期刊決定一篇論文是否將貢獻其主要作者的h指數(shù),發(fā)表文獻的主題受歡迎程度和合著者的影響與預測目標無關(guān),在預測一篇論文是否會在5年內(nèi)對其主要作者的h指數(shù)有貢獻時,其最佳模型具有87.5%以上的準確度。耿騫等[41]通過大量實驗分析發(fā)現(xiàn) GBDT、XGBoost和隨機森林的預測能力較強,且預測的時間段越長,效果也就相對越好。
機器學習的方法在識別高影響力或高被引論文上具有較高的準確度。但是,分類模型的分類標準并沒有進行統(tǒng)一的界定,往往是研究人員根據(jù)所使用的論文數(shù)據(jù)集進行自定義界定,甚至同一研究人員在不同研究時期的分類標準都不一樣,顯示出分類方法具有粗粒度的缺點,該缺點限制了論文研究成果的普及應用[42];其次,分類結(jié)果是某一段時間內(nèi)的被引總量,是論文被引量的簡化處理[42],因此無法判斷論文隨時間變化而產(chǎn)生的被引趨勢變化。
機器學習可以處理兩類預測問題,即回歸問題和分類問題。在眾多的研究中,集成的機器學習方法和支持向量機都有比較好的預測效果。相比于預測回歸值,機器學習在分類回歸上有更好的表現(xiàn)。盡管分類預測粒度較粗,但是更能符合實際的應用數(shù)據(jù),可以減少低被引數(shù)據(jù)在分類過程中的影響。機器學習方法預測論文被引頻次的部分論文如表8所示:
表8 機器學習方法預測論文被引頻次的部分論文(分類問題)
綜合來看,不論是將預測研究定義為回歸問題還是分類問題,在研究過程中都存在著一些共性的問題,本文將會對這些存在的問題進行分析。
影響因素與被引頻次之間更多的是相關(guān)性研究,兩者之間是相關(guān)的并不意味著在預測模型中有較好的效果。由于被引頻次相關(guān)的影響因素眾多,關(guān)于被引頻次預測的影響因素研究已有較多的成果,各方面的影響因素均有涉及與研究,總體來說主要是論文/內(nèi)容相關(guān)的影響因素、作者相關(guān)的影響因素、期刊相關(guān)的影響因素,還有一些其他影響因素,包括但不限于時間因素、替代計量因素、網(wǎng)絡(luò)特征因素等。但是不同的數(shù)據(jù)集中,不同的影響因素可能會產(chǎn)生不同的效果,如KDDCUP數(shù)據(jù)集中,J.Chen和C. Zhang研究發(fā)現(xiàn)內(nèi)容特征更重要[48],而在ArnetMiner數(shù)據(jù)集中,X. Zhu和Z. Ban發(fā)現(xiàn)作者特征更加重要[36]。
被引頻次預測研究的樣本數(shù)據(jù)相對單一,使用的數(shù)據(jù)集大多是關(guān)于理工科和醫(yī)學類科學文獻。盡管有些研究中,有進行學科之間的對比,但是學科領(lǐng)域并未跳脫自然科學和人文科學之間的界限,因此研究缺乏全面性。ArnetMiner學術(shù)數(shù)據(jù)集和AMiner數(shù)據(jù)集是使用較多的關(guān)于計算機領(lǐng)域的科學文獻公開數(shù)據(jù)集,此外生物醫(yī)學類的數(shù)據(jù)集也比較多,人文社科類數(shù)據(jù)集非常少,并且使用的數(shù)據(jù)集大多數(shù)來源于外文數(shù)據(jù)庫。這種現(xiàn)象值得我們思考,已有的研究發(fā)現(xiàn),不同領(lǐng)域的研究數(shù)據(jù)集之間差異比較大,因此,將這些被引頻次預測的研究方法遷移到國內(nèi)數(shù)據(jù)集或人文社會數(shù)據(jù)集是否依然適用有待驗證。
預測未來長期影響最終目的還是落實到應用中,但是大多數(shù)論文并未對多長的周期是適用的進行闡述。在以上眾多研究中,預測的周期長短不一。它們的研究目的是預測論文的短期或長期影響,以未來一定時間段的被引頻次來衡量,該時間段在不同的研究中設(shè)定不一,如1年、5年、10年甚至31年的長度等。不同研究者使用的數(shù)據(jù)不同,造成研究的周期不同,但在多數(shù)研究論文中,并未闡述論文所研究的周期有何依據(jù)。只有少數(shù)論文對整體數(shù)據(jù)進行了研究,再劃分出有效的引文時間窗口。引文時間窗口又引申了一個實用性問題,過長的引文時間窗口會出現(xiàn)信息的滯后性,導致預測結(jié)果無效,過短的引文時間窗口可能會造成模型準確度下降。
被引頻次預測需要一個評價標準來對模型的好壞進行評估,常用的評估方法有決定系數(shù)r2、均方誤差MSE、平均絕對誤差MAE、準確率ACC等,但是在許多研究中,僅給出了評估方法的值大小以判斷模型的好壞,對值大小并未進行詳細的解釋,這是這類研究的通病。事實上,模型評估方法的值大小是基于實際值和預測值進行計算的,如MAE是平均絕對誤差,在進行值大小判斷時,應該與真實值的大小進行比較,看誤差值在真實值多大范圍內(nèi),而不僅僅是比較不同方法產(chǎn)生的誤差值大小。
針對第4部分提出的被引預測研究中存在的共性問題,本文提出了一些建議,希望能夠給相關(guān)研究人員提供一些參考,以提高研究的質(zhì)量。
上述綜述已經(jīng)從各個方面綜合闡述了影響論文的因子,這些影響因子最終都有可能成為建立模型的特征之一。但是如何使這些特征因子更能表達出模型所需要的信息,我們需要從微觀的具體操作方法的角度進行創(chuàng)新和應用。
在提取高級語義特征學習引文時間序列的研究中[57],其研究的核心是從元數(shù)據(jù)文本中獲取語義信息,使用Doc2Vec算法對元數(shù)據(jù)文本中的句子進行編碼,然后進一步通過Bi-LSTM和注意機制從句子嵌入中提取高級(段落級)語義特征,最后通過整合早期的引文來學習引文預測任務(wù)。該研究證明元數(shù)據(jù)語義特征對提高被引預測性能是有用的,為引文預測提供了一種很有前途的方法。
與主題相關(guān)的特征研究也是基于文本內(nèi)容(標題、摘要等文本內(nèi)容)進行挖掘的,但該研究與之不同的地方在于特征挖掘的粒度不同。主題特征描述的是整篇文檔的特征,常用的提取方法是LDA及其改進模型,所形成的是在語料庫中通過參數(shù)調(diào)整得到的數(shù)量一定的主題,粒度相對較粗,少部分論文不一定能找到相對合適的主題。而元數(shù)據(jù)語義特征在Doc2Vec算法的基礎(chǔ)上,進一步使用Bi-LSTM和注意機制進行語義挖掘,其粒度相對較細,使每一篇論文都能找到其特定的語義特征。
在被引頻次預測研究中,大多數(shù)研究通常使用單一數(shù)據(jù)集,因此研究得出的結(jié)果并不都適用于其他數(shù)據(jù)集。已有研究也表明,不同研究領(lǐng)域的數(shù)據(jù)集之間被引頻次預測差異較大,因此為了使研究結(jié)果更具有普遍性和泛化性,應該使用更加全面的數(shù)據(jù)集,對差異較大的領(lǐng)域進行比較研究,分析影響不同預測結(jié)果的原因,使得研究更加嚴謹、全面。
在G. Abramo等[44]的研究中,使用123128篇WoS網(wǎng)站中的意大利出版文獻進行研究,發(fā)現(xiàn)不同學科對預測模型的適用性不同。該研究對所有的文獻進行研究主題分類,共分為“生物學”“生物醫(yī)學”“化學”“臨床醫(yī)學”“地球與空間科學”“經(jīng)濟學”“工程學”“法律、政治和社會學”“數(shù)學”“交叉科學”“物理學”“心理學”12個主題學科。其研究結(jié)果顯示,“經(jīng)濟學”在兩個預測模型中,早期引用具有最大的權(quán)重值,而“心理學”則相反;生命科學領(lǐng)域(“生物醫(yī)學研究”“化學”“生物學”“臨床醫(yī)學”)的平均早期引用權(quán)重系數(shù)各不相同;“法律、政治和社會學”“工程學”和“交叉科學”都反映了明顯的早期影響。
有時在解決實際問題的過程中,現(xiàn)實問題過于復雜,為了使復雜問題簡單化,研究者會附加一定的前提條件,并在此前提條件下解決部分的問題。當去掉這個前提條件后,會出現(xiàn)什么樣的問題,所研究的方法在實際操作中是否還能復現(xiàn),值得我們思考和研究。
在使用動態(tài)異構(gòu)信息網(wǎng)絡(luò)對新出版論文進行引文時間序列預測的研究中[58],研究者認為以往的引文預測依賴論文發(fā)表后的頭幾年觀察到的引文(即領(lǐng)先的引文價值),即通過頭幾年的被引量來預測長期的被引頻次。然而現(xiàn)實情況是,許多論文在發(fā)表后的頭幾年其引用影響已經(jīng)達到峰值,因此這些論文并未能體現(xiàn)出它的領(lǐng)先價值。在出版物更新頻率非??斓念I(lǐng)域(諸如機器學習)領(lǐng)域,等待3-5年才能預測影響是不現(xiàn)實的。基于此問題,該研究提出了一個挑戰(zhàn):為沒有任何領(lǐng)先價值的新發(fā)表論文生成引文時間序列,解決時間序列任務(wù)中的“冷啟動”問題。因此,他們提出了端到端的框架,即異構(gòu)信息網(wǎng)絡(luò)到時間序列,以此來預測單篇論文的被引頻次。
該研究的核心思想是一種轉(zhuǎn)化思想:通過學習由關(guān)鍵詞、作者、出版地點和論文所構(gòu)成的異構(gòu)網(wǎng)絡(luò),估算出一個偽前導值,并將其映射為論文未來的引用時間序列,即將異構(gòu)網(wǎng)絡(luò)信息轉(zhuǎn)換成時間序列信息,實現(xiàn)時間序列的預測。
由于前面所總結(jié)的基于經(jīng)驗主義的調(diào)參式機器學習、深度學習建模方法缺少數(shù)學工具去診斷和測評神經(jīng)網(wǎng)絡(luò)特征表達能力,缺乏可解釋性,因此在這個建模過程中,可以根據(jù)自己研究的需求尋找合適的建模方法。數(shù)學建模思維是在現(xiàn)實情境中從數(shù)學視角出發(fā),分析問題、提出問題、建立模型、確定參數(shù)、求解模型、并最終解決實際問題的一種思維方法。以下的建模方法充分地體現(xiàn)了建模過程的數(shù)學思維,并使用了數(shù)學工具對模型進行量化解釋,充分地展示了模型的可解釋性。
在論文的引文動力學機制研究中,M. Wang等[56]從“論文引文模式能否預測長期影響”問題出發(fā),首先確定了驅(qū)動論文被引用的三個基本機制:高被引論文比低被引論文更有可能被再次引用;論文具有老化效應,每篇論文的新穎性最終都會消失;論文存在內(nèi)在差異。結(jié)合這三個因素,推導出論文被引用的概率模型:其中η解釋了論文的內(nèi)在差異,i因為論文的內(nèi)在差異如新穎性、重要性等取決于多種無形和主觀的維度,該研究忽略了評估一篇論文內(nèi)在價值的必要性,并將合適的ηi視為一篇論文在研究總樣本中內(nèi)在差異的綜合衡量標準;是論文i在發(fā)表后t時獲得的引用;是論文i在發(fā)表后t時的衰減率。論文累計總被引頻次可通過微積分的方式求解出。
該研究的創(chuàng)新點在于將引用預測視為一種連續(xù)型概率問題,通過推導概率密度函數(shù),求得概率分布,以此求出論文的未來引用。相比于機器學習和深度學習等數(shù)學建模方法,在模型準確度大致相同的情形下,該種建模方式可解釋性更強。
綜上所述,在大數(shù)據(jù)、人工智能的時代下,引用預測研究內(nèi)容不斷更新,產(chǎn)生了新的影響因素指標和預測方法。本文從“影響因素”到“研究對象”“研究方法”進行了系統(tǒng)梳理,并在前人的研究中,總結(jié)了目前引用預測研究存在的問題,并提出了相應的建議。
未來應該深入理論研究,加強影響因素指標和研究方法的合理運用,找到合理的研究周期,建立統(tǒng)一的評價系統(tǒng),完善研究的理論基礎(chǔ),并且在完善的理論研究基礎(chǔ)上,著力于解決實際問題,充分運用宏觀的數(shù)學建模思維,落實微觀的具體操作方法,運用轉(zhuǎn)化的思想,將復雜的實際問題轉(zhuǎn)化為多個簡單的問題,并逐一進行解決,使得模型能在實際問題中得到充分的應用。