張麗華,張康寧,趙迎光,張志強
(1. 山西財經(jīng)大學信息學院,太原 030006;2. 北京交通大學圖書館,北京 100044;3. 中國科學院成都文獻情報中心,成都 610041;4. 中國科學院大學經(jīng)濟與管理學院圖書情報與檔案管理系,北京 100190)
在科研人員的職業(yè)生涯中,如何不斷調(diào)整、選擇乃至轉(zhuǎn)移最佳研究主題是每個科研人員都非常關注的問題。針對這一問題,學界主要存在兩種主張。一種主張認為,科學家的研究興趣并非一成不變,而是可能發(fā)生學科間或跨學科的主題轉(zhuǎn)移。經(jīng)觀察和調(diào)研發(fā)現(xiàn),美國的科研人員7~8 年更換一次研究主題[1]。另一種主張認為,研究主題不能隨意轉(zhuǎn)移??蒲泄ぷ鞑皇呛唵沃貜蛣趧樱枰叨葘W?、深度思考與長期積淀[2]。一支青蒿素,諾貝爾獎得主屠呦呦試過380 多種提取方法,又做了191次試驗才發(fā)現(xiàn)有效成分。
那么,科研人員在職業(yè)生涯中是否要轉(zhuǎn)移研究主題?適時轉(zhuǎn)移研究主題還是專注于同一個研究主題更有利于創(chuàng)新?兩種主張都有成功的案例。我們關心的研究問題是,在同一個學科內(nèi)部,科研人員更傾向于堅守還是適時轉(zhuǎn)移研究主題?這兩種不同選擇對科研人員論文被引頻次會有什么樣的影響?
針對該問題學界進行了一些有益探索。部分研究表明,研究主題轉(zhuǎn)移有利于提高科研人員論文的被引頻次:研究主題變化較大的科研人員與以往相比更可能產(chǎn)生有影響力的成果[3],且研究主題發(fā)生轉(zhuǎn)移之后,其發(fā)表的論文數(shù)量和質(zhì)量都更高[4];不斷探索新的研究主題、有較高研究自由度的科研人員與從事既定任務、審查周期短、可交付成果不可變的研究人員相比,更容易產(chǎn)生高影響力成果[5]。同時,高風險的研究更有可能產(chǎn)生高影響力,獲得更大的認可[6]。當然,還有一些研究持有不同觀點:Amjad 等[7]發(fā)現(xiàn),持續(xù)研究同一主題的科研人員會產(chǎn)生更高的影響力,獲得更多的關注;Zeng等[8]的研究表明,科學家的研究主題分布很窄,在科研人員的整個職業(yè)生涯中,篇均被引頻次指標均與研究主題的轉(zhuǎn)移概率呈負相關,研究主題的轉(zhuǎn)移概率越高,篇均被引頻次越低。
已有研究多是從群體層面,選擇某一科研人員群體為研究對象,通過設置對照組來對比科研人員研究主題轉(zhuǎn)移與論文被引頻次的關系。較少有研究從科研人員個人層面,通過比較其職業(yè)生涯初期與末期研究主題的相似程度,探討研究主題轉(zhuǎn)移對其論文被引頻次的影響。因此,本文主要關注以下兩個問題:
(1)科研人員職業(yè)生涯初期和末期學術論文研究主題是否相似?
(2)科研人員職業(yè)生涯中學術論文相似度是否會對其論文被引頻次產(chǎn)生影響?
為了回答上述問題,本文以兩個學科的科研人員為研究對象,測度不同人員的學術論文相似度、論文被引頻次等指標,設置控制變量排除可能的干擾因素,在此基礎上通過相關性、負二項回歸分析學術論文相似度與論文被引頻次的關系,為更深入地了解科研人員個人成長規(guī)律并輔助制定科研人員管理與評價政策提供參考。
本文選擇Web of Science (WoS) 數(shù)據(jù)庫中的“計算機科學與人工智能”和“商業(yè)與經(jīng)濟”作為分析學科,以WC=“Computer Science, Artificial In‐telligence”和WC=“Business & Economics”為檢索式,檢索兩個學科發(fā)表時間為1975—2017 年(因涉及3 年引文時間窗問題,故將數(shù)據(jù)截止日期設為2017 年)、文獻類型為Article 的所有論文,檢索時間為2021 年1 月5 日,獲得計算機科學與人工智能學科的222449 篇論文,以及商業(yè)與經(jīng)濟學科的235375 篇論文。
接下來,從兩個學科中抽取滿足條件的科研人員。抽取標準為:
第 一, 科 研 人 員 擁 有ResearcherID。 Re‐searcherID 是WoS 數(shù)據(jù)庫為科研人員提供的專屬身份識別號碼,能夠有效解決科研人員姓名歧義問題。
第二,科研人員在職業(yè)生涯中至少以第一作者身份發(fā)表4 篇論文。非第一作者論文將使科研人員在研究團隊中處于支持者的角色[9],其研究主題可能更多受論文主要貢獻者(如第一作者)的影響,而第一作者論文能夠較準確地反映科研人員的研究主題。同時,為了計算不同時期研究主題的相似度,選擇科研人員職業(yè)生涯最開始和結(jié)束時各2 篇論文進行對比,因此,至少以第一作者身份發(fā)表4篇論文的科研人員才能納入本文的數(shù)據(jù)集。
第三,科研人員職業(yè)生涯長度大于2 年且小于等于20 年。職業(yè)生涯的長短,對科研人員學術論文相似度有非常重要的影響。職業(yè)生涯越短,其論文相似度可能越高;反之,職業(yè)生涯越長,科研人員的論文相似度可能越低。為了盡可能消除職業(yè)生涯長短對論文相似度的影響,在選擇科研人員時,需要去掉職業(yè)生涯太長與太短的科研人員。首先,我們剔除職業(yè)生涯長度為1 年和2 年的科研人員。胡志剛等[10]在研究期刊作者群的新陳代謝規(guī)律時,提出“如果想走科研之路,請先堅持到第二年”[11]的觀點。據(jù)此我們認為,職業(yè)生涯超過2 年的科研人員留在學術界的概率更高,因此,剔除職業(yè)生涯長度僅為1 年和2 年的科研人員。其次,我們剔除職業(yè)生涯超過20 年的科 研人員。Milojevi? 等[12]將科研人員職業(yè)生涯分為5 種典型形態(tài),其中長期活躍者(從事所在領域研究超過20 年)的比例在不斷下降。我們認為,長期活躍者的研究主題在職業(yè)生涯中更可能發(fā)生變化,為了盡可能消除職業(yè)生涯太長對成果相似度的影響,本文將職業(yè)生涯超過20年的科研人員剔除掉。
經(jīng)過篩選,計算機科學與人工智能領域共1788名科研人員、商業(yè)與經(jīng)濟領域共958 名科研人員滿足上述要求,這些科研人員及其發(fā)表的論文信息構成本文的最終數(shù)據(jù)集。
2.2.1 學術論文相似度
本文主要關注科研人員個人層面的學術論文相似度,即數(shù)據(jù)集中每個作者在其職業(yè)生涯中研究主題的轉(zhuǎn)移程度,可以使用科研人員在職業(yè)生涯初期與末期研究主題的相似程度來衡量。研究主題通常使用以下3 種方式來測度:①使用文獻關鍵詞、題名、摘要或者全文進行自然語言分析;②使用主題建模方法;③使用數(shù)據(jù)庫提供的分類號[11]。本文使用第①種方式,并借鑒Jia 等[13]的做法,選取1975—2017 年兩個學科滿足要求的科研人員職業(yè)生涯最開始的兩篇和最末的兩篇論文,計算這兩組論文標題的語義相似度,以此反映科研人員職業(yè)生涯中的學術論文相似度。
選擇論文標題而非關鍵詞、文摘等常用字段進行相似度分析主要基于以下考慮:①標題是一篇科學論文最重要的組成要素,能夠直觀揭示論文研究主題。Jamali 等[14]的研究表明,標題與論文的下載次數(shù)和被引次數(shù)呈正相關關系。②在部分論文關鍵詞缺失、文摘具有較多干擾詞的情況下,論文標題是一個不錯的選擇。
語義相似度計算選擇2019 年提出的sentence-BERT(bidirectional encoder representations from trans‐formers)模型(簡稱SBERT)[15]。SBERT 采用雙重或三重BERT 網(wǎng)絡結(jié)構來獲取的句子嵌入,可以更充分地從語義上表征一個句子,使語義越相似的句子在向量空間中的嵌入向量距離越近。在文本的語義相似性任務上,SBERT 已全面超越流行的BERT模型,達到了更高水平。本文選擇了all-MiniLML6-v2 的SBERT 預訓練模型來進行語義相似度計算,該模型使用超過10 億對句子進行訓練,在英文相似度任務方面表現(xiàn)優(yōu)異。
2.2.2 論文被引頻次
科研人員的研究主題轉(zhuǎn)移服從“海邊漫步”(seashore walk)模型[13],可能發(fā)生在職業(yè)生涯中的任何一個階段;與此同時,科研人員做出重大創(chuàng)新性成果的巔峰期在其職業(yè)生涯中呈隨機分布[16]。在計算科研人員論文被引頻次指標時,如果僅選擇職業(yè)生涯最初期與最末期的兩篇論文的被引頻次代表該名科研人員職業(yè)生涯中所有論文被引頻次,可能具有很大偶然性。因此,為了更全面地反映科研人員的學術影響力,我們使用其職業(yè)生涯中所有論文的平均影響力指標來代表其論文被引頻次。
本文選擇6 個指標測度科研人員職業(yè)生涯的平均影響力,分別是不固定時間窗與固定3 年引文時間窗的總被引次數(shù)、篇均被引次數(shù)以及領域標準化引用分數(shù)(表1)。
表1 論文被引頻次指標
下文將以一個虛擬的例子說明論文被引頻次指標的計算過程。假設一個學科共有2 名作者au_1 和au_2,共發(fā)表了5 篇論文(表2),各指標的計算方法如下。
總被引次數(shù)與篇均被引次數(shù)指標計算較簡單。作者au_1 發(fā)表2 篇論文,其總被引次數(shù)為10+8=18次。篇均被引次數(shù)為18/2=9 次。作者au_2 發(fā)表3 篇論文,總被引次數(shù)為7+6+4=17 篇,篇均被引次數(shù)為
表2 論文被引頻次指標計算方法示例
領域標準化引用分數(shù)需要同時考慮論文層面與作者層面。從論文層面來看,一篇論文的領域標準化引用分數(shù)等于該篇論文的被引用次數(shù)除以論文發(fā)表當年,同學科、同文獻類型的論文被引用次數(shù)的平均值e。首先,分別計算每年學科內(nèi)所有論文被引用次數(shù)的平均值。2005 年發(fā)表了3 篇論文,e2005=(10+7+4)/3=7;2006 年發(fā)表了2 篇論文,e2006=(8+6)/2=7。其次,用每篇論文的被引用次數(shù)除以發(fā)表當年的e值,5 篇論文的領域標準化引用分數(shù)分別等于
從作者層面來看,一名作者的領域標準化引用分數(shù)等于他/她發(fā)表所有論文的標準化引用分數(shù)的平均值。作者au_1 發(fā)表2 篇論文,其領域標準化引用分數(shù)為同理,作者au_2 發(fā)表3 篇論文,領域標準化引用分數(shù)為
與此同時,為了消除論文發(fā)表時間對被引用次數(shù)的影響,本文還計算了每名科研人員3 年引文時間窗的總被引次數(shù)(3_YEAR_TCC)、3 年引文時間窗的篇均被引次數(shù)(3_YEAR_ACCP) 以及3 年引文時間窗的領域標準化引用分數(shù)(3_YEAR_FNCC)。以作者au_1 為例,其總被引次數(shù)為6+4=10 次,篇均被引用次數(shù)為10/2=5 次。e2005=(6+5+2)/3=作者au_1 的領域標準化引用分數(shù)等于
2.2.3 學術論文相似度與論文被引頻次關系1)分析方法
在考察學術論文相似度與論文被引頻次關系時,本文主要采用兩種方式。第一,相關性分析:分別計算學術論文相似度指標與論文被引頻次不同指標之間的相關系數(shù),并進行顯著性檢驗,以分析兩個變量之間的關系;第二,多元回歸分析:除了論文相似度,可能存在其他影響論文被引頻次的干擾因素,本文通過控制變量排除干擾因素的影響,使用多元回歸模型分析多個變量之間的關系。
2)控制變量
謝娟等[17]證實了影響論文被引頻次的因素有作者數(shù)、論文篇幅、期刊影響因子、參考文獻數(shù)、文獻類型和作者年齡。本文使用的文獻類型均為Arti‐cle,不需要對文獻類型進行控制。因此,借鑒謝娟等[17]的研究,我們選擇了5 個控制變量:①作者數(shù)(Num_of_author)。每篇論文包含的作者數(shù)量。②論文篇幅(Pages)。用論文頁數(shù)表示。③期刊影響因子(IF)。使用一本期刊2010—2020 年期刊影響因子的均值表示。因計算機科學與人工智能領域期刊影響因子缺失值較多,在后續(xù)回歸分析時刪除期刊影響因子這一控制變量。④參考文獻數(shù)(NR)。⑤作者學術年齡(Age)。作者學術年齡等于其在職業(yè)生涯中發(fā)表第一篇論文的年份與發(fā)表最后一篇論文年份的差值加1。
除作者學術年齡指標外,其余4 個指標作者數(shù)、論文篇幅、期刊影響因子、參考文獻數(shù)的分析對象均為論文而非作者。后續(xù)指標需要以作者為單位進行分析,因此,在計算某一位科研人員的某個指標(如作者數(shù))時,等于其發(fā)表所有論文某個指標值(如作者數(shù))的平均值。例如,作者A 以第一作者身份發(fā)表了4 篇論文,每篇論文的作者數(shù)依次為4、3、4、5 人,則作者A 的作者數(shù)為(4+3+4+5)/4=4 人。
同時,考慮到5 個控制變量彼此間的極值差距較大,擬對這些變量的指標值進行歸一化處理。歸一化方法選擇最常見的最大最小標準化(min-max normalization)方法。這種方法簡單易理解,不改變數(shù)據(jù)分布,采用的公式為
其中,Y是指標的標準化值;X為指標的原始值;X_max 與X_min 分別對應于指標的最大值和最小值。
3)回歸模型
論文被引頻次服從偏態(tài)分布,負二項回歸模型被認為是偏態(tài)分布數(shù)據(jù)的標準回歸模型[18]。因此,我們選擇負二項回歸模型探討自變量(學術論文相似度)及控制變量(作者數(shù)、論文篇幅、期刊影響因子、作者學術年齡、參考文獻數(shù))對因變量(論文被引頻次)的影響。
為TCC、ACCP 等6 個因變量指標分別構建兩個模型。首先,利用5 個控制變量指標構建模型1,對模型1 進行檢驗,并計算對數(shù)似然值log-likeli‐hood1;然后,增加學術論文相似度指標構建模型2,對模型2 進行檢驗并計算新的對數(shù)似然值loglikelihood2。對兩個模型進行似然比檢驗,χ2統(tǒng)計量等于模型1 和模型2 對數(shù)似然值差值的2 倍。若χ2≥則拒絕原假設,說明科研人員的學術論文相似度對論文被引頻次有影響;反之,則說明沒有影響。
進行負二項回歸模型時使用python 的statsmod‐els 模塊,操作步驟借鑒馬薩諸塞大學阿默斯特分校 (University of Massachusetts, Amherst) Sachin Date 的研究:https://timeseriesreasoning.com/contents/negative-binomial-regression-model/。
(1)商業(yè)與經(jīng)濟領域科研人員的學術論文相似度分析。
商業(yè)與經(jīng)濟領域958 名科研人員的學術論文相似度如圖1 所示。從圖1 可以看出,商業(yè)與經(jīng)濟領域科研人員的學術論文相似度呈現(xiàn)出“中間高、兩邊低”的分布形態(tài)。相似度介于[0.4,0.5)的科研人員數(shù)量最多,為255 名,占商業(yè)與經(jīng)濟領域所有科研人員的26.6%。相似度小于0.4 或大于等于0.5 的科研人員數(shù)量依次減少。如果我們將學術論文相似度小于0.4 定義為科研人員研究主題發(fā)生轉(zhuǎn)移,那么商業(yè)與經(jīng)濟領域有39.5%的科研人員研究主題發(fā)生轉(zhuǎn)移。
圖1 商業(yè)與經(jīng)濟領域科研人員群體學術論文相似度
(2)計算機科學與人工智能領域科研人員的學術論文相似度分析。
計算機科學與人工智能領域1788 名科研人員群體的學術論文相似度如圖2 所示。從圖2 可以看出,計算機與人工智能領域科研人員的學術論文相似度同樣呈現(xiàn)出“中間高、兩邊低”的分布形態(tài)。相似度介于[0.4,0.5)的科研人員數(shù)量最多,為376 名,占計算機科學與人工智能領域科研人員的21.0%。相似度小于0.4 或大于等于0.5 的科研人員數(shù)量依次減少。如果我們將學術論文相似度小于0.4 定義為科研人員研究主題發(fā)生轉(zhuǎn)移,那么計算機科學與人工智能領域有45.6%的科研人員研究主題發(fā)生轉(zhuǎn)移。
圖2 計算機科學與人工智能領域科研人員群體學術論文相似度
3.2.1 相關性分析
(1)商業(yè)與經(jīng)濟領域科研人員學術論文相似度與論文被引頻次相關性分析。
商業(yè)與經(jīng)濟領域科研人員學術論文相似度指標(Similarity)與不同的論文被引頻次指標相關性分析結(jié)果如表3 所示。從表3 可以看出,F(xiàn)NCC 與Sim‐ilarity 相關系數(shù)的P值小于0.05,通過了顯著性檢驗,但Pearson 相關系數(shù)較小,只有不到0.1,可以認為不相關。其余5 個被引頻次指標與Similarity 相關系數(shù)的P值均大于0.05,未通過顯著性檢驗。因此,從相關性分析結(jié)果來看,商業(yè)與經(jīng)濟領域科研人員群體的學術論文相似度與論文被引頻次不存在線性相關關系。
表3 商業(yè)與經(jīng)濟領域科研人員學術論文相似度與論文被引頻次的相關性分析
(2)計算機科學與人工智能領域科研人員學術論文相似度與論文被引頻次相關性分析。
計算機科學與人工智能領域科研人員6 個論文被引頻次指標與學術論文相似度指標的相關性分析結(jié)果如表4 所示。從表4 可以看出,TCC 指標未通過顯著性檢驗,而其余5 個指標雖通過了顯著性檢驗,但Pearson 相關系數(shù)值均小于0.2,可以認為不相關,因此,計算機科學與人工智能領域科研人員群體的學術論文相似度與論文被引頻次同樣不存在線性相關關系。
表4 計算機科學與人工智能領域科研人員學術論文相似度與論文被引頻次的相關性分析
3.2.2 回歸分析
(1)商業(yè)與經(jīng)濟領域科研人員學術論文相似度與論文被引頻次負二項回歸分析。
商業(yè)與經(jīng)濟領域科研人員學術論文相似度與論文被引頻次負二項回歸分析結(jié)果如表5 所示。
從表5 可以發(fā)現(xiàn):
表5 商業(yè)與經(jīng)濟領域科研人員群體學術論文相似度與論文被引頻次負二項回歸分析
第一,商業(yè)與經(jīng)濟領域科研人員學術論文相似度未對論文被引頻次產(chǎn)生影響。在模型2 中,以
TCC、 ACCP、 FNCC、 3_YEAR_TCC、 3_YEAR_ACCP 和3_YEAR_FNCC 為因變量的回歸模型中,自變量Similarity 均未通過顯著性檢驗,即在商業(yè)與經(jīng)濟領域,科研人員的學術論文相似度未對其被引用頻次產(chǎn)生影響。
第二,不同控制變量對論文被引頻次的影響不同。若控制變量能夠通過顯著性檢驗,則說明其會對論文被引頻次產(chǎn)生影響。①以TCC 和ACCP 為因變量時,IF、NR、Age 通過顯著性檢驗;②以FNCC 為因變量時,IF、NR 通過顯著性檢驗;③以3_YEAR_TCC 和3_YEAR_ACCP 為 因 變 量 時,5 個控制變量均通過顯著性檢驗;④以3_YEAR_FNCC為因變量時,Pages、IF 通過顯著性檢驗。
第三,當因變量為不固定時間窗的論文被引頻次指標時,模型2 的擬合度優(yōu)于模型1。對模型1 和模型2 進行對數(shù)似然比檢驗發(fā)現(xiàn),當論文被引頻次用TCC、ACCP 和FNCC 指標衡量時,說明學術論文相似度對論文被引頻次產(chǎn)生了影響;當論文被引頻次用3_YEAR_TCC 和3_YEAR_ACCP 指標衡量時,相似度未對論文被引頻次產(chǎn)生影響;當論文被引頻次使用3_YEAR_FNCC 指標衡量時,未得出卡方檢驗結(jié)果,因此,學術論文相似度是否對論文被引頻次產(chǎn)生影響未知。
(2)計算機科學與人工智能領域科研人員學術論文相似度與論文被引頻次負二項回歸分析。
計算機科學與人工智能領域科研人員學術論文相似度與論文被引頻次負二項回歸分析結(jié)果如表6所示。
從表6 可以發(fā)現(xiàn):
表6 計算機科學與人工智能領域科研人員群體學術論文相似度與論文被引頻次負二項回歸分析
第一,計算機科學與人工智能領域?qū)W術論文相似度會對論文被引頻次產(chǎn)生影響。這表現(xiàn)在以6 個被引頻次指標為因變量的回歸模型中,Similarity 指標均通過顯著性檢驗。而在商業(yè)與經(jīng)濟領域中,Similarity 指標均未通過顯著性檢驗,這說明學術論文相似度是否會其對被引頻次產(chǎn)生影響可能具有學科特異性。
第二,不同控制變量對論文被引頻次的影響不同。通過顯著性檢驗可證明該控制變量會對論文被引頻次產(chǎn)生影響。①以TCC 為因變量時,NR、Age通過顯著性檢驗。②以ACCP 為因變量時,NR 通過顯著性檢驗。③以FNCC 和3_YEAR_FNCC 為因變量時,Num_of_author、NR 通過顯著性檢驗。④以3_YEAR_TCC 為因變量時,Pages、NR、Age 通過了顯著性檢驗。⑤以3_YEAR_ACCP 為因變量時,4 個控制變量均通過了顯著性檢驗。
第三,模型2 擬合度均優(yōu)于模型1。對模型1 和模型2 進行對數(shù)似然比檢驗發(fā)現(xiàn),當論文被引頻次用6 個指標衡量時,χ2≥21.4;自由度為1 時,臨界卡方值說明學術論文相似度對論文被引頻次產(chǎn)生了影響。
本文旨在探討科研人員職業(yè)生涯學術論文相似度及其對被引頻次的影響。選擇商業(yè)與經(jīng)濟領域958 名科研人員、計算機科學與人工智能領域1788名科研人員為研究對象,使用相關系數(shù)和負二項回歸模型進行分析,主要結(jié)論如下。
(1)在學術論文相似度方面,兩個學科科研人員的學術論文相似度呈現(xiàn)出“中間高、兩邊低”的分布形態(tài),相似度介于[0.4,0.5)的科研人員數(shù)量最多。商業(yè)與經(jīng)濟領域有39.5%的科研人員研究主題發(fā)生轉(zhuǎn)移,而計算機科學與人工智能領域這一比例為45.6%。
(2)在學術論文相似度與論文被引頻次的相關性分析方面,商業(yè)與經(jīng)濟領域中Similarity 與FNCC相關,計算機科學與人工智能領域中Similarity 與ACCP、FNCC、3_YEAR_TCC、3_YEAR_ACCP 和3_YEAR_FNCC 相關,但相關系數(shù)均小于0.2,可以認為兩個學科科研人員職業(yè)生涯中學術論文相似度與論文被引頻次之間不存在線性相關關系。
(3)在學術論文相似度與論文被引頻次的回歸模型方面,商業(yè)與經(jīng)濟領域以TCC、ACCP、FNCC、3_YEAR_TCC、 3_YEAR_ACCP 和3_YEAR_FNCC為因變量的回歸模型中,自變量Similarity 均未通過顯著性檢驗,即在商業(yè)與經(jīng)濟領域,科研人員的學術論文相似度未對其被引用頻次產(chǎn)生影響。計算機科學與人工智能領域以上述6 個被引頻次指標為因變量的回歸模型中,Similarity 指標均通過顯著性檢驗。說明學術論文相似度是否會對其被引頻次產(chǎn)生影響可能具有學科特異性。
(4)在控制變量方面,商業(yè)與經(jīng)濟領域影響論文被引頻次的控制變量主要是IF。以6 個被引頻次指標為因變量構建的回歸模型中,IF 均通過顯著性檢驗,且回歸系數(shù)與其他控制變量相比較大,說明期刊影響因子對論文被引頻次的影響較大。計算機科學與人工智能領域影響論文被引頻次的控制變量主要是NR。無論論文被引頻次使用何種指標測度,NR 均通過顯著性檢驗,且回歸系數(shù)較大,說明當論文被引頻次提高時,論文參考文獻數(shù)能夠較大程度地解釋這種提升效應。
(1)科研人員職業(yè)生涯中研究主題是否發(fā)生了轉(zhuǎn)移?
本文發(fā)現(xiàn),在2~20 年的職業(yè)生涯中,研究主題非常相似或非常不相似的科研人員數(shù)量都較少,大部分科研人員的研究主題會發(fā)生一定程度的轉(zhuǎn)移。那么,科研人員研究主題轉(zhuǎn)移是否有規(guī)律可循?Jia等[13]使用“海邊漫步”模型來解釋科學家的研究興趣的演化。在這一模型中,“海灘”上有著某一數(shù)量的點,某些點上存在一定數(shù)量的、多種類型的貝殼,每種類型代表一種研究話題,貝殼數(shù)量在各點上的概率分布為P(q),有可能某些點上不存在任何種類的貝殼??茖W家隨機從“海灘”上選擇一個點,然后向左或者向右隨機行走,向左和向右的概率均為0.5;他有可能在某些點上經(jīng)過兩次或兩次以上;若走到的點上有貝殼,則代表他發(fā)表了一篇某種研究話題的論文。科學家每走一步代表過去了一個單位的時間,他所走的總步數(shù)等于其科學職業(yè)生涯的總時間[11]。
(2)科研人員職業(yè)生涯中學術論文相似度是否會影響論文被引頻次?
學術論文相似度是否會影響論文被引頻次的問題在學界一直存有爭議。部分研究證明兩者存在正相關關系,研究主題變化較大的科學家更可能產(chǎn)生高影響力的成果[3]。另外一種觀點則認為“頻繁轉(zhuǎn)移話題在整個職業(yè)生涯對科學家的影響力都有損害”[8]。
從本文結(jié)論來看,學術論文相似度與論文被引頻次之間不存在線性相關關系;根據(jù)負二項回歸結(jié)果,兩者關系可能具有學科特異性。計算機科學與人工智能領域科研人員的學術論文相似度會對被引頻次產(chǎn)生影響,而商業(yè)與經(jīng)濟領域則恰好相反?;貧w系數(shù)可以用來解釋論文相似度如何影響論文被引頻次,以計算機科學與人工智能領域3_YEAR_AC‐CP 指標為例,學術論文相似度的回歸系數(shù)為0.7789,即論文相似度每變動1 個單位,平均而言,3_YEAR_ACCP 將 變 動0.7789 個 單位。
學術論文相似度與論文被引頻次之間呈現(xiàn)的復雜關系可能是馬太效應與論文適應度(fitness)[19]共同作用的結(jié)果。職業(yè)生涯中從事相似的研究課題有助于提升作者聲望,累積起來的作者聲望不僅使資深作者的論文被引用可能性是年輕作者的4 倍,而且能使其早期的研究成果產(chǎn)生溢出效應。比如,針對124 名諾貝爾獎獲得者的分析表明,一項重要科學發(fā)現(xiàn)的公布連帶增加了作者以前發(fā)表的論文的引用量,即使早期論文與新發(fā)現(xiàn)的課題并不一定相關[20]。
與此同時,論文被引頻次又受到論文適應度的影響。適應度是指論文獲得引用的內(nèi)在能力的差異,用一組論文的內(nèi)在屬性來表示,如發(fā)表渠道、讀者規(guī)模以及貢獻性質(zhì)(如綜述論文和方法論文往往比常規(guī)研究論文更易被引用)。如果考慮論文適應度,那么當前引用量相同的兩篇論文,適應度高的那篇未來會有更高的概率獲得更多的引用。不同的學科領域論文具有不同的適應度。馬太效應和論文適應度的協(xié)同作用最終導致了論文被引頻次呈現(xiàn)不同的形態(tài)。
對于論文相似度與論文被引頻次背后的作用機理,未來還需進一步探索以得出更具參考價值的結(jié)論。
(3)控制變量是否會影響論文被引頻次?
不可否認,論文被引頻次受多種因素共同作用。其中就包括本文涉及的控制變量:期刊影響因子、作者數(shù)、參考文獻數(shù)、論文篇幅以及作者學術年齡。在商業(yè)與經(jīng)濟領域,期刊影響因子對論文被引頻次的作用較大,而在計算機科學與人工智能領域,參考文獻數(shù)對論文被引頻次的作用較大。
期刊影響因子在商業(yè)與經(jīng)濟領域確實對科研人員職業(yè)生涯的論文被引頻次起到非常重要的作用。研究表明,聲望較高的期刊能夠吸引高質(zhì)量論文,這就意味著高質(zhì)量論文提交到核心期刊,而較低質(zhì)量論文提交到二流期刊,核心期刊論文與二流期刊論文相比被引用次數(shù)更高[21]。期刊影響因子與論文被引頻次之間的天然聯(lián)系,使得在科研人員評價中,雖然期刊影響因子不適用于評價科研人員個人或單篇論文,卻可以用作論文被引頻次評價的重要參考。
參考文獻數(shù)在計算機科學與人工智能領域?qū)蒲腥藛T職業(yè)生涯的論文被引頻次起到較大作用。參考文獻數(shù)量以及參考文獻的其他特征是論文被引頻次強有力的預測因子[22]。研究發(fā)現(xiàn),論文的參考文獻數(shù)量越多,其被引的可能性越大[18]。計算機科學與人工智能領域222449 篇論文的平均參考文獻數(shù)量為28.8 篇。
科研人員職業(yè)生涯中學術論文相似度與論文被引頻次關系的研究,可以為科研人員研究主題轉(zhuǎn)移提供一定的參考。當然,本文還存在一些不足:①學術論文相似度局限于學科內(nèi),不涉及跨學科性問題。本文采用“先確定學科再確定科研人員”的策略,計算科研人員在學科內(nèi)部論文的相似度,并未考慮科研人員在其他學科領域發(fā)表的論文。②學術論文相似度使用論文標題的語義相似性來度量,這種方法一方面容易受作者選詞傾向的影響,比如,選擇新詞匯以突出論文新穎性,吸引讀者、審稿人的關注;另一方面容易受學科詞匯演化的影響,學科在發(fā)展中會不斷出現(xiàn)新術語、新概念。我們會在后續(xù)研究中通過關注跨學科科研人員群體、使用更完善的相似度計算方法以彌補以上不足。