許林玉
(徐州醫(yī)科大學(xué)管理學(xué)院,江蘇 徐州 221004)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)學(xué)術(shù)社交平臺(tái)得到了廣泛的發(fā)展和應(yīng)用,形成了開(kāi)放自由的學(xué)術(shù)交流體系。在此背景下,學(xué)術(shù)成果交流、傳播與利用的時(shí)空發(fā)生了變化,需要反應(yīng)更為及時(shí)的評(píng)價(jià)指標(biāo)來(lái)豐富傳統(tǒng)引文評(píng)價(jià)指標(biāo)。Priem J等[1]認(rèn)為網(wǎng)絡(luò)環(huán)境的學(xué)術(shù)行為也可以測(cè)度,并首次提出Altmetric指標(biāo)來(lái)表征基于社交網(wǎng)絡(luò)的影響力。研究者們普遍認(rèn)為,Altmetric指標(biāo)以反應(yīng)及時(shí)、數(shù)據(jù)更新快、傳播范圍廣、公共深度參與等特點(diǎn)豐富了傳統(tǒng)評(píng)價(jià)指標(biāo),延展了學(xué)術(shù)影響力,在一定程度上完善了學(xué)術(shù)評(píng)價(jià)體系[2-3]。
自2018年以來(lái),中共中央辦公廳、國(guó)務(wù)院辦公廳等機(jī)構(gòu)先后印發(fā)了關(guān)于深化項(xiàng)目評(píng)審、人才評(píng)價(jià)、機(jī)構(gòu)評(píng)估等措施及指導(dǎo)意見(jiàn),其中反復(fù)提到科研領(lǐng)域要關(guān)注“標(biāo)志性、代表性成果”。在這樣的背景下,探索學(xué)科領(lǐng)域高社會(huì)影響和高學(xué)術(shù)影響力論文成為國(guó)內(nèi)學(xué)術(shù)界持續(xù)關(guān)注的熱點(diǎn)問(wèn)題。Altmetric TOP100論文榜單和高被引論文等標(biāo)簽作為領(lǐng)域內(nèi)高關(guān)注度論文,有效解決了研究者搜尋領(lǐng)域內(nèi)的高活躍度、高影響力論文過(guò)程中的信息不對(duì)稱和信息不完全等問(wèn)題。
現(xiàn)有研究主要側(cè)重于探索Altmetric各指標(biāo)與被引量的關(guān)系,且不同的研究結(jié)果存在差異。但Altmetric TOP100榜單是否對(duì)論文被引量有影響,這個(gè)問(wèn)題較少被提及,雖然Altmetric值及學(xué)術(shù)論文被引量這兩個(gè)指標(biāo)是不同受眾群體對(duì)學(xué)術(shù)論文的關(guān)注、認(rèn)可所引發(fā)的結(jié)果,但是二者之間存在因果關(guān)系,正如電影豆瓣評(píng)分會(huì)影響電影的播放量、下載量等,學(xué)術(shù)論文的Altmetric值亦會(huì)影響學(xué)術(shù)論文的被引量,特別是學(xué)術(shù)論文在社交媒體平臺(tái)形成口碑效應(yīng)后對(duì)被引量具有較大的影響,而進(jìn)入Altmetric TOP100論文榜單在一定程度上體現(xiàn)了學(xué)術(shù)論文在社交媒體平臺(tái)的高口碑效應(yīng)。故而本文在前人研究基礎(chǔ)上通過(guò)傾向得分匹配的因果分析方法探究Altmetric TOP100論文榜單與論文被引量之間的因果關(guān)系,進(jìn)一步細(xì)化學(xué)術(shù)論文的社會(huì)影響力與學(xué)術(shù)影響力關(guān)系研究,拓寬Altmetric的理論和實(shí)證研究;進(jìn)一步推進(jìn)因果分析法在圖情領(lǐng)域的應(yīng)用。
高Altmetric主要通過(guò)Altmetric TOP100榜單來(lái)表征。Altmetric TOP100是Altmetric.com官網(wǎng)根據(jù)Altmetric指標(biāo)數(shù)據(jù),評(píng)選出的每年最受公眾關(guān)注的前100項(xiàng)研究成果[4]?,F(xiàn)有研究者對(duì)于高Altmetric的研究主要圍繞Altmetric TOP100榜單論文的特征及論文Altmetric分?jǐn)?shù)與其被引量關(guān)系等。
1.1.1 Altmetric TOP100榜單論文的特征分析
李根等較早對(duì)Altmetric TOP100的來(lái)源期刊、學(xué)科領(lǐng)域、作者地域分布和論文傳播途徑等方面展開(kāi)分析[5];邱均平等學(xué)者將時(shí)間跨度擴(kuò)大到2016—2018年,并對(duì)Altmetric TOP100論文的來(lái)源機(jī)構(gòu)、來(lái)源期刊、所屬學(xué)科及傳播途徑進(jìn)行更細(xì)致的探究[6];趙蓉英等團(tuán)隊(duì)在上述研究的基礎(chǔ)上探究Altmetric TOP100榜單論文的合作模式[7]及Altmetric TOP100論文的來(lái)源期刊、學(xué)科分布等特征的動(dòng)態(tài)演化[8];歐桂燕等研究2013—2018年Altmetric TOP100論文的特征演化趨勢(shì)[9]等。
1.1.2 論文Altmetric分?jǐn)?shù)與其被引量關(guān)系研究
現(xiàn)有研究對(duì)學(xué)術(shù)論文的Altmetric分?jǐn)?shù)與其被引量相關(guān)性的結(jié)果莫衷一是,主要有弱相關(guān)及不相關(guān)兩種結(jié)論。
有研究者指出Altmetric分?jǐn)?shù)與被引量存在弱相關(guān)性,如Popla?en L等利用2014年Altmetric TOP100論文,證實(shí)了被引量與Altmetric分?jǐn)?shù)的弱相關(guān)關(guān)系[10];Tornberg H N等從COVID-19領(lǐng)域Altmetric分?jǐn)?shù)前100篇論文得出Altmetric分?jǐn)?shù)與被引量弱相關(guān)關(guān)系[11]。
而Kim J E等以中樞神經(jīng)系統(tǒng)炎性脫髓鞘病(CIDD)的Altmetric TOP100的論文為研究數(shù)據(jù),沒(méi)有發(fā)現(xiàn)Altmetric分?jǐn)?shù)與被引量的顯著相關(guān)性[12];譚貝加以2014—2017年Altmetric TOP100論文為研究對(duì)象,認(rèn)為Altmetric得分與被引量不相關(guān)[13]。
有學(xué)者對(duì)上述結(jié)論展開(kāi)了進(jìn)一步的思考,提出高Altmetric分?jǐn)?shù)與論文被引量的相關(guān)性與累計(jì)時(shí)間效應(yīng)有關(guān),如王睿等“采用公平性測(cè)試方法”消除時(shí)間窗口影響后得出高Altmetric分?jǐn)?shù)與被引量的關(guān)系較強(qiáng)[14]等;亦有學(xué)者認(rèn)為,高Altmetric分?jǐn)?shù)與論文被引量的相關(guān)性可能與研究領(lǐng)域相關(guān),如郭飛等運(yùn)用Altmetric TOP100數(shù)據(jù)得出學(xué)科差異性顯著影響Altmetric分?jǐn)?shù)與被引量的相關(guān)性[15]。
目前,國(guó)內(nèi)外有少量學(xué)者運(yùn)用PSM方法解決圖情領(lǐng)域問(wèn)題。國(guó)外學(xué)者如Mirnezami S R等采用傾向得分匹配法探討是否具有“研究主席”職位的科學(xué)家論文產(chǎn)出量的差異性[16];Mutz R等運(yùn)用PSM方法論證具有“VIP論文”稱號(hào)對(duì)論文被引量的影響[17];Shimada Y A等使用PSM-DID探討科研項(xiàng)目類型對(duì)項(xiàng)目參與者論文的數(shù)量及內(nèi)容的影響[18];Liu M J等通過(guò)PSM發(fā)現(xiàn)多語(yǔ)種期刊和線上期刊的存續(xù)時(shí)間更長(zhǎng)[19]等。
國(guó)內(nèi)情報(bào)學(xué)主流期刊也逐漸出現(xiàn)了基于傾向得分匹配法的因果關(guān)系研究,如趙宇翔等探索“優(yōu)秀回答者稱號(hào)”及“進(jìn)行個(gè)人認(rèn)證”等用戶標(biāo)識(shí)對(duì)回答者在問(wèn)答平臺(tái)轉(zhuǎn)移行為的影響[20];宋士杰等探討了互聯(lián)網(wǎng)環(huán)境對(duì)公民健康素養(yǎng)的影響[21]以及使用互聯(lián)網(wǎng)對(duì)老年人孤獨(dú)感的影響[22];陳玲等運(yùn)用PSM-DID方法探究政務(wù)大數(shù)據(jù)政策與技術(shù)創(chuàng)新之間的因果關(guān)系[23];李廣威等運(yùn)用PSM探究解密和脫密的政策實(shí)施效果[24];張克群等運(yùn)用PSM對(duì)專利價(jià)值的影響因素進(jìn)行分析[25]等。
已有Altmetric TOP100榜單的研究多集中于Altmetric TOP100論文特征演化研究及Altmetric分?jǐn)?shù)與被引量的相關(guān)性等視角的研究,且相關(guān)性結(jié)果有弱相關(guān)及不相關(guān)等相悖的結(jié)論。
目前,對(duì)于Altmetric分?jǐn)?shù)與論文被引量的研究多用傳統(tǒng)的回歸方法進(jìn)行驗(yàn)證,如多元線性回歸及負(fù)二項(xiàng)回歸等,主要研究二者的相關(guān)性關(guān)系。受論文內(nèi)生性、選擇性偏差等問(wèn)題的影響,直接進(jìn)行相關(guān)及回歸分析難以剝離其他因素對(duì)被引量的影響,無(wú)法獲得Altmetric TOP100論文榜單對(duì)論文被引量影響的“凈”效應(yīng)。本文采用基于匹配思想的傾向得分匹配法,通過(guò)控制其他協(xié)變量,比較“同質(zhì)”論文在Altmetric TOP100榜單及非Altmetric TOP100榜單狀況下被引量的差異,并將學(xué)術(shù)論文細(xì)分為高被引論文和普通論文組,深入考察Altmetric TOP100論文榜單對(duì)高被引論文和普通論文的影響的差異性,結(jié)果的解釋性及穩(wěn)健性更強(qiáng)。
2.1.1 數(shù)據(jù)采集
本文的數(shù)據(jù)集主要包括3部分:Altmetric TOP100論文數(shù)據(jù)、WOS核心合集內(nèi)所有高被引論文的題錄數(shù)據(jù)以及部分普通論文的題錄數(shù)據(jù)。本文選取該數(shù)據(jù)集的理由主要有兩點(diǎn):①WOS數(shù)據(jù)庫(kù)是世界范圍內(nèi)較為核心且權(quán)威的數(shù)據(jù)庫(kù),其認(rèn)定的高被引論文在一定程度上具有權(quán)威性;Altmetric網(wǎng)站日益受到大家的關(guān)注與認(rèn)可,是目前成熟的Altmetric分析工具[4],其認(rèn)證的Altmetric TOP100受到研究者的廣泛認(rèn)可;②本文的年份選取為2013—2015年,在確保論文超過(guò)5年的累積被引量的基礎(chǔ)上,保證足夠的樣本量。
1)2013—2015年Altmetric TOP100論文數(shù)據(jù):本文通過(guò)Altmetric.com官網(wǎng)下載該數(shù)據(jù)集,主要題錄信息包括Altmetric分?jǐn)?shù)、論文標(biāo)題、發(fā)表期刊、發(fā)表日期、作者、摘要及DOI等。數(shù)據(jù)集下載時(shí)間為2020年11月,共得300條論文數(shù)據(jù)。
2)2013—2015年WOS核心合集內(nèi)所有高被引論文的題錄數(shù)據(jù):本文參照科睿唯安官網(wǎng),將高被引論文定義為“在10年內(nèi)發(fā)表且其引用頻次處于該研究領(lǐng)域同一出版年前1%的研究成果”[26]。下載流程如下:首先選擇WOS核心合集數(shù)據(jù)庫(kù),在高級(jí)檢索框中輸入“PY=2013”(出版年為2013年)的檢索條件進(jìn)行搜索,選中“領(lǐng)域中的高被引論文”,并以純文本格式導(dǎo)出文獻(xiàn)題錄的全記錄;題錄主要包括作者、標(biāo)題、期刊名稱、關(guān)鍵詞、摘要、資助機(jī)構(gòu)及DOI等字段。檢索時(shí)間為2020年11月27日,一共得到14 413篇高被引論文的數(shù)據(jù)。2014—2015年數(shù)據(jù)亦如此下載,最后共得2013—2015年高被引論文44 620篇。
3)2013—2015年WOS核心合集內(nèi)部分普通論文的題錄數(shù)據(jù),下載流程如下:首先選擇WOS核心合集數(shù)據(jù)庫(kù),檢索出2013年去除掉高被引論文的其他論文,并以純文本格式導(dǎo)出前20 000篇論文題錄的全記錄,題錄信息與上文高被引論文相同,共下載2013—2015年60 000條數(shù)據(jù)。本文的普通論文定義為不包括高被引論文和零被引論文的其他論文,故而本文將60 000條論文數(shù)據(jù)去除零被引論文數(shù)據(jù),剩余的數(shù)據(jù)為不包含高被引論文和零被引論文的普通論文數(shù)據(jù)集。
2.1.2 數(shù)據(jù)預(yù)處理
1)數(shù)據(jù)刪除
本文將高被引論文及普通論文數(shù)據(jù)集都剔除少量缺失“標(biāo)題”“作者”“摘要”“關(guān)鍵詞”或“期刊”等關(guān)鍵信息的不完整數(shù)據(jù),最終高被引論文數(shù)據(jù)集獲得42 776條研究數(shù)據(jù),普通論文數(shù)據(jù)集30 164條。
2)數(shù)據(jù)匹配
本文主要從兩個(gè)數(shù)據(jù)平臺(tái)下載數(shù)據(jù)集,需要對(duì)2013—2015年Altmetric TOP100及WOS論文這兩個(gè)數(shù)據(jù)集進(jìn)行識(shí)別匹配。DOI作為論文的標(biāo)識(shí),具有唯一性,故而本文根據(jù)“DOI”字段進(jìn)行匹配。2013—2015年Altmetric TOP100共300條數(shù)據(jù),有17篇無(wú)DOI標(biāo)識(shí),另有10篇預(yù)發(fā)布在arXiv等平臺(tái)上未能在WOS平臺(tái)檢索,最后共有273篇論文通過(guò)匹配,其中高被引論文組有139篇論文通過(guò)匹配,故將這139篇論文作為高被引論文組的實(shí)驗(yàn)組,其余高被引論文作為待匹配的控制組;而在普通論文組,有134篇論文通過(guò)匹配,故將這134篇論文作為普通論文組的實(shí)驗(yàn)組,其他普通論文作為待匹配的控制組。
傾向值(Propensity Score)最早由Rosenbaum P R等學(xué)者于1983年提出[27],是指被研究的個(gè)體在控制混淆變量的情況下受到某種自變量影響的條件概率。傾向得分匹配是指(Propensity Score Matching,PSM)使用傾向值作為距離函數(shù)進(jìn)行匹配的方法,目的是通過(guò)建立“控制組”及“實(shí)驗(yàn)組”構(gòu)造一個(gè)近似隨機(jī)化實(shí)驗(yàn)的場(chǎng)景。
本文運(yùn)用該方法的基本思路是:比較同一篇論文在“AT100榜單”與“非AT100榜單”兩種情形下論文被引量的差異。若同一篇論文在“AT100榜單”與“非AT100榜單”下論文被引量存在差異,則認(rèn)為AT100榜單導(dǎo)致了論文被引量的差異。本文以i代表論文,y代表年份,AT代表論文是否屬于AT100榜單,若屬于AT100榜單為1,否則為0。TC為論文被引量,TC1和TC0分別表示論文是否進(jìn)入AT100榜單狀況下論文的被引量,則AT100對(duì)論文被引量影響的“凈”效應(yīng)為:
“匹配”就是在非AT100榜單組將與AT100榜單組“相仿”的論文找出來(lái),具體操作是令A(yù)T100榜單組和非AT100榜單組論文所有協(xié)變量相同或相似。但協(xié)變量指標(biāo)較多,其指標(biāo)權(quán)重難以衡量,故而本文通過(guò)傾向得分匹配方法將眾多協(xié)變量合成一個(gè)得分,對(duì)AT100榜單組和非AT100榜單組相近得分的論文進(jìn)行匹配。由于本文的處理變量是二分類變量,因而可以采用形式更靈活的Logit模型[30]。
傾向得分匹配的匹配方法主要為K近鄰匹配、半徑匹配、核匹配以及局部線性回歸匹配等。其中K近鄰匹配指尋找傾向得分最近的K個(gè)不同組個(gè)體;半徑匹配是將傾向得分的絕對(duì)距離限制在某個(gè)范圍內(nèi),上述兩種方法都是匹配最近的個(gè)體,本質(zhì)上屬于近鄰匹配;而核匹配及局部線性回歸匹配是基于不同權(quán)重計(jì)算方法的整體匹配法,核匹配使用核函數(shù)計(jì)算權(quán)重;使用局部線性回歸來(lái)估計(jì)權(quán)重則稱為局部線性回歸匹配。本文使用Stata15實(shí)現(xiàn)傾向得分匹配法。
2.3.1 結(jié)果變量
本文考察的是Altmetric TOP100榜單對(duì)論文被引量的影響,并將論文細(xì)分為高被引論文和普通論文兩個(gè)組。故而本文的結(jié)果變量為高被引論文被引量和普通論文被引量,其中被引量用總被引量表征。
2.3.2 處理變量
本文將Altmetric TOP100榜單作為處理變量,若該篇論文屬于Altmetric TOP100榜單,賦值為1,若不屬于Altmetric TOP100榜單,則賦值為0。
2.3.3 協(xié)變量
1)協(xié)變量的選取及定義
協(xié)變量又稱控制變量,本文基于論文內(nèi)外部特征選取協(xié)變量,主要包括標(biāo)題長(zhǎng)度、作者合作規(guī)模、國(guó)家合作規(guī)模、關(guān)鍵詞數(shù)量、摘要長(zhǎng)度、基金資助、學(xué)科數(shù)量、參考文獻(xiàn)數(shù)量、文章篇幅、文獻(xiàn)類型、研究領(lǐng)域、期刊所屬分區(qū)、開(kāi)放獲取及出版年份等。本文根據(jù)協(xié)變量的數(shù)據(jù)結(jié)構(gòu)又將其分為離散變量和分類變量,其中離散變量主要為標(biāo)題長(zhǎng)度、作者合作規(guī)模、國(guó)家合作規(guī)模、關(guān)鍵詞數(shù)量、摘要長(zhǎng)度、學(xué)科數(shù)量、參考文獻(xiàn)數(shù)量、文章篇幅等,分類變量主要為基金資助、開(kāi)放獲取、文獻(xiàn)類型、研究領(lǐng)域、期刊所屬分區(qū)以及出版年份等。各變量的選取及定義如表1所示。
表1 變量選取及定義
2)協(xié)變量的處理
①協(xié)變量的清洗處理
直接獲得的研究數(shù)據(jù)使用之前需要進(jìn)行一定的清洗處理。如國(guó)家合作規(guī)模,本文基于“Addresses”字段獲取地址中國(guó)家信息,清洗、去重后最終獲得國(guó)家數(shù)量,作為國(guó)家合作規(guī)模指標(biāo)值;WOS數(shù)據(jù)庫(kù)期刊分區(qū)的更新會(huì)滯后1年,本文在填充期刊分區(qū)字段時(shí),根據(jù)期刊名稱匹配論文出版年前一年所對(duì)應(yīng)的WOS平臺(tái)公布的期刊分區(qū)列表,并填充到相應(yīng)字段,沒(méi)有被匹配到的期刊說(shuō)明當(dāng)年沒(méi)有被JCR收錄,故而沒(méi)有匹配到的期刊為其他。對(duì)于研究領(lǐng)域字段,本文將所有研究領(lǐng)域分別填充到WOS平臺(tái)公布的五大研究領(lǐng)域中,分別為藝術(shù)與人文、生命科學(xué)與生物醫(yī)學(xué)、自然科學(xué)、社會(huì)科學(xué)以及應(yīng)用科學(xué),其中標(biāo)注多個(gè)學(xué)科的為跨學(xué)科研究。其他變量的處理在表1中有明確的定義說(shuō)明。
②分類變量的處理
對(duì)于分類變量,本文引入虛擬變量,即取值設(shè)為0或者1,當(dāng)有多分類變量時(shí),如研究領(lǐng)域、期刊分區(qū)及出版年份等,設(shè)置多個(gè)虛擬變量,而不能只設(shè)置1、2、3等數(shù)值來(lái)區(qū)分,因?yàn)榉诸愖兞恐g的區(qū)分度比較大,引入虛擬變量表明處于不同的分類水平使用不同的截距項(xiàng),如果只設(shè)置數(shù)值標(biāo)注在回歸過(guò)程中無(wú)法起到區(qū)分效果。
3.1.1 高被引論文與普通論文的描述性統(tǒng)計(jì)
表2顯示了高被引論文與普通論文各變量的描述性統(tǒng)計(jì)分析結(jié)果。由表2可得,高被引論文與普通論文部分變量的差異性較大:高被引論文與普通論文被引量的平均值相差16倍多;基金資助高被引論文占比較多,為81.32%,而普通論文只占比51.58%;高被引論文開(kāi)放獲取的比例比普通論文高近16%;普通論文的文獻(xiàn)類型主要為研究型論文(Paper),占比高達(dá)95.16%;而高被引論文中綜述也占有一定的比重;在研究領(lǐng)域方面,除了跨學(xué)科領(lǐng)域外,高被引論文與普通論文占比最高的都是生命科學(xué)與生物醫(yī)學(xué),最低的是藝術(shù)與人文,且藝術(shù)與人文領(lǐng)域論文只有4篇論文入選高被引論文,在普通論文組也只占0.32%,樣本量較少,無(wú)法得出可靠的研究結(jié)論,故而在下文的分析中將藝術(shù)與人文領(lǐng)域的數(shù)據(jù)去除;在期刊分區(qū)方面,大部分高被引論文都發(fā)表于一區(qū)期刊中,占比80.23%,可見(jiàn)高被引論文多發(fā)表于優(yōu)質(zhì)的期刊,而普通論文的期刊分布在4個(gè)區(qū)較為均衡。
表2 高被引論文與普通論文的描述性統(tǒng)計(jì)
表2(續(xù))
3.1.2 高被引論文AT100榜單與非AT100榜單的描述性統(tǒng)計(jì)
表3展示了高被引論文AT100榜單與非AT100榜單各變量的描述性統(tǒng)計(jì)結(jié)果。由表3可得,高被引論文AT100榜單組與非AT100榜單組的差異性主要集中于被引量、開(kāi)放獲取、文獻(xiàn)類型及研究領(lǐng)域等變量,其中,AT100榜單論文被引量的平均值比非AT100榜單論文高370篇左右;AT100榜單組開(kāi)放獲取占比較多,為71.22%,而非AT100榜單組只占比49.29%;AT100榜單組的文獻(xiàn)類型主要為研究型論文(Paper),高達(dá)95.68%,而非AT100榜單組中綜述也占有一定的比重;在研究領(lǐng)域方面,AT100榜單組占比最高的是應(yīng)用科學(xué),其次是生命科學(xué)與生物醫(yī)學(xué),非AT100榜單組占比最高的是跨學(xué)科研究。
表3 高被引論文AT100榜單與非AT100榜單各變量的描述性統(tǒng)計(jì)
表3(續(xù))
3.1.3 普通論文的AT100榜單與非AT100榜單的描述性統(tǒng)計(jì)
表4展示了普通論文AT100榜單與非AT100榜單各變量的描述性統(tǒng)計(jì)結(jié)果。由表4可得,普通論文AT100榜單組與非AT100榜單組差異性主要集中于被引量、基金資助、開(kāi)放獲取、研究領(lǐng)域及期刊分區(qū)等變量。其中,AT100榜單組被引量的平均值是非AT100榜單組的10倍;AT100榜單組84.33%的論文被基金資助,而非AT100榜單組基金資助只占51.43%;開(kāi)放獲取AT100榜單組占比較多,為75.37%,而非AT100榜單論文組只占33%;在研究領(lǐng)域變量中,AT100榜單組占比最高的是應(yīng)用科學(xué),非AT100榜單組占比最高的是跨學(xué)科研究;AT100榜單組91.79%的論文都發(fā)表于一區(qū)期刊中,而非AT100榜單組論文的期刊分布在4個(gè)區(qū),較為均衡。其他變量的差異性較小,不一一贅述。
表4 普通論文AT100榜單與非AT100榜單各變量的描述性統(tǒng)計(jì)
表4(續(xù))
本文采用傾向得分匹配方法(PSM)嘗試探究AT100榜單與論文被引量的因果關(guān)系,其中,處理組為AT100榜單論文,控制組則為非AT100榜單的論文。如果實(shí)驗(yàn)組中的論文可以在控制組中匹配到一個(gè)或多個(gè)協(xié)變量相同或類似的論文,則論文被引量的差異即認(rèn)為是AT100榜單帶來(lái)的平均處理效應(yīng)(ATT)。為了檢驗(yàn)研究數(shù)據(jù)是否適用于傾向得分匹配及保證論文匹配結(jié)果的可靠性,本文需要對(duì)匹配后變量的平衡性及共同支撐等進(jìn)行檢驗(yàn)。
3.2.1 平衡性檢驗(yàn)
本文構(gòu)建了高被引論文及普通論文各變量的平衡性檢驗(yàn)結(jié)果,以檢驗(yàn)匹配后結(jié)果是否較好地平衡了數(shù)據(jù),以K值匹配中的1∶1匹配為例,如表5所示。平衡性檢驗(yàn)的標(biāo)準(zhǔn)一般為兩點(diǎn):其一是匹配后的標(biāo)準(zhǔn)化偏差小于10%視為平衡效果較好;其二是匹配后的兩組論文的變量無(wú)顯著性差異,主要通過(guò)T檢驗(yàn)的P值來(lái)表征,若P>0.1,未通過(guò)顯著性檢驗(yàn),即表明AT100榜單組與非AT100榜單組變量在匹配后無(wú)顯著性差異。
由表5可看出,大部分高被引論文和普通論文變量的標(biāo)準(zhǔn)化偏差都小于10%(高被引論文組關(guān)鍵詞長(zhǎng)度、普通論文組標(biāo)題長(zhǎng)度及研究領(lǐng)域?yàn)樽匀豢茖W(xué)組除外),可見(jiàn)匹配后數(shù)據(jù)得到了較好的平衡,匹配效果較好。本文在表5的基礎(chǔ)上繪制了高被引論文和普通論文各變量的標(biāo)準(zhǔn)化偏差圖,如圖1、圖2所示,其中橫坐標(biāo)為各變量標(biāo)準(zhǔn)化偏差值,縱坐標(biāo)為各變量名稱。由圖1、圖2可直觀看出,匹配前,變量分布較為零散,大部分變量距離原點(diǎn)較遠(yuǎn);而匹配后,大部分變量都圍繞在原點(diǎn)附近,可見(jiàn)大部分變量的標(biāo)準(zhǔn)化偏差在匹配后都明顯減小,匹配效果較好。而且由表5可得,高被引論文和普通論文所有變量匹配后的P值都較高,即AT100榜單組與非AT100榜單組在匹配后無(wú)顯著性差異。綜上可得,本文高被引論文組和普通論文組平衡性檢驗(yàn)效果較好。
表5 高被引論文及普通論文各變量的平衡性檢驗(yàn)結(jié)果
表5(續(xù))
圖1 高被引論文各變量的標(biāo)準(zhǔn)化偏差圖
圖2 普通論文各變量的標(biāo)準(zhǔn)化偏差圖
3.2.2 共同支撐性假定
為了顯示傾向得分的共同取值范圍,本文繪制了匹配得分箱圖及匹配后的核密度圖,如圖3~4及圖5~6分別為高被引論文及普通論文傾向得分的共同取值范圍箱圖和匹配后的核密度圖。其中,箱圖中橫坐標(biāo)的0值代表控制組,1值代表處理組,縱坐標(biāo)表示傾向得分;核密度曲線中,虛線表征實(shí)驗(yàn)組,實(shí)線表征控制組。由匹配得分箱圖可看出,高被引論文及普通論文的AT100榜單組與非AT100榜單組的傾向得分有較大的共同取值部分。且由匹配后傾向得分核密度曲線圖可看出,高被引論文組和普通論文組匹配后AT100榜單組與非AT100榜單組的核密度曲線幾乎重合,曲線重合的下方有較大的共同支撐區(qū)域,故而綜上可得,高被引論文與普通論文數(shù)據(jù)滿足共同支撐假定。
圖3 高被引論文傾向得分的共同取值范圍箱圖
3.2.3 匹配結(jié)果估計(jì)及穩(wěn)健性檢驗(yàn)
為了保證結(jié)果的穩(wěn)健性,本文采用多種匹配方
圖4 高被引論文傾向得分的核密度曲線(匹配后)
圖5 普通論文傾向得分的共同取值范圍箱圖
法來(lái)計(jì)算AT100榜單對(duì)論文被引量的平均處理效應(yīng)(ATT值)及其顯著性,包括K近鄰匹配法(1∶1、1∶2、1∶3以及1∶4)、半徑匹配、核匹配以及局部線
圖6 普通論文傾向得分的核密度曲線(匹配后)
性回歸匹配,其中,半徑匹配與核匹配沒(méi)有通過(guò)平衡性檢驗(yàn),故在結(jié)果中去除,最終通過(guò)檢驗(yàn)的傾向得分匹配結(jié)果呈現(xiàn),如表6所示,模型1和模型2不同匹配方法下的ATT值有細(xì)微差別,但總體差別不大,且都通過(guò)了顯著性檢驗(yàn),可見(jiàn)結(jié)果具有較強(qiáng)的穩(wěn)健性。由模型1可得,AT100榜單對(duì)高被引論文的平均處理效應(yīng)(ATT值)為312.156,可見(jiàn)AT100榜單平均能使高被引論文提高312篇被引量;由模型2可得,AT100榜單對(duì)普通論文的平均處理效應(yīng)為134.069,可見(jiàn)AT100榜單能使普通論文提高134篇被引量。故而可得AT100榜單對(duì)高被引論文和普通論文被引量都具有顯著的正向促進(jìn)作用,AT100榜單對(duì)高被引論文比普通論文被引量具有更大的正向影響。
表6 高被引論文與普通論文的傾向得分匹配結(jié)果
本文最后使用馬氏匹配對(duì)上文傾向得分匹配結(jié)果進(jìn)行驗(yàn)證,如表6所示。馬氏匹配先于傾向值匹配被提出來(lái),也是一種基于變量之間相似度或距離進(jìn)行匹配的方法,只是對(duì)于相似度或距離的計(jì)算方法與傾向得分匹配不同,是一種被廣泛應(yīng)用的匹配方法。由表6可看出,無(wú)論是平均處理效應(yīng),亦或是顯著性,馬氏匹配的結(jié)果都與傾向得分匹配結(jié)果類似,可見(jiàn)傾向得分匹配的結(jié)果具有較強(qiáng)的穩(wěn)健性。
隨著Altmetric指標(biāo)的興起,越來(lái)越多的研究者關(guān)注于Altmetric TOP100論文與其學(xué)術(shù)影響力的關(guān)系研究,本文梳理前人的研究成果,從Altmetric TOP100榜單的視角考察其對(duì)論文被引量的因果影響。本文運(yùn)用2013—2015年Altmetric TOP100論文及WOS數(shù)據(jù)庫(kù)的高被引論文、普通論文題錄數(shù)據(jù),在平衡性檢驗(yàn)及共同支撐檢驗(yàn)的基礎(chǔ)上,綜合采用近鄰匹配、半徑匹配、核匹配以及局部線性回歸匹配等匹配方法,在非AT100榜單組尋找與AT100榜單論文相似的匹配對(duì)象,進(jìn)而通過(guò)比較AT100榜單組與非AT100榜單組論文被引量的差異來(lái)評(píng)估AT100榜單對(duì)論文被引量影響的凈效應(yīng),并最終通過(guò)馬氏匹配來(lái)檢驗(yàn)結(jié)果的穩(wěn)健性。研究結(jié)果表明:
1)高被引論文與普通論文變量值存在較大差異,主要為被引量、基金資助、開(kāi)放獲取、文獻(xiàn)類型、研究領(lǐng)域及期刊分區(qū)等方面;高被引論文AT100榜單論文與非AT100榜單論文的差異性主要集中于被引量、開(kāi)放獲取、文獻(xiàn)類型及研究領(lǐng)域等變量;普通論文組AT100榜單論文與非AT100榜單論文變量的差異性主要集中于被引量、基金資助、開(kāi)放獲取、研究領(lǐng)域及期刊等。
2)AT100榜單論文作為科研領(lǐng)域的“強(qiáng)信號(hào)”,極大地增加了論文的可見(jiàn)性,對(duì)論文被引量具有顯著的正向影響。由上文可得,AT100榜單對(duì)高被引論文的平均處理效應(yīng)為312.156,而AT100榜單對(duì)普通論文的平均處理效應(yīng)為134.069,可見(jiàn)AT100榜單平均能使高被引論文提高312篇被引量,而AT100榜單能使普通論文提高134篇被引量,AT100榜單對(duì)高被引論文被引量的影響比普通論文更大??赡苁茿T100榜單極大地提高了論文的“曝光量”,但是在引用過(guò)程中,施引者仍會(huì)優(yōu)先考慮領(lǐng)域的優(yōu)質(zhì)論文,故而AT100對(duì)高被引論文被引量比普通論文有更大的影響作用,是施引者施引行為的擇優(yōu)過(guò)程。
本研究存在一些不足,首先對(duì)于普通論文組數(shù)據(jù)的選擇,因?yàn)閃OS核心合集每年的普通論文數(shù)據(jù)量較多,無(wú)法下載所有普通論文,只能選取部分?jǐn)?shù)據(jù),可能無(wú)法涵蓋所有普通論文數(shù)據(jù)信息,故而普通論文得到的平均處理效應(yīng)可能有些許偏差。其次,本文基于前人研究選取了學(xué)術(shù)論文被引量的核心影響因素作為本文的協(xié)變量,無(wú)法窮盡并控制所有可能引起被引量的影響因素,以考察AT100對(duì)學(xué)術(shù)論文被引量的因果關(guān)系,所以本文得出的平均處理效應(yīng)可能會(huì)有些許偏差,在以后的研究中,將探尋更多可能影響學(xué)術(shù)論文被引量的因素,以得出更為嚴(yán)謹(jǐn)?shù)难芯拷Y(jié)果。