■謝維熙 張光耀 王賢文
大連理工大學科學學與科技管理研究所暨WISE實驗室,遼寧省大連市甘井子區(qū)凌工路2號 116024
同行評議(本研究只討論學術論文發(fā)表同行評議,不涉及科研項目和獎項評審情況)和引文分析是科研評價中常用的兩種方法。同行評議是科技期刊對論文進行評價和遴選以保證發(fā)表論文質量的過程,由期刊邀請同行專家對投稿論文提出修改意見和作出評判,并將其評價作為判斷文章是否能發(fā)表的主要依據[1]。引文是作者選擇支撐其學術研究的理論、觀點、數(shù)據和方法等研究資料,引文分析則是利用引文與學術成果的互依性進行學術評價[2]。同行評議與引文分析在學術評價中各有優(yōu)缺點,隨著同行評議數(shù)據的不斷開放,科學工作者們可以從實證角度對同行評議和文獻計量間的關系展開研究,但其研究仍受同行評議數(shù)據開放程度的限制。
本研究旨在開放同行評議的背景下,對三類論文在評審得分和被引頻次方面的差異以及論文同行評議得分與被引頻次的相關性進行分析,探討論文同行評議結果與傳統(tǒng)文獻計量指標的關系,從而驗證同行評議的有效性以及分析同行評議結果與傳統(tǒng)文獻計量指標在科研評價中的關系,為提高學術評價的科學性以及完善學術評價體系提供一定的參考。
同行評議最早可追溯到17世紀,一直以來在學術期刊質量控制和科研評價方面發(fā)揮著不可替代的作用[3]。傳統(tǒng)的同行評議在實施過程中存在諸多問題[4-5],如審稿人和作者之間信任缺失、由個人利益和喜好導致不公正評價等問題[6]。
隨著開放科學運動的不斷推進[7],開放同行評議(Open Peer Review,OPR)以其公正、透明的優(yōu)勢日益受到關注并在全球多種學術期刊上得到實踐,比如PLoSONE、PeerJ、BMJ等[8],與國外相比,國內關于開放同行評議的研究和實踐仍處于初級階段。開放同行評議向大眾開放審稿信息,包括審稿人和作者身份信息、審稿人的建議、作者的回復以及評審結果等信息[9],評審過程的開放性使得審稿人在評審時會更加謹慎公正,這對提高審稿意見的質量和客觀公正性、縮短審稿時間、完善評議過程的監(jiān)督機制以及促進知識交流等都有一定的促進作用[10]。關于同行評議的開放性是否會對稿件的被引頻次產生影響,Zong等[10]和Ni等[11]分別對PeerJ和NatureCommunications的同行評議數(shù)據進行分析,得出了不一致的結論:前者認為開放同行評議提高了論文被引頻次,而后者則并沒有發(fā)現(xiàn)這一效果。
Bornmann等[12]以AtmosphericChemistryandPhysics上的1111篇接收論文為研究對象,并提取論文發(fā)表3年后的被引頻次,結果發(fā)現(xiàn)論文在各個數(shù)據庫中的被引頻次隨著同行評議評分級別的降低而減少。Ragone等[13]調研了10本計算機領域的會議論文集,發(fā)現(xiàn)同行評議評分等級與被引頻次呈正向弱相關。王一華[14]將IF(JCR)、CiteScore(Scopus)、h指數(shù)、SJR值、SNIP值與同行評議結果進行Spearman非參數(shù)相關分析,發(fā)現(xiàn)同行評議結果與這5個文獻計量指標的測量結果之間呈顯著正相關。Bornmann[15]研究了PLoS或F1000專家推薦評審等級與傳統(tǒng)文獻計量指標的相關性,結果發(fā)現(xiàn)FFa(F1000論文因子)與被引頻次之間的正相關性顯著。
檀旦[16]以醫(yī)學信息學和糖尿病為主題,分析F1000與傳統(tǒng)文獻計量學指標的相關性后發(fā)現(xiàn)兩者具有一定的正相關性。萬昊等[17]通過對120多篇實證研究進行元分析,比較同行評議與文獻計量在科研評價中的作用,結果發(fā)現(xiàn)兩者僅存在適度的正相關性,從而提出建構在定量輔助基礎上的知情同行評議模式。黃明睿[18]基于《2014年版中國科技期刊引證報告(核心版)》,采用多種計量統(tǒng)計方法研究期刊評價指標載文量、總被引頻次、影響因子和綜合評價總分之間的相互關系,結果表明總被引頻次、影響因子、綜合評價總分三者之間相互影響,在學術評價中起主要作用。現(xiàn)有的大部分實證研究表明:同行評議結果與以被引頻次為基礎的傳統(tǒng)文獻計量指標存在正相關關系,而且大部分研究結果顯示兩者的相關系數(shù)并不高。
傳統(tǒng)同行評議背景下,審稿過程數(shù)據的封閉狀態(tài)限制了同行評議實證研究的開展。隨著開放同行評議的推進,大量的關于審稿數(shù)據供科研人員進行研究。本研究基于ICLR會議論文的開放同行評議數(shù)據,使用同行評議的評分來定量測度同行評議的結果,相較于以往的定性研究具有一定的優(yōu)勢,而且ICLR數(shù)據集除了錄用論文外,還包括拒稿,這使得研究更加充實和全面。
OpenReview是一個會議論文公開評審網站, 其中ICLR(International Conference on Learning Representations)的全稱為“國際學習表征會議”,是深度學習領域影響力最大的頂級會議之一,雖然成立較晚(2013年成立),但是其作為深度學習的頂級會議已經得到了學術界的廣泛認可。ICLR備受關注的原因不僅是其在學術上具有較高的影響力,還在于它采取了開放同行評議制度,其公開的同行評議數(shù)據有原文題目、作者、摘要、下載鏈接、評審意見、作者與審稿專家以及參會人的討論過程、審稿結果即評審得分(Rating)。在ICLR論文審稿中,會議主席對其負責的投稿作出錄用與否的決策。會議主席考慮的信息包括審稿專家的評分、審稿過程中提供的證據、作者和審稿專家之間的討論以及自己對論文的評估等等(1)①來源于作者與ICLR項目主席的郵件通信,ICLR項目主席的郵件原文為:“Within the ICLR review process, Area Chairs make an accept recommendation for each submission in their respective batch. Area Chairs are asked to take into account several sources of information, including the reviewer scores and certainty, the evidence provided in the reviews, discussion between authors and reviewers, and the Area Chair′s own assessment of the paper. As such, there is no hard and fast rule on whether a paper will be accepted given a specific score. In addition, the Program Committee work with Area Chairs to calibrate acceptance decisions across Area Chairs, to account for factors such as the fact that some Area Chairs may be more conservative than others in their acceptance decisions. All calibration happens online and asynchronously, i.e., there is no single meeting where decisions are made.”。一些實證研究已經探索了這一數(shù)據集在研究中的可靠性,如基于ICLR的評審意見文本數(shù)據,對審稿意見情感以及評審中存在的制度偏見進行分析,還有學者提出將融合定性評價的論文質量評價模型用于定性評價文本的定量化研究[19-21]。在本研究中,將ICLR系列會議在OpenReview平臺中的同行評議數(shù)據和文獻計量指標數(shù)據作為研究數(shù)據,ICLR的公開審稿意見(示例)如圖1所示。
圖1 ICLR公開的審稿意見示例
本研究選取OpenReview平臺上ICLR會議論文集在2018—2019年公布的2220篇論文(排除審稿意見缺失的1篇論文和谷歌學術上查詢不到的8篇論文,以及14篇數(shù)據出現(xiàn)異常的論文)作為研究對象,包括42篇口頭報告論文(Oral Presentation Papers,以下簡稱“OP論文”;難度最大,錄用率約為1.35%)和780篇海報展示論文(Poster Presentation Papers,以下簡稱“PP論文”;錄用率約為22.65%)以及1398篇被拒收論文(Rejected Papers,以下簡稱“RP論文”)。其中,用于數(shù)據分析的變量主要包括同行評議過程中審稿專家對每篇論文給出的評分,用來判斷單篇論文的非共識程度的得分方差,以及每篇論文發(fā)表至今(2021年6—7月查詢)在谷歌學術上的總被引頻次??紤]到會議論文數(shù)據集在單個數(shù)據庫中無法保證檢全,因此選擇谷歌學術上的被引頻次作為研究要素。需要說明的是,考慮到同行評議數(shù)據的完整性以及統(tǒng)計被引頻次時保證兩年的被引時間窗口,本研究只選取2018年和2019年的數(shù)據作為研究對象。
為了比較OP論文與PP論文以及RP論文在同行評議結果和引文指標方面的差異,選取同行評議得分與論文發(fā)表至今的被引頻次這兩個指標進行比較分析,結果如表1和圖2所示。由表1可知:OP論文的評審得分和被引頻次均明顯高于PP論文,而PP論文的評審得分和被引頻次又明顯高于RP論文;單因素方差分析結果顯示,不同類型論文之間的平均得分與平均被引頻次差異有統(tǒng)計學意義。由于數(shù)據分布不符合正態(tài)分布,使用K-S檢驗進一步對三類論文的評審得分和被引頻次進行檢驗,P值均<0.001,說明OP論文、PP論文和RP論文三者之間的評審得分和被引頻次均存在顯著差異。
表1 OP論文、PP論文與RP論文的評價指標對比
圖2 OP、PP與RP論文評審得分和被引頻次分布(a)評審得分;(b)被引頻次
經過K-S檢驗,論文的評審得分與被引頻次不符合正態(tài)分布,因此采用Spearman秩相關分析方法對各類論文的評審得分與被引頻次進行相關性分析。由表2可知,對于全部論文(OP、PP和RP論文),相關系數(shù)為0.625,表現(xiàn)出較高的相關性;對于OP論文,相關系數(shù)為0.134,即評審得分與被引頻次呈顯著正相關(P<0.01);對于PP論文,相關系數(shù)為0.160,即評審得分與被引頻次呈顯著正相關;對于全部錄用論文(OP、PP論文),相關系數(shù)為0.209,全部錄用論文的評審得分與被引頻次呈顯著正相關。
表2 論文評審得分與被引頻次的相關性分析結果
對評審得分與被引頻次之間的關系進行進一步分析,首先探究全部錄用論文(OP 和 PP 論文)中不同得分水平論文的被引頻次差異是否有統(tǒng)計學意義。由于被接收論文中只有一篇低于4分,其余均分布在4~10分范圍內,因此剔除一篇最低分論文,將821篇論文按得分分到3個區(qū)間里([4,6)、[6,8)、[8,10]),對這三組論文進行非參數(shù)檢驗,發(fā)現(xiàn)不同得分水平論文之間的被引頻次差異具有統(tǒng)計學意義(P=0.002)。其次,探究對于不同被引頻次水平的論文評審得分對被引頻次的影響規(guī)律。本研究分析了高被引論文和極高被引論文的得分情況,將所有論文按被引頻次降序排列,取前5%為高被引論文,前1%為極高被引論文,結果如表3所示??梢钥吹剑瑯O高被引論文的評審得分均值(6.91)>高被引論文的評審得分均值(6.57)>非高被引論文的評審得分均值(5.37)。
表3 高被引論文和極高被引論文的平均評審得分與平均被引頻次的比較
為了更清晰地展示評審得分與被引頻次的關系,繪制了全部2220篇論文的評審得分與被引頻次的散點圖。從圖3(a)可以看出,總體上評審得分與被引頻次的相關性并不顯著。本研究同時考慮了評審存在分歧的論文即非共識論文的被引頻次分布情況。國家自然科學基金委員會管理科學部副主任楊列勛指出,評審專家在某一項研究項目的評審上兩種意見幾乎各占一半,且雙方均有一定的論據,那么這項研究就是非共識研究[22];劉文波和鈕曉鳴[23]認為,非共識研究是指具有不確定性和創(chuàng)新性且在初期評審專家難以對研究成果達成一致意見的研究行為或活動。雖然目前學術界尚未對非共識研究形成統(tǒng)一的界定,但是關于非共識研究同樣存在研究價值和創(chuàng)新價值這一觀點已經得到學術界的廣泛認可。本研究使用一篇論文評審得分的方差來表示該論文的整體非共識度,方差越大,表示論文非共識的離散或者說審稿人意見相左的程度越大,即非共識度越大,或者說對論文評審結果的分歧越大[24]。圖3(b)展現(xiàn)了論文非共識度與被引頻次的關系,統(tǒng)計結果顯示論文非共識度與被引頻次呈正相關,但兩者的相關性并不顯著。
圖3 論文評審得分與非共識度散點圖(a)所有論文評審得分與被引頻次散點圖;(b)論文非共識度與被引頻次散點圖
上述內容中的統(tǒng)計檢驗結果顯示了論文錄用狀態(tài)、評審得分以及論文非共識程度和被引頻次之間的關系?;谏鲜龇治?,本研究擬通過回歸分析(OLS和mlogit)來進一步檢驗論文評審得分和被引頻次之間的關系。模型設定為
Yi=Xiβ+εi
(1)
式中:Yi為論文的被引頻次;Xi為解釋變量;β為回歸系數(shù);εi為誤差項。
Uij=Xiβj+εij
(2)
式中:Uij表示第i篇論文在第j種評審狀態(tài)下的隨機效用;βj為不同評審狀態(tài)下對應的回歸系數(shù);εij為誤差項。變量的描述統(tǒng)計結果和相關系數(shù)矩陣如表4和表5所示,論文評審得分與被引頻次的回歸結果如表6所示。
表4 變量的描述統(tǒng)計結果
表5 變量的相關系數(shù)矩陣
表6 論文評審得分與被引頻次的回歸結果
為避免極端值的影響,在回歸前將Citations、Rating、Variance在99分位作截尾處理。方差膨脹系數(shù)(Variance Inflation Factor,VIF)最大值為2.24,平均值為1.51,表明不存在嚴重的共線性。在模型1中加入了所有變量,評審得分的回歸系數(shù)為正且在0.001水平上顯著相關,錄用論文的系數(shù)在0.001水平上顯著正相關,意味著錄用論文的被引頻次相比于RP論文更高。進一步將樣本拆分成兩部分,在模型2中納入RP論文樣本,在模型3中納入全部錄用論文樣本,這兩個模型的評審得分系數(shù)仍然為正,且在0.001水平上顯著相關。從模型3可以看出,PP論文的系數(shù)為負,且在0.05水平上顯著相關,意味著相比于PP論文,OP論文有著更高的被引頻次。模型4~6為使用mlogit估計的結果,表6中呈現(xiàn)的是評審得分的邊際效應,其中對于OP和PP論文,評審得分的邊際效應為正,對于RP論文,評審得分的邊際效應為負。
上述分析結果得出被ICLR接收的論文,其Spearman秩相關系數(shù)r=0.209,因此對這種弱相關背后的一些例外情況進行分析。運用案例分析方法,選取6篇評審得分低-被引頻次高的論文和6篇評審得分高-被引頻次低的論文作為案例,對這兩組案例的評審得分、被引頻次、得分方差、預印本(arXiv)存檔以及文獻內容進行分析,以發(fā)現(xiàn)同行評議結果與被引頻次相悖的文獻特征,對評審得分低-被引頻次高以及評審得分高-被引頻次低的論文進行統(tǒng)計,結果如表7所示。
表7 案例論文統(tǒng)計結果
在會議集對論文做出接收或拒絕的決定之前,有部分論文已經發(fā)布到arXiv平臺上,表7統(tǒng)計的低得分-高被引論文都在被接收之前發(fā)布在arXiv平臺上,這就使得這些論文較其他未發(fā)布到arXiv的論文有更長的被引窗口。以往的研究表明,arXiv論文在許多數(shù)據庫中都具有顯著的引用優(yōu)勢[25]。
由表7可知,這些低得分-高被引論文具有一些共同的特征:評審專家給分均不高、存在較低分導致平均得分較低、大部分論文都發(fā)布在arXiv平臺。高得分-低被引論文也具有一些共同的特征:大部分論文并未發(fā)布到arXiv平臺,并且這些論文的評審得分方差普遍較低,說明評審專家對這些論文的評價分歧較小。分析上述論文的原文和審稿意見后發(fā)現(xiàn):低得分-高被引論文的創(chuàng)新性通常較低,或者屬于綜述性研究;而高得分-低被引論文通常具有較高的創(chuàng)新性,因而得到審稿人的高度認可。
論文的評審得分反映的是審稿人對研究的主觀評價,而且大多數(shù)都是定性評價,被引頻次反映的是學術同行對科研勞動成果的認可程度,在一定程度上反映了科研產出的質量,是一種定量評價。上述研究結果表明用這兩種方法對科研成果進行評價得到的結果并不總是一致的。
ICLR通過同行評議決定論文是否錄用以及錄用為口頭匯報還是海報展示,通過對OP論文、PP論文和RP論文進行描述統(tǒng)計和方差分析,發(fā)現(xiàn)這三類論文的評審得分和被引頻次是有差異的,進行兩兩比較后發(fā)現(xiàn)差異均有統(tǒng)計學意義(P<0.05),這個結果從一定程度上反映了同行評議的有效性和同行評議結果與傳統(tǒng)計量指標的一致性。
通過對論文評審得分和被引頻次進行相關性分析和回歸分析,發(fā)現(xiàn)PP論文、錄用論文、全部論文的評審得分與被引頻次存在顯著的正相關關系,這一結果與以往關于同行評議結果和被引頻次的研究結果類似。本研究結果表明:雖然同行評議和被引頻次從不同角度反映科學研究的學術影響力,但是兩者在一定程度上呈正相關,證明了同行評議和被引頻次在科研評價中的有效性和一致性;同行評議能夠選出具有價值的論文,并在發(fā)表之后具有更高的影響力,證實了同行評議的有效性。
錄用論文的評審得分與被引頻次的相關性不高,可能是因為同行評議與傳統(tǒng)計量指標是從不同維度對文章進行評價,同行評議具有主觀性和封閉性等特點,引用具有偏性和引用動機復雜性等特點。對這種弱相關性背后的一些個例進行統(tǒng)計,對低得分-高被引和高得分-低被引論文進行分析發(fā)現(xiàn),前者是事先發(fā)布到arXiv平臺的微創(chuàng)新性研究論文或綜述性文章,后者則大多是非共識度低、但創(chuàng)新程度高的研究論文或學術爭議文章。這一結果從一定程度上反映了以引用為代表的定量指標和同行評議定性評價指標是相輔相成的,可將定量和定性兩種評價工具結合起來進行相對有效、全面的科研評價。
同行評議的結果是從評審專家的角度來評估論文的質量,而以被引頻次為基礎的傳統(tǒng)計量指標是從作者的角度來判斷論文的質量及影響力。同行評議作為科學研究的“守門人”,雖然存在主觀偏見可能導致結果有失公允,但是其作為控制科研質量的首要機制,對科研評價體系的建設起到至關重要的作用。被引頻次作為傳統(tǒng)文獻計量評價的基礎,雖然存在引用的不完備性和有偏性,但是被引頻次可以作為一種定量化工具,在一定程度上反映同行對研究質量及影響力的評價。本研究結果發(fā)現(xiàn)雖然同行評議結果與引文度量指標之間呈正相關,但是同行評議和文獻計量指標之間是不可相互替代的:同行評議仍然是目前科研評價體系最重要的一環(huán);相比于同行評議的精英評價,文獻計量指標能夠提供更大范圍內公開的同行評價參考。
從期刊評價實踐的角度來看,文獻計量指標是對同行評議的重要補充。期刊評價體系應該是建立在定性同行評議的質量評價基礎上,融合定量文獻計量指標,形成一種主客觀相結合的評價模式。
本研究存在一些局限:首先,本研究使用的開放同行評議數(shù)據,其開放透明的特點給研究帶來了極大的便利,但是由于目前采取開放同行評議模式的期刊和會議集較少,而且開放程度也不盡相同,本研究僅選取了公布全部投稿論文的評審得分數(shù)據的ICLR數(shù)據集進行分析,論文樣本量較小,可能會限制研究的開展;其次,本研究的對象是計算機領域的會議論文,可能存在學科差異,結論外推時需謹慎;最后,本研究對同行評議結果和文獻計量指標的相關性進行分析,提出應將定性、定量兩種評價工具結合起來才能進行有效的科研評價,但如何實現(xiàn)二者的融合評價是亟需解決的問題,需要后續(xù)進一步研究。