許 鑫,葉丁菱
(華東師范大學(xué)經(jīng)濟與管理學(xué)部信息管理系,上海 200241)
在大數(shù)據(jù)時代,科學(xué)數(shù)據(jù)呈井噴式增長,數(shù)據(jù)價值逐漸突顯并成為社會發(fā)展與科學(xué)研究的關(guān)鍵性動力。但在科學(xué)數(shù)據(jù)泛濫的同時,也存在著可用數(shù)據(jù)缺乏的問題。面對此間矛盾,2020年4月,我國出臺的《關(guān)于構(gòu)建更加完善的要素市場化配置體制機制的意見》中,首次將數(shù)據(jù)納入生產(chǎn)要素范疇,并提出加快推進數(shù)據(jù)開放共享、加強數(shù)據(jù)資源整合、建立數(shù)據(jù)管理制度的要求,充分體現(xiàn)了數(shù)據(jù)的基礎(chǔ)資源地位[1]。在國家政策支持、科研人員研究需求和科研范式轉(zhuǎn)變的背景下,針對科學(xué)數(shù)據(jù)開放、利用的研究不斷涌現(xiàn),其中作為數(shù)據(jù)出版的數(shù)據(jù)論文更是引起眾多研究人員的關(guān)注。
數(shù)據(jù)論文是指經(jīng)過同行評議對數(shù)據(jù)進行正式出版,描述數(shù)據(jù)生產(chǎn)目的、收集處理、覆蓋內(nèi)容、時空范圍和文件格式的論文[2]。數(shù)據(jù)論文注重描述數(shù)據(jù)本身,通常包含一個或多個數(shù)據(jù)文件,利于促進數(shù)據(jù)的發(fā)現(xiàn)、獲取和重用,推動數(shù)據(jù)產(chǎn)權(quán)、數(shù)據(jù)引用、學(xué)術(shù)創(chuàng)新等發(fā)展[3]。研究表明,數(shù)據(jù)論文評價可以有效促進數(shù)據(jù)的發(fā)布與應(yīng)用,有效規(guī)范數(shù)據(jù)引證行為[4]。對此,諸多學(xué)者呼吁并提出數(shù)據(jù)計量,并指出數(shù)據(jù)計量是對數(shù)據(jù)在生產(chǎn)、傳播以及利用過程中產(chǎn)生“痕跡”的計量,包括但不限于Altmetrics和論文級別計量,把握數(shù)據(jù)在運動中產(chǎn)生的影響力,從而為科研人員獲取、引用和評價數(shù)據(jù)提供參考[5-9]。鑒于此,本文試圖基于數(shù)據(jù)計量,融合Alt‐metrics與引文分析解構(gòu)數(shù)據(jù)論文影響力[10],展開數(shù)據(jù)論文潛在影響力、學(xué)術(shù)影響力和社會影響力的多維評價。以期為數(shù)據(jù)論文影響力評價指標(biāo)遴選和模型優(yōu)化提供借鑒,也為改善數(shù)據(jù)論文影響力評價現(xiàn)狀提供新思路。
學(xué)術(shù)評價的意義不僅在于評價學(xué)術(shù)成果或?qū)W術(shù)活動本身,還在于對學(xué)術(shù)資源、學(xué)術(shù)創(chuàng)新等的推動和激勵?,F(xiàn)有的學(xué)術(shù)評價主要集中于學(xué)術(shù)論文、學(xué)術(shù)期刊和科研項目,伴隨數(shù)據(jù)論文等特殊學(xué)術(shù)資源的發(fā)展以及相關(guān)政府政策的支持引導(dǎo),數(shù)據(jù)論文評價也逐漸引發(fā)科研人員的關(guān)注。例如,2018年國務(wù)院辦公廳印發(fā)的《科學(xué)數(shù)據(jù)管理辦法》中提出,“主管部門和法人單位應(yīng)積極推動科學(xué)數(shù)據(jù)出版和傳播工作,支持科研人員整理發(fā)表產(chǎn)權(quán)清晰、準(zhǔn)確完整、共享價值高的科學(xué)數(shù)據(jù)”[11]。然而,面對數(shù)據(jù)論文的應(yīng)用與研究,存在出版數(shù)量不足、應(yīng)用不廣泛、引證不規(guī)范等問題,數(shù)據(jù)論文影響力評價的相關(guān)研究雖然逐漸興起,但是研究成果相對較少。
數(shù)據(jù)論文影響力評價通常以引文分析法或Alt‐metrics評價法為基礎(chǔ),以多類指標(biāo)為要素進行評價框架或評價體系的構(gòu)建。引文分析法是從引證與被引證現(xiàn)象來解釋評價對象的數(shù)量特征與內(nèi)在規(guī)律的方法;Altmetrics評價方法注重測度用戶的關(guān)注行為,以用戶在社交網(wǎng)絡(luò)中的瀏覽、閱讀、下載、討論等數(shù)據(jù)作為計量評價的基礎(chǔ),通常被認為是對傳統(tǒng)評價方法的補充[12-14]。Ingwersen等[15]選用GBIF(Global Biodiversity Information Facility,生物多樣性數(shù)據(jù)庫)的數(shù)據(jù),建立了包括搜索記錄、下載頻率、使用影響、興趣影響、數(shù)據(jù)集數(shù)等14指標(biāo)在內(nèi)的數(shù)據(jù)使用指標(biāo)(data usage index,DUI)體系。Ball等[16]探索了引用頻次、唯一標(biāo)志符、同行評議、下載量、社會媒體鏈接等指標(biāo)在科學(xué)數(shù)據(jù)計量中的適用性,認為這些指標(biāo)可較好地應(yīng)用于科學(xué)數(shù)據(jù)影響力評價。Fear[17]以數(shù)據(jù)引用頻次、重用數(shù)據(jù)的出版物質(zhì)量、重用數(shù)據(jù)的出版物多樣性、數(shù)據(jù)集的網(wǎng)絡(luò)規(guī)模和下載量為指標(biāo),展開科學(xué)數(shù)據(jù)的影響力評價。Peters等[18]基于DCI(data citation index)和PlumX對數(shù)據(jù)論文的引用頻次與Altmetrics指標(biāo)的相關(guān)性進行了研究,指出Altmetrics指標(biāo)可以對引用頻次進行補充。Costas等[7]以數(shù)據(jù)出版為基礎(chǔ),結(jié)合文獻計量與Altmetrics構(gòu)建了基礎(chǔ)數(shù)據(jù)計量模型,文獻計量維度包括數(shù)據(jù)出版總數(shù)、數(shù)據(jù)平均被引次數(shù)、數(shù)據(jù)期刊的平均數(shù)據(jù)影響力、期刊影響因子,Altmetrics指標(biāo)包括社會媒體指數(shù)、讀者數(shù)與下載量。翟姍姍等[19]融合Altmetrics與引文分析,采用被引對象頻次、當(dāng)年影響因子、下載量等指標(biāo)構(gòu)建了數(shù)據(jù)論文學(xué)術(shù)影響力評價模型,并指出融合Altmetrics與引文分析可以更為全面、豐富、科學(xué)地評價數(shù)據(jù)論文。劉闖[20]以引用次數(shù)與施引文獻的期刊影響因子兩個指標(biāo)研究了“全球變化科學(xué)研究數(shù)據(jù)出版系統(tǒng)”中數(shù)據(jù)論文的影響力。
通過梳理相關(guān)研究可以發(fā)現(xiàn),國內(nèi)外學(xué)者對數(shù)據(jù)論文或類似科學(xué)數(shù)據(jù)衍生成果進行評價時,在評價方法上,有單從引文或Altmetrics方面的評價,也有融合兩者的評價。融合引文分析和Altmetrics的評價方法考慮了數(shù)據(jù)論文在學(xué)術(shù)研究和社會交流中的價值體現(xiàn),可以完善評價指標(biāo),擴大評價適用范圍[21-22],為數(shù)據(jù)論文提供綜合的評價體系;在評價內(nèi)容上,主要從單一維度展開,數(shù)據(jù)論文從發(fā)布到使用歷經(jīng)復(fù)雜的科研活動過程,其影響力的產(chǎn)生與評價必然具備多維屬性,僅從單一的學(xué)術(shù)影響力進行評價,忽略了數(shù)據(jù)論文影響的多重性和全面性;在評價指標(biāo)上,評價指標(biāo)的選擇較缺多樣性,對引文評價多從引用頻次出發(fā)。然而,數(shù)據(jù)論文層級復(fù)雜,語言邏輯難懂,在文章中的不同位置體現(xiàn)著明顯的不同作用,對引文、方法、結(jié)論和討論的支撐性具有顯著的不同,針對數(shù)據(jù)論文這一特性本文引入被引對象頻次特征指標(biāo)。因此,在有關(guān)數(shù)據(jù)論文的引文指標(biāo)與Altmetrics指標(biāo)發(fā)展和可追蹤的基礎(chǔ)上,面對數(shù)據(jù)論文影響力評價欠缺完善的、針對不同數(shù)據(jù)源進行多維影響力測度的評價指標(biāo)體系這一現(xiàn)象,本文結(jié)合引文分析指標(biāo)與Altmetrics指標(biāo),分析數(shù)據(jù)論文影響力在不同維度的表現(xiàn)及其影響因素,構(gòu)建更為系統(tǒng)的、全面的評價體系。
數(shù)據(jù)論文作為承載科研人員研究成果的載體,是知識信息傳播的途徑之一?;跀?shù)據(jù)計量的界定,數(shù)據(jù)論文影響力是指數(shù)據(jù)論文在交流傳播過程中產(chǎn)生的綜合影響。因此,本文對于數(shù)據(jù)論文影響力綜合評價框架的建立,一方面以科學(xué)、適用、綜合的評價方法為依托,另一方面以數(shù)據(jù)論文的傳播形式和影響力的產(chǎn)生機制為基礎(chǔ)。
學(xué)術(shù)成果作為成果創(chuàng)造者和成果使用者之間的交互介質(zhì),不同的交互路徑和交互過程構(gòu)成學(xué)術(shù)成果不同的傳播模式,催生不同的影響機制。數(shù)據(jù)論文的傳播模式可以從傳播路徑和傳播過程兩個層面進行解析,傳播路徑是從微觀角度分析學(xué)術(shù)成果傳播的具體實現(xiàn)載體,傳播過程是從宏觀角度分析學(xué)術(shù)成果傳播的不同發(fā)展階段。
數(shù)據(jù)論文傳播路徑。根據(jù)Bj?rk[23]提出的數(shù)字化科學(xué)交流模型,研究成果可以定義為科學(xué)文獻或數(shù)據(jù)出版兩種形式,交流路徑可以分為“利用出版物交流研究成果”和“非正式的在線交流研究成果”兩種類型。因此,數(shù)據(jù)論文的交流路徑包括為正式交流途徑和非正式交流途徑。其中,正式交流途徑是指經(jīng)過同行評審的數(shù)據(jù)論文進行傳播擴散的學(xué)術(shù)成果系統(tǒng),非正式交流途徑是指數(shù)據(jù)論文在論文創(chuàng)造者和論文使用者之間直接通過社交網(wǎng)絡(luò)實現(xiàn)傳播和擴散的方式。數(shù)據(jù)論文則在兩種交流途徑中,被認知、傳播和擴散,數(shù)據(jù)論文的傳播和擴散過程既可以反映出讀者對數(shù)據(jù)論文的觀念和態(tài)度,也可以反映出數(shù)據(jù)論文對讀者產(chǎn)生的影響力。
數(shù)據(jù)論文傳播過程。依據(jù)數(shù)據(jù)論文網(wǎng)絡(luò)開放發(fā)布的特性,數(shù)據(jù)論文在經(jīng)過一定形式的評審后,通過數(shù)字出版平臺或者信息發(fā)布平臺實現(xiàn)在線出版和開放獲取。在線出版和開放獲取以其特有的“零進入壁壘”的形式突破學(xué)術(shù)交流中的時空限制、組織邊界和知識界限,促進數(shù)據(jù)論文便捷、高效、廣泛地傳播。借鑒王賢文等[24]提出的學(xué)術(shù)成果在線傳播過程可以分析出,數(shù)據(jù)論文首先通過在線出版實現(xiàn)數(shù)據(jù)論文的獲取和感知,即瀏覽、下載或收藏數(shù)據(jù)論文等行為。隨后,科研人員通過對數(shù)據(jù)論文的閱讀、理解和吸收,對具有參考價值的內(nèi)容分別采取引用行為或者評論、分享行為,促進數(shù)據(jù)論文在學(xué)術(shù)共同體內(nèi)部和社會公眾之間的傳播和擴散。由引用行為形成的施引文獻促進數(shù)據(jù)論文的再次閱讀和評論,由交流行為帶來的關(guān)注度促進數(shù)據(jù)論文的新一輪閱讀和引用,至此完成數(shù)據(jù)論文在科學(xué)交流中的傳播過程。因此,數(shù)據(jù)論文的在線傳播過程具體由感知、引用和交流三種主要形式組成。
通過對數(shù)據(jù)論文傳播路徑和傳播過程的分析可知,數(shù)據(jù)論文的具體傳播模式是依托以數(shù)據(jù)論文成果系統(tǒng)為載體的正式交流途徑和以社交平臺為載體的非正式交流途徑在感知、引用和交流三種形式中實現(xiàn)泛在傳播。
依據(jù)數(shù)據(jù)論文影響力的定義可知,數(shù)據(jù)論文影響力的產(chǎn)生機制依托于數(shù)據(jù)論文的傳播模式。通過對數(shù)據(jù)論文傳播模式的分析,數(shù)據(jù)論文以專業(yè)文獻系統(tǒng)或社交平臺為載體實現(xiàn)在感知、引用和交流中的泛在傳播。因此,感知、引用和交流既是數(shù)據(jù)論文傳播過程中的三種形式,也是影響力產(chǎn)生的三個關(guān)鍵點。
根據(jù)邱均平等[25]提出的科研成果影響力產(chǎn)生模型可以拓展出數(shù)據(jù)論文影響力產(chǎn)生機制,如圖1所示。從影響力內(nèi)部而言,感知數(shù)據(jù)論文的用戶構(gòu)成數(shù)據(jù)論文的受眾群,感知越多,則知名度越大;引用是科研人員對數(shù)據(jù)論文學(xué)術(shù)價值認可的權(quán)威行為,意味著數(shù)據(jù)論文所承載和傳遞的信息對科研人員的知識和思想帶來了改變,應(yīng)用越多,則學(xué)術(shù)影響越深;社交媒體的發(fā)展促進在線交流的深入,交流是使用者對數(shù)據(jù)論文所持有的觀點或態(tài)度,交流越活躍,則社會影響越廣泛。從影響力外部而言,通過感知有用性、感知興趣性等潛在影響,形成對數(shù)據(jù)論文的理解與評論,作為后續(xù)應(yīng)用、交流形成的前提和基礎(chǔ),將其中有參考價值的內(nèi)容通過標(biāo)注形成正式引用,將感興趣的內(nèi)容通過社交平臺進行轉(zhuǎn)發(fā)和評論;引用所帶來的馬太效應(yīng)既可以增強感知,又可以促進交流;交流既通過受眾群的擴大增強感知,又通過分享加深應(yīng)用。因此,本文認為在數(shù)據(jù)論文影響力的產(chǎn)生過程中,感知可以形成潛在影響力,應(yīng)用可以促進學(xué)術(shù)影響力,交流可以反映社會影響力。數(shù)據(jù)論文的綜合影響力最終由潛在影響力、學(xué)術(shù)影響力和社會影響力三個維度構(gòu)成。
圖1 數(shù)據(jù)論文影響力產(chǎn)生機制
數(shù)據(jù)論文影響力評價框架的建立既包括對多維影響力的解析,又包含對評價指標(biāo)的識別。評價指標(biāo)的合理性可以直接影響評價結(jié)果的合理性[26],因此,本文將從評價指標(biāo)的適用性和可信度進行指標(biāo)分析,識別出可以納入數(shù)據(jù)論文評價指標(biāo)體系的候選指標(biāo)。評價指標(biāo)的適用性可以從指標(biāo)的覆蓋程度和區(qū)分程度進行評估,包括覆蓋范圍、重復(fù)范圍和區(qū)分程度。評價指標(biāo)的可信度可以從指標(biāo)的穩(wěn)定性和解釋性進行評估,包括成熟程度和解釋程度。
數(shù)據(jù)論文的潛在影響力是指數(shù)據(jù)論文被感知的程度。感知作為用戶對數(shù)據(jù)論文最初的關(guān)注形式,是后續(xù)應(yīng)用和交流產(chǎn)生的前提,也是影響力形成的基礎(chǔ)。用戶只有在感知(即閱讀、理解)數(shù)據(jù)論文后,發(fā)掘其數(shù)據(jù)內(nèi)涵、數(shù)據(jù)方法等參考價值,才會產(chǎn)生標(biāo)注形成學(xué)術(shù)引用,或者通過社交平臺進行分享和評論,從而引發(fā)數(shù)據(jù)論文的社會關(guān)注。面對數(shù)據(jù)論文這一專業(yè)性較強、時間成本較高的學(xué)術(shù)資源,用戶必然會出于某種需要或興趣進行預(yù)判和選擇。因此,當(dāng)用戶通過不同途徑初步接觸數(shù)據(jù)論文后,仍然選擇閱讀、下載或收藏,可視為對數(shù)據(jù)論文影響力的一種測度,即用戶對數(shù)據(jù)論文傳播內(nèi)容的接受程度反映其影響程度。
伴隨Altmetrics的發(fā)展,數(shù)據(jù)論文的感知程度被定量化,定量的測度指標(biāo)依據(jù)影響的深淺層次可依次分為瀏覽(Views)、下載(Downloads)、收藏閱讀(Mendeley、CiteULike)等。從適用性而言,在瀏覽、下載、收藏中,以瀏覽為最低級別,三者之間層層遞進。瀏覽是下載、收藏等行為的轉(zhuǎn)化基礎(chǔ),下載量在一定程度上可以反映數(shù)據(jù)論文的質(zhì)量,作為數(shù)據(jù)論文質(zhì)量的早期指標(biāo)[5],Mendeley讀者數(shù)能夠在一定程度上預(yù)測科研成果被引數(shù),反映科研成果的學(xué)術(shù)影響力[27]。瀏覽和下載在感知階段反映的數(shù)據(jù)論文潛在影響力重復(fù)范圍小、覆蓋范圍廣,層級分明、區(qū)分程度大。然而,Mendeley和CiteULike同時表征收藏數(shù),兩者之間存在外在交叉和異質(zhì)性,需要進行遴選。Mendeley與CiteULike相比,在數(shù)據(jù)論文上使用群體更多、更穩(wěn)定,覆蓋范圍更廣泛,表征效果更好;從可信度而言,瀏覽量、下載量、Mendeley和CiteULike都是當(dāng)前廣受應(yīng)用、發(fā)展較為成熟、具備研究意義的評價指標(biāo),各指標(biāo)所表征的內(nèi)涵可以清晰反映用戶的感知行為。綜合適用性和可信度,本文選取瀏覽量、下載量和Mendeley讀者數(shù)作為數(shù)據(jù)論文潛在影響力的評價指標(biāo)。
數(shù)據(jù)論文的學(xué)術(shù)影響力是指用戶對數(shù)據(jù)論文的引用程度。引用代表數(shù)據(jù)論文在科學(xué)交流活動中產(chǎn)生的重要影響,并且這種影響重要到科研人員必須將其進行標(biāo)注來反映其對科學(xué)研究的貢獻和效用,是對數(shù)據(jù)論文學(xué)術(shù)價值較為權(quán)威和深度的認可。基于馬太效應(yīng)的影響,擁有較高學(xué)術(shù)影響力的數(shù)據(jù)論文,一方面,通過其較高的知名度,增加數(shù)據(jù)論文的感知途徑和感知程度,擴大潛在影響力;另一方面,通過其較高的關(guān)注度,引發(fā)社會討論,激發(fā)社會影響力。因此,引用為數(shù)據(jù)論文被積極轉(zhuǎn)化和深度應(yīng)用的重要形式。
對數(shù)據(jù)論文而言,引用通常采用參考文獻的方式進行呈現(xiàn),針對這一類型影響力的測度指標(biāo)包括總引用頻次(Total Citations)、平均引用頻次(Av‐erage Citations)、施引文獻引用頻次(Citing Arti‐cles Citations)、施引文獻期刊影響因子(Impact Factor)、論文H指數(shù)(H-index)等引文分析指標(biāo)。依據(jù)數(shù)據(jù)論文作為文章底層支撐數(shù)據(jù)的特性,應(yīng)深入文章內(nèi)容進行評價,本文引入被引對象頻次(Citation Target)指標(biāo)[19]。從適用性而言,總被引頻次、平均被引頻次和被引對象頻次都是從直接引用次數(shù)來反映數(shù)據(jù)論文的學(xué)術(shù)影響力的,重復(fù)程度高,覆蓋范圍相同,但總被引頻次和平均被引頻次是基于表層引用的反映,被引對象頻次深入到文獻內(nèi)部具體反映引用行為,具有深層次性。所以,總被引頻次和平均被引頻次反映同一層級內(nèi)容需要進行遴選。施引文獻被引頻次、H指數(shù)和施引文獻期刊影響因子均是從引用的間接影響形式反映數(shù)據(jù)論文的學(xué)術(shù)影響力,三個指標(biāo)的受眾群體相同,區(qū)分程度相對較弱,影響程度相對較小。并且施引文獻期刊影響因子作為反映期刊質(zhì)量的指標(biāo),相對于其他指標(biāo)反映數(shù)據(jù)論文影響程度最小。從可信度而言,總被引頻次和平均被引頻次的發(fā)展時間久、內(nèi)涵相似,但總被引頻次的成熟程度較高,被認可程度也較高。被引對象頻次發(fā)展相對較晚,但反映評價對象的內(nèi)涵深度相對較強。施引文獻被引頻次、H指數(shù)和施引文獻期刊影響因子發(fā)展成熟、穩(wěn)定性強,其中,H指數(shù)綜合了數(shù)據(jù)論文數(shù)量和影響,與施引文獻被引頻次和施引文獻期刊影響因子相比,H指數(shù)的內(nèi)涵范圍相對較廣、解釋數(shù)據(jù)論文程度相對較高。因此,本文選取總被引頻次、被引對象頻次和H指數(shù)作為數(shù)據(jù)論文學(xué)術(shù)影響力的評價指標(biāo)。
數(shù)據(jù)論文的社會影響力是指用戶對數(shù)據(jù)論文的社會交流程度。社交平臺的發(fā)展為用戶提供了實時、高效的交互平臺,也為數(shù)據(jù)論文提供了泛在傳播平臺。社會交流反映了用戶在閱讀和理解數(shù)據(jù)論文后,憑借社交平臺展示對數(shù)據(jù)論文的興趣、觀點、態(tài)度等行為。此行為通常以評論、轉(zhuǎn)發(fā)或分享等作為表征,通過觀點、態(tài)度來表示用戶對數(shù)據(jù)論文相對淺顯、非系統(tǒng)的認知,體現(xiàn)數(shù)據(jù)論文影響力的廣泛程度;以評論為代表的交流行為通常對用戶公開可見,可以較為清晰、及時地反饋用戶投入程度。社會影響力一方面通過社交平臺擴大數(shù)據(jù)論文的受眾面,加強數(shù)據(jù)論文的感知程度,提升潛在影響力;另一方面通過社交平臺發(fā)布、傳遞的相關(guān)綜合信息、洞見性的評論等,加深科研人員對數(shù)據(jù)論文的理解,促進數(shù)據(jù)論文的引用,加深學(xué)術(shù)影響力。
針對這一類型影響力的測度指標(biāo),依據(jù)影響的深淺層次可依次分為臉書分享(Facebook)、推特評論(Twitter)、博客(Blogs)、維基百科(Wiki‐pedia)、新聞報道(News)等Altmetrics指標(biāo)。從適用性而言,博客提及量表征用戶對數(shù)據(jù)論文翔實的討論行為,新聞報道量表征主流媒體對數(shù)據(jù)論文的分享行為,維基百科鏈接數(shù)表征用戶對數(shù)據(jù)論文的引用行為,推特評論提及量表征用戶對數(shù)據(jù)論文及時、簡短的討論行為,臉書分享量表征用戶對數(shù)據(jù)論文及時的分享行為。這五個指標(biāo)分別從主流媒體、研究學(xué)者、普通大眾的討論、評價、分享等行為,拓展數(shù)據(jù)論文社會影響力的廣度、延伸數(shù)據(jù)論文社會影響力的深度,指標(biāo)間外在交叉程度相對較小。從可用度而言,五個指標(biāo)發(fā)展穩(wěn)定性趨強、內(nèi)涵明晰、集中獲取程度高。因此,本文采用上述五個指標(biāo)作為數(shù)據(jù)論文社會影響力的評價指標(biāo)。
基于此,本文構(gòu)建融合Altmetrics與引文分析的數(shù)據(jù)論文影響力綜合評價框架,如圖2所示。融合Altmetrics與引文分析的數(shù)據(jù)論文影響力綜合評價框架考慮了影響力來源的三維分層性、補充性和評價指標(biāo)的聚合性,能夠發(fā)揮以感知形成的潛在導(dǎo)向作用,以應(yīng)用促進的學(xué)術(shù)傳承作用,以交流反映的社會補充作用。
圖2 數(shù)據(jù)論文影響力綜合評價框架
考慮到數(shù)據(jù)論文質(zhì)量的可控性和出版實踐的成熟性,本文選擇Earth System Science Data出版的數(shù)據(jù)論文作為研究對象。Earth System Science Data作為專業(yè)數(shù)據(jù)期刊要求出版的數(shù)據(jù)論文提交與其對應(yīng)數(shù)據(jù)集的詳細信息,并經(jīng)歷嚴(yán)格的兩段式同行評議,以保證數(shù)據(jù)論文和數(shù)據(jù)集的真實性、準(zhǔn)確性和有效性[28],在數(shù)據(jù)論文出版領(lǐng)域具有較高的成熟度和權(quán)威性。本文選取2009—2020年發(fā)表在Earth System Science Data上的12卷24期489篇數(shù)據(jù)論文。通過Web of Science獲取引文指標(biāo)信息,通過Earth System Science Data網(wǎng)站獲取瀏覽量、下載量等Alt‐metrics指標(biāo),通過Plum Analytics獲取其余Altmet‐rics指標(biāo)信息。
本文從指標(biāo)覆蓋率分析、相關(guān)性分析和信效度分析對數(shù)據(jù)論文影響力評價指標(biāo)進行遴選與甄別。在指標(biāo)覆蓋率分析上,Wikipedia指標(biāo)覆蓋率低于5%,不具備區(qū)分度,故對該指標(biāo)做刪除處理。在相關(guān)性分析上,評價指標(biāo)相關(guān)性分析如表1所示。由表1可知,數(shù)據(jù)論文學(xué)術(shù)影響力各指標(biāo)高度正相關(guān),數(shù)據(jù)論文潛在影響力和社會影響力的評價指標(biāo)顯著相關(guān),但各指標(biāo)之間的相關(guān)性較弱。因此,為了進一步分析各指標(biāo)對測量變量的目的關(guān)聯(lián)性強弱,對潛在影響力和社會影響力的各評價指標(biāo)進行總項相關(guān)分析,分項對總項相關(guān)系數(shù)是測量指標(biāo)的重要性得分和全部指標(biāo)的重要性得分總和間的相關(guān)程度,用于反映測量指標(biāo)的重要程度,如表2所示。數(shù)據(jù)論文潛在影響力和社會影響力的各評價指標(biāo)對總項的相關(guān)性均大于0.5,說明潛在影響力和社會影響力的各評價指標(biāo)對測量變量的目的相關(guān)性較強,因此,保留各評價指標(biāo)。在信效度分析上,整體Alpha值為0.903,各評價指標(biāo)的Alpha值均大于0.8,各指標(biāo)內(nèi)部具有較強一致性。KMO值大于0.8,說明評價指標(biāo)效度非常好,反映評價目的的程度高。
表1 數(shù)據(jù)論文多維影響力評價指標(biāo)相關(guān)性分析
表2 數(shù)據(jù)論文二維影響力評價指標(biāo)分項對總項相關(guān)性分析
基于此,本文初步構(gòu)建包含瀏覽量、下載量和讀者數(shù)的潛在影響力指標(biāo),包含總被引頻次、H指數(shù)和被引對象頻次的學(xué)術(shù)影響力指標(biāo),以及包含博客提及量、新聞報道量、推特評論提及量和臉書分享量的社會影響力指標(biāo)的數(shù)據(jù)論文影響力綜合評價體系。
本文采用偏最小二乘結(jié)構(gòu)方程模型確定評價指標(biāo)權(quán)重,偏最小二乘結(jié)構(gòu)方程模型在不需要樣本數(shù)據(jù)符合正態(tài)分布的基礎(chǔ)上,集合了多元線性回歸、主成分分析、典型相關(guān)分析等統(tǒng)計學(xué)方法[29],可以解決評價指標(biāo)的多重共線性問題,研究每個潛變量和顯變量間的關(guān)系,得到綜合各潛變量和代表所有潛變量的綜合指數(shù)[30-31]。本文構(gòu)建的數(shù)據(jù)論文影響力偏最小二乘結(jié)構(gòu)方程模型包含潛在影響力、學(xué)術(shù)影響力和社會影響力三個潛在變量,通過顯著性檢驗和質(zhì)量檢驗進一步驗證模型信效度,在此基礎(chǔ)上,通過路徑加權(quán)進行參數(shù)估計,最后通過路徑系數(shù)計算實現(xiàn)評價體系的權(quán)重配置。
在潛在影響力、學(xué)術(shù)影響力和社會影響力的唯一維度檢驗通過的基礎(chǔ)上,利用PLS測量模型質(zhì)量,潛在影響力、學(xué)術(shù)影響力、社會影響力和綜合影響力的AVE值均大于0.5的適配標(biāo)準(zhǔn),組合信度和內(nèi)部一致性系數(shù)均大于0.7的適配標(biāo)準(zhǔn),綜合影響力對于三個潛變量的R2為1,說明評價指標(biāo)區(qū)分效度較好,綜合影響力對三個潛變量的解釋程度較高。隨后對評價體系進行顯著性檢驗,如圖3和圖4所示。從圖3可以看到,潛在影響力、學(xué)術(shù)影響力和社會影響力對綜合影響力的路徑系數(shù)分別為0.364、0.375和0.472。從圖4可知,所有測量變量的因子載荷系數(shù)的顯著性檢驗T值和潛變量之間的標(biāo)準(zhǔn)化路徑系數(shù)顯著性T值都大于1.96,說明評價體系通過了顯著性檢驗,進一步證明了本文構(gòu)建的評價體系具有合理性,評價數(shù)據(jù)具有較好的信效度,可以使用該模型對數(shù)據(jù)論文影響力進行評價和權(quán)重配置。
圖3 因子載荷系數(shù)和標(biāo)準(zhǔn)化路徑系數(shù)
圖4 綜合評價體系顯著性檢驗
Fornell等[32]指出,通過對測量變量的外部權(quán)重系數(shù)進行加權(quán)平均可估計潛變量的數(shù)值,因此,本文將綜合評價體系的外部權(quán)重系數(shù)和潛變量路徑系數(shù)作為評價指標(biāo)權(quán)重,各評價指標(biāo)影響權(quán)重如表3所示。
表3 數(shù)據(jù)論文影響力綜合評價體系
同時,本文將數(shù)據(jù)論文的綜合影響力、潛在影響力、學(xué)術(shù)影響力和社會影響力分別命名為DM、DM1、DM2和DM3,具體數(shù)據(jù)論文影響力綜合評價體系計算公式為
其中,Wi為數(shù)據(jù)論文潛在影響力下各評價指標(biāo)的權(quán)重;Xi為各評價指標(biāo)的值,i∈[1,3];Wj為數(shù)據(jù)論文學(xué)術(shù)影響力下各評價指標(biāo)的權(quán)重,Xj為各評價指標(biāo)的值,j∈[1,3];Wk為數(shù)據(jù)論文社會影響力下各評價指標(biāo)的權(quán)重,Xk為各評價指標(biāo)的值,k∈[1,4]。
數(shù)據(jù)論文作為新型特殊學(xué)術(shù)資源,一方面處于初始研究階段,發(fā)展尚不成熟;另一方面,適用數(shù)據(jù)針對性較強,需要花費研究人員大量的精力和時間分析數(shù)據(jù)的關(guān)聯(lián)程度或支撐程度,應(yīng)用尚不廣泛。本文通過對Earth System Science Data數(shù)據(jù)期刊的調(diào)研發(fā)現(xiàn),大量數(shù)據(jù)論文在多維度中缺乏有意義的指標(biāo)數(shù)據(jù),尤其是Altmetrics指標(biāo)的缺失,因此,出于數(shù)據(jù)一致性、完整性和評價適用性的考慮,本文依據(jù)Altmetrics.score分值,選取Earth System Sci‐ence Data中前100篇數(shù)據(jù)論文作為綜合評價的研究樣本數(shù)據(jù)展開綜合評價分析。
根據(jù)數(shù)據(jù)論文評價體系中各指標(biāo)權(quán)重,計算數(shù)據(jù)論文的潛在影響力、學(xué)術(shù)影響力、社會影響力和綜合影響力,評價結(jié)果如表4所示。由表4可知,數(shù)據(jù)論文在潛在影響力、學(xué)術(shù)影響力和綜合影響力的評分中差值程度相對較小,社會影響力的評分中差值程度相對較大,并且社會影響力評分明顯小于其余影響力評分。從各影響力評分及排名可以看到,以“Global Carbon Budget”加上年份的數(shù)據(jù)論文在各維度影響力及綜合影響力排名中都有出現(xiàn),并且排名比較靠前。本文通過對此類數(shù)據(jù)論文進行閱讀分析發(fā)現(xiàn),此類數(shù)據(jù)論文從研究內(nèi)容而言,包含內(nèi)容范圍較廣,從大氣、土地、森林各方面對二氧化碳的排放行為進行分析;從研究時效性而言,時間跨度較長,時效性較高,可適用時間長;從穩(wěn)定性而言,以年為周期展開研究,版本幾乎不用更新,數(shù)據(jù)無需更改,引用較為方便和穩(wěn)定;從閱讀性而言,內(nèi)容解釋明晰,通俗易懂,便于普通用戶理解和討論。
表4 數(shù)據(jù)論文影響力評分及排名
6.2.1 數(shù)據(jù)論文影響力相關(guān)性分析
數(shù)據(jù)論文影響力相關(guān)性分析結(jié)果如表5所示。從影響力維度而言,數(shù)據(jù)論文在三維度影響力都顯著正相關(guān),各維度影響力和綜合影響力也呈現(xiàn)顯著的正相關(guān)關(guān)系。就顯著性而言,潛在影響力對數(shù)據(jù)論文綜合影響力的作用最強,其次是學(xué)術(shù)影響力,社會影響力對綜合影響力的作用最弱。
表5 數(shù)據(jù)論文影響力相關(guān)性分析
潛在影響力、學(xué)術(shù)影響力和社會影響力的相關(guān)關(guān)系表明,三維影響力之間會互相促進。其中,潛在影響力和學(xué)術(shù)影響力的相關(guān)性最高,為0.841,數(shù)據(jù)論文潛在影響力較高,從側(cè)面說明數(shù)據(jù)論文的初始認可程度相對較高,較高的初始認可程度會增大數(shù)據(jù)論文的引用概率。同時,較高的數(shù)據(jù)論文引用會產(chǎn)生馬太效應(yīng),促進數(shù)據(jù)論文的瀏覽、下載、收藏等潛在影響行為。潛在影響力和社會影響力的相關(guān)性次之,為0.489,說明用戶在閱讀數(shù)據(jù)論文后,在一定程度上會對數(shù)據(jù)論文進行分享、討論等一系列操作,從而提升數(shù)據(jù)論文社會影響力;而數(shù)據(jù)論文社會影響力的提升,會擴大數(shù)據(jù)論文的傳播范圍、拓展數(shù)據(jù)論文的社群影響,從而促進潛在影響力的提升。學(xué)術(shù)影響力和社會影響力的相關(guān)性最弱,為0.318,說明兩者之間會相互促進,但非必然。一方面,由于學(xué)術(shù)影響力和社會影響力的側(cè)重點不同,數(shù)據(jù)論文的專業(yè)性較強、學(xué)科界限明顯,限制部分用戶對數(shù)據(jù)論文的關(guān)注;另一方面,社會交流中的數(shù)據(jù)論文首先需要被專家學(xué)者關(guān)注,而后進行科學(xué)評判、適用性鑒定、支撐性評估等一系列復(fù)雜操作才會進行引用,即通過參考文獻的形式提升學(xué)術(shù)影響力。
三維影響力和綜合影響力間的相關(guān)關(guān)系說明,三維影響力會在不同程度上促進綜合影響力的提升。其中,潛在影響力和綜合影響力的相關(guān)性最高,為0.918,瀏覽、下載、收藏是數(shù)據(jù)論文影響力產(chǎn)生的第一環(huán)節(jié),也是數(shù)據(jù)論文應(yīng)用、交流的基礎(chǔ)與前提。在信息爆炸的當(dāng)下,注意力演變?yōu)橄∪辟Y源,潛在影響力的提升必然會在較大程度上擴大數(shù)據(jù)論文的影響力。學(xué)術(shù)影響力和綜合影響力的相關(guān)性次之,為0.847,以應(yīng)用的不同發(fā)展形式形成的學(xué)術(shù)影響力,從科學(xué)性、適用性等方面驗證數(shù)據(jù)論文,通過規(guī)范化、系統(tǒng)化的學(xué)術(shù)交流活動體現(xiàn)數(shù)據(jù)論文的學(xué)術(shù)價值,累積和促進了數(shù)據(jù)論文的綜合影響力。社會影響力和綜合影響力的相關(guān)性最弱,為0.638,說明社會影響力對綜合影響力起到補充作用,學(xué)術(shù)成果的社會交流過程尚不成熟,加之?dāng)?shù)據(jù)論文交流的專業(yè)性限制,社會交流活動雖然可以及時、快速地擴大數(shù)據(jù)論文影響力,但影響程度有限。
6.2.2 數(shù)據(jù)論文影響力差異性分析
為探索數(shù)據(jù)論文在三維影響力中的具體表現(xiàn),根據(jù)各維度得分繪制三維散點圖,直觀反映數(shù)據(jù)論文影響力,如圖5所示。同時,本文采用各維度加權(quán)平均值作為數(shù)據(jù)論文在各維度評分高低的標(biāo)準(zhǔn),將數(shù)據(jù)論文劃分為“名作數(shù)據(jù)論文”“專業(yè)數(shù)據(jù)論文”“明星數(shù)據(jù)論文”和“普通數(shù)據(jù)論文”?!懊鲾?shù)據(jù)論文”共有24篇,符合“二八定律”,“專業(yè)數(shù)據(jù)論文”共有25篇,“明星數(shù)據(jù)論文”共有15篇,“普通數(shù)據(jù)論文”共有36篇。
圖5 數(shù)據(jù)論文影響力三維評價
(1)“名作數(shù)據(jù)論文”,是指同時具備高潛在影響力、學(xué)術(shù)影響力和社會影響力的數(shù)據(jù)論文。這種類型的數(shù)據(jù)論文具有較高知名度,被用戶廣泛獲取,同時其學(xué)術(shù)價值被業(yè)內(nèi)專家認可,產(chǎn)生學(xué)術(shù)貢獻,在社會交流中也引起廣泛關(guān)注。該類型數(shù)據(jù)論文往往是研究領(lǐng)域中的關(guān)鍵論文或前沿內(nèi)容,從而被眾多學(xué)者、用戶關(guān)注和追蹤。例如,數(shù)據(jù)論文“An improved and homogeneous altimeter sea level re‐cord from the ESA Climate Change Initiative”所研究的內(nèi)容和發(fā)表的數(shù)據(jù)基于歐盟的倡導(dǎo)項目而來,其前沿性和研究性顯著。數(shù)據(jù)論文“Anthropogenic land use estimates for the Holocene-HYDE 3.2”提供的土地利用數(shù)據(jù)從公元前1萬年至公元2015年,萬年間土地利用形式的演變會引發(fā)用戶好奇心,吸引用戶關(guān)注力,激發(fā)社會討論度。
(2)“專業(yè)數(shù)據(jù)論文”,是指學(xué)術(shù)影響力較高、潛在影響力或社會影響力相對較低的數(shù)據(jù)論文。這種類型數(shù)據(jù)論文的專業(yè)性質(zhì)較強,具有前瞻性,學(xué)術(shù)界限明顯,因此,專業(yè)性用語、方法和知識背景限制了部分用戶對數(shù)據(jù)論文的獲取,也為數(shù)據(jù)論文的大范圍傳播筑起了屏障。例如,數(shù)據(jù)論文“The Global Streamflow Indices and Metadata Archive(GSIM)-Part 2:Quality control,time-series indices and homo‐geneity assessment”研究三萬流域站點的每日流量、面積、氣候等數(shù)據(jù),數(shù)據(jù)專業(yè)翔實,但篇幅過長、時間成本較高,不便于普通用戶閱讀和分享。數(shù)據(jù)論文“Generation and analysis of a new global burned area product based on MODIS 250 m reflectance bands and thermal anomalies”依據(jù)歐洲航天局的專業(yè)項目,詳細研究和提供了全球燃燒區(qū)數(shù)據(jù),用語精煉、專業(yè)性較強,學(xué)術(shù)價值較高的同時學(xué)術(shù)界限也較為明顯。
(3)“明星數(shù)據(jù)論文”,是指社會影響力較高、潛在影響力或?qū)W術(shù)影響力相對較低的數(shù)據(jù)論文。這種類型的數(shù)據(jù)論文出版之后,會快速地在社交平臺引發(fā)討論和評價,產(chǎn)生較高的關(guān)注度。其通常具有普適性、應(yīng)用性或貼合社會熱點,從而引起廣大用戶的興趣。例如,數(shù)據(jù)論文“A new bed elevation model for the Weddell Sea sector of the West Antarctic Ice Sheet”和“Copepod species abundance from the Southern Ocean and other regions(1980-2005)-a lega‐cy”都是基于南極地區(qū)的觀測數(shù)據(jù),前者針對南極冰川變化,后者針對南極浮游動物群。南極地區(qū)作為較為神秘和重要的原始大陸,社會關(guān)注度和好奇度較強,數(shù)據(jù)論文貼合用戶興趣點,極易引起反響。
(4)“普通數(shù)據(jù)論文”,是指潛在影響力、學(xué)術(shù)影響力和社會影響力都相對較低的數(shù)據(jù)論文。作為發(fā)展和應(yīng)用尚不成熟并且閱讀分析時間成本較高的數(shù)據(jù)論文,如果不具備較強的適用性、數(shù)據(jù)的難以替代性、方法的新穎性等,那么就較難吸引研究人員或普通用戶的注意。因此,伴隨時間的推移,新數(shù)據(jù)論文的發(fā)布,這種類型數(shù)據(jù)論文可能并未進入公眾視野。例如,數(shù)據(jù)論文“Hydrometeorological data from Baker Creek Research Watershed,Northwest Territories,Canada”是對加拿大極北偏遠地區(qū)水文數(shù)據(jù)的研究,研究對象受關(guān)注程度低,適用性也較差。
6.2.3 多學(xué)科數(shù)據(jù)論文影響力分析
為了進一步分析數(shù)據(jù)論文的實際應(yīng)用特征,本文依據(jù)數(shù)據(jù)論文的學(xué)科屬性,按照數(shù)據(jù)論文影響力高低,將不同學(xué)科的數(shù)據(jù)論文分為“名作數(shù)據(jù)論文”“專業(yè)數(shù)據(jù)論文”“明星數(shù)據(jù)論文”和“普通數(shù)據(jù)論文”四類,如表6所示。本文選取的Earth System Science Data數(shù)據(jù)期刊為地理領(lǐng)域期刊,從一級學(xué)科進行劃分,主要分為地理學(xué)、環(huán)境科學(xué)、氣象學(xué)和海洋學(xué)。
表6 多學(xué)科數(shù)據(jù)論文影響力分析
地理學(xué)出版的數(shù)據(jù)論文數(shù)量最多,既與本文選取的數(shù)據(jù)論文期刊為地理領(lǐng)域相關(guān),也與地理學(xué)自身數(shù)據(jù)論文的發(fā)展相關(guān)。地理學(xué)在數(shù)據(jù)論文從提交、審核、出版,到數(shù)據(jù)倉儲,具有連貫而嚴(yán)格的學(xué)術(shù)系統(tǒng),在數(shù)據(jù)論文的需求、獲取和引用上也具有成熟的操作規(guī)則和獲取系統(tǒng)。地理學(xué)雖然具有較多的“普通數(shù)據(jù)論文”,但其余三類數(shù)據(jù)論文的數(shù)量明顯多于“普通數(shù)據(jù)論文”,說明地理學(xué)出版的數(shù)據(jù)論文整體上質(zhì)量較高,既具有較高的學(xué)術(shù)研究和使用價值,又具有廣泛的社會傳播和交流價值。環(huán)境科學(xué)出版的數(shù)據(jù)論文數(shù)量其次,這與全球十分關(guān)心和注重生態(tài)環(huán)境的現(xiàn)象較符合。相關(guān)數(shù)據(jù)論文主要集中于“名作數(shù)據(jù)論文”,一方面說明學(xué)術(shù)界十分關(guān)注且廣泛探索和研究生態(tài)環(huán)境相關(guān)的內(nèi)容,另一方面說明環(huán)境科學(xué)出版的數(shù)據(jù)論文在質(zhì)量上具有較高的完整性、科學(xué)性、嚴(yán)謹(jǐn)性和真實性,在內(nèi)容上具有較強的適用性和支撐性,重現(xiàn)要求低而重現(xiàn)價值高。氣象學(xué)和海洋學(xué)出版的數(shù)據(jù)論文主要集中于“普通數(shù)據(jù)論文”,出現(xiàn)在“專業(yè)數(shù)據(jù)論文”和“明星數(shù)據(jù)論文”的研究對象多與南極和北極相關(guān),一方面說明極地地區(qū)研究數(shù)據(jù)具有較高價值和較強吸引力,另一方面也可能與氣象和海洋相關(guān)數(shù)據(jù)在國家官方網(wǎng)站發(fā)布較多、可替代性較強有關(guān)。
本文通過對可用數(shù)據(jù)論文的選擇、數(shù)據(jù)論文影響力的比較分析,可以發(fā)現(xiàn),從整體而言,數(shù)據(jù)論文的獲取、應(yīng)用和交流程度較低,整體影響力較小。從內(nèi)部而言,數(shù)據(jù)論文的影響力存在維度偏差,“名作數(shù)據(jù)論文”的數(shù)量較少,潛在影響力和學(xué)術(shù)影響力相對較高,社會影響力相對較弱。因此,數(shù)據(jù)論文影響力的發(fā)展需要綜合整體的提高和內(nèi)部的優(yōu)化。
在整體提升上,數(shù)據(jù)論文評審機制是保證數(shù)據(jù)質(zhì)量的首要途徑,引用機制是促成數(shù)據(jù)論文應(yīng)用的關(guān)鍵手段,激勵機制是拓展數(shù)據(jù)論文多樣交流的外生驅(qū)動。三種機制的配套結(jié)合,有利于充分挖掘數(shù)據(jù)論文的價值,提升數(shù)據(jù)論文的影響力;在內(nèi)部優(yōu)化上,數(shù)據(jù)論文需要增強創(chuàng)新性以提升用戶的感知水平,發(fā)展多模態(tài)使用方式促進用戶應(yīng)用,構(gòu)建清晰的語言邏輯強化用戶交流,注重應(yīng)用時效性延長論文“保鮮期”。通過內(nèi)外部的融合促進,激發(fā)數(shù)據(jù)論文出版、促進數(shù)據(jù)論文使用,創(chuàng)建全新數(shù)據(jù)驅(qū)動科研的新模式。