侯劍華,李 昊,張 洋,高繼平
(1.中山大學(xué)信息管理學(xué)院,廣州 510006;2.中國(guó)科學(xué)技術(shù)信息研究所,北京 100038)
2004年,van Raan[1]將科學(xué)文獻(xiàn)在發(fā)表后的一段時(shí)間未被引用(“沉睡”),而后突然獲得了大量引用(“被王子喚醒”)的現(xiàn)象稱(chēng)為“科學(xué)睡美人”(SBs)。而后,Li等[2]又提出“全要素科學(xué)睡美人”對(duì)這一概念進(jìn)行補(bǔ)充??茖W(xué)文獻(xiàn)演化的這一現(xiàn)象也被稱(chēng)為“抵制發(fā)現(xiàn)”(resisted discovery)[3]、“過(guò)早發(fā)現(xiàn)”(premature discovery)[4]、延遲識(shí)別(delayed recognition)[5]。實(shí)際上,科學(xué)睡美人是基于引文軌跡的科學(xué)知識(shí)擴(kuò)散的一種特殊現(xiàn)象,其揭示了科學(xué)信息通過(guò)引文進(jìn)行擴(kuò)散的重要機(jī)制[6],是科學(xué)發(fā)展不可或缺的[7]。本文將基于引文指標(biāo)揭示的科學(xué)睡美人稱(chēng)為citation-based sleeping beauty(C-SB),在其演化軌跡中,“沉睡-蘇醒”階段的轉(zhuǎn)換特征以及蘇醒機(jī)制等都是通過(guò)引文指標(biāo)的變化進(jìn)行測(cè)度的。
然而,社交媒體的快速發(fā)展給科學(xué)交流和知識(shí)擴(kuò)散模式帶來(lái)了革命性的變化,科學(xué)文獻(xiàn)在社交媒體平臺(tái)獲得的瀏覽、保存、討論等大量數(shù)據(jù),以及由此建立起來(lái)的定量測(cè)度指標(biāo),為研究科學(xué)睡美人文獻(xiàn)的演化機(jī)制提供了新的視角和途徑。科學(xué)文獻(xiàn)在發(fā)表后的知識(shí)演化軌跡不僅包括基于引文指標(biāo)的演化軌跡,而且包括基于社交媒體指標(biāo)的演化軌跡。本文將基于引文指標(biāo)和社交媒體指標(biāo)綜合作用形成的睡美人,稱(chēng)為Altmetrics-based sleeping beauty(A-SB)。從引文指標(biāo)和社交媒體指標(biāo)綜合視角下,重新審視科學(xué)文獻(xiàn)的知識(shí)擴(kuò)散和演化軌跡,是對(duì)傳統(tǒng)基于引文的科學(xué)睡美人研究的重要補(bǔ)充和創(chuàng)新發(fā)展。
因此,本文基于社交媒體平臺(tái),綜合社交媒體指標(biāo)和引文指標(biāo),對(duì)基于引文的科學(xué)睡美人的研究進(jìn)行拓展,在Altmetrics視角下揭示科學(xué)睡美人在延遲識(shí)別階段的動(dòng)態(tài)演化特征。本文的貢獻(xiàn)主要包括:
(1)揭示了科學(xué)睡美人在社交媒體平臺(tái)的一種動(dòng)態(tài)演化機(jī)制,從Altmetrics指標(biāo)的分布特征以及各階段的演化特征兩個(gè)維度分析了A-SB的動(dòng)態(tài)演化過(guò)程;
(2)定義了A-SB沉睡階段的假寐?tīng)顟B(tài),并分析了假寐?tīng)顟B(tài)對(duì)A-SB在延遲識(shí)別階段演化特征的影響;
(3)在綜合視角下重新測(cè)度C-SB的演化軌跡,驗(yàn)證了在文獻(xiàn)演化軌跡測(cè)度與演化類(lèi)型研究中加入Altmetrics指標(biāo)的必要性。
在科學(xué)中,一篇科學(xué)文獻(xiàn)發(fā)表后被引頻次隨時(shí)間的分布被稱(chēng)為引文軌跡[8],其在一定程度上可以反映文獻(xiàn)的演化規(guī)律。其中,科學(xué)睡美人(SBs)是一種特殊類(lèi)型的引文軌跡。目前,對(duì)科學(xué)睡美人演化的研究主要集中在科學(xué)睡美人的引文演化特征、科學(xué)睡美人的形成原因及影響因素、王子文獻(xiàn)的識(shí)別以及科學(xué)睡美人的喚醒機(jī)制。現(xiàn)有研究對(duì)科學(xué)睡美人的“沉睡-蘇醒”時(shí)間進(jìn)行了界定(表1)??茖W(xué)睡美人的沉睡和蘇醒都是指一段持續(xù)的時(shí)間狀態(tài),其中,①睡眠期:在3~5年內(nèi)平均每年被引不超過(guò)2次;②蘇醒期:在睡眠期以后的某個(gè)時(shí)期內(nèi)(4年以上)得到大量的引用(被引20次以上)[9-14]。
表1 科學(xué)睡美人文獻(xiàn)沉睡和蘇醒狀態(tài)的界定(部分)
在引文演化軌跡中,早期的引文長(zhǎng)尾分布是科學(xué)睡美人進(jìn)入睡眠狀態(tài)的重要表征。這種長(zhǎng)尾可以量化為被引的延遲[15],其分布可以用于科學(xué)睡美人的識(shí)別與測(cè)量[16-17],同時(shí),也在一定程度上對(duì)科學(xué)睡美人的形成進(jìn)行預(yù)測(cè)[18]。雖然學(xué)術(shù)發(fā)展是科學(xué)睡美人文獻(xiàn)形成的重要因素[19],但是也需要慎重看待早期的引文軌跡[20]。另外,科學(xué)睡美人在演化軌跡后期可能被高度引用[12],仍需要注意睡眠晚期的自引[21]。
在引文演化軌跡中,引文也是研究科學(xué)睡美人蘇醒機(jī)制的唯一指標(biāo)。引文喚醒了科學(xué)睡美人,并使SBs受到廣泛的科學(xué)關(guān)注[22]。這種引文被稱(chēng)為“王子文獻(xiàn)”[1]。因此,王子文獻(xiàn)的特征[23]和識(shí)別標(biāo)準(zhǔn)[24]成為研究睡美人蘇醒機(jī)制的主要手段。然而,“睡美人”文獻(xiàn)也有其被喚醒的必然性[25]。最近,van Raan等[26-28]發(fā)現(xiàn)睡美人文獻(xiàn)更容易被專(zhuān)利文獻(xiàn)引用,技術(shù)驅(qū)動(dòng)是睡美人文獻(xiàn)的主要喚醒機(jī)制[29]。
在現(xiàn)有研究中,一方面,對(duì)睡美人文獻(xiàn)演化軌跡的關(guān)注主要集中在“沉睡”“蘇醒”兩個(gè)狀態(tài)的研究,而忽視了沉睡過(guò)程中的被引用情況對(duì)科學(xué)睡美人演化各階段的影響①童話睡美人的原始故事中,在王子吻醒睡美人之前,曾經(jīng)有許多試圖前來(lái)喚醒睡美人的“王子”們(準(zhǔn)王子),最終以失敗告終。??茖W(xué)睡美人在沉睡過(guò)程中同樣會(huì)受到某些文獻(xiàn)的引用,卻未被成功喚醒。梁立明等[30]介紹睡美人概念時(shí),用“引路人”來(lái)稱(chēng)呼引導(dǎo)王子文獻(xiàn)去喚醒科學(xué)睡美人的一種影響因素,而沒(méi)有關(guān)注睡美人文獻(xiàn)在沉睡過(guò)程中的其他引證文獻(xiàn)。Li等[31]提出的“心跳譜”注意到了沉睡期間每一年的被引頻次與SBs蘇醒概率之間的關(guān)系,但尚未討論其在科學(xué)睡美人整體演化中的作用。另一方面,這些研究均是基于引文演化軌跡來(lái)開(kāi)展有關(guān)科學(xué)睡美人文獻(xiàn)的研究,然而,隨著社交媒體平臺(tái)的迅速崛起,基于引文演化軌跡來(lái)衡量科學(xué)論文的影響力得到了極大地拓展。測(cè)度科學(xué)論文的動(dòng)態(tài)演化軌跡,除了引文軌跡,還應(yīng)體現(xiàn)在包括Viewed、Saved、Discussed和Recommended在內(nèi)的Altmetrics指標(biāo)的演化軌跡。
隨著社交媒體的快速發(fā)展,科學(xué)文獻(xiàn)的演化軌跡不僅包括基于引文演化軌跡的視角,也包括基于社交媒體的演化軌跡[32-33]。并且基于社交媒體平臺(tái)的科學(xué)文獻(xiàn)演化軌跡,對(duì)揭示科學(xué)文獻(xiàn)的演化機(jī)制具有重要價(jià)值。用于測(cè)度科學(xué)文獻(xiàn)的社會(huì)影響力演化軌跡的計(jì)量指標(biāo),被稱(chēng)為Altmetrics[34]。有研究發(fā)現(xiàn),部分Altmetrics指標(biāo)與引文之間的相關(guān)性較弱[35-36],如推文數(shù)量與引用之間的相關(guān)性較弱[37-38]。也眾多研究發(fā)現(xiàn)Altmetrics指標(biāo)(save,discussion,download,read in Mendeley[save],number of readers in Mendeley,recommendation measures,the number of tweets,F1000,bookmarks,等等)與引文指標(biāo)之間具有強(qiáng)相關(guān)性(表2)[39-47]。然而,Altmetrics指標(biāo)與引文指標(biāo)并不是簡(jiǎn)單的相關(guān)與否,不同學(xué)科之間的差異直接影響了其相關(guān)性[48],目前的Altmetrics并不足以取代傳統(tǒng)的文獻(xiàn)計(jì)量學(xué)[49],而是對(duì)文獻(xiàn)計(jì)量學(xué)和科學(xué)計(jì)量學(xué)的重要補(bǔ)充[50-53]。
表2 Altmetrics指標(biāo)與引文指標(biāo)相關(guān)性的研究(部分)
基于上述研究,研究者結(jié)合Altmetrics指標(biāo),來(lái)拓展引文視角下不同演化類(lèi)型文獻(xiàn)視域,發(fā)現(xiàn)高被引文獻(xiàn)在Altmetrics指標(biāo)上的累積特征與在引文上的演化軌跡相比存在差異[60-61]。這些研究?jī)H僅將社交媒體指標(biāo)作為計(jì)量體系的補(bǔ)充,并沒(méi)有嘗試構(gòu)建新的計(jì)量模型。不過(guò),隨著引文數(shù)據(jù)來(lái)源的日益豐富和開(kāi)放存取平臺(tái)的推廣與完善[62],學(xué)者們開(kāi)始嘗試通過(guò)結(jié)合引文指標(biāo)與替代計(jì)量學(xué)指標(biāo),驗(yàn)證了社交媒體軌跡與引文軌跡相結(jié)合的可行性[63-64],構(gòu)建了文獻(xiàn)綜合評(píng)分體系[65-67]與期刊綜合評(píng)價(jià)體系[64,68],并進(jìn)行了實(shí)證研究[69-70]。這些研究在一定程度上驗(yàn)證了綜合引文與Altmetrics來(lái)衡量學(xué)術(shù)論文影響力的可行性。
現(xiàn)有研究主要關(guān)注Altmetrics指標(biāo)與被引量之間的關(guān)系,尚未對(duì)引文與Altmetrics共同作用下的科學(xué)文獻(xiàn)的綜合性演化軌跡進(jìn)行深入的研究和關(guān)注。即側(cè)重于在Altmetrics視角下為科學(xué)論文提供的一個(gè)綜合評(píng)分體系,目的在于科學(xué)評(píng)價(jià),本質(zhì)上是在探討社交媒體在科學(xué)計(jì)量中的作用與價(jià)值,沒(méi)有對(duì)Alt‐metrics指標(biāo)與引文指標(biāo)共同作用下的科學(xué)論文的演化軌跡進(jìn)行測(cè)度?;谝闹笜?biāo)與社交媒體指標(biāo)綜合視角的指標(biāo)體系構(gòu)建方法傾向于成熟,為在新視角下拓展SBs等不同文獻(xiàn)演化類(lèi)型的研究提供了基礎(chǔ)。Hou等[71]提出了基于社交媒體的科學(xué)睡美人(so‐cial media-based sleeping beauty)。然而,該研究中沒(méi)有融合引文指標(biāo),社交媒體與引文相結(jié)合的綜合指標(biāo)作用下的科學(xué)睡美人演化軌跡及特征與基于社交媒體指標(biāo)作用的睡美人演化軌跡存在一定的差異。
因此,本文結(jié)合引文指標(biāo)與Altmetrics指標(biāo),基于綜合視角下科學(xué)睡美人(A-SB)的識(shí)別結(jié)果,重點(diǎn)分析A-SB在延遲識(shí)別階段各指標(biāo)的分布特征以及動(dòng)態(tài)演化特征,并對(duì)樣本中的C-SB與A-SB進(jìn)行比較分析,對(duì)傳統(tǒng)上基于引文軌跡的科學(xué)睡美人的演化研究進(jìn)行拓展與補(bǔ)充。
本文以PLoSBiology期刊創(chuàng)刊以來(lái)發(fā)表的文獻(xiàn)數(shù)據(jù)(共3541篇)為樣本,數(shù)據(jù)獲取自PLoSBiology開(kāi)放存取平臺(tái)和Web of Science(WoS)核心合集數(shù)據(jù)庫(kù)。其中,文獻(xiàn)的Citation指標(biāo)的數(shù)據(jù)來(lái)自Web of Science核心合集數(shù)據(jù)庫(kù)中收錄的PLoSBiology期刊每年出版的文獻(xiàn)數(shù)量,并獲取每一篇文獻(xiàn)每年獲得的被引數(shù)量。文獻(xiàn)社交媒體指標(biāo),主要包括View、Save、Discussed、Recommended指 標(biāo)[72-73],數(shù)據(jù)來(lái)自PLoSBiology期刊網(wǎng)站開(kāi)放存取的數(shù)據(jù),其具體來(lái)源與含義如表3所示。其中,Viewed、Discussed來(lái)源于開(kāi)放存取平臺(tái)、社交網(wǎng)站,Saved來(lái)源于文獻(xiàn)管理網(wǎng)站,Recommended來(lái)源于科學(xué)論文在線推薦平臺(tái),Citation來(lái)源于學(xué)術(shù)數(shù)據(jù)庫(kù)。指標(biāo)來(lái)源為文獻(xiàn)樣本集在plos.org上截至2019年3月的數(shù)據(jù)。對(duì)PLoSBiology期刊中的每一篇文獻(xiàn)的相關(guān)數(shù)據(jù)進(jìn)行匯總和清洗,去除撤稿、Correction、Letter、Biographical Item等類(lèi)型的文獻(xiàn),將剩余文獻(xiàn)數(shù)據(jù)作為本文的目標(biāo)數(shù)據(jù),使用Excel和Matlab 2018b對(duì)選定的目標(biāo)數(shù)據(jù)進(jìn)行分類(lèi)計(jì)算處理。
表3 PLoSBiology期刊的文獻(xiàn)數(shù)據(jù)指標(biāo)及來(lái)源
本文使用Altmetrics-based beauty index(Ab in‐dex)來(lái)描述一篇文獻(xiàn)發(fā)表后每個(gè)月產(chǎn)生的綜合性影響力,即引文指標(biāo)(IA)和社交媒體指標(biāo)(IS)共同體作用的函數(shù)值,即
具體地,本文采用Citation(C)、Viewed(V)、Save(S)、Discussed(D)、Recommended(R)五類(lèi)指標(biāo)來(lái)描述一篇文獻(xiàn)發(fā)表后產(chǎn)生的綜合性演化軌跡的變化情況。
因此,一篇文獻(xiàn)自發(fā)表后,第i個(gè)月的Ab index動(dòng)態(tài)變化公式為
其中,Wtv、Wts、Wtd、Wtr、Wtc分別為V、S、D、R、C指標(biāo)對(duì)應(yīng)的權(quán)重;i為時(shí)間,表示為一篇文獻(xiàn)發(fā)表后第i個(gè)月,Abi為一篇文獻(xiàn)發(fā)表后第i個(gè)月的綜合性影響力。需要注意的是,由于無(wú)法在WoS數(shù)據(jù)庫(kù)中獲取每一篇文獻(xiàn)具體在每一個(gè)月的被引情況,只能獲取一篇文獻(xiàn)在每一年的被引數(shù)據(jù),訪問(wèn)文獻(xiàn)的單個(gè)月的引文軌跡是困難的。因此,這里的Ci為一篇文獻(xiàn)在某一年中,每個(gè)月獲得被引量的平均值[74]。例如,一篇文獻(xiàn)在發(fā)表后第3年被引了12次,那么在第3年中的每個(gè)月的被引量為1次。
對(duì)于權(quán)重Wtv、Wts、Wtd、Wtr、Wtc的確定,本文基于層次分析法,按照五類(lèi)指標(biāo)對(duì)一篇文獻(xiàn)綜合性演化軌跡的作用程度構(gòu)建結(jié)構(gòu)矩陣,進(jìn)一步對(duì)各個(gè)指標(biāo)賦予不同的權(quán)重值。層次分析過(guò)程的基本步驟如下。
比較某一層次的n個(gè)因素X1,X2,…,Xn對(duì)上一層次一個(gè)因素(影響力)的影響,可以從X1,X2,…,Xn中任取Xi與Xj比較其對(duì)于影響力的貢獻(xiàn)(或重要性)大小。按照表4的“1~9比例標(biāo)度”對(duì)Xi/Xj賦值[75]。
表4 標(biāo)度的含義
構(gòu)建模型矩陣,如表5所示。
表5 Altmetrics指標(biāo)與引文指標(biāo)權(quán)重的確定
矩陣B的最大特征值為λmax=5.2837,最大特征值的特征向量為(0.05150.07700.28270.28270.9919)T。
在引文視角下,SBs的研究所采用的時(shí)間統(tǒng)計(jì)單位是年。由于許多文獻(xiàn)的出版周期是月,按年統(tǒng)計(jì)時(shí),將給每年1月和12月出版的文獻(xiàn)帶來(lái)較大的時(shí)間差距。例如,1篇1月出版的文獻(xiàn),沉睡4年后發(fā)生蘇醒,那么其沉睡期大于等于47個(gè)月,但是1篇12月出版的文獻(xiàn),沉睡四年后發(fā)生蘇醒,那么其沉睡期大于等于36個(gè)月。
然而,在Altmetrics-based視角下,文獻(xiàn)在社交媒體平臺(tái)的擴(kuò)散速度較快,以月為單位統(tǒng)計(jì)文獻(xiàn)的演化軌跡,更能夠精確地反映文獻(xiàn)的動(dòng)態(tài)演化過(guò)程,因此,為了更加精確地衡量文獻(xiàn)的演化軌跡,在社交媒體視角下識(shí)別SBs,區(qū)別于基于引文軌跡的科學(xué)睡美人(citation-based sleeping beauty,C-SB),本文以月為單位,重新界定了基于社交媒體的科學(xué)睡美人(Altmetrics-based SB,A-SB)及全要素科學(xué)睡美人現(xiàn)象(Altmetrics-based all-elements SB,Aa-SB)的識(shí)別標(biāo)準(zhǔn),并對(duì)相關(guān)概念進(jìn)行定義。
Altmetrics-based SB(A-SB):是指在社交媒體上一種特殊的文獻(xiàn)演化類(lèi)型,具體表征為文獻(xiàn)自發(fā)表后,連續(xù)36個(gè)月或36個(gè)月以上處于沉睡或假寐,隨后突然得到大量且持續(xù)的“關(guān)注”(量化為連續(xù)4個(gè)月或4個(gè)月以上超過(guò)閾值的Ab值),從而得以蘇醒。A-SB在延遲識(shí)別階段的演化軌跡可描述為“沉睡(假寐)-蘇醒”。
Altmetrics-based all-elements SB(Aa-SB):受Li等[2]的啟發(fā),本文認(rèn)為在社交媒體上同樣存在著“全要素科學(xué)睡美人”這一特殊的SBs曲線,其具體表征為文獻(xiàn)自發(fā)表后,即受到了大量且持續(xù)的“關(guān)注”,隨后進(jìn)入沉睡階段,再進(jìn)入蘇醒。Aa-SB在延遲識(shí)別階段的演化軌跡可描述為“第一次蘇醒-沉睡(假寐)-第二次蘇醒”。
蘇醒:在C-SB的識(shí)別研究中,通常以年作為時(shí)間單位。C-SB在連續(xù)4個(gè)時(shí)間(年)保持蘇醒狀態(tài)被稱(chēng)為真正蘇醒,但是按每月的時(shí)間來(lái)看,其蘇醒的狀態(tài)不一定是連續(xù)的。為保證研究的一致性,本文同樣選取連續(xù)4個(gè)時(shí)間間隔來(lái)對(duì)A-SB的蘇醒進(jìn)行界定:在社交媒體平臺(tái)下,文獻(xiàn)連續(xù)4個(gè)月時(shí)間的綜合性影響力值(Abi)均大于該期刊所有文獻(xiàn)在每個(gè)月綜合性影響力的平均值即時(shí),A-SB進(jìn)入蘇醒階段。
本文對(duì)PLoSBiology期刊中所有文獻(xiàn)在每個(gè)月的綜合性影響力進(jìn)行計(jì)算。首先計(jì)算出綜合性影響力的平均值----Ab=5.38。因此,對(duì)PLoSBiology期刊上出版的文獻(xiàn)而言,定義其蘇醒狀態(tài)為(Abn…Abn-3)>5.38,沉睡狀態(tài)為AbΔn≤2.69。計(jì)算出3541篇文獻(xiàn)自出版后每個(gè)月獲得的綜合性影響力Ab值,并根據(jù)第3.3節(jié)的定義,識(shí)別樣本中的ASB與Aa-SB(表6)。
表6 PLoSBiology期刊的A-SB信息表
為了探討A-SB演化軌跡中各階段的影響因素,從時(shí)序分布與累積分布對(duì)A-SB與Aa-SB的演化過(guò)程中各指標(biāo)分布特征進(jìn)行分析。
4.1.1 沉睡階段A-SB的演化過(guò)程分析1)引文指標(biāo)的軌跡分布特征
從時(shí)間趨勢(shì)圖來(lái)看,A-SB在沉睡階段中的引文時(shí)間分布具有峰值現(xiàn)象,有的A-SB甚至?xí)a(chǎn)生二次峰值(圖3)。
圖3 A-SB在沉睡階段中的Citation指標(biāo)時(shí)間分布
通過(guò)計(jì)算11篇A-SB引文第一次出現(xiàn)峰值的時(shí)間與沉睡階段總時(shí)長(zhǎng)之比的平均值,得出A-SB的引文數(shù)量第一次出現(xiàn)峰值的時(shí)間在沉睡時(shí)長(zhǎng)的52.1%,即A-SB的引文第一次出現(xiàn)峰值的時(shí)間大概在沉睡階段時(shí)長(zhǎng)的一半。然而,通過(guò)計(jì)算11篇ASB引文最大值出現(xiàn)的時(shí)間與沉睡階段總時(shí)長(zhǎng)之比的平均值,得出A-SB在沉睡階段中引文獲取數(shù)出現(xiàn)最大值的時(shí)間在沉睡時(shí)長(zhǎng)的60.79%。第一次出現(xiàn)峰值的時(shí)間與最大值出現(xiàn)的時(shí)間并不一致,兩者均影響了A-SB的假寐?tīng)顟B(tài)。不同的是,Citation指標(biāo)的峰值是A-SB發(fā)生假寐現(xiàn)象的原因之一,而較峰值更晚出現(xiàn)的最大值,則是A-SB處于假寐和后期進(jìn)入蘇醒狀態(tài)的原因之一。
2)社交媒體指標(biāo)的軌跡分布特征
在沉睡階段中,產(chǎn)生主要影響的是Viewed指標(biāo),Saved、Discussed的影響較小,Recommended未產(chǎn)生影響。各指標(biāo)的特征具體如下。
圖2 Aa-SB文獻(xiàn)Alerstam(2007)于延遲識(shí)別階段的演化軌跡
Discussed:11篇文獻(xiàn)有8篇在沉睡階段受Dis‐cussed影響。由圖4可知,A-SB在沉睡階段中Dis‐cussed的分布曲線均呈長(zhǎng)尾右偏態(tài),A-SB在沉睡階段第一次獲取的Discussed指標(biāo)數(shù)值為最大值。通過(guò)計(jì)算這8篇A-SB的Discussed指標(biāo)開(kāi)始發(fā)生作用的時(shí)間與沉睡階段總時(shí)長(zhǎng)之比的平均值,得出A-SB的Discussed集中分布的時(shí)間在沉睡時(shí)長(zhǎng)的81.6%,即A-SB的Discussed指標(biāo)開(kāi)始發(fā)生作用的時(shí)段集中在沉睡階段的后期。通過(guò)觀察假寐?tīng)顟B(tài)的時(shí)間分布,發(fā)現(xiàn)A-SB在臨近假寐或處于假寐?tīng)顟B(tài)時(shí),往往伴隨著Discussed指標(biāo)的影響。Discussed的分布與作用不足以喚醒A-SB,但其最大值是A-SB進(jìn)入假寐的原因之一。
圖4 A-SB在沉睡階段中的Discussed指標(biāo)時(shí)間分布
Saved:11篇文獻(xiàn)有7篇在沉睡階段受Saved影響。通過(guò)計(jì)算這些文獻(xiàn)的Saved指標(biāo)開(kāi)始發(fā)生作用的時(shí)間與沉睡階段總時(shí)長(zhǎng)之比的平均值,可得出ASB的Saved指標(biāo)開(kāi)始發(fā)生作用的時(shí)間在沉睡階段的59.89%,即A-SB的Saved指標(biāo)開(kāi)始發(fā)生作用的時(shí)間集中在沉睡階段的中期。通過(guò)計(jì)算得出Saved指標(biāo)達(dá)到最大值的時(shí)間是沉睡總時(shí)長(zhǎng)的71.8%,即A-SB的Saved指標(biāo)達(dá)到最大值的時(shí)間主要集中在沉睡階段的后期,比開(kāi)始發(fā)生作用的時(shí)間較晚。此外,Saved在時(shí)間分布上不具有連貫性。與Discussed指標(biāo)相似的是,A-SB在沉睡階段的假寐?tīng)顟B(tài)中時(shí)常伴隨著Saved指標(biāo)的影響。
Viewed:在沉睡階段中,Viewed發(fā)揮著重要的作用,其在A-SB與Aa-SB的演化過(guò)程中又具有較大區(qū)別。觀察4篇A-SB的Viewed指標(biāo)時(shí)間分布(圖5)與其趨勢(shì)線(圖6),發(fā)現(xiàn)Neugebauer(2006)、Tsuriel(2006)、Del Cul(2007)、DeRisi(2003)的Viewed時(shí)間分布曲線均呈長(zhǎng)尾右偏態(tài),其Viewed指標(biāo)均在沉睡階段開(kāi)始的第3個(gè)月后便迅速下降,之后進(jìn)入到相對(duì)平穩(wěn)的長(zhǎng)尾期,直到蘇醒前的一段時(shí)間才漸漸上升。
圖5 A-SB在沉睡階段中的Viewed指標(biāo)時(shí)間分布
圖6 A-SB在沉睡階段中的Viewed指標(biāo)趨勢(shì)線
由圖7和圖8可得,Aa-SB的Viewed時(shí)間分布較A-SB更均勻,但仍具有一定的遞減趨勢(shì),并且數(shù)值波動(dòng)幅度較大,在沉睡階段中易出現(xiàn)峰值。
圖7 Aa-SB在沉睡階段中的Viewed指標(biāo)時(shí)間分布
通過(guò)比較發(fā)現(xiàn),A-SB的Viewed指標(biāo)時(shí)間趨勢(shì)更加具有規(guī)律性。其是A-SB沉睡階段中發(fā)生早期假寐的原因,也是A-SB進(jìn)入假寐?tīng)顟B(tài)的主要影響指標(biāo);Aa-SB的Viewed指標(biāo)整體呈波動(dòng)遞減趨勢(shì),在沉睡階段的中后期易出現(xiàn)峰值,這是Aa-SB在沉睡階段期間易進(jìn)入假寐?tīng)顟B(tài)、沉睡狀態(tài)不穩(wěn)定,并且在中后期易發(fā)生假寐的原因。
因此,在沉睡階段,A-SB與Aa-SB均獲得較少的Citation、Discussed、Saved、Viewed以及Recom‐mended,這是其進(jìn)入沉睡的原因。但是,從時(shí)序分布來(lái)看,Citation的中期峰值、Discussed與Viewed的長(zhǎng)尾與后期峰值以及Saved的分散分布特征,共同塑造了A-SB沉睡階段特別是假寐的演化軌跡。
此外,從各指標(biāo)的累積分布來(lái)看(表7),在沉睡階段中,Viewed貢獻(xiàn)的影響力大于Citation、大于Discussed與Saved。這說(shuō)明,一方面,A-SB在沉睡期間仍會(huì)受到一定的瀏覽與下載的影響,但缺乏討論、標(biāo)注、引用等更深入的關(guān)注行為;另一方面,各指標(biāo)影響力的普遍不足,也反映了基于綜合視角的測(cè)度方法,能夠更加完整地反映科學(xué)文獻(xiàn)的演化軌跡。
表7 A-SB在沉睡階段各指標(biāo)數(shù)值的累積分布
4.1.2 蘇醒階段A-SB的演化過(guò)程分析
從累積分布來(lái)看(表8),在蘇醒階段,A-SB與Aa-SB受Discussed指標(biāo)的影響都較小,且完全不受Recommended指標(biāo)的影響。A-SB受Saved指標(biāo)的影響較小,只有1篇受Saved指標(biāo)影響;而Aa-SB受Saved指標(biāo)影響較大,7篇Aa-SB中有5篇受到Saved指標(biāo)的影響,并且Saved具有一定的影響力。這些指標(biāo)的分布都是不連續(xù)的,只有Viewed指標(biāo)具有較大的數(shù)值,并呈時(shí)序分布的特征。由于Aa-SB經(jīng)歷了兩段蘇醒,因此,為了進(jìn)一步分析各指標(biāo)的具體作用,對(duì)A-SB蘇醒階段、Aa-SB早期蘇醒與第二次蘇醒階段的Viewed時(shí)序分布特征進(jìn)行分析。
表8 A-SB、Aa-SB在蘇醒階段各指標(biāo)總數(shù)值
圖10 Aa-SB在第一次蘇醒階段中的Viewed的時(shí)間分布曲線
從時(shí)序分布來(lái)看(圖9~圖11),A-SB與Aa-SB在蘇醒階段的Viewed數(shù)值基本高于蘇醒邊界線。這說(shuō)明Viewed是A-SB與Aa-SB維持連續(xù)的蘇醒狀態(tài)并進(jìn)入蘇醒階段的最主要因素。將Aa-SB的第一次蘇醒與第二次蘇醒的軌跡分離后進(jìn)行觀察,發(fā)現(xiàn)Aa-SB第一次蘇醒的Viewed均值大于第二次蘇醒的Viewed均值,第二次蘇醒的Viewed均值大于A-SB蘇醒階段的Viewed均值。究其原因,一方面,是由于發(fā)表于社交媒體的文獻(xiàn)一經(jīng)開(kāi)放就會(huì)得到大量的瀏覽與閱讀,隨后逐漸趨于平穩(wěn)[76];另一方面,ASB與Aa-SB可能是具有重大價(jià)值,但爭(zhēng)議性較強(qiáng),從而不被主流接受的研究成果,因而在早期受到短暫關(guān)注后便進(jìn)入沉睡。此外,Aa-SB的Discusse、Saved、Citation都集中在第二次蘇醒中發(fā)生作用。
圖1 A-SB文獻(xiàn)Neugebauer(2006)于延遲識(shí)別階段的演化軌跡
圖9 A-SB在蘇醒階段中的Viewed的時(shí)間分布曲線
圖11 Aa-SB在第二次蘇醒階段中的Viewed的時(shí)間分布曲線
綜上所述,從累積分布特征(表9)來(lái)看,Viewed是A-SB在延遲識(shí)別階段演化過(guò)程的最大影響因素,Viewed和Citation在A-SB的蘇醒中發(fā)揮著重要的作用。從時(shí)序分布特征來(lái)看,Viewed也是各階段轉(zhuǎn)換的主導(dǎo)指標(biāo)。盡管其他Altmetrics指標(biāo)與Citation影響力較小,但是其分布對(duì)A-SB、Aa-SB在演化軌跡特征起著重要的影響作用。
表9 Altmetrics各指標(biāo)在A-SB、Aa-SB延遲識(shí)別階段的影響力占比(%)
這些表征說(shuō)明,在社交媒體上,與大部分新研究的命運(yùn)類(lèi)似,A-SB與Aa-SB在發(fā)表后會(huì)獲得平臺(tái)用戶(hù)的大量瀏覽與下載。然而,這一關(guān)注是短暫的,由于缺乏持續(xù)且足夠的瀏覽、討論以及保存,這些文獻(xiàn)逐漸淡出人們的視野,從而進(jìn)入漫長(zhǎng)的沉睡階段。它們的蘇醒則是多種傳播路徑共同作用的結(jié)果。
為了進(jìn)一步探討A-SB文獻(xiàn)在延遲識(shí)別階段中的整體動(dòng)態(tài)演化,本文使用SPSS軟件對(duì)各階段指標(biāo)信息進(jìn)行相關(guān)性分析(表10)。
表10 A-SB、Aa-SB指標(biāo)數(shù)據(jù)計(jì)算結(jié)果
首先,對(duì)各階段指標(biāo)數(shù)據(jù)進(jìn)行正態(tài)性檢驗(yàn)(表11),發(fā)現(xiàn)A-SB、Aa-SB的假寐程度、沉睡深度的S-W檢驗(yàn)顯著性P<0.05,即存在不符合正態(tài)分布的數(shù)據(jù)。因此,本文使用Spearman相關(guān)系數(shù)對(duì)各指標(biāo)之間的相關(guān)性進(jìn)行分析。
表11 正態(tài)性檢驗(yàn)(Shapiro-Wilk)
在Spearman相關(guān)分析結(jié)果中(表12),可以看出以下特征。
表12 A-SB各階段指標(biāo)數(shù)據(jù)相關(guān)性分析
一方面,假寐均值、標(biāo)差與沉睡標(biāo)差之間,以及假寐時(shí)長(zhǎng)與沉睡均值、獲得的Viewed之間,都存在顯著的中度相關(guān)性。這說(shuō)明假寐時(shí)長(zhǎng)與強(qiáng)度對(duì)ASB的沉睡深度有著正向的促進(jìn)作用,若A-SB的假寐強(qiáng)度越強(qiáng),持續(xù)時(shí)長(zhǎng)越長(zhǎng),則A-SB可能沉睡得更深,而難以受人關(guān)注。也說(shuō)明了“假寐”這一特殊的狀態(tài)與沉睡階段之間具有明顯聯(lián)系,前者能夠反映A-SB沉睡的穩(wěn)定程度,并且若假寐強(qiáng)度越強(qiáng),則A-SB的沉睡越不穩(wěn)定。
另一方面,沉睡階段綜合影響力標(biāo)差與蘇醒階段的均值之間,存在著顯著的中度負(fù)相關(guān)性。這說(shuō)明A-SB沉睡的穩(wěn)定程度還影響著蘇醒強(qiáng)度,對(duì)ASB的蘇醒強(qiáng)度起著阻礙的作用;假寐均值與蘇醒階段的Viewed值之間、假寐?tīng)顟B(tài)的Viewed值與蘇醒均值之間,都存在著顯著的中度負(fù)相關(guān)性。這說(shuō)明假寐程度還影響著蘇醒階段的強(qiáng)度,對(duì)蘇醒階段的蘇醒強(qiáng)度與受關(guān)注度起著負(fù)面的作用。
此外,蘇醒階段的Viewed值與該階段的時(shí)長(zhǎng)、強(qiáng)度都呈現(xiàn)出了顯著的強(qiáng)相關(guān)性,再次說(shuō)明了Viewed指標(biāo)對(duì)喚醒A-SB、AA-SB的主導(dǎo)作用。
為了驗(yàn)證Altmetrics指標(biāo)的加入是否是識(shí)別傳統(tǒng)引文視角下SBs以及其他文獻(xiàn)類(lèi)型的有益補(bǔ)充,將C-SB在綜合視角與單一引文視角下的演化軌跡進(jìn)行對(duì)比。
首先,根據(jù)van Raan[1]和Li[18]分別對(duì)Citationbased Sleeping Beauty和Citation-based all elements Sleeping Beauties的定義,在PLoSBiology期刊中識(shí)別出了5篇睡眠時(shí)間不同的C-SB文獻(xiàn),但是并沒(méi)有找到Ca-SB文獻(xiàn)(表13)。
表13 PLoSBiology期刊的C-SB信息表
由圖12~圖16的演化軌跡可知,與A-SB相比,以年為單位進(jìn)行軌跡測(cè)度的C-SB具有較長(zhǎng)的引文窗口。然而,與單一引文軌跡相比,在綜合性演化軌跡視角下,C-SB被提前喚醒了。5篇C-SB在早期均獲得了持續(xù)較高的Ab數(shù)值,即在引文視角下的蘇醒之前,C-SB就已經(jīng)獲得了大量的綜合影響力。同時(shí),不同于A-SB在演化軌跡早期的不連續(xù)和數(shù)值小,C-SB在其延遲識(shí)別階段初期獲得的綜合影響力是大量的、持續(xù)時(shí)間超過(guò)4個(gè)月的。
圖12 McKay(2004)在延遲識(shí)別階段中的各指標(biāo)時(shí)間分布
圖16 Market(2003)在延遲識(shí)別階段中的各指標(biāo)時(shí)間分布
因此,盡管C-SB在早期均未受到學(xué)者們的大量引用,但由于其在早期獲得了穩(wěn)定、大量的瀏覽量、下載量,這些指標(biāo)的加入大大加快了C-SB的蘇醒速度,使得C-SB文獻(xiàn)在綜合性指標(biāo)作用下的蘇醒時(shí)間要比在Citation-based指標(biāo)作用下的文獻(xiàn)蘇醒時(shí)間提前4~5年。這說(shuō)明盡管未被大量引用,但C-SB在早期就已經(jīng)受到學(xué)者們的關(guān)注,單一引文視角所測(cè)度的軌跡未必能夠完整反映科學(xué)文獻(xiàn)的演化過(guò)程。從演化過(guò)程來(lái)看,基于綜合影響視角所識(shí)別的A-SB可能更能滿足社交媒體平臺(tái)視域下科學(xué)睡美人的定義。
圖13 Servedio(2004)在延遲識(shí)別階段中的各指標(biāo)時(shí)間分布
本文將科學(xué)睡美人從基于引文指標(biāo)演化軌跡的研究視角,擴(kuò)展到基于Altmetrics的綜合性演化軌跡的研究,通過(guò)對(duì)識(shí)別得到的A-SB、Aa-SB的特征進(jìn)行分析總結(jié),從Altmetrics指標(biāo)的分布特征、ASB動(dòng)態(tài)演化過(guò)程中的階段轉(zhuǎn)換兩個(gè)維度揭示了ASB的演化特征,為科學(xué)睡美人文獻(xiàn)的識(shí)別方法和重要特征進(jìn)行了補(bǔ)充。在研究過(guò)程中,主要得出以下結(jié)論。
圖14 Gibson(2003)在延遲識(shí)別階段中的各指標(biāo)時(shí)間分布
圖15 Rodriguez-Girones(2004)在延遲識(shí)別階段中的各指標(biāo)時(shí)間分布
(1)本文基于結(jié)合了引文與Altmetrics指標(biāo)的綜合影響力(Ab)的演化軌跡測(cè)度模型,從微觀上和宏觀上分析A-SB的演化軌跡,揭示了綜合影響力演化軌跡下科學(xué)睡美人的動(dòng)態(tài)演化過(guò)程的特征(圖17)。通過(guò)C-SB與A-SB的比較分析,發(fā)現(xiàn)Ab指數(shù)所測(cè)度的演化軌跡能更完整地反映社交媒體平臺(tái)下科學(xué)睡美人的演化過(guò)程。在綜合影響力演化軌跡視角下,Altmetrics指標(biāo)加快了C-SB的蘇醒,盡管未被大量引用,但是C-SB在早期就已經(jīng)受到學(xué)者們的關(guān)注,單一引文視角所測(cè)度的軌跡未必能夠完整地反映科學(xué)文獻(xiàn)的演化過(guò)程。從演化過(guò)程來(lái)看,基于綜合影響視角所識(shí)別的A-SB,或許更能滿足社交媒體平臺(tái)視域下科學(xué)睡美人的定義,Ab指數(shù)能更加準(zhǔn)確地反映科學(xué)文獻(xiàn)在社交媒體上綜合影響力的演化軌跡。
圖17 A-SB的動(dòng)態(tài)演化過(guò)程
(2)在宏觀上,A-SB各階段之間具有一定的關(guān)聯(lián)性。A-SB沉睡的穩(wěn)定程度對(duì)其蘇醒強(qiáng)度起著阻礙的作用。其中,假寐作為A-SB沉睡的一種特殊狀態(tài),其程度越強(qiáng),持續(xù)時(shí)長(zhǎng)越長(zhǎng),則A-SB可能沉睡得更深,并加劇沉睡的不穩(wěn)定程度,使ASB難以受人關(guān)注。同時(shí),假寐程度還影響著蘇醒階段的強(qiáng)度,對(duì)蘇醒階段的蘇醒強(qiáng)度與受關(guān)注度起負(fù)面作用??傊?,假寐?tīng)顟B(tài)會(huì)加重其沉睡,阻礙其蘇醒,并且能夠反映沉睡狀態(tài)的穩(wěn)定程度。
(3)在微觀上,Ab指數(shù)中所包括的各指標(biāo)的累積分布與時(shí)序分布是A-SB演化特征的重要表征。在社交媒體上,A-SB與Aa-SB在發(fā)表后由于成果的創(chuàng)新性,會(huì)受到平臺(tái)用戶(hù)的大量瀏覽與下載。然而,這一關(guān)注是短暫的,由于這些成果的主題內(nèi)容過(guò)于超前或爭(zhēng)議性較強(qiáng),而不被用戶(hù)群體所接受或不被主流所認(rèn)可,缺乏持續(xù)且足夠的瀏覽、討論以及保存,因而進(jìn)入漫長(zhǎng)的沉睡階段。隨著知識(shí)體系的不斷完善,學(xué)界逐漸認(rèn)識(shí)到了其所具有的價(jià)值,在受到學(xué)者的承認(rèn)與引用后,引發(fā)了PLoS平臺(tái)用戶(hù)對(duì)該成果大量且持續(xù)的瀏覽與下載,并開(kāi)始受到其他平臺(tái)用戶(hù)的關(guān)注與使用??傊?,在綜合演化軌跡視角識(shí)別睡美人,能夠反映多種行為動(dòng)機(jī)和傳播路徑對(duì)科學(xué)文獻(xiàn)演化的影響作用,是對(duì)科學(xué)睡美人識(shí)別方法研究的有益補(bǔ)充。
不同于傳統(tǒng)的睡美人文獻(xiàn)軌跡測(cè)度研究,本文在選取測(cè)度單位時(shí)以月為單位,主要基于以下兩個(gè)原因。
第一,C-SB研究所使用的時(shí)間統(tǒng)計(jì)單位是以年為單位的。然而,由于多個(gè)文獻(xiàn)的出版周期是每月一次,因此,在每年收集統(tǒng)計(jì)數(shù)據(jù)時(shí),每年1月和12月出版的文件之間會(huì)產(chǎn)生巨大的時(shí)間差距:假設(shè)以年作為單位,如果1月出版的文獻(xiàn)在沉睡4年后醒來(lái),那么其沉睡時(shí)間為47個(gè)月;但是,如果12月出版的文獻(xiàn)在沉睡4年后醒來(lái),那么其沉睡時(shí)間為36個(gè)月。因此,本文結(jié)合引文和社交媒體指標(biāo)來(lái)描述文獻(xiàn)的演化軌跡,并按月記錄,有助于確保建模的一致性和準(zhǔn)確性,從而更加準(zhǔn)確地反映ASB的演化軌跡。
第二,Web of Science并沒(méi)有提供所有文獻(xiàn)的引文逐月分布情況,而只能獲取一篇文獻(xiàn)的年被引量。因此,本文采用一篇文獻(xiàn)在特定年份的月平均被引量作為該文獻(xiàn)的特定月份的被引量。例如,若一篇文獻(xiàn)在發(fā)表后在某一年被引了12次,則本文認(rèn)為該年中的每個(gè)月的被引量為1次。這可能會(huì)對(duì)本文的研究結(jié)果產(chǎn)生一定的影響。然而,這種影響不會(huì)對(duì)研究結(jié)果造成重大偏差。在未來(lái),隨著開(kāi)放獲取平臺(tái)指標(biāo)體系的逐步完善,只要獲得完整的月度引文數(shù)據(jù)成為可能,就能更好地解決這一問(wèn)題。
本文在取得上述研究結(jié)論的同時(shí),也存在一些不足。首先,樣本期刊覆蓋的學(xué)科較為單一,其數(shù)據(jù)來(lái)源于2003—2019年P(guān)LoSBiology的出版文獻(xiàn),學(xué)科集中在生物學(xué)領(lǐng)域,A-SB演化特征分析的學(xué)科普適性仍有待跨學(xué)科樣本的實(shí)證。其次,識(shí)別的11篇A-SB文獻(xiàn)均存在“推薦”指標(biāo)的影響力最小的現(xiàn)象,這一現(xiàn)象產(chǎn)生的原因可能是推薦平臺(tái)注冊(cè)門(mén)檻高、推薦所需時(shí)間成本大等,即用戶(hù)覺(jué)得某文不錯(cuò),也未必會(huì)采取推薦的行動(dòng)。這并不表明推薦不重要,其或許與其他指標(biāo)特別是Viewed存在某種關(guān)系。推薦的缺失與A-SB的形成是否具有必然聯(lián)系?是否有其他作用于A-SB演化特征的影響因素?這些都仍有待深入探討。最后,在目前的研究中,僅討論了科學(xué)睡美人蘇醒階段的演化軌跡的影響因素,尚未進(jìn)一步探討A-SB的蘇醒原因。大量的瀏覽與下載可能只是A-SB與Aa-SB蘇醒的表征,而未必是真正的蘇醒原因。也很有可能是一次引用或其他行為導(dǎo)致用戶(hù)群體對(duì)該文獻(xiàn)的大量關(guān)注與瀏覽。A-SB的蘇醒是多種行為共同作用的結(jié)果,各行為之間的傳播機(jī)制是什么?A-SB的蘇醒機(jī)制是怎樣的?目前揭示的演化特征的深度仍需進(jìn)行拓展。
在未來(lái)隨著開(kāi)放存取平臺(tái)的推廣與完善,期刊文獻(xiàn)信息將更加豐富,延長(zhǎng)文獻(xiàn)的時(shí)間窗口也變得可行。本文將重點(diǎn)探索數(shù)據(jù)樣本拓展后,Altmetrics視角下的科學(xué)睡美人的動(dòng)態(tài)演化特征在跨學(xué)科背景下的有效性,并進(jìn)一步研究科學(xué)睡美人的演化機(jī)制。