于曉彤 潘雪蓮 華薇娜
(南京大學(xué)信息管理學(xué)院 南京 210023)
近年來,越來越多的數(shù)字成果(如軟件、數(shù)據(jù))被生產(chǎn)出來并被廣泛用于科學(xué)研究。一些學(xué)者開始呼吁重視軟件、數(shù)據(jù)等數(shù)字成果的價值[1]。學(xué)者們已經(jīng)對數(shù)據(jù)的引用、共享和再利用等很多方面進(jìn)行了探討和研究[2-6],他們普遍認(rèn)為規(guī)范的數(shù)據(jù)引用對數(shù)據(jù)科學(xué)的發(fā)展非常重要[7-8]。較之?dāng)?shù)據(jù),軟件對科學(xué)研究的重要性尚未得到充分重視。事實(shí)上,科學(xué)工作的每一步幾乎都受到軟件的影響。
在眾多軟件中,開源軟件因其源碼可免費(fèi)獲取、自由修改,給共享和合作創(chuàng)新帶來無限可能,因而受到學(xué)術(shù)界的廣泛關(guān)注[9]。開源軟件的出現(xiàn)改變了傳統(tǒng)的軟件開發(fā)模式和傳播方式,節(jié)省了軟件開發(fā)資源和獲取成本,推動了現(xiàn)代科學(xué)的快速發(fā)展。已有學(xué)者對開源軟件的開發(fā)動因進(jìn)行相關(guān)研究,他們認(rèn)為,獲得職業(yè)發(fā)展機(jī)會[10]、提升職業(yè)影響力[11]、獲得學(xué)術(shù)聲譽(yù)[12]是促使科學(xué)家開發(fā)開源軟件的主要外部動因。軟件不同于論文、專著等其他科研成果,一經(jīng)發(fā)表就無需額外的維護(hù)改進(jìn)。軟件開發(fā)者需要不斷地對軟件進(jìn)行維護(hù)、更新、升級以保證其持續(xù)可用。然而,在目前以出版物為主體的科研獎勵系統(tǒng)中,軟件并不能像出版物那樣獲得相應(yīng)的學(xué)術(shù)認(rèn)可,參與軟件項(xiàng)目的科學(xué)家難以獲得其所期望的學(xué)術(shù)聲譽(yù)和職業(yè)發(fā)展機(jī)會,進(jìn)而影響其開發(fā)和維護(hù)軟件的熱情[1-13]。很多開源軟件因?yàn)槿鄙倬S護(hù)而被逐漸淘汰,造成了資源浪費(fèi)。因此,一些學(xué)者認(rèn)為有必要對軟件影響力進(jìn)行科學(xué)評價,以了解軟件開發(fā)者的學(xué)術(shù)貢獻(xiàn),給予其適當(dāng)科研獎勵,激勵其后續(xù)軟件開發(fā)和維護(hù)工作[14-15]。
雖然國內(nèi)外一些研究者已經(jīng)對軟件引用和軟件學(xué)術(shù)影響力進(jìn)行了研究,但是學(xué)術(shù)界對軟件學(xué)術(shù)價值的理解仍然有待深入,對軟件的使用、引用和影響力評價研究也有待推進(jìn)。本研究以Word2vec[16]為例,對開源軟件在學(xué)術(shù)論文中的可見性和引用情況進(jìn)行分析。軟件可見性是指軟件在學(xué)術(shù)論文中被提及程度。作者在學(xué)術(shù)論文中給予所使用軟件的開發(fā)者、版本號、存儲地址等相關(guān)信息的描述有助于評審專家和讀者快速獲取軟件對其研究內(nèi)容進(jìn)行重復(fù)驗(yàn)證。同時,作者按照規(guī)范對軟件進(jìn)行正式引用則有利于對眾多軟件的學(xué)術(shù)影響力進(jìn)行測度評價,為科研工作者查詢選擇軟件提供便利,進(jìn)而提高軟件利用效率、加快科學(xué)發(fā)現(xiàn)與創(chuàng)新的步伐。
選擇由Google公司最新推出的將詞表示為實(shí)數(shù)值向量的高效開源軟件Word2vec,一方面是因?yàn)樯疃葘W(xué)習(xí)是當(dāng)前計(jì)算機(jī)科學(xué)領(lǐng)域的最新研究熱點(diǎn),該軟件正是深度學(xué)習(xí)研究的重要工具,它一經(jīng)推出就得到了大批科研人員的認(rèn)可,被廣泛用于詞嵌入、詞聚類、找同近義詞、詞性分析等諸多研究[17];另一方面是因?yàn)閳D情領(lǐng)域?qū)W者也開始關(guān)注、學(xué)習(xí)和使用該軟件[18-20],Word2vec軟件彌補(bǔ)了傳統(tǒng)向量空間模型高維稀疏的缺陷,在詞特征提取、詞語義相似度計(jì)算等方面存在優(yōu)勢,為圖情領(lǐng)域的相關(guān)研究提供了新的研究方法。本文將采用內(nèi)容分析法對中英文學(xué)術(shù)論文中Word2vec的使用和引用情況進(jìn)行標(biāo)注、編碼和統(tǒng)計(jì),以揭示該軟件的可見性和學(xué)術(shù)影響力。同時,對軟件引用和學(xué)術(shù)影響力進(jìn)行研究分析,能為圖情領(lǐng)域的信息計(jì)量分析提供新的研究思路,還能促進(jìn)軟件的共享和再利用。
軟件的開發(fā)者、用戶以及科研資助機(jī)構(gòu)都對軟件的使用和引用情況感興趣[21]。對軟件開發(fā)者來說,一方面可以通過了解軟件的使用情況來確定應(yīng)該對自己的軟件如何進(jìn)行修改和擴(kuò)展,另一方面可以通過用戶數(shù)量、類型和軟件對他人科學(xué)研究的貢獻(xiàn)來了解自己的科學(xué)影響力[14]。一些學(xué)者開始注意到軟件影響力評價缺失的問題。Smith等[22]介紹了一本開源軟件雜志JOSS,這本雜志主要刊登介紹開源軟件的相關(guān)文章,試圖以此來提高軟件質(zhì)量和開發(fā)者知名度。與此同時,研究人員提出軟件也應(yīng)像期刊和會議論文一樣,以具體指標(biāo)來評價其影響力[23]。Thelwall[24]認(rèn)為有必要用量化指標(biāo)來幫助評價軟件的學(xué)術(shù)影響力,他們研究了下載頻次對軟件學(xué)術(shù)影響力的測度,結(jié)果表明,下載頻次并不能很好地測度軟件的學(xué)術(shù)影響力。趙蓉英等[25]則提出利用軟件的下載量、被引指標(biāo)和復(fù)用指標(biāo)來評價開源軟件的學(xué)術(shù)影響力。Howison 研究發(fā)現(xiàn),生物學(xué)領(lǐng)域軟件引用缺失嚴(yán)重,被引頻次難以有效評價軟件影響力[26]。Niemeyer等[23]分析了軟件引用可能面臨的問題與挑戰(zhàn),包括同行評審的確定、軟件的識別、軟件之間存在的相互關(guān)系等。Smith等[27]呼吁制定統(tǒng)一軟件引用標(biāo)準(zhǔn),以推進(jìn)軟件引用規(guī)范化。
Word2vec軟件的出現(xiàn)為快速獲取自然語言語義特征提供了可能,促進(jìn)了自然語言處理領(lǐng)域相關(guān)研究的發(fā)展,國內(nèi)外學(xué)者均基于此進(jìn)行了大量相關(guān)研究。Birong等[28]用研究論文中的標(biāo)題詞和關(guān)鍵詞作為種子詞匯,利用Word2vec從開放的語料庫中訓(xùn)練識別出的類似詞語作為候補(bǔ)詞匯,提出了一種新的論文專業(yè)術(shù)語提取方法。Guan等[29]以亞馬遜網(wǎng)站上的在線書評為數(shù)據(jù)來源,利用Word2vec和K-means對評論文章進(jìn)行聚類,對用戶進(jìn)行特征分類。Liu等[30]為解決傳統(tǒng)分類方法在短文本分類中準(zhǔn)確率低的問題,提出了一種基于維基百科和Word2vec的短文本特征擴(kuò)展的新方法。Bhattacharjee等[31]使用Word2vec的向量空間模型構(gòu)建了一個在線餐館評論語料庫,據(jù)此進(jìn)行用戶情感分析。Nguyen等[32]使用Word2vec神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)框架,通過識別語法和語義上相似的術(shù)語,來改進(jìn)非結(jié)構(gòu)化文本中的相關(guān)術(shù)語覆蓋范圍。
國內(nèi)學(xué)者同樣使用Word2vec進(jìn)行了相當(dāng)多的研究。楊小平等[33]利用Word2vec對從搜狗新聞?wù)Z料中獲取的海量中文語料進(jìn)行了訓(xùn)練處理,研究了詞間距離對詞語相似度的影響,初步計(jì)算得到各詞的情感向量,從而生成了多維情感詞典。閉炳華[34]針對傳統(tǒng)本體構(gòu)建既費(fèi)時又費(fèi)力的問題,設(shè)計(jì)了一種基于Web的領(lǐng)域本體半自動構(gòu)建方法,利用Word2vec對分詞后的原始語料進(jìn)行訓(xùn)練,用得到的詞向量模型抽取種子領(lǐng)域概念的相關(guān)詞匯,從而提出了一種基于Word2vec的領(lǐng)域本體概念抽取算法。圖情領(lǐng)域也有眾多學(xué)者使用Word2vec軟件進(jìn)行研究,劉小敏等[35]基于Word2vec對文本進(jìn)行詞特征提取,降低詞向量維度,最終實(shí)現(xiàn)對微博短文本的分類。孫源[36]利用Word2vec對SCI地址字段數(shù)據(jù)進(jìn)行清洗,最終發(fā)現(xiàn),Word2Vec詞向量模型能夠根據(jù)SCI地址字段的上下文信息,清洗出指定機(jī)構(gòu)名稱的形似、變體和縮寫機(jī)構(gòu)名,從而達(dá)到數(shù)據(jù)規(guī)范化的目的。此外,還有很多學(xué)者利用Word2vec模型進(jìn)行需求挖掘和個性化推薦[37-41]。
本研究以中國知網(wǎng)、萬方、維普和Scopus數(shù)據(jù)庫中使用Word2vec的中英文論文為樣本,采用內(nèi)容分析法對軟件的使用和引用情況進(jìn)行多維度分析。首先,分別在中國知網(wǎng)、萬方和維普中以“word2vec”、“word 2vec”、“word 2 vec”、“word2 vec”、“word2vector”和“w2v”為檢索詞進(jìn)行精確檢索,文獻(xiàn)類型限定為期刊論文,檢索時間截止2018年12月底。其中,中國知網(wǎng)的檢索字段為全文字段,萬方和維普的檢索字段為主題字段(包括題名、關(guān)鍵詞和摘要)。對檢索結(jié)果進(jìn)行合并去重,一共獲得859篇期刊論文。排除英文期刊論文、導(dǎo)讀、題錄等,最終獲得827篇中文期刊論文。同樣地,在Scopus數(shù)據(jù)庫檢索主題字段包含上述檢索詞的英文期刊論文和會議論文。本研究選取期刊和會議兩種文獻(xiàn)類型是因?yàn)閃ord2vec自發(fā)布以來被廣泛用于計(jì)算機(jī)科學(xué)領(lǐng)域,在該領(lǐng)域中,會議論文被認(rèn)為具有與期刊論文同等甚至更為重要的影響力[42]。排除無法獲取全文、非英文和非相關(guān)的文獻(xiàn)后,最終得到999篇英文論文(其中,期刊論文178篇,會議論文821篇)。
內(nèi)容分析法是一種對具有明確特性的傳播內(nèi)容進(jìn)行的客觀、系統(tǒng)和定量描述的研究技術(shù)[43]。該方法通常旨在對研究對象的本質(zhì)性事實(shí)和發(fā)展趨勢進(jìn)行清晰的梳理和了解,以此對其中所蘊(yùn)含的深層次內(nèi)容進(jìn)行進(jìn)一步的揭示和挖掘,并對其發(fā)展趨勢加以預(yù)測和把握。首先依據(jù)已有研究[26]制定軟件提及和引用特征編碼表(見表1),然后由1位編碼員對收集到的中英文論文進(jìn)行編碼標(biāo)注,最后對編碼結(jié)果進(jìn)行統(tǒng)計(jì)分析。需要指出的是,引用軟件是指論文在參考文獻(xiàn)部分對軟件來源進(jìn)行描述。同時,本研究對提及和使用軟件進(jìn)行了區(qū)分,提及軟件是指論文中出現(xiàn)了軟件,使用軟件是指論文借助軟件進(jìn)行了相關(guān)研究。
表1 軟件提及和引用特征編碼框架
在827篇提及Word2vec的中文期刊論文中,共有738篇使用了該軟件,占比89.24%。178篇英文期刊論文中,161篇使用了該軟件,占比90.45%。821篇英文會議論文中,787篇使用了該軟件,占比95.86%。圖1展示了使用Word2vec的中文期刊論文、英文期刊論文以及英文會議論文的年代分布。
圖1 論文量隨年代變化趨勢圖
從圖1中可以看出,從2013年到2018年,使用Word2vec的中英文論文量逐年上升,且呈逐年增加的趨勢。早在Word2vec發(fā)布的2013年,就有中文期刊論文使用Word2vec進(jìn)行研究,數(shù)量從最初的1篇增加到2017年的186篇,四年增長了一百多倍。2018年的中文期刊論文更是成倍增長,可以預(yù)見,今后會有越來越多的國內(nèi)學(xué)者使用Word2vec軟件進(jìn)行科學(xué)研究。2015年英文期刊開始出現(xiàn)使用Word2vec的論文,2016年、2017年的論文量均是上一年的兩倍之多,2018年論文量也超過了2017年。相較于其他兩類論文,使用Word2vec的英文會議論文數(shù)量最多、增幅最大。因?yàn)樵S多會議在2018年下半年召開,這些會議的論文尚未被Scopus收錄,所以圖1中2018年的會議論文量少于2017年的會議論文量。
此外還對上述論文的出版物種類進(jìn)行了統(tǒng)計(jì),結(jié)果如圖2所示。從中可以看出,使用Word2vec的中文期刊種類從2013年的1種增加到2016年的52種,三年增長了五十多倍,2016年后出版物種類增長速度更是逐年增加,2018年已經(jīng)增加到153種。英文期刊種類逐年穩(wěn)定增長,2015年的12篇論文分布在10種期刊上,2016年的26篇論文分布在20種期刊上,2017年的53篇論文分布在不同的46種期刊上,期刊較為分散。英文會議論文出版物種類到2016年已經(jīng)高達(dá)69種,高于其他兩類,2017年更是增長迅猛,達(dá)到了136種??傮w來說,英文期刊種類的增長速度最慢。2015年之前,中文期刊的增長速度最快, 2016年,英文會議出版物的種類、增速均超過中文期刊出版物。
圖2 出版物種類年代變化趨勢圖
除正式引用外,論文中關(guān)于軟件版本、創(chuàng)建者、存儲地址等信息的描述也有助于提高軟件的可見性。軟件在文獻(xiàn)中的可見性影響軟件的重復(fù)利用以及科學(xué)家參與開發(fā)開源軟件的積極性[26]。從表2可以看出,在使用Word2vec的中文期刊論文中,超過40%的論文僅提及軟件名稱,比例遠(yuǎn)高于英文會議論文和英文期刊論文。這說明,排除正式引用后,中文期刊論文中的Word2vec可見性低于英文會議和期刊論文。此外,不論是中文論文還是英文論文,期刊論文還是會議論文,提及最多的都是軟件開發(fā)者,其次是版本信息,最少的則是存儲地址信息。
表2 軟件信息提及情況
在論文中正式引用軟件可以提高軟件的可見性,有助于促進(jìn)軟件的擴(kuò)散與共享[21]。本文采用引用缺失率[15]來測度Word2vec的引用缺失情況。引用缺失率是指未引用軟件的文獻(xiàn)數(shù)在全部使用軟件的文獻(xiàn)數(shù)中的占比,計(jì)算公式為:軟件引用缺失率=(使用軟件的文獻(xiàn)數(shù)-引用軟件的文獻(xiàn)數(shù))/使用軟件的文獻(xiàn)數(shù)。表3列出了Word2vec的引用缺失情況。
表3 Word2vec引用缺失率逐年變化情況
由表3可知,Word2vec的引用缺失率最高的是中文期刊論文,其次是英文會議論文,最低的是英文期刊論文。使用Word2vec的中文期刊論文量逐年增加,但Word2vec的引用缺失率未有下降的趨勢,維持在0.5附近。英文會議論文中的Word2vec引用缺失率則呈現(xiàn)一定的下降趨勢,由最開始的0.37下降到0.27。英文期刊論文中Word2vec的引用缺失率雖有波動,但除去2017年略高于會議論文,其他每年的引用缺失率均低于其他兩類論文。
為了探究軟件引用是否與軟件出現(xiàn)的位置有關(guān),我們統(tǒng)計(jì)了使用Word2vec的1686篇中英文論文中軟件出現(xiàn)的位置,計(jì)算不同位置的引用缺失率,結(jié)果如表4所示。
表4 不同位置的Word2vec引用缺失率
由表4可知,在中文期刊論文中,Word2vec出現(xiàn)在主題部分的論文引用缺失率(0.48)略低于正文部分(0.54)。在英文期刊論文中,Word2vec出現(xiàn)在主題部分的論文引用缺失率(0.19)稍高于正文部分(0.11)。在英文會議論文中,Word2vec出現(xiàn)在主題部分的論文引用缺失率(0.24)低于正文部分(0.27)。
此外,為了進(jìn)一步探究核心期刊論文是否更有可能正式引用Word2vec,將現(xiàn)有的期刊分為核心期刊和一般期刊。將《北大中文核心期刊目錄》和Web of Science收錄的期刊認(rèn)定為核心期刊,其他期刊為一般期刊。表5列出了使用Word2vec的中英文核心期刊和一般期刊的論文量及引用缺失情況。
表5 不同期刊類別的引用缺失率
由表5可知,中英文核心期刊中的Word2vec的引用缺失率均低于一般期刊。其中,中文核心期刊的引用缺失率為0.49,一般期刊的引用缺失率為0.58,英文核心期刊的引用缺失率僅為0.15,遠(yuǎn)低于一般期刊的0.28。為了探究核心期刊和一般期刊在Word2vec的引用情況上是否存在顯著差異,我們使用SPSS 20.0[44]對數(shù)據(jù)進(jìn)行了卡方檢驗(yàn)。結(jié)果顯示,中文期刊論文的卡方值=3.328,P值=0.068〉0.05,無顯著性差異;英文期刊論文的卡方值=5.917,P值=0.015〈0.05,存在顯著性差異。
此外,對論文中Word2vec的引用內(nèi)容進(jìn)行分類統(tǒng)計(jì),結(jié)果如表6所示。從中可以看出,研究者傾向于引用Word2vec的相關(guān)出版物,引用比例高達(dá)80%,遠(yuǎn)高于網(wǎng)站和用戶指南/手冊。其中,三類論文引用指南/手冊的比例均較低,英文論文比中文論文更愿意引用能直接獲得軟件的網(wǎng)站信息。
表6 Word2vec的引用內(nèi)容分類
本文以開源軟件Word2vec為例,采用內(nèi)容分析法對其在中英文學(xué)術(shù)論文中的使用和引用情況進(jìn)行深入分析,以此來揭示開源軟件在學(xué)術(shù)論文中的可見性和學(xué)術(shù)影響力。研究結(jié)果發(fā)現(xiàn),自2013年起,使用Word2vec的中英文論文量均逐年增長且增幅顯著,從最初的1篇增長到2018年的1 686篇,呈千倍增長,這從一個側(cè)面反映了很多科學(xué)研究需要借助于開源軟件。
盡管有越來越多的論文使用Word2vec,但是Word2vec的引用情況并不理想。分別有52%的中文期刊、24%的英文會議論文、19%的英文期刊論文使用卻未正式引用Word2vec。中文期刊論文的Word2vec引用缺失率是英文論文的兩倍之多,這可能是因?yàn)閲鴥?nèi)的研究人員和出版機(jī)構(gòu)尚未認(rèn)識到正式引用軟件的重要意義,也可能是因?yàn)閲鴥?nèi)目前尚無明確的軟件引用規(guī)范,而國外的一些研究論文撰寫格式(APA、IEEE等格式)在其最新版本中已明確給出軟件引用格式。與此同時,我們還發(fā)現(xiàn),較之軟件的存儲地址,研究者更傾向于引用軟件相關(guān)出版物,這也與Howison[26]之前的研究結(jié)果相符,可能是因?yàn)閷W(xué)術(shù)界具有引用出版物的傳統(tǒng)和習(xí)慣。此外,英文核心期刊和一般期刊在引用缺失率上存在統(tǒng)計(jì)學(xué)意義上的顯著差異。這或許是因?yàn)橛⑽暮诵钠诳纫话闫诳兄鼑?yán)格的學(xué)術(shù)規(guī)范。
綜上所述,軟件在科學(xué)研究中的作用日益顯著,但是軟件引用缺失依然嚴(yán)重。國內(nèi)尚未將軟件納入科研獎勵體系以及軟件引用缺失的現(xiàn)狀會導(dǎo)致科學(xué)家不再參與開源軟件的開發(fā)、不再共享自己開發(fā)的科研軟件,這將造成科學(xué)軟件的重復(fù)開發(fā)和科研資源的浪費(fèi),不利于資源的優(yōu)化配置。鑒于目前國內(nèi)科研管理部門對軟件學(xué)術(shù)價值不夠重視、學(xué)者缺乏軟件引用意識、學(xué)術(shù)界缺少統(tǒng)一的軟件引用規(guī)范,有必要加深國內(nèi)管理者和研究人員對軟件學(xué)術(shù)貢獻(xiàn)的理解,培養(yǎng)國內(nèi)學(xué)者的軟件引用意識,參考國外的數(shù)據(jù)和軟件引用規(guī)范,制定出我國的軟件引用標(biāo)準(zhǔn),來推進(jìn)我國軟件引用規(guī)范化,促進(jìn)軟件傳播和共享,進(jìn)而提高科研效率。同時,建立統(tǒng)一規(guī)范的軟件引用格式,為后續(xù)圖情領(lǐng)域開展基于軟件引證行為的細(xì)粒度信息計(jì)量分析研究提供一個新的視角,也為科研評價和創(chuàng)新激勵提供一個新的維度。