陳玥彤 王 昊 李躍艷 張 衛(wèi) 鄧三鴻
(南京大學(xué)信息管理學(xué)院,南京,210023; 南京大學(xué) 江蘇省數(shù)據(jù)工程與知識服務(wù)重點實驗室,南京,210023)
學(xué)術(shù)論文是科研工作者進行科學(xué)交流和獲取新知的主要介質(zhì),同樣也是科學(xué)研究的主要產(chǎn)出與表現(xiàn)形式之一[1],其能夠及時反映學(xué)術(shù)研究動態(tài)、傳播思想新知[2]、推廣前沿技術(shù)[3]。然而,一方面,在“五唯”評價觀和人才觀的影響下,部分學(xué)者將論文指標(biāo)與文憑職稱、學(xué)術(shù)水平掛鉤,導(dǎo)致重“量”輕“質(zhì)”的趨勢[4],學(xué)術(shù)論文質(zhì)量良莠不齊;另一方面,期刊的數(shù)量和種類快速增長,在推動學(xué)術(shù)論文數(shù)量飛速增長的同時,有可能片面追求“熱點話題”,難以避免地呈現(xiàn)出學(xué)術(shù)論文內(nèi)容“同質(zhì)化”和“固化”的發(fā)展趨向[5],對于學(xué)科發(fā)展甚至學(xué)術(shù)創(chuàng)新起到阻礙作用,因此,合理且全面地評價論文的內(nèi)容質(zhì)量顯得尤為重要。
當(dāng)前我國許多學(xué)者從不同視角對論文評價進行研究,主要聚焦于論文的學(xué)術(shù)價值、學(xué)術(shù)質(zhì)量[6-7]、學(xué)術(shù)影響力[8]、學(xué)術(shù)創(chuàng)新力[9]等方面,但很少涉及學(xué)術(shù)對象內(nèi)容的差異性特征。內(nèi)容差異是論文的內(nèi)在特征之一,意味著一篇論文研究內(nèi)容的獨特程度。在學(xué)術(shù)對象群體中,學(xué)術(shù)對象個體的差異程度則能夠在一定程度上反映出該對象研究內(nèi)容的學(xué)術(shù)水平,這對于探測論文的質(zhì)量、創(chuàng)新性、影響力有重要作用。如果一篇論文在研究內(nèi)容上無法與其他論文區(qū)分開,那這篇論文很可能是對已有研究成果的重復(fù),其研究價值、創(chuàng)新性值得商榷,因此對論文的差異性分析是必要的。傳統(tǒng)的論文評價方法未能從差異性的視角給出特定的衡量指標(biāo)或方法,而基于論文內(nèi)容的現(xiàn)有研究也難以定量測度論文內(nèi)容的差異性和差異程度,為了消除學(xué)術(shù)論文差異性研究在不同程度的主觀性和局部性,本文從區(qū)分性和差異性視角進行論文評價方法研究。
在課題組原有基礎(chǔ)上,筆者提出一種新的論文評價指標(biāo),利用學(xué)術(shù)對象區(qū)分能力(Article Discriminative Capacity, ADC)進行論文的內(nèi)容差異性分析,其中ADC定義為:在給定的論文對象群體中,論文對象個體與群體在研究內(nèi)容層面的總體差異程度。論文對象的區(qū)分能力越強,說明該對象在其所處群體中的綜合差異越大,其研究內(nèi)容越獨特;反之,區(qū)分能力越弱,說明該對象與群體中其他對象的綜合差異越小,其研究內(nèi)容的相似性或同質(zhì)性越顯著。為了避免學(xué)科背景冗雜對論文差異性結(jié)果產(chǎn)生影響,本研究從同一個領(lǐng)域入手,通過對CSSCI期刊中圖書館、情報與文獻(xiàn)學(xué)2014—2018年收錄的期刊論文測算ADC值,探測論文群體在數(shù)值上的分布特征和規(guī)律,并從期刊、學(xué)者的角度來探討論文ADC總體水平差異,結(jié)合ADC數(shù)值水平進行學(xué)術(shù)論文研究主題的差異分析,從而對比和探討不同區(qū)分能力的論文個體和群體的差異性特征。
在科學(xué)研究領(lǐng)域中,對論文的評價方法較多,傳統(tǒng)的定性評價方法以同行評議[10]為代表,但是具有主觀性強、低效性、咨詢費用高昂等缺陷[11-12]。當(dāng)前的論文評價主要針對論文的外部特征從期刊、引文、作者等角度展開,如利用影響因子[13]、共被引[14]、h指數(shù)[15]、相對引用率[16]等指標(biāo)衡量論文的內(nèi)容質(zhì)量[17]、影響力以及學(xué)術(shù)價值[18],也有從不同角度遴選單一指標(biāo)后進行層次歸類的評價指標(biāo)體系[19],這些指標(biāo)大多數(shù)建立在論文的引用關(guān)系基礎(chǔ)[20]之上,不可避免地存在時滯性、片面性、馬太效應(yīng)[21]等問題。隨著Web2.0時代的到來,社交平臺的出現(xiàn)與社交網(wǎng)絡(luò)的傳播使得開放獲取逐漸成為學(xué)術(shù)交流的重要模式[22],以補充計量學(xué)為代表的網(wǎng)絡(luò)影響力測度方式補充和完善了原有的傳統(tǒng)信息計量學(xué)[23],但始終無法從學(xué)術(shù)內(nèi)容層面解決問題。
近年來,關(guān)于學(xué)術(shù)論文內(nèi)容的研究較多,一方面包括基于全文內(nèi)容的引文內(nèi)容分析,如利用引文提及次數(shù)[24]、加權(quán)引用頻率[25]計算學(xué)者的影響力或排名;另一方面也有基于文本內(nèi)容的分析與挖掘,識別學(xué)術(shù)論文中的創(chuàng)新點,并構(gòu)建學(xué)術(shù)論文創(chuàng)新力測度指標(biāo)來評價學(xué)術(shù)論文[1]。后者通常運用自然語言處理技術(shù)獲取論文的關(guān)鍵詞、主題詞(摘要、標(biāo)題或全文抽取獲得),凝練成數(shù)值特征或文字特征以表示論文的研究主題,通過統(tǒng)計主題詞的詞頻或者詞頻變化率來探測和識別科學(xué)前沿主題,通過共詞分析法計算詞間的相似性來判斷主題內(nèi)容的新穎程度[27],或通過主題建模發(fā)現(xiàn)文本中的抽象主題以挖掘文本的潛在關(guān)系,判斷相似性和分類結(jié)果[28]。但詞頻法可能無法反映詞間關(guān)聯(lián)、語義關(guān)系較弱;共詞分析法難以處理同義詞和多義詞、主題詞確定較為復(fù)雜;主題模型分析不適合處理短文本、主題詞的解釋具有主觀性、缺乏語義信息挖掘。
當(dāng)前關(guān)于論文評價的指標(biāo)與方法有本身的適用特性和優(yōu)缺點,基本圍繞定性方法和定量方法展開,涉及論文創(chuàng)新性[29]、新穎性[30]、影響力[31]、老化度[32]等指標(biāo),但是大多集中在以文獻(xiàn)計量數(shù)據(jù)為代表的外部特征中,極少涉及到學(xué)術(shù)論文自身的差異性;針對論文內(nèi)容層面的研究主要聚焦在文本挖掘與聚類分析上,對文本內(nèi)容的解釋缺乏客觀性和語義關(guān)聯(lián),難以對論文個體存在的差異性進行個體量化分析。總體而言,傳統(tǒng)論文評價指標(biāo)對內(nèi)容差異性的研究較少,而論文對象本身差異性的內(nèi)在特質(zhì)是其區(qū)別于其他論文的重要特征。此外,現(xiàn)有的評價指標(biāo)、方法也不適用于差異性測度和評價,因此,本課題組提出一種新的ADC指標(biāo)來對其內(nèi)容層面的差異性進行測度和分析[33]。本文借助術(shù)語區(qū)分模型的算法思想,將能夠表征語義信息的BERT模型與ADC區(qū)分性指標(biāo)結(jié)合,從文獻(xiàn)語義內(nèi)容本身的角度衡量學(xué)術(shù)論文的區(qū)分性,能夠幫助規(guī)避由于不同作者的語法習(xí)慣而導(dǎo)致的淺層差異,彌補之前學(xué)術(shù)論文評價在“特性”研究上無法精確度量的問題,實現(xiàn)對學(xué)術(shù)論文對象個體與總體差異性的深入分析和探討,為探究學(xué)術(shù)論文研究內(nèi)容的差異性特征提供一種新的思路。
為了探究不同的特征表示向量模型下論文的區(qū)分性測度,并將最終所得數(shù)值結(jié)果進行分析,本文設(shè)計了如圖1所示的研究框架。首先,選取CSSCI來源期刊,分別標(biāo)記每個期刊出現(xiàn)的時間,并從知網(wǎng)數(shù)據(jù)庫中下載對應(yīng)期刊和年份的題錄信息,包括題名、關(guān)鍵詞、摘要等核心數(shù)據(jù),以及作者、被引量、下載量等文獻(xiàn)記錄信息;其次,利用刪除重復(fù)值和無效值后的核心數(shù)據(jù)形成文檔列表(其中每行文檔列表表示一篇論文的題錄信息),將文檔列表直接作為BERT模型的輸入,獲得文檔特征向量,并轉(zhuǎn)化為文檔術(shù)語矩陣(ATM),通過相似度計算的方式獲得論文區(qū)分性測度指標(biāo)ADC,從而完成ADC指標(biāo)的構(gòu)建;最后,分別基于期刊、學(xué)者和主題多個角度對ADC指標(biāo)的價值進行衡量。
圖1 研究框架圖
在實驗數(shù)據(jù)的時間選取上,考慮一方面當(dāng)時間跨度過小時,論文數(shù)據(jù)量較少,論文之間的差異可能被過度拉大,不利于合理評價論文;另一方面當(dāng)時間跨度過大時,部分有區(qū)分性的早期文章可能會得到更多關(guān)注,在該時間區(qū)間內(nèi)的特性和差異性可能減弱,因此最終確定時間跨度為5年。本文以CSSCI來源期刊中圖書館、情報與文獻(xiàn)學(xué)學(xué)科的論文為研究對象,選擇2014—2018年之間收錄的21本核心期刊,通過CNKI網(wǎng)站下載題名、關(guān)鍵詞、摘要等題錄信息,通過數(shù)據(jù)合并(即題名+關(guān)鍵詞+摘要)形成本研究的基礎(chǔ)數(shù)據(jù)集。在篩選剔除重復(fù)信息和空缺值后,人工去除與本文研究無關(guān)的論文,如會議通知、征稿通告、年度索引、編者按等,最終保留有效論文數(shù)如表1所示。
表1 各期刊有效論文數(shù)量匯總
在學(xué)術(shù)對象內(nèi)容差異性的定量測算中,Salton等[34-35]在1975年提出了術(shù)語區(qū)分模型(TDM),在文獻(xiàn)集合中通過測度某個術(shù)語被抽取前后文檔空間密度影響的差異程度來計算術(shù)語區(qū)分值,進而衡量索引術(shù)語在信息檢索中的重要性。隨后有學(xué)者對該算法進行進一步優(yōu)化,降低時間復(fù)雜度并提高效率后提出更為穩(wěn)定的術(shù)語區(qū)分能力(TDC)[36],用于索引術(shù)語的質(zhì)量評價。本文借鑒前者對學(xué)術(shù)對象差異性測度的思路,將術(shù)語粒度的測評方法引到學(xué)術(shù)論文評價中,提出定量測度論文內(nèi)容區(qū)分性和差異性的指標(biāo)ADC。
ADC側(cè)重于從內(nèi)容的角度來度量學(xué)術(shù)文獻(xiàn)的差異性及程度,核心在于通過計算論文對象被抽取前后論文空間密度(Article Space Density,ASD)的變化來衡量學(xué)術(shù)論文對象的區(qū)分能力,具體計算方法如下:
(1)構(gòu)建文獻(xiàn)空間(Article Space)。需要首先利用BERT對未分詞的文檔集合構(gòu)建文檔特征向量AFM(Article Feature Matrix),利用余弦相似度函數(shù)計算文獻(xiàn)特征矩陣中文獻(xiàn)與文獻(xiàn)兩兩間的相似程度,進而將文獻(xiàn)特征矩陣轉(zhuǎn)化為文獻(xiàn)-文獻(xiàn)矩陣AAM(Article-Article Matrix),所獲得的AAM即為文獻(xiàn)空間的內(nèi)容。
(1)
公式(1)表明文獻(xiàn)特征向量的計算方法,其中Ai代表第i篇文獻(xiàn)的特征向量,由經(jīng)過預(yù)訓(xùn)練的BERT模型計算獲得,其中m代表文獻(xiàn)的數(shù)量,n代表文檔中特征向量的維度。AAM的計算方法如公式(2)所示,sij為文獻(xiàn)Ai到文獻(xiàn)Aj的余弦相似度。
(2)
(2)計算文獻(xiàn)空間密度ASD(Article Space Density)。采用基于距離的相似度算法計算所有文獻(xiàn)到文獻(xiàn)空間中心centroid的相似度AS,對AS的結(jié)果求取平均相似度即為文獻(xiàn)空間密度,計算方法見公式(3)。
(3)
其中AS的計算方法見公式(4),Centroid是AAM基于算數(shù)平均值的文獻(xiàn)空間中心向量,而Dist(Ai, centroid)用于計算文獻(xiàn)Ai和centroid的歐式距離;c為常量,研究表明,當(dāng)c取1.3時可以獲得最優(yōu)效果[37]。
(4)
(3)計算獲得相應(yīng)文獻(xiàn)的ADC結(jié)果。剔除文獻(xiàn)Ai后獲得(m-1)維的文獻(xiàn)空間向量,并重新計算所有文獻(xiàn)到新文獻(xiàn)空間中心的距離之和,將結(jié)果除以文獻(xiàn)數(shù)量m-1,獲得新的文獻(xiàn)空間密度ASDi,利用文獻(xiàn)空間密度變化的差值得到各文獻(xiàn)對應(yīng)的ADC值,計算方法見公式(5)。
(5)
其中ASDi表示文獻(xiàn)i被剔除后的ASD,ASDavg表示ASD的平均密度差,計算方法見公式(6)。
(6)
最終獲得的ADC可以為正值、負(fù)值或者為0,若ADC>0,則說明該文獻(xiàn)呈現(xiàn)出積極的區(qū)分能力;若ADC<0,則說明該文獻(xiàn)具有消極的區(qū)分能力,在特征上難以與其他文獻(xiàn)區(qū)分開;若ADC=0,則說明該文獻(xiàn)不具備區(qū)分能力,不會帶來任何影響。此外,同一論文對象空間內(nèi)計算得出的ADC的數(shù)值可以直觀比較,當(dāng)一篇論文的ADC數(shù)值高于另一篇論文的ADC時,即代表該論文對象的區(qū)分能力要優(yōu)于另一篇論文對象。因此,本文借助ADC數(shù)值的正負(fù)性判斷單篇論文是否具有獨特性或同質(zhì)性,利用數(shù)值的大小衡量內(nèi)容差異的強或弱,也可以通過ADC數(shù)值的比較來衡量不同論文之間獨特性的差異程度。
早期的自然語言處理任務(wù)中,以詞為單位的特征表示方法主要有詞袋模型[38](Bag-of-words)和獨熱編碼(One-Hot Encoding)技術(shù),旨在將輸入的文本轉(zhuǎn)化為稀疏向量,改進后的TF-IDF文本表示方法雖然考慮了詞語權(quán)重問題,但是將文本直接切分忽視了單詞之間的相關(guān)性[39],且存在稀疏性和高維性的弊端[40]。2013年,Mikolov等[41]發(fā)布的Word2Vec使用語言模型得到詞向量,并逐漸成為了最常用的文本表征技術(shù)之一,但是本質(zhì)仍是靜態(tài)的預(yù)訓(xùn)練技術(shù),即不同上下文中的同一詞語具有相同的詞向量,沒有解決上下文環(huán)境語義表示的問題。為了提取更深層次的特征表示,本算法引入具有多層雙向transformer的預(yù)訓(xùn)練模型BERT。
BERT是Google為預(yù)訓(xùn)練語言表示而開發(fā)的NLP模型,是一種深度雙向、無監(jiān)督的文本語義表示模型[42],可以描述字符級、單詞級、句子級,甚至是句間關(guān)系的上下文特征,根據(jù)上下文信息動態(tài)生成詞向量,對于自然語言處理任務(wù)中一詞多義、同義詞等問題較為友好[43]。BERT作為一種可以提取深度語義的文本特征表示模型,在一定程度上緩解了傳統(tǒng)模型在文本表示中遇到的同義詞或者一詞多義問題,輔助分析不同語言表達(dá)習(xí)慣下的文本語義內(nèi)容,從而在一定程度上規(guī)避不同的撰寫習(xí)慣導(dǎo)致的論文差異。BERT模型的處理流程中,首先將文本分詞,進行全詞MASK,并在文本的首尾加入標(biāo)記,得到的結(jié)果作為BERT的輸入,經(jīng)過Transformer編碼器,得到輸出。BERT將文本中的每個字轉(zhuǎn)化為三個embedding進行相加,將相加后的字符表示輸入到Transformer結(jié)構(gòu)中,利用多頭自注意力機制進行特征提取,得到富含前后語義信息的字符表示[44]。
因此,本研究使用BERT的輸出向量作為論文對象的特征向量,實驗流程為:①采用chinese_L-12_H-768_A-12版本的BERT,將未分詞的論文題錄數(shù)據(jù)作為段落級別的輸入,進行文檔向量化表示;②設(shè)置模型各參數(shù),其中文本最大長度被設(shè)置為128,單次輸入訓(xùn)練模型的字符數(shù)設(shè)置為32,迭代次數(shù)設(shè)置為10;③輸出所得的向量即為對應(yīng)的AFM,之后采用ADC算法計算所有論文的ADC數(shù)值。BERT將可變長度的文本轉(zhuǎn)化為可以代表整個文本語義的768維輸出向量,從而在更低的內(nèi)存開銷下實現(xiàn)從語義角度對論文題錄信息的文本表示[45]。
為了直觀地展示基于BERT的ADC數(shù)值的分布情況,本文利用直方圖表示ADC數(shù)值結(jié)果在不同分段中的頻次分布,根據(jù)數(shù)據(jù)范圍形成分箱,附標(biāo)注密度估計KDE(Kernel Density Estimation)曲線,并且繪制頻率分布條以顯示落入每個分箱的觀測次數(shù)的數(shù)據(jù)分布,最終繪制的直方圖見圖2。
圖2 ADC數(shù)值結(jié)果分布直方圖
圖2中數(shù)值的整體分布偏離傳統(tǒng)的正態(tài)分布,近似于泊松分布,觀察橫坐標(biāo)的數(shù)值分布可以發(fā)現(xiàn),ADC的數(shù)值分布區(qū)間為(-2,11),整體分布較為離散。綜合KDE曲線和頻率分布條發(fā)現(xiàn),絕大多數(shù)的ADC數(shù)值在(-1,3)之間分布,在ADC>3的區(qū)間內(nèi)分布的論文量占比15%左右,數(shù)值之間的差距較大;而ADC<0的論文數(shù)量占比39.7%,ADC之間的差距較小。
觀察圖2中的頻率分布條發(fā)現(xiàn),部分ADC數(shù)值結(jié)果分布較為離散,其中ADC大于8的論文有9篇,而ADC近似-2的論文有2篇,為展示不同ADC結(jié)果對應(yīng)的論文情況,將離群值的論文信息按照降序進行排列,保留ADC數(shù)值至第三位小數(shù),相關(guān)信息見表2。
表2 離群值論文信息展示
從表2中可以看出,序號1—9的論文ADC數(shù)值之間跨度較大,而序號21826—21827的論文ADC數(shù)值差距較小。ADC數(shù)值較大的論文中,以“行為-內(nèi)容融合模型”“證據(jù)視角”為代表的論文在研究方法上較有新意,以“算法使用行為”“傳播效果理論”為代表的論文研究內(nèi)容獨特,在以往的研究中涉及較少,而以“杜定友”“利德希爾斯礦工圖書館”為代表的論文研究對象不同于同類期刊,也獲得較高的區(qū)分能力。ADC結(jié)果較低的論文偏向于述評型研究或常規(guī)型研究,研究較為基礎(chǔ)、傳統(tǒng),主要包括一些常見的研究主題,在整個論文群體中難以呈現(xiàn)出研究特色,表現(xiàn)出較為明顯的同質(zhì)性。
通過本節(jié)分析可以發(fā)現(xiàn):①論文區(qū)分能力ADC能夠識別具有獨特性的論文個體;②ADC數(shù)值較大的論文對象偏向于在研究內(nèi)容、方法、對象上的創(chuàng)新,具有鮮明特色。
本小節(jié)以期刊為切入點,觀察圖書館、情報與文獻(xiàn)學(xué)學(xué)科21種期刊在2014—2018年ADC數(shù)值分布情況。首先統(tǒng)計匯總各期刊ADC取值為正和負(fù)的情況,用不同顏色的柱狀圖進行區(qū)分,相應(yīng)的論文數(shù)量可見圖3左側(cè)縱坐標(biāo)所示,并將ADC為正數(shù)的論文數(shù)量占該期刊所有論文總量的比值用紅色散點表示,相應(yīng)的占比數(shù)值可見右側(cè)縱坐標(biāo)所示。
圖3 各期刊ADC論文數(shù)值結(jié)果描述柱形圖
從圖3中可以發(fā)現(xiàn):①ADC正值占比最多的期刊是《數(shù)據(jù)分析與知識發(fā)現(xiàn)》,該期刊側(cè)重于知識發(fā)現(xiàn)、數(shù)據(jù)挖掘、智能管理和決策支持等方面的技術(shù)、方法,尤其從海量、異構(gòu)的數(shù)據(jù)中挖掘和發(fā)現(xiàn)知識以支持研究、管理和決策,在算法、實驗方面的創(chuàng)新較為突出;而ADC正值占比最低的《圖書情報工作》主要面向研究型圖書情報機構(gòu),基于數(shù)字網(wǎng)絡(luò)環(huán)境探究知識服務(wù)管理與圖書情報工作轉(zhuǎn)型發(fā)展,收錄的論文研究內(nèi)容主要集中在概念理論、觀點發(fā)現(xiàn)以及模型方法[46],在實驗方面的創(chuàng)新較少。綜合多方面因素分析發(fā)現(xiàn),期刊的辦刊定位、收稿偏好可能會影響期刊的ADC數(shù)值水平。②圖書館學(xué)、情報學(xué)與文獻(xiàn)學(xué)中,不同子學(xué)科期刊之間正值和負(fù)值的論文數(shù)量比例存在差別,但是整體呈現(xiàn)出較好的區(qū)分效果,ADC取值為正數(shù)的論文占比都超過55%,這說明學(xué)科整體呈現(xiàn)出多元化、特色化的趨勢。③檔案學(xué)科期刊中論文ADC數(shù)值為正的比例總體高于其他類別的學(xué)科論文;而圖書館類的期刊次之,總體正值論文占比排名靠前;情報學(xué)期刊占據(jù)中后的位置,圖書情報交叉類期刊分布較為離散,可能由于本身偏向交叉學(xué)科領(lǐng)域,相較于獨立學(xué)科而言其水平更容易呈現(xiàn)出兩極分化的表現(xiàn)。
為觀察不同學(xué)科及期刊中ADC數(shù)值結(jié)果的具體情況,對各期刊2014—2018年的ADC數(shù)值計算均值,保留四位小數(shù),并根據(jù)期刊的刊名信息將期刊劃分為“檔案學(xué)”“圖書館學(xué)”“情報學(xué)”“圖書情報類”學(xué)科,用不同顏色代表不同學(xué)科的期刊,按照均值從大到小排列,繪制的金字塔圖見圖4。
圖4 各期刊ADC均值結(jié)果
圖4與圖3的總體排名順序相似,所有期刊的ADC均值都高于0.5,ADC均值在(0.5,1)之間分布,不同期刊之間的數(shù)值差異較小,呈現(xiàn)出一定規(guī)律。具體而言:①檔案學(xué)類期刊居于首位,ADC均值超出0.9,明顯高于其他學(xué)科的期刊,有自身獨特的理論體系及學(xué)科術(shù)語,主要圍繞價值鑒定、檔案考證、檔案保護及存儲、檔案研究、檔案館研究、檔案教育等主題展開,涵蓋“檔案考證”“文書處理”“檔案編研”“公文”“保管權(quán)限”等關(guān)鍵詞[47],也有各類檔案理事會、理事會等小眾化研究主題;②圖書館學(xué)期刊次之,均值分布在中上水平,以圖書館所收藏的各類信息資源、知識文獻(xiàn)為核心研究對象,研究主題更加人文化,熱點集中于移動技術(shù)、信息服務(wù)、資源共享等,通過對理論、模式與框架進行分析和整理,奠定堅實的圖書館學(xué)理論基礎(chǔ)及框架體系,形成學(xué)科特色,獲得較優(yōu)區(qū)分能力;③情報學(xué)類期刊均值排名最為靠后,容易受到計算機、人工智能、數(shù)據(jù)科學(xué)、數(shù)據(jù)挖掘等技術(shù)影響,偏向于技術(shù)型研究成果,但是可能造成偏離專業(yè)核心內(nèi)涵的情況,進而導(dǎo)致內(nèi)容泛化和特色丟失的消極結(jié)果[48];④圖書情報類期刊之間排名差距較大,總體高于情報學(xué)類期刊,《數(shù)據(jù)分析與知識發(fā)現(xiàn)》數(shù)值高于同類型其他期刊,利用知識服務(wù)及數(shù)據(jù)分析完成支持決策與實踐探索,《圖書與情報》及《圖書情報工作》偏向于推動學(xué)科融合與交叉以提升競爭力,可能失去學(xué)科本身固有的特色。
本小節(jié)總結(jié)可得:①檔案學(xué)期刊由于研究對象和學(xué)科術(shù)語的特性而獲得較高的區(qū)分能力結(jié)果;②圖書館學(xué)期刊的體系化研究基礎(chǔ)及人文化研究領(lǐng)域使得學(xué)科區(qū)分能力較好;③情報學(xué)與圖書情報類期刊在數(shù)值上表現(xiàn)相似,但前者更容易在新學(xué)科、新技術(shù)沖擊下丟失特色。
本小節(jié)關(guān)注作者產(chǎn)出所對應(yīng)的論文區(qū)分能力情況,從第一作者的角度對本文數(shù)據(jù)集中的論文及作者信息進行統(tǒng)計匯總。由于作者中會產(chǎn)生重名問題,因此,在本節(jié)對作者進行手動篩選比對,挑選出部分重名的信息,統(tǒng)計為新的作者。最終發(fā)現(xiàn),數(shù)據(jù)集中以第一作者身份出現(xiàn)的作者共有9781人,人均發(fā)表論文數(shù)量2.2篇,多數(shù)作者發(fā)文的數(shù)量范圍在1—4篇之內(nèi)。
為了觀察在圖書情報學(xué)界具有代表性的學(xué)者,筆者選擇發(fā)文數(shù)量超出30篇的14位作者作為研究對象。同時,筆者對該數(shù)據(jù)集中全部作者以第一作者身份所發(fā)論文的ADC平均水平再次計算均值發(fā)現(xiàn),所有的第一作者發(fā)表論文的ADC均值為0.7。以0.7為界限劃分發(fā)表論文數(shù)量的區(qū)間,將代表性學(xué)者發(fā)表論文數(shù)量及其論文ADC均值用氣泡圖繪制出來,其中氣泡的大小對應(yīng)學(xué)者發(fā)表論文ADC均值的大小,不同的顏色代表學(xué)者所在的不同單位,如圖5所示。
圖5 作者發(fā)文量與ADC均值關(guān)系氣泡圖
代表性的學(xué)者絕大多數(shù)來源于武漢大學(xué),其余均來自國內(nèi)其他知名大學(xué),比如吉林大學(xué)、安徽大學(xué)、浙江工商大學(xué)等,有部分學(xué)者從屬于多個重點院?;蚩蒲兄行模趯W(xué)界的知名度和認(rèn)可度較高[49]。此外,高產(chǎn)作者中絕大多數(shù)具有教授職稱,其中以李綱為代表的學(xué)者入選“長江學(xué)者獎勵計劃”,說明該部分作者研究水平較高,在本專業(yè)領(lǐng)域具有一定的影響力[50],其余學(xué)者多數(shù)為高校圖書館員。由此可見,圖書情報領(lǐng)域相關(guān)研究人員大多為國內(nèi)著名大學(xué)的研究者,大學(xué)仍然是論文產(chǎn)出最為集中的地方。
從學(xué)科角度看來,代表性的高產(chǎn)學(xué)者側(cè)重情報學(xué),專注圖書館學(xué)較少,鮮少有檔案學(xué)領(lǐng)域的學(xué)者。關(guān)于這部分代表性學(xué)者的ADC數(shù)值分布情況,我們猜測,一方面這批學(xué)者作為學(xué)界的領(lǐng)軍人物,需要具有前瞻性和發(fā)展性,通過尋求與社會學(xué)、心理學(xué)、地理學(xué)、計算機技術(shù)等領(lǐng)域理論途徑、技術(shù)方法的融合以突破傳統(tǒng)圖書情報領(lǐng)域,關(guān)注新技術(shù)、新方法服務(wù)新興產(chǎn)業(yè)或行業(yè),促進圖書情報學(xué)科在新的時代背景下向前沿領(lǐng)域轉(zhuǎn)型,相應(yīng)的創(chuàng)新和變化使得ADC數(shù)值升高;另一方面由于本身的學(xué)術(shù)影響力,相應(yīng)的學(xué)者可能受邀撰寫理論概括性、文獻(xiàn)綜述性論文,以圖書情報學(xué)傳統(tǒng)方法作支撐,固本正源[51],潛心耕耘,因此論文ADC數(shù)值也會相應(yīng)降低,最終這些學(xué)者全部發(fā)表論文的ADC數(shù)值維持在學(xué)界總體平均線的水平。
圖5中的學(xué)者論文ADC均值作為綜合性信息,直觀地展示了作者的全部論文ADC均值、研究方向、所在單位信息,但是無法揭示學(xué)者在2014—2018年間ADC數(shù)值的變動情況,因此分年度繪制了學(xué)者ADC均值熱力圖,見圖6。
圖6 高產(chǎn)出作者論文年均ADC數(shù)值熱力圖
綜合圖5中研究內(nèi)容和圖6中學(xué)者年均ADC結(jié)果,以ADC平均值0.7為界限,將高產(chǎn)學(xué)者分為高區(qū)分性學(xué)者和低區(qū)分性學(xué)者。其中趙蓉英、黃如花、吳丹、儲節(jié)旺由于ADC均值較高而被識別為高區(qū)分性學(xué)者,前三位學(xué)者的主要研究內(nèi)容涉及大數(shù)據(jù)研究熱點挖掘與分析、政府?dāng)?shù)據(jù)開放共享研究、用戶行為分析與智慧信息服務(wù)等,緊跟國外情報學(xué)發(fā)展動態(tài),每年的發(fā)文量持續(xù)穩(wěn)定,普遍高于其他學(xué)者。雖然三位學(xué)者所在單位都是武漢大學(xué),但是彼此的研究較為獨立,研究的內(nèi)容差異性也較大。儲節(jié)旺作為安徽大學(xué)的資深學(xué)者,偏向情報學(xué)中的管理方向,以社會化網(wǎng)絡(luò)、知識協(xié)同、開放式創(chuàng)新為主要研究內(nèi)容,但2014—2018年間發(fā)文數(shù)量漸趨下降。低區(qū)分性學(xué)者以邱均平、司莉、李綱等為代表,其中邱均平、唐曉波、李綱作為圖書情報學(xué)界資深學(xué)者,都涉及知識管理和情報研究領(lǐng)域,年度發(fā)文數(shù)量漸趨減少,邱均平更側(cè)重于信息計量與科學(xué)評價領(lǐng)域,唐曉波專注于語義本體和數(shù)據(jù)挖掘方向,李綱涉及信息管理與信息系統(tǒng)內(nèi)容。王晰巍的ADC年度均值波動較大,作為吉林大學(xué)信息管理系學(xué)者代表,歷年的研究包括信息行為、輿情分析等網(wǎng)絡(luò)信息生態(tài)相關(guān)主題,既關(guān)注圖書情報學(xué)的熱點與前沿應(yīng)用,也善于從理論角度捕捉其他領(lǐng)域的發(fā)展動態(tài)。嚴(yán)貝妮、王福作為青年學(xué)者的代表,前者關(guān)注情報學(xué)中信息資源管理的內(nèi)容,后者集中于圖書館個性化服務(wù)、圖書館服務(wù)技術(shù)應(yīng)用、個性化服務(wù)內(nèi)容[52]。同樣作為圖書館學(xué)的研究者,司莉、肖希明、鄂麗君分別從圖書館學(xué)教育、知識組織與知識管理、信息資源開放獲取、圖書館營銷等角度展開對圖書館學(xué)的研究,探討圖書館服務(wù)向智慧化、個性化轉(zhuǎn)變的議題。
通過本節(jié)分析,概括可得:①高產(chǎn)作者多數(shù)偏向情報學(xué)學(xué)科,專攻圖書館學(xué)或檔案學(xué)的學(xué)者較少;②ADC數(shù)值分布的結(jié)果與各學(xué)者在不同時間區(qū)間內(nèi)的研究內(nèi)容相符合,偏向熱點話題和新興領(lǐng)域的學(xué)者所產(chǎn)出的論文區(qū)分能力更強,側(cè)重綜述性評價和常規(guī)性研究的學(xué)者所產(chǎn)出的論文區(qū)分能力較弱。
為從整體性視角研究ADC數(shù)值分布與主題變化之間存在的規(guī)律,本章節(jié)將從主題熱度的角度揭示不同區(qū)間的主題情況。主題熱度一般通過主題與文檔之間的關(guān)聯(lián)程度進行表示,其中相同的主題能夠以不同的重要程度出現(xiàn)在不同的文檔中,而被提及到的文檔篇數(shù)越多則代表相應(yīng)的主題熱度越高。主題熱度可以根據(jù)LDA模型的輸出數(shù)據(jù)之一,即“文檔—主題”的分布進行計算,通過計算得出某個主題在所有文檔中出現(xiàn)概率的平均值,獲得相應(yīng)的主題熱度。對不同ADC分區(qū)的論文題錄信息進行LDA分析,以概括得出相應(yīng)的主題內(nèi)容。
考慮到將21827篇論文放在同一個論文集合中進行LDA分析可能會導(dǎo)致主題數(shù)量過多,因此,將論文按照ADC數(shù)值區(qū)間進行劃分,對不同區(qū)間分別進行LDA主題分析,對比分析不同區(qū)間的主題數(shù)量與熱點主題,以突出不同數(shù)值區(qū)間中論文的關(guān)鍵詞語分布及研究內(nèi)容差異,并且觀察每個區(qū)間內(nèi)的主題分布細(xì)節(jié)。根據(jù)主題熱度算法在每個區(qū)間中篩選出前10個主題,以代表該區(qū)間研究的熱點主題,見表3。
圖3 各ADC分區(qū)中的LDA主題分析結(jié)果
研究發(fā)現(xiàn),圖書館、情報與文獻(xiàn)學(xué)學(xué)科論文在2014—2018年間的研究熱點主要包括七大類,即圖書館相關(guān)類(圖書館服務(wù)、公共圖書館、高校圖書館、數(shù)字圖書館等)、社交媒體類(網(wǎng)絡(luò)輿情分析、用戶行為分析、社會網(wǎng)絡(luò)分析等)、算法學(xué)習(xí)類(神經(jīng)網(wǎng)絡(luò)、遺傳算法、算法改進等)、文獻(xiàn)計量類(計量指標(biāo)構(gòu)建、多粒度學(xué)術(shù)對象評價、補充計量學(xué)等)、企業(yè)知識管理類(協(xié)同創(chuàng)新、戰(zhàn)略決策、績效評價等)、本體類(情感分析、實體/屬性/關(guān)系抽取、知識圖譜構(gòu)建等)、學(xué)科建設(shè)類(跨學(xué)科交流、人才培養(yǎng)、職業(yè)分析等),其中與圖書館相關(guān)的研究熱點最高,在所有區(qū)間中的主題排名都非??壳埃溆嘀黝}在各個區(qū)間中的研究熱點排名和內(nèi)容有較大波動??傮w而言,隨著ADC數(shù)值的增加,相同單位的論文數(shù)量下主題的數(shù)量呈現(xiàn)出增長的趨勢,研究的主題更加豐富多元。
對比分析表3中三個區(qū)間的熱點主題,在所有包含學(xué)科相關(guān)的熱點主題中,雖然ADC<0的論文中包含圖書情報學(xué)科建設(shè)內(nèi)容,但相應(yīng)的詞語集中在圖書館學(xué)和情報學(xué)學(xué)科中,主要為情報學(xué)、圖書館學(xué)、情報分析、情報工作、目錄學(xué)、圖書、情報研究等,其中與檔案學(xué)相關(guān)的僅有“檔案學(xué)”作為學(xué)科介紹詞而存在。在ADC≥2的區(qū)間中,檔案學(xué)被單獨分為一個熱點主題,包含內(nèi)容有檔案館、檔案管理、文獻(xiàn)、史料、歸檔、編纂、口述等,由于自身的理論體系、研究對象、工作業(yè)務(wù)、組織機構(gòu)不同于圖書館學(xué)和情報學(xué),且本身術(shù)語具有的獨特性,而擁有較高的ADC區(qū)分值。
在ADC<0的區(qū)間內(nèi),占據(jù)前三個熱點的主題都是與圖書館相關(guān)的主題,偏向于理論化和傳統(tǒng)化的內(nèi)容,術(shù)語較多集中在“研究領(lǐng)域、理論、服務(wù)模式、資源配置、資源整合、館藏”;而后面兩個區(qū)間則涉及到用戶分析、機器學(xué)習(xí)、多粒度學(xué)術(shù)評價等新興主題,術(shù)語更加多元化、新穎化,包括用戶分析的生態(tài)系統(tǒng)、互聯(lián)網(wǎng)、問答、情景,以及機器學(xué)習(xí)的本體、標(biāo)簽、聚類、特征,多粒度學(xué)術(shù)評價的影響力、新穎性、熱點、領(lǐng)域、可視化等,在當(dāng)下作為研究新熱點具有非常大的研究價值。總結(jié)可得,ADC數(shù)值越小的論文對應(yīng)的研究內(nèi)容更加理論化、傳統(tǒng)化、綜合化,而ADC數(shù)值越高的論文更加新穎化、多元化、熱門化。
觀察三個區(qū)間內(nèi)的主題可以發(fā)現(xiàn),共同或類似的主題在每個區(qū)間內(nèi)都存在,如機器學(xué)習(xí)。深入到文章內(nèi)容中去挖掘可以發(fā)現(xiàn),在ADC<0區(qū)間中,機器學(xué)習(xí)主題的術(shù)語偏向于理論化的淺顯介紹,從理論、技術(shù)、方法的角度闡述相關(guān)的內(nèi)容,詞語也集中于概念、理論、文獻(xiàn)、模型、學(xué)習(xí)、局限、規(guī)則、效果等描述性字詞,以綜述類及方法介紹類文獻(xiàn)為主,較少利用數(shù)據(jù)和實驗結(jié)果來驗證觀點;在0≤ADC<2的區(qū)間中,排名較為靠前的詞語為進行、構(gòu)建、實現(xiàn)、計算、實驗、抽取、研究,能夠針對具體的問題進行實際性的計算、研究、應(yīng)用,提出新的方法、引入新數(shù)據(jù)、側(cè)重于研究型成果的應(yīng)用性和實踐性;在ADC≥2的區(qū)間中,新的詞語諸如推薦、預(yù)測、比較、發(fā)現(xiàn)、改進、創(chuàng)新則是從創(chuàng)新的視角對各種方法進行靈活運用,將相應(yīng)算法推廣到信息推薦、數(shù)據(jù)預(yù)測的前沿應(yīng)用,甚至能夠突破原理、改進流程,在具體的應(yīng)用中完成對方法的深入理解,并提出相應(yīng)解決方案、實現(xiàn)理論層次上的高難度創(chuàng)新。概括可得,隨著ADC數(shù)值的增大,相似的主題下論文研究的內(nèi)容更加深入、細(xì)化、具體。
本節(jié)分析可得:①圖書館、情報與文獻(xiàn)學(xué)學(xué)科的研究主題中,最為熱門的主題圍繞圖書館展開;②隨著ADC數(shù)值的增加,論文研究的主題不僅更加深入和細(xì)化,而且偏向于多元化、熱門化的領(lǐng)域,反之則呈現(xiàn)出理論化、常規(guī)化的內(nèi)容。
本文選取了2014—2018年間被CSSCI核心期刊收錄的圖書館、情報與文獻(xiàn)學(xué)學(xué)科論文作為實驗對象,采用ADC指標(biāo)從內(nèi)容差異性視角對論文對象的區(qū)分能力進行測度和分析,結(jié)合具有語義特征的BERT模型計算ADC數(shù)據(jù)結(jié)果,探討論文ADC的總體、局部和個體區(qū)分能力特征。通過分析期刊的ADC分布對學(xué)科的整體區(qū)分能力進行測度,根據(jù)不同學(xué)者的研究方向和論文ADC總體水平,對學(xué)者總體的區(qū)分能力水平進行探討,采用LDA主題分析深入分析了ADC較大和較小區(qū)間論文在研究主題上的差異。通過實驗分析發(fā)現(xiàn):①論文區(qū)分能力越強表明其研究內(nèi)容越具獨特性或創(chuàng)新性,對應(yīng)的研究主題新穎化、多元化、熱門化,視角更加深入、細(xì)化、具體,反之,越弱則說明研究同質(zhì)性越明顯,主題偏向理論化、傳統(tǒng)化、綜合化;②不同學(xué)科類別和期刊的論文ADC總體水平具有顯著差異,圖書館學(xué)和檔案學(xué)期刊的論文ADC總體水平要高于情報學(xué)期刊;③不同學(xué)者的論文ADC總體水平也存在明顯差異,與其研究領(lǐng)域或主題相關(guān),偏向熱點話題和新興領(lǐng)域的學(xué)者所產(chǎn)出的論文區(qū)分能力較強,側(cè)重綜述性評價和常規(guī)性研究的學(xué)者所產(chǎn)出的論文區(qū)分能力較弱。
總體來看,本文所提出的ADC方法能夠有效地度量學(xué)術(shù)論文的差異性,適用于學(xué)術(shù)論文的差異性評價。然而本文也存在可以改進的地方:第一,后續(xù)將考慮改進基于BERT模型進行相似度度量的技術(shù);第二,由于本文研究的來源論文局限于CSSCI中文期刊圖書館、情報與文獻(xiàn)學(xué)學(xué)科,沒有考慮多學(xué)科的對比和多語種的適用性,在后續(xù)的研究中,將考慮進行補充研究。