一種面向內(nèi)容差異的學(xué)術(shù)論文評價方法*

2022-09-24 00:57陳玥彤李躍艷鄧三鴻

信息資源管理學(xué)報 2022年4期

陳玥彤王昊李躍艷張衛(wèi) 鄧三鴻

(南京大學(xué)信息管理學(xué)院，南京，210023；南京大學(xué) 江蘇省數(shù)據(jù)工程與知識服務(wù)重點實驗室，南京，210023)

1 引言

學(xué)術(shù)論文是科研工作者進行科學(xué)交流和獲取新知的主要介質(zhì)，同樣也是科學(xué)研究的主要產(chǎn)出與表現(xiàn)形式之一[1]，其能夠及時反映學(xué)術(shù)研究動態(tài)、傳播思想新知[2]、推廣前沿技術(shù)[3]。然而，一方面，在“五唯”評價觀和人才觀的影響下，部分學(xué)者將論文指標(biāo)與文憑職稱、學(xué)術(shù)水平掛鉤，導(dǎo)致重“量”輕“質(zhì)”的趨勢[4]，學(xué)術(shù)論文質(zhì)量良莠不齊；另一方面，期刊的數(shù)量和種類快速增長，在推動學(xué)術(shù)論文數(shù)量飛速增長的同時，有可能片面追求“熱點話題”，難以避免地呈現(xiàn)出學(xué)術(shù)論文內(nèi)容“同質(zhì)化”和“固化”的發(fā)展趨向[5]，對于學(xué)科發(fā)展甚至學(xué)術(shù)創(chuàng)新起到阻礙作用，因此，合理且全面地評價論文的內(nèi)容質(zhì)量顯得尤為重要。

當(dāng)前我國許多學(xué)者從不同視角對論文評價進行研究，主要聚焦于論文的學(xué)術(shù)價值、學(xué)術(shù)質(zhì)量[6-7]、學(xué)術(shù)影響力[8]、學(xué)術(shù)創(chuàng)新力[9]等方面，但很少涉及學(xué)術(shù)對象內(nèi)容的差異性特征。內(nèi)容差異是論文的內(nèi)在特征之一，意味著一篇論文研究內(nèi)容的獨特程度。在學(xué)術(shù)對象群體中，學(xué)術(shù)對象個體的差異程度則能夠在一定程度上反映出該對象研究內(nèi)容的學(xué)術(shù)水平，這對于探測論文的質(zhì)量、創(chuàng)新性、影響力有重要作用。如果一篇論文在研究內(nèi)容上無法與其他論文區(qū)分開，那這篇論文很可能是對已有研究成果的重復(fù)，其研究價值、創(chuàng)新性值得商榷，因此對論文的差異性分析是必要的。傳統(tǒng)的論文評價方法未能從差異性的視角給出特定的衡量指標(biāo)或方法，而基于論文內(nèi)容的現(xiàn)有研究也難以定量測度論文內(nèi)容的差異性和差異程度，為了消除學(xué)術(shù)論文差異性研究在不同程度的主觀性和局部性，本文從區(qū)分性和差異性視角進行論文評價方法研究。

在課題組原有基礎(chǔ)上，筆者提出一種新的論文評價指標(biāo)，利用學(xué)術(shù)對象區(qū)分能力(Article Discriminative Capacity, ADC)進行論文的內(nèi)容差異性分析，其中ADC定義為：在給定的論文對象群體中，論文對象個體與群體在研究內(nèi)容層面的總體差異程度。論文對象的區(qū)分能力越強，說明該對象在其所處群體中的綜合差異越大，其研究內(nèi)容越獨特；反之，區(qū)分能力越弱，說明該對象與群體中其他對象的綜合差異越小，其研究內(nèi)容的相似性或同質(zhì)性越顯著。為了避免學(xué)科背景冗雜對論文差異性結(jié)果產(chǎn)生影響，本研究從同一個領(lǐng)域入手，通過對CSSCI期刊中圖書館、情報與文獻(xiàn)學(xué)2014—2018年收錄的期刊論文測算ADC值，探測論文群體在數(shù)值上的分布特征和規(guī)律，并從期刊、學(xué)者的角度來探討論文ADC總體水平差異，結(jié)合ADC數(shù)值水平進行學(xué)術(shù)論文研究主題的差異分析，從而對比和探討不同區(qū)分能力的論文個體和群體的差異性特征。

2 文獻(xiàn)綜述

在科學(xué)研究領(lǐng)域中，對論文的評價方法較多，傳統(tǒng)的定性評價方法以同行評議[10]為代表，但是具有主觀性強、低效性、咨詢費用高昂等缺陷[11-12]。當(dāng)前的論文評價主要針對論文的外部特征從期刊、引文、作者等角度展開，如利用影響因子[13]、共被引[14]、h指數(shù)[15]、相對引用率[16]等指標(biāo)衡量論文的內(nèi)容質(zhì)量[17]、影響力以及學(xué)術(shù)價值[18]，也有從不同角度遴選單一指標(biāo)后進行層次歸類的評價指標(biāo)體系[19]，這些指標(biāo)大多數(shù)建立在論文的引用關(guān)系基礎(chǔ)[20]之上，不可避免地存在時滯性、片面性、馬太效應(yīng)[21]等問題。隨著Web2.0時代的到來，社交平臺的出現(xiàn)與社交網(wǎng)絡(luò)的傳播使得開放獲取逐漸成為學(xué)術(shù)交流的重要模式[22]，以補充計量學(xué)為代表的網(wǎng)絡(luò)影響力測度方式補充和完善了原有的傳統(tǒng)信息計量學(xué)[23]，但始終無法從學(xué)術(shù)內(nèi)容層面解決問題。

近年來，關(guān)于學(xué)術(shù)論文內(nèi)容的研究較多，一方面包括基于全文內(nèi)容的引文內(nèi)容分析，如利用引文提及次數(shù)[24]、加權(quán)引用頻率[25]計算學(xué)者的影響力或排名；另一方面也有基于文本內(nèi)容的分析與挖掘，識別學(xué)術(shù)論文中的創(chuàng)新點，并構(gòu)建學(xué)術(shù)論文創(chuàng)新力測度指標(biāo)來評價學(xué)術(shù)論文[1]。后者通常運用自然語言處理技術(shù)獲取論文的關(guān)鍵詞、主題詞(摘要、標(biāo)題或全文抽取獲得)，凝練成數(shù)值特征或文字特征以表示論文的研究主題，通過統(tǒng)計主題詞的詞頻或者詞頻變化率來探測和識別科學(xué)前沿主題，通過共詞分析法計算詞間的相似性來判斷主題內(nèi)容的新穎程度[27]，或通過主題建模發(fā)現(xiàn)文本中的抽象主題以挖掘文本的潛在關(guān)系，判斷相似性和分類結(jié)果[28]。但詞頻法可能無法反映詞間關(guān)聯(lián)、語義關(guān)系較弱；共詞分析法難以處理同義詞和多義詞、主題詞確定較為復(fù)雜；主題模型分析不適合處理短文本、主題詞的解釋具有主觀性、缺乏語義信息挖掘。

當(dāng)前關(guān)于論文評價的指標(biāo)與方法有本身的適用特性和優(yōu)缺點，基本圍繞定性方法和定量方法展開，涉及論文創(chuàng)新性[29]、新穎性[30]、影響力[31]、老化度[32]等指標(biāo)，但是大多集中在以文獻(xiàn)計量數(shù)據(jù)為代表的外部特征中，極少涉及到學(xué)術(shù)論文自身的差異性；針對論文內(nèi)容層面的研究主要聚焦在文本挖掘與聚類分析上，對文本內(nèi)容的解釋缺乏客觀性和語義關(guān)聯(lián)，難以對論文個體存在的差異性進行個體量化分析。總體而言，傳統(tǒng)論文評價指標(biāo)對內(nèi)容差異性的研究較少，而論文對象本身差異性的內(nèi)在特質(zhì)是其區(qū)別于其他論文的重要特征。此外，現(xiàn)有的評價指標(biāo)、方法也不適用于差異性測度和評價，因此，本課題組提出一種新的ADC指標(biāo)來對其內(nèi)容層面的差異性進行測度和分析[33]。本文借助術(shù)語區(qū)分模型的算法思想，將能夠表征語義信息的BERT模型與ADC區(qū)分性指標(biāo)結(jié)合，從文獻(xiàn)語義內(nèi)容本身的角度衡量學(xué)術(shù)論文的區(qū)分性，能夠幫助規(guī)避由于不同作者的語法習(xí)慣而導(dǎo)致的淺層差異，彌補之前學(xué)術(shù)論文評價在“特性”研究上無法精確度量的問題，實現(xiàn)對學(xué)術(shù)論文對象個體與總體差異性的深入分析和探討，為探究學(xué)術(shù)論文研究內(nèi)容的差異性特征提供一種新的思路。

3 數(shù)據(jù)與方法

3.1 研究框架

為了探究不同的特征表示向量模型下論文的區(qū)分性測度，并將最終所得數(shù)值結(jié)果進行分析，本文設(shè)計了如圖1所示的研究框架。首先，選取CSSCI來源期刊，分別標(biāo)記每個期刊出現(xiàn)的時間，并從知網(wǎng)數(shù)據(jù)庫中下載對應(yīng)期刊和年份的題錄信息，包括題名、關(guān)鍵詞、摘要等核心數(shù)據(jù)，以及作者、被引量、下載量等文獻(xiàn)記錄信息；其次，利用刪除重復(fù)值和無效值后的核心數(shù)據(jù)形成文檔列表(其中每行文檔列表表示一篇論文的題錄信息)，將文檔列表直接作為BERT模型的輸入，獲得文檔特征向量，并轉(zhuǎn)化為文檔術(shù)語矩陣(ATM)，通過相似度計算的方式獲得論文區(qū)分性測度指標(biāo)ADC，從而完成ADC指標(biāo)的構(gòu)建；最后，分別基于期刊、學(xué)者和主題多個角度對ADC指標(biāo)的價值進行衡量。

圖1 研究框架圖

3.2 數(shù)據(jù)來源與預(yù)處理

在實驗數(shù)據(jù)的時間選取上，考慮一方面當(dāng)時間跨度過小時，論文數(shù)據(jù)量較少，論文之間的差異可能被過度拉大，不利于合理評價論文；另一方面當(dāng)時間跨度過大時，部分有區(qū)分性的早期文章可能會得到更多關(guān)注，在該時間區(qū)間內(nèi)的特性和差異性可能減弱，因此最終確定時間跨度為5年。本文以CSSCI來源期刊中圖書館、情報與文獻(xiàn)學(xué)學(xué)科的論文為研究對象，選擇2014—2018年之間收錄的21本核心期刊，通過CNKI網(wǎng)站下載題名、關(guān)鍵詞、摘要等題錄信息，通過數(shù)據(jù)合并(即題名+關(guān)鍵詞+摘要)形成本研究的基礎(chǔ)數(shù)據(jù)集。在篩選剔除重復(fù)信息和空缺值后，人工去除與本文研究無關(guān)的論文，如會議通知、征稿通告、年度索引、編者按等，最終保留有效論文數(shù)如表1所示。

表1 各期刊有效論文數(shù)量匯總

3.3 ADC測度算法

在學(xué)術(shù)對象內(nèi)容差異性的定量測算中，Salton等[34-35]在1975年提出了術(shù)語區(qū)分模型(TDM)，在文獻(xiàn)集合中通過測度某個術(shù)語被抽取前后文檔空間密度影響的差異程度來計算術(shù)語區(qū)分值，進而衡量索引術(shù)語在信息檢索中的重要性。隨后有學(xué)者對該算法進行進一步優(yōu)化，降低時間復(fù)雜度并提高效率后提出更為穩(wěn)定的術(shù)語區(qū)分能力(TDC)[36]，用于索引術(shù)語的質(zhì)量評價。本文借鑒前者對學(xué)術(shù)對象差異性測度的思路，將術(shù)語粒度的測評方法引到學(xué)術(shù)論文評價中，提出定量測度論文內(nèi)容區(qū)分性和差異性的指標(biāo)ADC。

ADC側(cè)重于從內(nèi)容的角度來度量學(xué)術(shù)文獻(xiàn)的差異性及程度，核心在于通過計算論文對象被抽取前后論文空間密度(Article Space Density，ASD)的變化來衡量學(xué)術(shù)論文對象的區(qū)分能力，具體計算方法如下：

(1)構(gòu)建文獻(xiàn)空間(Article Space)。需要首先利用BERT對未分詞的文檔集合構(gòu)建文檔特征向量AFM(Article Feature Matrix)，利用余弦相似度函數(shù)計算文獻(xiàn)特征矩陣中文獻(xiàn)與文獻(xiàn)兩兩間的相似程度，進而將文獻(xiàn)特征矩陣轉(zhuǎn)化為文獻(xiàn)-文獻(xiàn)矩陣AAM(Article-Article Matrix)，所獲得的AAM即為文獻(xiàn)空間的內(nèi)容。

(1)

公式(1)表明文獻(xiàn)特征向量的計算方法，其中Ai代表第i篇文獻(xiàn)的特征向量，由經(jīng)過預(yù)訓(xùn)練的BERT模型計算獲得，其中m代表文獻(xiàn)的數(shù)量，n代表文檔中特征向量的維度。AAM的計算方法如公式(2)所示，sij為文獻(xiàn)Ai到文獻(xiàn)Aj的余弦相似度。

(2)

(2)計算文獻(xiàn)空間密度ASD(Article Space Density)。采用基于距離的相似度算法計算所有文獻(xiàn)到文獻(xiàn)空間中心centroid的相似度AS，對AS的結(jié)果求取平均相似度即為文獻(xiàn)空間密度，計算方法見公式(3)。

(3)

其中AS的計算方法見公式(4)，Centroid是AAM基于算數(shù)平均值的文獻(xiàn)空間中心向量，而Dist(Ai, centroid)用于計算文獻(xiàn)Ai和centroid的歐式距離；c為常量，研究表明，當(dāng)c取1.3時可以獲得最優(yōu)效果[37]。

(4)

(3)計算獲得相應(yīng)文獻(xiàn)的ADC結(jié)果。剔除文獻(xiàn)Ai后獲得(m-1)維的文獻(xiàn)空間向量，并重新計算所有文獻(xiàn)到新文獻(xiàn)空間中心的距離之和，將結(jié)果除以文獻(xiàn)數(shù)量m-1，獲得新的文獻(xiàn)空間密度ASDi，利用文獻(xiàn)空間密度變化的差值得到各文獻(xiàn)對應(yīng)的ADC值，計算方法見公式(5)。

(5)

其中ASDi表示文獻(xiàn)i被剔除后的ASD，ASDavg表示ASD的平均密度差，計算方法見公式(6)。

(6)

最終獲得的ADC可以為正值、負(fù)值或者為0，若ADC>0，則說明該文獻(xiàn)呈現(xiàn)出積極的區(qū)分能力；若ADC<0，則說明該文獻(xiàn)具有消極的區(qū)分能力，在特征上難以與其他文獻(xiàn)區(qū)分開；若ADC=0，則說明該文獻(xiàn)不具備區(qū)分能力，不會帶來任何影響。此外，同一論文對象空間內(nèi)計算得出的ADC的數(shù)值可以直觀比較，當(dāng)一篇論文的ADC數(shù)值高于另一篇論文的ADC時，即代表該論文對象的區(qū)分能力要優(yōu)于另一篇論文對象。因此，本文借助ADC數(shù)值的正負(fù)性判斷單篇論文是否具有獨特性或同質(zhì)性，利用數(shù)值的大小衡量內(nèi)容差異的強或弱，也可以通過ADC數(shù)值的比較來衡量不同論文之間獨特性的差異程度。

3.4 基于BERT的文本特征表示

早期的自然語言處理任務(wù)中，以詞為單位的特征表示方法主要有詞袋模型[38](Bag-of-words)和獨熱編碼(One-Hot Encoding)技術(shù)，旨在將輸入的文本轉(zhuǎn)化為稀疏向量，改進后的TF-IDF文本表示方法雖然考慮了詞語權(quán)重問題，但是將文本直接切分忽視了單詞之間的相關(guān)性[39]，且存在稀疏性和高維性的弊端[40]。2013年，Mikolov等[41]發(fā)布的Word2Vec使用語言模型得到詞向量，并逐漸成為了最常用的文本表征技術(shù)之一，但是本質(zhì)仍是靜態(tài)的預(yù)訓(xùn)練技術(shù)，即不同上下文中的同一詞語具有相同的詞向量，沒有解決上下文環(huán)境語義表示的問題。為了提取更深層次的特征表示，本算法引入具有多層雙向transformer的預(yù)訓(xùn)練模型BERT。

BERT是Google為預(yù)訓(xùn)練語言表示而開發(fā)的NLP模型，是一種深度雙向、無監(jiān)督的文本語義表示模型[42]，可以描述字符級、單詞級、句子級，甚至是句間關(guān)系的上下文特征，根據(jù)上下文信息動態(tài)生成詞向量，對于自然語言處理任務(wù)中一詞多義、同義詞等問題較為友好[43]。BERT作為一種可以提取深度語義的文本特征表示模型，在一定程度上緩解了傳統(tǒng)模型在文本表示中遇到的同義詞或者一詞多義問題，輔助分析不同語言表達(dá)習(xí)慣下的文本語義內(nèi)容，從而在一定程度上規(guī)避不同的撰寫習(xí)慣導(dǎo)致的論文差異。BERT模型的處理流程中，首先將文本分詞，進行全詞MASK，并在文本的首尾加入標(biāo)記，得到的結(jié)果作為BERT的輸入，經(jīng)過Transformer編碼器，得到輸出。BERT將文本中的每個字轉(zhuǎn)化為三個embedding進行相加，將相加后的字符表示輸入到Transformer結(jié)構(gòu)中，利用多頭自注意力機制進行特征提取，得到富含前后語義信息的字符表示[44]。

因此，本研究使用BERT的輸出向量作為論文對象的特征向量，實驗流程為：①采用chinese_L-12_H-768_A-12版本的BERT，將未分詞的論文題錄數(shù)據(jù)作為段落級別的輸入，進行文檔向量化表示；②設(shè)置模型各參數(shù)，其中文本最大長度被設(shè)置為128，單次輸入訓(xùn)練模型的字符數(shù)設(shè)置為32，迭代次數(shù)設(shè)置為10；③輸出所得的向量即為對應(yīng)的AFM，之后采用ADC算法計算所有論文的ADC數(shù)值。BERT將可變長度的文本轉(zhuǎn)化為可以代表整個文本語義的768維輸出向量，從而在更低的內(nèi)存開銷下實現(xiàn)從語義角度對論文題錄信息的文本表示[45]。

4 結(jié)果與分析

4.1 測度結(jié)果與分析

為了直觀地展示基于BERT的ADC數(shù)值的分布情況，本文利用直方圖表示ADC數(shù)值結(jié)果在不同分段中的頻次分布，根據(jù)數(shù)據(jù)范圍形成分箱，附標(biāo)注密度估計KDE(Kernel Density Estimation)曲線，并且繪制頻率分布條以顯示落入每個分箱的觀測次數(shù)的數(shù)據(jù)分布，最終繪制的直方圖見圖2。

圖2 ADC數(shù)值結(jié)果分布直方圖

圖2中數(shù)值的整體分布偏離傳統(tǒng)的正態(tài)分布，近似于泊松分布，觀察橫坐標(biāo)的數(shù)值分布可以發(fā)現(xiàn)，ADC的數(shù)值分布區(qū)間為(-2，11)，整體分布較為離散。綜合KDE曲線和頻率分布條發(fā)現(xiàn)，絕大多數(shù)的ADC數(shù)值在(-1，3)之間分布，在ADC>3的區(qū)間內(nèi)分布的論文量占比15%左右，數(shù)值之間的差距較大；而ADC<0的論文數(shù)量占比39.7%，ADC之間的差距較小。

觀察圖2中的頻率分布條發(fā)現(xiàn)，部分ADC數(shù)值結(jié)果分布較為離散，其中ADC大于8的論文有9篇，而ADC近似-2的論文有2篇，為展示不同ADC結(jié)果對應(yīng)的論文情況，將離群值的論文信息按照降序進行排列，保留ADC數(shù)值至第三位小數(shù)，相關(guān)信息見表2。

表2 離群值論文信息展示

從表2中可以看出，序號1—9的論文ADC數(shù)值之間跨度較大，而序號21826—21827的論文ADC數(shù)值差距較小。ADC數(shù)值較大的論文中，以“行為-內(nèi)容融合模型”“證據(jù)視角”為代表的論文在研究方法上較有新意，以“算法使用行為”“傳播效果理論”為代表的論文研究內(nèi)容獨特，在以往的研究中涉及較少，而以“杜定友”“利德希爾斯礦工圖書館”為代表的論文研究對象不同于同類期刊，也獲得較高的區(qū)分能力。ADC結(jié)果較低的論文偏向于述評型研究或常規(guī)型研究，研究較為基礎(chǔ)、傳統(tǒng)，主要包括一些常見的研究主題，在整個論文群體中難以呈現(xiàn)出研究特色，表現(xiàn)出較為明顯的同質(zhì)性。

通過本節(jié)分析可以發(fā)現(xiàn)：①論文區(qū)分能力ADC能夠識別具有獨特性的論文個體；②ADC數(shù)值較大的論文對象偏向于在研究內(nèi)容、方法、對象上的創(chuàng)新，具有鮮明特色。

4.2 基于ADC的期刊分布分析

本小節(jié)以期刊為切入點，觀察圖書館、情報與文獻(xiàn)學(xué)學(xué)科21種期刊在2014—2018年ADC數(shù)值分布情況。首先統(tǒng)計匯總各期刊ADC取值為正和負(fù)的情況，用不同顏色的柱狀圖進行區(qū)分，相應(yīng)的論文數(shù)量可見圖3左側(cè)縱坐標(biāo)所示，并將ADC為正數(shù)的論文數(shù)量占該期刊所有論文總量的比值用紅色散點表示，相應(yīng)的占比數(shù)值可見右側(cè)縱坐標(biāo)所示。

圖3 各期刊ADC論文數(shù)值結(jié)果描述柱形圖

從圖3中可以發(fā)現(xiàn)：①ADC正值占比最多的期刊是《數(shù)據(jù)分析與知識發(fā)現(xiàn)》，該期刊側(cè)重于知識發(fā)現(xiàn)、數(shù)據(jù)挖掘、智能管理和決策支持等方面的技術(shù)、方法，尤其從海量、異構(gòu)的數(shù)據(jù)中挖掘和發(fā)現(xiàn)知識以支持研究、管理和決策，在算法、實驗方面的創(chuàng)新較為突出；而ADC正值占比最低的《圖書情報工作》主要面向研究型圖書情報機構(gòu)，基于數(shù)字網(wǎng)絡(luò)環(huán)境探究知識服務(wù)管理與圖書情報工作轉(zhuǎn)型發(fā)展，收錄的論文研究內(nèi)容主要集中在概念理論、觀點發(fā)現(xiàn)以及模型方法[46]，在實驗方面的創(chuàng)新較少。綜合多方面因素分析發(fā)現(xiàn)，期刊的辦刊定位、收稿偏好可能會影響期刊的ADC數(shù)值水平。②圖書館學(xué)、情報學(xué)與文獻(xiàn)學(xué)中，不同子學(xué)科期刊之間正值和負(fù)值的論文數(shù)量比例存在差別，但是整體呈現(xiàn)出較好的區(qū)分效果，ADC取值為正數(shù)的論文占比都超過55%，這說明學(xué)科整體呈現(xiàn)出多元化、特色化的趨勢。③檔案學(xué)科期刊中論文ADC數(shù)值為正的比例總體高于其他類別的學(xué)科論文；而圖書館類的期刊次之，總體正值論文占比排名靠前；情報學(xué)期刊占據(jù)中后的位置，圖書情報交叉類期刊分布較為離散，可能由于本身偏向交叉學(xué)科領(lǐng)域，相較于獨立學(xué)科而言其水平更容易呈現(xiàn)出兩極分化的表現(xiàn)。

為觀察不同學(xué)科及期刊中ADC數(shù)值結(jié)果的具體情況，對各期刊2014—2018年的ADC數(shù)值計算均值，保留四位小數(shù)，并根據(jù)期刊的刊名信息將期刊劃分為“檔案學(xué)”“圖書館學(xué)”“情報學(xué)”“圖書情報類”學(xué)科，用不同顏色代表不同學(xué)科的期刊，按照均值從大到小排列，繪制的金字塔圖見圖4。

圖4 各期刊ADC均值結(jié)果

圖4與圖3的總體排名順序相似，所有期刊的ADC均值都高于0.5，ADC均值在(0.5，1)之間分布，不同期刊之間的數(shù)值差異較小，呈現(xiàn)出一定規(guī)律。具體而言：①檔案學(xué)類期刊居于首位，ADC均值超出0.9，明顯高于其他學(xué)科的期刊，有自身獨特的理論體系及學(xué)科術(shù)語，主要圍繞價值鑒定、檔案考證、檔案保護及存儲、檔案研究、檔案館研究、檔案教育等主題展開，涵蓋“檔案考證”“文書處理”“檔案編研”“公文”“保管權(quán)限”等關(guān)鍵詞[47]，也有各類檔案理事會、理事會等小眾化研究主題；②圖書館學(xué)期刊次之，均值分布在中上水平，以圖書館所收藏的各類信息資源、知識文獻(xiàn)為核心研究對象，研究主題更加人文化，熱點集中于移動技術(shù)、信息服務(wù)、資源共享等，通過對理論、模式與框架進行分析和整理，奠定堅實的圖書館學(xué)理論基礎(chǔ)及框架體系，形成學(xué)科特色，獲得較優(yōu)區(qū)分能力；③情報學(xué)類期刊均值排名最為靠后，容易受到計算機、人工智能、數(shù)據(jù)科學(xué)、數(shù)據(jù)挖掘等技術(shù)影響，偏向于技術(shù)型研究成果，但是可能造成偏離專業(yè)核心內(nèi)涵的情況，進而導(dǎo)致內(nèi)容泛化和特色丟失的消極結(jié)果[48]；④圖書情報類期刊之間排名差距較大，總體高于情報學(xué)類期刊，《數(shù)據(jù)分析與知識發(fā)現(xiàn)》數(shù)值高于同類型其他期刊，利用知識服務(wù)及數(shù)據(jù)分析完成支持決策與實踐探索，《圖書與情報》及《圖書情報工作》偏向于推動學(xué)科融合與交叉以提升競爭力，可能失去學(xué)科本身固有的特色。

本小節(jié)總結(jié)可得：①檔案學(xué)期刊由于研究對象和學(xué)科術(shù)語的特性而獲得較高的區(qū)分能力結(jié)果；②圖書館學(xué)期刊的體系化研究基礎(chǔ)及人文化研究領(lǐng)域使得學(xué)科區(qū)分能力較好；③情報學(xué)與圖書情報類期刊在數(shù)值上表現(xiàn)相似，但前者更容易在新學(xué)科、新技術(shù)沖擊下丟失特色。

4.3 基于ADC的作者區(qū)分性分析

本小節(jié)關(guān)注作者產(chǎn)出所對應(yīng)的論文區(qū)分能力情況，從第一作者的角度對本文數(shù)據(jù)集中的論文及作者信息進行統(tǒng)計匯總。由于作者中會產(chǎn)生重名問題，因此，在本節(jié)對作者進行手動篩選比對，挑選出部分重名的信息，統(tǒng)計為新的作者。最終發(fā)現(xiàn)，數(shù)據(jù)集中以第一作者身份出現(xiàn)的作者共有9781人，人均發(fā)表論文數(shù)量2.2篇，多數(shù)作者發(fā)文的數(shù)量范圍在1—4篇之內(nèi)。

為了觀察在圖書情報學(xué)界具有代表性的學(xué)者，筆者選擇發(fā)文數(shù)量超出30篇的14位作者作為研究對象。同時，筆者對該數(shù)據(jù)集中全部作者以第一作者身份所發(fā)論文的ADC平均水平再次計算均值發(fā)現(xiàn)，所有的第一作者發(fā)表論文的ADC均值為0.7。以0.7為界限劃分發(fā)表論文數(shù)量的區(qū)間，將代表性學(xué)者發(fā)表論文數(shù)量及其論文ADC均值用氣泡圖繪制出來，其中氣泡的大小對應(yīng)學(xué)者發(fā)表論文ADC均值的大小，不同的顏色代表學(xué)者所在的不同單位，如圖5所示。

圖5 作者發(fā)文量與ADC均值關(guān)系氣泡圖

代表性的學(xué)者絕大多數(shù)來源于武漢大學(xué)，其余均來自國內(nèi)其他知名大學(xué)，比如吉林大學(xué)、安徽大學(xué)、浙江工商大學(xué)等，有部分學(xué)者從屬于多個重點院?；蚩蒲兄行模趯W(xué)界的知名度和認(rèn)可度較高[49]。此外，高產(chǎn)作者中絕大多數(shù)具有教授職稱，其中以李綱為代表的學(xué)者入選“長江學(xué)者獎勵計劃”，說明該部分作者研究水平較高，在本專業(yè)領(lǐng)域具有一定的影響力[50]，其余學(xué)者多數(shù)為高校圖書館員。由此可見，圖書情報領(lǐng)域相關(guān)研究人員大多為國內(nèi)著名大學(xué)的研究者，大學(xué)仍然是論文產(chǎn)出最為集中的地方。

從學(xué)科角度看來，代表性的高產(chǎn)學(xué)者側(cè)重情報學(xué)，專注圖書館學(xué)較少，鮮少有檔案學(xué)領(lǐng)域的學(xué)者。關(guān)于這部分代表性學(xué)者的ADC數(shù)值分布情況，我們猜測，一方面這批學(xué)者作為學(xué)界的領(lǐng)軍人物，需要具有前瞻性和發(fā)展性，通過尋求與社會學(xué)、心理學(xué)、地理學(xué)、計算機技術(shù)等領(lǐng)域理論途徑、技術(shù)方法的融合以突破傳統(tǒng)圖書情報領(lǐng)域，關(guān)注新技術(shù)、新方法服務(wù)新興產(chǎn)業(yè)或行業(yè)，促進圖書情報學(xué)科在新的時代背景下向前沿領(lǐng)域轉(zhuǎn)型，相應(yīng)的創(chuàng)新和變化使得ADC數(shù)值升高；另一方面由于本身的學(xué)術(shù)影響力，相應(yīng)的學(xué)者可能受邀撰寫理論概括性、文獻(xiàn)綜述性論文，以圖書情報學(xué)傳統(tǒng)方法作支撐，固本正源[51]，潛心耕耘，因此論文ADC數(shù)值也會相應(yīng)降低，最終這些學(xué)者全部發(fā)表論文的ADC數(shù)值維持在學(xué)界總體平均線的水平。

圖5中的學(xué)者論文ADC均值作為綜合性信息，直觀地展示了作者的全部論文ADC均值、研究方向、所在單位信息，但是無法揭示學(xué)者在2014—2018年間ADC數(shù)值的變動情況，因此分年度繪制了學(xué)者ADC均值熱力圖，見圖6。

圖6 高產(chǎn)出作者論文年均ADC數(shù)值熱力圖

綜合圖5中研究內(nèi)容和圖6中學(xué)者年均ADC結(jié)果，以ADC平均值0.7為界限，將高產(chǎn)學(xué)者分為高區(qū)分性學(xué)者和低區(qū)分性學(xué)者。其中趙蓉英、黃如花、吳丹、儲節(jié)旺由于ADC均值較高而被識別為高區(qū)分性學(xué)者，前三位學(xué)者的主要研究內(nèi)容涉及大數(shù)據(jù)研究熱點挖掘與分析、政府?dāng)?shù)據(jù)開放共享研究、用戶行為分析與智慧信息服務(wù)等，緊跟國外情報學(xué)發(fā)展動態(tài)，每年的發(fā)文量持續(xù)穩(wěn)定，普遍高于其他學(xué)者。雖然三位學(xué)者所在單位都是武漢大學(xué)，但是彼此的研究較為獨立，研究的內(nèi)容差異性也較大。儲節(jié)旺作為安徽大學(xué)的資深學(xué)者，偏向情報學(xué)中的管理方向，以社會化網(wǎng)絡(luò)、知識協(xié)同、開放式創(chuàng)新為主要研究內(nèi)容，但2014—2018年間發(fā)文數(shù)量漸趨下降。低區(qū)分性學(xué)者以邱均平、司莉、李綱等為代表，其中邱均平、唐曉波、李綱作為圖書情報學(xué)界資深學(xué)者，都涉及知識管理和情報研究領(lǐng)域，年度發(fā)文數(shù)量漸趨減少，邱均平更側(cè)重于信息計量與科學(xué)評價領(lǐng)域，唐曉波專注于語義本體和數(shù)據(jù)挖掘方向，李綱涉及信息管理與信息系統(tǒng)內(nèi)容。王晰巍的ADC年度均值波動較大，作為吉林大學(xué)信息管理系學(xué)者代表，歷年的研究包括信息行為、輿情分析等網(wǎng)絡(luò)信息生態(tài)相關(guān)主題，既關(guān)注圖書情報學(xué)的熱點與前沿應(yīng)用，也善于從理論角度捕捉其他領(lǐng)域的發(fā)展動態(tài)。嚴(yán)貝妮、王福作為青年學(xué)者的代表，前者關(guān)注情報學(xué)中信息資源管理的內(nèi)容，后者集中于圖書館個性化服務(wù)、圖書館服務(wù)技術(shù)應(yīng)用、個性化服務(wù)內(nèi)容[52]。同樣作為圖書館學(xué)的研究者，司莉、肖希明、鄂麗君分別從圖書館學(xué)教育、知識組織與知識管理、信息資源開放獲取、圖書館營銷等角度展開對圖書館學(xué)的研究，探討圖書館服務(wù)向智慧化、個性化轉(zhuǎn)變的議題。

通過本節(jié)分析，概括可得：①高產(chǎn)作者多數(shù)偏向情報學(xué)學(xué)科，專攻圖書館學(xué)或檔案學(xué)的學(xué)者較少；②ADC數(shù)值分布的結(jié)果與各學(xué)者在不同時間區(qū)間內(nèi)的研究內(nèi)容相符合，偏向熱點話題和新興領(lǐng)域的學(xué)者所產(chǎn)出的論文區(qū)分能力更強，側(cè)重綜述性評價和常規(guī)性研究的學(xué)者所產(chǎn)出的論文區(qū)分能力較弱。

4.4 基于主題熱度的差異性分析

為從整體性視角研究ADC數(shù)值分布與主題變化之間存在的規(guī)律，本章節(jié)將從主題熱度的角度揭示不同區(qū)間的主題情況。主題熱度一般通過主題與文檔之間的關(guān)聯(lián)程度進行表示，其中相同的主題能夠以不同的重要程度出現(xiàn)在不同的文檔中，而被提及到的文檔篇數(shù)越多則代表相應(yīng)的主題熱度越高。主題熱度可以根據(jù)LDA模型的輸出數(shù)據(jù)之一，即“文檔—主題”的分布進行計算，通過計算得出某個主題在所有文檔中出現(xiàn)概率的平均值，獲得相應(yīng)的主題熱度。對不同ADC分區(qū)的論文題錄信息進行LDA分析，以概括得出相應(yīng)的主題內(nèi)容。

考慮到將21827篇論文放在同一個論文集合中進行LDA分析可能會導(dǎo)致主題數(shù)量過多，因此，將論文按照ADC數(shù)值區(qū)間進行劃分，對不同區(qū)間分別進行LDA主題分析，對比分析不同區(qū)間的主題數(shù)量與熱點主題，以突出不同數(shù)值區(qū)間中論文的關(guān)鍵詞語分布及研究內(nèi)容差異，并且觀察每個區(qū)間內(nèi)的主題分布細(xì)節(jié)。根據(jù)主題熱度算法在每個區(qū)間中篩選出前10個主題，以代表該區(qū)間研究的熱點主題，見表3。

圖3 各ADC分區(qū)中的LDA主題分析結(jié)果

研究發(fā)現(xiàn)，圖書館、情報與文獻(xiàn)學(xué)學(xué)科論文在2014—2018年間的研究熱點主要包括七大類，即圖書館相關(guān)類(圖書館服務(wù)、公共圖書館、高校圖書館、數(shù)字圖書館等)、社交媒體類(網(wǎng)絡(luò)輿情分析、用戶行為分析、社會網(wǎng)絡(luò)分析等)、算法學(xué)習(xí)類(神經(jīng)網(wǎng)絡(luò)、遺傳算法、算法改進等)、文獻(xiàn)計量類(計量指標(biāo)構(gòu)建、多粒度學(xué)術(shù)對象評價、補充計量學(xué)等)、企業(yè)知識管理類(協(xié)同創(chuàng)新、戰(zhàn)略決策、績效評價等)、本體類(情感分析、實體/屬性/關(guān)系抽取、知識圖譜構(gòu)建等)、學(xué)科建設(shè)類(跨學(xué)科交流、人才培養(yǎng)、職業(yè)分析等)，其中與圖書館相關(guān)的研究熱點最高，在所有區(qū)間中的主題排名都非?？壳埃溆嘀黝}在各個區(qū)間中的研究熱點排名和內(nèi)容有較大波動?？傮w而言，隨著ADC數(shù)值的增加，相同單位的論文數(shù)量下主題的數(shù)量呈現(xiàn)出增長的趨勢，研究的主題更加豐富多元。

對比分析表3中三個區(qū)間的熱點主題，在所有包含學(xué)科相關(guān)的熱點主題中，雖然ADC<0的論文中包含圖書情報學(xué)科建設(shè)內(nèi)容，但相應(yīng)的詞語集中在圖書館學(xué)和情報學(xué)學(xué)科中，主要為情報學(xué)、圖書館學(xué)、情報分析、情報工作、目錄學(xué)、圖書、情報研究等，其中與檔案學(xué)相關(guān)的僅有“檔案學(xué)”作為學(xué)科介紹詞而存在。在ADC≥2的區(qū)間中，檔案學(xué)被單獨分為一個熱點主題，包含內(nèi)容有檔案館、檔案管理、文獻(xiàn)、史料、歸檔、編纂、口述等，由于自身的理論體系、研究對象、工作業(yè)務(wù)、組織機構(gòu)不同于圖書館學(xué)和情報學(xué)，且本身術(shù)語具有的獨特性，而擁有較高的ADC區(qū)分值。

在ADC<0的區(qū)間內(nèi)，占據(jù)前三個熱點的主題都是與圖書館相關(guān)的主題，偏向于理論化和傳統(tǒng)化的內(nèi)容，術(shù)語較多集中在“研究領(lǐng)域、理論、服務(wù)模式、資源配置、資源整合、館藏”；而后面兩個區(qū)間則涉及到用戶分析、機器學(xué)習(xí)、多粒度學(xué)術(shù)評價等新興主題，術(shù)語更加多元化、新穎化，包括用戶分析的生態(tài)系統(tǒng)、互聯(lián)網(wǎng)、問答、情景，以及機器學(xué)習(xí)的本體、標(biāo)簽、聚類、特征，多粒度學(xué)術(shù)評價的影響力、新穎性、熱點、領(lǐng)域、可視化等，在當(dāng)下作為研究新熱點具有非常大的研究價值。總結(jié)可得，ADC數(shù)值越小的論文對應(yīng)的研究內(nèi)容更加理論化、傳統(tǒng)化、綜合化，而ADC數(shù)值越高的論文更加新穎化、多元化、熱門化。

觀察三個區(qū)間內(nèi)的主題可以發(fā)現(xiàn)，共同或類似的主題在每個區(qū)間內(nèi)都存在，如機器學(xué)習(xí)。深入到文章內(nèi)容中去挖掘可以發(fā)現(xiàn)，在ADC<0區(qū)間中，機器學(xué)習(xí)主題的術(shù)語偏向于理論化的淺顯介紹，從理論、技術(shù)、方法的角度闡述相關(guān)的內(nèi)容，詞語也集中于概念、理論、文獻(xiàn)、模型、學(xué)習(xí)、局限、規(guī)則、效果等描述性字詞，以綜述類及方法介紹類文獻(xiàn)為主，較少利用數(shù)據(jù)和實驗結(jié)果來驗證觀點；在0≤ADC<2的區(qū)間中，排名較為靠前的詞語為進行、構(gòu)建、實現(xiàn)、計算、實驗、抽取、研究，能夠針對具體的問題進行實際性的計算、研究、應(yīng)用，提出新的方法、引入新數(shù)據(jù)、側(cè)重于研究型成果的應(yīng)用性和實踐性；在ADC≥2的區(qū)間中，新的詞語諸如推薦、預(yù)測、比較、發(fā)現(xiàn)、改進、創(chuàng)新則是從創(chuàng)新的視角對各種方法進行靈活運用，將相應(yīng)算法推廣到信息推薦、數(shù)據(jù)預(yù)測的前沿應(yīng)用，甚至能夠突破原理、改進流程，在具體的應(yīng)用中完成對方法的深入理解，并提出相應(yīng)解決方案、實現(xiàn)理論層次上的高難度創(chuàng)新。概括可得，隨著ADC數(shù)值的增大，相似的主題下論文研究的內(nèi)容更加深入、細(xì)化、具體。

本節(jié)分析可得：①圖書館、情報與文獻(xiàn)學(xué)學(xué)科的研究主題中，最為熱門的主題圍繞圖書館展開；②隨著ADC數(shù)值的增加，論文研究的主題不僅更加深入和細(xì)化，而且偏向于多元化、熱門化的領(lǐng)域，反之則呈現(xiàn)出理論化、常規(guī)化的內(nèi)容。

5 結(jié)論

本文選取了2014—2018年間被CSSCI核心期刊收錄的圖書館、情報與文獻(xiàn)學(xué)學(xué)科論文作為實驗對象，采用ADC指標(biāo)從內(nèi)容差異性視角對論文對象的區(qū)分能力進行測度和分析，結(jié)合具有語義特征的BERT模型計算ADC數(shù)據(jù)結(jié)果，探討論文ADC的總體、局部和個體區(qū)分能力特征。通過分析期刊的ADC分布對學(xué)科的整體區(qū)分能力進行測度，根據(jù)不同學(xué)者的研究方向和論文ADC總體水平，對學(xué)者總體的區(qū)分能力水平進行探討，采用LDA主題分析深入分析了ADC較大和較小區(qū)間論文在研究主題上的差異。通過實驗分析發(fā)現(xiàn)：①論文區(qū)分能力越強表明其研究內(nèi)容越具獨特性或創(chuàng)新性，對應(yīng)的研究主題新穎化、多元化、熱門化，視角更加深入、細(xì)化、具體，反之，越弱則說明研究同質(zhì)性越明顯，主題偏向理論化、傳統(tǒng)化、綜合化；②不同學(xué)科類別和期刊的論文ADC總體水平具有顯著差異，圖書館學(xué)和檔案學(xué)期刊的論文ADC總體水平要高于情報學(xué)期刊；③不同學(xué)者的論文ADC總體水平也存在明顯差異，與其研究領(lǐng)域或主題相關(guān)，偏向熱點話題和新興領(lǐng)域的學(xué)者所產(chǎn)出的論文區(qū)分能力較強，側(cè)重綜述性評價和常規(guī)性研究的學(xué)者所產(chǎn)出的論文區(qū)分能力較弱。

總體來看，本文所提出的ADC方法能夠有效地度量學(xué)術(shù)論文的差異性，適用于學(xué)術(shù)論文的差異性評價。然而本文也存在可以改進的地方：第一，后續(xù)將考慮改進基于BERT模型進行相似度度量的技術(shù)；第二，由于本文研究的來源論文局限于CSSCI中文期刊圖書館、情報與文獻(xiàn)學(xué)學(xué)科，沒有考慮多學(xué)科的對比和多語種的適用性，在后續(xù)的研究中，將考慮進行補充研究。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡