国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于時(shí)間加權(quán)A-T模型的學(xué)者相似度計(jì)算研究*

2021-10-08 13:55:58陳紅伶
情報(bào)雜志 2021年9期
關(guān)鍵詞:學(xué)者聚類文獻(xiàn)

李 倩 陳紅伶 許 鑫

(華東師范大學(xué)經(jīng)濟(jì)與管理學(xué)部 上海 200062)

0 引 言

學(xué)者推薦系統(tǒng)可以準(zhǔn)確高效地查找關(guān)聯(lián)的科研人員、學(xué)科知識和研究領(lǐng)域等信息,而推薦是依靠計(jì)算學(xué)者之間的相似度來實(shí)現(xiàn)的。學(xué)者之間的相似度可以通過對學(xué)者之間的顯性關(guān)系和隱性關(guān)系建模計(jì)算,顯性關(guān)系中應(yīng)用最廣泛的是合著關(guān)系,隱性關(guān)系中則是引用關(guān)系,包括耦合關(guān)系(共引關(guān)系)、共被引關(guān)系等,隨著研究的深入,也有學(xué)者將關(guān)鍵詞、主題詞等納入研究的范疇,結(jié)合機(jī)構(gòu)、地理位置等多種指標(biāo)計(jì)算學(xué)者之間的相似度,量化學(xué)者之間的聯(lián)系,從而實(shí)現(xiàn)學(xué)者合作推薦等。但以往的研究中往往忽略時(shí)間對于知識累積和知識創(chuàng)新的影響,并未找到一個(gè)很好的方式衡量時(shí)間標(biāo)簽在當(dāng)中發(fā)揮的作用,因此對學(xué)者研究方向的衡量缺失動(dòng)態(tài)性和精確性。

基于此本文認(rèn)為在計(jì)算學(xué)者相似度時(shí)需要綜合考量科學(xué)文獻(xiàn)內(nèi)部結(jié)構(gòu)、文本語義以及時(shí)間維度的影響,以動(dòng)態(tài)的方法對學(xué)者的研究主題進(jìn)行更加客觀和全面的衡量,動(dòng)靜結(jié)合,在此基礎(chǔ)上計(jì)算學(xué)者相似度才更具意義。

1 相關(guān)研究

1.1學(xué)者相似度研究學(xué)者相似度可以從多個(gè)角度來進(jìn)行計(jì)算,如合著關(guān)系、耦合關(guān)系、同被引關(guān)系等。首先,學(xué)者相似可直接從合作關(guān)系中定義。鄧少偉[1]提出了基于論文共同作者的學(xué)術(shù)關(guān)系計(jì)算,構(gòu)建了科研人員之間基于相似度的學(xué)者推薦系統(tǒng),熊回香[2]在合作關(guān)系的基礎(chǔ)上增加了學(xué)者能力因素,通過學(xué)者的學(xué)術(shù)能力來挖掘候選學(xué)者,并根據(jù)歷史合作關(guān)系計(jì)算合作質(zhì)量,綜合計(jì)算學(xué)者相似。其次,基于同被引計(jì)算學(xué)者相似度,學(xué)者發(fā)表的文獻(xiàn)被相同文獻(xiàn)引用的次數(shù)越多,則研究內(nèi)容越相似。邱均平[3]基于國內(nèi)制漿造紙領(lǐng)域構(gòu)建了學(xué)者(第一作者)共被引矩陣,采用社會(huì)網(wǎng)絡(luò)分析方法計(jì)算共被引所形成的相似性。馬瑞敏[4]從第一作者耦合的角度計(jì)算作者相似度,耦合次數(shù)越多,研究方向越相似,對同被引計(jì)算相似度進(jìn)行了補(bǔ)充。近期學(xué)界更多關(guān)注從研究主題、研究領(lǐng)域定義和計(jì)算學(xué)者相似度。傅城州[5]采集學(xué)者社會(huì)網(wǎng)絡(luò)平臺的學(xué)者信息,通過標(biāo)簽提取的方式,利用學(xué)術(shù)領(lǐng)域相似的方法計(jì)算學(xué)者的相似度。陳潔敏通過“用戶-項(xiàng)目-標(biāo)簽”三部圖擴(kuò)散算法計(jì)算用戶的相似度,并引入了用戶興趣主題分布,通過KL距離綜合計(jì)算用戶相似度。孫賽美[6]通過主題模型衡量學(xué)者研究興趣,結(jié)合三度影響力理論,融合信任度和研究興趣相似度計(jì)算學(xué)者相似度。XU Yunhong[7]綜合考慮學(xué)者之間的學(xué)術(shù)關(guān)系和研究主題兩個(gè)因素,根據(jù)學(xué)者之間的主題詞和學(xué)者關(guān)系構(gòu)建異質(zhì)網(wǎng)絡(luò),后通過網(wǎng)絡(luò)計(jì)算學(xué)者之間的相似度。Chaiwanarom[8]等將作者主題模型擴(kuò)展而來的語義方法結(jié)合共同作者網(wǎng)絡(luò),提出了一種尋找潛在合作者的方法。國內(nèi)學(xué)者關(guān)鵬[9]、何勁[10]、逯萬輝[11]等采用作者主題模型算法, 抽取作者-主題關(guān)聯(lián)矩陣, 追蹤學(xué)科領(lǐng)域生命周期中的主題強(qiáng)度和作者研究興趣的變化、對作者-主題關(guān)聯(lián)的學(xué)科知識網(wǎng)絡(luò)進(jìn)行演化分析,進(jìn)行作者研究主題聚類等,但并未對時(shí)間標(biāo)簽做進(jìn)一步分析。Peng Hongwei[12]注意到了時(shí)間維度上學(xué)者的研究興趣可能會(huì)發(fā)生轉(zhuǎn)移,在計(jì)算學(xué)者相似度的過程中通過采集近期的文章來表示學(xué)者當(dāng)前的研究方向和興趣。通過學(xué)者近期的研究成果來衡量學(xué)者當(dāng)前的研究興趣具有可取性,但直接切斷以前的研究成果,對學(xué)者研究方向的整體衡量缺失了精確性和動(dòng)態(tài)性。因此需要在時(shí)間維度上對學(xué)者的研究主題進(jìn)行分析可以更加客觀和全面衡量學(xué)者的研究主題,在此基礎(chǔ)上計(jì)算學(xué)者相似度更具意義。

1.2基于時(shí)間加權(quán)的主題-作者模型研究傳統(tǒng)的主題建模方法利用文本的內(nèi)部特征,忽略了基于語義的文檔間詞匯的內(nèi)在結(jié)構(gòu),且不考慮時(shí)間因素的影響,這使得分析結(jié)果與真實(shí)情況總有所違背[13]。基于時(shí)間維度的權(quán)重分析較早出現(xiàn)在計(jì)算機(jī)的推薦系統(tǒng)領(lǐng)域研究中,張磊[14]指出用戶對于資源的興趣基于時(shí)間變化,用戶評分的重要性也會(huì)隨時(shí)間衰減,通過基于遺忘曲線的相似度計(jì)算,提高推薦系統(tǒng)的準(zhǔn)確度。陳海龍[15]針對傳統(tǒng)算法相似度計(jì)算不足的問題,提出了融合用戶興趣變化和類別關(guān)注度的推薦算法,將基于時(shí)間的興趣度權(quán)重函數(shù)引入項(xiàng)目相似度計(jì)算中,提高用戶推薦準(zhǔn)確度。在學(xué)術(shù)文獻(xiàn)挖掘中,閔波[16]基于新文獻(xiàn)相對于舊文獻(xiàn)更助于科研人員獲取科學(xué)假設(shè)的基礎(chǔ),建立時(shí)間加權(quán)的文獻(xiàn)知識發(fā)現(xiàn)方法,提高了發(fā)現(xiàn)的準(zhǔn)確率。江秋菊[17]指出文獻(xiàn)在具備相同被引頻次的情況下,近期發(fā)表的文獻(xiàn)的影響力通常更高,提出了融入主題和時(shí)間因素的文獻(xiàn)影響力計(jì)算,從細(xì)粒度層面評價(jià)文獻(xiàn)的影響力。伍哲[18]同樣采用融合學(xué)術(shù)文獻(xiàn)的發(fā)表時(shí)間因素,通過文獻(xiàn)的發(fā)表時(shí)間增加特征詞的時(shí)間權(quán)重,提出了時(shí)間加權(quán)的TF-IDF學(xué)術(shù)文獻(xiàn)主題分析方法,使主題的區(qū)分度更高。Ho K.T.[19]等提出了一種結(jié)合作者主題模型與文本信息的Textual-ABM模型來文檔的內(nèi)容及作者的興趣進(jìn)行建模,進(jìn)而分析社交網(wǎng)絡(luò)的動(dòng)態(tài)性。當(dāng)前大多數(shù)方法致力于發(fā)現(xiàn)靜態(tài)的潛在主題和用戶興趣,或者僅從文檔的文本內(nèi)容出發(fā)來分析主題演變,而沒有直接考慮諸如作者、時(shí)間之類的影響因素。為了克服這個(gè)問題,有學(xué)者提出了一種使用帶有時(shí)間戳的作者和主題的文檔的動(dòng)態(tài)用戶興趣模型 Author-Topic over Time(AToT)模型[20],但此類模型廣泛用于景點(diǎn)推薦[21]和電子郵件分析[22]等,較少用于研究學(xué)者之間的科研主題相似度。

雖然特定主題的概念幾乎不會(huì)發(fā)生改變,但主題和作者之間的混合分布及相關(guān)性會(huì)隨時(shí)間而變化。因此,本文將論文題錄結(jié)構(gòu)和語義相結(jié)合,結(jié)合遺忘曲線的思想,給出引入時(shí)間加權(quán)得到學(xué)者的主題重要度和學(xué)者相似度計(jì)算方法,綜合考慮學(xué)者發(fā)文的主題和時(shí)間因素,通過分析學(xué)者在某主題和時(shí)間序列下的發(fā)文規(guī)律,沉淀舊主題,突出新主題,有效提高學(xué)者關(guān)聯(lián)匹配的準(zhǔn)確性。

2 模型與方法

2.1 A-T模型研究A-T模型(Author-Topic Model),即作者-主題模型,是以無監(jiān)督學(xué)習(xí)方式從數(shù)據(jù)中學(xué)習(xí)主題和作者的分布模型[23],是在LDA模型的基礎(chǔ)上發(fā)展而來。LDA模型是語料庫的生成統(tǒng)計(jì)模型[24]。在LDA中,可以將每個(gè)文檔視為不同主題的混合,并且每個(gè)主題的特征在于單詞的有限詞匯量上的概率分布。LDA的生成模型由一個(gè)概率圖形來描述 ,但是LDA僅將文檔視為概率性主題的混合體,并未考慮作者的重要性,A-T模型在此基礎(chǔ)上加以改進(jìn),可以同時(shí)對文檔的內(nèi)容和作者進(jìn)行建模。

如果僅根據(jù)一篇研究論文對主題進(jìn)行建模,則稱其為文檔-主題模型D-T模型;A-T模型不同于D-T模型:當(dāng)收集了作者的全部研究論文以形成主題模型時(shí),稱為A-T模型。如果作者僅發(fā)表了一篇研究論文,則A-T模型與D-T模型相同。作者主題是通過匯總作者的每篇研究論文的文檔來獲得研究主題,更能代表作者的研究興趣和方向[25]。

通過訓(xùn)練語料庫,可以通過A-T模型來限定單詞-主題分布和主題-作者分布。本研究中選擇Python中的Gensim工具包來訓(xùn)練和更新A-T模型,通過一致性來確定最佳主題數(shù)。

2.2學(xué)者時(shí)間維度的主題分布本文利用A-T模型挖掘隱含的“作者-主題”語義信息。對于每一篇文獻(xiàn)將LDA概率最大的主題作為該文獻(xiàn)的研究主題。本文默認(rèn)第一作者對文獻(xiàn)的主題貢獻(xiàn)最高,通過第一作者-文獻(xiàn)的對應(yīng)關(guān)系,將學(xué)者和主題對應(yīng)起來,保留文獻(xiàn)的發(fā)表時(shí)間,從而得到作者的主題和時(shí)間兩個(gè)維度下的發(fā)文量分布。以范并思學(xué)者為例,如表1所示:

表1 學(xué)者時(shí)間-主題雙維度發(fā)文量分布

2.3基于時(shí)間加權(quán)的主題重要度計(jì)算

2.3.1 基于遺忘曲線的時(shí)間關(guān)注度計(jì)算 遺忘曲線是心理學(xué)領(lǐng)域中關(guān)于人類自然遺忘規(guī)律的曲線,是由德國的心理學(xué)家Hermann Ebbinghaus[26]提出的,曲線揭示了記憶和遺忘是指數(shù)形式的變化,并遵循先快后慢的規(guī)律[27]。江志恒[28]基于遺忘曲線,對記憶的保持量提出了定量計(jì)算的保持量函數(shù),如式1所示。

(1)

本文采用遺忘曲線擬合學(xué)者的特定主題下的發(fā)文隨時(shí)間變化的關(guān)注度,時(shí)間關(guān)注度timeweigh通過遺忘曲線的內(nèi)涵表示學(xué)者近期的研究成果,更能代表學(xué)者現(xiàn)在的研究方向和偏好,如公式(2)所示。其中i代表年份,ti表示第i年,to則表示最新年份的時(shí)間,本文中to為2019,numi表示ti年份下學(xué)者特定主題的發(fā)文篇數(shù)。timeweigh表示的是根據(jù)年份和發(fā)文數(shù)量的加權(quán)和來表示該學(xué)者特定主題的關(guān)注度。時(shí)間距離現(xiàn)在越久,關(guān)注度權(quán)重越小。

(2)

2.3.2 基于發(fā)文間隔的穩(wěn)定性計(jì)算 學(xué)者近期的成果更能代表學(xué)者現(xiàn)在的研究方向和偏好,在此理解基礎(chǔ)上,本文對學(xué)者在一個(gè)主題下發(fā)文的穩(wěn)定性進(jìn)行計(jì)算,如果學(xué)者的發(fā)文是連續(xù)不斷的,可以推斷學(xué)者在該研究方向和領(lǐng)域有著持續(xù)研究和產(chǎn)出,說明該主題是該學(xué)者的重點(diǎn)關(guān)注和研究的方向,如公式(3)所示。穩(wěn)定性successionweigh計(jì)算了主題下發(fā)文時(shí)間序列間隔期的方差倒數(shù),其中這一方差用sTopic2來表示,如果發(fā)文間隔期的方差越小,則穩(wěn)定性更高,則穩(wěn)定性指標(biāo)的值更高。

(3)

2.3.3 學(xué)者主題重要度計(jì)算 本文采用時(shí)間關(guān)注度timeweigh和穩(wěn)定性successionweigh的乘積表示學(xué)者主題重要度Topicimportance,如公式(4)所示。當(dāng)一個(gè)學(xué)者對于某個(gè)主題事件關(guān)注度越高,且關(guān)注越穩(wěn)定,那么有理由認(rèn)為這一學(xué)者在該主題下的重要度是很高的。這一重要度不再平等看待所有發(fā)文,而是加入了時(shí)間權(quán)重,能有效區(qū)別部分作者很早之前所做的主題研究,提高其在近期所做研究主題的權(quán)重。

Topicimportance=timeweigh*successionweigh

(4)

2.4基于余弦相似度的學(xué)者相似度計(jì)算結(jié)合上述指標(biāo),引入基于時(shí)間加權(quán)的主題重要度計(jì)算方法,形成學(xué)者和主題的二維矩陣,數(shù)值為學(xué)者在該主題下的主題重要度,可以清晰得到學(xué)者的主題分布和以及在該主題下的關(guān)注度,即學(xué)者主題重要度Topicimportance。本文采用余弦相似度計(jì)算學(xué)者的相似度。余弦相似度用向量空間中兩個(gè)向量夾角的余弦值衡量兩個(gè)個(gè)體間的差異度大小,余弦值越接近1,兩個(gè)向量越相似。主題數(shù)量屬于高維度,采用余弦相似度計(jì)算更加適合和直觀,學(xué)者相似度Similarity公式計(jì)算如公式(5)所示,其中向量M和N表示學(xué)者的研究主題分布,向量Mi和Ni分別代表向量M和N的分量,即各學(xué)者在主題i下的主題重要度。

(5)

3 實(shí)證研究

3.1數(shù)據(jù)獲取與處理本文的實(shí)驗(yàn)數(shù)據(jù)來源是中國知網(wǎng)CSSCI和CSCD核心期刊數(shù)據(jù)庫,文獻(xiàn)分類目錄中勾選“圖書情報(bào)與數(shù)字圖書館”,圖書情報(bào)與數(shù)字圖書館領(lǐng)域兼顧人文社會(huì)和科學(xué)技術(shù)研究,比較有代表性,以該領(lǐng)域的文獻(xiàn)和作者信息作為實(shí)驗(yàn)數(shù)據(jù)集驗(yàn)證基于時(shí)間加權(quán)A-T模型計(jì)算的學(xué)者相似度具有較好的適用性。檢索日期是2019年4月29日,最終采集得到96 671條文獻(xiàn)題錄信息,覆蓋年份為1998-2019年。在采集得到的題錄數(shù)據(jù)中,去除掉作者、摘要或第一作者等重要字段為空的非研究類文獻(xiàn),得到有效數(shù)據(jù)89 177條作為本文的實(shí)驗(yàn)數(shù)據(jù),涉及11 85種期刊,47 206位作者。

本文通過Python的jieba工具包對文獻(xiàn)的摘要做文本預(yù)處理,包括分詞、去停用詞、同義替換以及作者消歧、語義消歧等,之后將所有文獻(xiàn)的題名摘要作為語料庫訓(xùn)練LDA模型,根據(jù)困惑度確定最佳主題數(shù),最終確定返回50個(gè)主題,依次標(biāo)為主題1、主題2、主題3……主題50,并以此作為每一篇論文的標(biāo)簽,即該篇論文的研究主題。

得到每一篇文獻(xiàn)的主題后,采用Python的Pandas工具包對學(xué)者和主題構(gòu)建學(xué)者-主題-時(shí)間矩陣表,導(dǎo)入基于時(shí)間加權(quán)的主題重要度模型進(jìn)行計(jì)算,導(dǎo)出學(xué)者的主題重要度分布數(shù)值表,最后采用余弦相似度計(jì)算學(xué)者的相似度。

3.2實(shí)驗(yàn)結(jié)果

3.2.1 學(xué)者-主題重要度矩陣可視化分析 首先對整體的學(xué)者主題關(guān)注度表現(xiàn)進(jìn)行可視化,在學(xué)者-主題關(guān)注度矩陣當(dāng)中表達(dá)了三維特征,橫軸表示主題,縱軸表示作者,值表示主題重要度,這里的主題重要度見前文的公式(4)。本文采用平行坐標(biāo)圖Parallel coordinates plot進(jìn)行繪制,隨機(jī)選擇了圖書館方向的24位學(xué)者及其主題進(jìn)行主題重要度可視化。如圖 1所示,每條豎線表示一個(gè)特征,即某一個(gè)主題,數(shù)值是學(xué)者在該主題研究中關(guān)注的突出程度,表現(xiàn)在圖中即氣泡的大小??梢钥闯龃蠖鄶?shù)作者在主題的重要度上表現(xiàn)較為一致,即不會(huì)同時(shí)廣泛涉獵多個(gè)主題且有大量產(chǎn)出,但會(huì)集中于某少數(shù)主題進(jìn)行深入研究。因此他們的主題重要度會(huì)在某一些主題上突出顯示,而在其他主題上顯示為零值,少有涉獵的話則會(huì)顯示較小的氣泡。以趙蓉英為例,她在主題39(基于知識圖譜的文獻(xiàn)計(jì)量)、主題24(競爭情報(bào))、主題30(公共圖書館與圖書館聯(lián)盟)、主題42(基于引文分析的文獻(xiàn)計(jì)量)、主題43(圖書館學(xué)與情報(bào)學(xué))上有顯示或大或小的氣泡,在其他主題上顯示為空。在這七個(gè)主題當(dāng)中,趙蓉英對主題39(基于知識圖譜的文獻(xiàn)計(jì)量)中的關(guān)注度要顯著高于其他幾個(gè)主題,對主題30(公共圖書館與圖書館聯(lián)盟)和主題43(圖書館學(xué)與情報(bào)學(xué))則是稍有涉獵,因?yàn)槠錃馀荽笮?重要程度)明顯小于其他幾個(gè)主題。

對于部分主題來說學(xué)者的主題重要度都較小甚至為0,對于學(xué)者的區(qū)分度不高,除卻此類的主題以外,在少數(shù)主題上學(xué)者的差異度較大,這些少數(shù)主題就是區(qū)別學(xué)者的重要標(biāo)志。以主題39(基于知識圖譜的文獻(xiàn)計(jì)量)為例,在圖1中顯示的20位學(xué)者當(dāng)中,對主題39有所研究并有所產(chǎn)出的學(xué)者有7位,分別是邱均平、趙蓉英、張敏、唐曉波、馮佳、侯劍華和嚴(yán)貝妮,而這7位學(xué)者當(dāng)中,雖然邱均平在該主題下的產(chǎn)出有161篇,明顯多于其他幾位學(xué)者,但排除長時(shí)間累積的因素,重點(diǎn)關(guān)注近年來該主題下的學(xué)術(shù)產(chǎn)出,趙蓉英學(xué)者的主題重要度相對更高。根據(jù)上述分析可以發(fā)現(xiàn)雖然隨機(jī)選擇的學(xué)者研究領(lǐng)域都是圖書館方向,但在細(xì)分領(lǐng)域下,經(jīng)過時(shí)間加權(quán)后學(xué)者的表現(xiàn)具有更高的區(qū)分度。

圖1 學(xué)者和主題重要度平行坐標(biāo)圖

3.2.2 靜態(tài)學(xué)者相似度分析 首先基于整體數(shù)據(jù)從靜態(tài)的角度判斷學(xué)者相似度。由于主題數(shù)量屬于高維度,采用余弦相似度計(jì)算更加直觀適合,因此本文基于學(xué)者在主題上重要度的余弦距離來計(jì)算學(xué)者之間的相似度。根據(jù)主題重要度之和對學(xué)者進(jìn)行降序排列,選擇前8位學(xué)者,計(jì)算這些學(xué)者與其他幾位學(xué)者的相似度并可視化,如表2和圖 2所示,相似度范圍為0~1之間,學(xué)者和自身的相似度為1,相似度越大,越接近1,顏色越深;相似度越小,越接近0,顏色越淺;相似度為0則表示兩位學(xué)者并無研究領(lǐng)域的重合。對于高于0.85的相似度加粗表示,可以發(fā)現(xiàn)學(xué)者袁紅軍和學(xué)者劉磊、馬曉亭三者之間都保持高相似度;學(xué)者邱均平和學(xué)者趙蓉英相似度高,與其他6位學(xué)者相似度都較低;而學(xué)者吳稌年、王世偉以及王知津三位學(xué)者和其他幾位學(xué)者之間相似度都較低,說明上述3位學(xué)者都有自己專注的領(lǐng)域,研究的方向差異大。

圖2 前8位學(xué)者相似度熱力圖

表2 前8位學(xué)者相似度矩陣

續(xù)表2 前8位學(xué)者相似度矩陣

為進(jìn)一步證明上述計(jì)算結(jié)果的合理性,以選擇的這8位學(xué)者為例,通過知網(wǎng)學(xué)者庫的機(jī)構(gòu)、所標(biāo)識的研究方向和本文得到的結(jié)果進(jìn)行驗(yàn)證,如表6所示,發(fā)現(xiàn)趙蓉英和邱均平同為武漢大學(xué)的學(xué)者,在知網(wǎng)學(xué)者庫中標(biāo)識的研究方向都為“圖書情報(bào)與數(shù)字圖書館、高等教育、科學(xué)研究管理”,且在主題39(基于知識圖譜的文獻(xiàn)計(jì)量)和主題42(基于引文分析的文獻(xiàn)計(jì)量)中都有一定的研究,如表3所示。而袁紅軍、馬曉亭和劉磊雖然分屬不同機(jī)構(gòu),但在知網(wǎng)學(xué)者庫中的研究方向都與計(jì)算機(jī)軟件及計(jì)算機(jī)應(yīng)用先關(guān),但也有各自的細(xì)分方向,例如袁紅軍研究“檔案及博物館”,劉磊研究“新聞與傳媒”,馬曉亭研究“民商法”,3人都對主題40(高校圖書館與信息服務(wù))有所研究,如表4所示。 吳稌年、王世偉和王知津3位學(xué)者則明顯有自己專注的領(lǐng)域,如吳稌年專注于主題23(圖書館史),王世偉專注于主題30(公共圖書館與圖書館聯(lián)盟),而王知津?qū)χ黝}42(圖書館學(xué)與情報(bào)學(xué))研究較多。如表5所示。

表3 趙蓉英-邱均平主題重要度對比

表4 袁紅軍-馬曉亭-劉磊主題重要度對比

續(xù)表4 袁紅軍-馬曉亭-劉磊主題重要度對比

表5 吳稌年-王世偉-王知津主題重要度對比

表6 學(xué)者基本信息

上述分析是基于整體數(shù)據(jù)從靜態(tài)的角度判斷基于時(shí)間加權(quán)A-T模型識別相似學(xué)者的結(jié)果,根據(jù)回溯作者發(fā)文和作者機(jī)構(gòu)可以發(fā)現(xiàn)本文提出的方法可以有效計(jì)算學(xué)者之間的相似度并識別得到在研究主題和方向上相似的學(xué)者,整體結(jié)果具有可信度。

3.2.3 動(dòng)態(tài)學(xué)者相似度分析 由于引入了遺忘曲線計(jì)算事件關(guān)注度,即在關(guān)注主題的同時(shí)還考慮了時(shí)間變化在判別學(xué)者研究主題的影響,因此為了進(jìn)一步探究本方法中時(shí)間加權(quán)思想對于學(xué)者相似度計(jì)算的影響,本文繼續(xù)深入挖掘不同時(shí)間下計(jì)算得到的學(xué)者相似度的結(jié)果,即從動(dòng)態(tài)的角度分析學(xué)者之間的相似度。

在未考慮時(shí)間加權(quán)的背景下運(yùn)用A-T模型計(jì)算作者相似度,為了同考慮時(shí)間加權(quán)的A-T模型展示效果一致,此處選擇輸出主題重要度加和排名前24名的作者,并采用R軟件根據(jù)作者間最小距離(Bray-curtis距離)進(jìn)行層次聚類(UPGMA聚類),可視化結(jié)果如圖 3所示,聚類效果如圖 4所示。

圖3 未考慮時(shí)間加權(quán)A-T模型24位作者層次聚類

圖4 未考慮時(shí)間加權(quán)A-T模型24位作者層次聚類評估

根據(jù)時(shí)間加權(quán)A-T模型計(jì)算作者相似度,并采用R軟件根據(jù)作者間最小距離(Bray-curtis距離)進(jìn)行層次聚類(UPGMA聚類),可視化結(jié)果如圖 5所示,聚類效果評估如圖 6所示:

圖5 時(shí)間加權(quán)A-T模型24位作者層次聚類

圖6 時(shí)間加權(quán)A-T模型24位作者層次聚類評估

在聚類評估結(jié)果可視化圖4、圖6中,實(shí)色直線和灰色曲線分別為常規(guī)線性擬合與Lowess平滑擬合線,根據(jù)使用Bray-curtis距離的UPGMA方法得到聚類評估結(jié)果可見兩次聚類效果都達(dá)到了理想狀態(tài),在未考慮時(shí)間影響的情況下,主題重要度之和與該作者的論文發(fā)表數(shù)量是一致的,并不能突出顯示其在某個(gè)主題或某個(gè)領(lǐng)域下的關(guān)注程度,也不能明確顯示近幾年該作者關(guān)注的主題,在輸出的24位學(xué)者當(dāng)中有部分學(xué)者在早期有著十分充足的學(xué)術(shù)成果積累,并且在某些領(lǐng)域已經(jīng)成為了學(xué)術(shù)權(quán)威,但隨著時(shí)間的推移和研究的專注,學(xué)術(shù)產(chǎn)出速度有所下降。就計(jì)算學(xué)者相似度并實(shí)現(xiàn)相似學(xué)者推薦而言,不考慮時(shí)間因素將上述學(xué)術(shù)權(quán)威作為相似學(xué)者進(jìn)行推薦的結(jié)果是不夠理想的。與之不同的是考慮時(shí)間加權(quán)進(jìn)行聚類的24位學(xué)者則是在近期、有持續(xù)產(chǎn)出且對某一主題或某些主題有重點(diǎn)關(guān)注的學(xué)者。從學(xué)者相似度聚類結(jié)果來看,是近期有相似的學(xué)術(shù)研究方向或相似的關(guān)注主題才會(huì)被聚為一類。時(shí)間加權(quán)的A-T模型計(jì)算所得的學(xué)者相似度是基于當(dāng)前以及前一段時(shí)間學(xué)者的研究主題得到的,這正體現(xiàn)了時(shí)間加權(quán)的價(jià)值,即從動(dòng)態(tài)的角度衡量判斷學(xué)者最近、最主要的研究主題,計(jì)算當(dāng)下與該學(xué)者研究主題最為接近的其他學(xué)者,以此實(shí)現(xiàn)的學(xué)者推薦才能更具現(xiàn)實(shí)意義。

3.2.4 討論 根據(jù)上述實(shí)驗(yàn)結(jié)果,從靜態(tài)的角度來看,基于時(shí)間加權(quán)A-T模型計(jì)算得到的學(xué)者相似度能夠在足夠?qū)挿旱膱D書情報(bào)與數(shù)字圖書館領(lǐng)域下繼續(xù)辨別、細(xì)分更多方向,為學(xué)者提供更精準(zhǔn)的推薦;從動(dòng)態(tài)的角度來看,基于時(shí)間加權(quán)的A-T模型對時(shí)間足夠敏感,能夠在不同的時(shí)間下識別出與該學(xué)者當(dāng)前研究方向最為相似的學(xué)者,有效排除因時(shí)間久遠(yuǎn)導(dǎo)致的舊主題積累等問題。

基于時(shí)間加權(quán)A-T模型將論文題錄結(jié)構(gòu)和語義相結(jié)合,考量時(shí)間因素對于主題研究的影響,沉淀舊主題,突出新主題,使學(xué)者相似度的計(jì)算由靜態(tài)的結(jié)果變?yōu)閯?dòng)態(tài)的過程,能夠?yàn)閷W(xué)者之間交流合作做推薦提供新思路,為學(xué)術(shù)共同體的識別和基于學(xué)者個(gè)人以及整個(gè)學(xué)術(shù)共同體的主題演化提供新方法。

4 結(jié) 語

隨著時(shí)間的變化,學(xué)者的研究方向可能會(huì)更加深入,也可能會(huì)在研究興趣上有所轉(zhuǎn)移,從時(shí)間維度上來對學(xué)者的研究進(jìn)行主題分析才更加全面和客觀,基于此,本文提出了基于時(shí)間加權(quán)A-T模型計(jì)算學(xué)者相似度的方法,引入遺忘曲線概念,將時(shí)間關(guān)注度和基于發(fā)文間隔的穩(wěn)定性結(jié)合來代表學(xué)者-主題重要度,并根據(jù)余弦相似度來計(jì)算學(xué)者相似度,最后在圖書情報(bào)領(lǐng)域得到了檢驗(yàn),證明該相似度的方法有其合理性,且能夠動(dòng)態(tài)識別相似學(xué)者,為學(xué)術(shù)共同體的識別和科研團(tuán)體合作網(wǎng)絡(luò)的演化等研究提供了新思路。

本文是基于第一作者和文獻(xiàn)主題之間的關(guān)系研究學(xué)者相似度,其普適性還需放到其他學(xué)科和語種下,并同時(shí)考慮作者順序等來進(jìn)行進(jìn)一步檢驗(yàn)。

猜你喜歡
學(xué)者聚類文獻(xiàn)
學(xué)者介紹
學(xué)者簡介
學(xué)者介紹
Hostile takeovers in China and Japan
速讀·下旬(2021年11期)2021-10-12 01:10:43
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
大東方(2019年12期)2019-10-20 13:12:49
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
The Role and Significant of Professional Ethics in Accounting and Auditing
商情(2017年1期)2017-03-22 16:56:36
學(xué)者介紹
基于改進(jìn)的遺傳算法的模糊聚類算法
扬州市| 淅川县| 天等县| 山东| 巫溪县| 芦溪县| 湖口县| 哈巴河县| 定陶县| 珲春市| 眉山市| 浙江省| 遵义县| 云和县| 湘潭县| 双柏县| 甘南县| 牡丹江市| 常熟市| 木兰县| 疏勒县| 邵阳市| 汤原县| 伊春市| 贡嘎县| 山丹县| 岑巩县| 泰安市| 清原| 衢州市| 平利县| 平顺县| 崇义县| 夏河县| 睢宁县| 江陵县| 桐梓县| 平乐县| 光山县| 霞浦县| 高邮市|