国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于天際線算法的主題排序方法研究

2022-05-19 06:58萬校基李海林龔燕燕林海龍
情報學(xué)報 2022年4期
關(guān)鍵詞:天際線相似性排序

萬校基,李海林,龔燕燕,林海龍

(1. 華僑大學(xué)工商管理學(xué)院,泉州 362021;2. 華僑大學(xué)東方企業(yè)管理研究中心,泉州 362021)

1 引 言

信息爆炸時代,面對海量科技文獻(xiàn),科研人員難以高效地獲取學(xué)科研究熱點和發(fā)展趨勢。與此同時,相關(guān)期刊也面臨如何甄選符合時代特色和學(xué)科發(fā)展趨勢文獻(xiàn)的困境。為全面深入了解相關(guān)學(xué)科發(fā)展態(tài)勢,迫切地需要對科技文獻(xiàn)的主題進(jìn)行深層次挖掘、梳理與分析。

近年來,國內(nèi)外研究者對科技文獻(xiàn)主題進(jìn)行了大量研究,主要集中于主題識別和主題排序等方面。①主題識別方面:較多研究者通過詞頻分析[1]、共詞分析[2]、共引分析[3]等文獻(xiàn)計量統(tǒng)計法來開展研究,其中詞頻分析法主要是通過關(guān)鍵詞頻數(shù)來識別相關(guān)文獻(xiàn)主題,缺乏對關(guān)鍵詞之間相關(guān)性的考慮;共詞分析法是結(jié)合關(guān)鍵詞共現(xiàn)次數(shù)和Jaccard、余弦指數(shù)等相似性度量方法來構(gòu)建關(guān)鍵詞相似性矩陣,再通過層次聚類、多維尺度分析和社會網(wǎng)絡(luò)分析等方法來進(jìn)行主題劃分和提取,缺乏對關(guān)鍵詞在不同文獻(xiàn)中重要性的考慮,同時也面臨著提前設(shè)置聚類個數(shù)和尺度大小等人為主觀因素的影響;共引分析法是通過分析文獻(xiàn)之間的引用和被引用關(guān)系,以及多維尺度分析和聚類等方法獲取相似主題,需要花費大量時間對共引文獻(xiàn)開展分析。隨著數(shù)據(jù)挖掘技術(shù)的進(jìn)一步發(fā)展,部分研究者在共詞分析的基礎(chǔ)上,借助相關(guān)聚類算法來開展主題分析研究。如傳統(tǒng)經(jīng)典聚類算法k-means[4],由于原理簡單,可解釋度較強,其在文本聚類[5]和機器學(xué)習(xí)[6]等方面得到了廣泛的應(yīng)用。然而該方法對噪音和異常點數(shù)據(jù)比較敏感,易獲得局部最優(yōu),同時聚類效果嚴(yán)重依賴于初始中心點。為此,F(xiàn)rey 等[7]基于圖論提出了近鄰傳播(affinity propagation,AP)聚類算法,相比于其他聚類算法,該算法將每個數(shù)據(jù)點作為初始代表點,不需要設(shè)置初始中心點和聚類個數(shù),可自適應(yīng)對文獻(xiàn)主題進(jìn)行識別。鑒于其重要作用,AP聚類算法在計算機[8]、圖書情報學(xué)[9]和工程學(xué)[10]等多個領(lǐng)域獲得了廣泛應(yīng)用,然而,大部分研究僅是對首次聚類后的初始核心主題簇開展分析,未細(xì)粒度地揭示相關(guān)文獻(xiàn)主題,缺乏對學(xué)科研究的深入了解。因此,如何科學(xué)度量關(guān)鍵詞重要性,并細(xì)粒度地揭示科技文獻(xiàn)主題已成為當(dāng)前主題識別研究中的重要問題。②主題排序方面:部分研究者基于相關(guān)機器學(xué)習(xí)算法如TF-IDF(term frequency-inverse doc‐ument frequency) 加權(quán)技術(shù)[11]和概率主題模型[12-13]等對相關(guān)學(xué)科研究主題進(jìn)行了排序研究,然而他們在計算過程中的時間代價和資源消耗相對過高;與此同時,他們的研究缺乏對用戶需求因素的考慮。為此,李秀霞等[14]基于文獻(xiàn)計量和主題挖掘方法,從讀者和研究人員兩個視角,通過發(fā)文趨勢和引文趨勢對學(xué)科研究主題進(jìn)行了合理排序,但美中不足的是,他們需要結(jié)合數(shù)據(jù)不同分布特點自定義發(fā)文趨勢和引文趨勢的運算關(guān)系??紤]到文獻(xiàn)計量統(tǒng)計方法更容易理解,便于操作,且效率較高,有一部分研究者借助文獻(xiàn)計量學(xué)參量開展科技文獻(xiàn)主題排序。如蔣卓人等[15]采用了主題出現(xiàn)頻率、被引用次數(shù)和PageRank 值三種排序方式對中英文科技主題進(jìn)行了排序,并且以此為基礎(chǔ),對中英文科技主題在各自數(shù)據(jù)集中的排序相關(guān)性進(jìn)行了對比分析。然而,他們在表征科技文獻(xiàn)主題熱度時,僅用到一維度量指標(biāo),未能準(zhǔn)確和全面地揭示科技文獻(xiàn)主題熱度。因此,如何降低數(shù)據(jù)高維復(fù)雜特征,并快速準(zhǔn)確地獲取科技文獻(xiàn)主題熱度已成為主題排序研究中最具有挑戰(zhàn)性的難點之一。

針對當(dāng)前研究存在的一些不足,本文提出了一種將主題識別與主題排序相融合的新方法。通過共詞分析法和近鄰傳播(AP)聚類算法自適應(yīng)獲取初始學(xué)科研究主題[16],對低于總體平均相似性的主題簇進(jìn)行二次AP 聚類,進(jìn)而自動實現(xiàn)學(xué)科研究主題精確細(xì)劃分。與此同時,為進(jìn)一步分析同類各主題熱度,以主題簇內(nèi)中心代表關(guān)鍵詞的篇均被引量和篇均下載量為特征指標(biāo)[17],借助天際線算法(skyline algorithm)[18]和主成分分析法(principal component analysis,PCA)[19]獲取各主題熱度,最后以供應(yīng)鏈相關(guān)期刊文獻(xiàn)為例開展實驗分析,為相關(guān)科研人員和期刊的重要決策提供技術(shù)支持。

本研究的主要貢獻(xiàn)體現(xiàn)在:①通過共詞分析法、加權(quán)Ochiia 系數(shù)和AP 聚類算法自適應(yīng)識別了相關(guān)領(lǐng)域研究主題,量化了關(guān)鍵詞在文獻(xiàn)不同位置的重要性,減少了傳統(tǒng)主題提取方法如層次聚類、多維尺度分析和社會網(wǎng)絡(luò)分析等提前設(shè)置聚類個數(shù)和尺度大小等人為主觀操作的影響。②有別于傳統(tǒng)一次聚類劃分主題,基于平均相似性系數(shù)精準(zhǔn)篩選待細(xì)劃分主題簇,并對篩選后的主題簇進(jìn)行二次聚類,確保了細(xì)粒度研究主題的精準(zhǔn)識別。③借助天際線算法和主成分分析法分析二次主題聚類結(jié)果,不僅降低了算法復(fù)雜度,而且細(xì)粒度地揭示了相關(guān)領(lǐng)域研究主題熱度。④新方法的運用,不僅可為相關(guān)領(lǐng)域研究者的科學(xué)選題提供指導(dǎo)意見,也可為相關(guān)期刊的精準(zhǔn)選稿提供決策支持。

2 理論基礎(chǔ)

2.1 相似性度量

傳統(tǒng)共詞分析法在利用Ochiia 系數(shù)、Jaccard、余弦指數(shù)和TF-IDF 等度量關(guān)鍵詞相似性時,會忽視同一關(guān)鍵詞在不同文獻(xiàn)中的不同重要性程度,一定程度上影響了相關(guān)領(lǐng)域研究主題的準(zhǔn)確識別。鑒于關(guān)鍵詞的重要性在一定程度上與作者給出的關(guān)鍵詞順序有關(guān),排序越靠前的關(guān)鍵詞,其對主題的描述力越強,重要性也越大。為度量關(guān)鍵詞的重要性,李海林等[20]根據(jù)關(guān)鍵詞在文獻(xiàn)中出現(xiàn)的順序計算了對應(yīng)權(quán)重wKeypk,并以wKeypk為基礎(chǔ)度量了關(guān)鍵詞兩兩之間相似性Sw(i,j),其定義的公式為

其中,Kp代表第p篇文獻(xiàn)中的關(guān)鍵詞個數(shù);k代表第p篇文獻(xiàn)中的第k個關(guān)鍵詞。

2.2 近鄰傳播(AP)聚類算法

近鄰傳播(AP)聚類算法是基于數(shù)據(jù)點間的“信息傳遞”的一種聚類算法,根據(jù)n個數(shù)據(jù)點之間的相似度進(jìn)行聚類。在數(shù)據(jù)點間迭代傳遞歸屬度(availability) 和吸引度 (responsibility) 這兩種消息,直到迭代過程收斂,類代表也隨之固定,同時將其余的數(shù)據(jù)點分配到相應(yīng)的聚類中[20-21]。與k-均值(k-means)算法或k中心點(k-medoids)算法不同,AP 算法不需要在運行算法之前確定聚類的個數(shù)。AP 算法尋找的“examplars”即聚類中心點是數(shù)據(jù)集合中實際存在的點,作為每類的代表。在AP 聚類的運算過程中,核心的兩點是對代表程度r(i,k)和合適程度a(i,k)的迭代和更新。代表程度r(i,k)是表示xk的積累信息,說明了xk對所劃分簇中xi的代表程度;合適程度a(i,k)代表xi的累積程度,說明了對于xi所在的簇,選擇xk作為代表點的合適程度有多大。

代表程度r(i,k)和合適程度a(i,k)的計算公式為

在更新信息時,為了降低可能的振蕩影響,引入衰減系數(shù)?(0 <?<1)來迭代代表程度和合適程度,具體迭代過程為

其中,k為簇中心;i為簇中某一個點;t為迭代次數(shù);?為衰減系數(shù)。

公式(5)和公式(6)說明第t+1 次迭代過程中,每條信息被設(shè)置為前次(第t次)信息更新值的?倍加上本次(第t+1 次)迭代更新值的1-?倍。顯然,迭代后的代表程度r(i,k)和合適程度a(i,k)越大,說明k點越適合作為i點的簇中心,對i點的代表程度越大。重復(fù)以上迭代過程,直到聚類結(jié)果趨于穩(wěn)定或者達(dá)到預(yù)設(shè)迭代次數(shù),算法結(jié)束。

2.3 天際線(skyline)算法

skyline 計算求解的是一個典型的多目標(biāo)優(yōu)化問題,早期研究可追溯到20 世紀(jì)70 年代,其問題可以定義如下。

給定一組多維空間數(shù)據(jù)點G{p1,p2,…,pn},sky‐line 計算并返回所有不被其他點“支配(domi‐nate)”的數(shù)據(jù)點,即skyline 點;對于多維空間中的兩個數(shù)據(jù)點pi和pj,如果其同時滿足如下兩個條件,則稱pi被pj支配:

(1)在一個維度上,pj的值小于pi的值;

(2)在剩余維度上,pj的值不大于pi的值。

顯然,skyline 計算的目的是查找數(shù)據(jù)集合中所有不被支配的對象所構(gòu)成的集合[22],其廣泛應(yīng)用于多目標(biāo)決策、用戶偏好查詢和市場分析等。

為詳細(xì)論述skyline 原理,以圖1 為例展開說明。假設(shè)點a、b、i、k為酒店,顯然,a酒店比b酒店更便宜,而且離景區(qū)更近,我們說a點在受歡迎程度上大于b點;再比較a點和i點,a點因為離景區(qū)更近,而i點更便宜,因此,a點和i點在受歡迎程度上是相同的。

圖1 skyline示例

最優(yōu)skyline 包含了一系列最受歡迎酒店的集合。在圖1 例子中,最優(yōu)skyline={a,i,k},顯然,不在最優(yōu)skyline 集合內(nèi)的酒店在大多數(shù)情況下不會被用戶考慮。因此,折線上的點就是skyline 選出的數(shù)據(jù)點,更能滿足人們的需求。

由于本文涉及的表征主題熱度的指標(biāo)不止一個,主題排序的任務(wù)可以看成是一個多維排序問題。天際線算法能夠從多維空間中查找到不被支配的對象集合,并且能夠?qū)茖W(xué)家進(jìn)行排名[23],因此,本文將借助天際線算法來開展主題排序。

3 主題排序

3.1 研究思路

如圖2 所示,通過詞頻分析法識別相關(guān)學(xué)科領(lǐng)域高頻關(guān)鍵詞,結(jié)合關(guān)鍵詞重要性公式[20]和關(guān)鍵詞相似性度量方法Ochiia 系數(shù)構(gòu)建加權(quán)高頻關(guān)鍵詞相似性矩陣,利用AP 聚類算法自適應(yīng)獲取初始主題簇。鑒于部分初始主題簇內(nèi)的關(guān)鍵詞成員相似性不強的情形,對低于總體平均相似性的初始主題簇進(jìn)行二次AP 自適應(yīng)聚類。以最終主題簇內(nèi)中心代表關(guān)鍵詞的篇均被引量和篇均下載量為主題熱度表征指標(biāo),利用天際線算法獲取主題天際線集合,最后對其進(jìn)行主成分降維,從而實現(xiàn)主題熱度排序。

圖2 本研究思路

3.2 主題排序方法

基于AP 聚類算法、skyline 算法和主成分分析法(PCA),本文構(gòu)建主題排序方法,命名為ASP算法。

通過關(guān)鍵詞權(quán)重公式(1)和相似性公式(2)構(gòu)建加權(quán)關(guān)鍵詞相似性矩陣,利用AP 聚類算法對其進(jìn)行自適應(yīng)聚類。針對某些主題簇中關(guān)鍵詞成員之間的相似性偏低、中心代表關(guān)鍵詞涵蓋不全等問題,再次通過AP 聚類算法實現(xiàn)主題再聚類。統(tǒng)計相關(guān)主題簇中心代表關(guān)鍵詞的篇均被引量和篇均下載量,對每個核心主題簇用天際線算法得到核心主題天際線集合,選取每個主題簇中最外層的核心主題作為天際線集合,對篩選后的天際線集合進(jìn)行PCA 降維處理,進(jìn)而獲取到最終主題排序結(jié)果。

4 實驗分析

為驗證本文提出的主題排序方法(ASP)的有效性和可行性,本節(jié)將以供應(yīng)鏈相關(guān)文獻(xiàn)為例開展實驗分析。

4.1 數(shù)據(jù)來源與處理

選取中國知網(wǎng)(China National Knowledge Infra‐structure,CNKI) 中收錄于SCI(Science Citation In‐dex)、EI(Engineering Index)、CSSCI(Chinese So‐cial Sciences Citation Index)、 CSCD (Chinese Sci‐ence Citation Database) 中與供應(yīng)鏈相關(guān)的期刊文獻(xiàn),檢索的主題詞為“供應(yīng)鏈”,來源時間為2010—2020 年,數(shù)據(jù)收集時間為2020 年12 月21 日。為排除不相關(guān)文獻(xiàn)的干擾,保證研究的可信度,剔除通知、征稿文件、專訪和會議等文獻(xiàn),最終獲得6329 篇有效文獻(xiàn),其中關(guān)鍵詞26735 個,篇均關(guān)鍵詞4.22 個,不重復(fù)的關(guān)鍵詞7114 個。圖3 為供應(yīng)鏈相關(guān)期刊文獻(xiàn)的每年發(fā)表情況。

圖3 供應(yīng)鏈相關(guān)期刊文獻(xiàn)的每年發(fā)表情況

由圖3 可知,2010—2020 年,供應(yīng)鏈領(lǐng)域發(fā)表論文的數(shù)量波動不大。2010 年和2013 年的發(fā)文量略微高于其他年份,從2015 年起,每年的發(fā)文量呈小幅度的下降趨勢,這似乎表明,學(xué)術(shù)界對供應(yīng)鏈相關(guān)研究的熱度有下降趨勢。

4.2 初始主題識別

關(guān)鍵詞是期刊文獻(xiàn)核心內(nèi)容的濃縮和提煉,具有較強的主題代表性[24]。通過統(tǒng)計關(guān)鍵詞在標(biāo)題或摘要中的概率,李海林等[20]發(fā)現(xiàn),不同順序的關(guān)鍵詞對相關(guān)主題的描述力不同,排位越靠前的關(guān)鍵詞,其對主題描述力越強。此外,蔣卓人等[15]也闡述了關(guān)鍵詞作為學(xué)術(shù)主題的優(yōu)勢,即關(guān)鍵詞不僅可以更為準(zhǔn)確和全面地概括文獻(xiàn)主題,也可以讓主題在語義表現(xiàn)層面上更有解釋性。鑒于關(guān)鍵詞的較強主題代表性,本文將用其來表示期刊文獻(xiàn)主題。

為便于后續(xù)初始主題識別,選取頻數(shù)超過10 的336 個高頻關(guān)鍵詞來開展分析。

根據(jù)公式(1)和公式(2)可計算得到336 階加權(quán)關(guān)鍵詞相似性方陣:

對矩陣(7)進(jìn)行AP 自適應(yīng)聚類,最終可得到如圖4 所示的11 個初始主題簇。

由圖4 可知,顏色相同的小圈屬于同一個主題簇,每個簇中間的關(guān)鍵詞與鄰近的關(guān)鍵詞成員聯(lián)系密切,是該主題簇的核心主題。通過AP 聚類獲得的11 個初始核心主題分別為“供應(yīng)鏈”“外包”“供應(yīng)鏈整合”“供應(yīng)鏈能力”“隨機需求”“供應(yīng)鏈金融”“知識共享”“信息共享”“STACKELBERG博弈”“博弈論”和“供應(yīng)鏈協(xié)調(diào)”。以初始核心主題“供應(yīng)鏈金融”為例,其包含的關(guān)鍵詞成員有區(qū)塊鏈、中小企業(yè)融資、商業(yè)銀行、資金約束等,從概念上可以看出這些關(guān)鍵詞之間聯(lián)系較為緊密。白燕飛等[25]提到,“未來區(qū)塊鏈SCF(供應(yīng)鏈金融,supply chain finance)平臺要從更廣闊的發(fā)展視角出發(fā),重在助力供應(yīng)鏈產(chǎn)業(yè)鏈的補鏈、強鏈,以綜合性金融服務(wù)基礎(chǔ)設(shè)施的方式在產(chǎn)業(yè)網(wǎng)絡(luò)中推廣和應(yīng)用,能夠更好地發(fā)揮市場激勵機制,規(guī)范供應(yīng)鏈的運營”,其清晰地揭示了“供應(yīng)鏈金融”“中小企業(yè)融資”“區(qū)塊鏈”這幾個關(guān)鍵詞的密切關(guān)系。對于以“供應(yīng)鏈”為核心的主題簇,可以看到簇內(nèi)含有“非對稱信息”“應(yīng)急管理”等關(guān)鍵詞,從概念上來看,聯(lián)系并不太緊密,但崔玉泉等[26]研究了非對稱信息下供應(yīng)鏈在突發(fā)事件下的應(yīng)急管理和信息價值問題,剛好說明一些新理論概念的提出,有可能會將傳統(tǒng)看來關(guān)系不緊密的主題聯(lián)系起來。

圖4 初始主題簇(彩圖請見https://qbxb.istic.ac.cn/CN/volumn/home.shtml)

量化主題簇內(nèi)各關(guān)鍵詞成員之間的緊密程度,需要計算核心主題簇中各個成員之間的平均相似性Savg。假設(shè)某個核心主題簇所對應(yīng)的關(guān)鍵詞相似性矩陣為

則該主題簇對應(yīng)的平均相似性Savg為

其中,關(guān)鍵詞i和j之間的相似性Sw(i,j)由公式(2)計算得出。

對首次AP 聚類的11 個初始主題簇進(jìn)行平均相似性計算,最終得到的結(jié)果如表1 所示。

表1 初始主題簇的平均相似性

為衡量首次AP 聚類效果,計算所有初始主題簇的平均相似性AVG(Savg)=0.136。顯然,針對平均相似性小于AVG(Savg)的主題簇,我們可以認(rèn)為其簇內(nèi)關(guān)鍵詞成員之間的相似性較低,即該主題簇的中心代表關(guān)鍵詞未能更好地反映成員關(guān)鍵詞所蘊含的主題,因此,有必要對其進(jìn)行再次聚類。

4.3 最終主題識別

鑒于首次聚類效果不理想,有必要對平均相似性較低的主題簇進(jìn)行二次聚類??紤]到中心代表關(guān)鍵詞“供應(yīng)鏈”所在簇的關(guān)鍵詞成員平均相似性最小(Savg=0.021),下面將以其為例開展主題分析。

類似首次AP 聚類過程,對以“供應(yīng)鏈”為核心的主題簇進(jìn)行二次AP 聚類,最終可得到如圖5所示的聚類結(jié)果。

由圖5 可知,對以“供應(yīng)鏈”為核心的主題簇進(jìn)行二次AP 聚類,最終可得到27 個主題簇。其中“網(wǎng)絡(luò)設(shè)計”“農(nóng)產(chǎn)品”“供應(yīng)商選擇”等中心代表關(guān)鍵詞被分在了不同的主題簇中,而在同一個簇中的關(guān)鍵詞往往具有較高的相關(guān)性,如在以“契約”為核心的主題簇中,含有“競爭”“協(xié)同機制”和“博弈”三個關(guān)鍵詞成員,這些關(guān)鍵詞之間的緊密關(guān)系在趙青松等[27]的研究中得到了很好地體現(xiàn),其構(gòu)建并分析了價值網(wǎng)絡(luò)模式下各參與主體間的協(xié)同競爭博弈模型。

圖5 二次AP聚類結(jié)果

此外,我們也發(fā)現(xiàn),二次聚類后的大部分主題都由3 個或4 個關(guān)鍵詞所刻畫,說明了在海量數(shù)據(jù)文獻(xiàn)中,往往是特定幾個關(guān)鍵詞之間聯(lián)系較為緊密,因此,可以選取每個主題簇的中心代表關(guān)鍵詞作為該主題簇的代表。

4.4 主題天際線集合構(gòu)建

以二次聚類后的各主題簇中心代表關(guān)鍵詞的篇均被引量和篇均下載量為主題熱度表征指標(biāo),并以其為基礎(chǔ)來構(gòu)建主題天際線集合。圖6 展示了頻數(shù)排名前15 位的關(guān)鍵詞篇均被引量和篇均下載量。

如圖6 所示,頻數(shù)最高的關(guān)鍵詞不一定具有最高的篇均被引量和篇均下載量,例如,“供應(yīng)鏈”為頻數(shù)最高的關(guān)鍵詞,但其篇均被引量和篇均下載量卻低于“供應(yīng)鏈金融”和“協(xié)調(diào)”等關(guān)鍵詞。而篇均下載量少的主題,也不一定擁有較少的篇均被引量,例如,“再制造”對應(yīng)的篇均下載量為736,雖然其比“供應(yīng)鏈金融”對應(yīng)的篇均下載量少了80,但是“再制造”的篇均被引量卻比“供應(yīng)鏈金融”對應(yīng)的篇均被引量高出了15。

圖6 頻數(shù)排名前15位的關(guān)鍵詞篇均被引量和篇均下載量

顯然,以上結(jié)論充分說明了單個關(guān)鍵詞的篇均被引量或篇均下載量難以客觀揭示相關(guān)主題熱度。因此,有必要結(jié)合兩者來表征相關(guān)主題熱度。

由于聚類后每個主題簇含有的關(guān)鍵詞成員個數(shù)不同,有可能會導(dǎo)致含有較多關(guān)鍵詞成員的主題簇的整體被引量和下載量高于其他主題簇。為消除此因素影響,本文將以主題簇中心代表關(guān)鍵詞的篇均被引量和篇均下載量來度量所在簇的主題熱度。通過天際線算法的應(yīng)用,可得到如圖7所示的主題天際線集合。

圖7 說明了在二次聚類得到的27 個主題簇中,存在12 條天際線,其中右上角最外圍的天際線只有一個主題“合作伙伴”,該主題的篇均被引量和篇均下載量均高于其他主題,顯然,我們可以認(rèn)為“合作伙伴”是“供應(yīng)鏈”這個主題簇下熱度最高的主題。而除去“合作伙伴”這個主題后,可以看到“SHAPLEY 值法”和“質(zhì)量控制”所在的天際線集合區(qū)域在剩余的主題中擁有最高的熱度,因此將“SHAPLEY 值法”和“質(zhì)量控制”作為第二條天際線集合,其熱度低于第一條天際線集合。同理,圖7 顯示的單個主題“供應(yīng)商選擇”所在的天際線集合區(qū)域位于所有集合的最低處,可以認(rèn)為在篇均被引量和篇均下載量這兩個控制因素下,該主題的研究熱度最低。

圖7 主題天際線集合(彩圖請見https://qbxb.istic.ac.cn/CN/volumn/home.shtml)

4.5 主題熱度排序

通過天際線算法得到的主題天際線集合,只是找出了在被引量和下載量兩個維度下的各主題集合熱度,還需要進(jìn)一步通過主成分分析法進(jìn)行降維,從而進(jìn)一步客觀揭示主題熱度。

結(jié)合主題天際線集合和主成分分析法,可計算得到如表2 所示的主題排序結(jié)果。

如表2 所示,“合作伙伴”在“供應(yīng)鏈”主題下?lián)碛凶罡叩臒岫?,在CNKI 上將其與“供應(yīng)鏈”一起搜索,結(jié)果顯示,“合作伙伴”在“供應(yīng)鏈”領(lǐng)域下僅有12 篇期刊文獻(xiàn),但其篇均被引量和篇均下載量均位居所有主題首位;顯然,肖靜華等[28]的論文《從面向合作伙伴到面向消費者的供應(yīng)鏈轉(zhuǎn)型——電商企業(yè)供應(yīng)鏈雙案例研究》在很大程度上提升了該主題熱度,當(dāng)前該文獻(xiàn)被引量已經(jīng)接近250 次,同時下載量已超過2.2 萬次。此外,主題“SHAPLEY 值法”的熱度也高于“質(zhì)量控制”,從其所在聚類簇的關(guān)鍵詞成員來看,相比于研究“契約設(shè)計”和“網(wǎng)絡(luò)均衡”,科研人員可能更熱衷于研究“碳交易”和“利益分配”。再如,“零售商”的熱度高于“復(fù)雜網(wǎng)絡(luò)”的熱度,在CNKI 上將這兩個詞與“供應(yīng)鏈”一起搜索,結(jié)果顯示,“零售商”在“供應(yīng)鏈”領(lǐng)域下的期刊文獻(xiàn)篇數(shù)更多(“零售商”1001 篇,“復(fù)雜網(wǎng)絡(luò)”20 篇),且“零售商”比“復(fù)雜網(wǎng)絡(luò)”在供應(yīng)鏈領(lǐng)域下的討論范圍更廣。類似地,其他主題在篇均被引量和篇均下載量上也存在一定差異,以至于它們呈現(xiàn)出不同的排序結(jié)果。

表2 主題排序結(jié)果

4.6 排序結(jié)果的可靠性分析

為驗證ASP 算法的排序結(jié)果可靠性,有必要將其與既往典型主題排序方法進(jìn)行對比。

通過文獻(xiàn)梳理可知,當(dāng)前主題排序方法主要有機器學(xué)習(xí)算法[11]、概率主題模型[12-13]、文獻(xiàn)計量統(tǒng)計方法[14-15]等,雖然各類排序方法均有各自的優(yōu)勢,但沒有統(tǒng)一的評價標(biāo)準(zhǔn)來說明它們的優(yōu)劣。從現(xiàn)有主題熱度的度量指標(biāo)來看,大部分指標(biāo)是一維指標(biāo),如主題出現(xiàn)頻率[15,29]、被引量[15,30]、下載量[30]、PageRank 值[15]等,有少量研究涉及二維度量指標(biāo)[14],但其構(gòu)建的主題排序公式有較大主觀性。本文將以初始核心主題“供應(yīng)鏈”的二次聚類結(jié)果為例,重點對比分析由主題出現(xiàn)頻率、篇均被引量、篇均下載量、PageRank 值和ASP 等排序方法決定的前10 位主題。

根據(jù)相關(guān)主題排序公式計算,可得到如表3 所示的排序結(jié)果。

如表3 所示,在不同排序方法下,排名前10 位的主題存在一定重疊,為度量不同排序方法之間的主題重疊程度,定義某排序方法的主題重疊率為該排序方法與其他排序方法比較時,重復(fù)的主題總數(shù)與被比較的主題總數(shù)的比值。

表3 不同方法的主題排序結(jié)果

通過計算,我們發(fā)現(xiàn),篇均被引量排序的主題重疊率最高,達(dá)到(6+7+6+8)/40=67.5%,ASP 算法排序次之(65%),而出現(xiàn)頻率排序、篇均下載量排序、PageRank 值排序的主題重疊率最低,均為57.5%。顯然,主題重疊率體現(xiàn)了各排序方法之間的相似性,一定程度上也反映了相關(guān)排序方法的可靠性。一般來說,主題重疊率越高,排序方法之間的相似性就越大,對應(yīng)排序方法也越可靠。雖然ASP 算法排序的主題重疊率比篇均被引量排序低2.5 個百分點,但是相比于出現(xiàn)頻率排序、篇均下載量排序和PageRank 值排序,該算法的主題重疊率不僅高出7.5 個百分點,而且同時兼顧了主題的篇均被引量和篇均下載量兩個熱度指標(biāo)。鑒于ASP 排序算法不僅有較高的主題重疊率,而且能夠多維度全面地評估主題熱度,我們推斷,由該算法得到的主題排序結(jié)果是可靠的。

下文將繼續(xù)借助ASP 算法對圖4 中其他相似性較低的初始主題簇開展二次聚類和熱度排序。

4.7 結(jié)果分析

由上文分析可知,主題排序算法ASP 是可靠的。類似地,利用該算法對圖4 中平均相似性Savg小于總體平均相似性AVG(Savg)的所有初始主題簇進(jìn)行二次聚類和熱度排序,最終得到如表4所示的結(jié)果。

表4 初始主題簇內(nèi)熱度排名前2位的主題

從初始核心主題來看,7 個主題均來自原始數(shù)據(jù)的第一次聚類,但其所在主題簇的平均相似性相對較低,部分主題之間存在一定重復(fù)性,例如,“STACKELBERG 博弈”和“博弈論”在概念上存在一定包含關(guān)系,但從各自所屬聚類簇的關(guān)鍵詞成員來看,“STACKELBERG 博弈”可能更傾向于說明STACKELBERG 博弈模型在低碳供應(yīng)鏈、旅游供應(yīng)鏈、雙渠道供應(yīng)鏈等研究領(lǐng)域中的應(yīng)用,而“博弈論”可能更傾向于說明要以博弈論為基礎(chǔ)來分析再制造、政府補貼、回收渠道、定價決策、供應(yīng)鏈協(xié)同、逆向物流等問題中的博弈關(guān)系。此外,初始核心主題“知識共享”和“信息共享”也具有一定重疊性,然而從自適應(yīng)AP 聚類結(jié)果來看,兩者之間的差異并不小。為描述兩者之間具體的聯(lián)系與差異,以“知識共享”和“信息共享”所在聚類簇的關(guān)鍵詞成員為節(jié)點,將與核心代表關(guān)鍵詞有相似性的關(guān)鍵詞成員連邊,線越粗,代表它們之間的相似性越大,反之,則相似性越小。如圖8 所示,同一聚類簇內(nèi),“知識共享”與“知識創(chuàng)新”相似性最大(相似度0.105),與“綠色供應(yīng)鏈管理”相似性最?。ㄏ嗨贫?.010);“信息共享”與“需求預(yù)測”相似性最大(相似度0.119),與“大數(shù)據(jù)”相似性最?。ㄏ嗨贫?.006)。從橫跨兩個聚類簇的連線來看,“知識共享”和“信息共享”又存在一定聯(lián)系:“知識共享”與“信息共享”所在簇的關(guān)鍵詞成員“演化博弈”“價值創(chuàng)造”“激勵機制”“本體”存在相似性,“信息共享”與“知識共享”所在簇的關(guān)鍵詞成員“博弈分析”“大數(shù)據(jù)”“供應(yīng)鏈績效”“綠色供應(yīng)鏈”“農(nóng)產(chǎn)品供應(yīng)鏈”“集群供應(yīng)鏈”存在相似性。實際上,以上主題之所以會存在這種差異,可能是由于作者對這些概念存在不同的模糊認(rèn)知和理解傾向,而通過自適應(yīng)AP 聚類算法進(jìn)行硬劃分能夠比較客觀地揭示它們之間的差異。

圖8 知識共享與信息共享的聯(lián)系與差異

從主題的排序結(jié)果來看,7 個平均相似性較低的初始主題簇被進(jìn)一步細(xì)分,細(xì)分后的各主題之間相似性較小,如“博弈論”下的主題“模型”和“知識共享”下的主題“結(jié)構(gòu)方程模型”,雖然它們看起來存在一定聯(lián)系,但是由于代表的聚類簇不同,其反映的主題也不同。從同簇內(nèi)的關(guān)鍵詞成員來看,主題“模型”更傾向于描述“協(xié)同”問題中用到的一些模型,而主題“結(jié)構(gòu)方程模型”可能更傾向于說明該模型在“綠色供應(yīng)鏈管理”和“供應(yīng)鏈風(fēng)險管理”等研究領(lǐng)域中的應(yīng)用。同理,其他細(xì)分后的主題也可以結(jié)合同簇內(nèi)的關(guān)鍵詞成員給出合理的語義解釋。

此外,在核心主題為“供應(yīng)鏈”的初始主題簇中,“合作伙伴”和“SHAPLEY 值法”均有較高的研究熱度,具有較高的研究價值。類似地,在“供應(yīng)鏈協(xié)調(diào)”主題下,“收益共享”和“理性預(yù)期均衡”的研究熱度也較高,如刁心薇等[31]在論文《混合碳政策下兩產(chǎn)品供應(yīng)鏈的協(xié)同研究》中重點提出收益共享契約是協(xié)調(diào)供應(yīng)鏈的常見契約。對于“STACKELBERG 博弈”這一初始核心主題,由于其一般用于企業(yè)間的不對稱競爭,伴隨著“生鮮農(nóng)產(chǎn)品供應(yīng)鏈”被不斷關(guān)注,STACKELBERG 博弈模型也常被應(yīng)用于該領(lǐng)域,相關(guān)研究者可對此重點關(guān)注。

顯然,對于相關(guān)科研人員來說,如果想在未來獲得高科研績效,可以根據(jù)本文研究方法快速找到自己學(xué)科領(lǐng)域下熱度較高的主題,并以此作為自己主攻的研究方向;反之,如果其重點關(guān)注自身研究領(lǐng)域下熱度較低但有一定研究前景的主題,未來有可能取得一些科研突破。另外,對于相關(guān)學(xué)術(shù)期刊來說,可以根據(jù)本研究成果重點關(guān)注和選取相關(guān)主題文章,提高選文的科學(xué)性和效率。

5 結(jié) 論

本文結(jié)合近鄰傳播聚類和天際線算法構(gòu)建了一種主題排序方法ASP。該方法首先通過共詞分析法、加權(quán)Ochiia 系數(shù)和近鄰傳播聚類算法自適應(yīng)獲取文獻(xiàn)初始核心主題;然后基于平均相似性系數(shù)篩選待細(xì)化分主題簇,并對篩選后的主題簇進(jìn)行二次近鄰傳播聚類,從而細(xì)粒度識別文獻(xiàn)主題;最后借助天際線算法和主成分分析法對二次主題聚類結(jié)果進(jìn)行熱度排序。本文的創(chuàng)新性主要體現(xiàn)在:①通過對加權(quán)高頻關(guān)鍵詞相似性矩陣進(jìn)行多次聚類,細(xì)粒度地識別了相關(guān)研究文獻(xiàn)主題,解決了傳統(tǒng)文獻(xiàn)主題劃分不夠精細(xì)等問題。②以簇內(nèi)中心關(guān)鍵詞的篇均被引量和篇均下載量為表征指標(biāo),創(chuàng)新性地結(jié)合天際線算法和主成分分析法科學(xué)實現(xiàn)了相關(guān)主題的熱度排序,克服了傳統(tǒng)的對主題熱度單一維度度量存在的缺陷。同時,由于在排序前先進(jìn)行了天際線劃分,較好地解決了直接使用主成分分析法排序的誤差問題。本文提出的主題排序方法可以有效地識別相關(guān)研究文獻(xiàn)主題,并且能夠客觀揭示它們的主題熱度,不僅能為相關(guān)領(lǐng)域科研人員的研究方向選擇提供了指導(dǎo)意見,也為相關(guān)期刊的精準(zhǔn)選稿提供了決策支持。

本文在計算研究主題熱度時,僅將簇內(nèi)中心代表關(guān)鍵詞的篇均被引量和篇均下載量作為表征指標(biāo),忽略了其他特征變量和時間因素可能帶來的影響;同時,在具體生成主題天際線集合和降維時,缺乏對關(guān)鍵詞重要性的進(jìn)一步考慮。未來我們將進(jìn)一步優(yōu)化主題排序算法,例如,嘗試再加入主題出現(xiàn)頻率來表征主題熱度,全面考慮關(guān)鍵詞重要性影響,對由天際線算法和主成分分析法得到的前沿主題進(jìn)行演化趨勢分析。

猜你喜歡
天際線相似性排序
約翰·波特曼:改變世界城市天際線的建筑師
作者簡介
淺析當(dāng)代中西方繪畫的相似性
恐怖排序
創(chuàng)意
節(jié)日排序
屋頂征服客
12個毫無違和感的奇妙動物組合
基于隱喻相似性研究[血]的慣用句
V4國家經(jīng)濟的相似性與差異性
修文县| 广灵县| 商水县| 罗田县| 霍山县| 洪泽县| 迭部县| 五河县| 佛教| 广德县| 定结县| 门头沟区| 新化县| 温泉县| 兴和县| 广德县| 湘潭县| 余庆县| 江安县| 甘谷县| 通渭县| 江孜县| 色达县| 九寨沟县| 宣武区| 达尔| 通海县| 博客| 东兰县| 漳浦县| 桃园市| 黄平县| 九台市| 昌平区| 光山县| 恭城| 当涂县| 团风县| 武宣县| 博罗县| 万载县|