国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于關(guān)鍵詞價值細分的高價值熱點主題識別方法研究

2022-03-07 08:29孫佳佳李雅靜
情報學(xué)報 2022年2期
關(guān)鍵詞:細分熱點權(quán)重

孫佳佳,李雅靜

(武漢大學(xué)信息管理學(xué)院,武漢 430072)

1 引言

近年來,關(guān)鍵詞的相關(guān)研究一直是各學(xué)科領(lǐng)域關(guān)注的熱點。關(guān)鍵詞是研究成果的高度概括性表達,體現(xiàn)了其核心思想或重點內(nèi)容。研究關(guān)鍵詞分布情況、演化趨勢等規(guī)律,有助于揭示學(xué)科發(fā)展動態(tài)和領(lǐng)域前沿。當(dāng)前,已有研究大多是運用共詞分析[1]、詞頻分析[2]或知識圖譜[3]等方法,揭示某個領(lǐng)域內(nèi)、某個時期內(nèi)的學(xué)科熱點或主題演化,這些方法的本質(zhì)是關(guān)鍵詞頻次及其共現(xiàn)次數(shù)的研究,鮮有學(xué)者在同時考慮關(guān)鍵詞的價值屬性和生存周期的基礎(chǔ)上,研究熱點主題的識別。關(guān)鍵詞是文獻主題的外在體現(xiàn),在某個研究領(lǐng)域內(nèi),其頻次的累計反映該主題的熱點程度,并未反映出該主題的價值高低,且隨著時間的推移,頻次不斷地發(fā)生變化[4],呈現(xiàn)出一定的生命周期[5]。因此,對關(guān)鍵詞進行價值細分,并考慮關(guān)鍵詞生命周期,有助于發(fā)現(xiàn)高價值熱點主題。本文所論述的關(guān)鍵詞,皆指作者關(guān)鍵詞,即在撰寫文獻過程中,由作者提煉或標(biāo)注出來的一系列關(guān)鍵詞匯[6]。

價值細分在客戶營銷領(lǐng)域一直是研究重點,指以客戶價值為細分指標(biāo),根據(jù)客戶價值的大小,將所有客戶分為具有不同價值的客戶群體[7]。企業(yè)或者機構(gòu)以此為依據(jù),制定最優(yōu)的客戶管理策略。當(dāng)前,價值細分已被廣泛應(yīng)用于工商管理、信息科學(xué)以及社會科學(xué)等多個領(lǐng)域,在圖書情報與檔案管理領(lǐng)域(下文簡稱“圖情檔領(lǐng)域”)也有學(xué)者開始關(guān)注,特別是RFM(recency,frequency,monetary)模型,在圖書館用戶與精準(zhǔn)服務(wù)[8]、情報學(xué)用戶與知識共享[9]等研究領(lǐng)域已經(jīng)有了相應(yīng)的研究。

生存分析(survival analysis)起源于生物醫(yī)學(xué)研究領(lǐng)域,將事件出現(xiàn)終點所經(jīng)歷的時間(即sur‐vival time,生存時間)作為標(biāo)準(zhǔn),分析各種影響因素的現(xiàn)代統(tǒng)計方法,也稱為風(fēng)險模型或者持續(xù)模型(hazard model/duration model)[10]。生存分析在分析過程中考慮了研究目標(biāo)的生命周期,可以深刻地反映一段時期內(nèi)各種因素對研究目標(biāo)的影響程度,因此,在醫(yī)藥衛(wèi)生科技、工程科技及信息科技等學(xué)科領(lǐng)域,生存分析都得到了廣泛的關(guān)注和應(yīng)用。生存分析方法基于生命周期的核心理念,在圖情檔領(lǐng)域的主題識別[11]、文獻老化[12]等方面都有所應(yīng)用。

本文將營銷領(lǐng)域的客戶價值細分RFM模型和醫(yī)學(xué)領(lǐng)域廣泛使用的生存分析方法結(jié)合起來,引入到圖情檔領(lǐng)域,形成跨學(xué)科研究方法,深入探討該方法的適用性和合理性,將客戶價值細分的研究對象遷移到關(guān)鍵詞,形成多方位、多角度的關(guān)鍵詞價值細分結(jié)果,對學(xué)科領(lǐng)域的高價值研究熱點進行識別,以期為圖情檔領(lǐng)域關(guān)鍵詞和主題的相關(guān)研究提供一種新的方法和思路。

2 相關(guān)研究

本文將兩個不同領(lǐng)域的研究方法結(jié)合起來,以作者關(guān)鍵詞為研究對象,探討高價值熱點主題的識別方法。因此,本文主要梳理圖情檔領(lǐng)域價值細分、生存分析以及熱點主題發(fā)現(xiàn)相關(guān)的研究。

2.1 價值細分相關(guān)研究

價值細分在客戶管理工作中具有重要作用,具體表現(xiàn)在客戶識別、客戶策略制定及客戶忠誠度分析等方面。在圖情檔領(lǐng)域,研究者主要運用價值細分的理論和方法,來解決圖書館評價體系、大數(shù)據(jù)服務(wù)平臺建設(shè)、用戶信息行為分析等問題。在圖書館評價體系方面,陳宇奇等[13]將RFM模型進行適用性改進,應(yīng)用到圖書館圖書評價體系的研究中,對完善圖書評價體系和提高圖書館用戶服務(wù)具有重要意義;張海營[14]引入RFM模型探索構(gòu)建圖書評價系統(tǒng);在用戶及用戶行為方面,樂承毅等[15]構(gòu)建改進RFM模型,為高校圖書館用戶構(gòu)建畫像,深入研究了高校圖書館用戶行為和偏好;趙洪波[16]將RFM模型應(yīng)用于高校圖書館的精準(zhǔn)服務(wù),以期為用戶提供更加優(yōu)質(zhì)的服務(wù);在大數(shù)據(jù)服務(wù)平臺建設(shè)方面,邢海龍等[17]將價值細分模型應(yīng)用到大數(shù)據(jù)服務(wù)平臺,構(gòu)建改進RFM模型對用戶進行價值識別;李杭[18]將RFM模型應(yīng)用于圖書質(zhì)量評價系統(tǒng)的實現(xiàn)中,是較為新穎的研究思路。從上述研究可以看出,RFM模型在價值細分研究方法中應(yīng)用較為廣泛,且在圖情檔領(lǐng)域也有較多應(yīng)用。

2.2 生存分析相關(guān)研究

在生物醫(yī)學(xué)領(lǐng)域,生存分析方法已經(jīng)得到非常廣泛的應(yīng)用,特別是在分析患有某種疾病人群的生存率及影響因素方面[19],有相當(dāng)多的研究成果。生存分析方法的優(yōu)勢在于考慮了目標(biāo)客體的某事件結(jié)束的時間因素及周期性,這使得揭示影響因素時可以進行多組對比。近年來,在工程學(xué)、社會科學(xué)等領(lǐng)域也有研究者關(guān)注并使用該方法。在圖情檔領(lǐng)域,生存分析主要應(yīng)用于引文分析、專利研究及互聯(lián)網(wǎng)用戶數(shù)據(jù)分析等方面。例如,張中文等[20]將生存分析方法引入論文被引次數(shù)的研究,提出了學(xué)術(shù)論文生存被引次數(shù)的概念;宋爽等[21]探討了生存分析應(yīng)用于專利維持研究的適用性和有效性;鄭為益[22]使用生存分析方法構(gòu)建了客戶流失模型,為客戶流失問題提供了一種新的解決方案;賴院根等[23]在考慮信息服務(wù)特點的基礎(chǔ)上,使用生存分析方法對用戶生存狀況和影響因素進行了研究。

2.3 熱點主題識別相關(guān)研究

熱點主題識別(hot topic detection,HTD)指將一系列文檔按照其主題分組以后,找到一段時間內(nèi)頻繁出現(xiàn)的主題集[24]。熱點主題反映某個學(xué)科或者研究領(lǐng)域在某個時間段內(nèi),研究者們關(guān)注的重點內(nèi)容。熱點主題識別立足于生命周期理論,對于揭示研究熱點和進展具有重要作用。國內(nèi)外對于熱點主題識別的研究主要集中于計算機算法設(shè)計和具體應(yīng)用上。在算法設(shè)計方面,Sun等[25]針對短信的文本特征,提出了一種基于特征關(guān)聯(lián)分析的短信熱點提取算法;Zhu等[26]對TF-IDF(term frequency-inverse document frequency)算法進行改進,提出了一種基于時間分布和用戶關(guān)注度的熱點主題識別算法TA TF-IDF;張申旭等[27]通過情感分析和LDA(latent Dirichlet allocation)構(gòu)建模型,提出了基于多特征的微博熱點主題發(fā)現(xiàn)算法,并通過實驗驗證了該算法的有效性;陸蓓等[28]將對蟻群聚類算法進行改進,并提出了類別關(guān)注度(category attention degree,CAD)的概念,實現(xiàn)了熱點主題集的抽取工作。在具體應(yīng)用方面,研究者們著重將已有研究方法應(yīng)用于互聯(lián)網(wǎng)信息平臺以及學(xué)術(shù)研究領(lǐng)域。例如,王林等[29]通過構(gòu)造基于興趣的論壇用戶網(wǎng)絡(luò),將社區(qū)結(jié)構(gòu)發(fā)現(xiàn)的理論和方法應(yīng)用于社區(qū)論壇的熱點主題發(fā)現(xiàn)研究中,獲得了較好的實驗效果;唐果等[30]將熱點主題發(fā)現(xiàn)作為一種方法,應(yīng)用于BBS(bulletin board system)文本聚類的研究中;吳立峰[31]將復(fù)雜網(wǎng)絡(luò)的自相似性應(yīng)用于BBS興趣網(wǎng)絡(luò),通過仿真實驗將其運用于BBS網(wǎng)絡(luò)中的熱點主題發(fā)現(xiàn),驗證了方法的有效性。

綜上所述,熱點主題識別研究一直是國內(nèi)外研究者關(guān)注的重點,其識別結(jié)果是由一系列表達文檔核心含義且在一段時間內(nèi)被高頻關(guān)注的關(guān)鍵詞所組成的主題集合。已有研究大多聚焦于算法設(shè)計和理論方法應(yīng)用等方面,鮮有研究從細粒度的角度,對關(guān)鍵詞的價值進行研究,實現(xiàn)高價值熱點主題的識別。從第2.1節(jié)可知,價值細分在圖情檔領(lǐng)域已經(jīng)有較多研究成果,且RFM模型是廣泛應(yīng)用的模型之一;從第2.2節(jié)可知,生存分析方法在應(yīng)用時重點關(guān)注事物的生命周期,這與熱點主題識別立足于生命周期理論的出發(fā)點是相同的。鑒于上述因素,本文從細粒度的角度,提出動態(tài)權(quán)重的RFM模型,對關(guān)鍵詞進行價值細分,并在此基礎(chǔ)上對不同價值層次的關(guān)鍵詞進行生存分析,通過Logrank檢驗,確定最優(yōu)的價值細分結(jié)果,依據(jù)帕累托法則[32]確定熱點關(guān)鍵詞集合,通過聚類算法實現(xiàn)具有價值區(qū)分度的熱點主題識別。

3 基于關(guān)鍵詞價值細分的學(xué)科熱點主題識別方法

3.1 識別方法概述

本文在構(gòu)建關(guān)鍵詞RFM模型的基礎(chǔ)上,充分考慮近度、頻度、值度三個指標(biāo)的權(quán)重,實現(xiàn)動態(tài)權(quán)重,在多次實驗的情況下,結(jié)合生存分析函數(shù)(survival function)和Logrank檢驗,確定最優(yōu)的權(quán)重參數(shù),實現(xiàn)關(guān)鍵詞價值細分,識別高價值關(guān)鍵詞,具體構(gòu)建流程如圖1所示。

圖1 識別方法構(gòu)建流程

數(shù)據(jù)是可行性研究的基礎(chǔ),足夠準(zhǔn)確的數(shù)據(jù)是研究工作得出科學(xué)可靠的研究結(jié)論的前提。秉承上述原則,在數(shù)據(jù)層中,凡是涉及數(shù)據(jù)處理的操作,全部使用Python語言編寫程序,實現(xiàn)數(shù)據(jù)的自動化處理,避免人工處理可能造成的數(shù)據(jù)失真。其中,數(shù)據(jù)搜集環(huán)節(jié)對目標(biāo)數(shù)據(jù)源數(shù)據(jù)進行搜集與存儲;數(shù)據(jù)預(yù)處理環(huán)節(jié)對所采集到的數(shù)據(jù)進行結(jié)構(gòu)化處理,去除不滿足實驗要求的條目;提取特征環(huán)節(jié)針對本文模型和方法的要求,將隱性信息提取為顯性特征數(shù)據(jù)。

核心層是整個實驗的關(guān)鍵環(huán)節(jié),經(jīng)過對R、F、M三個指標(biāo)進行動態(tài)權(quán)重實驗,在計算RFM評分的基礎(chǔ)上,結(jié)合生存分析函數(shù),確定出最為合適的權(quán)重值,從而得到價值細分層次。

識別層的功能是高價值熱點主題的識別。在RFM模型的設(shè)計原則中,價值細分層次的最上層為高價值層次,據(jù)此得到高價值關(guān)鍵詞。將該層中的關(guān)鍵詞按照頻次進行降序排序,依據(jù)帕累托法則,20%的成員貢獻了80%的價值,本文選取排序結(jié)果中前20%的關(guān)鍵詞作為熱點關(guān)鍵詞,計算關(guān)鍵詞的相似度矩陣,通過K-means++算法進行主題聚類,識別出高價值熱點主題。

3.2 識別關(guān)鍵技術(shù)

3.2.1 構(gòu)建關(guān)鍵詞RFM模型

1)關(guān)鍵詞價值及價值細分的定義

目前,國內(nèi)外關(guān)鍵詞價值的相關(guān)研究較少,還未形成統(tǒng)一的定義。Nishikido等[33]對關(guān)鍵詞的動態(tài)演化進行了研究,提出了關(guān)鍵詞價值主要體現(xiàn)在其在網(wǎng)絡(luò)中的關(guān)系上,并在實驗中驗證了關(guān)鍵詞價值隨著時間和網(wǎng)絡(luò)關(guān)系的變化而變化。在信息檢索研究領(lǐng)域,關(guān)鍵詞價值研究主要在搜索引擎推廣方面。例如,Byers等[34]提出,在搜索引擎的廣告活動中,關(guān)鍵詞價值主要體現(xiàn)在貨幣價值上;Hou等[35]使用貝葉斯網(wǎng)絡(luò)設(shè)計了關(guān)鍵詞競標(biāo)價值預(yù)測模型,考慮了關(guān)鍵詞的出價、點擊次數(shù)和時間等維度。從上述研究中可以得到啟示,關(guān)鍵詞價值與時間、頻次、價格及網(wǎng)絡(luò)關(guān)系密切相關(guān)。此外,李劍鋒[36]認為,價值是指客體能夠滿足主體需要的那些功能和屬性?;诖?,本文對關(guān)鍵詞價值的概念進行闡述:關(guān)鍵詞價值是指關(guān)鍵詞的時間、頻次及經(jīng)濟效益等屬性對主體或使用者的有效性和有益性。

Kamakura等[37]認為,價值細分是對群體進行劃分,從而識別出具有正向意義和經(jīng)濟意義的部分。結(jié)合關(guān)鍵詞價值的概念,關(guān)鍵詞的價值細分是指通過對關(guān)鍵詞的時間、頻次、經(jīng)濟效益等屬性進行綜合考慮,按照一定的規(guī)則和方法,對關(guān)鍵詞集合進行劃分,從而識別出影響力、有效性或有益性更大的部分。秦嘉杭[38]認為,學(xué)術(shù)價值是國家社科基金項目的研究成果(論文、專著等形式)的特征之一,而關(guān)鍵詞表達了研究成果的核心內(nèi)容,因此,關(guān)鍵詞具有一定的學(xué)術(shù)價值。本文立足于中文社會科學(xué)引文索引(Chinese Social Sciences Citation In‐dex,CSSCI)期刊論文的關(guān)鍵詞數(shù)據(jù),通過綜合考慮頻次、時間以及基金項目次數(shù),識別出對研究者進行項目申請選題、把握學(xué)科動態(tài)具有指導(dǎo)意義的關(guān)鍵詞集合,可以看出,關(guān)鍵詞的價值是對使用者和研究者的價值。

2)關(guān)鍵詞RFM模型定義

傳統(tǒng)RFM模型由Hughes[39]于1994年提出,是企業(yè)根據(jù)顧客數(shù)據(jù)庫中的交易信息記錄對顧客價值進行識別和評估的模型,包括三種指標(biāo):近度(R)、頻率(F)和額度(M)。其中,R表示最近一次購買時間離樣本數(shù)據(jù)截止日的時間距離,F(xiàn)表示研究期限內(nèi)(樣本的時間跨度)的購買次數(shù),M表示購買總金額[39]。本文的研究目的與該模型相似,將關(guān)鍵詞視為“顧客”,識別其價值能夠預(yù)測出未來相應(yīng)主題的發(fā)展方向,因此,采用該模型具有合理性。相應(yīng)地,本文將R用關(guān)鍵詞最近出現(xiàn)離實驗數(shù)據(jù)截止的時間距離表示;F用實驗數(shù)據(jù)時間跨度內(nèi)出現(xiàn)的總頻次表示;M則用關(guān)鍵詞所在文獻獲基金資助的頻次表示。一般來說,基金項目是由國家部署實施的科技創(chuàng)新驅(qū)動規(guī)劃方針,往往代表前瞻性和探索性,有利于情報跟蹤和推動學(xué)科研究,也有較多研究從基金項目的角度出發(fā),研究主題的識別。例如,楊辰毓妍等[40]基于國家社會科學(xué)基金和國家自然科學(xué)基金項目,用科學(xué)計量的方法研究了圖情檔學(xué)科的知識結(jié)構(gòu)和主題;張蒙等[41]對國家社會科學(xué)基金項目的圖書館、情報與文獻學(xué)學(xué)科進行了熱點可視化分析;王效岳等[42]從基金項目和論文數(shù)據(jù)出發(fā),在考慮項目資助因素的情況下,提出了一種前瞻性和更高價值主題識別方法。因此,本文認為獲得的基金資助次數(shù)越多的文獻,其關(guān)鍵詞的價值越高。最終,得到關(guān)鍵詞RFM模型指標(biāo)體系,如表1所示。為了綜合衡量關(guān)鍵詞的價值程度,引入加權(quán)平均數(shù)的計算思想,給出RFM score的計算方法,即

表1 關(guān)鍵詞R、F和M特征的定義與影響

其中,R、F、M分別為關(guān)鍵詞的近度、頻度和值度;wr、wf、wm分別為R、F、M的權(quán)重,取值范圍為(0,1),且滿足wr+wf+wm=1。三個特征分?jǐn)?shù)的計算公式為

其中,X表示指標(biāo)R、F、M;L表示價值細分總層次數(shù),本文中L=5;N為排序等分后,關(guān)鍵詞所在的層次數(shù)。

RFM模型每個指標(biāo)得分實現(xiàn)步驟:①計算每個作者關(guān)鍵詞的R、F和M的特征值;②對所有作者關(guān)鍵詞分別按照R、F、M特征值進行排序;③本文的指標(biāo)賦值標(biāo)準(zhǔn)依據(jù)Hughes的五等分思想,將三個指標(biāo)分別進行排序,按照公式(2)得到每個關(guān)鍵詞的R、F、M指標(biāo)得分;④依據(jù)公式(1)計算每個關(guān)鍵詞的價值得分(RFM score)。

3)關(guān)鍵詞價值層次定義

在對關(guān)鍵詞劃分層次以后,需要在理論上對關(guān)鍵詞價值層次進行定義。Ha等[43]提出自組織特征映射網(wǎng)絡(luò)(self-organizing feature map,SOM)對客戶RFM指標(biāo)進行分類,將客戶的價值劃分為重要和一般價值客戶、重要發(fā)展和保持客戶、一般發(fā)展和保持客戶、重要和一般挽留客戶共8種價值類型。該分類方法更加適用于以客戶為研究對象的領(lǐng)域,本文以關(guān)鍵詞為研究對象,對該方法進行適用性改進。參考楊琳等[44]的細分方法,結(jié)合本文的5等分思想,將關(guān)鍵詞的價值層次分為5層,其定義如表2所示。

表2 關(guān)鍵詞價值層次定義

3.2.2 最優(yōu)RFM指標(biāo)權(quán)重確定方法

為了對關(guān)鍵詞進行價值細分更具有區(qū)分度,需要確定最優(yōu)RFM權(quán)重。具體過程分為三個步驟:①動態(tài)調(diào)整RFM模型每個指標(biāo)的權(quán)重值,計算RFM score,共37種組合;②對每一種結(jié)果依據(jù)RFM score降序排序,劃分為5等份,得到關(guān)鍵詞價值細分層次;③引入生存分析方法,考量不同價值層中關(guān)鍵詞的生存函數(shù),畫出Kaplan-Meier曲線,采用觀察法和對比法進行篩選,利用Logrank檢驗驗證結(jié)果,得到最優(yōu)RFM權(quán)重,確定最優(yōu)價值細分層次。下文將對以上步驟的實現(xiàn)方法進行詳細敘述。

1)計算關(guān)鍵詞RFM score

在大多數(shù)RFM模型應(yīng)用中,識別客戶價值時認為各指標(biāo)權(quán)重相同,也有學(xué)者質(zhì)疑三個權(quán)重同樣重要的假定,認為學(xué)者應(yīng)根據(jù)研究目的彈性設(shè)定指標(biāo)權(quán)重[45]。因此,為了解決三個指標(biāo)所占權(quán)重不一致問題,學(xué)者一般采用的價值權(quán)重設(shè)置原則是R、F、M三個指標(biāo)的權(quán)重相加等于1[46],即wr+wf+wm=1。需要說明的是,當(dāng)前確定權(quán)重采取的方法主要是主觀賦值法[47]和層次分析法[48];也有學(xué)者結(jié)合其他方法確定權(quán)重,如熵權(quán)法[49];較少有學(xué)者采用枚舉法。由于當(dāng)前缺乏可參考的文獻,且枚舉法求取最優(yōu)解具有較高的效率和較大的準(zhǔn)確性,因此,本文采用枚舉法,遍歷所有可能存在的情況。令wr、wf、wm在(0,1)的范圍內(nèi)取值,開區(qū)間保證三個指標(biāo)同時存在,分別枚舉三個權(quán)重的值,得到多組權(quán)重組合,依據(jù)公式(1)和公式(2),計算每個作者關(guān)鍵詞的RFM score。

2)確定最優(yōu)RFM權(quán)重與關(guān)鍵詞價值細分層次

在計算每個作者關(guān)鍵詞的RFM score以后,按照得分從高到低進行排序,然后對排序列表進行5等分,得到作者關(guān)鍵詞價值細分結(jié)果。該過程動態(tài)調(diào)整RFM權(quán)重,得到多組實驗結(jié)果,考慮到時間因素影響,如果某關(guān)鍵詞最近出現(xiàn)的時間較近,次數(shù)卻不高,那么可能會影響識別結(jié)果。在圖情檔領(lǐng)域,已有學(xué)者使用生存分析函數(shù)分析作者關(guān)鍵詞的生存狀況以及衡量關(guān)鍵詞的生命周期[19],因此,為了排除關(guān)鍵詞時間因素的影響,本文引入生存分析方法,對價值細分層次繪制Kaplan-Meier曲線,使用Logrank驗證來確定最優(yōu)的RFM權(quán)重和價值細分層次。Kaplan-Meier曲線是對Kaplan-Meier估計量[50](也稱為乘積極限估計量)的圖形化表達,該估計量是一種非參數(shù)統(tǒng)計量,用于從具有生命周期的數(shù)據(jù)集中估計生存函數(shù)。在醫(yī)學(xué)領(lǐng)域研究中,經(jīng)常被用來測量患病人在治療后一定時間內(nèi)的存活率,近年來也被廣泛應(yīng)用在其他領(lǐng)域,例如,衡量人們失業(yè)后處于失業(yè)狀態(tài)的時間長度[51]。生存函數(shù)Ka‐plan-Meier估計量的數(shù)學(xué)表達式為

其中,ti表示發(fā)生終點事件的時間;di表示在時間點ti發(fā)生終點事件的個體數(shù)量;ni表示已知存活到時間ti的個體總數(shù)。

Logrank驗證也稱為對數(shù)秩檢驗,是一種統(tǒng)計分析測試方法,用于比較兩個或者多個組別之間的生存函數(shù)是否具有顯著差異性,該檢驗的原假設(shè)為各組別的生存函數(shù)之間沒有顯著差異性,在檢測結(jié)果中,如果P<0.005,則拒絕原假設(shè),表明各個組別的生存函數(shù)具有顯著性差異。

對各個價值細分組別的生存曲線可視化以后,本文采用觀察法和對比法篩選出曲線劃分最為明顯的實驗結(jié)果,并使用Logrank檢驗各個組別生存函數(shù)是否具有顯著性差異,從而確定最優(yōu)的價值細分結(jié)果以及對應(yīng)的RFM權(quán)重。

4 實證研究

4.1 數(shù)據(jù)源

本文選取中文社會科學(xué)引文索引(CSSCI)作為數(shù)據(jù)源,以期刊名稱為檢索對象,將檢索條件設(shè)置為精確匹配,檢索1998—2019年共22年的文獻題錄數(shù)據(jù)。期刊名稱來源于《CSSCI來源期刊(2019—2020)目錄》,“圖書館、情報與文獻學(xué)”學(xué)科上榜的20種期刊。數(shù)據(jù)搜集下載時間為2020/04/13—2020/04/14,共搜集到83369條題錄數(shù)據(jù),共包含關(guān)鍵詞321020個,去重合并后共86344個。圖2是文章數(shù)目、作者數(shù)目、關(guān)鍵詞數(shù)目隨著時間變化的趨勢。由圖2可以看出,1998—2009年,文章數(shù)目逐年升高,2009年達到頂峰;之后文章數(shù)目雖呈下降趨勢但較為平穩(wěn)。一般來說,一篇文章對應(yīng)若干個作者和關(guān)鍵詞,因此,作者數(shù)目、關(guān)鍵詞數(shù)目的趨勢由文章數(shù)目的趨勢決定,這也符合上述描述。

圖2 數(shù)據(jù)集變化趨勢

4.2 數(shù)據(jù)處理

按照第3.1節(jié)中的識別方法概述,本文需要對所搜集的數(shù)據(jù)進行特征提取。CSSCI題錄數(shù)據(jù)是以文章為單位,將其處理為以關(guān)鍵詞為單位的數(shù)據(jù)形式,僅保留實驗過程需要的數(shù)據(jù),以JSON格式保存,所包含的具體字段如表3所示。其中,status字段表示該關(guān)鍵詞是否出現(xiàn)終點事件,即若其最后出現(xiàn)的年份小于數(shù)據(jù)集時間年份2019,則用1表示出現(xiàn)終點事件,反之,則用0表示未出現(xiàn)終點事件。

表3 作者關(guān)鍵詞字段示例

4.3 實驗過程

4.3.1 計算RFM score

依據(jù)第3.2.1節(jié)中的方法,計算作者關(guān)鍵詞對應(yīng)的R、F和M;按照第3.2.2節(jié)中的方法,對三個維度指標(biāo)的權(quán)重進行調(diào)節(jié),計算RFM score。為了保證適量的實驗次數(shù),同時保證后續(xù)實驗易于分析和觀察,本文將每個特征權(quán)重的小數(shù)位數(shù)設(shè)置為1。動態(tài)權(quán)重的RFM score計算過程如圖3所示,首先令wr在(0,1)的范圍內(nèi)依次取值,然后分別枚舉wf、wm的值,并確保三個權(quán)重的和為1,得到36種權(quán)重值組合;考慮到wr=wf=wm的情況,共37種權(quán)重值組合,使用公式(1)計算每個關(guān)鍵詞的RFM score。

圖3 動態(tài)權(quán)重RFM score計算過程

4.3.2 確定最優(yōu)RFM權(quán)重和價值細分層次

依據(jù)RFM score進行關(guān)鍵詞價值細分,按照降序?qū)ζ渑判颍澐譃?等份,每個關(guān)鍵詞價值細分層次稱為RFM level。RFM模型考慮了關(guān)鍵詞的近度,但忽略了生命周期對關(guān)鍵詞的影響,因此,使用Python語言編寫程序,對37種權(quán)重組合分別繪制Kaplan-Meier曲線圖,用于考量關(guān)鍵詞的生命周期,將生命周期的長短因素納入到價值細分層次劃分中,但鑒于篇幅所限,本文挑選出wr在[0.1,0.2,…,0.8]中取值時,每種權(quán)重組合情況下,層次最為明顯的曲線圖,如圖4所示;三個權(quán)重值相等情況下的曲線圖,如圖5所示。從圖4中可以清晰地看出,在權(quán)重值wr、wf和wm分別為0.8、0.1和0.1時,關(guān)鍵詞價值細分層次的區(qū)分最為明顯,且較為均勻;而其他權(quán)重值組合下,均不滿足價值細分均勻的條件;在圖5中,三個權(quán)重值相等時,RFM level為1的線條在第1年全部出現(xiàn)終點事件,即該層次下,作者關(guān)鍵詞存在時間過短,因此,排除此種情況。

圖4 動態(tài)權(quán)重價值細分的Kaplan-Meier曲線圖(部分)(彩圖請見http://qbxb.istic.ac.cn/CN/volumn/home.shtml)

圖5 3個權(quán)重值相等情況下價值細分的Kaplan-Meier曲線圖(彩圖請見http://qbxb.istic.ac.cn/CN/volumn/home.shtml)

在初步獲取最優(yōu)RFM權(quán)重以后,還需要使用Logrank檢驗進行顯著性驗證,目的是確定各個價值細分層次的關(guān)鍵詞生命周期具有顯著性差異,驗證結(jié)果如表4所示??梢园l(fā)現(xiàn),各個層次之間的P值均小于0.005,拒絕原假設(shè)(各層次沒有顯著性差異),這說明,在R、F、M三個指標(biāo)的權(quán)重分別為0.8、0.1、0.1時,各個作者關(guān)鍵詞價值細分層次之間具有顯著性差異。也就是說,最終得到關(guān)鍵詞RFM模型最優(yōu)指標(biāo)權(quán)重如表5所示。

表4 Logrank檢驗結(jié)果

表5 關(guān)鍵詞RFM模型最優(yōu)指標(biāo)權(quán)重

4.3.3 高價值熱點主題識別

在得到關(guān)鍵詞的最優(yōu)RFM權(quán)重及價值細分層次以后,本文將每個層次中的關(guān)鍵詞按照頻次進行降序排列,依據(jù)帕累托法則——20%的成員貢獻了80%的價值,從每個價值層次中提取前20%作為熱點關(guān)鍵詞。對熱點關(guān)鍵詞構(gòu)建共現(xiàn)矩陣,并計算相似度矩陣,使用K-means++算法進行聚類,聚類數(shù)目的確定方法是,使用枚舉法在[2,30]范圍內(nèi)多次實驗,依據(jù)Silhouette Coefficient(即輪廓系數(shù))和SSE(the sum of squares due to error,誤差平方和)評價指標(biāo)確定最合適的聚類數(shù)目。根據(jù)高頻特征詞對聚類所得的各個類別進行主題概念概括。表6展示了每個價值層次所提取的熱點主題及其基金支持平均值。其中,位于高價值層次的熱點主題,是本文識別出的高價值熱點主題。

表6 熱點主題識別結(jié)果

4.4 實驗結(jié)果與分析

本節(jié)對高價值熱點主題識別結(jié)果進行對比分析和總結(jié)。為了說明實驗的效果,本文增加了基于頻次排序的分類方法作為實驗對照組。首先,從總體上進行分析,說明應(yīng)用本文識別方法是有效的;其次,與實驗對照組進行對比分析,來說明本文識別出來的熱點主題是具有高價值的,證明有效性;最后,歸納總結(jié)各個價值層次的主題特征。

4.4.1 識別方法的有效性

在第4.3節(jié)中,本文通過使用動態(tài)權(quán)重的RFM模型對關(guān)鍵詞進行了價值細分,同時,為了考慮生命周期對關(guān)鍵詞價值細分的影響,引入生存分析Kaplan-Meier曲線對多組實驗結(jié)果進行篩選,最終識別出高價值熱點關(guān)鍵詞,通過聚類算法得到高價值熱點主題。為了對第4.3.3節(jié)中的結(jié)果加以解釋和說明,本文再次對數(shù)據(jù)集中的關(guān)鍵詞進行處理,采用傳統(tǒng)的基于詞頻提取重要關(guān)鍵詞的方法,對關(guān)鍵詞降序排列,分為5等份,稱為頻次分類。對比價值細分和頻次細分兩組實驗結(jié)果,如圖6所示,可以看出,與頻次分類方法相比,價值細分方法在考慮了關(guān)鍵詞的近度和值度特征后,有31%的關(guān)鍵詞層級升高,16%的關(guān)鍵詞層級降低。其中,有6%的關(guān)鍵詞降低了1個層級,1%降低了4個層級。可以得出結(jié)論,關(guān)鍵詞的近度和值度對價值的衡量存在影響,本文提出的識別方法具有有效性。

圖6 對比實驗下關(guān)鍵詞等級變化情況

4.4.2 關(guān)鍵詞參數(shù)對比分析

為了進一步說明本文提出的高價值熱點關(guān)鍵詞識別方法的優(yōu)勢,本文將其與傳統(tǒng)的頻次細分方法進行對比實驗,分析兩組實驗下關(guān)鍵詞相關(guān)參數(shù)的變化情況(表7),表中每個參數(shù)值是該層次下關(guān)鍵詞參數(shù)的平均值。以下從對比分析和整體效果分析兩個角度進行分析。

表7 對比實驗下關(guān)鍵詞相關(guān)參數(shù)變化情況

(1)對比分析角度。采用本文價值細分方法后,相較于傳統(tǒng)頻次細分方法可以發(fā)現(xiàn)以下規(guī)律:①對于最高層次5,除了基金項目參數(shù)平均值出現(xiàn)小幅上升,各項參數(shù)平均值均出現(xiàn)小幅下降,究其原因,主要有兩點:其一,頻次細分方法并未考慮基金項目對關(guān)鍵詞的影響,在納入指標(biāo)M后,出現(xiàn)小幅上升,證明本文的識別方法在識別熱點關(guān)鍵詞過程中較好地考慮了價值因素,為關(guān)鍵詞賦予了價值屬性;其二,其余參數(shù)平均值下降,說明引入RFM模型以后,將某些依賴于頻次較高而劃分到高層次的關(guān)鍵詞被降權(quán),說明對關(guān)鍵詞引入近度和值度指標(biāo)以后,能夠更全面地衡量關(guān)鍵詞。②除了層次5以外,各項參數(shù)平均值均出現(xiàn)了上升,說明本文的識別方法具有較高的區(qū)分度和調(diào)節(jié)作用。③頻次細分實驗對照組中,層次3、2和1中出現(xiàn)多個1.000參數(shù)值,說明在這些層次中,傳統(tǒng)的頻次細分方法已經(jīng)不具有較好的區(qū)分度,而本文提出的價值細分方法,參數(shù)在每個層次上的平均值呈相對平穩(wěn)的下降趨勢,說明層次區(qū)分度較好。

(2)整體效果分析角度。本文基于價值細分的識別方法,得到的關(guān)鍵詞價值層次更具有區(qū)分度,符合關(guān)鍵詞RFM模型的定義,即重要價值關(guān)鍵詞、一般價值關(guān)鍵詞、重要發(fā)展關(guān)鍵詞、一般發(fā)展關(guān)鍵詞和低價值關(guān)鍵詞。

4.4.3 高價值熱點關(guān)鍵詞分析

本節(jié)對每個層次下識別出的高價值關(guān)鍵詞進行分析。如圖6所示,部分關(guān)鍵詞在不同識別方法下,所處細分層次發(fā)生變化。舉例分析識別出來的每個層次中的高價值熱點關(guān)鍵詞的層次變化情況,對說明本文提出的識別方法的思想具有較大的意義。在實驗過程中,本文計算了每個高價值熱點關(guān)鍵詞的基于頻次的層級(count level)和基于RFM模型的層級(RFM level),下文針對層級發(fā)生變化的高價值熱點關(guān)鍵詞進行分析,如表8所示,變化情況是指關(guān)鍵詞的RFM level相對于count level升高或者降低,由于篇幅所限,僅舉例分析。示例中,升高情況下,多數(shù)關(guān)鍵詞的頻次較低,因此在劃分層級的時候,劃分為4;但在使用本文的識別方法中,由于充分考慮了最后年份(近度)、基金項目數(shù)目(值度)和終點事件(用于生存分析)三個參數(shù)以后,這些關(guān)鍵詞的層級從count level為4提升到RFM level為5,分析發(fā)現(xiàn)該類關(guān)鍵詞符合兩個特征:①近幾年被作者最新提到或者使用;②雖然存在生命周期較短和頻次較少的現(xiàn)象,但被基金項目支持的次數(shù)較高,價值量較大。以上兩個特征,表明該類關(guān)鍵詞較為新穎,且價值量較大,未來可能成長為新的高價值熱點關(guān)鍵詞。降低情況下,該類關(guān)鍵詞的重要特征是其最后年份(近度)在數(shù)據(jù)截止年份(2019年年底)已經(jīng)超過3年,本文在第4.3.2節(jié)中得到的最優(yōu)RFM權(quán)重中,近度所占權(quán)重為0.8,因此,該類關(guān)鍵詞在使用本文識別方法后,所處層級降低,表明其屬于重要發(fā)展關(guān)鍵詞,若未來在較長一段時間仍然沒有被再次關(guān)注或使用,則可能不再是學(xué)科關(guān)注或研究的重點主題。

表8 高價值熱點關(guān)鍵詞層級變化舉例(部分)

4.4.4 高價值熱點主題識別結(jié)果驗證

鑒于熱點主題識別方法目前沒有統(tǒng)一的驗證標(biāo)準(zhǔn),本節(jié)采用資料驗證法和數(shù)據(jù)對比分析方法,對實驗設(shè)計進行驗證。

(1)資料驗證法。本文對目前我國圖情檔領(lǐng)域研究主題分類的文獻進行深入調(diào)研,發(fā)現(xiàn)本文高價值熱點主題的識別結(jié)果與已有研究成果具有一致性。例如,宋娜等[52]通過基金項目名稱檢索相關(guān)學(xué)術(shù)論文成果,采用內(nèi)容分析法分析了1991—2019年的論文關(guān)鍵詞,識別出的熱點主題;趙蓉英等[53]以2001—2012年國家科學(xué)基金為演技視角,透視圖書情報檔案學(xué)科的研究主題。與上述研究對比來看,本文提取的主題基本覆蓋了上述研究中提到的主題,證明了本文提出的識別方法具有準(zhǔn)確性和合理性。

(2)數(shù)據(jù)對比分析法。將價值細分方法和頻次細分方法提取的熱點主題進行對比,計算每個主題下關(guān)鍵詞基金項目數(shù)的平均值,再從大到小進行排序,如圖7所示。由圖7可知,從主題數(shù)量來看,兩種識別方法一致,但主題排序有所變動。兩者結(jié)合分析發(fā)現(xiàn),相較于頻次細分方法,價值細分方法更能識別出國家高度重視的主題。例如,“圖書館”是國家基金長期重點支持的研究主題,排名第一;大數(shù)據(jù)作為一門新興技術(shù)主題,排名第二。這充分說明了大數(shù)據(jù)主題也是我國基金項目的資助重點,同時反映了圖情檔是一個交叉學(xué)科,大數(shù)據(jù)是研究的一個重要組成部分。此外,在新興主題識別上,本文價值細分方法能識別出當(dāng)前熱點主題,如價值細分方法識別出大數(shù)據(jù)、社交網(wǎng)絡(luò)、網(wǎng)絡(luò)輿情是熱點主題,在價值上高于頻次細分方法識別出的相應(yīng)主題,為研究者的科研選題和研究方向提供了新的依據(jù)。

圖7 識別結(jié)果驗證

5 總結(jié)與展望

本文所實現(xiàn)的高價值熱點關(guān)鍵詞識別方法,考慮了關(guān)鍵詞的多個維度的屬性,包括時間維度、頻次維度和價值維度。在實現(xiàn)過程中,時間維度重點探索兩個屬性:關(guān)鍵詞最近一次出現(xiàn)的時間和關(guān)鍵詞的生命周期。關(guān)鍵詞的高價值主要體現(xiàn)在基金項目的支持頻次,熱點主要體現(xiàn)在生命周期內(nèi)被使用的頻次。相較于傳統(tǒng)的熱點主題識別方法大多只考慮關(guān)鍵詞的頻次,缺少層次劃分和價值體現(xiàn),本文提出的識別方法彌補了上述不足。同時,本文也存在一定的不足之處,如使用基金項目支持頻次作為價值尺度是一個較為粗粒度的角度,未來使用基金項目資助金額可以進一步完善價值衡量標(biāo)準(zhǔn)。由于篇幅所限,本文僅探索了高價值熱點主題的識別方法,沒有對主題演化做進一步探索,在未來的研究中,將結(jié)合知識圖譜對高價值熱點主題的演化進行研究。

猜你喜歡
細分熱點權(quán)重
權(quán)重望寡:如何化解低地位領(lǐng)導(dǎo)的補償性辱虐管理行為?*
權(quán)重常思“浮名輕”
深耕環(huán)保細分領(lǐng)域,維爾利為環(huán)保注入新動力
熱點
為黨督政勤履職 代民行權(quán)重擔(dān)當(dāng)
結(jié)合熱點做演講
權(quán)重漲個股跌 持有白馬藍籌
1~7月,我國貨車各細分市場均有增長
整體低迷難掩細分市場亮點
熱點
东方市| 年辖:市辖区| 枣阳市| 镇雄县| 射洪县| 阳谷县| 河津市| 日土县| 大关县| 辽中县| 夏河县| 梁山县| 绿春县| 西贡区| 和静县| 巴彦淖尔市| 班戈县| 轮台县| 禄劝| 左云县| 灌云县| 达拉特旗| 娄烦县| 综艺| 西林县| 贵阳市| 商水县| 康平县| 大渡口区| 长乐市| 潼南县| 杭锦后旗| 嘉黎县| 扎赉特旗| 长沙县| 河间市| 瑞安市| 含山县| 文登市| 武平县| 东港市|