詞頻分析法中高頻詞閾值界定方法適用性的實證分析

2017-10-22 10:24:58劉奕杉王玉琳李明鑫

數(shù)字圖書館論壇 2017年9期

關(guān)鍵詞：普賴斯高頻詞詞頻

劉奕杉，王玉琳，李明鑫

（東北師范大學(xué)信息科學(xué)與技術(shù)學(xué)院，長春 130117）

詞頻分析法中高頻詞閾值界定方法適用性的實證分析

劉奕杉，王玉琳，李明鑫

（東北師范大學(xué)信息科學(xué)與技術(shù)學(xué)院，長春 130117）

詞頻分析法是文獻(xiàn)計量學(xué)的重要分析方法之一，而確定高頻詞閾值是進(jìn)行詞頻分析的必要前提，高頻詞閾值的選取不僅決定詞頻分析法的分析結(jié)果，而且對整個分析研究都有著極其重要的影響。本文首先以近三年國內(nèi)運(yùn)用詞頻分析法展開研究的文獻(xiàn)為調(diào)研基礎(chǔ)，發(fā)現(xiàn)目前學(xué)界常用的高頻詞閾值選取方法主要有自定義選取法、高低頻詞界定公式選取法、普賴斯公式選取法及混合選取法四類；其次，以個人知識管理領(lǐng)域的文獻(xiàn)為研究對象，對前三類高頻詞閾值選取方法分別進(jìn)行取值計算并做領(lǐng)域熱點聚類分析，對比驗證聚類結(jié)果，同時以此結(jié)果為基礎(chǔ)討論高頻詞閾值選擇對分析結(jié)果的影響及其合理性；最后，指出我國學(xué)界在高頻詞閾值選取方面存在主觀性強(qiáng)、方法原理不明、改進(jìn)方法適用性不明，高低頻詞界定公式和普賴斯公式適用性尚待研究等問題。

高頻詞；文獻(xiàn)計量學(xué)；詞頻分析

1 引言

在科學(xué)研究中，常通過表達(dá)文獻(xiàn)核心內(nèi)容的關(guān)鍵詞或主題詞的出現(xiàn)頻次確定該領(lǐng)域的研究重點和發(fā)展動向。由于一篇文獻(xiàn)的關(guān)鍵詞或主題詞是文獻(xiàn)核心內(nèi)容的濃縮和提煉，因此，如果某一關(guān)鍵詞或主題詞在其領(lǐng)域文獻(xiàn)中反復(fù)出現(xiàn)，則可認(rèn)為該關(guān)鍵詞或主題詞所表征的研究主題即為該領(lǐng)域的研究熱點[1]。詞頻分析法可以結(jié)合其他方法（如共詞分析、多維尺度分析、知識圖譜等），加深對研究主題的理解。雖然詞頻分析法的實踐應(yīng)用廣泛，但很少有對其方法理論的深入研究，缺乏對其內(nèi)涵、特征、模式、流程等內(nèi)在規(guī)律的系統(tǒng)歸納。此外，對詞頻分析法與傳統(tǒng)文獻(xiàn)綜述法在方法論基礎(chǔ)、研究對象、應(yīng)用范圍等方面的探討亦比較少見[2]。

確定領(lǐng)域高頻詞是運(yùn)用詞頻分析等方法進(jìn)行下一步工作的基礎(chǔ)，因此如何合理界定領(lǐng)域高頻詞成為重要的研究課題。如楊建林對基于詞頻閾值和基于貢獻(xiàn)強(qiáng)度閾值的兩種選詞策略進(jìn)行分析，得出將這兩種方法合并后得到的關(guān)鍵詞集具有更好的共詞分析效果[3]；陳果等提出基于學(xué)科背景的全局視角，對比關(guān)鍵詞在領(lǐng)域內(nèi)外的出現(xiàn)頻率，提出領(lǐng)域度計算公式，并融合領(lǐng)域度和熱度指標(biāo)進(jìn)行關(guān)鍵詞篩選[4]；安興茹提出基于正態(tài)分布的方法，通過實證分析，驗證關(guān)鍵詞或主題詞在文獻(xiàn)庫中的分布符合正態(tài)分布，并根據(jù)正態(tài)分布的特性，提出詞頻分析法高頻詞閾值的計算方法[5]。

目前已有學(xué)者嘗試提出改進(jìn)高頻詞閾值的方法，但這些新方法是否具有廣泛的適用性，是否能解決目前高頻詞閾值選取中存在的問題，以及使用這些新方法是否會產(chǎn)生新的問題，在學(xué)界尚無法達(dá)成共識，還需要繼續(xù)探討；而傳統(tǒng)高頻詞閾值選取方法相對不規(guī)范，因此關(guān)于高頻詞閾值的選取方法未來還有很長的路要走。

2 常用高頻詞閾值選取方法

為反映目前我國學(xué)界關(guān)于高頻詞閾值選取方法的現(xiàn)狀，本文在中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫中檢索“研究熱點”相關(guān)的文獻(xiàn)。以摘要=“熱點”and主題=“詞頻+共詞”為檢索式，選取來源類別為CSSCI，檢索時間為2015—2017年的文獻(xiàn)，共得到229條記錄，再通過人工篩選，去除不符合研究主題的文獻(xiàn)，最終得到174篇文獻(xiàn)。

2.1 近三年“研究熱點”類文獻(xiàn)的統(tǒng)計結(jié)果分析

本文通過提取174篇文獻(xiàn)中高頻詞閾值的方法，并以此為代表，整理目前我國學(xué)界常用的高頻詞閾值選取方法，結(jié)果見表1。

表1 高頻詞閾值選取方法

2.2 自定義選取法

從表1可以看出，目前我國學(xué)界在研究領(lǐng)域熱點問題時，常用的高頻詞選取辦法是自定義選取法，合計129篇，占比74.14%。自定義選取法，作者可根據(jù)研究需要自行規(guī)定高頻詞的選取方法和高頻詞的閾值，這種選擇方法主觀性強(qiáng)，在閾值的選擇上較隨意。通過本文所得到的174篇文獻(xiàn)的研究數(shù)據(jù)發(fā)現(xiàn)，樣本文獻(xiàn)數(shù)據(jù)量從58—25 990篇，頻次的選擇從2—300次，跨度比較大。對這些具有一定隨意性的高頻詞選取方法所選出的高頻詞進(jìn)行分析，其分析結(jié)果的準(zhǔn)確性和科學(xué)性值得商榷。即使是同一領(lǐng)域的研究，也存在不同研究者有不同取值標(biāo)準(zhǔn)的現(xiàn)象，從而導(dǎo)致研究結(jié)果不一致。

2.2.1 頻次選取法

從調(diào)研結(jié)果來看，最常用的自定義方法是頻次選取法，即作者自行規(guī)定高頻詞的閾值，這類文獻(xiàn)占比45.98%。這種高頻詞選取方法主要依據(jù)研究者在研究過程中遇到的具體情況和自身經(jīng)驗，選取合適的閾值來確定高頻詞。這種方法的優(yōu)點是操作簡便，可節(jié)省大量時間和精力，使研究者把更多注意力放在后續(xù)分析研究上。但由于此種方法的全部操作步驟均為研究者自定義，其可信度和科學(xué)性無法保證，尤其高頻詞閾值的確定是后續(xù)分析研究的基礎(chǔ)。

在現(xiàn)有樣本數(shù)據(jù)中，有11篇文獻(xiàn)的研究者在使用頻次選取法時，按照高頻詞累計頻次達(dá)到總頻次40%左右的取詞標(biāo)準(zhǔn)進(jìn)行取詞，占頻次選取法文獻(xiàn)的13.75%，全部樣本文獻(xiàn)的6.32%。由此也可以看出，在頻次選取法的實際應(yīng)用中，研究者的主觀意愿在一定程度上占據(jù)主導(dǎo)地位。

2.2.2 前N位選取法

前N位選取法即按照詞頻由高到低進(jìn)行排序，作者自選前N位詞為高頻詞；這類文獻(xiàn)共44篇，占比25.29%。這種方法與頻次選取法類似，也是以研究者主觀意志為主的一種高頻詞選取方法。

不同的是，這種方法的隨意性更大。前N位選取法中N的閾值如何界定，目前沒有標(biāo)準(zhǔn)。從本文樣本統(tǒng)計結(jié)果來看，高頻詞閾值選取標(biāo)準(zhǔn)從前5—100位不等，其所選第N位高頻詞的出現(xiàn)頻次也從2—100次不等。由于這種方法是將具體頻次數(shù)據(jù)抽象為排名形式，因此不可避免地丟失部分具體頻次信息。這種更抽象的前N位選取法，通常使研究者更易忽略其截取頻次的合理性，而更關(guān)注所選高頻詞個數(shù)是否更易構(gòu)造相異矩陣，是否能夠為研究帶來更多的方便。

2.2.3 中心度選取法

目前，由于詞頻分析軟件的普及，在進(jìn)行詞頻分析時，大量文獻(xiàn)選擇把原始數(shù)據(jù)直接導(dǎo)入詞頻分析軟件中（如CiteSpace、Ucinet等），以關(guān)鍵詞中心度為排序依據(jù)選取高頻詞的樣本數(shù)據(jù)共5篇，占比2.87%。實際上，CiteSpace等詞頻分析軟件的工作原理是根據(jù)詞頻多少來確定相應(yīng)的節(jié)點中心度，因此這種以中心度確定高頻詞的方法其實質(zhì)與前N位選取法的原理一致。

2.3 高低頻詞界定公式選取法

第二大類方法是用高低頻詞界定公式確定高頻詞閾值。高低頻詞界定公式由Donohue在1973年提出，源于齊普夫第二定律[6]。高低頻詞界定公式作為文獻(xiàn)計量學(xué)里的一項重要內(nèi)容，本應(yīng)是用于高頻詞閾值界定的一種普遍方法，但從本文樣本調(diào)研結(jié)果來看，實際上使用此高低頻詞界定公式法進(jìn)行高頻詞選取的文獻(xiàn)只有11篇，僅占比6.32%。

（1）依賴I1。從此公式可知，詞頻閾值完全由I1決定，計算出的高頻詞個數(shù)一般過多或過少，這可能是計算結(jié)果不理想的外在原因[5]。

（2）理論基礎(chǔ)和適用性。高低頻詞界定公式是由齊普夫第二定律得來，同齊普夫第二定律一樣都是針對某一具體文獻(xiàn)得出的詞頻分界公式，而非針對文獻(xiàn)庫得出，所以高低頻詞界定公式在基于文獻(xiàn)庫的高頻主題詞和關(guān)鍵詞閾值計算上，缺乏理論基礎(chǔ)和適用條件[5]。

相較于自定義選取法，用高低頻詞界定公式計算高頻詞比較復(fù)雜，雖然孫清蘭對其進(jìn)行過改良，提供相對簡便的算法[6]，但與自定義方法相比，高頻詞的選取仍然比較復(fù)雜。因此，由于上述兩方面原因，學(xué)界較少使用高低頻詞界定公式方法界定領(lǐng)域高頻詞。

2.4 普賴斯公式選取法

雖然在選擇領(lǐng)域高頻詞方面有許多學(xué)者提出多種方法，如熊回香等使用大數(shù)據(jù)搜索與挖掘共現(xiàn)平臺提取特征詞[7]，巴志超等用LDA和word2vec模型提取高頻詞[8]，姚小嬌用詞頻g指數(shù)方法界定高頻詞等[9]。但就目前統(tǒng)計來看，除作者自定義和用高低頻詞界定公式界定高頻詞這兩種方法外，還主要借用普賴斯公式來確定領(lǐng)域高頻詞（共計5篇，占比2.87%）。

普賴斯公式最早被用于確定高被引文獻(xiàn)，進(jìn)而確定某研究領(lǐng)域內(nèi)的核心作者。因方法相較于用高低頻詞界定公式更簡單，比自定義選取法更科學(xué)，逐漸被T學(xué)者接受并應(yīng)用于不同領(lǐng)域的研究中。其高頻詞閾值根據(jù)普賴斯公式確定，計算公式：，其中M為高頻詞閾值，Nmax表示區(qū)間學(xué)術(shù)論文被引頻次最高值[10]。

普賴斯公式可以用于確定領(lǐng)域核心文獻(xiàn)，因此在一定程度上利用此公式確定領(lǐng)域核心關(guān)鍵詞也是可行的。但在具體應(yīng)用時，還需進(jìn)一步改進(jìn)，如將自變量Nmax表示為關(guān)鍵詞的頻次最高值，而不是被引次數(shù)的最高值，這樣用此公式得出的結(jié)果才更符合“領(lǐng)域核心詞”（即領(lǐng)域高頻詞）。

為更清晰地表現(xiàn)上述我國學(xué)界常用的三類（5種）高頻詞閾值選取方法，在此將這5種方法歸納、對比，整理見表2。

2.5 混合選取法

混合選取法指將表2中兩種或兩種以上方法合并使用的情況。最常用的方法為先用高低詞頻界定公式或普賴斯公式計算得出一個高頻詞閾值，由于該閾值與實際情況存在一定差異，不能滿足研究需要或為研究帶來不必要的麻煩。對此，研究者通常根據(jù)實際情況進(jìn)行人工選詞，即在公式計算結(jié)果的基礎(chǔ)上，人工擴(kuò)大或縮小范圍，自定義閾值。

表2 5種常用高頻詞閾值選取方法對比

3 高頻詞閾值選取的實證分析

本文以上述總結(jié)出的我國學(xué)界目前常用的三大類高頻詞選取方法為基礎(chǔ)，對個人知識管理領(lǐng)域的研究文獻(xiàn)進(jìn)行實證研究，并將所得結(jié)果進(jìn)行對比驗證，以此說明不同高頻詞閾值選取方法對選詞結(jié)果的影響，以及不同選詞結(jié)果對后續(xù)分析研究的影響。本文僅通過聚類分析方法來體現(xiàn)其影響，對于多維尺度分析、網(wǎng)絡(luò)節(jié)點分析等定量方法，以及領(lǐng)域熱點、發(fā)展趨勢分析等定性方法暫不予以說明。

本文通過中國知識基礎(chǔ)設(shè)施工程的期刊數(shù)據(jù)庫，檢索得到“個人知識管理”領(lǐng)域的文獻(xiàn)，共得1 241條記錄。用Bicomb軟件提取所有文獻(xiàn)的關(guān)鍵詞[15]，經(jīng)過數(shù)據(jù)清洗后共得2 412個關(guān)鍵詞，將詞頻出現(xiàn)頻次按由高到低排序，部分結(jié)果（Top 20）如表3所示。

表3 個人知識管理領(lǐng)域關(guān)鍵詞詞頻統(tǒng)計表（Top 20）

3.1 二八定律驗證自定義選取法

從本文第一部分分析來看，絕大多數(shù)自定義選取法憑研究者意愿進(jìn)行。但根據(jù)統(tǒng)計，自定義選取法的詞頻截取比例通常在8%—40%。因此，為重現(xiàn)自定義選取方法并同時體現(xiàn)一定的取詞依據(jù)，本文以二八定律為基礎(chǔ)，對自定義選取法進(jìn)行實證驗證，選取個人知識管理領(lǐng)域的高頻詞。依照表3中的統(tǒng)計結(jié)果，從高到低抽取累計占比達(dá)20%的詞為該領(lǐng)域的高頻詞。

按照此種方法抽取高頻詞，應(yīng)抽取的高頻詞范圍為所有頻次大于或等于15的詞，即位于前30位的詞為個人知識管理領(lǐng)域的高頻詞，累計占比20.14%。用SPSS軟件對此30個高頻詞進(jìn)行聚類分析，以倒數(shù)第二大聚類層次作為劃分標(biāo)準(zhǔn)，統(tǒng)計聚類類別。

在選取前30個詞為高頻詞的條件下，個人知識管理領(lǐng)域的關(guān)鍵詞大致可以分為三類，即“顯性知識”“隱性知識”與“圖書館”為第一類；“個人知識”“組織知識”“個人學(xué)習(xí)”“組織學(xué)習(xí)”“知識經(jīng)濟(jì)時代”與“知識結(jié)構(gòu)”為第二類；其余如“博客”“應(yīng)用”與“策略”等為第三類。

3.2 高低頻詞界定公式選取法的驗證

據(jù)統(tǒng)計，關(guān)鍵詞詞頻為1的共有1 860個詞，將其代入高低頻詞界定公式，計算得出高頻詞閾值為60，即由高低頻詞界定公式確定的個人知識管理領(lǐng)域的高頻詞為所有出現(xiàn)頻次大于60次的詞匯。因此，如果按照高低頻詞界定公式方法取詞，那么個人知識管理領(lǐng)域的高頻詞為表3中的前3個詞，即“博客”“隱性知識”與“個人知識”。由于此方法只提取到3個高頻詞，不便進(jìn)行聚類分析。

3.3 普賴斯公式選取法的驗證

根據(jù)對普賴斯公式選取法的論述，可知普賴斯公式確定高頻詞主要取決于區(qū)間關(guān)鍵詞出現(xiàn)的頻次。由表3可見，個人知識管理領(lǐng)域文獻(xiàn)的關(guān)鍵詞最高頻次為74次。因此，根據(jù)普賴斯公式計算得出的高頻詞閾值6.4。即頻次大于或等于6的詞均為個人知識管理領(lǐng)域的高頻詞，共計103個。同樣用SPSS得出這103個高頻詞的聚類分析結(jié)果。

將此聚類結(jié)果大致分為三類：“顯性知識”“隱性知識”與“圖書館”為第一類；“知識獲取”“知識利用”與“知識管理工具”等為第二類；“學(xué)習(xí)型組織”“個人學(xué)習(xí)”與“組織學(xué)習(xí)”等為第三類。對比前30個詞的聚類結(jié)果，雖然二八定律取值后的聚類劃分結(jié)果也是三類，但兩種方式的聚類結(jié)果差別較大。以“個人知識”“組織知識”“知識經(jīng)濟(jì)時代”“個人學(xué)習(xí)”與“組織學(xué)習(xí)”這5個詞為例來說明，在頻次大于或等于15（Top 30）的詞為領(lǐng)域高頻詞時，這5個詞是被劃分為同一類；而在頻次大于或等于6（Top 103）的詞為領(lǐng)域高頻詞時，這5個詞則被劃分到兩大類中，即“個人知識”“組織知識”“知識經(jīng)濟(jì)時代”與“知識獲取”“知識利用”等歸為第二類，而“個人學(xué)習(xí)”“組織學(xué)習(xí)”則與“學(xué)習(xí)型組織”“企業(yè)”“知識管理能力”等歸為第三類，即相同的5個詞在聚類類別上發(fā)生了明顯變化。由此可以說明，即使使用同一組數(shù)據(jù)，由于截頻方法或截取閾值不同，也會產(chǎn)生明顯不同的聚類分析結(jié)果，從而導(dǎo)致后續(xù)分析結(jié)論發(fā)生偏差。

據(jù)此可以推測，在面對不同高頻詞截取結(jié)果時，同樣是以高頻詞分析為基礎(chǔ)的多維尺度圖、節(jié)點網(wǎng)絡(luò)圖等多種分析方法的呈現(xiàn)結(jié)果不一樣，而目前我國學(xué)者對于領(lǐng)域發(fā)展、熱點分析、趨勢預(yù)測等的把握基本上是由聚類分析圖、多維尺度圖、節(jié)點網(wǎng)絡(luò)圖等綜合得出，即不同的呈現(xiàn)結(jié)果必然會導(dǎo)致研究者分析結(jié)果的差異，由此可以證明不同的高頻詞選取方法導(dǎo)致不同的截取結(jié)果，確實會對后續(xù)的分析結(jié)果產(chǎn)生不同影響。

3.4 三種方法驗證結(jié)果對比

從上述驗證結(jié)果可以看出，即使是在同一研究領(lǐng)域，由于高頻詞閾值選擇的方法不同，所確定的高頻詞也是明顯不同，甚至差異巨大。在個人知識管理領(lǐng)域中，用二八定律確定的高頻詞閾值為15，包含前30個高頻詞；用高低頻詞界定公式方法確定的閾值為60，包含前3個高頻詞；用普賴斯公式方法確定的閾值為6，包含前103個高頻詞。三種方法確定的高頻詞數(shù)量最高相差100，相比之下，選用二八定律截取出的高頻詞閾值更合理。

目前我國學(xué)界在應(yīng)用普賴斯公式計算高頻詞閾值時，絕大多數(shù)存在適用性問題。即將普賴斯公式計算得出的M值（實際代表高被引文獻(xiàn)的閾值）用做高頻詞閾值。為說明普賴斯公式在高頻詞閾值界定上的不合理應(yīng)用，及其對聚類分析結(jié)果的影響，本文特將這種情況列出，并與前文中所取閾值較合理的二八定律方法（閾值15）的聚類結(jié)果進(jìn)行對比分析。

通過檢索個人知識管理領(lǐng)域文獻(xiàn)得到的最高被引次數(shù)為430，普賴斯公式計算結(jié)果約為16。以16作為高頻詞閾值，則可獲取個人知識管理領(lǐng)域的前27個關(guān)鍵詞高頻詞。通過對前27個詞的聚類，分析發(fā)現(xiàn)個人知識管理領(lǐng)域的關(guān)鍵詞可以聚為四類，明顯不同于前30個詞的三類劃分，并且同樣出現(xiàn)了同一關(guān)鍵詞被劃分在不同聚類的情況，如“博客”在前30個詞的聚類中應(yīng)劃歸第三類，而在前27個詞的聚類中應(yīng)劃歸在第二類，與“教師”“大學(xué)生”“知識管理系統(tǒng)”和“知識創(chuàng)新”等詞劃成一類。由此可見，即使截取的高頻詞閾值差異很小，對于聚類分析結(jié)果的影響也是很大的，仍然會對研究者的分析結(jié)論造成較大的影響，進(jìn)而影響其對當(dāng)前領(lǐng)域發(fā)展的認(rèn)識和對未來發(fā)展趨勢的判斷。

通過上述實證研究，再次證實不同高頻詞選取方法對結(jié)果的巨大影響。在高頻詞取值差異的影響下，后續(xù)分析研究的可信度和科學(xué)價值值得商榷。因此，若想保證后續(xù)分析中的研究價值和意義，規(guī)范、科學(xué)地確定領(lǐng)域高頻詞是一個必不可少且十分重要的前提條件。但僅從目前我國學(xué)界的研究現(xiàn)狀來看，絕大多數(shù)研究者尚未意識到高頻詞閾值的選取會對后續(xù)分析結(jié)論帶來嚴(yán)重影響，更沒有意識到現(xiàn)有高頻詞選取方式中的不足，以及其對分析研究的不利影響。

3.5 驗證研究的結(jié)論

從三種選取方法的結(jié)果對比來看，用二八定律方法來確定領(lǐng)域高頻詞閾值是較合理的。一是以二八定律代替完全憑借研究者主觀意愿的自定義選取方式相對客觀；二是二八定律作為較成熟的理論，已成功應(yīng)用在圖書情報領(lǐng)域的諸多研究主題中，將其應(yīng)用于高頻詞界定是有其理論依據(jù)的，以20%累計詞頻覆蓋率作為該領(lǐng)域的核心關(guān)鍵詞是合理的；三是從驗證結(jié)果來看，二八定律所選取的高頻詞閾值較合理，與高低頻詞界定公式取詞偏少、普賴斯公式取詞偏多的情況相比，二八定律截取的高頻詞數(shù)量更適中，更符合研究者的需求；四是二八定律取詞法在操作上更簡便，即使對高低頻詞界定公式、普賴斯公式等方法運(yùn)用不夠熟練，也可以按照此定律取得合適的結(jié)果；五是二八定律是一個定值，既不需要經(jīng)過公式計算，也不需要考慮公式中由于自變量取值不準(zhǔn)確而對閾值計算造成的影響。因此，相較于其他的高頻詞界定方法，二八定律更適用。

4 高頻詞閾值選取方面存在的問題

4.1 主觀性強(qiáng)

目前，學(xué)界進(jìn)行的大部分詞頻分析或以詞頻分析為基礎(chǔ)的研究，對于高頻詞的截取數(shù)量和選取方法沒有明確概念；且大多以作者關(guān)鍵詞作為選詞標(biāo)準(zhǔn)，而作者關(guān)鍵詞本身就是文獻(xiàn)作者的主觀性選取結(jié)果；又因高頻詞的截取也是研究者的自主選擇，不同研究者有不同態(tài)度，最終可能會導(dǎo)致結(jié)果不同，整個研究的主觀性過強(qiáng)。

由于一些研究的領(lǐng)域較新，已有文獻(xiàn)數(shù)據(jù)量不大，導(dǎo)致用公式計算得出的結(jié)果不準(zhǔn)確，閾值界定范圍過小，無法進(jìn)行下一步分析。如張叢昱等雖使用普賴斯公式，但其實際計算結(jié)果與預(yù)期結(jié)果存在較大差異，最終只能根據(jù)作者對領(lǐng)域的理解，并結(jié)合公式計算數(shù)據(jù)確定高頻詞閾值的范圍[16]，這也是混合選取法出現(xiàn)的根本原因之一。

4.2 方法原理不明

目前我國學(xué)者對某一領(lǐng)域的現(xiàn)狀、趨勢、熱點的研究較多，但大部分文獻(xiàn)在進(jìn)行分析前，對如何準(zhǔn)確地選擇合適的高頻詞，以及高頻詞閾值選擇標(biāo)準(zhǔn)等問題并未給出明確說明。大部分研究者只是在更換研究領(lǐng)域后，機(jī)械性照搬前人文獻(xiàn)和寫作模式。如依靠普賴斯公式計算得出詞頻大于6的詞為領(lǐng)域高頻詞，但是對普賴斯公式的原理、優(yōu)缺點、所取閾值是否合理等問題并未詳加考量。

4.3 改進(jìn)方法適用性不明

目前，高頻詞閾值的選取方法并沒有形成統(tǒng)一概念，因此有人對當(dāng)前高頻詞閾值選取方法提出異議并給予相應(yīng)改進(jìn)方法。即使有學(xué)者提出改進(jìn)此問題的方法，且在某一領(lǐng)域內(nèi)檢測其適用性，但這種新方法也可能存在問題。巴志超等認(rèn)為，文獻(xiàn)中構(gòu)建的語義網(wǎng)絡(luò)度分布并不符合冪律分布特性，但沒有過多討論是否由于模型的參數(shù)設(shè)置、Top N的關(guān)鍵詞選擇以及語義度量指標(biāo)等因素的影響和相互關(guān)系，也未檢驗構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu)中的其他分布，如節(jié)點權(quán)值分布、中間中心性分布等是否符合冪律分布特性[8]。也就是說這一類文獻(xiàn)雖然對提出的問題進(jìn)行改善，但也可能只對提出的問題進(jìn)行改善，并不排除可能會并發(fā)其他影響。而這些新方法本身也具有局限性，是研究者對詞頻截取中出現(xiàn)的某一問題或某幾個問題做出的改進(jìn)，而研究者對新方法的驗證也僅是采用了某一領(lǐng)域的某一組數(shù)據(jù)。因此這種方法是否真正適用于該領(lǐng)域或其他領(lǐng)域，以及使用這種方法是否會產(chǎn)生其他并發(fā)性問題還需要進(jìn)一步討論。

4.4 高低頻詞界定公式存在適用性問題

從已有研究的情況來看，高低頻詞界定公式的取值偏大，導(dǎo)致截取到的高頻詞過少。造成這種情況的原因有兩個：一是研究領(lǐng)域的相關(guān)主題本身比較分散，因此關(guān)鍵詞重復(fù)率不高，僅出現(xiàn)1次的關(guān)鍵詞數(shù)量較多。二是我國期刊文獻(xiàn)的關(guān)鍵詞多為作者關(guān)鍵詞，即文獻(xiàn)作者自定義的關(guān)鍵詞，這種作者關(guān)鍵詞的規(guī)范性不足，對同一事物可能存在多種不同說法。因此，大量不規(guī)范的作者自定義關(guān)鍵詞就成為僅出現(xiàn)1次的關(guān)鍵詞的主要組成部分，從而導(dǎo)致高低頻詞界定公式取值結(jié)果偏大，無法為領(lǐng)域高頻詞的確定提供合理參考。

4.5 普賴斯公式適用性不明

目前我國大多數(shù)學(xué)者將普賴斯公式的計算結(jié)果直接作為確定高頻詞的方法，這種做法雖然簡單易行，在實際科學(xué)研究中有其獨(dú)特優(yōu)勢和實用性。但此公式畢竟是為確定高被引文獻(xiàn)而設(shè)計的，將其直接應(yīng)用于領(lǐng)域高頻詞提取，實際上是不適合的。公式中自變量Nmax表示區(qū)間學(xué)術(shù)論文被引頻次最高值，即被引次數(shù)的最高值，計算得出的M值應(yīng)該是“被引量”（即高被引文獻(xiàn)的閾值）而不應(yīng)是“關(guān)鍵詞頻次”（高頻詞閾值）。因此，將普賴斯公式直接用于確定高頻詞閾值值得商榷，目前僅有少數(shù)研究者意識到該問題。如胡利勇雖然在界定高頻詞時借用普賴斯公式[17]，但同時對該公式究竟是否適用于界定高頻詞提出質(zhì)疑。

5 關(guān)于高頻詞閾值界定方法改進(jìn)的思考

5.1 普賴斯公式法的改進(jìn)

除上文中提到的將現(xiàn)有普賴斯公式中的自變量變?yōu)椤白罡哧P(guān)鍵詞頻次”來增加其應(yīng)用于高頻詞界定的合理性之外，也可以在普賴斯公式確定領(lǐng)域核心文獻(xiàn)的基礎(chǔ)上，嘗試將這些核心文獻(xiàn)中的關(guān)鍵詞作為領(lǐng)域核心關(guān)鍵詞。普通計算關(guān)鍵詞詞頻的方法是單純將關(guān)鍵詞累加，并沒有考慮到核心文獻(xiàn)中的關(guān)鍵詞應(yīng)該具有更大的影響。如高影響力作者的一篇高被引文獻(xiàn)中的關(guān)鍵詞與普通文獻(xiàn)的關(guān)鍵詞權(quán)重完全相同。為顯示出高被引文獻(xiàn)的影響力，可以將被引次數(shù)作為權(quán)重參數(shù)加入到關(guān)鍵詞詞頻的計算中。被引次數(shù)越多，經(jīng)過加權(quán)后的關(guān)鍵詞累加值也就越高，其相對應(yīng)的核心關(guān)鍵詞的頻次就越高，這種方法的優(yōu)點是可以突出核心文獻(xiàn)對所在領(lǐng)域的影響。現(xiàn)有高頻詞取值方法是將所有文獻(xiàn)中的關(guān)鍵詞無差別計數(shù)，即無視核心文獻(xiàn)的被引量和重要程度，與其他影響力一般的普通文獻(xiàn)采用同樣的關(guān)鍵詞頻次計數(shù)方式，這對于領(lǐng)域熱點問題的分析和未來研究趨勢的把握是非常不利的。被引次數(shù)高的核心文獻(xiàn)對于同一領(lǐng)域熱點研究趨勢的影響明顯高于普通文獻(xiàn)，因此在進(jìn)行領(lǐng)域熱點或趨勢分析時，應(yīng)考慮核心文獻(xiàn)的領(lǐng)域影響力并在研究方法中體現(xiàn)出來?，F(xiàn)有領(lǐng)域高頻詞提取方法均未將該問題考慮在內(nèi)。

5.2 高低頻詞界定公式法的改進(jìn)

上文研究可進(jìn)一步發(fā)現(xiàn)，目前造成高低頻詞界定公式界定高頻詞不理想的原因是領(lǐng)域內(nèi)關(guān)鍵詞分布較分散，雖然在具體計算前都有數(shù)據(jù)清洗流程，但這種清洗只能達(dá)到降噪的效果，無法解決關(guān)鍵詞分散現(xiàn)象，分散現(xiàn)象的直觀表現(xiàn)就是存在大量僅出現(xiàn)1次的關(guān)鍵詞。使用普通清洗方法無法降低僅出現(xiàn)1次的關(guān)鍵詞數(shù)量，所以只能借助其他方法來處理，從而降低人為標(biāo)注關(guān)鍵詞而產(chǎn)生的不規(guī)范行為對高低頻詞界定公式取值結(jié)果的影響。如當(dāng)文獻(xiàn)數(shù)量與關(guān)鍵詞數(shù)量為1：1.5時，定義僅出現(xiàn)1次的關(guān)鍵詞在全部關(guān)鍵詞集中的比例為x；當(dāng)文獻(xiàn)數(shù)量與關(guān)鍵詞數(shù)量為1：2時，定義僅出現(xiàn)1次的關(guān)鍵詞在全部關(guān)鍵詞集中的比例為y；在不同的文獻(xiàn)與關(guān)鍵詞數(shù)量比例區(qū)間下，僅出現(xiàn)1次的關(guān)鍵詞數(shù)量在全部關(guān)鍵詞數(shù)量中的占比應(yīng)是不一樣的。將此經(jīng)過處理后的僅出現(xiàn)1次關(guān)鍵詞數(shù)代入高低頻詞界定公式，這樣可以在一定程度上避免高低頻詞界定公式計算結(jié)果過大而截取到的高頻詞過少或取不到高頻詞的情況。對于文獻(xiàn)數(shù)量與關(guān)鍵詞數(shù)量比例區(qū)間的劃分方法，各區(qū)間僅出現(xiàn)1次的關(guān)鍵詞所占比例等具體量值的確定，以及如何區(qū)分由于研究主題分散和作者關(guān)鍵詞不規(guī)范這兩種情況導(dǎo)致的關(guān)鍵詞集分散等問題，尚有待進(jìn)一步研究。

6 結(jié)語

高頻詞的閾值選取是詞頻分析的重要基礎(chǔ)，而我國學(xué)界對于詞頻的閾值選取存在嚴(yán)重的不規(guī)范現(xiàn)象。在總結(jié)目前常用的三種高頻詞界定方式之后，引入個人知識管理領(lǐng)域樣本進(jìn)行實證檢驗，說明高頻詞截取的不同結(jié)果對后續(xù)分析的影響，總結(jié)出二八定律方法更適用于截取領(lǐng)域高頻詞。同時指出目前我國高頻詞界定方面存在主觀性強(qiáng)、方法原理不明、改進(jìn)方法適用性不明等問題。針對我國目前常用的高頻詞界定方法的不足，提出關(guān)于高頻詞界定方法的改良設(shè)想；但改良后的具體數(shù)值、應(yīng)用條件等一系列問題未能明確，期待后續(xù)研究能夠解決這些問題。總體來說，在高頻詞界定領(lǐng)域存在一種重實踐輕理論的現(xiàn)象：依靠選取高頻詞進(jìn)行的分析研究眾多，但多數(shù)只是機(jī)械地仿照前人關(guān)于領(lǐng)域熱點的研究模式進(jìn)行，而對于高頻詞界定方法本身進(jìn)行研究的論文并不多?？傊哳l詞界定方法中還存在許多問題，未來需要學(xué)者繼續(xù)關(guān)注此問題，更加注重高頻詞界定方法的內(nèi)在理論研究并提出有效且權(quán)威的界定方法，以減輕這種方法的亂用現(xiàn)象。

[1]馬費(fèi)成,張勤.國內(nèi)外知識管理研究熱點——基于詞頻的統(tǒng)計分析[J].情報學(xué)報,2006,25(2):163-171.

[2]張勤.詞頻分析法在學(xué)科發(fā)展動態(tài)研究中的應(yīng)用綜述[J].圖書情報知識,2011(2):95-98.

[3]楊建林.關(guān)鍵詞選擇策略及其對共詞分析的影響[J].情報學(xué)報,2014,33(10):1083-1090.

[4]陳果,肖璐,趙雪芹.領(lǐng)域知識分析中的關(guān)鍵詞選擇方法研究——一種以學(xué)科為背景的全局視角[J].情報學(xué)報,2014,33(9):959-968.

[5]安興茹.基于正態(tài)分布的詞頻分析法高頻詞閾值研究[J].情報雜志,2014(10):129-136.

[6]孫清蘭.高頻詞與低頻詞的界分及詞頻估算法[J].中國圖書館學(xué)報,1992(2):78-81.

[7]熊回香,楊雪萍.社會化標(biāo)注系統(tǒng)中的個性化信息推薦研究[J]. 情報學(xué)報,2016,35(5):549-560.

[8]巴志超,李綱,朱世偉.共現(xiàn)分析中的關(guān)鍵詞選擇與語義度量方法研究[J].情報學(xué)報,2016,35(2):197-207.

[9]姚小嬌.我國財經(jīng)類高校近10年圖書情報學(xué)研究熱點分析[J].圖書館學(xué)刊,2015(2):137-140.

[10]王佑鎂,陳慧斌.近十年我國電子書包研究熱點與發(fā)展趨勢——基于共詞矩陣的知識圖譜分析[J].中國電化教育,2014(5):4-10.

[11]李迎迎.國內(nèi)“互聯(lián)網(wǎng)+”領(lǐng)域研究熱點及內(nèi)容分析[J].情報雜志,2016(8):128-132.

[12]趙蓉英, 魏明坤. 2010——2015年國內(nèi)外情報學(xué)研究熱點可視化比較[J].圖書館雜志,2016,35(8):15-22.

[13]朱莎,楊浩,馮琳.國際“數(shù)字鴻溝”研究的現(xiàn)狀、熱點及前沿分析——兼論對教育信息化及教育均衡發(fā)展的啟示[J].遠(yuǎn)程教育雜志,2017,35(1):82-93.

[14]王米雪,張立國.我國智慧教育領(lǐng)域的研究熱點與發(fā)展趨勢分析——基于詞頻分析法、共詞聚類法和多維尺度分析法[J].現(xiàn)代教育技術(shù),2017,27(3):41-48.

[15]崔雷,劉偉,閆雷,等.文獻(xiàn)數(shù)據(jù)庫中書目信息共現(xiàn)挖掘系統(tǒng)的開發(fā)[J].現(xiàn)代圖書情報技術(shù),2008(8):70-75.

[16]張叢昱,張云中.國內(nèi)近十年Folksonomy領(lǐng)域研究熱點與趨勢[J].新世紀(jì)圖書館,2016(7):91-96.

[17]胡利勇.圖書情報領(lǐng)域高被引論文共詞聚類分析[J].圖書館學(xué)刊,2016(8):132-135.

An Empirical Analysis for the Applicability of the Methods of Definition of High-Frequency Words in Word Frequency Analysis

LIU YiShan, WANG YuLin, LI MingXin
(School of Information Science and Technology, Northeast Normal University, Changchun 130117, China)

Word frequency analysis method is one of the important analysis methods in bibliometrics, and the selection of high-frequency word is a necessary premise. It is to say that the selection of high-frequency word determines the results of word frequency analysis, impacts the whole analysis program. First, the paper cleared up the nearly three years papers in China by using word frequency analysis method for hot spots analysis, and found four common classes selections of highfrequency word methods mainly include: the author set the selection method, Donohue’s formula selection, price formula selection and mixed selection. Secondly, we use the literature of personal knowledge management as the research object, and calculate the frond three kinds of high frequency words selections respectively, and compare the results with clustering analysis, then we discuss the effect and applicability of high-frequency word threshold selection on the analysis results. At last, the paper pointed out that there were some problems, such as the subjective is high, principle is unclear, improved methods’ principle is unclear, the Donohue’s formula and price formula’s applicability are still unsure, in the study of high-frequency word threshold selection in our country.

High-Frequency Word; Bibliometrics; Word Frequency Analysis

G250

10.3772/j.issn.1673-2286.2017.09.007

劉奕杉，女，1992年生，碩士研究生，研究方向：數(shù)字信息資源管理，E-mail：2387161672@qq.com。

王玉琳，女，1994年生，碩士研究生，研究方向：數(shù)字信息資源管理。

李明鑫，男，1978年生，博士，講師，研究方向：數(shù)字信息資源管理。

2017-08-07）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

詞頻分析法中高頻詞閾值界定方法適用性的實證分析

1 引言

2 常用高頻詞閾值選取方法

2.1 近三年“研究熱點”類文獻(xiàn)的統(tǒng)計結(jié)果分析

2.2 自定義選取法

2.2.1 頻次選取法

2.2.2 前N位選取法

2.2.3 中心度選取法

2.3 高低頻詞界定公式選取法

2.4 普賴斯公式選取法

2.5 混合選取法

3 高頻詞閾值選取的實證分析

3.1 二八定律驗證自定義選取法

3.2 高低頻詞界定公式選取法的驗證

3.3 普賴斯公式選取法的驗證

3.4 三種方法驗證結(jié)果對比

3.5 驗證研究的結(jié)論

4 高頻詞閾值選取方面存在的問題

4.1 主觀性強(qiáng)

4.2 方法原理不明

4.3 改進(jìn)方法適用性不明

4.4 高低頻詞界定公式存在適用性問題

4.5 普賴斯公式適用性不明

5 關(guān)于高頻詞閾值界定方法改進(jìn)的思考

5.1 普賴斯公式法的改進(jìn)

5.2 高低頻詞界定公式法的改進(jìn)

6 結(jié)語