国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于關(guān)鍵詞的期刊發(fā)文的相似性測(cè)度研究

2018-01-07 09:41田大芳張瑞麗魏瑞斌
現(xiàn)代情報(bào) 2018年11期
關(guān)鍵詞:情報(bào)學(xué)余弦圖書館學(xué)

田大芳 張瑞麗 魏瑞斌

〔摘要〕[目的/意義]關(guān)鍵詞是反映期刊研究主題、研究方法和數(shù)據(jù)源等信息的重要途徑。本文嘗試通過(guò)論文關(guān)鍵詞來(lái)研究學(xué)術(shù)期刊的相似度,為期刊分類等學(xué)術(shù)研究和實(shí)際工作提供參考。[方法/過(guò)程]首先,在相關(guān)文獻(xiàn)梳理的基礎(chǔ)上,提出了基于論文關(guān)鍵詞的兩種期刊相似度計(jì)算方法。然后,以《中國(guó)圖書館學(xué)報(bào)》和《情報(bào)學(xué)報(bào)》為實(shí)證對(duì)象,從CSSCI采集了兩種期刊1998-2017年的關(guān)鍵詞數(shù)據(jù)。最后,計(jì)算了兩種期刊的相似度,并分析了兩種期刊論文的共現(xiàn)關(guān)鍵詞。[結(jié)論]研究發(fā)現(xiàn),兩種期刊的相似度有一定波動(dòng),但整體上呈現(xiàn)為一個(gè)下降趨勢(shì)。這反映出兩種期刊上發(fā)表的論文的相似性在不斷下降,而差異性在不斷增加。

〔關(guān)鍵詞〕關(guān)鍵詞;期刊相似性;TF-IDF算法;余弦相似性;學(xué)術(shù)期刊

DOI:10.3969/j.issn.1008-0821.2018.11.018

〔中圖分類號(hào)〕G250252〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2018)11-0105-04

Study on Measuring the Journal Similarity Based on the KeywordsTian Dafang1Zhang Ruili2Wei Ruibin3

(1.Library,Anhui University of Finance and Economics,Bengbu 233030,China;

2.Library,Shanxi University of Finance and Economics,Taiyuan 030006,China;

3.School of Management Science and Engineering,Anhui University of Finance and Economics,

Bengbu 233030,China)

〔Abstract〕[Purpose/Significance]Keywords are important ways to reflect the research topics,research methods,and data sources of journal articles.This paper aimed to study the similarity of academic journals through the key words of the paper and provided reference for academic research and practical work such as journal classification.[Method/Process]First,based on the review of relevant literatures,two kinds of journal similarity calculation methods based on the keywords of the paper were proposed.And then,the paper took Journal of library Science in China and Journal of the China Society for Scientific and Technical Information as examples and collected keywords of the two journals from CSSCI during 1998 and 2017.Finally,the similarities between the two journals were calculated.The co-occurrence keywords of two journal articles were analyzed.[Result/Conclusion]The result showed that there were certain fluctuations in the similarities between the two journals.However,the overall trend was a downward trend.This showed that the similarities of the papers published in the two journals were declining,and the differences were increasing.

〔Key words〕keywords;journal similarity;TF-IDF;cosine similarity;co-words network;academic journal

《科學(xué)技術(shù)報(bào)告、學(xué)位論文和學(xué)術(shù)論文的編寫格式(國(guó)家標(biāo)準(zhǔn)GB7713-87)》中明確指出,關(guān)鍵詞是為了文獻(xiàn)標(biāo)引工作從報(bào)告、論文中選取出來(lái)用以表示全文主題內(nèi)容信息款目的單詞或術(shù)語(yǔ)。每篇報(bào)告、論文選取3~8個(gè)關(guān)鍵詞。學(xué)術(shù)論文的關(guān)鍵詞與論文的題目一起構(gòu)成了學(xué)術(shù)論文的“眼睛”,構(gòu)成了閱讀者對(duì)一篇論文的直觀的學(xué)術(shù)印象。學(xué)術(shù)論文關(guān)鍵詞是提升學(xué)術(shù)期刊影響力的“助推器”[1]。許多學(xué)者通過(guò)論文關(guān)鍵詞展開(kāi)了學(xué)科研究熱點(diǎn)[2]、主題演變[3]和學(xué)科交叉[4]等方面的相關(guān)研究。劉萍等[5]利用作者關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò),基于SimRank研究了作者相似度。從文獻(xiàn)檢索結(jié)果看,國(guó)內(nèi)學(xué)者對(duì)期刊相似度的研究還較少。本文將通過(guò)研究期刊相似度來(lái)分析學(xué)術(shù)期刊發(fā)文的特點(diǎn)和規(guī)律,為期刊分類和期刊評(píng)價(jià)等方面的學(xué)術(shù)研究和實(shí)際工作提供參考。

2018年11月第38卷第11期現(xiàn)代情報(bào)Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期基于關(guān)鍵詞的期刊發(fā)文的相似性測(cè)度研究Nov.,2018Vol38No111研究方法

論文關(guān)鍵詞在一定程度上可以反映出論文研究主題、研究方法、數(shù)據(jù)源或研究背景等內(nèi)容的。從劉萍等[6]、吳夙慧等[7]的綜述看,詞匯相似度研究作為自然語(yǔ)言處理中一項(xiàng)基礎(chǔ)性研究,被廣泛應(yīng)用于機(jī)器翻譯、文本智能檢索、自動(dòng)問(wèn)答系統(tǒng)、文檔分類和聚類等方面。本研究的邏輯基礎(chǔ)是,如果兩種期刊共現(xiàn)的關(guān)鍵詞越多,那么可以認(rèn)為這兩種期刊發(fā)文在研究主題等方面越接近,它們的相似性越高。

為了能夠定量分析兩種期刊的相似性,本文提出兩種計(jì)算方法來(lái)測(cè)度。

11共現(xiàn)關(guān)鍵詞算法

假設(shè)期刊A在某年發(fā)表的論文共有關(guān)鍵詞形成一個(gè)集合A={A1,A2,…,An};期刊B在某個(gè)的關(guān)鍵詞集合為B={B1,B2,…,Bn}。那么兩種期刊的相似性為:

(A∩B)/(A∪B)

即兩種期刊中同時(shí)出現(xiàn)的關(guān)鍵詞個(gè)數(shù)除以所有的關(guān)鍵詞個(gè)數(shù)。如果這個(gè)值越大,它們?cè)较嗨?。這種方法僅考慮了兩種期刊同時(shí)出現(xiàn)的關(guān)鍵詞個(gè)數(shù),沒(méi)有考慮同時(shí)出現(xiàn)的關(guān)鍵詞的次數(shù)及兩種期刊關(guān)鍵詞總數(shù)的規(guī)模等因素,其計(jì)算結(jié)果有一定的局限性。

12TF-IDF和余弦相似性算法

TF-IDF是Salton等[8]在1988年提出的一種詞頻統(tǒng)計(jì)方法。該方法主要用于評(píng)估詞語(yǔ)對(duì)于文檔集或語(yǔ)料庫(kù)中文本的重要程度。詞頻(TF)表示特定詞在文檔中出現(xiàn)的頻率。逆文檔頻率(IDF)用來(lái)評(píng)價(jià)詞語(yǔ)對(duì)于語(yǔ)料庫(kù)的普遍性。TF-IDF值由TF值乘以TDF值得到。余弦相似性通過(guò)測(cè)量?jī)蓚€(gè)向量的夾角的余弦值來(lái)度量它們之間的相似性。武永亮等[9]基于TF-IDF和余弦相似度研究了文本分類方法。蔣永新等[10]利用TF-IDF分析了圖書情報(bào)學(xué)核心期刊學(xué)科特征。本文則結(jié)合這兩種方法來(lái)測(cè)度期刊的相似度。

TF-IDF和余弦相似性算法具體計(jì)算方法如下:

1)計(jì)算詞頻

考慮期刊發(fā)文數(shù)量的不同,為了便于不同期刊的比較,進(jìn)行“詞頻”標(biāo)準(zhǔn)化。其計(jì)算方法為:詞頻(TF)=某個(gè)詞在期刊某時(shí)間窗口所有論文中出現(xiàn)的次數(shù)/該期刊某時(shí)間窗口的關(guān)鍵詞總數(shù)。

2)計(jì)算逆文檔頻率

逆文檔頻率(IDF)=LOG(期刊的文檔總數(shù)/(包含該詞的論文數(shù)量+1))

如果一個(gè)詞越常見(jiàn),那么分母就越大,逆文檔頻率就越接近于為0,分母之所以加1,是為避免分母為0(即某期刊的論文中都不包含該詞)。

3)計(jì)算TF-IDF

TF-IDF=詞頻(TF)*逆文檔頻率(IDF)

TF-IDF與一個(gè)詞在論文中出現(xiàn)的次數(shù)成正比,與該詞在整個(gè)數(shù)據(jù)集合中的出現(xiàn)次數(shù)成反比。

4)計(jì)算期刊的相似度

余弦相似度計(jì)算如公式(1)。在公式中,Ai代表期刊A論文中的一個(gè)關(guān)鍵詞,Bi代表期刊B論文中的一個(gè)關(guān)鍵詞。一種期刊由一個(gè)向量表示,該向量由出現(xiàn)在期刊的關(guān)鍵詞組成,每個(gè)關(guān)鍵詞代表一個(gè)維度,其各個(gè)維度上的值對(duì)應(yīng)于該詞項(xiàng)的TF-IDF值。由于一個(gè)詞的TF-IDF權(quán)不能為負(fù)數(shù),所以這兩種期刊的余弦相似度范圍是從0~1。

similarity=cos(θ)=A·BAB=∑ni=1Ai×Bi∑ni=1(Ai)2×∑ni=1(Bi)2(1)

2數(shù)據(jù)來(lái)源

21研究對(duì)象的選擇及數(shù)據(jù)獲取

本文選擇《中國(guó)圖書館學(xué)報(bào)》和《情報(bào)學(xué)報(bào)》為研究對(duì)象。因?yàn)樗鼈兪菄?guó)內(nèi)圖書館學(xué)和情報(bào)學(xué)領(lǐng)域最具代表性的學(xué)術(shù)期刊。國(guó)內(nèi)不少學(xué)者曾以這兩種期刊為實(shí)證對(duì)象進(jìn)行過(guò)一系列相關(guān)研究。如趙忠偉等[11]以《情報(bào)學(xué)報(bào)》和《中國(guó)圖書館學(xué)報(bào)》為例,分析了我國(guó)圖書情報(bào)領(lǐng)域近十年科研論文研究方法的演化。邱武等[12-13]從不同角度對(duì)兩種期刊做過(guò)比較研究。

從數(shù)據(jù)的權(quán)威性、準(zhǔn)確性、規(guī)范性和數(shù)據(jù)的可獲取性等方面綜合考慮,本文以CSSCI為數(shù)據(jù)源,下載中兩種期刊1998-2017年的相關(guān)數(shù)據(jù)。然后利用EXCEL等工具對(duì)數(shù)據(jù)進(jìn)行了結(jié)構(gòu)化處理。

22兩種期期刊發(fā)文量及關(guān)鍵詞分布

從1998-2017年期間,《中國(guó)圖書館學(xué)報(bào)》總的發(fā)文量是2 199篇,關(guān)鍵詞總數(shù)為8 975個(gè),篇均關(guān)鍵詞數(shù)量約為408個(gè),去重后的關(guān)鍵詞個(gè)數(shù)為4 863個(gè)?!肚閳?bào)學(xué)報(bào)》的發(fā)文量是2 532個(gè),關(guān)鍵詞總數(shù)為10 591個(gè),篇均關(guān)鍵詞約為418個(gè),去重后關(guān)鍵詞個(gè)數(shù)為6 066個(gè)。

從圖1看,2006年及以前,《中國(guó)圖書館學(xué)報(bào)》的發(fā)文量略高于《情報(bào)學(xué)報(bào)》;2007年和2008年,兩種期刊的發(fā)文量基本相同;2009年開(kāi)始《中國(guó)圖書館學(xué)報(bào)》的發(fā)文量出現(xiàn)了一個(gè)較大幅度的下降。由于兩種期刊的篇均關(guān)鍵詞數(shù)量基本相當(dāng),那么,期刊發(fā)文量的變化直接導(dǎo)致關(guān)鍵詞的數(shù)量也會(huì)發(fā)生相應(yīng)的變化。結(jié)合圖2看,兩種期刊關(guān)鍵詞數(shù)量的年度分布的變化趨勢(shì)與其發(fā)文量是一致的。

3數(shù)據(jù)分析

31兩種期刊的相似度計(jì)算結(jié)果

從圖3和圖4看,兩種相似度算法的計(jì)算結(jié)果都呈現(xiàn)圖1《情報(bào)學(xué)報(bào)》和《中國(guó)圖書館學(xué)報(bào)》發(fā)文量的分布情況

為一個(gè)不斷波動(dòng),但整體下降的趨勢(shì)。這種變化趨勢(shì)反映了兩種期刊發(fā)文的相似性在不斷下降。對(duì)比圖3和圖4還可以發(fā)現(xiàn),兩張圖中,2001年、2011年和2017年與前一年的相似度變化有一定差異。圖3中是2001年、2011年與2000年和2010年相比是下降趨勢(shì),而圖4中是上升趨勢(shì)。圖3中2017年與2016年相比是上升趨勢(shì),而圖4中是下降趨勢(shì)。這反映出兩種相似度計(jì)算方法總體上差異不大,只是在個(gè)別年份有一定的差異。這也表明兩種計(jì)算方法雖然有差異,但其計(jì)算結(jié)果還是有非常高的一致性。從期刊相似度的絕對(duì)數(shù)值看,TF-IDF和余弦相似性算法的變化幅度更大,其對(duì)兩種期刊的相似性測(cè)度結(jié)果更加敏感。圖3共現(xiàn)關(guān)鍵詞算法的期刊相似度

32共現(xiàn)關(guān)鍵詞分析

從圖5看,兩種期刊上發(fā)表論文的關(guān)鍵詞個(gè)數(shù),從1999-2002年是一個(gè)不斷上升的趨勢(shì);從2003-2011年期間基本是一個(gè)下降趨勢(shì);2013-2017年期間,關(guān)鍵詞的個(gè)數(shù)基本保持在20個(gè)左右。

本文將兩種期刊論文中同時(shí)出現(xiàn)的關(guān)鍵詞分為:數(shù)據(jù)源、研究背景、研究范圍、研究方法和研究主題共5種類型。從表1看,同時(shí)出現(xiàn)最多的是反映研究主題的關(guān)鍵詞(篇幅所限,僅列出了10次以上的關(guān)鍵詞),排在前5位的分別是數(shù)字圖書館、信息服務(wù)、信息檢索、知識(shí)管理和圖圖4TF-IDF和余弦相似性算法的期刊相似度

書館學(xué)。其次是表示研究方法的關(guān)鍵詞,排在前5位的分別是引文分析、社會(huì)網(wǎng)絡(luò)分析、共詞分析、比較研究和實(shí)證研究。其它3種類型的關(guān)鍵詞數(shù)量較少。

結(jié)合原始數(shù)據(jù)看,同時(shí)出現(xiàn)頻次排在前5位的關(guān)鍵詞中,《中國(guó)圖書館學(xué)報(bào)》論文中,數(shù)字圖書館、信息服務(wù)和圖書館學(xué)的次數(shù)明顯多于《情報(bào)學(xué)報(bào)》,而《情報(bào)學(xué)報(bào)》論文中,信息檢索和知識(shí)管理要多于《中國(guó)圖書館學(xué)報(bào)》。這從一定程度上反映出,兩種期刊上雖然同時(shí)出現(xiàn)了一些關(guān)鍵詞,但還是各自有所側(cè)重。這種關(guān)鍵詞數(shù)量上的差異是兩種期刊發(fā)文主題差異性的表現(xiàn)。

4研究結(jié)論

通過(guò)期刊相似度可以將相似性較大的期刊歸為一類,將相似性較小的期刊區(qū)別開(kāi),這對(duì)于實(shí)現(xiàn)學(xué)術(shù)期刊的分類評(píng)價(jià)有一定的理論價(jià)值和現(xiàn)實(shí)意義。本文提出的兩種期刊相似性測(cè)度方法雖然計(jì)算方法不同,但最終的計(jì)算結(jié)果非常接近。通過(guò)實(shí)證結(jié)果看,《中國(guó)圖書館學(xué)報(bào)》和《情報(bào)學(xué)報(bào)》的相似度在不斷下降。這一方面可能是由于國(guó)內(nèi)圖書館學(xué)和情報(bào)學(xué)兩個(gè)領(lǐng)域研究主題的差異在不斷增加,導(dǎo)致兩種期刊的差異性不斷增加,兩個(gè)領(lǐng)域研究的邊界更加清晰;另一方面,從發(fā)文量看,《中國(guó)圖書館學(xué)報(bào)》近年來(lái)的發(fā)文量有一個(gè)快速下降,基本保持在50~60篇左右,而《情報(bào)學(xué)報(bào)》的發(fā)文量基本保持在130~140篇左右。這兩種期刊發(fā)文量上的差異,也是形成兩種期刊相似性減小的重要因素。

本研究是基于關(guān)鍵詞的期刊相似性測(cè)度,其測(cè)度結(jié)果的準(zhǔn)確性依賴于論文關(guān)鍵詞的質(zhì)量。從文獻(xiàn)[1,14-15]的分析看,目前國(guó)內(nèi)期刊論文的關(guān)鍵詞是由作者給定的,每個(gè)作者對(duì)論文關(guān)鍵詞的理解程度不同,所給出的關(guān)鍵詞存在漏選或泛選、用詞不規(guī)范、選詞數(shù)量隨意等問(wèn)題。這些問(wèn)題都可能會(huì)影響到最終的論文關(guān)鍵詞質(zhì)量。今后,可以綜合考慮論文標(biāo)題、摘要或全文的信息基于詞語(yǔ)信息研究期刊的相似性。另外,除了從論文關(guān)鍵詞的角度外,還可以結(jié)合論文作者信息、關(guān)鍵詞共詞網(wǎng)絡(luò)、論文耦合、共引或共被引等視角來(lái)研究期刊的相似性。

參考文獻(xiàn)

[1]章誠(chéng),張愛(ài)梅,周麗娟.畫龍點(diǎn)睛:學(xué)術(shù)論文關(guān)鍵詞的科學(xué)選取[J].編輯之友,2015,(9):73-76.

[2]王蘭敬.2004-2009年我國(guó)圖書館、情報(bào)與檔案管理學(xué)科的研究熱點(diǎn)與重點(diǎn)領(lǐng)域——基于CSSCI來(lái)源文獻(xiàn)關(guān)鍵詞的分析[J].圖書情報(bào)工作,2011,55(16):68-71,139.

[3]魏瑞斌.學(xué)術(shù)期刊發(fā)文主題演變的實(shí)證研究——以《情報(bào)學(xué)報(bào)》為例[J].情報(bào)雜志,2013,32(6):64-69,39.

[4]閔超,孫建軍.基于關(guān)鍵詞交集的學(xué)科交叉研究熱點(diǎn)分析——以圖書情報(bào)學(xué)和新聞傳播學(xué)為例[J].情報(bào)雜志,2014,33(5):76-82.

[5]劉萍,黃純?nèi)f.基于SimRank的作者相似度計(jì)算[J].情報(bào)理論與實(shí)踐,2015,38(6):109-114.

[6]劉萍,陳燁.詞匯相似度研究進(jìn)展綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2012,(Z1):82-89.

[7]吳夙慧,成穎,鄭彥寧,等.文本聚類中文本表示和相似度計(jì)算研究綜述[J].情報(bào)科學(xué),2012,30(4):622-627.

[8]Salton G,Buckley C.Term-weighting Approaches in Automatic Text Retrieval[J].Information Processing & Management,1988,24(5):513-523.

[9]武永亮,趙書良,李長(zhǎng)鏡,等.基于TF-IDF和余弦相似度的文本分類方法[J].中文信息學(xué)報(bào),2017,31(5):138-145.

[10]蔣永新,孫愛(ài)莉.基于TF-IDF方法的圖情學(xué)核心期刊學(xué)科特征分析[J].情報(bào)資料工作,2009,(1):89-92.

[11]趙忠偉,黃永,程齊凱,等.我國(guó)圖書情報(bào)領(lǐng)域近十年科研論文研究方法的演化分析——以《情報(bào)學(xué)報(bào)》和《中國(guó)圖書館學(xué)報(bào)》為例[J].信息資源管理學(xué)報(bào),2017,7(3):106-113.

[12]邱武,趙世華,丘峰.《中國(guó)圖書館學(xué)報(bào)》與《情報(bào)學(xué)報(bào)》的比較研究(下)[J].圖書館雜志,1996,(5):15-17.

[13]邱武,趙世華,丘峰.《中國(guó)圖書館學(xué)報(bào)》與《情報(bào)學(xué)報(bào)》的比較研究(上)[J].圖書館雜志,1996,(4):9-12,21.

[14]程智強(qiáng),江洪濤.科技論文關(guān)鍵詞標(biāo)引應(yīng)琢磨的幾個(gè)問(wèn)題[J].編輯學(xué)報(bào),2014,26(1):40-42.

[15]王丹丹.科技論文關(guān)鍵詞使用中存在的問(wèn)題及解決方法[J].出版發(fā)行研究,2013,(4):102-104.

(責(zé)任編輯:郭沫含)2018年11月第38卷第11期現(xiàn)代情報(bào)Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期D&M;信息系統(tǒng)成功模型的應(yīng)用與展望Nov.,2018Vol38No11

收稿日期:2018-08-12

猜你喜歡
情報(bào)學(xué)余弦圖書館學(xué)
開(kāi)放與融合:公安情報(bào)學(xué)進(jìn)入情報(bào)學(xué)方式研究*
構(gòu)建中國(guó)特色的情報(bào)學(xué)
兩個(gè)含余弦函數(shù)的三角母不等式及其推論
分?jǐn)?shù)階余弦變換的卷積定理
圖像壓縮感知在分?jǐn)?shù)階Fourier域、分?jǐn)?shù)階余弦域的性能比較
離散余弦小波包變換及語(yǔ)音信號(hào)壓縮感知
寂寞與喧囂:當(dāng)代圖書館學(xué)研究現(xiàn)狀剖析
中國(guó)圖書館學(xué)之當(dāng)下:反思與瞻望
數(shù)據(jù)挖掘技術(shù)在情報(bào)學(xué)領(lǐng)域的應(yīng)用
知識(shí)管理視域下的圖書情報(bào)學(xué)研究