国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中國知網(wǎng)關鍵詞詞頻統(tǒng)計軟件設計及其在出版工作中應用研究

2020-03-01 06:26:40朱玉強范翠麗
邯鄲職業(yè)技術學院學報 2020年4期
關鍵詞:詞頻參考文獻論文

朱玉強 范翠麗

(1.山東師范大學 圖書館,濟南 250014;2.山東科學技術出版社,濟南 250002)

文獻調查不容易被外界干擾,只需投入少量經(jīng)費與人力,省時且效率高,可方便快捷地了解前人和他人勞動成果,是獲取知識的捷徑??蒲腥藛T在申請課題、進行科學研究、撰寫學術論文前往往要對研究方向進行文獻調研,從而有效避免重復研究。本文編制程序可在極短時間內(nèi)對大量文獻的關鍵詞詞頻進行統(tǒng)計,為調查人員提供數(shù)據(jù)支撐及簡單的可視化指標。

1 相關研究及實踐

文獻調查往往涉及眾多文獻種類及格式,對其內(nèi)容整理分析一般包括定性分析、定量分析及定性定量相結合分析3種。內(nèi)容分析法最早應用于新聞傳播領域,20世紀60年代末西方圖書情報學界將其列入圖情學方法論體系,之后不斷發(fā)展完善,引入了系統(tǒng)論、信息論、符號學、語義學、統(tǒng)計學等方法或技術,[1]一般通過人工編碼將大量碎片化、屬性化的文字轉換為系統(tǒng)化、定量化的信息,類似概率論與數(shù)量統(tǒng)計中引入的隨機變量,從而使研究對象易于分析、便于統(tǒng)計,進而歸納發(fā)現(xiàn)有價值的結論。[2]

廣義上關鍵詞指出現(xiàn)在文獻篇名、摘要或正文中表達文獻中心思想、有實際意義的自然語言詞匯;狹義上學術論文的關鍵詞由論文作者自行設置并寫在文章“關鍵詞”一欄,作者給出的關鍵詞或許未能嚴格遵守《國家標準GB7713-87 科學論文編寫格式》進行,但鑒于作者對作品把握的準確程度,其給出的關鍵詞很具參考性。

奉國和等[3]構建時間-關鍵詞頻次矩陣,設計時間加權關鍵詞詞頻分析模型,用于揭示學科研究熱點及變化趨勢。余豐民[4]通過統(tǒng)計學術論文關鍵詞詞頻初步構建研究熱點漂移程度計算模型,揭示學科研究熱點的變化程度和關鍵詞詞頻分布規(guī)律。李建偉[5]基于2018年編輯出版學學術論文關鍵詞詞頻分析,得出2018年編輯出版的研究熱點主要集中在新業(yè)態(tài)、新環(huán)境、新技術和新內(nèi)容四個層面。陳玲麗[6]等采用關鍵詞詞頻分析法分析了我國醫(yī)療聯(lián)合體研究文獻的研究內(nèi)容、現(xiàn)狀及趨勢,為醫(yī)聯(lián)體研究提供參考。王海峰[7]對國內(nèi)25種新聞傳播類核心期刊發(fā)文關鍵詞詞頻進行分析,研究了我國新聞傳播專業(yè)學術研究熱點及基本趨勢,表明跨學科與跨領域研究在新聞傳播專業(yè)領域總體呈上升趨勢等。上述及類似論文在做關鍵詞詞頻分析時,有的明確說明所采集論文關鍵詞為作者原文給出的關鍵詞,有的則沒有,沒做具體界定的則可能來自數(shù)據(jù)庫廠商后期修訂、追加等途徑。處理方法一般通過手工導出文獻,利用Excel多步操作完成。

本文編制程序,可快速提取、統(tǒng)計論文中作者給出的關鍵詞,目的明確,針對性強,基于導出文獻全自動提取、去重、統(tǒng)計年度詞頻分布,方便快捷,節(jié)省人力物力。

2 系統(tǒng)設計思路與實施方案

2.1 系統(tǒng)功能架構

用戶首先在中國知網(wǎng)構建檢索策略進行文獻檢索,確定并選取欲調研文獻范圍,使用“導出/參考文獻”按鈕,以“知網(wǎng)研學(原E-Study)”格式導出純文本型參考文獻?;趯С龅膮⒖嘉墨I,軟件要實現(xiàn)如下功能:(1)提取參考文獻中所有作者給出的關鍵詞并去重;(2)統(tǒng)計各關鍵詞在文獻發(fā)表時段(以年為單位)出現(xiàn)頻次;(3)統(tǒng)計各關鍵詞在文獻所有時間跨度總頻次;(4)結果以Excel表寫出,方便按需做更多處理。

2.2 技術方案

主要流程如圖1所示,抽提作者給出關鍵詞、抽提論文發(fā)表各年度可使用多線程同步進行。

3 關鍵方法與技術

3.1 取格式化文本多段中間內(nèi)容

以“知網(wǎng)研學(原E-Study)”格式導出的純文本型參考文獻格式固定,如下所示。

DataType:1

Title-題名:×××

Author-作者:×××;

Source-刊名:×××

Year-年:2015

PubTime-出版時間:2015-01-01

Keyword-關鍵詞:×××;×××;×××

Summary-摘要:×××。

Period-期:01

PageCount-頁數(shù):2

Page-頁碼:26-27

SrcDatabase-來源數(shù)據(jù)庫:期刊Organ-機構:法律出版社;

Link-鏈接:×××

以取“Keyword-關鍵詞”為例,只需取多組文本串“Keyword-關鍵詞”與“Summary-摘要”中間文本并去除換行符即可。實踐中可先使用特征字串如“DataType:1”分割各篇論文數(shù)據(jù)進文本數(shù)組,遍歷數(shù)組各成員,在成員內(nèi)部執(zhí)行取中間文本操作,算法描述如下:

CString GetMid(CString str,CString strL,CString strR)

{

len = str.Find(strL) + strL.GetLength();

len2 = str.Find(strR);

strs = str.Left(len2);

str = strs.Right(strs.GetLength()-len);

return str;

}

取回關鍵詞需執(zhí)行去重操作,數(shù)據(jù)量小于10萬條時使用任一常規(guī)方法均可實現(xiàn),否則用HASH算法速度更快。哈希函數(shù)構造方法有多種,以對文本串去重為例,算法描述如下,去重同時統(tǒng)計文本串重復次數(shù):

public void QC()

{

String a[]={"a","b","b","c","c","c"};

Map map = new HashMap();

int count=0;

for(int i=0;i

{

if(map. containsKey(a[i]))

count= (Integer) map.get(a[i]);

}

else

{

count=0;

}

map.put(a[i],++count);

}

}

3.2 取某文本在另一文本中出現(xiàn)頻次

如3.1在文本去重時已對文本串進行頻次統(tǒng)計,實踐中還需要基于整體文本對抽提出來的指定文本進行頻次統(tǒng)計,且與年度關聯(lián)建立年度頻次分布表,核心工作為取某文本在另一文本中出現(xiàn)頻次,算法描述為:

Function Count(Str,toSearch)Dim Times,WordLen

Times = 0

WordLen = Len(toSearch)

For i = 1 To Len(Str)+1-WordLen If Mid(Str,i,WordLen) = toSearch Then Times = Times + 1

End If

Next

FindCount = Times

End function

4 應用效果評估

程序可穩(wěn)定運行于32位和64位Windows7與Windows10操作系統(tǒng),運行界面如圖2所示。

圖2 程序主界面

在中國知網(wǎng)中,限定時間為2015年1月1日至2020年4月13日,發(fā)文機構名稱限定包含“出版社”,在全部期刊范圍內(nèi)檢索主題包含“數(shù)字出版”的論文,共獲得1160條結果,去重后共1743個關鍵詞,寫出的Excel表如圖3所示。

圖3 程序自動寫出的Excel表

在英特爾奔騰處理器2.90GHz、內(nèi)存4.00GB電腦環(huán)境下,寫出Excel表共耗時5秒。圖4展示了總頻次排在前30位的關鍵詞繪制的柱狀-折線圖。

圖4 選定關鍵詞的柱狀-折線圖

由所得數(shù)據(jù)及柱狀-折線圖走勢,大致可以推斷,近五年來出版機構對“數(shù)字出版”的研究,主要表現(xiàn)在:(1)關于傳統(tǒng)出版與數(shù)字出版的對比、討論;(2)出版模式轉型的迫切性與掙扎;(3)數(shù)字出版與大數(shù)據(jù)、新媒體、互聯(lián)網(wǎng)+、知識服務等的融合;(4)數(shù)字出版對版權的重視保護;(5)數(shù)字出版對教輔類圖書的關注。用戶還可以根據(jù)年度頻次按需做進一步分析,此不贅述。

5 結論

本文編制程序,具體針對文獻作者給出的關鍵詞進行詞頻統(tǒng)計,功能確切,可全自動操作用戶手工導出的參考文獻,耗時少,非常適用于大量文獻調研工作,為用戶分析、匯總調研報告提供簡潔有力的數(shù)據(jù)支撐。出版社編輯或情報分析工作者可據(jù)此方便快捷地進行信息分析工作,具有推廣價值。

猜你喜歡
詞頻參考文獻論文
基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
園林科技(2021年3期)2022-01-19 03:17:48
The Muted Lover and the Singing Poet:Ekphrasis and Gender in the Canzoniere*
Study on the physiological function and application of γ—aminobutyric acid and its receptors
東方教育(2016年4期)2016-12-14 13:52:48
詞頻,一部隱秘的歷史
下期論文摘要預登
下期論文摘要預登
下期論文摘要預登
云存儲中支持詞頻和用戶喜好的密文模糊檢索
The Review of the Studies of Trilingual Education in inghai
2013年5—12月最佳論文
新聞前哨(2014年1期)2014-03-12 22:10:06
兰考县| 赫章县| 延津县| 铁岭市| 宜兰市| 陆丰市| 平陆县| 九龙坡区| 阜城县| 南川市| 普洱| 青州市| 姚安县| 额尔古纳市| 黔江区| 申扎县| 普安县| 庆云县| 阳春市| 石棉县| 紫金县| 新郑市| 上栗县| 定兴县| 大同市| 临夏县| 尼玛县| 宾阳县| 沽源县| 博罗县| 阿合奇县| 宜阳县| 三原县| 泰兴市| 荔浦县| 张家川| 临高县| 新疆| 孝义市| 清新县| 长垣县|