国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于詞共現的關鍵詞提取算法研究與改進

2018-03-22 01:31:40和志強
電子技術與軟件工程 2018年1期
關鍵詞:詞頻語義詞匯

關鍵詞提取是文本挖掘領域中的核心技術之一,然而在大多數關鍵詞提取方法中尚沒有一種針對政策文本關鍵詞提取的算法。本文對比分析了兩種普遍用于中文文本關鍵詞提取的方法,并結合政策文本自身具有的成文特征提出一種基于共現詞的政策文本關鍵詞提取方法。經實驗驗證該方法在政策文本關鍵詞提取方面比其他兩種算法性能更好,抽取的關鍵詞基本符合實際需求。

【關鍵詞】關鍵詞提取 詞頻統(tǒng)計 詞共現 位置信息

1 引言

隨著網絡技術的發(fā)展,大數據時代來臨,各種文本信息迅速增加。面對不斷更新且數據量巨大的文本數據,人們需要大量時間去搜索自己關注的內容。關鍵詞在一定程度上概括了一篇文章的主題和內容。通過關鍵詞也可以方便的將文本信息進行分類,提高查閱文獻的效率。

目前文本關鍵詞抽取方法大致分為三類:基于統(tǒng)計信息的關鍵詞提取,基于詞相關性的關鍵詞提取,基于語義的關鍵詞提取。TF-IDF算法是目前普遍被采用的基于統(tǒng)計信息的關鍵詞提取算法,但該方法需要對每個候選詞進行詞頻統(tǒng)計,影響提取效率。而且該方法可能將低頻詞錯選成關鍵詞;詞共現是基于詞語相關性的關鍵詞提取的一種。根據詞共現模型,幾個詞語經常在同一窗口單元中出現多次,則他們在一定程度上表達了該文檔的語義信息,能進一步夠表達作者的主題思想。但是這種方法會導致關鍵詞提取單一化;基于語義的關鍵詞提取方法一般通過詞語間的語義相似度來構建詞語網絡并結合詞典進行關鍵詞提取,但是由于一般用于關鍵詞提取的詞典都具有一般性,在針對特定的領域文本關鍵詞提取時效率不高。

本文以詞頻統(tǒng)計及詞共現為基礎結合政策文本本身具有的特征提出一種適合政策文本關鍵詞提取的方法。

2 關鍵詞提取算法

2.1 TF-IDF

TF-IDF是經典的基于統(tǒng)計的關鍵詞提取算法。通過TF-IDF計算出詞t在文本D中的權重來表示其重要程度,按權重大小排列取權重較大的一些詞作為關鍵詞。權重W計算公式如下:

2.2 詞共現模型

該類算法是建立在詞頻統(tǒng)計算法的基礎上,將詞語及其語義關系映射到詞語共現圖上,利用在詞共現圖上形成的主題信息和不同主題之間的連接特征信息,自動的提取文檔中的主題詞,主要目的是找出一些非高頻并且對主題貢獻大的詞作為關鍵詞。詞共現算法是建立在詞頻統(tǒng)計算法的基礎之上,自動的提取文檔中的主題詞,主要目的是找出一些非高頻并且對主題貢獻大的詞作為關鍵詞。

在自然語言文本中普遍存在詞共現現象,而在特定的某一類文本中這種現象更加明顯。詞共現即某些相關詞匯會出現在一定的文本范圍內,本文將該范圍規(guī)定為一篇文章內,相關詞匯比單個高頻詞匯更具有代表性,更能代表文章的內容和思想。在文本集中,任意的兩個詞多次出現在多個文本范圍內都可被認定為共現詞,詞條t1與詞條t2可組成共現詞對(t1, t2)?,F在我們引入共現度來評價詞條t1與詞條t2的語義相關性。共現詞對的相關性越大就越能表示該共現詞對在文章中越重要。共現詞對(t1, t2)的共現度計算公式如下:

3 基于共現詞的政策文本關鍵詞提取方法

通過詞頻統(tǒng)計得到的關鍵詞有一定程度的偏差,很多高頻詞匯對文章的表述沒有實質性意義,可以通過同現詞找出一些低頻卻具有代表性的詞匯。然而在計算共現度時,兩個加權系數α和β的取值至關重要。目前一般的取值是α=β=0.5,這樣并不具有針對性。

本文通過大量觀察政策文本成文規(guī)律得到以下幾點特征來具體調整共現度計算公式中系數的值。下面給出從待測樣本集中隨機抽取的一篇政策文本的截圖如圖1所示。

(1)在一般文本中很少有類似政策文本章節(jié)體的結構,很多政策文本的主題內容會在標題(包含二級及以下標題)內得到有效概括,因此我們規(guī)定在分別計算關鍵詞t1,t2的條件共現度時,計算出t1,t2和標題Title的相似度sim1,sim2,相似度算法使用Jaro-Winkler Distance算法。關鍵詞與標題相似度越高越具有代表性。

(2)根據政策文本通常會在首段或文章前部總結提出本文主要思想,所以我們把關鍵詞t1,t2距離文章開始的字符數記錄下來即d1,d2。距離計算以關鍵詞在文章中第一次出現的位置為準。即d越大,關鍵詞t離文章首段或前部越遠越不具有代表性。

根據以上兩點可取,。這樣可將更具有代表性的共現詞對提取出來。則公式(2)可改進為:

政策文本關鍵詞提取具體分四大模塊即文本預處理模塊,通過詞頻統(tǒng)計計算權重模塊,共現詞對共現度計算模塊,關鍵詞提取模塊。關鍵詞提取具體步驟如下:

(1)文本預處理模塊:將文本集使用分詞器進行分詞得到分詞詞庫,并根據停用詞庫自動過濾去除掉一些常見的無意義的虛詞和名次等。本文使用的分詞器是IK Analyer分詞器,IK Analyer是一款開源的,基于java語言開發(fā)的輕量級中文分詞包,可以有效的實現簡單的分詞歧義排除等功能。停用詞典采用“哈工大停用詞庫”。

(2)詞頻統(tǒng)計模塊:首先對詞匯進行詞頻統(tǒng)計,并記錄對應的文章及相應詞條的信息,如在文章中所處位置d1,d2和高頻詞匯與該篇文章標題的相似度sim1,sim2。本文取每篇文本中出現兩次及以上的詞條進行權重計算得到帶選詞庫K,并將處理后的詞匯按權重高低排列。

(3)共現詞關鍵度計算模塊:將詞庫K中的詞匯根據公式(6)計算兩兩之間的共現度C(t1,t2)并根據詞匯共現度大小是否超過均值進行連邊構成共現圖。最后根據公式(5)計算每個節(jié)點的關鍵度,并將關鍵詞按關鍵度大小排列。

(4)關鍵詞提取模塊:在詞頻統(tǒng)計詞庫K中選取詞頻較高的一部分作為關鍵詞庫key1,在K中再次計算共現度選取關鍵度最高的前n個詞匯作為關鍵詞庫key2。則得到關鍵詞庫。

4 實驗結果與分析

本文實驗基于Windows 7操作系統(tǒng),采用Eclipse編譯環(huán)境進行驗證試驗。實驗使用Java語言基于JDK1.8進行編程,使用Sql Server 2008進行數據儲存。

4.1 實驗評估標準

通常情況下,對關鍵詞提取算法的評估是將算法自動提取的關鍵詞與人工定義的關鍵詞進行匹配比較,實驗中以專業(yè)讀者給出的關鍵詞為準。同時由于關鍵詞與給出的標準答案可能不會完全相同但語義相近,所以我們采取相似度匹配的方式,將同義的詞條也認為匹配成功?;谡Z義的評估可使評估方法更加合理。

評價標準采用信息檢索中常用的查準率Precision(記為P)、查全率Recall(記為R)以及綜合指標F對關鍵詞提取算法進行評價。三者計算公式如下:

其中,x為關鍵詞提取算法正確提取的關鍵詞個數;y為算法提取的所有關鍵詞的個數;z為人工賦予關鍵詞的個數。

查準率和查全率反映了關鍵詞提取性能的兩個不同方面,兩者的關系是相互制約的,可以通過降低查全率來提高查準率,反之亦可。單獨的提升一個指標是不可行的。綜合指標F的提出很好的綜合考慮了這兩項指標,其值越高代表關鍵詞提取的性能越好。

4.2 實驗數據準備

本文的實驗的數據是通過網絡爬蟲在中國人力資源和社會保障部上政策法規(guī)模塊下的創(chuàng)業(yè)就業(yè),社會保障,人才隊伍建設,人事制度改革,工資收入分配,勞動關系六個欄目中抓取共2410篇文章,具體信息如表1所示。

為使實驗結果更具普適性,我們將實驗文本數據分為兩組,第一組由創(chuàng)業(yè)就業(yè)、社會保障、人才隊伍三類文章組成,第二組由人事制度、工資收入、勞動關系三類文章組成。

4.3 實驗結果分析

分別使用TF-IDF算法,基于共現詞的關鍵提取算法,加上位置信息及與標題相似度后的共現詞提取算法對實驗文本進行關鍵詞提取。對第一組文本數據進行實驗的結果如表2所示。

第一組數據抽取關鍵詞個數不同情況下三種關鍵詞提取算法的查準率P如圖3所示。

第一組數據抽取關鍵詞個數不同情況下三種關鍵詞提取算法的查全率R如圖4所示。

對第一組數據抽取關鍵詞個數不同情況下三種關鍵詞提取算法的綜合指標F如圖5所示。

對第二組文本數據進行實驗的結果如表3所示。

從表2和表3實驗結果對比可知兩組數據實驗結果的查準率P和查全率R規(guī)律類似,對第二組數據實驗三種算法綜合指標F如圖6所示。

由表2、圖5與表3、圖6對比可知,根據政策文本特征改進后的關鍵詞提取算法提取性能普遍要高于詞頻統(tǒng)計和共現詞兩種關鍵詞提取算法的提取效率。將兩組實驗的綜合指標取均值后仍符合以上規(guī)律,且當抽取關鍵詞小于等于10個時,三種關鍵詞提取算法都是在提取關鍵詞為6個左右時綜合指標F達到最高,所以政策文本抽取關鍵詞以6個較為恰當。

5 總結

本文首先分析了兩種常用的關鍵詞提取算法,TF-IDF和基于共現詞的關鍵詞提取算法。并對比分析了兩種算法對于政策文本關鍵詞提取的不足。在基于共現詞關鍵詞提取的算法基礎上結合政策文本特殊的成文特征,改進了共現度計算公式。實驗表明改進后的關鍵詞提取算法在效率上有了明顯提高,更適用于政策文本的關鍵詞提取。本文在構建共現圖時,規(guī)定詞匯共現度超過該片文章中所有待選詞的共現度的均值即可連邊,如何選取恰當的共現度閾值來限制節(jié)點連邊是一個值得研究的方向。本文中規(guī)定共現詞出現的最小范圍為一篇文章,縮小或者擴大共現詞最小范圍對關鍵詞提取有何影響也是一個值得研究的方向。

參考文獻

[1]王立霞,淮曉永.基于語義的中文文本關鍵詞提取算法[J].計算機工程,2012,38(01):1-4.

[2]羅燕,趙書良,李曉超等.基于詞頻統(tǒng)計的文本關鍵詞提取方法[J].計算機應用,2016,36(03):718-725.

[3]唐守忠,齊建東.一種結合關鍵詞與共現詞對的向量空間模型[J].計算機工程與科學,2014,36(05):971-976.

[4]楊林.基于文本的關鍵詞提取方法研究與實現[D].安徽工業(yè)大學,2013.

[5]張建娥.基于TFIDF和詞語關聯度的中文關鍵詞提取方法[J].情報科學,2012(10):110-112+123.

[6]蔣昌金,彭宏,陳建超等.基于組合詞和同義詞集的關鍵詞提取算法[J].計算機應用研究,2010,27(08):2853-2856.

[7]袁明.基于隱性主題模型和新詞發(fā)現的關鍵詞抽取研究[D].北京郵電大學,2014.

[8] 郭建波.基于詞共現的關鍵詞抽取算法研究[D].合肥工業(yè)大學,2015.

[9] 時永賓,余青松.基于共現詞卡方值的關鍵詞提取算法[J].計算機工程,2016,42(06):191-195.

[10]方俊,郭雷,王曉東.基于語義的關鍵詞提取算法[J].計算機科學,2008,35(06):148-151.

[11]王良芳.文本挖掘關鍵詞提取算法的研究[D].浙江工業(yè)大學,2013.

[12]王錦波,王蓮芝,高萬林等.一種改進的樸素貝葉斯關鍵詞提取算法研究[J].計算機應用與軟件,2014(02):174-176.

[13]梁偉明.中文關鍵詞提取技術[D].上海交通大學,2010.

[14]秦鵬,李恒訓,張華平等.基于關鍵詞提取的搜索結果聚類研究[C].全國信息檢索學術會議.2009.

[15]趙小寶,張華平.基于迭代算法的新詞識別[J].計算機工程,2014,40(07):154-158.

[16]梁偉明.中文關鍵詞提取技術[D].上海交通大學,2010.

作者簡介

和志強(1972-),男,博士學位,教授。現為河北經貿大學信息技術學院碩士生導師。主要研究方向為數據挖掘、高速數據采集。

王麗鵬(1991-),男,碩士研究生。主要研究方向為數據挖掘。

張鵬云(1982-),男,碩士學位?,F為河北經貿大學信息技術學院講師。主要研究方向為數據挖掘、高速數據采集。

作者單位

河北經貿大學信息技術學院 河北省石家莊市 050061

猜你喜歡
詞頻語義詞匯
基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
園林科技(2021年3期)2022-01-19 03:17:48
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
語言與語義
本刊可直接用縮寫的常用詞匯
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
詞頻,一部隱秘的歷史
云存儲中支持詞頻和用戶喜好的密文模糊檢索
認知范疇模糊與語義模糊
以關鍵詞詞頻法透視《大學圖書館學報》學術研究特色
圖書館論壇(2014年8期)2014-03-11 18:47:59
东乌| 鄯善县| 东方市| 庆城县| 洛扎县| 四平市| 绥德县| 新民市| 龙陵县| 宣武区| 邳州市| 清远市| 南宁市| 游戏| 广州市| 贞丰县| 会理县| 阿克陶县| 大同县| 内丘县| 尚义县| 隆尧县| 寻甸| 台东县| 当雄县| 增城市| 无极县| 文昌市| 定襄县| 信宜市| 武清区| 祁门县| 怀化市| 皋兰县| 呼图壁县| 诸暨市| 南平市| 天等县| 长葛市| 南京市| 凤台县|