国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合詞語分布信息的TFIDF關(guān)鍵詞抽取方法研究

2014-04-02 02:06:56,
中原工學(xué)院學(xué)報 2014年6期
關(guān)鍵詞:標(biāo)引語料文檔

,

(1.河南工業(yè)大學(xué) 信息科學(xué)與工程學(xué)院,鄭州 450001;2.數(shù)字出版技術(shù)國家重點(diǎn)實(shí)驗室,北京 100871)

關(guān)鍵詞抽取旨在從文本中選擇少量的、最能代表文本語義內(nèi)容的詞或短語,而這些關(guān)鍵詞構(gòu)成了文本的一種濃縮表示,可以看作是文本的一個高度概括的摘要。正因為如此,關(guān)鍵詞抽取在信息檢索與文本挖掘(如文本摘要、文本分類、文本聚類和自動問答等)中有著非常廣泛的應(yīng)用。

目前關(guān)鍵詞抽取方法主要分為有監(jiān)督方法和無監(jiān)督方法2種。有監(jiān)督方法需要借助人工標(biāo)注的大規(guī)模語料獲取關(guān)鍵詞抽取模型,而無監(jiān)督方法不要求有人工標(biāo)注的語料,只利用待處理文本中詞語的統(tǒng)計信息確定文本關(guān)鍵詞。無監(jiān)督方法因為不需要標(biāo)注語料,所以具有更高的實(shí)用價值。文獻(xiàn)[1]對5種無監(jiān)督關(guān)鍵詞抽取算法(TFIDF、TextRank、SingleRank、ExpandRank、KeyCluster)在4個語料上做了全面測試,發(fā)現(xiàn)基于TFIDF的方法簡單且總體性能最優(yōu)[1];基于TFIDF的抽取算法,考慮了詞頻以及詞語的常用程度等信息,但卻忽略了詞語在文本中的分布信息,如詞語分布規(guī)律、詞語出現(xiàn)的位置等。在直覺上,這些詞語分布信息對于確定代表文本內(nèi)容的關(guān)鍵詞應(yīng)當(dāng)很有幫助。例如,如果兩個詞語A和B在文本中的分布分別為 “-A——A——A——A-”、“——————BBBB——————”(“-”代表其他詞匯),那么詞語A作為關(guān)鍵詞的可能性應(yīng)當(dāng)大于B。另外,出現(xiàn)在標(biāo)題和篇首的詞語成為關(guān)鍵詞的可能性相對要大得多。本文試圖結(jié)合詞語的分布信息,進(jìn)一步提高基于TFIDF的關(guān)鍵詞抽取方法的性能。

1 相關(guān)工作

與關(guān)鍵詞自動抽取緊密相關(guān)的是自動標(biāo)引技術(shù),它試圖用一組能描述文本內(nèi)容的詞或短語標(biāo)注文本。自動標(biāo)引可以分為抽詞標(biāo)引和賦詞標(biāo)引兩種[2]。賦詞標(biāo)引是從預(yù)先編制的規(guī)范詞表中選取能夠表達(dá)文本主題內(nèi)容的詞或短語,這些詞或短語未必在文本中出現(xiàn)。而抽詞標(biāo)引則使用文本中出現(xiàn)的詞語來標(biāo)注文本的語義內(nèi)容。相比而言,抽詞標(biāo)引靈活,更適合計算機(jī)自動處理,也是目前大多數(shù)自動標(biāo)引研究者使用的方法。抽詞標(biāo)引即為本文所說的關(guān)鍵詞抽取。

在20世紀(jì)70年代,有學(xué)者將機(jī)器學(xué)習(xí)算法引入關(guān)鍵詞自動抽取領(lǐng)域,其中常見的有最大熵模型、決策樹、SVM[3]、貝葉斯和bagging等算法。這些基于有監(jiān)督的方法,其主要思路是將關(guān)鍵詞抽取視為一個分類任務(wù),對已經(jīng)標(biāo)注好的數(shù)據(jù)進(jìn)行訓(xùn)練,獲得分類模型;通過分類模型,判斷給定的詞是否為文檔的關(guān)鍵詞,最終實(shí)現(xiàn)對文檔關(guān)鍵詞抽取。比較典型的有Turney實(shí)現(xiàn)的GenEx系統(tǒng)(利用決策樹和遺傳算法實(shí)現(xiàn))和Witten實(shí)現(xiàn)的Kea系統(tǒng)(利用樸素貝葉斯算法實(shí)現(xiàn))。這些模型的特點(diǎn)是在取得較好效果的同時,需要標(biāo)注好具有一定規(guī)模的語料,而且,不同領(lǐng)域的抽取效果是無法估計的[4]。

基于無監(jiān)督的關(guān)鍵詞抽取方法也受到了重視,主要包括基于語言模型的分析方法、基于統(tǒng)計的方法等,其中以基于統(tǒng)計的方法較為常見,它主要利用了N-gram、詞頻、TFIDF、詞的同現(xiàn)、Pat-tree等信息[4-5]。基于圖的算法[6-7]、基于聚類的算法[8]以及基于話題模型的算法等無監(jiān)督方法的優(yōu)點(diǎn)在于不需要標(biāo)注語料作訓(xùn)練,適用面較廣。

2 基于TFIDF的關(guān)鍵詞抽取算法

首先,借助TFIDF公式計算文本中所有詞語對文本語義內(nèi)容的代表程度;然后,直接取最重要的若干詞語作為關(guān)鍵詞,然而這只是一種最簡單的情況。實(shí)際上,關(guān)鍵詞常常是由多個詞語組成的短語。因此,在計算得到單個詞語的TFIDF值之后,先利用一些啟發(fā)式規(guī)則(如窗口大小、短語邊界、詞性組合等)確定候選的關(guān)鍵詞或關(guān)鍵詞短語,然后利用詞語的TFIDF值計算這些候選詞或短語作為關(guān)鍵詞的可能性大小,最終取可能性最大的若干候選詞或短語作為關(guān)鍵詞。在計算候選短語作為關(guān)鍵詞的可能性時,通常由其所含詞語的TFIDF值加和得到。

上述基于TFIDF的關(guān)鍵詞抽取算法中,詞語的TFIDF值是最主要的依賴因素。

TFIDF是信息檢索領(lǐng)域用于計算文本特征值的重要技術(shù),用于表示一個特征項(可以是一個詞、一個短語等)對于一個文檔語義內(nèi)容的代表能力。TFIDF的主要思想是:如果某個特征項(詞或短語)在一篇文檔中出現(xiàn)的頻率高并且不常用,那么該特征項就具有很好的文檔代表能力。其中,特征項的常用程度是由文檔頻率決定的:在文檔中出現(xiàn)越多,就越常用。

傳統(tǒng)的TFIDF計算可由TF(w,d)×IDF(w)求得,TF(w,d)即TF,代表項w(詞或短語)在文檔d中出現(xiàn)的次數(shù);IDF(w)即IDF,可通過DF(w)求出。

(1)

其中:Nall代表語料中文檔的總數(shù);DF(w)代表包含詞語w的文檔數(shù)量。

3 結(jié)合詞語分布信息的算法

通過引入詞語分布信息,本文將傳統(tǒng)的TFIDF計算公式修改為

(TF*(1-STDdist)+RFPos)*IDF

(2)

其中:TF和IDF的計算方法與傳統(tǒng)的TFIDF方法一致;RFPos描述了詞語在文本中首次出現(xiàn)的相對位置;STDdist描述了詞語在文本中分布的均衡程度,值越小分布越均勻。RFPos以及STDdist的計算公式如下:

(3)

(4)

其中:RD(i,i+1)為詞語第i次出現(xiàn)與第i+1次出現(xiàn)之間的相對距離,值為間隔中的詞語數(shù)與文本長度的比值。當(dāng)計算i=TF(最后一次的RD(i,i+1)值)時,假設(shè)文本頭尾相連,計算最后一次出現(xiàn)與第一次出現(xiàn)之間的相對距離;參數(shù)α的取值范圍在0到1之間。

改進(jìn)的TFIDF算法將RFPos以及STDdist引入TFIDF值的計算中,其中對于不同的語料,參數(shù)α的相對最優(yōu)取值可以由實(shí)驗獲得。

4 實(shí)驗及結(jié)果分析

為了驗證改進(jìn)算法的有效性,本文對選自不同領(lǐng)域的3個語料進(jìn)行了測試。關(guān)鍵詞抽取一般通過將自動抽取的關(guān)鍵詞與人工標(biāo)注的關(guān)鍵詞相比較進(jìn)行評價,使用的評價指標(biāo)主要是準(zhǔn)確率與召回率等。

4.1 實(shí)驗語料

為方便對比,本文參照文獻(xiàn)[1],選用3個語料進(jìn)行測試,分別為Inspec、DUC2001、NUS語料。3個語料中的文檔數(shù)量、文檔平均長度以及格式不同,具體統(tǒng)計信息如表1所示。

Inspec語料[6,9-10]:作為關(guān)鍵詞抽取領(lǐng)域流行語料之一的Inspec語料,包含了來自2 000篇學(xué)術(shù)文章的摘要。它包含3種后綴名的文件:后綴名為abstr的文件內(nèi)容是論文的標(biāo)題和摘要;后綴名為contr和uncontr的文件內(nèi)容分別是人工標(biāo)注的關(guān)鍵詞短語和由Hulth實(shí)驗標(biāo)注的關(guān)鍵詞短語。本文采用該語料測試集合中的500篇文檔作為實(shí)驗語料。從表1可以看出,該語料中文檔平均長度是3個語料中最短的。

表1 3個語料的統(tǒng)計信息

DUC2001語料[4]:含有308篇新聞,采用SGML格式,標(biāo)識了每篇新聞報道的標(biāo)題、時間及正文信息。本文選用全部的308篇文檔,僅對新聞的正文部分進(jìn)行處理,采用由萬小軍整理標(biāo)注的關(guān)鍵詞集合[6]。

NUS語料[10]:該語料包括211篇科技論文全文,每篇文檔有PDF、HTML、文本及XML 4種格式,且已經(jīng)由作者或其他人標(biāo)注。需要注意的是,該語料中每個文檔可能有多人進(jìn)行標(biāo)注,保存在不同的文件中。該語料的主要特點(diǎn):每篇文檔平均包含8 291個詞,是3個語料中最長的。在實(shí)驗中,本文選用全部的211篇文檔,考慮到不同標(biāo)注者側(cè)重點(diǎn)的不同且方便與文獻(xiàn)[1]進(jìn)行對比,按照文獻(xiàn)[1]中的處理方式,將每篇文檔由不同人標(biāo)注的關(guān)鍵詞短語統(tǒng)計排序后的集合,作為該文檔的關(guān)鍵詞短語人工標(biāo)注結(jié)果。因此,該語料中每篇文檔的平均關(guān)鍵詞數(shù)是最多的。

從表1可以看出,3個語料人工標(biāo)注的關(guān)鍵詞平均包含的詞語數(shù)都超過了2。

4.2 實(shí)驗設(shè)置

對3個語料中的文檔進(jìn)行預(yù)處理,利用斯坦福大學(xué)的詞性標(biāo)注工具POS Tagger進(jìn)行詞性標(biāo)注[11]。將這些經(jīng)過詞性標(biāo)注的文檔作為輸入,計算出k個關(guān)鍵詞短語,作為抽取結(jié)果。

(1)關(guān)鍵詞提取的前期階段采用文獻(xiàn)[7]中的方法,選用形容詞、名詞作為候選單詞;利用N-gram算法,篩選并得到包含候選詞的最長n元詞集合。

(2)公式(4)中參數(shù)α的設(shè)定依據(jù):從給定的語料中任意抽出一篇文檔進(jìn)行測試,設(shè)定α的取值從0變化到1,步長為0.1,取抽取結(jié)果最優(yōu)時的α值作為處理其他文檔時的參數(shù)值。

(3)候選詞或短語作為關(guān)鍵詞的度量值由其所含詞語的TFIDF值加和得到。

(4)對于每篇文檔的候選關(guān)鍵詞短語,按照上面計算的度量值進(jìn)行排序,選取前k個作為抽取結(jié)果。

(5)評測時,將抽取得到的關(guān)鍵詞與人工標(biāo)注的結(jié)果進(jìn)行對比,采用標(biāo)準(zhǔn)的準(zhǔn)確率P、召回率R和F1測度值(F1-measure)作為評價指標(biāo)。其中F1為準(zhǔn)確率P與召回率R的調(diào)和平均值,計算公式如下:

(5)

(6)

(7)

4.3 實(shí)驗分析

圖1、圖2和圖3分別給出了改進(jìn)的TFIDF(TFIDF-POS)和傳統(tǒng)的TFIDF算法(TFIDF)在Inspec、DUC2001和NUS 3個語料上的F1測度值的變化情況。在TFIDF算法的基礎(chǔ)上引入詞語的位置及分布信息,使得關(guān)鍵詞抽取的準(zhǔn)確率有所提高。Inspec語料的每篇文檔長度比DUC2001和NUS語料的短得多,曲線變化不夠明顯。但從統(tǒng)計顯著量(0.42)來看,準(zhǔn)確率提高的效果是顯著的。從圖2和圖3可以發(fā)現(xiàn),隨著文檔長度的增加,詞語的位置信息及分布信息的有效性變得更為明顯。TFIDF算法對于200以上單詞數(shù)的文章效果較好,這與文獻(xiàn)[12]的觀點(diǎn)一致。

圖1 在Inspec語料上F1測度值的變化

圖2 在DUC2001語料上F1測度值的變化

圖3 在NUS語料上F1測度值的變化

為了更好地分析不同語料受首次出現(xiàn)的位置信息和分布均衡度信息兩者影響的差異,本文在公式(2)的基礎(chǔ)上進(jìn)行修改:若僅考慮分布均衡度信息,將RFPos置為0(情況一);若僅考慮首次出現(xiàn)的位置信息,將STDdist設(shè)置為0(情況二);傳統(tǒng)的TFIDF算法為情況三。限于篇幅,本文僅對Inspec和DUC2001兩個語料進(jìn)行測試,測試結(jié)果如圖4和圖5所示。

圖4 對Inspec語料的測試結(jié)果

圖5 對DUC2001語料的測試結(jié)果

從實(shí)驗得到的數(shù)據(jù)來看,對于類似于Inspec文檔長度較短的語料而言,僅考慮首次出現(xiàn)的位置得到的抽取準(zhǔn)確率比僅考慮分布均衡度及傳統(tǒng)的TFIDF的效果好,而對于類似于DUC2001中文檔長度較長的語料正好相反。因此,在抽取關(guān)鍵詞時要充分考慮語料的特點(diǎn)。

實(shí)驗還研究了參數(shù)α的設(shè)定對關(guān)鍵詞抽取性能的影響。表2列出了TFIDF算法與改進(jìn)的TFIDF算法在3個語料上的最佳參數(shù)設(shè)置。表中參數(shù)k為設(shè)定的每篇文檔要抽取的關(guān)鍵詞數(shù)目;參數(shù)α的取值體現(xiàn)了詞語首次出現(xiàn)的位置和詞語在文中出現(xiàn)位置的均衡度的關(guān)系。其值越小則詞語首次出現(xiàn)的位置信息越重要;值越大則詞語在文中出現(xiàn)位置的均衡度越重要;F代表F1測度值。

表2 兩個算法的最佳參數(shù)設(shè)置

5 結(jié) 語

本文在經(jīng)典的、基于TFIDF的關(guān)鍵詞抽取算法基礎(chǔ)上,考慮了詞語在文檔中分布的均衡程度以及首次出現(xiàn)的相對位置等信息,構(gòu)建了一種改進(jìn)的關(guān)鍵詞抽取算法,并對3個語料進(jìn)行了實(shí)驗。實(shí)驗結(jié)果表明,改進(jìn)方法是有效的。

下一步將進(jìn)一步考慮文本數(shù)據(jù)的特點(diǎn),利用位置及順序等信息,改進(jìn)關(guān)鍵詞抽取的性能。同時也計劃嘗試?yán)脵C(jī)器學(xué)習(xí)算法,充分利用多種信息特征,來提高關(guān)鍵詞抽取的準(zhǔn)確率。

參考文獻(xiàn):

[1] Kazi Saidul Hasan, Vincent N.Conundrums in Unsupervised Keyphrase Extraction: Making Sense of The-art[C]//Rroceedings of the 23rd International Conference on Computational Linguistics, Beijing, 2010: 365-373.

[2] Kathrin Eichler, Günter Neumann.DFKI KeyWE: Ranking Keyphrases Extracted from Scientific Articles[C]//Proceedings of The 5th International Workshop on Semantic Evaluation,Uppsala, Sweden, 2010: 150-153.

[3] Zhang K, Xu H, Tang J, et al.Keyword Extraction Using Support Vector Machine[C]//Proceedings of the Seventh International Conference on Web-Age Information Management, HongKong, 2006: 85-96.

[4] Kim S N, Medelyan O, Kan M Y, et al.Evaluating N-gram Based Evaluation Metrics for Automatic Keyphrase Extraction [C]//Proceedings of the 23rd International Conference on Computational Linguistics, Beijing, 2010: 572-580.

[5] Niraj Kumar, Kannan Srinathan.Automatic Keyphrase Extraction from Scientific Documents Using N-gram Filtration Technique[C]//Proceedings of the Eighth ACM Symposium on Document Engineering, New York, 2001:199-208.

[6] Rada Mihalcea, Paul Tarau.TextRank: Bringing Order into Texts [C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing,Barcelona, 2004:120-128.

[7] WAN Xiaojun, XIAO Jianguo.Single Document Keyphrase Extraction Using Neighborhood Knowledge[C]//Proceedings of the 23rd AAAI Conference on Artificial Intelligence, Chicago, 2008: 855-860.

[8] LIU Zhiyuan, LI Peng, ZHANG Yabin, et al.Clustering to Find Exemplar Terms for Keyphrase Extraction[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, Singapore, 2009: 257-266.

[9] Anette Hulth.Improved Automatic Keyword Extraction Given More Linguistic Knowledge[C]//Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing, Sapporo, 2003: 216-223.

[10] LIU Feifan, Deana Pennell, LIU Fei, et al.Unsupervised Approaches for Automatic Keyword Extraction Using Meeting Transcripts[C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, New York, 2009: 620-628.

[11] Thuy Dung Nguyen, Min-Yen Kan.Keyphrase Extraction in Scientific Publications[C]//Proceedings of the International Conference on Asian Digital Libraries, Hanoi, 2007:317-326.

[12] Kristina Toutanova, Christopher D Manning.Enriching the Knowledge Sources Used in a Maximum Entropy Part-of-speech Tagger[C]//Proceedings of the 2000 Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, Hong Kong, 2000:63-70.

猜你喜歡
標(biāo)引語料文檔
有人一聲不吭向你扔了個文檔
檔案主題標(biāo)引與分類標(biāo)引的比較分析
本刊對來稿中關(guān)鍵詞標(biāo)引的要求
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
基于RI碼計算的Word復(fù)制文檔鑒別
本刊對來稿中關(guān)鍵詞標(biāo)引的要求
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
《苗防備覽》中的湘西語料
國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
肇源县| 独山县| 博野县| 扬州市| 宁晋县| 南华县| 邹城市| 邢台市| 禄丰县| 南昌市| 南川市| 讷河市| 孝感市| 平江县| 略阳县| 巴林右旗| 英山县| 保靖县| 宣恩县| 弋阳县| 阳朔县| 安阳县| 聊城市| 海口市| 武胜县| 麻阳| 潞西市| 保康县| 鄂托克前旗| 牙克石市| 繁峙县| 北流市| 商河县| 剑阁县| 太原市| 通海县| 左权县| 台南县| 嘉荫县| 阜宁县| 南开区|