姚堯
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)
自動(dòng)關(guān)鍵短語抽取綜述
姚堯
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)
自動(dòng)關(guān)鍵短語抽取是知識(shí)抽取和信息檢索等信息技術(shù)的關(guān)鍵步驟,當(dāng)前已經(jīng)被廣泛研究多年,但是和許多自然語言處理任務(wù)的性能相比,現(xiàn)有抽取算法的性能依然很低下。對(duì)自動(dòng)關(guān)鍵短語抽取方法進(jìn)行綜述,并對(duì)其未來研究發(fā)展進(jìn)行展望,為進(jìn)一步自動(dòng)抽取高質(zhì)量的關(guān)鍵短語提供良好借鑒。
自動(dòng)關(guān)鍵短語抽??;自然語言處理;抽取算法;性能
文檔的關(guān)鍵短語可以保證對(duì)大規(guī)模的文檔進(jìn)行快速和精確的查詢,并廣泛應(yīng)用于文本摘要[1]、文本分類[2]、情感挖掘[5]、文檔索引等自然語言處理(NLP)和信息檢索(IR)任務(wù)。但實(shí)際中很少有文檔標(biāo)注了關(guān)鍵短語,手工去添加關(guān)鍵短語是一項(xiàng)很繁重的工作。因此需要一種方法去自動(dòng)抽取關(guān)鍵短語。
自動(dòng)關(guān)鍵短語抽取是從文檔中自動(dòng)抽取具有重要性和主題性的短語。因?yàn)殛P(guān)鍵短語的重要性,自動(dòng)關(guān)鍵短語抽取受到了很大的關(guān)注。但是,其任務(wù)離真正解決還有很長(zhǎng)的距離。相比于許多的核心自然語言處理任務(wù),當(dāng)前自動(dòng)關(guān)鍵短語抽取方法的性能仍然很低下。本文的目標(biāo)是對(duì)自動(dòng)關(guān)鍵短語抽取方法進(jìn)行綜述,分析各方法的優(yōu)缺點(diǎn),并討論目前遇到的挑戰(zhàn)。
一個(gè)通用的關(guān)鍵短語抽取系統(tǒng)主要分為2步:①利用一些啟發(fā)式方法抽取多個(gè)詞或者短語作為候選關(guān)鍵短語;②利用有監(jiān)督或者無監(jiān)督方法判斷候選關(guān)鍵短語是否是正確的關(guān)鍵短語。
如上所述,候選關(guān)鍵短語通過啟發(fā)式規(guī)則抽取。設(shè)計(jì)這些規(guī)則用來避免錯(cuò)誤的候選和保持候選數(shù)目最小。典型的啟發(fā)式方法包括:①利用停用詞表來去除停用詞;②利用特有的詞性標(biāo)簽來作為候選關(guān)鍵短語,例如名詞、形容詞、動(dòng)詞;③抽取出現(xiàn)在維基百科條目標(biāo)題中的N元組來作為候選關(guān)鍵短語;④抽取滿足預(yù)定義詞匯模板的N元組或者名詞短語。
早期的有監(jiān)督方法把關(guān)鍵短語抽取當(dāng)做一個(gè)二分類問題[11]。目標(biāo)是從標(biāo)注好關(guān)鍵短語的文檔中訓(xùn)練一個(gè)分類器來判斷一個(gè)候選短語是否是關(guān)鍵短語。關(guān)鍵短語和非關(guān)鍵短語分別用于生成正例和負(fù)例。不同的學(xué)習(xí)算法可以用來訓(xùn)練該分類器,包括樸素貝葉斯、決策樹、最大熵和支持向量機(jī)等分類算法。
劉玲玲等人[4]提出了一種利用決策樹訓(xùn)練分類器解決關(guān)鍵短語抽取的方法。將文檔中詞的詞性、首位置、詞語頻次作為決策樹分類的特征。并加入了詞在文檔中出現(xiàn)的位置信息,對(duì)詞的權(quán)重進(jìn)性調(diào)整。最后采用十折交叉驗(yàn)證和Bagging重采樣技術(shù)進(jìn)行決策樹關(guān)鍵短語的抽取。部分匹配的F值達(dá)到了54.49%。
單純地把關(guān)鍵短語抽取當(dāng)做二分類問題有一定的缺陷。關(guān)鍵短語抽取的目標(biāo)是識(shí)別文檔中最具代表性的短語。但是二分類器在分類時(shí)單獨(dú)考慮每個(gè)候選關(guān)鍵短語,導(dǎo)致無法比較候選關(guān)鍵短語之間的好壞。受這種發(fā)現(xiàn)的啟發(fā),Jiang[7]等人提出了一種關(guān)鍵短語抽取的排序方法,利用TF-IDF、短語長(zhǎng)度、首次出現(xiàn)位置以及是否出現(xiàn)在標(biāo)題作為特征,使用Rank_SVM學(xué)習(xí)一個(gè)排序器對(duì)兩個(gè)候選關(guān)鍵短語排序。這種值對(duì)排序方法表現(xiàn)了候選短語之間的比較,并且其結(jié)果比KEA[8]有明顯的提高。
存在的無監(jiān)督關(guān)鍵短語抽取方法可以分為2類:基于圖的排序方法和基于主題的聚類方法。
4.1 基于圖的排序方法
基于圖的方法的基本思想是從輸入文檔中建立一個(gè)圖,然后利用基于圖的排序方法根據(jù)頂點(diǎn)的重要性對(duì)它排序,圖的每個(gè)頂點(diǎn)相當(dāng)于文檔中的候選關(guān)鍵短語,圖的每條邊連接2個(gè)相關(guān)的候選。邊的權(quán)重相當(dāng)于相互連接的候選之間的語義相關(guān)度。TextRank[6]是一種關(guān)鍵短語抽取中比較著名的基于圖的方法。圖中每個(gè)節(jié)點(diǎn)的得分根據(jù)當(dāng)前節(jié)點(diǎn)的鄰居節(jié)點(diǎn)的得分遞歸得到,然后選擇圖中排名高的候選作為輸入文檔的關(guān)鍵短語。
夏天[3]基于TextRank的思想,在此基礎(chǔ)上引入了頻度影響力、覆蓋影響力和位置影響力來計(jì)算短語之間的影響力轉(zhuǎn)移矩陣,然后不斷迭代得到候選構(gòu)建短語的分值,選取前N個(gè)短語作為關(guān)鍵短語。實(shí)驗(yàn)結(jié)果表明,在TextRank上進(jìn)行短語位置加權(quán)的方法優(yōu)于傳統(tǒng)的TextRank方法。
但是基于圖的方法忽略了一個(gè)關(guān)鍵短語抽取中的重要概念,文檔中的一組關(guān)鍵短語應(yīng)該覆蓋文檔中提及的主要主題,但是該方法并沒有關(guān)注這個(gè)問題,所有的主題并沒有被抽取的關(guān)鍵短語代表。盡管有這種缺點(diǎn),但是基于圖代表文本的思想還是被很多的方法采用,并提出了不同的計(jì)算兩個(gè)候選之間相似度的算法。
4.2 基于主題的聚類方法
基于主題的聚類方法是把文檔中的候選關(guān)鍵短語聚合成主題,每個(gè)主題由所有和該主題相關(guān)的候選關(guān)鍵短語組成。采用基于主題的聚類方法有很多動(dòng)機(jī):①抽取的關(guān)鍵短語的綜合語義應(yīng)該覆蓋文檔中所有主要的主題。②一個(gè)關(guān)鍵短語應(yīng)該和文檔中提及的一個(gè)或多個(gè)主要主題相關(guān)。Liu等人[9]提出了一種KeyCluster系統(tǒng),利用維基百科和共現(xiàn)來聚類語義相似的候選關(guān)鍵短語。每個(gè)聚類對(duì)應(yīng)于一個(gè)文檔中的主題,然后選取靠近每個(gè)聚類中心的候選關(guān)鍵短語作為關(guān)鍵短語。實(shí)驗(yàn)結(jié)果顯示KeyCluster性能優(yōu)于TextRank,但是Key-Cluster有個(gè)潛在的缺點(diǎn),在從每個(gè)主題聚類中抽取關(guān)鍵短語時(shí),該系統(tǒng)賦予了每個(gè)主題相同的重要性。實(shí)際上,文檔中具有某些并不重要的主題,這些不重要的主題不應(yīng)該被關(guān)鍵短語代表。Grineva等人[10]提出了一種利用社區(qū)發(fā)現(xiàn)的關(guān)鍵短語抽取系統(tǒng),該系統(tǒng)給更重要的主題賦予了更多的權(quán)重,利用維基百科建立了語義圖,然后通過社區(qū)發(fā)現(xiàn)算法挖掘語義圖中的社區(qū)聚類,最后從有價(jià)值的社區(qū)聚類中抽取所有的候選關(guān)鍵短語作為文檔的關(guān)鍵短語。該方法相比于TF-IDF,TextRank方法在不損失精確率的情況下,得到了更高的召回率。
本文主要對(duì)當(dāng)前的自動(dòng)關(guān)鍵短語抽取進(jìn)行綜述,介紹了具有代表性的有監(jiān)督和無監(jiān)督方法,并分析它們的優(yōu)缺點(diǎn),盡管目前自動(dòng)關(guān)鍵短語抽取取得了較大的進(jìn)展,但是依舊面臨著較多的挑戰(zhàn)。針對(duì)長(zhǎng)文檔自動(dòng)關(guān)鍵短語抽取精確率低的問題需要設(shè)計(jì)更好的算法;在有監(jiān)督模型訓(xùn)練時(shí),存在正例與反例數(shù)量不平衡的問題,如何解決需要作進(jìn)一步工作;當(dāng)前很多方法都只關(guān)注算法的改進(jìn),如何引入背景知識(shí)也是需要解決的問題。
[1] 江開忠,李子成,顧君忠.自動(dòng)文本摘要方法[J].計(jì)算機(jī)工程,2008,34(1):221~223
[2] 羅杰,陳力,夏德麟,等.基于新的關(guān)鍵詞提取方法的快速文本分類系統(tǒng)[J].計(jì)算機(jī)應(yīng)用研究,2006,23(4):32~34
[3] 夏天.詞語位置加權(quán)TextRank的關(guān)鍵詞抽取研究[J].現(xiàn)代圖書情報(bào)技術(shù),2013,29(9):30~34
[4] 劉玲玲,梁穎紅,張永剛等.基于決策樹的關(guān)鍵短語抽取[J].江南大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,9(1)
[5] Berend G.Opinion Expression Mining by Exploiting Keyphrase Extraction[C].IJCNLP.2011:1162~1170
[6] Mihalcea R,Tarau P.TextRank:Bringing Order Into Texts[C].Association for Computational Linguistics,2004
[7] Jiang X,Hu Y,Li H.A Ranking Approach to Keyphrase Extraction[C].Proceedings of the 32nd International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2009:756~757[8] Frank E,Paynter G W,Witten I H,et al.Domain-Specific Keyphrase Extraction[J],1999
[9] Liu Z,Li P,Zheng Y,et al.Clustering to Find Exemplar Terms for Keyphrase Extraction[C].Association for Computational Linguistics, 2009:257~266
[10] Grineva M,Grinev M,Lizorkin D.Extracting Key Terms from Noisy and Multitheme Documents[C].ACM,2009:661~670
[11] Turney P D.Learning Algorithms for Keyphrase Extraction[J].Information Retrieval,2000,2(4):303~336
Overview of Automatic Keyphrase Extraction
YAO Yao
(School of Computer Science,Sichuan University,Chengdu 610065)
Automatic keyphrase extraction is a key step knowledge extraction and information retrieval of information technology,the current has been extensively studied for many years,but many properties as compared to natural language processing tasks,the performance of existing extraction algorithm remains low down.Reviews phrase for automatic extraction methods,and prospects for its future research and development,to provide a good reference for further automatically extract keyphrases of high quality.
Automatic Keyphrase Extraction;Natural Language Processing;Extraction Algorithm;Performance
1007-1423(2015)04-0013-03
10.3969/j.issn.1007-1423.2015.04.003
姚堯(1990-),男,重慶人,在讀碩士研究生,研究方向?yàn)閿?shù)據(jù)挖掘
2014-12-02
2014-12-18