魏 赟 孫先朋
(上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院 上海 200093)
融合統(tǒng)計(jì)學(xué)和TextRank的生物醫(yī)學(xué)文獻(xiàn)關(guān)鍵短語(yǔ)抽取
魏 赟 孫先朋
(上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院 上海 200093)
關(guān)鍵短語(yǔ)的抽取在文本聚類(lèi)、分類(lèi)、檢索等方面有著重要的作用。利用經(jīng)典的TF-IDF算法來(lái)提高文本關(guān)鍵短語(yǔ)抽取的質(zhì)量。通過(guò)對(duì)TF-IDF算法的研究,發(fā)現(xiàn)TF-IDF可以綜合利用單個(gè)文本信息和文本集合信息抽取文本關(guān)鍵詞。在此基礎(chǔ)上,提出一種綜合TF-IDF、TextRank、統(tǒng)計(jì)學(xué)知識(shí)抽取關(guān)鍵短語(yǔ)的方法和利用候選關(guān)鍵短語(yǔ)逆向文檔頻率排序的方法。該方法在TextRank基礎(chǔ)上,通過(guò)TF-IDF引入詞的文本集合信息計(jì)算詞之間權(quán)重得到詞的得分。然后利用統(tǒng)計(jì)學(xué)知識(shí)從上一步選出詞組成的短語(yǔ)篩選出候選關(guān)鍵短語(yǔ)。最后利用逆向文檔頻率的思想對(duì)候選關(guān)鍵短語(yǔ)排序。實(shí)驗(yàn)證明,該模型相比于經(jīng)典TextRank模型準(zhǔn)確率提高了2%,召回率提高了4.5%,F(xiàn)-measure提高了3.4%。
TextRank 關(guān)鍵短語(yǔ)抽取 TF-IDF 逆向文檔頻率
關(guān)鍵詞抽取技術(shù)是信息處理領(lǐng)域的核心技術(shù)。對(duì)于生物醫(yī)學(xué)文獻(xiàn),由于人工標(biāo)記關(guān)鍵詞的隨機(jī)性、專(zhuān)業(yè)詞匯較多、語(yǔ)言結(jié)構(gòu)復(fù)雜、數(shù)據(jù)量大等原因,需要一種基于全文的自動(dòng)化抽取生物醫(yī)學(xué)文獻(xiàn)關(guān)鍵詞的方法來(lái)建立更加科學(xué)的文本分類(lèi)方法。
目前常用的無(wú)監(jiān)督關(guān)鍵詞抽取方法主要是LDA[1]、TF-IDF[2]、TextRank[3]。從三者的算法原理上看,LDA和TF-IDF均沒(méi)有考慮詞在文本中的順序,因此不適合直接抽取文本關(guān)鍵短語(yǔ)。而TextRank算法,Rada Mihalcea等已經(jīng)證明了其抽取關(guān)鍵短語(yǔ)短語(yǔ)的可行性。針對(duì)TextRank算法的改進(jìn)模型有很多,一種是TextRank結(jié)合主題模型的方法[4-5],但是該種方法需要事先選定高質(zhì)量的訓(xùn)練集。一種是對(duì)TextRank加權(quán)的方法[6-7],文獻(xiàn)[6]將窗口中共現(xiàn)詞的頻率作為二元共現(xiàn)詞之間的權(quán)重,該方法更加偏好高頻詞。文獻(xiàn)[7]將時(shí)間表達(dá)式加入到TextRank權(quán)重計(jì)算中,但該方法會(huì)增強(qiáng)不相連接詞間的關(guān)系。在使用TextRank抽取出候選關(guān)鍵短語(yǔ)后,接下來(lái)短語(yǔ)緊密程度的判定和候選短語(yǔ)排序。目前常用的判定方法主要是頻率、互信息、信息熵、邊界多樣性以及 統(tǒng)計(jì)等[8-10]方法。使用統(tǒng)計(jì)學(xué)方法可以去掉緊密程度不高的短語(yǔ),從而增強(qiáng)抽取關(guān)鍵短語(yǔ)的準(zhǔn)確率。常用的候選短語(yǔ)排序方法是用候選短語(yǔ)包含關(guān)鍵字的得分之和代表候選短語(yǔ)得分,文獻(xiàn)[6]修正了上述方法對(duì)候選短語(yǔ)中包含一個(gè)分值更高而錯(cuò)誤排序的情況,但是該排序方法更加偏好短語(yǔ)而降低了一元短語(yǔ)的重要性。
綜上所述,本文基于生物醫(yī)學(xué)文獻(xiàn)全文使用TF-IDF優(yōu)化的TextRank算法抽取候選關(guān)鍵短語(yǔ),并使用頻率、互信息、邊界多樣性對(duì)候選關(guān)鍵短語(yǔ)篩選,然后提出了將逆向文檔頻率引入候選關(guān)鍵短語(yǔ)排序方法,從而達(dá)到優(yōu)化抽取生物醫(yī)學(xué)文獻(xiàn)短語(yǔ)關(guān)鍵詞的目的。
本文模型主要包括三個(gè)核心步驟:(1) 一元短語(yǔ)抽取,利用TF-IDF優(yōu)化的TextRank算法抽取一元短語(yǔ);(2) 二三元短語(yǔ)抽取,遍歷生物醫(yī)學(xué)文獻(xiàn)全文找出相連的一元短語(yǔ)和一元短語(yǔ)中夾有停用詞的短語(yǔ),然后利用從統(tǒng)計(jì)學(xué)知識(shí)對(duì)其中二三元短語(yǔ)篩選;(3) 候選關(guān)鍵短語(yǔ)排序,將(2)中得到的二三元短語(yǔ)和其不包含的一元短語(yǔ)使用本文提出的排序方法排序取排名靠前作為關(guān)鍵短語(yǔ)。圖1為本文模型關(guān)鍵短語(yǔ)抽取流程圖。
圖1 關(guān)鍵短語(yǔ)抽取流程圖
1.1 一元短語(yǔ)抽取
TF-IDF是面向多文檔的關(guān)鍵詞抽取方法,他通過(guò)詞的頻率信息和詞在文本集合中的信息得到詞在文本中的重要性。TF-IDF公式為:
(1)
TextRank是衍生于PageRank的基于圖結(jié)構(gòu)的以推薦形式抽取文本關(guān)鍵詞的算法。Rada Mihalcea等首先將TextRank算法引入到文本挖掘領(lǐng)域,證明了其抽取文本關(guān)鍵短語(yǔ)的可行性。TextRank將文本看作是G(V,E)的形式,V表示文本中的詞,E為詞語(yǔ)之間的邊。通過(guò)設(shè)定窗口的大小,窗口內(nèi)建立圖結(jié)構(gòu)迭代計(jì)算直至收斂后得到詞的得分。TextRank公式如下:
(2)
Textrank強(qiáng)調(diào)兩個(gè)詞之間的聯(lián)系,而且傳統(tǒng)TextRank算法人為設(shè)定詞之間都賦予相同的初始權(quán)重,并僅利用了文本本身的信息。經(jīng)過(guò)以上考慮,本文提出了一種新的TF-IDF對(duì)TextRank加權(quán)的方法,該方法將詞的推薦能力和文本集合的信息加入到TextRank算法中。例如,圖2由{A,B,C,D,E}五個(gè)詞組成的候選關(guān)鍵詞圖,圓圈上部分為詞,下部分為詞的TF-IDF值。
圖2 候選關(guān)鍵詞圖示例
在圖2中,傳統(tǒng)TextRank算法會(huì)賦給與相連的詞之間相同的權(quán)重,默認(rèn)為1。而本文方法則考慮到詞的推薦能力不同,如A、B之間,計(jì)算詞A的得分時(shí)和計(jì)算詞B的得分時(shí)它們之間的權(quán)重是不同的。計(jì)算A指向B的權(quán)重時(shí),首先計(jì)算與A相連的詞(包含B)的TF-IDF值之和,然后計(jì)算B的TF-IDF值占與A相連詞的TF-IDF值之和的比例值,將該值作為A指向B的權(quán)重,同理可得B指向A的權(quán)重。權(quán)重計(jì)算公式如下:
(3)
式中:wij表示詞j指向詞i的權(quán)重,tfidfi表示詞i的TF-IDF值,Inj表示與詞j相連的詞集合。
1.2 二三元短語(yǔ)抽取
抽取出候選關(guān)鍵詞后,在全文找出相連的候選關(guān)鍵詞組成候選短語(yǔ)。但是此時(shí)的候選短語(yǔ)存在許多問(wèn)題,比如緊密程度不夠、重要性低等,需要相應(yīng)的方法對(duì)此時(shí)的候選短語(yǔ)篩選。本文使用短語(yǔ)頻率、互信息和邊界多樣性判定短語(yǔ)。公式分別如下:
tfp≥times
(4)
式中:其中tfp是短語(yǔ)p出現(xiàn)的次數(shù),times是人工設(shè)定的短語(yǔ)出現(xiàn)最低次數(shù)。
(5)
式中:MIxy為短語(yǔ)xy的互信息,p(xy)為短語(yǔ)xy出現(xiàn)的概率,p(x)、p(y)分別為詞x、y出現(xiàn)的概率。
(6)
為了使選出的關(guān)鍵短語(yǔ)更能體現(xiàn)文本的內(nèi)容,需要對(duì)短語(yǔ)頻率、互信息、邊界多樣性設(shè)定相應(yīng)的閾值,去掉頻率低和緊密程度不高的短語(yǔ),判斷條件如下:
MIxy≥MI
(7)
式中:MI為短語(yǔ)的互信息閾值。
Ap≥A
(8)
式中:A為短語(yǔ)的邊界多樣性閾值。
1.3 候選關(guān)鍵短語(yǔ)排序
生物醫(yī)學(xué)文獻(xiàn)中的關(guān)鍵詞主要是短語(yǔ)和單個(gè)詞,本文的目標(biāo)是抽取出包含一元短語(yǔ)的文本關(guān)鍵短語(yǔ)。對(duì)候選關(guān)鍵詞排序是非常重要的部分,因?yàn)檫x擇出來(lái)的候選關(guān)鍵詞往往數(shù)量比較多,而我們必須從其中選擇10~15個(gè)[11]作為文本的關(guān)鍵詞。而使用Abdelghani Bellaachia提出的排序方法不能滿足本文的要求。生物醫(yī)學(xué)文獻(xiàn)中關(guān)鍵短語(yǔ)的長(zhǎng)度一般小于四個(gè)詞(四元以上的短語(yǔ)一般會(huì)以簡(jiǎn)寫(xiě)表示),因此本文只統(tǒng)計(jì)三元之內(nèi)(包含三元)的短語(yǔ)。TF-IDF算法中,IDF的思想是若一個(gè)詞在一篇文本中出現(xiàn)的次數(shù)多但在文本集合中其他文本中出現(xiàn)的次數(shù)少則證明此詞對(duì)該文本越重要,同理本文將該思想用于短語(yǔ)排序。但是由于短語(yǔ)越長(zhǎng)頻率越低,本文對(duì)短語(yǔ)頻率取對(duì)數(shù)降低頻率的影響力,然后對(duì)不同長(zhǎng)度的短語(yǔ)賦予不同的權(quán)重的方法對(duì)短語(yǔ)排序。公式如下:
scorep=α×logtfp×idfp
(9)
式中:scorep為短語(yǔ)p的得分,tfp為短語(yǔ)p的頻率,idfp為短語(yǔ)的逆向文檔頻率,α∈(0,1)為短語(yǔ)權(quán)重,α參數(shù)經(jīng)過(guò)實(shí)驗(yàn)得來(lái)。
2.1 實(shí)驗(yàn)數(shù)據(jù)和相關(guān)工具
本文所用的數(shù)據(jù)為英文生物醫(yī)學(xué)文獻(xiàn),從PubMed數(shù)據(jù)庫(kù)中隨機(jī)下載574篇文獻(xiàn)。開(kāi)發(fā)語(yǔ)言Java,分詞工具Lucene 5.5.0,句法分析工具Opennlp。
2.2 評(píng)價(jià)標(biāo)準(zhǔn)
本文使用常用的準(zhǔn)確率(P)、召回率(R)、F-measure作為判定標(biāo)準(zhǔn)。公式分別如下:
(10)
(11)
(12)
2.3 實(shí)驗(yàn)結(jié)果及分析
本文通過(guò)研究100篇生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)在參數(shù)α取不同的值時(shí)P、R、F-measure的變化,得出不同長(zhǎng)度的短語(yǔ)的參數(shù)取值,如表1所示。
表1 短語(yǔ)參數(shù)取值
本文將傳統(tǒng)TextRank算法和TF-IDF加權(quán)的TextRank算法對(duì)比分析,同樣適用P、R、F-measure作為判定標(biāo)準(zhǔn)。對(duì)兩種方法選擇同樣的參數(shù),分別如下:一元短語(yǔ)數(shù)量N1=60,短語(yǔ)頻率times=3,互信息閾值MI=7,邊界多樣性閾值A(chǔ)=0。對(duì)比兩種方法取不同數(shù)量的關(guān)鍵短語(yǔ)時(shí)的P、R、F-measure圖像,如圖3-圖5所示。
圖3 準(zhǔn)確率對(duì)比
圖4 召回率對(duì)比
圖5 F-measure對(duì)比
通過(guò)觀察圖3-圖5可以發(fā)現(xiàn),在取相同數(shù)量的關(guān)鍵詞時(shí),本文方法相比于傳統(tǒng)的Textrank算法在準(zhǔn)確率、召回率、F-measure上均有提高。而且可以發(fā)現(xiàn)當(dāng)候選關(guān)鍵短語(yǔ)數(shù)量N2=14時(shí),P、R、F-measure值最大,因此本文選擇候選關(guān)鍵短語(yǔ)數(shù)量為N2=14。候選關(guān)鍵短語(yǔ)數(shù)量確定后,兩種方法在P、R、F-measure的結(jié)果如表2所示。
表2 傳統(tǒng)模型和本文模型的結(jié)果對(duì)比
從表2可以看出,本文優(yōu)化的Textrank方法在準(zhǔn)確率上提高了2%,召回率提高了4.5%,F(xiàn)-measure提高了3.4%
本文針對(duì)生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)的特點(diǎn),提出了使用TextRank算法抽取生物醫(yī)學(xué)文獻(xiàn)關(guān)鍵詞的方法。并針對(duì)TextRank算法只依靠文檔自身信息和詞之間的推薦能力沒(méi)有差異性的特點(diǎn),提出了使用TF-IDF對(duì)TextRank優(yōu)化的方法。并結(jié)合統(tǒng)計(jì)學(xué)方法達(dá)到抽取生物醫(yī)學(xué)文獻(xiàn)關(guān)鍵詞目的。但是本文對(duì)短語(yǔ)權(quán)重的賦值還存在缺點(diǎn)。下一步的主要工作修正短語(yǔ)權(quán)重和進(jìn)一步對(duì)文本聚類(lèi)研究。
[1] Blei D M,Ng A Y,Jordan M.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.
[2] Gerard Salton.Developments in automatic text tretrieval[J].Science,1991,253:974-980.
[3] Mihalcea R,Tarau P.TextRank:Bringing Order into Texts[C]//Conference on Empirical Methods in Natural Language Processing,EMNLP 2004,A Meeting of Sigdat,A Special Interest Group of the Acl,Held in Conjunction with ACL 2004,25-26 July 2004,Barcelona,Spain.DBLP,2004:404-411.
[4] 田長(zhǎng)波,林民,斯日古楞.融合PAM和主題偏好TextRank 的歷史沿革信息抽取[J].計(jì)算機(jī)應(yīng)用研究,2017(1):129-133.
[5] Bellaachia A,Aldhelaan M.NE-Rank:A Novel Graph-Based Keyphrase Extraction in Twitter[C]//IEEE/WIC/ACM International Joint Conferences on Web Intelligence.ACM,2012:372-379.
[6] Zhu Z,Li M,Chen L,et al.Combination of Unsupervised Keyphrase Extraction Algorithms[C]//International Conference on Asian Language Processing,2013:33-36.
[7] 趙佳鵬,林民.基于維基百科的領(lǐng)域歷史沿革信息抽取[J].計(jì)算機(jī)應(yīng)用,2015,35(4):1021-1025.
[8] 劉海峰,姚澤清,蘇展.基于詞頻的優(yōu)化互信息文本特征選擇方法[J].計(jì)算機(jī)工程,2014,40(7):179-182.
[9] Magerman D M,Marcus M P.Parsing a natural language using mutual information statistics[C]//Eighth National Conference on Artificial Intelligence.AAAI Press,1990:984-989.
[10] 劉榮,王奕凱.利用統(tǒng)計(jì)量和語(yǔ)言學(xué)規(guī)則抽取多字詞表達(dá)[J].太原理工大學(xué)學(xué)報(bào),2011,42(2):133-137.
[11] Popova S,Danilova V.Keyphrase Extraction Abstracts Instead of Full Papers[C]//International Workshop on Database and Expert Systems Applications.IEEE,2014:241-245.
FUSION OF STATISTICS AND TEXTRANK FOR KEYPHRASE EXTRACTION IN BIOMEDICAL LITERATURE
Wei Yun Sun Xianpeng
(SchoolofOptical-electricalandComputerEngineering,UniversityofShanghaiforScienceandTechnology,Shanghai200093,China)
Keyphrase extraction plays a significant role in text clustering, classification, retrieval and so on. This paper uses the classic TF-IDF algorithm to improve the quality of text keyphrase extraction. By studying the TF-IDF algorithm, it is found that the TF-IDF can extract the text keywords by using the single text information and the text collection information. On this basis, this paper proposes a keyphrase extraction method by combining TF-IDF, TextRank, statistical knowledge and inverse document frequency sorting by candidate keyphrase. Based on the TextRank, this method calculates the weight of the words by TF-IDF to get the word score. And then use the statistical knowledge from the previous step to select the phrases of the phrase selected candidate keyphrases. Finally, the candidate keyphrases are sorted by the idea of inverse document frequency. Experiments show that the accuracy of this model is 2% higher than that of classical TextRank model, and the recall rate increased by 4.5% and F-measure increased by 3.4%.
TextRank Keyphrase extraction TF-IDF Inverse document frequency
2016-06-30。國(guó)家自然科學(xué)基金項(xiàng)目(61170277);上海市教委科研創(chuàng)新基金項(xiàng)目(12YZ094)。魏赟,副教授,主研領(lǐng)域:智能交通,對(duì)等網(wǎng)絡(luò),分布式系統(tǒng)。孫先朋,碩士生。
TP311
A
10.3969/j.issn.1000-386x.2017.06.006