蘇 超,張宇翔
(中國(guó)民航大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300)
自動(dòng)關(guān)鍵詞提取技術(shù)可以快速地抽取目標(biāo)文檔的主題并給出文檔的核心主旨,其成果廣泛用于文檔檢索[1]、文本分類[2]、文本主題挖掘[3]等具體領(lǐng)域。如以Wang等提出的WordAttractionRank算法[4-6]為代表將詞圖邊的相關(guān)信息融合到PageRank框架[7]的轉(zhuǎn)移概率中;以Sterckx等提出的Single-TPR算法[8-10]為代表利用詞節(jié)點(diǎn)信息修改重啟概率;以Zhang等提出的MIKE方法[11]為代表同時(shí)將詞圖邊的信息和詞節(jié)點(diǎn)的信息融合到轉(zhuǎn)移概率和重啟概率中。
事實(shí)上,完成單詞的評(píng)分后,據(jù)此對(duì)多元候選關(guān)鍵詞組的評(píng)分同樣會(huì)影響最終的提取性能?,F(xiàn)有的多元詞組評(píng)分方法根據(jù)組成候選短語的單詞計(jì)算它的整體得分。Zhang等[12]提出在計(jì)算候選短語內(nèi)含單詞之和的同時(shí)為多元詞組按其長(zhǎng)度分配權(quán)重。這類評(píng)分算法的缺陷是對(duì)長(zhǎng)度越長(zhǎng)的詞組評(píng)分越高,對(duì)通常長(zhǎng)度較短的關(guān)鍵詞組評(píng)分越低。為此,F(xiàn)lorescu C等[13]對(duì)詞組分配詞組長(zhǎng)度的倒數(shù)作為權(quán)重來彌補(bǔ)之前的缺陷,而且增加了詞組在文檔中的頻率以增強(qiáng)多元詞組的最終得分,但該方法對(duì)統(tǒng)計(jì)特征的使用單一。
本文在Florescu C等的基礎(chǔ)上,結(jié)合候選短語的統(tǒng)計(jì)特征,創(chuàng)新性地提出一種單文檔關(guān)鍵短語評(píng)分方法。該方法分為3步:①根據(jù)單詞在文檔中的相鄰關(guān)系選出指定長(zhǎng)度的候選短語;②使用TD-IDF和4種隨機(jī)游走技術(shù)對(duì)文檔內(nèi)的單詞評(píng)分;③利用候選短語的詞頻特征與位置特征計(jì)算候選短語的最終評(píng)分,選出排名靠前的k個(gè)候選短語作為文檔的關(guān)鍵短語。提出方法不僅消除了短語長(zhǎng)度的影響,而且充分利用了候選短語在單文檔內(nèi)的詞頻信息和位置信息,能夠幫助提升最后的提取性能。
為了識(shí)別多元短語的重要性,從數(shù)據(jù)集中統(tǒng)計(jì)多元短語的含詞分布情況,見表1。由表1可知,關(guān)鍵短語主要集中在一元、二元、三元上,3種數(shù)據(jù)集高達(dá)95%,幾乎概括了全部關(guān)鍵短語,因此生成候選關(guān)鍵短語時(shí)只抽取一至三元的短語。
表1 關(guān)鍵短語含詞分布概率/%
1.1.1 一元候選短語
對(duì)文檔數(shù)據(jù)進(jìn)行詞性過濾和去無用詞,只留下形容詞和名詞作為一元候選關(guān)鍵詞集。
1.1.2 二元候選短語
定義d={w1,w2,…,wn},d是1.1.1節(jié)中的候選關(guān)鍵詞集合,wi是每個(gè)候選單詞。根據(jù)單詞在window=2的滑動(dòng)窗口中的共現(xiàn)關(guān)系構(gòu)建邊,如w1-w2,…,wn-1-wn。每一條邊代表一組二元候選短語,加入二元候選短語集合中。
1.1.3 三元候選短語
對(duì)二元候選短語中的詞組兩兩拼接,若第一個(gè)短語的最后一個(gè)詞和第二個(gè)詞組的第一個(gè)詞相同,則組成三元短語。如果三元短語在原文中出現(xiàn),則加入到三元候選短語集合中。
傳統(tǒng)的短語評(píng)分方法有兩種:一種是對(duì)組成候選短語的單詞評(píng)分加和;另一種方法在評(píng)分加和的基礎(chǔ)上按短語長(zhǎng)度分配權(quán)重,具體計(jì)算方式如下
s(p)=∑wj∈ps(wj)
(1)
s(p)=φ∑wj∈ps(wj)
(2)
前一種方法對(duì)于長(zhǎng)度越大的短語得分越高,不利于提取重要的一元、二元、三元短語;后一種方法雖然提高了二元、三元短語的權(quán)重,但其中φ只是經(jīng)驗(yàn)值,在不同的數(shù)據(jù)集中,實(shí)驗(yàn)結(jié)果最優(yōu)的φ取值不同。
在完成單詞的評(píng)分和候選短語的生成后,首先通過組成候選短語的單詞評(píng)分得出候選短語的初級(jí)評(píng)分;再根據(jù)特征定義方法找出關(guān)鍵短語常有的特征,利用這些特征得到相應(yīng)的特征權(quán)重并完成對(duì)候選短語的最終評(píng)分。
候選短語的初級(jí)評(píng)分方法計(jì)算如下
(3)
其中,s(p) 是詞組的評(píng)分;s(wj) 是單詞wj的評(píng)分;|p| 是詞組的長(zhǎng)度。式(3)是當(dāng)式(2)φ取1/|p| 的特殊情況。在傳統(tǒng)的詞組評(píng)分方式中,針對(duì)不同的數(shù)據(jù)集,實(shí)驗(yàn)性能最優(yōu)時(shí)φ的取值具有經(jīng)驗(yàn)性,且對(duì)于新的數(shù)據(jù)集沒有經(jīng)驗(yàn)可循。因此,在本文的方法中取φ=1/|p| 使之具有普適性。
特征定義是定義一些盡可能較好區(qū)分關(guān)鍵詞和非關(guān)鍵詞的特征?;谟斜O(jiān)督關(guān)鍵詞提取方法的特點(diǎn),本文對(duì)候選短語選取總結(jié)以下特征:
(1)頻率特征是候選短語在文檔中出現(xiàn)頻率相關(guān)的特征,常用的特征有詞頻tf,該特征指短語在給定文檔中出現(xiàn)的次數(shù),通常認(rèn)為詞頻越高,其在文檔中的重要程度越高,成為關(guān)鍵短語的可能性越大。
(2)位置特征則常用候選短語在目標(biāo)文檔中出現(xiàn)位置的分布、跨度等指標(biāo)來衡量。出現(xiàn)在文檔中特定位置的短語,如文檔的開頭、段落的開頭等,相對(duì)于出現(xiàn)在其它位置的短語,更有可能成為關(guān)鍵短語。位置特征具有高效性,被廣泛使用。
(3)長(zhǎng)度特征指候選關(guān)鍵短語本身及其所在句子的長(zhǎng)度。關(guān)鍵短語的長(zhǎng)度通常小于等于3。
(4)候選關(guān)鍵短語的構(gòu)成(如詞性等)和候選關(guān)鍵短語所在句子的句法需滿足特定的語言特征,如專有名詞或特殊格式等。
本文在數(shù)據(jù)預(yù)處理階段,根據(jù)語言特征和長(zhǎng)度特征,已完成對(duì)數(shù)據(jù)的詞性過濾,且在生成候選短語時(shí)抽取了一至三元的短語。因此,完成單詞評(píng)分后,針對(duì)候選短語的詞頻特征和位置特征選取一些常用度量指標(biāo)可以增加候選短語成為關(guān)鍵短語的可能性。由于本文的設(shè)計(jì)場(chǎng)景是單文本關(guān)鍵詞提取,盡量不依賴于其它文本數(shù)據(jù),所以本文只取詞在單文本中出現(xiàn)的頻率
Wtf(p)=tf(p)
(4)
其中,Wtf(p) 指詞組p的詞頻權(quán)重;tf(p) 是詞組p在文檔中出現(xiàn)的次數(shù)。
位置特征有多個(gè)衡量指標(biāo),本文嘗試選取候選短語出現(xiàn)位置的分布指標(biāo),有以下考量:數(shù)據(jù)是由標(biāo)題和摘要整合在一起,位置特征不具備是否出現(xiàn)在段落開頭、是否出現(xiàn)在標(biāo)題中等條件,故用候選短語每次出現(xiàn)的位置作為權(quán)重,計(jì)算方法如下
(5)
其中,Wpos(p)指詞組p的位置權(quán)重;posi(p)是詞組第i次出現(xiàn)的位置,即詞組p前面的單詞個(gè)數(shù);|d| 是文本長(zhǎng)度。
最后,整合詞組p的內(nèi)含單詞的評(píng)分、詞頻權(quán)重、位置權(quán)重計(jì)算詞組p最終得分,方法如下
sfinal(p)=s(p)*Wtf(p)*Wpos(p)
(6)
傳統(tǒng)的詞組評(píng)分方式對(duì)單詞的評(píng)分具有很強(qiáng)的依賴性,不同的單詞評(píng)分方法最終得出的關(guān)鍵短語有差異。文中用關(guān)鍵短語在有監(jiān)督方法中常有的特征,對(duì)候選短語進(jìn)行權(quán)重計(jì)算,能減少候選短語對(duì)于單詞評(píng)分結(jié)果的依賴,同時(shí)區(qū)分關(guān)鍵短語和非關(guān)鍵短語。
實(shí)驗(yàn)中使用3個(gè)科學(xué)出版物數(shù)據(jù)集KDD、WWW、SIGIR 全面評(píng)估本文的模型。KDD和WWW由(Gollapalli and Caragea 2014)提供,分別包含832、1347篇文章;SIGIR 由ACM信息檢索研究與發(fā)展會(huì)議的866篇文章組成。每篇文章包括題目,摘要和作者手工標(biāo)注的關(guān)鍵詞,見表2。
表2 實(shí)驗(yàn)中使用的數(shù)據(jù)集
由表2可知,3個(gè)數(shù)據(jù)集有以下特征:①每篇論文平均有4個(gè)關(guān)鍵詞;②所有論文中二元關(guān)鍵短語占多數(shù),三元和三元以上的關(guān)鍵短語較少。
單詞的評(píng)分是計(jì)算多元詞組評(píng)分的前提。為了說明模型的有效性,本文選取了5種著名的無監(jiān)督單詞評(píng)分方法,具體介紹如下:
TF-IDF:最樸素的無監(jiān)督方法,盡管方法簡(jiǎn)單,但提取效果好,是直接根據(jù)候選關(guān)鍵詞的TF-IDF值對(duì)其進(jìn)行打分排序。
TextRank:該方法首先用PageRank算法對(duì)詞圖中的候選關(guān)鍵詞進(jìn)行打分,其中邊權(quán)重是共現(xiàn)次數(shù),重啟概率設(shè)為1,即r(w)=1。
SingleTPR:該方法在PageRank算法的基礎(chǔ)上,首次使用LDA模型計(jì)算文檔的主題分布并將候選關(guān)鍵詞的主題信息融合到PageRank框架的重啟概率中。
WordAttractionRank:首次引入詞向量來增強(qiáng)單詞之間的語義關(guān)聯(lián),與TextRank相比,同樣修改的是PageRank框架的轉(zhuǎn)移概率。
PositionRank:將候選單詞在文檔中每次出現(xiàn)的位置加入至PageRank模型中,對(duì)重啟概率進(jìn)行了修改。
在關(guān)鍵詞提取的性能評(píng)估指標(biāo)中,廣泛采取以下4種指標(biāo):準(zhǔn)確率P、召回率R、F值、MRR對(duì)提取結(jié)果進(jìn)行測(cè)評(píng),其定義如下
(7)
其中,C代表正確提取出關(guān)鍵詞的數(shù)目,E代表提取出的關(guān)鍵詞的數(shù)目,S是作者標(biāo)注的關(guān)鍵詞的個(gè)數(shù)。
MRR衡量每個(gè)文檔第一個(gè)被準(zhǔn)確提取的關(guān)鍵詞的排名情況,具體計(jì)算如下
(8)
|D|是目標(biāo)文檔集合,rd為文檔d第一個(gè)正確提取結(jié)果的排序。
為了驗(yàn)證文本方法的合理性,取傳統(tǒng)的詞組評(píng)分方式和Florescu C等的方法作為對(duì)比實(shí)驗(yàn),以便下文敘述。傳統(tǒng)詞組評(píng)分方式命為sum(式(1)),mean(式(2)),F(xiàn)lorescu C等的方法命名為mean*tf,本文方法命名為mean*tf*pos。在mean方法中,為了使方法具有對(duì)比性,取φ為1/|p|,實(shí)驗(yàn)結(jié)果見表3。
因文中所使用的3個(gè)數(shù)據(jù)集里每篇文章的平均關(guān)鍵詞個(gè)數(shù)為4(KDD的是4.08,WWW的是4.88,SIGIR的是3.81,見表2),故實(shí)驗(yàn)中取topk=4評(píng)估實(shí)驗(yàn)性能。
由表3可知,本文提出的mean*tf*pos方法明顯優(yōu)于其它3種詞組評(píng)分方式。例如,KDD數(shù)據(jù)集中,TF-IDF的mean*tf*pos方法的F值達(dá)到了0.173,mean方法的F值只有0.115;WWW數(shù)據(jù)集中,TextRank的mean*tf*pos 方法的F值相對(duì)于mean方法提升了5%;此外5種單詞評(píng)分方法的mean*tf*pos方法的F值在SIGIR數(shù)據(jù)集中相比較mean方法都大幅度提高,TextRank甚至高出了10個(gè)百分點(diǎn)。
表3 5種單詞評(píng)分方法提取關(guān)鍵短語方法對(duì)比/%(top k=4)
(1)實(shí)驗(yàn)中的評(píng)估標(biāo)準(zhǔn)較嚴(yán)格,提取出的關(guān)鍵詞與標(biāo)注中給出的關(guān)鍵詞完全匹配才算一個(gè)正例,而非取詞干后匹配即可,故提升難度較大。
(2)后兩種短語評(píng)分方式因短語詞頻因素的加入顯著提升了實(shí)驗(yàn)效果,可知利用詞頻有利于準(zhǔn)確提取關(guān)鍵短語;
(3)進(jìn)一步分析,當(dāng)數(shù)據(jù)較少,短語詞頻可能相同的情況時(shí)需要探討位置因素的作用。
統(tǒng)計(jì)3個(gè)數(shù)據(jù)集可知,短語詞頻集中于1次(54%)、2次(26%)、3次(15%),故后續(xù)實(shí)驗(yàn)選取上述3種頻率以便分析這種情況。短語對(duì)比方法用mean*tf和mean*tf*pos。為方便比較,實(shí)驗(yàn)中取F值評(píng)估實(shí)驗(yàn)性能,結(jié)果見表4。
表4 不同頻次下短語位置的影響(F值/%)
觀察表4可知,在頻次為2時(shí),5種單詞評(píng)分方法在加入位置因素后提取效果顯著提升;在頻次為1和3時(shí),位置因素的作用有利有弊。如KDD數(shù)據(jù)集中,SingleTPR和WAR在頻次為1的時(shí)候加入位置因素后效果沒有單詞頻顯著;SIGIR數(shù)據(jù)集中,WAR和PositionRank在頻次為3的時(shí)候因位置因素的加入提升了提取結(jié)果。結(jié)合表3可知,本文的方法適用于候選短語頻次不同的情況。
(4)分析單詞評(píng)分的提取結(jié)果對(duì)抽取候選短語的影響?;谏鲜鰪亩陶Z統(tǒng)計(jì)層次著手進(jìn)行的研究,現(xiàn)從單詞的評(píng)分結(jié)果入手,認(rèn)為對(duì)比短語的sum方法可以間接地評(píng)判單詞評(píng)分的影響。sum方式是直接將短語包含單詞的評(píng)分相加,不同的單詞評(píng)分方式得到的單詞評(píng)分截然有異。比較5種單詞評(píng)分方法提取候選短語結(jié)果的F值,得圖1。
圖1 5種單詞評(píng)分方法提取結(jié)果對(duì)比
觀察圖1可知,在3類數(shù)據(jù)集中,TF-IDF和PositionRank在sum方法及其它3種短語評(píng)分方法中F值均最高;在KDD和SIGIR數(shù)據(jù)集中,當(dāng)SingleTPR和WAR在sum方法上的F值高于TextRank時(shí),其在mean*tf,mean*tf*pos方法中F值略低于TextRank,但總體趨勢(shì)不變。
關(guān)鍵短語作為科技文獻(xiàn)的主題,相對(duì)于關(guān)鍵詞更能體現(xiàn)作者的主體思想。本文針對(duì)傳統(tǒng)關(guān)鍵短語提取方法受短語長(zhǎng)度影響的缺點(diǎn),提出了一種基于圖的關(guān)鍵短語評(píng)分方法,雖然增加了提取文本關(guān)鍵詞的復(fù)雜度,但獲得了較高的準(zhǔn)確率,有一定的應(yīng)用價(jià)值。
本文方法在數(shù)據(jù)預(yù)處理階段將標(biāo)題和摘要整合在一起并且嘗試在位置特征中選取候選短語每次出現(xiàn)的位置,但度量位置特征的指標(biāo)非常廣泛,未來可進(jìn)一步選用其它指標(biāo)檢驗(yàn)所提出算法的有效性。