曾 聰,張東站
(廈門大學(xué)信息科學(xué)與技術(shù)學(xué)院,福建廈門361005)
基于同義詞詞林和《知網(wǎng)》的短語主題提取
曾 聰,張東站*
(廈門大學(xué)信息科學(xué)與技術(shù)學(xué)院,福建廈門361005)
提出了利用主題詞存在與否的基于主題詞的短語抽取算法,并在其基礎(chǔ)上利用社會知識詞簇集合作為分類信息,詞的相似度作為距離權(quán)重,利用改進K最近鄰分類算法(KNN)的分類思想,提出基于《知網(wǎng)》詞相似度的短語主題抽取算法.并在其基礎(chǔ)上提出一種根據(jù)中文表達習(xí)慣的基于加權(quán)主題詞的短語主題抽取算法.實驗結(jié)果表明,后兩種算法對短語主題抽取效果良好,平均查全率分別達到78.88%和83.39%,平均查準率達99.06%和99.70%.
短語主題;主題抽取;同義詞詞林;知網(wǎng)
主題抽取是文本自動處理的基礎(chǔ)工作之一,主題抽取通常針對的對象是一篇完整的文章,文章中包含著詞、句、段等對文本主題有著不同貢獻的信息.而主題抽取則是利用這些信息,對中文文章進行主題抽取.抽取步驟通常應(yīng)用各種加權(quán)算法,有的基于詞的絕對頻率[1]、相對頻率[2]、文中出現(xiàn)的位置[3]進行加權(quán)計算,還有的根據(jù)文章與文章之間的引用關(guān)系[4]進行計算,近年來,國內(nèi)的學(xué)者也對文本主題抽取進行研究[5-8].
短語是搜索引擎的主要輸入信息,研究短語的主題可以更好的對用戶的搜索意圖進行判斷,將短語抽象出主題可以將用戶輸入的查詢表層字符信息上升到主題層面,采取不同的主題形式來形式化地表示查詢背后的搜索意圖,從多個角度理解查詢意圖,并基于查詢意圖提供新穎的搜索服務(wù)與搜索模式[9].現(xiàn)在的主題抽取算法大都是基于統(tǒng)計和經(jīng)驗的加權(quán)體系.由于短語包含的信息與一篇完整的文章相比有著巨大的不同,所以基于統(tǒng)計和經(jīng)驗的加權(quán)體系無法直接應(yīng)用于短語的主題抽取.
短語的主題往往包括在短語的詞匯中,它或者是一個主題詞或者是某一個主題詞的同義詞.利用同義詞構(gòu)造分類信息,短語的主題抽取可以轉(zhuǎn)換成短語主題分類.
基于以上思想,本文提出了利用主題詞存在與否的基于主題詞的短語抽取算法,并在其基礎(chǔ)上利用社會知識詞簇集合作為分類信息,詞的相似度作為距離權(quán)重,利用改進K最近鄰分類算法(KNN)的分類思想提出基于《知網(wǎng)》詞相似度的短語主題抽取算法.并在其基礎(chǔ)上提出一種根據(jù)中文表達習(xí)慣的基于加權(quán)主題詞的短語主題抽取算法.實驗結(jié)果表明,后兩種算法對短語主題抽取效果良好.
短語由詞匯構(gòu)成,一個短語可以解釋為詞匯集合.短語的主題包含于詞匯集合中,詞語表達形式的多樣化導(dǎo)致相同主題的短語所表現(xiàn)的主題詞不一樣.因此,構(gòu)造候選主題詞集就成為了短語主題抽取的第一部分.
1.1 候選主題詞集確定
定義1 定義W表示詞的集合,w表示一個詞,即w∈W.
定義2 短語P.短語可以看成是詞語的集合,短語為詞的集合的子集,即短語P?W.
定義3 詞的主題wt.它表示人們對某個詞的一種直觀認識.這種認識也是一個詞,即:wt∈W.一個詞w可能有多個主題.
定義4 詞的主題集T.詞的主題集T是詞w的主題wt集合,是屬于詞w的一個屬性,寫作T(w).例如對于w=足球,其主題集屬性T(w)={體育}.
定義5 詞簇C.詞簇C是W的一個子集.在C的元素w含有相同主題.
定義6 詞簇的主題詞ct.ct∈W,對于一個詞簇C,對于所有的w∈C,它們的共同主題定義為詞簇的主題詞.
?wi∈C:∩T(wi)={ct}≠?,|∩T(wi)|=1.
定義7 詞的關(guān)注度wa.詞的關(guān)注度wa是詞的一種屬性,它代表了詞語對一篇文章、一個句子或者一個短語的主題影響.例如w=“的”的關(guān)注度為零,而w=“原子彈”的關(guān)注度則較高.
定義8 詞簇的關(guān)注度ca,其等同于其主題詞ct的關(guān)注度wa.
同義詞詞林[10]本身為一個類義詞典,其中含有大量的分類信息.其同一行的詞語要么詞義相同(有的詞義十分接近),要么詞義有很強的相關(guān)性.對于同一行的詞語其含有共同的主題,所以對同一行的詞可以把它們聚成一個詞簇.特別的對于一些同段(包括多行)的詞語,其各詞仍然含有相同的主題,故可以將該段聚成一個詞簇.
對所有的詞簇,選取其中最有代表性的詞作為詞簇的主題詞.通過詞林和人工判別,形成了一個基于詞林的社會知識詞簇集合Cs,以下簡稱詞簇集合.
在詞簇集合Cs中,有些關(guān)注度較低的詞簇則會被刪除.刪除后剩余的詞簇集合即為候選詞簇集合cCs,而cCs的主題詞的集合稱之為候選主題詞集c Ts.
1.2 算 法
對于短語P,如果含有候選主題詞集c Ts中的元素,即?w|w∈P∩w∈c Ts,則認為w為短語P所要表達的主題.對于某些短語其含有候選主題詞集的元素可能不止一個,此時認為短語包含了多個主題.綜上,對應(yīng)短語P的主題應(yīng)該是一個主題詞集合.
定義9 短語的主題詞集合Pt,對于詞w,如果w是短語的主題,則w∈Pt.
基于上述思想,可以得到KWPSE.
這種算法效率高,時間復(fù)雜度低.但如上文所述,詞語的多樣化表示導(dǎo)致相同主題的短語表現(xiàn)形式不一致,P中主題表現(xiàn)形式w?c Ts.對于此類的短語P利用KWPSE無法獲取其主題信息.
舉例說明如下:
給定分詞后的短語P如下:(福建警官學(xué)院),
P={“福建”,“警官”,“學(xué)院”}.
在c Ts中不存在這3個詞匯.利用KWPSE無法找到該短語的分類.
而事實上,學(xué)院的同義詞“學(xué)?!薄蔯 Ts,且“福建警官學(xué)院”的主題應(yīng)為“學(xué)?!?
2.1 抽取原理
KWPSE簡單地使用了c Ts,而未考慮候選詞簇集合cCs所具有的類義結(jié)構(gòu)含有的分類信息.將所有的候選詞簇集合cCs作為訓(xùn)練樣本集,將短語的主題抽取歸約成短語主題分類.本文利用改進的KNN算法進行短語主題分類.
對于某個詞簇Ci,w(w∈Ci)和其主題詞cti存在著較大的相似度.
定義10 P的可能主題.記w(w∈P)對應(yīng)的主題詞cti為P的可能主題.
定義11 備選主題詞集.短語P中所有可能的主題集合為短語備選主題詞集,記為AT(Pi)={at1, at2,…}.
本文采用對于一個短語P,將備選詞集AT(P)看成是候選主題詞集中距離短語主題最近的K個樣本.
定義12 詞的相似度.Sim(wi,wj)表示兩個詞wiwj之間的相似度.
對于一個詞w,設(shè)它所在的詞簇集合為C(w),對于C(w)有
則詞w對應(yīng)的主題詞集合為CT(w)={ct|?ct:ct}是C的主題詞∩C∈C(w)}.
Sim(w,cti)(cti∈CT(w))的值越高,則w∈P和cti∈P的關(guān)聯(lián)度越高,所以我們可以把Sim(w,cti)當做P與cti的距離權(quán)重,即如果Sim(w,cti)越高則說明P與cti的距離越近.
定義13 主題的影響度.定義一個主題ct對應(yīng)短語P的影響度為I(ct,P).
綜上所述,基于改進的KNN算法可以得到計算I(ct,P)的方法.
對于所有的wi∈P,計算所有的ctj∈CT(wi)與wi的相似度Sim(wi,ctj).
對于ati∈AT(P),其影響度計算方式為
則P的最大影響度主題為
ct=ct:max{I(ct,P)(ct|ct∈AT(P))},而對于某些短語P,其可能存在多個主題,在得到P的最大影響度主題ct后,將其他的候選主題cti與ct相比較,如果滿足下列公式則認為cti也可能是P的主題.
其中α為可接受參數(shù),表示在允許的范圍內(nèi)接受cti作為P的主題,反應(yīng)了多主題短語占所有短語的比例.本文取值為0.03.
將符合條件的cti和ct合并后得到短語的主題詞集合Pt.
2.2 算法實現(xiàn)
基于《知網(wǎng)》詞相似度的短語主題抽取算法(word similarity based on hownet phrase subject extraction algorithm,WSPSE)的具體實現(xiàn)流程如下
圖1 短語主題抽取算法Fig.1 Phrase subject extraction algorithm
本文采用中國科學(xué)院研發(fā)的NLPIR分詞系統(tǒng),該系統(tǒng)分詞速度快,準確率高[11].
“我愛北京天安門”分詞結(jié)果如例子所示,去掉分詞性標注后的結(jié)果在下一行給出.
例:我/r 愛/v 北京/ns 天安門/ns./w
我愛北京天安門.
目前中文詞的相似度計算有基于同義詞詞林和基于《知網(wǎng)》的詞語相似度計算.考慮到《知網(wǎng)》的詞語信息比同義詞詞林的含義更加完備,故在計算詞的相似度時本文采用的是劉群和李素建的方法計算詞的相似度[12-13].
對于兩個漢語詞語W1和W2,如果W1有n個義項(概念):S11,S12,…,S1n,W2有m個義項(概念): S21,S22,…,S2m,我們規(guī)定,W1和W2的相似度為W1和W2對應(yīng)的各個概念的相似度之最大值,也就是說:
兩個義原在這個層次體系中的路徑距離為d,可以得到這兩個義原之間的語義距離:
其p1和p2表示兩個義原,d是p1、p2在義原層次體系結(jié)構(gòu)中的路徑長度,α是可調(diào)節(jié)參數(shù).α的含義是當相似度為0.5時的詞語距離值.
對于實詞概念的語義表達式,將其分成4個部分:
第一獨立義原描述式:將兩個概念的這一部分的相似度記為Sim1(S1,S2);
其他獨立義原描述式:語義表達式中除第一獨立義原以外的所有其他獨立義原(或具體詞),將兩個概念的這一部分的相似度記為Sim2(S1,S2);
關(guān)系義原描述式:語義表達式中所有的用關(guān)系義原描述式,將兩個概念的這一部分的相似度記為Sim3(S1,S2);
符號義原描述式:語義表達式中所有的用符號義原描述式,將兩個概念的這一部分的相似度記為Sim4(S1,S2).
于是,兩個概念語義表達式的整體相似度記為:
其中,βi(1≤i≤4)是可調(diào)節(jié)的參數(shù),且有:β1+β2+β3 +β4=1,β1≥β2≥β3≥β4.
根據(jù)文獻[14],取β1=0.5,β2=0.2,β3=0.17,β4 =0.13.
計算詞的相似的算法如下:
基于上述,算法WSPSE如下:
舉例說明如下:
給定分詞后的短語P如下:(福建警官學(xué)院),
P={“福建”,“警官”,“學(xué)院”}.
根據(jù)詞簇集合可以求出P的候選主題詞集
AT(P)={“行政區(qū)劃”,“軍官”,“警察”,“學(xué)?!眪,
其中w1=“福建”,CT(w1)={“行政區(qū)劃”},Sim(w1,“行政區(qū)別”)=0.3.
w2=“警官”,CT(w2)={“軍官”,“警察”},Sim (w2,“軍官”)=0.952,Sim(w2,“警察”)=0.933.
w3=“學(xué)院”,其CT(w3)={“學(xué)?!眪,Sim(w3,“學(xué)校”)=1.
得到影響度I(ct,P)(ct|ct∈AT(P))的集合為{“0.3”,“0.952”,“0.933”,“1”}.
所以P的最大影響度主題ct=“學(xué)?!?而其他主題詞與其的比值不滿足公式(1),故認為其的主題為{“學(xué)?!眪.
3.1 算法思想
短語中還有詞性信息和位置信息也是短語主題抽取所參考的信息,而WSPSE算法沒有考慮這部分的信息.
定義14 詞的權(quán)重.對于所有的w∈P,定義Weight(w)為對應(yīng)詞w的權(quán)重.
根據(jù)不同的研究方向,對于不同的詞性信息和位置信息給予不同的權(quán)重.
3.2 動名詞類主題權(quán)值算法
本文研究短語主題的目的是用于搜索意圖判斷,故針對的短語為百度的搜索熱詞集合.通過對這些短語的研究,發(fā)現(xiàn)這些短語大部分具有與偏正短語(如, XX學(xué)校,XX國家等)、動賓短語(如,學(xué)習(xí)C語言等)、主謂短語(如XX是、XX怎么樣)相同的結(jié)構(gòu).
本文抽取的短語主題主要針對動名詞類主題,故認為關(guān)注度較高的詞簇往往都是名詞或者動詞.形成候選詞簇集合cCs的詞簇都為名詞或者動詞.
基于上述考慮,名詞和動詞是需要重點考慮的詞簇,故給予一定的權(quán)重值.而形容詞和副詞則給予一個較低的權(quán)重,然后每個名詞和動詞的權(quán)重再加上用來修飾它的形容詞或者副詞的權(quán)重,這樣所有的需要考慮的名詞和動詞都有了一定的權(quán)重.
根據(jù)語言書寫習(xí)慣,較長的定語后置,而較短的定語前置.本文研究的短語集合一般較短,我們認為名詞或動詞之前出現(xiàn)的定語都是用于修飾該動詞或名詞.例如,“最美的大學(xué)”短語,“最”和“美”都是用于修飾后面的大學(xué).
基于上述分析,本文針對動名詞類的加權(quán)算法如下:
3.3 算法實現(xiàn)
基于上述想法,對WSPSE進行加權(quán)改進后形成了WKWPSE.
舉例說明如下:
給定分詞后的短語P如下:(廈門制服),
P={“廈門”,“制服”}.
根據(jù)詞簇集合可以求出P的候選主題詞集.
兩個詞都為名詞,故其權(quán)重都為1.而“廈門”也作為“制服”的定語,故“制服”的權(quán)重再加0.5.由此得出兩個詞的權(quán)重W(“廈門”)=1,W(“制服”)=1.5.
AT(P)={“城市”,“衣服”},
其中w1=“廈門”,其CT(w1)={“城市”},Sim(w1,“城市”)=0.57.
w2=“制服”,其CT(w2)={“衣服”},Sim(w2,“衣服”)=0.44.
得到影響度I(ct,P)(ct|ct∈AT(P))的集合為{“0.57”,“0.44”}.
乘以相應(yīng)的權(quán)重后,P的最大影響度主題ct=“衣服”.
而其他主題詞與其的比值不滿足公式(1),故認為其的主題為{“衣服”}.
4.1 實驗數(shù)據(jù)
本次實驗采用的數(shù)據(jù)是從百度搜索引擎上截取的關(guān)于“學(xué)校”、“疾病”、“衣服”、“工廠”、“商店”、“戲劇”、“樂器”、“書籍”、“嬰兒”這9個主題的用戶熱門搜索短語1 198個.利用人工對這1 198個短語進行主題提取,其中學(xué)校相關(guān)402個,商店相關(guān)146個,疾病相關(guān)134個,衣服相關(guān)105個,工廠相關(guān)69個,戲劇相關(guān)50個,樂器相關(guān)37個,書籍相關(guān)117個,嬰兒相關(guān)138個.
將文獻[2]中的算法用于短語主題抽取,且將提取出的關(guān)鍵詞在詞簇中尋找主題用于表示主題,記為詞頻算法.
利用上述3種算法和詞頻算法分別對這1 198個短語進行主題提取.分類效果評估指標使用常用的查準率、查全率以及F1測試值.
查準率=主題抽取的正確短語數(shù)/主題抽取屬于
該主題的短語數(shù),
查全率=主題抽取的正確短語數(shù)/屬于該主題的
短語數(shù),
4.2 實驗結(jié)果分析和比較
從結(jié)果(表1)可以看出,詞頻算法直接應(yīng)用于短語主題抽取,雖然其查準率較高,但查全率較低,基本與隨機從短語選擇主題的概率一致,故詞頻算法無法直接應(yīng)用于短語主題抽取.而利用WSPSE和WKWPSE質(zhì)量較好,且對于大多數(shù)主題的結(jié)果來說,WKWPSE對WSPSE有所改進.對于樂器主題的短語,由于專有名詞較多,分詞詞庫中收錄的名詞并非十分全面,故其分詞效果不佳,導(dǎo)致結(jié)果較差.而對于戲劇主題短語,其戲劇名實時更新,無法完全收錄詞庫,不僅在分詞時效果不佳,在基于同義詞詞林基礎(chǔ)上形成的詞簇集合也無法識別戲劇名,只能將戲劇名拆分識別導(dǎo)致效果較差.
表1 4種算法實驗結(jié)果對比表Tab.1 The contrast table of the result of four algorithms
4.3 多類短語實驗結(jié)果和分析
從百度搜索引擎上截取部分具有多主題信息的短語,利用WSPSE和WKWPSE進行主題抽取,其實驗結(jié)果如表2.
表2 多主題短語實驗結(jié)果Tab.2 The result of multi-subject phrases
從表2的結(jié)果可以看出多主題短語實驗結(jié)果基本符合人們主觀的分主題結(jié)果,而多主題的主題抽取很大程度上依賴于社會知識詞簇集合.如果社會知識詞簇集合不包含該主題信息,如上述短語中,如果“魯迅”無法被社會知識詞簇集合識別,則無法得到上述結(jié)果,只能得到“書籍”這一結(jié)果.
對搜索引擎的主要輸入源短語進行主題提取可以更好地對用戶的搜索意圖進行判斷,將短語抽象出主題可以將用戶輸入的查詢表層字符信息上升到主題層面,采取不同的主題形式來形式化地表示查詢背后的搜索意圖,從多個角度理解查詢意圖,并基于查詢意圖提供新穎的搜索服務(wù)與搜索模式.
本文提出了對短語主題提取的算法,其中WSPSE和WKWPSE實際上是基于語義的主題提取算法.本文實驗使用的1 198個短語是當前熱度比較高的,且具有很強的代表性,這表明本文提出的算法對短語主題提取具有積極的推進作用.
[1] Luhn H P.A statistical approach to mechanized encoding and searching of literary information[J].IBM Journal of Research and Development,1957,1(4):309-317.
[2] Luhn H P.The automatic creation of literature abstract [J].IBM Journal of Research and Development,1958,2 (2):159-165.
[3] Edmundson H P,Oswald V A,Wyllys R E.Automatic indexing and abstracting of contents of documents[R].Los Angeles:Planning Research Corp,1959.
[4] Stevens M E.Automatic indexing:a state-of-the-art report[EB/OL].[2014-10-29].http:∥digital.library.unt. edu/ark:/67531/metadc171070/.
[5] 馬穎華,王永成,蘇貴洋,等.一種基于字同現(xiàn)頻率的漢語文本主題抽取方法[J].計算機研究與發(fā)展,2003,6: 874-878.
[6] 楊潔,季鐸,蔡東風(fēng),等.基于聯(lián)合權(quán)重的多文檔關(guān)鍵詞抽取技術(shù)[J].中文信息學(xué)報,2008,22(6):75-79.
[7] 李素建,王厚峰,俞士汶,等.關(guān)鍵詞自動標引的最大熵模型應(yīng)用研究[J].計算機學(xué)報,2004,27(9):1192-1197.
[8] 李鵬,王斌,石志偉,等.Tag-Text Rank:一種基于Tag的網(wǎng)頁關(guān)鍵詞抽取方法[J].計算機研究與發(fā)展,2012,11: 2344-2351.
[9] 宋巍.基于主題的查詢意圖識別研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2013.
[10] Che W X,Li Z H,Liu T.LTP:a Chinese language technology platform[C]∥Proceedings of the Coling 2010: Demonstrations.Beijing,China:[s.n.],2010:13-16.
[11] 中國科學(xué)院.ICTCLAS漢語分詞系統(tǒng)[EB/OL].[2010-12-21].http:∥www.ictclas.org.
[12] 董振東,董強.知網(wǎng)(How Net)[EB/OL].[1999-06-01]. http:∥www.keenage.com.
[13] 劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[J].中文計算語言學(xué),2002,7(2):59-76.
Phrase Subject Extraction Based on Synonyms and HowNet
ZENG Cong,ZHANG Dong-zhan*
(School of Information Science and Engineering,Xiamen University,Xiamen 361005,China)
Key word phrase subject extraction algorithm(KWPSE),which is based on the judgment whether phrases include the topic words is constructed.On the basis of KWPSE,by using a WordsSet of social knowledge as classified information,the word similarity as distance weight,and the improved KNN method the word similarity based on How Net phrase subject extraction algorithm (WSPSE)is presented.Finally,on this basis of WSPSE and with the addition of the weight to the words′position that is based on Chinese custom,the WKWPSE algorithm is proposed.The average recall rates reach 78.88%and 83.39%,and average precision rates increase to 99.06%and 99.70%.
phrase subject;subject extraction;synonyms;How Net
10.6043/j.issn.0438-0479.2015.02.019
TP 391
A
0438-0479(2015)02-0263-07
2014-04-29 錄用日期:2014-08-25
國家自然科學(xué)基金(61303004);福建省自然科學(xué)基金(2013J05099)
*通信作者:zdz@xmu.edu.cn
曾聰,張東站.基于同義詞詞林和《知網(wǎng)》的短語主題提取[J].廈門大學(xué)學(xué)報:自然科學(xué)版,2015,54(2):263-269.
:Zeng Cong,Zhang Dongzhan.Phrase subject extraction based on synonyms and How Net[J].Journal of Xiamen University:Natural Science,2015,54(2):263-269.(in Chinese)