曾曦,陽紅,常明芳,馮驍騁,趙妍妍,秦兵
(中國電子科技集團(tuán)公司第三十研究所,四川 成都 610000)
關(guān)鍵詞抽取一直以來都是信息抽取領(lǐng)域內(nèi)一個(gè)重要的研究方向,如同摘要在長文本中所起的重要作用一樣,關(guān)鍵詞能準(zhǔn)確地反映出短文本所要表達(dá)的內(nèi)容,是人們快速了解文檔內(nèi)容、把握主題的重要方式。并且關(guān)鍵詞對自然語言處理領(lǐng)域的文本分類和文本聚類任務(wù)有積極作用;同樣關(guān)鍵詞在信息檢索領(lǐng)域也有重要的應(yīng)用價(jià)值。然而在海量的互聯(lián)網(wǎng)文檔中又僅有少部分帶有關(guān)鍵詞標(biāo)注,如何給短文本打上一個(gè)表意準(zhǔn)確的關(guān)鍵詞標(biāo)簽成為信息抽取領(lǐng)域的重要問題。
本文提出一種基于文檔主題特征的關(guān)鍵詞抽取及關(guān)鍵詞擴(kuò)展方法,系統(tǒng)框架如圖1所示。首先對短文本進(jìn)行分詞及詞性標(biāo)注等預(yù)處理,然后采用TF-IDF算法計(jì)算出詞的初始權(quán)重,并且訓(xùn)練短文本的主題模型,得到短文本的分類信息和類別特征詞,再采用單語詞對齊技術(shù)抽取出短文本中的詞搭配,之后根據(jù)上述信息對關(guān)鍵詞權(quán)重進(jìn)行調(diào)整,通過閾值篩選出關(guān)鍵詞,最后構(gòu)建詞的表示向量,通過計(jì)算詞與短文本之間的相似度找到與內(nèi)容信息最貼合的類別特征詞作為擴(kuò)展關(guān)鍵詞,建立短文本的關(guān)鍵詞集合。
Fig.1 Architecture of the system圖1 系統(tǒng)框架圖
在關(guān)鍵詞抽取研究初期,最常用的方法是通過詞的出現(xiàn)頻次來獲得關(guān)鍵詞,然而這種方法所取得的效果并不理想。之后人們采用有監(jiān)督的機(jī)器學(xué)習(xí)方法來抽取關(guān)鍵詞,1999年Turney將關(guān)鍵詞抽取問題看成是一個(gè)分類問題[1],通過關(guān)鍵詞的出現(xiàn)位置和長度等特征來訓(xùn)練學(xué)習(xí),所抽取到的結(jié)果要明顯優(yōu)于統(tǒng)計(jì)方法得到的結(jié)果。Frank等人將樸素貝葉斯的方法應(yīng)用在關(guān)鍵詞抽取任務(wù)中[2],使得結(jié)果有了進(jìn)一步提升。Hulth加入了更多的語言學(xué)知識(shí)[3-4],如句法特征,在實(shí)驗(yàn)結(jié)果上獲得了一定的成功;但是隨著網(wǎng)絡(luò)數(shù)據(jù)規(guī)模的增加,人工標(biāo)注數(shù)據(jù)的工作量變得異常巨大,目前人們主要采用基于圖的方法來抽取關(guān)鍵詞。2004年Mihalcea和Tarau將PageRank算法思想帶入到了關(guān)鍵詞抽取領(lǐng)域[5],提出了一種基于圖的排序算法TextRank。Litvak和Last將同樣用于網(wǎng)頁排序的HITS算法用于候選關(guān)鍵詞排序[6],在F值上取得了一定的提升。Wan等人通過聚類的方法將相似文檔中的知識(shí)應(yīng)用在圖模型中[7-8]。Liu提出基于文檔內(nèi)部信息構(gòu)建主題的關(guān)鍵詞方法[11],通過計(jì)算語義相似度來對候選詞進(jìn)行聚類,再通過聚類中心詞找到合適的關(guān)鍵詞,之后Grineva將多主題文檔的方法應(yīng)用在構(gòu)建語義圖模型上[9]。Elbeltagy和Rafea創(chuàng)建的KP-Miner系統(tǒng)在關(guān)鍵詞抽取結(jié)果上有著不錯(cuò)的效果[10]。該系統(tǒng)對關(guān)鍵詞詞頻和反文檔頻率統(tǒng)計(jì)提出了更高的要求,并對關(guān)鍵詞出現(xiàn)在文章中的位置與其重要性關(guān)系進(jìn)行了分析。2013年You對現(xiàn)有關(guān)鍵詞抽取系統(tǒng)進(jìn)行了總結(jié)[12],并針對前人缺點(diǎn)進(jìn)行了改進(jìn),對候選詞的預(yù)處理提出了更高的要求。對于圖模型的方法而言,訓(xùn)練時(shí)間相對較長,無法在短時(shí)間內(nèi)構(gòu)建索引滿足用戶需求。
關(guān)鍵詞擴(kuò)展任務(wù)可以借鑒查詢擴(kuò)展任務(wù),查詢擴(kuò)展主要為了改善資訊檢索召回率,將原來查詢語句增加新的關(guān)鍵字來提高查全率和查準(zhǔn)率。查詢擴(kuò)展任務(wù)分為全局分析[13-14]、局部分析[15-19]、基于用戶查詢?nèi)罩綶20]和語義相似度計(jì)算[21]等幾個(gè)方面;關(guān)鍵詞擴(kuò)展并不是針對單一的查詢語句,而是對大量文本補(bǔ)充關(guān)鍵詞,豐富其含義,在構(gòu)建索引的時(shí)候就擴(kuò)展了數(shù)據(jù)的內(nèi)容,而不是在檢索的時(shí)候擴(kuò)展查詢語句的含義。關(guān)鍵詞擴(kuò)展的方法類似于查詢擴(kuò)展中的全局方法,并采用局部分析中的一些優(yōu)化策略,使用全部文檔蘊(yùn)涵的相關(guān)信息擴(kuò)展關(guān)鍵詞[22-25];2009年Wang將關(guān)鍵詞抽取和擴(kuò)展應(yīng)用在聚類任務(wù)中[26],實(shí)驗(yàn)結(jié)果有一定提升。2014年Abilhoa[27]提出一種推文集合的關(guān)鍵字提取方法,它將文本表示為圖并應(yīng)用中心度量來查找相關(guān)頂點(diǎn)作為關(guān)鍵詞。2017年Zhao[28]將神經(jīng)網(wǎng)絡(luò)的詞向量特征應(yīng)用于短文本關(guān)鍵詞抽取系統(tǒng),在Textrank的基礎(chǔ)上其實(shí)驗(yàn)結(jié)果獲得一定的提高。與長文本相比短文本的統(tǒng)計(jì)特性相對較弱,在抽取關(guān)鍵詞任務(wù)中所遇到的困難更多。本文所提出的基于主題模型的關(guān)鍵詞抽取及擴(kuò)展方法上與前人有著本質(zhì)的不同,考慮到了主題分類信息和詞搭配信息,關(guān)鍵詞抽取效果也更加精確。 并且通過構(gòu)建詞的表示向量來計(jì)算詞和文本的相似度,從而擴(kuò)展出關(guān)鍵詞,豐富短文本含義。
本文所采用的基于主題模型的關(guān)鍵詞抽取方法主要分為5個(gè)步驟:(1)預(yù)處理,獲取初步的候選關(guān)鍵詞;(2)關(guān)鍵詞賦權(quán),基于改進(jìn)的TF-IDF方法給關(guān)鍵詞一個(gè)初始權(quán)重;(3)LDA主題模型,根據(jù)類別特征詞對關(guān)鍵詞權(quán)重進(jìn)行調(diào)整;(4)詞搭配抽取,根據(jù)詞搭配信息對權(quán)重進(jìn)行調(diào)整;(5)根據(jù)閾值抽取關(guān)鍵詞。圖2為關(guān)鍵詞抽取的一個(gè)實(shí)例圖。
Fig.2 Process of the proposed keyword extraction圖2 關(guān)鍵詞的抽取過程
本文首先通過文本分詞,詞性標(biāo)注和停用詞等方法獲得候選關(guān)鍵詞,如圖2中步驟1,去掉“一直”“屬于”等詞。
2.2.1 基于TF-IDF的關(guān)鍵詞賦權(quán)
TF-IDF是一種統(tǒng)計(jì)方法,用以評估字詞對于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。本文基于漢語中詞語長度與詞語重要程度存在一定關(guān)系,對原有TF-IDF算法做出了改進(jìn),通過公式(1)對候選關(guān)鍵詞打分,獲得候選關(guān)鍵詞的基本權(quán)重值。
Scoreti=tfi,j×idfi×len(ti)
(1)
上式中Scoreti為ti的最終權(quán)重值,tfi,j表示詞頻,指的是某一個(gè)給定的詞語在該文件中出現(xiàn)的頻率。idfi表示逆向文檔頻率,表示是一個(gè)詞語普遍重要性的度量,len(ti)為詞語ti的字節(jié)長度。ni,j是詞ti在文件dj中出現(xiàn)的次數(shù),而分母則是文件dj中出現(xiàn)所有字詞的出現(xiàn)次數(shù)之和;|D|是語料庫中文件總和,|{j:ti∈dj}|表示包含詞語ti的文件總數(shù),計(jì)算結(jié)果如圖2中步驟2所示。
2.2.2 基于規(guī)則的關(guān)鍵詞賦權(quán)
通過觀察數(shù)據(jù)發(fā)現(xiàn),在每一條短文本中有一些特殊的字詞可以直接作為關(guān)鍵詞,這些字詞往往可以直接表達(dá)該文本的某些特定信息,因此本文在TF-IDF的基礎(chǔ)上采用下列規(guī)則抽取一些字詞作為候選關(guān)鍵詞,并直接打上一定分?jǐn)?shù),用以表達(dá)這類關(guān)鍵詞的特殊性,規(guī)則如下:
(1)根據(jù)書名號(hào)或括號(hào)抽取書名、歌曲名等作為候選關(guān)鍵詞,如“趙薇主演過《還珠格格》《情深深雨蒙蒙》”,其中“還珠格格”“情深深雨蒙蒙”的權(quán)重值如公式(2)所示:
Scoreti=2.0 .
(2)
(2)根據(jù)此類文本的特殊性,抽取一些短標(biāo)題直接作為候選關(guān)鍵詞,如圖2中的“楊坤”,其權(quán)重值如公式(3)所示:
Scoreti=2.0 .
(3)
(3)根據(jù)共現(xiàn)信息將一些詞合并成常見短語,常見短語就是人們在日常生活中經(jīng)常能夠看到或者使用到的短語,如圖2中的“內(nèi)地歌手”,其權(quán)值如公式(4)所示:
Scoreti=1.0 .
(4)
LDA(Latent Dirichlet Allocation,隱含狄利克雷分配[29])主題模型是近年來在中文信息處理領(lǐng)域發(fā)展起來的一種生成主題概率模型,它基于一定的常識(shí)性假設(shè):文檔集中所有文檔均按照一定比例共享隱含主題集合,而隱含主題集則是由一系列相關(guān)特征詞組成。LDA模型定義每篇文檔均為隱含主題集的隨機(jī)混合,從而可以將整個(gè)文檔集特征化成隱含主題的集合。
本文將大規(guī)模短文本用LDA主題模型進(jìn)行聚類,通過類別信息來進(jìn)行關(guān)鍵詞表示,為關(guān)鍵詞擴(kuò)展中的相似度計(jì)算提供數(shù)據(jù);并通過主題模型得到每個(gè)類別下的主題特征詞,將這些特征詞作為關(guān)鍵詞抽取中的一個(gè)權(quán)重打分標(biāo)準(zhǔn),其具體公式如下:
Score1ti=2τ1(ti)×Scoreti
S=
(5)
其中Score1ti為詞語ti當(dāng)前權(quán)重,Scoret為上一節(jié)中給詞語ti所賦的權(quán)重,S為類別特征詞集合。如果候選關(guān)鍵詞ti是類別特征詞,則權(quán)重加倍。權(quán)重修改結(jié)果如圖2中步驟3所示。因?yàn)椤耙魳贰焙汀案枋帧倍汲霈F(xiàn)在特征詞列表中,所以其權(quán)重加倍。
搭配(Collocation)一般被定義為詞和詞在一起的概率要遠(yuǎn)大于一般隨機(jī)出現(xiàn)的概率,在漢語中常用的搭配“影視明星”“室內(nèi)裝修”等等。本文認(rèn)為搭配對中的兩個(gè)詞往往具有一定的語義聯(lián)系,例如“影視”和“明星”間是存在一定的潛在聯(lián)系,這些詞可以互相表達(dá)、相互支持,希望通過這些搭配來形成一種新的關(guān)鍵詞抽取方法。
本文采用的搭配抽取模型為單語詞對齊模型(MWA,monolingual word alignment),單語詞對齊是仿照雙語詞對齊的一類計(jì)算任務(wù),通過統(tǒng)計(jì)計(jì)算出同一語言中關(guān)系相近的不同搭配。Liu[30]分別修改了IBM model 1,model 2以及model 3,使得相同的詞之間不能互譯,最終抽取出的搭配,來自于三種翻譯模型詞互譯結(jié)果的融合。
本文將通過詞搭配對關(guān)鍵詞權(quán)重再次進(jìn)行調(diào)整,因?yàn)樵~搭配中蘊(yùn)含著一定的語義關(guān)系,若一條文本中如果兩個(gè)候選關(guān)鍵詞構(gòu)成詞搭配關(guān)系,并且該詞搭配的頻次超過一定閾值,則認(rèn)為該詞搭配中的候選關(guān)鍵詞相比于其他詞語更加重要,因?yàn)樵~搭配中的詞是存在先后關(guān)系的。當(dāng)一條文本中出現(xiàn)兩個(gè)候選關(guān)鍵詞組成詞搭配時(shí),則只對第二個(gè)候選關(guān)鍵詞的權(quán)重進(jìn)行加倍,通過找到文本中的不同詞搭配,使得部分候選關(guān)鍵詞權(quán)重發(fā)生變化,經(jīng)過再次排序可以將排名靠前的候選關(guān)鍵詞作為關(guān)鍵詞輸出。其權(quán)重變化如公式6所示。
Score2tj=2η×Score1tj
T=
(6)
其中ti和tj是文本中的候選詞,τ1(ti,tj)為一個(gè)二值函數(shù),如果ti和tj構(gòu)成以tj為第二個(gè)詞的詞搭配,則tj的權(quán)重就增加一倍,如果不構(gòu)成詞搭配,則權(quán)重?zé)o變化。T為與tj構(gòu)成搭配對關(guān)系的候選關(guān)鍵詞集合。
權(quán)重修改結(jié)果如圖2中步驟4所示,文本中“歌手”和“音樂”組成詞搭配,因?yàn)樵~搭配具有先后關(guān)系,本文只對詞搭配中的第二個(gè)關(guān)鍵詞進(jìn)行權(quán)重調(diào)整,所以“音樂”的權(quán)重加倍一次,并且“楊坤”和“音樂”也組成了詞搭配關(guān)系,所以“音樂”的權(quán)重再次翻倍,通過不斷疊加,“音樂”的權(quán)重變?yōu)樽畛醯?倍。
最后重新排序,根據(jù)閾值將排序結(jié)果靠前的詞作為關(guān)鍵詞輸出。
詞向量表示一直是機(jī)器學(xué)習(xí)問題在自然語言處理領(lǐng)域中的一個(gè)重要研究方向,最常用的詞表示方法是Bag-Of-Words,該方法把詞表示成一維向量。這個(gè)向量的維度是詞表大小,其中絕大多數(shù)元素為 0,只有一個(gè)維度的值為 1,這個(gè)維度就代表了當(dāng)前的詞,該表示方法相對簡單,但是該方法存在著兩個(gè)主要問題,一是所需存儲(chǔ)的向量維度相對較大;二是存在很嚴(yán)重的數(shù)據(jù)稀疏問題。使用該方法計(jì)算相似度時(shí)還需要統(tǒng)計(jì)共現(xiàn)信息,較為煩瑣。本文給出一種不同于上述方法的詞向量表示機(jī)制,并且包含一定的語義信息。
本文所提出的詞向量表示方法主要是根據(jù)文本類別信息得到的,對文本使用2.3節(jié)的LDA主題模型進(jìn)行分類,之后將每個(gè)Topic下的類別特征詞用一維特征向量進(jìn)行表示,該一維向量的維度即文本的分類個(gè)數(shù),其元素的含義表示該詞是否為該文本類別下的特征詞,對于賦值而言,若該類別不含該特征詞,則向量中的該元素為0,若類別特征詞中含有該詞,則對應(yīng)的向量維度為該類別下的特征詞的概率,基于上述表示機(jī)制可以得到所有特征詞的向量表示:
(7)
其中i是指LDA模型的類別體系,w為主題分類下每個(gè)類別中的特征詞,pi(w)表示詞w出現(xiàn)在LDA模型類別i中的概率。
如果只對類別特征詞進(jìn)行詞向量表示,所能夠被表示的詞數(shù)量太少,因此本文提出一種詞向量傳遞機(jī)制,通過詞搭配將類別特征詞的向量傳遞到候選關(guān)鍵詞上,使更多的詞可以被表示,即
l(w,v)=<(w,v0),(w,v1),…,(w,vn)> ,
(8)
通過2.3節(jié)訓(xùn)練的LDA模型,可以知道每一條文本所屬的具體類別,并且每一個(gè)類別含有一些特征詞。本文所提出的關(guān)鍵詞擴(kuò)展策略是計(jì)算文本關(guān)鍵詞與類別特征詞之間的相似度,再根據(jù)排序結(jié)果和一些統(tǒng)計(jì)規(guī)律將相似度排名靠前的類別特征詞作為該文本的擴(kuò)展關(guān)鍵詞輸出,具體方法如下:
wi∈Ti,Ti=
(9)
本文使用100萬微信公用賬號(hào)簡介作為短文本數(shù)據(jù),該數(shù)據(jù)包含微信公用賬號(hào)名稱及相關(guān)簡介。
對于從內(nèi)容中抽取關(guān)鍵詞的實(shí)驗(yàn)結(jié)果,本文采用人工構(gòu)建測試集方法進(jìn)行評價(jià),依然按照準(zhǔn)確率、召回率和F值進(jìn)行評測。這里將傳統(tǒng)的TF-IDF算法作為Baseline,將實(shí)驗(yàn)結(jié)果與Wang[26]和TextRank[5]進(jìn)行對比,隨機(jī)抽取500條短文本作為測試數(shù)據(jù),并人工標(biāo)注了4 135個(gè)關(guān)鍵詞作為關(guān)鍵詞抽取的測試集,其實(shí)驗(yàn)結(jié)果如表1所示。
表1 關(guān)鍵詞抽取對比實(shí)驗(yàn)
通過上表可以看到,在準(zhǔn)確率、召回率和F值三個(gè)測試指標(biāo)中,本文方法均取得了最優(yōu)的實(shí)驗(yàn)效果,其中Average是指一條短文本平均能抽取幾個(gè)關(guān)鍵詞;從表1可以看到,本文方法所取得準(zhǔn)確率和F值基本上都比第二名高出10%左右,并且召回率也有小幅提高;從上述實(shí)驗(yàn)結(jié)果可以看出,本文所提出的基于詞搭配信息的關(guān)鍵詞抽取方法是真實(shí)有效的,在運(yùn)用統(tǒng)計(jì)知識(shí)的基礎(chǔ)上考慮到了具有語義聯(lián)系的詞搭配信息,因此取得了相對好的實(shí)驗(yàn)結(jié)果。最終在1 009 713條實(shí)驗(yàn)數(shù)據(jù)中,共對978 716條文本抽取到關(guān)鍵詞,對于沒有獲得關(guān)鍵詞的文本主要是因?yàn)槠涿枋霾捎糜⑽幕蛘叻斌w字。
本文方法KEK(KEYWORD-EXPEND-KEYWORD)擴(kuò)展出來的關(guān)鍵詞,依然采用準(zhǔn)確率、召回率和F值進(jìn)行評測,但是有所不同的是并不構(gòu)建測試集,因?yàn)橐黄谋救藗兺ㄟ^想象擴(kuò)展出來的關(guān)鍵詞會(huì)存在很大的差異性,所以采用人工的方法來看文本擴(kuò)展出的關(guān)鍵詞是否正確;由于不存在測試集,在召回率上則更加偏重對擴(kuò)展能力的評價(jià),在召回率上隨機(jī)抽取一定量的文本數(shù)據(jù),通過統(tǒng)計(jì)這些短文本中有多少擴(kuò)展出新的關(guān)鍵詞來計(jì)算召回率,公式如下:
(10)
expend(id)為擴(kuò)展出關(guān)鍵詞的短文本數(shù)量,all(id)為參與實(shí)驗(yàn)的短文本數(shù)量,Recall(id)本節(jié)召回率計(jì)算結(jié)果。在本文實(shí)驗(yàn)中將all(id)設(shè)為500。針對不同規(guī)模的短文本進(jìn)行對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。
通過表2可以看到,在隨機(jī)抽取的500篇文檔中給275篇短文擴(kuò)展出了關(guān)鍵詞,并且共擴(kuò)展出795個(gè)關(guān)鍵詞,正確的652個(gè),通過人工測評的方法計(jì)算了準(zhǔn)確率??梢钥闯?準(zhǔn)確率曲線和召回率曲線均呈上升趨勢,因?yàn)橛?xùn)練數(shù)據(jù)越多,主題模型訓(xùn)練的越充分,分類更加準(zhǔn)確,所以關(guān)鍵詞擴(kuò)展的效果越好。
本文還與Wang的方法進(jìn)行了對比,他的方法主要是文本中找到同義詞進(jìn)行替換,在英文領(lǐng)域采用的是Word-Net上的同義詞替換資源,將同樣的方法移植到中文上,由于Word-Net上沒有中文資源,這里采用哈爾濱工業(yè)大學(xué)構(gòu)建的《同義詞詞林》進(jìn)行替換;為了說明關(guān)鍵詞抽取的重要性,將本文的關(guān)鍵詞擴(kuò)展策略進(jìn)行修改,提出了一種基于全文本的關(guān)鍵詞擴(kuò)展方法AWEK(ALL-WORD-EXPEND-KEYWORD),該方法與前述的擴(kuò)展方法略有不同,不再只與文本中的關(guān)鍵詞計(jì)算相似度,而是將所有候選詞作為擴(kuò)展依據(jù)計(jì)算相似度,將本文方法與上述兩種方法相對比,將100萬條短文本作為訓(xùn)練語料進(jìn)行對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。
表3 關(guān)鍵詞擴(kuò)展對比實(shí)驗(yàn)
上表可以看出,在三組實(shí)驗(yàn)中,本文方法取得了最優(yōu)的準(zhǔn)確率,并且F值也要高出其他方法5個(gè)百分點(diǎn),通過該實(shí)驗(yàn)說明短文本中如果只采用簡單的同義詞來擴(kuò)展關(guān)鍵詞,雖然會(huì)對很多短文本都打上擴(kuò)展標(biāo)簽,但是由于同義詞擴(kuò)展出的關(guān)鍵詞并一定能具有文本所要表達(dá)的含義,所以準(zhǔn)確率并不高;而第二種基于全文本的相似度計(jì)算擴(kuò)展方法,由于文本存在著大量噪聲詞,這些詞在做關(guān)鍵詞擴(kuò)展任務(wù)中具有很強(qiáng)的干擾作用,使得擴(kuò)展結(jié)果與原文語義發(fā)生很大偏差,所以所取得擴(kuò)展結(jié)果也并不理想;而本文方法之所以取得了相對較好的結(jié)果,是因?yàn)橹换谖谋娟P(guān)鍵詞計(jì)算相似度,文本中的關(guān)鍵詞基本上都與文本語義保持一致,所以擴(kuò)展出來的關(guān)鍵詞不會(huì)有太大偏差,效果相對理想。表4給出了本文方法的相關(guān)實(shí)例。
表4 關(guān)鍵詞抽取與擴(kuò)展實(shí)例
本文介紹了短文本關(guān)鍵詞抽取和擴(kuò)展的具體方法。在關(guān)鍵詞抽取任務(wù)中,采用主題分類和詞搭配信息抽取關(guān)鍵詞,取得了較好的實(shí)驗(yàn)結(jié)果;在關(guān)鍵詞擴(kuò)展任務(wù)中,定義了一種基于LDA主題分類結(jié)果的詞向量表示機(jī)制,這種表示機(jī)制具有一定的語義信息,并且更加節(jié)約空間開銷,最終的關(guān)鍵詞擴(kuò)展結(jié)果也非常理想;而且本文對搜索引擎系統(tǒng)提出了一條新的改善思路,不同于傳統(tǒng)的查詢擴(kuò)展工作,不再只對文本內(nèi)容構(gòu)建索引,而是通過關(guān)鍵詞標(biāo)簽對其內(nèi)容進(jìn)行語義上的豐富,擴(kuò)大索引集合,以提升搜索引擎系統(tǒng)的查全率和查準(zhǔn)率。