一種結(jié)合關(guān)鍵詞與共現(xiàn)詞對(duì)的向量空間模型*

2014-09-14 02:37:11唐守忠齊建東

計(jì)算機(jī)工程與科學(xué) 2014年5期

關(guān)鍵詞：置信度語(yǔ)義閾值

唐守忠，齊建東

(北京林業(yè)大學(xué)信息學(xué)院，北京 100083)

一種結(jié)合關(guān)鍵詞與共現(xiàn)詞對(duì)的向量空間模型*

唐守忠，齊建東

(北京林業(yè)大學(xué)信息學(xué)院，北京 100083)

提出了一種結(jié)合關(guān)鍵詞特征和共現(xiàn)詞對(duì)特征的向量空間模型。首先，通過(guò)分詞和去除停用詞提取文本中的候選關(guān)鍵詞，利用文本頻率篩選關(guān)鍵詞特征。然后，基于獲得的關(guān)鍵詞特征兩兩構(gòu)造候選共現(xiàn)詞對(duì)，定義支持度和置信度篩選共現(xiàn)詞對(duì)特征。最后，結(jié)合關(guān)鍵詞特征和共現(xiàn)詞對(duì)特征構(gòu)建向量空間模型。文本分類實(shí)驗(yàn)結(jié)果表明，提出的模型具有更強(qiáng)的文本分類能力。

向量空間模型；共現(xiàn)詞對(duì)；語(yǔ)義相關(guān)性；文本分類

1 引言

向量空間模型VSM(Vector Space Model)是最為經(jīng)典的文本表示模型，被廣泛應(yīng)用于文本分類、聚類、信息檢索等領(lǐng)域。該模型由Salton G等人[1]于1975年提出，其基本思想是將文本表示為基于關(guān)鍵詞特征的向量，利用TF-IDF公式計(jì)算關(guān)鍵詞特征的權(quán)重。VSM簡(jiǎn)單高效，但不能表示文本的語(yǔ)義特征:一方面，由于基于關(guān)鍵詞之間的相互獨(dú)立性假設(shè)，VSM無(wú)法表示關(guān)鍵詞之間的語(yǔ)義相關(guān)性；另一方面，由于完全依賴關(guān)鍵詞的字符串匹配，VSM也無(wú)法處理文本中經(jīng)常出現(xiàn)的同義詞和多義詞現(xiàn)象。

針對(duì)上述問(wèn)題，本文首先在調(diào)研目前VSM改進(jìn)方向的基礎(chǔ)上，指出了利用統(tǒng)計(jì)語(yǔ)言模型改進(jìn)VSM的優(yōu)勢(shì)；然后介紹了統(tǒng)計(jì)語(yǔ)言模型中的詞共現(xiàn)理論，并總結(jié)當(dāng)前利用詞共現(xiàn)信息改進(jìn)VSM的研究工作及其不足；最后利用詞共現(xiàn)信息構(gòu)造“共現(xiàn)詞對(duì)”特征，定義精確的共現(xiàn)詞對(duì)特征支持度、置信度和權(quán)重計(jì)算方法，并將共現(xiàn)詞對(duì)特征與VSM原有的關(guān)鍵詞特征結(jié)合，提出了一種結(jié)合關(guān)鍵詞與共現(xiàn)詞對(duì)的向量空間模型KACVSM(Vector Space Model based on Keyword And Co-occurrence word)。文本分類實(shí)驗(yàn)對(duì)比結(jié)果表明了KACVSM的有效性。

2 相關(guān)工作

針對(duì)VSM缺乏文本語(yǔ)義表示的不足，有的研究人員提出利用關(guān)鍵短語(yǔ)代替關(guān)鍵詞作為VSM的表示特征。比如文獻(xiàn)[2, 3]利用統(tǒng)計(jì)語(yǔ)義平滑機(jī)制，提取文本中的關(guān)鍵短語(yǔ)表示文本。文獻(xiàn)[4]通過(guò)大規(guī)模的抽取門戶網(wǎng)站上專家手工標(biāo)引的“關(guān)鍵詞”作為關(guān)鍵短語(yǔ)表示文本。文獻(xiàn)[5～7]通過(guò)改進(jìn)后綴樹(shù)模型，提取文本中的關(guān)鍵短語(yǔ)表示網(wǎng)頁(yè)文本。利用關(guān)鍵短語(yǔ)改進(jìn)VSM的困難在于文本中關(guān)鍵短語(yǔ)難以界定[8]。

也有研究人員提出利用本體改進(jìn)VSM。比如文獻(xiàn)[9]首先利用互信息測(cè)度來(lái)計(jì)算關(guān)鍵詞之間的相關(guān)度，然后利用WordNet本體計(jì)算兩個(gè)關(guān)鍵詞之間的語(yǔ)義距離，最后結(jié)合兩者計(jì)算關(guān)鍵詞的語(yǔ)義權(quán)重。文獻(xiàn)[10]通過(guò)自行構(gòu)建的領(lǐng)域本體調(diào)整VSM中關(guān)鍵詞的TF-IDF權(quán)重。文獻(xiàn)[11]利用WordNet本體改進(jìn)VSM的聚類效果。利用本體改進(jìn)VSM的方法過(guò)于依賴諸如WordNet、領(lǐng)域主題詞表等外部語(yǔ)義資源。

統(tǒng)計(jì)語(yǔ)言模型[12]針對(duì)特定語(yǔ)料庫(kù)，通過(guò)前期大量的學(xué)習(xí)和統(tǒng)計(jì)，挖掘隱藏的真實(shí)信息來(lái)增強(qiáng)VSM的語(yǔ)義表示能力，是VSM語(yǔ)義改進(jìn)研究的重要方向。關(guān)鍵詞的詞共現(xiàn)信息是統(tǒng)計(jì)語(yǔ)言模型挖掘的重要信息之一，利用詞共現(xiàn)信息改進(jìn)VSM，比利用難以界定的短語(yǔ)更直觀可靠，也無(wú)需依賴諸如WordNet、領(lǐng)域主題詞表等外部語(yǔ)義資源。

3 詞共現(xiàn)

3.1 詞共現(xiàn)理論

自然語(yǔ)言文本中普遍存在詞共現(xiàn)現(xiàn)象，即某些關(guān)鍵詞經(jīng)常共同出現(xiàn)在一定的文本范圍(如句子、段落或篇章)內(nèi)，詞共現(xiàn)現(xiàn)象中隱含著關(guān)鍵詞之間的語(yǔ)義相關(guān)性信息。文本集合中任意兩個(gè)關(guān)鍵詞的組合都可被看作一組共現(xiàn)詞對(duì)，關(guān)鍵詞key1和key2構(gòu)成的共現(xiàn)詞對(duì)可表示為(key1,key2)。共現(xiàn)詞對(duì)(key1,key2)的共現(xiàn)頻率是指文本集合中同時(shí)包含關(guān)鍵詞key1和key2的文本數(shù)量，(key1,key2)的共現(xiàn)頻率越高，表明關(guān)鍵詞key1和key2的語(yǔ)義相關(guān)性越大。共現(xiàn)詞對(duì)描述了兩個(gè)關(guān)鍵詞之間的語(yǔ)義相關(guān)性，是描述文本語(yǔ)義的最小特征單元。理論上講，包含p個(gè)關(guān)鍵詞的文本集合中包含p(p-1)/2個(gè)共現(xiàn)詞對(duì)，當(dāng)文本集合中的關(guān)鍵詞數(shù)量成百或上千時(shí)，共現(xiàn)詞對(duì)的統(tǒng)計(jì)量巨大。因而利用共現(xiàn)詞對(duì)表示文本時(shí)，通常定義支持度和置信度兩個(gè)指標(biāo)來(lái)篩選文本語(yǔ)義表達(dá)能力強(qiáng)的共現(xiàn)詞對(duì)特征。

共現(xiàn)詞對(duì)(key1,key2)的支持度定義如下：

sup(key1,key2)=freq(key1,key2)/n

(1)

其中，n表示文本總數(shù)。freq(key1,key2)表示共現(xiàn)詞對(duì)(key1,key2)的共現(xiàn)頻率。

共現(xiàn)詞對(duì)(key1,key2)的置信度定義如下：

con(key1,key2)=α×con(key1|key1,key2)+

β×con(key2|key1,key2)

(2)

其中，con(key1|key1,key2)和con(key2|key1,key2)分別為關(guān)鍵詞key1和key2的條件置信度，分別對(duì)應(yīng)于在關(guān)鍵詞key1和key2出現(xiàn)的條件下，共現(xiàn)詞對(duì)(key1,key2)出現(xiàn)的概率。α和β分別為關(guān)鍵詞key1和key2的條件置信度的加權(quán)參數(shù)。關(guān)鍵詞key1和key2的條件置信度計(jì)算公式如下：

con(key1|key1,key2)=

freq(key1,key2)/freq(key1)

(3)

con(key2|key1,key2)=

freq(key1,key2)/freq(key2)

(4)

共現(xiàn)詞對(duì)(key1,key2)的支持度用于評(píng)價(jià)其對(duì)整個(gè)文本集合的區(qū)分能力，置信度用于評(píng)價(jià)關(guān)鍵詞key1和key2的語(yǔ)義相關(guān)性，置信度計(jì)算公式中加權(quán)參數(shù)α和β的設(shè)置十分關(guān)鍵。

3.2 詞共現(xiàn)改進(jìn)VSM相關(guān)工作

目前，已有一些利用詞共現(xiàn)信息改進(jìn)VSM的工作。例如文獻(xiàn)[13]提出了基于共現(xiàn)詞組合的VSM，利用共現(xiàn)詞對(duì)表示文本，利用布爾值計(jì)算二階共現(xiàn)詞的權(quán)重。文獻(xiàn)[14]統(tǒng)計(jì)當(dāng)前關(guān)鍵詞與其前后n個(gè)關(guān)鍵詞組成的長(zhǎng)度為2n+1的詞序列中的詞共現(xiàn)信息，生成當(dāng)前關(guān)鍵詞的相關(guān)詞序列，通過(guò)關(guān)鍵詞的相關(guān)詞序列共同包含的關(guān)鍵詞數(shù)量計(jì)算關(guān)鍵詞之間的語(yǔ)義相關(guān)性。文獻(xiàn)[15]通過(guò)定義關(guān)鍵詞之間的互信息篩選相關(guān)性高的共現(xiàn)詞，用于擴(kuò)展VSM。現(xiàn)有利用詞共現(xiàn)信息改進(jìn)VSM的研究，在詞共現(xiàn)特征的構(gòu)造、降維、權(quán)重計(jì)算方法以及與VSM原有關(guān)鍵詞特征的結(jié)合四個(gè)方面不夠全面。文獻(xiàn)[13]利用共現(xiàn)詞對(duì)特征表示文本，但沒(méi)給出有效的特征降維和特征權(quán)重計(jì)算方法。文獻(xiàn)[14,15]僅采用詞共現(xiàn)特征表示文本，舍棄了VSM原有的關(guān)鍵詞特征。本文提出的KACVSM利用共現(xiàn)詞對(duì)特征表示文本，給出了精確有效的特征降維和權(quán)重計(jì)算方法，將共現(xiàn)詞對(duì)特征與VSM原有的關(guān)鍵詞特征有效結(jié)合，綜合考慮了上述四個(gè)方面。

4 KACVSM

給定文本集合D，本文將KACVSM的構(gòu)造流程(圖1所示)分為文本預(yù)處理、關(guān)鍵詞特征統(tǒng)計(jì)、共現(xiàn)詞對(duì)特征統(tǒng)計(jì)和KACVSM向量表示四個(gè)步驟。

Figure 1 Process of constructing KACVSM
圖1 KACVSM構(gòu)造流程圖

4.1 文本預(yù)處理

針對(duì)文本集合D中的每個(gè)文本，利用Java編程語(yǔ)言，調(diào)用分詞工具進(jìn)行文本分詞，結(jié)合停用詞表過(guò)濾掉停用詞，獲得候選關(guān)鍵詞特征集合。

4.2 關(guān)鍵詞特征統(tǒng)計(jì)

針對(duì)候選關(guān)鍵詞特征集合中的每個(gè)關(guān)鍵詞，首先統(tǒng)計(jì)其在所屬文本中的詞頻、在整個(gè)文本集合D中的文本頻率、逆文本頻率；然后設(shè)定文本頻率閾值，以篩選最終有效的關(guān)鍵詞特征；最后利用TF-IDF公式計(jì)算關(guān)鍵詞特征的權(quán)重。TF-IDF公式如下：

weight(key)=tf(key,d)×idf(key)

(5)

idf(key)=log[n/df(key)+0.01]

(6)

其中，tf(key,d)表示詞頻，即關(guān)鍵詞key在文本d中出現(xiàn)的次數(shù)。idf(key)表示關(guān)鍵詞key的逆文本頻率。n表示文本集合D中的文本總數(shù)，df(key)表示文本頻率，即文本集合D中出現(xiàn)關(guān)鍵詞key的文本數(shù)量，0.01為調(diào)節(jié)參數(shù)。

4.3 共現(xiàn)詞對(duì)特征統(tǒng)計(jì)

基于4.2節(jié)中篩選得到的關(guān)鍵詞特征集合，首先兩兩構(gòu)造共現(xiàn)詞對(duì)，獲得候選共現(xiàn)詞對(duì)特征集合；然后針對(duì)每個(gè)候選共現(xiàn)詞對(duì)，利用3.1節(jié)中的方法計(jì)算其支持度和置信度以篩選最終有效的共現(xiàn)詞對(duì)特征；最后計(jì)算共現(xiàn)詞對(duì)特征的權(quán)重。關(guān)鍵詞的逆文本頻率是整個(gè)文本集合上的統(tǒng)計(jì)量，代表關(guān)鍵詞對(duì)整個(gè)文本集合的區(qū)分能力。因而，在計(jì)算候選共現(xiàn)詞對(duì)(key1,key2)的置信度時(shí)，利用關(guān)鍵詞key1和key2的逆文本頻率計(jì)算加權(quán)參數(shù)：

α=idf(key1)/[idf(key1)+idf(key2)]

(7)

β=idf(key2)/[idf(key1)+idf(key2)]

(8)

TF-IDF公式是經(jīng)典的權(quán)重計(jì)算公式。因而，在計(jì)算共現(xiàn)詞對(duì)特征的權(quán)重時(shí)，本文延續(xù)關(guān)鍵詞的TF-IDF權(quán)重計(jì)算方法，提出了如下共現(xiàn)詞對(duì)特征的TF-IDF公式：

weight(key1,key2)=tf[(key1,key2),d]×

idf(key1,key2)

(9)

其中，tf[(key1,key2),d]表示共現(xiàn)詞對(duì)(key1,key2)在文本d中的詞頻。關(guān)鍵詞的權(quán)重是關(guān)鍵詞在當(dāng)前文本中的統(tǒng)計(jì)量，因而在計(jì)算共現(xiàn)詞對(duì)(key1,key2)的詞頻時(shí)，本文采用weight(key1)和weight(key2)進(jìn)行加權(quán)。共現(xiàn)詞對(duì)(key1,key2) 在文本d中的詞頻計(jì)算方法如下：

tf[(key1,key2),d]=(weight(key1)×

tf(key1,d)+weight(key2)×tf(key2,d))/

(weight(key1)+weight(key2))

(10)

idf(key1,key2)表示共現(xiàn)詞對(duì)(key1,key2)的逆文本頻率，利用共現(xiàn)詞對(duì)(key1,key2)的共現(xiàn)頻率進(jìn)行計(jì)算，計(jì)算公式如下：

idf(key1,key2)=log(n/freq(key1,key2)+0.01)

(11)

4.4 向量表示

向量表示是指將4.2節(jié)統(tǒng)計(jì)得到的關(guān)鍵詞特征和4.3節(jié)統(tǒng)計(jì)得到的共現(xiàn)詞對(duì)特征線性結(jié)合構(gòu)造文本向量的過(guò)程。假設(shè)4.2節(jié)中獲得的關(guān)鍵詞集合為T={t1,t2,…,tp}，4.3節(jié)中獲得的共現(xiàn)詞對(duì)集合為C={c1,c2,…,cm}，則任意文本d的向量表示如下：

(12)

其中，w(ti)表示關(guān)鍵詞特征ti在文本d中的權(quán)重，根據(jù)4.2節(jié)中的權(quán)重公式計(jì)算；w(ci)表示共現(xiàn)詞對(duì)特征ci在文本d中的權(quán)重。

5 實(shí)驗(yàn)及結(jié)果分析

5.1 實(shí)驗(yàn)語(yǔ)料

本文采用復(fù)旦大學(xué)計(jì)算機(jī)信息與技術(shù)系國(guó)際數(shù)據(jù)庫(kù)中心自然語(yǔ)言處理小組文本分類語(yǔ)料庫(kù)進(jìn)行實(shí)驗(yàn)，該語(yǔ)料庫(kù)共包含20類、9 833篇文本。本實(shí)驗(yàn)抽取藝術(shù)、計(jì)算機(jī)、經(jīng)濟(jì)、教育、環(huán)境、醫(yī)療、軍事、政治、體育、交通10個(gè)類別的數(shù)據(jù)各100篇，共計(jì)1 000篇文本。每個(gè)類別都按照訓(xùn)練集和測(cè)試集比例為7∶3切分?jǐn)?shù)據(jù)，共得到700篇訓(xùn)練文本、300篇測(cè)試文本。

5.2 關(guān)鍵詞特征統(tǒng)計(jì)

利用Java編程語(yǔ)言，調(diào)用中科院ICTCLAS50分詞工具將1 000篇文本進(jìn)行分詞，并結(jié)合停用詞表去除停用詞，共獲得33 730個(gè)候選關(guān)鍵詞。統(tǒng)計(jì)這些候選關(guān)鍵詞在其所屬文本中的詞頻、在整個(gè)文本集合中的文本頻率、逆文本頻率。表1是候選關(guān)鍵詞在其文本頻率上的分布結(jié)果。

Table 1 Distribution of keywords

由表1可知，51.3%的候選關(guān)鍵詞在文本集合中僅出現(xiàn)了1次，0.2%的候選關(guān)鍵在文本中出現(xiàn)了超過(guò)200次，這些文本頻率過(guò)高或過(guò)低的關(guān)鍵詞特征不具有顯著的文本區(qū)分能力，不僅會(huì)影響文本向量的表示效果，也會(huì)增加后續(xù)共現(xiàn)詞對(duì)的統(tǒng)計(jì)計(jì)算量。本文采用條件1

5.3 共現(xiàn)詞對(duì)特征統(tǒng)計(jì)

基于5.2節(jié)中篩選獲得的16 380個(gè)關(guān)鍵詞特征兩兩構(gòu)建候選共現(xiàn)詞對(duì)，獲得支持度不小于0.002的候選共現(xiàn)詞對(duì)2 497 604個(gè)(支持度等于0.001的共現(xiàn)詞對(duì)數(shù)量極多且不具有文本表示意義，因而未統(tǒng)計(jì))。按照4.3節(jié)中的方法計(jì)算置信度加權(quán)參數(shù)，并按照3.1節(jié)中的方法計(jì)算候選共現(xiàn)詞對(duì)的支持度和置信度。表2和表3分別是候選共現(xiàn)詞對(duì)在支持度和置信度上的分布結(jié)果。

由表2和表3可知，55.3%的候選共現(xiàn)詞對(duì)的支持度等于0.002，59.8%的候選共現(xiàn)詞對(duì)的置信度在0～0.2。支持度或置信度過(guò)低的共現(xiàn)詞對(duì)不具有顯著的文本語(yǔ)義表示能力，本文過(guò)濾掉支持度小于0.002和置信度小于0.2的共現(xiàn)詞對(duì)，共獲得1 002 471個(gè)共現(xiàn)詞對(duì)特征。

Table 2 Distribution of co-occurrence

Table 3 Distribution of co-occurrence

5.4 向量表示

基于5.2節(jié)獲得的關(guān)鍵詞特征和5.3節(jié)的共現(xiàn)詞對(duì)特征，構(gòu)建VSM、CTVSM和KACVSM三種文本表示模型。其中，VSM是傳統(tǒng)向量空間模型，僅利用關(guān)鍵詞特征表示文本，利用TF-IDF計(jì)算關(guān)鍵詞特征權(quán)重；CTVSM是文獻(xiàn)[13]提出的基于共現(xiàn)詞對(duì)的向量空間模型(CTVSM)，僅利用共現(xiàn)詞對(duì)表示文本，利用布爾值計(jì)算關(guān)鍵詞特征權(quán)重；KACVSM是本文提出的結(jié)合關(guān)鍵詞和共現(xiàn)詞對(duì)的向量空間模型。

5.5 分類實(shí)驗(yàn)

基于5.4節(jié)構(gòu)建的三種向量空間模型，采用樸素貝葉斯NB(Naives Bayesian)分類算法，基于5.1節(jié)中的訓(xùn)練語(yǔ)料構(gòu)建分類器并分類測(cè)試語(yǔ)料，采用常用的正確率(P)、召回率(R)作為評(píng)價(jià)指標(biāo)。表4為三種模型的樸素貝葉斯分類對(duì)比結(jié)果。

表5表明， KACVSM的平均分類正確率和召回率比VSM分別高6.53%和5.44%，比CTVSM分別高4.67%和2.82%。藝術(shù)、經(jīng)濟(jì)、教育、醫(yī)療、軍事、政治、體育七個(gè)類別分類正確率和召回率都有不同程度的提升。這表明，KACVSM在這幾類文本上真正表示了文本的語(yǔ)義特征。另外，KACVSM在計(jì)算機(jī)、環(huán)境和交通三個(gè)類別上的分類正確率或召回率比VSM和CTVSM低，這是因?yàn)檫@三類文本中的關(guān)鍵詞特征的文本區(qū)分能力較低，構(gòu)成的共現(xiàn)詞對(duì)特征文本語(yǔ)義表示能力較弱，給訓(xùn)練獲得的NB分類器帶來(lái)了較強(qiáng)的干擾。

Table 4 Results of NB classification

Table 5 Time consumption of

5.6 參數(shù)性能分析

本文針對(duì)KACVSM，借鑒文獻(xiàn)[13]中的“固定支持度變動(dòng)置信度”和“固定置信度變動(dòng)支持度”的方法，考察不同支持度和置信度組合對(duì)樸素貝葉斯分類精度和速度的影響。利用10個(gè)類別文本的分類微平均F-measure值作為評(píng)價(jià)指標(biāo)。圖1為固定支持度時(shí)，分類微平均F值隨共現(xiàn)詞對(duì)置信度閾值的變化。圖2為固定置信度時(shí)，分類微平均F值隨共現(xiàn)詞對(duì)支持度閾值的變化。

Figure 2 Micro-F1 result with different confidence thresholds based on fixed support圖2 固定支持度時(shí)，微平均F值隨置信度閾值的變化

Figure 3 Micro-F1 result with different support thresholds based on fixed confidence圖3 固定置信度時(shí)，微平均F值隨支持度閾值的變化

由圖1和圖2可知，當(dāng)置信度閾值為0.4和支持度閾值為0.005時(shí)，分類效果最好，微平均F值分別為90.74%和89.97%。當(dāng)置信度閾值為0.7和支持度閾值為0.009時(shí)，分類效果最差，微平均F值分別為84.97%和85.12%，但仍然比VSM的80.33%和CTVSM的82.07%要高。另外，無(wú)論是支持度還是置信度，隨著其閾值的不斷升高，KACVSM的分類精度都先升高后降低，因?yàn)楫?dāng)閾值較低時(shí)，共現(xiàn)詞對(duì)特征多但語(yǔ)義表示能力普遍較低，當(dāng)閾值較高時(shí)，共現(xiàn)詞對(duì)的語(yǔ)義表示能力高但數(shù)量較少。

表5為VSM的分類器訓(xùn)練速度。表6為固定支持度時(shí)，分類器的訓(xùn)練速度隨共現(xiàn)詞對(duì)置信度閾值的變化情況。表7為固定置信度時(shí)，分類器的訓(xùn)練速度隨共現(xiàn)詞對(duì)置信度閾值的變化情況。

Table 6 Time consumption of generating NB classifier

由表5、表6和表7可知，KACVSM的分類器訓(xùn)練速度不如VSM和CTVSM，這是由于同時(shí)利用關(guān)鍵詞特征和共現(xiàn)詞對(duì)特征表示文本，文本向量的維數(shù)增加導(dǎo)致的。但是，分類器的訓(xùn)練速度并沒(méi)有明顯的下滑。相對(duì)于KACVSM分類精度的提升來(lái)說(shuō)，其速度降低的代價(jià)是可以接受的。

Table 7 Time consumption of generating NB classfier

6 結(jié)束語(yǔ)

本文提出了一種結(jié)合關(guān)鍵詞特征和共現(xiàn)詞對(duì)特征的向量空間模型。定義精確有效的共現(xiàn)詞對(duì)特征的支持度、置信度及權(quán)重計(jì)算方法，在文本分類實(shí)驗(yàn)上證明了所提出的向量空間模型的有效性。但是，本文所提出模型的分類器訓(xùn)練速度有待優(yōu)化。

[1] Salton G, Wong A, Yang C S. A vector space model for automatic indexing[J]. Communications of the ACM, 1975, 18(11):613-620.

[2] Zhang Xiao-dan, Zhou Xiao-hua, Hu Xiao-hua. Semantic smoothing for model-based document clustering[C]∥Proc of the 6th International Conference on Data Mining, 2006:1193-1198.

[3] Zhou Xiao-hua, Zhang Xiao-dan, Hu Xiao-hua. Semantic smoothing of document models for agglomerative clustering[C]∥Proc of the 20th International Joint Conference on Artifical Intelligence, 2007:2922-2927.

[4] Liu Hua. Research of text classification based on key phrases[J]. Journal of Chinese Information Processing, 2007,21(4):34-41.(in Chinese)

[5] Shi Qing-wei, Zhao Zheng, Chao Ke. Hierarchical clustering of Chinese web pages based on suffix tree[J]. Joumal of Liaoning Technical University, 2006, 25(6):890-892.(in Chinese)

[6] Du Hong-bin, Xia Ke-wen, Liu Nan-ping. An improved text clustering algorithm of generalized suffix tree[J]. Information and Control, 2009, 38(3):331-336. (in Chinese)

[7] Wang Jun-ze,Mo Yi-jun,Huang Ben-xiong,et al. Web search results clustering based on a novel suffix tree structure[J]. Autonomic and Trusted Computing, 2008, 5060(23):540-554.

[8] Zhao Jun, Jin Qian-li, Xu Bo. Semantic computation for text retrieval[J]. Chinese Journal of Computers, 2005, 28(12):2068-2078. (in Chinese)

[9] Jing Li-ping, Zhou Li-xin, Ng Michael K, et al. Ontology-based distance measure for text clustering[C]∥Proc of the Text Mining Workshop, SIAM International Conference on Data Mining, 2006:1.

[10] Xie Hong-wei, Yan Xiao-lin, Yu Xue-li. Research on web page clustering based on ontology[J]. Computer Science, 2008, 35(9):153-155. (in Chinese)

[11] Zhu Hui-feng, Zuo Wan-li, He Feng-ling. A novel text clustering method based on ontology[J]. Journal of Jilin University(Science Edtion), 2010, 48(2):277-283. (in Chinese)

[12] Ponte J M, Bruce C W. A language modeling approach to information retrieval[C]∥Proc of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 1998:275-281.

[13] Chang Peng, Feng Nan. A co-occurrence based vector space model for document indexing[J]. Journal of Chinese Information Processing, 2012, 26(1):51-57.(in Chinese)

[14] Cao Tian, Zhou Li, Zhang Guo-xuan. Text similarity computing based on word co-occurrence[J]. Computer Engineering & Science, 2008, 29(3):52-53.(in Chinese)

[15] Wu Guang-yuan, He Pi-lian, Cao Gui-hong. Vector space model based on word co-occurrence and its application in text classification[J]. Computer Applications, 2003, 23(23):138-140.(in Chinese)

附中文參考文獻(xiàn)：

[4] 劉華. 基于關(guān)鍵短語(yǔ)的文本分類研究[J]. 中文信息學(xué)報(bào), 2007, 21(4):34-41.

[5] 史慶偉，趙政，朝柯. 一種基于后綴樹(shù)的中文網(wǎng)頁(yè)層次聚類方法[J]. 遼寧工程技術(shù)大學(xué)學(xué)報(bào), 2006, 25(6):890-892.

[6] 杜紅斌，夏克文，劉南平. 一種改進(jìn)的基于廣義后綴樹(shù)的文本聚類算法[J]. 信息與控制, 2009, 38(3):331-336.

[8] 趙軍，金千里，徐波. 面向文本檢索的語(yǔ)義計(jì)算[J]. 計(jì)算機(jī)學(xué)報(bào), 2005, 28(12):2068-2078.

[10] 謝紅薇，顏小林，余雪麗. 基于本體的WEB頁(yè)面聚類研究[J]. 計(jì)算機(jī)科學(xué), 2008, 35(9):153-155.

[11] 朱會(huì)峰，左萬(wàn)利，赫楓齡. 一種基于本體的文本聚類方法[J]. 吉林大學(xué)學(xué)報(bào)(自然科學(xué)版), 2010, 48(2):277-283.

[13] 常鵬，馮楠. 基于詞共現(xiàn)的文檔表示模型[J]. 中文信息學(xué)報(bào), 2012, 26(1):51-57.

[14] 曹恬，周麗，張國(guó)煊. 一種基于詞共現(xiàn)的文本相似度計(jì)算[J]. 計(jì)算機(jī)工程與科學(xué), 2008, 29(3):52-53.

[15] 吳光遠(yuǎn)，何丕廉，曹桂宏. 基于向量空間模型的詞共現(xiàn)研究及其在文本分類中的引用[J]. 計(jì)算機(jī)應(yīng)用， 2003, 23(23):138-140.

TANGShou-zhong,born in 1987,MS candidate,his research interest includes information retrieval.

Vectorspacemodelbasedon

andco-occurrencewordpairs

TANG Shou-zhong，QI Jian-dong

(School of Information,Beijing Forestry University,Beijing 100083,China)

A new vector space model is proposed, which uses both keyword and co-occurrence term as the representation features of documents. Firstly, the keyword candidates are extracted from documents by segmenting texts and removing stop words,and the keyword features are filtered by document frequency.Secondly, based on the obtained keyword features, the co-occurrence word pairs are constructed,and support degree and confidence degree are defined to filter the features of co-occurrence word pairs. Finally, the keyword features and the features of co-occurrence word pairs are combined to construct the vector space model. The text-classification experiments show that the proposed model has better ability of text classification.

vector space model;co-occurrence word;semantical relationship;text classification

1007-130X(2014)05-0971-06

2013-02-25;

：2013-04-24

十二五科技支撐課題(2011BAH10B04)

TP391.3

：A

10.3969/j.issn.1007-130X.2014.05.031

唐守忠(1987-),男,山東東平人，碩士生，研究方向?yàn)樾畔z索。E-mail:tang_shouzhong@126.com

通信地址：100083 北京市清華東路35號(hào)北京林業(yè)大學(xué)信息學(xué)院1024信箱

Address:Mailbox 1024,School of Information,Beijing Forestry University,35 Qinghua Rd East,Beijing 100083,P.R.China

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種結(jié)合關(guān)鍵詞與共現(xiàn)詞對(duì)的向量空間模型*

1 引言

2 相關(guān)工作

3 詞共現(xiàn)

4 KACVSM

5 實(shí)驗(yàn)及結(jié)果分析

6 結(jié)束語(yǔ)