国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于包含度和頻繁模式的文本特征選擇方法

2018-09-18 09:19池云仙趙書良李仁杰
中文信息學報 2018年8期
關鍵詞:特征選擇關聯(lián)度文檔

池云仙, 趙書良, 李仁杰

(1. 河北師范大學 資源與環(huán)境科學學院,河北 石家莊 050024;2. 河北師范大學 數(shù)學與信息科學學院,河北 石家莊 050024)

0 引言

文本數(shù)據(jù)維度在大數(shù)據(jù)時代下呈迅猛增長趨勢。在影響數(shù)據(jù)挖掘性能的各因素中,特征選擇成為其中至關重要的環(huán)節(jié)之一。特征選擇通過提取特征子集來有效縮小高維特征空間,可有效提高數(shù)據(jù)挖掘性能,故各領域學者均致力于特征選擇方法的研究。Zhao等基于特征選擇算法“保留樣本相似性”的共同點,提出一種通用的相似性保留特征選擇框架[1]。Zhuang等提出基于主題模型進行特征選擇以提高模型預測性能的ssLDA模型[2]。Song等提出基于圖論聚類模型的高維數(shù)據(jù)子類劃分與關聯(lián)特征子集速選方法[3]。Li等提出基于文檔與特征關聯(lián)性的關聯(lián)特征選擇方法[4]。張延祥等針對數(shù)據(jù)不平衡問題提出基于類別區(qū)分力的文本特征選擇方法DA[5]。

“基于詞語”的特征選擇方法,因其被“同義詞、一詞多義及噪聲詞語”等問題所困擾,特征提取效率大打折扣。相比之下,“基于模式”方法憑借“保留詞語間關聯(lián)性”的優(yōu)勢,很好地克服了以上問題。它可以在從“數(shù)據(jù)”中高效挖掘“知識”的同時,有效減輕“數(shù)據(jù)爆炸”問題帶給大數(shù)據(jù)時代的困擾。作為數(shù)據(jù)挖掘領域的重點與熱點,“基于模式”研究已擴展至諸多領域。Gao等提出基于主題最大匹配模式的文檔過濾模型MPBTM,依托用戶所需信息與模式間的關聯(lián)度去除不相關文檔[6]。Zhao等提出基于未確定數(shù)據(jù)庫的潛在頻繁序列模式挖掘方法[7]。Kessl提出基于概率性平衡負載的并行頻繁序列模式挖掘方法[8]。Pumjun等提出基于動態(tài)數(shù)據(jù)庫調整支持度閾值的多級關聯(lián)規(guī)則挖掘模型MLUPCS[9]。Zhang等提出基于馬爾科夫性質的DNA序列模式挖掘模型[10]。Turdi等結合維吾爾文間關聯(lián)規(guī)則進行頻繁模式挖掘,進而實現(xiàn)語義串快速抽取[11]。

“通過最優(yōu)化特征排序標準來進行特征排序與選擇”的思想是大多特征選擇方法的共同特點,但由此產(chǎn)生的“相關特征排序相近”的特征冗余問題嚴重影響文本挖掘效率。因此,將冗余特征進行去噪處理將明顯提升文本挖掘性能。Ding等提出基于貪心算法的連續(xù)特征選擇冗余最小化方法mRMR[12]。Wang等提出基于全局冗余最小化的整體局部差異化特征選擇方法[13]。

事物間的“差異性”和“不確定性”是普遍存在的,而這種“相似程度”和“不定關系”通常用包含度原理進行描述。Gong等提出基于模糊集包含度的非參數(shù)統(tǒng)計模型[14]。Ma等在模糊粗糙集的基礎上提出包含度與相似度計算的通用模型[15]。Liu等提出基于最大包含度原理的樣本決策表分類方法[16]。李陽等基于知識圖譜提出一種通用的實體相似性度量方法[17]。

為擴充基于頻繁模式的文本特征選擇方法在文本挖掘領域的應用,提出基于包含度和頻繁模式的文本特征選擇方法TFSIDFP。TFSIDFP方法利用頻繁模式詞語間的關聯(lián),有效避免了“基于詞語”方法的噪聲問題影響;同時,利用包含度原理可以對文本中的冗余頻繁模式進行過濾,有效提高了模式提取效率及特征選擇性能。

后續(xù)內容為: 第一節(jié)介紹基于包含度和頻繁模式進行文本特征選擇的模型框架;第二節(jié)詳細介紹基于包含度和頻繁模式的文本特征選擇方法;第三節(jié)為實驗;第四節(jié)為全文總結。

1 模型框架

基于包含度和頻繁模式進行文本特征選擇,旨在基于包含度原理過濾掉文本中的冗余頻繁模式,并在經(jīng)過優(yōu)化處理后的非冗余文本頻繁模式基礎上進行文本特征選擇。該框架主要分為以下幾部分:

(1) 文本頻繁模式挖掘: 利用FP-Growth算法挖掘文本中所有頻繁模式;

(2) 冗余文本頻繁模式過濾: 基于包含度原理,度量文本頻繁模式間的相似性,將子模式和相似度高于閾值的交叉模式進行去冗余操作;

(3) 非冗余文本頻繁模式特征選擇: 基于過濾后的非冗余頻繁模式,進行文本特征選擇,并利用特征與文檔的關聯(lián)度進行詞語類別劃分及權重分配;

(4) 文本分類: 利用所選擇的特征詞語進行文本分類。

基于包含度和頻繁模式的文本特征選擇流程圖如圖1所示。

圖1 基于包含度和頻繁模式的文本特征選擇流程圖

2 基于包含度和頻繁模式的文本特征選擇方法

文本頻繁模式挖掘過程中會不可避免地產(chǎn)生大量冗余模式。例如,較長文本頻繁模式所蘊含的子模式集合以及與該文本頻繁模式相似的交叉模式集

合,對于同一類別主題而言,往往是冗余的。冗余模式會嚴重制約文本挖掘性能。因此,為提高文本分類運行效率,本文提出基于包含度和頻繁模式的文本特征選擇算法TFSIDFP。首先,提出基于包含度的相似性度量原理;然后,提出基于包含度的冗余文本頻繁模式過濾方法;最后,提出基于關聯(lián)度的文本特征選擇方法。

2.1 基于包含度的相似性度量原理

“包含度”概念源于真實世界中信息的“不完整性”。這種“不完整性”無法用經(jīng)典邏輯問題的兩個絕對標準(“相等”和“不相等”)度量,由此便衍生出包含度理論。

冗余模式產(chǎn)生問題在挖掘文本頻繁模式的過程中無法規(guī)避。這不僅影響模式挖掘效率,還會間接制約文本特征選擇性能?;诎壤碚搶Υ攘康奈谋绢l繁模式進行評估,先過濾掉相似度超過預定閾值的冗余模式,可有效地縮減文本頻繁模式集合的規(guī)模,進而提高文本頻繁模式的挖掘性能。首先,定義“包含度”和“相似度”的概念;然后,提出并證明基于包含度的相似性度量原理的性質。

定義1包含度(InclusionDegree) 設論域Dom_Dis有兩個子集Dom_SubA和Dom_SubB,即Dom_SubA,Dom_SubB?Dom_Dis。 若存在IDDom_SubB/Dom_SubA滿足下述三個性質:

(Ⅰ) 非負性: 0≤ID(Dom_SubB/Dom_SubA)≤1;

(Ⅱ) 規(guī)范性: 當Dom_SubA?Dom_SubB時,IDDom_SubB/Dom_SubA=1;

(Ⅲ) 傳遞性: 當Dom_SubA?Dom_SubB?Dom_SubC時,有IDDom_SubA/Dom_SubC≤IDDom_SubA/Dom_SubB。

則稱IDDom_SubB/Dom_SubA為Dom_SubB包含Dom_SubA(或Dom_SubA包含于Dom_SubB)的包含度。

定義2相似度(SimilarityDegree) 設論域Dom_Dis有兩個子集Dom_SubA和Dom_SubB,即Dom_SubA,Dom_SubB?Dom_Dis。 若存在SD(Dom_SubA,Dom_SubB)滿足下述四個性質:

(Ⅰ) 非負性: 0≤SD(Dom_SubA,Dom_SubB)≤1;

(Ⅱ) 自反性:SDDom_SubA,Dom_SubA=1;

(Ⅲ) 對稱性:SDDom_SubA,Dom_SubB=SDDom_SubB,Dom_SubA;

(Ⅳ) 傳遞性: 當Dom_SubA?Dom_SubB?Dom_SubC時,有SDDom_SubA,Dom_SubB≥SDDom_SubA,Dom_SubC。

則稱SDDom_SubA,Dom_SubB為Dom_SubA和Dom_SubB之間的相似度。

性質1設論域Dom_Dis有兩個子集Dom_SubA和Dom_SubB,即Dom_SubA,Dom_SubB?Dom_Dis。 那么,Dom_SubA和Dom_SubB之間基于包含度的相似性度量公式如式(1)所示。

其中,NumDom_SubA∩Dom_SubB為集合Dom_SubA和Dom_SubB公共元素數(shù)目,NumDom_SubA∪Dom_SubB為集合Dom_SubA和Dom_SubB中互異元素總數(shù)。

證明:

(一)相似性證明:

(Ⅰ) 非負性:

(Ⅱ) 自反性:

SDDom_SubA,Dom_SubA

=IDDom_SubA/Dom_SubA=1;

(Ⅲ) 對稱性:

SDDom_SubA,Dom_SubB

=SDDom_SubB,Dom_SubA;

(Ⅳ) 傳遞性: 當Dom_SubA?Dom_SubB?Dom_SubC時,

=IDDom_SubA/Dom_SubC。

(二)包含度證明:

(Ⅱ) 規(guī)范性: 由于Dom_SubA∩Dom_SubB?Dom_SubA∪Dom_SubB,則

(Ⅲ) 傳遞性:

當Dom_SubA∩Dom_SubB?(Dom_SubA∪Dom_SubB)?Dom_SubC,

那么,Num((Dom_SubA∩Dom_SubB)∩(Dom_SubA∪Dom_SubB))=Num(Dom_SubA∩Dom_SubB),

NumDom_SubA∩Dom_SubB∩Dom_SubC=NumDom_SubA∩Dom_SubB。

綜上所述,基于包含度的相似性度量公式為

證畢。

例如,基于FP-Growth算法挖掘三個頻繁模式X:,Y:,Z:。 采用相似度式(1)計算X與Y的相似度以及X與Z的相似度:

若相似度閾值預先設定為SD≥0.7,則將X和Y視為相似模式,X和Z視為非相似模式。根據(jù)2.2節(jié)保留較長模式的原則,在進行冗余頻繁模式過濾操作時,會將Y從模式集合中去除。

2.2 基于包含度的冗余文本頻繁模式過濾方法

定義3頻繁模式(FrequentPattern)指頻繁出現(xiàn)在數(shù)據(jù)集中的模式,含頻繁項集、子序列或子結構。

定義4文本頻繁模式(TextFrequentPattern) 若文檔Td中某一詞集WSeti_Td={w1,w2,…,wq}?W的支持度滿足SupportWSeti_Td≥MinSupport,則稱WSeti_Td構成的模式為文本頻繁模式,記作TFP。其中MinSupport為預定的最小支持度。

定義5文本頻繁子模式(TextFrequentSubpattern)若兩個文本頻繁模式TFPi和TFPj對應詞集WSet_TFPi和WSet_TFPj滿足關系WSet_TFPi?WSet_TFPj,則稱TFPi為TFPj的文本頻繁子模式,記為TFPi?TFPj。

定義6文本頻繁交叉模式(TextFrequentCrossPattern)若兩個文本頻繁模式TFPi和TFPj對應詞集WSet_TFPi和WSet_TFPj滿足關系WSet_TFPi?WSet_TFPj&WSet_TFPj?WSet_TFPi&WSet_TFPi∩WSet_TFPj≠Φ,那么TFPi與TFPj為文本頻繁交叉模式,記為TFPi?TFPj&TFPj?TFPi&TFPi∩TFPj≠Φ。

頻繁模式挖掘過程中不可避免地會受到噪聲問題的影響。較長的頻繁模式往往包含比較短模式更多的有用信息,有時甚至可以完全覆蓋某些子模式,因此在模式過濾中留下較長的頻繁模式可保留更多與類別相關的信息,對于類別劃分更加有利。

設TFPSet=TFP1,TFP2,…,TFPn為文本頻繁模式全集,集合中的頻繁模式按照模式長度進行降序排序。文本頻繁模式過濾集合初始化為Filter_TFPSet=Φ。 從集合TFPSet中依次選取頻繁模式與Filter_TFPSet中的模式做比較。對于?TFPi∈TFPSet,TFSIDFP算法進行冗余文本頻繁模式過濾的過程如下:

(1) 對于?TFPj∈Filter_TFPSet:

① 若TFPi為TFPj的文本頻繁子模式,即TFPi?TFPj,則執(zhí)行冗余模式過濾操作TFPSet-TFPi;

② 若TFPi和TFPj為文本頻繁交叉模式,即TFPi?TFPj&TFPj?TFPi&TFPi∩TFPj≠Φ,則計算其相似度SDTFPi,TFPj,若SD(TFPi,TFPj)≥θ(θ為預定相似度閾值),則執(zhí)行冗余模式過濾操作TFPSet-TFPi,同時歸并支持度SupportTFPj=SupportTFPj+SupportTFPi;

③ 否則,執(zhí)行文本頻繁模式計數(shù)器增值操作TFP_counti++。

(2) 若TFP_counti=Filter_TFPSet,表示TFPi與Filter_TFPSet中任意文本頻繁模式TFPj均不存在子模式或高相似度交叉模式關系,則將TFPi歸入Filter_TFPSet,并從TFPSet中去除。

(3) 重復執(zhí)行過程(1)(2),直至TFPSet=Φ。

經(jīng)過冗余文本頻繁模式過濾,可明顯縮減文本頻繁模式集合容量,提高文本頻繁模式挖掘效率,進而提升文本特征選擇的性能。

2.3 基于關聯(lián)度的文本特征選擇方法

本節(jié)在經(jīng)過過濾優(yōu)化處理后的非冗余文本頻繁模式基礎上,基于特征與文檔的不同關聯(lián)度對特征進行類別劃分及權重分配,以此實現(xiàn)文本特征選擇。

定義7關聯(lián)文檔和非關聯(lián)文檔(CorrelatedDocumentandUncorrelatedDocument) 指定類別C,若文本文檔Td滿足Td∈C,則稱Td為關聯(lián)文檔。所有關聯(lián)文檔集合表示為TDcor={Td|Td∈C}。 若文檔Td滿足Td?C,則稱Td為非關聯(lián)文檔,所有非關聯(lián)文檔集合表示為TDuncor={Td|Td?C}。Td的訓練集合為TD=TDcor∪TDuncor。

定義8嵌入式文檔(EmbeddedDocument)WSet_TDcor表示關聯(lián)文檔集合TDcor的詞集。對于任意詞語w∈WSet_TDcor,有

稱為詞語w的嵌入式關聯(lián)文檔集。

稱為w的嵌入式非關聯(lián)文檔集。

定義9關聯(lián)度函數(shù)(CorrelativeDegreeFunction) 在訓練集TD=TDcor∪TDuncor中,詞語w與文檔間的關聯(lián)度函數(shù)為:

其中,n=TDcor為關聯(lián)文檔數(shù)目。CorDeg(w)值越大,代表w與預定類別關聯(lián)度越大。CorDeg(w)>0表示w較常描述關聯(lián)文檔;反之,則說明w描述非關聯(lián)文檔較多。

定義10關聯(lián)特征詞語和普通特征詞語(CorrelatedFeatureWordandGeneralFeatureWord) 頻繁出現(xiàn)在關聯(lián)文檔中且較少出現(xiàn)在非關聯(lián)文檔中的詞語稱為關聯(lián)特征詞語,如式(5)所示。

頻繁出現(xiàn)在關聯(lián)和非關聯(lián)文檔中的詞語稱為普通特征詞語,如式(6)所示。

其中,δ表示CorFW和GenFW的關聯(lián)度界限。

定義11特征選擇支持度(FeatureSelectionSupport) 詞語wj的特征選擇支持度定義,如式(7)所示。

定義12特征權重分配函數(shù)(FeatureWeightDistributionFunction) 詞語w在關聯(lián)文檔集合TDcor中的特征選擇支持度為FS_Support(w,TDcor),與預定類別的關聯(lián)度為CorDegw,則w的特征權重分配函數(shù)定義,如式(8)所示。

例如,假設訓練集中包含的文檔總數(shù)為5,其中,3個關聯(lián)文檔Td1,Td2,Td3中包含特征詞w2,且有1個非關聯(lián)文檔Td4也包含w2。 從Td1,Td2,Td3中提取的頻繁模式如表1所示(符號< >腳標為頻繁模式對應支持度):

表1 文檔與對應的頻繁模式

那么,特征詞語w2的權重計算如下:

其中,ωw12=

(3) 特征權重:Weightw2=FS_Support(w2,TDcor)1+CorDegw2=0.905×(1+0.4)=1.267。

2.4 算法偽代碼

算法1為基于包含度和頻繁模式的文本特征選擇算法TFSIDFP。步驟1-26為冗余文本頻繁模式過濾過程,步驟27-42為文本特征選擇過程。其中,步驟1初始化文本頻繁模式過濾集合Filter_TFPSet和文本頻繁模式計數(shù)器TFP_counti;步驟2利用FP-Growth算法挖掘所有文本頻繁模式,并按長度進行降序排序;步驟3-6判斷集合Filter_TFPSet是否為空,將TFPSet中首個文本頻繁模式TFP1從集合中刪除,加入Filter_TFPSet中;步驟7-20為冗余模式過濾過程,將TFPSet與Filter_TFPSet中模式逐一比較,若TFPSet中模式為Filter_TFPSet中模式的子模式或二者相似度大于預定閾值,則將其從TFPSet中刪除,否則加入Filter_TFPSet中;步驟21-26將非冗余文本頻繁模式加入Filter_TFPSet,判定TFPi并非Filter_TFPSet中任意文本頻繁模式TFPj的子模式或相似度較高的交差模式,則將TFPi選入集合Filter_TFPSet,并從TFPSet中刪除。步驟27-30定義變量及集合的值;步驟31-34計算文本特征詞語支持度及關聯(lián)度;步驟35-36為特征詞語類別劃分,采用聚類方式確定關聯(lián)度界限δ;步驟37-42為文本特征詞語加權;步驟43返回文本頻繁模式過濾集合及特征詞語權重。

算法1 基于包含度和頻繁模式的文本特征選擇算法TFSIDFP

INPUT: 關聯(lián)文檔集合TDcor和非關聯(lián)文檔集合TDuncor,其中Tdi∈TDcor;相似度閾值θ;

OUTPUT: 文本頻繁模式過濾集合Filter_TFPSet;文本特征詞語權重:Weightw。

METHOD:

/*冗余模式過濾*/

(1)Filter_TFPSet=Φ,TFP_counti=0

(2)TFPSet=procedureFP_Growth(Tdi) /*挖掘頻繁模式,并按模式長度降序排序*/

/*判斷Filter_TFPSet是否為空,將TFPSet中第一個模式TFP1從集合中刪除,并加入Filter_TFPSet*/

(3)IFFilter_TFPSet=ΦTHEN

(4)TFPSet=TFPSet-TFP1

(5)Filter_TFPSet=Filter_TFPSet∪P1

(6)ENDIF

/*冗余模式過濾過程*/

(7)FOREACHTFPiINTFPSetDO

(8)FOREACHTFPjINFilter_TFPSetDO

(9)IFTFPi?TFPjTHEN/*子模式*/

(10)TFPSet=TFPSet-TFPi

(11)ELSEIFTFPi?TFPj&TFPj?TFPi&TFPi∩TFPj≠ΦTHEN/*交差模式*/

(20)ENDIF

(21)IFTFP_counti=Filter_TFPSetTHEN/*將非冗余模式并入Filter_TFPSet*/

(22)Filter_TFPSet=Filter_TFPSet∪TFPi

(23)TFPSet=TFPSet-TFPi

(24)ENDIF

(25)ENDFOR

(26)ENDFOR

/*文本特征選擇*/

(27)n=|TDcor| /*關聯(lián)文檔數(shù)目*/

(28)WSet_Filter_TFPSet=w|w∈TFP,TFP∈Filter_TFPSet/*文本頻繁模式過濾集合詞集*/

(29)Emb_TDcorw=Td|Td∈TDcor,w∈Td/*嵌入式關聯(lián)文檔*/

(30)Emb_TDuncorw=Td|Td∈TDuncor,w∈Td/*嵌入式非關聯(lián)文檔*/

(31)FOREACHwINWSet_Filter_TFPSetDO

(34)ENDFOR

(35)CorFW+=w∈WSetCorDeg(w)≥δ/*詞語類別劃分*/

(36)GenFW0=w∈WSetCorDeg(w)<δ/*詞語類別劃分*/

(37)FOREACHwINw∈CorFW+DO/*關聯(lián)特征詞語加權*/

(38)Weightw=FS_Supportw*1+CorDegw

(39)ENDFOR

(40)FOREACHwINGenFW0DO/*普通特征詞語加權*/

(41)Weightw=FS_Supportw

(42)ENDFOR

(43)RETURNFilter_TFPSet,Weightw

分類性能評價指標為準確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1值(F1-Measure),及各自對應的宏平均值。

硬件環(huán)境: CPU 3.40Hz;內存4G。軟件環(huán)境: 操作系統(tǒng) Windows7 32位;開發(fā)環(huán)境 Eclipse JDK 1.6,Pydev 3.9;開發(fā)語言 Python 2.7。

3.1 數(shù)據(jù)集

數(shù)據(jù)集選取公共語料庫Reuters-21578: Acq(2 369篇),Crude(578篇),Earn(3 964篇),Grain(1 102篇),Interest(478篇),Money(717篇),Ship(286篇),Trade(486篇)。其中,訓練樣本與測試樣本比例為7∶3。

3.2 實驗結果

3.2.1 參數(shù)分析

為驗證冗余文本頻繁模式過濾方法有效性,令相似度閾值θ在最小支持度min_sup取不同值,得到非冗余頻繁模式數(shù)量占模式總數(shù)的比重,如圖2所示??芍热≈挡煌谋绢l繁模式過濾集合中模式數(shù)量在模式總數(shù)中占比均有明顯下降,證明冗余模式過濾對提升頻繁模式挖掘效率具有重要作用。為保證頻繁模式盡可能多地保留與文檔關聯(lián)的信息,將min_sup設為較小值。由于FP-Growth算法和TFSIDFP方法復雜度較低,min_sup較小并不會明顯提升時間復雜度。隨著θ設置增高,文本頻繁模式過濾集合中的模式數(shù)量逐漸增多。θ設置過高,會保留大量冗余頻繁模式;θ設置過低,會過濾掉過多與文檔關聯(lián)的頻繁模式。由圖2可知,當θ取值為0.7左右,頻繁模式數(shù)量相對穩(wěn)定。因此,設定min_sup=0.2,θ=0.7。

圖2 非冗余頻繁模式占所挖掘模式總數(shù)的比重

3.2.2 特征選擇性能評價

(1) 基于信息熵的性能評價

在數(shù)據(jù)集Reuters-21578中,比較基于關聯(lián)度進行特征詞語類別劃分對特征熵值的影響。計算前kk=10,…,2 000個特征的平均熵值。如圖3所示, unCor表示僅參照詞語支持度進行特征選擇,CorDeg表示在支持度基礎上利用關聯(lián)度進行詞語類別劃分和權重分配后進行特征選擇?;陉P聯(lián)度劃分特征詞語后,關聯(lián)特征詞語CorFW+相對該類的關聯(lián)度加強,對類別區(qū)分力增強,錯誤率下降,對應熵值降低。由圖3可知,前200個特征主要為關聯(lián)特征,其對應熵值的平均值明顯低于未使用關聯(lián)度函數(shù)的特征;隨著特征數(shù)目增加,普通特征數(shù)目增多,其取值差異較小,無法有效區(qū)分類別,平均熵值逐漸增大。因此,在所選特征數(shù)目有限的條件下,基于關聯(lián)度進行特征選擇,對類別劃分更有效。

圖3 基于信息熵的特征選擇方法性能對比

(2) 基于關聯(lián)度的特征詞語分類模型性能評價

在數(shù)據(jù)集Reuters-21578中,將基于關聯(lián)度的特征詞語分類模型在分類器SVM上進行驗證,如圖4所示。由圖可知,關聯(lián)特征詞語CorFW+和普通特征詞語GenFW0同時使用可以明顯提升分類精度。相較CorFW+∪GenFW0而言,僅將CorFW+用于分類效果欠佳,原因在于CorFW+對所屬類別區(qū)分性較好, 卻不足以完整描述該文檔, 需要

圖4 SVM分類器采用不同特征詞語的分類PR曲線

加入GenFW0來輔助分類;若僅用GenFW0,分類精度將大幅降低,這是由于GenFW0頻繁出現(xiàn)在關聯(lián)和非關聯(lián)文檔中,無法有效劃定文檔類別。

3.2.3 與經(jīng)典特征選擇方法的比較

表2 Reuters-21578數(shù)據(jù)集中精確率、召回率和F1值對比

續(xù)表

3.2.4 與新方法的比較

(1) 與新特征選擇方法的比較

Filter和Wrapper是兩種主流的特征選擇模式。基于Filter模式的特征選擇方法基于原始數(shù)據(jù)評價特征性能,無需考慮具體分類器;與之不同,Wrapper模式的特征選擇方法依托具體分類器的分類性能對特征進行評價。

① 與Filter類型的特征選擇方法的比較

Y Gao等[6]在信息過濾領域提出基于最大匹配模式的主題模型MPBTM,其中使用了Filter類型的特征選擇方法。MPBTM模型使用模式表示各主題。這些模式依據(jù)統(tǒng)計和分類特性從主題模型中生成并組織,然后再選出最具代表性和區(qū)分力的最大匹配特征來判定文檔與用戶信息間的關聯(lián)性,以此過濾不相關文檔,提高文本分類性能。TFSIDFP方法與MPBTM模型對比如圖5(a)所示,可知TFSIDFP性能優(yōu)于MPBTM。

為進一步驗證TFSIDFP方法性能,使用McNemar[18]統(tǒng)計測試對TFSIDFP方法與MPBTM模型做統(tǒng)計顯著性檢驗。分類器選用SVM、KNN(k=1)和NB(Na?ve Bayes),顯著性水平設定為0.05。為獲得穩(wěn)定結果,每個算法均運行10次,驗證結果如表3所示。其中,“Win”表示TFSIDFP性能明顯優(yōu)于MPBTM;“Lose”表示TFSIDFP比MPBTM性能明顯較差;“Tie”表示二者性能沒有明顯差別。由表可知,TFSIDFP性能優(yōu)于MPBTM。

表3 TFSIDFP方法與MPBTM模型的統(tǒng)計顯著性檢驗結果

② 與Wrapper類型的特征選擇方法的比較

圖5 TFSIDFP算法與新特征選擇方法的比較((a)與Filter模式的特征選擇方法MPBTM的性能比較;(b)與Wrapper模式的特征選擇方法MD和MD-的性能比較)

(2) 與新特征抽取方法的比較

作為文本挖掘領域兩種典型的特征選取方式,特征選擇(Features selection)和特征抽取(Features extraction)均能有效地降低特征空間維數(shù)。特征選擇是從D個特征中選出使準則函數(shù)最優(yōu)的dd

M Khabbaz等[20]提出一種基于軟聚類和信息增益特征約簡的特征抽取方法Cluster BOW-Inforgain。首先,軟聚類方法使用模糊C均值將每一個詞語依據(jù)不同組內關聯(lián)度劃分至多個聚類中,將每個聚類作為一個特征;然后利用信息增益進行特征約簡。這樣在傳統(tǒng)詞袋基礎上,每篇文檔被表示成一個經(jīng)過軟聚類及信息增益特征約簡的特征向量。將TFSIDFP方法用于SVM分類器,與Cluster BOW-Inforgain方法的對比結果如圖6所示。由圖可知,當所選特征數(shù)目有限時,TFSIDFP方法性能優(yōu)于Cluster BOW-Inforgain。這是由于特征提取是將所有詞語進行轉換從而降低維度,詞語數(shù)目并未發(fā)生巨大縮減,Cluster BOW-Inforgain方法每個聚類特征中均包含多個詞語,因此分類需要的詞語數(shù)目巨大。同時,由于TFSIDFP方法增大了關聯(lián)特征詞語強度,能有效提升分類精度。數(shù)據(jù)維度過高會增加系統(tǒng)開銷,因此若能利用少量特征得到較高的分類精度,可明顯提高分類性能和效率。因此當所選特征數(shù)目受限時,TFSIDFP方法性能明顯優(yōu)于Cluster BOW-Inforgain。

圖6 TFSIDFP方法與新特征抽取方法Cluster BOW-Inforgain的性能對比

4 總結

在文本數(shù)據(jù)量呈爆炸式增長的大數(shù)據(jù)時代,進行文本特征選擇可快速并準確提取文本主題信息,提升文本分類精度。傳統(tǒng)基于詞語的文本特征選擇方法被噪聲問題影響,導致分類精度受到制約。提出基于包含度和頻繁模式的文本特征選擇方法。首先,定義基于包含度的相似性度量原理;然后,提出基于包含度的冗余文本頻繁模式過濾方法;最后,提出基于關聯(lián)度的文本特征選擇方法。該方法基于包含度原理度量文本頻繁模式間相似性,去除冗余模式,提升文本頻繁模式挖掘性能;基于冗余去噪后的非冗余模式選擇文本特征,并利用特征與文檔的關聯(lián)度進行特征類別劃分與權重分配,所選特征與文檔關聯(lián)度更強,對分類貢獻度更大。該方法與傳統(tǒng)基于詞語文本特征選擇方法相比,可以利用文本頻繁模式中詞語間關聯(lián)性,很好地解決基于詞語方法因無法有效克服噪聲問題而導致的分類性能下降問題。對解決大數(shù)據(jù)時代的“數(shù)據(jù)爆炸”問題具有重要影響。此外,在進行特征選擇時,還未深入考慮冗余特征詞語對文本分類性能的影響,以后將深入研究特征詞語去冗余方法,進一步提升文本特征選擇質量及分類精度。

猜你喜歡
特征選擇關聯(lián)度文檔
淺談Matlab與Word文檔的應用接口
有人一聲不吭向你扔了個文檔
網(wǎng)絡入侵檢測場景下的特征選擇方法對比研究
中國制造業(yè)產(chǎn)業(yè)關聯(lián)度分析
中國制造業(yè)產(chǎn)業(yè)關聯(lián)度分析
沉香揮發(fā)性成分與其抗腫瘤活性的灰色關聯(lián)度分析
基于最大信息系數(shù)和近似馬爾科夫毯的特征選擇方法
Word文檔 高效分合有高招
Kmeans 應用與特征選擇
基于特征選擇聚類方法的稀疏TSK模糊系統(tǒng)
会东县| 桂东县| 迭部县| 淮南市| 平遥县| 伊吾县| 新乡市| 苗栗市| 德州市| 望都县| 乳山市| 格尔木市| 长岛县| 若羌县| 嘉荫县| 仙居县| 徐汇区| 泗洪县| 苏尼特左旗| 阜新| 大埔区| 两当县| 巍山| 汕头市| 鄂托克旗| 额尔古纳市| 绥芬河市| 中宁县| 巩义市| 富锦市| 天等县| 江都市| 龙里县| 滨海县| 乌鲁木齐县| 台江县| 永泰县| 秭归县| 淮北市| 洪洞县| 屯留县|