国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于云模型的文本特征自動(dòng)提取算法

2011-06-01 08:00:08何中市
關(guān)鍵詞:特征選擇復(fù)雜度類別

代 勁 ,何中市,胡 峰,

(1. 重慶大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,重慶,400030;2. 重慶郵電大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)研究所,重慶,400065;3. 西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院,四川 成都,610031)

文本自動(dòng)分類是信息檢索與數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)與核心技術(shù),近年來得到了廣泛關(guān)注和快速發(fā)展,在信息檢索[1]、新聞推薦[2]、詞義消歧[3]、文本主題識(shí)別[4]、網(wǎng)頁分類[5]等領(lǐng)域有著廣泛應(yīng)用。文本自動(dòng)分類的主要難題之一是特征空間維數(shù)過高[6],如何降低特征空間維數(shù)成為文本自動(dòng)分類中需要首先解決的問題。特征選擇是文本特征降維的一種有效方法[6],很多學(xué)者對(duì)此進(jìn)行了深入的研究,并提出了很多有效的方法,比較經(jīng)典的有文檔頻率DF[7]、信息增益IG[7]、χ2統(tǒng)計(jì)量 CHI[7]、互信息 MI[8]和多種方法組合[9]等。這些方法按其特征選擇函數(shù)計(jì)算函數(shù)值,然后以降序選擇靠前的特征集。在選擇過程中,選擇尺度是一個(gè)重要指標(biāo),直接影響著文本分類的性能。實(shí)驗(yàn)證明:多數(shù)分類器呈現(xiàn)出隨特征數(shù)量增加,效果快速提高并能迅速接近平穩(wěn)的特點(diǎn);但若特征數(shù)過大,性能反而可能降低[10-13]。這表明合理的特征選擇尺度不僅能大量降低處理開銷,而且在很多情況下可以改善分類器的效果。在確定特征選擇尺度時(shí),現(xiàn)有特征選擇方法通常采用經(jīng)驗(yàn)估算方法:如給定特征數(shù)的經(jīng)驗(yàn)值(PFC)或比例(THR)、考慮統(tǒng)計(jì)量閾值(MVS)或向量空間稀疏性(SPA)、特征數(shù)與文本數(shù)成比例(PCS)等一些選擇方法[14]。這些方法在某些特定語料庫(kù)上取得比較好的效果,但通常為觀察所得或經(jīng)驗(yàn)推斷,理論基礎(chǔ)不充分,不便于文本自動(dòng)分類的進(jìn)一步推廣研究;因此,研究能適應(yīng)文本特性的特征自動(dòng)提取方法是非常必要的。云模型是一種定性定量轉(zhuǎn)換模型[15-18],由于其具有良好的數(shù)學(xué)性質(zhì),可以表示自然科學(xué)、社會(huì)科學(xué)中大量的不確定現(xiàn)象[18]。云模型不需要先驗(yàn)知識(shí),它可以從大量的原始數(shù)據(jù)中分析其統(tǒng)計(jì)規(guī)律,實(shí)現(xiàn)從定量向定性的轉(zhuǎn)化。本文作者結(jié)合特征在整體與局部上的χ2分布情況,利用云模型在定性知識(shí)表示以及定性、定量知識(shí)轉(zhuǎn)換時(shí)的橋梁作用,引入云隸屬度概念對(duì)特征分布加以修正,并且構(gòu)建了一種逐級(jí)動(dòng)態(tài)聚類算法來獲取特征集,在此基礎(chǔ)上提出一種高性能文本特征自動(dòng)提取算法。該算法不需要指定聚類數(shù)目,能根據(jù)特征分布特點(diǎn)自動(dòng)獲取隸屬度高的特征集。分析和開放性實(shí)驗(yàn)結(jié)果表明:該特征集具有特征個(gè)數(shù)少、分類精度高的特點(diǎn),性能明顯比當(dāng)前主要的特征選擇方法的優(yōu)。

1 文本特征選擇方法

特征選擇是通過構(gòu)造一個(gè)特征評(píng)分函數(shù),把測(cè)量空間的數(shù)據(jù)投影到特征空間,得到在特征空間的值,然后,根據(jù)特征空間中的值對(duì)每個(gè)特征進(jìn)行評(píng)估。特征選擇并沒有改變?cè)继卣骺臻g的性質(zhì),只是從原始特征空間中選擇了一部分重要的特征,組成一個(gè)新的低維空間。

特征選擇是文本特征降維的一種有效方法。目前已有的特征選擇方法主要分為 2類:(1) 傾向于詞頻的特征選擇方法,如 DF,IG,χ2統(tǒng)計(jì)量 CHI和 MI等;(2) 傾向于類別的特征選擇方法,如CTD特征選擇方法[19]和帶有強(qiáng)類別信息詞SCIW特征選擇方法[20]等。第1類方法強(qiáng)調(diào)詞頻在所有類別上的整體分布;第2類方法強(qiáng)調(diào)類別信息,而對(duì)詞頻在所有類別上的整體分布考慮不充分。如果能有效地結(jié)合詞頻在所有類別的整體分布和在單個(gè)類別上的分布情況,將會(huì)明顯改善特征選擇性能。

此外,還有期望交叉熵(ECE)、文本證據(jù)權(quán)(WET)、優(yōu)勢(shì)率(OR)等一些特征選擇方法,文獻(xiàn)[21]對(duì)DF,IG,MI,CHI,ECE,WET和OR這些特征選擇方法進(jìn)行了比較,結(jié)果表明:OR方法的效果最好,IG,CHI和ECE的效果次之,WET和DF的效果再次之,MI的效果最差。而Yang等[7,22]認(rèn)為IG是最好的測(cè)度之一。Forman等[10]分別從有效性、區(qū)分能力及獲得最好效果的機(jī)會(huì)等方面對(duì)不同特征選擇方法進(jìn)行了廣泛比較,結(jié)果表明:CHI和IG等統(tǒng)計(jì)量及組合方法具有一定的優(yōu)勢(shì)。

從上述分析看,這些方法對(duì)提高文本分類的效果都沒有絕對(duì)優(yōu)勢(shì)。這是因?yàn)槲谋痉诸惐旧砩婕坝?xùn)練數(shù)據(jù)集合本身的特點(diǎn),同時(shí),不同分類器的分類效果也不盡相同[10-11]。

2 基于χ2統(tǒng)計(jì)量的文本特征分布矩陣

χ2統(tǒng)計(jì)量[7]的概念來自列聯(lián)表檢驗(yàn),用來衡量特征ti和類別Cj之間的統(tǒng)計(jì)相關(guān)性。實(shí)驗(yàn)證明是一種比較好的特征選擇方法[10,21],它基于ti和Cj之間符合具有一階自由度的χ2分布假設(shè)。ti關(guān)于Cj的χ2可由下式計(jì)算:

式中:N為訓(xùn)練語料中文檔總數(shù);A為屬于類Cj的文檔頻數(shù);B為不屬于Cj類但包含ti的文檔頻數(shù);C為屬于 Cj類但不包含 ti的文檔頻數(shù);D是既不屬于 Cj也不包含ti的文檔頻數(shù)??芍?dāng)特征ti與類別Cj相互獨(dú)立時(shí), χ2( ti, Cj) = 0 ,此時(shí)特征 ti不包含任何與類別Cj有關(guān)的信息。特征ti與類別Cj的統(tǒng)計(jì)相關(guān)性越強(qiáng),χ2( ti, Cj)越大,此時(shí),特征ti包含的與類別Cj有關(guān)的信息就越多。

由χ2計(jì)算公式可以看出:χ2統(tǒng)計(jì)方法作為特征選擇方法時(shí),只考慮了特征在所有文檔出現(xiàn)的文檔頻數(shù)。若某一特征只在一類文檔的少量文檔中頻繁出現(xiàn),則通過χ2計(jì)算公式計(jì)算的χ2統(tǒng)計(jì)值很低,在特征選擇時(shí),這種特征詞就會(huì)被排除,但這種在少量文檔中頻繁出現(xiàn)的特征詞很有可能對(duì)分類的貢獻(xiàn)很大,如專指概念。這是 χ2統(tǒng)計(jì)的不足之處,它對(duì)低文檔頻的特征項(xiàng)不可靠。

基于以上分析,考慮特征在各個(gè)類別之間的分布情況,建立特征關(guān)于類別的χ2分布矩陣。定義如下:

從F的構(gòu)造可以看出:F中的每一行反映了特征在不同類別中的分布情況,每一列反映了在同一類別中不同特征的分布情況。將二者結(jié)合起來,能夠完整反映整個(gè)特征集的分布,而且客觀上彌補(bǔ)了χ2統(tǒng)計(jì)量作為特征選擇方法上的缺點(diǎn)。

3 基于云隸屬度的文本特征自動(dòng)提取算法

通過分析每一類別上不同特征的 χ2分布情況可見:一些χ2較大的特征在類別中出現(xiàn)頻率極低,而另一些在類別中出現(xiàn)比較頻繁的特征χ2反而很小。這種異常的出現(xiàn)正是由于這些特征打破了χ2統(tǒng)計(jì)量基于ti和Cj之間符合具有一階自由度的χ2分布,受整體分布影響較大,需要加以修正。由此,本文為每個(gè)特征引入一個(gè)模糊概念,用云模型對(duì)其在類別上的分布進(jìn)行定量描述,將特征對(duì)于類別的χ2用相應(yīng)的隸屬度加以修正。

3.1 云模型簡(jiǎn)介

云模型用語言值表示某個(gè)定性概念與其定量表示之間的不確定性[15-18],已經(jīng)在智能控制、模糊評(píng)測(cè)等多個(gè)領(lǐng)域得到應(yīng)用。

定義1[15]設(shè)U是一個(gè)用數(shù)值表示的定量論域,C是U上定性概念。若定量值 Ux∈ 是定性概念C的一次隨機(jī)實(shí)現(xiàn),x對(duì)C的確定度]1,0[)(∈xμ是有穩(wěn)定傾向的隨機(jī)數(shù),μ: U→[0, 1], Ux∈?, x→μ(x),則x在論域U上的分布稱為云,記為云C(X)。每一個(gè)x稱為一個(gè)云滴。如果概念對(duì)應(yīng)的論域是n維空間,那么可以拓廣至n維云。

隸屬度在基礎(chǔ)變量上的分布稱為云。在對(duì)模糊集的處理過程中,論域中某一點(diǎn)到它的隸屬度之間的映射是一對(duì)多的轉(zhuǎn)換,不是一條明晰的隸屬曲線,從而產(chǎn)生了云的概念。

云用期望Ex(Expected value)、熵En(Entropy)、超熵He(Hyper entropy)這3個(gè)數(shù)字特征來整體表征一個(gè)概念。期望Ex是云滴在論域空間分布的期望,是最能夠代表定性概念的點(diǎn);熵En代表定性概念的可度量粒度,熵越大,通常概念越宏觀,也是定性概念不確定性的度量,由概念的隨機(jī)性和模糊性共同決定。超熵He是熵的不確定性度量,即熵的熵,由熵的隨機(jī)性和模糊性共同決定。用3個(gè)數(shù)字特征表示的定性概念的整體特征記作C(Ex,En,He),稱為云的特征向量。

正向云算法[15]和逆向云算法[15]是云模型中2個(gè)最基本、最關(guān)鍵的算法。前者把定性概念的整體特征變換為定量數(shù)值表示,實(shí)現(xiàn)概念空間到數(shù)值空間的轉(zhuǎn)換;后者實(shí)現(xiàn)從定量值到定性概念的轉(zhuǎn)換,將一組定量數(shù)據(jù)轉(zhuǎn)換為以數(shù)字特征{Ex,En,He}來表示的定性概念。

3.2 基于云隸屬度的文本特征自動(dòng)提取算法

通過特征χ2分布矩陣,特征的取值不僅反映了特征對(duì)整個(gè)分類作用大小,也反映了該特征對(duì)于每一類別的貢獻(xiàn)程度。通過云模型隸屬度函數(shù)的引入,更修正了特征在類別中的分布情況。通過提取每一類別隸屬度最高的特征集,合并而成最終的分類特征集合,不僅可以保留對(duì)整個(gè)分類貢獻(xiàn)最大的特征集,同時(shí)兼顧某些特征集較少(或者在某一類中出現(xiàn)頻率大,但總體出現(xiàn)概率低的特征)的類別。

在對(duì)特征取值進(jìn)行隸屬度表示后,特征在類別上的取值表示成了[0,1]區(qū)間上的連續(xù)值。特征對(duì)類別的相關(guān)性越大,其隸屬度越高。但每一類別仍包含大量特征,其中很大一部分特征對(duì)于類別的隸屬度極低,需要對(duì)特征集進(jìn)行初步篩選,減少特征提取計(jì)算量。

定義 3[17]一維論域中 U中,任一小區(qū)間上的云滴群Δx對(duì)定性概念A(yù)的貢獻(xiàn)ΔC為:

由定義3,可以計(jì)算得到U上所有元素對(duì)概念A(yù)的總貢獻(xiàn)C為:

基于以上分析,通過計(jì)算可以得到位于區(qū)間[Ex-0.67En, Ex+0.67En]的特征,占特征總量的22.33%,但它們對(duì)類別的貢獻(xiàn)占50%,能夠滿足特征提取需要,故將在此區(qū)間的特征篩選為初選特征集。

在特征的提取上,可以采用動(dòng)態(tài)聚類方法進(jìn)行處理。但是,在聚類過程中,類別個(gè)數(shù)應(yīng)該是與數(shù)據(jù)本身特性有關(guān),而不是一個(gè)經(jīng)驗(yàn)值。因此,采用逐步試探聚類類別個(gè)數(shù)直至最終滿足聚類要求的思路,提出了逐級(jí)動(dòng)態(tài)聚類算法。

算法1:逐級(jí)動(dòng)態(tài)聚類算法。

輸入:類別向量Ci//即第2節(jié)中χ2分布矩陣F中的列向量。

輸出:特征集合Ti。

算法步驟:

(1) 提取Ci中所有不重復(fù)的特征隸屬度以升序構(gòu)成新類別向量, Clusterid},其中Clusterid為聚類類別編號(hào)。

(3) 初始類別K=1,v=e+1 //v為循環(huán)控制變量。

(4) WHILE (v>e) DO //當(dāng)v≤e時(shí),各類的聚合程度已經(jīng)比較好,聚類結(jié)束。

1) 構(gòu)建中心類別表TC:將iC′平均分成K+1份,取區(qū)間右端點(diǎn)加入TC,作為C′在K情況下的初始類別,同時(shí)將iC′各元素Clusterid置為0;

2) 設(shè)定臨時(shí)循環(huán)控制變量e1=0;

3) 當(dāng) e1≠v時(shí),執(zhí)行以下循環(huán): //聚類穩(wěn)定后,各類的標(biāo)準(zhǔn)差將收斂為穩(wěn)定值。

① e1=v;

② 計(jì)算iC′中每個(gè)值與 TC中各類別距離,將其歸并到距離最小的類別中;

③ 根據(jù)加權(quán)平均修正 TC中各類別的中心距離;

④ 計(jì)算 TC中各類別的標(biāo)準(zhǔn)差 Si,令

4) K=K+1 //聚類類別數(shù)加1,進(jìn)行下一輪的聚類處理。

LOOP

(5) 聚類結(jié)束,K′=K-1即為聚類類別數(shù)。編號(hào)為K′的特征為類別 Ci隸屬度最大的特征集,Ti= { tj|tj∈Ci∧Clusterid=K′}。

(6) RETURN Ti。

算法1的復(fù)雜度分析:設(shè)類別Ci上特征的平均個(gè)數(shù)為n,算法時(shí)間復(fù)雜度主要由步驟(4)決定。步驟(4)是一個(gè)典型的 k均值聚類[24],其時(shí)間復(fù)雜度為O ( k × n ),因此,步驟(4)的時(shí)間復(fù)雜度為 O ( k2× n )(其中,k為平均聚類個(gè)數(shù))。故算法 1的時(shí)間復(fù)雜度為O ( k2× n ),空間復(fù)雜度為O(n)。

在算法1的基礎(chǔ)上,提出了一種云隸屬度下的文本特征自動(dòng)提取算法。該算法不需要指定聚類數(shù)目,能根據(jù)特征分布特點(diǎn)自動(dòng)獲取隸屬度高的特征集,具體見算法2。

算法 2:基于云隸屬度的文本特征自動(dòng)提取算法(FAS)。

輸入:特征χ2分布矩陣F,訓(xùn)練集TR。

輸出:經(jīng)過特征選擇后的訓(xùn)練集 RT′。

算法步驟:

初始化特征集φ=T;

依次選擇F中每一列Ci,進(jìn)行以下步驟處理:

1) 運(yùn)用逆向云算法計(jì)算 Ci的數(shù)字特征 C(Ex, En,He);

2) 運(yùn)用正向云算法將 Ci特征值轉(zhuǎn)化成對(duì)應(yīng)隸屬度;

3) 將Ci中區(qū)間[Ex-0.67En, Ex+0.67En]外的特征刪除,得到初次約簡(jiǎn)類別向量iC′;

4) 在iC′基礎(chǔ)上調(diào)用逐級(jí)動(dòng)態(tài)聚類算法(算法1)得到選擇后特征集Ti;

5)iTTT∪=

6) 刪除TR中不屬于T的所有特征項(xiàng),得到選擇處理后訓(xùn)練集 RT′。

算法2的復(fù)雜度分析:設(shè)訓(xùn)練集類別平均特征數(shù)為 n,類別數(shù)為 m,則算法 2的時(shí)間復(fù)雜度為O(k2×n×m) (k為平均聚類個(gè)數(shù)),空間復(fù)雜度為O(n)。

4 實(shí)驗(yàn)及其結(jié)果分析

為了測(cè)試本文算法的有效性,對(duì)FAS算法進(jìn)行橫向?qū)Ρ葴y(cè)試。實(shí)驗(yàn)中,采用性能較好的kNN分類器算法[25](k=30)進(jìn)行文本分類測(cè)試。測(cè)試結(jié)果用準(zhǔn)確率(即分類正確數(shù)/實(shí)際分類數(shù))、查全率(即分類正確數(shù)/應(yīng)有數(shù))和宏平均P為準(zhǔn)確率;R為召回率)進(jìn)行評(píng)測(cè)。

4.1 語料庫(kù)

實(shí)驗(yàn)選用中文語料庫(kù) TanCorpV1.0[26]與英文語料庫(kù)Reuters-21578[27]。 TanCorpV1.0包含文本14 150篇,共分為12類。經(jīng)過停用詞移除、詞干還原等處理后,得到詞條72 584個(gè)。

對(duì)于Reuters-21578,使用只有1個(gè)類別且每個(gè)類別至少包含5 個(gè)以上的文檔。這樣,得到訓(xùn)練集5 273篇、測(cè)試集1 767篇。經(jīng)過停用詞移除、詞干還原等處理后,得到13 961個(gè)詞條。

4.2 實(shí)驗(yàn)過程及結(jié)果分析

現(xiàn)有特征選擇方法通常采用經(jīng)驗(yàn)方式來確定特征數(shù)目,為了得到各特征選擇方法在達(dá)到最佳分類性能時(shí)的特征數(shù),采用了逐步增加特征數(shù)的方法來確定。測(cè)試結(jié)果如表1和2所示。

從表1和2可以看出:IG和CHI方法隨著特征數(shù)的增加,分類性能提升較快,而 MI方法需要的特征數(shù)則較多,性能提升緩慢。同時(shí),當(dāng)特征數(shù)達(dá)到某個(gè)閾值時(shí),各特征選擇方法性能均會(huì)達(dá)到最佳狀態(tài)。但此閾值的獲取因特征選擇方法的不同、語料庫(kù)的差異而各有不同,需要大量實(shí)驗(yàn)才能得到。

表1 TanCorpV1.0上各特征選擇方法在不同特征數(shù)下性能比較Table1 Performance of feature selection methods with different number of features on TanCorpV1.0

表2 Reuters-21578上各特征選擇方法在不同特征數(shù)下性能比較Table2 Performance of feature selection methods with different number of features on Reuters-21578

表3 TanCorpV1.0上各特征選擇方法分類性能比較Table3 Classification performance comparison on TanCorpV1.0

表4 Reuters-21578上各特征選擇方法分類性能比較Table4 Classification performance comparison on Reuters-21578

而使用FAS算法在TanCorpV1.0上自動(dòng)提取的特征數(shù)平均為1 380個(gè),在Reuters-21578上自動(dòng)提取的特征數(shù)平均為239個(gè),不僅不需要任何經(jīng)驗(yàn)知識(shí),而且特征數(shù)明顯少于已有特征選擇方法的特征數(shù)。將FAS算法選擇的特征集進(jìn)行分類測(cè)試,性能比較結(jié)果見表3和4。

從表3和4可以看出:與IG,CHI和MI這3種算法相比,F(xiàn)AS算法提取的特征集具有個(gè)數(shù)少、分類精度高的特點(diǎn)。kNN方法在TanCorpV1.0上的最好宏平均(F1=84.78%)[26]與 Reuters-21578上的最好宏平均(F1=86.1%)[22]相比,基于FAS算法提取特征集上,kNN方法宏平均提高了5%~6%,說明該算法提取的特征集具有比較高的類別描述能力。

從分類的時(shí)間開銷來看,雖然FAS算法在特征提取階段耗費(fèi)了一定的時(shí)間,但從整體上看,遠(yuǎn)低于其他方法所需的時(shí)間。這是因?yàn)檎麄€(gè)分類的時(shí)間主要由特征選擇及分類耗時(shí)組成。FAS算法的時(shí)間復(fù)雜度為O(k2×n×m)(k為平均聚類個(gè)數(shù),n為特征數(shù),m為類別數(shù)),而通常分類算法的時(shí)間復(fù)雜度至少為O ( m × n2)以上,特征數(shù)的多少對(duì)整個(gè)分類時(shí)間耗費(fèi)起著至關(guān)重要的作用。IG,CHI和MI雖然在選擇階段不需要耗費(fèi)時(shí)間,但一方面如何找到最優(yōu)的特征數(shù)需要多次測(cè)試,另一方面由于所選特征遠(yuǎn)較 FAS算法多,直接導(dǎo)致整個(gè)分類時(shí)間耗費(fèi)大幅度增加。

從性能比較分析發(fā)現(xiàn),F(xiàn)AS算法提取出來的特征雖然不到IG和CHI算法的結(jié)果的一半,但分類性能明顯高于后者。性能提升是特征集的選取變化所致。為此,以TanCorpV1.0為例,考察特征集分布情況,如圖1所示。

圖1 TanCorpV1.0上各特征選擇方法特征集分布情況Fig.1 Distribution of feature sets selected by different selection method on TanCorpV1.0

從圖1可以看出,F(xiàn)AS算法提取了每個(gè)類別較重要的特征集,保證了不同類別之間關(guān)鍵特征大致均勻分布,同時(shí)引入的云隸屬度概念對(duì)特征值的χ2分布進(jìn)行比較好的修正,因而有效提高了文本的分類性能,這在特征數(shù)少的類別中尤為明顯。

5 結(jié)論

(1) 本文提出的FAS算法提取出來的特征不僅具有特征個(gè)數(shù)少、分類精度高的特點(diǎn),而且整體大幅度降低了分類時(shí)間。

(2) FAS算法的性能明顯比當(dāng)前主要特征選擇方法的性能優(yōu)。

[1] Charles-Antoine J, John E, France B. Controlled user evaluations of information visualization interfaces for text retrieval:literature review and meta-analysis[J]. Journal of the American Society for Information Science and Technology, 2008, 59(6):1012-1024.

[2] Haruechaivasak, Choochart J, Wittawat S. Implementing news article category browsing based on text categorization technique[C]// Proc of Web Intelligence and Intelligent Agent Technology (WI-IAT 2008). Piscataway: IEEE, 2008: 143-146.

[3] Myunggwon H, Chang C, Byungsu Y, et al. Word sense disambiguation based on relation structure[C]// Proc of Advanced Language Processing and Web Information Technology (ALPIT 2008). Piscataway: IEEE, 2008: 15-20.

[4] Xuerui W, Mccallum A, Xing W. Topical n-grams: phrase and topic discovery, with and application to information retrieval[C]// 7th IEEE International Conference on Data Mining(ICDM 2007). Piscataway: IEEE, 2007: 697-702.

[5] Selvakuberan K, Indradevi M, Rajaram R. Combined feature selection and classification: A novel approach for the categorization of web pages[J]. Journal of Information and Computing Science, 2008, 3(2): 83-89.

[6] 蘇金樹, 張博鋒, 徐昕. 基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J]. 軟件學(xué)報(bào), 2006, 17(9): 1848-1859.

SU Jin-shu, ZHANG Bo-feng, XU Xin. Advances in machine learning based text categorization[J]. Journal of Software, 2006,17(9): 1848-1859.

[7] Yang Y M, Pedersen J O. A comparative study on feature selection in text categorization[C]// Proc of the 14th International Conference on Machine Learning (ICML 1997). San Francisco:MIT Press, 1997: 412-420.

[8] Jana N, Petr S, Michal H. Conditional mutual information based feature selection for classification task[C]// Proc of the 12th Iberoamericann Congress on Pattern Recognition (CIAPR 2007).Berlin: Springer-Verlag, 2007: 417-426.

[9] Santana L E A, de Oliveira D F, Canuto A M P, et al. A comparative analysis of feature selection methods for ensembles with different combination methods[C]// Proc of Internation Joint Conference on Neural Networks (IJCNN 2007). Piscataway:IEEE, 2007: 643-648.

[10] Forman G. An extensive empirical study of feature selection metrics for text classification[J]. Journal of Machine Learning Research, 2003, 3(1): 1533-7928.

[11] Kim H, Howland P, Park H. Dimension reduction in text classification with support vector machines[J]. Journal of Machine Learning Research, 2005, 6(1): 37-53.

[12] Rogati M, Yang Y. High-performing feature selection for text classification[C]// Proc of the 11th ACM Int’l Conf on Information and Knowledge Management (CIKM 2002).McLean: ACM Press, 2002: 659-661.

[13] Makrehchi M, Kame M S. Text classification using small number of features[C]// Proc of the 4th International Conference on Machine Learning and Data Mining in Pattern Recognition(MLDM 2005). Berlin: Springer-Verlag, 2005: 580-589.

[14] Soucy P, Mineau G W. Feature selection strategies for text categorization[C]// Proc of the 16th Conf of the Canadian Society for Computational Studies of Intelligence (CSCSI 2003).Halifax: Springer-Verlag, 2003: 505-509.

[15] 李德毅. 不確定性人工智能[M]. 北京: 國(guó)防工業(yè)出版社,2005: 171-177.

LI De-yi. Artificial intelligence with uncertainty[M]. Beijing:National Defense Industry Press, 2005: 171-177.

[16] 李德毅, 劉常昱. 論正態(tài)云模型的普適性[J]. 中國(guó)工程科學(xué),2004, 6(8): 28-34.

LI De-yi, LIU Chang-yu. Study on the universality of the normal cloud model[J]. Engineering Science, 2004, 6(8): 28-34.

[17] 李德毅, 劉常昱, 杜鹢, 等. 不確定性人工智能[J]. 軟件學(xué)報(bào),2004, 15(11): 1583-1594.

LI De-yi, LIU Chang-yu, DU Yi, et al. Artificial intelligence with uncertainty[J]. Journal of Software, 2004, 15(11):1583-1594.

[18] 張光衛(wèi), 康建初, 李鶴松, 等. 基于云模型的全局最優(yōu)化算法[J]. 北京航空航天大學(xué)學(xué)報(bào), 2007, 33(4): 486-491.

ZHANG Guang-wei, KANG Jian-chu, LI He-song, et al. Cloud model based algorithm for global optimization of functions[J].Journal of Beijing University of Aeronautics and Astronautics,2007, 33(4): 486-491.

[19] Bong C H, Narayanan K. An empirical study of feature selection for text categorization based on term weightage[C]// Proc of the IEEE/WLC/ACM Int’l Conf on Web Intelligence (WI 2004).Beijing: IEEE Computer Society Press, 2004: 599-602.

[20] Li S, Zong C Q. A new approach to feature selection for text categorization[C]// Proc of the IEEE Int’1 Conf on Natural Language Processing and Knowledge Engineering (NLP-KE 2005). Wuhan: IEEE Press, 2005: 626-630.

[21] 胡佳妮, 徐蔚然, 郭軍, 等. 中文文本分類中的特征選擇算法研究[J]. 光通信研究, 2005, 3(129): 44-46.

HU Jia-ni, XU Wei-ran, GUO Jun, et al. Study on feature selection methods in Chinese text categorization[J]. Study on Optical Communications, 2005, 3(129): 44-46.

[22] 徐燕, 李錦濤, 王斌, 等. 文本分類中特征選擇的約束研究[J].計(jì)算機(jī)研究與發(fā)展, 2008, 45(4): 596-602.

XU Yan, LI Jing-tao, WANG Bin, et al. A study on constraints for feature selection in text categorization[J]. Journal of Computer Research and Development, 2008, 45(4): 596-602.

[23] 張光衛(wèi), 李德毅, 李鵬, 等. 基于云模型的協(xié)同過濾推薦算法[J]. 軟件學(xué)報(bào), 2007, 18(10): 2403-2411.

ZHANG Guang-wei, LI De-yi, LI Peng, et al. A collaborative filtering recommendation algorithm based on cloud model[J].Journal of Software, 2007, 18(10): 2403-2411.

[24] Dai W H, Jiao C Z, He T. Research of k-means clustering method based on parallel genetic algorithm[C]// Proc of the 3rd Int’l Conf on Intelligent Information Hiding and Multimedia Signal Processing (IIHMSP 2007). 2007: 158-161.

[25] Yang Y, Liu X. A re-examination of text categorization methods[C]// Proc of the 22nd Annual Int’l ACM SIGIR Conf on Research and Development in Information Retrieval (SIGIR 1999). Berkeley, 1999: 42-49.

[26] Tan S, Cheng X, Ghanem M, et al. A novel refinement approach for text categorization[C]// Proc of the 14th ACM Conf on Information and Knowledge Management (CIKM 2005).Bremen: ACM Press, 2005: 469-476.

[27] David L. Reuters-21578 test collection[EB/OL]. [2007-02-04].http://www.daviddlewis.corn/resources/testcollections/reuters 21578/.

猜你喜歡
特征選擇復(fù)雜度類別
一種低復(fù)雜度的慣性/GNSS矢量深組合方法
求圖上廣探樹的時(shí)間復(fù)雜度
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
某雷達(dá)導(dǎo)51 頭中心控制軟件圈復(fù)雜度分析與改進(jìn)
聯(lián)合互信息水下目標(biāo)特征選擇算法
服務(wù)類別
出口技術(shù)復(fù)雜度研究回顧與評(píng)述
論類別股東會(huì)
商事法論集(2014年1期)2014-06-27 01:20:42
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
镇赉县| 齐齐哈尔市| 玛沁县| 德惠市| 牙克石市| 永年县| 巩留县| 略阳县| 安龙县| 金溪县| 洛浦县| 宁化县| 九龙县| 临泉县| 孝昌县| 铁岭市| 资中县| 兴隆县| 佛山市| 安康市| 神池县| 江源县| 甘肃省| 井陉县| 安泽县| 东丽区| 台中市| 杭锦后旗| 乌拉特前旗| 吉林省| 华宁县| 海阳市| 梁山县| 甘南县| 称多县| 博爱县| 梁河县| 宁夏| 昌图县| 柳州市| 玉田县|