古 平,吳庭君,文靜云
(重慶大學(xué)計(jì)算機(jī)學(xué)院,重慶 400030)
目前互聯(lián)網(wǎng)資源呈現(xiàn)海量增長(zhǎng)趨勢(shì),應(yīng)用信息檢索、數(shù)據(jù)挖掘技術(shù)有效組織和利用海量信息逐漸成為備受關(guān)注的問(wèn)題。其中,文本分類在自然語(yǔ)言處理、信息檢索和管理方面都有著廣泛的應(yīng)用。文本分類的意義在于能夠組織和處理大規(guī)模數(shù)據(jù),從而縮小信息檢索的范圍,增強(qiáng)檢索要求與檢索對(duì)象的相關(guān)性[1]。
文本分類研究面臨的主要問(wèn)題是有標(biāo)注的樣本資源非常稀少,獲取代價(jià)較高,而無(wú)標(biāo)注樣本資源十分豐富,獲取代價(jià)相對(duì)低廉,卻沒(méi)有得到充分的利用,若這些信息能夠被充分利用,將有效提高分類算法的性能[2]。針對(duì)該問(wèn)題,半監(jiān)督學(xué)習(xí)思想[3]應(yīng)運(yùn)而生,半監(jiān)督學(xué)習(xí)是監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)相結(jié)合的一種學(xué)習(xí)方式,主要考慮如何利用少量的標(biāo)注樣本和大量的未標(biāo)注樣本進(jìn)行訓(xùn)練和分類的問(wèn)題。目前,已經(jīng)有基于直推支持向量機(jī)、基于最大期望的方法、基于圖的方法、基于協(xié)同訓(xùn)練的方法[4]應(yīng)用于半監(jiān)督文檔分類研究。上述大多數(shù)方法均建立在單一詞根特征的基礎(chǔ)上,忽略了概念(語(yǔ)義)特征的重要性,實(shí)際上詞與詞之間大量存在的一詞多義、多詞一義現(xiàn)象,以及潛在的語(yǔ)義關(guān)系往往對(duì)文本理解、分類具有更高的價(jià)值。
因此,本文在協(xié)同訓(xùn)練算法的基礎(chǔ)上,提出一種新的融合概念與詞根雙特征互助的半監(jiān)督分類模型。協(xié)同訓(xùn)練思想已經(jīng)在自然語(yǔ)言處理中的句法分析[5]、名詞識(shí)別[6]、信息提取[7]、計(jì)算機(jī)輔助醫(yī)療診斷[8]和垃圾郵件識(shí)別[9]等領(lǐng)域得到了廣泛應(yīng)用。與傳統(tǒng)的協(xié)同訓(xùn)練算法[10]不同,本模型建立在文本的概念和詞根2 個(gè)不同的特征視圖上,利用本體庫(kù)作為外部知識(shí),對(duì)傳統(tǒng)的向量空間模型進(jìn)行語(yǔ)義映射,得到與原特征向量空間互補(bǔ)的一種概念特征表示,進(jìn)而滿足協(xié)同訓(xùn)練過(guò)程中對(duì)視圖獨(dú)立、互補(bǔ)性的要求。對(duì)于文本分類中的一詞多義、語(yǔ)義相關(guān)問(wèn)題,本文提出一種新的語(yǔ)義相似度表示與計(jì)算方法,較好地解決了在語(yǔ)義空間中的文本分類問(wèn)題。
Co-training 是一種多視圖自助式的半監(jiān)督學(xué)習(xí)算法[11],基本思想是:利用小規(guī)模標(biāo)注樣本集,從2個(gè)相對(duì)條件獨(dú)立的視角構(gòu)造2 個(gè)分類器,并利用這2個(gè)分類器對(duì)大量未標(biāo)記樣本進(jìn)行標(biāo)注。Co-Training的形式化定義如下:
定義實(shí)例空間X=X1×X2,其中X1和X2是同一實(shí)例的2 個(gè)觀察角度,因此實(shí)例x 可以由(x1,x2)來(lái)表示。假設(shè)每個(gè)角度觀測(cè)出來(lái)的信息都足夠?qū)ζ溥M(jìn)行正確分類。設(shè)X 的分布為D,C1和C2分別為在X1和X2上定義的概念類,假設(shè)在分布D 下實(shí)例所有概率不為0 的標(biāo)注都與目標(biāo)函數(shù)f1和f2一致,f1∈C1,f2∈C2。即對(duì)于任意實(shí)例x=(x1,x2)如果有標(biāo)注l,則f(x)=f1(x1)=f2(x2)=l。對(duì)于實(shí)例(x1,x2),如果f1(x1)≠f2(x2),則在D 下該實(shí)例概率為0,稱函數(shù)f=(f1,f2)∈C1×C2與分布D 是相容的[12]。
對(duì)于X 的一個(gè)給定的分布D,如果分布D 賦予零概率值給那些f1(x1)≠f2(x2)的實(shí)例(x1,x2),則認(rèn)為目標(biāo)函數(shù)f=(f1,f2)∈C1×C2與分布D 是相容的。為了能夠獲得更好與目標(biāo)概念相容的目標(biāo)函數(shù),需要利用更多的未帶標(biāo)注的樣本。找到目標(biāo)函數(shù)f,這樣能減少學(xué)習(xí)算法所需要的帶標(biāo)實(shí)例的數(shù)目[13]。
Co-training 算法的關(guān)鍵是要從2 個(gè)不同的視角定義出2 組特征集,且滿足2 個(gè)條件:1)每個(gè)視角選取的特征集可以描述問(wèn)題;2)每個(gè)視角選取的特征集相互獨(dú)立。
與本文思想最接近的研究來(lái)自文獻(xiàn)[10],其在海洋文獻(xiàn)分類中基于摘要和文本內(nèi)容2 個(gè)視角構(gòu)建了2 個(gè)不同的特征集,并通過(guò)Co-training 算法實(shí)現(xiàn)對(duì)海洋文獻(xiàn)的分類。實(shí)驗(yàn)表明該方法非常有效,但不是所有文檔都具有2 組自然的特征表示,因此,該方法不具有普適性。本文認(rèn)為:只有詞根和概念才是文檔表示中2 個(gè)最本質(zhì)的特征,不僅適用于所有文檔,而且具有相對(duì)的獨(dú)立性和互補(bǔ)性(詞根在特征空間中是正交的,而在語(yǔ)義空間中是斜交的),因此,以詞根和概念為特征的視圖形式更適用于文檔的協(xié)同訓(xùn)練與分類。
為將文本向量空間中的詞根進(jìn)行語(yǔ)義映射,并在概念空間進(jìn)行表示,必須用到特定的本體庫(kù)。本體庫(kù)揭示概念之間以及概念及其相關(guān)屬性之間的關(guān)系,描述對(duì)象為漢語(yǔ)或英語(yǔ)中詞條所代表的概念,基本定義如下:
定義1 本體庫(kù)是由元組R:=(C,≤)組成的一組C,C 代表概念的集合,C 中元素稱為概念標(biāo)識(shí)符,≤代表概念間的上下位關(guān)系[14]。
定義2 如果c1<c2,且c1,c2?C,則c1是c2下位,c2是c1的上位。如果c1<c2,且沒(méi)有c3?C 使c1<c3<c2,則c1是c2的直接下位,c2是c1的直接上位。定義為c1?c2[14]。
定義3 本體庫(kù)中的詞典是由元組L:=(S,Ref)組成的一組S,S 中元素稱為概念結(jié)點(diǎn),關(guān)系Ref?S×C 稱為詞典與概念的對(duì)應(yīng)關(guān)系,對(duì)于每個(gè)c∈C∩S 有(s,c)∈Ref。基于Ref 定義,對(duì)s∈S,有Ref(s):={c∈C|(s,c)∈Ref},對(duì)c∈C,有Re f-1(c):={s∈S|(s,c)∈Ref}[14]。
常用的本體庫(kù)包括Hownet、WordNet、FrameNet、VerbNet,其中WordNet 資料最為豐富也最常用,本文以WordNet 為例進(jìn)行研究與實(shí)現(xiàn)。
2.1.1 基于詞根的向量空間表示
語(yǔ)義概念分析使文本中的詞與詞之間盡量達(dá)到正交。特征詞被表示成詞頻的集合,一個(gè)文本庫(kù)可以表示成一個(gè)m×n 詞的文本矩陣A,這里每個(gè)文本中不同的詞對(duì)應(yīng)于矩陣A 的一行,而每一個(gè)文本則對(duì)應(yīng)于矩陣A 的一列。表示為:
式中,aij為非負(fù)值,表示第i 個(gè)詞在第j 個(gè)文本中的權(quán)重。分類時(shí),每個(gè)特征項(xiàng)所帶的文本信息量不一樣,對(duì)于分類的重要程度也不一樣,所以需要考慮對(duì)特征項(xiàng)進(jìn)行加權(quán),這里選用TF-IDF 方法,公式如下:
式中,Wi表示第i 個(gè)特征項(xiàng)權(quán)重;TFi表示第i 個(gè)特征項(xiàng)在文本中出現(xiàn)的次數(shù);IDFi表示第i 個(gè)特征項(xiàng)的逆文本比例,N 是整個(gè)文本集的文本個(gè)數(shù),ni是包含該特征項(xiàng)的的文本個(gè)數(shù)[15]。
2.1.2 基于概念的特征向量表示
在構(gòu)建概念和特征詞的雙視圖完成之后,需要構(gòu)建概念特征向量空間模型。首先,需要定義以下概念:
定義4 概念的文本頻度:概念在某文本中出現(xiàn)次數(shù)。假設(shè)特征詞的集合為(X1,…,Xn),用公式(2)表示概念ci的文本頻度:
其中,F(xiàn)(ci,Xi)表示概念ci是否為特征詞Xi在文本庫(kù)中概念或者上層概念,n 表示文章預(yù)處理后特征詞的個(gè)數(shù)。
定義5 概念的類別頻度:概念在某個(gè)類別中出現(xiàn)的總次數(shù)。用公式(3)表示概念ci的類別頻度:
其中,F(xiàn)CDF(ci,j)表示概念ci在文本j 中出現(xiàn)次數(shù),n表示類別中的文章總數(shù)。
定義6 概念的概括度:概念的覆蓋范圍。一個(gè)概念的層次越高,它的抽象度就越大,涵蓋的范圍就越廣。概念的涵蓋范圍太廣,對(duì)分類的意義就不大。本文用FR(c)表示概念的概括度如下:
其中F(Si)表示子概念自身及全部所屬子概念在文章中出現(xiàn)的次數(shù),n 表示概念c 的子概念總數(shù)。
定義7 概念的反類別頻度:用于衡量概念所包含的類別個(gè)數(shù),與它包含類別個(gè)數(shù)呈反向變化。本文用FCICF(c)表示概念的反類別頻度:
其中,N 為類別總數(shù),n 為概念c 出現(xiàn)至少一次的類別數(shù)量。
定義8 概念的特征加權(quán)函數(shù):
其中FCDF(c)、FCICF(c)、FR(c)分別是概念的文本頻度、反類別頻度、概括度。
構(gòu)建語(yǔ)義概念向量模型,首先對(duì)文本進(jìn)行分詞和預(yù)處理后得到文本集,然后利用WordNet 文本庫(kù)對(duì)特征進(jìn)行概念映射。構(gòu)建算法描述如下:
輸入:文本TC。
輸出:文本TC 語(yǔ)義概念向量TC={(S1,W1),(S2,W2),…,(Si,Wi)}。
步驟1 使用Lucene 3.0 的StopAnalyzer 分詞系統(tǒng)對(duì)TC進(jìn)行分詞后得到TC={x1,x2,…,xi}。
步驟2 利用式(1)初步提取TC 特征后得到TC={d1,d2,…,dn}。
步驟3 依次查詢WordNet 本體庫(kù),進(jìn)行概念映射(定義3)和多義詞語(yǔ)義類定位。
步驟3.1 查詢WordNet 本體庫(kù),若TC 的特征詞di有唯一的概念定義,則跳轉(zhuǎn)至步驟4;
步驟3.2 若特征詞di包含多個(gè)語(yǔ)義類,選擇本體庫(kù)中排在最前面那個(gè)語(yǔ)義類,依次計(jì)算TC 中所有特征的概念,得到集合TCS={(d1,S1),(d2,S2),...,(dn,Sn)}。
步驟4 對(duì)TCS按照概念定義進(jìn)行合并得到:TCS={(S1,(d1,…,di)),(dh2,(S2,…,dj)),...,(Sq,(dl,…,dk))},其中Sq為T(mén)CS集合中無(wú)重復(fù)的概念,q,i,j,k≤m,l <k//語(yǔ)義概念映射。
步驟5 順序掃描TCS,利用式(6)計(jì)算概念Si的權(quán)重,直至TCS掃描結(jié)束。
步驟6 根據(jù)步驟5 中計(jì)算概念的權(quán)重選取有意義概念,輸出文本TC 對(duì)應(yīng)語(yǔ)義概念向量TC={(S1,W1),(S2,W2),…,(Si,Wi)}。
本文在基于Co-training 的框架下,選擇樸素貝葉斯模型(Na?ve Bayes)作為分類器。樸素貝葉斯模型具有計(jì)算高效、精確度高的特點(diǎn)并且具有堅(jiān)實(shí)的理論基礎(chǔ),已經(jīng)得到了廣泛的應(yīng)用,其基本思想如下:
設(shè)每個(gè)數(shù)據(jù)樣本用一個(gè)n 維特征向量X=(x1,x2,x3,…,xn)表示,分別描述在n 個(gè)屬性A1,A2,A3,...,An上的值。假定有m 個(gè)類,分別用C1,C2,C3,...,Cm表示,給定一個(gè)未知的數(shù)據(jù)樣本X,根據(jù)貝葉斯定理:
由于p(X)對(duì)于所有類為常數(shù),最大化后驗(yàn)概率p(Ci|X)可轉(zhuǎn)化為最大先驗(yàn)概率p(X|Ci)p(Ci),樸素貝葉斯分類模型中的屬性獨(dú)立假設(shè)假定所有屬性都是相互條件獨(dú)立,即有:
先驗(yàn)概率p(x1|Ci),p(x2|Ci),...,p(xk|Ci)均可以從訓(xùn)練數(shù)據(jù)集中求得。
據(jù)此,對(duì)于待分類樣本X,可以先分別計(jì)算出X屬于每一個(gè)類別Ci的概率p(X|Ci)·p(Ci),然后選擇其中概率最大的類別作為其類別,即樸素貝葉斯分類模型為:
如果直接將上述模型應(yīng)用于基于概念特征的文本分類,可能產(chǎn)生分類性能的下降,其原因在于:基于概念加權(quán)的分類模型考慮了概念對(duì)于分類的重要性,但忽略了概念之間的聯(lián)系。例如,術(shù)語(yǔ)“pussy”和“cat”都可以表示“貓”,如果只根據(jù)“cat”作為分類特征,則同義詞”pussy”的出現(xiàn)不會(huì)對(duì)“animal”類別的判別產(chǎn)生任何影響,語(yǔ)義之間的關(guān)系仍然沒(méi)有考慮,會(huì)影響分類效率。
要考慮概念之間的關(guān)系,需要定義概念之間的相似度,定義如下:
定義9 語(yǔ)義之間的相似度:WordNet 本體庫(kù)中2 個(gè)概念之間的相似程度。WordNet 中計(jì)算2 個(gè)概念ci,cj相似度公式如下:
其中,r 是概念ci,cj之間的最短距離,h 為歸入在層次語(yǔ)義網(wǎng)絡(luò)上的深度。α≥0,β >0 是分別為縮放最短路徑長(zhǎng)度和深度參數(shù)[16]。本文約定,若r >2,則表示概念之間的聯(lián)系很小,sim(ci,cj)=0。
考慮概念之間的關(guān)系后,基于概念與詞跟雙特征互助的文本分類模型的計(jì)算公式如下:
算法描述:
輸入:訓(xùn)練樣本庫(kù)YT,測(cè)試樣本集S,待分類文本T。
輸出:待分類文本T 的分類結(jié)果Ct。
1)將訓(xùn)練樣本庫(kù)YT 劃分為2 部分:標(biāo)注訓(xùn)練樣本為L(zhǎng),未標(biāo)注樣本為U。
2)For L 中每個(gè)樣本do:
2.1)基于2.1.1 節(jié)和2.1.2 節(jié)算法描述構(gòu)建基于詞根的特征向量和語(yǔ)義概念向量;
2.2)統(tǒng)計(jì)并計(jì)算特征詞和概念所屬的分類概率,分別獲得分類器A,B。
3)For S 中每個(gè)樣本do:
3.1)基于2.1.1 節(jié)和2.1.2 節(jié)算法描述構(gòu)建基于詞根的特征向量和語(yǔ)義概念向量;
3.2)計(jì)算它們?cè)诜诸惼鰽,B 中的分類結(jié)果,最終求得A,B 準(zhǔn)確率。
4)For U 中每個(gè)樣本do:
4.1)基于2.1.1 節(jié)和2.1.2 節(jié)算法描述構(gòu)建基于詞根的特征向量和語(yǔ)義概念向量;
4.2)用式(9)和式(11)計(jì)算每個(gè)文本的分類結(jié)果
5)while |Aacc_i-Aacc_j| >ε or|Bacc_i-Bacc_j| >ε(ε 為給定閾值,Aacc_i,Aacc_j,Bacc_i,Bacc_分別為分類器A,B 在第i,j 次的準(zhǔn)確率)do:
5.1)將step3 中分類器A,B 的計(jì)算結(jié)果最高的10 個(gè)樣本加入到對(duì)方訓(xùn)練集中;
5.2)重復(fù)步驟2)~4)一次。
6)將待分類文本T 表示成語(yǔ)義概念向量;
7)用式(11)計(jì)算T 所屬類別Ct,輸出Ct。
實(shí)驗(yàn)數(shù)據(jù)使用來(lái)自20-Newsgroups 文本數(shù)據(jù)集。20-Newsgroups 是一個(gè)具有20 個(gè)類別新聞的英文文章集合。庫(kù)中文檔放在20 個(gè)目錄下,每個(gè)目錄的名字就是類別的名字,每個(gè)類大約有1000 篇。
實(shí)驗(yàn)?zāi)康氖且?yàn)證基于概念與詞根雙特征互助的文本分類模型的有效性,實(shí)驗(yàn)采取基于概念與詞根雙特征和僅以詞為特征的文本分類模型比較其分類效果。評(píng)價(jià)分類器的好壞通常從準(zhǔn)確率和召回率[17]這2 個(gè)標(biāo)準(zhǔn)來(lái)衡量。
實(shí)驗(yàn)環(huán)境是Win7 操作系統(tǒng)、i5 處理器、4 G 內(nèi)存的PC 機(jī)一臺(tái),在Eclipse 平臺(tái)下編碼。實(shí)驗(yàn)數(shù)據(jù)集的每個(gè)分類下都有1000 篇文本,這個(gè)數(shù)據(jù)量雖不大,但在PC環(huán)境下運(yùn)行效率低,所以對(duì)實(shí)驗(yàn)數(shù)據(jù)集做如下處理。
第一次從每個(gè)分類中隨機(jī)選取50 篇文本作為訓(xùn)練集,計(jì)算不同模型下的分類效果;第二次從每個(gè)分類中隨機(jī)選取100 篇文本作為訓(xùn)練集,計(jì)算不同模型下的分類效果;下一次實(shí)驗(yàn)在上一次的基礎(chǔ)上每個(gè)分類增加50 個(gè)樣本,進(jìn)行10 次,每次采用二重交叉驗(yàn)證。
Co-training 框架下基于詞根的分類模型(Rootbased Classification Model)建立:
1)利用2.1.2 節(jié)中步驟1 和步驟2 處理得到文本T 的特征項(xiàng)。
2)將T 中特征項(xiàng)隨機(jī)分成2 份,構(gòu)建2 個(gè)相互獨(dú)立的基于詞根的特征向量。
3)Co-training 框架下利用樸素貝葉斯算法訓(xùn)練這2 個(gè)數(shù)據(jù)集。
Co-training 框架基于概念與詞雙特征互助的分類模型(Classification Model Based on Concept and Root)建立:
1)利用2.1.2 節(jié)中步驟1 和步驟2 處理得到文本T 的特征項(xiàng)。
2)利用2.1.2 節(jié)中步驟3 至步驟6 處理得到T對(duì)應(yīng)語(yǔ)義概念向量TC。
3)Co-training 框架下用樸素貝葉斯方法訓(xùn)練這2個(gè)數(shù)據(jù)集。
在Co-training 框架下采用樸素貝葉斯分類算法訓(xùn)練上述數(shù)據(jù)集得到一個(gè)分類器。再用這個(gè)分類器對(duì)測(cè)試數(shù)據(jù)集進(jìn)行分類,記錄其準(zhǔn)確率和召回率。實(shí)驗(yàn)結(jié)果如表1 所示。
表1 實(shí)驗(yàn)結(jié)果
從實(shí)驗(yàn)結(jié)果可以看出:
1)同Co-training 框架下,同訓(xùn)練樣本情況下,基于概念與詞根雙特征互助的分類模型始終比基于詞根的分類模型具有更高的準(zhǔn)確率和召回率,尤其在訓(xùn)練樣本數(shù)量比較少時(shí),表現(xiàn)得更為明顯。
2)分類器的性能都隨著訓(xùn)練樣本的數(shù)量的增大而提高,且在某一區(qū)域內(nèi)增長(zhǎng)明顯,隨后增長(zhǎng)率慢慢減小。
3)當(dāng)訓(xùn)練文本數(shù)量比較小時(shí),概念與詞根雙特征互助的分類模型準(zhǔn)確率比僅有詞根的分類模型高很多。因?yàn)樵谟?xùn)練語(yǔ)料不足的情況下,前者很好地解決了數(shù)據(jù)稀疏問(wèn)題。
4)隨著訓(xùn)練語(yǔ)料的增多,基于詞根的方法克服了數(shù)據(jù)稀疏問(wèn)題,因此與基于概念與詞根雙特征互助的模型之間性能差距就越來(lái)越小。
本文引入了語(yǔ)義概念向量模型來(lái)表示文本,提出了基于概念和詞根雙特征互助的文本分類算法,該算法考慮了語(yǔ)義對(duì)文本分類的重要性。實(shí)驗(yàn)結(jié)果表明,基于語(yǔ)義和詞根雙特征互助模型相對(duì)單一詞根的分類效果更好。
但本文的研究仍存在以下不足之處:
1)語(yǔ)義消歧問(wèn)題,若出現(xiàn)一詞多義情況,本文只選擇了WordNet 中排在最前面的語(yǔ)義類,過(guò)于牽強(qiáng)。
2)概念向量模型的建立充分依賴WordNet,WordNet 本身的一些缺點(diǎn)不可避免,如:漏詞現(xiàn)象、專業(yè)領(lǐng)域知識(shí)缺乏等。
[1]Sebastiani F.Machine learning in automated text categorization[J].ACM Computing Surveys,2002,34(1):1-47.
[2]Chen Haibin,Tan Pangning.Semi-supervised learning with data calibration for long-term time series forecasting[C]//Proceeding of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.2008:133-141.
[3]Zhou Xiaojin.Semi-supervised Learning Literature Survey[DB/OL].http://pages.cs.wisc.edu/~jerryzhu/pub/ssl_survey.pdfb,2008-07-19.
[4]周志華.基于分歧的半監(jiān)督學(xué)習(xí)[J].自動(dòng)化學(xué)報(bào),2013,39(11):1871-1878.
[5]Pierce D,Cardie C.Limitations of co-training for natural language learning from large datasets[C]// Proceedings of the 2001 Conference on Empirical Methods in Natural Language Processing.2001:1-9.
[6]Steedman M,Osborne M,Sarkar A,et al.Bootstrapping statistical parsers from small datasets[C]// Proceedings of the 10th Conference on European Chapter of the Association for Computational.2003:331-338.
[7]Li Ming,Li Hang,Zhou Zhihua.Semi-supervised document retrieval[J].Information Processing & Management,2008,45(3):341-355.
[8]Li Ming,Zhou Zhihua.Improve computer-aided diagnosis with machine learning techniques using undiagnosed samples[J].IEEE Transactions on Systems,Man,and Cybernetics,Part A:Systems and Humans,2007,37(6):1088-1098.
[9]Mavroeidis D,Chaidos K,Pirillos S,et al.Using tri-training and support vector machines for addressing the ecmlpkdd 2006 discovery challenge[C]// Proceedings of the ECML-PKDD Discovery Challenge Workshop,2006.2006:39-47.
[10]徐建良,姜亦宏,張巍,等.一種基于Co-training 的海洋文獻(xiàn)分類方法[J].中國(guó)海洋大學(xué)學(xué)報(bào)(自然科學(xué)版),2010(2):105-110.
[11]劉世岳.基于Co-training 方法的中文組塊識(shí)別的研究[D].沈陽(yáng):東北大學(xué),2004.
[12]Blum A,Mitchell T.Combining labeled and unlabeled data with co-training[C]// Proceedings of the Workshop on Computational Learning Theory.1998:92-100.
[13]沈新宇.基于直推式支持向量機(jī)的圖像分類算法研究與應(yīng)用[D].北京:北京交通大學(xué),2007.
[14]Hotho A,Staab S,Stumme G.WordNet improves text document clustering[C]// Proceedings of Semantic Web Workshop of the 26th Annual International ACM SIGIR Conference.2003:541-544.
[15]陳偉萍,王琳,封化民,等.一種基于語(yǔ)義概念的中文文本分類方法[C]// 第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2005)論文集.2005:401-405.
[16]Li Chenghua,Yang Juncheng,Park S C.Text categorization algorithms using semantic approaches,corpus-based thesaurus and WordNet[J].Expert Systems With Applications,2012,39(1):765-772.
[17]Han Jiawei,Kamber M.數(shù)據(jù)挖掘:概念與技術(shù)[M].范明,孟小峰,譯.2 版.北京:機(jī)械工業(yè)出版社,2007:263-266.