李艷玲,郭文普,徐東輝
(第二炮兵工程大學(xué),西安 710025)
分類的基本過程是首先將一些具有類別標記的樣本作為訓(xùn)練數(shù)據(jù),通過學(xué)習(xí)算法獲得分類器,然后根據(jù)分類器判定待分類樣本的類別。因此,訓(xùn)練數(shù)據(jù)的質(zhì)量直接影響學(xué)習(xí)算法獲得的分類器性能。基于機器學(xué)習(xí)的分類方法要求訓(xùn)練數(shù)據(jù)比較完整及數(shù)據(jù)分布相對均勻等,當樣本分布出現(xiàn)不平衡時,分類性能會降低[1~3]。然而,最近的一些研究認為[1~5],許多情況下,樣本分布存在偏斜問題,尤其在兩類分類中,不平衡問題更為多見。因此,對類別分布不平衡數(shù)據(jù)的學(xué)習(xí)已成為機器學(xué)習(xí)目前面臨的一個挑戰(zhàn)。目前對數(shù)據(jù)不平衡問題的解決方法主要集中在三個層次:一是數(shù)據(jù)集;二是分類方法;三是評估方法的優(yōu)化。對于數(shù)據(jù)集,目前主要通過重取樣,來構(gòu)造分布均衡的訓(xùn)練數(shù)據(jù)集。對于分類方法則從采用新的分類策略、改進特征選擇方法和權(quán)重潤飾等角度進行改進。對于評估方法,如何根據(jù)評估結(jié)果來優(yōu)化分類模型成為研究熱點。但目前所有的方法都還不能對小類別的識別水平整體提高到實際可以接受的程度,相關(guān)的研究仍需進一步深入[4]。
已有的研究表明,將數(shù)據(jù)重取樣與基于分類算法的改進二者結(jié)合起來的組合方法,效果要優(yōu)于單純使用一種類型的方法[6],但目前對組合方法的研究較少。以兩類文本分類為背景,從數(shù)據(jù)重取樣與特征權(quán)重潤飾結(jié)合的角度考慮,提出一種基于組合的不平衡數(shù)據(jù)分類方法,通過相關(guān)實驗,驗證了該方法可有效提高不平衡數(shù)據(jù)分類精度。
訓(xùn)練數(shù)據(jù)的不平衡通常是指某些類擁有較多的樣本,而某些類只有相對較少或很少的樣本[1]。在這種情況下,標準的分類器會傾向于過分適應(yīng)大類而忽略小類。在數(shù)據(jù)挖掘或機器學(xué)習(xí)的許多應(yīng)用領(lǐng)域中,數(shù)據(jù)不平衡問題是普遍存在的[7]。比如,在輿論監(jiān)控、信息安全監(jiān)管、入侵檢測、醫(yī)療診斷、風(fēng)險管理及文本分類等應(yīng)用中,都會遭遇數(shù)據(jù)不平衡的問題。目前常用的一些分類算法,例如決策樹、支持向量機(SVM)、KNN、神經(jīng)網(wǎng)絡(luò)、Bayesian network、及關(guān)聯(lián)規(guī)則挖掘等方法,當處理不平衡數(shù)據(jù)時,都表現(xiàn)出不適應(yīng)[8~10]。文獻[8]基于SVM,從理論和實驗兩個角度,驗證了類分布對傳統(tǒng)分類算法的影響,即算法對小類的分類和預(yù)測差于對大類的分類和預(yù)測。然而值得注意的是,實際應(yīng)用中,通常對于小類別正確分類的要求更高。例如,在不良信息過濾中,不良信息數(shù)量遠遠小于正常的信息,而過濾的目標就是要識別出不良信息,將它們過濾?;谶@些原因,數(shù)據(jù)不平衡在數(shù)據(jù)挖掘和機器學(xué)習(xí)領(lǐng)域是急需解決的問題。
通常認為,數(shù)據(jù)的不平衡性主要體現(xiàn)在類別之間樣本數(shù)量的差異。據(jù)統(tǒng)計,在實際應(yīng)用中,小類和大類的樣本數(shù)之比可以是1 ∶100、1 ∶1000,甚至是1 ∶10000。已有許多研究表明,如此大的樣本數(shù)量差異會導(dǎo)致分類性能的降低。那么,當各類別樣本數(shù)量大致相當時,是否還會存在類別不平衡性呢?文獻[11,12]分別從理論和實驗兩個方面研究并驗證了數(shù)據(jù)偏斜不是影響分類性能的唯一因素,小類別樣本的規(guī)模大小、樣本的獨立性及類別中存在的子類等都會影響分類的性能。也就是說,數(shù)據(jù)的不平衡性不僅僅是表現(xiàn)在各類樣本數(shù)量的差異上,也包括類別規(guī)模、子類和類別交迭等。
(1)數(shù)據(jù)分布的不平衡
數(shù)據(jù)分布的不平衡或者說數(shù)據(jù)偏斜主要指類別間樣本數(shù)量的不同。已有的研究在進行數(shù)據(jù)不平衡對分類的影響分析時,多數(shù)集中在這個原因的研究上,一般用大類和小類的樣本數(shù)量之比來表示類別分布的不平衡程度,大量的研究結(jié)果表明,現(xiàn)有的分類模型在類別分布均衡時能達到較好的分類效果,而當數(shù)據(jù)分布不均衡時,都會不同程度的受到影響。但是,類別分布不平衡的程度對分類的影響目前還沒有明確的結(jié)論。文獻[11]的研究結(jié)果顯示,在某些應(yīng)用中,當小類與大類樣本數(shù)量的比率達1 ∶35時,才會影響分類效果,而在另一些應(yīng)用中,比率為1 ∶10 時,已經(jīng)明顯影響了分類效果。
(2)類別的規(guī)模
類別的規(guī)模就是指類別中樣本的數(shù)量。Yanmin Sun 等人認為[7],當類別不平衡的程度一定時,類別的規(guī)模就成為影響分類效果的主要因素了。主要原因是類別的規(guī)模受到限制時,分類規(guī)則不能覆蓋小類別中固有的一些性質(zhì),因而是不可靠的。G.E.A.P.A.Batista[9]等人通過實驗觀察指出:隨著類別規(guī)模的增長,由類別分布不平衡所造成的錯誤分類將減少;若有足夠的數(shù)據(jù)集,并且假定學(xué)習(xí)時間可接受的話,類別分布不平衡將不再是分類的障礙。
(3)類別的交迭
類別的交迭就是指類別概念間有相互重合的部分。文獻[13]通過實驗得到結(jié)論:類別分布不平衡本身不是個問題,當類別間交迭較多時,類別分布不均才會降低小類別的正確分類率。文獻[9]也得到了類似的結(jié)論:線性分類模型對類別分布不均并不敏感,但是隨著類別交迭程度的增加,分類系統(tǒng)對類別分布不平衡的敏感度也會增加。
(4)子類問題
在許多實際的分類問題中,某個類別中可能會存在幾個子類的現(xiàn)象。通常,子類的樣本數(shù)量也常常不一樣,這就構(gòu)成了類別中的不平衡問題。另外,子類間的區(qū)別一般不明顯,也就是會存在類別交迭。文獻[7]認為,以上原因會增加分類模型訓(xùn)練的復(fù)雜度。
Yanmin Sun 等人總結(jié)了目前對不平衡數(shù)據(jù)問題研究的三個方面:(1)類別不平衡問題的本質(zhì)研究,例如在什么領(lǐng)域中,數(shù)據(jù)不平衡最影響標準分類器的性能?(2)對不平衡數(shù)據(jù)問題的解決方法。(3)在面臨不平衡數(shù)據(jù)時,對分類性能合適的評估方法。在三個研究方面中,多數(shù)的研究集中于第(2)、(3)個方面,提出的解決方法可歸納為三種策略。
(1)訓(xùn)練集重構(gòu)
訓(xùn)練集重構(gòu)的主要思路是通過某種方法重新構(gòu)造訓(xùn)練集,使其達到類別平衡。目前主要是通過重取樣方法,來構(gòu)造類別分布均衡的訓(xùn)練數(shù)據(jù)集。重取樣的方法有多種,在不同的重取樣方法中主要體現(xiàn)了兩種思路[1]:對小類別進行向上取樣;對大類別進行向下取樣。向上取樣指通過增加小類別的樣本,來平衡大類別與小類別的樣本數(shù)量,降低分類器對大類別的偏好;而向下取樣則是通過減少大類別的樣本數(shù)量,來達到類別分布平衡。向上或向下取樣時,既有隨機方式也有選擇方式,還有上述方法的組合方式。不管是哪種重取樣方法,其追求的目標都是要達到各類別的樣本數(shù)量的大致相當。雖然重取樣方法在不平衡數(shù)據(jù)集的分類中經(jīng)常使用,而且被證實是比較有效的方法,但也還存在一些明顯的缺陷,例如,當類別間分布很不均衡時,向上取樣增加小類別的樣本數(shù)較大,這會增加訓(xùn)練時間,還可能會造成過適應(yīng)性;但當小類別樣本數(shù)量過少時,一味的刪除大類別中的樣本,也可能會刪除對分類有重要貢獻的樣本,損失不少信息,降低分類性能。另外,重取樣方法顯然著重考慮的是樣本數(shù)量的差異,因而對于類別規(guī)模、類別交迭和子類問題等影響分類性能的因素,重取樣方法是不能很好解決的。
(2)分類方法的改進
一般地,凡是不是對訓(xùn)練集本身進行重構(gòu)的方法,都可歸為分類方法的改進,其主要思路是通過調(diào)整分類策略,使訓(xùn)練算法對小類別重視起來。由于各種分類方法其分類原理有所不同,在面對不平衡數(shù)據(jù)時,其表現(xiàn)也會有所不同,因此,相應(yīng)的改進策略也有多種。
①改進或優(yōu)化特征選擇方法
一般的學(xué)習(xí)算法處理的基本對象就是特征,因此,特征的選取對分類精度有重要的影響。文獻[14 ~16]通過改進或優(yōu)化特征選擇方法,獲得分類器對小類別的特征重視,從而提高分類精度。
②權(quán)重潤飾
權(quán)重潤飾的主要思想是通過引入權(quán)系數(shù),調(diào)整樣本的權(quán)重或者特征的權(quán)重,獲得分類器對小樣本的重視,從而尋求達到類別的平衡狀態(tài),提高分類精度。樣本權(quán)重的調(diào)整有多種方法,例如,針對SVM相對于不平衡數(shù)據(jù),分類性能下降的問題,Veropoulos 在文獻[17]中提出了對兩個類別施加不同的懲罰系數(shù)的方法,較好地降低了樣本分布不均對整體分類性能的影響。陳曉云等提出的基于規(guī)則權(quán)重調(diào)整的關(guān)聯(lián)規(guī)則文本分類算法,使得分類質(zhì)量顯著提高[18]。
③基于一類的分類
基于一類的分類方法,一般將目標類樣本定義為正例,而將其他樣本統(tǒng)統(tǒng)定義為反例,其主要思路是僅基于正例樣本來訓(xùn)練分類模型,這類方法不是試圖在特征空間中,劃分正例和反例樣本的界限,而是努力劃清目標類的邊界。對于待分類樣本,通常度量其與目標類的相似性,當相似度超過一定閾值時,則認為其屬于目標類。神經(jīng)網(wǎng)絡(luò)、SVM 方法可以采用基于單類的學(xué)習(xí),而決策樹、Bayes、關(guān)聯(lián)規(guī)則分類方法則不適宜用單類分類方法[7]。
④基于集成學(xué)習(xí)的分類
集成學(xué)習(xí),也稱為多重學(xué)習(xí)或分類器組合,主要通過決策優(yōu)化(Dicision Optimization)或覆蓋優(yōu)化(Coverage Optimization)兩種手段將若干弱分類器的能力進行綜合,以優(yōu)化分類系統(tǒng)的總體性能[4]。Yanmin Sun 等人[7],通過為不同類設(shè)置不同的錯誤代價,提出了三種改進的AdaBoost 算法,獲得了對不平衡數(shù)據(jù)較好的分類效果。
(3)優(yōu)化評估方法
常用的評估方法,例如查準率、查全率和F1測試值,在面對不平衡數(shù)據(jù)時不能做出準確的評估[19,20]。于是,如何準確的評估分類器的分類效果,以及如何依據(jù)評估結(jié)果來優(yōu)化分類模型,成為一個研究熱點。但是,數(shù)據(jù)不平衡會對分類模型產(chǎn)生影響,所以只從公平的評估角度考慮改進評估方法本身意義不大,應(yīng)著重考慮對分類模型的改進。目前的研究,主要集中在第二個側(cè)面,即結(jié)合評估結(jié)果來優(yōu)化分類模型,例如,基于錯誤代價的分類方法[21],其基本思想是采用某種評估方法計算出上一輪分類的錯誤代價,從而調(diào)整權(quán)重或者說懲罰系數(shù)、閾值等,從而使分類器對小類別重視起來??梢姡u估方法對于錯誤代價的計算有重要的影響,而錯誤代價常被引用到分類模型中,以修正模型參數(shù)等。
綜上所述,各種數(shù)據(jù)不平衡問題的解決策略實際上是從不同角度改進分類模型,降低分類器對大類別的偏好,究竟哪種方法好,并沒有公認的結(jié)論,但從相關(guān)文獻的研究結(jié)果不難看出,數(shù)據(jù)集本身的特點及所用分類方法的原理是應(yīng)首要考慮的兩個因素。
采用文獻[22]提出的基于類別空間模型的分類方法,其基本思想是基于詞的類別權(quán)重為待分類文本打分,根據(jù)文本相對于每個類別的分值大小,將文本歸入到分值高的一類。其中,第i 個詞對第j 個類別的權(quán)重Wij為
Ni,j是第i 個特征詞在j 類文本中出現(xiàn)的文本數(shù),Nti是整個訓(xùn)練文本集中出現(xiàn)特征詞ti的文本數(shù),fij是第i 個詞語在第j 類出現(xiàn)的頻率。一篇待分類文檔相對于每一類別分值的計算公式如式(2)
式中,j 是類別編號;T 是總特征詞數(shù);Scorej就是該文檔相對于類別j 的分值。
特征選擇與詞的類別權(quán)重計算是影響該分類方法的兩個關(guān)鍵因素,而特征選擇與類別權(quán)重計算都是基于詞頻、詞的文本頻和詞的分布等統(tǒng)計特征,這些統(tǒng)計特征顯然會直接受到數(shù)據(jù)分布的平衡與否的影響??紤]到數(shù)據(jù)重取樣能很好地解決數(shù)據(jù)分布的不平衡問題,但不能有效解決類別規(guī)模、類別交迭和子類等問題,因此,提出了基于組合的不平衡數(shù)據(jù)分類方法,其基本思路如下。
第一,采取合適的數(shù)據(jù)重取樣方法構(gòu)造分布大致均衡的訓(xùn)練集;
第二,采用權(quán)重潤飾方法彌補數(shù)據(jù)重取樣不能很好解決類別規(guī)模、類別交迭和子類等問題。
隨機取樣是目前常用的數(shù)據(jù)重取樣方法,但相關(guān)文獻的研究表明:隨機向上取樣不僅會增加訓(xùn)練時間,而且可能造成分類器的過適應(yīng)問題;而隨機向下取樣可能造成信息損失。哪種取樣方法更好,目前并沒有統(tǒng)一的結(jié)論,這與實驗所用的數(shù)據(jù)及分類方法有關(guān)。鑒于此,在后續(xù)的實驗中,分別采用了隨機向上、隨機向下,以及隨機向上與隨機向下取樣組合三種方式。
權(quán)重潤飾的關(guān)鍵是計算出合適的加權(quán)系數(shù),從現(xiàn)有的研究看,加權(quán)系數(shù)的計算一般有兩類方法:一是根據(jù)數(shù)據(jù)集的分布情況計算,稱為預(yù)先計算;另一種則是根據(jù)分類結(jié)果的反饋信息計算?;谝酝难芯堪l(fā)現(xiàn),預(yù)先計算中有許多不確定性,因此,下面所用加權(quán)系數(shù)計算方法,其基本思路是根據(jù)上一輪分類結(jié)果的反饋信息來計算加權(quán)系數(shù),通過幾輪迭代,達到較高的分類精度。加權(quán)系數(shù)的計算為[23]
式中,N1、N2分別是C1 和C2 類的訓(xùn)練文本數(shù);R1(k)、R2(k)分別是第i 輪分類后C1 和C2 類中被正確分類的文本數(shù);Ej(k)是j 類中錯分為其他類的文本數(shù)。
基于上述的組合分類方法的基本思路,本文提出的基于組合的不平衡數(shù)據(jù)分類算法主要步驟是
①訓(xùn)練文本預(yù)處理。
②特征提?。?2],得到一個總的特征詞表。
③按式(1)計算每個詞對各類別的類別權(quán)重Wij。
④將待分類的文檔進行分詞等預(yù)處理。
⑤按式(2)計算待分類文檔的類別權(quán)值Scorej。
⑥比較Scorej的值,若Scorek為最大值,則輸出該文檔為類別k。
⑦根據(jù)分類結(jié)果判斷:若達到滿意的分類正確率或最大迭代次數(shù)(預(yù)先設(shè)定的),則算法結(jié)束;否則,按式(4)計算第k+1 輪加權(quán)系數(shù),則得特征詞第k +1 輪的類別權(quán)重如式(5),返回⑤。
所用數(shù)據(jù)集是從網(wǎng)上下載的關(guān)于討論“房價”的帖子,根據(jù)帖子所表達的觀點將其分成兩類:C1、C2,經(jīng)整理得到初始數(shù)據(jù)集見表1。
表1 初始數(shù)據(jù)集
從表1 可得該數(shù)據(jù)集有兩個明顯特點:(1)兩類文本數(shù)相差懸殊,C1 類與C2 類文本數(shù)比值約為6.46 ∶1,即數(shù)據(jù)分布明顯不平衡;(2)初始訓(xùn)練集總詞數(shù)為8986 個,其中C1 類有8854 個,C2 類有1033 個,兩類相同的詞有901 個,占C2 類的87.22%,即類別交迭較多。
實驗中,測試指標采用常用的查準率(P)、查全率(R),F(xiàn)1測試值。對于全局的分類結(jié)果,采用宏平均方式,即Macro-P、Macro-R 和Macro-F1[23]。
(1)實驗1
首先基于數(shù)據(jù)重取樣方法來構(gòu)造分布均衡的訓(xùn)練集:第1 組,對大類別C1 隨機向下取樣,C1、C2 各111 篇;第2 組,對小類別采用隨機復(fù)制的方法進行向上取樣,C1、C2 各718 篇;第3 組,采用組合取樣,即對大類別隨機向下取樣,對小類別隨機向上取樣,C1、C2 各360 篇。此外,為了比較重取樣方法對分類精度提高的效果,第4 組實驗基于分布不平衡的初始訓(xùn)練集。實驗中,為了克服結(jié)果的隨機性,每組實驗都做了三、四次,結(jié)果取幾次實驗的平均值?;跇?gòu)造的均衡訓(xùn)練集的分類結(jié)果與基于初始分布不平衡數(shù)據(jù)集的結(jié)果對比如圖1 所示。
圖1 基于重取樣方法的分類結(jié)果
①由圖1 可見,不管哪種重取樣方法,都明顯地提高了分類精度,表明重取樣方法較好地解決了類別間樣本數(shù)量差異對分類的影響。
②第3 組,即組合取樣的分類精度最高,第2組,即單純對小類別采取隨機復(fù)制向上取樣,分類效果最差。但不管哪種重取樣方法,當兩類文本數(shù)量大致相當時,分類精度不再提高。以隨機向上取樣為例,做了五次實驗,每次隨機復(fù)制的樣本數(shù)不同,分別是222、360、700、718、730,分類結(jié)果如圖2 所示。由圖2 可見,隨機復(fù)制小類別樣本,對分類精度的提高有一定的效果,但當小類別樣本數(shù)量增加到一定程度時,分類精度不再提高。這表明重取樣方法著力解決的是樣本數(shù)量差異對分類的影響,當類別間樣本數(shù)量大致相當時,重取樣方法對類別間數(shù)據(jù)其他的不平衡性沒有明顯作用。
圖2 基于隨機向上取樣方法的分類結(jié)果
③對比兩類的分類效果發(fā)現(xiàn)仍有較大的差別,如圖3 所示,C1 類的查全率普遍高于C2 類的,說明分類器仍偏好大類別C1。分析其原因發(fā)現(xiàn),由于C1 類的文本長度普遍大于C2 類的,因而經(jīng)過特征選擇后,兩類的特征詞數(shù)仍然相差懸殊;此外,類別間相同詞語較多,即類別交迭較多,見表2??梢姡m然此時兩類的文本分布大致均衡,但仍存在特征詞數(shù)的差異、類別交迭等其他不平衡問題,因此按照所采用的分類方法,建立的分類器仍然偏好于大類別C1。
圖3 兩類分類結(jié)果對比
表2 兩類特征詞數(shù)對比
④綜合②與③中的分析結(jié)果,表明數(shù)據(jù)重取樣方法能很好地解決樣本數(shù)量分布不均的問題,但對文本長度差異造成的特征詞數(shù)的差異、類別交迭等其他不平衡問題,不能有效解決,應(yīng)考慮結(jié)合其他方法解決類別交迭等不平衡問題。
(2)實驗2
基于重取樣和權(quán)重潤飾組合的分類結(jié)果如圖4所示,組合后的分類效果優(yōu)于單純使用重取樣的效果,兩類分類結(jié)果對比情況如圖5 所示,此時兩類的分類效果大致相當,即分類器不再偏好大類別??梢姡瑱?quán)重潤飾較好的彌補了重取樣方法對特征詞數(shù)差異、類別交迭等問題不能有效解決的不足。
對數(shù)據(jù)挖掘與機器學(xué)習(xí)領(lǐng)域中常遇到的數(shù)據(jù)不平衡問題進行了研究,在對數(shù)據(jù)不平衡性及目前解決策略的分析基礎(chǔ)上,提出了將數(shù)據(jù)重取樣與權(quán)重潤飾組合的分類方法,以降低分類模型對大類別的偏重,由相關(guān)實驗的結(jié)果可見,權(quán)重潤飾能較好地彌補重取樣方法對類別交迭等問題處理不理想的不足,組合方法有效地提高了不平衡數(shù)據(jù)的分類精度。
[1]CHAWLA N V,JAPKOWICZ N,KOTCZ A. Editorial:Special Issue on Learning from Imbalanced Data Sets[J].Sigkdd Explorations Newsletters,2004,6(1):1-6.
[2]葉志飛,文益民,呂寶糧. 不平衡分類問題研究綜述[J].智能系統(tǒng)學(xué)報,2009,4(2):148-156.
[3]林智勇,郝志峰,楊曉偉.不平衡數(shù)據(jù)分類的研究現(xiàn)狀[J].計算機應(yīng)用研究,2008,25(2):332-336.
[4]蘇金樹,張博鋒,徐昕.基于機器學(xué)習(xí)的文本分類技術(shù)研究進展[J].軟件學(xué)報,2006,17(9):1848-1859.
[5]SEBASTIANI F.Machine Learning in Automated Text Categorization[J].ACM Computing Surveys,2002,34(1):1-47.
[6]王和勇,樊泓坤,姚正安,等. 不平衡數(shù)據(jù)集的分類研究[J].計算機應(yīng)用研究,2008,25(5):1301-1304.
[7]YANMIN SUN,MOHAMED S,KAMEL,et al.Cost-Sensitive Boosting for Classification of Imbalanced Data[J].Pattern Recognition,2007(40):3358-3378.
[8]鄭恩輝,許宏,李平,等.基于v-SVM 的不平衡數(shù)據(jù)挖掘研究[J]. 浙江大學(xué)學(xué)報:工學(xué)版,2006,40(10):1682-1687.
[9]BATISTA G E A P A,PRATI R C,MONARD M C. A Study of the Behavior of Several Methods for Balancing Machine Learning Training Data[J]. SIGKDD Explorations Special Issue on Learning from Imbalanced Datasets,2004,6(1):20-29.
[10]RASKUTTI B,KOWALCZYK A.Extreme Rebalancing for SVMs:A Case Study[C]//Proceedings of European Conference on Machine learning,Pisa,Italy,2004:60-69.
[11] JOSHI M V. Learning Classifier Models for Predicting Rare Phenomena[D]. Twin Cites,MN,USA:University of Minnesota,2002.
[12]LI YANLING,SUN GUOSHE,ZHU YEHANG. Data Imbalance Problem in Text Classification[C]//Third International Symposium on Information Processing,QingDao,2010:301-305.
[13]PRATI R C,BATISTA G E A P A.Class Imbalances Versus Class Overlapping:An Analysis of a Learning System Behavior[C]//In Proceedings of the Mexican International Conference on Artificial Intelligence(MICAI),Mexico CityMexico,2004:312-321.
[14] FORMAN G. An Extensive Empirical Study of Feature Selection Metrics for Text Classification[J]. Journal of Machine Learning Research,2003,3(1):1533-7928.
[15]M DOLORES DEL CASTILLO,SERRANO J I. A Multistrategy Approach for Digital Text Categorization from Imbalanced Documents[J]. SIGKDD.Explorations Newsletter,2004,6(1):70-79.
[16]ZHENG Z,WU X,SRIHARI R.Feature Selection for Text Categorization on Imbalanced Data[J].SIGKDD Explorations,2004,6(1):80-89.
[17]VEROPOULOS K,CAMBELL C,CRISRIANINI N.Controlling the Sensitivity of Support Vector Machine[C]//Proceedings of the International Joint Conference on AI,1999:55-60.
[18]陳曉云,胡運發(fā). 規(guī)則加權(quán)的文本關(guān)聯(lián)分類[J].中文信息學(xué)報,2005,19(4):52-59.
[19] WEISS G. Mining with Rarity:A Unifying Framework[J].SIGKDD Explorations Special Issue on Learning from Imbalanced Datasets,2004,6(1):7-19.
[20] HAPKOWICZ N. Concept-Learning in the Presence of Between-Class and Within-Class Imbalances[C]//In Proceedings of the fourteenth Conference of the Canadian Society for Computational Studies of Intelligence,Ottawa,Canada,2001:67-77.
[21]LIN Y,LEE Y,WAHBA G. Support Vector Machines for Classification in Nonstandard Situations[J].March.Learn,2002,46:191-202.
[22]李艷玲,戴冠中,朱燁行.基于類別空間模型的文本傾向性分類方法[J].計算機應(yīng)用,2007,27(9):2194-2196.
[23]李艷玲,戴冠中,余梅. 基于反饋信息的特征權(quán)重調(diào)整方法[J].計算機工程,2009,35(2):206-208.