范夢瑤
(上海市地震局應(yīng)急救援保障中心,上海 200062)
利用集成分類器進行稀有類分類
范夢瑤
(上海市地震局應(yīng)急救援保障中心,上海 200062)
現(xiàn)實生活中存在很多稀有類的例子,也就是我們所說的非平衡類數(shù)據(jù),即數(shù)據(jù)中的一類樣本在數(shù)量上遠多于另一類。占少數(shù)類的數(shù)據(jù)往往具有顯著意義,例如癌癥檢測,它可以有效識別癌癥患者,對醫(yī)生做出正確的診斷有實際意義。常用的分類方法一般會產(chǎn)生偏向多數(shù)類的結(jié)果,因而對于少數(shù)類數(shù)據(jù)來說,預(yù)測的性能會很差。在分析了非平衡類數(shù)據(jù)分類問題的基礎(chǔ)上,簡要研究了利用集成分類器進行稀有類分類的相關(guān)內(nèi)容,以期為日后相關(guān)工作的順利進行提供參考。
集成分類器;數(shù)據(jù)庫;非平衡類數(shù)據(jù);召回率
數(shù)據(jù)庫中蘊藏大量信息,對數(shù)據(jù)的有效分析可以幫助人們做出明智的決定。數(shù)據(jù)挖掘的分類方法被應(yīng)用于多個領(lǐng)域,典型應(yīng)用有識別信用卡交易欺詐、預(yù)測視頻設(shè)備故障以及對視頻傳輸信號的分類、從衛(wèi)星圖像檢測油井噴發(fā)和電信領(lǐng)域客戶的流失預(yù)測等。統(tǒng)計學(xué)、機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、破壞矩陣等領(lǐng)域的研究者提出了很多分類方法。在現(xiàn)實世界的數(shù)據(jù)分類中,通常情況下,數(shù)據(jù)集中標號不同的兩類樣本的數(shù)量是不等的,甚至有著極大的差別,即數(shù)據(jù)集中的兩類是高度傾斜的或者說是非平衡的。這個問題可以描述為從一個分布極不平衡的數(shù)據(jù)集中標識出那些具有顯著意義卻很少發(fā)生的實例。例如,在網(wǎng)絡(luò)入侵中,一個計算機通過猜測一個密碼或打開一個ftp數(shù)據(jù)連接進行遠程攻擊。雖然這種網(wǎng)絡(luò)行為是不常見的,但識別并分析出這種行為對網(wǎng)絡(luò)安全的影響是很有必要的。從實例中不難看出,稀有類實例數(shù)目很少,較難提供完備的信息,常用的分類方法在分類稀有類時往往失效,這就使得分類稀有類問題變得更具有挑戰(zhàn)性。
本文既研究基于處理訓(xùn)練數(shù)據(jù)集的集成學(xué)習(xí)算法,也研究基于處理輸入特征的集成學(xué)習(xí)算法?;谔幚碛?xùn)練數(shù)據(jù)集是采用取樣技術(shù)選取不同的訓(xùn)練數(shù)據(jù),然后利用這些訓(xùn)練數(shù)據(jù)生成集成中的個體。這樣做的目的是通過選取不同的數(shù)據(jù)集來獲得個體間的差異。提升(AdaBoost)和裝袋(Bagging)是基于處理數(shù)據(jù)的典型方法。
基于處理特征是通過輸入特征的子集來形成每個訓(xùn)練集,子集隨機選擇或由領(lǐng)域?qū)<医ㄗh。隨機森林(Random Forest)和旋轉(zhuǎn)森林(Rotation Forest)是處理輸入特征的組合方法,它們都使用決策樹作為基分類器。本文在分析非平衡類數(shù)據(jù)分類問題的基礎(chǔ)上,利用上述4種集成分類算法進行稀有類分類,得出實驗結(jié)論并進行比較。
通常情況下,數(shù)據(jù)分類的應(yīng)用會遇到數(shù)據(jù)不平衡的問題,即數(shù)據(jù)中的一類樣本在數(shù)量上遠多于另一類,例如病患分類和欺詐檢測問題等。其中,少數(shù)樣本具有巨大的影響力和價值,這是我們主要關(guān)心的對象,稱為正類,另一類則稱為負類。正類樣本與負類樣本可能數(shù)量上相差極大,這就為訓(xùn)練非平衡類數(shù)據(jù)帶來了挑戰(zhàn)。常用的分類方法一般會產(chǎn)生偏向多數(shù)類的結(jié)果,因而對于正類來說,預(yù)測的性能會很差。
通常數(shù)據(jù)集中標號不同的兩類樣本的數(shù)量是不等的,甚至有極大的差別。與不平衡類問題相關(guān)的例子很多,通過衛(wèi)星圖像檢測油井噴發(fā)的數(shù)據(jù)集就是非平衡數(shù)據(jù)的一個好例子。數(shù)據(jù)顯示,937張衛(wèi)星圖像中只有41張包含浮油,我們可以說包含浮油的圖像是少數(shù)類樣本。然而,有時候少數(shù)類樣本才是我們首要關(guān)心的。由于數(shù)量上的嚴重傾斜,使用分類算法對非平衡的數(shù)據(jù)集進行分類時,其性能往往不盡如人意。不平衡類問題分類是數(shù)據(jù)挖掘中的難點問題,主要表現(xiàn)在以下5個方面。
2.1.1 不當?shù)脑u估度量
評估度量在數(shù)據(jù)挖掘中至關(guān)重要,如果評估度量不能充分評估少數(shù)類樣本,則分類算法就可能對少數(shù)類樣本處理不當。其中,分類的準確率是指被正確分類的樣本占數(shù)據(jù)集樣本總數(shù)的比例,是分類任務(wù)中最常用的評估度量,它在度量少數(shù)類時的缺點是顯而易見的。
2.1.2 缺少數(shù)據(jù)
缺少數(shù)據(jù),是指既存在絕對缺少,又存在相對缺少。非平衡數(shù)據(jù)挖掘的根本問題是,正類數(shù)據(jù)數(shù)量比較少,以至于在少數(shù)類內(nèi)部難以發(fā)現(xiàn)規(guī)律。有時候,樣本在絕對數(shù)量上并不少,但是,相對于其他類的樣本來說所占的比例很小。
2.1.3 數(shù)據(jù)分裂
許多數(shù)據(jù)挖掘算法采用將最初的問題分解得越來越小的方法,這樣做出現(xiàn)的結(jié)果就是樣本空間被分解為越來越小的部分。數(shù)據(jù)規(guī)律只能在每個單獨的數(shù)據(jù)塊中找到,這些數(shù)據(jù)塊卻只包含了較少的數(shù)據(jù),一些跨越數(shù)據(jù)塊的規(guī)律可能因此丟失,這就是數(shù)據(jù)分裂問題。這個問題在對少數(shù)類樣本進行分類時尤為突出。
2.1.4 不當?shù)臍w納偏移
將特定樣本一般化或歸納分類器,都需要一種額外的偏移。數(shù)據(jù)挖掘系統(tǒng)的偏移對其性能來說是至關(guān)重要的。據(jù)了解,許多訓(xùn)練系統(tǒng)就是利用偏移來實現(xiàn)分類器的通用化,避免過度擬合的。但是,這種偏移可能會使數(shù)據(jù)挖掘系統(tǒng)訓(xùn)練少數(shù)類樣本的能力大打折扣,產(chǎn)生不好的影響。
2.1.5 噪聲
少數(shù)類樣本數(shù)量比較少,少量的噪聲就可以影響被訓(xùn)練的子概念,這樣訓(xùn)練系統(tǒng)就不能區(qū)分特殊樣本和噪聲。如果訓(xùn)練系統(tǒng)減小其通用性,就會得到不希望得到的結(jié)果,即將噪聲數(shù)據(jù)也包含進來。因此,噪聲數(shù)據(jù)的存在使防止過度擬合技術(shù)成為必需技術(shù)之一,但是,這樣就導(dǎo)致一些“真”的少數(shù)類樣本沒有被訓(xùn)練。由此可以看出,噪聲數(shù)據(jù)對少數(shù)類樣本的影響大于普通類。
可選度量,即稀有類分類的評估標準。常用的分類算法的評估標準包括預(yù)測的準確率、可規(guī)模性和可解釋性等。對于普通類來說,我們通常使用分類器的總準確率來評價分類效果。但是,在稀有類分類問題中,我們更關(guān)注稀少目標類的正確分類率。然而對于稀有類分類問題來說,由于關(guān)注的焦點不同,僅用準確率是不合適的。所以,在評價稀有類分類時,還應(yīng)該采用其他的評價標準。通常情況下,我們使用召回率(Recall)即TPrate、精確率(Precision)即PPvalue和F-度量(F-measure)來評估稀有類分類。
召回率公式為:
精確率公式為:
F-度量(F-measure)可定義為:
式(1)(2)(3)中:TP為真正類個數(shù);FP為假正類個數(shù);FN為假負類個數(shù)。
總的來說,召回率(Recall)和精確率(Precision)是信息檢索和數(shù)據(jù)挖掘中常用的評價指標,許多系統(tǒng)同時考慮這兩者,它們在分類器評測方面所作的貢獻是很重要的。
在實際應(yīng)用中,稀有類分類問題是非常常見的。有些問題的原始數(shù)據(jù)分布就存在不平衡的情況,比如通過衛(wèi)星雷達圖片檢測海面石油油污,檢測信用卡非法交易,醫(yī)學(xué)數(shù)據(jù)檢測,發(fā)掘基因序列中編碼信息和地震應(yīng)急基礎(chǔ)數(shù)據(jù)分類等。這些問題都以稀有類的信息為關(guān)注焦點,例如,在信用卡非法交易記錄的檢測過程中,非法交易記錄是檢測的目標。但是,訓(xùn)練數(shù)據(jù)中包含大量正常的信用卡交易記錄,只有很少一部分是非法交易記錄,使用一般的模式分類方法,非法交易記錄的檢測率很低。再比如,地震應(yīng)急基礎(chǔ)數(shù)據(jù)是開展應(yīng)急工作的基礎(chǔ),是地震應(yīng)急指揮技術(shù)系統(tǒng)的重要內(nèi)容?;A(chǔ)數(shù)據(jù)包括歷史地震災(zāi)害、強震目錄、物資儲備、道路交通等,它們屬于非平衡類數(shù)據(jù),其準確性直接影響震時分析和救災(zāi)指揮的順利進行。因此,平時做好收集分類工作是十分重要的。以上種種情況都需要采用能夠適應(yīng)稀有類分類問題的分類器進行分類,而常用的分類器往往不能勝任這項工作。所以說,稀有類分類問題與每個人的生活息息相關(guān),做好這項研究有利于社會的平衡與和諧發(fā)展。
文中使用的實驗?zāi)M工具為weka實驗平臺。
為了比較4個學(xué)習(xí)算法的性能,筆者選用weka平臺中的3個不平衡數(shù)據(jù)集進行測試。這3個數(shù)據(jù)集分別為視頻信號故障數(shù)據(jù)集(video_signal_failure)、強震數(shù)據(jù)集(strong_earthquake)和網(wǎng)絡(luò)侵入數(shù)據(jù)集(network_intrusion)。這些數(shù)據(jù)集的特征如表1所示。
表1 數(shù)據(jù)集的特征
為了驗證基于數(shù)據(jù)技術(shù)和基于特征集的集成學(xué)習(xí)算法的性能,對這3個數(shù)據(jù)集(video_signal_failure,strong_earthquake和network_intrusion)使用集成學(xué)習(xí)算法(AdaBoost、 Bagging、 Rotation Forest、Random Forest)進行分類實驗研究,同時,選擇決策樹(Random Tree)作為基分類器。簡單地說,實驗過程就是比較使用集成分類器與僅使用Random Tree做分類器在分類結(jié)果上的差異。其中,稀有類都用“*”標明。具體實驗步驟如下:①在weka軟件的classifier中選擇分類器Random Tree進行試驗。實驗數(shù)據(jù)如表2所示。②在classifier中依次選擇AdaBoost、Bagging、Rotation Forest、Random Forest做分類器,同時,選擇 Random Tree作為基分類器進行實驗。實驗數(shù)據(jù)如表3所示。③修改實驗數(shù)據(jù)集為strong_earthquake,再從classifier中選擇Random Tree作為分類器開始實驗。實驗數(shù)據(jù)如表4所示。④依次更改 classifier為 AdaBoost、Bagging、Rotation Forest、Random Forest,同時,在每個分類器中選擇Random Tree作為基分類器開始實驗。實驗結(jié)果如表5所示。⑤返回第③步,選擇數(shù)據(jù)集network_intrusion,選擇分類器Random Tree開始實驗。實驗結(jié)果如表6所示。⑥具體步驟同實驗步驟④一樣,實驗數(shù)據(jù)如表7所示。至此,實驗結(jié)束。
對3個數(shù)據(jù)集使用集成分類器(AdaBoost、Bagging、Rotation Forest、Random Forest)進行分類(算法中的其他參數(shù)設(shè)置采用了weka系統(tǒng)中的默認值),分類前均選擇Random Tree作為基分類器。實驗結(jié)果分別記錄每個類的3組度量數(shù)據(jù),即召回率(Recall)、精確率(Precision)和F-度量。
觀察實驗中的分類結(jié)果可以看出,4種集成學(xué)習(xí)算法的分類性能都要優(yōu)于使用Random Tree單獨分類,也就是說,使用集成分類器分類稀有類的效果遠遠好于不使用集成分類器進行稀有類分類。同時,相比之下,基于處理輸入特征得出的度量數(shù)據(jù)要高于基于處理數(shù)據(jù)得出的。另外,在使用Random Tree做基分類器的時候,Bagging、Rotation Forest和Random Forest的精確率(Precision)比AdaBoost好,說明分類更準確。
表2 數(shù)據(jù)集video_signal_failure(Random Tree)
表3 數(shù)據(jù)集video_signal_failure
表4 數(shù)據(jù)集strong_earthquake(Random Tree)
表5 數(shù)據(jù)集strong_earthquake
表6 數(shù)據(jù)集network_intrusion(Random Tree)
表7 數(shù)據(jù)集network_intrusion
集成學(xué)習(xí)是機器學(xué)習(xí)的研究熱點之一,它既要研究基于數(shù)據(jù)技術(shù)的集成學(xué)習(xí)方法,又要研究基于處理輸入特征的學(xué)習(xí)方法。研究表明,對那些含有大量冗余特征的數(shù)據(jù)集,集成學(xué)習(xí)算法的分類效果更好。本文通過對比3種度量數(shù)據(jù),針對3個不平衡的標準數(shù)據(jù)集分析研究了基于數(shù)據(jù)和基于特征的集成學(xué)習(xí)算法。同時,為了統(tǒng)一起點,設(shè)置Random Tree作為基分類器。
結(jié)果表明,集成分類器分類稀有類的效果遠遠好于不使用集成分類器進行稀有類分類,而且Bagging、Rotation Forest和Random Forest這3個分類器的分類精確率更高。
[1]Han J,Kanber M.數(shù)據(jù)挖掘:概念與技術(shù)[M].范明,孟小峰,譯.北京:機械工業(yè)出版社,2001.
[2]Yanmin,Mobamed S.Kamel,Andrew K.C.Wong,et al.Cost-sensitive boosting for classification of imbalanced data[J].Patter Recognition,2007(10):3358-3378.
[3]Agarwal R,Joshi M V.Pnrule:A new Framework for Learning Classifier Models in Data Mining(A Case-Study in Network Intrusion Detection)[C]//In Proc.of the First SIAM Conference on Data Mining,2001.
[4]Ian H,F(xiàn)rank W E.Data Mining:Practical Machine Learning Tools and Techniques[M].2nd ed.San Francisco:Morgan Kaufmann,2005.
[5]張勇,陳婧,范夢瑤.跨網(wǎng)段視頻會議互聯(lián)互通的設(shè)計與實現(xiàn)[J].科技與創(chuàng)新,2017(17):30-31.
[6]Fan H,Ramamohanarao K.A Bayesian Approach to use Emerging Patterns for Classification[C]//In Proc of 14th Australasian Database Conference.Adelaide:Australian Computer Society,Inc,2003:39-48.
[7]Liu Chenglin.Classifier Combination Based on Confidence Transformation[J].Pattern Recognition,2005, 38(1):11-28.
[8]Aksela M,Laaksonen J.Using Diversity of Errors for Selecting Members of a Committee Classifier[J].Pattern Recognition,2006,39(4):608-623.
[9]劉艷霞,職為梅,楊亮.稀有類分類問題研究[J].微型機與應(yīng)用,2005,24(6):54-56.
范夢瑤(1988—),女,主要從事地震應(yīng)急方面的工作。
〔編輯:白潔〕
TP301.6
A
10.15913/j.cnki.kjycx.2017.24.046
2095-6835(2017)24-0046-04