(廣東財經(jīng)大學(xué) 廣東 廣州 510320)
隨著大數(shù)據(jù)時代的到來,現(xiàn)實生活中充斥著各種各樣結(jié)構(gòu)化與非結(jié)構(gòu)化的數(shù)據(jù),如何有效的處理各種不同類型的數(shù)據(jù)顯得極為關(guān)鍵。數(shù)據(jù)分類作為數(shù)據(jù)挖掘體系中極為重要的一部分,雖然傳統(tǒng)的分類算法對于各類別分布較為均勻的數(shù)據(jù)能表現(xiàn)出較好的分類性能,但對于類別分布極不均勻的數(shù)據(jù),其中傳統(tǒng)分類算法以總體精度作為優(yōu)化目標,很容易造成大量的少數(shù)類樣本被錯誤分類的現(xiàn)象。例如在金融信用違約用戶監(jiān)測的過程中,樣本中未違約用戶的數(shù)量遠遠高于違約用戶,傳統(tǒng)分類算法極易傾向于將所有樣本均判定為多數(shù)類,由此模型可以得到較高的總體分類精度。對于異常檢測等問題,無法將少數(shù)類樣本準確識別出來,模型具有再高的總體分類精度都沒有實際應(yīng)用價值。這類數(shù)據(jù)廣泛的存在于現(xiàn)實應(yīng)用領(lǐng)域,包括癌癥監(jiān)測、金融欺詐監(jiān)測、網(wǎng)絡(luò)入侵監(jiān)測等。在癌癥監(jiān)測問題上,如果將癌癥病人錯誤分類,錯過了醫(yī)治的最佳時間,將會付出更大的代價。因此不平衡數(shù)據(jù)分類的研究具有很強的社會意義,可以廣泛應(yīng)用于社會中的各個領(lǐng)域并產(chǎn)生價值。
目前應(yīng)用比較成熟的分類算法有決策樹、K近鄰、樸素貝葉斯分類器、SVM、神經(jīng)網(wǎng)絡(luò)以及集成學(xué)習(xí)等,傳統(tǒng)算法都是基于兩個前提假設(shè):1.樣本數(shù)據(jù)內(nèi)各個類的分布情況大致均勻。2.各個類別被錯誤分類的代價基本相同。對于分類模型的性能評價指標以總體分類準確率作為核心指標,由此會對不平衡數(shù)據(jù)會產(chǎn)生較高的少數(shù)類樣本錯分率。國內(nèi)外學(xué)者對于不平衡數(shù)據(jù)分類總要從數(shù)據(jù)預(yù)處理、代價敏感參數(shù)、單類別學(xué)習(xí)與集成學(xué)習(xí)四個方面展開。本文通過構(gòu)建不平衡數(shù)據(jù)框架的分類器來處理UCI中近5個不平衡數(shù)據(jù)集,通過與傳統(tǒng)分類算法進行比較驗證有效性。
最近鄰降噪濾波不平衡數(shù)據(jù)處理框架包括對于多數(shù)類樣本進行欠采樣與對于少數(shù)類樣本進行降噪濾波處理,然后將處理后的數(shù)據(jù)進行分類并通過交叉驗證計算分類的性能。傳統(tǒng)的欠采樣往往會全部使用少數(shù)類樣本來進行模型的訓(xùn)練,但少數(shù)類樣本中存在一些噪聲會降低分類器的性能。通過構(gòu)建KNN降噪濾波過濾器來剔除噪聲以提高分類器的整體性能。
(一)少數(shù)類樣本降噪濾波處理。對于不平衡數(shù)據(jù)最基本的處理就是將多數(shù)類樣本通過欠采樣,由此使數(shù)據(jù)中各類樣本的分布基本均勻。但往往忽視了少數(shù)類樣本中存在的噪聲,有效確認少數(shù)類樣本中的噪聲并剔除將提高對于不平衡數(shù)據(jù)的分類性能?;舅悸窞榕袛嗄硞€少數(shù)類樣本附近的K個近鄰樣本中少數(shù)類樣本的占比將此少數(shù)類樣本劃分為有效少數(shù)類樣本、相對有效少數(shù)類樣本、噪聲少數(shù)類樣本三類。其中有效少數(shù)類樣本的K個近鄰全是少數(shù)類樣本而噪聲少數(shù)類樣本的K個近鄰全是多數(shù)類樣本。
算法步驟:輸入不平衡樣本數(shù)據(jù),少數(shù)類樣本記為Sm,多數(shù)類樣本記為SM,其中選擇的近鄰數(shù)記為K。對于i=1∶|Sm|,計算少數(shù)類Sm中各個樣本的K個近鄰以及其中含有多數(shù)類樣本的個數(shù)。將其中K個近鄰全是多數(shù)類的樣本進行標記,然后剔除。輸出通過降噪濾波過后的樣本數(shù)據(jù)。
經(jīng)典的欠采樣方法包括Undersampling、RUSBoost、UnderBagging、EasyEnsemble等。但欠采樣存在一個缺點是隨機欠采樣過程中容易將有價值的樣本點給遺漏,使得樣本失真,無法最大程度還原樣本原始特征。
Undersampling通過隨機從多數(shù)類中隨機抽取樣本從而減少多數(shù)類中的樣本數(shù)量來實現(xiàn)樣本內(nèi)各類數(shù)據(jù)均衡。EasyEnsemble通過不斷從多數(shù)類中抽取樣本,使得每個模型的多數(shù)類和少數(shù)類樣本數(shù)量基本均衡,然后將多個模型集成起來。RUSBoost通過Adaboost作為基礎(chǔ)分類器對樣本進行集成學(xué)習(xí)進行樣本欠采樣。UnderBagging通過bagging的方式有放回地采樣進行,來實現(xiàn)樣本的欠采樣。
為了證明降噪濾波器的有效性,選擇了5組UCI標準數(shù)據(jù)集進行測試,通過十折交叉驗證計算出AUC值。AUC指標是Roc曲線下面所包含的面積,AUC指標越大表示分類的性能越好,通常AUC等于1為完美分類器,AUC位于0.5至1之間優(yōu)于隨機分類器,AUC位于0至0.5之間差于隨機分類器。
數(shù)據(jù)集UBUB-KFRUSBRUSB-KFUBUB-KFEEEE-KFPrima0.7570.7830.7450.760.7230.7330.8120.813Haberman0.6190.6450.660.660.6010.6250.6640.689Cmc0.6630.690.680.7010.6330.6510.70.735Yeast0.9540.9640.950.9630.9200.9270.9620.978Zernike0.8710.8740.870.8340.8360.8510.9010.989
從各個數(shù)據(jù)集的AUC值可以發(fā)現(xiàn),KF最近鄰降噪濾波器的效果顯著,提高的傳統(tǒng)分類算法的性能,其中結(jié)合了EasyEnsemble的的分類器性能在各個數(shù)據(jù)中都表現(xiàn)優(yōu)異。對于不平衡數(shù)據(jù),多數(shù)類通過EasyEnsemble方法欠采樣并且對于少數(shù)類樣本通過最近鄰降噪濾波器來消除噪聲可以顯著提高分類器的性能。