交叉驗(yàn)證中類別切分不均衡對分類性能的影響分析

2013-11-21 10:38趙存秀王瑞波李濟(jì)洪

太原師范學(xué)院學(xué)報(bào)(自然科學(xué)版) 2013年1期

趙存秀王瑞波李濟(jì)洪

＊（1.山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院，山西太原030006；2.山西大學(xué) 計(jì)算中心，山西太原030006）

0 引言

統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型被廣泛使用到自然語言處理、圖像識別等應(yīng)用領(lǐng)域之中.泛化誤差（Generalization Error）是統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型的重要評價(jià)指標(biāo)，在統(tǒng)計(jì)中，泛化誤差常用交叉驗(yàn)證方法來估計(jì).早期的一些工作發(fā)現(xiàn)，留一交叉驗(yàn)證估計(jì)雖然可以作為回歸問題的漸近無偏估計(jì)，但是Shao Jun[1]的研究表明，在分類模型中不具有漸近無偏這樣良好性質(zhì).因此，Hastie T等人[2]使用五折交叉驗(yàn)證、十折交叉驗(yàn)證來估計(jì)分類模型泛化誤差.

在分類模型比較中，標(biāo)準(zhǔn)交叉驗(yàn)證方法同樣被廣泛使用.Dietterich T.G[3]系統(tǒng)地比較了 McNemar檢驗(yàn)、成對t檢驗(yàn)、標(biāo)準(zhǔn)K折交叉驗(yàn)證檢驗(yàn)和基于5×2交叉驗(yàn)證的t檢驗(yàn).他的實(shí)驗(yàn)結(jié)果表明，在分類模型比較問題上，相對其他檢驗(yàn)方法，基于5×2交叉驗(yàn)證的t檢驗(yàn)有較優(yōu)的勢.他認(rèn)為，2折交叉驗(yàn)證方法具有訓(xùn)練集之間沒有重疊、測試集的規(guī)模較大這些特點(diǎn)，并且通過5次重復(fù)實(shí)驗(yàn)來得到2折交叉驗(yàn)證估計(jì)的方差，這樣可以使t檢驗(yàn)更加有效.之后Alpaydin E.[7]提出了5×2交叉驗(yàn)證的F檢驗(yàn)方法改進(jìn)了5×2交叉驗(yàn)證t檢驗(yàn).

Gilles Celeux[4]和Padhraic Smyth[5]等工作均建議使用2折交叉驗(yàn)證來進(jìn)行模型的選擇，并且可以通過借助多次的2折交叉驗(yàn)證重復(fù)來減少2折交叉驗(yàn)證估計(jì)的方差.B.Hafidi[6]給出了重復(fù)2折交叉驗(yàn)證方法的理論性質(zhì)，他證明重復(fù)2折交叉驗(yàn)證的模型選擇方法和TIC準(zhǔn)則在一定條件下是漸近等價(jià)的.另外，如上文所述，Dietterich T.G以及E.Alpaydin[7]等人發(fā)現(xiàn)使用多次重復(fù)的2折交叉驗(yàn)證來構(gòu)造統(tǒng)計(jì)量可以有效地檢驗(yàn)出兩個(gè)分類模型之間的性能差異.

關(guān)于標(biāo)準(zhǔn)交叉驗(yàn)證估計(jì)中切分的不同對分類模型性能的影響吸引了很多研究者.L.Brei－man[8]以及C.Schaffer[9]等對分類數(shù)據(jù)在交叉驗(yàn)證集中類別分布的不同對模型的性能影響進(jìn)行了研究 .他們提出使用分層的方法來處理分類數(shù)據(jù)，使得類別在交叉驗(yàn)證集中的分布盡量均勻，這有助于減小模型性能估計(jì)的方差.N.A.Diamantidis[10]進(jìn)一步提出了無監(jiān)督的分層交叉驗(yàn)證方法修正模型性能的估計(jì).他們除了考慮分類數(shù)據(jù)類別分布均衡外，還提出了使用無監(jiān)督的方法來校正分類數(shù)據(jù)中特征矩陣的分布均衡性.

Thomas Oommen[11]詳細(xì)討論了類別抽樣偏差（Sampling Bias）和類別不均衡對2類分類問題的影響.他基于Logistic回歸分類器來研究類別抽樣偏差對模型性能估計(jì)的影響，以及總體分布中類別的不均衡對模型性能估計(jì)的影響.但他的實(shí)驗(yàn)中沒有使用標(biāo)準(zhǔn)交叉驗(yàn)證的方法來估計(jì)模型性能.在自然語言處理、信息檢索領(lǐng)域中分類模型的性能指標(biāo)一般采用準(zhǔn)確率、召回率、F值來度量.在自然語言處理中，特征（自變量）多為離散變量，相應(yīng)地在許多模型中模型的設(shè)計(jì)矩陣為0，1取值的矩陣.為此，本文基于這樣的數(shù)據(jù)，通過數(shù)值模擬，來分析2折交叉驗(yàn)證中類別不均衡對模型性能的影響情況.

1 Logistic回歸模型

Logistic回歸模型源于這樣一種愿望:通過x的線性函數(shù)對K個(gè)類的后驗(yàn)概率建模，而同時(shí)確保它們的和為1，并都在[0，1]中.該模型具有如下的形式:

該模型用K－1個(gè)對數(shù)概率確定.盡管模型使用最后一個(gè)作為概率的分母，但是分母的選擇是任意的，因?yàn)楣烙?jì)在該選擇下等價(jià).簡單的計(jì)算得到:

當(dāng)K＝2的時(shí)候，該模型特別簡單，因?yàn)橹挥幸粋€(gè)線性函數(shù).本文就是關(guān)于兩類的討論.Logistic函數(shù)的優(yōu)點(diǎn)是它能取到－∞到＋∞，然而輸出卻限制在到1之間.

2 模型的評價(jià)指標(biāo)

Marina Sokolova和Guy Lapalme針對分類模型中給出了很多評價(jià)指標(biāo).其中很多都是基于混淆矩陣提出的.表1給出的混淆矩陣度量了2類分類模型（分別用0類，1類表示）的性能，其中TP（True Positive）表示預(yù)測為1類，觀測也為1類，F(xiàn)P（False Positive）表示預(yù)測為1類觀測為0類，F(xiàn)N（False Negative）表示預(yù)測為0類觀測為1類，TN（True Negative）為預(yù)測為0類觀測為0類.

在此基礎(chǔ)上，本文主要使用了準(zhǔn)確率（precision）、召回率（recall）、F值和精確率（Accuracy）來考察分類模型的性能.論文中使用了2折交叉驗(yàn)證做估計(jì)，而且訓(xùn)練出來的模型在類別不均衡的樣本上進(jìn)行預(yù)測，會出現(xiàn)分類器將所有的分為一類，我們在此可以將交叉驗(yàn)證的兩個(gè)混淆矩陣相加后平均再計(jì)算準(zhǔn)確率（P）、召回率（R）、F值和精確率（A）.

表1 混淆矩陣

實(shí)驗(yàn)結(jié)果中給出的P1，R1，F(xiàn)1指的是對于1類而言的，相應(yīng)P2，R2，F(xiàn)2則是對0類的估計(jì)，具體給出:

在表達(dá)式中，P1表示分類器預(yù)測對1類的準(zhǔn)確率.其中，TP表示兩折中正確預(yù)測為1類的總和，F(xiàn)P表示兩折中預(yù)測為1類但是觀測為0類的總和.P2表示分類器預(yù)測對0類的準(zhǔn)確率.

召回率＝預(yù)測正確的某類別個(gè)數(shù)／測試集中該類別總數(shù)

在表達(dá)式中，R1表示分類器預(yù)測對1類的召回率.其中，TP表示兩折中正確預(yù)測為1類的總和，F(xiàn)N表示兩折中預(yù)測為0類但是觀測為1類的總和.R2表示分類器預(yù)測對0類的準(zhǔn)確率.

精確率（A）是指該分類器正確預(yù)測對的所有類別數(shù)與總的樣本個(gè)數(shù)的比值.

3 模擬實(shí)驗(yàn)設(shè)置

本文的數(shù)據(jù)產(chǎn)生方式借鑒了Agresti A[12]等的工作.與該工作不同，本文主要考慮兩個(gè)預(yù)測變量的情況.設(shè)模擬數(shù)據(jù)樣本為（yi，xi），1≤i≤n，其中＝（xi1，xi2）為兩維的預(yù)測變量且xi1～B（1，p1），xi2～B（1，p2）對于每個(gè)觀測的相應(yīng)變量，本文假設(shè)yi｜xi～B（1，π（xi，α，β））其中，參數(shù)π（xi，α，β）根據(jù) Logistic回歸模型進(jìn)行設(shè)定

α，βT＝（β1，β2）是待定的回歸系數(shù).

為了產(chǎn)生出類別分布不同的樣本，本文對xi1，xi2的先驗(yàn)分布中的參數(shù)p1，p2以及模型回歸系數(shù)進(jìn)行了調(diào)整，具體見表2.

表2 參數(shù)設(shè)置

需要指出的是，上述的參數(shù)設(shè)置只能近似地得到相應(yīng)的分布比例.本文分別模擬類別分布比例不同（樣本容量n＝1 000）的四種樣本集，即50∶50，60∶40，70∶30，80∶20.然后，使用2折交叉驗(yàn)證，對這些數(shù)據(jù)進(jìn)行切分，人為設(shè)置上述四種樣本集中的數(shù)據(jù)在2折交叉驗(yàn)證中分割的類別規(guī)律為:一份中負(fù)例所占總體負(fù)例個(gè)數(shù)的0.5，0.6，0.7，0.8，0.9倍.以便于考察在樣本中類別比例不同的情況下，2折交叉驗(yàn)證對模型性能的影響.模擬數(shù)據(jù)的產(chǎn)生采用R軟件中的rbinom函數(shù)，做擬合的時(shí)候使用的是glm函數(shù).

4 實(shí)驗(yàn)結(jié)果及分析

在模擬實(shí)驗(yàn)中，取4個(gè)總體，按照表1中實(shí)驗(yàn)參數(shù)設(shè)置，其中y的類別比例大致分別為50∶50，60∶40，70∶30，80∶20，分別產(chǎn)生模擬數(shù)據(jù)n＝1 000，然后對每個(gè)總體我們按其中一份中0類個(gè)數(shù)占總體0類的不同比例來切分2份作交叉驗(yàn)證，做5次實(shí)驗(yàn)（0.5是指第一份中0類所占的比例是總體1 000中0類個(gè)數(shù)的50%.0.6，0.7，0.8，0.9同理），每次取兩次交叉實(shí)驗(yàn)所得的混淆矩陣的和的均值作最后的估計(jì).

圖1 4種比例下各指標(biāo)的比較

表3 4個(gè)總體2份切分的兩類別個(gè)數(shù)分布

我們統(tǒng)計(jì)了對于每次實(shí)驗(yàn)每份中的類別個(gè)數(shù)如表3，從表3中可以看出4個(gè)總體類別比例大致為50∶50，60∶40，70∶30，80∶20.而且我們可以看出在0.5的時(shí)候，兩份中0類和1類的比例和總體是一致的，但是兩份切分隨著第一份中0類的增加，1類的減少，第二份中0類的減少，1類的增加，使得每種分類類別越來越不均衡也即是與總體類別比例有了差別.

在每種類別比例下使用2折交叉驗(yàn)證，運(yùn)用Logistic回歸模型，使用準(zhǔn)確率、召回率、F值和精確率作評價(jià)估計(jì)分類器的好壞，得到結(jié)果表4以及圖1.從表4中大體可以看到隨著切分比例的不均衡，準(zhǔn)確率、召回率和F值在逐漸的減小，精確率也在減小，但是也存在幾個(gè)異常的值，在表4中紅色字體標(biāo)出.更重要的是在4個(gè)實(shí)驗(yàn)中，隨著總體類別比例的差異，精確率在增加，1類的準(zhǔn)確率、召回率、F值逐漸的增加，而類的準(zhǔn)確率、召回率、F卻逐漸的減小.

表4 實(shí)驗(yàn)結(jié)果

本文模擬的4個(gè)總體內(nèi)兩類別越來越不均衡，對每個(gè)總體做2折交叉驗(yàn)證的時(shí)候，人為地切分，使得兩份之間類別比例有差異并且與總體類別也有差異，出現(xiàn)了類別分割不均衡的情況，在此我們從實(shí)驗(yàn)結(jié)果表4以及圖1中可以得出:

1）在4個(gè)總體類別分布不相同的實(shí)驗(yàn)中，都隨著類別分割不均衡，準(zhǔn)確率、召回率和F值在逐漸的減小，精確率也在減小.因此，在使用2折交叉驗(yàn)證時(shí)，總體的切分對分類器的性能是有影響的.

2）對4個(gè)總體類別分布不同的總體，隨著總體類別分布的差異越大，精確率在增加，1類的準(zhǔn)確率、召回率、F值也逐漸的增加，而類的準(zhǔn)確率、召回率、F值卻逐漸地減小.

3）在實(shí)驗(yàn)一中0.8的時(shí)候所有評價(jià)指標(biāo)都會有明顯地減小，而實(shí)驗(yàn)二中，在0.9的情況下，精確率也會有明顯的減小，但是，實(shí)驗(yàn)3和實(shí)驗(yàn)4的時(shí)候不會出現(xiàn).這可能與2折類別分割的兩類的比例與總體兩類類別比例之間差異程度有關(guān)，差異越大，指標(biāo)就變化越大.

4）切分時(shí)與總體類別分布越一致，影響越小，而不是在兩份中兩類類別比例越接近，分類器效果最好.說明實(shí)驗(yàn)中，應(yīng)盡可能地切分成與總體的兩類比例一致的兩份來做實(shí)驗(yàn).

5 總結(jié)與展望

我們分析了總體不均衡和類別分割不均衡對Logistic分類器的性能影響.方法采用了模擬多種類別不均衡情形下的Logistic回歸模型數(shù)據(jù)，我們對模擬數(shù)據(jù)人為的類別分割為2份，做交叉驗(yàn)證，實(shí)驗(yàn)結(jié)果表明當(dāng)2折交叉驗(yàn)證中數(shù)據(jù)的類別分布與總體類別相差較大的時(shí)候，模型性能的估計(jì)明顯變差.因此在實(shí)驗(yàn)中切分?jǐn)?shù)據(jù)時(shí)每份數(shù)據(jù)應(yīng)盡量保持與總體類別分布一致.

接下來的工作集中在如何從樣本中識別原總體的類別分布.以及在高維數(shù)據(jù)的時(shí)候，會不會有相同的實(shí)驗(yàn)結(jié)果，又應(yīng)該如何切分?jǐn)?shù)據(jù)，這是我們進(jìn)一步要研究的內(nèi)容.

[1]Shao Jun，Rao J N K.Standard errors for low income proportions estimated from stratified multi－stage samples[J].The Indian Journal of Statistics 1993，55:393－414

[2]Hastie T，Tibshirani R.The elements of statistical learning[J].The Mathematical Iutelligencer，2005，27（2）:83－85

[3]Dietterich T G.Approximate statistical tests for comparing supervised cassification learning algorithms[J].MIT Press，1998，10:1 895－1 924

[4]Guillaume Bouchard，Gilles Celeux.Choosing a model in a classifcation purpose[C].International Environmental Modelling and Software Society（iEMSS），Ottawa，David A Swayne，Wanhong Yong，Voinov A A，F(xiàn):Latova，2010:2 046－2 056

[5]Padhraic Smyth.Model selection for probabilistic clustering using cross－validated likelihood.Statistics and Compution[J].Journal of the American Statistical Association，2002，97:63－72

[6]Hafidi B，Mkhadri A.Repeated half sampling criterion for model selection[J].The Indian Journal of Statistics，2004，66:566－581

[7]Alpaydin E.Combined 5x2CVFtest for comparing supervised classification learning algorithms[J].Massachusetts Institute of Technogy，1999，11（8）:1 885－1 892

[8]Breiman L，Spector P.Submodel Selection and Evaluation in Regression[J].Wiley Interdisciplinary Reviews，2011，1（1）:14－23

[9]Schaffer C.Selecting a Classification Method by Cross－Validation[J].Machine Learning，1993，13:135－143

[10]Diamantidis N A，Karlis D，Giakoumakis E A.Unsupervised Stratification of Cross－Validation for Accuracy Estimation[J].Artificial Intelligence，2000，116:1－16

[11]Thomas Oommen，Laurie G Baise，Richard M Vogel.Sampling bias and class imbalance in maximum－likely－h(huán)ood logistic regression[J].Math Geosci，2011，43:99－120

[12]Agresti A Wiley.Series in Probability and Statistics[EB／OL].http:∥onlinelibrary.wiley.com／doi／co，publis hed online:2008－05－27