趙存秀 王瑞波 李濟(jì)洪
*(1.山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山西 太原030006;2.山西大學(xué) 計(jì)算中心,山西 太原030006)
統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型被廣泛使用到自然語言處理、圖像識別等應(yīng)用領(lǐng)域之中.泛化誤差(Generalization Error)是統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型的重要評價(jià)指標(biāo),在統(tǒng)計(jì)中,泛化誤差常用交叉驗(yàn)證方法來估計(jì).早期的一些工作發(fā)現(xiàn),留一交叉驗(yàn)證估計(jì)雖然可以作為回歸問題的漸近無偏估計(jì),但是Shao Jun[1]的研究表明,在分類模型中不具有漸近無偏這樣良好性質(zhì).因此,Hastie T等人[2]使用五折交叉驗(yàn)證、十折交叉驗(yàn)證來估計(jì)分類模型泛化誤差.
在分類模型比較中,標(biāo)準(zhǔn)交叉驗(yàn)證方法同樣被廣泛使用.Dietterich T.G[3]系統(tǒng)地比較了 McNemar檢驗(yàn)、成對t檢驗(yàn)、標(biāo)準(zhǔn)K折交叉驗(yàn)證檢驗(yàn)和基于5×2交叉驗(yàn)證的t檢驗(yàn).他的實(shí)驗(yàn)結(jié)果表明,在分類模型比較問題上,相對其他檢驗(yàn)方法,基于5×2交叉驗(yàn)證的t檢驗(yàn)有較優(yōu)的勢.他認(rèn)為,2折交叉驗(yàn)證方法具有訓(xùn)練集之間沒有重疊、測試集的規(guī)模較大這些特點(diǎn),并且通過5次重復(fù)實(shí)驗(yàn)來得到2折交叉驗(yàn)證估計(jì)的方差,這樣可以使t檢驗(yàn)更加有效.之后Alpaydin E.[7]提出了5×2交叉驗(yàn)證的F檢驗(yàn)方法改進(jìn)了5×2交叉驗(yàn)證t檢驗(yàn).
Gilles Celeux[4]和Padhraic Smyth[5]等工作均建議使用2折交叉驗(yàn)證來進(jìn)行模型的選擇,并且可以通過借助多次的2折交叉驗(yàn)證重復(fù)來減少2折交叉驗(yàn)證估計(jì)的方差.B.Hafidi[6]給出了重復(fù)2折交叉驗(yàn)證方法的理論性質(zhì),他證明重復(fù)2折交叉驗(yàn)證的模型選擇方法和TIC準(zhǔn)則在一定條件下是漸近等價(jià)的.另外,如上文所述,Dietterich T.G以及E.Alpaydin[7]等人發(fā)現(xiàn)使用多次重復(fù)的2折交叉驗(yàn)證來構(gòu)造統(tǒng)計(jì)量可以有效地檢驗(yàn)出兩個(gè)分類模型之間的性能差異.
關(guān)于標(biāo)準(zhǔn)交叉驗(yàn)證估計(jì)中切分的不同對分類模型性能的影響吸引了很多研究者.L.Brei-man[8]以及C.Schaffer[9]等對分類數(shù)據(jù)在交叉驗(yàn)證集中類別分布的不同對模型的性能影響進(jìn)行了研究 .他們提出使用分層的方法來處理分類數(shù)據(jù),使得類別在交叉驗(yàn)證集中的分布盡量均勻,這有助于減小模型性能估計(jì)的方差.N.A.Diamantidis[10]進(jìn)一步提出了無監(jiān)督的分層交叉驗(yàn)證方法修正模型性能的估計(jì).他們除了考慮分類數(shù)據(jù)類別分布均衡外,還提出了使用無監(jiān)督的方法來校正分類數(shù)據(jù)中特征矩陣的分布均衡性.
Thomas Oommen[11]詳細(xì)討論了類別抽樣偏差(Sampling Bias)和類別不均衡對2類分類問題的影響.他基于Logistic回歸分類器來研究類別抽樣偏差對模型性能估計(jì)的影響,以及總體分布中類別的不均衡對模型性能估計(jì)的影響.但他的實(shí)驗(yàn)中沒有使用標(biāo)準(zhǔn)交叉驗(yàn)證的方法來估計(jì)模型性能.在自然語言處理、信息檢索領(lǐng)域中分類模型的性能指標(biāo)一般采用準(zhǔn)確率、召回率、F值來度量.在自然語言處理中,特征(自變量)多為離散變量,相應(yīng)地在許多模型中模型的設(shè)計(jì)矩陣為0,1取值的矩陣.為此,本文基于這樣的數(shù)據(jù),通過數(shù)值模擬,來分析2折交叉驗(yàn)證中類別不均衡對模型性能的影響情況.
Logistic回歸模型源于這樣一種愿望:通過x的線性函數(shù)對K個(gè)類的后驗(yàn)概率建模,而同時(shí)確保它們的和為1,并都在[0,1]中.該模型具有如下的形式:
該模型用K-1個(gè)對數(shù)概率確定.盡管模型使用最后一個(gè)作為概率的分母,但是分母的選擇是任意的,因?yàn)楣烙?jì)在該選擇下等價(jià).簡單的計(jì)算得到:
當(dāng)K=2的時(shí)候,該模型特別簡單,因?yàn)橹挥幸粋€(gè)線性函數(shù).本文就是關(guān)于兩類的討論.Logistic函數(shù)的優(yōu)點(diǎn)是它能取到-∞到+∞,然而輸出卻限制在到1之間.
Marina Sokolova和Guy Lapalme針對分類模型中給出了很多評價(jià)指標(biāo).其中很多都是基于混淆矩陣提出的.表1給出的混淆矩陣度量了2類分類模型(分別用0類,1類表示)的性能,其中TP(True Positive)表示預(yù)測為1類,觀測也為1類,F(xiàn)P(False Positive)表示預(yù)測為1類觀測為0類,F(xiàn)N(False Negative)表示預(yù)測為0類觀測為1類,TN(True Negative)為預(yù)測為0類觀測為0類.
在此基礎(chǔ)上,本文主要使用了準(zhǔn)確率(precision)、召回率(recall)、F值和精確率(Accuracy)來考察分類模型的性能.論文中使用了2折交叉驗(yàn)證做估計(jì),而且訓(xùn)練出來的模型在類別不均衡的樣本上進(jìn)行預(yù)測,會出現(xiàn)分類器將所有的分為一類,我們在此可以將交叉驗(yàn)證的兩個(gè)混淆矩陣相加后平均再計(jì)算準(zhǔn)確率(P)、召回率(R)、F值和精確率(A).
表1 混淆矩陣
實(shí)驗(yàn)結(jié)果中給出的P1,R1,F(xiàn)1指的是對于1類而言的,相應(yīng)P2,R2,F(xiàn)2則是對0類的估計(jì),具體給出:
在表達(dá)式中,P1表示分類器預(yù)測對1類的準(zhǔn)確率.其中,TP表示兩折中正確預(yù)測為1類的總和,F(xiàn)P表示兩折中預(yù)測為1類但是觀測為0類的總和.P2表示分類器預(yù)測對0類的準(zhǔn)確率.
召回率=預(yù)測正確的某類別個(gè)數(shù)/測試集中該類別總數(shù)
在表達(dá)式中,R1表示分類器預(yù)測對1類的召回率.其中,TP表示兩折中正確預(yù)測為1類的總和,F(xiàn)N表示兩折中預(yù)測為0類但是觀測為1類的總和.R2表示分類器預(yù)測對0類的準(zhǔn)確率.
精確率(A)是指該分類器正確預(yù)測對的所有類別數(shù)與總的樣本個(gè)數(shù)的比值.
本文的數(shù)據(jù)產(chǎn)生方式借鑒了Agresti A[12]等的工作.與該工作不同,本文主要考慮兩個(gè)預(yù)測變量的情況.設(shè)模擬數(shù)據(jù)樣本為(yi,xi),1≤i≤n,其中=(xi1,xi2)為兩維的預(yù)測變量且xi1~B(1,p1),xi2~B(1,p2)對于每個(gè)觀測的相應(yīng)變量,本文假設(shè)yi|xi~B(1,π(xi,α,β))其中,參數(shù)π(xi,α,β)根據(jù) Logistic回歸模型進(jìn)行設(shè)定
α,βT=(β1,β2)是待定的回歸系數(shù).
為了產(chǎn)生出類別分布不同的樣本,本文對xi1,xi2的先驗(yàn)分布中的參數(shù)p1,p2以及模型回歸系數(shù)進(jìn)行了調(diào)整,具體見表2.
表2 參數(shù)設(shè)置
需要指出的是,上述的參數(shù)設(shè)置只能近似地得到相應(yīng)的分布比例.本文分別模擬類別分布比例不同(樣本容量n=1 000)的四種樣本集,即50∶50,60∶40,70∶30,80∶20.然后,使用2折交叉驗(yàn)證,對這些數(shù)據(jù)進(jìn)行切分,人為設(shè)置上述四種樣本集中的數(shù)據(jù)在2折交叉驗(yàn)證中分割的類別規(guī)律為:一份中負(fù)例所占總體負(fù)例個(gè)數(shù)的0.5,0.6,0.7,0.8,0.9倍.以便于考察在樣本中類別比例不同的情況下,2折交叉驗(yàn)證對模型性能的影響.模擬數(shù)據(jù)的產(chǎn)生采用R軟件中的rbinom函數(shù),做擬合的時(shí)候使用的是glm函數(shù).
在模擬實(shí)驗(yàn)中,取4個(gè)總體,按照表1中實(shí)驗(yàn)參數(shù)設(shè)置,其中y的類別比例大致分別為50∶50,60∶40,70∶30,80∶20,分別產(chǎn)生模擬數(shù)據(jù)n=1 000,然后對每個(gè)總體我們按其中一份中0類個(gè)數(shù)占總體0類的不同比例來切分2份作交叉驗(yàn)證,做5次實(shí)驗(yàn)(0.5是指第一份中0類所占的比例是總體1 000中0類個(gè)數(shù)的50%.0.6,0.7,0.8,0.9同理),每次取兩次交叉實(shí)驗(yàn)所得的混淆矩陣的和的均值作最后的估計(jì).
圖1 4種比例下各指標(biāo)的比較
表3 4個(gè)總體2份切分的兩類別個(gè)數(shù)分布
我們統(tǒng)計(jì)了對于每次實(shí)驗(yàn)每份中的類別個(gè)數(shù)如表3,從表3中可以看出4個(gè)總體類別比例大致為50∶50,60∶40,70∶30,80∶20.而且我們可以看出在0.5的時(shí)候,兩份中0類和1類的比例和總體是一致的,但是兩份切分隨著第一份中0類的增加,1類的減少,第二份中0類的減少,1類的增加,使得每種分類類別越來越不均衡也即是與總體類別比例有了差別.
在每種類別比例下使用2折交叉驗(yàn)證,運(yùn)用Logistic回歸模型,使用準(zhǔn)確率、召回率、F值和精確率作評價(jià)估計(jì)分類器的好壞,得到結(jié)果表4以及圖1.從表4中大體可以看到隨著切分比例的不均衡,準(zhǔn)確率、召回率和F值在逐漸的減小,精確率也在減小,但是也存在幾個(gè)異常的值,在表4中紅色字體標(biāo)出.更重要的是在4個(gè)實(shí)驗(yàn)中,隨著總體類別比例的差異,精確率在增加,1類的準(zhǔn)確率、召回率、F值逐漸的增加,而類的準(zhǔn)確率、召回率、F卻逐漸的減小.
表4 實(shí)驗(yàn)結(jié)果
本文模擬的4個(gè)總體內(nèi)兩類別越來越不均衡,對每個(gè)總體做2折交叉驗(yàn)證的時(shí)候,人為地切分,使得兩份之間類別比例有差異并且與總體類別也有差異,出現(xiàn)了類別分割不均衡的情況,在此我們從實(shí)驗(yàn)結(jié)果表4以及圖1中可以得出:
1)在4個(gè)總體類別分布不相同的實(shí)驗(yàn)中,都隨著類別分割不均衡,準(zhǔn)確率、召回率和F值在逐漸的減小,精確率也在減小.因此,在使用2折交叉驗(yàn)證時(shí),總體的切分對分類器的性能是有影響的.
2)對4個(gè)總體類別分布不同的總體,隨著總體類別分布的差異越大,精確率在增加,1類的準(zhǔn)確率、召回率、F值也逐漸的增加,而類的準(zhǔn)確率、召回率、F值卻逐漸地減小.
3)在實(shí)驗(yàn)一中0.8的時(shí)候所有評價(jià)指標(biāo)都會有明顯地減小,而實(shí)驗(yàn)二中,在0.9的情況下,精確率也會有明顯的減小,但是,實(shí)驗(yàn)3和實(shí)驗(yàn)4的時(shí)候不會出現(xiàn).這可能與2折類別分割的兩類的比例與總體兩類類別比例之間差異程度有關(guān),差異越大,指標(biāo)就變化越大.
4)切分時(shí)與總體類別分布越一致,影響越小,而不是在兩份中兩類類別比例越接近,分類器效果最好.說明實(shí)驗(yàn)中,應(yīng)盡可能地切分成與總體的兩類比例一致的兩份來做實(shí)驗(yàn).
我們分析了總體不均衡和類別分割不均衡對Logistic分類器的性能影響.方法采用了模擬多種類別不均衡情形下的Logistic回歸模型數(shù)據(jù),我們對模擬數(shù)據(jù)人為的類別分割為2份,做交叉驗(yàn)證,實(shí)驗(yàn)結(jié)果表明當(dāng)2折交叉驗(yàn)證中數(shù)據(jù)的類別分布與總體類別相差較大的時(shí)候,模型性能的估計(jì)明顯變差.因此在實(shí)驗(yàn)中切分?jǐn)?shù)據(jù)時(shí)每份數(shù)據(jù)應(yīng)盡量保持與總體類別分布一致.
接下來的工作集中在如何從樣本中識別原總體的類別分布.以及在高維數(shù)據(jù)的時(shí)候,會不會有相同的實(shí)驗(yàn)結(jié)果,又應(yīng)該如何切分?jǐn)?shù)據(jù),這是我們進(jìn)一步要研究的內(nèi)容.
[1]Shao Jun,Rao J N K.Standard errors for low income proportions estimated from stratified multi-stage samples[J].The Indian Journal of Statistics 1993,55:393-414
[2]Hastie T,Tibshirani R.The elements of statistical learning[J].The Mathematical Iutelligencer,2005,27(2):83-85
[3]Dietterich T G.Approximate statistical tests for comparing supervised cassification learning algorithms[J].MIT Press,1998,10:1 895-1 924
[4]Guillaume Bouchard,Gilles Celeux.Choosing a model in a classifcation purpose[C].International Environmental Modelling and Software Society(iEMSS),Ottawa,David A Swayne,Wanhong Yong,Voinov A A,F(xiàn):Latova,2010:2 046-2 056
[5]Padhraic Smyth.Model selection for probabilistic clustering using cross-validated likelihood.Statistics and Compution[J].Journal of the American Statistical Association,2002,97:63-72
[6]Hafidi B,Mkhadri A.Repeated half sampling criterion for model selection[J].The Indian Journal of Statistics,2004,66:566-581
[7]Alpaydin E.Combined 5x2CVFtest for comparing supervised classification learning algorithms[J].Massachusetts Institute of Technogy,1999,11(8):1 885-1 892
[8]Breiman L,Spector P.Submodel Selection and Evaluation in Regression[J].Wiley Interdisciplinary Reviews,2011,1(1):14-23
[9]Schaffer C.Selecting a Classification Method by Cross-Validation[J].Machine Learning,1993,13:135-143
[10]Diamantidis N A,Karlis D,Giakoumakis E A.Unsupervised Stratification of Cross-Validation for Accuracy Estimation[J].Artificial Intelligence,2000,116:1-16
[11]Thomas Oommen,Laurie G Baise,Richard M Vogel.Sampling bias and class imbalance in maximum-likely-h(huán)ood logistic regression[J].Math Geosci,2011,43:99-120
[12]Agresti A Wiley.Series in Probability and Statistics[EB/OL].http:∥onlinelibrary.wiley.com/doi/co,publis hed online:2008-05-27