国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

交叉驗(yàn)證中類別切分不均衡對分類性能的影響分析

2013-11-21 10:38趙存秀王瑞波李濟(jì)洪
關(guān)鍵詞:總體分類器類別

趙存秀 王瑞波 李濟(jì)洪

*(1.山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山西 太原030006;2.山西大學(xué) 計(jì)算中心,山西 太原030006)

0 引言

統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型被廣泛使用到自然語言處理、圖像識別等應(yīng)用領(lǐng)域之中.泛化誤差(Generalization Error)是統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型的重要評價(jià)指標(biāo),在統(tǒng)計(jì)中,泛化誤差常用交叉驗(yàn)證方法來估計(jì).早期的一些工作發(fā)現(xiàn),留一交叉驗(yàn)證估計(jì)雖然可以作為回歸問題的漸近無偏估計(jì),但是Shao Jun[1]的研究表明,在分類模型中不具有漸近無偏這樣良好性質(zhì).因此,Hastie T等人[2]使用五折交叉驗(yàn)證、十折交叉驗(yàn)證來估計(jì)分類模型泛化誤差.

在分類模型比較中,標(biāo)準(zhǔn)交叉驗(yàn)證方法同樣被廣泛使用.Dietterich T.G[3]系統(tǒng)地比較了 McNemar檢驗(yàn)、成對t檢驗(yàn)、標(biāo)準(zhǔn)K折交叉驗(yàn)證檢驗(yàn)和基于5×2交叉驗(yàn)證的t檢驗(yàn).他的實(shí)驗(yàn)結(jié)果表明,在分類模型比較問題上,相對其他檢驗(yàn)方法,基于5×2交叉驗(yàn)證的t檢驗(yàn)有較優(yōu)的勢.他認(rèn)為,2折交叉驗(yàn)證方法具有訓(xùn)練集之間沒有重疊、測試集的規(guī)模較大這些特點(diǎn),并且通過5次重復(fù)實(shí)驗(yàn)來得到2折交叉驗(yàn)證估計(jì)的方差,這樣可以使t檢驗(yàn)更加有效.之后Alpaydin E.[7]提出了5×2交叉驗(yàn)證的F檢驗(yàn)方法改進(jìn)了5×2交叉驗(yàn)證t檢驗(yàn).

Gilles Celeux[4]和Padhraic Smyth[5]等工作均建議使用2折交叉驗(yàn)證來進(jìn)行模型的選擇,并且可以通過借助多次的2折交叉驗(yàn)證重復(fù)來減少2折交叉驗(yàn)證估計(jì)的方差.B.Hafidi[6]給出了重復(fù)2折交叉驗(yàn)證方法的理論性質(zhì),他證明重復(fù)2折交叉驗(yàn)證的模型選擇方法和TIC準(zhǔn)則在一定條件下是漸近等價(jià)的.另外,如上文所述,Dietterich T.G以及E.Alpaydin[7]等人發(fā)現(xiàn)使用多次重復(fù)的2折交叉驗(yàn)證來構(gòu)造統(tǒng)計(jì)量可以有效地檢驗(yàn)出兩個(gè)分類模型之間的性能差異.

關(guān)于標(biāo)準(zhǔn)交叉驗(yàn)證估計(jì)中切分的不同對分類模型性能的影響吸引了很多研究者.L.Brei-man[8]以及C.Schaffer[9]等對分類數(shù)據(jù)在交叉驗(yàn)證集中類別分布的不同對模型的性能影響進(jìn)行了研究 .他們提出使用分層的方法來處理分類數(shù)據(jù),使得類別在交叉驗(yàn)證集中的分布盡量均勻,這有助于減小模型性能估計(jì)的方差.N.A.Diamantidis[10]進(jìn)一步提出了無監(jiān)督的分層交叉驗(yàn)證方法修正模型性能的估計(jì).他們除了考慮分類數(shù)據(jù)類別分布均衡外,還提出了使用無監(jiān)督的方法來校正分類數(shù)據(jù)中特征矩陣的分布均衡性.

Thomas Oommen[11]詳細(xì)討論了類別抽樣偏差(Sampling Bias)和類別不均衡對2類分類問題的影響.他基于Logistic回歸分類器來研究類別抽樣偏差對模型性能估計(jì)的影響,以及總體分布中類別的不均衡對模型性能估計(jì)的影響.但他的實(shí)驗(yàn)中沒有使用標(biāo)準(zhǔn)交叉驗(yàn)證的方法來估計(jì)模型性能.在自然語言處理、信息檢索領(lǐng)域中分類模型的性能指標(biāo)一般采用準(zhǔn)確率、召回率、F值來度量.在自然語言處理中,特征(自變量)多為離散變量,相應(yīng)地在許多模型中模型的設(shè)計(jì)矩陣為0,1取值的矩陣.為此,本文基于這樣的數(shù)據(jù),通過數(shù)值模擬,來分析2折交叉驗(yàn)證中類別不均衡對模型性能的影響情況.

1 Logistic回歸模型

Logistic回歸模型源于這樣一種愿望:通過x的線性函數(shù)對K個(gè)類的后驗(yàn)概率建模,而同時(shí)確保它們的和為1,并都在[0,1]中.該模型具有如下的形式:

該模型用K-1個(gè)對數(shù)概率確定.盡管模型使用最后一個(gè)作為概率的分母,但是分母的選擇是任意的,因?yàn)楣烙?jì)在該選擇下等價(jià).簡單的計(jì)算得到:

當(dāng)K=2的時(shí)候,該模型特別簡單,因?yàn)橹挥幸粋€(gè)線性函數(shù).本文就是關(guān)于兩類的討論.Logistic函數(shù)的優(yōu)點(diǎn)是它能取到-∞到+∞,然而輸出卻限制在到1之間.

2 模型的評價(jià)指標(biāo)

Marina Sokolova和Guy Lapalme針對分類模型中給出了很多評價(jià)指標(biāo).其中很多都是基于混淆矩陣提出的.表1給出的混淆矩陣度量了2類分類模型(分別用0類,1類表示)的性能,其中TP(True Positive)表示預(yù)測為1類,觀測也為1類,F(xiàn)P(False Positive)表示預(yù)測為1類觀測為0類,F(xiàn)N(False Negative)表示預(yù)測為0類觀測為1類,TN(True Negative)為預(yù)測為0類觀測為0類.

在此基礎(chǔ)上,本文主要使用了準(zhǔn)確率(precision)、召回率(recall)、F值和精確率(Accuracy)來考察分類模型的性能.論文中使用了2折交叉驗(yàn)證做估計(jì),而且訓(xùn)練出來的模型在類別不均衡的樣本上進(jìn)行預(yù)測,會出現(xiàn)分類器將所有的分為一類,我們在此可以將交叉驗(yàn)證的兩個(gè)混淆矩陣相加后平均再計(jì)算準(zhǔn)確率(P)、召回率(R)、F值和精確率(A).

表1 混淆矩陣

實(shí)驗(yàn)結(jié)果中給出的P1,R1,F(xiàn)1指的是對于1類而言的,相應(yīng)P2,R2,F(xiàn)2則是對0類的估計(jì),具體給出:

在表達(dá)式中,P1表示分類器預(yù)測對1類的準(zhǔn)確率.其中,TP表示兩折中正確預(yù)測為1類的總和,F(xiàn)P表示兩折中預(yù)測為1類但是觀測為0類的總和.P2表示分類器預(yù)測對0類的準(zhǔn)確率.

召回率=預(yù)測正確的某類別個(gè)數(shù)/測試集中該類別總數(shù)

在表達(dá)式中,R1表示分類器預(yù)測對1類的召回率.其中,TP表示兩折中正確預(yù)測為1類的總和,F(xiàn)N表示兩折中預(yù)測為0類但是觀測為1類的總和.R2表示分類器預(yù)測對0類的準(zhǔn)確率.

精確率(A)是指該分類器正確預(yù)測對的所有類別數(shù)與總的樣本個(gè)數(shù)的比值.

3 模擬實(shí)驗(yàn)設(shè)置

本文的數(shù)據(jù)產(chǎn)生方式借鑒了Agresti A[12]等的工作.與該工作不同,本文主要考慮兩個(gè)預(yù)測變量的情況.設(shè)模擬數(shù)據(jù)樣本為(yi,xi),1≤i≤n,其中=(xi1,xi2)為兩維的預(yù)測變量且xi1~B(1,p1),xi2~B(1,p2)對于每個(gè)觀測的相應(yīng)變量,本文假設(shè)yi|xi~B(1,π(xi,α,β))其中,參數(shù)π(xi,α,β)根據(jù) Logistic回歸模型進(jìn)行設(shè)定

α,βT=(β1,β2)是待定的回歸系數(shù).

為了產(chǎn)生出類別分布不同的樣本,本文對xi1,xi2的先驗(yàn)分布中的參數(shù)p1,p2以及模型回歸系數(shù)進(jìn)行了調(diào)整,具體見表2.

表2 參數(shù)設(shè)置

需要指出的是,上述的參數(shù)設(shè)置只能近似地得到相應(yīng)的分布比例.本文分別模擬類別分布比例不同(樣本容量n=1 000)的四種樣本集,即50∶50,60∶40,70∶30,80∶20.然后,使用2折交叉驗(yàn)證,對這些數(shù)據(jù)進(jìn)行切分,人為設(shè)置上述四種樣本集中的數(shù)據(jù)在2折交叉驗(yàn)證中分割的類別規(guī)律為:一份中負(fù)例所占總體負(fù)例個(gè)數(shù)的0.5,0.6,0.7,0.8,0.9倍.以便于考察在樣本中類別比例不同的情況下,2折交叉驗(yàn)證對模型性能的影響.模擬數(shù)據(jù)的產(chǎn)生采用R軟件中的rbinom函數(shù),做擬合的時(shí)候使用的是glm函數(shù).

4 實(shí)驗(yàn)結(jié)果及分析

在模擬實(shí)驗(yàn)中,取4個(gè)總體,按照表1中實(shí)驗(yàn)參數(shù)設(shè)置,其中y的類別比例大致分別為50∶50,60∶40,70∶30,80∶20,分別產(chǎn)生模擬數(shù)據(jù)n=1 000,然后對每個(gè)總體我們按其中一份中0類個(gè)數(shù)占總體0類的不同比例來切分2份作交叉驗(yàn)證,做5次實(shí)驗(yàn)(0.5是指第一份中0類所占的比例是總體1 000中0類個(gè)數(shù)的50%.0.6,0.7,0.8,0.9同理),每次取兩次交叉實(shí)驗(yàn)所得的混淆矩陣的和的均值作最后的估計(jì).

圖1 4種比例下各指標(biāo)的比較

表3 4個(gè)總體2份切分的兩類別個(gè)數(shù)分布

我們統(tǒng)計(jì)了對于每次實(shí)驗(yàn)每份中的類別個(gè)數(shù)如表3,從表3中可以看出4個(gè)總體類別比例大致為50∶50,60∶40,70∶30,80∶20.而且我們可以看出在0.5的時(shí)候,兩份中0類和1類的比例和總體是一致的,但是兩份切分隨著第一份中0類的增加,1類的減少,第二份中0類的減少,1類的增加,使得每種分類類別越來越不均衡也即是與總體類別比例有了差別.

在每種類別比例下使用2折交叉驗(yàn)證,運(yùn)用Logistic回歸模型,使用準(zhǔn)確率、召回率、F值和精確率作評價(jià)估計(jì)分類器的好壞,得到結(jié)果表4以及圖1.從表4中大體可以看到隨著切分比例的不均衡,準(zhǔn)確率、召回率和F值在逐漸的減小,精確率也在減小,但是也存在幾個(gè)異常的值,在表4中紅色字體標(biāo)出.更重要的是在4個(gè)實(shí)驗(yàn)中,隨著總體類別比例的差異,精確率在增加,1類的準(zhǔn)確率、召回率、F值逐漸的增加,而類的準(zhǔn)確率、召回率、F卻逐漸的減小.

表4 實(shí)驗(yàn)結(jié)果

本文模擬的4個(gè)總體內(nèi)兩類別越來越不均衡,對每個(gè)總體做2折交叉驗(yàn)證的時(shí)候,人為地切分,使得兩份之間類別比例有差異并且與總體類別也有差異,出現(xiàn)了類別分割不均衡的情況,在此我們從實(shí)驗(yàn)結(jié)果表4以及圖1中可以得出:

1)在4個(gè)總體類別分布不相同的實(shí)驗(yàn)中,都隨著類別分割不均衡,準(zhǔn)確率、召回率和F值在逐漸的減小,精確率也在減小.因此,在使用2折交叉驗(yàn)證時(shí),總體的切分對分類器的性能是有影響的.

2)對4個(gè)總體類別分布不同的總體,隨著總體類別分布的差異越大,精確率在增加,1類的準(zhǔn)確率、召回率、F值也逐漸的增加,而類的準(zhǔn)確率、召回率、F值卻逐漸地減小.

3)在實(shí)驗(yàn)一中0.8的時(shí)候所有評價(jià)指標(biāo)都會有明顯地減小,而實(shí)驗(yàn)二中,在0.9的情況下,精確率也會有明顯的減小,但是,實(shí)驗(yàn)3和實(shí)驗(yàn)4的時(shí)候不會出現(xiàn).這可能與2折類別分割的兩類的比例與總體兩類類別比例之間差異程度有關(guān),差異越大,指標(biāo)就變化越大.

4)切分時(shí)與總體類別分布越一致,影響越小,而不是在兩份中兩類類別比例越接近,分類器效果最好.說明實(shí)驗(yàn)中,應(yīng)盡可能地切分成與總體的兩類比例一致的兩份來做實(shí)驗(yàn).

5 總結(jié)與展望

我們分析了總體不均衡和類別分割不均衡對Logistic分類器的性能影響.方法采用了模擬多種類別不均衡情形下的Logistic回歸模型數(shù)據(jù),我們對模擬數(shù)據(jù)人為的類別分割為2份,做交叉驗(yàn)證,實(shí)驗(yàn)結(jié)果表明當(dāng)2折交叉驗(yàn)證中數(shù)據(jù)的類別分布與總體類別相差較大的時(shí)候,模型性能的估計(jì)明顯變差.因此在實(shí)驗(yàn)中切分?jǐn)?shù)據(jù)時(shí)每份數(shù)據(jù)應(yīng)盡量保持與總體類別分布一致.

接下來的工作集中在如何從樣本中識別原總體的類別分布.以及在高維數(shù)據(jù)的時(shí)候,會不會有相同的實(shí)驗(yàn)結(jié)果,又應(yīng)該如何切分?jǐn)?shù)據(jù),這是我們進(jìn)一步要研究的內(nèi)容.

[1]Shao Jun,Rao J N K.Standard errors for low income proportions estimated from stratified multi-stage samples[J].The Indian Journal of Statistics 1993,55:393-414

[2]Hastie T,Tibshirani R.The elements of statistical learning[J].The Mathematical Iutelligencer,2005,27(2):83-85

[3]Dietterich T G.Approximate statistical tests for comparing supervised cassification learning algorithms[J].MIT Press,1998,10:1 895-1 924

[4]Guillaume Bouchard,Gilles Celeux.Choosing a model in a classifcation purpose[C].International Environmental Modelling and Software Society(iEMSS),Ottawa,David A Swayne,Wanhong Yong,Voinov A A,F(xiàn):Latova,2010:2 046-2 056

[5]Padhraic Smyth.Model selection for probabilistic clustering using cross-validated likelihood.Statistics and Compution[J].Journal of the American Statistical Association,2002,97:63-72

[6]Hafidi B,Mkhadri A.Repeated half sampling criterion for model selection[J].The Indian Journal of Statistics,2004,66:566-581

[7]Alpaydin E.Combined 5x2CVFtest for comparing supervised classification learning algorithms[J].Massachusetts Institute of Technogy,1999,11(8):1 885-1 892

[8]Breiman L,Spector P.Submodel Selection and Evaluation in Regression[J].Wiley Interdisciplinary Reviews,2011,1(1):14-23

[9]Schaffer C.Selecting a Classification Method by Cross-Validation[J].Machine Learning,1993,13:135-143

[10]Diamantidis N A,Karlis D,Giakoumakis E A.Unsupervised Stratification of Cross-Validation for Accuracy Estimation[J].Artificial Intelligence,2000,116:1-16

[11]Thomas Oommen,Laurie G Baise,Richard M Vogel.Sampling bias and class imbalance in maximum-likely-h(huán)ood logistic regression[J].Math Geosci,2011,43:99-120

[12]Agresti A Wiley.Series in Probability and Statistics[EB/OL].http:∥onlinelibrary.wiley.com/doi/co,publis hed online:2008-05-27

猜你喜歡
總體分類器類別
用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
2020年秋糧收購總體進(jìn)度快于上年
外匯市場運(yùn)行有望延續(xù)總體平穩(wěn)發(fā)展趨勢
壯字喃字同形字的三種類別及簡要分析
基于差異性測度的遙感自適應(yīng)分類器選擇
基于實(shí)例的強(qiáng)分類器快速集成方法
直擊高考中的用樣本估計(jì)總體
西夏刻本中小裝飾的類別及流變
多類別復(fù)合資源的空間匹配
基于層次化分類器的遙感圖像飛機(jī)目標(biāo)檢測
舒兰市| 南乐县| 博乐市| 伊吾县| 稻城县| 锡林浩特市| 九江市| 称多县| 平邑县| 盐亭县| 颍上县| 丁青县| 大石桥市| 平舆县| 隆安县| 塔城市| 石河子市| 固安县| 松原市| 灌南县| 贡觉县| 防城港市| 徐闻县| 石台县| 海城市| 榆树市| 安西县| 漳平市| 定西市| 焦作市| 图木舒克市| 积石山| 太湖县| 芒康县| 霍邱县| 浏阳市| 广南县| 西充县| 柘城县| 博爱县| 静乐县|