摘 ?要:現(xiàn)階段深度學(xué)習(xí)作為一種實(shí)現(xiàn)機(jī)器學(xué)習(xí)的技術(shù),在分析模型問題和評估模型的方法上基本一致。文章從評估模型的角度,以混淆矩陣為基礎(chǔ),通過常用的Accuracy,Precision以及Recall等衡量模型的預(yù)測能力。研究結(jié)合深度學(xué)習(xí)近幾年的競賽任務(wù)分析樣本均衡與非均衡下幾種評估模型方法的差異,從幾種評估指標(biāo)之間的聯(lián)系討論P(yáng)-R曲線評估模型之間的相關(guān)性,以及P-R曲線在目標(biāo)檢測任務(wù)中作為評估模型方法的合理性。
關(guān)鍵詞:評估標(biāo)準(zhǔn);Accuracy;P-R曲線;mAP
中圖分類號:TP181;TP311.1 ? ? 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2020)04-0023-03
Abstract:At present,deep learning,as a technology to realize machine learning,is basically consistent in analyzing model problems and evaluating model methods. From the perspective of the evaluation model,based on the confusion matrix,this paper measures the prediction ability of the model from the commonly used Accuracy,Precision and Recall. This paper analyzes the differences of several evaluation models under the condition of sample equilibrium and non-equilibrium,discusses the correlation between the evaluation models of P-R curve from the relationship between several evaluation indexes,and discusses the rationality of P-R curve as the evaluation model method in the target detection task.
Keywords:model performance evaluation;Accuracy;P-R curve;mAP
0 ?引 ?言
在機(jī)器學(xué)習(xí)領(lǐng)域,模型評估的主流標(biāo)準(zhǔn)都以統(tǒng)計(jì)混淆矩陣下的TP(true positive)、FP(false negative)、TN(true negative)、FN(false positive)去評價(jià)模型的優(yōu)劣,例如圖像分類競賽的ImageNet[1]中使用的Top-1、Top-5的Accuracy評估標(biāo)準(zhǔn)。筆者在建模研究中,發(fā)現(xiàn)在使用以上幾種評估指標(biāo)評估模型時(shí),單性能指標(biāo)不能準(zhǔn)確地評估模型,如何更優(yōu)地評估模型以及如何迭代地對模型進(jìn)行優(yōu)化成為了研究熱點(diǎn)之一。本文針對各種數(shù)據(jù)集樣本分布不均衡問題進(jìn)一步分析,在針對多種深度學(xué)習(xí)技術(shù)應(yīng)用中的目標(biāo)檢測、圖像分割以及圖像分類的模型評估方法的研究中,我們從模型評估的最優(yōu)化的角度,研究模型判定標(biāo)準(zhǔn)以及怎樣的標(biāo)準(zhǔn)才能最優(yōu)評估模型,以混淆矩陣為基礎(chǔ),探究評估模型最優(yōu)方法。
本文從多類問題分析時(shí)可以理解為對主類和從類(其他)兩種角度,研究以兩類問題下的P-R曲線,并結(jié)合競賽任務(wù)中的應(yīng)用分析P-R曲線在實(shí)際場景中的評估方法的最優(yōu)性。
1 ?混淆矩陣與幾種評估指標(biāo)的關(guān)系
我們以汽車分類問題為例,假設(shè)汽車類型有A和B兩類,我們在均衡比例A=5,B=5的測試集去測試車型分類對兩類樣本的識別能力。假設(shè)分類器對在測試集中識別A類汽車共預(yù)測7張,預(yù)測B類汽車3張,其中識別成A類中包含A類5個(gè),B類2個(gè),識別成B類中,實(shí)際包含2個(gè)B類和一個(gè)A類。根據(jù)以上模型預(yù)測輸出能夠得到對應(yīng)的混淆矩陣如圖1所示,本文從混淆矩陣進(jìn)行分析幾種評價(jià)指標(biāo)之間的相互關(guān)系。
在圖1汽車分類中,如果我們先以Accuracy評估模型為例,能夠計(jì)算出Accuracy=0.60,Precision=0.71,Recall= 0.71。以上三種評估指標(biāo)的計(jì)算是在樣本均衡情形下得出的,假設(shè)樣本中如果測試樣本類是以9:1的方式呈現(xiàn),預(yù)測結(jié)果A=7(預(yù)測A集合中A=6,B=1),在這種在數(shù)據(jù)不均衡的情況下,我們能夠通過混淆矩陣計(jì)算Accuracy=0.60,P=0.86,R=0.67。從樣本不均衡和均衡條件的計(jì)算,可以看出在兩種樣本分布下Accuracy表現(xiàn)結(jié)果相同,而Precision和Recall隨樣本分布變化呈現(xiàn)反差,類別不平衡問題會導(dǎo)致正樣本或負(fù)樣本的比例過多,當(dāng)僅使用Accuracy去評估分類器性預(yù)測能力就不能合理地評估,在Everson R中對分類問題樣本不均衡情況下如何進(jìn)行合理評估方法的討論以及Davis[2]證明了PR曲線相比于文獻(xiàn)[2]在樣本不均衡下更關(guān)注正樣本,更能反映分類器的好壞的推理。當(dāng)針對其他分類問題時(shí),我們將預(yù)測類主類和其他類從類歸納為二分類問題,能夠?qū)煜仃囶A(yù)測總結(jié)計(jì)算Accuracy公式(1)所示。
從上分析,以及幾種競賽的評估分析中能夠看到,Precision和Recall是各種評估標(biāo)準(zhǔn)的基礎(chǔ),本文主要從P-R曲線在各種競賽任務(wù)中的應(yīng)用進(jìn)行分析,論述P-R曲線的評估方法,并結(jié)合競賽任務(wù)中的應(yīng)用分析P-R曲線在實(shí)際場景中的評估方法。
2 ?P-R曲線分析
Davis[2]詳盡地分析了通過P、R去關(guān)注分類器在預(yù)測主類的能力,能相對較好地忽略樣本不均衡帶來的問題(更關(guān)注于主類樣本),能更有效地評估模型。本節(jié)主要從P-R曲線評估對象和在檢測任務(wù)中通過兩者之間的曲線去評估模型進(jìn)行討論,從坐標(biāo)中的繪制方式到幾種可能狀態(tài)以及去分析如何獲取理想條件下的最優(yōu)P-R曲線,對比假設(shè)在P-R曲線在樣本均衡時(shí)呈現(xiàn)。
2.1 ?Precision和Recall之間的聯(lián)系
在理想情況下,我們希望模型的精確率越高越好,同時(shí)召回率也越高越好,但實(shí)際情況下緊缺率和召回率總呈現(xiàn)反比狀態(tài)。在各種競賽的評估標(biāo)準(zhǔn)中,已有對P-R曲線權(quán)衡問題的討論,在對兩種指標(biāo)進(jìn)行平衡中,常用的方法是F-Measure(加權(quán)調(diào)和平均),當(dāng)Measure=1時(shí)即為F1_Score平衡兩者之間的關(guān)系,如表1所示是幾種文本分類算法在CNN和DailyMail數(shù)據(jù)集測試和驗(yàn)證集上F1的評估對比,在NLP類別的競賽任務(wù)中,在樣本無法均衡情形下,利用F1綜合考慮P和R的評估結(jié)果,取F1較高指標(biāo)時(shí)作為最優(yōu)模型,能更準(zhǔn)確地評估模型性能。
以上我們討論P(yáng)recision和Recall以及加權(quán)調(diào)和平均的應(yīng)用和關(guān)系,如文中針對評估模型,很難僅依靠其中單一的指標(biāo)去判斷模型的優(yōu)劣,因此如表1文本比賽中通過Precision和Recall之間的調(diào)和平均數(shù)、目標(biāo)檢測以及圖像分割任務(wù)中AP的計(jì)算都是通過P-R曲線之間的聯(lián)系進(jìn)行模型分析和評估。
3 ?P-R曲線在目標(biāo)檢測數(shù)據(jù)中的分析與評估
本節(jié)對目標(biāo)檢測競賽任務(wù)中評估模型的方法使用P-R曲線進(jìn)行討論,本節(jié)主要從不同季賽情形下數(shù)據(jù)的分布情況進(jìn)行分析,論證P-R曲線對模型評估的合理性并討論通過P-R曲線獲取AP的評估方式。
3.1 ?P-R曲線評估合理性分析
在合理的模型的測試集中,我們期望理想情況下主類測試樣本是無窮多,從類測試樣本也是無窮多。以目標(biāo)檢測任務(wù)為例,在對評估模型性能過程中,我們期望測試集盡可能包含所有場景樣例,去驗(yàn)證模型的魯棒性。假設(shè)在測試樣本中多類別Ci,P-R曲線是通過對象類別i(主類)和其他類(從類),以分類角度去評估,從先驗(yàn)概率的角度來講,Precision最小值由P(主類)和P(從類)兩個(gè)先驗(yàn)概率確定,為P(主類)/(P(主類)+P(從類))。在主、從類樣本均衡時(shí),在少樣本情況下每組P-R曲線呈現(xiàn)。需要考慮在多樣本情形下P-R曲線如何呈現(xiàn)。
雖在很多算法中對分類樣本不均衡問題從算法層面和數(shù)據(jù)增廣方面進(jìn)行處理樣本不均衡問題。如檢測算法Faster RCNN利用RPN抑制前背景以及一階段檢測算法SSD按一定比例取前背景樣本預(yù)測樣本。但樣本不均衡問題仍不能很好地解決,對模型訓(xùn)練和評估存在極大影響。
3.2 ?P-R曲線在目標(biāo)檢測競賽種的應(yīng)用
從目標(biāo)檢測競賽VOC2007[3]訓(xùn)練和測試數(shù)據(jù)以及KITTI數(shù)據(jù),Person類和其他類別相比明顯出現(xiàn)類別不均衡問題。目標(biāo)檢測需要在大背景下同時(shí)對目標(biāo)進(jìn)行定位和識別,但由于前景和背景之間的不平衡,使得這一工作具有挑戰(zhàn)性?;谏疃葘W(xué)習(xí)的檢測解決方案通常采用多任務(wù)分支網(wǎng)絡(luò)體系,處理不同類別的分類任務(wù)和定位任務(wù),其中分類任務(wù)的目標(biāo)是識別給定框中的對象,而定位任務(wù)的目標(biāo)是預(yù)測對象的精確邊界框。無論是類別不均衡還是前景和背景不均衡的問題,對基于模型的訓(xùn)練和評估都有著極大的影響。
從在VOC2007檢測數(shù)據(jù)的評估中的方法看,通過訓(xùn)練好的模型,對VOCtest數(shù)據(jù)(4 952張)預(yù)測后,得到所有Person類的置信度得分,并對預(yù)測為Person類的樣本進(jìn)行排序,計(jì)算Precision和Recall。在VOC競賽評估中是對當(dāng)前類評估時(shí)該類為主類,其他類和背景類為從類,得到兩類問題的混淆矩陣,計(jì)算Precision和Recall。根據(jù)計(jì)算一組Range[0,0.1,1.0](0~1.0之間間隔為0.1,11個(gè)點(diǎn))的Recall,得到Recall>Threshold時(shí)對應(yīng)最大的Precision,通過11點(diǎn)差值平均精度得到Person類的AP,其計(jì)算如式(3)左公式所示。
式(3)右公式是對VOC2007中差值平均精度計(jì)算類別對象的AP和多類mAP的方法,其中Precision是通過11點(diǎn)中根據(jù)Recall計(jì)算出的Top-N中取最大值。在P-R曲線中,雖然理論上說PR曲線呈現(xiàn)遞減趨勢,在VOC2007的評估中可能會出現(xiàn)某階段上升情形,但總體上來說在多樣本情形下整體是趨于下降趨勢的,因此P-R曲線的評估更符合實(shí)際多樣本情形下評估模型問題的標(biāo)準(zhǔn)。
4 ?結(jié) ?論
考慮到幾種模型精度評價(jià)標(biāo)準(zhǔn)都基于混淆矩陣對模型預(yù)測能力的統(tǒng)計(jì)進(jìn)行評估,本文主要從Precision和Recall之間的關(guān)系進(jìn)行討論,分析了分類以及檢測任務(wù)中實(shí)際場景中樣本分布的樣本均衡和前背景均衡問題。本文從P-R曲線的角度分析了其在面對以上問題時(shí)評估方法的合理性。近幾年學(xué)術(shù)研究中通過CNN模型的擬合評估角度思考的方式,通過P-R角度思考的AP-Loss[4]為一種新思路,這也將是我們后續(xù)探索P-R曲線與模型結(jié)合的優(yōu)化方向。
參考文獻(xiàn):
[1] DENG J,DONG W,SOCHER R,et al.ImageNet:a Large-Scale Hierarchical Image Database [C]//2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2009),USA.IEEE,2009.
[2] DAVIS J,GOADRICH M.The Relationship Between Precision-Recall and ROC Curves [C]//ICML06:Proceedings of the 23rd international conference on Machine learning,2006:233-240.
[3] EVERINGHAM M,GOOL L V,WILLIAMS C K I,et al.The Pascal Visual Object Classes (VOC) Challenge [J].International Journal of Computer Vision,2010,88(2):303-338.
[4] CHEN K,LI J G,LIN W Y,et al.Towards Accurate One-Stage Object Detection with AP-Loss [J].[2019-12-26].https://arxiv.org/abs/1904.06373?context=cs.CV.
作者簡介:張超(1992.06-),男,漢族,河南固始人,碩士在讀,研究方向:模式識別。