蔣 杰,熊昌鎮(zhèn)
?
一種數(shù)據(jù)增強(qiáng)和多模型集成的細(xì)粒度分類算法
蔣 杰,熊昌鎮(zhèn)
(北方工業(yè)大學(xué)城市道路交通智能控制技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100144)
針對(duì)解決數(shù)據(jù)缺少和單個(gè)卷積網(wǎng)絡(luò)模型性能的限制造成細(xì)粒度分類準(zhǔn)確率不高的問(wèn)題,提出了一種數(shù)據(jù)增強(qiáng)和多模型集成融合的分類算法。首先通過(guò)鏡像、旋轉(zhuǎn)、多尺度縮放、高斯噪聲、隨機(jī)剪切和色彩增強(qiáng)6種變換對(duì)CompCars數(shù)據(jù)集進(jìn)行增強(qiáng)處理,然后采用差異化采樣數(shù)據(jù)集的方法訓(xùn)練CaffeNet、VGG16和GoogleNet 3種差異化的網(wǎng)絡(luò)。然后采用多重集成的方法集成多種模型的輸出結(jié)果。實(shí)驗(yàn)中測(cè)試網(wǎng)絡(luò)結(jié)構(gòu)在不同數(shù)據(jù)增強(qiáng)算法和不同模型集成下的分類結(jié)果。模型集成的分類準(zhǔn)確率達(dá)到94.9%,比最好的單GoogleNet模型的分類精確率提高了9.2個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明該算法可以有效地提高分類的準(zhǔn)確率。
細(xì)粒度分類;數(shù)據(jù)增強(qiáng);卷積網(wǎng)絡(luò);集成學(xué)習(xí)
細(xì)粒度的識(shí)別任務(wù)是非常具有挑戰(zhàn)性的,由于某些類別的外觀只存在細(xì)微的差異,例如汽車車型BWM X4和BWM X5。為了解決這個(gè)問(wèn)題,很多人做了大量工作,特別是隨著深度學(xué)習(xí)的興起,細(xì)粒度的識(shí)別取得了很大的研究進(jìn)展[1-7]。當(dāng)AlexNet[1]出現(xiàn),并在ImageNet分類挑戰(zhàn)賽中取得令人信服的準(zhǔn)確度后,很多學(xué)者認(rèn)識(shí)到用卷積神經(jīng)網(wǎng)絡(luò)做細(xì)粒度分類任務(wù)的優(yōu)勢(shì)。YANG等[2]研究了各類深度卷積神經(jīng)用于車型精細(xì)分類的效果,并制作了大型的公共數(shù)據(jù)集CompCars供研究者們使用。SOCHOR等[3]提出一種使用車輛的3D矩形標(biāo)注信息及視角向量等附加信息作為卷積神經(jīng)網(wǎng)絡(luò)的輸入來(lái)進(jìn)行車型精細(xì)識(shí)別的方法。KRAUSE等[8]提出使用車輛3D表示,并用CAD模型進(jìn)行建模,使用CAD模型渲染出訓(xùn)練數(shù)據(jù)放入3D幾何分類器HOG_SVM中進(jìn)行精細(xì)分類,并且公開了有196類汽車車型的數(shù)據(jù)集。ZHANG等[9]將物體部件區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于Caltech-UCSD鳥類數(shù)據(jù)的分類識(shí)別中,取得了良好的效果。目前關(guān)于細(xì)粒度識(shí)別的卷積網(wǎng)絡(luò)都依賴于大量的訓(xùn)練數(shù)據(jù)。訓(xùn)練數(shù)據(jù)質(zhì)量的好壞,數(shù)量的多少,直接影響到細(xì)粒度識(shí)別的準(zhǔn)確度,但是很多時(shí)候要得到有效的訓(xùn)練數(shù)據(jù)是一件非常困難的事情?,F(xiàn)有的算法大部分采用單一的卷積網(wǎng)絡(luò)結(jié)構(gòu),隨著網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化取得很好的識(shí)別效果,但其識(shí)別的準(zhǔn)確度仍有待于進(jìn)一步提高。集成學(xué)習(xí)作為機(jī)器學(xué)習(xí)的重要組成部分,一直以來(lái)都有著廣泛的研究和應(yīng)用[10-12]。如XU等[10]將多分類器集成的方法用于手寫數(shù)據(jù)集中。在深度學(xué)習(xí)領(lǐng)域,集成學(xué)習(xí)也有一些重要的應(yīng)用[13-14]。如MARMANIS等[13]將集成學(xué)習(xí)的方法用于語(yǔ)義分割,WANG等[14]將集成學(xué)習(xí)方法用于目標(biāo)跟蹤中,取得了良好的效果。
針對(duì)現(xiàn)有算法存在的問(wèn)題,利用集成算法結(jié)合多個(gè)深度卷積模型的優(yōu)勢(shì),提出結(jié)合數(shù)據(jù)增強(qiáng)和模型集成的細(xì)粒度分類算法。本文算法的網(wǎng)絡(luò)框架如圖1所示。首先設(shè)計(jì)多種數(shù)據(jù)增強(qiáng)的方法增大訓(xùn)練數(shù)據(jù)集的大小,并用差異化數(shù)據(jù)采樣的方法讓數(shù)據(jù)集多樣化分布形成差異化的數(shù)據(jù)集。將差異化的訓(xùn)練數(shù)據(jù)集分別輸入不同的卷積網(wǎng)絡(luò)模型CNN中訓(xùn)練,得到數(shù)量較多,分類性能不一的網(wǎng)絡(luò)模型,并通過(guò)多重集成的算法將所有分類模型的分類結(jié)果集成以提升細(xì)粒度識(shí)別的準(zhǔn)確度。本文算法的創(chuàng)新點(diǎn)主要有3點(diǎn):①提出使用數(shù)據(jù)增強(qiáng)的方法擴(kuò)充數(shù)據(jù)集,并采用差異化數(shù)據(jù)采樣的方法使訓(xùn)練數(shù)據(jù)集多樣化分布,以訓(xùn)練出更多的多樣化的卷積網(wǎng)絡(luò)分類模型;②使用了多種結(jié)構(gòu)差異化,分類性能不一的卷積網(wǎng)絡(luò)模型可增加整個(gè)分類系統(tǒng)的差異性;③用多重集成的方法將數(shù)量較多的分類模型集成在一起做細(xì)粒度分類的任務(wù),提高細(xì)粒度分類的準(zhǔn)確度。
圖1 算法總體框架結(jié)構(gòu)
實(shí)驗(yàn)的基本數(shù)據(jù)來(lái)自于CompCars公共數(shù)據(jù)集,圖2為CompCars數(shù)據(jù)集的樹形結(jié)構(gòu)圖,CompCars數(shù)據(jù)集中的整車圖片數(shù)據(jù)集主要分為自然狀態(tài)下收集的車型圖片數(shù)據(jù)集和監(jiān)控狀態(tài)下收集的車型圖片數(shù)據(jù)集。自然狀態(tài)下收集的數(shù)據(jù)集主要通過(guò)互聯(lián)網(wǎng)獲得,數(shù)據(jù)集中存在正面、后面、前側(cè)面、后側(cè)面和側(cè)面5種方向的車型圖片。監(jiān)控狀態(tài)下的數(shù)據(jù)集通過(guò)卡口的攝像頭獲得,只有車輛的正面圖。本文實(shí)驗(yàn)只使用了自然狀態(tài)下車型圖片數(shù)據(jù)集。工作中通過(guò)統(tǒng)計(jì)發(fā)現(xiàn)有些類別車型圖片相對(duì)較少,如ABT A8的車型圖片2張,故而通過(guò)互聯(lián)網(wǎng)等手段對(duì)車型數(shù)據(jù)進(jìn)行了進(jìn)一步的采集。實(shí)驗(yàn)共使用CompCars數(shù)據(jù)集中的599類自然狀態(tài)下的車型圖片數(shù)據(jù)集,共計(jì)84 569張,另通過(guò)互聯(lián)網(wǎng)對(duì)其中車型圖片特別少的類別進(jìn)行數(shù)據(jù)的進(jìn)一步采集,共9 624張,得到初始數(shù)據(jù)集圖片94 193張。
圖2 車型數(shù)據(jù)集的樹形結(jié)構(gòu)圖
實(shí)驗(yàn)采用多種算法進(jìn)行訓(xùn)練數(shù)據(jù)的增強(qiáng),加大訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)數(shù)量,使訓(xùn)練模型學(xué)習(xí)到更多的圖片的像素信息,從而提高模型的分類性能和泛化能力。本文通過(guò)鏡像處理、旋轉(zhuǎn)處理、多尺度放縮、添加高斯噪聲、隨機(jī)剪切和色彩增強(qiáng)6種算法進(jìn)行訓(xùn)練數(shù)據(jù)的增強(qiáng),加大訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)數(shù)量。增加樣例如圖3所示,分別為原始圖像和增強(qiáng)后的圖像效果圖。
圖3 各數(shù)據(jù)增強(qiáng)算法效果圖
實(shí)驗(yàn)中將只有CompCars數(shù)據(jù)集中原圖的數(shù)據(jù)集稱為數(shù)據(jù)集,將從互聯(lián)網(wǎng)收集的圖片和數(shù)據(jù)集合并稱為數(shù)據(jù)集,將數(shù)據(jù)集和上述6種數(shù)據(jù)增強(qiáng)算法生成的圖片數(shù)據(jù)合并在一起組成的數(shù)據(jù)集稱為數(shù)據(jù)集0;將數(shù)據(jù)集0中使用鏡像處理生成的圖片移除后的數(shù)據(jù)集標(biāo)記為數(shù)據(jù)集1;將數(shù)據(jù)集0中使用旋轉(zhuǎn)處理生成的圖片移除后的數(shù)據(jù)集標(biāo)記為數(shù)據(jù)集2;將數(shù)據(jù)集0中使用多尺度縮放生成的圖片移除后的數(shù)據(jù)集標(biāo)記為數(shù)據(jù)集3;將數(shù)據(jù)集0中添加高斯噪聲生成的圖片移除后的數(shù)據(jù)集標(biāo)記為數(shù)據(jù)集4;將數(shù)據(jù)集0中通過(guò)隨機(jī)剪切生成的圖片移除后的數(shù)據(jù)集標(biāo)記為數(shù)據(jù)集5;將數(shù)據(jù)集0中通過(guò)色彩增強(qiáng)生成的圖片移除后的數(shù)據(jù)集標(biāo)記為數(shù)據(jù)集6。這樣差異化采樣訓(xùn)練數(shù)據(jù)集與傳統(tǒng)的自助采樣法有很大不同,傳統(tǒng)的自助采樣法一般是隨機(jī)有放回的采樣數(shù)據(jù)集,重復(fù)次,得到一個(gè)新的數(shù)據(jù)集,按照此方法采樣出個(gè)包含個(gè)訓(xùn)練樣本的采樣集作為基學(xué)習(xí)器的訓(xùn)練數(shù)據(jù)。這樣采樣的數(shù)據(jù)集數(shù)據(jù)分布較均勻,但是訓(xùn)練出的基學(xué)習(xí)器差異性就相對(duì)較弱。而集成學(xué)習(xí)中的一個(gè)必要條件是訓(xùn)練出的基學(xué)習(xí)器性能較好,在其前提下,必須有一定的差異性。本文的差異化采樣訓(xùn)練數(shù)據(jù)集的方法更符合這一項(xiàng)要求,且保證了各類別訓(xùn)練數(shù)據(jù)滿足均勻分布且充足的要求。
實(shí)驗(yàn)直接利用公共數(shù)據(jù)集VOC2007中的沒有車輛的圖片作為訓(xùn)練數(shù)據(jù)中的負(fù)樣本圖片,采用在各交通路口拍攝的模糊圖片并利用圖像標(biāo)注工具進(jìn)行標(biāo)注得到模糊樣本。考慮到相應(yīng)汽車模型的模糊圖片樣本比較難收集,為減少圖片收集的工作量,也有加入大量高斯噪聲生成相應(yīng)的模糊樣本圖片,負(fù)樣本和模糊樣本的標(biāo)注信息如圖4所示。
圖4 模糊樣本及負(fù)樣本
從LeNet[15]開始,卷積神經(jīng)網(wǎng)絡(luò)通常有一個(gè)標(biāo)準(zhǔn)的結(jié)構(gòu),首先堆疊卷積層,然后進(jìn)行歸一化處理,后面接一個(gè)最大池化層,最后接一層或多層全連接層。再經(jīng)不斷改進(jìn)和變化,卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)有了很大的變化,有了更復(fù)雜的結(jié)構(gòu)形式,網(wǎng)絡(luò)深度更深,寬度更寬,分類準(zhǔn)確度也越來(lái)越好,更適合進(jìn)行細(xì)粒度分類的研究。LeNet之后經(jīng)典的網(wǎng)絡(luò)結(jié)構(gòu)有AlexNet,相對(duì)于LeNet,AlexNet具有更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),并可以采用GPU進(jìn)行網(wǎng)絡(luò)訓(xùn)練,引入了ReLU非線性單元。自AlexNet之后出現(xiàn)了很多性能較好、結(jié)構(gòu)較復(fù)雜的網(wǎng)絡(luò)模型,如CaffeNet,VGG16等,其中CaffeNet相對(duì)于VGG16來(lái)說(shuō)屬于小型網(wǎng)絡(luò)結(jié)構(gòu)模型。隨后又出現(xiàn)了GoogleNet[16]模型,其出現(xiàn)說(shuō)明人們對(duì)深度學(xué)習(xí)及神經(jīng)網(wǎng)絡(luò)的關(guān)注,不再單單是越來(lái)越優(yōu)越的硬件設(shè)備,更大的數(shù)據(jù)集,更大的模型,而是更優(yōu)越的網(wǎng)絡(luò)結(jié)構(gòu),更優(yōu)化的算法。GoogleNet主要引入了初始的網(wǎng)絡(luò)結(jié)構(gòu)思想,加入多尺度的卷積核,有效的加寬了網(wǎng)絡(luò)寬度,也使網(wǎng)絡(luò)的層數(shù)達(dá)到22層,具有較深的網(wǎng)絡(luò)。GoogleNet有著更寬的網(wǎng)絡(luò)寬度,更深的網(wǎng)絡(luò)深度,意味著巨量的參數(shù),但是GoogleNet有效的避免了過(guò)擬合的風(fēng)險(xiǎn)。
據(jù)上所述,CaffeNet、VGG16和GoogleNet 3種模型有著優(yōu)異的分類性能,且卷積網(wǎng)絡(luò)模型相互之間的網(wǎng)絡(luò)結(jié)構(gòu)差異性很明顯,其網(wǎng)絡(luò)訓(xùn)練和測(cè)試中的權(quán)值和參數(shù)也就具有很大的差異性,因此采用這3種差異化明顯的且性能較好的卷積網(wǎng)絡(luò)模型作為本文的訓(xùn)練模型。圖1中CNN1為CaffeNet,標(biāo)記為1;CNN2為VGG16標(biāo)記為2;CNN3為GoogleNet標(biāo)記為3。然后CaffeNet用數(shù)據(jù)集0網(wǎng)絡(luò)微調(diào)后分類的Top1準(zhǔn)確率記為Top11。同理將VGG16和GoogleNet用數(shù)據(jù)集0經(jīng)過(guò)網(wǎng)絡(luò)微調(diào)后分類的Top1準(zhǔn)確率分別記為Top12,Top13設(shè)置權(quán)重α的值為式(1),其權(quán)重設(shè)置與集成學(xué)習(xí)[17-18]方法中的AdaBoost等算法中分類器的權(quán)重設(shè)置一致,即
數(shù)據(jù)集1到6分別經(jīng)過(guò)模型1和2微調(diào)后,12個(gè)網(wǎng)絡(luò)模型的檢測(cè)結(jié)果經(jīng)過(guò)加權(quán)投票結(jié)果為類別h()的得票權(quán)值式為
數(shù)據(jù)集1到6分別經(jīng)過(guò)模型1和3微調(diào)后,12個(gè)網(wǎng)絡(luò)模型的檢測(cè)結(jié)果經(jīng)過(guò)加權(quán)投票結(jié)果為類別h()的得票權(quán)值式為
數(shù)據(jù)集1到6分別經(jīng)過(guò)2和3微調(diào)后,12個(gè)網(wǎng)絡(luò)模型的檢測(cè)結(jié)果經(jīng)過(guò)加權(quán)投票結(jié)果為h()的得票權(quán)值式為
則有第二層集成組合分類結(jié)果輸出為經(jīng)過(guò)第一層集成組合0,集成組合1,集成組合2和集成組合3的輸出結(jié)果加權(quán)投票結(jié)果為類別h()的得票權(quán)值表示為
則最終模型集成的輸出類別表示為OUT,如式(12)所示,即經(jīng)過(guò)式(11)計(jì)算得票權(quán)值最大的類別即為集成組合最終的預(yù)測(cè)輸出類別
本次實(shí)驗(yàn)的配置為GTX 1070(顯存容量8 G),Intel Core i7-5500U,主頻2.4 GHz,16 GB內(nèi)存的電腦。因?yàn)閷?shí)驗(yàn)使用的是預(yù)訓(xùn)練的網(wǎng)絡(luò)模型,其未經(jīng)微調(diào)的網(wǎng)絡(luò)模型參數(shù)是根據(jù)常用的公共數(shù)據(jù)集更新的,比如說(shuō)ILSVRC2014[19]數(shù)據(jù)集。故而需要將預(yù)訓(xùn)練的網(wǎng)絡(luò)模型進(jìn)行網(wǎng)絡(luò)微調(diào),使網(wǎng)絡(luò)根據(jù)自己的分類任務(wù)訓(xùn)練數(shù)據(jù)更新網(wǎng)絡(luò)參數(shù)和權(quán)值。修改相應(yīng)的源程序,微調(diào)網(wǎng)絡(luò)適應(yīng)實(shí)驗(yàn)任務(wù)的數(shù)據(jù)集。并設(shè)置程序其他重要參數(shù)見表1。
表1 網(wǎng)絡(luò)訓(xùn)練重要參數(shù)
設(shè)置學(xué)習(xí)率為0.001,設(shè)置caffe[20]的訓(xùn)練模式為GPU,學(xué)習(xí)率下降策略為”step”,設(shè)置步長(zhǎng)為50 000,訓(xùn)練模型快照迭代間隔為10 000次迭代。實(shí)驗(yàn)微調(diào)了CaffeNet,VGG16,GoogleNet 3個(gè)網(wǎng)絡(luò)模型,對(duì)只有原圖數(shù)據(jù)的數(shù)據(jù)集和經(jīng)過(guò)數(shù)據(jù)增強(qiáng)算法擴(kuò)充的差異化分布的數(shù)據(jù)集分別訓(xùn)練網(wǎng)絡(luò)模型,測(cè)試數(shù)據(jù)增強(qiáng)以及差異化分布數(shù)據(jù)集對(duì)細(xì)粒度分類準(zhǔn)確的效果。表2為各網(wǎng)絡(luò)用各數(shù)據(jù)集訓(xùn)練后的Top1準(zhǔn)確率統(tǒng)計(jì)。實(shí)驗(yàn)表明采用數(shù)據(jù)增強(qiáng)算法提升了細(xì)粒度分類的準(zhǔn)確率,其中,GoogleNet有5.9%的提升;VGG16有7.3%的提升;CaffeNet有6.1%的提升。故而使用數(shù)據(jù)增強(qiáng)的方法使訓(xùn)練數(shù)據(jù)集中圖片的數(shù)量增多對(duì)網(wǎng)絡(luò)模型和網(wǎng)絡(luò)結(jié)果的分類性能有很大的提升,其中相同的增強(qiáng)方法增加的圖片對(duì)不同的網(wǎng)絡(luò)模型的性能提升也有很大的差異性,故而說(shuō)明使用差異化分布的數(shù)據(jù)集對(duì)分類的準(zhǔn)確率也有一定的影響,同時(shí)也說(shuō)明實(shí)驗(yàn)訓(xùn)練的卷積網(wǎng)絡(luò)模型具備更廣泛的差異性的特點(diǎn)。從而使得各網(wǎng)絡(luò)模型更符合用于集成的條件。圖5顯示了CaffeNet、VGG16和GoogleNet用數(shù)據(jù)集0進(jìn)行微調(diào)的網(wǎng)絡(luò)訓(xùn)練loss曲線圖。表明訓(xùn)練時(shí)3個(gè)網(wǎng)絡(luò)可以迅速收斂。
表2 各網(wǎng)絡(luò)模型用各數(shù)據(jù)集訓(xùn)練后的Top1準(zhǔn)確率統(tǒng)計(jì)
綜上所述,采用數(shù)據(jù)增強(qiáng)的方法有效的增加了數(shù)據(jù)集的數(shù)量,使得細(xì)粒度分類的準(zhǔn)確率得到了一定的提升,使用集成學(xué)習(xí)的算法對(duì)細(xì)粒度分類的準(zhǔn)確率度也有較大提升。表3為本文設(shè)計(jì)的各集成組合的Top1準(zhǔn)確率統(tǒng)計(jì)表,結(jié)果表明第一層集成組合中,集成組合0的細(xì)粒度分類準(zhǔn)確率最好,相對(duì)于單純用GoogleNet在數(shù)據(jù)集0訓(xùn)練的分類準(zhǔn)確率,Top1準(zhǔn)確率有2%的提升。使用多重集成的算法對(duì)分類的準(zhǔn)確率也有一定的提升,相對(duì)于集成單元第一層集成組合集成效果最好的集成組合0,集成組合的Top1準(zhǔn)確率達(dá)到94.9%,故而有1.3%的提升。證明采用多重集成的方法,相對(duì)于用所有的數(shù)據(jù)增強(qiáng)處理數(shù)據(jù)集0訓(xùn)練的GoogleNet模型,Top1準(zhǔn)確率總共有3.3%的提升。總之,說(shuō)明采用數(shù)據(jù)增強(qiáng)和多種神經(jīng)網(wǎng)絡(luò)模型集成融合的算法對(duì)細(xì)粒度的分類是非常有效的,對(duì)比實(shí)驗(yàn)細(xì)粒度分類性能最好GoogleNet模型,即與GoogleNet在數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果對(duì)比,實(shí)驗(yàn)未采用增強(qiáng)和集成算法前,Top1準(zhǔn)確率有9.2%的提升。
圖5 各網(wǎng)絡(luò)模型訓(xùn)練loss曲線圖
表3 各集成組合的Top1準(zhǔn)確率統(tǒng)計(jì)
圖6用CaffeNet、VGG16、GoogLeNet和本文算法分別對(duì)5對(duì)驗(yàn)證樣本進(jìn)行識(shí)別以及對(duì)預(yù)測(cè)結(jié)果進(jìn)行統(tǒng)計(jì),實(shí)驗(yàn)表明本文算法相對(duì)于其他3個(gè)模型細(xì)粒度分類的準(zhǔn)確率更好。但還是存在有些相似度極高的車型CaffeNet、VGG16、GoogleNet和本文的算法都無(wú)法正確區(qū)分,比如ABT A4與ABT A7。很多單模型無(wú)法全部同時(shí)準(zhǔn)確識(shí)別的車型,如BWM X3和BWM X5,本文算法可進(jìn)行正確的分類。從而說(shuō)明本文構(gòu)建的多深度卷積網(wǎng)絡(luò)集成算法是有效的。
圖6 單模型和本文算法對(duì)車型分類的性能對(duì)比圖
與其他模型的對(duì)比結(jié)果見表4。共使用了3種最新的性能不同網(wǎng)絡(luò)模型對(duì)比本文算法的實(shí)驗(yàn)結(jié)果,對(duì)比結(jié)果表明本文算法優(yōu)于其他模型的實(shí)驗(yàn)結(jié)果。
表4 本文算法與其他算法的對(duì)比
本文結(jié)合多模型集成的優(yōu)勢(shì),結(jié)合數(shù)據(jù)增強(qiáng)算法和差異化網(wǎng)絡(luò)模型的特點(diǎn),提出了一種數(shù)據(jù)增強(qiáng)和多模型集成的細(xì)粒度分類算法,該算法首先利用鏡像處理、旋轉(zhuǎn)處理、多尺度放縮、添加高斯噪聲、隨機(jī)剪切、色彩增強(qiáng)、網(wǎng)絡(luò)收集數(shù)據(jù)、增加負(fù)樣本和高斯模糊數(shù)據(jù)等增強(qiáng)訓(xùn)練數(shù)據(jù)。然后利用數(shù)據(jù)增強(qiáng)后的數(shù)據(jù)集差異化組合成6種多樣化的訓(xùn)練數(shù)據(jù)集,分別訓(xùn)練了3種不同的差異化網(wǎng)絡(luò)模型。接著采用多重集成算法融合數(shù)據(jù)增強(qiáng)和多模型集成。實(shí)驗(yàn)測(cè)試了不同數(shù)據(jù)集對(duì)不同網(wǎng)絡(luò)模型的影響和不同集成組合的分類準(zhǔn)確率。實(shí)驗(yàn)說(shuō)明使用差異化的數(shù)據(jù)集訓(xùn)練多個(gè)分類模型,對(duì)分類的準(zhǔn)確率也有很大的貢獻(xiàn)。增加了分類系統(tǒng)基學(xué)習(xí)器的數(shù)量和差異性。本文的模型集成算法比未采用增強(qiáng)和集成算法且分類性能最好的單模型GoogleNet分類準(zhǔn)確率提高了9.2%,驗(yàn)證了本文算法的有效性。
[1] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]//International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2012: 1097-1105.
[2] YANG L, LUO P, CHEN C L, et al. A large-scale car dataset for fine-grained categorization and verification [C]// Computer Vision and Pattern Recognition. Washington: IEEE Computer Society, 2015: 3973-3981.
[3] SOCHOR J, HEROUT A, HAVEL J. BoxCars: 3D boxes as CNN input for improved fine-grained vehicle recognition [C]//IEEE Conference on Computer Vision and Pattern Recognition. Washington: IEEE Computer Society, 2016: 3006-3015.
[4] JIA D, KRAUSE J, LI F F. Fine-grained crowdsourcing for fine-grained recognition [C]//Computer Vision and Pattern Recognition. Washington: IEEE Computer Society, 2013: 580-587.
[5] ZHAO B, WU X, FENG J, et al. Diversified visual attention networks for fine-grained object classification [J]. IEEE Transactions on Multimedia, 2017, 19(6): 1245-1256.
[6] XIE L, TIAN Q, HONG R, et al. Hierarchical part matching for fine-grained visual categorization [C]//IEEE International Conference on Computer Vision. Washington: IEEE Computer Society, 2013: 1641-1648.
[7] ANGELOVA A, ZHU S. Efficient object detection and segmentation for fine-grained recognition [C]//Computer Vision and Pattern Recognition. Washington: IEEE Computer Society, 2013: 811-818.
[8] KRAUSE J, STARK M, DENG J, et al. 3D object representations for fine-grained categorization [C]//IEEE International Conference on Computer Vision Workshops. Washington: IEEE Computer Society, 2013: 554-561.
[9] ZHANG N, DONAHUE J, GIRSHICK R, et al. Part-based R-CNNs for fine-grained category detection [M]//Computer Vision-ECCV 2014. Berlin: Springer International Publishing, 2014: 834-849.
[10] XU L, KRZYZAK A, SUEN C Y. Methods of combining multiple classifiers and their applications to handwriting recognition [J]. IEEE Transactions on Cybernetics, 1992, 22(3): 418-435.
[11] LEE S, PRAKASH S P S, COGSWELL M, et al. Stochastic multiple choice learning for training diverse deep ensembles [C]//Advances in Neural Information Processing Systems. Cambridge: MIT Press, 2016: 2119-2127.
[12] DIETTERICH T G. Ensemble methods in machine learning [C]//International Workshop on Multiple Classifier Systems. Berlin: Springer-Verlag, 2000: 1-15.
[13] MARMANIS D, WEGNER J D, GALLIANI S, et al. Semantic segmentation of aerial images with an ensemble of CNSS [J]. ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2016, 3: 473-480.`
[14] WANG L, OUYANG W, WANG X, et al. STCT: sequentially training convolutional networks for visual tracking [C]//IEEE Conference on Computer Vision and Pattern Recognition. Washington: IEEE Computer Society, 2016: 1373-1381.
[15] LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition [J]. Neural Computation, 1989, 1(4): 541-551.
[16] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Washington: IEEE Computer Society, 2015: 1-9.
[17] ZHU J, ZOU H, ROSSET S, et al. Multi-class AdaBoost [J]. Statistics & Its Interface, 2006, 2(3): 349-360.
[18] LI X, WANG L, SUNG E. AdaBoost with SVM-based component classifiers [J]. Engineering Applications of Artificial Intelligence, 2008, 21(5): 785-795.
[19] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]//International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2012: 1097-1105.
[20] JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: convolutional architecture for fast feature embedding [C]// Proceedings of the 22nd ACM International Conference on Multimedia. New York: ACM Press, 2014: 675-678.
Data Augmentation with Multi-Model Ensemble for Fine-Grained Category Classification
JIANG Jie, XIONG Changzhen
(Beijing Key Laboratory of Urban Intelligent Control, North China University of Technology, Beijing 100144, China)
In order to solve low classification precision caused by the lack of training data or the classification performance constraint of single convolutional network model, a fine-grained category classification algorithm based on data augmentation and multi-model ensemble is proposed. Firstly, the paper designs a variety of data augmentation methods to increase the number of pictures in CompCars dataset, including mirroring, rotation, multiscale scaling, Gaussian noise, random cropping and color enhancement. Then 3 differentiated models, CaffeNet, VGG16 and GoogleNet, are trained using the constructed differentiated dataset by different data sampling. A multi-layer ensemble learning method is used to integrate multi-model’s classification results. The experimental results show the fine-grained classification of the differentiated convolution network trained on the different datasets generated by the different data augmentation method.The experiment also shows the classification results of multi-model ensemble with different ensemble strategy. The final classification precision of multi-model ensemble is 94.9%. Compared with the best single model GoogleNet, the classification precision is increased 9.2%. The results verify the effectives of proposed algorithm.
fine-grained category classification; data augmentation;convolutional network;ensemble learning
TP 391
10.11996/JG.j.2095-302X.2018020244
A
2095-302X(2018)02-0244-07
2017-07-08;
2017-08-28
國(guó)家重點(diǎn)研發(fā)計(jì)劃資助項(xiàng)目(2016YFB1200402);北京市教委科技創(chuàng)新服務(wù)能力建設(shè)項(xiàng)目(PXM2017-014212-000033,PXM2017-014212-000031)
蔣 杰(1990–),男,湖南永州人,碩士研究生。主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、圖像與視覺信息計(jì)算。E-mail:614903520@qq.com
熊昌鎮(zhèn)(1979–),男,福建三明人,副教授,博士。主要研究方向?yàn)橐曨l分析、機(jī)器學(xué)習(xí)。E-mail:xczkiong@163.com