魏書偉 曾上游 潘兵 王新嬌
摘 ?要: 傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)單一或模塊單一,網(wǎng)絡(luò)提取特征時(shí)都是以同一種模式持續(xù)進(jìn)行,導(dǎo)致分類精度不夠理想,且模型參數(shù)和計(jì)算量較大。針對(duì)這一問(wèn)題,提出一種使用多樣化模塊的輕量型卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Diverse?net,使用Reduce Module和Slice Module兩種卷積模塊,通過(guò)交替疊加使用兩種不同的卷積模塊來(lái)代替?zhèn)鹘y(tǒng)網(wǎng)絡(luò)的單卷積核結(jié)構(gòu),增加網(wǎng)絡(luò)的深度和寬度,并在不同模塊之間加入殘差學(xué)習(xí)。使用文中搭建的卷積神經(jīng)網(wǎng)絡(luò)Diverse?net,與其他網(wǎng)絡(luò)模型在GTSRB和101_food數(shù)據(jù)集上進(jìn)行測(cè)試來(lái)對(duì)比網(wǎng)絡(luò)性能與模型大小,Diverse?net網(wǎng)絡(luò)模型大小減少至20.8 MB,在數(shù)據(jù)集GTSRB上識(shí)別率可達(dá)到98.72%;在數(shù)據(jù)集101_food上識(shí)別率可達(dá)到68.09%。實(shí)驗(yàn)結(jié)果表明,所設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)Diverse?net在圖像分類方面性能更優(yōu),且網(wǎng)絡(luò)的模型較小。
關(guān)鍵詞: 卷積神經(jīng)網(wǎng)絡(luò); 多樣化結(jié)構(gòu); 殘差學(xué)習(xí); 圖像預(yù)處理; 圖像分類; 測(cè)試分析
中圖分類號(hào): TN926?34; TP391.4 ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2020)12?0050?05
Abstract: The network structure or module of the traditional convolution neural network is single, and the features extraction by the network is carried out in a same mode continuously, resulting in the undesirable classification accuracy and a large amount of model parameters and computations. Therefore, a lightweight convolution neural network structure Diverse?net with diversified modules is proposed, in which the two kinds of convolution modules of Reduce Module and Slice Module are used to replace the single convolution kernel structure of the traditional network by means of the alternating superposition, which increase the depth and width of the network, and add the residual learning between different modules. The convolution neural network (Diverse?net) constructed in this paper and other network models were tested on GTSRB and 101_food datasets to compare their network performances and model sizes. The Diverse?net network model is reduced to 20.8 M, and the recognition rate can reach 98.72% on GTSRB dataset, and 68.09% on 101_food dataset. The experimental results show that the designed convolutional neural network Diverse?net has better performance in image classification and smaller network model.
Keywords: convolution neural network; diversified structure; residual learning; image preprocessing; image classification; testing analysis
0 ?引 ?言
Hinton自2006年提出深度學(xué)習(xí)[1]的概念以來(lái),深度學(xué)習(xí)已成為人工智能研究的熱點(diǎn),它打破了人工智能領(lǐng)域發(fā)展長(zhǎng)期停滯不前的局面,計(jì)算機(jī)硬件性能的提高和大數(shù)據(jù)時(shí)代的到來(lái)也為深度學(xué)習(xí)的發(fā)展奠定了良好的基礎(chǔ)。相比于傳統(tǒng)算法,深度學(xué)習(xí)算法在自然語(yǔ)言處理和圖像識(shí)別分類等方面逐漸表現(xiàn)出強(qiáng)烈的優(yōu)勢(shì),現(xiàn)已成為人工智能領(lǐng)域的頂尖算法。由深度學(xué)習(xí)引發(fā)的新一代“工業(yè)革命”,將會(huì)提高人們的生活水平和質(zhì)量,改變?nèi)藗兊某鲂械壬罘绞?,研究者已?jīng)在自動(dòng)駕駛、實(shí)時(shí)語(yǔ)音處理等多個(gè)方面取得了重大突破,對(duì)人工智能的研究進(jìn)入了一個(gè)新的階段。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)[2]是深度學(xué)習(xí)算法中重要的一部分,發(fā)展到現(xiàn)在為止,各種優(yōu)秀的模型先后被提出,其中比較有代表性的模型為VGG[3],GoogLeNet[4],ResNet[5] 。但是這些網(wǎng)絡(luò)的結(jié)構(gòu)或者網(wǎng)絡(luò)模塊比較單一,在這種情況下,網(wǎng)絡(luò)提取特征時(shí)都是以同一模式持續(xù)進(jìn)行。故在淺層的深度卷積神經(jīng)網(wǎng)絡(luò)中很可能沒(méi)有提取到較好的特征,而且卷積神經(jīng)網(wǎng)絡(luò)模型一直在追求識(shí)別的成功率,隨著網(wǎng)絡(luò)的發(fā)展,識(shí)別精度不斷被提升,參數(shù)量也越來(lái)越多,但是龐大的網(wǎng)絡(luò)結(jié)構(gòu)需要學(xué)習(xí)更多的參數(shù),容易造成過(guò)擬合現(xiàn)象[6]。此外,網(wǎng)絡(luò)結(jié)構(gòu)增大對(duì)網(wǎng)絡(luò)訓(xùn)練也會(huì)造成一定困難,網(wǎng)絡(luò)訓(xùn)練的效率較低,對(duì)計(jì)算機(jī)硬件要求過(guò)高,網(wǎng)絡(luò)也難以移植,如何在保證識(shí)別精度的情況下,設(shè)計(jì)輕量化的模型已成為亟待解決的問(wèn)題。
本文針對(duì)于這一問(wèn)題,提出一種多樣化模塊的輕量型卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)Diverse?net,結(jié)合Reduce Module和Slice Module兩種卷積模塊,使用1×1卷積操作使得兩種降維模塊的首尾完美結(jié)合,網(wǎng)絡(luò)末端使用全局均值池化(Global Avepool)替代傳統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)的全連接層,有效地降低了網(wǎng)絡(luò)參數(shù),這種多樣化的輕量型的神經(jīng)網(wǎng)絡(luò)架構(gòu)可以在容量有限的硬件上運(yùn)行。
1 ?基于多樣化結(jié)構(gòu)的輕量型卷積神經(jīng)網(wǎng)絡(luò)模型
1.1 ?Reduce Module
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)采用單條卷積層和下采樣層交替堆疊而成的模式,對(duì)特征圖進(jìn)行特征提取,網(wǎng)絡(luò)復(fù)雜度、模型參數(shù)和計(jì)算量較大,且卷積操作只有一條通道,提取的圖像特征不充分。圖1為標(biāo)準(zhǔn)的卷積結(jié)構(gòu)。
Reduce Module結(jié)構(gòu)如圖2所示,其基本思路是將一個(gè)卷積層分為降維層和采樣層兩部分,并在每層后面加入了ReLu激活層[7]。降維層采用S個(gè)1×1 大小的卷積核將輸入特征圖的通道數(shù)量降低到S。采樣層使用兩組卷積通道(G1和G2)提取特征,G1使用S個(gè)3×3卷積核進(jìn)行卷積;G2采用兩層3×3卷積進(jìn)行卷積操作,每層3×3卷積層的卷積核個(gè)數(shù)均為S。
Reduce Module與傳統(tǒng)的3×3卷積結(jié)構(gòu)相比參數(shù)減小,在輸入和輸出均為128張?zhí)卣鲌D時(shí),傳統(tǒng)的3×3卷積結(jié)構(gòu)參數(shù)為128×3×3×128=147 456,Reduce Module的參數(shù)則為128×1×1×64+64×3×3×64+64×3×3×64+64×3×3× 64=118 784。在參數(shù)量減小的情況下,本文Reduce Module同時(shí)使用兩種尺度卷積核采樣,增加了提取特征的多樣性。
1.2 ?Slice Module
Slice Module[8]核心思想是將輸入的特征圖切分為兩部分,分別輸送給兩條卷積核大小不同的網(wǎng)絡(luò)支路進(jìn)行卷積操作來(lái)提取特征,再經(jīng)過(guò)特征圖級(jí)聯(lián)操作concat將兩條支路提取到的特征信息進(jìn)行融合,最后再經(jīng)過(guò)1×1卷積核整合特征圖并增加網(wǎng)絡(luò)的深度,同時(shí)也減少了下一級(jí)網(wǎng)絡(luò)輸入的參數(shù),如圖3所示。Slice Module將輸入的128張?zhí)卣鲌D分為2組,每組為64張?zhí)卣鲌D,分別經(jīng)過(guò)3×3和5×5兩種不同大小的卷積核進(jìn)行特征提取,又經(jīng)過(guò)級(jí)聯(lián)操作整合為128張?zhí)卣鲌D,再經(jīng)過(guò)1×1卷積操作后輸出,對(duì)比傳統(tǒng)僅使用3×3卷積核結(jié)構(gòu)的參數(shù)為128×3×3×128=147 456,Slice Module卷積結(jié)構(gòu)參數(shù)為64×3×3×64+64×5×5×64+128×1×1×128=155 648,基本沒(méi)有什么變化,但是同時(shí)增加了網(wǎng)絡(luò)的寬度和深度,提高了網(wǎng)絡(luò)的識(shí)別性能。
1.3 ?殘差網(wǎng)絡(luò)ResNet
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型通過(guò)疊加卷積層來(lái)提高網(wǎng)絡(luò)深度,從而提高識(shí)別精度,但是重疊卷積層太多將會(huì)引起梯度離散等問(wèn)題,在反向傳播時(shí)不能有效地將梯度更新到前面的網(wǎng)絡(luò)層,導(dǎo)致前網(wǎng)絡(luò)層參數(shù)不能及時(shí)更新。
殘差結(jié)構(gòu)如圖4所示,設(shè)模型輸入為x,經(jīng)過(guò)兩層計(jì)算后的輸出為F(x),整個(gè)結(jié)構(gòu)經(jīng)過(guò)計(jì)算的輸出H(x),即H(x)= F(x)+x,模型計(jì)算得到的輸出H(x)傳入到下一層作為下一層的輸入。在層級(jí)結(jié)構(gòu)上增加一個(gè)短接結(jié)構(gòu)后,使得網(wǎng)絡(luò)模型的訓(xùn)練效果和速度都有很大的提升,而且不會(huì)給網(wǎng)絡(luò)額外增加參數(shù),當(dāng)網(wǎng)絡(luò)模型的層數(shù)加深時(shí),這種短接結(jié)構(gòu)可以很好地解決網(wǎng)絡(luò)性能退化問(wèn)題。本文在Reduce Module和Slice Module之間增加殘差運(yùn)算,使網(wǎng)絡(luò)在反向傳播過(guò)程中更好地把梯度傳輸?shù)礁鼫\的層次中。
1.4 ?整體網(wǎng)絡(luò)結(jié)構(gòu)
Diverse?net的整體網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,通過(guò)兩個(gè)模塊Reduce Module和Slice Module的交替使用并配合池化層的降維操作,淺層的特征使用最大池化(Maxpool)進(jìn)行下采樣,這樣能盡量多地突出顯著特征,隨著特征提取的深入,網(wǎng)絡(luò)提取的圖片特征更加困難,此時(shí)采用均值池化(Avepool)進(jìn)行下采樣,最后使用全局均值池化(Global Avepool)加普通卷積層代替?zhèn)鹘y(tǒng)網(wǎng)絡(luò)的全連接層,且加入了Dropout層以防止過(guò)擬合現(xiàn)象發(fā)生。
池化層的操作經(jīng)過(guò)多次試驗(yàn)發(fā)現(xiàn)采用Max?Max?Max?Ave(Max指最大值池化,Ave指平均池化)架構(gòu)效果較好,網(wǎng)絡(luò)架構(gòu)清晰明了,易于擴(kuò)展和推廣,全局平均層沒(méi)有任何參數(shù),因此有利于網(wǎng)絡(luò)的輕量化和防止過(guò)擬合現(xiàn)象的發(fā)生。
2 ?實(shí) ?驗(yàn)
2.1 ?圖像數(shù)據(jù)集和預(yù)處理
本實(shí)驗(yàn)數(shù)據(jù)集采用目前在圖像識(shí)別方面使用相當(dāng)廣泛的101_food食物數(shù)據(jù)集以及GTSRB交通標(biāo)志數(shù)據(jù)集。如圖6所示,101_food數(shù)據(jù)集包括了101類食物的圖像,每類食物1 000張圖像,共計(jì)101 000張圖像。此次實(shí)驗(yàn)中,將訓(xùn)練集和測(cè)試集按照3∶1的比例進(jìn)行分配,則為75 750張訓(xùn)練圖像和25 250張測(cè)試圖像。
如圖7所示,GTSRB是一個(gè)交通標(biāo)志數(shù)據(jù)集,包含43類交通標(biāo)志的圖像,共計(jì)51 831張圖像。其中,包含39 209張訓(xùn)練集圖像,12 432張測(cè)試集圖像。在智能駕駛方面被廣泛使用,所有數(shù)據(jù)集的圖像均在自然環(huán)境下拍攝得到,有的圖像會(huì)出現(xiàn)視覺(jué)傾斜、局部遮擋、低分辨率、運(yùn)動(dòng)模糊等現(xiàn)象,所以識(shí)別率很難達(dá)到100%。
圖像預(yù)處理是訓(xùn)練之前對(duì)所有圖片進(jìn)行數(shù)據(jù)增強(qiáng),進(jìn)行歸一化和去均值等操作。首先將圖像的每個(gè)像素都減去訓(xùn)練圖片的平均像素值,然后將所有圖像進(jìn)行cropsize隨機(jī)裁剪操作,分別截取每張圖像的左上角、左下角、右上角、右下角以及中間區(qū)域,隨機(jī)裁剪區(qū)域的大小為227×227,最后再進(jìn)行水平翻轉(zhuǎn)操作,使得數(shù)據(jù)集的數(shù)量擴(kuò)增10倍。
2.2 ?實(shí)驗(yàn)設(shè)置
1) 實(shí)驗(yàn)環(huán)境。此次實(shí)驗(yàn)選用 caffe深度學(xué)習(xí)框架[9]布置網(wǎng)絡(luò)結(jié)構(gòu),使用 i7?6700K處理器、Ubuntu 16.04操作系統(tǒng)以及1080Ti的GPU顯卡進(jìn)行網(wǎng)絡(luò)訓(xùn)練與測(cè)試。
2) 參數(shù)設(shè)置。實(shí)驗(yàn)在GTSRB數(shù)據(jù)集上測(cè)試時(shí),網(wǎng)絡(luò)的文件配置如下:初始學(xué)習(xí)率learning rate設(shè)置為0.005,選擇使用multistep的變化方式來(lái)逐步改變學(xué)習(xí)率的大小,gamma為0.1,stepvalue設(shè)置為24 000和48 000,表示當(dāng)達(dá)到這兩個(gè)迭代次數(shù)時(shí)學(xué)習(xí)率減小為原來(lái)的[110],最大迭代次數(shù)為60 000,網(wǎng)絡(luò)每迭代500次測(cè)試一次當(dāng)前的網(wǎng)絡(luò)性能。在101_food數(shù)據(jù)集上測(cè)試時(shí),除了最大迭代次數(shù)設(shè)置變?yōu)?50 000和stepvalue參數(shù)設(shè)置為40 000,80 000和120 000,其余參數(shù)都和在GTSRB數(shù)據(jù)集上的配置保持一致。
2.3 ?實(shí)驗(yàn)結(jié)果及分析
實(shí)驗(yàn)測(cè)評(píng)采用本文Diverse?net網(wǎng)絡(luò)、同等深度的傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)Tra?Net和其他已發(fā)表的識(shí)別方法,在GTSRB以及101_food數(shù)據(jù)集上測(cè)試其識(shí)別性能,結(jié)果如表1所示。圖8給出了Diverse?net和Tra?Net兩種網(wǎng)絡(luò)在101_food訓(xùn)練時(shí)測(cè)試精度的變化曲線,當(dāng)達(dá)到設(shè)置的最大迭代次數(shù)15 000時(shí),Diverse?net識(shí)別精度依然明顯高于其他方法。與傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)Tra?Net相比,Diverse?net網(wǎng)絡(luò)模型規(guī)模大幅度下降,且模型識(shí)別準(zhǔn)確率提升了約12%,與其他已發(fā)表的網(wǎng)絡(luò)相比,Diverse?net都呈現(xiàn)出識(shí)別精度提高、網(wǎng)絡(luò)模型減小的優(yōu)勢(shì)。
圖9給出了Diverse?net和Tra?Net兩種網(wǎng)絡(luò)在GTSRB數(shù)據(jù)集上訓(xùn)練時(shí)測(cè)試精度的變化曲線。由表2和圖9可知,當(dāng)達(dá)到設(shè)置的最大迭代次數(shù)60 000次時(shí),采用Diverse?net網(wǎng)絡(luò)的識(shí)別精度提升到98.72%,優(yōu)于其他識(shí)別方法,且網(wǎng)絡(luò)模型參數(shù)相比傳統(tǒng)網(wǎng)絡(luò)減少至20.1 MB。
從實(shí)驗(yàn)結(jié)果可以看出,Diverse?net網(wǎng)絡(luò)在網(wǎng)絡(luò)模型較小的情況下,相比傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)Tra?Net和其他已發(fā)表的識(shí)別方法,均在兩個(gè)數(shù)據(jù)集上提高了分類精度;并且Diverse?net識(shí)別性能更優(yōu),模型較為輕量化。綜合兩個(gè)對(duì)比實(shí)驗(yàn)可知:
1) Reduce Module和Slice Module交替聯(lián)合使用能有效地提升網(wǎng)絡(luò)性能并控制模型大小。
2) 雙通道的特征提取對(duì)整體識(shí)別率是有貢獻(xiàn)的。
3) 1×1卷積層的降維操作,可以有效控制網(wǎng)絡(luò)參數(shù)。
4) 使用全局均值池化代替?zhèn)鹘y(tǒng)的全連接層可以有效地減少網(wǎng)絡(luò)參數(shù)。
3 ?結(jié) ?語(yǔ)
本文采用Reduce Module和Slice Module兩種卷積模塊,通過(guò)交替疊加使用兩種不同的卷積模塊來(lái)代替?zhèn)鹘y(tǒng)網(wǎng)絡(luò)的卷積模塊,設(shè)計(jì)一種使用多樣化模塊的輕量型卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Diverse?net,使用1×1卷積,增加網(wǎng)絡(luò)的深度和寬度,并在不同模塊之間加入了殘差學(xué)習(xí),使用全局均值池化代替?zhèn)鹘y(tǒng)的全連接層,有效地減少了網(wǎng)絡(luò)參數(shù),輕量化了網(wǎng)絡(luò)。
雖然多樣化網(wǎng)絡(luò)的性能優(yōu)越,但是在本文的實(shí)驗(yàn)中未測(cè)試其他類型模塊疊加后的性能,由于在汲取其他網(wǎng)絡(luò)模塊優(yōu)點(diǎn)的同時(shí)也有可能將其缺點(diǎn)也接納過(guò)來(lái),所以在采用不同網(wǎng)絡(luò)模塊時(shí)應(yīng)考慮其他因素對(duì)網(wǎng)絡(luò)的整體影響,取其精華,去其糟粕。后面的工作是在本文中Diverse?net上繼續(xù)改進(jìn),進(jìn)一步測(cè)試Diverse?net在其他領(lǐng)域中的表現(xiàn),例如目標(biāo)檢測(cè),圖像分割等,并在更大規(guī)模的數(shù)據(jù)集上進(jìn)行測(cè)試和優(yōu)化來(lái)比較網(wǎng)絡(luò)的性能優(yōu)劣,進(jìn)一步提升網(wǎng)絡(luò)性能,減少模型大小。
參考文獻(xiàn)
[1] HINTON G E. Reducing the dimensionality of data with neural networks [J]. Science, 2006, 313: 504.
[2] HAYKIN S, KOSKO B. Gradientbased learning applied to document recognition [M]// HAYKIN S, KOSKO B. Intelligent signal processing. Ottawa: Wiley?IEEE Press, 2001: 306?351.
[3] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large?scale image recognition [J]. Computer science, 2014, 12: 1?14.
[4] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions [C]// IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 1?9.
[5] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]// IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770?778.
[6] 張順,龔怡宏,王進(jìn)軍.深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展及其在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用[J].計(jì)算機(jī)學(xué)報(bào),2019,42(3):453?482.
[7] NAIR V, HINTON G E. Rectified linear units improve restricted Boltzmann machines Vinod Nair [C]// Proceedings of 2010 27th International Conference on Machine Learning. Haifa: DBLP, 2010: 17?21.
[8] 周悅,曾上游,楊遠(yuǎn)飛,等.基于分組模塊的卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)[J].微電子學(xué)與計(jì)算機(jī),2019,36(2):68?72.
[9] JIA Y Q, SHELHAMER E, DONAHUE J, et al. Caffe: convolutional architecture for fast feature embedding [C]// 22nd ACM International Conference on Multimedia. New York: ACM, 2014: 675?678.
[10] BOSSARD L, GUILLAUMIN M, GOOL L V. Food?101?Mining discriminative components with random forests [C]// European Conference on Computer Vision. Zurich: Springer, 2014: 446?461.
[11] JAHANI H E, HABIB A H, PUIG D. An optimized convolutional neural network with bottleneck and spatial pyramid pooling layers for classification of foods [J]. Pattern recognition letters, 2018, 105: 50?58.
[12] 徐彬森,魏元周,毛光明,等.交通標(biāo)志識(shí)別算法模型的研究與實(shí)現(xiàn)[J].軟件,2017,38(11):74?81.
[13] 韓偉,劉磊,馬偉東,等.基于極坐標(biāo)分區(qū)LBP的交通標(biāo)志識(shí)別方法[J].湘潭大學(xué)自科學(xué)報(bào),2017(4):92?94.
[14] 孫偉,杜宏吉,張小瑞,等.基于CNN多層特征和ELM的交通標(biāo)志識(shí)別[J].電子科技大學(xué)學(xué)報(bào),2018(3):343?349.