基于卷積神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)的花卉圖像分類

2020-06-23 09:09張秋穎金雪松

哈爾濱商業(yè)大學(xué)學(xué)報（自然科學(xué)版） 2020年3期

張秋穎，金雪松

(哈爾濱商業(yè)大學(xué) 計算機與信息工程學(xué)院，哈爾濱150020)

花卉分類問題是植物學(xué)領(lǐng)域的重要研究熱點，僅依靠植物專家的專業(yè)知識和經(jīng)驗進行人為判斷，需要耗費大量的時間和精力.因此，運用計算機技術(shù)對圖像自動分類可以節(jié)省大量時間，并且可以減少人為判斷帶來的經(jīng)驗性依賴.目前對花卉圖像分類的方法可以分為兩種：基于手工提取特征的方法和基于深度學(xué)習(xí)的方法.

手工提取特征方法多為提取圖像的顏色特征、紋理特征和形狀特征等，并結(jié)合機器學(xué)習(xí)算法進行分類.花卉圖像具有顏色豐富，種類繁多等特點，因此顏色特征對不同花卉種類的區(qū)分具有重要的作用，然而，花卉圖像存在類間相似而類內(nèi)不同的問題，單一特征無法準(zhǔn)確區(qū)分不同種類的花卉.通常，將圖像的顏色、紋理、形狀和輪廓等特征融合提高分類準(zhǔn)確率[1-4].文獻[5]提出一種基于顯著圖的花卉圖像分類方法，將顏色特征和尺度不變特征變換(Scale-invariant feature transform，SIFT)特征融合后分類.文獻[6]對特征上下文的局部信息和空間信息進行編碼，并采用支持向量機分類.文獻[7]提出基于對象的區(qū)域檢測和全對象分割方法，實現(xiàn)花卉圖像的細(xì)粒度分類.然而，傳統(tǒng)方法提取特征不充分，導(dǎo)致分類準(zhǔn)確率很低.

近年來，深度學(xué)習(xí)方法在圖像分類領(lǐng)域取得了顯著的成果，深度卷積神經(jīng)網(wǎng)絡(luò)[8-9]被認(rèn)為是最成功、應(yīng)用最廣泛的深度學(xué)習(xí)方法，目前經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)AlexNet[10]、VGGNet[11]、GoogLeNet[12]、ResNet[13]等.

因此，針對花卉圖像數(shù)據(jù)缺乏和分類精度低等問題，本文整理一個包含5類花卉的數(shù)據(jù)集，并使用AlexNet、VGGNet、GoogLeNet三種卷積神經(jīng)網(wǎng)絡(luò)對圖像分類，與傳統(tǒng)方法相比，可以大幅度地提升分類準(zhǔn)確率.

1 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)通過多個層的交替疊加提取圖像特征，較低層提取圖像的底層特征，較深層則獲取圖像的高層信息[14].卷積神經(jīng)網(wǎng)絡(luò)最基本的層包括卷積層、激活層和池化層等.本文分別使用AlexNet、VGGNet、GoogLeNet三種網(wǎng)絡(luò)進行實驗.

1.1 AlexNet

AlexNet網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示，由5個卷積層，3個池化層和3個全連接層組成.AlexNet使用ReLU激活函數(shù)代替Sigmoid函數(shù)，緩解了網(wǎng)絡(luò)訓(xùn)練的梯度彌散問題；采用dropout機制隨機忽略一部分神經(jīng)元，降低網(wǎng)絡(luò)的復(fù)雜性，減少模型的過擬合問題；采用最大池化的方式代替平均池化，緩解平均池化帶來的模糊效應(yīng)；引入了LRN層，增強神經(jīng)元的響應(yīng)能力，增強模型的泛化能力.

圖1 AlexNet網(wǎng)絡(luò)結(jié)構(gòu)

1.2 VGGNet

VGGNet網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示，由13個卷積層，5個池化層和3個全連接層組成.VGGNet的所有卷積層采用相同尺寸的濾波器，通過串聯(lián)兩個3×3濾波器和三個3×3濾波器替代更大的濾波器，可以減少整個網(wǎng)絡(luò)的參數(shù)量并且提高了網(wǎng)絡(luò)的學(xué)習(xí)能力，多個小卷積核的堆疊在減少計算量的同時可以提升分類準(zhǔn)確率.VGGNet網(wǎng)絡(luò)層數(shù)和通道數(shù)的加深，可以提取圖像更多的信息.

圖2 VGGNet網(wǎng)絡(luò)結(jié)構(gòu)

1.3 GoogLeNet

網(wǎng)絡(luò)層數(shù)的加深在提升準(zhǔn)確率的同時也帶來了過擬合、梯度消失和梯度爆炸等問題，因此，GoogLeNet引入Inception模塊從另一角度提升訓(xùn)練結(jié)果，在節(jié)省計算資源和參數(shù)量的前提下提取更豐富的特征，獲取更好的分類效果.Inception模塊的基本結(jié)構(gòu)如圖3所示，對輸入特征圖做4個分支的不同尺寸的卷積或池化操作，最后將多個特征維度進行融合，提取更豐富的特征，加快收斂速度；增加1(1卷積來降低特征維度，降低了計算復(fù)雜度.GoogLeNet采用平均池化代替全連接層，參數(shù)量僅為Alexnet的1/12，也能適當(dāng)?shù)靥嵘诸悳?zhǔn)確率.

圖3 GoogLeNet網(wǎng)絡(luò)結(jié)構(gòu)

1.4 網(wǎng)絡(luò)訓(xùn)練

卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練可以分為兩個過程：前向傳播階段和后向傳播階段.前向傳播階段是將輸入數(shù)據(jù)依次從低層向高層計算出輸出的過程，反向傳播階段是將輸出結(jié)果與輸入數(shù)據(jù)的誤差從高層向低層傳播的過程.整個訓(xùn)練的傳播過程如圖4所示.

圖4 訓(xùn)練過程

1.5 遷移學(xué)習(xí)

遷移學(xué)習(xí)是將一個相關(guān)領(lǐng)域的知識遷移到另一個領(lǐng)域來提升學(xué)習(xí)效果.遷移學(xué)習(xí)涉及兩個基本概念域和任務(wù).一個域定義為D={χ，P(X)}，χ表示特征空間，P(X)表示邊際概率分布，其中X={x1,x2,…,xn}.一個任務(wù)定義為T={y,f(·)}，y表示標(biāo)簽空間，f(·)表示目標(biāo)預(yù)測函數(shù).給定源域Ds和源任務(wù)Ts、目標(biāo)域Dt和目標(biāo)任務(wù)Tt，在Ds≠Dt且Ts≠Tt的前提下，利用Ds在解決任務(wù)Ts時獲得的知識來提升Dt的目標(biāo)任務(wù)Tt.

遷移學(xué)習(xí)最簡單的方法是使用預(yù)訓(xùn)練模型微調(diào)網(wǎng)絡(luò)[15]，深度網(wǎng)絡(luò)訓(xùn)練通常需要大量的訓(xùn)練樣本，否則容易出現(xiàn)過擬合問題.ImageNet[16]是目前最大的圖像識別數(shù)據(jù)庫，包含1 000個類別，涉及范圍廣，樣本多樣性豐富.因此從ImageNet訓(xùn)練的模型中獲得參數(shù)，根據(jù)新數(shù)據(jù)集的當(dāng)前狀態(tài)調(diào)整參數(shù)，解決樣本小和訓(xùn)練時間長的限制，可以訓(xùn)練出良好性能的網(wǎng)絡(luò).

2 實驗結(jié)果及分析

2.1 實驗環(huán)境及數(shù)據(jù)集

訓(xùn)練環(huán)境為Windows10系統(tǒng)，計算機配置為Intel(R) Core(TM) i5-7400 CPU @3.00 GHz，內(nèi)存為8 GB，顯卡為NVIDIA GeForce GTX 1050 Ti.訓(xùn)練CNN采用caffe深度學(xué)習(xí)框架，便于移植，操作流程簡單.

本文整理了一個包含5類的花卉數(shù)據(jù)集，分別為雛菊、蒲公英、玫瑰、向日葵和郁金香，每類花卉包含600張圖像.5類花卉示例如圖5所示.

圖5 花卉圖片

2.2 實驗設(shè)置

網(wǎng)絡(luò)訓(xùn)練過程中初始學(xué)習(xí)率設(shè)置為0.001，動量為0.9，權(quán)重衰減參數(shù)為0.000 5，學(xué)習(xí)率變化指數(shù)為0.1，step size為5 000，即每迭代5 000次對學(xué)習(xí)率進行一次調(diào)整.

增大樣本量可以防止網(wǎng)絡(luò)訓(xùn)練過程中出現(xiàn)的過擬合問題，采用平移、裁剪和亮度調(diào)整等方法對數(shù)據(jù)集進行增強.采用隨機取樣的方法，將數(shù)據(jù)集劃分為訓(xùn)練集和測試集，分為三種比例7∶3、8∶2和9∶1.

2.3 結(jié)果及分析

網(wǎng)絡(luò)最后一層為softmax層，輸出分類準(zhǔn)確率數(shù)值.使用不同網(wǎng)絡(luò)和不同訓(xùn)練集比例的分類結(jié)果如表1所示

由表1可知，三種網(wǎng)絡(luò)的分類準(zhǔn)確率都達(dá)到90%以上，訓(xùn)練集比例越大，分類準(zhǔn)確率越大，說明訓(xùn)練集數(shù)量增多使特征學(xué)習(xí)更充分.VGGnet和GoogLeNet的分類效果相近，明顯優(yōu)于AlexNet，說明網(wǎng)絡(luò)層數(shù)的加深，增強特征學(xué)習(xí)能力，其中GoogLeNet的分類效果最好，具有較好的性能.

表1 CNN分類準(zhǔn)確率

為了更好的說明卷積神經(jīng)網(wǎng)絡(luò)對花卉圖像分類的有效性，采用多種傳統(tǒng)特征對圖像進行分類結(jié)果如表2所示.

由表2可知，基于傳統(tǒng)特征的花卉分類準(zhǔn)確率偏低，明顯劣于深度學(xué)習(xí)的方法.傳統(tǒng)特征多為提取圖像的底層特征，分類效果較差，且手動提取特征費時，并存在特征選擇困難的問題.傳統(tǒng)特征無法解決復(fù)雜的實際情況，對于相似的花卉種類無法正確的區(qū)分.卷積神經(jīng)網(wǎng)絡(luò)可以提取花卉圖像更高級更豐富的特征，具有很好的分類效果.

表2 傳統(tǒng)特征分類準(zhǔn)確率

3 結(jié) 語

針對花卉圖像分類問題，整理了一個包含5類花卉的數(shù)據(jù)集，并分別采用AlexNet、VGGNet、GoogLeNet三種卷積神經(jīng)網(wǎng)絡(luò)對不同比例數(shù)據(jù)集進行訓(xùn)練，同時與傳統(tǒng)方法進行對比.實驗結(jié)果表明，卷積神經(jīng)網(wǎng)絡(luò)可以提取花卉圖像的高級語義特征，大幅度地提升了分類結(jié)果，其中GoogLeNet網(wǎng)絡(luò)性能最優(yōu)，分類準(zhǔn)確率最高并且網(wǎng)絡(luò)參數(shù)量較少.遷移學(xué)習(xí)可以緩解因樣本量小容易出現(xiàn)的過擬合問題，并且節(jié)約大量訓(xùn)練時間.后續(xù)工作主要針對網(wǎng)絡(luò)結(jié)構(gòu)的改進，以適用于更廣泛的數(shù)據(jù)集和進一步提升分類的準(zhǔn)確率.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡