張秋穎,金雪松
(哈爾濱商業(yè)大學(xué) 計算機與信息工程學(xué)院,哈爾濱150020)
花卉分類問題是植物學(xué)領(lǐng)域的重要研究熱點,僅依靠植物專家的專業(yè)知識和經(jīng)驗進行人為判斷,需要耗費大量的時間和精力.因此,運用計算機技術(shù)對圖像自動分類可以節(jié)省大量時間,并且可以減少人為判斷帶來的經(jīng)驗性依賴.目前對花卉圖像分類的方法可以分為兩種:基于手工提取特征的方法和基于深度學(xué)習(xí)的方法.
手工提取特征方法多為提取圖像的顏色特征、紋理特征和形狀特征等,并結(jié)合機器學(xué)習(xí)算法進行分類.花卉圖像具有顏色豐富,種類繁多等特點,因此顏色特征對不同花卉種類的區(qū)分具有重要的作用,然而,花卉圖像存在類間相似而類內(nèi)不同的問題,單一特征無法準(zhǔn)確區(qū)分不同種類的花卉.通常,將圖像的顏色、紋理、形狀和輪廓等特征融合提高分類準(zhǔn)確率[1-4].文獻[5]提出一種基于顯著圖的花卉圖像分類方法,將顏色特征和尺度不變特征變換(Scale-invariant feature transform,SIFT)特征融合后分類.文獻[6]對特征上下文的局部信息和空間信息進行編碼,并采用支持向量機分類.文獻[7]提出基于對象的區(qū)域檢測和全對象分割方法,實現(xiàn)花卉圖像的細(xì)粒度分類.然而,傳統(tǒng)方法提取特征不充分,導(dǎo)致分類準(zhǔn)確率很低.
近年來,深度學(xué)習(xí)方法在圖像分類領(lǐng)域取得了顯著的成果,深度卷積神經(jīng)網(wǎng)絡(luò)[8-9]被認(rèn)為是最成功、應(yīng)用最廣泛的深度學(xué)習(xí)方法,目前經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)AlexNet[10]、VGGNet[11]、GoogLeNet[12]、ResNet[13]等.
因此,針對花卉圖像數(shù)據(jù)缺乏和分類精度低等問題,本文整理一個包含5類花卉的數(shù)據(jù)集,并使用AlexNet、VGGNet、GoogLeNet三種卷積神經(jīng)網(wǎng)絡(luò)對圖像分類,與傳統(tǒng)方法相比,可以大幅度地提升分類準(zhǔn)確率.
卷積神經(jīng)網(wǎng)絡(luò)通過多個層的交替疊加提取圖像特征,較低層提取圖像的底層特征,較深層則獲取圖像的高層信息[14].卷積神經(jīng)網(wǎng)絡(luò)最基本的層包括卷積層、激活層和池化層等.本文分別使用AlexNet、VGGNet、GoogLeNet三種網(wǎng)絡(luò)進行實驗.
AlexNet網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,由5個卷積層,3個池化層和3個全連接層組成.AlexNet使用ReLU激活函數(shù)代替Sigmoid函數(shù),緩解了網(wǎng)絡(luò)訓(xùn)練的梯度彌散問題;采用dropout機制隨機忽略一部分神經(jīng)元,降低網(wǎng)絡(luò)的復(fù)雜性,減少模型的過擬合問題;采用最大池化的方式代替平均池化,緩解平均池化帶來的模糊效應(yīng);引入了LRN層,增強神經(jīng)元的響應(yīng)能力,增強模型的泛化能力.
圖1 AlexNet網(wǎng)絡(luò)結(jié)構(gòu)
VGGNet網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,由13個卷積層,5個池化層和3個全連接層組成.VGGNet的所有卷積層采用相同尺寸的濾波器,通過串聯(lián)兩個3×3濾波器和三個3×3濾波器替代更大的濾波器,可以減少整個網(wǎng)絡(luò)的參數(shù)量并且提高了網(wǎng)絡(luò)的學(xué)習(xí)能力,多個小卷積核的堆疊在減少計算量的同時可以提升分類準(zhǔn)確率.VGGNet網(wǎng)絡(luò)層數(shù)和通道數(shù)的加深,可以提取圖像更多的信息.
圖2 VGGNet網(wǎng)絡(luò)結(jié)構(gòu)
網(wǎng)絡(luò)層數(shù)的加深在提升準(zhǔn)確率的同時也帶來了過擬合、梯度消失和梯度爆炸等問題,因此,GoogLeNet引入Inception模塊從另一角度提升訓(xùn)練結(jié)果,在節(jié)省計算資源和參數(shù)量的前提下提取更豐富的特征,獲取更好的分類效果.Inception模塊的基本結(jié)構(gòu)如圖3所示,對輸入特征圖做4個分支的不同尺寸的卷積或池化操作,最后將多個特征維度進行融合,提取更豐富的特征,加快收斂速度;增加1(1卷積來降低特征維度,降低了計算復(fù)雜度.GoogLeNet采用平均池化代替全連接層,參數(shù)量僅為Alexnet的1/12,也能適當(dāng)?shù)靥嵘诸悳?zhǔn)確率.
圖3 GoogLeNet網(wǎng)絡(luò)結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練可以分為兩個過程:前向傳播階段和后向傳播階段.前向傳播階段是將輸入數(shù)據(jù)依次從低層向高層計算出輸出的過程,反向傳播階段是將輸出結(jié)果與輸入數(shù)據(jù)的誤差從高層向低層傳播的過程.整個訓(xùn)練的傳播過程如圖4所示.
圖4 訓(xùn)練過程
遷移學(xué)習(xí)是將一個相關(guān)領(lǐng)域的知識遷移到另一個領(lǐng)域來提升學(xué)習(xí)效果.遷移學(xué)習(xí)涉及兩個基本概念域和任務(wù).一個域定義為D={χ,P(X)},χ表示特征空間,P(X)表示邊際概率分布,其中X={x1,x2,…,xn}.一個任務(wù)定義為T={y,f(·)},y表示標(biāo)簽空間,f(·)表示目標(biāo)預(yù)測函數(shù).給定源域Ds和源任務(wù)Ts、目標(biāo)域Dt和目標(biāo)任務(wù)Tt,在Ds≠Dt且Ts≠Tt的前提下,利用Ds在解決任務(wù)Ts時獲得的知識來提升Dt的目標(biāo)任務(wù)Tt.
遷移學(xué)習(xí)最簡單的方法是使用預(yù)訓(xùn)練模型微調(diào)網(wǎng)絡(luò)[15],深度網(wǎng)絡(luò)訓(xùn)練通常需要大量的訓(xùn)練樣本,否則容易出現(xiàn)過擬合問題.ImageNet[16]是目前最大的圖像識別數(shù)據(jù)庫,包含1 000個類別,涉及范圍廣,樣本多樣性豐富.因此從ImageNet訓(xùn)練的模型中獲得參數(shù),根據(jù)新數(shù)據(jù)集的當(dāng)前狀態(tài)調(diào)整參數(shù),解決樣本小和訓(xùn)練時間長的限制,可以訓(xùn)練出良好性能的網(wǎng)絡(luò).
訓(xùn)練環(huán)境為Windows10系統(tǒng),計算機配置為Intel(R) Core(TM) i5-7400 CPU @3.00 GHz,內(nèi)存為8 GB,顯卡為NVIDIA GeForce GTX 1050 Ti.訓(xùn)練CNN采用caffe深度學(xué)習(xí)框架,便于移植,操作流程簡單.
本文整理了一個包含5類的花卉數(shù)據(jù)集,分別為雛菊、蒲公英、玫瑰、向日葵和郁金香,每類花卉包含600張圖像.5類花卉示例如圖5所示.
圖5 花卉圖片
網(wǎng)絡(luò)訓(xùn)練過程中初始學(xué)習(xí)率設(shè)置為0.001,動量為0.9,權(quán)重衰減參數(shù)為0.000 5,學(xué)習(xí)率變化指數(shù)為0.1,step size為5 000,即每迭代5 000次對學(xué)習(xí)率進行一次調(diào)整.
增大樣本量可以防止網(wǎng)絡(luò)訓(xùn)練過程中出現(xiàn)的過擬合問題,采用平移、裁剪和亮度調(diào)整等方法對數(shù)據(jù)集進行增強.采用隨機取樣的方法,將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,分為三種比例7∶3、8∶2和9∶1.
網(wǎng)絡(luò)最后一層為softmax層,輸出分類準(zhǔn)確率數(shù)值.使用不同網(wǎng)絡(luò)和不同訓(xùn)練集比例的分類結(jié)果如表1所示
由表1可知,三種網(wǎng)絡(luò)的分類準(zhǔn)確率都達(dá)到90%以上,訓(xùn)練集比例越大,分類準(zhǔn)確率越大,說明訓(xùn)練集數(shù)量增多使特征學(xué)習(xí)更充分.VGGnet和GoogLeNet的分類效果相近,明顯優(yōu)于AlexNet,說明網(wǎng)絡(luò)層數(shù)的加深,增強特征學(xué)習(xí)能力,其中GoogLeNet的分類效果最好,具有較好的性能.
表1 CNN分類準(zhǔn)確率
為了更好的說明卷積神經(jīng)網(wǎng)絡(luò)對花卉圖像分類的有效性,采用多種傳統(tǒng)特征對圖像進行分類結(jié)果如表2所示.
由表2可知,基于傳統(tǒng)特征的花卉分類準(zhǔn)確率偏低,明顯劣于深度學(xué)習(xí)的方法.傳統(tǒng)特征多為提取圖像的底層特征,分類效果較差,且手動提取特征費時,并存在特征選擇困難的問題.傳統(tǒng)特征無法解決復(fù)雜的實際情況,對于相似的花卉種類無法正確的區(qū)分.卷積神經(jīng)網(wǎng)絡(luò)可以提取花卉圖像更高級更豐富的特征,具有很好的分類效果.
表2 傳統(tǒng)特征分類準(zhǔn)確率
針對花卉圖像分類問題,整理了一個包含5類花卉的數(shù)據(jù)集,并分別采用AlexNet、VGGNet、GoogLeNet三種卷積神經(jīng)網(wǎng)絡(luò)對不同比例數(shù)據(jù)集進行訓(xùn)練,同時與傳統(tǒng)方法進行對比.實驗結(jié)果表明,卷積神經(jīng)網(wǎng)絡(luò)可以提取花卉圖像的高級語義特征,大幅度地提升了分類結(jié)果,其中GoogLeNet網(wǎng)絡(luò)性能最優(yōu),分類準(zhǔn)確率最高并且網(wǎng)絡(luò)參數(shù)量較少.遷移學(xué)習(xí)可以緩解因樣本量小容易出現(xiàn)的過擬合問題,并且節(jié)約大量訓(xùn)練時間.后續(xù)工作主要針對網(wǎng)絡(luò)結(jié)構(gòu)的改進,以適用于更廣泛的數(shù)據(jù)集和進一步提升分類的準(zhǔn)確率.