蘇 彤 許 杰
(1. 黑龍江八一農(nóng)墾大學(xué)信息工程學(xué)院 大慶 163319; 2. 山東華宇工學(xué)院信息工程學(xué)院 德州 253034)
隨著科技的不斷進(jìn)步和數(shù)字技術(shù)的不斷發(fā)展,計(jì)算機(jī)視覺技術(shù)已成為當(dāng)今科技領(lǐng)域炙手可熱的一個(gè)方向。樹種識(shí)別是計(jì)算機(jī)視覺技術(shù)細(xì)分領(lǐng)域中的一部分,是數(shù)字林業(yè)的重要研究內(nèi)容,主要包括光譜分析和圖像處理兩大方向。在光譜分析方面,Pham等(2016)聯(lián)合激光雷達(dá)與高光譜數(shù)據(jù)對(duì)樹種進(jìn)行識(shí)別,利用隨機(jī)森林確定重要特征,使用支持向量機(jī)作為分類器,分類準(zhǔn)確率達(dá)85.42%;汪紫陽等(2019)基于可見/近紅外光譜技術(shù),采用偏最小二乘法結(jié)合多列識(shí)別變量矩陣對(duì)9種闊葉樹種進(jìn)行識(shí)別,分類準(zhǔn)確率達(dá)98.00%,為野外樹種識(shí)別提供了可能性。在圖像處理方面,陳明健等(2017)提出一種基于葉片輪廓構(gòu)建距離矩陣與角點(diǎn)矩陣進(jìn)行樹種識(shí)別的分類方法,在Flavia數(shù)據(jù)集和Leafsnap數(shù)據(jù)集上分別取得99.61%和98.26%的識(shí)別準(zhǔn)確率;Sarah等(2018)利用Canny算子提取樹皮和樹葉圖像的邊緣輪廓特征,使用信念函數(shù)將2種特征進(jìn)行融合,并在一個(gè)包含72種樹木和灌木的公共數(shù)據(jù)庫中進(jìn)行比較,將樹皮和樹葉特征融合的方法顯著提高了分類準(zhǔn)確率;Le等(2019)采用LBP與SVM相結(jié)合的方法對(duì)4種植物葉片進(jìn)行識(shí)別,分類準(zhǔn)確率達(dá)91.85%;李龍龍等(2021)應(yīng)用加權(quán)LBP算法提取葉片的關(guān)鍵幾何特征和紋理特征,使用特征加權(quán)的模糊半監(jiān)督聚類算法作為分類器,在國際公認(rèn)數(shù)據(jù)集和自測(cè)數(shù)據(jù)集上均取得理想識(shí)別效果。但以往大部分研究受主觀因素影響較大,試驗(yàn)前需要依靠人工對(duì)原始圖像進(jìn)行圖像分割、特征提取等預(yù)處理以滿足試驗(yàn)要求,且特征選擇也會(huì)影響最終識(shí)別效果,對(duì)繼續(xù)提高樹種識(shí)別率帶來一定困難。
伴隨大數(shù)據(jù)時(shí)代的到來和人工智能技術(shù)的快速發(fā)展,深度學(xué)習(xí)(Hintonet al.,2006)因在圖像特征學(xué)習(xí)方面具有顯著效果而受到研究者們廣泛關(guān)注,其中卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)(Szegedyet al.,2015)是深度學(xué)習(xí)中應(yīng)用最為廣泛、成熟度最高的網(wǎng)絡(luò)結(jié)構(gòu)。張帥等(2016)設(shè)計(jì)8層CNN模型,對(duì)PI@antNet葉片庫和自擴(kuò)展葉片庫中的圖像進(jìn)行訓(xùn)練和識(shí)別,采用SVM和SoftMax分類器,識(shí)別率分別為91.11%和90.90%;于慧伶等(2018)設(shè)計(jì)雙路CNN模型,以充分提取葉片的邊緣和紋理特征,通過特征融合由全連接層完成識(shí)別,準(zhǔn)確率達(dá)97.31%;宋宇鵬等(2020)提出基于注意力機(jī)制的DenseNet模型,在復(fù)雜背景樹種葉片公開數(shù)據(jù)集Leafsnap上取得91.25%的分類精確率;趙霖等(2020)提出面向機(jī)載高光譜數(shù)據(jù)的3D卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以端到端方式處理圖像分析問題,實(shí)現(xiàn)對(duì)森林樹種的分類。
深度學(xué)習(xí)方法能夠取得良好識(shí)別效果,同時(shí)也需要大量訓(xùn)練樣本。對(duì)原始圖像進(jìn)行旋轉(zhuǎn)、鏡像、添加噪聲、改變對(duì)比度等操作可以達(dá)到一定的樣本擴(kuò)充,但數(shù)據(jù)集的目標(biāo)特征并未發(fā)生實(shí)質(zhì)性改變,且擴(kuò)充的樣本帶有大量冗余信息,會(huì)使模型失去泛化能力(張曼等,2021)。鑒于此,本研究提出一種融合生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)與CNN的樹種識(shí)別方法,通過GAN生成與真實(shí)數(shù)據(jù)分布一致的樹葉圖像以實(shí)現(xiàn)數(shù)據(jù)擴(kuò)充,將生成圖像和真實(shí)圖像一起作為分類模型的訓(xùn)練數(shù)據(jù),從而增強(qiáng)模型學(xué)習(xí)效果,提高模型泛化能力。
本研究所用數(shù)據(jù)集由10種不同樹種葉片圖像組成,包括水曲柳(Fraxinus mandshurica)、榆(Ulmus pumila)、刺槐(Robinia pseudoacacia)、紅端木(Cornusalba)、山荊子(Malus baccata)、火炬樹(Rhus typhina)、杜仲(Eucommia ulmoides)、山楊(Populus davidiana)、紫丁香(Syringa oblata)、梣葉槭(Acer negundo)。在不同時(shí)間、不同地點(diǎn)和天氣情況下進(jìn)行圖像采集,使用不同拍攝設(shè)備、不同拍攝角度,統(tǒng)一將葉片置于白色背景下拍攝,每類210幅圖像;為減少訓(xùn)練時(shí)間和內(nèi)存空間,對(duì)采集圖像進(jìn)行尺寸歸一化和均值濾波去噪預(yù)處理,將圖像大小統(tǒng)一為128像素×128像素,10種樹種圖像如圖1所示。
圖2 生成對(duì)抗網(wǎng)絡(luò)的基本架構(gòu)Fig. 2 The basic structure of GAN
GAN核心原理的算法如下:
式中:x表示真實(shí)的圖像數(shù)據(jù);z表示輸入G中的隨機(jī)噪聲;D(x)表示D判別為真實(shí)圖像的概率;G(z)表示生成器輸入隨機(jī)噪聲后生成的圖像;Pdata(x)表示真實(shí)圖像的數(shù)據(jù)分布;Pz(z)表示生成圖像的數(shù)據(jù)分布。G的目的是將生成圖像接近真實(shí)圖像,所以D[G(z)]越接近1越好,此時(shí)V(D,G)越來越小。D的目的是準(zhǔn)確判斷出輸入樣本的真實(shí)性,所以D[G(z)]越接近越接近0越好,此時(shí)V(D,G)越來越大。
1.2.2 殘差條件深度卷積生成對(duì)抗網(wǎng)絡(luò) 自GAN問世以來,諸多學(xué)者不斷對(duì)其進(jìn)行優(yōu)化改進(jìn)。為使生成圖像更加清晰,本研究引入深度卷積生成對(duì)抗網(wǎng)絡(luò)(deep convolution generative adversarial networks,DCGAN)(Radfordet al.,2015),即在GAN的基礎(chǔ)上引入卷積網(wǎng)絡(luò)模塊,利用卷積層強(qiáng)大的特征提取能力提升GAN性能。該模型的生成器使用轉(zhuǎn)置卷積(Zeileret al.,2014)進(jìn)行上采樣,從而代替池化層;因全連接層參數(shù)過多容易使網(wǎng)絡(luò)過擬合,故模型去除全連接層,并在生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)中使用批量歸一化(batch normalization,BN)(Ioffeet al.,2015)操作;生成網(wǎng)絡(luò)的輸出層使用Tanh激活函數(shù),其他層使用ReLU激活函數(shù);判別網(wǎng)絡(luò)的所有層均使用LeakyReLU激活函數(shù)。
為使生成器生成指定類別的圖像,在DCGAN的基礎(chǔ)上添加類別標(biāo)簽y以輔助生成樣本,在生成器中引入殘差模塊ResNet,加強(qiáng)特征在層與層之間的傳遞能力,以提高生成圖像質(zhì)量,即殘差條件深度卷積生成對(duì)抗網(wǎng)絡(luò)(RC-DCGAN)。
RC-DCGAN模型以DCGAN為基礎(chǔ)建立,如圖3所示,輸入為(100,1,1)的隨機(jī)噪聲和(10,1,1)的類別標(biāo)簽,分別經(jīng)卷積核尺寸為4×4、步長為2的轉(zhuǎn)置卷積后將維度轉(zhuǎn)換為(512,4,4)的三維張量,再將二者連接成(1 024,4,4)的三維張量,分別經(jīng)過4層上采樣層和卷積核尺寸為3×3、步長為1的殘差結(jié)構(gòu),再經(jīng)過1次卷積核尺寸為4×4、步長為2的轉(zhuǎn)置卷積后將維度轉(zhuǎn)換為(3,128,128)的三維張量,生成一張3×128×128的圖像。
圖3 RC-DCGAN生成器結(jié)構(gòu)Fig. 3 Generator structure of RC-DCGAN
判別器主要用于判斷輸入樣本的真假。對(duì)輸入圖像做卷積運(yùn)算,使用Sigmoid函數(shù)判斷輸入樣本為真實(shí)圖像的概率。判別器各層參數(shù)如表1所示。
表1 RC-DCGAN判別器參數(shù)Tab. 1 Discriminator parameters of RC-DCGAN
1.3.1 ResNet網(wǎng)絡(luò) 理論上,網(wǎng)絡(luò)層數(shù)越深,效果越好;但實(shí)際上,網(wǎng)絡(luò)層數(shù)過深會(huì)產(chǎn)生網(wǎng)絡(luò)退化問題,且當(dāng)網(wǎng)絡(luò)堆疊到一定深度時(shí),還會(huì)出現(xiàn)梯度消失或梯度爆炸問題。為解決這一問題,He等(2016)提出ResNet模型,該模型的核心是殘差塊(residual block),如圖4所示,其輸入為x、輸出為y,所以就有了恒等映射y=F(x)+x,正是由于這種跳躍連接的思想,可解決網(wǎng)絡(luò)退化問題,同時(shí)也加快了網(wǎng)絡(luò)收斂速度。
圖4 殘差塊結(jié)構(gòu)Fig. 4 Structure of the residual block
一個(gè)簡單的殘差塊由卷積層、批處理歸一化層和非線性激活函數(shù)ReLU組成,一個(gè)殘差單元的輸出可表示為:
單位減排量價(jià)格往往是項(xiàng)目業(yè)主最關(guān)注的問題,但在目前二級(jí)市場價(jià)格不景氣的情況下,我國的項(xiàng)目業(yè)主幾乎沒有議價(jià)的能力。有的認(rèn)為只要項(xiàng)目減排量能賣出去,執(zhí)行國家發(fā)改委最低價(jià)就可以,有的則一味追求高價(jià)而卻忽視其他。在選擇買家時(shí),建議借助環(huán)境交易所平臺(tái)或咨詢公司的推薦,尋找多個(gè)買家報(bào)價(jià)。價(jià)格的確定不僅要看國際市場形勢(shì),還要綜合考慮對(duì)方資信情況、不能交付的風(fēng)險(xiǎn)、支付風(fēng)險(xiǎn)、預(yù)付資金情況及違約風(fēng)險(xiǎn)、語言條件、管轄風(fēng)險(xiǎn)、法律適用風(fēng)險(xiǎn)等因素,因此未必選最高報(bào)價(jià)的買家,要選最合適的買家及報(bào)價(jià)。
式中:xl表示殘差單元的輸入;F(xl,Wl)表示殘差單元的殘差函數(shù);Wl表示殘差單元的權(quán)重參數(shù)。
1.3.2 基于RseNet的樹種識(shí)別模型構(gòu)建 根據(jù)葉片圖像尺寸,設(shè)計(jì)基于ResNet的樹種識(shí)別模型,該模型卷積層深度為30層,主要包括3部分,第一部分包含1層卷積層,第二部分主要是殘差結(jié)構(gòu),分別由3、4、4、3個(gè)殘差模塊組成,每個(gè)殘差塊由2層卷積組成,第三部分為自適應(yīng)平均池化和全連接層,使用Softmax作為輸出層激活函數(shù),輸出一個(gè)10維的概率向量,對(duì)概率值大小進(jìn)行判斷,最終根據(jù)得到的判斷結(jié)果實(shí)現(xiàn)對(duì)樹種的分類。整個(gè)網(wǎng)絡(luò)模型的具體參數(shù)如表2所示。
本研究在Windows操作系統(tǒng)下進(jìn)行,安裝Pycharm編程環(huán)境,使用Pytorch1.10.0深度學(xué)習(xí)框架,采用Python3.8語言進(jìn)行具體編程實(shí)現(xiàn)整個(gè)網(wǎng)絡(luò)模型。試驗(yàn)硬件配置信息為:5核Intel(R) Xeon(R) Silver 4210R CPU @ 2.40 GHz處理器,60 GB運(yùn)行內(nèi)存(RAM),選用NVIDIA GeForce RTX 3090顯卡,顯存容量為24 GB,可大幅提高運(yùn)行速度,節(jié)省訓(xùn)練時(shí)間。
基于CNN的模型訓(xùn)練需要大量數(shù)據(jù)樣本,本研究首先利用GAN對(duì)葉片圖像進(jìn)行擴(kuò)充。基于RCDCGAN模型進(jìn)行葉片圖像生成,在學(xué)習(xí)真實(shí)樣本分布前需擴(kuò)充樣本,對(duì)原始2 100幅圖像進(jìn)行鏡像操作,并分別旋轉(zhuǎn)90°和180°得到5個(gè)副本,通過這種方式使數(shù)據(jù)量擴(kuò)充為原來的6倍,達(dá)12 600幅圖像,GAN可學(xué)習(xí)到更加完善的分布。之所以選擇該擴(kuò)充操作,是因?yàn)槠渚哂刑卣鞑蛔儭o關(guān)特征不增加等優(yōu)勢(shì)。
訓(xùn)練初始,給所有隨機(jī)數(shù)設(shè)置一個(gè)隨機(jī)種子,以便之后進(jìn)行試驗(yàn)復(fù)現(xiàn);生成器和判別器均使用Adam作為優(yōu)化器,其中beta1設(shè)置為0.5,beta2設(shè)置為0.999;批次數(shù)量設(shè)置為128,訓(xùn)練周期設(shè)置為10 000;生成器和判別器設(shè)置不同學(xué)習(xí)率(Heuselet al.,2017),其中,生成器的學(xué)習(xí)率為0.000 4,判別器的學(xué)習(xí)率為0.000 2;在實(shí)際代碼中使用反轉(zhuǎn)標(biāo)簽訓(xùn)練生成器(Guoet al.,2020),即讓生成圖像使用真實(shí)標(biāo)簽0進(jìn)行訓(xùn)練,真實(shí)圖像使用生成圖像的標(biāo)簽1進(jìn)行訓(xùn)練。為對(duì)比殘差結(jié)構(gòu)對(duì)生成效果的影響,在參數(shù)設(shè)置和訓(xùn)練輪數(shù)相同的情況下,使用未改進(jìn)DCGAN模型進(jìn)行生成訓(xùn)練,對(duì)比各自生成效果,如圖5所示。
圖5 DCGAN和RC-DCGAN生成效果對(duì)比Fig. 5 Comparison of DCGAN and RC-DCGAN generation effect
由圖5可知,使用DCGAN模型生成的圖像存在葉片圖像模糊且紋理信息丟失的現(xiàn)象,而使用RCDCGAN模型生成的葉片圖像輪廓平滑清晰,且紋理信息充分,能夠貼合真實(shí)圖像??梢姡啾菵CGAN模型,在訓(xùn)練數(shù)據(jù)集和參數(shù)設(shè)置相同的情況下,本研究模型生成的圖像質(zhì)量更高,表明在生成器中嵌入殘差結(jié)構(gòu),有利于提高生成圖像質(zhì)量。因此,本研究選擇使用RC-DCGAN生成模型對(duì)數(shù)據(jù)樣本進(jìn)行擴(kuò)充。
2.3.1 模型參數(shù)調(diào)試 初步搭建好ResNet30模型后,需對(duì)模型的一系列參數(shù)進(jìn)行反復(fù)調(diào)試,以尋求適合模型訓(xùn)練的最佳參數(shù)。本研究從批量大?。╞atch size)、學(xué)習(xí)率(learning rate)和隨機(jī)失活(dropout)3個(gè)參數(shù)的取值分析對(duì)模型性能的影響,結(jié)果如圖6所示。
圖6 不同參數(shù)取值的測(cè)試準(zhǔn)確率曲線Fig. 6 Test accuracy curves for different parameter values
1) 批量大?。╞atch size)對(duì)模型性能的影響。在合理范圍內(nèi),batch size越大,其確定梯度下降的方向越準(zhǔn),收斂速度越快,引起震蕩越小;但如果batch size過大,則可能出現(xiàn)局部最優(yōu)情況。如圖6a所示,batch size為64的曲線收斂速度較慢且趨于收斂后波動(dòng)幅度明顯,batch size為256的準(zhǔn)確率相較batch size為128的準(zhǔn)確率沒有提高反而下降,說明一味增大batch size并未獲得較高精度,雖迭代次數(shù)減少,但若想達(dá)到較高精度,其消耗時(shí)間也大大增加,從而對(duì)參數(shù)的修正也更加緩慢。當(dāng)batch size為128時(shí)可以兼得性能和效率,更利于網(wǎng)絡(luò)訓(xùn)練。
2) 學(xué)習(xí)率(learning rate)對(duì)模型性能的影響。學(xué)習(xí)率對(duì)模型訓(xùn)練結(jié)果影響較大,不當(dāng)?shù)膶W(xué)習(xí)率會(huì)導(dǎo)致模型訓(xùn)練時(shí)出現(xiàn)震蕩現(xiàn)象。本試驗(yàn)采用指數(shù)衰減法對(duì)學(xué)習(xí)率進(jìn)行調(diào)整,其中乘法因子gamma為0.9,分別以0.01、0.001和0.000 1作為初始學(xué)習(xí)率。如圖6b所示,隨著網(wǎng)絡(luò)訓(xùn)練次數(shù)增加準(zhǔn)確率曲線均收斂,初始學(xué)習(xí)率為0.01和0.000 1時(shí)收斂速度相當(dāng),但初始學(xué)習(xí)率為0.01時(shí)準(zhǔn)確率更高。
3) 隨機(jī)失活(dropout)對(duì)模型性能的影響。CNN對(duì)圖像識(shí)別分類性能優(yōu)越,由于全連接層是所有神經(jīng)元與前一層全部神經(jīng)元相連接,因此擁有大量參數(shù),隨著網(wǎng)絡(luò)規(guī)模增大,訓(xùn)練過程會(huì)出現(xiàn)過擬合問題。本研究在最后一層卷積層和全連接層加入dropout,分別以0.5、0.6、0.7作為抑制率訓(xùn)練模型,如圖6c所示,當(dāng)抑制率為0.6和0.7時(shí)模型的識(shí)別準(zhǔn)確率較低且收斂速度慢,抑制率為0.5時(shí)識(shí)別準(zhǔn)確率高且收斂速度快。
綜合以上分析,對(duì)各種超參數(shù)進(jìn)行組合測(cè)試,最終得到一組識(shí)別效果好、訓(xùn)練速度快、性能穩(wěn)定的模型參數(shù):batch size為128,初始學(xué)習(xí)率為0.01,dropout為0.5;采用Adam算法作為優(yōu)化器,訓(xùn)練次數(shù)為300。
2.3.2 不同擴(kuò)充方法對(duì)試驗(yàn)結(jié)果的影響 為驗(yàn)證基于GAN的擴(kuò)充方法和基于傳統(tǒng)圖像處理的擴(kuò)充方法對(duì)模型性能的影響,分別采用鏡像、旋轉(zhuǎn)、改變對(duì)比度等傳統(tǒng)擴(kuò)充方法和RC-DCGAN生成模型擴(kuò)充圖像11 400幅,最終確定參與訓(xùn)練的數(shù)據(jù)集13 000幅、測(cè)試集500幅,試驗(yàn)對(duì)比結(jié)果如圖7所示。
圖7 試驗(yàn)對(duì)比結(jié)果Fig. 7 Experimental comparison results
使用傳統(tǒng)圖像處理擴(kuò)充方法在前5 000次迭代中,訓(xùn)練準(zhǔn)確率和測(cè)試準(zhǔn)確率呈逐漸上升趨勢(shì),迭代至4 000次時(shí),測(cè)試準(zhǔn)確率達(dá)94.50%左右,最后逐漸收斂于96.50%;在訓(xùn)練集和測(cè)試集之間有間隙,存在過擬合現(xiàn)象。使用RC-DCGAN擴(kuò)充圖像方法,測(cè)試準(zhǔn)確率在迭代至1 000次時(shí)就已達(dá)94.50%,迭代至2 000次左右時(shí),準(zhǔn)確率達(dá)97%~98%,迭代完成后收斂于98.35%,模型未發(fā)生過擬合。對(duì)比2個(gè)試驗(yàn)的訓(xùn)練和測(cè)試過程,在相同模型結(jié)構(gòu)、同等數(shù)量訓(xùn)練集和參數(shù)設(shè)置情況下,使用RC-DCGAN擴(kuò)充樣本方法,模型的準(zhǔn)確率和性能優(yōu)于傳統(tǒng)圖像處理擴(kuò)充方法。
2.3.3 不同網(wǎng)絡(luò)模型對(duì)試驗(yàn)結(jié)果的影響 為評(píng)價(jià)該分類模型性能與方法的有效性,選取一些在樹種識(shí)別分類中表現(xiàn)良好的國內(nèi)外研究的模型與本研究模型進(jìn)行對(duì)比,統(tǒng)一模型輸入大小為128像素×128像素在測(cè)試集上的分類準(zhǔn)確率對(duì)比結(jié)果如表3所示。在相同訓(xùn)練集和訓(xùn)練批次的情況下,本研究設(shè)計(jì)的ResNet30模型比其他神經(jīng)網(wǎng)絡(luò)模型分類準(zhǔn)確率均高,平均識(shí)別準(zhǔn)確率為97.20%;由于本研究模型深度較深,因此在訓(xùn)練時(shí)也需要較多時(shí)間。
表3 不同分類模型比較Tab. 3 Comparison of different classification models
圖8給出了本研究樹種識(shí)別模型對(duì)10種樹種測(cè)試結(jié)果的混淆矩陣,每一行表示模型預(yù)測(cè)類別,每一列表示樹種實(shí)際類別。可見,刺槐、杜仲、紅端木、火炬樹、水曲柳、榆圖像較其他樹種特征差異更明顯,取得100.00%的識(shí)別準(zhǔn)確率;梣葉槭部分圖像在某些細(xì)節(jié)特征上與山荊子、杜仲存在相似之處,出現(xiàn)誤判現(xiàn)象,識(shí)別準(zhǔn)確率為90.00%;紫丁香與山楊在輪廓特征上存在相似之處,有4張紫丁香圖像被誤判成山楊;山楊取得98.00%的識(shí)別準(zhǔn)確率;山荊子和紫丁香取得92.00%的識(shí)別準(zhǔn)確率。由于測(cè)試集圖像和訓(xùn)練集圖像具有相同大小和背景,因此,10種樹種的平均識(shí)別準(zhǔn)確率達(dá)97.20%。
圖8 測(cè)試集圖像識(shí)別結(jié)果混淆矩陣Fig. 8 Confusion matrix of test set images recognition results
CNN模型訓(xùn)練通常需要大量標(biāo)記樣本,但在實(shí)際工作中采集大量數(shù)據(jù)和圖像標(biāo)記成本較高,當(dāng)訓(xùn)練樣本缺失時(shí),容易出現(xiàn)過擬合和陷入局部最優(yōu)解等現(xiàn)象(Krizhevskyet al.,2017)。為解決過擬合問題,本研究在DCGAN模型基礎(chǔ)上對(duì)生成器進(jìn)行改進(jìn),在輸入端添加類別標(biāo)簽以控制生成過程,在生成器中嵌入殘差結(jié)構(gòu)以提高生成圖像質(zhì)量。通過生成圖像可以看出,RC-DCGAN生成的圖像相較DCGAN生成的圖像無論是輪廓還是紋理特征,圖像質(zhì)量均有很大提升,但在一些局部細(xì)節(jié)特征部分生成的圖像相較于真實(shí)圖像還有差距,這也導(dǎo)致在分類模型中對(duì)于輪廓特征相似的個(gè)別樹種圖像出現(xiàn)誤判現(xiàn)象,如何提高生成圖像質(zhì)量仍需更進(jìn)一步深入研究。
本研究以10種樹種葉片圖像為研究對(duì)象,共采集2 100幅圖像,使用RC-DCGAN擴(kuò)充數(shù)據(jù)集11 400幅,雖然解決了數(shù)據(jù)集問題,但模型訓(xùn)練時(shí)試驗(yàn)參數(shù)的設(shè)置也是至關(guān)重要的,本研究在batch size、dropout、learning rate參數(shù)的取值上做了對(duì)比試驗(yàn)。
1) batch size:分別選取每批次訓(xùn)練64、128、256張圖像,可以發(fā)現(xiàn),適當(dāng)增大batch size,可以加快模型收斂速度,提升準(zhǔn)確率;然而,過大的batch size容易使模型陷入局部最優(yōu)解,導(dǎo)致精度下降。當(dāng)batch size為128時(shí)能取得較好效果。
2) dropout:分別選取比率為0.5、0.6、0.7的dropout,忽略一定比率的特征選擇器,從而減少特征器間的相互作用,避免模型過于依賴某些局部特征,從而提高模型泛化能力??梢园l(fā)現(xiàn),dropout為0.5時(shí)能取得理想結(jié)果。
3) learning rate:學(xué)習(xí)率控制模型參數(shù)更新的步伐,學(xué)習(xí)率過小,梯度下降速度過慢,會(huì)增大尋優(yōu)時(shí)間;學(xué)習(xí)率過大,梯度下降速度加快,但通常越過最小點(diǎn),導(dǎo)致模型不收斂甚至震蕩。本研究采用初始學(xué)習(xí)率分別為0.01、0.001、0.000 1的指數(shù)衰減策略調(diào)整學(xué)習(xí)率,當(dāng)初始學(xué)習(xí)率為0.01時(shí),識(shí)別準(zhǔn)確率最高。
本研究融合生成對(duì)抗網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò),提出聯(lián)合模型基于葉片圖像對(duì)樹種進(jìn)行分類識(shí)別。為滿足卷積神經(jīng)網(wǎng)絡(luò)對(duì)大量訓(xùn)練集的需要,首先使用生成對(duì)抗對(duì)圖像進(jìn)行擴(kuò)充,然后設(shè)計(jì)基于殘差網(wǎng)絡(luò)的分類模型,使用原始圖像和生成圖像作為訓(xùn)練集對(duì)樹種進(jìn)行識(shí)別。在本研究10種常見樹種葉片圖像上利用ResNet30模型取得97.20%的平均識(shí)別準(zhǔn)確率,相較傳統(tǒng)圖像擴(kuò)充方法,精確度提升2.25%。使用生成對(duì)抗網(wǎng)絡(luò)擴(kuò)充樣本方法的識(shí)別率高于傳統(tǒng)圖像擴(kuò)充方法,可利用生成對(duì)抗網(wǎng)絡(luò)為目前農(nóng)業(yè)領(lǐng)域圖像數(shù)據(jù)不足的現(xiàn)狀提供一個(gè)新的解決方法。