雷聲淵 ,馬本學(xué),2, 王文霞 ,羅秀芝 ,李玉潔 ,戴建國
( 1.石河子大學(xué)機(jī)械電氣工程學(xué)院, 新疆石河子 832003;2.農(nóng)業(yè)部西北農(nóng)業(yè)裝備重點實驗室,新疆石河子 832003;3.石河子大學(xué)信息科學(xué)與技術(shù)學(xué)院,新疆石河子 832003)
【研究意義】棉花在整個生長期中會不斷的受到病蟲害的影響[1],可使棉花產(chǎn)量和質(zhì)量下降,嚴(yán)重制約棉花產(chǎn)業(yè)的發(fā)展[2]。病蟲害防治對于提高棉花產(chǎn)量和質(zhì)量尤為重要,為了提升棉花病蟲害識別的準(zhǔn)確率,減少勞動力成本,許多研究人員利用機(jī)器學(xué)習(xí)和模式識別實現(xiàn)棉花病蟲害自動化檢測識別。【前人研究進(jìn)展】王獻(xiàn)鋒等[3]提出了一種基于自適應(yīng)判別深度置信網(wǎng)絡(luò)的棉花病蟲害預(yù)測模型,解決了深度置信網(wǎng)絡(luò)(DBN)在作物病蟲害預(yù)測中易收斂于局部最優(yōu)解的問題。張建華等[4]利用圖像處理技術(shù)結(jié)合徑向基支持向量機(jī)識別棉蚜、棉盲蝽、煙粉虱、棉葉螨、斜紋夜蛾等蟲害及正常葉片,識別正確率為88.1%。Alexandre等[5]利用小波變換提取棉葉圖像病害特征,并應(yīng)用支持向量機(jī)進(jìn)行分類,分類正確率為89.5%。翟智芬等[6]提出一種圖像處理結(jié)合樸素貝葉斯分類器的方法對棉花盲蝽象蟲害等級識別,平均正確率為90%。伴隨著深度學(xué)習(xí)[7]的研究熱潮,越來越多的學(xué)者將深度卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于農(nóng)作物病蟲害識別領(lǐng)域:植物病害識別[8]、茶園害蟲定位識別[9]、水稻病害識別[10]、蘋果葉片病害識別[11]、果體病理圖像識別[12],并取得了較好的結(jié)果。【本研究切入點】雖然使用上述方法在一定程度上提高了棉花病蟲害識別的準(zhǔn)確率,但是研究中均有繁瑣的圖像預(yù)處理過程,且在特征選擇時存在人為主觀判斷性。為提高棉花病蟲害的識別準(zhǔn)確率,避免識別過程中人工干涉特征提取,研究基于Caffe深度學(xué)習(xí)框架,微調(diào)CaffeNet網(wǎng)絡(luò)結(jié)構(gòu)并結(jié)合遷移學(xué)習(xí)對網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練?!緮M解決的關(guān)鍵問題】研究采用微調(diào)卷積神經(jīng)網(wǎng)絡(luò)結(jié)合遷移學(xué)習(xí)的方式對病蟲害棉葉進(jìn)行分類識別研究,對網(wǎng)絡(luò)模型主要參數(shù)(學(xué)習(xí)率)進(jìn)行選擇確定。為建立基于微調(diào)卷積神經(jīng)網(wǎng)絡(luò)遷移學(xué)習(xí)模式下被害棉葉精準(zhǔn)圖像識別技術(shù)奠定基礎(chǔ)。
圖像采集過程中,在保證獲取圖像不失真的條件下,使用智能手機(jī)采集圖像數(shù)據(jù)具有方便快捷的優(yōu)勢。研究使用榮耀STF-AL00手機(jī)作為圖像數(shù)據(jù)采集設(shè)備,于2017和2018年的6月中旬至8月上旬棉花病蟲害高發(fā)季節(jié),于新疆石河子大學(xué)棉花試驗田中采集,在自然光條件下分別拍取特定背景下的健康及7種棉花病蟲害圖像各975張,總計7 800張。列出健康和7種病蟲害棉葉圖像[13-14]。圖1
a.健康 ;b.紅葉莖枯;c.紅蜘蛛;d.枯萎;e.黃萎;f.雙斑螢葉甲;g.蚜蟲;h.褐斑
a.Healthy;b.Red leaf blight;c.Red spider;d.Fusarium wilt;e.Verticillium wilt;f.Double-spotted leaf beetle;g.Aphid h.Brow spot
圖1 被害棉葉圖像
Fig. 1 Damaged cotton leaf image
1.2.1 圖像預(yù)處理和標(biāo)簽
在訓(xùn)練研究模型前將所有的圖像都調(diào)整為227×227像素。為了確保數(shù)據(jù)集中類型的準(zhǔn)確性,以棉葉病蟲害類型名稱標(biāo)記所有圖像。并將各類數(shù)據(jù)集以訓(xùn)練集與測試集為4∶1進(jìn)行標(biāo)記。具體被害棉葉圖像數(shù)據(jù)集。表1
表1 被害棉葉圖像數(shù)據(jù)統(tǒng)計
Table 1 Statistics on damaged cotton leaf image
健康Healthy紅葉莖枯Redleafblight紅蜘蛛Redspider枯萎Fusariumwilt黃萎Verticilliumwilt雙斑螢葉甲Double-spottedleafbeetle蚜蟲Aphid褐斑Browspot總計Total訓(xùn)練集Testset7807807807807807807807806240測試集Trainingset1951951951951951951951951560總計9759759759759759759759757800
1.2.2 卷積神經(jīng)網(wǎng)絡(luò)
caffe[15]深度學(xué)習(xí)框架,有完整的測試和微調(diào)工具包,其更新速度快可擴(kuò)展性強(qiáng)。CaffeNet[15]是AlexNet[16]的衍生模型。AlexNet共由5個卷積層和3個全連接層構(gòu)成,池化層包含于前兩個卷積層以及第五個卷積層中。CaffeNet只是將AlexNet在結(jié)構(gòu)上做了簡單的調(diào)整,在CaffeNet模型基礎(chǔ)上增加一層之后的模型結(jié)構(gòu)。顯示的各特征面圖像是在CaffeNet模型基礎(chǔ)上新增一層全連接層結(jié)構(gòu)上經(jīng)遷移學(xué)習(xí)所得模型的各卷積層及全連接層可視化后的圖像,輸入網(wǎng)絡(luò)模型的圖像為227×227×3的三通道RGB棉花葉片圖像;卷積層conv1~conv5的卷積核數(shù)目分別為96、256、384、384、256,卷積核的大小分別為11×11, 5×5, 3×3, 3×3像素,滑動步長分別為4、1、1、1、1,填充值分別為0、2、1、1、1,池化層pool1、pool2、pool5的池化類型均為最大池化,池化核大小均為3 × 3像素,滑動步長均為2,填充值均為0;全連接層fc6、fc7、Fc8_1(新增的全連接層)、output包含神經(jīng)元個數(shù)分別為4 096、4 096、512、6。圖2
圖2 CaffeNet微調(diào)后的網(wǎng)絡(luò)結(jié)構(gòu)
Fig. 2 Fine tuning the CaffeNet model structure
1.2.3 卷積層
卷積是卷積神經(jīng)網(wǎng)絡(luò)中最重要的操作,即圖像中不同窗口中的數(shù)據(jù)與卷積核(也稱為濾波器)做內(nèi)積,其本質(zhì)是提取圖像不同頻段的特征。多個濾波器疊加便形成了卷積層。通常情況下CNN中的第一個卷積層用于提取輸入圖像的低級特征,而其他卷積層則用來獲取圖像的高級特征[10]。
輸出圖像特征yi與輸入圖像特征xi之間的對應(yīng)關(guān)系通常可用下式(1)表示:
(1)
式中:l:卷積神經(jīng)網(wǎng)絡(luò)的第l層;
kij:卷積核;
bj閾值(也稱作偏置值);
Mj:輸入圖像
f(·):激活函數(shù);
常用的激活函數(shù)有sigmoid函數(shù)、tanh函數(shù)[17],以及線性糾正函數(shù)(ReLU)[18]。研究中采用ReLU激活函數(shù),ReLU激活函數(shù)可加快深度卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時間,提升網(wǎng)絡(luò)性能[16]。對于輸入x,ReLU激活函數(shù)定義為(2):
(2)
1.2.4 池化層
池化層(也稱作下采樣層)的作用是將語義相似的特征合并為一個[19],保留主要特征的同時減少參數(shù),降低緯度防止過擬合。池化操作一般有均值池化、隨機(jī)池化、最大池化三種。為了更少的減少病蟲害棉葉圖像紋理信息的損失,在研究中采用最大池化,其表達(dá)式如下[20]:
(3)
式中:ai:輸入圖像的一個鄰域;
u(x,y):窗口函數(shù)。
圖3 全連接
Fig. 3 Full Connection
1.2.5 全連接層
全連接層的每個神經(jīng)元與其前一層的所有的神經(jīng)元進(jìn)行全連接,其作用是整合卷積層或池化層中有類別區(qū)分的局部信息。一個簡單的全連接層如圖3所示,它的每條邊都有其自身的參數(shù)。圖3
其中:x1,x2,x3, … ,xn-1,xn是全連接層的輸入
s1,s2,s3, … ,sn-1,sn是全連接層的輸出
圖2描述的全連接層可用數(shù)學(xué)公式表達(dá)為(4):
(4)
式中:wij:權(quán)重值(i,j = 1, ,2, 3, …,n-1,n)
bj:偏置值。
1.2.6 損失函數(shù)
損失函數(shù)的作用是用來表現(xiàn)預(yù)測與實際數(shù)據(jù)的差距程度,假設(shè)有n個訓(xùn)練樣本,記i為訓(xùn)練樣本的索引,k為訓(xùn)練樣本類別的索引,則關(guān)于連接權(quán)重w的損失函數(shù)可定義為(5):
(5)
式中:yik= 0, 1:如果第i個樣本屬于第k種類型,則yik= 1,否則yik= 0 ,
P(xi=k):輸入xi屬于模型預(yù)測的第k類的概率,是參數(shù)w的函數(shù)
網(wǎng)絡(luò)訓(xùn)練的目的就是找到使損失函數(shù)E最小的w的值[21]。在研究中,采用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)算法,w迭代更新可描述為下式(6):
wk=w(k-1)-α(?E(w)/?w).
(6)
式中:α:學(xué)習(xí)率 ;
k:類別的索引,其含義與(5)相同。
遷移學(xué)習(xí)指利用不同學(xué)習(xí)任務(wù)之間的共性在任務(wù)間遷移知識,能夠?qū)默F(xiàn)有數(shù)據(jù)或環(huán)境中學(xué)到的知識用于新的數(shù)據(jù)或環(huán)境中。通過遷移學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)在小樣本圖像數(shù)據(jù)集上可使模型準(zhǔn)確率大幅地提升。研究采用模型微調(diào)的遷移學(xué)習(xí)方式,充分利用CaffeNet預(yù)訓(xùn)練模型在ImageNet數(shù)據(jù)集上學(xué)習(xí)得到的大量知識,將其用于優(yōu)化病蟲害棉葉圖像識別問題。
用于承載caffe框架進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練與測試的操作平臺為Windows7 64位系統(tǒng),計算機(jī)內(nèi)存為8GB,搭載Intel(R) Core(TM) i5-4590 CPU @ 3.30GHz處理器,顯存類型AMD Radeon R7 200 Series,容量4GB。
模型訓(xùn)練與測試均使用CPU完成,采用SGD算法對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,動量因子momentum設(shè)置為0.9,訓(xùn)練的批次樣本數(shù)設(shè)置為260,設(shè)置每20次迭代測試和顯示一次,最大迭代次數(shù)設(shè)置為1 520。以全新學(xué)習(xí)和遷移學(xué)習(xí)兩種方式對原始CaffeNet網(wǎng)絡(luò)及CaffeNet+1進(jìn)行訓(xùn)練。學(xué)習(xí)率是影響網(wǎng)絡(luò)模型分類識別準(zhǔn)確率的重要因素,通常情況下網(wǎng)絡(luò)訓(xùn)練中的初始學(xué)習(xí)率是依據(jù)經(jīng)驗設(shè)置的,為找到適宜于訓(xùn)練網(wǎng)絡(luò)模型的較優(yōu)的初始學(xué)習(xí)率,分別設(shè)置初始學(xué)習(xí)率為0.01、0.005、0.001共進(jìn)行12次試驗,得到12個模型,模型的訓(xùn)練與測試結(jié)果如表2所示(記錄迭代1 500次時的識別準(zhǔn)確率,并保存迭代1 500次時得到的模型)。
表2 模型訓(xùn)練與測試的準(zhǔn)確率和損失率
Table 2 Loss and Accuracy of Model Training and Testing
試驗編號Experimentnumber學(xué)習(xí)方式Learningmethod模型結(jié)構(gòu)Model學(xué)習(xí)率Learningrate訓(xùn)練準(zhǔn)確率Trainingaccuracy(%)訓(xùn)練損失Trainingloss測試準(zhǔn)確率Testaccuracy(%)測試損失Testloss123456全新學(xué)習(xí)CaffeNetCaffeNet+10.0110.12.07912.52.0790.0059.72.07912.52.0790.00196.40.09894.20.1760.0112.52.07912.52.0790.00512.52.07912.52.0790.00166.00.87465.90.727789101112遷移學(xué)習(xí)CaffeNetCaffeNet+10.0116.92.07912.52.0790.0051000.00197.60.0100.0011000.00296.80.0130.0116.92.07916.72.0790.0051000.00198.90.0020.0011000.00197.80.006
研究表明,全新學(xué)習(xí)方式下的CaffeNet及CaffeNet+1網(wǎng)絡(luò)模型在學(xué)習(xí)率取0.001時取得了較高的識別準(zhǔn)確率,而在學(xué)習(xí)率取0.01和0.005時,模型訓(xùn)練及測試準(zhǔn)確率只達(dá)到隨機(jī)猜測水平。而在遷移學(xué)習(xí)方式下在學(xué)習(xí)率取0.005和0.001時,CaffeNet和CaffeNet+1網(wǎng)絡(luò)模型均取得了較高的識別準(zhǔn)確率,其中改進(jìn)后的模型CaffeNet+1在0.005的學(xué)習(xí)率下,測試識別準(zhǔn)確率可達(dá)98.9%,其訓(xùn)練過程中準(zhǔn)確率及損失率變化曲線如圖4所示, 研究表明,僅經(jīng)過約200次迭代模型便達(dá)到穩(wěn)定狀態(tài)。表2,圖4
圖4 CaffeNet+1模型在遷移學(xué)習(xí)方式下訓(xùn)練過程中準(zhǔn)確率和損失變化曲線
Fig. 4 Accuracy and loss curve of CaffeNet+1 model in training process undertransferlearningmode
2.2.1 學(xué)習(xí)率對模型的影響
研究表明,學(xué)習(xí)率對卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練影響較大。對于同一模型結(jié)構(gòu)在其他條件相同的情況下,設(shè)置不同的學(xué)習(xí)率,以此確定適合于模型訓(xùn)練較優(yōu)的學(xué)習(xí)率。當(dāng)學(xué)習(xí)率設(shè)置不恰當(dāng)時,模型訓(xùn)練時易發(fā)生振蕩,導(dǎo)致模型訓(xùn)練失敗[22],其訓(xùn)練過程中的準(zhǔn)確率和損失率的變化曲線。表2,圖5
圖5 學(xué)習(xí)率設(shè)置不當(dāng)時準(zhǔn)確率和損失變化曲線
Fig. 5 Loss and accuracy curves under training with an improper learning rate
2.2.2 遷移學(xué)習(xí)對模型的影響
較全新學(xué)習(xí)而言,遷移學(xué)習(xí)可是模型訓(xùn)練提前收斂并且獲得較高的識別準(zhǔn)確率,很大程度上節(jié)省了模型訓(xùn)練時間。遷移學(xué)習(xí)方式下的CaffeNet模型訓(xùn)練過程中僅40次迭代后測試準(zhǔn)確率便超過97%,約迭代260次后達(dá)到穩(wěn)定狀態(tài),然而在全新學(xué)習(xí)方式下模型經(jīng)20次迭代后測試準(zhǔn)確率低于20%,僅達(dá)到隨機(jī)猜測的水平,約1 060次迭代后才達(dá)到穩(wěn)定狀態(tài)。圖6
圖6 學(xué)習(xí)率取0.001時CaffeNet模型在兩種學(xué)習(xí)方式下準(zhǔn)確率變化曲線
Fig. 6 The accuracy curve of the CaffeNet model in two learning modes when the learning rate is 0.001
2.2.3 改進(jìn)模型與原模型對比
研究表明,微調(diào)改進(jìn)后的模型CaffeNet+1在遷移學(xué)習(xí)方式下學(xué)習(xí)率取0.005時,經(jīng)1 500次訓(xùn)練迭代后,在測試集上的識別準(zhǔn)確率可達(dá)98.9%,高于同等條件下的caffeNet模型(97.6%)。表2
研究中進(jìn)過改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)模型可以有效地提高模型在受害棉葉癥狀圖像測試集上的識別準(zhǔn)確率,優(yōu)于傳統(tǒng)的網(wǎng)模型結(jié)構(gòu)。相比較前人所提出的方法而言,研究所提的方法可以識別更多種類的受害棉葉特征圖像,但也受數(shù)據(jù)量以及圖片采集環(huán)境的限制,所以后續(xù)將進(jìn)一步研究復(fù)雜環(huán)境下更多種類的受害棉葉特征圖像的識別。
利用遷移學(xué)習(xí)和微調(diào)卷積神經(jīng)網(wǎng)絡(luò)模型對棉葉被病害危害后癥狀圖像進(jìn)行了分類試驗,改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)模型CaffeNet+1在遷移學(xué)習(xí)方式下取學(xué)習(xí)率為0.005時,在未參與訓(xùn)練的數(shù)據(jù)集上的分類準(zhǔn)確率可達(dá)98.9%,高于相同條件下的CaffeNet模型;相對于全新學(xué)習(xí)而言,遷移學(xué)習(xí)可充分利用在大型數(shù)據(jù)集上學(xué)習(xí)得到的知識,可以顯著加速網(wǎng)絡(luò)收斂和提高分類性能,為建立基于微調(diào)卷積神經(jīng)網(wǎng)絡(luò)遷移學(xué)習(xí)模式下被害棉葉精準(zhǔn)圖像識別技術(shù)創(chuàng)造了有利條件。