王 琨,劉大茂
(1.福州大學(xué) 陽光學(xué)院 電子信息工程系, 福州 350015;2.福州大學(xué) 物理與信息工程學(xué)院, 福州 350108)
基于深度學(xué)習(xí)的茶葉狀態(tài)智能識(shí)別方法
王 琨1,劉大茂2
(1.福州大學(xué) 陽光學(xué)院 電子信息工程系, 福州 350015;2.福州大學(xué) 物理與信息工程學(xué)院, 福州 350108)
目前對(duì)茶葉狀態(tài)的識(shí)別主要依賴人工完成,規(guī)模化、產(chǎn)業(yè)化生產(chǎn)制造較為困難。作為機(jī)器學(xué)習(xí)的一個(gè)新興方向,深度學(xué)習(xí)以其準(zhǔn)確性和高效性得到廣泛關(guān)注。將深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)算法應(yīng)用于茶葉狀態(tài)識(shí)別中,根據(jù)實(shí)際的應(yīng)用場(chǎng)合對(duì)經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)算法進(jìn)一步優(yōu)化,利用提取到的茶葉圖像集訓(xùn)練網(wǎng)絡(luò),最終使網(wǎng)絡(luò)能夠正確識(shí)別茶葉狀態(tài)。實(shí)驗(yàn)結(jié)果表明:該算法能夠?qū)Σ枞~狀態(tài)的判別標(biāo)志——茶葉嫩芽進(jìn)行有效的3D識(shí)別,且對(duì)于不同的影響因素具有一定的魯棒性。
深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);圖像分割;特征提取;3D識(shí)別
茶葉采摘方法與其他作物不同,其葉面展開的程度決定了茶葉質(zhì)量的好壞。長(zhǎng)期以來,農(nóng)作物性狀的測(cè)定一直是農(nóng)技專家、管理人員迫切希望解決的難題。目前,茶葉的狀態(tài)參量——嫩芽特征,主要靠人工觀察獲取,其考查速度慢,工作強(qiáng)度大,結(jié)果誤差大,使茶樹因苗、因時(shí)、因地的科學(xué)化管理和智能化栽培技術(shù)的推行受到限制。
隨著信息技術(shù)與計(jì)算機(jī)技術(shù)的不斷發(fā)展,一種基于深度學(xué)習(xí)的圖像識(shí)別技術(shù)應(yīng)運(yùn)而生,為處理這一難題提供了有效的思路。由Hinton等于2006年提出的深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)研究中的一個(gè)新范疇,其目的在于建立分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),模仿人腦機(jī)制來解釋數(shù)據(jù)。深度學(xué)習(xí)的本質(zhì)是構(gòu)建含有多隱層的機(jī)器學(xué)習(xí)模型,利用大量數(shù)據(jù)進(jìn)行訓(xùn)練,得到豐富的更具代表性的特征信息,從而對(duì)樣本進(jìn)行分類和預(yù)測(cè),提高分類和預(yù)測(cè)的精度[1]。深度學(xué)習(xí)在信號(hào)處理中的應(yīng)用對(duì)象主要包括語音[2-3]、圖像、 視頻及文本等。運(yùn)用深度學(xué)習(xí)模型不僅能大幅提高識(shí)別的精度,同時(shí)也能縮短人工特征提取工作耗費(fèi)的時(shí)間,使在線運(yùn)算效率極大提高。
實(shí)踐表明:茶葉采摘的時(shí)間、位置等都決定了茶葉品質(zhì)的好壞和茶樹后期的質(zhì)量。而以往通過經(jīng)驗(yàn)或者人工局部的觀察實(shí)現(xiàn)采摘易延誤工期。近年來,隨著信息技術(shù)的不斷發(fā)展,一些新技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用越來越深入。文獻(xiàn)[4]采用改進(jìn)的蟻群算法實(shí)現(xiàn)了茶葉種植土壤的優(yōu)化分析;文獻(xiàn)[5]采用BP人工神經(jīng)網(wǎng)絡(luò)算法構(gòu)建小麥圖像群體特征識(shí)別自學(xué)習(xí)體系,其識(shí)別準(zhǔn)確率較高;文獻(xiàn)[6]使用顏色識(shí)別和區(qū)域生長(zhǎng)的思路,對(duì)茶葉圖像進(jìn)行分割,能將拍攝角度不同的茶葉嫩芽從茶葉中分離出來,茶葉嫩芽輪廓信息完整。但以上文獻(xiàn)均未涉及茶葉形態(tài)的智能識(shí)別問題。因此,本文在深入研究深度學(xué)習(xí)相關(guān)算法的基礎(chǔ)上,提出了一種基于深度學(xué)習(xí)的茶葉形態(tài)識(shí)別方法。該方法首先通過顏色、區(qū)域生長(zhǎng)以及形狀等手段有效提取茶葉圖像中的嫩芽,利用基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法學(xué)習(xí)大量茶葉嫩芽的實(shí)際樣本,最終達(dá)到對(duì)茶葉形態(tài)及姿態(tài)的3D智能識(shí)別的目的。識(shí)別算法的主要流程如圖1所示。最后,通過實(shí)驗(yàn)表明:本文算法在茶葉嫩芽識(shí)別方面實(shí)時(shí)性較好,識(shí)別率較高。同時(shí),針對(duì)影響嫩芽識(shí)別的不同因素進(jìn)行分類實(shí)驗(yàn),給出了不同條件下的茶葉嫩芽識(shí)別率。結(jié)果表明:本文算法的魯棒性較強(qiáng),能夠滿足農(nóng)業(yè)生產(chǎn)的需求。
圖1 算法基本流程
茶葉嫩芽的性狀特征和成熟程度決定了鮮葉的采摘時(shí)間,而鮮葉的采摘時(shí)間又對(duì)成茶的品質(zhì)有著重要的影響。目前,茶葉的采收依據(jù)主要由其嫩芽的生長(zhǎng)情況即嫩芽開采面決定,實(shí)際中常用的規(guī)范有未開面、小開面、中開面、大開面4種情況,大批量、多層次地及時(shí)分析辨別出茶葉嫩芽的生長(zhǎng)狀態(tài)是茶葉智能化生產(chǎn)的根本。
1.1 基于顏色和區(qū)域生長(zhǎng)的茶葉嫩芽圖像分割
對(duì)自然場(chǎng)景中釆集的圖像進(jìn)行分割是茶葉嫩芽檢測(cè)的重要步驟,采用顏色特征和區(qū)域特征作為主要參量,將茶葉圖像中的多個(gè)嫩芽分割出來。主要過程分為以下步驟:
步驟1 將圖像的RGB顏色模型轉(zhuǎn)換為HSI顏色模型。RGB顏色模型中的顏色值由三基色所占的相對(duì)比例來確定,其優(yōu)點(diǎn)是處理時(shí)不需要進(jìn)行顏色模型的轉(zhuǎn)換,適合做實(shí)時(shí)性處理;而缺點(diǎn)是三基色之間相關(guān)性較大,易受外界光線影響,不適合直接進(jìn)行圖像的分割和分析。HSI顏色模型由色調(diào)、飽和度和亮度3個(gè)顏色分量組成,3個(gè)分量相互獨(dú)立,所以可直接進(jìn)行相關(guān)運(yùn)算,減小了處理和分析的工作量。因此,采用HSI顏色模型進(jìn)行圖像分割效果較好。
步驟2 區(qū)域選取、生長(zhǎng)及合并。區(qū)域選取的基礎(chǔ)是選取合適的種子區(qū)域。其具體原則是:1)量化后的顏色值相同;2)4鄰域連通且像素面積達(dá)到一定值。種子區(qū)域的具體選取方法見文獻(xiàn)[6]。區(qū)域生長(zhǎng)是將種子區(qū)域周邊與其性質(zhì)相似的區(qū)域加入其中。在茶葉圖像中兩個(gè)顏色相近、空間相鄰且鄰域沒有明顯邊界的區(qū)域稱為可相連的區(qū)域。其顏色距離如公式(1)所示:
(1)
(2)
其中:Pij表示區(qū)域邊緣上的像素個(gè)數(shù);xm和xn分別表示邊緣兩側(cè)的m和n點(diǎn)的位置值。
1.2 基于顏色和形狀的茶葉嫩芽圖像檢測(cè)
在實(shí)際的茶葉采摘檢測(cè)中,發(fā)現(xiàn)嫩芽顏色及形狀與其他葉子不同。因此,采用這2項(xiàng)指標(biāo)作為茶葉嫩芽提取的依據(jù)。主要步驟是:① 選取HSI顏色模型中與顏色相關(guān)的色調(diào)和飽和度分量作為特征參數(shù),根據(jù)嫩芽實(shí)際顏色選擇相關(guān)區(qū)域;② 茶葉嫩芽外形與其他葉片有差異。描述形狀的特征有很多,通過實(shí)驗(yàn),發(fā)現(xiàn)嫩芽的面積、中軸長(zhǎng)度、平均寬度和彎曲度系數(shù)可用來較好地檢測(cè)出嫩芽,具體過程見文獻(xiàn)[8]。
深度學(xué)習(xí)的概念起源于人工神經(jīng)網(wǎng)絡(luò),由人工神經(jīng)網(wǎng)絡(luò)中含多隱層的多層感知器發(fā)展而來。深度學(xué)習(xí)將低層特征進(jìn)行組合,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示,形成更加抽象的高層表示屬性類別[9]。深度學(xué)習(xí)方法分為有監(jiān)督學(xué)習(xí)方法和無監(jiān)督學(xué)習(xí)方法兩類,在此方法下構(gòu)建了不同的學(xué)習(xí)模型。典型的深度學(xué)習(xí)模型有卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、深度置信網(wǎng)絡(luò)( deep belief network,DBN )和堆棧自編碼網(wǎng)絡(luò)(stacked auto-encoder network,SAN )等。卷積神經(jīng)網(wǎng)絡(luò)是一種在監(jiān)督體制下進(jìn)行的深度學(xué)習(xí),其網(wǎng)絡(luò)結(jié)構(gòu)與實(shí)際的生物神經(jīng)網(wǎng)絡(luò)非常相近,一些實(shí)驗(yàn)證明其在語音識(shí)別和視覺圖像識(shí)別方面獨(dú)具優(yōu)勢(shì),因此本文采用CNN來建模。
2.1 CNN的基本思想
卷積神經(jīng)網(wǎng)絡(luò)(CNN) 由貓視覺皮層的研究發(fā)展而來,是一種多層的監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。隱含層的卷積層和子釆樣層是實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)特征提取功能的核心模塊,采用誤差梯度設(shè)計(jì)并訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),通過頻繁的迭代訓(xùn)練提高網(wǎng)絡(luò)的精度[10]。CNN有3個(gè)核心架構(gòu):局部區(qū)域感知、權(quán)重共享和子采樣。
1) 局部區(qū)域感知
在卷積神經(jīng)網(wǎng)絡(luò)中,將輸入圖像劃分成局部區(qū)域(即局部接受域),從局部接受域中提取圖像的初級(jí)視覺特征,如物體的特殊點(diǎn)、邊界和轉(zhuǎn)角等,后續(xù)各層通過組合這些初級(jí)特征得到更高層的特征。兩層之間采用局部連接方式,即利用層間局部空間相關(guān)性將相鄰每一層的神經(jīng)元節(jié)點(diǎn)只與和它相近的上層神經(jīng)元節(jié)點(diǎn)連接,從而極大地降低了神經(jīng)網(wǎng)絡(luò)架構(gòu)的參數(shù)規(guī)模。
2) 權(quán)重共享
在卷積神經(jīng)網(wǎng)絡(luò)中,卷積層的每一個(gè)卷積濾波器重復(fù)地作用于整個(gè)感受野中,對(duì)輸入圖像進(jìn)行卷積。卷積結(jié)果構(gòu)成了輸入圖像的特征圖,以達(dá)到進(jìn)一步提取圖像局部特征的目的。由于每個(gè)卷積濾波器共享相同的權(quán)重矩陣和偏置項(xiàng),這使得輸出的特征圖和輸入圖像的平移變化相同。由于需要訓(xùn)練的權(quán)重參數(shù)數(shù)目通過權(quán)重共享大幅減少,因此對(duì)訓(xùn)練樣本的需求也極大降低。
3) 子采樣
在獲取圖像的卷積特征后,要通過子采樣方法對(duì)卷積特征進(jìn)行降維。將卷積特征劃分為n×n個(gè)不相交區(qū)域,用這些區(qū)域的最大(或平均)特征來表示降維后的卷積特征。這些降維后的特征更容易分類。子采樣有2個(gè)優(yōu)點(diǎn):① 減小了計(jì)算復(fù)雜度;② 采樣單元具有平移不變性,即使圖像有小的位移,提取到的特征依然保持不變。子采樣因其對(duì)位移的魯棒性成為一種高效的降低數(shù)據(jù)維度的采樣方法。
2.2 CNN的整體網(wǎng)絡(luò)結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)由1~3個(gè)特征提取階段和1層或2層的傘連接神經(jīng)網(wǎng)絡(luò)分類器構(gòu)成。卷積神經(jīng)網(wǎng)絡(luò)的典型結(jié)構(gòu)是LeNet-5[11],其最早用于銀行手寫數(shù)字識(shí)別,實(shí)際準(zhǔn)確率高,具體結(jié)構(gòu)如圖2所示。
圖2 CNN典型網(wǎng)絡(luò)結(jié)構(gòu)
由圖2可知:CNN通過卷積層提取特征,通過子采樣層降低維度,然后以相同的組合形成更加抽象的特征,最終通過全連接層形成對(duì)圖象的描述特征。具體構(gòu)造方法分為3步。
1) 卷積層的構(gòu)建
卷積層是由多個(gè)特征平面組成,每個(gè)特征平面又由具有相同連接權(quán)重的多個(gè)神經(jīng)元構(gòu)成。卷積層上的每個(gè)神經(jīng)元都定義了相應(yīng)的感受野,這些神經(jīng)元只接受其感受野傳輸?shù)男盘?hào),在同一特征平面上的感受野大小相同。如圖2所示,前一層的特征圖與可訓(xùn)練的卷積核進(jìn)行卷積,得到的卷積結(jié)果再通過激活函數(shù)后輸出形成下一個(gè)卷積層的特征圖。卷積形式如式(3)所示:
(3)
其中:oij表示第i層的第j個(gè)特征圖;oij(x,y)是oij中的元素;tanh( )為雙曲正切函數(shù),bij是特征圖oij的偏置;Kij是與oij相連的上一層的特征圖符號(hào)集合;wijk是oij和o(i-1)j的卷積核;Ri是該層卷積核的行數(shù);Ci是該層卷積核的列數(shù)。如果第(i-1)層的特征圖大小為n1×n2,卷積核大小為l1×l2,經(jīng)過卷積后,得到第i層特征圖的大小為(n1-l1+1)×(n2-l2+1)。
2) 采樣層的構(gòu)造方法
采樣層通過對(duì)上一層的相鄰小區(qū)域進(jìn)行聚合統(tǒng)計(jì)實(shí)現(xiàn)采樣處理。設(shè)采樣區(qū)域大小為l1×l2,具體采樣方法如式(4)所示:
(4)
其中:gij表示oij增益系數(shù)。
3) 分類層的構(gòu)建
在分類任務(wù)中,最后一層通常是一個(gè)全連接層,將每一個(gè)單像素圖像和輸出層的每一種可能的分類相連接。由于softmax回歸是解決多分類問題的一種方法,是基于邏輯回歸而來[12],因此,本文最后一層的激勵(lì)函數(shù)使用softmax回歸函數(shù),其中每一個(gè)神經(jīng)元的輸出代表分類結(jié)果的可能性。
2.3 CNN的訓(xùn)練方法
卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練分為2個(gè)階段。
1) 前向傳播階段。從樣本集中抽取一個(gè)樣本(Xi,Yi),將Xi輸入網(wǎng)絡(luò),經(jīng)過逐級(jí)變換,信息從輸入層傳送到輸出層,實(shí)際的輸出如式(5)所示:
(5)
其中:w(n)表示第n層的權(quán)值;b(n)表示第n層的偏置;Fn()是第n層的激活函數(shù),一般采用反正切函數(shù)或sigmoid函數(shù),本文采用sigmoid函數(shù)。
2) 后向傳播階段,也稱為誤差傳播階段。CNN中誤差的反向傳播過程分為輸出層的誤差反向傳播和隱層的誤差反向傳播2個(gè)過程。輸出層的誤差反向傳播過程誤差計(jì)算如式(6)、(7)所示:
(6)
(7)
其中:Ei是第i個(gè)樣本的誤差;Oik是第i個(gè)樣本輸出層第k個(gè)神經(jīng)元的輸出;Tik是第i個(gè)樣本輸出層第k個(gè)神經(jīng)元的期望輸出。
隱層的誤差反向傳播又包括子采樣層的誤差反向傳播和卷積層的誤差反向傳播。子采樣層的誤差與和輸出層的誤差計(jì)算方式類似,即分別計(jì)算該層當(dāng)前神經(jīng)元的輸出誤差與該神經(jīng)元的輸出、增益和偏置的偏導(dǎo),并以此調(diào)整相應(yīng)的增益和偏置。而卷積層的誤差反向傳播過程比較復(fù)雜,一般采用文獻(xiàn)[13]的方法解決。
實(shí)驗(yàn)中,選取了4種典型的嫩芽形態(tài)以5種不同的姿態(tài)(水平面上0~360°每90°為一個(gè)姿態(tài)類)進(jìn)行實(shí)驗(yàn),即共有20種分類結(jié)果。在晴天、陰雨天氣及光照不均條件下,從茶葉嫩芽正側(cè)面(0°角)、 45°角斜向下和垂直從上往下(90°角)3種不同的角度,以1株特寫、2株特寫以及群拍的方式采集了樣本圖像數(shù)據(jù)1 000個(gè),具體范例見圖3。其中,每類隨機(jī)選取40個(gè),共800個(gè)數(shù)據(jù)作為訓(xùn)練樣本,剩余200個(gè)數(shù)據(jù)作為測(cè)試樣本,其圖像大小都?xì)w一化為48×48。本次實(shí)驗(yàn)在Intel Core i7-3770M3,頻率為3.5 GHz,內(nèi)存為8GB的CPU平臺(tái)上,利用 Matlab 軟件完成。
圖3 不同拍攝因素下的茶葉圖像
實(shí)驗(yàn)時(shí),由于LeNet-5網(wǎng)絡(luò)輸出神經(jīng)元數(shù)較少,僅有10個(gè)。因此,本文在此基礎(chǔ)上做以下改進(jìn):①改進(jìn)子采樣層的采樣方式。釆樣方式由區(qū)域內(nèi)4個(gè)神經(jīng)元求平均值變?yōu)榍笞畲笾?;②使用sigmoid函數(shù)來替代tanh()函數(shù)作為各層的激勵(lì)函數(shù);③增加了C5層的特征圖數(shù)目和全連接層F6層的神經(jīng)元個(gè)數(shù)。改進(jìn)后的CNN結(jié)構(gòu)參數(shù)如表1所示。按照表1所示的參數(shù)構(gòu)建網(wǎng)絡(luò)并進(jìn)行訓(xùn)練,經(jīng)過8次迭代訓(xùn)練后網(wǎng)絡(luò)收斂,其誤識(shí)別率和迭代次數(shù)見圖4。
表1 卷積神經(jīng)網(wǎng)絡(luò)參數(shù)
圖4 改進(jìn)后的CNN網(wǎng)絡(luò)模型的誤識(shí)別曲線
200張圖像中嫩芽總數(shù)為552個(gè),實(shí)際識(shí)別率為91.3%,總耗時(shí)為99.3 s,平均每個(gè)嫩芽耗時(shí)0.18 s。分析其原因,主要有2個(gè)可能的方面:① 在CNN網(wǎng)絡(luò)識(shí)別前,由于拍攝角度、光照的強(qiáng)弱和取景遠(yuǎn)近等因素可能對(duì)嫩芽圖像提取造成影響;② CNN網(wǎng)絡(luò)自身的結(jié)構(gòu)參數(shù)設(shè)置可能產(chǎn)生影響。針對(duì)這兩方面因素再進(jìn)行一次相關(guān)實(shí)驗(yàn)。
1) 對(duì)200張圖像分別按照拍攝角度、光照強(qiáng)弱和取景遠(yuǎn)近這3個(gè)條件進(jìn)行分類。對(duì)每一類圖像分別用CNN網(wǎng)絡(luò)進(jìn)行識(shí)別,其統(tǒng)計(jì)結(jié)果如表2~4所示。
表2 不同光照條件下茶葉嫩芽識(shí)別結(jié)果統(tǒng)計(jì)
表3 不同取像角度茶葉嫩芽識(shí)別結(jié)果統(tǒng)計(jì)
表4 不同取像遠(yuǎn)近角度茶葉嫩芽識(shí)別結(jié)果統(tǒng)計(jì)
其中:近景1表示視野中有1~3個(gè)茶葉嫩芽;近景2表示視野中有4~8個(gè)茶葉嫩芽;遠(yuǎn)景表示視野中有8個(gè)以上茶葉嫩芽。由以上實(shí)驗(yàn)結(jié)果可以看出:① 在光照條件較好時(shí),由于圖像前期的提取率較高,所以識(shí)別率較好;② 取景角度不同導(dǎo)致嫩芽互相遮擋的面積不同,這也會(huì)影響識(shí)別率,其中以斜向下45°的識(shí)別率最高;③ 焦距的不同造成取得的景深和清晰度不同,也會(huì)導(dǎo)致不同結(jié)果。實(shí)驗(yàn)發(fā)現(xiàn):視野中有4~8個(gè)茶葉嫩芽時(shí),其識(shí)別率最好。
2) 對(duì)CNN網(wǎng)絡(luò)參數(shù)進(jìn)行2種改動(dòng)。在原實(shí)驗(yàn)網(wǎng)絡(luò)模型的基礎(chǔ)上減少卷積濾波器的數(shù)量,形成CNN1網(wǎng)絡(luò)。將C1層特征圖像的個(gè)數(shù)減少為4個(gè),則S2層特征圖像數(shù)量也是4個(gè)。同樣,將C3層的特征圖像減少為10個(gè),則S4層特征圖像數(shù)量也是10個(gè)。將C5的特征圖像數(shù)量減少為120個(gè),其余部分的構(gòu)造方式保持不變。CNN1網(wǎng)絡(luò)與原網(wǎng)絡(luò)相比在卷積層上減少了卷積濾波器和對(duì)應(yīng)的特征圖像的數(shù)量,減少了網(wǎng)絡(luò)模型需要訓(xùn)練的參數(shù)數(shù)量。但與此同時(shí)也使得網(wǎng)絡(luò)模型能學(xué)習(xí)到的卷積濾波器數(shù)量減少,提取的圖像特征信息也相應(yīng)減少。其訓(xùn)練結(jié)果見圖5。
在CNN1網(wǎng)絡(luò)模型訓(xùn)練過程中,迭代到第8次開始收斂,此時(shí)對(duì)應(yīng)的誤識(shí)別率是11.8%。和原網(wǎng)絡(luò)模型的訓(xùn)練結(jié)果對(duì)比可以看出,CNN1網(wǎng)絡(luò)模型的誤識(shí)別率有小量的上升。但CNN1在訓(xùn)練中收斂速度明顯快于原網(wǎng)絡(luò),在第8次迭代后就達(dá)到穩(wěn)定狀態(tài)。這是因?yàn)殡S著CNN1網(wǎng)絡(luò)模型各層的卷積濾波器數(shù)量的減少,使得網(wǎng)絡(luò)需要訓(xùn)練的權(quán)重參數(shù)相應(yīng)減少,網(wǎng)絡(luò)訓(xùn)練時(shí)間也隨之減少。該實(shí)驗(yàn)結(jié)果表明,減少卷積濾波器的數(shù)量,用同樣數(shù)量的訓(xùn)練樣本對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,網(wǎng)絡(luò)依然能很好地提取到輸入圖像的特征數(shù)據(jù)用于對(duì)圖像進(jìn)行分類。通過這個(gè)方法可以減小網(wǎng)絡(luò)參數(shù)規(guī)模,從而減少網(wǎng)絡(luò)訓(xùn)練時(shí)間。
圖5 改進(jìn)后的CNN1網(wǎng)絡(luò)模型的誤識(shí)別曲線
與CNN1網(wǎng)絡(luò)模型相反,CNN2模型在原網(wǎng)絡(luò)架構(gòu)的基礎(chǔ)上增加了卷積濾波器的數(shù)量。將C1層的濾波器數(shù)量增加到8個(gè),C3層增加到24個(gè),C5層增加到300個(gè)。同原網(wǎng)絡(luò)相比,CNN2網(wǎng)絡(luò)中各層卷積濾波器個(gè)數(shù)增加,使得需要學(xué)習(xí)的參數(shù)規(guī)模大幅增加。卷積濾波器數(shù)量的增加雖然能使網(wǎng)絡(luò)學(xué)習(xí)到更多潛在特征,使網(wǎng)絡(luò)的特征提取能力得到增強(qiáng),但同時(shí)也使網(wǎng)絡(luò)的訓(xùn)練難度隨之增加,需要更多的樣本數(shù)據(jù)進(jìn)行訓(xùn)練。訓(xùn)練結(jié)果見圖6。
圖6 改進(jìn)后的CNN2網(wǎng)絡(luò)模型的誤識(shí)別曲線
由圖6可以看出:在訓(xùn)練過程中,網(wǎng)絡(luò)的誤分類率曲線變化波動(dòng)較大,比較不穩(wěn)定。誤分類率在第8次和第12次迭代后趨于收斂,隨后又很快上升。在12次迭代之后取得的16.6%的誤分類率相比其他2種網(wǎng)絡(luò)都高。
由以上實(shí)驗(yàn)可知:CNN網(wǎng)絡(luò)模型各層的卷積濾波器個(gè)數(shù)需要適中,卷積濾波器過少可能減少對(duì)圖像特征的提取,從而降低識(shí)別率;卷積濾波器過多則可能使訓(xùn)練規(guī)模增加、訓(xùn)練過程變長(zhǎng)。
本文著重研究了基于深度學(xué)習(xí)的茶葉形態(tài)智能識(shí)別問題,重點(diǎn)對(duì)茶葉嫩芽進(jìn)行識(shí)別。在外界光線、拍攝角度、取景遠(yuǎn)近及嫩芽數(shù)目未知的情況下,利用顏色、區(qū)域生長(zhǎng)及形狀的圖像等因素對(duì)茶葉嫩芽進(jìn)行檢測(cè),再利用深度學(xué)習(xí)方法中的卷積神經(jīng)網(wǎng)絡(luò)算法對(duì)茶葉嫩芽的形態(tài)進(jìn)行3D識(shí)別。通過對(duì)不同影響因素的實(shí)驗(yàn)結(jié)果表明:將深度學(xué)習(xí)方法應(yīng)用于茶葉嫩芽識(shí)別可獲得到較優(yōu)的結(jié)果,為后續(xù)的進(jìn)一步3D還原奠定了基礎(chǔ)。
[1] NGIAM J,KHOSLA A,KIM M,et al.Multimodal deep learning[C]//Proceedings of the 28th International Conference on Machine Learning (ICML-11).[S.l.]:[s.n.],2011:689-696.
[2] DAHL G E,YU D,DENG L,et al.Context-Dependent Pre-trained Deep Neural Networks for Large-Vocabulary Speech Recognition[J].IEEE Trans on Audio,Speech and Language Processing,2012,20(1):30-42.
[3] HINTON G,DENG L,YU D,et al.Deep Neural Networks for Acoustic Modeling in Speech Recognition:The Shared Views of Four Research Groups[J].IEEE Signal Processing Magazine,2012,29(6):82-97.
[4] 郝靳.基于改進(jìn)的蟻群算法實(shí)現(xiàn)的茶葉種植分析系統(tǒng)[D].長(zhǎng)春:吉林大學(xué),2014.
[5] 肖波,索興梅,白中英.應(yīng)用神經(jīng)網(wǎng)絡(luò)方法解決小麥高產(chǎn)群體圖像識(shí)別[J].計(jì)算機(jī)應(yīng)用研究,2004,35(4):240-242.
[6] 汪建.結(jié)合顏色和區(qū)域生長(zhǎng)的茶葉圖像分割算法研究[J].茶葉科學(xué),20l1,3l(1):72-77.
[7] COMANICIU D,MEER P.An algorithm for data—driven bandwidth Selection[J].IEEE Trans PAMI,2003,24(5):28l-288.
[8] 汪建,杜世平.基于顏色和形狀的茶葉計(jì)算機(jī)識(shí)別研究[J].茶葉科學(xué),2008,28(6):420-424.
[9] 孫志軍,薛磊,許陽明,等.深度學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2012(8):2806-2810.
[10]BENGIO Y.Practical recommendations for gradient-based training of deep architectures[M].Berlin:Springer-Verlag,2012:437-478.
[11]WITTEN I H,FRANK E,HALL M A.Data Mining:Practical Machine Learning Tools and Techniques[M].USA:Elsevier,2011.
[12]ARRIBAS J I,CID-SUEIRO J,ADALI T,et al.Neural architectures for parametric estimation of a posteriori probabilities by constrained conditional density functions[C]//Neural Networks for Signal Processing IX,1999.Proceedings of the 1999 IEEE Signal Processing Society Workshop.USA:IEEE,1999:263-272.
[13]SIMARD P,STEINKRAUS D,PIATT J C.Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis[C]//ICDAR 2003.Scottland:IEEE,2003:958-962.
(責(zé)任編輯 楊黎麗)
Intelligent Identification for Tea State Based on Deep Learning
WANG Kun1, LIU Da-mao2
(1.Department of Electronic and Information Engineering, Yango College,Fuzhou University, Fuzhou 350015, China; 2.College of Physics and Information Engineering, Fuzhou University, Fuzhou 350108, China)
Currently the identification of tea state is still done manually, and it is difficult to form a large-scale and industrial production. As a new direction in machine learning, deep learning is getting more attention for its accuracy and efficiency. So the Convolutional Neural Network of deep learning was applied to tea state identification. According to the practical applications, some improvements was made for classical Convolutional Neural Network, using the extracted tea image to train the network, and finally the network can identify the tea state correctly. Experimental results show that the algorithm can make 3D identification for the symbol of tea-tea buds effectively and has robustness for different factors.
deep learning; convolutional neural network; image segmentation; feature extraction; 3D identification
2015-10-09 基金項(xiàng)目:福建省教育廳項(xiàng)目(JA13366)
王琨(1983—),女,河南鄢陵人,講師,主要從事數(shù)字圖像處理方面研究。
王琨,劉大茂.基于深度學(xué)習(xí)的茶葉狀態(tài)智能識(shí)別方法[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(12):120-126.
format:WANG Kun, LIU Da-mao.Intelligent Identification for Tea State Based on Deep Learning[J].Journal of Chongqing University of Technology(Natural Science),2015(12):120-126.
10.3969/j.issn.1674-8425(z).2015.12.020
TP391
A
1674-8425(2015)12-0120-07