王 見(jiàn),田光寶,周 勤
(1.重慶大學(xué) 機(jī)械傳動(dòng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,重慶 400044; 2.重慶大學(xué) 機(jī)械工程學(xué)院,重慶 400044)
我國(guó)是世界第二產(chǎn)棉大國(guó),棉花在國(guó)民經(jīng)濟(jì)中占有重要地位。棉花產(chǎn)業(yè)是勞動(dòng)密集型產(chǎn)業(yè),我國(guó)的機(jī)械化采棉正處于起步階段,隨著勞動(dòng)力成本的提高,機(jī)械化采棉成為必然趨勢(shì)[1-2]。但機(jī)械化采棉在降低勞動(dòng)強(qiáng)度和種植成本的同時(shí),也降低了棉花的品質(zhì)[3]。機(jī)械化采棉不但需要對(duì)棉株進(jìn)行化學(xué)脫葉催熟,而且含雜率高達(dá)10%~30%,所需清理工序較多,導(dǎo)致機(jī)采棉纖維與手摘棉相比,強(qiáng)度降低,長(zhǎng)度縮短[4-6]。智能采棉是降低勞動(dòng)強(qiáng)度和種植成本,提高機(jī)采棉的品質(zhì)的重要途徑。智能采棉機(jī)是根據(jù)棉花的自然成熟多批次精準(zhǔn)采摘,傳統(tǒng)機(jī)械化采棉是脫葉催熟后一次收獲,但效率低是阻礙智能采棉機(jī)推廣的重要因素之一。智能采棉機(jī)精準(zhǔn)快速采摘關(guān)鍵在于單個(gè)、重疊和部分遮擋棉花的精準(zhǔn)識(shí)別。傳統(tǒng)的基于特征分割在棉花的識(shí)別上取得了較好效果[7-9],但無(wú)法區(qū)分單個(gè)、重疊和部分遮擋棉花,導(dǎo)致重疊在一起的多個(gè)棉花誤識(shí)別為一個(gè)只返回一個(gè)采摘點(diǎn),部分遮擋棉花識(shí)別不出來(lái),偏白非棉花物質(zhì)誤識(shí)別為棉花;誤識(shí)別和漏識(shí)別導(dǎo)致智能采棉機(jī)采摘效率進(jìn)一步降低。
近年流行的深度卷積神經(jīng)網(wǎng)絡(luò)屬于端到端的策略,可以自動(dòng)實(shí)現(xiàn)圖像特征的學(xué)習(xí)與分類(lèi)[10]。在ImageNet圖像分類(lèi)競(jìng)賽中,以卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的深度學(xué)習(xí)算法已經(jīng)遠(yuǎn)遠(yuǎn)超越了傳統(tǒng)的機(jī)器學(xué)習(xí)算法。2012年以后,以AlexNet[11]、GoogleNet[12]、ResNet[13]等模型的出現(xiàn)和發(fā)展,深度卷積神經(jīng)網(wǎng)絡(luò)在圖像分類(lèi)上開(kāi)始井噴式發(fā)展。AlexNet相比之前的神經(jīng)網(wǎng)絡(luò),使用了計(jì)算簡(jiǎn)單且不易發(fā)生梯度發(fā)散的非線(xiàn)性激活函數(shù)(rectified linear units,ReLU);提出了局部響應(yīng)歸一化(local response normalization,LRN),激勵(lì)反饋較大的神經(jīng)元,抑制反饋較小的神經(jīng)元,增強(qiáng)了模型的泛化能力;使用Dropout技術(shù)降低神經(jīng)元復(fù)雜的互適應(yīng)關(guān)系,神經(jīng)元不依賴(lài)其他特定的神經(jīng)元而存在,增強(qiáng)模型的泛化性。GoogleNet繼承了AlexNet的優(yōu)點(diǎn),提出了一種Inception結(jié)構(gòu),從上一層分出4塊,每塊使用不同大小的卷積核卷積后匯合在下一層,通過(guò)不同大小卷積核感受視野進(jìn)行不同尺度特征的融合,提高模型的特征提取能力。ResNet繼承了AlexNet的優(yōu)點(diǎn),引入了一種殘差單元,將前面一層的輸出直接連到后面的第2層,解決了網(wǎng)絡(luò)太深,誤差傳到前面時(shí)梯度逐漸消失的問(wèn)題。
深度卷積網(wǎng)絡(luò)已廣泛運(yùn)用于植物領(lǐng)域[14],解決植物分類(lèi)識(shí)別的難點(diǎn)[15-17]。遷移學(xué)習(xí)解決了小樣本訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)的問(wèn)題[18-19]。張建華等[20]基于VGG卷積神經(jīng)網(wǎng)絡(luò),更改分類(lèi)器,優(yōu)化全連接層,實(shí)現(xiàn)棉花病害的識(shí)別。鄭一力等[21]在小樣本的植物葉片數(shù)據(jù)庫(kù)情況下,使用遷移學(xué)習(xí)的方法有效地提高了植物葉片識(shí)別準(zhǔn)確率。遷移學(xué)習(xí)可提高識(shí)別準(zhǔn)確率,同時(shí)避免大量數(shù)據(jù)標(biāo)記工作和訓(xùn)練時(shí)長(zhǎng)[22-30]。單個(gè)棉花、重疊棉花、部分遮擋棉花和棉田中的偏白非棉花物質(zhì)這4類(lèi)圖像在灰度分布和形狀上比較相似,如果通過(guò)傳統(tǒng)的特征提取方法提取一些普通特征,如統(tǒng)計(jì)矩、傅里葉描繪子、紋理特征等,再將特征用支持向量機(jī)(support vector machine,SVM)等分類(lèi)器進(jìn)行分類(lèi)效果并不理想,因?yàn)槿藶樵O(shè)定的特征只適用于部分特定場(chǎng)景,在復(fù)雜棉田環(huán)境中效果不穩(wěn)定。卷積神經(jīng)網(wǎng)絡(luò)通過(guò)自主學(xué)習(xí)提取深層次的特征,并克服復(fù)雜環(huán)境的影響,在圖像識(shí)別中準(zhǔn)確性和穩(wěn)定性較高,因此選擇訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行不同形態(tài)棉花的識(shí)別,探討AlexNet、GoogleNet、ResNet-50遷移模型對(duì)不同形態(tài)棉花的識(shí)別準(zhǔn)確率,研究遷移模型特征提取與分類(lèi)器相結(jié)合的方法進(jìn)一步提高識(shí)別準(zhǔn)確率。
卷積神經(jīng)網(wǎng)絡(luò)是一種前反饋神經(jīng)網(wǎng)絡(luò),它的神經(jīng)元可響應(yīng)一部分覆蓋范圍內(nèi)的周?chē)鷨卧?。在圖像處理方面,卷積神經(jīng)網(wǎng)絡(luò)不是對(duì)單個(gè)像素的處理,而是對(duì)每一塊像素區(qū)域進(jìn)行處理,增強(qiáng)模型的泛化性。依次在ILSVRC(Large Scale Visual Recognition Challenge)大賽中得冠的AlexNet、GoogLeNet、ResNet-50模型的基本架構(gòu)相同,其架構(gòu)如圖1所示。
圖1 卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)Fig.1 Convolutional neural network structure
其中卷積層具有提取圖像局部特征的功能。組成卷積核的每個(gè)元素都對(duì)應(yīng)一個(gè)權(quán)重系數(shù)和一個(gè)偏差量。上一層特征經(jīng)過(guò)卷積操作后,再通過(guò)激活函數(shù)便可得到新一層的特征。每層卷積與激活過(guò)程如公式(1)所示:
(1)
式中:f代表激活函數(shù);D代表輸入圖像維度;F代表卷積核的大?。粀d,m,n代表卷積核第d層第m行第n列的權(quán)重;yd,i,j代表輸出特征圖第d層第i行第j列數(shù)值;Wb代表偏置項(xiàng)。
這3個(gè)模型都是使用ReLU作為激活函數(shù),其作用是確保網(wǎng)絡(luò)的非線(xiàn)性。ReLU函數(shù)還具有計(jì)算收斂快、不容易產(chǎn)生梯度消失、計(jì)算簡(jiǎn)單等優(yōu)點(diǎn)。ReLU函數(shù)為分段線(xiàn)性函數(shù),如公式(2)所示。
(2)
卷積層與池化層不一定是一一對(duì)應(yīng)的關(guān)系,可以在多次卷積操作后疊加一個(gè)池化層。池化操作使模型更具泛化能力,模型關(guān)注特征本身而不是特征的具體位置。池化操作后,主要特征保留,次要特征包括干擾特征被去除,實(shí)現(xiàn)特征降維以減少計(jì)算量和參數(shù)個(gè)數(shù),同時(shí)有利于防止過(guò)擬合。
卷積層、池化層和激活函數(shù)層等操作將原始數(shù)據(jù)映射到隱層特征空間,全連接層則將隱層特征空間映射到樣本標(biāo)記空間。全連接層的每一個(gè)結(jié)點(diǎn)都與上一層的所有結(jié)點(diǎn)相連,用于把前一層提取到的特征綜合起來(lái),將特征輸入分類(lèi)器中進(jìn)行分類(lèi)。
損失函數(shù)用來(lái)評(píng)價(jià)模型的預(yù)測(cè)值和真實(shí)值的偏離程度。卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練目標(biāo)是通過(guò)梯度下降優(yōu)化使得損失函數(shù)達(dá)到最小。損失函數(shù)為交叉熵函數(shù),其收斂較快,函數(shù)定義為:
(3)
遷移學(xué)習(xí)就是把已有訓(xùn)練好的模型更改相關(guān)層后,用于新任務(wù)的訓(xùn)練。建立并訓(xùn)練一個(gè)新的模型需要大量的訓(xùn)練數(shù)據(jù)和花費(fèi)大量的時(shí)間,訓(xùn)練好的模型對(duì)類(lèi)似的數(shù)據(jù)具有抽象的特征提取能力。使用遷移學(xué)習(xí)方法,可以避免大量數(shù)據(jù)標(biāo)記工作和訓(xùn)練時(shí)長(zhǎng)。
ILSVRC是計(jì)算機(jī)視覺(jué)領(lǐng)域最具有代表性的學(xué)術(shù)競(jìng)賽之一,競(jìng)賽使用的官方數(shù)據(jù)集有1 400萬(wàn)幅圖像,其中包含1 000個(gè)類(lèi)別標(biāo)簽。依次得冠的AlexNet、GoogleNet、ResNet-50模型已具有較強(qiáng)的特征提取功能,通過(guò)修改模型的分類(lèi)層,使用棉花數(shù)據(jù)集對(duì)模型的參數(shù)進(jìn)行微調(diào)優(yōu)化,解決棉花的分類(lèi)識(shí)別問(wèn)題。
ELM是由Huang等[31]提出來(lái)的求解單隱層神經(jīng)網(wǎng)絡(luò)的算法,由輸入層、隱含層、輸出層組成,層與層之間全連接,如圖2所示。輸入層通過(guò)映射矩陣w(l×n矩陣,輸入層n個(gè)神經(jīng)元,隱含層l個(gè)神經(jīng)元,wij為輸入層第i個(gè)神經(jīng)元與隱含層第j個(gè)神經(jīng)元的連接權(quán)值)與隱含層連接;隱含層通過(guò)映射矩陣β(l×m矩陣,輸出層對(duì)應(yīng)m個(gè)神經(jīng)元,βjk為隱含層第j個(gè)神經(jīng)元與輸出層第k個(gè)神經(jīng)元與的連接權(quán)值)與輸出層連接。ELM只需要設(shè)置網(wǎng)絡(luò)的隱層節(jié)點(diǎn)個(gè)數(shù),在算法執(zhí)行過(guò)程中隨機(jī)賦值網(wǎng)絡(luò)的連接權(quán)值以及隱元的偏置,并且產(chǎn)生唯一的最優(yōu)解,具有學(xué)習(xí)速度快且泛化性能好的優(yōu)點(diǎn)。隱含層與輸出層的映射矩陣可以通過(guò)求解如下方程式可得:
圖2 ELM算法拓?fù)浣Y(jié)構(gòu)Fig.2 Topological structure of ELM algorithm
(4)
式中,H表示隱含層點(diǎn)輸出,T′為期望輸出。其解為
(5)
式中H+為隱含層輸出矩陣H的Moore-Penrose廣義逆。
實(shí)驗(yàn)數(shù)據(jù)集由單個(gè)棉花圖片(single cotton)、重疊棉花圖片(overlapped cottons)、遮擋圖片(blocked cottons)和偏白非棉花圖片(misrecognition cotton)組成,共1 240張。如圖3所示。隨機(jī)將數(shù)據(jù)集的70%用于訓(xùn)練模型,30%用于驗(yàn)證。數(shù)據(jù)集中的圖片尺寸大小不一致,需要將圖片通過(guò)插值預(yù)處理為各模型輸入的標(biāo)準(zhǔn)要求,并使用旋轉(zhuǎn)、平移、仿射變換等操作來(lái)防止模型訓(xùn)練過(guò)程出現(xiàn)過(guò)擬合現(xiàn)象。
圖3 棉花數(shù)據(jù)集示例Fig.3 Example of cotton dataset
實(shí)驗(yàn)中使用的電腦為戴爾G33579、8 G內(nèi)存、NVIDIA GeForce GTX 1050型顯卡、win10操作系統(tǒng),算法的實(shí)現(xiàn)使用matlab2019。
為了說(shuō)明遷移模型適合小樣本棉花識(shí)別,搭建基于棉花數(shù)據(jù)集的CNN模型,其由卷積層、歸一化層、Relu激活層、MaxPooling層、Dropout層、全連接層和輸出層組成。由于單個(gè)、重疊和遮擋棉花在形狀和色差上極其相似,大的卷積核和大的步長(zhǎng)不利于提取區(qū)分特征,實(shí)驗(yàn)中設(shè)置的卷積核為3,步長(zhǎng)為1。由于數(shù)據(jù)集小,Dropout層的概率不宜過(guò)小;概率太大又會(huì)導(dǎo)致重要特征丟失,實(shí)驗(yàn)設(shè)置為0.5。MaxPooling層的池化區(qū)大小為2,步長(zhǎng)也為2。通過(guò)實(shí)驗(yàn)得出卷積層為7時(shí)取得最好效果。每次卷積操作后做歸一化處理并通過(guò)Relu激活函數(shù)做非線(xiàn)性處理后進(jìn)行最大值池化,最后一層的MaxPooling層連接一個(gè)Dropout層后與全連接層相連,最終通過(guò)Softmax函數(shù)得到識(shí)別的結(jié)果,如圖4所示。
圖4 用于棉花數(shù)據(jù)集識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 The structure of convolutional neural network for cotton data set classification
根據(jù)電腦的內(nèi)存和CNN模型的大小,設(shè)置最大運(yùn)行的epoch數(shù)為200,每個(gè)Mini-Batch大小為60。學(xué)習(xí)率太大,模型不容易收斂;學(xué)習(xí)率太小,模型收斂速度小,初始的學(xué)習(xí)率為0.01,每經(jīng)過(guò)70個(gè)epoch時(shí)學(xué)習(xí)速率下降一半。前期較大的學(xué)習(xí)率加快學(xué)習(xí)速度,后期較小的學(xué)習(xí)率加快參數(shù)的收斂。
依次將基于ImageNet數(shù)據(jù)集訓(xùn)練好AlexNet、GoogleNet、ResNet-50模型調(diào)整模型結(jié)構(gòu),將全連接層由分類(lèi)數(shù)為ImageNet數(shù)據(jù)集的1 000類(lèi)修改為本文棉花數(shù)據(jù)集的4類(lèi)。將學(xué)習(xí)率WeightLearnRateFactor設(shè)置為10,BiasLearn-RateFactor設(shè)置為10,加快修改后的分類(lèi)層參數(shù)的學(xué)習(xí)速度。3個(gè)模型已具有提取有效特征的能力,遷移模型訓(xùn)練前期學(xué)習(xí)速率相對(duì)較大,全連接層和分類(lèi)層的參數(shù)快速收斂,其后的學(xué)習(xí)速率快速下降,微調(diào)模型的參數(shù),實(shí)現(xiàn)最佳的分類(lèi)效果。3個(gè)遷移模型訓(xùn)練時(shí)初始學(xué)習(xí)速率設(shè)置為0.001,學(xué)習(xí)速率每經(jīng)過(guò)25個(gè)epoch下降為原速率的30%,學(xué)習(xí)速率太大,模型結(jié)果產(chǎn)生波動(dòng)無(wú)法收斂,學(xué)習(xí)率太小模型收斂太慢。
GoogleNet中前10個(gè)層和ResNet-50中前4個(gè)層構(gòu)成了模型的初始“主干”部分,由于棉花數(shù)據(jù)集小,模型參數(shù)較多,為了防止模型較淺的層過(guò)擬合數(shù)據(jù)集,將GoogleNet中前10個(gè)層和ResNet-50中前4個(gè)層的學(xué)習(xí)率設(shè)置為0以“凍結(jié)”這些層的權(quán)重。由于這些層的參數(shù)在訓(xùn)練時(shí)保持不變,可以顯著縮短訓(xùn)練時(shí)長(zhǎng)。較低的初始學(xué)習(xí)速率保證高層的參數(shù)在訓(xùn)練過(guò)程中基本不變,加快收斂速度。
由于GoogleNet和ResNet-50模型較大,所以每個(gè)MiniBatch大小設(shè)置為40。遷移模型只需修改分類(lèi)層參數(shù)和微調(diào)其他層參數(shù),故最大運(yùn)行的epoch數(shù)設(shè)置為70。將棉花訓(xùn)練數(shù)據(jù)用于訓(xùn)練新的模型結(jié)構(gòu),訓(xùn)練過(guò)程的損失函數(shù)采用SGDM來(lái)優(yōu)化,更新模型中的參數(shù)權(quán)重,得到3個(gè)適用于棉花數(shù)據(jù)集圖像識(shí)別的遷移學(xué)習(xí)模型。
基于遷移學(xué)習(xí)主要是利用已訓(xùn)練好的模型較強(qiáng)的特征提取能力進(jìn)行特征提取并識(shí)別。為了進(jìn)一步提高棉花識(shí)別準(zhǔn)確率,將遷移學(xué)習(xí)模型作為特征提取模型,再選用優(yōu)越的分類(lèi)器進(jìn)行分類(lèi)。將遷移學(xué)習(xí)模型特征提取與分類(lèi)器相結(jié)合的分類(lèi)算法具體流程如圖5所示。
圖5 遷移學(xué)習(xí)模型特征提取與分類(lèi)器相結(jié)合的分類(lèi)算法Fig.5 Transfer learning model feature extraction and classifier combined classification algorithm
為了比較遷移模型和利用遷移模型進(jìn)行特征提取后與分類(lèi)器相結(jié)合2種方法的準(zhǔn)確率,使用同一數(shù)據(jù)集。遷移學(xué)習(xí)模型訓(xùn)練好后,進(jìn)行識(shí)別統(tǒng)計(jì)準(zhǔn)確率,然后用訓(xùn)練好的模型提取訓(xùn)練遷移學(xué)習(xí)模型的訓(xùn)練集合和驗(yàn)證集的特征,即模型中最后一層全連接層的輸出作為特征保存為樣本。AlexNet、GoogleNet和ResNet-50遷移學(xué)習(xí)模型輸出特征維度分別為4 096、1 024、2 048。因此,數(shù)據(jù)集轉(zhuǎn)換為對(duì)應(yīng)于各模型維度不同的特征數(shù)據(jù)集。
隨機(jī)將AlexNet特征數(shù)據(jù)集、GoogleNet特征數(shù)據(jù)集、ResNet-50特征數(shù)據(jù)集中樣本的訓(xùn)練集訓(xùn)練ELM模型,驗(yàn)證集測(cè)試ELM模型。統(tǒng)計(jì)隱含層的神經(jīng)元個(gè)數(shù)從1 000到5 000變化時(shí)ELM的分類(lèi)準(zhǔn)確率。
每個(gè)模型重復(fù)3次,隨機(jī)選其中一次進(jìn)行分析,訓(xùn)練過(guò)程和結(jié)果如圖6所示。圖6-A是搭建的CNN模型的結(jié)果,模型經(jīng)過(guò)1 400次迭代后,訓(xùn)練集的準(zhǔn)確率在100%的下限微小波動(dòng),訓(xùn)練集的損失函數(shù)值接近于0;但是驗(yàn)證集準(zhǔn)確率在89%上下波動(dòng),驗(yàn)證集的損失函數(shù)值在0.5上下波動(dòng);模型出現(xiàn)了過(guò)擬合現(xiàn)象,即模型的泛化能力不強(qiáng),模型只是保存了訓(xùn)練集的特征,當(dāng)驗(yàn)證集中出現(xiàn)和訓(xùn)練集有差異的圖像就容易得到錯(cuò)誤的分類(lèi)識(shí)別結(jié)果,不具備強(qiáng)的提取特征能力。圖6-B是基于AlexNet的遷移學(xué)習(xí)結(jié)果,可以看出模型在迭代600次過(guò)后便平穩(wěn)了,驗(yàn)證集分類(lèi)識(shí)別準(zhǔn)確率維持在92%左右。圖6-C是基于GoogleNet的遷移學(xué)習(xí)結(jié)果,經(jīng)過(guò)700次后驗(yàn)證集的準(zhǔn)確率保持在90%以上波動(dòng)。70次epoch迭代完后驗(yàn)證集的準(zhǔn)確率為92.47%。由于GoogleNet模型的層數(shù)比AlexNet多,其結(jié)果的波動(dòng)也比AlexNet大。圖6-D是ResNet-50的遷移學(xué)習(xí)結(jié)果,由于ResNet-50模型的層數(shù)最多,驗(yàn)證集的準(zhǔn)確率波動(dòng)也最大,最終驗(yàn)證集準(zhǔn)確率高達(dá)94.62%,比基于AlexNet和GoogleNet的遷移學(xué)習(xí)的準(zhǔn)確率大幅度提高。
A,CNN的訓(xùn)練過(guò)程;B,基于AlexNet的遷移學(xué)習(xí)訓(xùn)練過(guò)程;C,基于GoogleNet的遷移學(xué)習(xí)訓(xùn)練過(guò)程;D,基于ResNet-50的遷移學(xué)習(xí)訓(xùn)練過(guò)程。A, Training process of CNN; B, Training process of transfer learning based on AlexNet; C, Training process of transfer learning based on GoogleNet; D, Training process of transfer learning based on ResNet-50.圖6 遷移學(xué)習(xí)訓(xùn)練過(guò)程Fig.6 The transfer learning process
遷移學(xué)習(xí)模型訓(xùn)練集損失函數(shù)值在0的上限值處波動(dòng),驗(yàn)證集損失函數(shù)值在0.4以下波動(dòng)。遷移學(xué)習(xí)不是簡(jiǎn)單繼承原模型的特征提取能力,而是在更改分類(lèi)層和修改相關(guān)參數(shù)后,再通過(guò)棉花數(shù)據(jù)集訓(xùn)練激發(fā)了對(duì)棉花特征敏感的神經(jīng)元,故有較高的準(zhǔn)確率。
圖7 隱含層神經(jīng)元個(gè)數(shù)對(duì)ELM分類(lèi)正確率的影響Fig.7 Influence of the number of hidden layer neurons on ELM classification accuracy
用上述對(duì)應(yīng)的遷移模型提取的特征訓(xùn)練和測(cè)試ELM分類(lèi)器,統(tǒng)計(jì)隱含層的神經(jīng)元個(gè)數(shù)從1 000到5 000變化時(shí)ELM的分類(lèi)準(zhǔn)確率。隱含層神經(jīng)元個(gè)數(shù)與驗(yàn)證集預(yù)測(cè)準(zhǔn)確率之間的關(guān)系如圖7所示。3個(gè)模型的準(zhǔn)確率都是隨著隱含層神經(jīng)元個(gè)數(shù)增加快速增加,然后趨于平穩(wěn)的小幅度鋸齒狀波動(dòng)的過(guò)程。小幅度鋸齒狀波動(dòng)是因?yàn)镋LM模型每次重新訓(xùn)練都需要隨機(jī)初始化參數(shù),導(dǎo)致結(jié)果出現(xiàn)小幅度波動(dòng)。從圖7中可看出,1 800左右個(gè)隱含層神經(jīng)元個(gè)數(shù)是3個(gè)模型的準(zhǔn)確率分界點(diǎn),在分界點(diǎn)以下的準(zhǔn)確率依次為AlexNet、GoogleNet、ResNet-50,在分界點(diǎn)以上更好相反。因?yàn)槟P碗S著層數(shù)增多,其提取的特征越抽象,較多的神經(jīng)元個(gè)數(shù)才能更好地分類(lèi)這些特征。
本文還進(jìn)行遷移學(xué)習(xí)模型提取特征后用SVM分類(lèi)工作。基于CNN、遷移學(xué)習(xí)和通過(guò)各遷移學(xué)習(xí)模型提取特征后用分類(lèi)器的結(jié)果進(jìn)行對(duì)比,如表1所示,對(duì)比內(nèi)容為重復(fù)3次實(shí)驗(yàn)后,驗(yàn)證集的分類(lèi)識(shí)別準(zhǔn)確率的平均值。
由于棉花的樣本較小,搭建的CNN模型出現(xiàn)了過(guò)擬合現(xiàn)象;遷移學(xué)習(xí)可將從通用大數(shù)據(jù)集上學(xué)習(xí)的特征提取遷移到數(shù)據(jù)集相對(duì)較小的領(lǐng)域。從表1中可以看出,使用AlexNet、GoogleNet和ResNet-50遷移學(xué)習(xí)模型比CNN模型識(shí)別的準(zhǔn)確率分別提高了2.38、3.54和4.03百分點(diǎn)。使用特征提取再與ELM結(jié)合的方法,準(zhǔn)確率比對(duì)應(yīng)遷移模型分別提高了1.97、1.34、1.55百分點(diǎn),準(zhǔn)確率提高的原因在于棉花樣本較小,且四類(lèi)樣本在灰度分布和形狀上比較相似,使用遷移模型進(jìn)行特征提取相當(dāng)于進(jìn)行濾波,排除干擾信息,再使用ELM便可進(jìn)一步提高準(zhǔn)確率。GoogleNet在繼承了AlexNet優(yōu)點(diǎn)基礎(chǔ)上使用了一種Inception結(jié)構(gòu),通過(guò)不同大小卷積核感受視野進(jìn)行不同尺度特征的融合,其提取的特征信燥比更高,其遷移模型比AlexNet提高了1.16百分點(diǎn),而其特征提取與ELM結(jié)合的方法準(zhǔn)確率提高在對(duì)應(yīng)3個(gè)模型中最低。ResNet在繼承AlexNet優(yōu)點(diǎn)基礎(chǔ)上引入了一種殘差單元,其網(wǎng)絡(luò)更深,可提取更深層次的有效特征,故其準(zhǔn)確率在對(duì)應(yīng)3個(gè)遷移模型中最高,其特征提取與ELM結(jié)合在對(duì)應(yīng)的3個(gè)模型中也是最高的。然而用遷移學(xué)習(xí)提取特征,再使用SVM進(jìn)行分類(lèi)卻略降低了分類(lèi)識(shí)別準(zhǔn)確率,因?yàn)镾VM是根據(jù)提取特征的空間分布進(jìn)行分類(lèi),忽略特征中個(gè)別分量的權(quán)重。
表1 各算法的分類(lèi)結(jié)果對(duì)比
為了實(shí)現(xiàn)4類(lèi)棉花圖像快速準(zhǔn)確分類(lèi)識(shí)別,本文引入遷移學(xué)習(xí)方法。為了驗(yàn)證遷移學(xué)習(xí)方法的優(yōu)異性,與搭建的CNN模型進(jìn)行了對(duì)照試驗(yàn)。在訓(xùn)練中,CNN模型出現(xiàn)了過(guò)擬合,模型的泛化能力不強(qiáng)。遷移學(xué)習(xí)的模型具有較強(qiáng)的特征提取能力,將原模型修改分類(lèi)層、微調(diào)參數(shù)后,即有很高的準(zhǔn)確率。其中基于ResNet-50的遷移模型準(zhǔn)確率高達(dá)到93.68%。
為了進(jìn)一步提高棉花分類(lèi)的準(zhǔn)確率,本文引入了遷移學(xué)習(xí)特征提取與ELM相結(jié)合棉花分類(lèi)識(shí)別方法,將遷移學(xué)習(xí)模型作為特征提取工具,再訓(xùn)練ELM進(jìn)行分類(lèi)。在相同的數(shù)據(jù)集下,準(zhǔn)確率都有了小幅提高。
在小樣本的情況下,遷移學(xué)習(xí)比從零開(kāi)始訓(xùn)練CNN模型更有效,訓(xùn)練時(shí)長(zhǎng)更短?;谶w移學(xué)習(xí)的特征提取與優(yōu)越分類(lèi)器組合比常規(guī)的遷移學(xué)習(xí)性能更優(yōu)越。