基于并行殘差卷積神經(jīng)網(wǎng)絡(luò)的多種樹葉分類

2020-06-19 07:50:33魏書偉曾上游周悅王新嬌

現(xiàn)代電子技術(shù) 2020年9期

魏書偉曾上游周悅王新嬌

摘? 要：樹葉分類識別對于鑒定新的或者稀缺樹種至關(guān)重要，采用卷積神經(jīng)網(wǎng)絡(luò)算法可以實現(xiàn)對樹葉圖像特征的自動提取，減少繁瑣的人工成本，實現(xiàn)使用人工智能的方法來分類樹葉。實驗采用一種并行殘差卷積神經(jīng)網(wǎng)絡(luò)和一種加入殘差學習的傳統(tǒng)Alexnet網(wǎng)絡(luò)在制作的30種分類樹葉的數(shù)據(jù)集上測試效果并作對比。以上兩種方式分別比傳統(tǒng)Alexnet網(wǎng)絡(luò)提高了15.36%和9.36%，而且使網(wǎng)絡(luò)更輕量化，最高準確率為90.67%，為樹種識別研究提供了有效的分類方法。

關(guān)鍵詞：樹葉分類; 卷積神經(jīng)網(wǎng)絡(luò); 殘差學習; 圖像特征提取; 批量歸一化; 測試效果對比

中圖分類號： TN711?34; TP391.4? ? ? ? ? ? ? ? ? 文獻標識碼： A? ? ? ? ? ? ? ? ? ? ?文章編號： 1004?373X（2020）09?0096?05

Multiple types of leaves′ classification based on parallel

residual convolution neural network

WEI Shuwei， ZENG Shangyou， ZHOU Yue， WANG Xinjiao

（College of Electronic Engineering， Guangxi Normal University， Guilin 541004， China）

Abstract： The leaf classification and identification are of great importance for identifying new or scarce tree species. The convolution neural network algorithm can be used to automatically extract leaf image features， reduce fussy labor costs and classify leaves with the artificial intelligence method. In the experiment， a parallel residual convolution neural network and a traditional Alexnet network with residual learning are used to test the 30 kinds of classified leaves in the produced data set， and the testing effects of the two networks are contrasted. The accuracy obtained with the above two methods are respectively 15.36% and 9.36% higher than that obtained with the traditional Alexnet network， and the highest accuracy reaches 90.67%， which makes the network lightweight. Therefore， it provides an effective classification method for the research on tree species identification.

Keywords： leaf classification; convolutional neural network; residual learning; image feature extraction; batch normalization; testing effect contrast

0? 引? 言

世界上沒有完全相同的兩片樹葉，但是同一種樹木的樹葉會存在很多相似特征。現(xiàn)階段對各種樹木分門別類地建立數(shù)據(jù)庫，使用人工智能的方法對其進行分類和識別，這對稀有樹種的管理有著重要的保護意義。

目前的樹葉識別與分類主要由人工完成，但樹葉的種類成千上萬種，面對如此龐大的樹葉世界，植物學家也很難區(qū)分所有樹葉的種類，這給進一步研究樹葉帶來了困難。為了解決這一問題，一些模式識別方法，諸如支持向量機（Support Vector Ma?chine，SVM）[1]、K最近鄰（K?Nearest Neighbor，KNN）[2]等被引入，然而，隨著大數(shù)據(jù)時代的到來，這些傳統(tǒng)的分類算法暴露出越來越多的不足，比如難以提取特征和訓練時間過長等。

20世紀60年代開始，學者們相繼提出了各種人工神經(jīng)網(wǎng)絡(luò)[3]模型，其中，卷積神經(jīng)網(wǎng)絡(luò)通過數(shù)據(jù)集訓練可以使網(wǎng)絡(luò)自己學習圖像中的紋理特征[4]，采用卷積神經(jīng)網(wǎng)絡(luò)算法省去了人工定義樹葉紋理特征的步驟[5]，以及神經(jīng)網(wǎng)絡(luò)對于非線性問題處理能力強的優(yōu)點[6]，綜上所述，本文選擇卷積神經(jīng)網(wǎng)絡(luò)算法對樹葉圖像進行分類識別[7]。

1? 卷積神經(jīng)網(wǎng)絡(luò)概述

1.1? 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)目前被廣泛應(yīng)用于圖像領(lǐng)域[8?9]，原因是其對幾何、形變、光照具有一定程度的不變性，其主要特點有：輸入圖像不需要預處理;特征提取和識別可以同時進行;權(quán)值共享，大大減少了需要訓練的參數(shù)數(shù)目，使訓練變得更快，適應(yīng)性更強。

1.2? 卷積神經(jīng)網(wǎng)絡(luò)的一般結(jié)構(gòu)

傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)主要結(jié)構(gòu)有卷積層、池化層及全連接層。

1.2.1? 卷積層

卷積層是由多個特征圖組成，每一個特征圖是由多個神經(jīng)元組成，而每一個神經(jīng)元通過卷積核與上一層的特征圖進行卷積運算得出。卷積核為一個權(quán)值矩陣，涵蓋網(wǎng)絡(luò)需要學習的內(nèi)容，它包括權(quán)值和偏置。此處的卷積運算不同于信號處理中一維的卷積運算，而是二維平面上兩個二維數(shù)據(jù)對應(yīng)位置上的數(shù)據(jù)相乘后的總和而成。其計算公式為：

[xlm=fxl-1n*klnm+b]? ? ? ?（1）

式中：[f（? ）]代表激活函數(shù);[xlm]表示下層輸出;[xl-1n]表示上層的輸出;[k]代表該層卷積核的權(quán)值;[b]代表該層卷積核的偏置。

在卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)中，卷積的層次越深，網(wǎng)絡(luò)的學習能力就越強，特征圖得到的信息就越全。但是，隨著網(wǎng)絡(luò)層次結(jié)構(gòu)的加深，網(wǎng)絡(luò)的計算量將會隨之增加，也就導致網(wǎng)絡(luò)變得更復雜，這樣很容易會出現(xiàn)過擬合的現(xiàn)象。在一般的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中，提取的特征都是逐級遞進的，由簡單的顏色、邊緣特征逐漸變?yōu)閺碗s的紋理特征，最后的網(wǎng)絡(luò)結(jié)構(gòu)將提取關(guān)鍵特征，以便精確地辨別特征圖的屬性。

1.2.2? 池化層

池化層也被稱為采樣層，指的是對每張?zhí)卣鲌D進行下采樣，池化層一般跟在卷積層之后，也是由多個特征圖組成，池化層在網(wǎng)絡(luò)結(jié)構(gòu)中有對特征圖進行下采樣的同時對特征圖進行尺度縮小的作用。在搭建網(wǎng)絡(luò)過程中，之所以會使用池化層是因為在網(wǎng)絡(luò)結(jié)構(gòu)中如果一直采用卷積操作，會使得整體網(wǎng)絡(luò)中的計算量過大而延長計算時間。

池化的方法有多種，通常用到的池化操作有：最大池化（max?pooling），即選取圖像區(qū)域的最大值作為該區(qū)域池化后的值;平均池化（mean?pooling），即計算圖像區(qū)域的平均值作為該區(qū)域池化后的值。簡單池化過程如圖1所示。

1.2.3? 全連接層

在卷積神經(jīng)網(wǎng)絡(luò)中經(jīng)過多次卷積層和池化層后，緊接著會跟一個或多個全連接層，其作用是將提取的特征圖轉(zhuǎn)化為一維特征向量，轉(zhuǎn)化的一維特征向量即為學習到的圖片的空間分布向量，將其作為分類器的輸入，通過分類器進行分類。

[Sj=fxi*wji+bj]? （2）

2? 基于并行殘差卷積神經(jīng)網(wǎng)絡(luò)模型

2.1? 殘差學習和批量歸一化

殘差網(wǎng)絡(luò)結(jié)構(gòu)的提出主要是為了解決在原始的卷積神經(jīng)網(wǎng)絡(luò)隨著深度的增加而伴隨的網(wǎng)絡(luò)難以訓練的問題。其原理是在卷積層結(jié)構(gòu)的外部使用一個短接（shourtcut）操作，構(gòu)成一個基本的殘差模塊，通過逐級累加殘差模塊可以成功緩解網(wǎng)絡(luò)隨深度而增加的退化問題，從而提升整體網(wǎng)絡(luò)的性能。

傳統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)（Tra?net）如圖2a）所示，輸入圖像后先經(jīng)過卷積層（conv）再經(jīng)過激活函數(shù)（relu），經(jīng)過局部響應(yīng)歸一化處理（LRN），最后經(jīng)過池化層（pool）后輸出，作為下一層卷積的輸入;殘差網(wǎng)絡(luò)（Res?net）的結(jié)構(gòu)如圖2b）所示，與傳統(tǒng)網(wǎng)絡(luò)不同的是，在輸入（input）和池化（pool）之間增加了一個殘差模塊，而且在卷積層后均接入一層BN（Batch Normalization）[10]層，即批量歸一化層，加入BN層的主要優(yōu)點如下：

1）網(wǎng)絡(luò)在選擇較大學習率時可以減緩梯度彌散[11]的現(xiàn)象，加快網(wǎng)絡(luò)的收斂速度;

2）在一定程度上有防止過擬合的作用，網(wǎng)絡(luò)可以減少對Dropout[12]參數(shù)的需求;

3）很完美地取代局部響應(yīng)歸一化層;

4）可以徹底打亂訓練數(shù)據(jù)。

BN層的計算公式可由式（3）給出：

[μB←1mo=1mxoσ2B←1mo=1m（xo-μB）2xo←xo-μBσ2B+εyo←γxo+β] （3）

式中：[o=1mxo]表示卷積層的輸出，即所學歸一化的數(shù)據(jù);[μB]和[σ2B]分別表示均值和方差;[yo]是歸一化之后的輸出。

2.2? 分組瓶頸結(jié)構(gòu)

傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)是通過不同的卷積層和池化層級交替堆疊而成的通道，通過對卷積核大小及不同池化的設(shè)計來實現(xiàn)所需要的效果。而在一系列的操作過程中，一條通道、一種網(wǎng)絡(luò)對特征圖進行卷積，可能提取的圖像特征不夠充分。本文提出結(jié)合三條不同網(wǎng)絡(luò)對相同的特征圖進行卷積操作，最后再通過級聯(lián)操作使三條網(wǎng)絡(luò)的輸出結(jié)果結(jié)合在一起。本文的具體操作是將特征圖并行分為三條支路，采取分組瓶頸結(jié)構(gòu)，先通過[1×1]的卷積核降維，再通過一條[3×3]或[5×5]的卷積核進行傳統(tǒng)的卷積操作，最后通過一條[1×1]的卷積核來升維。

模塊間的參數(shù)可以用式（4）表示：

[P=I*K*O] （4）

式中：[I]和[O]分別表示輸入輸出特征圖的個數(shù);[K]表示卷積核的面積大小。

一般來說，1×1卷積核的作用可以歸納為三點：

1）可以有效地減少網(wǎng)絡(luò)參數(shù)，如輸入輸出特征圖數(shù)量均為256，使用3×3卷積核參數(shù)[P=]256×3×3×256，使用1×1卷積核參數(shù)[P=]256×1×1×256，參數(shù)減少到原來的[19]。

2）可以起到降維或升維的作用，這在三層卷積的瓶頸結(jié)構(gòu)中有所體現(xiàn)，瓶頸結(jié)構(gòu)如圖3所示，第一個1×1卷積用來降維，第三個1×1卷積用來升維。

3）可以將各分組通道信息進行融合，這在MobileNet和Xception中取得了很好的效果。

MyNet中block模塊網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示?？梢院芮宄乜闯觯罕疚乃捎玫牟⑿袣埐罹矸e網(wǎng)絡(luò)（MyNet）將各個支路網(wǎng)絡(luò)，即含有殘差模塊的卷積神經(jīng)網(wǎng)絡(luò)，通過級聯(lián)（concat）操作將三個不同大小卷積核提取的特征整合在一起，然后整體輸出。

2.3? 模型設(shè)置

并行殘差網(wǎng)絡(luò)的基本網(wǎng)絡(luò)架構(gòu)參數(shù)設(shè)置如表1所示。

網(wǎng)絡(luò)采用模塊化設(shè)計，通過堆疊Block模塊以及在模塊中間穿插多個池化層而形成，池化層的操作經(jīng)過多次試驗發(fā)現(xiàn)，采用Max?Max?Max?Ave（Max指最大值池化，Ave指平均池化）架構(gòu)效果較好，網(wǎng)絡(luò)架構(gòu)清晰明了，易于擴展和推廣。整體流程圖如圖5所示。

如圖5所示，輸入訓練數(shù)據(jù)集的圖像，先經(jīng)過預處理，將圖片隨機修剪成統(tǒng)一大小規(guī)模后，再輸送給卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)層，經(jīng)過前向傳播，計算網(wǎng)絡(luò)損失熵的大小，再通過隨機梯度下降不斷更新參數(shù)，反向傳播，使得損失熵不斷減小，尋找到最優(yōu)參數(shù)，把測試集圖片輸入給當前正在訓練的網(wǎng)絡(luò)，測試當前網(wǎng)絡(luò)的準確率，當?shù)皆O(shè)定好的次數(shù)或者準確率達到一定要求后停止訓練，保存訓練好的模型參數(shù)，生成一個訓練好的網(wǎng)絡(luò)。

3? 實? 驗

3.1? 圖像數(shù)據(jù)采集和預處理

卷積神經(jīng)網(wǎng)絡(luò)需要大量樣本進行訓練。實驗采集了30種樹葉，包含國內(nèi)10種樹葉和國外20種樹葉，每種樹葉采集20張，共計600張圖像。使用佳能550D相機拍攝，以1[∶]3 的比例分為測試樣本與訓練樣本后，將文件名分類標注。由于單反相機拍攝照片尺寸較大，為了確保計算速度和計算機可承受數(shù)據(jù)量，使用OpenCV調(diào)整圖像尺寸，統(tǒng)一縮小為256×256像素，部分樣本如圖6所示。

將原始圖片數(shù)據(jù)通過cropcize分別對左上角、左下角、右上角、右下角、中心位置進行隨機剪裁為227×227大小圖片，再進行鏡像反轉(zhuǎn)操作，使得原數(shù)據(jù)集通過數(shù)據(jù)增強的方法擴增了10倍，將數(shù)據(jù)集變成6 000張圖片。

3.2? 實驗設(shè)置

實驗主要對比Alexnet網(wǎng)絡(luò)即傳統(tǒng)卷積網(wǎng)絡(luò)（Tra?net）、采用殘差結(jié)構(gòu)的傳統(tǒng)網(wǎng)絡(luò)（Res?net）以及本文改進后的并行殘差卷積網(wǎng)絡(luò)（MyNet），在制作的30種樹葉分類的數(shù)據(jù)集上進行分類準確度測試。為了使本實驗結(jié)果更具有說服力，三種網(wǎng)絡(luò)的整體結(jié)構(gòu)的層次深度保持一致。

實驗環(huán)境：整個實驗過程中所有網(wǎng)絡(luò)結(jié)構(gòu)都是基于caffe框架[13]布置的。本實驗所用的計算機配置為i7?6700K四核CPU、Ubuntu 14.04操作系統(tǒng)、32 GB內(nèi)存以及NVIDIA?GTX 1070的GPU。

參數(shù)設(shè)置：在卷積神經(jīng)網(wǎng)絡(luò)中，學習率大小的選取對網(wǎng)絡(luò)訓練至關(guān)重要，學習率較大，網(wǎng)絡(luò)雖然收斂較快，但有可能跨過了全局最小點;但是學習率較小的情況下，網(wǎng)絡(luò)訓練速度比較慢，從而需要較長時間才能達到收斂。下面列出本實驗中所設(shè)定的學習率參數(shù)以及變化值，此時設(shè)置的參數(shù)值有較好的效果：學習率初始大小設(shè)置為0.001，學習率變化方式為step，[γ]為0.1，momentum為0.9，weight_decay為0.000 5，stepsize設(shè)置為100，最大迭代次數(shù)為1 000。

3.3? 實驗結(jié)果及分析

表2表示傳統(tǒng)網(wǎng)絡(luò)Tra?net、殘差網(wǎng)絡(luò)Res?net以及改進后網(wǎng)絡(luò)的MyNet在數(shù)據(jù)集上的分類精度、實驗所花時間以及實驗保存的Caffemodel大小。圖7給出了各模型在數(shù)據(jù)集上的準確率曲線。

從圖7中可以看出，在計算機僅迭代約400次后，網(wǎng)絡(luò)性能就趨于穩(wěn)定，改進后的網(wǎng)絡(luò)MyNet和殘差網(wǎng)絡(luò)Res?net在數(shù)據(jù)集中都有較好的分類精度;傳統(tǒng)網(wǎng)絡(luò)Tra?net整體的參數(shù)較多，準確率不高，但是訓練的時間相對較少;加了殘差結(jié)構(gòu)的Res?net整體參數(shù)與傳統(tǒng)網(wǎng)絡(luò)Tra?net的參數(shù)大致相同，引入殘差學習后增加了整個網(wǎng)絡(luò)的計算量，導致訓練所耗時間稍微加長，精度與傳統(tǒng)Alexnet相比有所提高。而改進后的并行殘差網(wǎng)絡(luò)，由于結(jié)合三條支路的特征，所得出的分類精度比其他兩種網(wǎng)絡(luò)任意一種都要高，而且網(wǎng)絡(luò)最后采用全局均值池化替代全連接層，使得整個網(wǎng)絡(luò)的參數(shù)大大減少，更輕量化，但由于網(wǎng)絡(luò)的加寬使整個實驗的訓練耗時有所加長。隨著計算機硬件的提升，網(wǎng)絡(luò)改進導致訓練時間加長的問題，很輕易得以解決，所以在準確率提高一定的前提下，訓練時間的改變對整個網(wǎng)絡(luò)增益沒有很大的影響。

綜合三種網(wǎng)絡(luò)的對比實驗可知：

1）本文加入的Block模塊能有效地提升網(wǎng)絡(luò)性能。

2）采用并行多支路多卷積核的特征提取對整體識別率有很大貢獻。

3） 1×1卷積層的降維操作可以有效控制網(wǎng)絡(luò)參數(shù)。

4? 結(jié)? 語

本文提出了一種結(jié)合瓶頸結(jié)構(gòu)網(wǎng)絡(luò)和并行殘差結(jié)構(gòu)網(wǎng)絡(luò)的新型網(wǎng)絡(luò)結(jié)構(gòu)，將這個新網(wǎng)絡(luò)與傳統(tǒng)網(wǎng)絡(luò)和加入殘差的傳統(tǒng)網(wǎng)絡(luò)進行對比討論，并在數(shù)據(jù)集上進行實驗驗證。理論上，并行殘差網(wǎng)絡(luò)加寬了整體網(wǎng)絡(luò)結(jié)構(gòu)的寬度，提高了網(wǎng)絡(luò)的復雜度，效果會更好。實驗結(jié)果也表明，并行殘差網(wǎng)絡(luò)比兩條傳統(tǒng)網(wǎng)絡(luò)中的任何一條網(wǎng)絡(luò)的精確效果都好，后面的工作是在本文模塊的基礎(chǔ)上繼續(xù)改進，進一步測試本文模塊在其他領(lǐng)域中的表現(xiàn)，例如，目標檢測、圖像分割等，并在更大規(guī)模的數(shù)據(jù)集上進行測試和優(yōu)化來比較網(wǎng)絡(luò)的性能優(yōu)劣，進一步提升網(wǎng)絡(luò)性能，減少模型大小。

參考文獻

[1] CAMPBELL W M， CAMPBELL J P， REYNOLDS D A， et al. Support vector machines for speaker and language recognition [J]. Computer speech & language， 2006， 20（2/3）： 210?229.

[2] ZHANG N， LIU W P. Plant leaf recognition method based on clonal selection algorithm and K nearest neighbor [J]. Journal of computer applications， 2013， 33（7）： 2009?2013.

[3] SZEGEDY C， LIU W， JIA Y， et al. Going deeper with convolutions [C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston， MA， USA： IEEE， 2015： 1?9.

[4] HE K， ZHANG X， REN S， et al. Deep residual learning for image recognition [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas， NV， USA： IEEE， 2016： 770?778.

[5] HUANG G， LIU Z， MAATEN L V D. Densely connected convolutional networks [EB/OL]. [2017?09?28]. https：//blog.csdn.net/lyy354500/article/details/78122165？locationNum=6&fps=1.

[6] LU Fang， WU Fa， HU Peijun， et al. Automatic 3D liver location and segmentation via convolutional neural network and graph cut [J]. International journal of computer assisted radiology and surgery， 2017， 12（2）： 171?182.

[7] HINTON G E， SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks [J]. Science， 2006， 313： 504?507.

[8] GAO L G， CHEN P Y， YU S M. Demonstration of convolution kernel operation on resistive cross?point array [J]. IEEE electron device letters， 2016， 37（7）： 870?873.

[9] ZEILER M D， FERGUS R. Stochastic pooling for regularization of deep convolutional neural networks [EB/OL]. [2016?02?29]. http：//www.doc88.com/p?7753169296976.html.

[10] IOFFE S， SZEGEDY C. Batch normalization： accelerating deep network training by reducing internal covariate shift [EB/OL]. [2019?03?26]. https：//blog.csdn.net/TeFuirnever/article/details/88802880.

[11] HOCHREITER S. The vanishing gradient problem during learning recurrent neural nets and problem solutions [EB/OL]. [1998?04?05]. https：//dl.acm.org/doi/10.1142/S0218488598000094.

[12] SRIVASTAVA N， HINTON G， KRIZHEVSKY A. Dropout： a simple way to prevent neural networks from overfitting [J]. Journal of machine learning research， 2014， 15（16）： 1929?1958.

[13] JIA Y， SHELHAMER E， DONAHUE J， et al. Caffe： convolutional architecture for fast feature embedding [C]// ACM International Conference on Multimedia. Orlando， FL， USA： ACM， 2014： 675?678.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于并行殘差卷積神經(jīng)網(wǎng)絡(luò)的多種樹葉分類