李曉振 徐巖 吳作宏 高照 劉林
摘要:基于注意力機制的卷積神經(jīng)網(wǎng)絡構建了番茄葉部病害識別系統(tǒng)。依據(jù)注意力機制構建并行注意力模塊以提升特征提取能力,并與殘差結構相結合構建PARNet模型。以分別患有早疫病、晚疫病、葉霉病、斑枯病和花葉病毒病這5類病害的葉片和健康葉片的葉部圖像為研究對象,將PARNet模型與VGG16、ResNet50、SeNet等模型相對比,結果顯示PARNet模型的識別率為96.91%,高出其他模型2.25%~11.58%。各類預測結果的精確率平均為96.84%。最后使用Flask完成WEB應用程序的開發(fā),實現(xiàn)了跨平臺的番茄葉部病害識別。
關鍵詞:番茄;葉部病害;注意力機制;并行池化;WEB界面
中圖分類號:TP391文獻標識碼:A文章編號:1000-4440(2020)03-0561-08
Recognition system of tomato leaf disease based on attentional neural network
LI Xiao-zhen,XU Yan,WU Zuo-hong,GAO Zhao,LIU Lin
(School of Electronic Information Engineering, Shandong University of Science & Technology, Qingdao 266590, China)
Abstract:The convolutional neural network based on attention mechanism was proposed to construct tomato leaf disease recognition system. According to the attention mechanism, a parallel attention module was constructed to improve the feature extraction ability, and combined with the residual structure to construct a PARNet model. The images of healthy leaves and leaves suffering from early blight, late blight, leaf mold, leaf blight and mosaic virus were used as research objects. Compared with other models such as VGG16, ResNet50 and SeNet the recognition rate of the PARNet model was increased by 2.25%-11.58%. The accuracy rate of various prediction results was 96.84% on average. Flask was used to complete the development of WEB application program, and the cross-platform tomato leaf disease recognition was realized.
Key words:tomato;leaf disease;attention mechanism;parallel pooling;WEB interface
江蘇農(nóng)業(yè)學報2020年第36卷第3期
李曉振等:基于注意力神經(jīng)網(wǎng)絡的番茄葉部病害識別系統(tǒng)
番茄果實營養(yǎng)豐富,含有豐富的胡蘿卜素、維生素(主要為維生素C和B族維生素)、番茄紅素和礦物質(zhì)。除直接食用外,番茄還被廣泛用來加工成番茄醬、番茄汁等。然而在番茄的種植過程中,各種病害嚴重制約著番茄的生產(chǎn)[1],常見的有晚疫病、早疫病、葉霉病、花葉病毒病和斑枯病等。
近年來,機器學習技術發(fā)展迅速,人們開始嘗試機器視覺技術在作物病害識別中的各種應用。傳統(tǒng)機器視覺算法需要根據(jù)目標任務和先驗知識選擇合適的特征,這些特征通常包括圖像的顏色、形狀、紋理等,用來提取這些特征的特征提取器需要人為構建,較為繁瑣和困難,而且由此設計出的特征提取器還缺乏泛化能力[2-4]。而卷積神經(jīng)網(wǎng)絡方法可以根據(jù)數(shù)據(jù)及其類別自行調(diào)整權值參數(shù)以構建合適的特征提取器,相對高效便捷,構建的特征提取器還具備更優(yōu)異的泛化能力,可以有效克服傳統(tǒng)方法的缺陷。LeNet[5]的出現(xiàn)奠定了現(xiàn)代卷積神經(jīng)網(wǎng)絡的基礎。而AlexNet的優(yōu)異性能引發(fā)了深度學習的研究熱潮,各種卷積神經(jīng)網(wǎng)絡模型不斷提出,如VGG模型、GoogleNet模型和ResNet模型等[6-8]。
注意力機制在自然語言處理[9]領域進展迅速,但在圖像分類領域注意力機制仍處于探索階段。Fu等[10]將VGG模型與注意力機制相結合應用到圖像分類任務中。Hu等將注意力機制與捷徑連接相結合構建殘差注意力模型SeNet[11],但該模型僅采用了單一池化操作,故僅能根據(jù)紋理特征區(qū)分特征圖重要度,而且注意力是作用于輸出特征圖與輸入特征圖的殘差上,不利于區(qū)分特征通道的重要度。
為實現(xiàn)對番茄健康葉片以及早疫病、晚疫病、葉霉病、斑枯病或花葉病毒病葉片的分類識別,本研究設計一種并行注意力模塊并與捷徑連接相結合構建PARNet模型,再采用Flask開發(fā)WEB界面,實現(xiàn)多平臺下番茄葉部病害識別。
1數(shù)據(jù)與方法
1.1數(shù)據(jù)簡介
番茄葉部病害圖像主要來自Plant Village Dataset [12]數(shù)據(jù)集和互聯(lián)網(wǎng)。在去除異常圖像后,番茄健康葉片和患有早疫病、晚疫病、葉霉病、斑枯病和花葉病毒病的葉片圖像數(shù)量分別為395、397、397、389、342、364張,共2 284張圖像。
番茄葉部圖像經(jīng)裁剪、旋轉(zhuǎn)等方式處理后,數(shù)量擴增到9 136張,按照7∶2∶1的比例隨機劃分訓練集、驗證集和測試集。各類番茄葉部病害圖像如圖1所示。
1.2并行注意力模塊的構建
圖像信息經(jīng)過卷積和池化操作得到的特征圖通常缺乏對各個通道重要性的區(qū)分,但實際上這些特征圖中各個通道的重要程度是不一致的,因此引入權值來表明各個特征通道的重要性,以提升和目標相關的信息的表達,抑制其余無用信息的表達。
構建并行池化的注意力卷積模塊(Parallel pooled attention convolution module,PPA)(圖2)。PPA模塊包括由2種全局池化層、1個多層感知器、1個激活函數(shù)和1個捷徑連接組成的注意力模塊。
采用捷徑連接后,設PPA模塊的輸入為x,其卷積輸出為F(x),最終輸出為結果為H(x)=F(x)+x。根據(jù)反向傳播的鏈式法則可以得到:
梯度分為2個部分:不通過權重層傳遞的εxL和通過權重層傳遞的εxL(xl∑L-1i=1F)。其中εxL保證了梯度信號能夠直接傳回到任意淺層xL,避免了梯度消失帶來的退化問題。
若在殘差結構后執(zhí)行注意力機制,則先從輸入中提取特征,再判斷特征的重要性,且引入的激活函數(shù)會作用于不通過權重層傳遞的εxL,干擾捷徑連接通路的反向傳播,導致梯度不斷被縮小進而發(fā)生退化問題。
PPA模塊先根據(jù)注意力機制劃分輸入信息的重要度再提取特征,不但更符合視覺注意力機制的邏輯,還有利于減少參數(shù)量(卷積層輸出的特征圖數(shù)量比輸入的更多)。其次,PPA模塊同時采用2種池化結構,可分別提升注意力模塊對特征圖的背景特征和目標(病害)特征的識別,進而更好地區(qū)分特征圖的重要度。相較于將2種池化操作的輸出通過同一個MLP后再求和(每個神經(jīng)元要先后根據(jù)2種特征值調(diào)整,容易顧此失彼且易傾向針對于后輸入的特征值進行調(diào)整),PPA模塊先在通道維度上拼接2組池化值再經(jīng)過MLP得到通道重要度,可以有效提升MLP的訓練效果。最后,簡單堆疊注意力模塊,會在(0,1)范圍內(nèi)對特征值進行重復加權,造成特征值的消減,而捷徑連接將注意力模塊的輸入作為輸出的初始值,可避免此問題。而且捷徑連接可使注意力模塊學習為恒等映射,使得網(wǎng)絡在訓練過程中,可自行“開關”注意力模塊,保障注意力模塊不會造成網(wǎng)絡精度的降低。
1.3模塊整體構建
圖3中下采樣殘差卷積模塊(Downsampling residual convolution module,Down RCM,未采用注意力機制)用來將淺層特征組合為高層特征并降低特征圖大小。
采用PyTorch深度學習框架構建PPA和RCM模塊并完成網(wǎng)絡模型PARNet的搭建(圖4),該模型由1個輸入層、1個7×7大小卷積層、4個RCM層、13個PPA層、1個全連接層和1個輸出層組合而成。
模型在讀取圖像數(shù)據(jù)后,會將圖像大小調(diào)整為224×224像素,然后進行50%概率的翻轉(zhuǎn),最后經(jīng)歸一化后輸入到卷積層進行特征提取。采用Stochastic gradient descent (SGD)訓練網(wǎng)絡參數(shù)并引入Momentum項抑制SGD的震蕩。在普通的SGD中,參數(shù)的迭代更新公式為:
而引入Momentum項后,參數(shù)的迭代更新公式為:
式中,α(學習率)和β為自行設置的超參數(shù),β值決定上次的更新值對本次更新影響。引入Momentum項后,網(wǎng)絡參數(shù)的每次更新都會考慮上次的更新值,加強梯度方向與上次梯度方向相同的參數(shù)更新,削減當前梯度方向與上一次梯度方向不同的參數(shù)更新。進而增加穩(wěn)定性和提升學習速度,并且能在一定程度上擺脫局部最優(yōu)解[13]。
1.4遷移學習
遷移學習可以從以前的任務之中學習知識或經(jīng)驗并將其應用于新的任務之中[14-16]。深度學習是一個數(shù)據(jù)驅(qū)動的學科[17],普通的機器學習工作者通常難以獲得足夠多的數(shù)據(jù)和強大的算力,很難從零開始訓練出足夠優(yōu)秀的CNN網(wǎng)絡,但已經(jīng)完成訓練的模型通常能夠遷移到其他不同的數(shù)據(jù)集上使用[18]。因為盡管各個數(shù)據(jù)集里的圖像不盡相同,但其基本特征大多是常見的,因此可以使用近似的提取方式。
因此,殘差結構的參數(shù)使用ResNet50的預訓練參數(shù)初始化,注意力模塊參數(shù)采用隨機初始化,對比試驗的模型使用預訓練參數(shù)初始化。以上預訓練參數(shù)由深度學習框架Pytorch提供。
1.5試驗超參數(shù)設置
根據(jù)GPU的顯存大小,在每次迭代中,分多個批次進行訓練,每個批次使用32張圖像(即Batch size為32)。訓練的Epoch設為60(訓練數(shù)據(jù)從頭到尾過一遍為1個Epoch)。初始學習率為0.01,采用指數(shù)衰減進行調(diào)整,第30個Epoch時學習率衰減到0.001,第60個Epoch時學習率衰減到0.000 1。引入權重衰減,使得權重能夠衰減到更小的值,減輕模型的過擬合問題,權重衰減的參數(shù)值為1×10-4。Momentum項的參數(shù)為0.9。
2結果與分析
2.1試驗過程
試驗在具有Tesla P4 GPU的深度學習服務器上進行,其Linux系統(tǒng)的版本為4.19.104,Python的版本為3.6.9,Pytorch的版本為1.5.0。完成數(shù)據(jù)劃分和模型搭建后,通過使用同一套訓練代碼調(diào)用不同模型完成相應訓練,以控制變量。模型PARNet使用Pytorch搭建實現(xiàn),對比網(wǎng)絡模型由深度學習框架Pytorch提供。使用訓練集和驗證集訓練和驗證網(wǎng)絡模型,每個Epoch中,首先使用訓練集訓練模型的權值,然后使用驗證集測試模型的識別率(此時不進行反向傳播,即不改變模型的權值),最后保存模型的權值,并開始下一個Epoch訓練,直至完成60個Epoch訓練。完成訓練后,根據(jù)訓練過程中模型在驗證集上的表現(xiàn),選出最優(yōu)權值(識別率最高的權值),并保存為模型文件。測試時,加載保存的模型文件,經(jīng)前向傳播后,給出識別結果。
2.2PARNet模型的識別率
統(tǒng)計訓練得到的各個模型在驗證集上的識別率(表1),計算方法為:識別率=預測正確的樣本數(shù)/總樣本數(shù)。由表1可知,相比于其他模型,PARNet模型的識別率提高了2.25%~11.58%,達到了96.91%,這主要得益于PPA模塊。PARNet模型中PPA模塊能在訓練中自學習特征圖的注意力信息,抑制與病害無關的特征圖的表達,加強與病害相關的特征圖的表達,而RCM模塊負責將低層特征圖組合為高層特征圖,通過兩者的組合提升病害相關信息在高層的表達,抑制背景等信息的表達,進而提升模型識別效果。而將注意力模塊置于卷積之前,為先通過注意力機制對特征進行約束增強再提取特征,更符合視覺注意力機制,還能有效控制參數(shù)量的增加。
使用Python中的THOP(PyTorch-OpCounter)庫計算參數(shù)量。除VGG16的參數(shù)量為138.36 M外,其余模型的參數(shù)量均在25 M至29 M之間,這主要得益于對1×1卷積的使用。而PARNet的注意力模塊通過并行的池化操作壓縮輸入特征圖,減少了注意力模塊的參數(shù)量,以實現(xiàn)在提高識別率的同時,盡可能減少增加的參數(shù)量。最終其參數(shù)量比ResNet50高出1.26 M,為26.82 M,低于其余模型。
2.3PARNet模型的預測結果
為進一步觀察各模型在測試集(預測集)上的表現(xiàn),通過混淆矩陣(表2)展示識別效果前三的ResNet50、SeNet 和PARNet模型在各類病害識別上的表現(xiàn)?;煜仃囀菣C器學習中總結分類模型預測結果的情形分析表,以矩陣形式將真實的類別(每一行為一類真實類別)與分類模型預測的類別(每一列為一類預測類別)進行匯總。
由表2中的混淆矩陣可以得知ResNet50模型對番茄花葉病毒病的識別效果最好,對早疫病的識別效果最差,兩者的識別效果相差7個百分點左右,每類病害的預測結果中包含的錯誤類別較多,共16類識別錯誤。相比于ResNet50模型,SeNet模型識別效果得到一定提升,且每類病害預測出的錯誤類別有所減少。而PARNet模型的識別效果最好,各類病害的識別效果均優(yōu)于Resnet50模型和SeNet模型,且每類病害預測出的錯誤類別進一步減少,只有11類識別錯誤。
以混淆矩陣中的數(shù)據(jù)為基礎,計算精確率(表3)以進一步分析識別效果。精確率針對的是預測結果,表示預測結果中被正確預測的比率。精確率計算公式為:精確率=(A類預測為A類)/(A類預測為A類+非A類預測為A類)。PARNet模型在5類病害上的精確率比ResNet50模型和SeNet模型高出0.09~6.74個百分點,這得益于依據(jù)注意力思想和殘差思想構建的PPA模塊。網(wǎng)絡模型對病害的識別,依賴于對病害特征的提取,病害特征對分類決策的貢獻越大,越能取得更好的識別效果。而借助注意力思想,PPA模塊可通過對特征圖的約束增強,給予病害區(qū)域更多的注意力。即減少對非重要區(qū)域的學習,增強對病害區(qū)域的學習,進而提高病害特征對分類決策的貢獻,提升識別效果。
網(wǎng)絡提取出的一些病害特征是不同病害共有的,病害之間相似特征越多,越容易出現(xiàn)識別錯誤。更重要的是,病害是一個動態(tài)的發(fā)展過程,圖像中病害的嚴重度不一致,若圖像中病害輕微,則不利于提取病害特征,容易導致網(wǎng)絡給出錯誤的識別結果。
PARNet模型對早疫病的識別精確率最低,為93.07%;對晚疫病的識別精確率為95.96%,對葉霉病和斑枯病的識別精確率在97.00%左右;對花葉病毒病的識別精確率最高,為99.00%。PARNet模型預測結果的精確率平均為96.84%,精確率的最大差值為5.94%,故PARNet模型可為番茄葉部病害的識別提供參考。
2.4PARNet模型的穩(wěn)定性
圖5和圖6展示了ResNet50、SeNet和PARNet模型在60輪迭代中驗證集上的損失函數(shù)值和準確率的變化??梢钥闯鲈谟柧氝^程中損失值和準確率雖然存在一定波動,但總體上趨于穩(wěn)定。PARNet模型的損失值和準確率在訓練過程中無明顯波動, SeNet模型的損失值和準確率存在少數(shù)大幅度波動,ResNet50模型的損失值和準確率存在較多大幅波動。在第7輪迭代之后,PARNet模型的損失值小于ResNet50和SeNet模型,準確率高于ResNet50和SeNet模型。盡管三者在訓練過程中的變化均相對穩(wěn)定,但PPA模塊使PARNet模型在訓練過程中盡可能地減少了對無關的特征學習,提升了病害特征對預測的貢獻度,避免了學習無用特征導致的損失值和準確率的波動,進而取得了更高的穩(wěn)定性和更好的識別效果。綜上所述,PARNet模型可以為番茄早疫病、晚疫病、葉霉病、斑枯病和花葉病毒病的識別提供參考。
2.5番茄葉部病害可視化識別系統(tǒng)設計
將模型代碼中與預測無關的部分(如反向傳播、損失計算等)去除,僅保留必要的前向傳播部分。經(jīng)測試在主頻為2.20 GHz的單核CPU(支持超線程)上,如果每次識別1張圖像,連續(xù)識別100圖像需27.6 s,平均每張圖像0.276 s。而實際應用中CPU通常在4核8線程以上,主頻也高于2.2 GHz,可通過并發(fā)或并行計算等技術降低識別所需時間。如果使用Tesla P4(Compute capability: 6.1)進行識別,同樣每次僅識別1張圖像,連續(xù)識別100圖像僅需7.06 s,平均識別每張圖像僅需0.070 6 s。但是在CPU計算模式下加載模型需3.23 s,而在GPU計算模式下需12.87 s。因此模型的參數(shù)加載和調(diào)用接口必須位于全局部分,即在WEB應用啟動后便完成加載,進行識別時可直接計算,不需要先加載參數(shù)再計算。
Flask是Python環(huán)境下的輕量級 Web 應用框架,本研究采用Flask開發(fā)WEB應用,通過網(wǎng)頁將番茄葉部圖像上傳到識別服務器,服務器完成識別后,通過網(wǎng)頁將識別結果反饋給用戶,因而將識別系統(tǒng)分為用戶端(網(wǎng)頁界面)與服務器端。借助于網(wǎng)頁的便利性,實現(xiàn)在Linux、Windows、Android等系統(tǒng)下的番茄葉部病害識別。其交互過程如圖7所示,圖形界面的效果如圖8至圖11所示。
注冊時,用戶密碼經(jīng)MD5算法計算后和用戶名等信息儲存于數(shù)據(jù)庫。登錄時,將輸入密碼經(jīng)同樣的MD5算法計算后,與數(shù)據(jù)庫中對應密文比對,實現(xiàn)密碼的驗證。
完成登錄后方可進入圖像上傳界面(圖10)。選擇圖像后,服務端先對圖像進行預處理,然后通過模型得到識別結果,根據(jù)識別結果給出病害類別及各類病害的概率(圖11),點擊參考意見,會根據(jù)識別結果,跳轉(zhuǎn)到相應網(wǎng)站。
3結論
本研究基于注意力機制構建了PARNet模型對番茄葉部早疫病、晚疫病、葉霉病、斑枯病、花葉病毒病進行識別,并與VGG16、InceptionV3、ResNet50、SeNet模型進行了初步對比,然后與其中表現(xiàn)較好的ResNet50、SeNet模型進行了深入對比,得出以下結論:1)PARNet模型的并行注意力機制能有效區(qū)分特征圖中的背景信息和目標信息,將更多的網(wǎng)絡資源投入到與目標相關特征圖中,更有效地提取病害相關特征,進而具備較高的分類性能,其平均識別率達到96.91%,與其他模型相比高出2.25~11.58個百分點。2)PARNet模型注意力機制于卷積之前實現(xiàn)即先劃分輸入信息的重要度再進行卷積,能更有效地利用卷積提取目標信息,而且不會干擾捷徑連接通路的反向傳播,可以有效保證前層網(wǎng)絡的訓練效果。3)PARNet模型的預測精確率平均為96.84%,精確率的最大差值為5.94%,能為番茄病害識別提供有效建議。4)訓練過程中未發(fā)生過度抖動,具備較高的穩(wěn)定性。
通過開發(fā)WEB界面,實現(xiàn)通過網(wǎng)頁完成識別并獲取識別結果,在使用GPU(Compute capability: 6.1)的條件下,平均識別每張圖像僅需0.070 6 s,能快速給出預測結果。但是模型對病害的識別較為單一,不能在同一葉片上對多種病害進行識別,還依賴單一背景。不同類別病害圖像間病害嚴重度的分布不一致,對數(shù)據(jù)的均衡存在影響,影響網(wǎng)絡的訓練。故番茄病害圖像數(shù)據(jù)需進一步擴充,在保證數(shù)據(jù)量的同時,保證數(shù)據(jù)的均衡,并進一步實現(xiàn)多病害、多環(huán)境下的識別,提升實用性。
參考文獻:
[1]劉子記,杜公福,牛玉,等.番茄主要病害的發(fā)生與防治技術[J].長江蔬菜,2019(19):59-62.
[2]KEERTHI S S, SHECADE S K. SMO algorithm for least-squares SVM formulations[J]. Neural Computation, 2014, 15(2):487-507.
[3]許偉棟,趙忠蓋. 基于卷積神經(jīng)網(wǎng)絡和支持向量機算法的馬鈴薯表面缺陷檢測[J].江蘇農(nóng)業(yè)學報,2018,34(6):1378-1385.
[4]徐巖,米強,劉斌,等. 基于字典學習的煤與矸石圖像特征識別方法[J].山東科技大學學報(自然科學版),2018,37(3):66-72.
[5]LECUN Y, BENGIO Y, HINTON G. Deep learning [J].Nature, 2015, 521(7553):436-444.
[6]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014, 14(9):1409-1556.
[7]SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]// IEEE.2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston: IEEE, 2015:1-9.
[8]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// IEEE. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston: IEEE, 2016:770-778.
[9]LETARTE G, PARADIS F, GIGUERE P, et al. Import- ance of self-attention for sentiment analysis[C]// ACL. Proceed- ings of the 2018 EMNLP Workshop BlackboxNLP: Ana- lyzing and Interpreting Neural Networks for NLP. Brus- sels: Association for Computational Linguistics. Brussels: ACL,2018: 267-275.
[10]FU J, ZHENG H, MEI T. Look closer to see better: Recurrent attention convolutional neural network for fine- grained image recognition[C]//IEEE. IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu: IEEE, 2017: 4476-4484.
[11]HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// IEEE.The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City: IEEE,2018:7132-7141.
[12]MOHANTY S P, HUGHES D P, SALATHE M. Using deep learning for image-based plant disease detection[J]. Frontiers in Plant Science, 2016, 7:1419.
[13]RUDER S. An overview of gradient descent optimization algorithms[DB/OL]. (2016-09-15)[2017-6-15]. https://arxiv.org/abs/1609.04747.
[14]劉嘉政. 基于深度遷移學習模型的花卉種類識別[J].江蘇農(nóng)業(yè)科學,2019,47(20):231-236.
[15]莊福振. 遷移學習研究進展[J]. 軟件學報, 2015, 26(1):26-39.
[16]LONG J, SHELHAMER E, DARRELL T. Fully Convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 39(4):640-651.
[17]王秀美,牟少敏,鄒宗峰,等. 基于深度學習的小麥蚜蟲預測預警[J].江蘇農(nóng)業(yè)科學,2018,46(5):183-187.
[18]HONG-WEI N, DUNG N, VASSILIOS V, et al. Deep learning for emotion recognition on small datasets using transfer learning[C]// ACM.Proceedings of the 2015 ACM on International Conference on Multimodal Interaction. Seattle: ACM,2015:443-449.
[19]SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]// IEEE.2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston: IEEE,2016:2818-2826.
(責任編輯:張震林)