鞏 晴,尚慶生,郭 泓,韓運龍
(蘭州財經(jīng)大學(xué)信息工程學(xué)院,甘肅蘭州 730020)
芒果是中國東南部重要的經(jīng)濟作物,它原產(chǎn)于熱帶地區(qū),形狀類似雞蛋和腎臟,極其富含維生素.我國作為世界上第二大芒果生產(chǎn)國,在四川、云南和海南建立了芒果種植園,芒果產(chǎn)業(yè)成為了當?shù)氐闹еa(chǎn)業(yè).芒果在銷售時,分級是必不可少的一步,分級銷售可以提高芒果的經(jīng)濟效益.
近年來,隨著機器學(xué)習(xí)、深度學(xué)習(xí)的發(fā)展,利用深度學(xué)習(xí)對水果進行大批量分類和分揀已經(jīng)成為可能,這樣不僅減少了勞動力,而且提高了準確率.圖像分類任務(wù)中最常見的神經(jīng)網(wǎng)絡(luò)模型是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN),其參數(shù)相較其他算法大大減少,縮短了學(xué)習(xí)時間,減少了對數(shù)據(jù)量以及運行內(nèi)存的要求.目前常用的水果分類方法主要有兩種,一種是利用計算機視覺[1-2]、支持向量機(Support Vector Machines,SVM)[3]、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)[4]、BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)[5]等傳統(tǒng)分類方法對水果進行分類,傳統(tǒng)的水果分類方法的重心在對水果圖像的預(yù)處理以及特征提取的階段,其模型泛化能力較差,過程也較為繁瑣,局限性較大.另一種分類方法隨著更多有關(guān)深度學(xué)習(xí)的模型提出后得到廣泛應(yīng)用,如VGGNet[6]、AlexNet[7]、ResNet[8]、SqueezeNet[9]等,這些模型不僅在很大程度上減少了網(wǎng)絡(luò)學(xué)習(xí)的權(quán)值參數(shù),而且在學(xué)習(xí)效率以及模型準確率上得到了很大的提高.Li等[10]為提高蔬菜的自動識別和分類精度,提出改進VGG網(wǎng)絡(luò)模型來訓(xùn)練蔬菜圖像數(shù)據(jù)集,將前兩個全連接層(VGG-M)的輸出特征結(jié)合起來,并在網(wǎng)絡(luò)中加入批量歸一化層.經(jīng)過實驗驗證,在測試數(shù)據(jù)集上對分類識別的正確率高達96.5%.Kumari[11]等人提出SA-CSO用于優(yōu)化混合分類器,以最大限度地提高分類精度,利用混合模糊分類器和CNN對芒果進行分級,實驗結(jié)果表明,該模型的準確率達到91.91%,證明所提出的KNN與SA-CSO-FCNN結(jié)合的模型在芒果分級的準確性方面是優(yōu)秀的.但在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)中,通常通過改變網(wǎng)絡(luò)深度、提取特征的特征層數(shù)及改變輸入圖像的分辨率三者之一來提高網(wǎng)絡(luò)的識別精度,雖采用這些方法可帶來準確率的提升,但同時模型的過擬合及梯度爆炸參數(shù)的計算成本也隨之增加.
因此,針對以上問題,本文采用基于Efficient-Net[12]的多尺度融合算法,作為圖像分類領(lǐng)域中最精確的模型之一,EfficientNet系列模型采用深度、寬度和輸入圖像分辨率的聯(lián)合調(diào)整技術(shù).同時,為了更好地保證圖像的原始特征不受影響,選取Efficient-Net-b3和EfficientNet-b6這兩個高效的基本網(wǎng)絡(luò),在提取出相應(yīng)的特征后,給兩個基本網(wǎng)絡(luò)的特征提取部分嵌入CBAM模塊,隨后將兩個基本網(wǎng)絡(luò)結(jié)構(gòu)的輸出傳入CBAM,作為其輸入特征,最后將兩種輸出特征映射拼接在一起發(fā)送到全連接層,以獲得更準確的分類結(jié)果.將此模型與ResNet50、DenseNet 169等基本模型對比,并進行消融實驗,驗證該模型在處理速度和精度上的優(yōu)越性.
選用的芒果數(shù)據(jù)集為Kesar芒果公開數(shù)據(jù)集,根據(jù)中華人民共和國芒果標準“NY/T3011-2016”[13]將芒果的等級分為三種,如表1所示.實驗期間,每個等級的芒果圖像各200幅,樣本總數(shù)為600幅,每幅圖像的格式為.jpg.將其按4∶1分為訓(xùn)練集與測試集,即480個訓(xùn)練樣本、120個測試樣本來進行深度學(xué)習(xí)模型預(yù)訓(xùn)練.
表1 芒果質(zhì)量等級NY/T 3011-2016Table 1 Mango quality grade NY/T 3011-2016
本文使用的模型基于EfficientNet-b3與EfficientNet-b6的多尺度融合卷積神經(jīng)網(wǎng)絡(luò),并嵌入了CBAM注意力機制模塊的方法來提取目標數(shù)據(jù)集較重要的特征,提高了模型的學(xué)習(xí)效率和泛化能力,最終獲得準確率的提高.
1.2.1 EfficientNet分類模型
在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中,一般采取增加網(wǎng)絡(luò)的深度、改變特征提取的層數(shù)以及提高輸入圖像的分辨率三者其一使模型的準確率、效率得到更好地提升,但網(wǎng)絡(luò)深度加深的同時梯度消失的問題也將出現(xiàn),圖像分辨率的提高也會加大模型的計算量,準確率也隨著分辨率的增加而下降.而Tan等人提出Efficient-Net模型,是針對圖像的深度、寬度及分辨率3個維度進行調(diào)整,使模型的準確率得到提高.本文所采用的EfficientNet網(wǎng)絡(luò)的基線網(wǎng)絡(luò)EfficientNet-b0網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.
圖1 EfficientNet-b0網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 EfficientNet-b0 network architecture
EfficientNet網(wǎng)絡(luò)的深度、寬度和分辨率與其他單一只調(diào)整其中一個的網(wǎng)絡(luò)不同,它會設(shè)置固定的尺度縮放系數(shù)統(tǒng)一進行縮放,從而使得網(wǎng)絡(luò)在三維環(huán)境下的性能更好.其復(fù)合比例系數(shù)的計算公式如(1)所示:
其中:d,w,r三個因子分別是縮放網(wǎng)絡(luò)對深度、寬度和分辨率的縮放系數(shù);α,β,γ三個因子都是由一個很小范圍的網(wǎng)絡(luò)所搜索得到的常量,決定了具體的分配資源情況;φ因子是一個特定的系數(shù),通過這個系數(shù)對網(wǎng)絡(luò)的深度、寬度以及輸入圖像的分辨率進行統(tǒng)一的縮放.
1.2.2 CBAM注意力機制
在圖像分類中加入注意力機制,往往會使網(wǎng)絡(luò)關(guān)注重要的特征,而忽略不太重要的特征.CBAM(Convolutional Block Attention Module)[14]是一種輕量注意力模塊,注重通道信息和空間信息,通道注意機制可以去除冗余的特征信息,空間注意機制可以去除無關(guān)的背景信息.隨著CBAM的加入,網(wǎng)絡(luò)更加關(guān)注細微的特征,檢測和定位局部有用的信息,使得相似物種的分析更加精確.
通道注意模塊傳遞輸入,然后分別通過多層感知機(Multilayer Perceptron,MLP)對MLP輸出的特征執(zhí)行逐元素求和操作,以生成最終的頻道注意特征圖.對其和輸入特征圖進行乘法運算,生成空間注意模塊所需的輸入特征,公式為:
空間注意模塊使用前面提到的注意輸出的特征圖作為這個的輸入特征圖.將該特征和該模塊的輸入相乘,以生成最終生成的特征圖.公式如下:
其中,F(xiàn)為輸入特征,F(xiàn)∈RC*H*W,σ表示激活函數(shù),f7×7代表7×7卷積,AvgPool(F)、MaxPool(F)分別為平均池化特征和最大池化特征.
1.2.3 基于EfficientNet的多尺度融合算法
當訓(xùn)練EfficientNet-b5單模型時,需要將圖像大小調(diào)整到最合適的輸入大小456×456.雖然調(diào)整大小方法可以將原始圖像轉(zhuǎn)化為各種大小的數(shù)據(jù)集,但大小的變化不可避免地會影響圖像的原始特征.為了更好的保證圖像的原始特征不受影響,利用多尺度融合的思想和EfficientNet-b0~Efficient-Net-b7模型最合適的輸入?yún)?shù)對單個模型進行改進,將公式(1)中α、β、γ固定為常數(shù),放大不同φ的基線網(wǎng)絡(luò)EfficientNet-b0,得到EfficientNet-b0~EfficientNet-b7模型,其最合適的輸入?yún)?shù)如下:
這四個系數(shù)分別是寬度系數(shù)、深度系數(shù)、輸入圖像分辨率和Dropout.由于其他三個參數(shù)已經(jīng)反映在模型中,故不需要額外的控制.因此,在選擇融合模型時,只考慮圖像的大小.在芒果數(shù)據(jù)集中,近一半的圖像高度在[280,340],大部分圖像寬度在[493,564].因此選擇EfficientNet-b3和EfficientNet-b6兩種模型進行多尺度融合.可見,b3模型能較好地提取高度維度圖像的特征,b6模型能較好地提取寬度維度圖像的特征.
本文結(jié)合多尺度融合算法和CBAM注意力機制的思想,并融合EfficientNetb0~EfficientNet-b7模型的網(wǎng)絡(luò)特點,提出了一種基于EfficientNet的多尺度融合算法,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,當芒果被輸入到EfficientNet-b3和EfficientNet-b6兩個基礎(chǔ)網(wǎng)絡(luò)提取相關(guān)特征時,它們將分別通過嵌入CBAM的b3和b6特征提取器.在這個過程中,兩個網(wǎng)絡(luò)結(jié)構(gòu)的不同尺度輸出將作為CBAM的輸入特征,將經(jīng)過CBAM的輸出特征進行拼接,從而得出分類結(jié)果.
圖2 基于EfficientNet的多尺度融合網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Multi-scale converged network structure diagram based on EfficientNet
1.2.4 損失函數(shù)
在網(wǎng)絡(luò)訓(xùn)練的過程中,如果不進行標簽平滑計算的損失,僅考慮正確標簽位置的損失,而忽略其他標簽位置的損失,這會使得該模型過分強調(diào)提高正確標簽的概率,從而造成過度擬合.針對這個問題,本文提出了一種基于標簽平滑的交叉熵損失方法,既考慮了訓(xùn)練樣本在正確標簽位置的損失,同時也考慮到其他輕微誤差的標簽位置的損失,使模型在提高正確分類概率的同時也減少了錯誤的分類情況,提高模型的學(xué)習(xí)能力.Cross-Entropy損失函數(shù)可以描述如下:
將實驗工作站作為訓(xùn)練處理平臺,硬件為AMD Ryzen 75800H with Radeon Graphics處理器,主 頻3.20 GHz,16 GB內(nèi) 存,NVIDIA GeForce RTX3060 Laptop顯卡,7 GB的顯存.軟件為Windows 10操作系統(tǒng),PYCHARM平臺,使用其中的深度學(xué)習(xí)工具箱來設(shè)計和實現(xiàn)芒果等級圖像識別.詳細參數(shù)設(shè)置如表2所示.
表2 超參數(shù)設(shè)置Table 2 Hyperparameter settings
為了驗證模型的性能,根據(jù)網(wǎng)絡(luò)模型和芒果數(shù)據(jù)集的特點,采用準確率(Accuracy)和F1值作為評價標準.
其中,TP、TN、N分別為真正例樣本數(shù)、真負例樣本數(shù)和數(shù)據(jù)集樣本總數(shù).
在芒果測試數(shù)據(jù)集下分別將改進的多尺度融合并嵌入CBAM注意力機制的EfficientNet模型與ResNet50、DenseNet 169模型進行實驗,并進行可視化顯示,圖3、圖4為實驗比較的結(jié)果.可見改進的多尺度融合并嵌入CBAM注意力機制的EfficientNet模型相比ResNet50和DenseNet169收斂較快,且準確率分別比ResNet50、DenseNet169提高了6.1%和5.1%,有明顯地提升,驗證了改進模型的有效性.
圖3 網(wǎng)絡(luò)訓(xùn)練準確率對比圖Fig.3 Comparison chart of network training accuracy rate
圖4 網(wǎng)絡(luò)訓(xùn)練損失率對比圖Fig.4 Comparison chart of network training loss rates
同時,為了驗證改進模型的有效性,本文進行消融實驗,在測試集上對比EfficientNet、嵌入CBAM注意力機制的EfficientNet和多尺度融合并嵌入CBAM注意力機制的EfficientNet的結(jié)果,結(jié)果對比見表3.
表3顯示,綜合模型比單個模型更精確.將CBAM的注意力機制引入到多尺度融合中,雖然模型的參數(shù)量有所提高,但是其識別精度提高了5.89%.證明了基于CBAM的多尺度融合Efficient-Net模型用于芒果圖像分級數(shù)據(jù)的可行性和有效性.
表3 消融實驗結(jié)果Table 3 Ablation experimental results
本文研究了針對芒果等級的分類,提出了一種結(jié)合CBAM注意力機制和多尺度融合的Efficient-Net分類模型,并將其應(yīng)用于芒果等級的分類任務(wù)中,準確率約為95.23%.首先,利用EfficientNet-b3和EfficientNet-b6對輸入圖像進行不同尺度的融合;然后將不同尺度融合的輸出作為混合注意機制的輸入,其中通道注意機制能很好地去除冗余特征信息,空間注意機制能很好地去除無關(guān)背景信息;最后,本文還將訓(xùn)練完成后的多尺度融合模型與ResNet50和DenseNet169進行對比,并進行消融實驗,證明改進模型的可行性和有效性.該模型可應(yīng)用于其他分類任務(wù)中,但在應(yīng)用此模型時,需做一些修改:根據(jù)實際數(shù)據(jù)集圖片分辨率的大小,選擇對應(yīng)的模型進行融合;或根據(jù)改進的模型將已有數(shù)據(jù)集圖片的大小利用深度學(xué)習(xí)工具進行裁剪,從而適用此模型.