陳思昂 , 趙海瑞 ,申屠洪釬 ,鄧羽翔 ,楊 杰 ,周 東 ,高 旭 ,袁 凱 ,劉 冰
(1.四川中煙工業(yè)有限責(zé)任公司技術(shù)中心,四川 成都 610000;2.上海創(chuàng)和億電子科技發(fā)展有限公司,上海 200082)
近年來,重點(diǎn)卷煙品牌不斷發(fā)展壯大,產(chǎn)銷量不斷增加,高規(guī)煙占比不斷提高,企業(yè)對于原料的質(zhì)量把控愈發(fā)嚴(yán)格,使得煙葉原料質(zhì)量保障戰(zhàn)略變得尤為重要,而煙葉原料質(zhì)量保障離不開煙葉分選的準(zhǔn)確性。目前,煙葉分選主要依賴于人工,但每個人的評選標(biāo)準(zhǔn)存在偏差,導(dǎo)致煙葉質(zhì)量標(biāo)準(zhǔn)不一,且人工分選效率低下,該方式已無法滿足現(xiàn)階段煙葉分選標(biāo)準(zhǔn)、規(guī)范、高效的客觀要求。隨著深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的飛速發(fā)展,其已廣泛應(yīng)用于農(nóng)作物病蟲害監(jiān)測、農(nóng)作物分類等農(nóng)業(yè)生產(chǎn)活動上,并取得了一定成果[1]。在煙葉分級領(lǐng)域,傳統(tǒng)的分級方法主要有機(jī)器學(xué)習(xí)和模糊數(shù)學(xué),姚學(xué)練等[2]基于主成分分析、遺傳算法和支持向量機(jī)提出了PCA-GA-SVM的煙葉分級方法,煙葉分級的準(zhǔn)確率相較于單一的SVM、GASVM模型有一定提升;戴建民等[3]則基于多特征模糊識別進(jìn)行了煙葉分級。在煙葉分級領(lǐng)域使用相對廣泛的是卷積神經(jīng)網(wǎng)絡(luò),因其具有更強(qiáng)的非線性能力,可以表征圖像更深層次的特征。李勝[4]采用傳統(tǒng)的圖像特征提取技術(shù)獲取到煙葉外觀特征,再運(yùn)用深度卷積神經(jīng)網(wǎng)絡(luò)對其進(jìn)行分類。王士鑫等[5]結(jié)合inceptionV3卷積神經(jīng)網(wǎng)絡(luò)與極值點(diǎn)跳躍算法對煙葉進(jìn)行分級,一定程度上解決了人工煙葉分級造成的合格率低、分級標(biāo)準(zhǔn)不一致的問題。以上研究在煙葉分級中取得了一定成效,但仍舊存在不足。因此,亟需研究一種能夠提高分級準(zhǔn)確率的煙葉自動化分級方法。
本研究采用深度學(xué)習(xí)方法,設(shè)計了一種更適合煙葉分級的細(xì)粒度卷積神經(jīng)網(wǎng)絡(luò)模型,并且采取了合適的數(shù)據(jù)增強(qiáng)方式和訓(xùn)練方式增強(qiáng)了網(wǎng)絡(luò)的識別能力,再通過設(shè)計對比實(shí)驗(yàn),將原始模型與改進(jìn)后模型進(jìn)行對比,驗(yàn)證了本研究提出的算法在煙葉分級任務(wù)上的優(yōu)勢。
本研究采集了四川省會東縣2021年的烤煙煙葉,由煙葉分級專家按照烤煙國家標(biāo)準(zhǔn)GB 2635—1992進(jìn)行等級分選形成烤煙煙葉數(shù)據(jù)集,該數(shù)據(jù)集包含上部橘黃一級煙(B1F)、上部橘黃二級煙(B2F)、上部橘黃三級煙(B3F)、中部橘黃二級煙(C2F)、中部橘黃三級煙(C3F)、中部橘黃四級煙(C4F)、下部橘黃二級煙(X2F)共7個等級5 033片煙葉。每個等級的煙葉圖像數(shù)量分別為724、689、846、745、634、672、723,煙葉圖像分辨率為4 352×1 960。
本實(shí)驗(yàn)使用煙葉綜合測試臺(廠家:上海創(chuàng)和億電子科技發(fā)展有限公司;型號:GTM-600Pro)采集圖像,該設(shè)備主要由一個避光箱體及位于箱體內(nèi)部上方的光源和相機(jī)組成,能夠提供一個穩(wěn)定的拍攝環(huán)境。該綜合測試臺的圖像采集設(shè)備信息如表1所示。
表1 圖像采集設(shè)備信息表
為保證本實(shí)驗(yàn)的準(zhǔn)確性,除綜合測試臺外,還需提供一定標(biāo)準(zhǔn)的實(shí)驗(yàn)配置環(huán)境,如表2所示。
表2 實(shí)驗(yàn)配置環(huán)境表
本研究采用了屬于通道-空間類型的注意力機(jī)制模塊CA(Coordinate Attention)[6],包括坐標(biāo)信息嵌入和坐標(biāo)信息生成兩個步驟,通過上述步驟給予特征圖的通道和空間注意力權(quán)重,以此將網(wǎng)絡(luò)關(guān)注點(diǎn)聚焦于圖像的重要特征,減少冗余信息,提高網(wǎng)絡(luò)的特征提取能力。CA模塊的結(jié)構(gòu)如圖1所示。
圖1 CA模塊結(jié)構(gòu)示意圖
坐標(biāo)信息嵌入階段通過全局池化方法實(shí)現(xiàn),分別沿水平和垂直方向進(jìn)行全局池化,這種轉(zhuǎn)換方式使得注意力機(jī)制模塊能夠捕捉到沿著不同空間方向上的長期依賴關(guān)系,并保存空間方向上的精確位置坐標(biāo),有助于網(wǎng)絡(luò)更準(zhǔn)確地定位感興趣區(qū)域。給定輸入大小為C×H×W的特征圖xc(i,j),在水平和垂直方向分別使用大小為(H,1)和(1,W)的池化核進(jìn)行編碼得到輸出,編碼公式分別如式(1)和式(2)所示。
通過坐標(biāo)信息嵌入變換后進(jìn)行坐標(biāo)信息生成操作,首先將輸出的兩個變換結(jié)果使用concatenate操作進(jìn)行級聯(lián),再進(jìn)行F1變換(使用一個1×1卷積)實(shí)現(xiàn)對數(shù)據(jù)的降維以減少計算開銷,然后對降維后的數(shù)據(jù)使用批歸一化操作BN和激活函數(shù)h-swish進(jìn)行非線性映射,即變換δ,生成的空間信息在水平和豎直方向的中間特征圖f∈RC/r×(H+W),此處的r是數(shù)據(jù)降維的倍率,本實(shí)驗(yàn)取r=32。變換公式如式(3)所示。將中間特征圖f切分為兩個單獨(dú)的張量fh∈RC/r×H和fw∈RC/r×W,再利用兩個1×1卷積Fh和Fw將張量fh和fw的通道維度變換到與輸入特征圖xc(i,j)相同的維度,然后將變換后的張量通過Sigmoid函數(shù)進(jìn)行非線性激活得到gh和gw,變換公式如式(4)和式(5)所示。最后將gh和gw作為注意力權(quán)重與輸入xc(i,j)進(jìn)行Scale操作結(jié)合,即相乘,得到CA模塊完整表達(dá)式如式(6)所示。
將CA模塊嵌入到網(wǎng)絡(luò)ResNext50的殘差模塊中,輸入圖像Xi分別經(jīng)過殘差模塊和CA模塊后,通過Scale操作將CA模塊得到的權(quán)重作用于殘差模塊(Residual)的輸出上,最后與殘差模塊的短連接(shortcut)進(jìn)行相加操作,輸出為Xi+1,殘差結(jié)構(gòu)圖如圖2所示。
圖2 嵌入CA模塊的殘差結(jié)構(gòu)圖
不同等級煙葉圖像之間的差異不僅由全局的顏色、形狀等信息決定,還需要關(guān)注煙葉圖像的紋理信息,而紋理信息在不同尺度具有不同的表現(xiàn)形式[7-8]。因此,需要引入空間空洞金字塔解決這一問題??臻g空洞金字塔的主要組成模塊為空洞卷積,其相較于正常卷積具有擴(kuò)大網(wǎng)絡(luò)感受野的作用,且多個不同擴(kuò)張率的空洞卷積并聯(lián)在一起可以捕獲上一層特征圖的多尺度信息,將其應(yīng)用于模型中可以更好地將低層特征圖中蘊(yùn)含的多尺度信息向高層傳遞[9]。獲取空洞卷積的感受野,首先要計算與空洞卷積等效的標(biāo)準(zhǔn)卷積的核大小,如式(7)所示,而后計算空洞卷積的感受野大小,如式(8)和式(9)所示。
式中,k為空洞卷積核大小,k'表示等效標(biāo)準(zhǔn)卷積核大小,d表示空洞率,RFi+1表示當(dāng)前層的感受野,RFi表示上一層的感受野,Si表示當(dāng)前層之前所有層步長的連乘。
空間空洞金字塔被稱為F E M(F e a t u r e Enhancement Module)[10],由多分支空洞卷積層和分支池化層構(gòu)成,模塊結(jié)構(gòu)如圖3所示。
圖3 FEM結(jié)構(gòu)示意圖
多分支空洞卷積層由具有不同擴(kuò)張率的空洞卷積、批歸一化層和ReLU激活函數(shù)構(gòu)成,在每個分支卷積層后面連接一個分支池化層,用來融合不同分支卷積層的輸出。分支池化層的計算公式如式(10)所示。
式中,yp表示分支池化層的輸出,B表示分支卷積層的分支數(shù)量,當(dāng)前網(wǎng)絡(luò)將其設(shè)置為3,不同層的空洞率分別設(shè)置為3、5、7。
本研究基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò),設(shè)計了一種由ResNext50改進(jìn)的用于煙葉等級判定的方法(BCFEM-CA-ResNext50),該方法的整體網(wǎng)絡(luò)架構(gòu)如圖4所示。改進(jìn)主要包括向傳統(tǒng)殘差模型ResNext50的基礎(chǔ)殘差塊中添加CA注意力機(jī)制模塊[11],并在模型的4倍降采樣處引入FEM模塊以增強(qiáng)后續(xù)特征圖的多尺度信息,最后采用雙分支融合結(jié)構(gòu)(BC)將高層特征圖和低層特征圖進(jìn)行融合,來增強(qiáng)用于分類的特征信息。
圖4 整體網(wǎng)絡(luò)架構(gòu)圖
如圖4所示,將煙葉圖像輸入網(wǎng)絡(luò)前等比例縮放至544×240×3大小,逐級采用包含CA注意力機(jī)制的殘差模塊進(jìn)行特征提取,即在經(jīng)過Conv1和Conv2殘差模塊后,原圖像進(jìn)行了4倍降采樣,此時的特征圖包含大量的紋理信息,因此緊跟一個FEM模塊將紋理信息進(jìn)行增強(qiáng)便于后續(xù)的特征提取。后續(xù)的特征提取模塊Conv3、Conv4、Conv5提取的特征圖依次具有更高的語義信息,但是同時也會丟失原始圖像中較多的細(xì)節(jié)信息,不適用于進(jìn)行直接分類,所以此處將FEM模塊增強(qiáng)后的特征圖與經(jīng)過Conv5后的特征圖分別進(jìn)行全局池化,以實(shí)現(xiàn)特征的降維和非線性整合,輸出兩個全連接層Fc1(1×1×256)和Fc2(1×1×2 048)并進(jìn)行concatenate操作拼接為一個全連接層Fc3(1×1×2 304),再經(jīng)過Fc4,使用softmax函數(shù)作為當(dāng)前模型的分類器對Fc4(1×1×2 048)進(jìn)行分類。上述不同網(wǎng)絡(luò)層特征圖大小如表3所示。
表3 不同網(wǎng)絡(luò)層的輸出特征圖大小
在采集圖像時,由于拍攝環(huán)境的影響給圖片帶來了背景本身的顏色不均勻或背景中存在許多雜質(zhì)等背景噪聲,煙葉原圖如圖5(a)所示,通過圖像二值化操作將其可視化,如圖5(b)所示,而噪聲會影響圖像的細(xì)節(jié)信息,所以必須采取相應(yīng)的背景處理手段來保證圖像的品質(zhì)。根據(jù)如式(11)所示的直方圖雙峰法[12],對圖像進(jìn)行閾值分割,生成去背景的二值化圖像,如圖5(c)所示,將其作為掩膜與原圖像對應(yīng)位置像素值相乘達(dá)到去除原圖背景的目的,如圖5(d)所示,消除背景對模型分類的影響。
圖5 煙葉預(yù)處理過程
式中,R為圖像紅色分量,B為圖像藍(lán)色分量,k為圖像分割的閾值,此處設(shè)置k=0.65。
本實(shí)驗(yàn)使用的數(shù)據(jù)集圖像數(shù)量較少,容易導(dǎo)致模型訓(xùn)練過程產(chǎn)生過擬合的現(xiàn)象,所以采用數(shù)據(jù)擴(kuò)增的方式增加數(shù)據(jù)量??紤]到?jīng)Q定煙葉等級的主要因素為顏色,故作顏色空間的變換會影響模型對數(shù)據(jù)的擬合效果。因此,本實(shí)驗(yàn)選擇作水平和垂直翻轉(zhuǎn)、旋轉(zhuǎn)、平移的幾何變換組合,生成的圖像如圖6所示。
圖6 數(shù)據(jù)擴(kuò)增生成的圖像
本研究使用分類任務(wù)中的常用評價指標(biāo):準(zhǔn)確率(Accuracy)、召回率(Recall)和精確率(Precision)作為煙葉分類數(shù)據(jù)集的評價指標(biāo)。三個指標(biāo)的數(shù)值范圍是在0和1之間,數(shù)值越大,模型分類效果越好。
模型訓(xùn)練之前,首先將數(shù)據(jù)集按照6∶2∶2的比例劃分為訓(xùn)練集、驗(yàn)證集、測試集,對訓(xùn)練集和驗(yàn)證集的圖像進(jìn)行數(shù)據(jù)擴(kuò)增,模型主要學(xué)習(xí)訓(xùn)練集中數(shù)據(jù)的先驗(yàn)知識,配合驗(yàn)證集對模型性能實(shí)時監(jiān)測并進(jìn)行參數(shù)調(diào)優(yōu)。已經(jīng)訓(xùn)練好的模型在不做任何數(shù)據(jù)擴(kuò)增的測試集上進(jìn)行測試以評估模型的泛化能力。
本研究考慮到訓(xùn)練數(shù)據(jù)整體數(shù)量相對較少,所以直接采用遷移學(xué)習(xí)的方法加載在ImageNet分類數(shù)據(jù)集上,將預(yù)訓(xùn)練好的ResNext50預(yù)訓(xùn)練權(quán)重進(jìn)行模型參數(shù)的初始化,自定義部分的網(wǎng)絡(luò)結(jié)構(gòu)采用Kaiming初始化方法。訓(xùn)練時采用模型微調(diào)的訓(xùn)練手段,設(shè)置較小的初始學(xué)習(xí)率為1e-3,優(yōu)化器選擇隨機(jī)梯度下降算法和線性衰減策略進(jìn)行梯度更新,線性衰減策略的公式如式(12)所示。L2正則化參數(shù)設(shè)置為1e-5,全連接層Fc3和Fc4使用神經(jīng)元隨機(jī)失活,設(shè)置隨機(jī)失活率為0.5,設(shè)置批處理大小為32,迭代輪次為200個Epoch,完成訓(xùn)練過程。
式中,lri+1為當(dāng)前輪次學(xué)習(xí)率,lri為上一輪次的學(xué)習(xí)率,t為迭代總輪次,c為當(dāng)前迭代輪次。
對于本研究提出的幾種基于網(wǎng)絡(luò)ResNext50進(jìn)行的改進(jìn)方法,為驗(yàn)證改進(jìn)的有效性,在測試集進(jìn)行測試,實(shí)驗(yàn)結(jié)果如表4所示。
從表4中的測試結(jié)果來看,基礎(chǔ)深度學(xué)習(xí)網(wǎng)絡(luò)ResNext50添加注意力機(jī)制(CA)模塊后,模型預(yù)測的準(zhǔn)確率提高了2.3%,由于煙葉不同等級之間差別細(xì)微,CA模塊降低了網(wǎng)絡(luò)對冗余信息通道和圖像背景的關(guān)注,讓網(wǎng)絡(luò)進(jìn)一步提高了關(guān)注細(xì)節(jié)變化的能力,由此達(dá)到了模型準(zhǔn)確率提升的效果。
烤煙煙葉的紋理特征具有多尺度的特點(diǎn),而分支空洞卷積層在不進(jìn)行降采樣的作用下,既擴(kuò)大了模型的感受野又獲取了多尺度信息,同時加強(qiáng)了網(wǎng)絡(luò)的表征能力。因此,在網(wǎng)絡(luò)中進(jìn)一步加入空間空洞金字塔模塊,從表4中數(shù)據(jù)得知,模型預(yù)測準(zhǔn)確率提升了2.5%,較基準(zhǔn)模型提升了4.8%,該結(jié)果表明空間空洞金字塔模塊可以提高模型對烤煙煙葉的識別能力。在網(wǎng)絡(luò)進(jìn)一步引入雙分支結(jié)構(gòu)后,模型的預(yù)測準(zhǔn)確率提高了4.6%,較基準(zhǔn)模型提升了9.4%,結(jié)果證明,將網(wǎng)絡(luò)包含更多細(xì)節(jié)信息的低層特征圖與具有高級語義信息的高層特征圖同時用于分類,能進(jìn)一步加強(qiáng)模型對圖像的非線性表達(dá)能力,提升模型對數(shù)據(jù)的擬合效果。
表4 實(shí)驗(yàn)結(jié)果
針對烤煙煙葉自動分級效果不理想的問題,本研究提出基于ResNext50殘差網(wǎng)絡(luò)的雙分支網(wǎng)絡(luò),加入空間空洞金字塔模塊和注意力機(jī)制模塊對煙葉進(jìn)行分類,研究結(jié)論如下:
1)注意力機(jī)制模塊可以很好地解決不同等級煙葉的外觀由于存在局部差異而導(dǎo)致的基礎(chǔ)深度學(xué)習(xí)網(wǎng)絡(luò)難以有效提取特征的問題。
2)空間空洞金字塔模塊可以提高深度學(xué)習(xí)網(wǎng)絡(luò)的表征能力,更有利于提取煙葉紋理的多尺度特征。
3)本研究提出的雙分支網(wǎng)絡(luò)豐富了模型用于分類的特征,可以有效識別煙葉等級且具有很強(qiáng)的泛化能力,進(jìn)一步提高了煙葉分級的質(zhì)量。