李 輝 劉 規(guī) 袁 航 王雨晨
(1.安徽界溝礦業(yè)有限公司界溝煤礦;2.中國礦業(yè)大學(xué)信息與控制工程學(xué)院)
煤礦智能、精準(zhǔn)開采是煤礦發(fā)展的必由之路,人工智能化開采技術(shù)的加入,使得傳統(tǒng)開采方式得以向安全高效的現(xiàn)代化開采方式轉(zhuǎn)變[1]。在礦山的煤矸石分揀、檢測等各個(gè)工作場景中,人工進(jìn)行煤矸石分揀與檢測的方式雖然分類效果較好,但是其勞動(dòng)強(qiáng)度大,伴隨著不好管理以及易發(fā)生安全事故等問題。圖像分類技術(shù)挖掘和利用煤矸石圖像的內(nèi)在特征進(jìn)行分類與檢測,對煤炭的安全、精準(zhǔn)、智能化開采起重大促進(jìn)作用。目前來看,大多數(shù)有關(guān)圖像分類的算法仍然存在準(zhǔn)確率較低,對圖像的特征無法做到精準(zhǔn)提取,除此之外,還會(huì)受到礦井下面本身自然光照不足、粉塵等的影響[2],自然光下的圖像分類算法在對煤矸石的分類與檢測中的應(yīng)用受到制約[3]。提出的基于多尺度與反復(fù)注意力機(jī)制的礦井圖像分類算法提取特征完整性較好,計(jì)算量降低,進(jìn)一步提升了煤矸石分類的準(zhǔn)確率。
Sanghyun Woo 等[4]仔細(xì)觀察了人類的視覺系統(tǒng),通過對其中注意力機(jī)制的摹仿,提出可以利用卷積注意力模塊來完成計(jì)算機(jī)視覺相關(guān)的任務(wù),使其在計(jì)算機(jī)視覺領(lǐng)域發(fā)揮出重要作用。原始卷積注意力模塊一般是由通道注意力模塊及空間注意力模塊組成,這兩部分模塊能夠?qū)μ卣鲌D中的關(guān)鍵部分進(jìn)行強(qiáng)調(diào),對不需要的特征進(jìn)行抑制,大幅增強(qiáng)了特征的表達(dá)能力。
在計(jì)算機(jī)視覺任務(wù)中,卷積注意力模塊能夠大幅度提高對圖像關(guān)鍵部分特征提取的精準(zhǔn)度,同時(shí)對于圖像中無關(guān)的信息,該模塊也可以調(diào)整關(guān)注度將其忽略。模塊結(jié)構(gòu)如圖1所示。
卷積注意力模塊的第一個(gè)部分為通道注意力模塊,通道注意力模塊的目的是判斷特征在這個(gè)通道上是否是有意義。假設(shè)輸入的特征圖尺寸是H×W ×C,首先,輸入的特征圖會(huì)首先經(jīng)過平均池化處理和最大池化處理,從而可以得到2 個(gè)尺寸為1×1×C的特征圖,再將獲得的2個(gè)特征圖分別輸入全連接網(wǎng)絡(luò),再次輸出2個(gè)特征圖,并對其進(jìn)行相加操作。之后,利用Sigmoid 函數(shù)獲得范圍在0 到1 的權(quán)重系數(shù),將得到的權(quán)重系數(shù)與最初輸入的H×W×C 大小特征圖做相乘操作,輸出通道注意力特征圖。詳細(xì)結(jié)構(gòu)如圖2所示。
通常情況下,研究者們常常通過降低信息空間維度的方法,來達(dá)到提高模塊計(jì)算速度的目的。在研究過程中,研究者們發(fā)現(xiàn),最大池化層的使用,可以進(jìn)一步提高對圖像信息提取的準(zhǔn)確率,注意力模塊對重要信息的關(guān)注也更加細(xì)致。Zhou等[5]提出,可以通過在模型中引入最大池化處理的方式,來有效地提高網(wǎng)絡(luò)模型鎖定目標(biāo)區(qū)域的能力;Hu 等[6]注意到,通過使用最大池化層,能夠有效地計(jì)算特征空間維數(shù)。除此之外,經(jīng)過研究學(xué)者們的實(shí)踐操作,已經(jīng)證明,平均池化和最大池化的結(jié)合使用,能夠使得網(wǎng)絡(luò)的特征表現(xiàn)能力得到進(jìn)一步提高。
空間注意力模塊的主要目的是實(shí)現(xiàn)對空間特征的精準(zhǔn)挑選和融合,其對輸入特征的處理過程同通道注意力模塊類似,最終都得到新的特征圖??臻g注意力模塊更注重的是有價(jià)值信息的位置。將通道注意力特征作為模塊的輸入,之后輸出一個(gè)特征描述符,再經(jīng)卷積層輸出空間注意力特征圖,將輸出與輸入的特征圖進(jìn)行乘法加權(quán)操作,得到相應(yīng)的調(diào)整之后的特征圖。該模塊主要結(jié)構(gòu)如圖3所示。
特征提取的有效性和精準(zhǔn)性,直接影響了最后分類任務(wù)完成的效果。當(dāng)前,研究者們在處理分類相關(guān)任務(wù)時(shí),通常都會(huì)選擇使用較小尺寸的卷積核,事實(shí)上,經(jīng)過研究者們大量的實(shí)驗(yàn)證明,由于卷積核本身的特性,小尺寸的卷積核(如3×3)不僅能夠穩(wěn)定地提取圖像特征,還能夠讓整體網(wǎng)絡(luò)保持較小的計(jì)算量。但隨著圖像尺寸的增加,以及為了提高網(wǎng)絡(luò)在分類任務(wù)當(dāng)中的準(zhǔn)確性,不斷加深分類模型網(wǎng)絡(luò)的層數(shù),導(dǎo)致在實(shí)際過程中需要更大的感受野才能完成圖像的分類任務(wù)。在此基礎(chǔ)上,本研究提出了一種利用多尺度來提取特征的方式,由多尺度特征提取與跨尺度特征融合組成,利用不同類型的卷積核來獲得更多的圖像信息。
多尺度特征提取原理如圖4 所示。網(wǎng)絡(luò)根據(jù)不同情況分別采用了3×3,5×5,7×7 尺寸的卷積核,在具體實(shí)驗(yàn)中,我們?yōu)榱吮WC圖像特征提取的效果,在選擇濾波器時(shí),需要將卷積核的大小考慮進(jìn)去。在網(wǎng)絡(luò)前端提取特征時(shí),3×3,5× 5,7×7 卷積核對應(yīng)的濾波器數(shù)量分別為64,128,256,將3個(gè)尺度的融合網(wǎng)絡(luò)設(shè)計(jì)成并行網(wǎng)絡(luò),并且在每一層網(wǎng)絡(luò)都加入了 BN 層和 ReLU 層。在圖 3 中,紅、綠、藍(lán) 3 種顏色的區(qū)域分別代表從小到大3 種不同尺寸的卷積核濾波器。棕色和淺色部分分別代表圖像輸入和邊界填充。不同卷積核所在圖像區(qū)域的感受野大小也不盡相同,所以盡管是位于同一個(gè)像素點(diǎn),使用不同尺寸的卷積核對圖像特征進(jìn)行提取,得到的結(jié)果也不太一樣,這樣就可以保證在使用網(wǎng)絡(luò)模型對圖像進(jìn)行分類之前,可以從輸入的圖像中學(xué)到更完整更有效的特征。特征提取出來之后,先在模型前端對特征進(jìn)行訓(xùn)練學(xué)習(xí),在模型后端對每個(gè)網(wǎng)絡(luò)學(xué)習(xí)到的特征進(jìn)行串聯(lián)操作,模型最終輸出288個(gè)尺寸一樣的特征映射圖。由于在特征拼接的時(shí)候采用了多尺度拼接的方法,因此整體網(wǎng)絡(luò)模型能夠快速穩(wěn)定地進(jìn)行收斂,從而實(shí)現(xiàn)對圖像分類的精度地有效提升。
本研究設(shè)計(jì)的網(wǎng)絡(luò)模型如圖5 所示,簡單來說,整體分為特征提取和圖像分類2 個(gè)部分。前一部分利用多尺度進(jìn)行特征提取,除此之外,還對ResNet 網(wǎng)絡(luò)做進(jìn)一步改進(jìn),將注意力模塊加入其中,可以實(shí)現(xiàn)對圖像特征的進(jìn)一步提取。這種方法不僅沒有增加網(wǎng)絡(luò)模型的計(jì)算量,還對網(wǎng)絡(luò)分類任務(wù)的精準(zhǔn)度有了一定的提高。在ResNet 網(wǎng)絡(luò)原來輸出的特征圖之后,加入通道和空間注意力模塊,分別強(qiáng)調(diào)該特征的類型以及該特征位置。經(jīng)過后續(xù)實(shí)驗(yàn)結(jié)果表明,本研究設(shè)計(jì)的模型雖然額外加入了其他模塊,但并未導(dǎo)致模型訓(xùn)練的計(jì)算量大幅增加,并且獲得的分類效果相比于原始模塊也有了一定的提升。
完整的分類模型如圖6所示。其中,反復(fù)注意力模塊的輸入為經(jīng)過ResNet 下采樣模塊處理之后得到的特征矩陣。由多尺度、反復(fù)注意力機(jī)制以及ResNet 特征提取作為特征提取器,引入跳躍連接,在減少整體計(jì)算量的同時(shí)保證所提取煤矸石特征信息的完整性。同時(shí),在網(wǎng)絡(luò)進(jìn)行特征提取之后利用通道注意力機(jī)制濾除掉輸入的特征矩陣多余的特征冗余信息,與此同時(shí),利用空間注意力機(jī)制對輸入特征矩陣的背景特征信息進(jìn)行過濾,進(jìn)一步提高煤矸石分類的準(zhǔn)確率。
本試驗(yàn)條件為NVIDIA GTX 1080Ti的顯卡,操作系統(tǒng)為Linux,編程語言選擇python,框架為pytorch,采用的數(shù)據(jù)集為經(jīng)典的CIFAR-10 分類數(shù)據(jù)集,以及實(shí)際采集的礦井?dāng)?shù)據(jù)集圖片,以驗(yàn)證算法的具體性能。
在設(shè)置算法模型的學(xué)習(xí)率以及batch size 的大小時(shí)采用3 組參數(shù)進(jìn)行對比,3 組實(shí)驗(yàn)的參數(shù)設(shè)置分別為①訓(xùn)練樣本的batch size 設(shè)為8,改變學(xué)習(xí)率變化步長和衰減程度,每20 個(gè)迭代次數(shù),學(xué)習(xí)率乘以0.4;②訓(xùn)練樣本的batch size 設(shè)為8,每25 輪迭代訓(xùn)練后對學(xué)習(xí)率乘以0.2;③訓(xùn)練樣本的batch size 設(shè)為8,每30輪迭代訓(xùn)練后對學(xué)習(xí)率乘以0.1。3 組不同參數(shù)下,網(wǎng)絡(luò)收斂最終的分類準(zhǔn)確率見表1。
由表1 實(shí)驗(yàn)結(jié)果可知,實(shí)驗(yàn)3 的參數(shù)條件下的分類準(zhǔn)確率最高,因此采用實(shí)驗(yàn)3的參數(shù)設(shè)置進(jìn)行與其他經(jīng)典算法的對比,比較結(jié)果見表2。
根據(jù)表2 可知,與其他經(jīng)典方法相比,基于多尺度與反復(fù)注意力機(jī)制的圖像分類模型均獲得了較高的分類準(zhǔn)確率,在通用數(shù)據(jù)集CIFAR-10 中達(dá)到了93.17%的準(zhǔn)確率,在實(shí)際采集的礦井?dāng)?shù)據(jù)集中達(dá)到了93.40%的分類準(zhǔn)確率,再次證明了基于多尺度與反復(fù)注意力機(jī)制的圖像分類模型的有效性。
針對在礦山的煤矸石分揀、檢測等各個(gè)工作場景中提出了一種多尺度與反復(fù)注意力圖像分類模型,對實(shí)際礦井圖像中的煤矸石進(jìn)行分類檢測,該模型在確保特征完好的基礎(chǔ)上,不僅降低了計(jì)算量,同時(shí)讓網(wǎng)絡(luò)模型更好地表達(dá)輸入圖像的特征信息。對于經(jīng)過下采樣之后的特征矩陣,不僅使用通道注意力模塊對輸入的特征進(jìn)行提取篩選,同時(shí)使用空間注意力機(jī)制來降低無關(guān)背景信息對重要特征信息的干擾。由最終的實(shí)驗(yàn)結(jié)果可以看出,本算法相較于
?
?
參 考 文 獻(xiàn)以往的經(jīng)典模型,在性能方面有了明顯的進(jìn)步。
[1] 蔣銳.老煤礦智能化建設(shè)關(guān)鍵技術(shù)及實(shí)施探索[J].工礦自動(dòng)化,2021,47(S1):16-18.
[2] 程德強(qiáng),陳亮亮,蔡迎春,等.邊緣融合的多字典超分辨圖像重建算法[J].煤炭學(xué)報(bào),2018,43(7):2084-2090.
[3] 唐守鋒,史可,仝光明,等.一種礦井低照度圖像增強(qiáng)算法[J].工礦自動(dòng)化,2021,47(10):32-36.
[4] WOO S,PARK J,LEE J Y,et al.CBAM:Convolutional Block Attention Module[J].Springer,Cham,2018,7(17):42-51.
[5] ZHOU B,KHOSLA A,LAPEDRIZA A,et al. Learning deep features for discriminative localization[J]. In: Computer Vision and Pattern Recognition(CVPR),2016,12(1):2921-2929.
[6] JIE H,LI S,GANG S,et al. Squeeze-and-Excitation Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,42(8):2011-2023.