程德強(qiáng),徐進(jìn)洋,寇旗旗,張皓翔,韓成功,于 彬,錢建生
(1.中國礦業(yè)大學(xué) 信息與控制工程學(xué)院,江蘇 徐州 221116;2.中國礦業(yè)大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 徐州 221116;3.永貴能源開發(fā)有限責(zé)任公司新田煤礦,貴州 畢節(jié) 551514)
我國是世界上最大的煤炭生產(chǎn)國和消費(fèi)國,對煤礦進(jìn)行安全的開采和運(yùn)輸尤為重要。國家八部委發(fā)布的《煤礦智能化建設(shè)指南2021版》指出要科學(xué)規(guī)范有序開展煤礦智能化建設(shè),加快建成一批多種類型、不同模式的智能化煤礦。運(yùn)煤皮帶作為煤炭開采和運(yùn)輸?shù)拇髣用},其運(yùn)行的工作狀態(tài)直接影響著煤炭的開采運(yùn)輸量,皮帶上的異物如大塊矸石、錨桿在皮帶高速運(yùn)行過程中易造成皮帶的劃傷、撕裂和落煤口的堆煤堵煤等問題,因此對運(yùn)輸皮帶上存在的大塊、錨桿等異物進(jìn)行分類識別,以便提前進(jìn)行預(yù)警處理,可有效保障煤礦的安全生產(chǎn)。目標(biāo)檢測和圖像分類技術(shù)都可以實現(xiàn)對皮帶異物的分類識別,但目標(biāo)檢測需要先在圖像中對異物部分進(jìn)行定位然后再進(jìn)行識別,這在一定程度上增加了網(wǎng)絡(luò)的計算量,而圖像分類技術(shù)則可直接對異物進(jìn)行識別,不需要對異物進(jìn)行定位,可以將更多的計算資源用于快速的異物識別中。
礦井的復(fù)雜環(huán)境使得現(xiàn)有的圖像分類方法在運(yùn)煤皮帶異物分類的應(yīng)用備受挑戰(zhàn),許多學(xué)者將機(jī)器視覺技術(shù)引入礦井異物圖像分類,如WANG等基于幀間差分法、閾值分級和Select-Shape算子對帶式輸送機(jī)的大塊異物進(jìn)行識別,HE等使用支持向量機(jī)的分類方法同時結(jié)合異物的紋理及灰度特征進(jìn)行異物分類,ZHANG等采用多特征融合并結(jié)合K近鄰算法、支持向量機(jī)進(jìn)行異物識別。上述方法取得了不錯的成績,但其采用特征提取與分類算法相結(jié)合的圖像處理方法,整體上存在魯棒性差、易受光照影響等問題。
卷積神經(jīng)網(wǎng)絡(luò)使用卷積的方法來進(jìn)行特征提取,魯棒性強(qiáng),在多個領(lǐng)域得到了廣泛的應(yīng)用,也有學(xué)者對于礦井異物圖像分類網(wǎng)絡(luò)進(jìn)行研究。PU等基于VGG16網(wǎng)絡(luò)和遷移學(xué)習(xí)的思想,建立了異物識別模型,但樣本集較小,僅有240張。SU等設(shè)計改進(jìn)的LeNet-5網(wǎng)絡(luò),對20 000張非生產(chǎn)環(huán)境下的異物圖片進(jìn)行了訓(xùn)練,識別率為95.88%。MA等基于MobileNet網(wǎng)絡(luò),針對異物圖像的特點優(yōu)化了網(wǎng)絡(luò)結(jié)構(gòu)、改進(jìn)了損失函數(shù),識別率進(jìn)一步提高。現(xiàn)階段關(guān)于礦井異物圖像分類的不足之處在于:① 樣本采集較為理想,沒有考慮實際的工況環(huán)境;② 網(wǎng)絡(luò)模型復(fù)雜度高,參數(shù)量大,精度低,實時性差。
筆者針對以上問題,構(gòu)建了一種基于殘差信息的輕量級網(wǎng)絡(luò)來進(jìn)行礦井運(yùn)煤皮帶異物圖像分類。該網(wǎng)絡(luò)采用多通道交叉學(xué)習(xí)機(jī)制和特征拼接的融合方式,增強(qiáng)了特征的表現(xiàn)力;采用改進(jìn)殘差塊作為基本特征提取單元,去除卷積塊之間的激活函數(shù)。
隨著深度學(xué)習(xí)的發(fā)展,理論上認(rèn)為更深的網(wǎng)絡(luò)結(jié)構(gòu)能夠取得更好的分類效果,但實驗證明直接堆疊網(wǎng)絡(luò)層數(shù),會引發(fā)梯度爆炸與梯度消失的問題。HE等提出的ResNet網(wǎng)絡(luò)解決了此類問題。在傳統(tǒng)的網(wǎng)絡(luò)中,輸入到輸出的映射可以表示為()=(),為輸入值,殘差網(wǎng)絡(luò)的輸入輸出映射可以表示為()=()-,即目標(biāo)值()與輸入值的差值。殘差網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 殘差塊結(jié)構(gòu)Fig.1 Structure of Residual Block
每一個殘差塊可用式(1),(2)來表示。
=()+(,)
(1)
+1=()
(2)
其中,和分別為第層的輸入和輸出;(·)為直接映射;(·)為激活函數(shù);(,)為殘差信息。整體的殘差網(wǎng)絡(luò)為
+1=+(,)
(3)
對于層,與層的關(guān)系為
(4)
根據(jù)前向傳播中使用的導(dǎo)數(shù)的鏈?zhǔn)椒▌t,損失函數(shù)關(guān)于的梯度為
(5)
在網(wǎng)絡(luò)模型訓(xùn)練過程中,隨著迭代次數(shù)的增加,訓(xùn)練集損失函數(shù)應(yīng)該逐漸減小,測試集的準(zhǔn)確率逐漸上升,損失函數(shù)逐漸減小。但在實際訓(xùn)練中,當(dāng)訓(xùn)練集損失函數(shù)降低到一定程度時,測試集的損失函數(shù)會出現(xiàn)不降反升的情況,文獻(xiàn)[18]分析了造成這種情況的原因。是由于部分錯誤數(shù)據(jù)主導(dǎo)了損失函數(shù),而這部分?jǐn)?shù)據(jù)在整體的測試集中只占很小的比例。
(6)
本文網(wǎng)絡(luò)采用殘差塊作為基本特征提取單元,整體上分為特征提取和圖像分類2個階段。在特征提取階段中構(gòu)建3個通道數(shù)不同的信息融合網(wǎng)絡(luò),每一個信息融合網(wǎng)絡(luò)中包含3個殘差網(wǎng)絡(luò),每個殘差網(wǎng)絡(luò)包含2個殘差塊,對3個殘差網(wǎng)絡(luò)的輸出信息進(jìn)行交叉拼接融合,整體的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 模型整體網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Overall network structure of the model
(7)
(8)
在特征提取階段,首先將圖片通過1個大小為3×3,通道數(shù)為64,步長為1的卷積塊,將輸出結(jié)果輸入到第1個信息融合網(wǎng)絡(luò);在第1個信息融合網(wǎng)絡(luò)中,將輸入的信息依次通過3個殘差網(wǎng)絡(luò)進(jìn)行進(jìn)一步的特征提取,每一個殘差網(wǎng)絡(luò)都包含2個殘差塊,每個殘差塊包含3個大小為3×3,步長為1的卷積核;然后對3個殘差網(wǎng)絡(luò)的輸出分別進(jìn)行3種不同方式的特征拼接得到3個特征信息,將3個特征信息分別通過1×1的卷積核進(jìn)行降維處理,將降維處理后的特征信息分別與第3個殘差網(wǎng)絡(luò)的輸出信息再次融合,最后將得到的3個特征信息分別經(jīng)過大小為3×3,步長為1的卷積核和大小為3×3的池化層處理,將經(jīng)過處理后得到的3個特征信息再次進(jìn)行特征拼接,最終將拼接后的特征信息輸入到下一個信息融合網(wǎng)絡(luò)。在特征提取階段中共有3個信息融合網(wǎng)絡(luò),它們的不同之處在于網(wǎng)絡(luò)內(nèi)卷積核的通道數(shù),通道數(shù)分別為64,128和256。為了保證能夠正確進(jìn)行特征拼接,需要不同特征圖的長和寬保持一致,因此,在每一次卷積操作之后,都需要在特征的最外層進(jìn)行補(bǔ)零的操作。
()=([(),(),…,()])
(9)
其中,()為降維處理。對比2種方法可以發(fā)現(xiàn),特征拼接的權(quán)重系數(shù)是特征疊加權(quán)重系數(shù)的倍,它能夠通過更多的權(quán)重控制來進(jìn)行更詳細(xì)的特征表達(dá)。特征拼接模型如圖3所示。
圖3 特征拼接模型結(jié)構(gòu)Fig.3 Structure of feature splicing information model
在傳統(tǒng)的ResNet網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)層數(shù)的不斷加深,圖片特征信息會出現(xiàn)丟失的情況。Lü等和JIANG等為了保留更多的信息,提出把不同分支的信息進(jìn)行融合的方法。CHENG等在此基礎(chǔ)上提出了多通道交叉學(xué)習(xí)機(jī)制融合方法,利用交叉學(xué)習(xí)機(jī)制將各個通道間獨立的特征信息充分融合,能夠提高網(wǎng)絡(luò)對細(xì)節(jié)信息的學(xué)習(xí)能力。融合特征信息表示為
對信息融合網(wǎng)絡(luò)進(jìn)一步改進(jìn),精簡單個信息融合網(wǎng)絡(luò)結(jié)構(gòu),增加網(wǎng)絡(luò)個數(shù),同時采用特征拼接的方式來增加特征表達(dá)能力。本文信息融合網(wǎng)絡(luò)的模型如圖4所示,圖4中的殘差網(wǎng)絡(luò)包含2個相同的殘差塊,具體結(jié)構(gòu)如圖5所示。
圖4 信息融合網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of information fusion model
為了進(jìn)一步避免因為網(wǎng)絡(luò)層數(shù)的加深帶來的特征映射丟失的問題,在進(jìn)行特征融合之前,將每個殘差網(wǎng)絡(luò)的輸出信息與信息融合網(wǎng)絡(luò)的輸入信息相乘,增加了原始信息的表現(xiàn)力。本文網(wǎng)絡(luò)中的信息融合網(wǎng)絡(luò)為如式(10)所示。
詳細(xì)的網(wǎng)絡(luò)結(jié)構(gòu)如表1和圖6所示。
(10)
圖5 殘差網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Structure of Residual network
表1 本文網(wǎng)絡(luò)的結(jié)構(gòu)
圖6 本文模型的詳細(xì)結(jié)構(gòu)Fig.6 Detailed structure of the model in the paper
本文的實驗平臺選擇Ubuntu20.04.2版本;CPU型號選擇Intel(R) Core(TM) i9-10980XE @ 3.0 GHz;GPU型號選擇GTX3090,顯存容量為24 GB;系統(tǒng)內(nèi)存為64 GB;CUDA為11.1版本;Pytorch框架為1.8版本。模型初始學(xué)習(xí)率設(shè)置為0.000 1,每迭代80次,學(xué)習(xí)率乘0.2,總共迭代240次。
本文的所有實驗對比都在3個數(shù)據(jù)集上進(jìn)行,包括2個公開數(shù)據(jù)集和1個自建數(shù)據(jù)集。公開數(shù)據(jù)集選擇Cifar10和Cifar100,自建數(shù)據(jù)集的圖片來自礦井下的現(xiàn)實生產(chǎn)環(huán)境。
Cifar10數(shù)據(jù)集由包含飛機(jī)、汽車、鳥類、貓、鹿、狗、蛙、馬、船和卡車10個類的60 000張32×32的彩色RGB圖像組成,每類有6 000張圖像,分為5 000張訓(xùn)練圖像和1 000張測試圖像。
Cifar100數(shù)據(jù)集也由60 000張32×32的彩色RGB圖像組成,共有100個類,每一類有600張圖像,分為500張訓(xùn)練集圖像和100張測試集圖像。這100個類被分成20個超類,每個圖像都帶有一個“精細(xì)”標(biāo)簽(它所屬的類)和一個“粗糙”標(biāo)簽(它所屬的超類)。
礦井圖像數(shù)據(jù)集采集自礦井下皮帶的運(yùn)輸環(huán)境,共采集圖片6 000張,分為3類:大塊圖片、錨桿圖片和正常圖片,每類有2 000張圖像,包含訓(xùn)練圖像1 600張和測試圖像400張。部分?jǐn)?shù)據(jù)集圖像如圖7所示。
圖7 礦井圖像數(shù)據(jù)集展示Fig.7 Display of mine image dataset
圖7中,第1行和第2行的圖片是大塊圖片,大塊體積大、質(zhì)量大,在傳輸過程中一旦堵住落煤口容易造成皮帶脫軌;第3行和第4行的圖片是錨桿圖片,錨桿具有尖銳、細(xì)長的特征,在傳輸過程中容易劃傷、撕裂皮帶;第5行和第6行的圖片是正常的煤流圖片。
為了探究激活函數(shù)ReLU的位置對本文網(wǎng)絡(luò)分類效果的影響,對圖8所示的4種殘差塊網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行對比實驗。在Cifar10數(shù)據(jù)集上進(jìn)行驗證,驗證結(jié)果如圖9、表2所示。為了更清楚地展示4種殘差結(jié)構(gòu)對圖像分類準(zhǔn)確率的影響,分類準(zhǔn)確率曲線從第20次迭代起開始繪制。
圖8 4種不同的殘差塊結(jié)構(gòu)Fig.8 Structures of four different residual block
圖9 4種殘差塊結(jié)構(gòu)在Cifar10上的準(zhǔn)確率曲線Fig.9 Accuracy curves of four residual block structures on Cifar10
表2 測試集準(zhǔn)確率對比
如圖9、表2所示,在本文網(wǎng)絡(luò)中,沒有激活函數(shù)的殘差塊(ReLU_0)比另外3個有激活函數(shù)的殘差塊分類準(zhǔn)確率分別提高0.4%,0.6%和0.8%,由此可見,不使用激活函數(shù)的殘差塊更契合本文的網(wǎng)絡(luò)。
本文網(wǎng)絡(luò)在損失函數(shù)上采用損失函數(shù)閾值處理的方法,在Cifar10和Cifar100兩個公用數(shù)據(jù)集上進(jìn)行對比實驗,實驗結(jié)果如表3和圖10所示。
表3 測試集準(zhǔn)確率對比
圖10 Cifar10和Cifar100上測試集準(zhǔn)確率和損失函數(shù)對比Fig.10 Comparison of the loss function and accuracy of the test set on Cifar10 and Cifar100
分析實驗結(jié)果可以發(fā)現(xiàn),采用了損失閾值處理的模型(Ours_ow)比沒有使用損失閾值處理的模型(Ours)在Cifar10數(shù)據(jù)集上的準(zhǔn)確率降低了0.1%,在Cifar100數(shù)據(jù)集上的準(zhǔn)確率沒有變化;但是損失函數(shù)上升的問題完全解決,大大提高了模型的泛化性。
為了進(jìn)一步驗證本文模型的分類精度和實時性,選取以下10種圖像分類網(wǎng)絡(luò):ShufflenetV2,MobileNetV2,LetNet-5_Su,GoogleNet,VGG16,ResNet34,ResNet50,ResNeXt50,
W-ResNet50和ResNet110對比他們的參數(shù)量、FLOPs和FPS,并且在Cifar10,Cifar100和礦井圖像數(shù)據(jù)集上對比分類的準(zhǔn)確率,對比結(jié)果見表4。
根據(jù)表4的實驗結(jié)果可以看出,不同網(wǎng)絡(luò)的參數(shù)量、計算復(fù)雜度、分類的準(zhǔn)確率和幀率都有著顯著的差異。GoogLeNet和VGG16網(wǎng)絡(luò)在Cifar10數(shù)據(jù)集上的分類準(zhǔn)率為88.2%和88.9%;在Cifar100數(shù)據(jù)集上的分類準(zhǔn)確率為69.7%和69.1%;在礦用數(shù)據(jù)集上的分類準(zhǔn)確率為81.3%和80.4%。本文選取了5種常見殘差網(wǎng)絡(luò)進(jìn)行對比實驗,實驗結(jié)果表明,在3個數(shù)據(jù)集中,殘差網(wǎng)絡(luò)整體上優(yōu)于非殘差網(wǎng)絡(luò)。其中,W_ResNet50是WANG等提出的基于ResNet50的改進(jìn)網(wǎng)絡(luò),它將圖像輸入部分的特征提取模塊從7×7變成了3×3,使用了soft-center損失函數(shù),在礦用數(shù)據(jù)集上的分類準(zhǔn)確率達(dá)到了84.8%,在Cifar10和Cifar100上也表現(xiàn)良好,雖然分別比ResNet110網(wǎng)絡(luò)低了0.2%和0.1%,但參數(shù)量只有它的一半。本文網(wǎng)絡(luò)在礦用數(shù)據(jù)集上的準(zhǔn)確率為85.1%,比W-ResNet50還高出0.3%,在Cifar10上為94.1%,和ResNet110相同,但是參數(shù)量只有它的1/3,在Cifar100上為73.9%,比W-ResNet50和ResNet110分別高出0.3%和0.1%。用于礦井煤矸石分類的網(wǎng)絡(luò)LeNet-5_Su在礦用數(shù)據(jù)集上的分類準(zhǔn)確率為77.7%,比本文網(wǎng)絡(luò)低了7.4%。筆者選取了ShufflenetV2,MobileNetV2和ResNeXt50三種主流輕量級網(wǎng)絡(luò)進(jìn)行對比,在礦用數(shù)據(jù)集上的分類準(zhǔn)確率為80.1%,80.9%和84.6%,比本文網(wǎng)絡(luò)低了5.0%,4.2%和0.5%。從FLOSs和FPS指標(biāo)上來看,本文網(wǎng)絡(luò)為2.980 0×10和98,比ShufflenetV2、Mobile-NetV2,LeNet-5_Su和GoogLeNet效果稍差,但是分類準(zhǔn)確率分別提高了5.0%,4.2%,7.4%和3.8%,高達(dá)98的FPS也能夠達(dá)到實時的處理效果。此外,相比于其他的分類網(wǎng)絡(luò),本文的分類網(wǎng)絡(luò)在FLOSs和FPS上都實現(xiàn)了超越。與分類準(zhǔn)確率同本文網(wǎng)絡(luò)相近的ResNet50,ResNeXt50和W_ResNet50相比,其FPS也分別提高了28,26和34。
表4 不同網(wǎng)絡(luò)的參數(shù)量、分類準(zhǔn)確率、FLOPs和FPS對比
因此,通過詳細(xì)的實驗對比和分析,證明了本文所提出的算法具有網(wǎng)絡(luò)參數(shù)量少、計算復(fù)雜度低、分類準(zhǔn)確率高、處理速度快的優(yōu)點,能夠有效地對運(yùn)煤皮帶的上的異物進(jìn)行分類,從而提高運(yùn)煤皮帶的運(yùn)輸效率。
(1)以改進(jìn)的殘差結(jié)構(gòu)和交叉學(xué)習(xí)機(jī)制為基礎(chǔ),提出一種融合殘差信息的輕量級圖像分類網(wǎng)絡(luò)。該網(wǎng)絡(luò)以改進(jìn)的殘差結(jié)構(gòu)作為基本特征提取單元,增強(qiáng)了對細(xì)節(jié)特征的提取能力;采用特征拼接的信息融合方式,能夠通過更多的權(quán)重控制來進(jìn)行更詳細(xì)的特征表達(dá);采用交叉學(xué)習(xí)機(jī)制的信息融合網(wǎng)絡(luò),能夠提高特征的利用率,增加原始特征的表現(xiàn)力;采用損失閾值的處理方式,能夠改善測試集損失函數(shù)升高的情況,提高模型泛化性 。
(2)實驗結(jié)果表明,本文提出的圖像分類網(wǎng)絡(luò)能夠有效地對運(yùn)煤皮帶上煤炭夾雜的異物進(jìn)行分類。改善了運(yùn)煤皮帶異物識別時存在的網(wǎng)絡(luò)參數(shù)量大、實時性差、識別精度低等問題。
(3)本文提出的網(wǎng)絡(luò)能夠增強(qiáng)對運(yùn)煤皮帶中異物識別的效果,提高對帶式輸送機(jī)的安全保護(hù)水平和煤炭輸送的效率,為無人化煤炭精準(zhǔn)開采及基于機(jī)器視覺的智能裝備研制提供技術(shù)理論支撐,從而促進(jìn)智能視頻分析技術(shù)在礦井煤流輸送過程中的發(fā)展和應(yīng)用。