王 偉,李 擎,張德政,栗 輝,王 昊
1) 北京科技大學(xué)自動化學(xué)院,北京 100083 2) 工業(yè)過程知識自動化教育部重點實驗室,北京 100083 3) 北京科技大學(xué)計算機與通信工程學(xué)院,北京 100083 4) 材料領(lǐng)域知識工程北京市重點實驗室,北京 100083
用于自動質(zhì)量控制和安全監(jiān)測的礦石圖像處理是智慧礦山建設(shè)的重要組成部分,經(jīng)歷了從傳統(tǒng)圖像處理向深度學(xué)習(xí)演變的過程.深度學(xué)習(xí)避免了人為設(shè)計特征的限制,在通用場景和特定領(lǐng)域(交通、醫(yī)學(xué)、遙感等)的圖像處理任務(wù)中均取得了優(yōu)于傳統(tǒng)圖像處理方法的效果.鑒于此,已有許多研究人員采用深度學(xué)習(xí)技術(shù)對礦石圖像進行處理,如對鐵礦、煤礦和巖石圖像進行類別、粒度的分析等.本文首先介紹了礦石分類、粒度分析、異物識別三種常見的礦石圖像處理任務(wù);接著比較全面地梳理了圖像分類、目標(biāo)檢測和語義分割三種常見深度學(xué)習(xí)技術(shù)在三大常見礦石圖像處理任務(wù)中的應(yīng)用現(xiàn)狀;最后進行總結(jié)與展望.
礦石生產(chǎn)流程可分為勘探、開采與選礦,而選礦又大致可分為破碎篩分、磨礦和浮選等工藝,如圖1(a)所示.本文聚焦于礦石勘探和將礦石破碎篩分后的皮帶運輸兩個環(huán)節(jié),將常見的礦石圖像處理任務(wù)分為礦石分類、粒度分析和異物識別等,如圖1(b)所示.
圖1 礦石生產(chǎn)流程與礦石圖像處理任務(wù).(a) 生產(chǎn)流程;(b) 礦石圖像處理任務(wù)分類Fig.1 Ore production process and the ore image processing task: (a) production process;(b) task classification
礦石分類按照一張圖像中礦石的數(shù)量可分為單個體礦石分類和多個體礦石分類,前者在地質(zhì)勘探中起著重要作用,而基于后者可以計算出傳送皮帶上不同種類礦石之間的比例,用于評價配礦質(zhì)量和協(xié)助調(diào)整礦山生產(chǎn)設(shè)備運行參數(shù).粒度指圖像中礦石的尺寸信息,一般可分為粒度統(tǒng)計、粒度分類和大塊檢測三種任務(wù)模式,實際工業(yè)生產(chǎn)中以第一種和第三種為主.精確的粒度統(tǒng)計能為破碎機和傳送皮帶的控制提供參考依據(jù),如對功率和速度的設(shè)定等,以提高產(chǎn)品質(zhì)量、保障設(shè)備安全和降低生產(chǎn)成本;而大塊檢測旨在發(fā)現(xiàn)給礦皮帶上尺寸過大的礦石,當(dāng)有大于設(shè)定閾值的礦石出現(xiàn)時,系統(tǒng)會發(fā)出警報,控制室人員據(jù)此進行相應(yīng)處理,以防止處于給礦皮帶和受礦皮帶之間的轉(zhuǎn)運緩沖倉內(nèi)發(fā)生堵料事故,保障生產(chǎn)安全.異物識別則是將皮帶上混在礦石中的廢舊木頭、鋼釬、錨桿、螺母等有害物品檢測出來,以控制產(chǎn)品質(zhì)量.除此之外,礦石圖像處理任務(wù)還包括礦石密度分類等.
圖像分類、目標(biāo)檢測和語義分割是三種常見的深度學(xué)習(xí)技術(shù),它們分別從圖像整體、圖像中各個目標(biāo)和圖像中各個像素三個不同的維度,由粗到細(xì)地完成對圖像的分析處理.
圖像分類即判斷圖像所屬類別,該類算法起始于用于手寫數(shù)字識別的LeNet-5[1],復(fù)興于2012年在大規(guī)模視覺識別挑戰(zhàn)賽(ImageNet large scale visual recognition competition,LSVRC)[2]中獲得圖像分類和定位雙項冠軍的AlexNet[3].緊隨其后,更是百花齊放,相繼涌現(xiàn)出了由牛津大學(xué)視覺幾何組(Visual geometry group,VGG)提出的采用多層小卷積核(3*3)來替代大卷積核(5*5 或7*7)的VGG[4],采用Inception 模塊來提取多尺度特征的GoogLeNet[5],采用殘差學(xué)習(xí)(Residual learning)來改善模型退化問題的ResNet[6],基于通道注意力設(shè)計的SE-Net[7],基于輕量化設(shè)計的MobileNet[8]、ShuffleNet[9],以及基于Transformer[10]演變而來的Vision transformer(ViT)[11]等.
目標(biāo)檢測通過矩形框的形式錨定圖像中所關(guān)注的對象及其所在位置,完成圖像中各個目標(biāo)的定位與分類.該類算法的代表包括提出區(qū)域建議網(wǎng)絡(luò)(Region proposal networks,RPN),并首次實現(xiàn)兩階段檢測模型端到端訓(xùn)練的Faster R-CNN(Region convolutional neural network)[12],將檢測問題通過回歸來處理以提高檢測速度的YOLO(You only look once)系列[13-15],在多個特征圖上進行檢測的SSD(Single shot multibox detector)[16],基于Anchorfree 的CenterNet[17],以及基于Transformer 的DETR(Detection transformer)[18]等.
語義分割通過對圖像進行像素級別的分類,來對區(qū)域進行分塊.該類算法的代表包括首次采用全卷積神經(jīng)網(wǎng)絡(luò)來完成分割任務(wù)的FCN(Fully convolutional networks)[19],采用編碼器-解碼器對稱設(shè)計來分割醫(yī)學(xué)細(xì)胞的U-Net[20],采用空洞卷積(Atrous convolution)來增大感受野的DeepLab[21],采用金字塔池化模塊(Pyramid pooling module,PPM)來匯聚多尺度特征的PSPNet(Pyramid scene parseing network)[22],用于3D 圖像分割的V-Net[23],基于自注意力機制(Self-attention)[10]的CCNet(Criss-cross attention network)[24],以及基于Transformer 的SETR(Segmentation transformer)[25]等.
前景是指圖像中所有屬于預(yù)定義類別集合中的物體.圖像分類更傾向于處理單張圖像中前景個數(shù)為1(圖2(a)),或者前景個數(shù)大于1 但可以將所有前景視作一個整體來分析的任務(wù).目標(biāo)檢測更擅長處理對獲得圖像中前景位置有一定要求,或者單張圖像中前景個數(shù)大于1 且需要將各個前景分開從而達(dá)到特定目的的任務(wù),如圖2(b)可以用來實現(xiàn)羊群計數(shù).語義分割不論單張圖像中前景個數(shù),它更傾向于處理對獲得精細(xì)的前景形狀有一定要求的任務(wù),如圖2(c)所示.
圖2 深度學(xué)習(xí)技術(shù)分類.(a) 圖像分類;(b) 目標(biāo)檢測;(c) 語義分割Fig.2 Deep learning technology classification: (a) image classification;(b) object detection;(c) semantic segmentation
礦石分類在地質(zhì)勘探和皮帶運輸兩個環(huán)節(jié)均發(fā)揮著重要作用.礦石種類的誤判會給生產(chǎn)方案和維修方案的制定帶來嚴(yán)重的負(fù)面影響,造成經(jīng)濟損失和安全隱患等諸多問題.基于深度學(xué)習(xí)的礦石分類可按一張圖像中礦石(前景)個數(shù)分為單個體礦石分類和多個體礦石分類.單個體礦石分類多采用圖像分類網(wǎng)絡(luò),而多個體礦石分類多采用目標(biāo)檢測網(wǎng)絡(luò)和語義分割網(wǎng)絡(luò).
3.1.1 單個體礦石分類
LeNet-5 是最早基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類算法,文獻(xiàn)[26]將其網(wǎng)絡(luò)結(jié)構(gòu)進行優(yōu)化,并采用20000 張圖像對其進行訓(xùn)練,以完成煤與煤矸石的二分類任務(wù),實驗結(jié)果在驗證集上達(dá)到了95.88%的準(zhǔn)確率.而在數(shù)據(jù)量比較小時(煤與煤矸石各240 張圖像),文獻(xiàn)[27]基于遷移學(xué)習(xí)的思想,先凍結(jié)住VGG16 所有卷積層,再自定義全連接層,訓(xùn)練得到的模型在測試集上獲得了82.5%的分類準(zhǔn)確率.文獻(xiàn)[28]采用Wu-VGG19 遷移網(wǎng)絡(luò)對黑鎢礦石與圍巖進行二分類,識別率達(dá)到了97.51%.
基于Inception-v3[29]網(wǎng)絡(luò),文獻(xiàn)[30]實現(xiàn)了花崗巖、千枚巖和張角礫巖的自動分類.同樣基于Inception-v3,文獻(xiàn)[31]和文獻(xiàn)[32]分別完成了對5 種和15 種不同礦石的分類.基于強化后的礦石圖像紋理特征和利用K-means[33]得到的顏色特征,文獻(xiàn)[34]采用Inception-v3 建立了一套完整的礦石智能耦合分類方法,用以區(qū)分19 種不同礦石.在文獻(xiàn)[34]的基礎(chǔ)上,文獻(xiàn)[35]驗證了深度學(xué)習(xí)與聚類算法結(jié)合的有效性.文獻(xiàn)[36]用兩層全連接神經(jīng)網(wǎng)絡(luò)對標(biāo)量莫氏硬度進行升維,用EfficientNetb4[37]對礦石圖像進行特征提取,再將二者的結(jié)果進行融合,最后送入到全連接層中完成了36 類不同礦石的分類.CutMix[38]和Image Cutting 是兩種常見的數(shù)據(jù)增強方式,文獻(xiàn)[39]采用它們來改善過擬合問題,并第一次將由Transformer 演變而來的ViT 用于對7 種不同類型的礦石進行分類.本課題組采用ResNet50 完成了對關(guān)寶山4 種不同類型鐵礦石的分類,包括赤鐵礦、假象礦、褐鐵礦和透閃礦(圖3),準(zhǔn)確率達(dá)到了85%.
圖3 不同類型鐵礦石示例.(a) 赤鐵礦;(b) 假象礦;(c) 褐鐵礦;(d) 透閃礦Fig.3 Examples of different types of iron ore: (a) hematite;(b) false mineral;(c) limonite;(d) tremolite
除了自然場景圖像,單個體礦石分類的輸入也可以是顯微圖像[40-43]與光譜圖像[44-45].如文獻(xiàn)[40]采用ResNet18 對5 種礦石的偏光顯微圖像進行分類,包括角閃石、石英、石榴石、黑云母和橄欖石,最終模型準(zhǔn)確率達(dá)到了89%.文獻(xiàn)[44]先用可見紅外反射光譜儀得到礦石的光譜圖像,再將其輸入到自定義的空洞卷積神經(jīng)網(wǎng)絡(luò)中進行訓(xùn)練,實現(xiàn)了對赤鐵礦、磁鐵礦、花崗巖、千枚巖和綠泥石的分類.
3.1.2 多個體礦石分類
目標(biāo)檢測網(wǎng)絡(luò)定位加分類的雙重任務(wù)處理能力能有效對同一張圖像中的多塊礦石進行分類(圖4(a),不同顏色的框代表不同類別).文獻(xiàn)[46]收集了約800 塊礦石構(gòu)造目標(biāo)檢測數(shù)據(jù)集,用以訓(xùn)練Faster R-CNN,完成了對橄欖巖、玄武巖、大理巖、片麻巖、礫巖、石灰石、花崗巖和磁鐵礦石英巖8 種礦石的分類.文獻(xiàn)[47]比較了Faster RCNN 與YOLO-v4[48]對三大類(火成巖、沉積巖和變質(zhì)巖)、32 小類礦石的分類效果,發(fā)現(xiàn)前者效果更好.文獻(xiàn)[49]采用多尺度特征融合技術(shù)和粒子群算法來優(yōu)化Faster R-CNN,在黑云母、褐鐵礦、孔雀石和石英的分類中,達(dá)到了98%的準(zhǔn)確率.
圖4 多個體礦石分類技術(shù).(a) 目標(biāo)檢測;(b) 語義分割[50]Fig.4 Multi-object ore classification technology: (a) object detection;(b) semantic segmentation
語義分割網(wǎng)絡(luò)的像素級分類模式也可以完成一張圖像中多塊礦石的分類任務(wù).文獻(xiàn)[50]第一次采用改進的U-Net 對圖像中的礦石進行分割,完成了對巖石(紅色)、赤鐵礦(綠色)、碳酸鐵(黃色)、綠泥石(藍(lán)色)和亞鐵(紫色)的分類,如圖4(b)所示.文獻(xiàn)[51]采用結(jié)合了目標(biāo)檢測和語義分割雙重功能的實例分割網(wǎng)絡(luò)Mask R-CNN[52]對礦石進行識別與定位,綜合準(zhǔn)確率達(dá)到了97.6%.但上述基于擺拍圖像訓(xùn)練得到的模型很難真正實現(xiàn)對礦山現(xiàn)場傳送皮帶上表面被灰塵、泥土所覆蓋的礦石進行分類.
粒度分析任務(wù)通常針對皮帶上的礦石,一般可分為三種模式:粒度統(tǒng)計、粒度分類和大塊檢測.粒度統(tǒng)計指得到一張圖像中礦石尺寸的確定值,一般先采用語義分割網(wǎng)絡(luò)分割出圖像中的每一塊礦石,然后用OpenCV 等工具包得到每塊礦石的像素數(shù)量,再根據(jù)單位像素與實際尺寸的關(guān)系求出每塊礦石的面積S,最后按照實際需求完成相應(yīng)的礦石粒度統(tǒng)計,比如圖像中每塊礦石的粒徑d(面積S對應(yīng)的等效圓直徑)等.粒度分類指將圖像中所有礦石視作一個整體來劃分粒度等級,一般先采用不同粒徑的篩子篩分來得到已知粒度等級的礦石,拍照構(gòu)造數(shù)據(jù)集,再訓(xùn)練圖像分類網(wǎng)絡(luò),最后用訓(xùn)練好的模型對未知礦石圖像進行粒度分類.大塊檢測指識別出給礦皮帶上過大尺寸的礦石,一般先采用目標(biāo)檢測網(wǎng)絡(luò)得到礦石的坐標(biāo)信息,再計算出每塊礦石的外接矩形面積,最后與設(shè)定閾值進行比較,判斷皮帶上是否存在大塊.
3.2.1 粒度統(tǒng)計
精確的礦石個體分割是粒度統(tǒng)計的重要前提.皮帶上的礦石圖像具有以下兩點典型特征:其一,礦石黏連和灰塵、泥土的遮擋導(dǎo)致圖像中多處礦石邊緣存在模糊不清甚至是消失的問題(圖5 紅色箭頭所示);其二,圖像中的礦石形狀與尺寸多種多樣.這些因素都給精確的礦石個體分割帶來了嚴(yán)峻的挑戰(zhàn).傳統(tǒng)圖像處理通過設(shè)定閾值(OTSU[53])、聚類分析(K-means)和邊緣檢測(Canny檢測算子[54]、分水嶺算法[55])等方法完成礦石分割任務(wù),而語義分割則是通過對圖像中每個像素進行語義二分類(背景與礦石)來分割礦石.相較于傳統(tǒng)圖像分割算法,基于深度學(xué)習(xí)的語義分割算法有著更強大的自動特征提取能力和更好的泛化性能,因此逐漸取得了在礦石圖像分割領(lǐng)域中的主導(dǎo)地位[56].
圖5 皮帶礦石圖像[57]Fig.5 Ore image on a conveyor belt[57]
對于一張礦石圖像(圖6(a)),語義分割網(wǎng)絡(luò)可以識別出圖像中礦石的邊緣(圖6(b)),也可以識別出圖像中礦石的主體(圖6(c)).HED(Holisticallynested edge detection network)網(wǎng)絡(luò)[58]集合了VGG16和多尺度特征融合的優(yōu)點,在邊緣提取中取得了明顯優(yōu)于Canny 檢測算法的效果.文獻(xiàn)[59]首次將HED 應(yīng)用于礦石邊緣分割任務(wù)中,驗證了該方法的有效性.在此基礎(chǔ)上,文獻(xiàn)[60]利用空洞卷積和多層級特征融合方法對HED 網(wǎng)絡(luò)進行改進,極大地改善了因礦石黏連導(dǎo)致的邊緣分割不精確問題.然而,通過對比圖6(b)、圖6(c)兩種分割模式,可以發(fā)現(xiàn)后者視覺效果更加直觀,也更方便進行粒度統(tǒng)計.因此,大部分研究工作都采用分割礦石主體的模式.
圖6 礦石圖像及其標(biāo)簽.(a)原始圖像[57];(b) 礦石邊緣標(biāo)簽;(c) 礦石主體標(biāo)簽Fig.6 Ore image and label: (a) original image[57];(b) ore edge label;(c)ore mask label
文獻(xiàn)[61]首次采用U-Net 來分割破碎石塊,在測試集上取得了小于10%的平均錯誤率,驗證了該網(wǎng)絡(luò)模型的有效性.U-Net 因其優(yōu)雅的編碼解碼對稱設(shè)計和創(chuàng)新性的跳躍連接方式在細(xì)胞分割領(lǐng)域取得了巨大成功.解碼器逐步、分層的上采樣方式能精確地恢復(fù)圖像中目標(biāo)的邊緣形狀,而跳躍連接將低層位置信息和高層語義信息相結(jié)合,能兼顧圖像中不同尺度的目標(biāo)[62-63].U-Net 網(wǎng)絡(luò)的優(yōu)點與礦石圖像的特點相得益彰.因此,大部分研究人員都選擇將其作為基準(zhǔn)模型.
圖像中礦石的形狀、尺寸各種各樣,而可變形卷積[64]能自動調(diào)整形狀和感受野,因此能學(xué)習(xí)到更好的特征.文獻(xiàn)[56]在特定層采用該種卷積核代替固定了形狀和大小的普通卷積核來建立模型,相較于基準(zhǔn)U-Net,改進后的模型在準(zhǔn)確率與平衡F 分?jǐn)?shù)(F1-score)兩項指標(biāo)上分別提高了12%和11%,但可變形卷積會極大地增加模型的運算量.
礦石黏連、灰塵掩蓋等因素導(dǎo)致的邊緣模糊、消失無疑是礦石分割的最大阻礙,會造成嚴(yán)重的欠分割問題,即網(wǎng)絡(luò)將多塊礦石識別為一塊,這對后續(xù)的粒度統(tǒng)計極為不利.針對該問題,文獻(xiàn)[65-66]先利用U-Net 對礦石圖像進行分割,再利用Res_UNet 對初步分割結(jié)果進行優(yōu)化,實驗結(jié)果表明了“分割加優(yōu)化”兩階段方案的有效性,但該模型也增加了近一倍的參數(shù)量.
受文獻(xiàn)[67-71]啟發(fā),本項目組提出了一種基于U-Net 改進的邊緣感知模型來改善礦石欠分割問題[57].該模型由一個編碼模塊、兩個解碼模塊(邊緣解碼器和掩碼解碼器)和一個特征融合模塊組成,如圖7 所示.邊緣解碼器旨在讓網(wǎng)絡(luò)編碼模塊學(xué)習(xí)到更多的礦石邊緣特征,特征融合模塊通過將礦石邊緣信息融入到礦石主體信息中,以更好地將黏連礦石進行分離.相較于U-Net,該模型的掩碼交并比(Intersection over union of mask,IoU_Mask)和邊緣交并比(Intersection over union of edge,IoU_Edge)分別提升了1.01%和5.78%,礦石粒度統(tǒng)計錯誤率下降了12.11%.
圖7 邊緣感知網(wǎng)絡(luò)結(jié)構(gòu)圖[57]Fig.7 Boundary-aware network structure diagram[57]
邊緣感知網(wǎng)絡(luò)和原始U-Net 對礦石分割的定性對比效果如圖8 所示.其中圖8(a)、(b)、(c)和(d)分別代表原始礦石圖像、人工標(biāo)簽、U-Net 分割結(jié)果和邊緣感知網(wǎng)絡(luò)分割結(jié)果.對比圖8(c)與圖(d)中橢圓標(biāo)記部分可知,本項目組設(shè)計的邊緣感知網(wǎng)絡(luò)更有利于圖像中黏連礦石的分離.基于DFN[72](Discriminative feature network)網(wǎng) 絡(luò),文 獻(xiàn)[73]也采用雙解碼器的設(shè)計來更有效地分割黏連礦石,用以協(xié)助控制隧道掘進機.且該工作只以圖像中的較大塊礦石為分割對象,標(biāo)注成本較小.但文獻(xiàn)[57,73]的雙解碼器無疑增加了網(wǎng)絡(luò)的參數(shù)量.
圖8 礦石圖像分割結(jié)果.(a) 原圖;(b) 標(biāo)簽;(c) U-Net 分割結(jié)果;(d) 文獻(xiàn)[57]分割結(jié)果Fig.8 Ore image segmentation results: (a) original image;(b) label;(c) segmentation result by U-Net;(d) segmentation result by reference [57]
為了使U-Net 模型更加輕量化和改善欠分割問題,文獻(xiàn)[74]將每層的通道數(shù)減少為原來的四分之一,并輔以分水嶺算法對預(yù)測結(jié)果進行優(yōu)化.這種將深度學(xué)習(xí)與傳統(tǒng)圖像處理算法(分水嶺算法、凸型檢測和橢圓適配等)結(jié)合起來進行礦石分割的方式能充分發(fā)揮二者的優(yōu)點,提升分割效果[75-78].
相較于通過復(fù)雜的網(wǎng)絡(luò)設(shè)計來改善黏連礦石不可避免的欠分割問題,文獻(xiàn)[79]發(fā)現(xiàn)焦點損失函數(shù)(Focal loss)[80]通過給與圖像中困難像素(礦石邊緣像素)更多損失權(quán)重的方式,可以將礦石更有效地分離.本項目組將Focal loss 與最常見的二值交叉熵?fù)p失函數(shù)(Binary cross entropy,BCE)進行對比,發(fā)現(xiàn)前者不僅更有利于將黏連的礦石進行分離,而且通用性較強,無論是對破碎入口粗破、傳送皮帶中破,還是傳送皮帶細(xì)破礦石圖像均行之有效,如圖9 所示.然而采用該損失函數(shù)的網(wǎng)絡(luò)對細(xì)小礦石的識別能力較弱.
圖9 基于不同損失函數(shù)的U-Net 礦石圖像分割結(jié)果.(a) 礦石原圖;(b) 二值交叉熵?fù)p失函數(shù);(c) 焦點損失函數(shù)Fig.9 U-Net ore image segmentation result based on different losses: (a) original ore image;(b) BCE;(c) focal loss
除了從網(wǎng)絡(luò)設(shè)計、損失函數(shù)和后處理等方面來改善欠分割問題外,最直接改善欠分割的方法或許是先將礦石圖像的原始標(biāo)簽進行腐蝕處理,即標(biāo)簽中的掩碼比其對應(yīng)的實際礦石要小,再送入到神經(jīng)網(wǎng)絡(luò)中進行訓(xùn)練[81].當(dāng)通過語義分割和后處理得到初步的礦石粒度統(tǒng)計結(jié)果后,還可以利用經(jīng)驗公式對其進行修正,以得到更加準(zhǔn)確的數(shù)值[82-83].
3.2.2 粒度分類
礦石圖像可以通過語義分割加后處理的方式得到確定的礦石粒度統(tǒng)計值,如每塊礦石的粒徑等.但當(dāng)我們不關(guān)心礦石粗細(xì)的具體數(shù)值,而只想得到一個粗略的粒度范圍時,則可以通過圖像分類的方式將礦石圖像分為若干粒度等級.文獻(xiàn)[84]利用VGG16 對礦石圖像進行10 種粒度等級的分類,包括1.7+、2.36+、3.3+、4.75+、6.7+、8+、11.2+、13.2+、19+和26.5+,為后續(xù)礦山生產(chǎn)運行控制提供指導(dǎo).文獻(xiàn)[85]通過VGG16 將礦石圖像分為了“幾乎不包含大塊礦石”、“包含一些大塊礦石”、“包含較多大塊礦石”和“幾乎全是大塊礦石”四類,依此對礦石圖像粒度能有一個大致的判斷.但粒度分類不及粒度統(tǒng)計結(jié)果精確,更重要的是其只比較適用于處理篩分過后得到的分布比較均勻的礦石圖像,因此在實際工業(yè)場景中的應(yīng)用比較受限.
3.2.3 大塊檢測
給礦皮帶上的超大塊礦石容易造成轉(zhuǎn)運緩沖倉內(nèi)的堵料問題.目標(biāo)檢測和語義分割的結(jié)果[73,86]都可以用來估算礦石面積,以此來判斷礦石是否屬于大塊.相較于語義分割,目標(biāo)檢測有著更小的標(biāo)注工作量,且更容易將黏連礦石分離,因此本項目組采用目標(biāo)檢測算法Faster R-CNN 來完成大塊礦石檢測任務(wù),將其應(yīng)用于實際工業(yè)中,并取得了不錯的效果.
基于目標(biāo)檢測技術(shù)的大塊檢測只需對圖像中少數(shù)的較大塊礦石進行標(biāo)注,且基于尺寸這一主要特征,F(xiàn)aster R-CNN 能有效分辨出一張圖像中的大塊,如圖10 所示.根據(jù)檢測出來的礦石坐標(biāo)信息,可以計算出每塊礦石的外接矩形面積,當(dāng)存在某塊礦石的面積大于設(shè)定閾值時,系統(tǒng)發(fā)出警報,隨后工作人員進行相應(yīng)處理,以防止在轉(zhuǎn)運緩沖倉內(nèi)發(fā)生堵料事故.
圖10 基于Faster R-CNN 的皮帶大塊礦石檢測.(a) 原圖;(b) 標(biāo)簽;(c) 檢測結(jié)果Fig.10 Large block ore detection based on Faster R-CNN: (a) original image;(b) label;(c) detection result
異物識別是將皮帶上混在礦石中的有害物品(包括廢舊木頭、錨桿、槽鋼、廢石等)檢測出來,以保障產(chǎn)品質(zhì)量,防止皮帶發(fā)生撕裂,常采用目標(biāo)檢測技術(shù)來完成異物識別任務(wù).針對傳送皮帶上礦石中夾雜的廢舊木頭、鋼釬和塑料導(dǎo)爆管等雜物,基于YOLO-v3[87],文獻(xiàn)[88]提出了一種改進的異物檢測方法YOLO-Ore.該模型結(jié)合了輕量化網(wǎng)絡(luò)MobileNet-v2[89]、PPM 和注意力機制模塊CBAM(Convolutional block attention module)[90]的優(yōu)點,完成了對皮帶上異物準(zhǔn)確快速的檢測.文獻(xiàn)[91]采用以Focal loss 為分類損失函數(shù)的YOLO-v3 模型實現(xiàn)了對帶式輸送機上錨桿、角鐵和螺母3 種非煤異物的識別,置信度達(dá)到了94%以上.文獻(xiàn)[92]提出了一種基于CenterNet 改進的檢測算法,該算法利用深度可分離卷積[8]來減少冗余參數(shù),同時采用加權(quán)特征圖融合方法來提高網(wǎng)絡(luò)檢測精度,以實現(xiàn)對運煤皮帶上槽鋼、錨桿、釬子以及工字鋼等異物的識別.文獻(xiàn)[93]在YOLO-v3 的基礎(chǔ)上,融入主動學(xué)習(xí)的思想,利用少量的標(biāo)簽完成了在皮帶鋁塊礦石中檢測出泥團的任務(wù).文獻(xiàn)[94]通過將深度可分離卷積、PPM 和平均絕對誤差(Mean absolute error,MAE)損失函數(shù)引入到Y(jié)OLOv3 網(wǎng)絡(luò)中,實現(xiàn)了在煤與煤矸石混合體中實時精準(zhǔn)地檢測出煤矸石的功能.
基于表面顏色、紋理等特征,利用卷積神經(jīng)網(wǎng)絡(luò)可以完成對單塊礦石的密度分類任務(wù).文獻(xiàn)[95]在AlexNet 和VGG 的基礎(chǔ)上,通過考慮模型深度、模型結(jié)構(gòu)和數(shù)據(jù)集大小,探索了一種小型深度學(xué)習(xí)模型來對圖像中的氣煤進行密度二分類(<1.8 g·cm-3和>1.8 g·cm-3).文獻(xiàn)[96]比較了VGG16、VGG19、Inception-v3 和ResNet50 四種不同模型的礦石密度分類準(zhǔn)確率,最后選取了效果最好的ResNet50 來對氣煤、焦煤和無煙煤進行密度四分類(<1.4、1.4~1.6、1.6~1.8 和>1.8 g·cm-3).同文獻(xiàn)[96]礦石密度分類任務(wù),文獻(xiàn)[97]在ResNet的基礎(chǔ)上研究了不同注意力機制(通道注意力、空間注意力和通道空間混合注意力)對礦石密度分類準(zhǔn)確率的影響,最后選取了效果最好的混合注意力來協(xié)助分類網(wǎng)絡(luò)完成對礦石密度的分類.文獻(xiàn)[98]采用卷積神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)金礦表面的紋理特征,從而完成了對金礦品味的三分類(<1、1~5和>5 g·t-1).
本文對三大類、六小類常見的礦石圖像處理任務(wù)及其用到的三種常見深度學(xué)習(xí)技術(shù)進行了較為全面的總結(jié),具體包括:①采用圖像分類技術(shù)可以完成單個體礦石分類和粒度分類;②采用語義分割技術(shù)可以完成多個體礦石分類和粒度統(tǒng)計;③采用目標(biāo)檢測技術(shù)可以完成多個體礦石分類、大塊檢測和異物識別.上述任務(wù)在礦山質(zhì)量控制、安全監(jiān)控等方面起著重要作用.在現(xiàn)有研究基礎(chǔ)上,還存在以下問題值得研究:
(1) 傳送皮帶上多個體礦石分類的研究.由于礦石表面被灰塵、泥土和水分等所覆蓋,丟失了具有判別性的顏色和紋理等重要特征,導(dǎo)致礦山現(xiàn)場皮帶上的礦石分類問題還未被很好地解決.
(2) 礦石三維重構(gòu)技術(shù)的研究.二維礦石圖像丟失了大量特征,三維重構(gòu)能得到礦石更加豐富的形狀、體積等信息,將更有利于礦石粒度的分析.
(3) 時空多樣性數(shù)據(jù)集的構(gòu)造.由于礦石種類、尺寸和形狀各異,以及外界自然條件的多變,目前大部分研究的訓(xùn)練集往往沒有覆蓋真實樣本的多樣性,導(dǎo)致了很多模型難以走出實驗室這一困境.
(4) 語義分割標(biāo)簽的智能化制作.傳送皮帶圖像中礦石數(shù)量多且存在很多細(xì)小目標(biāo),導(dǎo)致人為制作標(biāo)簽費時費力.
(5) 模型的輕量化處理.無論是針對便攜嵌入式設(shè)備,還是為了滿足對高速傳送皮帶圖像處理的實時性要求,都需要對深度模型進行輕量化處理,在盡可能保證模型精度的同時,提高模型預(yù)測效率.
總之,隨著深度學(xué)習(xí)技術(shù)的進一步發(fā)展和智能制造的進一步落實,有理由相信深度學(xué)習(xí)技術(shù)和礦石圖像處理任務(wù)的結(jié)合會更為多樣、更為有效,進而推動智慧礦山的建設(shè).