宛 鶴 張金艷 屈娟萍 張崇輝 薛季瑋 王 森 卜顯忠
(1.西安建筑科技大學(xué)資源工程學(xué)院,陜西 西安 710055;2.奧盧大學(xué)奧盧礦業(yè)學(xué)院,芬蘭 奧盧 FI-9004)
礦物識別是采礦工程、選礦工程等學(xué)科研究的基 礎(chǔ)[1-3]。 目前,國內(nèi)礦物識別與分類主要依據(jù)人工經(jīng)驗,工作人員通常根據(jù)顏色、紋理、硬度等物理特征,并借助激光誘導(dǎo)擊穿光譜、顯微光學(xué)觀察、能量散射光譜等設(shè)備來判斷礦物種類[4-9],然而,這些過程對工作人員的專業(yè)素養(yǎng)要求較高,分析步驟也較為復(fù)雜,導(dǎo)致整體識別效率偏低。 近年來,為提高礦物識別效率并解決識別準確率低的問題,以深度學(xué)習(xí)為代表的礦物智能識別模型成為研究熱點。
隨著視覺檢測技術(shù)的高速發(fā)展,學(xué)者們已經(jīng)建立了多種基于圖像識別的礦物分類模型。 IGLESIAS等[10]利用深度殘差模型(Deep Residual Network,ResNet18)對5 種礦物的偏光顯微鏡圖像進行了分類,其準確率為89%。 SU 等[11]對LeNet-5 模型的輸入樣本、激活函數(shù)等模塊進行改進,實現(xiàn)了煤和矸石的有效分類。 白林等[12]利用Inception-V3 模型對15種礦物進行分類,其測試精度為63%,該研究表明,深度學(xué)習(xí)對于提取部分巖石礦物特征信息具有明顯效果。 LIU 等[13]通過對支持向量機(Support Vector Machines,SVM)模型、隨機森林(Random Forest,RF)模型、基于深度學(xué)習(xí)模型和顏色特征模型耦合的綜合識別模型進行對比分析,證明了耦合模型的良好性能。 李明超等[14]基于Inception-V3 模型,利用礦物圖像強化后的紋理特征以及由K-means 算法得到的顏色特征,建立了一套可區(qū)分19 種不同礦物的耦合分類方法。 ZENG 等[15]利用EfficientNet-b4 模型實現(xiàn)了對36 種礦物的分類,但其準確率僅為71.2%,當(dāng)其將礦物莫氏硬度特征與圖像特征耦合時,模型準確率可達到90.6%。 LIANG 等[16]通過將圖像切割方法、SBV 算法與各模型相結(jié)合,使礦物圖像準確率比原模型ResNet-50、ViT (Vision Transformer)、EfficientNet-B0 分別提高了34.38%、18.75%和43.75%。 在深度學(xué)習(xí)中,充足的數(shù)據(jù)樣本是保證模型訓(xùn)練成功的關(guān)鍵。 然而,由于礦物種類繁多,且樣本數(shù)量較少,因此尚未建立標準的礦物數(shù)據(jù)集。 已有研究發(fā)現(xiàn)遷移學(xué)習(xí)[17-18]可有效解決這一問題。 PU 等[19]采用VGG16(Visual Geometry Group,VGG)遷移模型實現(xiàn)對煤和煤矸石分類,準確率為82.5%。 王李管等[20]研究發(fā)現(xiàn):Wu-VGG19 遷移模型對黑鎢礦石與圍巖的識別效果最優(yōu),識別率為97.51%;Wu-v3 遷移模型對石英脈石的識別效果最佳,其識別率為99.6%。 張野等[21]以Inception-v3 模型為基礎(chǔ),結(jié)合遷移策略實現(xiàn)了對花崗巖、千枚巖和張角礫巖的有效分類。 ZHOU等[22]基于MobileNet 模型,結(jié)合遷移學(xué)習(xí)與SE(Squeeze-and-Excitation)注意力機制,使得7 種礦物分類準確率達到96%。
上述研究表明,基于深度學(xué)習(xí)的礦物識別可以較好地解決傳統(tǒng)方法中效率偏低的問題,并具有較高的準確率。 然而仍存在一些問題,例如當(dāng)?shù)V物識別種類較多時,模型準確率會顯著下降,特別是當(dāng)僅有礦物圖片數(shù)據(jù)時,現(xiàn)有的礦物識別模型準確率不佳,且模型過多的計算量和內(nèi)存需求使礦物檢測模型難以在手機、樹莓派等小型終端設(shè)備上實際應(yīng)用,極大地限制了礦物識別與分類技術(shù)的推廣和應(yīng)用。 為解決上述問題,本研究以19 種礦物圖像作為輸入,提出一種基于改進的MobileNet V3 礦物圖像智能識別模型。針對MobileNet V3 模型中的SE 注意力機制存在無法提取空間信息的問題,引入?yún)f(xié)調(diào)注意力機制,以增強模型對礦物特征的學(xué)習(xí)能力,并全面捕捉礦物關(guān)鍵信息。 同時,采用遷移學(xué)習(xí)方法加速模型收斂速度、提高模型泛化性。 最后,使用t-SNE[23]方法對其分類結(jié)果進行可視化分析,進一步驗證新模型的有效性。 本研究旨在有效提高礦物識別準確率和模型泛化性,顯著降低計算量和內(nèi)存需求,從而實現(xiàn)對不同礦物的準確高效識別。
在計算機視覺領(lǐng)域發(fā)展過程中,為解決傳統(tǒng)模型存在的復(fù)雜度高、參數(shù)量大、應(yīng)用部署環(huán)境要求高等問題,輕量化模型應(yīng)運而生。 MobileNet 系列模型包含MobileNet V1、MobileNet V2、MobileNet V3 這3 種模型。 MobileNet V1 模型主要由深度可分離模塊疊加而成;MobileNet V2 模型在MobileNet V1 模型基礎(chǔ)上引入倒殘差和線性瓶頸層模塊,即瓶頸殘差模塊;MobileNet V3 模型引入了MobileNet V1 模型的深度可分離卷積模塊和MobileNet V2 模型中的瓶頸殘差模塊。 同時,MobileNet V3 模型添加了SE 注意力模塊,并引入一種新的激活函數(shù)h-swish(x)。 SE 模塊通過學(xué)習(xí)通道特征關(guān)系增強網(wǎng)模型學(xué)習(xí)能力,而hswish 函數(shù)具有強大的非線性表達能力和漸進飽和特性,適用于深度神經(jīng)網(wǎng)絡(luò)中的卷積層和全連接層,可為模型提供更好的梯度流動和優(yōu)化性能,從而提高模型的準確性和訓(xùn)練效率。 MobileNet V3 模塊如圖1所示。
圖1 MobileNet V3 模塊Fig.1 MobileNet V3 block
MobileNet V3 模型根據(jù)計算復(fù)雜度的不同,共有MobileNet V3-Large 和MobileNet V3-Small 兩個版本,本研究綜合考慮礦物類別與數(shù)量,選取MobileNetV3-Small 版本,模型具體結(jié)構(gòu)見表1。 首先,將大小為2242×3(高度與寬度大小為224,通道數(shù)為3)的圖像作為輸入,經(jīng)過一系列瓶頸殘差模塊及融合SE 結(jié)構(gòu)的瓶頸殘差模塊操作,輸出大小為72×576 的特征圖,然后通過全局平均池化(Pool)、全連接層等操作,最終得到大小為1 000 的分類結(jié)果。
表1 MobileNet V3-Small 模型結(jié)構(gòu)Table 1 Structure of the MobileNet V3-Small model
在訓(xùn)練數(shù)據(jù)充足的情況下,深度學(xué)習(xí)能夠從圖像中提取多層次特征,以捕捉物體之間的微小差異。 然而在實際應(yīng)用中,部分研究對象(如礦物圖像)訓(xùn)練數(shù)據(jù)難以搜集,導(dǎo)致模型訓(xùn)練無法取得理想結(jié)果。 為解決數(shù)據(jù)稀缺問題,研究者通常采用遷移學(xué)習(xí)策略,并使用大規(guī)模數(shù)據(jù)集(如ImageNet)進行預(yù)訓(xùn)練。 遷移學(xué)習(xí)在缺乏大規(guī)模訓(xùn)練數(shù)據(jù)的情況下,能夠利用已有模型在其他任務(wù)學(xué)習(xí)到的特征輔助目標任務(wù)學(xué)習(xí);ImageNet 中龐大的數(shù)據(jù)基礎(chǔ)使其遷移效果總是優(yōu)于其他數(shù)據(jù)集,這有助于在降低模型訓(xùn)練成本的同時避免過擬合。 遷移學(xué)習(xí)為解決實際應(yīng)用中數(shù)據(jù)不足問題提供了一種有效途徑,使深度學(xué)習(xí)模型在訓(xùn)練數(shù)據(jù)不足時仍能達到目標要求。
鑒于本研究涉及的礦物種類繁多且數(shù)據(jù)集規(guī)模有限,同時ImageNet 數(shù)據(jù)集中存在與礦物接近的地質(zhì)類數(shù)據(jù),故采用遷移學(xué)習(xí)方式,將MobileNet V3 原模型與礦物識別模型之間實現(xiàn)參數(shù)共享,從而降低訓(xùn)練成本,并提高礦物智能識別模型的泛化性。
MobileNet V3 模型的SE 注意力機制主要關(guān)注內(nèi)部通道信息,而未考慮位置信息影響。 相比之下,CA注意力機制[24]通過將位置信息嵌入通道注意力中,既避免引入過多計算量,又能使模型獲取更豐富的信息。 CA 注意力機制的實現(xiàn)主要包含兩個過程,即協(xié)調(diào)信息嵌入和協(xié)調(diào)信息生成。 在協(xié)調(diào)信息嵌入階段,采用全局池化方法導(dǎo)致全局空間信息壓縮至通道信息中,位置信息難以保存。 為了促使注意力模塊能夠捕捉具有精確位置信息的特征數(shù)據(jù),CA 注意力機制對全局池化進行分解,并轉(zhuǎn)為一對一維特征編碼操作。 給定輸入X,并應(yīng)用尺寸為(h,1)和(1,w)的池化核,分別對水平及垂直方向的每個通道進行編碼,如式(1)、式(2)所示。 在此轉(zhuǎn)換過程中,特征分別沿水平和垂直方向進行聚合,用以捕捉遠距離的相互關(guān)系和位置信息。 這使得注意力模塊在空間方向上能更好地捕捉目標之間的關(guān)聯(lián),同時在另一個方向保留位置信息,從而提高模型對目標的準確定位能力,增強特征提取效果。 在協(xié)調(diào)信息生成階段,涉及將具有精確編碼信息的特征層與原始特征圖合并,形成包含水平和垂直位置信息的中間特征。 該中間特征被用于最終的協(xié)同注意力層,為模型提供更全面和準確的信息,使模型在處理復(fù)雜任務(wù)時更加精確和高效。 整個過程通過對空間位置的細致處理,有效增強了模型的感知能力和任務(wù)處理能力。
式中,h、w分別為輸入圖像的高度和寬度;分別為沿水平方向和垂直方向進行平均池化操作得到的輸出結(jié)果。
CA 注意力機制在本研究模型中的具體實現(xiàn)流程如圖2 所示。 步驟為:① 輸入大小為C×H×W(即通道數(shù)為C,高寬為H×W)的礦物圖像特征圖;② 通過使用不同池化核(H,1)和(1,W)沿著輸入特征圖的2個方向進行池化,對得到的2 個嵌入特征圖沿空間維度進行拼接(Concat);③ 經(jīng)過1×1 卷積(Conv2d)變換后,應(yīng)用激活函數(shù)對其進行激活(BatchNorm+Nonlinear);④ 沿空間維度進行拆分操作(Split),將特征圖分為2 個獨立部分;⑤ 對分離特征圖進行transform 和Sigmoid 操作,并將得到的特征圖通過廣播機制與輸入特征圖進行逐元素相乘操作(Re-weight),進而得到礦物圖像特征權(quán)重。 通過利用池化、卷積、激活函數(shù)、分割、逐元素相乘等方法,實現(xiàn)對輸入特征圖的精細加工。 這樣的處理使得模型能夠準確捕捉圖像特征之間的關(guān)聯(lián)性,并為不同部分賦予合適權(quán)重,從而提高模型對礦物圖像特征的準確表達和理解能力。
圖2 CA 注意力模塊Fig.2 Coordinate Attention block
針對當(dāng)前礦物圖像分類模型搭載設(shè)備計算量大及準確率較低的問題,本研究以MobileNet V3 模型為基礎(chǔ),采用遷移學(xué)習(xí)策略并嵌入CA 模塊,構(gòu)建了礦物分類模型,命名為CA-MobileNet V3 模型。 礦物智能識別模型整體結(jié)構(gòu)如圖3 所示。 具體流程如下:
圖3 礦物智能識別模型流程Fig.3 Workflow of the mineral intelligent recognition model
(1)采用已在ImageNet 預(yù)訓(xùn)練的MobileNet V3模型,并經(jīng)微調(diào)處理后,通過遷移學(xué)習(xí)方式將其加載至礦物分類模型框架中。 利用ImageNet 大規(guī)模數(shù)據(jù)訓(xùn)練得到的通用特征,提高模型對礦物圖像的學(xué)習(xí)能力。
(2)將MobileNet V3 模型中的SE 模塊更換為CA 模塊,利用CA 模塊捕捉圖像特征之間的關(guān)聯(lián)性,實現(xiàn)對多特征信息的有效融合,從而提高模型對礦物圖像的表達能力。
(3)通過全局平均池化等操作實現(xiàn)對礦物圖像的識別分類。 該結(jié)構(gòu)設(shè)計使得模型更好地適應(yīng)礦物圖像分類任務(wù),充分發(fā)揮MobileNet V3 模型的輕量級優(yōu)勢。 同時,引入CA 模塊提升對圖像特征的捕捉和表達能力。 通過對19 種礦物圖像數(shù)據(jù)進行一系列試驗驗證后,本研究構(gòu)建的CA-MobileNet V3 模型在礦物分類準確率和模型性能方面均得到顯著提升,相較于現(xiàn)有的主流模型具有更為出色的性能。
本次試驗采用Pytorch 框架對遷移模型進行搭建和測試,該框架可快速靈活地構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,是理想的試驗工具。數(shù)據(jù)預(yù)處理和模型訓(xùn)練的硬件環(huán)境為:Intel(R)Core(TM)i7-9700 CPU@3.00 GHz 處理器,64 GB 內(nèi)存,NVIDIA GeForce GTX 1660 Ti。 經(jīng)過測試,最優(yōu)試驗參數(shù)取值為:衰減策略采用固定步長衰減法(StepLR),gamma系數(shù)設(shè)置為0.5;模型訓(xùn)練中采用帶動量的Adam(Adaptive Moment Estimation)方法,動量因子設(shè)置為0.1;損失計算方式為交叉熵計算方法;每個batch 訓(xùn)練樣本數(shù)量(batch_size)設(shè)置為32,訓(xùn)練周期epochs設(shè)置為60 輪。
本研究礦物數(shù)據(jù)集中的圖片來源于mindat. org網(wǎng)站及自行拍攝,共19 種礦物圖像,各種礦物及數(shù)量見表2。 鑒于數(shù)據(jù)相對有限可能會導(dǎo)致模型出現(xiàn)過擬合現(xiàn)象,本研究選取旋轉(zhuǎn)、垂直變換等數(shù)據(jù)增強手段將每種圖像增加至2 000 幅左右[25-26],以確保模型在訓(xùn)練過程中能更好地學(xué)習(xí)并泛化到不同的數(shù)據(jù)情況。 為對模型進行有效評估,將數(shù)據(jù)集按照8 ∶1 ∶1 劃分為訓(xùn)練集(train)、驗證集(val)、測試集(test)。 同時將數(shù)據(jù)集像素統(tǒng)一壓縮為224×224,以提高模型的準確率及計算效率,并適應(yīng)不同模型的輸入。
表2 礦石種類及其數(shù)量Table 2 Mineral types and quantities 幅
在實際分類任務(wù)中,預(yù)測值與真實值的吻合情況見表3。 其中,TP表示真實值為正,預(yù)測值為正;FP表示真實值為正,預(yù)測值為負;FN表示真實值為負,預(yù)測值為正;TN為真實值為負,預(yù)測值為負。
表3 分類指標Table 3 Classification index
本研究模型訓(xùn)練及測試結(jié)果依據(jù)準確率(accuracy)、f1-score 等指標對各礦物的識別模型進行性能評估,計算公式如下:
式中,precision為精確率;recall為召回率。 可分別進行如下計算:
各模型訓(xùn)練損失曲線,以及驗證集損失值、準確率、f1-score 值變化曲線如圖4 所示,其中mobilenet v3為未經(jīng)遷移學(xué)習(xí)模型,MobileNet V3 為經(jīng)遷移學(xué)習(xí)的模型,CA-MobileNet V3 為本研究改進模型,ShuffleNet V2、EfficientNet V2 為CA-MobileNet V3 的對比分析模型。 由圖4(a)可知:經(jīng)過遷移學(xué)習(xí)后的各模型均較快進入收斂狀態(tài)且穩(wěn)定趨于0,未經(jīng)遷移學(xué)習(xí)的mobilenet v3 模型則相對較慢進入收斂狀態(tài)且收斂于0.5,這表明遷移學(xué)習(xí)對模型訓(xùn)練起到積極作用。 由圖4(b)、圖4(c)、圖4(d)可知:在模型訓(xùn)練過程中,CA-MobileNet V3 驗證集損失值最低,且準確率及f1-score 值均優(yōu)于mobilenet v3、MobileNet V3、ShuffleNet V2、EfficientNet V2 模型,表明改進模型的CA 注意力機制將各礦物圖像的位置信息有效嵌入通道注意力中,并對礦物圖像特征進行了有效提取。 因此,CAMobileNet V3 模型更適合應(yīng)用于礦物圖像分類。
圖4 各模型性能曲線Fig.4 Performance curves of various models
將訓(xùn)練后的模型應(yīng)用于測試集,得到各模型的相關(guān)評價指標見表4。 由表4 可知:經(jīng)過訓(xùn)練的3 種遷移模型在測試集準確率(testaccuracy)和測試集f1-score(testf1-score)方面均達到80%以上,表現(xiàn)出良好的類別預(yù)測一致性。 相較之下,未遷移學(xué)習(xí)模型mobilenet v3 的準確率僅為51.42%,突顯了基于遷移學(xué)習(xí)的輕量型模型在礦物分類中的有效性。 ShuffleNet V2 和EfficientNet V2 遷移模型測試集Top1-準確率均為81.61%,但模型大小均超過20 MB。 相比之下,準確率為93.90%的CA-MobileNet V3 遷移模型在保持高性能的同時,其模型大小僅為4.64 MB,且比準確率為88.67%的MobileNet V3 模型小22.80%。 對比可知,CA-MobileNet V3 遷移模型測試效果最為出色,Top1-準確率為93.90%,f1-score 值為93.89%,Top2-準確率達到98.58%。 這表明引入的CA 注意力機制可有效提升模型特征提取能力,在礦物分類方面性能提升顯著。 綜上所述,CA-MobileNet V3 遷移模型不僅具有較高的礦物分類準確率,而且其模型較小,相比mobilenet v3、ShuffleNet V2、EfficientNet V2 及MobileNet V3 模型優(yōu)勢顯著,是本研究最佳模型。
表4 不同模型測試結(jié)果Table 4 Test results for different models
CA-MobileNet V3 模型部分測試集的分類識別效果如表5 所示。 由表5 可知:在前3 幅礦物圖像中,模型的預(yù)測種類與實際種類一致,突顯了CA-MobileNet V3 模型在面對不同類型礦物時的出色分類識別能力,反映出該模型在多類別礦物分類中的魯棒性。 對于第4 幅礦物圖像,模型將菱鐵礦預(yù)測為磷灰石,預(yù)測出現(xiàn)偏差。 觀察圖5 中菱鐵礦和磷灰石礦物圖像可發(fā)現(xiàn),兩者在顏色、紋理等方面存在相對接近現(xiàn)象,從而導(dǎo)致模型發(fā)生誤識別。
表5 部分識別結(jié)果Table 5 Part of the recognition results
圖5 礦物圖像Fig.5 Mineral images
為更直觀地展示分類效果,本研究采取t-SNE 方法對高維數(shù)據(jù)進行降維表達,以便將數(shù)據(jù)分布規(guī)律進行可視化展示。 對各模型最后一層全連接層進行測試集語義特征提取,所得二維平面效果如圖6 所示。
圖6 各模型t-SNE 可視化結(jié)果Fig.6 Visualization results of t-SNE for each model
由圖6 可知:測試集準確率僅為51.42%的mobilenet v3 模型的t-SNE可視圖中,各類數(shù)據(jù)混亂無序,沒有形成清晰的簇結(jié)構(gòu)。 在ShuffleNet V2 和EfficientNet V2 模型的二維映射中,雖然形成一部分簇結(jié)構(gòu),但各簇之間交叉過多,模型對各類礦物種類的特征區(qū)分效果不理想。 與之相比,MobileNet V3 模型的二維語義特征映射效果顯著提升,相對而言CA-MobileNet V3 模型中各類礦物之間的特征間隔更為明顯。 通過t-SNE 可視化對比分析可知,CA-MobileNet V3 模型在各類礦物分類中表現(xiàn)最佳,具有出色的分類效果,與數(shù)據(jù)分析結(jié)果一致,進一步驗證了該模型的可靠性。
(1)本研究提出了礦物智能識別模型CA-MobileNet V3。 該模型以構(gòu)建的19 種礦物圖像數(shù)據(jù)集作為研究對象,以輕量型模型MobileNet V3 為基礎(chǔ),通過可融合多特征的協(xié)調(diào)注意力機制更換原有的SE注意力機制,并采用遷移學(xué)習(xí)方法對CA-MobileNet V3 模型進行訓(xùn)練,提升了模型中礦物圖像特征融合能力及模型收斂速度。 同時,利用t-SNE 可視化方法進一步驗證了模型可靠性。
(2)針對19 種礦物圖像,將CA-MobileNet V3 模型與mobilenet v3、MobileNet V3、ShuffleNet V2、EfficientNet V2 模型進行對比,反映出遷移學(xué)習(xí)模型收斂速度優(yōu)勢明顯。 其中,CA-MobileNet V3 模型在訓(xùn)練過程中準確率最高,且模型大小顯著低于其他模型,滿足模型輕量化要求。 同時,t-SNE 可視化方法清晰展示了CA-MobileNet V3 模型在礦物分類任務(wù)中具有良好效果,進一步證明該模型在礦物識別方面具有顯著優(yōu)勢。 可見,協(xié)調(diào)注意力機制可有效融合通道及空間信息從而提升模型準確率。
(3)本研究模型在礦物特征相似程度較高的情況下,識別效果不佳。 在后續(xù)研究中,考慮引入更為精細的特征提取方法或模型優(yōu)化策略,提高模型對于細微差異的敏感性。