韓鑫豪,何月順,陳 杰,熊凌龍,鐘海龍,杜 萍,田 鳴
(1.東華理工大學(xué)信息工程學(xué)院,江西南昌 330013;2.江西省放射性地學(xué)大數(shù)據(jù)技術(shù)工程實(shí)驗(yàn)室,江西南昌 330013;3.鄭州市公安局網(wǎng)監(jiān)支隊(duì),河南鄭州 450000)
巖石識別是地質(zhì)調(diào)查的基礎(chǔ)性工作。在野外地質(zhì)調(diào)查中,地質(zhì)工作者會根據(jù)巖石的顏色、結(jié)構(gòu)構(gòu)造、礦物成分等辨識巖石的巖性。隨著計(jì)算機(jī)視覺和深度學(xué)習(xí)技術(shù)的飛速發(fā)展,巖石紋理圖像的自動識別和分類已經(jīng)成為地質(zhì)學(xué)中一個熱門的研究方向。近年來,許多國際和國內(nèi)的研究團(tuán)隊(duì)都投入大量的精力進(jìn)行此類研究,以期獲得更高的識別精度和更穩(wěn)健的分類效果[1]。
自AlexNet[2]在ImageNet[3]上取得重大突破后,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[4]便一直引領(lǐng)著計(jì)算機(jī)視覺領(lǐng)域的研究。隨著深度學(xué)習(xí)的發(fā)展,各種卷積神經(jīng)網(wǎng)絡(luò)在巖石識別分類方面取得顯著進(jìn)展。卷積運(yùn)算可以有效地替代人工提取特征的方法,從而更準(zhǔn)確地獲取圖像紋理與色彩中的巖石圖像信息,精準(zhǔn)識別巖石類型。文獻(xiàn)[5]基于Iception-v3 深度卷積神經(jīng)網(wǎng)絡(luò)模型,建立了基于巖石圖像的遷移學(xué)習(xí)模型,雖然精確度不理想,但是提高了數(shù)據(jù)收斂的速度;文獻(xiàn)[6]采用卷積神經(jīng)網(wǎng)絡(luò)提出了一種基于巖石圖像深度學(xué)習(xí)的巖性智能識別方法,并均取得了非常好的識別效果,結(jié)果表明基于CNN 的網(wǎng)絡(luò)在圖像識別上提取底層特征方面有較大的優(yōu)勢,但是仍然無法避免缺失全局特征的問題。對于卷積神經(jīng)網(wǎng)絡(luò)在全局特征缺失的問題上,文獻(xiàn)[7]在RetinaNet 的基礎(chǔ)上對特征融合進(jìn)行改進(jìn),并增加空間和通道注意力,有效提升了對小目標(biāo)的識別準(zhǔn)確度。在上述文獻(xiàn)的基礎(chǔ)上,文獻(xiàn)[8]引入實(shí)例級去噪模塊,實(shí)現(xiàn)了更好的特征提取,進(jìn)一步提高了圖像識別準(zhǔn)確度。文獻(xiàn)[9]將水平感興趣區(qū)域轉(zhuǎn)換為旋轉(zhuǎn)感興趣區(qū)域(Rotation Region-of-Interest, RRoI),使用RRoI 池化進(jìn)一步修正旋轉(zhuǎn)檢測框的坐標(biāo)信息,有效提升了模型預(yù)測結(jié)果的準(zhǔn)確率。文獻(xiàn)[10]提出的基于巖石目標(biāo)檢測的巖性智能識別技術(shù),其核心是采用基于Faster R-CNN 和YOLO4 的巖石檢測網(wǎng)絡(luò)在圖像中找出所有巖石目標(biāo),并確定它們的類別和位置。這樣不僅可以確定巖石的位置信息,同時也能進(jìn)一步提高巖石巖性識別的準(zhǔn)確率。
盡管這些研究都取得了很好的成果,但目前所使用的模型和技術(shù)在處理復(fù)雜、多變的巖石紋理圖像時仍然存在一些局限性。例如,卷積神經(jīng)網(wǎng)絡(luò)雖然在許多視覺任務(wù)中展現(xiàn)出強(qiáng)大的性能,但其固定的感受野和局部的處理方式可能限制了其在處理巖石紋理圖像時的表現(xiàn)。目前,文獻(xiàn)[11]作為一個新型的深度學(xué)習(xí)網(wǎng)絡(luò),在許多計(jì)算機(jī)視覺任務(wù)上都展現(xiàn)出了超過傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的性能。自適應(yīng)的感受野和全局的處理方式使其更適合處理紋理豐富、結(jié)構(gòu)復(fù)雜的巖石圖像。針對巖石圖像的特點(diǎn),研究者們嘗試對Transformer 進(jìn)行改進(jìn)。文獻(xiàn)[12]使用Transformer 進(jìn)行圖像識別,并使用深度可分離卷積降低了計(jì)算復(fù)雜度。文獻(xiàn)[13]采用Swin Transformer 進(jìn)行圖像分類,并且使用圖像增強(qiáng)技術(shù)提升模型的魯棒性。文獻(xiàn)[14]使用Transformer 編碼器在基于標(biāo)記的緊湊時空對上下文進(jìn)行建模,并將學(xué)習(xí)到豐富的上下文信息標(biāo)記反饋到像素空間進(jìn)而獲得更大的感受野。文獻(xiàn)[15]綜合CNN 和Transformer 中自注意力的優(yōu)點(diǎn),更加注重全局和局部信息的聚合,提升了巖石圖像識別分類性能。受文獻(xiàn)[16]影響,文獻(xiàn)[17]提出AO2-DETR 框架,避免了大量復(fù)雜的前/后處理。文獻(xiàn)[18]使用結(jié)構(gòu)化的Transformer 提高特征收集范圍,并設(shè)計(jì)空間前饋神經(jīng)網(wǎng)絡(luò)解決了Transformer 檢測中局部空間感受野不足的問題。文獻(xiàn)[19]使用預(yù)訓(xùn)練好的CNN 提取特征,并利用Transformer 構(gòu)建針對圖像的特征金字塔。文獻(xiàn)[20]在特征金字塔中嵌入Transformer 塊,以增強(qiáng)特征融合能力。
雖然上述方法在巖石圖像識別領(lǐng)域都取得了一定的提升,但是Transformer 在巖石圖像識別中的直接應(yīng)用仍存在很多問題。例如受困于之前研究中的算法模型和數(shù)據(jù)集等原因,對于復(fù)雜的非線性問題難以進(jìn)行處理;又比如在脫離樣本數(shù)據(jù)之后,無法對其他環(huán)境中的巖石圖像樣本進(jìn)行準(zhǔn)確的巖性識別,缺乏泛化性能。
鑒于此,本文引入全新的改進(jìn)Swin Transformer[21]網(wǎng)絡(luò)來進(jìn)一步研究巖石紋理圖像的自動識別和分類,期望能夠進(jìn)一步提高識別的精度和穩(wěn)健性。本文旨在探討Swin Transformer 網(wǎng)絡(luò)在巖石紋理圖像識別和分類上的應(yīng)用,并與傳統(tǒng)的模型進(jìn)行比較,驗(yàn)證其在此類任務(wù)上的優(yōu)越性。
在本文架構(gòu)的優(yōu)化Swin Transformer 網(wǎng)絡(luò)中的數(shù)據(jù)預(yù)處理階段中,使用了AugMix[22]數(shù)據(jù)增強(qiáng)算法對巖石圖像樣本進(jìn)行數(shù)據(jù)增強(qiáng)以達(dá)到數(shù)據(jù)預(yù)處理的目的。在數(shù)據(jù)預(yù)處理的方法中,數(shù)據(jù)增強(qiáng)技術(shù)是目前可以將擴(kuò)增的圖像樣本盡可能接近真實(shí)分布的一種重要方法。
為了提高對巖石圖像樣本識別的泛用性,并且提升對于巖石紋理的特征提取,本文引入了AugMix 數(shù)據(jù)增強(qiáng)算法對數(shù)據(jù)集進(jìn)行處理。AugMix 首先通過多樣化增強(qiáng)對于給定的輸入圖像應(yīng)用多種不同的增強(qiáng)操作(如旋轉(zhuǎn)、平移、剪切等)以生成多個增強(qiáng)版本的圖像;之后再將這些增強(qiáng)的圖像使用混合權(quán)重線性組合以產(chǎn)生最終的增強(qiáng)輸出,這種混合過程有助于創(chuàng)建更多樣化和具有挑戰(zhàn)性的樣本,因?yàn)榻Y(jié)果圖像將包含來自不同增強(qiáng)的組合特征;最后AugMix 引入了一致性損失,訓(xùn)練模型確保對混合增強(qiáng)樣本的預(yù)測與其對原始圖像和單獨(dú)增強(qiáng)版本的預(yù)測保持一致。在AugMix 中,一致性損失使用Jensen-Shannon Divergence(JSD)度量。JSD 被用來衡量模型對于原始圖像、增強(qiáng)圖像以及混合圖像之間預(yù)測的一致性。具體來說,假設(shè)模型的預(yù)測概率分布分別為p(原始圖像)、q1,q2,…,qn(n個增強(qiáng)圖像),JSD 定義為:
式中:KL 是Kullback-Leibler 散度;每一個mi是原始圖像的預(yù)測p和增強(qiáng)圖像qi的預(yù)測之間的平均值。
在AugMix 的上下文中,模型在每次迭代中使用JSD最小化原始圖像和它的增強(qiáng)版本之間的預(yù)測差異,這樣做是為了確保模型對于不同的數(shù)據(jù)擾動或增強(qiáng)具有魯棒性,從而提高其泛化能力。通過AugMix 在ImageNet-2012、CIFAR-10 和CIFAR-100 等數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)表明,AugMix 數(shù)據(jù)增強(qiáng)算法可以改進(jìn)網(wǎng)絡(luò)架構(gòu)的泛化能力,并提升網(wǎng)絡(luò)模型對圖像樣本識別的魯棒性。
本文提出的優(yōu)化Swin Transformer 中的另一關(guān)鍵技術(shù)是:采用遷移學(xué)習(xí)在增強(qiáng)巖石的數(shù)據(jù)集上訓(xùn)練Swin Transformer 模型遷移學(xué)習(xí)技術(shù),使模型在訓(xùn)練開始前能擁有更高的初始性能,訓(xùn)練過程中模型性能提升的速率更快,訓(xùn)練所得模型擁有更好的泛化能力與魯棒性[23]。
鑒于傳統(tǒng)Transformer 中逐像素計(jì)算的自注意力機(jī)制計(jì)算量龐大,且其中的位置編碼操作無法捕獲到圖像中的局部相關(guān)性和整體結(jié)構(gòu)信息,Swin Transformer 提出了分層結(jié)構(gòu)和移位窗口機(jī)制,有效減少了計(jì)算量并提升了檢測的準(zhǔn)確度。Swin Transformer 的具體結(jié)構(gòu)如圖1 所示。
圖1 Swin Transformer 具體結(jié)構(gòu)圖
將輸入大小為H×W×3 的圖像通過標(biāo)記分割塊分割成相同大小的塊以送入后續(xù)處理。一共被分為4 個階段,每個階段中都包含兩部分,除了第一個階段由一個線性輸入層和一個Swin Transformer 塊構(gòu)成之外,其余三個均由一個標(biāo)記合并塊和一個Swin Transformer 塊構(gòu)成。其中,標(biāo)記合并塊類似于池化操作,但是不會造成信息的損失。經(jīng)過每個階段處理后分辨率都變?yōu)樵鹊囊话?,而通道?shù)則變?yōu)橹暗膬杀丁?/p>
圖2 為Swin Transformer 塊的詳細(xì)結(jié)構(gòu),可以看到與Transformer 塊結(jié)構(gòu)類似,不同之處在于將原始的多頭自注意力(Multi-Head Self Attention, MSA)換成了窗口多頭自注意力(Window Multi-Head Self Attention, W-MSA)和移動窗口多頭自注意力(Shift Window Multi-Head Self Attention, SW-MSA)??紤]到MSA 在全局內(nèi)逐像素計(jì)算的元余性,W-MSA 僅在一個小窗口內(nèi)進(jìn)行Transformer 操作。假設(shè)每個窗口包含H×W個小塊,那么二者的計(jì)算復(fù)雜度分別如公式(1)和公式(2)所示,可以看出W-MSA 大大減少了計(jì)算復(fù)雜度。此外,考慮到窗口的設(shè)置導(dǎo)致了不同窗口間的信息無法獲取的問題,進(jìn)一步提出SW-MSA。首先使用移動窗口實(shí)現(xiàn)跨窗口的特征提取,然后使用循環(huán)移位操作合并窗口以進(jìn)行批處理,并利用掩碼操作消除不相關(guān)部分的關(guān)聯(lián)性,實(shí)現(xiàn)了高效的檢測性能。
圖2 Swin Transformer 塊的結(jié)構(gòu)圖
1.3.1 基于融合AugMix 算法和Swin Transfomer 網(wǎng)絡(luò)的巖石巖性識別網(wǎng)絡(luò)結(jié)構(gòu)
本文提出了一種以Swin Transformer 為骨干網(wǎng)絡(luò)的巖石圖像分類網(wǎng)絡(luò),該模型的具體結(jié)構(gòu)組成如圖3 所示。首先,利用AugMix 算法對已有的數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng);然后,將ImageNet 上預(yù)訓(xùn)練的基于巖石紋理增強(qiáng)的Swin Transformer 模型在增強(qiáng)數(shù)據(jù)上進(jìn)行微調(diào);最后,通過Layer Norm 層、平均池化層、全連接層和Softmax 層對巖石樣本進(jìn)行分類。
圖3 融合AugMix 算法和Swin Transfomer 網(wǎng)絡(luò)的巖石巖性識別網(wǎng)絡(luò)結(jié)構(gòu)
1.3.2 局部增強(qiáng)Swin Transfomer 主干網(wǎng)絡(luò)
對于紋理復(fù)雜、特征難以捕捉的巖石圖像分類,Swin Transformer 中仍然沒有很好地對大量空間上下文信息進(jìn)行編碼。為了解決這個問題,本文改進(jìn)Swin Transformer 并提出了局部增強(qiáng)Swin Transformer 主干網(wǎng)絡(luò)LEST,以更好地提取巖石圖像特征。該主干網(wǎng)絡(luò)的具體設(shè)計(jì)如圖4 所示??梢钥吹剑撝鞲删W(wǎng)絡(luò)一共包含4 個階段,每個階段由一個標(biāo)記合并塊(第一個階段為線性嵌入塊)、n個空間局部感知塊和n個Swin Transformer 塊組成。其中,n表示對應(yīng)階段的塊數(shù)。Swin Transformer 中一共提供了4 種不同大小的模型,考慮到巖石圖像的尺寸及模型計(jì)算量問題,本文中僅使用Swin-T 進(jìn)行改進(jìn),即對應(yīng)每個階段n的數(shù)值分別為2、2、6、2。
圖4 局部增強(qiáng)Swin Transfomer 主干網(wǎng)絡(luò)
1.3.3 空間局部感知模塊
為了加強(qiáng)網(wǎng)絡(luò)對巖石圖像中局部相關(guān)性和結(jié)構(gòu)信息的提取能力,本文融合空洞卷積和殘差連接提出了一種空間局部感知塊。本文將這一模塊插入到每一個Swin Transformer 塊之前,并與Swin Transformer 塊一起在每個階段中重復(fù)對應(yīng)的次數(shù),其具體結(jié)構(gòu)如圖5 所示??紤]到Swin Transformer 中的數(shù)據(jù)輸入格式與傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的不同,首先對原始輸入數(shù)據(jù)格式進(jìn)行調(diào)整,假設(shè)原始數(shù)據(jù)輸入為(B,H×W,C),調(diào)整后格式為(B,C,H,W),將這一特征作為殘差連接的一個分支,另一個分支則首先進(jìn)行一次3×3 的空洞卷積;然后送入一個GeLU 函數(shù)激活;最后將兩個分支相加,以擴(kuò)大感受野并提取到巖石圖像中更多的空間局部信息。與傳統(tǒng)卷積操作相比,空洞卷積可以在不損失圖像信息的情況下,擴(kuò)大感受野范圍(普通3×3 卷積的感受野為3×3,相同內(nèi)核大小下擴(kuò)張率為2 的空洞卷積感受野為5×5),從而更好地在不同尺度上對更大范圍的上下文信息進(jìn)行編碼。
圖5 空間局部感知塊
1.3.4 Dropout 函數(shù)
為了使模型對單個神經(jīng)元的依賴性減小,進(jìn)而增強(qiáng)模型的泛化能力。在Swin Transformer 算法中的Swin Transformer 塊中對多層感知機(jī)(MLP)添加Dropout 層。Swin Transformer 塊的結(jié)構(gòu)圖如圖3 所示。使用Dropout可以防止模型在訓(xùn)練數(shù)據(jù)上過度擬合,從而在測試數(shù)據(jù)上達(dá)到更好的性能。輸入首先經(jīng)過全連接層(Linear),然后通過ReLU 激活函數(shù)進(jìn)行非線性變換,接著經(jīng)過Dropout 層隨機(jī)丟棄一部分神經(jīng)元以防止過擬合,最后輸入到下一個全連接層(Linear)。整體結(jié)構(gòu)如圖6所示。
圖6 MLP 層改進(jìn)結(jié)構(gòu)圖
本文使用了1 個采集于東華理工地質(zhì)博物館的巖石樣本圖像數(shù)據(jù)集。對該數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理:主要采用反轉(zhuǎn)圖片、裁剪巖石樣本中心區(qū)域等方法,所得巖石圖像樣本共4 000 張。使用AIChallenger 平臺將圖片數(shù)據(jù)的屬性存儲在JSON 文件中。本文采用Python 腳本處理JSON 文件和數(shù)據(jù)集,將巖石圖像從數(shù)據(jù)集中篩選出來。圖7 展示了部分巖石種類圖片。
圖7 巖石圖像數(shù)據(jù)樣例
本實(shí)驗(yàn)所使用的巖石圖像樣本及其種類見表1。由于巖石圖像樣本在采集過程中數(shù)據(jù)集的樣本數(shù)目存在不平衡的情況,因此,本文在本網(wǎng)絡(luò)的訓(xùn)練過程中使用單樣本數(shù)據(jù)增強(qiáng)方法解決類別不平衡造成的模型退化問題,充分發(fā)揮分類模型的性能;使用在線數(shù)據(jù)增強(qiáng)的方式(如水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)和旋轉(zhuǎn)等)提升各類巖石圖像的多樣性,最終使各個數(shù)量的巖石樣本達(dá)到一致,減小巖石圖像樣本類別不平衡對模型性能的影響。
表1 巖石樣本詳情
為了科學(xué)分析本文新提出的模型在巖石分類時的各項(xiàng)具體工作性能,使用經(jīng)典的性能評價指標(biāo)[24],如準(zhǔn)確率、精確度、召回率、F1分?jǐn)?shù)進(jìn)行評價,公式如下:
式中:TP 為真陽性樣本數(shù)量,表示準(zhǔn)確預(yù)測為正確樣本的數(shù)量,單位為張;TN 為真陰性樣本數(shù)量,表示被預(yù)測為正確樣本,實(shí)際值也是正確樣本的數(shù)量,單位為張;FP 為假陽性樣本數(shù)量,表示被錯誤預(yù)測為錯誤樣本的數(shù)量,單位為張;FN 為假陰性樣本數(shù)量,表示被錯誤預(yù)測為正確樣本的數(shù)量,單位為張。
實(shí)驗(yàn)使用了1 張GeForce RTX 3060 顯卡Pytorch 深度學(xué)習(xí)框架、CUDA 11.3 和CuDNN 8.0 來構(gòu)建網(wǎng)絡(luò)模型所需要的訓(xùn)練環(huán)境。為了滿足Swin Transformer 網(wǎng)絡(luò)輸入圖像的尺寸要求,將數(shù)據(jù)集中所有圖像的大小調(diào)整為224×224,以方便運(yùn)算;將巖石圖像數(shù)據(jù)集按照60%、10%和30%的比例劃分為訓(xùn)練集、驗(yàn)證集和測試集以完成模型評估實(shí)驗(yàn)。其中,訓(xùn)練集和驗(yàn)證集用于模型訓(xùn)練以及模型權(quán)重參數(shù)選擇,測試集用于評估模型的性能。將AugMix 數(shù)據(jù)增強(qiáng)技術(shù)嵌入模型訓(xùn)練過程,在訓(xùn)練時完成數(shù)據(jù)增強(qiáng),然后將增強(qiáng)數(shù)據(jù)集直接輸入網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。同時,采用遷移學(xué)習(xí)技術(shù)將模型在ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練的權(quán)重參數(shù)用于當(dāng)前任務(wù),提升模型訓(xùn)練的效率。
模型訓(xùn)練期間使用的具體超參數(shù)見表2。為保證實(shí)驗(yàn)結(jié)果的嚴(yán)謹(jǐn)性,本文使用統(tǒng)一的超參數(shù)進(jìn)行網(wǎng)絡(luò)模型的訓(xùn)練,超參數(shù)根據(jù)文獻(xiàn)和多組實(shí)驗(yàn)確定。在訓(xùn)練過程中,保存準(zhǔn)確率最優(yōu)的模型,然后用測試數(shù)據(jù)集計(jì)算模型的準(zhǔn)確率、精確度、召回率和F1分?jǐn)?shù),對模型性能進(jìn)行評估。
表2 模型訓(xùn)練超參數(shù)
本實(shí)驗(yàn)使用Pytorch 框架構(gòu)建8 種模型進(jìn)行實(shí)驗(yàn)。本文評估了所提出的新模型在20 種巖石圖像種類識別任務(wù)中的性能,表3 展示了原始的Swin Transformer、預(yù)訓(xùn)練的Swin Transformer 以及本文新提出的優(yōu)化Swin Transformer和其他7種深度學(xué)習(xí)訓(xùn)練模型的分類性能,結(jié)果發(fā)現(xiàn),在實(shí)驗(yàn)中的各個指標(biāo)所呈現(xiàn)出的最優(yōu)性能均為本文提出的優(yōu)化Swin Transformer模型。
表3 模型的準(zhǔn)確率、精確度、召回率和F1 分?jǐn)?shù)%
實(shí)驗(yàn)結(jié)果表明,本文新提出的優(yōu)化Swin Transformer 結(jié)構(gòu)對巖石圖像樣本識別的準(zhǔn)確率為96.40%,明顯優(yōu)于 VGG16、AlexNet、GoogLeNet[25]、ResNet50、MobileNetV2[26]、ViT 和MobileViT[27]這7 種模型結(jié)構(gòu)的巖石圖像樣本識別準(zhǔn)確率,且與其他模型相比,在精確度、召回率以及F1分?jǐn)?shù)這3 個評價指標(biāo)上,Swin Transformer 占據(jù)顯著優(yōu)勢。 本文還比較了Swin Transformer 模型使用和不使用AugMix 增強(qiáng)算法的效果,與原始數(shù)據(jù)集相比,使用AugMix 增強(qiáng)算法的網(wǎng)絡(luò)模型在準(zhǔn)確率、精確度、召回率和F1分?jǐn)?shù)上都有所提高。這些評價指標(biāo)的提升清楚地表明:使用AugMix 增強(qiáng)算法增強(qiáng)數(shù)據(jù)集,可以防止網(wǎng)絡(luò)模型過擬合,顯著改進(jìn)網(wǎng)絡(luò)架構(gòu)的泛化能力,而且AugMix 增強(qiáng)算法通過對給定輸入進(jìn)行梯度懲罰提高了網(wǎng)絡(luò)模型的魯棒性。
圖8為模型的訓(xùn)練準(zhǔn)確率與Loss曲線圖,其中圖8a)和圖8b)展示了7 種深度學(xué)習(xí)模型與本文新模型的準(zhǔn)確率和Loss 曲線的比較。
圖8 模型的訓(xùn)練準(zhǔn)確率與Loss 曲線圖
從圖8 中可以看出,本文所提出的新模型識別準(zhǔn)確率和收斂速度明顯優(yōu)于其他模型,網(wǎng)絡(luò)的波動幅度更小,比其他模型更穩(wěn)定。從圖8c)和圖8d)可以看出,經(jīng)過AugMix 數(shù)據(jù)增強(qiáng)的模型曲線波動幅度更小,Loss 損失函數(shù)曲線明顯低于未使用AugMix 數(shù)據(jù)增強(qiáng)的Swin Transformer。這一結(jié)果再次表明:使用AugMix 數(shù)據(jù)增強(qiáng)算法能大大提高模型的識別準(zhǔn)確率和泛化能力。
本文通過深入探討和實(shí)驗(yàn)驗(yàn)證,成功提出并實(shí)施了一種基于改進(jìn)Swin Transformer 的巖石識別方法,以解決常規(guī)卷積神經(jīng)網(wǎng)絡(luò)在處理紋理多變的巖石圖像時的局限性。 通過引入空間局部感知模塊和結(jié)合Transformer 的自注意力結(jié)構(gòu),本文方法有效地提升了對局部相關(guān)性的捕捉能力,顯著增強(qiáng)了模型的識別精度。此外,通過添加Dropout 層和采用AugMix 算法進(jìn)行數(shù)據(jù)增強(qiáng),以及結(jié)合遷移學(xué)習(xí)技術(shù)進(jìn)行預(yù)訓(xùn)練,本文在提高模型泛化能力方面取得了顯著成效,最終實(shí)現(xiàn)了96.4%的識別準(zhǔn)確率,超越了當(dāng)前主流的ResNet50、GoogLeNet、VGG16 等網(wǎng)絡(luò)模型。
盡管本文取得了一定的成果,但仍存在一些不足和改進(jìn)空間:首先,在實(shí)際應(yīng)用中,改進(jìn)后的Swin Transformer 模型的計(jì)算復(fù)雜度相對較高,這可能會限制其在資源受限的環(huán)境下的應(yīng)用;其次,盡管模型在當(dāng)前的數(shù)據(jù)集上表現(xiàn)良好,但在更多樣化和復(fù)雜的巖石圖像數(shù)據(jù)集上的適應(yīng)性和魯棒性仍需進(jìn)一步驗(yàn)證和優(yōu)化。
未來研究的發(fā)展趨勢應(yīng)當(dāng)聚焦于以下幾個方向:一是繼續(xù)優(yōu)化模型結(jié)構(gòu),以降低計(jì)算復(fù)雜度和提高運(yùn)算效率,使模型更適合于不同的應(yīng)用場景;二是擴(kuò)展和豐富訓(xùn)練和測試用的巖石圖像數(shù)據(jù)集,以增強(qiáng)模型的泛化能力和魯棒性;三是探索更高效的數(shù)據(jù)增強(qiáng)和遷移學(xué)習(xí)策略,以進(jìn)一步提升模型在實(shí)際應(yīng)用中的性能。通過對這些方向的深入研究,有望進(jìn)一步推動巖石巖性智能識別技術(shù)的發(fā)展,為地質(zhì)學(xué)領(lǐng)域帶來更多的創(chuàng)新和應(yīng)用價值。
總體而言,本研究在巖石巖性智能識別領(lǐng)域取得了重要進(jìn)展,為后續(xù)的研究和應(yīng)用提供了寶貴的經(jīng)驗(yàn)和參考。期待未來在這一領(lǐng)域能夠取得更多突破性的成果,為地質(zhì)調(diào)查和研究工作提供更加強(qiáng)大的技術(shù)支持。
注:本文通訊作者為何月順。