基于Transformer語(yǔ)義分割模型的露天礦場(chǎng)識(shí)別

2024-12-31 00:00:00陳佳晟游翔沈盛彧廖梓凱張彤

人民長(zhǎng)江 2024年7期

摘要：

露天礦場(chǎng)是生產(chǎn)建設(shè)項(xiàng)目水土保持信息化監(jiān)管的重要對(duì)象，對(duì)其范圍的高效精準(zhǔn)識(shí)別對(duì)于監(jiān)測(cè)非法違規(guī)開(kāi)采行為，加強(qiáng)開(kāi)采過(guò)程中的水土流失預(yù)防與治理具有重要意義?；赥ransformer深度學(xué)習(xí)模型提出了露天礦場(chǎng)的遙感影像智能識(shí)別方法，并在四川省宜賓市的露天礦場(chǎng)影像數(shù)據(jù)集上與常用的基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)識(shí)別方法進(jìn)行了實(shí)驗(yàn)對(duì)比。結(jié)果表明：該方法對(duì)露天礦場(chǎng)范圍識(shí)別的精確率、召回率、F1-score和IoU指標(biāo)分別達(dá)到91.25%，90.66%，90.95%和83.41%，能夠滿足水土保持遙感監(jiān)管的精確度要求；在識(shí)別精確度和識(shí)別效果上優(yōu)于對(duì)比方法，在運(yùn)行效率上與對(duì)比方法保持在同一數(shù)量級(jí)，表現(xiàn)出較強(qiáng)的應(yīng)用價(jià)值。該方法在大區(qū)域露天礦場(chǎng)范圍快速準(zhǔn)確識(shí)別方面有推廣應(yīng)用潛力。

關(guān)" 鍵" 詞：

水土保持；遙感監(jiān)管；露天礦場(chǎng)；深度學(xué)習(xí)； Transformer模型；語(yǔ)義分割；宜賓市

中圖法分類號(hào)： TP753

文獻(xiàn)標(biāo)志碼： A

DOI：10.16232/j.cnki.1001-4179.2024.07.008

收稿日期：

2023-11-27；接受日期：

2024-01-26

基金項(xiàng)目：

國(guó)家自然科學(xué)基金項(xiàng)目（41601298）

作者簡(jiǎn)介：

陳佳晟，男，碩士研究生，研究方向?yàn)檫b感影像智能解譯。E-mail：chenjs@whu.edu.cn

通信作者：

張" 彤，男，教授，博士，主要從事時(shí)空機(jī)器學(xué)習(xí)、遙感解譯研究。E-mail：zhangt@whu.edu.cn

Editorial Office of Yangtze River. This is an open access article under the CC BY-NC-ND 4.0 license.

文章編號(hào)：1001-4179（2024） 07-0059-06

引用本文：

陳佳晟，游翔，沈盛彧，等.

基于Transformer語(yǔ)義分割模型的露天礦場(chǎng)識(shí)別

［J］.人民長(zhǎng)江，2024，55（7）：59-64.

0" 引言

中國(guó)幅員遼闊、礦產(chǎn)資源豐富，露天礦場(chǎng)的大量開(kāi)采，迅速帶動(dòng)了地區(qū)經(jīng)濟(jì)的發(fā)展。然而，露天礦場(chǎng)開(kāi)采破壞了原始地貌和植被，產(chǎn)生了大量廢石、廢渣等松散物質(zhì)，如果施工不合理、水土保持措施不到位，在降水和地表徑流的作用下，將出現(xiàn)嚴(yán)重的水土流失，對(duì)生態(tài)環(huán)境造成不可逆轉(zhuǎn)的損害。2023年1月3日，中共中央辦公廳、國(guó)務(wù)院辦公廳印發(fā)《關(guān)于加強(qiáng)新時(shí)代水土保持工作的意見(jiàn)》［1］，明確提出全面加強(qiáng)水土流失預(yù)防保護(hù)的要求，其中突出抓好水土流失源頭防控的部分就涉及礦產(chǎn)資源開(kāi)發(fā)的實(shí)施過(guò)程；同時(shí)需要依法嚴(yán)格人為水土流失監(jiān)管，創(chuàng)新和完善監(jiān)管方式。因此，如何創(chuàng)新手段快速找開(kāi)采的到露天礦場(chǎng)，特別是非法違規(guī)開(kāi)采行為，準(zhǔn)確勾繪露天礦場(chǎng)開(kāi)采范圍，作為露天礦場(chǎng)監(jiān)測(cè)和執(zhí)法的依據(jù)，是當(dāng)前值得深入研究的問(wèn)題。

早期的露天礦場(chǎng)監(jiān)管往往采用人工實(shí)地調(diào)查的方式，費(fèi)時(shí)費(fèi)力［2］。近年來(lái)隨著遙感對(duì)地觀測(cè)技術(shù)的快速發(fā)展，基于高空間分辨率遙感影像的信息提取解譯為高效開(kāi)展資源調(diào)查［3］、水土保持監(jiān)管［4］、糧食安全預(yù)警［5］等任務(wù)提供了可能。但傳統(tǒng)的遙感影像解譯主要依靠人工目視判讀［6］，無(wú)法勝任時(shí)間緊、范圍大、準(zhǔn)確度要求高的影像數(shù)據(jù)解譯工作。隨著人工智能技術(shù)的發(fā)展，機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)近年來(lái)也被廣泛應(yīng)用于遙感影像中礦場(chǎng)的自動(dòng)化解譯［7］。常用的機(jī)器學(xué)習(xí)方法包括支持向量機(jī)［8］、決策樹(shù)［9］、最大似然法［10］等。這類機(jī)器學(xué)習(xí)方法雖然節(jié)約了一定人力資源，但在解譯的精確度、泛化性上都存在較大的提升空間。隨著深度學(xué)習(xí)在圖像識(shí)別領(lǐng)域取得的成功［11-12］，基于卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）的露天礦場(chǎng)識(shí)別技術(shù)受到了更多的關(guān)注：程國(guó)軒等［13］對(duì)簡(jiǎn)單的CNN-F［14］網(wǎng)絡(luò)進(jìn)行遷移學(xué)習(xí)提高了露天采礦場(chǎng)的識(shí)別效率；Balaniuk［15］、張成業(yè)［16-17］等驗(yàn)證了將全卷積神經(jīng)網(wǎng)絡(luò)、U-Net、DeepLabV3+［18］等經(jīng)典CNN網(wǎng)絡(luò)應(yīng)用于尾礦庫(kù)、露天煤礦區(qū)范圍智能識(shí)別的可行性；劉培等［19］在目標(biāo)檢測(cè)網(wǎng)絡(luò)基礎(chǔ)上對(duì)尾礦庫(kù)結(jié)構(gòu)進(jìn)行語(yǔ)義分割，實(shí)現(xiàn)了高效的潰壩風(fēng)險(xiǎn)評(píng)估。

這些基于CNN的深度學(xué)習(xí)方法能夠有效提取遙感影像中的深層抽象特征，提高了露天礦場(chǎng)等地物的自動(dòng)化識(shí)別效果。但受限于卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算機(jī)制，這些方法缺少對(duì)長(zhǎng)距離依賴信息的捕捉能力，而Transformer模型的注意力機(jī)制可以充分挖掘影像的全局上下文信息，因此在影像解譯的精確度上領(lǐng)先于基于CNN的深度學(xué)習(xí)方法［20］。對(duì)于露天煤礦范圍的識(shí)別，基于Transformer模型的深度學(xué)習(xí)方法也取得了良好的識(shí)別效果［21］，但由于目前相關(guān)的研究仍然較少，且研究的數(shù)據(jù)量偏小，方法的魯棒性仍有待更充分的驗(yàn)證。

為了進(jìn)一步提高露天礦場(chǎng)開(kāi)采項(xiàng)目自動(dòng)化識(shí)別的精確度和效率，為其開(kāi)采過(guò)程中的水土流失監(jiān)管和執(zhí)法提供數(shù)據(jù)支撐，本文基于谷歌地球（Google Earth Pro）遙感影像制作了四川省宜賓市的露天礦場(chǎng)影像數(shù)據(jù)集和標(biāo)簽數(shù)據(jù)，設(shè)計(jì)了基于Transformer深度學(xué)習(xí)模型的露天礦場(chǎng)語(yǔ)義分割識(shí)別方法，并與常用的基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法展開(kāi)了對(duì)比實(shí)驗(yàn)。

1" 研究區(qū)域與數(shù)據(jù)源

研究區(qū)域?yàn)樗拇ㄊ∫速e市，地跨北緯27°50′～29°16′，東經(jīng)103°36′～105°20′，處于川、滇、黔三省結(jié)合部，金沙江、岷江、長(zhǎng)江三江交匯處，如圖1所示。研究區(qū)包含3個(gè)市轄區(qū)和7個(gè)縣、總面積約13 283 km2，屬于亞熱帶濕潤(rùn)季風(fēng)氣候區(qū)，雨量充沛，氣候溫和，礦產(chǎn)資源豐富，其中煤炭、硫鐵礦、石灰石等礦產(chǎn)的保有儲(chǔ)量均居四川省前列［22］。宜賓市的露天礦場(chǎng)開(kāi)采項(xiàng)目數(shù)量較多，分布較為密集，在生產(chǎn)建設(shè)過(guò)程中未批先建、未批先棄等違法違規(guī)行為的隱患較大，有較高的人為水土流失風(fēng)險(xiǎn)。

本文所使用的數(shù)據(jù)為谷歌地球遙感影像，包括多種數(shù)據(jù)來(lái)源，如WorldView、QuickBird、LandSat、Spot等多種衛(wèi)星影像和航拍影像［23］。

2 "研究方法

本文總體技術(shù)流程如圖2所示，主要包括數(shù)據(jù)獲取與預(yù)處理、模型訓(xùn)練與露天礦場(chǎng)識(shí)別、不同方法的識(shí)別結(jié)果評(píng)估3個(gè)部分。

2.1" 露天礦場(chǎng)數(shù)據(jù)集構(gòu)建

數(shù)據(jù)集由谷歌地球中不同傳感器獲取的影像進(jìn)行樣本采集而得，影像空間分辨率約0.6 m，其中訓(xùn)練數(shù)據(jù)影像362張，露天礦場(chǎng)與非露天礦場(chǎng)影像各181張，測(cè)試數(shù)據(jù)影像100張，露天礦場(chǎng)與非露天礦場(chǎng)影像各50張。露天礦場(chǎng)范圍標(biāo)簽參考了多年四川省生產(chǎn)建設(shè)項(xiàng)目水土保持遙感監(jiān)管成果數(shù)據(jù)，由經(jīng)驗(yàn)豐富的水土保持作業(yè)人員目視解譯并結(jié)合現(xiàn)場(chǎng)實(shí)地復(fù)核而來(lái)，使用labelme軟件［24］進(jìn)行標(biāo)注，主要為石灰石礦、采石場(chǎng)等露天非金屬礦場(chǎng)。露天礦場(chǎng)范圍標(biāo)注樣本示例如圖3所示，紅色框線內(nèi)為露天礦場(chǎng)區(qū)域，影像右下角為標(biāo)注結(jié)果的二值化柵格圖。為了擴(kuò)充數(shù)據(jù)量以提升模型學(xué)習(xí)效率，本文對(duì)數(shù)據(jù)集進(jìn)行在線的隨機(jī)縮放、裁剪、翻轉(zhuǎn)等數(shù)據(jù)增強(qiáng)處理。

2.2" 露天礦場(chǎng)范圍識(shí)別方法

本文使用基于Transformer架構(gòu)的語(yǔ)義分割模型SegFormer網(wǎng)絡(luò)［25］，其特點(diǎn)是簡(jiǎn)單、高效且具有較強(qiáng)的像素識(shí)別魯棒性。SegFormer的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示，包括編碼器和解碼器部分。對(duì)于輸入尺寸為H×W×3的露天礦影像，首先將其分割為4×4的圖像塊，使用Transformer編碼器提取圖像塊不同分辨率

的多級(jí)特征，其中包括高分辨率的礦區(qū)紋理等粗糙特

征和礦區(qū)邊緣等低分辨率的細(xì)致特征。將這些特征傳遞給由多個(gè)多層感知機(jī)（Multilayer Perceptron，MLP）組成的解碼器中進(jìn)行上采樣與融合，最終得到露天礦場(chǎng)范圍的識(shí)別結(jié)果。

編碼器部分提取了影像中的分層特征表示，類似于CNN的多級(jí)特征，隨著分辨率的降低特征表示的粒度逐漸變細(xì)，綜合多級(jí)特征可以提供更加豐富的語(yǔ)義分割識(shí)別信息。其核心為T(mén)ransformer模塊，包括高效自注意力層、混合前饋網(wǎng)絡(luò)層和重疊塊合并3個(gè)部分。首先通過(guò)高效的自注意力層以較低的計(jì)算復(fù)雜度求得特征圖中任意兩個(gè)位置像素的全局依賴關(guān)系，從而學(xué)習(xí)得到圖像中的關(guān)注點(diǎn)信息。接著輸入一個(gè)混合了3×3卷積和MLP層的混合前饋網(wǎng)絡(luò)，以為T(mén)ransformer提供圖像塊的位置信息。切割的小圖像塊經(jīng)過(guò)多次的自注意力層和混合前饋網(wǎng)絡(luò)完成基于Transformer的信息編碼。為了更好地表示圖像塊周圍的局部連續(xù)性，保證完整的露天礦場(chǎng)識(shí)別效果，使用重疊塊合并的方式保持多個(gè)圖像塊鄰近范圍的信息。經(jīng)過(guò)多層Transformer模塊特征圖編碼，其分辨率逐漸變小，得到多級(jí)分層的影像特征表示。

解碼器僅由輕量的MLP層組成，用于融合提取的多級(jí)特征表示，以獲得露天礦場(chǎng)分割掩碼。其解碼過(guò)程主要包括4個(gè)步驟：首先在混合Transformer編碼器中編碼的特征通過(guò)一個(gè)MLP層統(tǒng)一通道維度，其次特征圖被上采樣到1/4大小并進(jìn)行拼接，接著使用一個(gè)MLP層融合拼接后的特征，其輸出再通過(guò)最后的MLP層預(yù)測(cè)得到最終的識(shí)別掩碼。

遷移學(xué)習(xí)為深度學(xué)習(xí)模型解決過(guò)擬合現(xiàn)象的常用策略［26］，其過(guò)程為先基于大型數(shù)據(jù)集對(duì)模型進(jìn)行預(yù)訓(xùn)練，提高模型對(duì)不同數(shù)據(jù)的識(shí)別魯棒性，再通過(guò)對(duì)目標(biāo)數(shù)據(jù)集的訓(xùn)練學(xué)習(xí)進(jìn)行網(wǎng)絡(luò)權(quán)重的微調(diào)，以提高模型學(xué)習(xí)的效率。本文的SegFormer模型網(wǎng)絡(luò)權(quán)重經(jīng)過(guò)ADE20K數(shù)據(jù)集［27］的遷移學(xué)習(xí)預(yù)訓(xùn)練。

2.3" 用于對(duì)比實(shí)驗(yàn)的基線方法

為了更好地評(píng)估基于Transformer深度學(xué)習(xí)方法的露天礦場(chǎng)識(shí)別效果，本文使用在深度學(xué)習(xí)語(yǔ)義分割中常用的基于卷積神經(jīng)網(wǎng)絡(luò)（CNN）的方法進(jìn)行精度對(duì)比實(shí)驗(yàn)，包括U-Net［11］、DeepLabV3+［18］、PSPNet［28］、FastSCNN［29］。這些方法的網(wǎng)絡(luò)權(quán)重都經(jīng)過(guò)公開(kāi)大型數(shù)據(jù)集的遷移學(xué)習(xí)預(yù)訓(xùn)練。

3" 實(shí)驗(yàn)與結(jié)果分析

3.1" 實(shí)驗(yàn)設(shè)置與評(píng)估指標(biāo)

本次研究的實(shí)驗(yàn)硬件環(huán)境為Intel（R） i9-10900F （2.80GHz） CPU和NVIDIA GeForce RTX 2080Ti GPU，運(yùn)行內(nèi)存為32 G。所有代碼是在Microsoft Windows 10操作系統(tǒng)上基于OpenMMLab深度學(xué)習(xí)框架使用PyTorch實(shí)現(xiàn)的，所用的Python版本為3.8。實(shí)驗(yàn)過(guò)程為先在露天礦場(chǎng)訓(xùn)練數(shù)據(jù)集上進(jìn)行學(xué)習(xí)，輸入的遙感影像尺寸為512×512像素，模型訓(xùn)練的批處理大小為4張，訓(xùn)練過(guò)程迭代8 000輪次達(dá)到模型收斂，之后輸入露天礦場(chǎng)測(cè)試數(shù)據(jù)集對(duì)模型識(shí)別精度進(jìn)行驗(yàn)證。

本文使用精確率（Precision）、召回率（Recall）、F1-score和IoU這4個(gè)語(yǔ)義分割評(píng)估指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行定量精度評(píng)價(jià)。其中精確率表示正確識(shí)別為露天礦場(chǎng)的像素?cái)?shù)占所有被識(shí)別為露天礦場(chǎng)像素的比例，召回率表示正確識(shí)別為露天礦場(chǎng)的像素?cái)?shù)占所有露天礦場(chǎng)像素?cái)?shù)的比例，F(xiàn)1-score為精確率和召回率的調(diào)和平均數(shù)，IoU表示正確識(shí)別為露天礦場(chǎng)的像素?cái)?shù)占預(yù)測(cè)的露天礦場(chǎng)像素和真實(shí)的露天礦場(chǎng)像素并集的比例。

它們的計(jì)算公式分別為

Precision=TPFP+TP（1）

Recall=TPFN+TP（2）

F1-score=2×P×RP+R（3）

IoU=TPTP+FP+FN（4）

式中：TP，F(xiàn)P，TN，F(xiàn)N分別為預(yù)測(cè)正確的正樣本數(shù)、預(yù)測(cè)錯(cuò)誤的正樣本數(shù)、預(yù)測(cè)正確的負(fù)樣本數(shù)和預(yù)測(cè)錯(cuò)誤的負(fù)樣本數(shù)。

3.2" 精度比較

本文基于Transformer深度學(xué)習(xí)方法的露天礦場(chǎng)識(shí)別結(jié)果與U-Net、DeepLabV3+、PSPNet、FastSCNN等基于CNN方法的對(duì)比示例如圖5所示，半透明紅色區(qū)域?yàn)樽R(shí)別得到的結(jié)果?？梢?jiàn)本文方法提取的露天礦場(chǎng)范圍與參考真實(shí)范圍最為接近且完整程度最高。各

類基線方法中U-Net和DeepLabV3+能大致識(shí)別出

露天礦場(chǎng)區(qū)域范圍，但破碎斑塊較多且準(zhǔn)確度不夠高。PSPNet和FastSCNN方法對(duì)范圍的識(shí)別較為完整，但也容易造成大面積的誤判或缺漏，尤其難以區(qū)分露天礦場(chǎng)周圍色彩和紋理較為接近的農(nóng)田；而對(duì)于被道路等間隔為多個(gè)區(qū)域的露天礦場(chǎng)很容易產(chǎn)生漏判，往往只識(shí)別出部分看似完整的區(qū)域，缺少對(duì)影像全局信息的理解。

露天礦場(chǎng)識(shí)別精度定量評(píng)估結(jié)果如表1所列，其中U-Net方法提取的精度最低，其次是FastSCNN方法，DeepLabV3+和PSPNet方法均有不錯(cuò)的語(yǔ)義分割精度，而本文方法在4個(gè)精度指標(biāo)上均為最優(yōu)，其中IoU指標(biāo)達(dá)到了83.41%，露天礦場(chǎng)范圍識(shí)別的效果最好。

3.3" 運(yùn)行效率比較

為了從效率方面評(píng)估本文方法識(shí)別效果，驗(yàn)證其實(shí)際應(yīng)用的可行性，本文對(duì)不同方法識(shí)別露天礦場(chǎng)的運(yùn)行時(shí)間進(jìn)行了統(tǒng)計(jì)。設(shè)定所有方法在相同的計(jì)算機(jī)環(huán)境下運(yùn)行相同的數(shù)據(jù)量，即測(cè)試數(shù)據(jù)集中的100張影像，得到的運(yùn)行效率對(duì)比如表2所示?？梢?jiàn)各類方法對(duì)測(cè)試數(shù)據(jù)集的運(yùn)行時(shí)間都在10 s以內(nèi)，處于同一數(shù)量級(jí)。其中，DeepLabV3+方法用時(shí)最長(zhǎng)，而FastSCNN方法以其高度輕量化的網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)了最短的運(yùn)行用時(shí)。本文方法用時(shí)上略遜于FastSCNN方法和U-Net方法，但識(shí)別精度遠(yuǎn)優(yōu)于這兩種方法。綜上所述，本文方法在精度最優(yōu)的前提下，也有著不錯(cuò)的運(yùn)行效率，綜合性能最優(yōu)，能夠較好地滿足露天礦場(chǎng)自動(dòng)化高效識(shí)別的需求。

4" 結(jié)論與展望

本文針對(duì)露天礦場(chǎng)開(kāi)采的水土流失遙感監(jiān)管需求，提出了基于Transformer深度學(xué)習(xí)模型的露天礦場(chǎng)范圍智能識(shí)別方法。主要結(jié)論包括：

（1）本文應(yīng)用基于Transformer的深度學(xué)習(xí)模型和高分遙感影像對(duì)露天礦場(chǎng)范圍進(jìn)行智能識(shí)別，對(duì)四川省宜賓市露天礦場(chǎng)數(shù)據(jù)集的識(shí)別IoU精度達(dá)到83.41%，能夠滿足水土保持遙感監(jiān)管的精確度需求。

（2）本文方法在露天采礦場(chǎng)的識(shí)別精確度和識(shí)別效果上，優(yōu)于U-Net、DeepLabV3+等傳統(tǒng)的基于卷積神經(jīng)網(wǎng)絡(luò)的方法。

（3）本文方法在露天礦場(chǎng)識(shí)別的計(jì)算機(jī)運(yùn)行時(shí)間上與常用方法在同一數(shù)量級(jí)，且有著不錯(cuò)的運(yùn)行效率，能夠?qū)崿F(xiàn)自動(dòng)化、高效的露天礦場(chǎng)范圍遙感解譯。

綜上所述，本文方法對(duì)于露天礦場(chǎng)的遙感識(shí)別有較為出色的綜合表現(xiàn)，疊加對(duì)不同時(shí)相遙感影像的識(shí)別和對(duì)比分析，有望推廣應(yīng)用于更大區(qū)域的露天礦場(chǎng)范圍變化的遙感監(jiān)管中。但同時(shí)，由于本文所采集露天礦場(chǎng)影像數(shù)據(jù)集的規(guī)模和種類有限（以宜賓市數(shù)量較多的石灰石礦等露天非金屬礦場(chǎng)為主），對(duì)于影像特征差異較大的露天礦場(chǎng)如金、銅礦等的識(shí)別仍需要拓展相應(yīng)的樣本庫(kù)。本文方法也可類比應(yīng)用于機(jī)場(chǎng)工程、火電工程等水土保持監(jiān)管對(duì)象，對(duì)于生產(chǎn)建設(shè)項(xiàng)目水土保持信息化監(jiān)管有較大的推廣應(yīng)用潛力。

致" 謝

本論文的數(shù)值計(jì)算得到了武漢大學(xué)超級(jí)計(jì)算中心的計(jì)算支持和幫助。

參考文獻(xiàn)：

［1］" 中華人民共和國(guó)生態(tài)環(huán)境部.中共中央辦公廳國(guó)務(wù)院辦公廳印發(fā)《關(guān)于加強(qiáng)新時(shí)代水土保持工作的意見(jiàn)》［EB/OL］.（2023-01-03）［2023-11-18］.https：∥www.mee.gov.cn/zcwj/zyygwj/202301/t20230103_1009406.shtml.

［2］" 於永東，林國(guó)利，陳炳富，等.GNSS技術(shù)在尾礦庫(kù)壩體變形監(jiān)測(cè)中的應(yīng)用［J］.測(cè)繪通報(bào)，2014（增1）：60-62.

［3］" 康雄華，田一帆，張毅.高分六號(hào)影像在自然資源調(diào)查中的應(yīng)用研究［J］.地理空間信息，2023，21（4）：54-61.

［4］" 李樂(lè)，時(shí)宇.生產(chǎn)建設(shè)項(xiàng)目水土保持遙感解譯與判別技術(shù)實(shí)踐及思考［J］.中國(guó)水土保持，2022（1）：31-34，7.

［5］" 王玉璽，史航，郭珊.基于多源衛(wèi)星遙感的全國(guó)冬小麥墑情及長(zhǎng)勢(shì)監(jiān)測(cè)分析［J］.江蘇科技信息，2023，40（18）：66-70.

［6］" 李鎮(zhèn)，張巖，楊松，等.QuickBird影像目視解譯法提取切溝形態(tài) 參數(shù)的精度分析［J］.農(nóng)業(yè)工程學(xué)報(bào)，2014，30（20）：179-186.

［7］" 胡乃勛，陳濤，甄娜，等.基于卷積神經(jīng)網(wǎng)絡(luò)的面向?qū)ο舐短觳蓤?chǎng)提取［J］.遙感技術(shù)與應(yīng)用，2021，36（2）：265-274.

［8］" 王立廷.支持向量機(jī)結(jié)合面向?qū)ο筇崛∥驳V庫(kù)的應(yīng)用研究［D］.北京：中國(guó)地質(zhì)大學(xué)（北京），2018.

［9］" 于海若，燕琴，董春，等.基于決策樹(shù)分類的大屯礦區(qū)地物信息提取及礦區(qū)污染分析［J］.測(cè)繪與空間地理信息，2016，39（4）：67-69，72.

［10］胡一鴻.衛(wèi)星遙感影像在稀土礦山動(dòng)態(tài)監(jiān)測(cè)研究［J］.福建地質(zhì)，2018，37（1）：44-50.

［11］RONNEBERGER O，F(xiàn)ISCHER P，BROX T.U-net：convolutional networks for biomedical image segmentation［C］∥ Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015：18th International Conference，Munich，Germany，October 5-9，2015，Proceedings，Part III 18.Munich：Springer International Publishing，2015：234-241.

［12］HE K，ZHANG X，REN S，et al.Deep residual learning for image recognition［C］∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.IEEE，2016：770-778.

［13］程國(guó)軒，牛瑞卿，張凱翔，等.基于卷積神經(jīng)網(wǎng)絡(luò)的高分遙感影像露天采礦場(chǎng)識(shí)別［J］.地球科學(xué)，2018，43（增2）：256-262.

［14］CHATFIELD K，SIMONYAN K，VEDALDI A，et al.Return of the devil in the details：delving deep into convolutional nets［C］∥ Proceedings of the British Machine Vision Conference 2014.London：The British Machine Vision Association，2014.

［15］BALANIUK R，ISUPOVA O，REECE S.Mining and tailings dam detection in satellite imagery using deep learning［J］.Sensors，2020，20（23）：6936.

［16］張成業(yè)，李飛躍，李軍，等.基于DeepLabv3+與GF-2高分辨率影像的露天煤礦區(qū)土地利用分類［J］.煤田地質(zhì)與勘探，2022，50（6）：94-103.

［17］張成業(yè)，邢江河，李軍，等.基于U-Net網(wǎng)絡(luò)和GF-6影像的尾礦庫(kù)空間范圍識(shí)別［J］.自然資源遙感，2021，33（4）：252-257.

［18］CHEN L C，ZHU Y，PAPANDREOU G，et al.Encoder-decoder with atrous separable convolution for semantic image segmentation［C］∥ Proceedings of the European Conference on Computer Vision （ECCV）.ECCV，2018：801-818.

［19］劉培，谷燦，李慶亭，等.深度語(yǔ)義分割支撐下的尾礦庫(kù)風(fēng)險(xiǎn)檢測(cè)［J］.遙感學(xué)報(bào)，2021，25（7）：1460-1472.

［20］DOSOVITSKIY A，BEYER L，KOLESNIKOV A，et al.An image is worth 16x16 words：Transformers for image recognition at scale［C］∥ International Conference on Learning Representations，2020.

［21］田偉學(xué).基于Transformer的目標(biāo)檢測(cè)和語(yǔ)義分割模型在煤礦遙感影像的應(yīng)用［D］.北京：中國(guó)礦業(yè)大學(xué)，2023.

［22］宜賓市地方志辦公室.宜賓概況［EB/OL］.（2019-02-19）［2023-11-18］.http：∥dfz.yibin.gov.cn/ybdq/ybfw/2018 12/t 20181225_30b150.html.

［23］MADARASINGHE S K，YAPA K，JAYATISSA L P.Google Earth imagery coupled with on-screen digitization for urban land use mapping：case study of Hambantota，Sri Lanka［J］.National Science Foundation of Sri Lanka，2020，48（4）：357-366.

［24］TORRALBA A，RUSSELL B C，YUEN J.LabelMe：online image annotation and applications ［J］.Proceedings of the IEEE，2010，98（8）：1467-1484.

［25］XIE E，WANG W，YU Z，et al.SegFormer：simple and efficient design for semantic segmentation with transformers［J］.Advances in Neural Information Processing Systems，2021，34：12077-12090.

［26］PAN S J，YANG Q.A Survey on Transfer Learning［J］.IEEE Trans actions on Knowledge and Data Engineering，2010，22（10）：1345-1359.

［27］ZHOU B，ZHAO H，PUIG X，et al.Scene parsing through ade20k dataset［C］∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.IEEE，2017：633-641.

［28］ZHAO H，SHI J，QI X，et al.Pyramid scene parsing network［C］∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.IEEE，2017：2881-2890.

［29］POUDEL R P K，LIWICKI S，CIPOLLA R.Fast-scnn：fast semantic segmentation network［C］∥ Proceedings of the British Machine Vision Conference 2019.Munich：Springer International Publishing，2019.

（編輯：黃文晉）

Open-pit mine recognition based on Transformer model

CHEN Jiasheng1，YOU Xiang2，SHEN Shengyu3，LIAO Zikai2，ZHANG Tong1

（1.State Key Laboratory of Information Engineering in Surveying，Mapping and Remote Sensing，Wuhan University，Wuhan 430079，China；" 2.Sichuan Water and Soil Conservation Ecological Environment Monitoring Station，Chengdu 610074，China；" 3.Institute of Soil and Water Conservation，Changjiang River Scientific Research Institute，Wuhan 430010，China）

Abstract：

Open-pit mine is an important object of water and soil conservation information supervision in production and construction projects.The efficient and accurate identification of its scope is of great significance for monitoring illegal mining behaviors and strengthening the prevention and control of soil and water loss in the mining process.We introduced an intelligent recognition method utilizing a Transformer-based deep learning model for analyzing remote sensing images of open-pit mining areas.Comparative experiments were conducted on the open-pit mine dataset in Yibin City，Sichuan Province，using widely adopted deep learning recognition methods based on convolutional neural networks.The results indicated that the reveal precision，recall，F(xiàn)1-score，and IoU values of this method for identifying the scope of open-pit mines were 91.25%，90.66%，90.95% and 83.41%，respectively，which can meet the accuracy requirements of remote sensing supervision for water and soil conservation.Additionally，the efficiency and accuracy of our method remained superior to the contrasted methods while it shows equivalent running efficiency，indicating significant practical utility.The method introduced in this paper holds substantial potential for widespread application，enabling swift and accurate recognition of open-pit mines across extensive regions.

Key words：

water and soil conservation； remote sensing supervision； open-pit mine； deep learning； Transformer model； semantic segmentation； Yibin City

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Transformer語(yǔ)義分割模型的露天礦場(chǎng)識(shí)別