張世超,王常穎,李勁華,張志梅
(青島大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,山東 青島 266071)
茶作為一種植物飲料,因含有多種營養(yǎng)物質(zhì),已經(jīng)成為世界上最大眾化、最健康的綠色飲料。改革開放40年來,我國茶產(chǎn)業(yè)規(guī)模、效益、質(zhì)量均顯著提高[1],因此,茶種植區(qū)的監(jiān)測工作對(duì)我國經(jīng)濟(jì)發(fā)展具有重要意義。
對(duì)于茶種植區(qū)的大范圍監(jiān)測,現(xiàn)在依然以人工野外勘測方法為主,然而這種方法不能及時(shí)有效地獲取茶種植區(qū)空間分布信息。遙感技術(shù)可以準(zhǔn)確、及時(shí)獲取信息,因此使用遙感監(jiān)測的方法實(shí)現(xiàn)對(duì)茶種植區(qū)的自動(dòng)提取是可行的。然而,由于茶樹在光譜特征上與其他農(nóng)作物種植區(qū)的相似性,導(dǎo)致茶種植區(qū)的遙感識(shí)別工作具有比較大的難度。目前,基于遙感影像的農(nóng)作物提取方法的研究多以常規(guī)作物為主,例如水稻、小麥、棉花、玉米等,而對(duì)茶種植區(qū)的提取研究卻比較少。因此,利用遙感技術(shù)實(shí)現(xiàn)對(duì)茶種植區(qū)的高精度提取,實(shí)現(xiàn)對(duì)茶種植區(qū)域的大范圍監(jiān)測,具有一定的價(jià)值與意義。
遙感技術(shù)已經(jīng)被廣泛應(yīng)用于大量常規(guī)農(nóng)作物的提取研究中。按照分類單元的不同,目前的研究成果主要可以分為兩種:基于像元的提取方法和面向?qū)ο蟮奶崛》椒??;谙裨奶崛》椒ㄒ悦總€(gè)像素點(diǎn)為單位,然后結(jié)合像素點(diǎn)的光譜特征,判斷每個(gè)像素點(diǎn)是否屬于目標(biāo)區(qū)域。任傳帥等[2]使用隨機(jī)森林算法對(duì)香蕉林進(jìn)行提??;黃健熙等[3]利用GF-1 WFV數(shù)據(jù)實(shí)現(xiàn)了玉米與大豆的提取;Ma等[4]提出了一種基于主成分等距分塊的無監(jiān)督農(nóng)作物分類方法。面向?qū)ο蟮姆椒ㄊ紫刃枰獙?duì)遙感影像進(jìn)行分割,形成影像對(duì)象,然后以這些影像對(duì)象作為分類單元進(jìn)行分類識(shí)別。姬旭升等[5]探究了面向?qū)ο蠹夹g(shù)結(jié)合不同算法的作物識(shí)別精度;周靜平等[6]采用面向?qū)ο蠛蜎Q策樹相結(jié)合的方法提取了作物分布信息。以上方法大都先需要人工提取像元或者影像對(duì)象的特征,再使用機(jī)器學(xué)習(xí)分類器進(jìn)行分類識(shí)別。
隨著深度學(xué)習(xí)技術(shù)的日益成熟,越來越多的研究人員開始探索使用神經(jīng)網(wǎng)絡(luò)進(jìn)行遙感圖像農(nóng)作物提取。Zhou等[7]提出了一種基于深度學(xué)習(xí)的時(shí)間序列分析方法;Jiang等[8]利用卷積神經(jīng)網(wǎng)絡(luò)模型提取增強(qiáng)植被指數(shù)時(shí)間序列曲線的特征進(jìn)行水稻識(shí)別。這些基于深度學(xué)習(xí)的方法在對(duì)農(nóng)作物進(jìn)行大面積的監(jiān)測與管理方面做出了卓越的貢獻(xiàn)。
也存在少量研究人員對(duì)遙感圖像茶種植區(qū)的提取進(jìn)行了研究。徐偉燕等[9]使用ZY-3遙感數(shù)據(jù),同時(shí)提取多種特征,使用決策樹和NN分類器實(shí)現(xiàn)了茶種植區(qū)的提??;馬超等[10]提取了中尺度光譜和時(shí)序物候特征,并結(jié)合決策樹模型實(shí)現(xiàn)茶園提取。這些茶提取方法通過人工設(shè)計(jì)特征,然后使用傳統(tǒng)的機(jī)器學(xué)習(xí)分類器進(jìn)行分類識(shí)別,取得了一定的成效,但精度方面依舊無法達(dá)到令人滿意的結(jié)果,并且提取速度也比較慢。
本文針對(duì)茶種植區(qū)離散分布的特點(diǎn),以及不同茶種植區(qū)之間的尺寸差異(小面積的茶種植區(qū)一般低于0.001 km2,大面積的茶種植區(qū)一般高于0.08 km2),提出一種新穎的語義分割模型SPRRD-ShuffleNetV2用于高分辨率遙感圖像茶種植區(qū)快速提取。實(shí)驗(yàn)結(jié)果表明,SPRRD-ShuffleNetV2在推理速度具有明顯提高的情況下,依然較為精確地識(shí)別了茶種植區(qū),甚至與部分對(duì)比算法相比,在精度上也有所提高。
本文以提高高分辨率遙感圖像上茶種植區(qū)提取速度為主要目的,提出一種新穎的語義分割模型SPRRD-ShuffleNetV2,其總體結(jié)構(gòu)如圖1所示。
圖1 網(wǎng)絡(luò)總體結(jié)構(gòu)
首先,以去除了最后1×1卷積層、全局池化層和全連接層的ShuffleNetV2[11]網(wǎng)絡(luò)作為編碼器,并增加解碼器以實(shí)現(xiàn)像素級(jí)分類。然后,將高層特征送入混合池化模塊(mixed pooling module,MPM),將低層特征送入增強(qiáng)條紋池化模塊(improved stripe pooling module,I-SPM)。接著,在處理后的高低層特征逐點(diǎn)相加后,將其送入殘差優(yōu)化塊(residual refinement block,RRB)。最后,進(jìn)行8倍上采樣,將特征圖恢復(fù)到與輸入圖像相同尺寸,獲得最終預(yù)測結(jié)果。
ShuffleNetV2是一種推理速度極快的輕量級(jí)網(wǎng)絡(luò),其考慮了4個(gè)影響速度的因素:①卷積層輸入通道數(shù)和輸出通道數(shù)相同時(shí),模型速度最快;②過多的組卷積會(huì)使模型變慢,應(yīng)避免使用組卷積;③模型分支越少,速度越快;④逐點(diǎn)相加會(huì)使模型速度變慢,應(yīng)減少逐點(diǎn)相加操作。
ShuffleNetV2設(shè)計(jì)了兩種構(gòu)建塊。當(dāng)不改變特征圖尺寸時(shí),首先,使用通道分離操作將特征圖均分成兩組,其中一組特征圖依次經(jīng)過1×1卷積、3×3深度卷積和1×1卷積;然后,與另外一組特征圖沿著通道維度進(jìn)行拼接;最后,進(jìn)行通道混洗加強(qiáng)不同組間的信息交流。當(dāng)縮小特征圖尺寸時(shí),首先,輸入特征圖被送入兩個(gè)分支,一個(gè)分支包含1個(gè)步長為2的3×3深度卷積和1個(gè)1×1卷積,另一個(gè)分支包含2個(gè)1×1卷積和1個(gè)3×3深度卷積;然后,兩個(gè)分支輸出沿著通道維度進(jìn)行拼接;最后,進(jìn)行通道混洗加強(qiáng)不同組間的信息交流。
SPRRD-ShuffleNetV2的主干網(wǎng)絡(luò)為去除了原始ShuffleNetV2中最后的1×1卷積層、全局平均池化層和全連接層后的剩余部分,其結(jié)構(gòu)如表1所示,其中stage2、stage3和stage4中使用的均為上述兩種構(gòu)建塊。
表1 ShuffleNetV2結(jié)構(gòu)
考慮到高分辨率遙感影像中茶種植區(qū)域離散分布的特點(diǎn),本文引入條紋池化(strip pooling,SP),并基于條紋池化的思想引入了I-SPM和MPM用于改善模型性能,由于二者的輕量化設(shè)計(jì),因此不會(huì)帶來過多的參數(shù)量增加。與普通的空間池化采用正方形的池化核形狀不同,SP采用1×N或者N×1的池化核形狀,因此,可以在一個(gè)空間維度上聚合全局上下文信息,而在另一個(gè)空間維度上聚合局部上下文信息,避免了空間池化可能帶來的不相關(guān)區(qū)域影響最終預(yù)測結(jié)果的問題。
水平方向的平均條紋池化(average strip pooling,ASP)和最大條紋池化(max strip pooling,MSP)輸出表達(dá)如式(1)和式(2)所示。
(1)
(2)
式中:Fi,j為特征圖上位置(i,j)處的值;W為特征圖的寬。
豎直方向的ASP和MSP輸出表達(dá)如式(3)和式(4)所示。
(3)
(4)
式中:H為特征圖的高。
I-SPM用于捕獲長距離依賴關(guān)系,其結(jié)構(gòu)如圖2所示。與條紋池化網(wǎng)絡(luò)(strip pooling network,SPNet)[12]中的條紋池化模塊僅采用水平和豎直方向上的ASP不同,I-SPM同時(shí)采用了ASP和MSP兩種操作。具體操作過程如下:輸入F為形狀為H×W×C的張量,對(duì)其進(jìn)行水平方向和豎直方向的ASP和MSP操作后,獲得2個(gè)形狀為H×1×C和2個(gè)形狀為1×W×C的張量,即Fh-asp、Fh-msp、Fv-asp和Fv-msp。將Fh-asp和Fh-msp送入3×1卷積,將Fv-asp和Fv-msp送入1×3卷積,對(duì)4個(gè)輸出進(jìn)行上采樣后獲得4個(gè)形狀為H×W×C的張量。進(jìn)行逐點(diǎn)相加后,依次經(jīng)過1×1卷積和sigmoid激活后得到的輸出與模塊的輸入F進(jìn)行逐點(diǎn)相乘,獲得I-SPM的最終輸出Foutput,表達(dá)如式(5)所示。
Foutput=F?σ(f1×1(fu(f3×1(Fh-asp))+
fu(f3×1(Fh-msp))+fu(f1×3(Fv-asp))+
fu(f1×3(Fv-msp))))
(5)
式中:σ代表sigmoid函數(shù);f3×1代表3×1卷積;f1×3代表1×3卷積;f1×1代表1×1卷積;fu代表上采樣操作;⊕代表逐點(diǎn)相乘。
圖2 I-SPM結(jié)構(gòu)
MPM進(jìn)行全局和局部上下文信息聚合,其結(jié)構(gòu)如圖3所示。
圖3 MPM結(jié)構(gòu)
對(duì)于全局上下文信息,MPM通過使用水平方向和豎直方向的ASP捕獲全局上下文信息。首先,對(duì)于給定的輸入F,對(duì)其進(jìn)行水平方向和豎直方向的ASP;然后,對(duì)兩個(gè)輸出分別進(jìn)行3×1卷積和上采樣操作、1×3卷積和上采樣操作;最后,將兩個(gè)分支的輸出進(jìn)行逐點(diǎn)相加組合在一起獲得該子模塊的輸出F1,表達(dá)如式(6)所示。
F1=fu(f3×1(fh-asp(F)))+fu(f1×3(fv-asp(F)))
(6)
式中:f3×1代表3×1卷積;f1×3代表1×3卷積;fu代表上采樣操作;fh-asp代表水平方向的ASP;fv-asp代表豎直方向的ASP。
對(duì)于局部上下文信息,采用普通的空間池化是必不可少的,因此采用一個(gè)輕量級(jí)的金字塔池化子模塊對(duì)局部上下文信息進(jìn)行聚合。其共有3個(gè)分支,其中前兩個(gè)分支分別含有一個(gè)平均池化操作(采用不同池化核大小)、一個(gè)3×3卷積操作和一個(gè)上采樣操作;第3個(gè)分支包含一個(gè)3×3卷積操作。將3個(gè)分支的輸出進(jìn)行逐點(diǎn)相加組合在一起獲得該子模塊的輸出F2,表達(dá)如式(7)所示。
F2=fu(f3×3(fap(F)))+fu(f3×3(fap(F)))+
f3×3(fap(F))
(7)
式中:fap代表平均池化;fu代表上采樣操作;f3×3代表3×3卷積。
兩個(gè)子模塊的輸出分別經(jīng)過3×3卷積后拼接在一起,然后采用1×1卷積恢復(fù)通道數(shù),最后與輸入張量F進(jìn)行逐點(diǎn)相加后,獲得MPM最終輸出Foutput,表達(dá)如式(8)所示。
Foutput=F+f1×1(f3×3(F1)⊕f3×3(F2))
(8)
式中:?代表拼接操作;f1×1代表1×1卷積;f3×3代表3×3卷積。
許多研究工作通過增加殘差單元增強(qiáng)語義分割網(wǎng)絡(luò)的性能,例如全局卷積網(wǎng)絡(luò)(global convolutional network,GCN)[13]采用殘差單元細(xì)化邊界,進(jìn)而獲得更為精細(xì)的輪廓,這些模型中的殘差單元本質(zhì)上就是ResNet[14]中的殘差塊。SPRRD-ShuffleNetV2中同樣加入RRB用于細(xì)化輸出特征,其結(jié)構(gòu)如圖4所示。
對(duì)于給定的輸入F,采用1×1卷積減少通道數(shù)后進(jìn)行批量歸一化,后面跟有一個(gè)標(biāo)準(zhǔn)的ResNet中的殘差塊結(jié)構(gòu)。
本文選用GF-2圖像作為實(shí)驗(yàn)數(shù)據(jù)源。首先,對(duì)圖像進(jìn)行預(yù)處理,預(yù)處理內(nèi)容包括輻射定標(biāo)、大氣校正、幾何校正、正射校正和圖像融合,最終獲得空間分辨率為1 m的多光譜圖像,并使用ENVI 5.3軟件進(jìn)行標(biāo)簽的制作。為了防止空間結(jié)構(gòu)的損失以及計(jì)算資源的限制,實(shí)驗(yàn)中選用256像素×256像素大小的圖像塊來訓(xùn)練網(wǎng)絡(luò),原始圖像塊數(shù)量為1 240個(gè),并采用旋轉(zhuǎn)、水平、垂直、翻轉(zhuǎn)等操作進(jìn)行數(shù)據(jù)增強(qiáng),最終獲得10 400張訓(xùn)練圖像和2 000張驗(yàn)證圖像。
實(shí)驗(yàn)使用TensorFlow+Keras深度學(xué)習(xí)框架。硬件設(shè)備為Intel(R)Xeon(R)Gold 6130 CPU 2.10 GHz,384 GB內(nèi)存,同時(shí)使用一塊顯存為32 GB的Nvidia Tesla V100-PCIE GPU進(jìn)行加速。
實(shí)驗(yàn)中,批量大小被設(shè)置為8,迭代輪數(shù)被設(shè)置為60。在模型訓(xùn)練過程中,采用Adam優(yōu)化器,β1為0.9,β2為0.999,并采用“poly”學(xué)習(xí)率衰減策略在訓(xùn)練過程中動(dòng)態(tài)調(diào)整學(xué)習(xí)率,當(dāng)前學(xué)習(xí)率currentLR的計(jì)算如式(9)所示。
(9)
式中:baseLR為初始學(xué)習(xí)率,設(shè)為0.001;power為衰減參數(shù),設(shè)為0.9;iter為當(dāng)前迭代次數(shù);max_iter為最大迭代次數(shù)。
使用的損失函數(shù)為交叉熵函數(shù),其表達(dá)如式(10)所示。
(10)
式中:li為像素點(diǎn)i的one-hot編碼后的真實(shí)標(biāo)簽;li[k]為li中的第k個(gè)元素值;pk,i為像素點(diǎn)i屬于第k類的輸出概率;K為類別總數(shù);N為批量圖像中所有像素點(diǎn)的總數(shù)。
為驗(yàn)證RRB、MPM和I-SPM的有效性,本文進(jìn)行了消融實(shí)驗(yàn)。結(jié)果顯示,當(dāng)同時(shí)使用3個(gè)特殊處理模塊時(shí),能夠更加精準(zhǔn)地識(shí)別茶種植區(qū)域,表2提供了消融實(shí)驗(yàn)結(jié)果。當(dāng)3個(gè)處理模塊均不使用時(shí),去除了最后1×1卷積層、全局池化層和全連接層的ShuffleNetV2被用作基礎(chǔ)網(wǎng)絡(luò),然后將高層特征圖進(jìn)行4倍上采樣后與低層特征圖相加,再進(jìn)行8倍上采樣輸出最終分割結(jié)果。首先,評(píng)估了基礎(chǔ)模型的性能,F(xiàn)1分?jǐn)?shù)可以達(dá)到91.7%;然后,增加RRB對(duì)輸出特征進(jìn)行優(yōu)化后,F(xiàn)1分?jǐn)?shù)提高了0.8%;接著,增加I-SPM捕獲長距離依賴關(guān)系后,F(xiàn)1分?jǐn)?shù)再次從92.5%提高到93.3%;最后,增加MPM用于全局和局部上下文信息聚合后,F(xiàn)1分?jǐn)?shù)提高了0.7%。這些數(shù)據(jù)充分說明了3個(gè)輕量級(jí)模塊提高模型性能的有效性。
表2 消融實(shí)驗(yàn)結(jié)果
本文使用SPRRD-ShuffleNetV2、FCN8s[15]、SegNet[16]、UNet[17]、DeepLabV3+[18]、BiSeNet[19]和DANet[20]進(jìn)行茶種植區(qū)取提取實(shí)驗(yàn),其中DeepLabV3+主干網(wǎng)絡(luò)采用Xception,BiSeNet上下文路徑采用的網(wǎng)絡(luò)為ResNet101,茶種植區(qū)提取實(shí)驗(yàn)結(jié)果如圖5所示。
圖5 茶種植區(qū)提取實(shí)驗(yàn)結(jié)果
表3展示了所有方法的細(xì)節(jié)配置,包括參數(shù)量、訓(xùn)練時(shí)間和推理時(shí)間,表4提供了所有方法茶種植區(qū)提取的精度評(píng)價(jià)結(jié)果。通過分析表3、表4得到以下結(jié)論:SegNet僅僅簡單地利用低分辨率的特征圖,通過上采樣操作將其恢復(fù)到與輸入圖像相同尺寸后,產(chǎn)生最終的預(yù)測結(jié)果;FCN8s和UNet則僅采用跳躍連接的方式將不同層級(jí)的特征進(jìn)行融合;這3種模型相對(duì)于其他模型而言,結(jié)構(gòu)比較簡單,精度和提取速度均低于SPRRD-ShuffleNetV2。DeepLabV3+使用空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP)模塊來聚合多尺度上下文特征,并采用跳躍連接的方式將高低層特征進(jìn)行融合,但面對(duì)高分辨率遙感影像中復(fù)雜的場景,依然存在較多的錯(cuò)分,提取精度方面相較于FCN8s、UNet和SegNet提升不多,精度和提取速度依然低于SPRRD-ShuffleNetV2。DANet基于自注意力機(jī)制設(shè)計(jì)了雙注意力模塊,有效地對(duì)空間依賴關(guān)系和通道依賴關(guān)系進(jìn)行捕獲;DANet擁有較高的提取精度,但訓(xùn)練時(shí)間和推理時(shí)間均比較高,難以達(dá)到快速提取茶種植區(qū)的效果。BiSeNet設(shè)計(jì)了一個(gè)雙邊網(wǎng)絡(luò)結(jié)構(gòu),其包括空間路徑和上下文路徑,分別用于提取空間細(xì)節(jié)信息和上下文信息,并且在上下文路徑中使用了通道注意力模塊用于優(yōu)化輸出特征,最后通過一個(gè)特殊的特征融合模塊將兩個(gè)路徑最終的輸出特征整合在一起;BiSeNet在提取精度方面同樣取得了不錯(cuò)的效果,提取速度也要快于DANet,但與SPRRD-ShufflNetV2相比,提取速度方面依舊有較大差距。綜上所述,SPRRD-ShuffleNetV2在所有算法中提取速度是最快的,并且精度方面也要優(yōu)于FCN8s、UNet、SegNet和DeepLabV3+,實(shí)現(xiàn)了提取精度和速度兼具的效果。
表3 所有方法的細(xì)節(jié)配置
表4 所有方法茶種植區(qū)提取的精度評(píng)價(jià)結(jié)果 %
本文為了在保證提取精度能達(dá)到基本實(shí)際需求的前提下有效提高高分辨率遙感圖像茶區(qū)提取速度,提出一種基于SPRRD-ShuffleNetV2的GF-2圖像茶種植區(qū)快速提取方法。該模型針對(duì)茶種植區(qū)離散分布的特點(diǎn),以及不同茶種植區(qū)之間的尺寸差異,首先,以去除了最后1×1卷積層、全局池化層和全連接層的ShuffleNetV2網(wǎng)絡(luò)作為編碼器,并增加解碼器以實(shí)現(xiàn)像素級(jí)分類;然后,在幾乎不增加參數(shù)量、不影響推理速度的前提下,在編碼器部分增加I-SPM和MPM,用于捕獲全局和局部依賴關(guān)系;最后,在解碼器部分增加RRB,用于優(yōu)化輸出特征。實(shí)驗(yàn)結(jié)果表明,該方法能夠?qū)崿F(xiàn)提取精度和速度兼具的效果。