鄧繼忠,劉其得,王長委 ,江秀明,朱 圣,袁梓文 ,金 鑫,朱紫陽
(1.華南農(nóng)業(yè)大學工程學院,廣東 廣州 510642;2.國家精準農(nóng)業(yè)航空施藥技術(shù)國際聯(lián)合研究中心,廣東 廣州 510642;3.華南農(nóng)業(yè)大學資源環(huán)境學院/廣東省土地利用與整治重點實驗室,廣東 廣州 510642;4.廣東省國土資源測繪院,廣東 廣州 510642)
【研究意義】獲取地表覆蓋情況,明晰主要農(nóng)作物種植分布及范圍,不僅有利于農(nóng)業(yè)部門制定政策與發(fā)展規(guī)劃,而且對農(nóng)業(yè)企業(yè)經(jīng)營管理、農(nóng)戶生產(chǎn)選擇及資源的有效規(guī)劃具有重要作用[1-5]?!厩叭搜芯窟M展】李慶等[6]采用隨機森林的方法對7期landsat影像進行分類,總體精度達到88.9027%,Kappa系數(shù)達到0.8529,均優(yōu)于單景數(shù)據(jù)的分類結(jié)果;呂紅梅等[7]結(jié)合多時相歸一化植被指數(shù)和地表水分指數(shù),利用決策樹分類方法提取早稻種植區(qū)域,早稻的用戶精度達到87.50%,制圖精度達到85.71%;魏鵬飛等[8]結(jié)合 NDVI、EVI和 WDRVI時序變化特征,利用6景GF-1/WFV衛(wèi)星遙感影像數(shù)據(jù)采用決策樹分層分類方法成功提取了研究區(qū)玉米、水稻、大豆和甘薯4種主要作物種植空間分布情況,總體精度達到90.90%,Kappa系數(shù)為0.8950;李振等[9]基于多時相的Landsat-8數(shù)據(jù),采用面向?qū)ο蟮臎Q策樹分類方法,研究森林類型的自動識別,總體分類精度達到了87.50%;申懷飛[10]提出了基于穩(wěn)定權(quán)重加權(quán)投票的多訓(xùn)練樣本集、多時相影像、多分類器三重融合算法模式,對Landsat數(shù)據(jù)進行分類,總體精度達到83.09%;Marais等[11]的研究結(jié)果表明分類的質(zhì)量往往隨著所用圖像波段的增加而增加;Deepa等[12]綜合了粗糙集、模糊集和軟集的方法,建立了一個多類分類模型,采用雙目標軟集方法,對5種農(nóng)作物進行分類,驗證數(shù)據(jù)集的準確率達到92%;白燕英等[13]基于Landsat8影像時間序列歸一化植被指數(shù)(NDVI),采用決策樹分類方法提取作物種植結(jié)構(gòu),作物分類總體精度達到82.69%;邱鵬勛等[14]利用 GF-1 WFV時間序列數(shù)據(jù)集計算NDVI,基于時間加權(quán)的動態(tài)時間彎曲(TWDTW)方法開展農(nóng)作物分類識別研究,分類精度相比于決策樹法略有提高;解毅等[15]研究結(jié)果表明,基于融合NDVI的分類精度明顯高于基于Landsat NDVI的分類精度,由于融合后的時序NDVI具有更高的時間分辨率,能夠更加突出不同作物的物候特征,顯著提高作物分類精度。綜上所述,相比單景數(shù)據(jù)多時相數(shù)據(jù)能夠顯著提高分類效果,構(gòu)建遙感指數(shù)對于分類具有重要貢獻?!颈狙芯壳腥朦c】對于生育期相近的農(nóng)作物,遙感指數(shù)在時間序列上的變化特征相近,單獨采用個別指數(shù)難以區(qū)分這部分地物。此外,同一農(nóng)作物受長勢影響,指數(shù)值域跨度大,容易與其他農(nóng)作物混淆,人為閾值與自動閾值都不能很好的區(qū)分不同農(nóng)作物?!緮M解決的關(guān)鍵問題】本研究以石河子市北泉鎮(zhèn)為研究區(qū)域,采用2018年的Sentinel-2衛(wèi)星多時相數(shù)據(jù),結(jié)合地面調(diào)查數(shù)據(jù),分析單一農(nóng)作物提取的最佳時相,探究多時相數(shù)據(jù)對分類精度的貢獻及時相最佳組合方式,比較不同分類方法的分類精度,探究一種可靠有效的分類方法。
研究區(qū)位于石河子市北泉鎮(zhèn),地處天山北麓中段,準噶爾盆地南緣(圖1)。區(qū)劃東至瑪納斯河,西臨沙灣縣,南接石河子市,北瀕蘑菇湖,面積475.7 km2。研究區(qū)地勢平坦,平均海拔450.8 m,屬典型的溫帶大陸性氣候,冬季長而嚴寒,夏季短而炎熱,日照充沛,年日照時數(shù)為2 721~2 818 h,可以獲取云量覆蓋較少的長時間序列衛(wèi)星數(shù)據(jù)。目前研究區(qū)主要作物有棉花、玉米、小麥、辣椒、葡萄等。
圖1 研究區(qū)域位置Fig.1 Location map of study area
Sentinel-2衛(wèi)星搭載的有效荷載為多光譜成像儀,光譜范圍為0.4~2.4 μm,覆蓋可見光、近紅外、短波紅外,共13個光譜波段,B02、B03、B04、B08為10 m空間分辨率,B05-B8A、B11、B12為20 m空間分辨率,B01、B09、B10為60 m空間分辨率,幅寬290 km,每10 d更新1次全球陸地表面成像數(shù)據(jù),雙星可達到5 d更新1次,因而能夠獲得實驗區(qū)內(nèi)較高頻次的數(shù)據(jù)覆蓋,更好地反映農(nóng)作物生長過程,為進一步挖掘作物識別的時相特征提供支持。Sentinel-2光學遙感衛(wèi)星具有較高的時空分辨率,適合多時相分類研究[16-17]。本研究采用Sentnel-2衛(wèi)星數(shù)據(jù),選取時相為2018年3月23日、4月12日、5月12日、6月6日、7月11日、8月15日、9月14日、10月14日、11月5日,獲取研究區(qū)域2018年3—11月各1景數(shù)據(jù),云覆蓋率皆低于1%,影像清晰。
部分數(shù)據(jù)是實地調(diào)查記錄地物信息及GPS位置信息,部分較明顯的地物則直接在衛(wèi)星影像上標出,共標記水域、非植被區(qū)域、棉花、小麥、早玉米、晚玉米、辣椒、葫蘆瓜、葡萄、樹10種地物。將樣本分為訓(xùn)練樣本和驗證樣本,具體分布見圖2、圖3,樣本數(shù)見表1。
圖2 訓(xùn)練樣本分布Fig.2 Distribution diagram of training samples
圖3 驗證樣本分布Fig.3 Distribution diagram of verification samples
表1 樣本數(shù)Table 1 Sample size
遙感指數(shù)作為遙感信息的一種有效描述,在對大氣、海洋、土壤和植被等進行定性、定量評估時具有重要意義[18]。目前,農(nóng)作物分類的特征選擇主要是采用歸一化植被指數(shù),而其他特征量的應(yīng)用還相對較少[19]。研究發(fā)現(xiàn)NDVI、改進的歸一化差異水指數(shù)(MNDWI)、顏色指數(shù)(CI)和樣本分類的相關(guān)性比較高,因此本研究采用這3種指數(shù)進行研究區(qū)多時項農(nóng)作物的分類。
NDVI是一種測定光合作用活性的方法,與植被的密度和活力密切相關(guān)。正態(tài)化減少了地形和大氣的影響,并使大范圍的同時監(jiān)測成為可能。NDVI計算可以將多波段數(shù)據(jù)變換成一個單獨的圖像波段,用于顯示植被分布,較高的NDVI值預(yù)示著包含較多的綠色植被。其計算公式如下:
式中,NIR為近紅外波段的反射率,Red為紅波段的反射率。
MNDWI是由徐涵秋[20]在2005年提出的,可以增強開闊水域的特征,同時有效地抑制甚至消除建成區(qū)噪聲以及植被和土壤噪聲。水的增強程度越高,對開闊水域的特征提取就越準確,因為建成區(qū)、土壤和植被的所有負值都被明顯地抑制甚至去除。其計算公式如下:
式中,Green為綠波段的反射率,MIR為中紅外波段的反射率。
Pouget等[21]在1990年提出了顏色指數(shù)(CI)算法來區(qū)分田間土壤,低值的CI已被證明與高濃度的碳酸鹽或硫酸鹽的存在有關(guān),而高值則與干旱地區(qū)的結(jié)殼土壤和沙子有關(guān)。在大多數(shù)情況下,CI提供與NDVI互補的信息,用于歷時分析,有助于更好地理解土壤表面的演變。其計算公式如下:
式中,Red為紅波段的反射率,Green為綠波段的反射率。
遙感圖像通過亮度值或像元值的高低差異及空間變化來表示不同地物的差異,這是區(qū)分不同圖像農(nóng)作物的物理基礎(chǔ)[22]。識別動態(tài)變化的地表覆蓋通常需要應(yīng)用多時相數(shù)據(jù)[23-27],地物在時間序列上的變化差異可以用于區(qū)分地物[28],一般的分類方法主要有監(jiān)督分類與非監(jiān)督分類兩種。常用的監(jiān)督分類方法包括最大似然[29]、神經(jīng)網(wǎng)絡(luò)(N N)[30-31]、支持向量機(SVM)[32-33];常用的非監(jiān)督分類方法包括ISODATA(一種重復(fù)自組織數(shù)據(jù)分析技術(shù))、K-均值、模糊c-均值(FCM)[34-35]和比例空間技術(shù)。由于研究區(qū)獲得的地面數(shù)據(jù)、影像數(shù)量和類型、作物類型的不同,不同地物分類方法的應(yīng)用各不相同,沒有一致的分類模式。SVM、決策樹自動閾值和隨機森林3種分類方法。
SVM是由Vapnik等[36]于1995年提出,該方法是一種建立在統(tǒng)計學習理論基礎(chǔ)上的機器學習算法。支持向量機算法在于尋找一個超平面,該超平面可以將訓(xùn)練集中的數(shù)據(jù)分開,且與類域邊界的邊沿垂直于該超平面方向的距離最大,從而達到最大的泛化能力。決策樹自動閾值分類方法是基于回歸樹(CART)模型來實現(xiàn)分類。CART算法提供了一種非參數(shù)判別多數(shù)據(jù)層之間的統(tǒng)計關(guān)系,以產(chǎn)生一個二進制的決策樹。對ROI樣本進行分析,生成ENVI決策樹工程文件。隨機森林分類方法最早由Leo Breiman和Adele Cutler提出。隨機森林是通過集成學習的思想將多棵樹集成的一種算法,其基本單元為決策樹,隨機森林集成了所有的分類投票結(jié)果,將投票次數(shù)最多的類別指定為最終的輸出。
精度檢驗采用的是建立混淆矩陣,計算制圖精度、用戶精度、總體精度及Kappa系數(shù),用于比較分類結(jié)果,本研究使用地表真實感興趣區(qū)計算混淆矩陣。
總體分類精度等于被正確分類的像元總和除以總像元數(shù),制圖精度是分類器將影像正確分為某一類的像元數(shù)與該類真實參考像元總數(shù)的比,用戶精度是正確分到某一類的像元總數(shù)與分類器將影像的像元分為該類的像元總數(shù)的比[22]。
本研究選取3—11月的Sentinel-2衛(wèi)星數(shù)據(jù),經(jīng)過輻射定標及大氣校正之后重采樣為ENVI格式數(shù)據(jù)并計算每景數(shù)據(jù)的3種遙感指數(shù)NDVI、MNDWI、CI,根據(jù)地面調(diào)查數(shù)據(jù)建立感興趣區(qū),將感興趣區(qū)分為訓(xùn)練區(qū)與驗證區(qū)。采用SVM的分類方法對不同月份的單景數(shù)據(jù)及時相數(shù)據(jù)的不同組合進行分類;融合NDVI、MNDWI、CI 3種遙感指數(shù),采用SVM、決策樹自動閾值、隨機森林的分類方法進行分類;最后進行精度評價與結(jié)果分析。技術(shù)路線圖見圖4。
圖4 技術(shù)路線圖Fig.4 Technology roadmap
圖5 MNDWI變化折線Fig.5 Line chart of MNDWI change
圖6 CI變化折線Fig.6 Line chart of CI change
圖7 NDVI變化折線Fig.7 Line chart of NDVI change
分別對3—11月的Sentinel-2衛(wèi)星數(shù)據(jù)構(gòu)建MNDWI、CI、NDVI 3種遙感指數(shù),構(gòu)建不同農(nóng)作物在時相上的遙感指數(shù)變化曲線,結(jié)果見圖5、圖6、圖7。由圖5可知,水域的MNDWI指數(shù)在全時間段大于0,而其他地物的值基本上均小于0,在MNDWI指數(shù)上,水域與其他地物差別明顯,因此,可以利用MNDWI值有效的區(qū)分出水域。由圖6可知,非植被區(qū)域在全時間段的CI變化較小,在全時序基本呈現(xiàn)一條直線,葡萄地存在不變的裸土,因此與非植被區(qū)域特征差別較小,其他地物在時序上變化明顯,小麥在4月份的CI明顯小于-0.018;辣椒與棉花在8月份的CI明顯小于-0.12。由圖7可知,水域的NDVI值是所有地物里最小的,與其他地物差別明顯;春小麥在3—4月播種,7月份左右收割,從3月份春小麥的NDVI值不斷增長與春小麥的生長方式符合,到7月份春小麥的NDVI值急速下降,這是由于7月份是春小麥成熟及收獲時期,因此可以根據(jù)這個特征區(qū)分出春小麥;由于新疆種植的玉米品種較多,本研究只區(qū)分在8月份左右收割的早玉米和10月份左右收割的晚玉米,對于早玉米在7—8月間NDVI值急速下降,可以由該特征區(qū)分出早玉米;樹的NDVI值在全時相的變化較平緩,總體上是先增長再下降的趨勢;棉花、晚玉米、葫蘆瓜、辣椒的生育期較相近,NDVI值的區(qū)別也較小,但從NDVI、MNDWI來看還是存在一定區(qū)別。
采用SVM的分類方法分別對3—11月的Sentinel-2衛(wèi)星數(shù)據(jù)進行分類,分類精度見表2,由制圖精度來看,晚玉米、辣椒、葡萄在10月份的分類精度最高,非植被在6月份的分類精度最高,早玉米在8月份的分類精度最高,葫蘆瓜在7月份的分類精度最高,小麥和樹在4月份的分類精度最高,棉花在9月份的分類精度最高,水域在3月份的分類精度最高。由用戶精度來看,辣椒在9月份的分類精度最高,葡萄在5月份的分類精度最高,早玉米、非植被在8月份的分類精度最高,晚玉米、葫蘆瓜、樹、棉花在7月份的分類精度最高,小麥在4月份的分類精度最高,水域在9月份的分類精度最高。由總體精度及Kappa系數(shù)來看,7月份的分類效果最好,總體精度達到91.05%,Kappa系數(shù)達到0.8518??傮w來說,作物在生長豐富的月份分類效果相對較好,在生長前期特征較不明顯,分類效果相對較差。
表2 不同時相分類結(jié)果精度評價Table 2 Accuracy evaluation of different phase classification results(%)
對3—11月的Sentinel-2衛(wèi)星數(shù)據(jù)進行不同形式的組合之后采用SVM的分類方法進行分類,分類精度見表3。分析數(shù)據(jù)不同疊加方式之后的分類效果,3月份加8月份的疊加分類效果明顯,比3月份加4月份的疊加分類效果要好,總體精度要高13.3%。這是由于農(nóng)作物物候生長期的影響,3、4月份大部分農(nóng)作物仍未生長,地塊處于撂荒狀態(tài),差異較小,而7、8月份是農(nóng)作物生長豐富的月份,與3、4月份形成鮮明的差異,不同農(nóng)作物物候期的差別,數(shù)據(jù)疊加之后會形成變化差異,有利于區(qū)分不同農(nóng)作物。而對于3景、4景、9景數(shù)據(jù)的疊加并不能提高分類精度,這是由于相近月份農(nóng)作物生長變化不明顯,特征變化較小,多余信息并不能較好的提高分類效果,相反會帶來更多的噪音影響分類的準確性。
由表3可知,3月份以及8月份單景NDVI數(shù)據(jù)的分類效果都較差,這是由于同種農(nóng)作物長勢不同,NDVI的值有高有低,物候期相近的農(nóng)作物NDVI值的范圍交叉嚴重,單景NDVI數(shù)據(jù)的分類錯分嚴重,逐景增加NDVI數(shù)據(jù),總體精度逐步提高,當增加到10月份NDVI數(shù)據(jù)時,總體精度達到最高為92.25%,Kappa系數(shù)達到0.8736,繼續(xù)增加11月得NDVI數(shù)據(jù),總體精度有所降低,這是由于11月份大部分農(nóng)作物已經(jīng)收割,地塊差異不明顯,增加11月份數(shù)據(jù)并不能提高分類效果。
表3 分類精度比較Table 3 Comparison of classification accuracy
融合3—11月的MNDWI與NDVI數(shù)據(jù)之后,分別采用SVM分類方法、隨機森林分類方法、決策樹自動閾值分類方法進行分類,對比3種不同分類方法,SVM的分類結(jié)果分類精度最高,總體精度達到94.19%,Kappa系數(shù)達到0.9024,總體精度比隨機森林分類方法提高3.36%,比決策樹自動閾值分類方法提高4.32%(表4)。
表4 不同分類方法分類精度比較Table 4 Comparison of classification accuracy among different classification methods
由于水位的變化,水域范圍也存在變化,因此采用單景數(shù)據(jù)提取水域范圍。由遙感指數(shù)分析所得,本研究采用3月份CI小于-0.012且MNDWI大于0.15利用決策樹提取水域范圍;由于田埂范圍較窄,容易與地物誤分,因此在支持向量機分類之后繼續(xù)采用遙感指數(shù)結(jié)合決策樹的分類方法將田埂剔除,對于小麥地,采用4月份的CI小于-0.018將田埂剔除;對于辣椒地及棉花地,采用8月份CI小于-0.12,將田埂剔除。最終分類結(jié)果的分類精度達到94.49%,Kappa系數(shù)達到0.9077,最終分類結(jié)果見圖8。
圖8 分類結(jié)果Fig.8 Classification results
由表5可知,辣椒的制圖精度達到92.08%,但用戶精度較低,有部分棉花被錯分為辣椒;葡萄的用戶精度達到99.68%,但制圖精度較低,有部分葡萄被錯分為非植被與棉花;非植被的制圖精度到達100%,用戶精度為89.76%,有部分葡萄與棉花被錯分為非植被;早玉米的制圖精度達到97.61%,用戶精度為74.89%,有部分葫蘆瓜被錯分為早玉米;晚玉米制圖精度為59.93%,用戶精度為71.72%,有部分晚玉米被錯分為棉花,有部分棉花和樹被錯分為晚玉米;葫蘆瓜的分類精度較低,一方面原因是地面真實調(diào)查數(shù)據(jù)較少,另一方面是與棉花和玉米較難區(qū)分;小麥的分類較低較高,主要是小麥與其他農(nóng)作物物候期差異較大,易于區(qū)分;樹的制圖精度為68.15%,用戶精度為82.3%,有部分樹被分為棉花與晚玉米,棉花的制圖精度為97.66%,用戶精度為96.82%;水域的分類效果較好。
針對單一農(nóng)作物在不同時相的分類精度不同,這是由于農(nóng)作物物候期的差異,當某種地物在某個時期與其他農(nóng)作物差異較大時,相應(yīng)的分類精度就有所提高,這是提取該農(nóng)作物的較為重要時期,有利于單一農(nóng)作物提取的研究。時相數(shù)據(jù)的組合方式不同,分類精度有所差異,對于原始波段的疊加,時相的增加能夠提高分類精度,這與李慶等[6]的研究結(jié)果一致,然而原始波段不經(jīng)選擇的疊加會造成數(shù)據(jù)的相似,產(chǎn)生數(shù)據(jù)冗余并造成更多的噪音,從而降低分類精度,因此,多時相分類應(yīng)注意關(guān)鍵信息的提取。白燕英等[13]的研究結(jié)果表明時間序列的NDVI具有較高的時間分辨率,能夠突出不同作物的物候特征及其變化,從而提高作物分類精度。然而,僅使用NDVI進行分類并不能完全區(qū)分所有地物,這也是單一遙感指數(shù)在分類上的局限性。針對特定的地物提取可以研究特定的波段組合計算指數(shù)進行分類,因此,對于地表覆蓋的分類最好結(jié)合多種遙感指數(shù),魏鵬飛等[8]結(jié)合3種遙感指數(shù)NDVI、EVI和WDRVI進行作物分類,呂紅梅等[7]結(jié)合歸一化植被指數(shù)和地表水分指數(shù)進行作物分類,都取得了較好的分類結(jié)果。李慶等[6]采用隨機森林進行影像方法,呂紅梅等[7]利用決策樹分類方法提取早稻種植區(qū),李振[9]采用面向?qū)ο蟮臎Q策樹分類方法研究森林類型的自動識別,魏鵬飛等[8]采用決策樹分層分類方法成功提取作物種植空間分布,然而,對于決策樹閾值分類,不管是人為判斷閾值還是自動閾值分類或者隨機森林分類,都無法準確的界定區(qū)分農(nóng)作物之間的閾值,這是閾值分類固有的缺陷,本研究結(jié)合NDVI、MNDWI、CI 3種遙感指數(shù)進行分類有效提取了研究區(qū)主要農(nóng)作物的種植分布情況。
表5 分類結(jié)果混淆矩陣Table 5 Confusion matrix of classification results
通過對不同時相分類精度比較可知,在研究區(qū)域內(nèi),7月份是區(qū)分農(nóng)作物最佳時相;通過時相數(shù)據(jù)的不同組合的分類精度比較,多時相分類精度明顯高于單景數(shù)據(jù)分類,采用3—10月的NDVI數(shù)據(jù)疊加之后分類效果較好,總體精度達到92.25%,Kappa系數(shù)達到0.8736,相對于僅使用3月份NDVI數(shù)據(jù)分類的分類精度,總體精度提高了20.75%;結(jié)合NDVI、MNDWI、CI 3種遙感指數(shù)之后采用SVM的分類方法可以有效區(qū)分研究區(qū)的農(nóng)作物。