郭雪星 陸國(guó)政 王 強(qiáng) 申乾榮
(北京華云星地通科技有限公司,北京100081)
面對(duì)氣候變化和糧食安全的挑戰(zhàn)[1],全球各國(guó)共同面臨著確保糧食供應(yīng)平衡的任務(wù)[2-3]。因此,對(duì)于國(guó)家有關(guān)部門來(lái)說(shuō),快速、及時(shí)、有效獲取大范圍內(nèi)作物種植面積的空間分布信息十分重要,對(duì)于指導(dǎo)作物生產(chǎn)、促進(jìn)農(nóng)業(yè)發(fā)展,并確保國(guó)家糧食安全具有關(guān)鍵意義。
國(guó)內(nèi)外學(xué)者的研究表明,利用時(shí)序遙感影像植被指數(shù)和農(nóng)作物物候特征進(jìn)行作物種類識(shí)別,是一種行之有效的方法。近年來(lái),國(guó)內(nèi)外諸多專家學(xué)者基于不同的衛(wèi)星數(shù)據(jù),從不同角度、不同層次、運(yùn)用不同的方法對(duì)冬小麥面積的提取進(jìn)行了研究[4-6]。以往的研究大多在獲取冬小麥分布信息方面取得了很大的成就,但這些研究很多是基于單一物候期[7-8]或多物候期的單一特征指數(shù)時(shí)間序列[9-10],沒(méi)有考慮不同物候期作物的特征以及不同物候期之間的關(guān)系?;趩我惶卣髦笖?shù)時(shí)間序列的作物分布信息提取受其他特征的影響,相似特征指數(shù)時(shí)間序列對(duì)作物的效應(yīng)也會(huì)影響提取精度[11],而多物候特征通過(guò)考慮作物在整個(gè)生長(zhǎng)周期中多個(gè)特征指標(biāo)的變化,可以減少這些因素的影響。Ni 等[12]考慮到不同物候期的差異,開發(fā)出了一種多物候特征合成方法,提取了水稻分布信息,結(jié)果顯示該分類方法在水稻分布信息提取上表現(xiàn)較好。如果僅選取單時(shí)相光學(xué)影像,會(huì)因?yàn)椤爱愇锿V”而產(chǎn)生漏錯(cuò)分等問(wèn)題[13-14]。劉佳等[15]采用HJ 時(shí)間序列數(shù)據(jù),利用農(nóng)作物全生育期波譜特征曲線提取了河北衡水的主要作物類型,通過(guò)基于NDVI 閾值的決策樹的分類方法,對(duì)各類農(nóng)作物的種植面積進(jìn)行了遙感識(shí)別和分類。賈樹海等[16]基于不同作物類型物候特征的差異,提取三期遙感影像不同的NDVI 特征值和影像特征信息,利用監(jiān)督分類方法對(duì)花生種植情況進(jìn)行了分類和制圖。
盡管利用遙感監(jiān)測(cè)各種農(nóng)作物生長(zhǎng)狀況的技術(shù)已經(jīng)比較成熟,在某種農(nóng)作物的一定區(qū)域內(nèi)的種植分布面積研究也取得了一定的成就,但在具有多種農(nóng)作物和植被的大面積耕地上,如何快速且有效地對(duì)農(nóng)作物進(jìn)行分類的研究還不夠,無(wú)論是方法的可操作性或是結(jié)果精度的驗(yàn)證上都還存在著一些問(wèn)題[17],比如過(guò)高的分辨率會(huì)增加數(shù)據(jù)量、計(jì)算時(shí)效性等問(wèn)題。本研究的主要目的是利用FY-3D MERSI 產(chǎn)品數(shù)據(jù),探尋河南省內(nèi)不同植被在冬小麥生長(zhǎng)期內(nèi)NDVI 時(shí)間序列曲線變化的特征,從而建立一種能夠快速和高效提取冬小麥種植面積的方法,并通過(guò)對(duì)FY-3D 衛(wèi)星數(shù)據(jù)的研究,經(jīng)過(guò)相關(guān)處理后提高該方法的精度,以期能夠?yàn)槔眠b感數(shù)據(jù)對(duì)冬小麥進(jìn)行大范圍識(shí)別和種植面積提取提供一種新的且行之有效的研究思路。
1.1 研究區(qū)概況河南省位于中國(guó)的中部,地理坐標(biāo)在31°23′~36°22′N,110°21′~116°39′E 之間(圖1),屬典型的亞熱帶季風(fēng)氣候,四季明顯,溫度變化較大。夏季炎熱潮濕,冬季寒冷干燥,春季溫暖多風(fēng),秋季涼爽宜人,日照時(shí)間較長(zhǎng),光能資源充足。截至2023 年,其常住人口超過(guò)1 億,是中國(guó)人口最多的省份之一。河南省還是中國(guó)重要的農(nóng)業(yè)和工業(yè)基地之一,擁有廣闊的農(nóng)田和豐富的農(nóng)產(chǎn)品資源,主要種植水稻、小麥、玉米、棉花等作物,在冶金、化工、機(jī)械制造、能源等領(lǐng)域具有一定的實(shí)力。近年來(lái),河南省逐漸加大了對(duì)高新技術(shù)產(chǎn)業(yè)的發(fā)展力度,涵蓋了電子信息、生物醫(yī)藥、新材料等領(lǐng)域。
圖1 河南省研究區(qū)示意圖
1.2 數(shù)據(jù)源及預(yù)處理(1)遙感數(shù)據(jù)。本研究使用風(fēng)云衛(wèi)星遙感數(shù)據(jù)服務(wù)網(wǎng)提供的歸一化植被指數(shù)(NDVI 產(chǎn)品),該數(shù)據(jù)集是全球10°×10°分幅的250m 及0.05°分辨率等經(jīng)緯度投影植被指數(shù)的旬合成產(chǎn)品。選取數(shù)據(jù)日期為2019 年10 月至2020 年6月、2020 年10 月至2021 年6 月、2021 年10 月至2022 年6 月、2022 年10 月至2023 年6 月,每月有上旬、中旬、下旬3 旬?dāng)?shù)據(jù),河南冬小麥整個(gè)關(guān)鍵生育期共27 組數(shù)據(jù)。(2)其他數(shù)據(jù)。本研究除了使用遙感數(shù)據(jù)外,還使用了矢量數(shù)據(jù)和采樣點(diǎn)數(shù)據(jù)。矢量數(shù)據(jù)用于行政邊界的確認(rèn)和遙感數(shù)據(jù)的裁剪。采樣點(diǎn)數(shù)據(jù)主要是通過(guò)Google 高清底圖進(jìn)行冬小麥樣本點(diǎn)的選取,作為后續(xù)模型分類和精度驗(yàn)證。(3)數(shù)據(jù)預(yù)處理。歸一化植被指數(shù)(NDVI 產(chǎn)品)是分塊數(shù)據(jù),根據(jù)研究目的,本文選取河南省冬小麥生育期的數(shù)據(jù),按照河南省行政邊界進(jìn)行拼接、投影、裁剪、格式轉(zhuǎn)換等預(yù)處理工作,采用Python 編程方式進(jìn)行數(shù)據(jù)批量自動(dòng)處理。處理結(jié)果如圖2 所示。
圖2 河南省植被指數(shù)處理結(jié)果圖
1.3 研究方法冬小麥自動(dòng)識(shí)別研究的技術(shù)路線如圖3 所示,首先進(jìn)行遙感數(shù)據(jù)的獲取和預(yù)處理,然后進(jìn)行河南省冬小麥的物候特征分析,篩選出冬小麥生長(zhǎng)發(fā)育期的時(shí)序遙感數(shù)據(jù),從而計(jì)算時(shí)間序列的NDVI 數(shù)據(jù)。由于冬小麥樣本較少,本文采用K 均值聚類分析方法,在研究區(qū)內(nèi)隨機(jī)取一些點(diǎn),對(duì)不帶標(biāo)簽的隨機(jī)點(diǎn)進(jìn)行聚類分析,得到最佳聚類效果。基于冬小麥的時(shí)序NDVI 光譜分析,最終確定冬小麥的類別,結(jié)合機(jī)器學(xué)習(xí)的方法(全連接神經(jīng)網(wǎng)絡(luò)),迭代出最優(yōu)分類規(guī)則進(jìn)行冬小麥識(shí)別?;谧R(shí)別出來(lái)的冬小麥的結(jié)果,尋找同期高清Google 影像,通過(guò)目視解譯得到冬小麥數(shù)據(jù)作為精度驗(yàn)證的檢驗(yàn)源,采用數(shù)據(jù)匹配和精度檢驗(yàn)指標(biāo)方法進(jìn)行精度驗(yàn)證。
圖3 冬小麥遙感自動(dòng)識(shí)別流程圖
1.3.1 物候特征分析提取作物的物候數(shù)據(jù)對(duì)于農(nóng)業(yè)決策、研究氣候變化和生態(tài)系統(tǒng)變化非常重要。為了更準(zhǔn)確描述作物生長(zhǎng)發(fā)育規(guī)律,可以結(jié)合遙感時(shí)序數(shù)據(jù)和作物物候數(shù)據(jù)。遙感時(shí)序數(shù)據(jù)可以提供大范圍的地表信息,而作物物候數(shù)據(jù)則可以提供作物生長(zhǎng)發(fā)育的具體信息。這兩種數(shù)據(jù)的結(jié)合使用可以幫助制圖者提高分類精度,同時(shí)也為農(nóng)業(yè)決策和研究提供了重要的數(shù)據(jù)支持。冬小麥的物候歷(表1)是冬小麥播種面積的重要參考信息,可以根據(jù)溫度變化和生長(zhǎng)發(fā)育規(guī)律來(lái)確定。通過(guò)提取冬小麥的物候歷,可以更精確地區(qū)分冬小麥與其他地物,從而提高制圖的準(zhǔn)確性和可靠性。
表1 河南省冬小麥物候歷
1.3.2 聚類分析K 均值聚類分析是一種常用的無(wú)監(jiān)督學(xué)習(xí)算法,用于將數(shù)據(jù)集中的觀測(cè)值劃分為K個(gè)不同的簇。該算法的目標(biāo)是使得同一簇內(nèi)的觀測(cè)值相似度最高,而不同簇之間的觀測(cè)值差異最大化。在進(jìn)行K 均值聚類分析時(shí),首先需要選擇合適的K值,即簇的數(shù)量。然后,根據(jù)給定的距離度量(如歐氏距離或曼哈頓距離),計(jì)算觀測(cè)值之間的距離,并將它們分配到最近的簇中。通過(guò)迭代的方式,更新每個(gè)簇的質(zhì)心(即簇內(nèi)觀測(cè)值的平均值),并重新分配觀測(cè)值,直到滿足停止(如固定迭代次數(shù)或簇分配不再改變)。
1.3.3 全連接神經(jīng)網(wǎng)絡(luò)分類全連接神經(jīng)網(wǎng)絡(luò)是一個(gè)常見(jiàn)的人工神經(jīng)網(wǎng)絡(luò)模型,也被稱為多層感知機(jī)(Multilayer perceptron)。它由多個(gè)神經(jīng)元(節(jié)點(diǎn))組成的網(wǎng)絡(luò)層連接在一起,神經(jīng)元之間相互連接。全連接神經(jīng)網(wǎng)絡(luò)的算法步驟主要包括以下幾個(gè)方面。
(1)數(shù)據(jù)預(yù)處理:對(duì)輸入數(shù)據(jù)進(jìn)行必要的預(yù)處理,包括歸一化、標(biāo)準(zhǔn)化、特征縮放等操作,以確保數(shù)據(jù)具有合適的數(shù)值范圍和分布。
(2)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì):確定神經(jīng)網(wǎng)絡(luò)的數(shù)量,以及它們之間的連接方式。還需要選擇適當(dāng)?shù)募せ詈瘮?shù)和損失函數(shù)。
(3)初始化參數(shù):初始化網(wǎng)絡(luò)中的權(quán)重和偏置,可以使用隨機(jī)初始化的方式,如服從正態(tài)分布或均勻分布的隨機(jī)數(shù)。
(4)前向傳播:通過(guò)前向傳播計(jì)算每個(gè)神經(jīng)元的輸出。從輸入層開始,通過(guò)每一層的權(quán)重和偏置進(jìn)行加權(quán)求和,并經(jīng)過(guò)激活函數(shù)得到下一層的輸出。
(5)計(jì)算損失:將前向傳播得到的輸出結(jié)果與真實(shí)標(biāo)簽進(jìn)行比較,計(jì)算損失函數(shù)的值,衡量網(wǎng)絡(luò)輸出與真實(shí)值之間的差異。
(6)反向傳播:通過(guò)反向傳播算法計(jì)算每個(gè)神經(jīng)元的梯度,并根據(jù)梯度下降法則更新權(quán)重和偏置,以減小損失函數(shù)的值。這一步是全連接神經(jīng)網(wǎng)絡(luò)的核心步驟,它將誤差從輸出層向前傳播,不斷調(diào)整權(quán)重和偏置。
(7)參數(shù)更新:根據(jù)反向傳播計(jì)算得到的梯度,使用優(yōu)化算法(如梯度下降法)更新網(wǎng)絡(luò)中的權(quán)重和偏置,使損失函數(shù)逐漸減小。
(8)重復(fù)訓(xùn)練:不斷重復(fù)步驟4 到步驟7,直到達(dá)到預(yù)定的停止條件,例如達(dá)到指定的訓(xùn)練輪數(shù)、損失函數(shù)收斂等。
(9)預(yù)測(cè)與評(píng)估:使用訓(xùn)練好的全連接神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè),并評(píng)估模型的性能??梢允褂脺y(cè)試數(shù)據(jù)集進(jìn)行驗(yàn)證,計(jì)算準(zhǔn)確率、精確率、召回率等指標(biāo)。
1.3.4 精度分析本文精度分析主要通過(guò)檢驗(yàn)源數(shù)據(jù)和待檢驗(yàn)數(shù)據(jù)的時(shí)空間匹配,選用質(zhì)量檢驗(yàn)指標(biāo)進(jìn)行冬小麥提取結(jié)果的精度驗(yàn)證。
(1)數(shù)據(jù)匹配方法:本文基于Google 高清影像底圖數(shù)據(jù),采用目視解譯方法,篩選出河南省小麥樣本數(shù)據(jù)作為精度分析的檢驗(yàn)源,利用時(shí)間匹配方法和空間匹配方法,進(jìn)行檢驗(yàn)源和待檢驗(yàn)源的數(shù)據(jù)匹配處理。時(shí)間匹配方法是以FY-3D 衛(wèi)星的歸一化植被指數(shù)(NDVI)的時(shí)間為準(zhǔn),找鄰近的Google影像。空間匹配方法則是以FY-3D 衛(wèi)星的冬小麥識(shí)別產(chǎn)品空間分辨率為250m,根據(jù)Google 影像目視解譯的小麥樣本數(shù)據(jù)的經(jīng)緯度,尋找125m范圍內(nèi)最近冬小麥識(shí)別產(chǎn)品像元,進(jìn)行空間匹配處理。
(2)冬小麥識(shí)別評(píng)價(jià)指標(biāo)描述:如表2 所示,以檢驗(yàn)源(Google)冬小麥識(shí)別產(chǎn)品為參考,若檢驗(yàn)源冬小麥識(shí)別結(jié)果為冬小麥,而FY-3D 冬小麥識(shí)別結(jié)果為非冬小麥,則定義為漏判;檢驗(yàn)源冬小麥識(shí)別結(jié)果為非冬小麥,而數(shù)據(jù)集冬小麥識(shí)別結(jié)果為冬小麥的情況,則定義為誤判。
表2 FY-3D 冬小麥識(shí)別與檢驗(yàn)源冬小麥樣本結(jié)果
(3)質(zhì)量檢驗(yàn)指標(biāo):質(zhì)量檢驗(yàn)指標(biāo)包括冬小麥識(shí)別準(zhǔn)確率PODcm、非冬小麥識(shí)別準(zhǔn)確率PODncm、冬小麥識(shí)別誤報(bào)率FARcm、非冬小麥識(shí)別誤報(bào)率FARncm、總體冬小麥識(shí)別準(zhǔn)確率HR、KSS評(píng)分。各指標(biāo)計(jì)算公式如下。
冬小麥識(shí)別準(zhǔn)確率PODcm:
式中a 表示匹配時(shí)間段內(nèi)相同空間范圍中FY-3D 衛(wèi)星數(shù)據(jù)和檢驗(yàn)源都檢測(cè)到有冬小麥的樣本個(gè)數(shù);b 表示檢驗(yàn)源檢測(cè)到冬小麥而FY-3D 為非冬小麥的樣本個(gè)數(shù),即FY-3D 冬小麥漏判的樣本個(gè)數(shù);c 表示檢驗(yàn)源為非冬小麥而FY-3D 為冬小麥的樣本個(gè)數(shù),即FY-3D 冬小麥識(shí)別誤判的樣本個(gè)數(shù);d 表示FY-3D 衛(wèi)星和檢驗(yàn)源都為非冬小麥的樣本個(gè)數(shù),即FY-3D 非冬小麥準(zhǔn)確的樣本個(gè)數(shù)。
2.1 聚類分析結(jié)果本研究基于冬小麥特有的生育期時(shí)間序列物候特征和隨機(jī)點(diǎn)的時(shí)序植被指數(shù)值(NDVI),基于K 均值聚類方法進(jìn)行聚類分析。如圖4a 所示,聚類簇?cái)?shù)量為3 個(gè)時(shí),聚類分析結(jié)果達(dá)到最佳。圖4b~d 分別為此次聚類的樣本結(jié)果,基于農(nóng)作物生育期內(nèi)的特定物候特征得知,圖4b 為樹草等其他植被,圖4c 為冬小麥,圖4d 為陸地、建筑
圖4 聚類分析過(guò)程圖
等。聚類分析結(jié)果如圖5 所示,采用隨機(jī)點(diǎn)聚類方法準(zhǔn)確得出小麥樣本點(diǎn),從而為后續(xù)全連接神經(jīng)網(wǎng)絡(luò)分類提供充足樣本。
圖5 真實(shí)小麥樣本圖和隨機(jī)點(diǎn)聚類結(jié)果圖
2.2 冬小麥識(shí)別結(jié)果利用冬小麥物候特征時(shí)期的風(fēng)云三號(hào)D 星遙感數(shù)據(jù)提取NDVI 旬合成數(shù)據(jù)集和聚類分析得出冬小麥樣本點(diǎn),采用全連接神經(jīng)網(wǎng)絡(luò)分類方法實(shí)現(xiàn)河南省冬小麥種植面積的信息提取,獲得2019 年、2020 年、2021 年和2022 年河南省農(nóng)作物的分布面積和空間分布格局(圖6)。由圖6 可知,河南省冬小麥種植區(qū)域主要分布在河南中部平原地帶和河南南部。
圖6 河南省冬小麥空間分布圖
2.3 精度驗(yàn)證本研究隨機(jī)從Google 高清影像數(shù)據(jù),采用目視解譯方法選取1400 個(gè)小麥樣本點(diǎn)和600 個(gè)非小麥樣本點(diǎn),共2000 個(gè)樣本點(diǎn)作為本次精度驗(yàn)證的數(shù)據(jù),采用質(zhì)量檢驗(yàn)指標(biāo)方法進(jìn)行精度驗(yàn)證。從表3、表4 可以得出,2019 年FY-3D冬小麥識(shí)別準(zhǔn)確率為84.6%,非冬小麥識(shí)別準(zhǔn)確率為84.3%;2020 年FY-3D 冬小麥識(shí)別準(zhǔn)確率為86.1%,非冬小麥識(shí)別準(zhǔn)確率為87.7%;2021 年FY-3D 冬小麥識(shí)別準(zhǔn)確率為84.1%,非冬小麥識(shí)別準(zhǔn)確率為82.5%;2022 年FY-3D 冬小麥識(shí)別準(zhǔn)確率為85.5%,非冬小麥識(shí)別準(zhǔn)確率為83.6%,歷年整體冬小麥識(shí)別準(zhǔn)確率為85.1%,非冬小麥識(shí)別準(zhǔn)確率為84.5%。
表3 2019-2022 年FY-3D 冬小麥識(shí)別與檢驗(yàn)源冬小麥樣本結(jié)果
表4 歷年FY-3D 冬小麥識(shí)別精度驗(yàn)證結(jié)果
在冬小麥分類過(guò)程中,單時(shí)相圖像無(wú)論其具有多少波段,都較難區(qū)分同期生長(zhǎng)的作物類型,利用多時(shí)相遙感信息,考慮冬小麥在不同生長(zhǎng)發(fā)育階段的光譜差異性原理,發(fā)現(xiàn)冬小麥歸一化植被指數(shù)在不同物候期存在較大差別。因此通過(guò)冬小麥生長(zhǎng)期選擇最佳時(shí)相的遙感數(shù)據(jù),利用時(shí)序植被指數(shù)和全連接神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)方法進(jìn)行小麥自動(dòng)識(shí)別研究,可以高效減少其他作物的干擾,提高識(shí)別效率,具有實(shí)用性。
使用相同判別規(guī)則對(duì)不同地區(qū)的冬小麥進(jìn)行提取可能會(huì)存在一定誤差,因?yàn)椴煌瑲夂驐l件會(huì)導(dǎo)致作物生長(zhǎng)速率和長(zhǎng)勢(shì)存在差異。此外,F(xiàn)Y-3D 影像的250m 分辨率可能會(huì)導(dǎo)致混合像元的存在,從而影響冬小麥識(shí)別和提取精度。為了提高提取精度,下一步研究重點(diǎn)為探索區(qū)域地理環(huán)境差異和混合像元對(duì)提取精度的影響。
本研究以河南省為研究區(qū),利用風(fēng)云三號(hào)D星數(shù)據(jù),采用物候特征和全連接神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法對(duì)河南省冬小麥進(jìn)行提取,得到歷年河南省冬小麥空間分布情況,主要得出以下結(jié)論。
(1)分析河南省冬小麥的物候特征,利用冬小麥植被指數(shù)時(shí)序變化規(guī)律,采用聚類分析和全連接神經(jīng)網(wǎng)絡(luò)分類方法提出較為精準(zhǔn)的冬小麥像元,通過(guò)該技術(shù)可以有效地減少非植被地物對(duì)冬小麥提取的干擾,使其能自動(dòng)實(shí)現(xiàn)冬小麥的識(shí)別,提高了業(yè)務(wù)運(yùn)行效率。而且結(jié)合物候特征、時(shí)序特征、指數(shù)特征的聚類分析和全連接神經(jīng)網(wǎng)絡(luò)的分類方法比一般分類方法具有更高的分類精度和更小的樣本依賴性。
(2)物候特征和全連接神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法在河南省冬小麥提取中有相對(duì)較好的效果。在進(jìn)行精度驗(yàn)證時(shí),本研究以Google 高清影像為數(shù)據(jù),目視解譯出的冬小麥和非冬小麥像元作為檢驗(yàn)源數(shù)據(jù),識(shí)別河南省冬小麥的準(zhǔn)確率為85.1%,非冬小麥準(zhǔn)確率為84.5%。歷年河南省冬小麥自動(dòng)識(shí)別結(jié)果表明,該方法具有一定普適性和魯棒性。
總體來(lái)說(shuō),本研究在大尺度范圍上,基于風(fēng)云衛(wèi)星D 星遙感數(shù)據(jù),結(jié)合物候特征、時(shí)序特征、指數(shù)特征的聚類分析和全連接神經(jīng)網(wǎng)絡(luò)分類方法應(yīng)用于河南省冬小麥自動(dòng)識(shí)別研究中是可行的,而且為河南省冬小麥自動(dòng)識(shí)別的業(yè)務(wù)化應(yīng)用提供了新的思路和方法。