楊健鵬, 羅澤, 張應(yīng)明
1.中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心, 北京 100190
2.中國(guó)科學(xué)院大學(xué), 北京 100049
3.廣東車(chē)八嶺國(guó)家級(jí)自然保護(hù)區(qū)管理局,廣東 始興 512526
土地的利用和演變對(duì)人類(lèi)的發(fā)展至關(guān)重要,它涉及生活中的方方面面。土地利用方式多種多樣,包括耕地、草地、灌木、森林、城市用地、自然保護(hù)用地、旅游休閑等。土地在演變過(guò)程中存在著很多不確定性,一般受自然、社會(huì)、經(jīng)濟(jì)文化、政治等多種因素的影響[1-2]。在我國(guó)當(dāng)前的發(fā)展進(jìn)程中,生態(tài)建設(shè)和發(fā)展成為了必須要重視和解決的一項(xiàng)工作,我國(guó)建設(shè)的自然保護(hù)區(qū)在生態(tài)保護(hù)工作上起到了顯著作用。當(dāng)前我國(guó)在自然保護(hù)區(qū)建設(shè)中面臨的很多問(wèn)題,包括水土流失、土地荒漠化、生物多樣性下降、淡水和濕地生態(tài)系統(tǒng)受損等環(huán)境問(wèn)題,所以對(duì)生態(tài)保護(hù)區(qū)內(nèi)的土地演變的研究也愈發(fā)重要。研究土地演變過(guò)程有助于正確把握土地發(fā)展過(guò)程、保護(hù)自然資源及動(dòng)植物資源生物多樣性。
元胞自動(dòng)機(jī)(Cellular automaton, CA)是一種在時(shí)間、狀態(tài)、空間都處于離散狀態(tài)的網(wǎng)格式模型,并且模型的時(shí)間和空間不獨(dú)立存在,兩者相互作用,存在著因果關(guān)系。從提出至今,它常被用應(yīng)用在計(jì)算機(jī)科學(xué)、物理學(xué)、數(shù)學(xué)以及系統(tǒng)科學(xué)等多個(gè)學(xué)科的交叉領(lǐng)域,CA 的這種特性使其具有強(qiáng)大的空間運(yùn)算能力,研究人員常用它來(lái)計(jì)算和模擬復(fù)雜模型系統(tǒng)?;贑A 和土地利用演變的特點(diǎn),常用CA 來(lái)模擬土地利用的演變過(guò)程[3]。在采用CA 模擬土地演變過(guò)程中,核心是用地轉(zhuǎn)換規(guī)則的獲取,轉(zhuǎn)換規(guī)則是演變過(guò)程中土地自身特點(diǎn)以及空間變量等相互作用的結(jié)果。一個(gè)合適的轉(zhuǎn)換規(guī)則能夠很好的揭示土地利用變化過(guò)程的特點(diǎn),提高模擬的精度[4],更好的研究土地的變化規(guī)律,為城市發(fā)展以及生態(tài)保護(hù)區(qū)動(dòng)植物的發(fā)展提供有效的指導(dǎo)意見(jiàn)。20 世紀(jì)90年代以來(lái),越來(lái)越多的學(xué)者提出CA 模型來(lái)進(jìn)行土地利用變化的模擬。在國(guó)外,White 等長(zhǎng)期致力于元胞自動(dòng)機(jī)模型的研究,多次采用該模型進(jìn)行土地利用變化的預(yù)測(cè)和模擬[5],Wu 和Webster 提出采用多準(zhǔn)則估計(jì)方法來(lái)計(jì)算土地轉(zhuǎn)換概率來(lái)預(yù)測(cè)土地利用變化[6],Jenerette 利用經(jīng)驗(yàn)和改進(jìn)的遺傳算法作為轉(zhuǎn)換規(guī)則提出基于馬爾可夫鏈的元胞自動(dòng)機(jī)模型來(lái)預(yù)測(cè)土地利用變化[7],國(guó)內(nèi)有黎夏、葉嘉安、黎華等提出基于遺傳算法[8],粗集[9],支持向量機(jī)[10],人工神經(jīng)網(wǎng)絡(luò)[11]等轉(zhuǎn)換規(guī)則的獲取方法。近年來(lái),人工神經(jīng)網(wǎng)絡(luò)在各個(gè)學(xué)科中的作用不斷展現(xiàn),通過(guò)人工神經(jīng)網(wǎng)絡(luò)可以對(duì)復(fù)雜的系統(tǒng)進(jìn)行模擬,自動(dòng)學(xué)習(xí)系統(tǒng)中的參數(shù),無(wú)需人工修改和定義參數(shù),簡(jiǎn)化了運(yùn)算成本[12-14]。黎夏、葉嘉安提出基于ANN 的方法來(lái)?yè)Q取轉(zhuǎn)換規(guī)則并且與CA 相結(jié)合的模型[15],模型結(jié)果精度較高。隨后有學(xué)者在該模型的基礎(chǔ)上研究,提出一系列改進(jìn)方案,包括白新萍等對(duì)元胞自動(dòng)機(jī)中鄰域的改進(jìn),研究不同的鄰域設(shè)置和定義方式對(duì)模型的影響[16],劉明皓等提出新的轉(zhuǎn)換閾值獲取方式并且綜合鄰域改進(jìn)來(lái)提升模型精度[17]。傳統(tǒng)ANNCA 在自動(dòng)獲取轉(zhuǎn)換規(guī)則以及土地利用演變模擬簡(jiǎn)單方便,準(zhǔn)確度較高,但是該模型一般采用兩個(gè)時(shí)期的土地變化來(lái)進(jìn)行模擬預(yù)測(cè),無(wú)法通過(guò)多個(gè)時(shí)間段綜合數(shù)據(jù)進(jìn)行分析,存在一定的不足。針對(duì)這樣的不足,本文提出采用基于LSTM 的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的轉(zhuǎn)換規(guī)則來(lái)計(jì)算土地的轉(zhuǎn)換概率,并且設(shè)置不同的轉(zhuǎn)換概率閾值和隨機(jī)變量進(jìn)行實(shí)驗(yàn),利用車(chē)八嶺2005-2017年的土地利用變化數(shù)據(jù)進(jìn)行模擬,驗(yàn)證改進(jìn)后的模型效果。
針對(duì)傳統(tǒng)ANN-CA 模型的不足,本文提出采用基于LSTM 的RNN-CA 模型,在該模型中,通過(guò)對(duì)土地?cái)?shù)據(jù)進(jìn)行處理,以元胞作為基本單元,通過(guò)RNN 對(duì)土地利用變化以及空間變量進(jìn)行訓(xùn)練,得到土地利用的轉(zhuǎn)換概率,然后通過(guò)校驗(yàn)?zāi)P驮O(shè)置隨機(jī)變量和轉(zhuǎn)換概率等參數(shù),得到模擬結(jié)果,將模擬結(jié)果與真實(shí)年份的土地利用數(shù)據(jù)做對(duì)比驗(yàn)證,尋求模擬精度較高的參數(shù)組合。模型結(jié)構(gòu)如圖1所示。
數(shù)據(jù)處理作為實(shí)驗(yàn)前期的準(zhǔn)備工作,對(duì)于實(shí)驗(yàn)結(jié)果有重要作用,數(shù)據(jù)的處理主要采用ArcGIS 軟件。該軟件是一款強(qiáng)大的地理信息數(shù)據(jù)處理平臺(tái),通過(guò)該軟件主要實(shí)現(xiàn)數(shù)據(jù)的可視化,使數(shù)據(jù)以圖表形式展示,保證所有數(shù)據(jù)格式一致且處于同一個(gè)地理坐標(biāo)系。
實(shí)驗(yàn)中將土地利用類(lèi)型分為4 類(lèi),分別是草地(包括裸地)、建筑(包括耕地)、水體、森林。根據(jù)研究構(gòu)建14 個(gè)空間變量作為土地變化的驅(qū)動(dòng)因子,在實(shí)驗(yàn)前期主要進(jìn)行以下幾步數(shù)據(jù)的預(yù)處理:(1)統(tǒng)一數(shù)據(jù)的投影,坐標(biāo)系以及分辨率;(2)通過(guò)距離計(jì)算和鄰域分析等構(gòu)建空間變量;(3)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理并且完成抽樣處理。神經(jīng)網(wǎng)絡(luò)輸入層數(shù)據(jù)的標(biāo)準(zhǔn)化采用常用的min-max 標(biāo)準(zhǔn)化(Minmaxnormalation)對(duì)原始數(shù)據(jù)進(jìn)行線性變換,是結(jié)果落在[0,1]區(qū)間,轉(zhuǎn)換公式如式(1)所示:
其中x1,x2,...,x3表示某一柵格對(duì)應(yīng)的各個(gè)屬性值。
通過(guò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)通常魯棒性高,具備并行處理能力以及很強(qiáng)的容錯(cuò)能力,這樣的特性滿足轉(zhuǎn)換規(guī)則的要求。該模塊通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)獲取轉(zhuǎn)換規(guī)則,以下是傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)和基于LSTM 的循環(huán)神經(jīng)網(wǎng)絡(luò)兩種模型的計(jì)算過(guò)程。
(1)傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)
每個(gè)柵格單元都有n個(gè)屬性變量,即對(duì)應(yīng)神經(jīng)網(wǎng)絡(luò)輸入層的數(shù)據(jù),可以表示成式(2)
隱藏層計(jì)算完以后將結(jié)果輸出到下一層,其中隱藏層的響應(yīng)函數(shù)為式(4),
輸出層在激勵(lì)函數(shù)的作用下,得到輸出值,即轉(zhuǎn)換概率,同時(shí)由于土地變化存在的隨機(jī)性和不確定性,在得到輸出概率后,為了模擬不確定因素的干擾,通過(guò)在結(jié)果中加入隨機(jī)擾動(dòng),使結(jié)果更接近真實(shí)值。其中隨機(jī)干擾用Z表示,公式如式(5)。
其中rand的值在[0,1]隨機(jī)產(chǎn)生,γ參數(shù)用來(lái)控制隨機(jī)變量的范圍。所以最終輸出信號(hào)可以表示為式(6)。
圖1 RNN-CA 模型結(jié)構(gòu)Fig.1 Model structure of RNN-CA
(2)基于LSTM 的循環(huán)神經(jīng)網(wǎng)絡(luò)
LSTM(Long short-term memory)通過(guò)刻意的設(shè)計(jì)來(lái)避免長(zhǎng)期依賴(lài)問(wèn)題,是一種特殊的RNN。傳統(tǒng)的RNN 每一步的隱藏單元執(zhí)行的是一個(gè)tanh 或者ReLU 操作,LSTM 在RNN 的基礎(chǔ)上進(jìn)行改進(jìn),其與傳統(tǒng)RNN 的區(qū)別在于,LSTM 中結(jié)構(gòu)比較復(fù)雜,模塊內(nèi)還包括4 層結(jié)構(gòu),3 個(gè)Sigmod 層以及一個(gè)tanh 層[18]。如圖2為基于LSTM 的RNN 結(jié)構(gòu)圖。
圖2 基于LSTM 的RNN 結(jié)構(gòu)圖Fig.2 RNN structure chart based on LSTM
LSTM 輸入輸出的計(jì)算過(guò)程如圖3所示,可以看到LSTM 有三個(gè)輸入和兩個(gè)輸出,三個(gè)輸入分別為其中表示當(dāng)前網(wǎng)絡(luò)的輸入值,表示上一時(shí)刻的輸出值,表示上一時(shí)刻的狀態(tài)。兩個(gè)輸出分別為其中表示當(dāng)前時(shí)刻的輸出值,表示當(dāng)前時(shí)刻狀態(tài)。LSTM 輸入輸出的計(jì)算過(guò)程如圖3所示,公式如下列所示:
圖3 LSTM 輸入輸出的計(jì)算過(guò)程Fig.3 Calculation process of input and output of LSTM
元胞自動(dòng)機(jī)的組成元素包括元胞、狀態(tài)、鄰域以及轉(zhuǎn)換規(guī)則,通常采用式(8)來(lái)作為元胞自動(dòng)機(jī)的通式。
在本文中元胞自動(dòng)機(jī)的元胞為像元,每期的土地?cái)?shù)據(jù)數(shù)據(jù)需要設(shè)置成相同像元大小,一個(gè)像元代表一個(gè)元胞,元胞狀態(tài)為四種土地利用類(lèi)型,鄰域狀態(tài)代表每個(gè)像元鄰近像元的土地利用類(lèi)型。采用基于LSTM 的RNN 作為轉(zhuǎn)換規(guī)則得到不同土地類(lèi)型的轉(zhuǎn)換概率來(lái)預(yù)測(cè)下一時(shí)刻的元胞變化狀況,以此預(yù)測(cè)土地利用變化趨勢(shì)。其中不同類(lèi)型的鄰域?qū)τ陬A(yù)測(cè)效果會(huì)有不一樣影響,本文采用7×7 的鄰域類(lèi)型。
模型校驗(yàn)?zāi)K主要功能是對(duì)土地變化轉(zhuǎn)換概率閾值以及隨機(jī)變量γ進(jìn)行設(shè)置和調(diào)整,增加模型在訓(xùn)練中的精確度。通過(guò)設(shè)置不同的參數(shù),找到誤差最低的參數(shù)組合用于模擬模塊[19]。
廣東車(chē)八嶺國(guó)家自然保護(hù)區(qū)位于始興縣東南部,東面與江西全南縣交界,地理坐標(biāo)24°40′29″~24°46′21″N,114°07′39″~114°16′46″E,面 積7545km2。車(chē)八嶺保護(hù)區(qū)在1981年成立,并于1988年被確定為國(guó)家級(jí)自然保護(hù)區(qū)。保護(hù)區(qū)地處南亞熱帶向中亞熱帶的過(guò)渡區(qū)域,擁有保存較完整的中亞熱帶常綠闊葉林,區(qū)內(nèi)氣候溫暖濕潤(rùn),日照充足,分布著豐富的動(dòng)植物資源。
研究采用的數(shù)據(jù)為車(chē)八嶺自然保護(hù)區(qū)2005-2017年的地理數(shù)據(jù)。圖4為2008、2011、2014 以及2017年的土地利用現(xiàn)狀圖。
圖4 2008-2017 土地利用現(xiàn)狀(實(shí)際情況)Fig.4 Land use status from 2008 to 2017
根據(jù)研究發(fā)現(xiàn)影響土地利用變化的因素主要包括距離因子、鄰域土地利用類(lèi)型、社會(huì)影響因素以及自然屬性。通過(guò)將同類(lèi)型相關(guān)性較強(qiáng)的因子進(jìn)行剔除和合并后共選取14 個(gè)空間變量。獲取方法如下:(1)距離變量:根據(jù)已有的矢量的生物防火林帶、保護(hù)區(qū)內(nèi)基站、管理站、管理局、管護(hù)點(diǎn)的等點(diǎn)圖層,利用ArcGIS 計(jì)算出距生物防護(hù)林帶距離、距各個(gè)管理點(diǎn)的距離、距保護(hù)動(dòng)植物區(qū)的距離;(2)鄰近現(xiàn)有土地類(lèi)型:根據(jù)實(shí)驗(yàn)需求,將鄰域窗口設(shè)置為7×7;(3)自然屬性:主要包括保護(hù)區(qū)的高程數(shù)據(jù),坡向以及坡度數(shù)據(jù)。其中高程范圍在318-1219m 之間,高程數(shù)據(jù)對(duì)植物的生長(zhǎng)具有十分顯著的影響。坡度對(duì)區(qū)域的物質(zhì)與能量的交流和轉(zhuǎn)換方式有較大影響。坡向決定了某一區(qū)域接受太陽(yáng)輻射以及地面水分量值的變化程度。另外還包括保護(hù)區(qū)2008-2017年的冰災(zāi)影響以及該區(qū)域的植被指數(shù),這些自然數(shù)據(jù)對(duì)保護(hù)區(qū)土地利用變化都存在影響;(4)社會(huì)因素:人類(lèi)活動(dòng)影響,人口的分布以及人類(lèi)活動(dòng)的影響對(duì)于區(qū)域產(chǎn)業(yè)的發(fā)展有很大影響,這些因素都會(huì)間接影響土地利用變化。表1為模型采用的空間變量。
神經(jīng)網(wǎng)絡(luò)模型均采用3 層網(wǎng)絡(luò)結(jié)構(gòu),第一層是輸入層,總共14 個(gè)神經(jīng)元,對(duì)應(yīng)著14 個(gè)空間變量,第二層為隱藏層。對(duì)于3 層神經(jīng)網(wǎng)絡(luò),隱藏層的神經(jīng)元數(shù)目至少為2n/3(其中n 為輸入層神經(jīng)元個(gè)數(shù)),本實(shí)驗(yàn)中的將隱藏層數(shù)目設(shè)置為10,第三層對(duì)應(yīng)輸出層,神經(jīng)元個(gè)數(shù)為4,輸出對(duì)應(yīng)著其他土地利用類(lèi)型轉(zhuǎn)換為其他土地利用類(lèi)型的轉(zhuǎn)換概率。在隱藏層神經(jīng)元個(gè)數(shù)選擇時(shí),通過(guò)設(shè)置10、11、12個(gè)神經(jīng)元個(gè)數(shù),當(dāng)個(gè)數(shù)設(shè)置為10 時(shí),網(wǎng)絡(luò)的訓(xùn)練誤差最低,所以在模擬時(shí)采用的神經(jīng)元個(gè)數(shù)設(shè)置為10 個(gè)。
表1 模型采用的空間變量Table 1 Spatial variables used in the model
神經(jīng)網(wǎng)絡(luò)模型確定好以后,利用該模型進(jìn)行訓(xùn)練。首先對(duì)輸入的空間變量數(shù)據(jù)進(jìn)行隨機(jī)抽樣,然后將抽樣后的數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)中。訓(xùn)練中對(duì)2008、2011、以及2014年的土地利用柵格數(shù)據(jù)進(jìn)行抽樣,并且將數(shù)據(jù)按照時(shí)序排列,輸入到RNN 模型中進(jìn)行訓(xùn)練。經(jīng)過(guò)訓(xùn)練,當(dāng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練迭代超過(guò)100 次以后基本收斂(如圖5所示)。
神經(jīng)網(wǎng)絡(luò)在訓(xùn)練完成以后,輸出層的神經(jīng)元將會(huì)輸出每個(gè)柵格轉(zhuǎn)化為其他土地利用類(lèi)型的概率,得到轉(zhuǎn)換概率以后,實(shí)驗(yàn)采用最大概率轉(zhuǎn)換原則,選擇概率最大的土地利用類(lèi)型概率值,將該概率與設(shè)置的轉(zhuǎn)換概率閾值比較,如果大于閾值,則土地利用類(lèi)型發(fā)生改變,否則土地利用類(lèi)型保持不變。本實(shí)驗(yàn)通過(guò)設(shè)置不同的轉(zhuǎn)換閾值(分別設(shè)置為0.9、0.8、0.7)以及不同的隨機(jī)變量參數(shù)γ= 1、2、3 進(jìn)行實(shí)驗(yàn),不同的模擬結(jié)果對(duì)比如表2所示。本文將2017年土地利用變化作為實(shí)驗(yàn)的模擬數(shù)據(jù)。
表2 RNN-CA 模型不同參數(shù)組合訓(xùn)練效果Table 2 Training effect of different parameters combination of RNN-CA model
從表2可以看出當(dāng)γ= 1,轉(zhuǎn)換閾值為0.8 時(shí)準(zhǔn)確率最高?;谠搮?shù)組合進(jìn)行實(shí)驗(yàn)獲得了基于LSTM 的RNN-CA 模型模擬得到的土地利用情況,將模擬情況與實(shí)際土地利用情況做對(duì)比得到模擬精度和kappa 系數(shù)(表3)。
除外之外,為驗(yàn)證RNN-CA 作為轉(zhuǎn)換規(guī)則的準(zhǔn)確率和有效性,實(shí)驗(yàn)還進(jìn)行以下兩方面的實(shí)驗(yàn)進(jìn)行對(duì)比:
(1)根據(jù)目前的研究的熱點(diǎn)模型ANN-CA 以及Markov-CA 模型作為轉(zhuǎn)換規(guī)則進(jìn)行實(shí)驗(yàn)。ANN-CA與RNN-CA 模型均采用的參數(shù)組合是γ= 1,轉(zhuǎn)換閾值為0.8。Markov-CA 模型是根據(jù)現(xiàn)有2011 和2014年土地利用數(shù)據(jù)得到兩期土地利用狀態(tài)轉(zhuǎn)移概率矩陣、轉(zhuǎn)移面積矩陣和狀態(tài)轉(zhuǎn)移圖集作為轉(zhuǎn)換規(guī)則進(jìn)行預(yù)測(cè)下一時(shí)刻即2017年元胞狀態(tài)的變化趨勢(shì),得到的實(shí)驗(yàn)結(jié)果如表4所示。
表3 模擬土地利用和實(shí)際土地利用的模擬精度和kappa 系數(shù)Table 3 Simulation accuracy and kappa coefficient of simulated land use and actual land use
表4 ANN-CA 模型和LSTM-RNN-CA 模型的精度Table 4 Accuracy of ANN-CA model and LSTM-RNN-CA model
(2)為了驗(yàn)證多時(shí)間段在本模型中的訓(xùn)練效果,在原來(lái)實(shí)驗(yàn)的基礎(chǔ)上將時(shí)間段擴(kuò)展到2005年,增加2005年的土地利用情況,輸入到模型中進(jìn)行模擬,對(duì)比實(shí)驗(yàn)結(jié)果如表5所示。
表5 時(shí)間段長(zhǎng)短對(duì)RNN-CA 模型模擬結(jié)果的影響Table 5 The effect of time period on the simulation results of RNN-CA model
分析表2可以得到結(jié)果當(dāng)γ= 1,轉(zhuǎn)換閾值為0.8 時(shí)準(zhǔn)確率最高。由此可知,在合適的轉(zhuǎn)換閾值和隨機(jī)參數(shù)范圍內(nèi),RNN-CA 模型的整體精度均在85%左右,kappa 系數(shù)也都在0.86 以上,準(zhǔn)確率較高。此外通過(guò)對(duì)轉(zhuǎn)換閾值和隨機(jī)變量參數(shù)進(jìn)行調(diào)整找到最佳參數(shù)組合可以提高模型的準(zhǔn)確率和kappa 系數(shù)。從表4的對(duì)比發(fā)現(xiàn)改進(jìn)的基于LSTM 的RNN-CA 模型比目前常用的ANN-CA 模型和Markov-CA 的準(zhǔn)確率高。從表5的研究結(jié)果表明,通過(guò)增加訓(xùn)練的時(shí)間段,模型的模擬效果有所提升,多時(shí)段的模擬更有助于模型學(xué)習(xí)土地利用變化的規(guī)律。
研究表明,采用基于LSTM 的RNN 對(duì)于構(gòu)建元胞自動(dòng)機(jī)模型非常方便,在簡(jiǎn)化CA 模型的同時(shí)還提高了模型的準(zhǔn)確率。本論文針對(duì)傳統(tǒng)ANN-CA模型進(jìn)行改進(jìn),采用基于LSTM 的RNN 作為元胞自動(dòng)機(jī)的轉(zhuǎn)換規(guī)則,綜合各類(lèi)空間變量對(duì)廣東省車(chē)八嶺生態(tài)保護(hù)區(qū)2005-2017年的現(xiàn)有土地?cái)?shù)據(jù)進(jìn)行土地利用變化的模擬,驗(yàn)證了模型的可靠性。為預(yù)測(cè)未來(lái)保護(hù)區(qū)土地利用變化情況提供了一種方法,有助于研究人員更好的開(kāi)展保護(hù)區(qū)的生態(tài)保護(hù)工作。
由于實(shí)驗(yàn)數(shù)據(jù)的限制,時(shí)段的選擇上有所不足,在后期的研究中可以再增加研究區(qū)域數(shù)據(jù),并且對(duì)土地利用變化的驅(qū)動(dòng)因子進(jìn)一步分析,探討不同驅(qū)動(dòng)因子對(duì)土地利用變化的影響以及對(duì)模擬結(jié)果的影響。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。