王院民,陳東湘,仝桂杰,顏道浩,李富富,吳紹華
(1.南京大學(xué)地理與海洋科學(xué)學(xué)院,江蘇 南京 210023;2.浙江財經(jīng)大學(xué)東方學(xué)院,浙江 海寧 314408;3.浙江財經(jīng)大學(xué)土地與城鄉(xiāng)發(fā)展研究院,浙江 杭州 310018;4.國土資源部城市土地資源監(jiān)測與仿真重點(diǎn)實(shí)驗(yàn)室,廣東 深圳 510034)
隨著我國工農(nóng)業(yè)快速發(fā)展,越來越多的有害物質(zhì)隨著工業(yè)排放、大氣沉降、化肥與農(nóng)藥濫用等方式進(jìn)入土壤中,其中由重金屬所造成的土壤環(huán)境問題尤為嚴(yán)重[1]。據(jù)調(diào)查顯示,耕地土壤中Cd元素污染問題最嚴(yán)重,其點(diǎn)位超標(biāo)率達(dá)到7.0%[2]。水稻是重金屬Cd易富集農(nóng)作物,易使Cd通過食物鏈進(jìn)入人體,影響人體健康。人體攝入過量Cd元素可能會導(dǎo)致高血壓、腎功能失調(diào)和心腦血管疾病[3-4]。如今,重金屬Cd污染已成為影響我國水稻品質(zhì)安全的重要因素[5-6]。
作物中Cd含量會隨著所處環(huán)境不同而呈現(xiàn)出不同的富集狀態(tài)[7],探討不同環(huán)境中水稻Cd超標(biāo)空間識別及預(yù)測問題,對因地制宜制定水稻Cd污染防范措施具有很現(xiàn)實(shí)的指導(dǎo)意義。當(dāng)前作物重金屬空間分布及其影響因素研究中,較常用研究方法有地統(tǒng)計法[8]、GIS空間分析法[9]、隨機(jī)森林模型法[10]以及主成分分析(PCA)和相關(guān)性分析(CA)等多元統(tǒng)計法[11]。但單用這些分析方法都存在一定局限性。地統(tǒng)計法一般適用于重金屬污染程度較低且母質(zhì)污染與外界污染差值不大的區(qū)域;GIS空間分析法所利用的空間插值雖能直觀表征空間分布,但由于污染物空間分布影響因素多,存在較大不確定性;PCA和CA等多元統(tǒng)計方法中相互校驗(yàn)一般需要在研究過程中采取足夠多的樣本才能達(dá)到空間識別效果[12];隨機(jī)森林模型法、人工神經(jīng)網(wǎng)絡(luò)法等則難以提取具體的空間識別規(guī)則。因此,采用多方法整合以彌補(bǔ)單一方法的缺陷,是當(dāng)前提高作物重金屬空間分布識別和制圖精度的重要途徑。
為解決傳統(tǒng)制圖精度較低的問題,采用整合決策樹模型與隸屬度空間制圖方法對水稻籽粒Cd超標(biāo)空間進(jìn)行識別和預(yù)測。相較于只采用決策樹制圖方法,采用隸屬度空間制圖方法可將水稻籽粒Cd超標(biāo)類型與環(huán)境之間的關(guān)系表示為一系列隸屬度函數(shù),即將傳統(tǒng)非0即1的二元邏輯假設(shè)轉(zhuǎn)化為0~1的隸屬度形式,以表達(dá)水稻Cd超標(biāo)類型與多環(huán)境因子之間的非線性關(guān)系,能更好地反映水稻籽粒Cd超標(biāo)空間分布的漸變特征,從而提高空間制圖精度。研究目標(biāo)包括(1)識別影響水稻籽粒Cd超標(biāo)的主控因子;(2)構(gòu)建水稻籽粒Cd超標(biāo)與環(huán)境因子之間的決策樹模型,并進(jìn)行超標(biāo)區(qū)域空間預(yù)測;(3)提取水稻籽粒Cd元素的超標(biāo)識別規(guī)則,通過隸屬度分析開展水稻超標(biāo)風(fēng)險的空間分布預(yù)測制圖研究,旨在為研究區(qū)水稻Cd超標(biāo)風(fēng)險識別與分區(qū)管控提供決策支持。
斗門區(qū)位于珠江三角洲南端,珠海市西部,東連中山市,北依江門市,介于北緯21°59′~22°25′、東經(jīng)113°0.5′~113°25′之間(圖1)。該區(qū)下轄5個鎮(zhèn),總面積為674.8 km2。斗門區(qū)地貌類型以低山、丘陵、臺地、沉積平原和仍在發(fā)育的灘涂為主,呈現(xiàn)出明顯的層狀地貌。全區(qū)平原寬廣,低山突屹,孤丘眾多,水道交錯,河涌密布,整體地形趨勢為東北部低于西南部。由于研究區(qū)位于西江入海口,上游污染物經(jīng)搬運(yùn)沉積會在土壤中富集;同時,研究區(qū)內(nèi)鄉(xiāng)鎮(zhèn)企業(yè)分布較密集,其排放的污染物也加劇了污染程度,導(dǎo)致研究區(qū)土壤重金屬富集,重金屬易通過土壤-水稻系統(tǒng)遷移到水稻籽粒中。
圖1 研究區(qū)概況及采樣點(diǎn)分布Fig.1 Survey of the study area and distribution of sampling points
根據(jù)水稻田空間分布情況,于2018年6月底在研究區(qū)隨機(jī)設(shè)66個采樣點(diǎn)采集水稻籽粒和水稻根際土壤樣品,同時再設(shè)土壤采樣點(diǎn)65個(圖1)。研究區(qū)污染工廠點(diǎn)位空間數(shù)據(jù)采用Python 3.7軟件獲取。將每個水稻采樣點(diǎn)所處農(nóng)田分成5小塊,在每小塊采集5株水稻,把整塊農(nóng)田25株水稻的籽?;旌虾笞鳛?份水稻籽粒樣品,將籽粒脫殼、脫糠后,貯存于編號塑料袋中備用。采集水稻的同時采集水稻根基土壤。在每個土壤采樣點(diǎn)將邊長為10 m的正三角形頂點(diǎn)與中心處各取1 kg土壤,混勻后取1 kg作為該樣點(diǎn)土壤樣品。根際土壤和土壤樣品均為表層0~20 cm土壤。
在實(shí)驗(yàn)室將水稻籽粒樣品烘干、稱重、粉碎,采用HNO3-HClO4溶液對0.1 g水稻籽粒樣品進(jìn)行混酸處理,采用電感耦合等離子體質(zhì)譜(ICP-MS,Agilent 7700X)測定水稻籽粒Cd含量。先后在土壤樣品中加入HF、HNO3和HClO4對樣品進(jìn)行消煮,然后采用石墨爐原子吸收法測定土壤樣品中全量Cd含量。測試過程均加入生物成分分析標(biāo)準(zhǔn)物質(zhì)(GBW10044)進(jìn)行質(zhì)量控制,回收率為90%~111%。具體的樣品測試結(jié)果見表1。
表1 水稻籽粒、根際土壤和土壤Cd含量測試結(jié)果分析Table 1 Analysis of Cd content in rice grain,rhizosphere soil and soil
1.3.1決策樹模型構(gòu)建原理
決策樹一般由根節(jié)點(diǎn)、分叉點(diǎn)和葉子節(jié)點(diǎn)3部分組成。首先將所采集樣本按一定比例分為訓(xùn)練樣本和檢驗(yàn)樣本,設(shè)訓(xùn)練樣本S的個數(shù)為s,被分為m類,每種類別分別記為Ci(i=1,2,…,m),Ci類樣本個數(shù)為si,則Ci類中存在si的概率記為pi,樣本分類所需要的分類期望記為I(s1,s2,…,sm),其計算公式為
pi=si/s,
(1)
(2)
假設(shè)屬性A可以將訓(xùn)練樣本S劃分為n個子集,記為sj(j=1,2,…,n),sij為子集sj中屬于Ci類的個數(shù),則Ci類中存在子集sj中樣本的概率記為pij,子集sj樣本需要的分類期望記為I(s1j,s2j,…,smj),按屬性A劃分成子集的期望記為EA,訓(xùn)練樣本S按屬性A分類所得到的信息增益(Gain值)記為GA,其計算公式為
pij=sij/sj,
(3)
(4)
(5)
GA=I(s1j,s2j,…,smj)-EA。
(6)
按相同方法得到所有屬性的Gain值,將訓(xùn)練樣本按Gain值最大的屬性進(jìn)行分類,然后自上向下利用遞歸法構(gòu)建所有決策樹分支。決策樹從根節(jié)點(diǎn)到子節(jié)點(diǎn)的每一個分支都代表著一種分類規(guī)則,每條分支上的節(jié)點(diǎn)都代表著該規(guī)則的限制條件,對每條規(guī)則進(jìn)行逐一提取、編號及精度分析,最終實(shí)現(xiàn)水稻籽粒中Cd超標(biāo)的具體識別。
1.3.2決策樹模型構(gòu)建方法及精度驗(yàn)證
影響水稻籽粒Cd含量的環(huán)境因子可分為自然因素和人為因素,自然因素包括土壤Cd含量、土壤有機(jī)質(zhì)含量、土壤pH值、砂粒含量、土壤全Fe含量、土壤無定形Fe含量和距河流水面距離,人為因素包括距城鎮(zhèn)村及工礦用地距離、距交通運(yùn)輸用地距離、距污染企業(yè)距離和夜間燈光指數(shù)。
依據(jù)GB 15618—2018《土壤環(huán)境質(zhì)量 農(nóng)用地土壤污染風(fēng)險管控標(biāo)準(zhǔn)(試行)》和GB 2762—2017《食品中污染物限量》,并結(jié)合實(shí)際情況,將樣本各屬性分為超標(biāo)(F)和不超標(biāo)(T)2類,盡量使2類樣本數(shù)量差別不大,避免決策樹因一側(cè)數(shù)目過少而被剪枝,具體分類標(biāo)準(zhǔn)見表2。在決策樹模型中計算得到各環(huán)境因子Gain值,Gain值可表示環(huán)境因子為決策樹模型構(gòu)建帶來的信息量,能用來直接衡量各環(huán)境因子貢獻(xiàn)度大小。某環(huán)境因子Gain值越大,則該環(huán)境因子特征越重要。構(gòu)建決策樹模型時選擇Gain值較大的環(huán)境因子對應(yīng)的水稻樣點(diǎn)數(shù)據(jù)。
42個采樣點(diǎn)數(shù)據(jù)用于構(gòu)建決策樹模型,其他24個采樣點(diǎn)數(shù)據(jù)用于隸屬度制圖精度驗(yàn)證。將構(gòu)建決策樹模型的42個采樣點(diǎn)從研究區(qū)左上到右下依次編號為1~42,并按5∶1比例進(jìn)行分配,得到訓(xùn)練樣本35個和預(yù)測樣本7個,采取編號等間隔6的樣本為預(yù)測樣本的分層取樣法,將這6組樣本依次放在決策樹模型中生成決策樹。決策樹構(gòu)建完成后以預(yù)測樣本遍歷所構(gòu)建的決策樹模型,將模型預(yù)測結(jié)果與樣本實(shí)際結(jié)果進(jìn)行比較,從而得到?jīng)Q策樹預(yù)測精度。
隸屬度制圖模型是在土壤-景觀模型基礎(chǔ)上對定量模型進(jìn)行重新制圖的過程[13-15]。該模型采用系統(tǒng)論方法論述了土壤發(fā)生過程與景觀要素之間的關(guān)系,為空間預(yù)測分布制圖提供了很大便利[16-19]。隸屬度制圖步驟如下。
(1)類型隸屬度的計算。類型隸屬度為某個分類類型與環(huán)境因子組合之間的相似度[20-21]。先提取某超標(biāo)類型與單個環(huán)境因子之間的隸屬度函數(shù),進(jìn)而計算該超標(biāo)類型與環(huán)境因子之間的隸屬度。再計算該超標(biāo)類型與環(huán)境因子組合之間的隸屬度,即采用limiting factor方法綜合上一步計算得到的單環(huán)境因子隸屬度。超標(biāo)類型會受到隸屬度最小的環(huán)境因子限制,以環(huán)境因子組合之間的最小單環(huán)境因子隸屬度作為該超標(biāo)類型的隸屬度。最后計算該超標(biāo)類型與多個環(huán)境因子組合之間的隸屬度。當(dāng)某超標(biāo)類型對應(yīng)多個環(huán)境因子組合時,采用模糊最大算子方法實(shí)現(xiàn)多環(huán)境因子組合之間隸屬度的綜合。選擇多個環(huán)境因子組合中數(shù)值最大的隸屬度作為該超標(biāo)類型的類型隸屬度。
表2 各環(huán)境因子屬性分類和貢獻(xiàn)度Table 2 Attribute classification and contribution degree of environmental factors
F和T分別表示超標(biāo)和不超標(biāo)。
(2)類型隸屬度圖的硬化。硬化是對每個圖像像元進(jìn)行綜合分析,每個像元會形成1個類型的隸屬度向量。設(shè)m種類型對應(yīng)的隸屬度向量分別為Ai(i=1,2,…,m),當(dāng)Ai為最大值時,認(rèn)為該像元所屬類型為第i種。
(3)精度驗(yàn)證。類型隸屬度圖硬化完成后,需進(jìn)行solimsolution 2015軟件與ArcGIS 10.2軟件之間的格式轉(zhuǎn)換,以便能更好地進(jìn)行空間制圖表達(dá)。精度評價時采用混淆矩陣方法進(jìn)行分析,分析指標(biāo)為生產(chǎn)精度、用戶精度和總分類精度[22-23]。
如表2所示,距交通運(yùn)輸用地距離、土壤SOM含量和土壤無定形Fe含量為影響水稻籽粒Cd含量的主控環(huán)境因子;而研究區(qū)土壤Cd含量和土壤砂粒含量空間變異小,是影響水稻Cd含量的非主控因子。
綜合考慮研究區(qū)實(shí)際情況和水稻籽粒Cd含量各環(huán)境因子的貢獻(xiàn)度分析結(jié)果(表2),選擇距交通運(yùn)輸用地距離(Dist-road)、土壤SOM含量(SOM)、土壤無定形Fe含量(A-Fe)和土壤pH值(pH)4個環(huán)境因子構(gòu)建決策樹。公路交通污染是影響公路兩側(cè)農(nóng)產(chǎn)品質(zhì)量安全的重要因子之一,距交通運(yùn)輸用地距離越小,水稻籽粒Cd污染越嚴(yán)重,Cd活性越強(qiáng)[24]。土壤SOM含量對水稻Cd含量的影響主要體現(xiàn)在有機(jī)膠體對金屬離子的強(qiáng)交換和吸附能力,土壤SOM含量過低時,增加其含量可減少作物中重金屬含量,而SOM含量較高時,增加重金屬活性,反而會加重重金屬污染[25]。土壤無定形Fe能吸附土壤重金屬,降低土壤中有效態(tài)Cd含量,進(jìn)而減少植物對Cd的吸收[26]。土壤pH值則通過影響重金屬在土壤中的溶解度來影響其行為,增加pH值會大大降低作物中Cd活性[27]。
決策樹模型共生成6棵決策樹(圖2)。如圖2所示,決策樹1~5分支中都存在超標(biāo)(F)和不超標(biāo)(T)的情況,決策樹6由于分層抽樣時超標(biāo)樣本數(shù)目較少,決策樹結(jié)果全為T,作為特殊情況不予考慮。決策樹1~4只包含距交通運(yùn)輸用地距離、土壤SOM含量和土壤pH值3個環(huán)境因子,這是由于訓(xùn)練樣本中土壤無定形Fe含量的Gain值較小。決策樹5中則包含所有4個環(huán)境因子,這說明該決策樹訓(xùn)練樣本集模擬結(jié)果較好,滿足研究要求。
pH為土壤pH值,Dist-road為距交通運(yùn)輸用地距離,SOM為土壤SOM含量,A-Fe為土壤無定形Fe含量。F和T分別為超標(biāo)和不超標(biāo)。圖2 決策樹模型所產(chǎn)生的決策樹簡圖Fig.2 A decision tree diagram generated by the decision tree model
基于5棵決策樹,對每個分支逐一進(jìn)行規(guī)則提取,共得到22條水稻Cd超標(biāo)的識別規(guī)則。去除存在許多重復(fù)的規(guī)則,并根據(jù)每條規(guī)則超標(biāo)情況及出現(xiàn)次數(shù),將水稻籽粒Cd超標(biāo)可能性按從大到小順序劃分為A~E 5個等級,最終得到判斷水稻籽粒Cd超標(biāo)與否的5條識別規(guī)則(表3)。
表3 水稻超標(biāo)決策樹識別規(guī)則的提取Table 3 Extraction of over-standard rules for rice
pH為土壤pH值,Dist-road為距交通運(yùn)輸用地距離,SOM為土壤SOM含量,A-Fe為土壤無定形Fe含量。F和T分別為超標(biāo)和不超標(biāo)。當(dāng)超標(biāo)情況為F,出現(xiàn)次數(shù)越多,超標(biāo)可能性也越大;當(dāng)超標(biāo)情況為T,出現(xiàn)次數(shù)越少,超標(biāo)可能性也越小。
為驗(yàn)證決策樹模型可靠性,利用每組驗(yàn)證樣本依次對每棵決策樹進(jìn)行精度驗(yàn)證,結(jié)果見表4。
表4 驗(yàn)證樣本進(jìn)行模型驗(yàn)證的精度Table 4 Validation samples to validate the model accuracy
如表4所示,每棵決策樹驗(yàn)證精度>70%,且平均精度為85.71%。對精度數(shù)據(jù)進(jìn)行統(tǒng)計分析,得到標(biāo)準(zhǔn)差為14%,方差為2%。這表明構(gòu)建的決策樹模型比較穩(wěn)定,能夠用于對水稻籽粒Cd超標(biāo)情況進(jìn)行風(fēng)險識別。
2.4.1水稻Cd超標(biāo)的隸屬度
為在空間上對研究區(qū)水稻籽粒Cd污染進(jìn)行風(fēng)險識別,根據(jù)決策樹模型計算結(jié)果采用solimsolution 2015軟件添加規(guī)則(表2),構(gòu)建pH、SOM、Dist-road和A-Fe的單環(huán)境因子隸屬度曲線,得到研究區(qū)規(guī)則庫,推理得到研究區(qū)水稻籽粒Cd超標(biāo)隸屬度分布(圖3)。隸屬度值介于0~100之間,隸屬度值越大,則表示該空間像元內(nèi)水稻籽粒Cd超標(biāo)風(fēng)險越高。如圖3所示,隸屬度高值區(qū)主要分布在研究區(qū)中部、西部和北部區(qū)域,而低值區(qū)主要分布在研究區(qū)東部和南部地區(qū)。
圖3 研究區(qū)水稻Cd超標(biāo)的隸屬度分布Fig.3 Distribution map of subordinate degree of rice Cd over-standard in study area
2.4.2水稻超標(biāo)隸屬度圖的硬化
由圖3并不能直接得到研究區(qū)水稻Cd空間超標(biāo)風(fēng)險,還需要利用solimsolution 2015軟件進(jìn)行硬化處理。硬化采用最大隸屬度法,即對同一個像元,比較其對應(yīng)的水稻Cd超標(biāo)與不超標(biāo)的隸屬度值大小,最后將隸屬度較大的水稻Cd超標(biāo)類型作為該像元的值。對研究區(qū)所有像元進(jìn)行分析后,得到研究區(qū)水稻Cd污染風(fēng)險規(guī)則推理制圖(圖4)。
2.4.3隸屬度制圖精度驗(yàn)證
為分析隸屬度制圖效果,采用ArcGIS 10.2軟件對用于構(gòu)建決策樹模型的研究區(qū)42個采樣點(diǎn)水稻籽粒Cd實(shí)測值進(jìn)行反距離插值制圖(圖5)。反距離插值原理為以插值點(diǎn)與樣本間的距離為權(quán)重進(jìn)行加權(quán),對離插值點(diǎn)越近的采樣點(diǎn)賦予的權(quán)重越高。
(1)制圖效果評價。如圖4~5所示,隸屬度制圖與傳統(tǒng)插值圖結(jié)果相似度較高,都可以表明研究區(qū)水稻籽粒Cd污染風(fēng)險安全區(qū)域范圍明顯大于超標(biāo)區(qū)域范圍的分布特征,且超標(biāo)區(qū)域主要分布在研究區(qū)中部和東北部,這在一定程度上也驗(yàn)證了決策樹模型的可靠性。由于水稻Cd超標(biāo)受生長區(qū)域環(huán)境制約,環(huán)境的復(fù)雜性決定了超標(biāo)區(qū)域的分散性。隸屬度制圖超標(biāo)區(qū)域更為分散,不是大面積區(qū)域超標(biāo),這在一定程度上更加符合研究區(qū)實(shí)際情況。
圖4 研究區(qū)水稻Cd污染風(fēng)險隸屬度制圖Fig.4 Mapping of subordinate degree of Cd pollution risk of rice in study area
圖5 研究區(qū)水稻Cd污染風(fēng)險識別插值圖Fig.5 Interpolation map of rice Cd pollution risk identification in study area
(2)隸屬度制圖精度評價。采用24個采樣點(diǎn)數(shù)據(jù)對隸屬度制圖結(jié)果進(jìn)行精度驗(yàn)證(表5)。驗(yàn)證結(jié)果顯示,水稻Cd超標(biāo)的用戶精度和生產(chǎn)精度均為66.67%,相對較低。而水稻Cd不超標(biāo)的用戶精度和生產(chǎn)精度均為95.24%,相對較高。這主要是由于水稻Cd超標(biāo)的采樣點(diǎn)數(shù)目較少導(dǎo)致??偡诸惥葹?1.67%,這表明在有限的野外采樣點(diǎn)的驗(yàn)證下,該精度達(dá)到了預(yù)期效果,因此可以認(rèn)為所構(gòu)建的決策樹模型是比較可靠的。
而采用同樣的24個水稻樣本對所得到的插值圖進(jìn)行驗(yàn)證,得到傳統(tǒng)插值圖的精度混淆矩陣(表6)。結(jié)果表明,水稻籽粒Cd超標(biāo)的用戶精度和生產(chǎn)精度分別為20.00%和33.33%,水稻籽粒Cd不超標(biāo)的用戶精度和生產(chǎn)精度分別為89.74%和80.95%,總分類精度為75.00%。
表5 水稻Cd污染風(fēng)險隸屬度制圖精度評價Table 5 Mapping accuracy evaluation of rice Cd pollution risk rules
表6 水稻Cd污染風(fēng)險插值圖精度評價Table 6 Accuracy evaluation of rice Cd pollution risk interpolation mapping
如表5~6所示,與傳統(tǒng)插值圖相比,基于決策樹模型的隸屬度制圖總分類精度由75.00%上升至91.67%。插值圖方法主要通過空間數(shù)據(jù)相關(guān)性進(jìn)行制圖預(yù)測,其結(jié)果受限于樣本數(shù)量和采樣點(diǎn)空間設(shè)置。而決策樹模型優(yōu)勢在于其考慮了水稻污染與環(huán)境因子之間的關(guān)系,且如果規(guī)則精度較高這種關(guān)系還可推廣到其他地區(qū),較傳統(tǒng)插值圖方法具有更加實(shí)際的應(yīng)用意義。
筆者研究選取了影響研究區(qū)水稻籽粒Cd污染的11個環(huán)境因子構(gòu)建決策樹模型,并根據(jù)模型得到每個環(huán)境因子的貢獻(xiàn)度,發(fā)現(xiàn)距交通運(yùn)輸用地距離為主控因子,這可能一方面是因?yàn)檠芯繀^(qū)采樣點(diǎn)周圍交通運(yùn)輸用地比較密集,而交通排放的重金屬生物有效性高[27];另一方面是因?yàn)榻煌l件好的地區(qū)企業(yè)分布密集,人為活動強(qiáng)烈,重金屬外源輸入通量大。土壤粒徑越小,其總表面積就越大,吸收重金屬的能力就越強(qiáng),所以土壤中重金屬含量與砂粒含量之間呈一定正相關(guān)關(guān)系[28]。但筆者研究發(fā)現(xiàn)土壤砂粒含量與土壤Cd含量的貢獻(xiàn)度最小,這可能是由于研究區(qū)土壤母質(zhì)為河相沖積物,Cd含量和土壤砂粒含量分布相對較均勻。因此,研究區(qū)土壤Cd元素含量和砂粒含量與水稻籽粒Cd含量相關(guān)不顯著。
此外,構(gòu)建決策樹過程中,筆者研究對總樣本按訓(xùn)練樣本數(shù)與驗(yàn)證樣本數(shù)比值為5∶1進(jìn)行分配,最終得到35個訓(xùn)練樣本和7個驗(yàn)證樣本。而采用的分配方式不同(如4∶1或6∶1),決策樹模型計算結(jié)果也會不同,如何選擇最優(yōu)分配方式以盡量減少分配方式造成的誤差也是該研究重點(diǎn)考慮的問題之一。構(gòu)建決策樹模型時,如果訓(xùn)練樣本太少會使規(guī)則缺乏代表性,而若驗(yàn)證樣本太少則會降低驗(yàn)證結(jié)果的可靠性?;诖?以最終得到的規(guī)則數(shù)量和模型驗(yàn)證精度為標(biāo)準(zhǔn),采用不同分配方式進(jìn)行多次模型構(gòu)建,規(guī)則數(shù)量越多,模型結(jié)果偶然性就越小,而驗(yàn)證精度則能更直接反映模型效果。最終發(fā)現(xiàn)35個訓(xùn)練樣本和7個預(yù)測樣本的分配方式效果最好。綜上所述,不同分配方式會對模型結(jié)果產(chǎn)生一定影響,但可以通過調(diào)節(jié)分配方式將這種影響降低到最小,使構(gòu)建的模型符合研究需要。
根據(jù)決策樹分支提取了識別研究區(qū)水稻Cd超標(biāo)的5個等級的識別規(guī)則,且通過識別規(guī)則進(jìn)行隸屬度空間制圖表達(dá),得到研究區(qū)水稻Cd超標(biāo)空間分區(qū)。隸屬度空間制圖與插值圖結(jié)果存在一定差異,這主要是因?yàn)橹茍D原理不一樣。插值圖法以插值點(diǎn)與樣本間的距離為權(quán)重進(jìn)行加權(quán),對離插值點(diǎn)越近的采樣點(diǎn)賦予更高的權(quán)重[29],這使離超標(biāo)樣點(diǎn)距離越近的區(qū)域超標(biāo)可能性越大,最后造成超標(biāo)區(qū)域在超標(biāo)樣點(diǎn)周圍成片分布的現(xiàn)象。而隸屬度空間制圖充分考慮了周圍環(huán)境因子與水稻超標(biāo)樣點(diǎn)之間的影響機(jī)制,并通過決策樹模型以一定規(guī)則的形式表示出來,最后再基于模糊數(shù)學(xué)理論進(jìn)行推理制圖,這就使結(jié)果中超標(biāo)區(qū)域不再是成片分布,而是根據(jù)特定樣點(diǎn)所處的特定環(huán)境機(jī)制形成[30]。如表5~6所示,隸屬度制圖用戶精度明顯大于插值圖,這主要是由于超標(biāo)樣點(diǎn)既分布在插值圖的片狀區(qū)域內(nèi),也分布在隸屬度制圖的零星區(qū)域內(nèi)。由于插值圖的片狀超標(biāo)區(qū)域較大,會包含更多不超標(biāo)樣點(diǎn),而隸屬度制圖的零星區(qū)域能以更小范圍鎖定這些超標(biāo)樣點(diǎn),從而提高模型準(zhǔn)確度??傮w來說,決策樹與隸屬度制圖相結(jié)合,能提高模型穩(wěn)健度和識別精度,可以判別出影響水稻籽粒Cd超標(biāo)的主控因子和非主控因子,并能根據(jù)識別規(guī)則較準(zhǔn)確地推斷出水稻Cd超標(biāo)的空間區(qū)域,可為政府部門有效減少研究區(qū)水稻籽粒Cd超標(biāo)情況提供決策依據(jù)。
(1)通過計算各環(huán)境因子的信息增益,發(fā)現(xiàn)距交通運(yùn)輸用地距離、土壤SOM含量和土壤無定形Fe含量為影響研究區(qū)水稻籽粒Cd污染的主控因子,而土壤Cd含量和土壤砂粒含量為非主控因子。
(2)選擇土壤pH值、土壤SOM含量、土壤無定形Fe含量和距交通運(yùn)輸用地距離4個環(huán)境因子構(gòu)建決策樹模型,得到5條用于識別水稻籽粒Cd污染的規(guī)則。經(jīng)驗(yàn)證,識別規(guī)則精度約為85.71%,可在一定程度上用于識別研究區(qū)水稻籽粒Cd污染風(fēng)險。
(3)對識別規(guī)則進(jìn)行空間制圖表達(dá),發(fā)現(xiàn)用隸屬度制圖方法得到的水稻籽粒Cd污染空間分布更細(xì)致,比較符合研究區(qū)水稻籽粒Cd污染實(shí)際情況,且總分類精度為91.67%,在采樣點(diǎn)有限的情況下能達(dá)到制圖要求。與單純決策樹制圖(精度為85.71%)和傳統(tǒng)插值圖(總分類精度為75.00%)相比,決策樹模型與隸屬度結(jié)合能提高決策樹模型穩(wěn)健性和識別精度。