陳宇,周悟,胡月明,2,3,4,5,6*,謝健文,2,3,4,6
(1.華南農(nóng)業(yè)大學(xué)資源環(huán)境學(xué)院,廣州 510642;2.廣東省土地信息工程技術(shù)研究中心,廣州 510642;3.廣東省土地利用與整治重點實驗室,廣州 510642;4.自然資源部建設(shè)用地再開發(fā)重點實驗室,廣州 510642;5.青海大學(xué)農(nóng)牧學(xué)院,西寧 810016;6.青海-廣東自然資源監(jiān)測與評價聯(lián)合重點實驗室,西寧 810016)
耕地是一種特定的土地,是人類活動的產(chǎn)物,是人類開墾之后用于種植農(nóng)作物并經(jīng)常進行耕耘的土地[1]。它是人類所需食物的主要源泉,是農(nóng)業(yè)生產(chǎn)發(fā)展的主要物質(zhì)基礎(chǔ),而耕地關(guān)乎糧食安全,糧食安全關(guān)乎國家發(fā)展與社會穩(wěn)定[2]。耕地質(zhì)量評價可準確評估耕地生產(chǎn)力與適宜性,是耕地保護、開發(fā)、政策完善等的重要前提[3]。
耕地質(zhì)量評價數(shù)據(jù)是對耕地質(zhì)量產(chǎn)生影響的指標數(shù)據(jù)集,而耕地質(zhì)量評價缺失數(shù)據(jù)即是數(shù)據(jù)集中部分遺漏、未采集、已知錯誤的數(shù)據(jù)。耕地質(zhì)量評價數(shù)據(jù)量大、類型眾多,在數(shù)據(jù)獲取、輸入、傳輸過程中,存在因人員操作不當、機器故障等原因?qū)е碌臄?shù)據(jù)錯誤與缺失的情況,而數(shù)據(jù)的錯誤也是數(shù)據(jù)缺失的表現(xiàn)形式,進而直接影響數(shù)據(jù)分析與挖掘,使得評價結(jié)果不準確、數(shù)據(jù)利用不充分[4]。而目前對于缺失數(shù)據(jù)填充方法已有相關(guān)研究,尤其插值法、最近鄰填充、回歸模型、期望最大化法、多重填充等方法應(yīng)用相對廣泛,但這些方法都存在明顯的不足??臻g插值法在不同區(qū)域不同數(shù)據(jù)中的最優(yōu)表現(xiàn)有明顯差異,如克里格插值、反距離加權(quán)兩種方法在不同研究中表現(xiàn)出各自最優(yōu),但空間插值法存在方法的選擇和結(jié)論的不確定性問題[5-7];最近鄰填充法是簡單高效且相對高精度的填充算法,但面對不同數(shù)據(jù)集難以有穩(wěn)定的填充效果,并且存在K 值難以度量的問題[8-10];回歸模型法填充局限性較大,對于數(shù)據(jù)之間的相關(guān)性要求極高,即需要數(shù)據(jù)存在必然的因果關(guān)系,并且根據(jù)數(shù)據(jù)關(guān)系構(gòu)建模型費時費力,修改也極其不易[11-13];期望最大化法是一種迭代優(yōu)化過程,執(zhí)行簡單且穩(wěn)定,逐步尋找最優(yōu)解,但該算法適用于大樣本,且數(shù)據(jù)集應(yīng)服從正態(tài)分布[9-10,14];多重填充法是對每個數(shù)據(jù)缺失值生成多個預(yù)測值,與上述方法不同的是該算法表現(xiàn)了數(shù)據(jù)集原有的不確定性,其隨機性強,但運算過程復(fù)雜,精度相對較低[15]。
數(shù)據(jù)的填充能彌補數(shù)據(jù)自身的缺失或滿足應(yīng)用的需求,如儀器設(shè)備測量問題、操作員錄入問題、分析問題等會使得數(shù)據(jù)結(jié)果與真實值存在較大差異,最終嚴重影響耕地質(zhì)量評價結(jié)果[16]。某些數(shù)據(jù)的直接測量極其復(fù)雜或耗時耗力,甚至無法實現(xiàn),因而需要采用數(shù)據(jù)填充法,如劉菲等[14]利用相關(guān)性因子對森林地林木平均胸徑的填充,就是間接運用數(shù)據(jù)之間的關(guān)聯(lián)性得到所需的數(shù)據(jù)。目前耕地數(shù)據(jù)庫日益增加,數(shù)據(jù)規(guī)范性、完整性不足的問題愈發(fā)突出,導(dǎo)致數(shù)據(jù)的缺失填充愈發(fā)重要;同時對耕地調(diào)查評價愈發(fā)頻繁,評價指標不斷豐富,新增指標數(shù)據(jù)的獲取也成為主要問題。
目前數(shù)據(jù)缺失已是不可避免的現(xiàn)實,而對耕地質(zhì)量評價數(shù)據(jù)而言,數(shù)據(jù)的完整才是耕地質(zhì)量評價的基礎(chǔ),由于耕地數(shù)據(jù)的采樣極其復(fù)雜耗時,所以對于耕地質(zhì)量評價數(shù)據(jù)的缺失填充研究迫在眉睫。當前耕地質(zhì)量評價缺失數(shù)據(jù)填充沒有得到系統(tǒng)地研究,現(xiàn)有的研究基本上只對耕地土壤成分缺失數(shù)據(jù)進行空間插值填充,為了科學(xué)評價耕地質(zhì)量,保證土地政策和制度的有效推行,必須對當前方法進行合理利用與改進,提出耕地質(zhì)量評價缺失數(shù)據(jù)填充方法,提高耕地質(zhì)量評價結(jié)果的精確性和可信度。針對目前耕地質(zhì)量評價數(shù)據(jù)缺失現(xiàn)狀,本研究對耕地缺失數(shù)據(jù)的填充方法進行探討,旨在提高耕地質(zhì)量評價缺失數(shù)據(jù)的填充精度,從而完善耕地質(zhì)量評價數(shù)據(jù)體系,為今后耕地質(zhì)量評價等相關(guān)研究提供的理論依據(jù),并對填充算法的應(yīng)用提供更多思路與可能。
1.1.1 研究區(qū)概況
從化區(qū)地處廣東省中部、廣州市東北部,位于113°17′~114°04′E、23°22′~23°56′N,全區(qū)總面積1 984.2 km2,2019 年末人口64.17 萬。屬于亞熱帶季風(fēng)氣候,年平均氣溫21.2 ℃,降水充足,河道縱橫,水資源豐富。從化區(qū)處于珠江三角洲到粵北山區(qū)過渡地帶,地勢自北向南傾斜,東北高,西南低,地形呈階梯狀。2019 年農(nóng)村人口占比54.89%,而基本農(nóng)田面積為174.9 km2,占全區(qū)面積不足10%。從化區(qū)地理位置、耕地及采樣點分布如圖1所示。
圖1 從化區(qū)地理位置、耕地及樣點分布圖Figure 1 Geographical location,cultivated land and samples distribution of Conghua District
1.1.2 數(shù)據(jù)來源
本研究數(shù)據(jù)主要來源于廣東省/廣州市統(tǒng)計年鑒、第二次全國土壤調(diào)查、廣州市基本農(nóng)田調(diào)查、數(shù)據(jù)挖掘及問卷調(diào)查等。根據(jù)常用的評價指標發(fā)現(xiàn)[17-18],土壤條件對耕地質(zhì)量影響最大,而地形、氣候雖然在小區(qū)域變化不大,但也是影響耕地質(zhì)量的重要因子。本研究主要選取從化區(qū)基本農(nóng)田數(shù)據(jù)、土壤重金屬數(shù)據(jù)(76 個樣點)、樣點基礎(chǔ)數(shù)據(jù)(204 個樣點)等,將其劃分為地類地形、土壤條件、氣候條件3 個方面(表1),共32 個指標,5 888 條耕地質(zhì)量評價數(shù)據(jù),這些數(shù)據(jù)充分體現(xiàn)了從化區(qū)耕地質(zhì)量的現(xiàn)狀,為耕地質(zhì)量評價奠定了基礎(chǔ)。
表1 耕地質(zhì)量評價指標Table 1 Cultivated land quality evaluation index
缺失數(shù)據(jù)填充方法從應(yīng)用對象上主要分為兩大類型,即空間性和非空間性??臻g性方法是充分考慮到數(shù)據(jù)本身存在空間關(guān)聯(lián)性,從而利用自身空間關(guān)聯(lián)特征來通過已知數(shù)據(jù)對缺失數(shù)據(jù)進行填充的方法;而非空間性數(shù)據(jù)之間不存在任何地理關(guān)聯(lián)性,只能尋找與其他數(shù)據(jù)內(nèi)部的關(guān)聯(lián)性,利用其關(guān)聯(lián)性對未知數(shù)據(jù)進行預(yù)測填充[17]。而對于耕地質(zhì)量評價數(shù)據(jù)而言,其自身的復(fù)雜多樣性決定了單一方法無法解決,因此本研究在缺失數(shù)據(jù)填充方法基礎(chǔ)上進行改進后對耕地質(zhì)量評價缺失數(shù)據(jù)進行填充,并與傳統(tǒng)方法進行精度比較。
1.2.1 空間相關(guān)性分析
空間自相關(guān)分析是檢驗具有空間屬性的要素是否對相鄰空間點屬性值產(chǎn)生影響,所以空間相關(guān)性分析必須對其屬性的空間位置和屬性值進行統(tǒng)計。目前對空間相關(guān)性分析的方法較多,最常用的是Moran′sI指數(shù),當I>0 時,為正相關(guān);I=0 時不相關(guān);I<0為負相關(guān)。具體計算見公式(1)[19]:
式中:xi和xj分別為i和j所在位置的屬性值;xˉ為該元素屬性平均值;Wij為權(quán)重。
1.2.2 填充方法
缺失數(shù)據(jù)填充方法研究已近百年,方法在不斷被提出與完善,目前已提出的方法有回歸模型填充、期望最大化填充(Expectation maximization,EM)、多重填充(Multiple imputation,MI)、K 最鄰近填充(K-nearest neigbor,KNN)、空間插值、神經(jīng)網(wǎng)絡(luò)、隨機森林等,本研究選取常用的幾種缺失數(shù)據(jù)填充方法進行簡單介紹并提出改進方法。
(1)常用填充方法
回歸模型填充是通過對自變量與因變量之間的關(guān)系進行建模預(yù)測[5-7]。該方法對于數(shù)據(jù)之間的相關(guān)性要求極高,即需要數(shù)據(jù)存在必然的因果關(guān)系。因此主要用于分析結(jié)果數(shù)據(jù)預(yù)測,多用于時間序列預(yù)測法。
KNN 填充是利用歐氏距離度量與當前數(shù)據(jù)最相似的K條記錄,然后用這K條記錄在當前屬性出現(xiàn)頻率最高的值進行填充或者利用這K條記錄對缺失位置的屬性利用距離的歸一化進行加權(quán)填充[20-22]。該方法多用于空間樣點數(shù)據(jù)的填充,與常用空間插值反距離權(quán)重插值原理相同,該插值方法常應(yīng)用于土壤數(shù)據(jù)、氣候數(shù)據(jù)的填充,不同之處在于前者是對已知點缺失值的填充,后者是對未知點數(shù)據(jù)的預(yù)測[23-24]。
多重填充方法是對每個數(shù)據(jù)缺失值生成多個預(yù)測值,呈現(xiàn)缺失數(shù)據(jù)的不確定性;每個值都用來填充數(shù)據(jù)集中的缺失值,產(chǎn)生若干個完整數(shù)據(jù)集合;再利用相同的方法對多個數(shù)據(jù)集進行分析,篩選出最優(yōu)解[15]。
期望最大化法是一種迭代算法,由兩步組成:第一步是求出期望,第二步則是將隨機參數(shù)進行極大化。先給隨機變量一個初始值,求出模型中各個參數(shù)的估計值,然后再利用新估計出的模型對該隨機變量進行估計,如此反復(fù)迭代,直至模型收斂為止[9-10,14]。
(2)四象最近鄰填充
四象最近鄰填充是在KNN 填充的基礎(chǔ)上進行改進,由于KNN 法是直接篩選出最近的K個對象,有可能會存在K個對象都趨向于一方的現(xiàn)象,導(dǎo)致最終的填充結(jié)果有較大偏差,所以針對該方法的不足進行改進,提出四象最近鄰填充方法[23]。四象最近鄰填充方法是針對某個對象屬性缺失值,在數(shù)據(jù)樣本中尋找該對象每個象限中最鄰近的n個對象,并利用其對應(yīng)屬性進行反距離加權(quán)運算,最終結(jié)果為該對象缺失值的預(yù)測值。該方法既彌補了KNN 的不足,也避免了K值選擇的困難。具體過程如下:
①距離度量的確定:計算出所有耕地數(shù)據(jù)對象的屬性距離,用于衡量兩兩之間的影響程度。本研究采用目前最常用的距離度量算法——歐式距離。
式中:dab為對象a和對象b之間的度量距離,m;xia表示第a個對象的第i維坐標,m;xib表示第b個對象的第i維坐標,m;i代表對象數(shù)據(jù)維度(本研究耕地數(shù)據(jù)為二維);a和b代表某個數(shù)據(jù)對象。
②鄰近篩選:對缺失數(shù)據(jù)對象點周邊其他對象進行逐一象限篩選,對存在對象的每個象限選擇n(n≤3)個對象用來填充缺失數(shù)據(jù),n過大會導(dǎo)致距離太遠,從而關(guān)聯(lián)性降低,對于周邊對象少的n取值為1,保證數(shù)據(jù)具有較高的關(guān)聯(lián)性。
③權(quán)重分配:采用距離權(quán)重反比,根據(jù)缺失對象與樣本點對象的距離進行加權(quán)度量,一般取值權(quán)重與距離平方成反比。具體計算表達式見公式(3):
式中:wak為對象k對對象a的影響權(quán)重系數(shù);dak為對象a和對象k之間的度量距離,m;k為缺失數(shù)據(jù)對象篩選出的第k個對象。
④缺失填充:根據(jù)缺失對象篩選出的樣本對象對應(yīng)屬性值與權(quán)重系數(shù)計算缺失填充值。存在的特殊分類數(shù)據(jù)先將其轉(zhuǎn)換為數(shù)值數(shù)據(jù),直接選取重復(fù)率最高的進行填充。具體計算表達式見公式(4):
式中:T為缺失填充值;vk是第k個對象對應(yīng)的屬性值。
(3)相似聚集填充
相似聚集填充是將數(shù)據(jù)集劃分為完整數(shù)據(jù)集和缺失數(shù)據(jù)集,通過對完整數(shù)據(jù)集內(nèi)部數(shù)據(jù)自身相似關(guān)聯(lián)性進行分析,通過不斷迭代運算計算出數(shù)據(jù)對象間的相似性,最終利用缺失數(shù)據(jù)集中已知數(shù)據(jù)和對象相似性結(jié)果預(yù)測缺失數(shù)據(jù)集中缺失值。該方法具體步驟如下:
①數(shù)值歸一化:由于耕地數(shù)據(jù)類型眾多、數(shù)據(jù)量大,數(shù)據(jù)會因為屬性值范圍不一、文本數(shù)據(jù)、離散數(shù)據(jù)等原因,導(dǎo)致數(shù)據(jù)不同屬性產(chǎn)生影響的不平衡性,所以需要將所有數(shù)據(jù)屬性值歸到相同數(shù)值范圍內(nèi),將文本數(shù)據(jù)轉(zhuǎn)換為數(shù)值數(shù)據(jù),使所有屬性影響相同。為簡化歸一結(jié)果,一般都選擇[0,1]。數(shù)值歸一化過程具體計算見公式(5)、(6):
式中:數(shù)據(jù)集U={C1,C2,…,Cn},Umax和Umin是表示該屬性數(shù)據(jù)集的最大值和最小值;Di為歸一化處理后該屬性中第i個屬性值。
②相似度度量:計算完整數(shù)據(jù)集中對象之間的相似度,連續(xù)變量相似度計算見公式(7),離散變量相同為1,否則為0;構(gòu)建相似度矩陣S。再通過構(gòu)建吸引度矩陣X和歸屬度矩陣G(初始值為0)不斷迭代直到聚集中心不變后停止,確定最終對象相似度矩陣[25]。
式中:aij為對象j的第i個屬性的值;sij為第i和第j的對象之間的相似度;xij為第i和j的對象之間的吸引度;gij為第i和j的對象之間的歸屬度;i′和j′均表示非i和非j;當gjj+xjj>0 時,迭代停止,此時與對象相似度最高的為該對象的聚集中心。
③缺失值填充:選擇與缺失值對象最高相似度的k個對象作為參考值,如果其中對象也存在對應(yīng)缺失值,即向下尋找下一個相似度最接近的對象。權(quán)重確定方法選擇距離權(quán)重反比,具體計算同公式(2);再通過權(quán)重和已知樣品數(shù)值計算缺失值,計算式同公式(3);對離散數(shù)據(jù)選擇重復(fù)率最高的作為預(yù)測值。
1.2.3 實驗設(shè)計
由于耕地數(shù)據(jù)覆蓋面廣、類型眾多、結(jié)果復(fù)雜、數(shù)據(jù)量大、數(shù)據(jù)采集周期長等原因,對耕地質(zhì)量評價缺失數(shù)據(jù)的研究較少,本研究在原有填充算法不足的前提下,提出四象最近鄰和相似聚集填充方法較以往填充方法的優(yōu)勢。提出的兩種方法是針對耕地質(zhì)量評價數(shù)據(jù)結(jié)構(gòu)特征,具有針對性,所以該方法在本研究的適用性較好。為驗證其方法的精度并與其他填充方法比較,利用Python 3.7和SPSS 26進行數(shù)據(jù)處理和精度計算,具體過程如下。
(1)缺失處理:為驗證數(shù)據(jù)填充方法的精度,選取真實完整的數(shù)據(jù)進行實驗。首先使用正態(tài)分布對數(shù)據(jù)異常值進行剔除,避免數(shù)據(jù)填充過程中數(shù)據(jù)異常值影響過大,導(dǎo)致填充精度過低。利用空間相關(guān)性和空間分布圖分析將數(shù)據(jù)集劃分為空間數(shù)據(jù)集和非空間數(shù)據(jù)集;再對空間數(shù)據(jù)集中數(shù)據(jù)除去坐標數(shù)據(jù)外隨機刪除1%、5%、10%、15%、20%數(shù)據(jù)信息,用于模擬缺失數(shù)據(jù)集,采用四象最近鄰填充方法和其余傳統(tǒng)填充方法進行填充;對非空間數(shù)據(jù)集中隨機選取5%、10%、15%、20%、25%屬性因素,在其中隨機刪除部分屬性信息,模擬缺失數(shù)據(jù)集,采用相似聚集填充方法和其余傳統(tǒng)填充方法進行填充。
(2)精度檢驗:由于數(shù)據(jù)對方法的適應(yīng)能力不同,為了避免偶然性,每次試驗都得出不同的精度,一般取多次結(jié)果的精度平均值對模型方法精度進行估計,本研究取10 次計算結(jié)果的平均值為最終精度。精度采用預(yù)測值與真實值相關(guān)系數(shù)計算,具體見公式(11):
式中:X為真實值;X′為預(yù)測值;n為填充個數(shù);Q為填充精度。
由于采集的數(shù)據(jù)會存在少量異常值,需對所有數(shù)據(jù)進行正態(tài)分布檢驗,本研究取置信區(qū)間為,將置信區(qū)間外的屬性值劃為異常值,數(shù)據(jù)檢驗結(jié)果(表2)表明,32 組屬性數(shù)據(jù)基本符合正態(tài)分布,異常值比例均小于3.5%,平均異常值比例僅為1.2%。
表2 從化區(qū)數(shù)據(jù)統(tǒng)計結(jié)果Table 2 Statistical results of Conghua District
利用ArcMap10.2 的空間自相關(guān)(Moran′sI)工具對32 組屬性數(shù)據(jù)進行空間相關(guān)性檢驗,Moran′sI指數(shù)取值范圍為[-0.261 9,0.652 1],其中具有空間正相關(guān)的因素有高程、氣溫等25 個,具有空間負相關(guān)的因素有全氮、粉砂粒等7 個,具體相關(guān)性統(tǒng)計結(jié)果見表3。
表3 Moran′s I指數(shù)統(tǒng)計結(jié)果Table 3 Statistical results of Moran′s I index
雖然空間自相關(guān)分析較為客觀,但為避免偶然性,本研究再利用ArcMap10.2 生成空間分布圖,進一步分析數(shù)據(jù)是否具有聚集相關(guān)性[26],部分空間分布圖如圖2 所示。
由圖2 可以看出:從化區(qū)西南部海拔低、東北部海拔較高,具有明顯的空間分布差異性;pH 值基本呈現(xiàn)西南部偏低、東部較高、北部居中,也具有明顯的空間分布差異性;而全氮含量分布不存在明顯的規(guī)律和特征;微生物含量呈現(xiàn)與海拔高度相反的趨勢,西南部含量高,東北部含量低,具有顯著的空間分布差異性。而氣候條件中氣溫與高程分布特征基本相似,東北部山區(qū)氣溫偏低,西南部平原氣溫偏高;降水及濕度與地形特征具有較大關(guān)聯(lián)性,降水量相對較高的地區(qū)分布在東北部山區(qū)南坡和西南地區(qū)。數(shù)據(jù)空間分布結(jié)果分析與空間自相關(guān)分析整體基本一致,根據(jù)最終分析結(jié)果將32 組數(shù)據(jù)集分為空間性數(shù)據(jù)和非空間性數(shù)據(jù)。
圖2 高程、pH值、全氮、微生物含量空間分布圖Figure 2 Elevation,pH value,total nitrogen and microbial content spatial distribution map
根據(jù)空間相關(guān)性分析得出耕地質(zhì)量評價數(shù)據(jù)中的空間性數(shù)據(jù),如高程、氣溫、有效鋅等25 組數(shù)據(jù),并對上述空間性數(shù)據(jù)采用回歸模型法、KNN 法、期望最大化填充法、多重填充算法及四象最近鄰填充法進行缺失填充,并計算不同填充方法不同缺失率下的填充精度(表4)。
從表4 可以得出,所有填充方法的填充精度均隨著缺失率的上升逐漸降低,空間性數(shù)據(jù)中填充算法的整體精度表現(xiàn)為:四象最近鄰填充>KNN 填充>期望最大化填充>多重填充>回歸模型填充。四象最近鄰填充算法的數(shù)據(jù)填充精度最高,在1.0%缺失率時填充精度高達92.6%;而KNN 算法在缺失率較低時,精度略低于四象最近鄰填充算法,隨著缺失率的不斷提高,兩種填充方法的精度逐漸趨于接近,主要原因是缺失率較高時,四象最近鄰方法篩選各象限鄰近點愈發(fā)靠遠,尋找較遠點導(dǎo)致關(guān)聯(lián)性較低從而降低了填充精度。其他三種算法中期望最大化法精度相對較高,并且隨著缺失率的提高精度降幅較為平緩;多重填充法在缺失率為1.0%時精度超過80%,而隨著缺失率上升精度急劇下降;回歸模型填充算法的精度普遍較低,在缺失率15%以下填充精度趨于穩(wěn)定,而缺失率為20%時精度快速下滑。期望最大化法填充、多重填充和回歸模型填充三種方法的精度相對較低可能是由于數(shù)據(jù)具有空間相關(guān)性,而這幾種方法并沒有對數(shù)據(jù)內(nèi)部關(guān)聯(lián)性進行分析,而只是運用數(shù)據(jù)值進行分析預(yù)測。
表4 不同缺失率下空間性數(shù)據(jù)各填充方法的填充精度比較(%)Table 4 Comparison of filling accuracy of different filling methods for spatial data with different missing rate(%)
綜上所述,對于耕地質(zhì)量評價空間性數(shù)據(jù),本研究提出的四象最近鄰填充算法在精度上相對突出并穩(wěn)定,整體上優(yōu)于其他方法。
在耕地質(zhì)量評價數(shù)據(jù)中,非空間性數(shù)據(jù)包括全氮、粉砂粒等7組因素,對該數(shù)據(jù)類型采取非空間性填充方法進行數(shù)據(jù)缺失填充,采用回歸模型填充、多重填充、期望最大化法填充、相似聚集填充,對非空間性缺失數(shù)據(jù)進行不同缺失率下的精度計算,結(jié)果見表5。
由表5 可知:隨著數(shù)據(jù)缺失率的提高,四種數(shù)據(jù)填充算法的精度都有所降低。而在這些算法中,相似聚集填充算法精度最高,在缺失率為5%~10%時,數(shù)據(jù)填充精度超過90%,主要原因是該方法集聚關(guān)聯(lián)因素而避免了不同類型因素之間的相互影響。并且該算法在缺失率25%以下時,算法的精度均平穩(wěn)下降,而期望最大化法填充、多重填充和回歸模型填充在缺失率達到15%時精度降幅明顯加快,而多重填充和回歸模型填充算法在整體上的填充精度較低,即使在缺失率為5%時的精度也僅為80%左右,所以相似聚集填充算法比較穩(wěn)定,且在缺失率較高時仍然能保持較好的填充精度。綜上所述,相似聚集填充算法對本研究中耕地質(zhì)量評價非空間關(guān)聯(lián)性數(shù)據(jù)缺失填充具有優(yōu)勢,在精度上明顯優(yōu)于其他填充算法,集中表現(xiàn)了其精度高、穩(wěn)定性強的特點。
表5 不同缺失率下非空間性數(shù)據(jù)各填充方法的填充精度比較(%)Table 5 Comparison of filling accuracy of different filling methods for non-spatial data with different missing rate(%)
本研究以廣州市從化區(qū)耕地質(zhì)量評價數(shù)據(jù)為樣本數(shù)據(jù)集,采用多種數(shù)據(jù)缺失填充方法進行分析,對數(shù)據(jù)進行空間相關(guān)性分析,并對缺失數(shù)據(jù)進行填補,結(jié)論如下:
(1)從化區(qū)耕地質(zhì)量評價數(shù)據(jù)基本服從正態(tài)分布,異常數(shù)據(jù)較少,32 組數(shù)據(jù)中有25 組具有空間自相關(guān)性。
(2)對空間關(guān)聯(lián)性數(shù)據(jù)填充精度最高的方法是四象最近鄰算法,在缺失率20%以下時精度均高達80%,精度隨缺失率增大而降低,其次為KNN 算法、期望最大化法、多重填充法、回歸模型法。
(3)對非空間關(guān)聯(lián)性數(shù)據(jù)填充精度最高的是相似聚集填充法,在缺失率25%以下時可保持80%以上的高精度,其次為期望最大化法、多重填充法、回歸模型法。
(4)本研究提出的四象最近鄰算法和相似聚集填充算法不僅在相同缺失率情況下精度更高,同時缺失率閾值范圍更廣,說明其方法的實用性更強。
綜上,本研究提出的四象最近鄰填充方法和相似聚集填充方法對耕地質(zhì)量評價缺失數(shù)據(jù)填充的精度較其他方法有較大提升,并且更加適用于耕地領(lǐng)域。下一步將進行不同研究區(qū)的驗證研究,來證實本研究提出方法的實用性和可靠性。