吳瑞嬋 甘淑 李強強
摘 ?要: 榆林地區(qū)新石器時代遺址豐富,同時在中國歷史上占有重要地位,為了更有效的保護(hù)和發(fā)掘榆林地區(qū)的遺址,了解古遺址空間分布的不同規(guī)律,探討研究古人類社會發(fā)展與自然環(huán)境演變的關(guān)系,本研究利用Maxent模型結(jié)合ArcGIS軟件對榆林地區(qū)遺址分布進(jìn)行預(yù)測研究,得出榆林地區(qū)潛在的遺址分布概率圖,并利用Kvamme增益統(tǒng)計對模型精度進(jìn)行驗證。結(jié)果表明:①本次實驗Maxent模型的AUC值為0.708,表明模型預(yù)測準(zhǔn)確度較高;②由刀切圖得出不同環(huán)境變量對遺址分布影響權(quán)重從大到小依次為:dem>離水距>剖面曲率>坡度>坡向;③模型的增益值為0.62,說明模型具有較高的精度。
關(guān)鍵詞:?榆林地區(qū);考古遺址;環(huán)境變量;Maxent模型;遺址預(yù)測模型;AUC值;增益統(tǒng)計
中圖分類號: TP7????文獻(xiàn)標(biāo)識碼:?A????DOI:10.3969/j.issn.1003-6970.2019.09.034
本文著錄格式:吳瑞嬋,甘淑,李強強. 基于Maxent模型的榆林地區(qū)新石器時代遺址預(yù)測分布研究[J]. 軟件,2019,40(9):148-152
Research on Neolithic?Site Prediction Distribution in Yulin Area Based on Maxent Model
WU Rui-chan1,2, GAN Shu1, LI Qiang-qiang1
(1. College of Land and Resources Engineering, Kunming University of Science and Technology, Kunming 650032, China;2. Institute of Remote Sensing and Digital Earth, Chinese Academy of Science Joint Laboratory of Remote Sensing Archaeology, Beijing?100101)
【Abstract】:?Yulin region is rich?in site.It?occupies an important position in the history of China, in order to protect and excavate?the Yulin sites more effectively and?understand?the spatial distribution of ancient sites. To explore the relationship between the development of ancient human society and the evolution of natural environment,?then this research use Maxent model combining ArcGIS software to predict?the distribution site in yulin, The distribution probability map of potential sites in yulin region is obtained. and by using the statistical Kvamme gain model accuracy validation.?The results show that: (1) the AUC value of Maxent model in this experiment is 0.708, indicating that the prediction accuracy of the model is high;?(2) according to the Jackknife map, the weight of the influence of different environment variables on the distribution of the site is as follows: dem?>?euclidean distance?> curvature > slope > aspect;(3) the gain value of the model is 0.62, indicating that the model has high precision.
【Key words】:?Yulin?region;?Site?points;?Environment variables;?Maxent model;?Site prediction model;?AUC value;?Kvammes gain statistics
RS和GIS技術(shù)的發(fā)展為考古發(fā)掘工作提供了新的方法和手段[1]。遺址作為古代人類活動留下的遺跡,具有重要的價值。通過研究潛在的遺址分布,有利于加深人們對人地關(guān)系的認(rèn)識,為保護(hù)可能存在的遺址提供參考??脊胚z址預(yù)測模型是一種有助于評估考古遺址存在于景觀的不同位置的可能性的工具,是一種結(jié)合時間和空間的時空定位方法[2]。它利用數(shù)學(xué)方法將遺址點和可能與遺址分布有關(guān)的環(huán)境因素結(jié)合起來在模型中進(jìn)行分析,得出遺址分布可能的規(guī)律和特征[3]。遺址預(yù)測模型可以追溯到20世紀(jì)50、60年代的聚落考古研究,美國考古學(xué)家Willey在微魯河谷所做的區(qū)域聚落系統(tǒng)研究[4]。1985年P(guān)arker認(rèn)為遺址預(yù)測模型是考古空間分析理論、方法和技術(shù)發(fā)展到一定階段的自然產(chǎn)物[4]。90年代后遺址預(yù)測模型被廣泛應(yīng)用,如Michael Marker等利用空間數(shù)據(jù)挖掘技術(shù)對伊朗扎格羅斯山脈上的舊石器時代聚落遺址位置進(jìn)行了預(yù)測[5]。近年來遺址預(yù)測模型逐漸朝多元化方向發(fā)展,如Ido Wachtel利用Logistic模型和Maxent模型預(yù)測比較以色列北部加利利和中國東北地區(qū)的阜新遺址分布等[6]。
國內(nèi)近年來利用遺址預(yù)測模型來研究遺址分布的也越來越多,如倪金生[4]、喬文文[7]和董振[5]等都采用邏輯回歸模型分別對山東沭河流域上游文化,岳山文化、鄭洛地區(qū)龍山文化時期聚落遺址和延邊地區(qū)渤海國遺址進(jìn)行研究,尚南[8]采用邏輯回歸方法對汾河流域仰韶文化時期至夏商時期的考古遺址進(jìn)行預(yù)測研究。郭飛[9]采用改進(jìn)隨機梯度上升法建立汾河流域龍山文化時期的遺址預(yù)測模型。結(jié)合GIS技術(shù)進(jìn)行考古已經(jīng)成為一種趨勢,而且遺址分布預(yù)測模型的構(gòu)建對于考古工作的開展具有一定的指導(dǎo)作用,可以避免許多不必要的工作。邏輯回歸模型用于預(yù)測遺址分布的技術(shù)已經(jīng)相當(dāng)成熟,而傳統(tǒng)的Maxent模型常被用于預(yù)測物種適宜性分布,很少用在考古上。鑒于它的操作簡單,適用性廣泛,穩(wěn)定性好,所以目前被嘗試用于考古研究。所以本研究以榆林地區(qū)為例,利用Maxent模型預(yù)測遺址分布概率,得出潛在的遺址分布概率圖,分析不同環(huán)境變量對遺址分布影響的權(quán)重,為榆林地區(qū)的遺址保護(hù)和挖掘提供技術(shù)支撐。
榆林市位于陜西省北部地區(qū),毛烏素沙地南邊緣,北緯36°57′~39°35′,東經(jīng)107°28′~111°15′之間(如下圖1)。地貌大體以長城為界,北部為風(fēng)沙草灘區(qū),南部為黃土丘陵溝壑區(qū),平均海拔1000至1500米。榆林地區(qū)地勢由西向東傾斜,河流眾多,境內(nèi)游53條河流匯入黃河。紅堿淖是陜西最大的內(nèi)陸湖。榆林氣候?qū)儆谂瘻貛Ш蜏貛О敫珊荡箨懶约撅L(fēng)氣候,四季分明。作為溫帶和半干旱交錯帶的典型代表,榆林地區(qū)在片段地理上有其獨特的空間分布格局。在生態(tài)上具有顯著的脆弱生境特征和演化規(guī)律。在歷史上榆林曾是魏、秦、漢、隋、明五個封建王朝修筑軍事防御長城較集中的地方。目前榆林地區(qū)已經(jīng)發(fā)掘的著名遺址有神木石峁遺址,秦長城遺址等。這些條件使榆林在歷史上戰(zhàn)略位置重要,為榆林地區(qū)文明的產(chǎn)生與發(fā)展奠定了基礎(chǔ)。
榆林地區(qū)的行政區(qū)劃圖來源于國家基礎(chǔ)地理信息中心,作為底圖來使用。本研究所需的數(shù)據(jù)主要是遺址點數(shù)據(jù)和與遺址分布相關(guān)的環(huán)境數(shù)據(jù)(如下表1)。遺址點主要來源于遺址發(fā)掘報告和網(wǎng)站數(shù)據(jù),共735處,分布情況如圖1。研究所用的環(huán)境數(shù)據(jù)主要有DEM遙感數(shù)據(jù)[10]、坡度、坡向、剖面曲率和河流水系數(shù)據(jù)。河流水系數(shù)據(jù)為USGS上下載所得,在本研究中我們將榆林地區(qū)的河流水系圖利用ArcGIS中的歐氏距離工具生成了90?m×90?m的柵格圖層,計算每個柵格之間的距離和最近的水源。并稱之為離水距。各環(huán)境變量具體如下圖2。DEM數(shù)據(jù)為地理空間數(shù)據(jù)云上下載的SRTM90?m分辨率的高程數(shù)據(jù),并由高程數(shù)據(jù)生成坡度、剖面曲率和坡向數(shù)據(jù)。受氣候、水源、地形等自然因素的影響,遺址通常選取在海拔較低,地形平坦,距河流較近且能接受到更多光照的地方[11]。具體來說古代人類定居傾向于選擇地勢較低、坡度較緩的地方。所以高程數(shù)據(jù)和坡度數(shù)據(jù)是分析遺址分布必不可少的要素;古代人類居住地的選擇傾向于朝陽方向,以便有充足的光照,所以坡向數(shù)據(jù)也是必不可少的要素;水對于維持生命是必不可少,古代交通工具缺乏,取水困難,所以距水源的距離是影響遺址分布必不可少的因素。受現(xiàn)有資料的限制,目前的各環(huán)境變量并不能準(zhǔn)確的反應(yīng)過去的情況,但仍可認(rèn)為這些變量對于分析古代遺址點的存在是具有啟發(fā)的,并且與古代人類定居點的選擇有一定的聯(lián)系[1]。
本研究中選用的dem數(shù)據(jù)、坡度、剖面曲率、坡向和離水距等環(huán)境變量均在ArcGIS中進(jìn)行處理,采用GCS_WGS_1984坐標(biāo)系,均處理為柵格數(shù)據(jù),在實驗前對數(shù)據(jù)進(jìn)行預(yù)處理,包括降噪[13]、拼接、裁剪、配準(zhǔn)、矢量轉(zhuǎn)柵格等操作。采用ArcGIS中的空間自相關(guān)工具分析變量與遺址分布的相關(guān)性,再利用SPSS統(tǒng)計分析軟件分析變量之間的相關(guān)性,剔除相關(guān)性強的變量,結(jié)果表明這五個環(huán)境變量均不存在相關(guān)性,所以均可用于實驗研究。
本研究采用Maxent3.4.1軟件構(gòu)建模型預(yù)測遺址分布,得出榆林地區(qū)潛在的遺址分布概率圖。ArcGIS用于處理數(shù)據(jù)和統(tǒng)計分析。Maxent模型基于最大熵原理,因此又叫最大熵模型。最大熵原理指導(dǎo)我們在所有合適的分布中選擇熵值最大的分布。Maxent模型只需要遺址點和與遺址相關(guān)的環(huán)境變量即可對遺址分布進(jìn)行預(yù)測。用遺址存在點數(shù)據(jù)作為限制條件,得出此條件下的最大熵分布[14]。假設(shè)離散型隨機變量X的概率分布是,則其熵是
在進(jìn)入模型之前首先對上述數(shù)據(jù)做相關(guān)處理,將遺址點保存為csv格式,將5個環(huán)境變量分別做掩膜處理,統(tǒng)一邊界、坐標(biāo)和單元格大小,設(shè)置相關(guān)參數(shù),最終環(huán)境變量均保存為asc格式。本實驗設(shè)置25%的測試樣本,75%的訓(xùn)練樣本,最大迭代次數(shù)為5000,重復(fù)運行15次,選中刀切圖選項評價各環(huán)境變量的權(quán)重,其他設(shè)置默認(rèn)。模型的預(yù)測結(jié)果利用受試者工作特征曲線(receiver operating characteristic curve,ROC)下的面積(area under curve,AUC)進(jìn)行檢驗,AUC的取值范圍為[0,1],AUC值不受閾值的影響,是公認(rèn)的較理想的評價指標(biāo)[15]。AUC值越高說明預(yù)測準(zhǔn)確度越高[16]。一般認(rèn)為AUC值即ROC曲線下的面積在0.5~0.7時模型準(zhǔn)確度較低,0.7~0.9時模型準(zhǔn)確度較高,>0.9時準(zhǔn)確度最高。本次實驗得出的AUC均值為0.708,說明Maxent模型預(yù)測準(zhǔn)確度較高;實驗得出的遺址分布預(yù)測圖為ASCII格式的圖層,采用ArcGIS中的轉(zhuǎn)換工具將概率分布圖轉(zhuǎn)換為柵格格式,在ArcGIS中進(jìn)行分析、處理。模型得出榆林地區(qū)遺址概率分布圖共五副分別為最大值圖、中值圖、最小值圖、均值圖和標(biāo)準(zhǔn)差圖。本研究選用均值圖作為最終結(jié)果圖。最終得出Maxent模型遺址分布概率圖如下圖3。此外還得出評價不同環(huán)境變量權(quán)重的刀切圖,如圖4所示。
Kvamme是一種通用的評價遺址預(yù)測分布軟件的指標(biāo)[17,18]。本研究采用Kvamme增益統(tǒng)計評價模型的精度。表達(dá)式為,其中Pa是概率區(qū)遺址點數(shù)占總遺址的比值,Ps是概率區(qū)面積占研究區(qū)總面積的比值[7]。Gain值越接近1模型的預(yù)測準(zhǔn)確度越高。Gain接近0時模型基本沒有預(yù)測能力,Gain值為負(fù)值時具有反向預(yù)測能力,預(yù)測遺址不存在的概率[7]。采用ArcGIS中重分類的方法對Maxent模型得出的遺址分布概率圖進(jìn)行分類,將概率區(qū)等分為低概率區(qū)、中概率區(qū)和高概率區(qū)三類(如圖5所示)。計算各概率區(qū)增益值(如表2所示)。
由重分類結(jié)果圖可以揭示榆林地區(qū)遺址分布的空間規(guī)律,北部為高概率區(qū),中部及南部為中概率區(qū),河流水系周圍主要為低概率區(qū),與已知的遺址分布狀況吻合,且結(jié)果表明:①Maxent模型的AUC值為0.708,說明模型具有較高的準(zhǔn)確性,②利用Kvamme增益統(tǒng)計評價模型的精度,一般選擇高概率區(qū)尋找遺址點可以有效的提高挖掘效率,所以采用高概率區(qū)的增益值作為評價標(biāo)準(zhǔn)。結(jié)果表明高概率區(qū)遺址點數(shù)量為246處,所占面積為0.12,Gain值為0.65,表明Maxent模型具有較高的準(zhǔn)確率。需要說明的是在運行Maxent模型時有19個遺址點缺失環(huán)境變量值,所以最終參與模型運行的共有716個遺址點。③實驗還根據(jù)刀切圖得出不同變量對遺址分布影響重要性的大小依次是:dem>離水距>剖面曲率>坡度>坡向。
本文利用榆林地區(qū)遺址點結(jié)合與遺址分布相關(guān)的dem、坡度、剖面曲率、坡向和離水距等環(huán)境變量,利用Maxent最大熵模型建立榆林地區(qū)遺址預(yù)測模型,得出榆林地區(qū)潛在遺址分布概率圖,揭示了榆林地區(qū)遺址分布的空間規(guī)律。提出了一種不同于傳統(tǒng)預(yù)測模型的新模型,并對實驗結(jié)果進(jìn)行分析,結(jié)果表明Maxent模型可以有效地預(yù)測遺址存在的概率,分析不同環(huán)境變量對遺址分布的影響,同時具有較高的精度。因本文主要使用的是自然環(huán)境變量,未使用人為因素變量,模型的精度并不夠高,所以下一步可以收集更多與遺址分布相關(guān)的自然、人為因素添加到模型中,提高模型精度,為榆林地區(qū)遺址保護(hù)和挖掘提供更有效的參考,并為其他地區(qū)遺址挖掘和保護(hù)工作提供技術(shù)支撐。
參考文獻(xiàn)
[1]?李政委, 蘇惠敏, 朱利濤, 等. 陜西省漢至唐時期歷史文化遺址空間分布及其影響因素[J]. 陜西師范大學(xué)學(xué)報: 自然科學(xué)版, 2018.
[2]?陳斌, 鄭江龍, 勾學(xué)榮, 等. 一個時空定位方法[J]. 軟件, 2015(2).
[3]?秦臻. 回顧與展望:數(shù)學(xué)模型方法在考古學(xué)中的應(yīng)用[J]. 華夏考古, 2014(1): 142-149.
[4]?倪金生. 山東沭河上游流域考古遺址預(yù)測模型[J]. 地理科學(xué)進(jìn)展, 2009, 28(4): 489-493.
[5]?董振, 金石柱. 基于Logistic回歸模型的延邊地區(qū)渤海國遺址預(yù)測研究[J]. 延邊大學(xué)學(xué)報(自然科學(xué)版), 2015(2).
[6]?Wachtel I, Zidon R, Garti S, et al. Predictive modeling for archaeological site locations: Comparing logistic regression and maximal entropy in north Israel and north-east China[J]. Journal of Archaeological Science, 2018, 92: 28-36.
[7]?喬文文, 畢碩本, 王啟富, 等 鄭洛地區(qū)龍山文化遺址預(yù)測模型[J]. 測繪科學(xué), 2013, 38(6): 172-174.
[8]?尚南, 于麗君, 等. 采用邏輯回歸的汾河流域遺址分布研究[J]. 測繪科學(xué), 2015, 40(8): 47-52.