陳 頊
(江西理工大學(xué) 土木與測(cè)繪工程學(xué)院,江西 贛州 341000)
人口空間分布的精準(zhǔn)把控有利于區(qū)域管理、資源分配、災(zāi)害防治等。以往的人口統(tǒng)計(jì)方式一般以行政單元?jiǎng)澐?,通過(guò)人口普查與抽樣統(tǒng)計(jì)的方法得到各級(jí)行政單元的人口。這種方式無(wú)法精準(zhǔn)展現(xiàn)人口分布情況,導(dǎo)致對(duì)人口分布的分析不足[1]。人口空間化是通過(guò)選取與人口數(shù)據(jù)相關(guān)的因子,用特定的計(jì)算方法或數(shù)學(xué)模型將人口數(shù)據(jù)分布到建立的格網(wǎng)上[2-3],格網(wǎng)空間可視化的人口數(shù)據(jù)可以展現(xiàn)出豐富的人口空間分布信息,能為精準(zhǔn)估算地區(qū)人口分布規(guī)律、輔助解決社會(huì)人口與自然環(huán)境的耦合問(wèn)題提供很大助力[4]。
地表覆蓋數(shù)據(jù)作為一種基礎(chǔ)數(shù)據(jù),與人口分布以及人類(lèi)活動(dòng)具有很強(qiáng)相關(guān)性,經(jīng)常應(yīng)用于人口空間化的研究,而近年來(lái)夜間燈光遙感數(shù)據(jù)在人口、GDP等社會(huì)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)的空間化建模中應(yīng)用也越來(lái)越廣泛[5]。李翔等選取夜間燈光數(shù)據(jù)和土地利用數(shù)據(jù)構(gòu)建上海市人口空間化模型,改善了人口空間模型的擬合精度[6]。趙真等利用地表覆蓋數(shù)據(jù)進(jìn)行分區(qū)建模和構(gòu)建考慮了空間異質(zhì)性的地理加權(quán)回歸模型進(jìn)行西南地區(qū)的人口回歸模擬,模型精度均有了提升[7]。本文選取夜間燈光數(shù)據(jù)結(jié)合地表覆蓋數(shù)據(jù)和DEM數(shù)據(jù)作為人口空間化的輔助數(shù)據(jù),以江西省為例,在縣級(jí)尺度上探究這些因子構(gòu)建人口空間模型的可行性,篩選出適當(dāng)因子構(gòu)建人口空間回歸模型,對(duì)模型進(jìn)行精度評(píng)定與比較,發(fā)現(xiàn)空間回歸模型相較線(xiàn)性回歸模型擬合精度更高,最優(yōu)模型為空間誤差模型。
本文所用到數(shù)據(jù)主要有2015年江西省行政區(qū)劃矢量數(shù)據(jù)、各縣(市、區(qū))人口統(tǒng)計(jì)數(shù)據(jù)、NPP/VIIRS夜間燈光數(shù)據(jù)、地表覆蓋數(shù)據(jù)和DEM數(shù)據(jù),具體見(jiàn)表1。
表1 數(shù)據(jù)來(lái)源
根據(jù)江西省統(tǒng)計(jì)年鑒及中國(guó)縣域統(tǒng)計(jì)年鑒統(tǒng)計(jì)得到2015年江西省各縣區(qū)人口數(shù)據(jù),共計(jì)100個(gè)縣區(qū)。為方便數(shù)據(jù)的處理,將不同來(lái)源的數(shù)據(jù)坐標(biāo)系均投影為WGS_1984_UTM_Zone_50N。建立江西省行政范圍內(nèi)1 km×1 km的矢量網(wǎng)格。
采用NASA官網(wǎng)下載的年平均燈光數(shù)據(jù),影像已經(jīng)過(guò)去噪處理,以江西省行政區(qū)劃范圍為掩膜提取出研究區(qū)域內(nèi)夜間燈光數(shù)據(jù),再進(jìn)行分區(qū)統(tǒng)計(jì)得到每個(gè)縣(市、區(qū))的夜間燈光總強(qiáng)度。地表覆蓋數(shù)據(jù)共有9個(gè)有效一級(jí)分類(lèi),根據(jù)無(wú)土地?zé)o人口的原則,排除水體類(lèi)型,統(tǒng)計(jì)其余地表覆蓋類(lèi)型在每個(gè)縣(市、區(qū))的面積。通過(guò)掩膜提取工具得到江西省行政區(qū)劃范圍內(nèi)的DEM影像;在ArcMap中,對(duì)DEM影像進(jìn)行處理得到坡度和坡向,再利用分區(qū)統(tǒng)計(jì)工具,計(jì)算每個(gè)縣(市、區(qū))的總高程、坡度和坡向。
空間回歸模型考慮了變量的空間相關(guān)性[8]。本文選取經(jīng)典的空間滯后模型和空間誤差模型來(lái)進(jìn)行研究。
1)空間滯后模型(SLM)形式為
Y=Xβ+ρWY+ε
(1)
式中:Y為人口統(tǒng)計(jì)數(shù);X為經(jīng)篩選得到的自變量;W為人口統(tǒng)計(jì)數(shù)的空間權(quán)重矩陣;β為X的空間回歸系數(shù);ρ為滯后變量WY的回歸系數(shù);ε為誤差項(xiàng)。
2)空間誤差模型(SEM)形式為
Y=Xβ+λWε+ξ
(2)
式中:Y為人口統(tǒng)計(jì)數(shù);X為經(jīng)篩選得到的自變量;β為自變量的空間回歸系數(shù);W為誤差項(xiàng)ε的空間權(quán)重矩陣;λ為誤差項(xiàng)ε的空間回歸系數(shù);ξ為隨機(jī)誤差。
空間回歸模型中一般以相關(guān)系數(shù)(R2)、對(duì)數(shù)似然函數(shù)值(LogL)、赤池信息準(zhǔn)則(AIC),施瓦茨準(zhǔn)則(SC)評(píng)定精度[9]。其中R2值在(0~1)之間,R2越接近1、LogL值越大、AIC和SC值越小都意味著模型的擬合效果越好[10],而且在普通最小二乘回歸的基礎(chǔ)上,要測(cè)拉格朗日常數(shù)(LM)和穩(wěn)健拉格朗日常數(shù)(RLM)的顯著性,二者的值越大說(shuō)明模型擬合效果更好[11]。
本研究以模型擬合人口數(shù)量與統(tǒng)計(jì)人口數(shù)量的相對(duì)誤差進(jìn)行檢驗(yàn)[12],公式為
(3)
式中:REi為絕對(duì)值相對(duì)誤差;POPi為第i個(gè)縣(市、區(qū))統(tǒng)計(jì)人口;POP′i為模型擬合得到的第i個(gè)縣(市、區(qū))人口數(shù)量。
為提高人口回歸結(jié)果精度,將人口回歸結(jié)果按分縣(市、區(qū))的校正方式構(gòu)建校正系數(shù)[13],調(diào)整格網(wǎng)回歸人口數(shù),使各縣(市、區(qū))的回歸人口總量與實(shí)際統(tǒng)計(jì)人口總量一致,校正公式為
(4)
式中:P′ik為校正后第i個(gè)縣(市、區(qū))的第k個(gè)格網(wǎng)的人口數(shù)量;Pik為第i個(gè)縣(市、區(qū))的第k個(gè)格網(wǎng)的擬合人口數(shù)。
通過(guò)SPSS軟件對(duì)各縣(市、區(qū))統(tǒng)計(jì)人口數(shù)量與各縣(市、區(qū))夜間燈光總強(qiáng)度、各地表覆蓋類(lèi)型面積和總高程、總坡度、總坡向進(jìn)行Pearson相關(guān)性分析。人口與相關(guān)因子系數(shù)見(jiàn)表2。
表2 相關(guān)性分析
由表2可知,夜間燈光強(qiáng)度、DEM衍生數(shù)據(jù)和地表覆蓋數(shù)據(jù)與人口數(shù)據(jù)的關(guān)系密切。本研究以各縣(市、區(qū))人口統(tǒng)計(jì)數(shù)量為因變量,各縣(市、區(qū))夜間燈光總強(qiáng)度、坡度和地表覆蓋類(lèi)型耕地、草地、濕地、不透水表面和裸地的面積為待選變量,置信水平為0.05,對(duì)回歸系數(shù)進(jìn)行P值顯著性檢驗(yàn),再排除可能造成共線(xiàn)性的變量,最終確定地表覆蓋類(lèi)型耕地、草地以及不透水表面面積為自變量,在ArcMap統(tǒng)計(jì)得到這3種地表覆蓋類(lèi)型在每個(gè)單元格網(wǎng)內(nèi)的面積。
選取的3種地表覆蓋類(lèi)型與江西省統(tǒng)計(jì)人口數(shù)據(jù)有較強(qiáng)的相關(guān)性,且通過(guò)了P值顯著性和共線(xiàn)性的檢驗(yàn),因此本研究采用地表覆蓋類(lèi)型耕地、草地以及不透水表面面積為自變量,人口統(tǒng)計(jì)數(shù)據(jù)為因變量,構(gòu)建空間回歸模型。兩種空間回歸模型的比較見(jiàn)表3。
表3 模型優(yōu)度比較
由表3各項(xiàng)指標(biāo)分析可知兩種空間回歸模型的精度均優(yōu)于線(xiàn)性回歸模型,而SEM模型的擬合精度又明顯優(yōu)于SLM模型,故選擇SEM模型進(jìn)行江西省人口空間回歸。模型系數(shù)見(jiàn)表4,所選變量系數(shù)均通過(guò)顯著性檢驗(yàn),將3種地表覆蓋類(lèi)型在格網(wǎng)單元內(nèi)的面積和回歸系數(shù)代入空間誤差模型,計(jì)算得到每個(gè)格網(wǎng)單元的人口擬合值。
表4 SEM模型系數(shù)
根據(jù)式(3),得到各縣(市、區(qū))回歸人口的相對(duì)誤差絕對(duì)值,見(jiàn)表5??臻g誤差模型模擬結(jié)果與各縣(市、區(qū))統(tǒng)計(jì)人口數(shù)量相對(duì)誤差絕對(duì)值在20%以下的有54個(gè),大于50%的為7個(gè);再根據(jù)各縣(市、區(qū))的相對(duì)誤差絕對(duì)值計(jì)算得到平均相對(duì)誤差為23.98%,總體精度較高,在人口密集的城市中心區(qū)域存在低估情況。
表5 誤差統(tǒng)計(jì)
根據(jù)式(4),計(jì)算各縣(市,區(qū))的人口校正系數(shù),將各縣(市、區(qū))內(nèi)格網(wǎng)人口回歸數(shù)乘以相應(yīng)的校正系數(shù),使回歸得到的各縣(市、區(qū))人口數(shù)與統(tǒng)計(jì)人口數(shù)相符合,得到校正后的單元格網(wǎng)人口。
根據(jù)空間誤差模型得到的格網(wǎng)單元人口模擬結(jié)果和縣級(jí)尺度上的格網(wǎng)人口校正,本研究得到了2015年江西省人口數(shù)據(jù)空間化校正結(jié)果,圖1清晰反映了江西省人口分布狀況。根據(jù)無(wú)土地?zé)o人口的原則,將水體覆蓋類(lèi)型上的人口賦值為0。
由圖1可分析得出:江西省人口密度主要集中在0~500人/km2,人口密度在各城市中心達(dá)到峰值,特別是南昌市中心城區(qū),人口達(dá)到峰值,最高值為17 742人/km2,圍繞南昌市附近的江西省北部的城市更多且經(jīng)濟(jì)更發(fā)達(dá),人口密度普遍更高,而在贛南地區(qū)及省界周邊山地較多,人口密度分布相對(duì)較低。格網(wǎng)空間化后人口變化不以行政單元界限劃分,呈現(xiàn)出城市中心高,四周低的分布狀況,以城市為點(diǎn),周邊為線(xiàn)分布,人口呈一核心多集聚的分布,在南昌市城區(qū)范圍內(nèi)達(dá)到峰值,其余人口密集處集中在各縣(市、區(qū))中心,距離縣(市、區(qū))中心越遠(yuǎn),人口密度越低,且分布較為均勻,再結(jié)合2015年江西省統(tǒng)計(jì)人口分布分析,所選取的人口相關(guān)因子能夠合理模擬人口的實(shí)際分布,空間化人口分布狀況與實(shí)際人口分布情況符合。
圖1 人口空間化結(jié)果
進(jìn)行人口空間化的研究有助于掌握高分辨率的地區(qū)人口分布情況,對(duì)區(qū)域管理、資源分配、災(zāi)害防治等有很大的幫助。本研究選取地表覆蓋類(lèi)型、夜間燈光數(shù)據(jù)、DEM及其衍生數(shù)據(jù)進(jìn)行與2015年江西省人口相關(guān)性的探究,結(jié)論如下:
1)根據(jù)參考文獻(xiàn)與查閱資料,選取的地表覆蓋數(shù)據(jù)、夜間燈光數(shù)據(jù)和DEM數(shù)據(jù)被廣泛應(yīng)用于人口空間化研究,但在本研究中發(fā)現(xiàn)在P值顯著性與共線(xiàn)性檢驗(yàn)時(shí)部分相關(guān)系數(shù)較低的因子和夜間燈光數(shù)據(jù)并不適合用于江西省人口空間化建模,說(shuō)明在不同地區(qū)人口影響因子的相關(guān)性不同,應(yīng)選擇盡量多的相關(guān)因子進(jìn)行篩選,提高建模精度。
2)在模型指標(biāo)比較中發(fā)現(xiàn),考慮了研究區(qū)域空間相關(guān)性的空間回歸模型比一般線(xiàn)性回歸模型更優(yōu),模型擬合的結(jié)果更精準(zhǔn),在今后的研究中可以構(gòu)建其他的優(yōu)質(zhì)模型,比如考慮了人口空間異質(zhì)性的地理加權(quán)回歸模型。
3)人口空間化結(jié)果顯示在縣(市、區(qū))中心人口密集區(qū)域人口密度容易被低估,說(shuō)明地表覆蓋因子對(duì)城市中心的人口數(shù)模擬能力不足。在今后的研究中應(yīng)該選取與人口具有高相關(guān)性的因子實(shí)驗(yàn)提高模擬精度,比如與城市人口密切相關(guān)的POI數(shù)據(jù)。