陳漾漾,曹泳茵,徐 勇
(廣州大學(xué)地理科學(xué)與遙感學(xué)院,廣東 廣州 510006)
國(guó)內(nèi)生產(chǎn)總值(Gross Domestic Product,GDP)是一個(gè)國(guó)家所有常住單位在一定時(shí)期內(nèi)生產(chǎn)活動(dòng)的最終成果,是國(guó)民經(jīng)濟(jì)核算的核心指標(biāo),也是衡量經(jīng)濟(jì)狀況和發(fā)展水平的重要指標(biāo)。目前政府核算年度GDP需要收集各行業(yè)和勞動(dòng)者的各項(xiàng)經(jīng)濟(jì)指標(biāo),即基于行業(yè)生產(chǎn)過程中的增加值或報(bào)酬收入兩種經(jīng)濟(jì)指標(biāo)分別計(jì)算,最終才能確定GDP數(shù)值,這必然會(huì)導(dǎo)致數(shù)據(jù)公布在時(shí)間上出現(xiàn)滯后,尤其是區(qū)縣級(jí)行政單元的年度GDP存在缺失值??焖贉?zhǔn)確預(yù)測(cè)大范圍行政區(qū)的GDP能為政府決策提供參考,同時(shí)也是亟需解決的問題[1]。
夜間燈光遙感影像能夠監(jiān)測(cè)大范圍的地表人造光,Elvidge等[2]首次明確了地面人類活動(dòng)造成的夜間燈光和GDP具有一定的線性關(guān)系,而后該遙感數(shù)據(jù)也被驗(yàn)證出與GDP具有較強(qiáng)的相關(guān)性,是經(jīng)濟(jì)相關(guān)活動(dòng)的潛在指標(biāo)[3]。并且該數(shù)據(jù)獲取成本低,已被廣泛應(yīng)用于經(jīng)濟(jì)估算[4-7]、貧困度估算[8]、城市發(fā)展等級(jí)排名[9]和疫情復(fù)工復(fù)產(chǎn)[10]等社會(huì)經(jīng)濟(jì)領(lǐng)域的研究。與DMSP OLS夜間燈光數(shù)據(jù)相比,新一代的NPP VIIRS夜間燈光數(shù)據(jù)彌補(bǔ)了前者空間分辨率較低和燈光飽和等缺陷,對(duì)于GDP的擬合效果更佳[11-12]。
雖然夜間燈光對(duì)于截面GDP有著較好的指示性,但是燈光也會(huì)受到短暫的人類活動(dòng)、自然現(xiàn)象(山火、云、雪、氣溶膠等)和下墊面的影響[13],有時(shí)并不能很好地反映經(jīng)濟(jì)發(fā)展?fàn)顩r。隨著無(wú)線網(wǎng)絡(luò)和便攜式移動(dòng)設(shè)備的普及,人類社交媒體位置數(shù)據(jù)也成為擬合人口數(shù)量[14-17]和經(jīng)濟(jì)狀況[18-19]的一個(gè)指標(biāo)。Ma[20]基于夜間燈光數(shù)據(jù)和騰訊位置大數(shù)據(jù)的關(guān)系,發(fā)現(xiàn)在同樣光照強(qiáng)度不同地區(qū)的經(jīng)濟(jì)活動(dòng)也會(huì)存在較大差異。Zhao等[21]發(fā)現(xiàn)相較于穩(wěn)定燈光產(chǎn)品,推特軟件位置數(shù)據(jù)沒有高估郊區(qū)和低估城市核心區(qū)的社會(huì)經(jīng)濟(jì)狀況,可以將其視為夜間燈光的替代品來(lái)評(píng)估社會(huì)經(jīng)濟(jì)因素。Huang等[18]發(fā)現(xiàn)騰訊用戶密度數(shù)據(jù)在區(qū)縣尺度GDP模擬中比NPPVIIRS夜間燈光數(shù)據(jù)更加強(qiáng)大和可靠。這些研究表明,人類社交媒體位置數(shù)據(jù)能夠彌補(bǔ)夜間燈光在擬合GDP方面的缺陷。
類似的還有興趣點(diǎn)數(shù)據(jù)(Points of Interest,POI),它能在微觀尺度上反映人類經(jīng)濟(jì)活動(dòng),可以描述人類對(duì)于土地的細(xì)粒度開發(fā)方式,因此,POI已經(jīng)被用于提取城市和社會(huì)系統(tǒng)的詳細(xì)信息[22-23]。同時(shí)也有學(xué)者將其運(yùn)用到GDP預(yù)測(cè)中,如Chen等[24]將POI與夜間燈光數(shù)據(jù)耦合構(gòu)建隨機(jī)森林模型分別制作三大產(chǎn)業(yè)GDP空間化地圖;此外,有學(xué)者結(jié)合POI與其他數(shù)據(jù),通過構(gòu)建線性模型來(lái)繪制GDP空間分布圖[25-27]。但是同種類型POI模擬GDP時(shí)所占的權(quán)重相同,存在經(jīng)濟(jì)產(chǎn)出相差較大的情況,這會(huì)影響最終擬合結(jié)果,仍需補(bǔ)充能反映地域經(jīng)濟(jì)活力性質(zhì)的數(shù)據(jù)[24]。
除此之外,土地利用方式也是反映經(jīng)濟(jì)發(fā)展水平的重要因素,其在一定程度上代表了城市化進(jìn)程中人類聚居地的發(fā)展規(guī)模。Huang等[19]將城鎮(zhèn)建設(shè)面積納入到GDP建模中,發(fā)現(xiàn)其對(duì)GDP有顯著的正向作用。也有學(xué)者根據(jù)土地利用數(shù)據(jù)或?qū)⑵渑c夜間燈光數(shù)據(jù)結(jié)合分別對(duì)不同產(chǎn)業(yè)GDP構(gòu)建數(shù)學(xué)模型進(jìn)行GDP空間化[28-31],表明了土地利用數(shù)據(jù)具有反映GDP的能力。
綜合前人所得的結(jié)論,夜間燈光遙感數(shù)據(jù)、POI數(shù)據(jù)和社交媒體位置信息三者在擬合GDP時(shí)是互相彌補(bǔ)的關(guān)系。盡管也有研究同時(shí)將以上地理大數(shù)據(jù)結(jié)合進(jìn)行GDP估算[32-33],但是鮮有研究探討這些數(shù)據(jù)擬合GDP的潛力和性能,對(duì)于GDP空間建模尚無(wú)最優(yōu)因子選擇方案[18]。且中國(guó)大陸幅員遼闊,各地自然人文條件差異較大,不同地理數(shù)據(jù)在不同地區(qū)的GDP反映能力目前尚未明確。
鑒于此,本研究將夜間燈光遙感數(shù)據(jù)、POI數(shù)據(jù)、騰訊位置大數(shù)據(jù)和土地利用數(shù)據(jù)作為構(gòu)建GDP建模模型的候選指標(biāo),把這些指標(biāo)疊加在中國(guó)大陸的區(qū)縣行政范圍,分別運(yùn)用普通最小二乘法和地理加權(quán)回歸法模擬2020年中國(guó)大陸區(qū)縣的GDP。此外,研究還探討上述4種地理大數(shù)據(jù)在模擬GDP方面的能力,為最佳GDP建模因子的選擇和建模精度的提高提供參考。
截止2020年底,全國(guó)共有34個(gè)省級(jí)行政單位,333個(gè)地級(jí)行政單位,2 843個(gè)縣級(jí)行政單位。本研究選擇中國(guó)大陸的區(qū)縣(除香港、臺(tái)灣以及金門縣和金沙市)作為研究區(qū)域,圖1為我國(guó)2020年區(qū)縣GDP空間分布圖。其中藍(lán)色表示低值,紅色則表示高值。中國(guó)區(qū)縣GDP自東向西遞減,GDP較高的區(qū)縣集中在京津地區(qū)、山東半島、華東沿海地區(qū)、華中、成渝城市群、粵港澳大灣區(qū),而低值主要分布在東北北部、華北北部、青藏高原地區(qū)。
圖1 研究區(qū)Fig.1 Study area
1.2.1 夜間燈光數(shù)據(jù)及預(yù)處理
本研究使用美國(guó)宇航局(National Aeronautics and Space Administration,NASA)基于NPP-VIIRS數(shù)據(jù)開發(fā)的新產(chǎn)品——黑色大理石(Black Marble)2020年年度合成數(shù)據(jù)VNP46A4(https://ladsweb.modaps.eosdis.nasa.gov/)進(jìn)行分析。VNP46A4產(chǎn)品的空間分辨率約為500 m,已進(jìn)行提前校正,且其分為無(wú)雪期和積雪期,為用戶下載選擇提供了更多的觀察天數(shù)。Li等[34]發(fā)現(xiàn)夜間燈光在城市不同地區(qū)和下墊面表現(xiàn)出不同的角度效應(yīng),因此,NASA后續(xù)將黑色大理石月度復(fù)合產(chǎn)品補(bǔ)充為3個(gè)視角類別,即近星下點(diǎn)(天頂角0~20度)、側(cè)視點(diǎn)(觀測(cè)天頂角40~60度)和所有角度,本研究選取觀測(cè)天數(shù)最多的AllAngle_Composite_Snow_Free數(shù)據(jù)作為燈光值自變量。
考慮到積雪期地面反射率增強(qiáng)以及積雪檢測(cè)錯(cuò)誤可能會(huì)造成亮度值波動(dòng)[13],使用Python遴選出無(wú)雪期的燈光亮度像元并完成影像拼接,隨后重投影為Albers_Conic_Equal_Area投影坐標(biāo)系及重采樣至500 m。此外,VNP46A4產(chǎn)品并未過濾火光、油氣井等短暫光源干擾,為了減小影響,需要去除極大值。假設(shè)原始影像的一個(gè)地區(qū)亮度值大于同一時(shí)期的大城市最大亮度值,則將其識(shí)別成異常像素點(diǎn)進(jìn)行校正。選取北京市、上海市、廣州市、深圳市的最大亮度值作為參照閾值,當(dāng)識(shí)別到大于該參照閾值的異常像素點(diǎn)時(shí),將其重新賦予周圍8個(gè)像元的中值,然后生成最終的年度夜間燈光影像。
1.2.2 POI數(shù)據(jù)
POI數(shù)據(jù)來(lái)自于北京大學(xué)開放數(shù)據(jù)平臺(tái)(https://doi.org/10.18170/DVN/WSXCNM),收集的時(shí)間截止到2018年9月30日,覆蓋全國(guó)。數(shù)據(jù)預(yù)處理包括清除不完整及重復(fù)的POI數(shù)據(jù),最終保留34 955 806份有效的記錄,而后將高德坐標(biāo)轉(zhuǎn)化為WGS84坐標(biāo)再進(jìn)行重投影。
POI精細(xì)分類可以最大程度保證類似產(chǎn)值的POI聚合在一起,因此,參照《國(guó)民經(jīng)濟(jì)行業(yè)分類》(GB/T4754—2017)[35]對(duì)POI數(shù)據(jù)重新分類(表1),并進(jìn)行空間核密度分析。在核密度分析中,不同搜索半徑得到的結(jié)果不同。將搜索半徑從100 m逐次增加100 m直至1 000 m以獲取最佳核密度搜索半徑,發(fā)現(xiàn)當(dāng)搜索半徑在400 m及更大時(shí),POI與GDP的相關(guān)性基本穩(wěn)定且基本涵蓋所有POI小類別,這也與前人的研究結(jié)論相似[36]。為了最大程度減小共線性的影響,最終將300 m作為搜索半徑,以100 m為輸出像元大小,最后重采樣至500 m。
表1 POI分類表Table1 POI classification
1.2.3 騰訊位置大數(shù)據(jù)
騰訊位置大數(shù)據(jù)展現(xiàn)的是某個(gè)點(diǎn)位及其四周一定范圍內(nèi)所有使用QQ和騰訊(社交訊息軟件)、京東和美團(tuán)等應(yīng)用軟件的定位數(shù)量。由于2020年以后騰訊位置大數(shù)據(jù)的接口限制,其空間分辨率約為5 000 m,無(wú)法滿足研究需要。因此,本研究選取2018年全年0:00-24:00的騰訊位置大數(shù)據(jù)[37]作為建模因子,其空間分辨率約為1 000 m。對(duì)其進(jìn)行核密度分析,以1 000 m作為搜索半徑,輸出像元大小為500 m。
1.2.4 土地利用數(shù)據(jù)
本研究選取2020年30 m分辨率的中國(guó)土地利用遙感監(jiān)測(cè)數(shù)據(jù),來(lái)源于中國(guó)科學(xué)院資源環(huán)境科學(xué)與數(shù)據(jù)中心數(shù)據(jù)平臺(tái)(http://www.resdc.cn)。該數(shù)據(jù)分為耕地、林地、草地、水域、城鄉(xiāng)工礦居民用地和未利用土地6個(gè)一級(jí)分類,25個(gè)二級(jí)分類,將其重采樣為500 m分辨率,統(tǒng)計(jì)城鎮(zhèn)面積和工交建設(shè)用地面積總和作為城鎮(zhèn)建設(shè)用地自變量。
1.2.5 社會(huì)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)
根據(jù)行政單元收集區(qū)縣GDP數(shù)據(jù),獲取了2020年2 848個(gè)GDP數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集。另外還收集了2018—2019年地級(jí)市和部分區(qū)縣GDP作為驗(yàn)證數(shù)據(jù)集。
相關(guān)性分析被用來(lái)檢測(cè)GDP和一些潛在因子的共變趨勢(shì),為選取敏感因子提供參考。以區(qū)縣年度夜間燈光、騰訊位置大數(shù)據(jù)和12類區(qū)縣POI核密度總值作為自變量,區(qū)縣年度GDP為因變量進(jìn)行相關(guān)性分析。結(jié)果表明,夜間燈光、騰訊位置大數(shù)據(jù)和城鎮(zhèn)建設(shè)面積與GDP的相關(guān)性分別為0.789、0.765、0.700。除了工廠POI外,其余POI類別核密度與GDP的相關(guān)性GDP的相關(guān)性均大于0.7(表1)。在此基礎(chǔ)上,通過向后篩選法選擇較優(yōu)POI類別,最終根據(jù)逐步回歸法選取了夜間燈光、公司POI、政府及社會(huì)團(tuán)體POI(以下簡(jiǎn)稱“政府POI”)、騰訊位置大數(shù)據(jù)和城鎮(zhèn)建設(shè)用地面積作為最終模型的建模因子,這些建模因子的最大方差膨脹因子小于7.5,表明自變量之間沒有數(shù)據(jù)冗余。
普通最小二乘法(Ordinary Least Square,OLS)是分析兩個(gè)或多個(gè)變量關(guān)系的最常用的方法,采用最小二乘法量化GDP和地理因子的關(guān)系。為所有變量統(tǒng)一量綱,使用Zcore標(biāo)準(zhǔn)化到相同的范圍。OLS模型如下:
其中,y是因變量,表示第i個(gè)區(qū)縣的GDP;β0為模型的截距;Xi對(duì)應(yīng)模型的第i個(gè)區(qū)縣的解釋變量,βi是回歸系數(shù),它可以反映出每種變量對(duì)因變量的影響程度;εi為隨機(jī)誤差項(xiàng)。
OLS是假定全局的參數(shù)是穩(wěn)定的,其計(jì)算的系數(shù)在空間上沒有顯著差異,是解釋變量在所有區(qū)縣平均意義上的參數(shù)估計(jì)值。但是中國(guó)經(jīng)濟(jì)發(fā)展存在巨大的空間差異和不平衡性,這些差異會(huì)引起OLS精度和解釋因子出現(xiàn)一定的扭曲,采用地理加權(quán)回歸(Geographically Weighted Regression,GWR)模型能有效減少誤差。地理加權(quán)回歸模型在傳統(tǒng)的線性回歸模型基礎(chǔ)上考慮了空間對(duì)象的局部效應(yīng),運(yùn)用局部加權(quán)最小二乘法來(lái)解釋不同空間區(qū)位自變量和因變量之間的關(guān)系,可以用于探討地理要素的空間異質(zhì)性問題。模型的公式如下:
其中,y是因變量,表示第i個(gè)區(qū)縣的GDP;βi0(ui,vi)為該區(qū)縣的截距;xij對(duì)應(yīng)模型的第i個(gè)區(qū)縣的解釋變量,βij是回歸系數(shù);εi為隨機(jī)誤差項(xiàng)。經(jīng)過不同空間核函數(shù)和帶寬確定方法的組合測(cè)試,選擇Adaptive bi-square作為空間核函數(shù),AICc確定最優(yōu)帶寬。
對(duì)回歸模型和結(jié)果分別采用相對(duì)誤差(RE)、相對(duì)平均絕對(duì)誤差(%MAE)和均方根誤差(RMSE)進(jìn)行評(píng)價(jià)。公式如下:
其中,y是GDP統(tǒng)計(jì)值,yhɑt是估計(jì)值。
對(duì)區(qū)縣GDP數(shù)據(jù)和建模指標(biāo)進(jìn)行回歸系數(shù)求解,得到每個(gè)區(qū)縣的GDP估計(jì)值。從各項(xiàng)指標(biāo)對(duì)比發(fā)現(xiàn),GWR回歸結(jié)果的模型擬合度更好(表2)。相較于OLS模型的各項(xiàng)指標(biāo),GWR模型的總體擬合度高出12%;RSS值不足OLS模型的一半,表明模型擬合誤差更小;GWR模型的AICc值與OLS模型的AICc值差距遠(yuǎn)遠(yuǎn)大于3,這說明GWR模型更可靠。優(yōu)秀的模型需要滿足回歸殘差在空間上隨機(jī)分布的條件。通過空間自相關(guān)測(cè)試發(fā)現(xiàn)殘差在空間上隨機(jī)分布,沒有呈顯著集聚或分散,也證明了GWR模型的可用性。因此,選擇使用GWR模型進(jìn)行后續(xù)分析(圖2)。
表2 OLS模型與GWR模型的對(duì)比Table 2 Comparison between OLSmodel and GWR model
圖2 GDP估計(jì)空間分布圖Fig.2 The GDP distribution map of China
將估計(jì)值與統(tǒng)計(jì)值進(jìn)行對(duì)比,發(fā)現(xiàn)GDP整體空間分布很接近,但是也存在GDP高估或低估的情況,在胡煥庸線以西附近地區(qū)尤為明顯。另外,分別計(jì)算得到全國(guó)2 848個(gè)區(qū)縣、368個(gè)地(縣)級(jí)市的%MAE值分別為25.59%和12.58%,即相應(yīng)的準(zhǔn)確率分別為74.41%和87.42%,模型總體的擬合準(zhǔn)確率較高。
將用于GWR模型建模的5個(gè)因子分別單獨(dú)進(jìn)行OLS回歸和GWR回歸,探討其中最有利于擬合GDP的因子。我國(guó)GDP采取分級(jí)核算制度,地級(jí)市GDP統(tǒng)計(jì)值與其下轄區(qū)縣的GDP總和有細(xì)微出入。由于訓(xùn)練數(shù)據(jù)集采用的是區(qū)縣GDP統(tǒng)計(jì)值,因此,本研究將地級(jí)市GDP統(tǒng)計(jì)值作為驗(yàn)證數(shù)據(jù),對(duì)估計(jì)的區(qū)縣GDP值進(jìn)行RMSE和%MAE指標(biāo)驗(yàn)證(表3),以期更科學(xué)合理地對(duì)比不同建模因子對(duì)GDP的擬合能力。
表3 不同建模因子的精度評(píng)價(jià)Table 3 Accuracy evaluation of different modeling factors
根據(jù)表3可知,在各個(gè)因子中,GWR模型比OLS模型的準(zhǔn)確率至少高出10%,并且結(jié)合所有因子估計(jì)GDP要比單個(gè)因子估計(jì)GDP的準(zhǔn)確率高。同時(shí),每種因子對(duì)GDP的擬合能力也不同,在GWR模型中,公司POI對(duì)GDP的擬合表現(xiàn)最好(相對(duì)應(yīng)在地級(jí)市的準(zhǔn)確率為86.17%),其次是騰訊位置大數(shù)據(jù)(85.76%)、政府POI(85.13%)和夜間燈光數(shù)據(jù)(83.82%),最后是城鎮(zhèn)建設(shè)用地面積(81.43%)。綜合兩個(gè)模型的不同因子精度評(píng)價(jià)結(jié)果,POI數(shù)據(jù)相較于其他數(shù)據(jù)更能反映GDP;而騰訊位置大數(shù)據(jù)全局的擬合效果不如夜間燈光數(shù)據(jù),但在局部的效果卻比夜間燈光更好;城鎮(zhèn)建設(shè)用地面積對(duì)GDP的擬合能力較其他數(shù)據(jù)遜色。
將OLS模型和GWR模型的相對(duì)誤差鏈接到地圖上,可以探究不同數(shù)據(jù)在不同經(jīng)濟(jì)發(fā)展程度地區(qū)的GDP擬合性能。研究將相對(duì)誤差劃分為(0,0.3],(0.3,0.6],(0.6~0.9],(0.9,+∞]等4種等級(jí)的準(zhǔn)確度,其中,左列為OLS模型的相對(duì)誤差,右列為GWR模型的相對(duì)誤差(圖3)。從空間視覺上比較,無(wú)論是哪種數(shù)據(jù)和模型,胡煥庸線以西的地區(qū)GDP擬合誤差整體上都比其他地區(qū)呈現(xiàn)出更多數(shù)量的高值聚集現(xiàn)象,表明該地區(qū)的估計(jì)誤差相較東部地區(qū)來(lái)說更大。與夜間燈光數(shù)據(jù)和POI數(shù)據(jù)、城鎮(zhèn)建設(shè)用地面積相比,騰訊位置大數(shù)據(jù)明顯在新疆、西藏和青海等經(jīng)濟(jì)較落后區(qū)縣的GDP擬合誤差更小,即能夠彌補(bǔ)上述數(shù)據(jù)在這些地區(qū)GDP擬合能力弱的缺陷,在東部地區(qū),每種數(shù)據(jù)都能較好地?cái)M合GDP,并沒有明顯區(qū)別。
圖3 不同建模因子的擬合相對(duì)誤差圖Fig.3 Relative error of GDPprediction using different indicators
探討不同建模因子回歸系數(shù)的空間異質(zhì)性可以進(jìn)一步驗(yàn)證其對(duì)GDP的擬合能力,圖4展示了單個(gè)建模因子的GWR標(biāo)準(zhǔn)化回歸系數(shù)。如圖4(a)所示,夜間燈光數(shù)據(jù)在長(zhǎng)江中游城市群、長(zhǎng)江三角洲城市群東部、京津冀地區(qū)和山東半島等經(jīng)濟(jì)發(fā)達(dá)地區(qū)表現(xiàn)出正向影響,而在西藏、新疆和東北地區(qū)則表現(xiàn)出較小的正向影響,這可能是燈光收集時(shí)受到下墊面和數(shù)據(jù)缺失的影響,但也表明夜間燈光能夠在一定程度上指代經(jīng)濟(jì)發(fā)展?fàn)顩r。如圖4(b)~圖4(c)所示,公司POI和政府POI在粵港澳大灣區(qū)、長(zhǎng)江中游城市群、長(zhǎng)江三角洲城市群、京津冀城市群和成渝城市群這5大國(guó)家級(jí)城市群均呈現(xiàn)出較其他地區(qū)更大的正向影響,代表POI對(duì)于經(jīng)濟(jì)發(fā)達(dá)城市群的GDP預(yù)測(cè)具有地域普適性。如圖4(d)所示,較其他數(shù)據(jù)而言,騰訊位置大數(shù)據(jù)明顯在中國(guó)西南部對(duì)GDP有更大的正向影響,尤其是在新疆、青海和西藏的大部分區(qū)縣,這其中部分區(qū)縣GDP值甚至不超過3億元,表明人口數(shù)量和電子產(chǎn)品普及率能指代相對(duì)貧困地區(qū)的經(jīng)濟(jì)水平。同時(shí),北京市和上海市部分地區(qū)回歸系數(shù)大于1,說明騰訊位置大數(shù)據(jù)也能反映出發(fā)達(dá)地區(qū)的經(jīng)濟(jì)水平,這也與前人的研究結(jié)果一致[18]。如圖4(e)所示,對(duì)于城鎮(zhèn)建設(shè)面積,成渝城市群、京津冀城市群、中原城市群和長(zhǎng)江三角洲部分城市獲得了較大的回歸系數(shù),但在胡煥庸線以西的地區(qū)影響卻很小,這可能因?yàn)檫@些地區(qū)土地集約化利用程度較低。
圖4 不同建模因子的GWR標(biāo)準(zhǔn)系數(shù)圖Fig.4 The standard coefficient of GWR model using different indicators
綜上,不同地區(qū)的經(jīng)濟(jì)水平主導(dǎo)因素不同,POI數(shù)據(jù)在較發(fā)達(dá)地區(qū)或城市群有很好的指示作用,但是在西部貧困地區(qū),騰訊位置大數(shù)據(jù)的指示作用更大。在中國(guó)大陸大范圍地域進(jìn)行GDP預(yù)測(cè),每種數(shù)據(jù)之間互相能起到彌補(bǔ)的作用,人類經(jīng)濟(jì)活動(dòng)、人口數(shù)量和城鎮(zhèn)化率對(duì)GDP估計(jì)都有一定的影響。
僅使用訓(xùn)練數(shù)據(jù)集當(dāng)年年份做驗(yàn)證是不夠的,使用其他年份的數(shù)據(jù)做檢驗(yàn)?zāi)芨浞终f明建模因子的普適性。本研究也收集了2018年和2019年VNP46A4夜間燈光數(shù)據(jù)、2018年土地利用數(shù)據(jù)(由于缺少2019年同源的土地利用數(shù)據(jù),因此,將2018年土地利用數(shù)據(jù)作為2019年的土地利用方式,POI數(shù)據(jù)同理)和2019年騰訊位置大數(shù)據(jù)分別作為2018年和2019年的自變量驗(yàn)證數(shù)據(jù)集,將2020年GWR模型的系數(shù)代入到其余年份的自變量數(shù)值來(lái)估計(jì)驗(yàn)證當(dāng)年地級(jí)市和區(qū)縣的GDP。如圖5所示,在兩個(gè)驗(yàn)證年份中,GDP統(tǒng)計(jì)值和估計(jì)值的回歸R方均在0.8以上,回歸系數(shù)接近1,說明GWR模型的可靠性和建模因子具有普適性、有效性,可以基于這些地理因子快速監(jiān)測(cè)行政單元的GDP。
圖5 不同年份GDP估計(jì)值驗(yàn)證圖Fig.5 Verification of predicted GDP in different years
本研究基于夜間燈光遙感數(shù)據(jù)、POI數(shù)據(jù)、騰訊位置大數(shù)據(jù)和土地利用數(shù)據(jù),繪制了中國(guó)區(qū)縣行政單元的GDP空間分布圖,總體準(zhǔn)確率較高。無(wú)論是單因子還是多因子建模,GWR模型都比OLS模型的整體預(yù)測(cè)準(zhǔn)確率提高了約10個(gè)百分點(diǎn),這也表明基于多源地理大數(shù)據(jù)比單一地理數(shù)據(jù)繪制中國(guó)GDP分布圖更可取。同時(shí)探討了不同地理數(shù)據(jù)源擬合GDP的優(yōu)劣性和適用性,為后續(xù)經(jīng)濟(jì)研究提供一定的參考依據(jù)。結(jié)果表明,POI數(shù)據(jù)相較于夜間燈光遙感數(shù)據(jù)和騰訊位置大數(shù)據(jù)、土地利用數(shù)據(jù),在GDP空間建模中具有更大的潛力,尤其是在經(jīng)濟(jì)發(fā)達(dá)地區(qū)。但在貧困地區(qū),騰訊位置大數(shù)據(jù)是反映經(jīng)濟(jì)最好的指標(biāo)。
受限于大范圍實(shí)時(shí)數(shù)據(jù)的獲取和騰訊位置大數(shù)據(jù)的分辨率,研究只基于2018年的POI數(shù)據(jù)和騰訊位置大數(shù)據(jù)進(jìn)行回歸計(jì)算,然而2020年我國(guó)已經(jīng)實(shí)現(xiàn)了全面脫貧,貧困區(qū)縣會(huì)增加一定數(shù)量的POI數(shù)據(jù),且由于穿戴移動(dòng)定位設(shè)備和電子產(chǎn)品普及率的提高也會(huì)導(dǎo)致騰訊位置數(shù)據(jù)量增多,因此,研究估計(jì)GDP也會(huì)受到一定的影響。目前,GDP的官方數(shù)據(jù)只統(tǒng)計(jì)到行政單位一級(jí),很難與其他精細(xì)尺度的柵格數(shù)據(jù)匹配從而進(jìn)行科學(xué)研究,因此,未來(lái)還將基于研究中的建模因子,利用隨機(jī)森林模型建立不同產(chǎn)業(yè)的模型來(lái)繪制GDP空間化柵格圖。