王增錚,張福浩,,趙陽陽,仇阿根
(1. 西南交通大學(xué)地球科學(xué)與環(huán)境工程學(xué)院,四川 成都 611756; 2. 中國測繪科學(xué)研究院地理空間大數(shù)據(jù)應(yīng)用研究中心,北京 100036)
地理加權(quán)回歸(GWR)的提出有效地探測了空間非平穩(wěn)特征,豐富了空間分析方法[1]。20多年來,國內(nèi)外學(xué)者基于傳統(tǒng)GWR方法,從交叉驗(yàn)證[2]、異方差剔除[3]、穩(wěn)健估計(jì)[4]、時(shí)空特征探測[5-6]等方面發(fā)展了該方法,并廣泛應(yīng)用到大氣反演[7]、疾病預(yù)測[8]、城市景觀[9]、房價(jià)估算[10-12]等多個(gè)自然社會(huì)領(lǐng)域。根據(jù)傳統(tǒng)GWR原理,空間權(quán)重是核心,反映了觀測點(diǎn)對(duì)回歸點(diǎn)的影響程度。
空間異質(zhì)性是指過程和關(guān)系在空間上的變化[13],是地理學(xué)、生態(tài)學(xué)及空間分析中的一個(gè)重要概念,被視為局部統(tǒng)計(jì)的基礎(chǔ)[14]??臻g異質(zhì)性分為連續(xù)異質(zhì)性和離散異質(zhì)性[15],對(duì)兩者的精確解算是空間回歸分析能否揭示地理要素之間復(fù)雜的相互關(guān)系的決定性因素。在回歸模型中,空間異質(zhì)性的存在要求回歸系數(shù)在空間上變化,即在空間不同單元之間離散變化或在空間上連續(xù)變化[16]。以往的空間回歸分析關(guān)注了空間離散異質(zhì)性,卻對(duì)空間的連續(xù)性考慮不夠,遺漏了一些重要的局部變化[16-17]。GWR建立在“臨近相關(guān),距離越遠(yuǎn)相關(guān)性越小”的假設(shè)前提下,這種方法是對(duì)空間連續(xù)異質(zhì)性的有效探測[16]。
但在現(xiàn)實(shí)中,受空間離散異質(zhì)性的影響,空間距離相近的事務(wù),屬性也會(huì)相差較遠(yuǎn)[18]。特別是在社會(huì)經(jīng)濟(jì)領(lǐng)域,受區(qū)劃因素的影響,距離相近的事物,屬性可能相差較遠(yuǎn)。如商品房屋價(jià)格受區(qū)域政策和學(xué)區(qū)影響,即使兩個(gè)小區(qū)距離很近,價(jià)格也會(huì)相差很大。傳統(tǒng)的GWR方法僅考慮空間距離,但未考慮離散異質(zhì)性導(dǎo)致的離散異質(zhì)區(qū)的區(qū)域距離,這導(dǎo)致區(qū)域臨界處擬合不充分[19]。本文綜合考慮在GWR的空間核函數(shù)中增加區(qū)域判別,提出區(qū)域地理加權(quán)回歸方法(regionally geographic weighted regression, RGWR),通過構(gòu)建區(qū)域空間權(quán)重計(jì)算策略有效篩選觀測點(diǎn),修正核函數(shù),優(yōu)化權(quán)重計(jì)算方法,在探測空間非平穩(wěn)性的同時(shí)探測空間離散異質(zhì)性。
GWR在多元線性回歸基礎(chǔ)上,把位置參數(shù)嵌入回歸系數(shù)中[20],公式為
(1)
式中,(ui,vi)為第i個(gè)觀測點(diǎn)的坐標(biāo)位置;βk(ui,vi)為第i個(gè)觀測點(diǎn)的第k個(gè)回歸系數(shù);εi~N(0,σ2),Cov(εi,εj)=0(i≠j)。
RGWR是GWR的一個(gè)擴(kuò)展,用于探索空間非平穩(wěn)和空間離散異質(zhì)性,其基本思路是通過向GWR中添加區(qū)域變量,將地理位置嵌入回歸系數(shù)中,允許每個(gè)單獨(dú)的點(diǎn)具有不同的值以估計(jì)回歸系數(shù),且受每個(gè)回歸點(diǎn)的空間離散異質(zhì)區(qū)域的影響[18]。模型可表示為
(2)
在估計(jì)采樣點(diǎn)i的回歸系數(shù)時(shí),在GWR的基礎(chǔ)上添加了區(qū)域因子,因此當(dāng)觀測點(diǎn)位于區(qū)域范圍之外時(shí),該點(diǎn)參與回歸的權(quán)重除了受空間權(quán)重矩陣的影響,還受區(qū)域因子的影響。同樣使用局部最小二乘法,點(diǎn)i處的回歸系數(shù)估計(jì)值計(jì)算公式為
(3)
區(qū)域空間權(quán)重矩陣RWi表示為
(4)
式中,rwij表示觀測點(diǎn)對(duì)回歸點(diǎn)的區(qū)域空間權(quán)重。
(5)
(6)
1.2.1 區(qū)域空間權(quán)重計(jì)算策略
GWR用帶寬篩選“有效觀測點(diǎn)”進(jìn)行回歸點(diǎn)估計(jì),對(duì)于一個(gè)給定的回歸點(diǎn)X,采樣點(diǎn)的權(quán)重在該回歸點(diǎn)的位置上達(dá)到最大,隨著兩點(diǎn)之間距離的增加,權(quán)重逐漸下降。但是這種方式?jīng)]有考慮空間離散因素。為了更好地刻畫空間離散異質(zhì)性在空間權(quán)重計(jì)算中的作用,本文提出了區(qū)域空間權(quán)重計(jì)算策略,引入特定因素解釋空間離散異質(zhì)性,對(duì)不同空間離散異質(zhì)區(qū)之間的區(qū)域影響因子進(jìn)行分開計(jì)算。
受特定因素影響的區(qū)域權(quán)重的高斯函數(shù)rwij定義為
(7)
截尾型核函數(shù)為
(8)
式中,rij表示區(qū)域影響因子;dij表示觀測點(diǎn)i與采樣點(diǎn)j之間的距離;h表示帶寬。當(dāng)觀測點(diǎn)i和采樣點(diǎn)j位于同一區(qū)域時(shí),rwij=1,空間核函數(shù)的計(jì)算與傳統(tǒng)GWR沒有區(qū)別;當(dāng)觀測點(diǎn)i和采樣點(diǎn)j位于不同區(qū)域時(shí),根據(jù)不同空間離散異質(zhì)區(qū)之間的主要差異,計(jì)算不同的區(qū)域間影響因子rij,如圖1所示。
圖1 GWR和RGWR高斯核函數(shù)空間權(quán)重計(jì)算策略
1.2.2 區(qū)域影響因子的計(jì)算方法
(1)一般情況下區(qū)域影響因子計(jì)算方法。在現(xiàn)實(shí)社會(huì)中,不同的研究問題和研究區(qū)域,影響空間離散異質(zhì)性的特定因素不同。這需要在建模過程中,針對(duì)具體的空間過程和地理現(xiàn)象選定影響空間離散異質(zhì)性的特定因素,再根據(jù)不同區(qū)域間主要因素的差異構(gòu)建不同的影響因子。選定特定因素最簡單的方法可以參考混合地理加權(quán)回歸中直接指定常系數(shù)的方式[1,17],直接根據(jù)分析師對(duì)研究區(qū)域和研究對(duì)象的經(jīng)驗(yàn)和前人的研究指定。
例如,本文根據(jù)前人研究和對(duì)商品房價(jià)格研究的經(jīng)驗(yàn)[21],將研究區(qū)內(nèi)受空間離散異質(zhì)性影響大的因素劃定為研究區(qū)域內(nèi)小學(xué),引入各區(qū)重點(diǎn)小學(xué)和小學(xué)數(shù)量,以各區(qū)間優(yōu)質(zhì)小學(xué)教育資源的差異,建立各區(qū)受教育影響的區(qū)域影響因子為
(9)
式中,rij為區(qū)域教育影響因子;ri=qir/qiall;qir為i點(diǎn)所在區(qū)域內(nèi)優(yōu)質(zhì)教育資源的數(shù)量;qiall為i點(diǎn)所在區(qū)域內(nèi)所有教育資源的數(shù)量。
(2)特殊情況下的區(qū)域影響因子計(jì)算方法。根據(jù)式(7)-式(9)區(qū)域空間權(quán)重的計(jì)算存在一種特殊情況:不同空間離散異質(zhì)區(qū)的區(qū)域影響因子都相等,rij=固定值。當(dāng)觀測點(diǎn)與回歸點(diǎn)位于同一區(qū)域時(shí),觀測點(diǎn)獲得的權(quán)重與GWR一致,當(dāng)回歸點(diǎn)和觀測點(diǎn)處于不同區(qū)域內(nèi)時(shí),觀測點(diǎn)將獲得受區(qū)域影響因子影響較低的權(quán)重。圖2(a)為該情況下的固定型帶寬策略,圖2(b)為調(diào)整型帶寬策略。
圖2 RGWR特殊情況下的高斯核函數(shù)空間權(quán)重計(jì)算策略
當(dāng)區(qū)域影響因子等于0時(shí),此時(shí)區(qū)域空間權(quán)重相當(dāng)于對(duì)不同的空間離散異質(zhì)區(qū)進(jìn)行了嚴(yán)格的區(qū)域判別,即當(dāng)觀測點(diǎn)與回歸點(diǎn)位于同一區(qū)域時(shí),該觀測點(diǎn)將參與回歸點(diǎn)的估算;觀測點(diǎn)與回歸點(diǎn)位于不同區(qū)域時(shí),則該觀測點(diǎn)不參與回歸點(diǎn)的估算。圖2(c)為該情況下的固定型帶寬策略,圖2(d)為對(duì)應(yīng)調(diào)整型帶寬策略。
由于特殊情況下區(qū)域影響因子rij=固定值,估算此情況下的區(qū)域影響因子可以參照GTWR估算時(shí)間因子的方法,先采用傳統(tǒng)GWR方法,按照Akaike信息量準(zhǔn)則(Akaike information criterion,AIC)或交叉驗(yàn)證方法(cross-validation, CV),選擇最優(yōu)帶寬h,再采用RGWR方法,繼續(xù)按照AIC或CV方法,最終確定區(qū)域因子的取值。
圖3為RGWR模型的算法流程。整體上RGWR估算分為兩部分:一是參數(shù)調(diào)優(yōu),即計(jì)算最優(yōu)帶寬和區(qū)域影響因子;二是參數(shù)估計(jì),即估算回歸系數(shù)、擬合值和模型評(píng)價(jià)指標(biāo)。為了方便對(duì)區(qū)域影響因子的有效性進(jìn)行比較,對(duì)采用特殊情況下的空間權(quán)重計(jì)算策略的區(qū)域地理加權(quán)回歸記為RGWR-S,其他情況下的區(qū)域地理加權(quán)回歸記為RGWR。
圖3 RGWR模型算法流程
數(shù)據(jù)包括自變量、因變量、空間位置變量、備選帶寬和區(qū)域影響因子。步驟流程如下:
(1)初始化數(shù)據(jù)。設(shè)置帶寬取值范圍,針對(duì)每個(gè)帶寬建立GWR模型,對(duì)每個(gè)觀測點(diǎn)構(gòu)建空間核函數(shù)和空間權(quán)重矩陣,計(jì)算本組帶寬對(duì)應(yīng)模型的AIC或CV值,循環(huán)上述過程,選擇最小AIC或CV值對(duì)應(yīng)模型的參數(shù),即為最優(yōu)帶寬。
(2)設(shè)置區(qū)域影響因子取值范圍,針對(duì)每個(gè)區(qū)域影響因子采用最優(yōu)帶寬建立RGWR-S模型,構(gòu)建特殊情況下的區(qū)域地理加權(quán)空間核函數(shù)和空間權(quán)重矩陣,計(jì)算本組區(qū)域影響因子對(duì)應(yīng)模型的AIC或CV值,循環(huán)上述過程,選擇最小AIC或CV值對(duì)應(yīng)模型的參數(shù),即為最優(yōu)區(qū)域影響因子。
(3)利用最優(yōu)帶寬建立GWR模型,對(duì)每個(gè)觀測點(diǎn)構(gòu)建空間核函數(shù)和空間權(quán)重矩陣,并計(jì)算模型回歸系數(shù)、擬合值和評(píng)價(jià)指標(biāo)。
(4)利用自變量、因變量、空間位置變量、最優(yōu)帶寬和最優(yōu)區(qū)域影響因子建立RGWR-S模型,對(duì)每個(gè)觀測點(diǎn)構(gòu)建區(qū)域空間核函數(shù)和區(qū)域空間權(quán)重矩陣,并計(jì)算模型回歸系數(shù)、擬合值和評(píng)價(jià)指標(biāo)。
(5)利用最優(yōu)帶寬建立RGWR模型,構(gòu)建空間核函數(shù),在每個(gè)點(diǎn)i和點(diǎn)j之間建立受特定因素影響的區(qū)域影響因子。對(duì)每個(gè)觀測點(diǎn),計(jì)算受特定因素影響的地理加權(quán)空間權(quán)重矩陣,并計(jì)算模型回歸系數(shù)、擬合值和評(píng)價(jià)指標(biāo)。
以武漢市住宅掛牌銷售價(jià)格為特征價(jià)格數(shù)據(jù),區(qū)域劃分以武漢市區(qū)級(jí)行政區(qū)劃為標(biāo)準(zhǔn),構(gòu)建特征價(jià)格模型,開展試驗(yàn)分析。收集了武漢城區(qū)957個(gè)小區(qū)作為樣本點(diǎn),獲取各小區(qū)2019年12月住宅平均掛牌價(jià)格(元/m2)、容積率、綠化率、物業(yè)費(fèi)(元/m2)和建造時(shí)間(以1988年為基準(zhǔn)年,每增加一年建造時(shí)間加1)等屬性數(shù)據(jù),同時(shí)采集了武漢市地鐵站、小學(xué)、中學(xué)等興趣點(diǎn)數(shù)據(jù),見表1。
表1 特征價(jià)格變量
表2 RGWR和GWR方法性能對(duì)比
在建立模型之前,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理:首先,計(jì)算樣本點(diǎn)到最近不同興趣點(diǎn)的距離,單位均為m;其次,采用疊置分析獲取樣本點(diǎn)與武漢市各區(qū)的區(qū)劃關(guān)系;然后,為了減小量綱和異方差帶來的影響,對(duì)連續(xù)型變量取對(duì)數(shù)運(yùn)算[22];最后,采用多重共線性分析和逐步回歸分析,確定自變量因素[23]。經(jīng)計(jì)算選取容積率、綠化率、物業(yè)費(fèi)、建造時(shí)間,以及小區(qū)中心點(diǎn)到最近地鐵口、醫(yī)院、商場、公園、小學(xué)和大學(xué)的距離作為自變量,小區(qū)住宅平均房價(jià)為因變量,分別采用GWR、RGWR和RGWR-S方法建立特征價(jià)格模型。采用AIC法確定GWR最優(yōu)帶寬,其中最優(yōu)帶寬固定型為12 000,調(diào)整型為355。試驗(yàn)以GWR為對(duì)比方法,從區(qū)域影響因子有效性、模型性能、擬合效果3個(gè)角度進(jìn)行分析。
3.2.1 區(qū)域影響因子有效性分析
為了觀察區(qū)域影響因子對(duì)RGWR的影響,令區(qū)域影響因子在特殊情況下分別取0,0.05,0.1,…,1,采用基于高斯核函數(shù)的RGWR,分別計(jì)算基于固定型帶寬和調(diào)整型帶寬下各模型的擬合優(yōu)度(R2)、均方根誤差(root mean squared error, RMSE)和誤差項(xiàng)平方和(sum of squares for error,SSE)。結(jié)果顯示,首先,兩種帶寬策略下各模型的R2均大于0.6,說明采用RGWR方法可以建立可靠的特征價(jià)格模型,較好地估算武漢城區(qū)住宅銷售價(jià)格;然后,兩種帶寬策略下,R2隨著區(qū)域影響因子的增大而減小,RMSE和SSE隨著影響因子的增大而增大,當(dāng)r=1時(shí)(即GWR),R2最小,RMSE和SSE最大,模型性能最差,當(dāng)r不等于1時(shí),R2、RMSE和SSE均有提升,證明區(qū)域因素存在且影響擬合精度,考慮區(qū)域因素影響后,模型精度有所提升;最后,圖4(a)顯示在固定型帶寬策略下,當(dāng)r=0時(shí),R2最大,RMSE和SSE最小,模型擬合效果最好,圖4(b)顯示在調(diào)整型帶寬策略下,當(dāng)r=0.05時(shí),R2最大,RMSE和SSE最小,模型擬合效果最好。說明區(qū)域影響因子越小,武漢城區(qū)住宅銷售價(jià)格特征模型精度越高??紤]區(qū)域因素后,模型精度均有大幅度提升,說明區(qū)域影響因子對(duì)于改進(jìn)地理加權(quán)回歸方法有顯著作用。
圖4 RGWR模型精度隨區(qū)域影響因子的變化趨勢(shì)
3.2.2 模型性能對(duì)比
由圖4可知,特殊情況下,在固定型帶寬策略下r=0時(shí),RGWR模型擬合效果最好;在調(diào)整型帶寬下r=0.05時(shí),RGWR模型效果最好。表1為RGWR模型、RGWR-S與GWR的相關(guān)指標(biāo)對(duì)比情況。RGWR模型在固定型帶寬下,R2為0.766 2,比GWR模型提升了21.83%,調(diào)整R2(R2adj)提升了22.23%,MSE提升了37.09%,RMSE提升了20.64%,SSE提升了37.01%。RGWR模型AIC值為-319.122 4,比GWR小11.782 4。RGWR在調(diào)整型帶寬下,GWR模型和區(qū)劃因子r=0.05時(shí)的RGWR-S模型提升效果不如RGWR模型,此時(shí)RGWR模型R2為0.680 4,比GWR模型提升了10.58%,R2adj提升了10.75%,MSE提升了16.93%,RMSE提升了8.85%,SSE提升了16.91%。一般地,AIC相差3以上說明兩個(gè)模型有顯著差別,AIC值越小,模型擬合精度越高[24]。說明不論是固定型帶寬策略還是調(diào)整型帶寬策略,RGWR均能夠比GWR更好地模擬武漢城區(qū)住宅銷售價(jià)格。
3.2.3 模型擬合效果比較
通過比較RGWR和GWR模型中房價(jià)的預(yù)測值和實(shí)際值,可以直觀地探索模型的擬合效果。在前文中,已能夠說明在本文研究區(qū)域,無論是固定型還是調(diào)整型帶寬策略,RGWR模型估算效果最好,因此采用RGWR的擬合效果分布與兩種帶寬策略下的GWR模型進(jìn)行對(duì)比。圖5為固定和調(diào)整型帶寬策略下RGWR和GWR的擬合效果分布,虛線表示實(shí)際值與預(yù)測值相同。因此,預(yù)測值點(diǎn)分布和真實(shí)值點(diǎn)位置越接近虛線,模型的擬合效果越好。
圖5 不同模型擬合散點(diǎn)
在相同的帶寬策略下,RGWR的點(diǎn)分布在虛線附近,顯著高于GWR的點(diǎn)分布,表明RGWR模型的擬合效果比GWR的擬合效果顯著提高。類似的,在固定帶寬策略和自適應(yīng)帶寬策略之間,可以看到RGWR固定帶寬的點(diǎn)分布高于虛線附近的自適應(yīng)帶寬。同時(shí),固定帶寬策略下RGWR模型的R2值為0.777 7,比自適應(yīng)帶寬下的R2值高18.64%。這表明,在本文的數(shù)據(jù)環(huán)境中,固定帶寬策略下RGWR模型的擬合效果優(yōu)于自適應(yīng)帶寬策略下的RGWR模型。
本文提出了一種區(qū)域地理加權(quán)回歸方法,通過構(gòu)建區(qū)域空間權(quán)重計(jì)算策略,在空間核函數(shù)計(jì)算中引入?yún)^(qū)域影響因子變量,修正空間核函數(shù),優(yōu)化空間權(quán)重,在探測空間非平穩(wěn)性的同時(shí)探測空間離散異質(zhì)性。最后以武漢市住房銷售價(jià)格為例開展試驗(yàn)分析,證明了引入?yún)^(qū)域影響因子的有效性。研究發(fā)現(xiàn),在武漢市住房銷售價(jià)格模型中,模型精度隨著區(qū)域影響因子的減小而增大,說明區(qū)域影響因子對(duì)于改進(jìn)地理加權(quán)回歸方法有顯著作用。同時(shí),當(dāng)采用受教育影響區(qū)域影響因子時(shí),模型的擬合效果好于采用固定值的方式,RGWR方法相比傳統(tǒng)的GWR方法R2提升了21.83%,說明RGWR能夠有效解決空間離散異質(zhì)的區(qū)域?qū)ξ錆h市住房銷售價(jià)格影響的問題。
本文提出的“區(qū)域”并不只是行政區(qū)劃,在面對(duì)不同的研究問題時(shí),可以根據(jù)不同的特征選擇不同的分區(qū)方式和分區(qū)尺度,如可以按照行政區(qū)劃、流域、溫度帶、經(jīng)濟(jì)圈等方式對(duì)區(qū)域進(jìn)行分區(qū)。后續(xù)研究將著力于如何進(jìn)一步優(yōu)化算法提高擬合精度,以及將該方法應(yīng)用于不同分區(qū)尺度、不同領(lǐng)域的不同分區(qū)方式的適用性和差異性。