黃崇福,張馨文
(1.北京師范大學 環(huán)境演變與自然災害教育部重點實驗室,北京100875;2.北京師范大學 地理科學學部災害風險科學研究院,北京100875)
在世界格局發(fā)生急劇變化的今天,人們只有超越以往的經(jīng)驗化模式,才能更好地認識世界,包括形形色色的地表現(xiàn)象。自然災害,是一種綜合自然和人文特征的地表現(xiàn)象,用以往案例形成的成災經(jīng)驗,很難正確認識環(huán)境和社會均發(fā)生了顯著變化的自然災害。
以重大自然災害災情快速評估為例,以往的經(jīng)驗化模式,是用歷史災害資料建立經(jīng)驗公式,一旦發(fā)生自然災害,根據(jù)致災因子強度和災區(qū)的自然和社會數(shù)據(jù),用這些公式對災情進行快速評估。例如,一旦發(fā)生破壞性地震,可根據(jù)震級對災情進行粗估[1]。這類遠隔千山萬水的快速評估,我們稱之為“隔空判災”[2],缺點是精度較低,大多只能保證不出數(shù)量級錯誤(相差在10倍之內(nèi)) ,而且只能對縣及縣以上地理單元內(nèi)的災情進行評估[3],很少細化到鄉(xiāng)鎮(zhèn),更無法細化到村莊,評估結(jié)果支撐不了精準救災。
現(xiàn)代信息技術的發(fā)展,為較高精度地快速評估災情和救助需求,提供了一條新路徑:由基層災害信息員、衛(wèi)星遙感和無人機等觀測得到的局部數(shù)據(jù),推測全災區(qū)的情況。已觀測地理單元是采點,空白單元是信息孤島。外推的依據(jù),是從觀測得到的數(shù)據(jù)中總結(jié)出的因果關系。這類借助實時數(shù)字化技術進行的快速評估,我們稱之為“采點外推”[4],優(yōu)點是自然和人文的變化已經(jīng)在采點數(shù)據(jù)中體現(xiàn),推測出的空白地理單元中的災情精度較高,可細化到村莊,助力精準救災。推測,是一種判斷各種各樣情況的行為,甚至于有純主觀性的層次分析法[5],半主觀的模糊綜合評價[6],常見的則是統(tǒng)計回歸[7]。
當我們?yōu)暮蟮谝粫r間采集災區(qū)數(shù)據(jù)時,受信息員數(shù)量少、衛(wèi)星掃描時段不湊巧、天氣多云、投送無人機耗時長、災區(qū)部分通訊中斷等不利影響,2 h內(nèi)獲得災情數(shù)據(jù),只能覆蓋災區(qū)的部分地理單元,覆蓋不了信息孤島。只有推測出信息孤島中的災情,才能對整體災情有較全面的認識,才能科學地制定出精準救災方案。
在地理學中,有很多種數(shù)學插值法被用來研究推測問題。然而,除溫度、降雨量等物理場外,多數(shù)地理特征值在空間上的分布,并不連續(xù),數(shù)學插值的結(jié)果,誤差較大。于是,統(tǒng)計回歸方法(Statistical Regression Method)和人工神經(jīng)網(wǎng)絡(Artificial Neural Networks,ANN)等,被用來研究地表現(xiàn)象中的推測問題。但是,當觀測數(shù)據(jù)提供的樣本較小且樣本點間有矛盾沖突時,這些方法的精度都不高。
理論和仿真實驗證明,由于地理空間信息擴散技術,對被插值的參數(shù),既沒有連續(xù)性的要求,也沒有與自變量間線性關系假設的約束,還具有優(yōu)化處理小樣本的功能,矛盾沖突也不影響總結(jié)學習因果關系的收斂性,所以能明顯提高推測精度[8]。本文通過對四川省綿陽市三臺縣洪水災害的實證研究,演示地理空間信息擴散技術在推測精度方面的優(yōu)勢。
插值(Interpolation)是一個數(shù)學概念:給定函數(shù)f(x)在n個互異點的值f(xi),i=1,…,n,尋求函數(shù)φ(x)逼近f(x),若要求φ(xi)逼近f(xi),則稱之為插值問題。φ(x)稱為f(x)的插值函數(shù),xi稱為插值節(jié)點。用φ(x)推測插值節(jié)點間任一點的函數(shù)值,稱為插值;φ(xi)對f(xi)的逼近,稱為似合。
直觀地講,用離散數(shù)據(jù)估算出其背后的函數(shù)在其它點處的近似值,就是數(shù)學插值?;镜臄?shù)學假設是離散數(shù)據(jù)產(chǎn)生于一個連續(xù)函數(shù)。插值的目的是填充離散數(shù)據(jù),形成較完整的函數(shù)圖像。
物理空間中的插值,是人們試圖對尚未實際測量場的連續(xù)場的值進行合理估計。空間插值用于地理學,則是指人們試圖對尚未觀測的地理單元的某個地理特征值進行合理估計。與數(shù)學插值較大的區(qū)別是,數(shù)學上的插值節(jié)點沒有幾何大小,而地理學中的插值節(jié)點是有幾何大小的地理單元,從極細的柵格點,到行政單元,都是有幾何大小的地理單元。
正如人們在地理制圖中,利用有限個點處的取值,使用插值算法,計算丟失的信息,填充圖像一樣,人們在地表現(xiàn)象研究中,也利用有限個地理單元上的取值,使用插值算法,推測沒有取值單元上的情況。所不同的是,制圖插值涉及的單元通常很小且形狀規(guī)則,能近似滿足插值函數(shù)對連續(xù)性的要求;而地表現(xiàn)象中的單元,通常較大且不規(guī)則,其上的地理特征數(shù)據(jù)分布,并不連續(xù)。
人們在GIS中使用的插值技術,分確定性方法和地統(tǒng)計方法兩種,例如,全局多項式、局部多項式、樣條插值、反距離加權等,是確定性方法;而克里金法(Kriging)、地理加權回歸(Geographically Weighted Regression,GWR)是地統(tǒng)計方法(Geostatistical Method)。即使是對連續(xù)表面的定量評估,這些插值方法的準確度也存在較大差異。研究表明,地統(tǒng)計方法優(yōu)于確定性方法[9]。
確定性插值方法,又稱“內(nèi)插法”,也就是前述的數(shù)學插值。確定性是指,觀測值只有測量誤差,隨機性可忽略不計。最簡單的確定性插值方法,是求解由比例關系建立的方程,并由此衍生出多項式插值方法。為了讓構造的函數(shù)既穿過觀測點,函數(shù)圖又形像,人們可將全部數(shù)據(jù)分割成若干部分,分段插值,再通過最高三階的多項式,將插值用到的多個函數(shù),盡可能平滑地連接起來。這些用到的函數(shù),就是所謂的“樣條”。
確定性插值方法中的反距離加權法,則是假定每個觀測點都會存在局部影響,距離較近的事物更相似,因此對于被插值點,距離其越近的觀測點影響越大。這種影響的大小,用權值來量化。通過加權求和,進行插值。權值計算方法不同,插值差異很大。最簡單的取權值方法,是歸一化距離倒數(shù)計算權值[10];復雜一些的,則用到軟化參數(shù)等[11]。
雖然確定性插值方法的精度不高,但由于簡單、易操作,并能起到數(shù)據(jù)光滑作用,其在地理學中被廣泛使用。
地統(tǒng)計方法,不僅僅是將空間坐標點和其地理特征值組成的空間分布,視為一個具有因果關系的隨機場,而且認為空間中兩個不同點處的取值具有相關性。借用隨機過程理論,人們發(fā)展出了克里金插值,也譯為克里格插值。如果僅僅考慮地統(tǒng)計方法中樣本點的隨機性,認為樣本點具有空間獨立性,則可用地理加權回歸法來估計空間坐標點和其地理特征值間的因果關系。而通過隨機樣本訓練的后傳神經(jīng)網(wǎng)絡(Back Propagation Artificial Neural Network,BP-ANN),也是一種統(tǒng)計關系。
為本文研究的方便,下面我們簡述協(xié)同克里金(CollaborativeKriging,CK)插值、GWR和BP-ANN的基本原理和數(shù)學模型。為保持這三個模型的傳統(tǒng)表述,在不引起混亂的情況下,各模型中的數(shù)學符號相對獨立。也就是說,同一個符號,在不同模型意義可能不同。
克里金插值是依據(jù)協(xié)方差函數(shù)對隨機場進行空間建模和插值的回歸算法[12-13]。該方法20世紀60年代產(chǎn)生于地質(zhì)學界,是一種地質(zhì)統(tǒng)計學方法,后來被大量用于地理學中,才有了地統(tǒng)計方法的統(tǒng)稱。
令集合X由一些空間點x組成。x的三個直角坐標通常記為xu,xv,xw,即,x=(xu,xv,xw); 空間點集合記為{x},即,X={x}。當一個空間變量Z在x點的取值Z(x)是一個隨機數(shù)時,稱{Z(x)|x∈X}是一個隨機場。克里金插值的思想,是將空間參數(shù)x視為隨機過程中的時間參數(shù)t,從而可以使用隨機過程中的統(tǒng)計方法,實現(xiàn)插值。
當隨機過程的統(tǒng)計特性不隨時間的推移而變化時,稱為平穩(wěn)隨機過程。具有相應性質(zhì)的隨機場,稱為平穩(wěn)隨機場。在平穩(wěn)隨機場中,Z(x)的數(shù)學期望E[Z(x)]與其位置x無關。此時,可推導出空間變量Z在某方向上相距h處增量Z(x)-Z(x+h)的方差:
γ(x,h)=Var[Z(x)-Z(x+h)]=E[Z(x)-Z(x+h)]2,
(1)
稱γ(x,h)為變異函數(shù),如果與位置x無關,只與距離h有關,此稱隨機場是二階平穩(wěn)的,γ(x,h)可記為γ(h)。
(2)
γij=γ(xi,xj)=E[Z(xi)-Z(xj)]2,i,j=0,1,2,…,n。
(3)
使用拉格朗日乘數(shù)法[14]求解式(2),得一個求權向量(λ1,λ2,…,λn)和拉格朗日乘數(shù)φ的線性方程組:
(4)
于是,二階平穩(wěn)假設下的估計值是:
(5)
式(4)-式(5)稱為普通克里金法。外觀上看,克里金插值公式(5)與反距離加權法[10]的插值公式完全一樣,都是加權求和,但權向量的來源完全不同??死锝鸱ń⒃陔S機過程理論上,而反距離加權法并不考慮隨機性。對隨機場性質(zhì)和點之間距離影響程度的理解不同,衍生出了大量的克里金方法。
如果我們不單單考慮空間位置x對隨機場的影響,還考慮了其它因素y的影響,但將影響的主次分開,就拓展為特殊的多變量模型[15],稱為協(xié)同克里金插值法。例如,水災災情,不僅僅是地理空間上的隨機場,而且災情還與地理單元內(nèi)的GDP、地理單元距河流的距離、地理單元的坡度等眾多因素有關。在水災隨機場中,理論上空間位置是主因素,GDP、河流距離和坡度等是次因素,但由于它們緊密的相關性,這些次因素能充分地體現(xiàn)空間位置的隨機場屬性。
(6)
求解式 (7)的線性方程組:
(7)
被插值點x0的估計值:
(8)
雖然克里金法在地學多領域中有大量成功應用的例子,協(xié)同克里金法顯著改了精度,ArcMap等軟件系統(tǒng)提供了工具模塊,但是,通常只在很局部的空間,隨機場才滿足二階平穩(wěn)條件,且一系列弱化條件的改進,也只在很特殊的情況下才有效。因此,協(xié)同克里金法并非普適性的空間插值方法。對于空間異質(zhì)性的問題,地理加權回歸更適于空間插值。
在統(tǒng)計學中,“回歸”是指依據(jù)觀測樣本,對兩個或更多變量之間關系性質(zhì)進行描述,并用于推測。任一回歸方法用于地理學問題的研究,都稱為地理回歸??紤]到樣本在各局部空間的統(tǒng)計性質(zhì)常有明顯差異,人們提出了地理加權回歸,改進了全局回歸。
設x1,x2,…,xm和y分別是空間位置(u,v)觀測到的自變量和因變量。對于從n個空間位置(ui,vi),i=1,2,…,n,得到的樣本,我們記為:
X={x1,x2,…,xn}={(x11,x12,…,x1m,y1),(x21,x22,…,x2m,y2),…,(xn1,xn2,…,xnm,yn)}。
(9)
當隨機變量x的總體是一個m+1維正態(tài)分布時,地理加權回歸模型是[16]:
(10)
式中:β0(ui,vi)是空間位置(ui,vi)處的截距系數(shù),βj(ui,vi)是(ui,vi)處第j個自變量的局部回歸系數(shù),εi為隨機誤差項。
y服從正態(tài)分布時,隨機誤差ε的期望值為0。此時,對插值點(u0,v0),從自變量x01,x02,…,x0m,推測因變量,只須根據(jù)(u0,v0)與(ui,vi)的遠近程度,定義(ui,vi)與(u0,v0)適當?shù)目臻g權重wi,用它們和X,計算適用于y0的局部系數(shù)列矩陣:
(11)
則地理加權回歸的推測值由式(12)給出:
(12)
本文中,我們采用式(13)的自適應雙平方(Adaptive bi-square)公式[17]來定義wi:
(13)
式中:d0i為(u0,v0)與(ui,vi)之間的歐氏距離。令:
(14)
(15)
(16)
則局部系數(shù)列矩陣的計算公式為:
(17)
式中:XT是X的轉(zhuǎn)置矩陣,(XTWX)-1是(XTWX)的逆矩陣。式(12),式(13)和式(17)構成了自適應雙平方GWR插值法。
人們曾用Logistic回歸和泊松回歸等來探討改進地理加權回歸[18],試圖超越線性回歸的限制,但不過是從正態(tài)分布假設變?yōu)榱硪环N假設而已,并不具有普適性。
人工神經(jīng)元網(wǎng)絡能以任意精度逼近任何一個連續(xù)函數(shù)[19],為改進地理學中的插值提供了一條新途徑。
神經(jīng)元網(wǎng)絡是一個從p維實數(shù)空間Rp到q維數(shù)實空間Rq的一個映射f:Rp→Rq,并且定義為y=f(x)=φ(Wx),此處x∈Rp是輸入矢量,y∈Rq是輸出矢量。W是一個p×q權值矩陣,且φ是一個非線性函數(shù),常稱為激勵函數(shù)。典型的激勵函數(shù)是S形函數(shù):
(18)
映射f可以分解為多個映射;結(jié)果是一個多層網(wǎng)絡:Rp→Rm→…→Rn→Rq。
計算W的運算法則是訓練算法。最常用的神經(jīng)網(wǎng)絡之一是BP-ANN,算法的基本思想是,學習過程由信號的正向傳播與誤差的反向傳播兩個過程組成。正向傳播時,輸入樣本從輸入層傳入,經(jīng)連接各神經(jīng)元的初始權值矩陣W0處理后,傳向輸出層。若輸出層的實際輸出與期望的輸出不符,則轉(zhuǎn)入誤差的反向傳播階段。誤差反傳是將輸出誤差以某種形式通過隱層向輸入層逐層反傳,并將誤差分攤給各層的所有單元,從而獲得各層單元的誤差信號,此誤差信號即作為修正W的依據(jù)。周而復始地修正W,直到網(wǎng)絡輸出的誤差減少到可接受的程度,或進行到預先設定的學習次數(shù)為止。這種方法也稱為自適應模式識別[20]。BP-ANN可視為是用最小期望平方誤差作為條件期望函數(shù)的一致性估計。
雖然ANN是一個黑箱,但對訓練樣本不需要任何假設,擬合函數(shù)時將空間位置作為輸入的一部分即可,避免糾結(jié)空間相關性,在地理學中有較好的適應性。例如,可以較大程度地避免生態(tài)質(zhì)量評價時人為主觀假定對預測結(jié)果的影響[21],構建植被指數(shù)對氣候因子響應的復雜關系時擬合優(yōu)度較高[22],用于細顆粒物(PM2.5)的估算時短期預測結(jié)果更加穩(wěn)定[23]。然而,ANN卻很難成為地理學中通用的插值法,因為宏觀數(shù)據(jù)中有太多的隨機、非隨機因素干擾,并不存在一個可以逼近的,理論上的連續(xù)函數(shù)。大多數(shù)情況下,訓練樣本中存在明顯沖突,調(diào)整權值矩陣W無可適從,訓練進入死循環(huán),導致訓練后的ANN預測精度并不高[24]。
地理空間上的信息擴散模型,不須對觀測樣本作任何人為假設,并且能較好地處理樣本點之間的沖突矛盾,較好地解決了地理學中常用插值法存在的問題,能有效提高插值精度。
在現(xiàn)實中,插值是因為缺失需要的信息。換句話說,只有插值節(jié)點間的空白處,才需插值,而插值節(jié)點上并不需要插值。擬合并不等于插值。人們對插值模型進行的精度檢驗,通常是對擬合度的檢驗。上述CK、GWR和BP-ANN的背后,都是將最小二乘法施于節(jié)點處,進行擬合。顯然,擬合結(jié)果用于推測時,效果都會與擬合點處不同。為了使模型更具說服力,一些研究人員用“訓練樣本”用來訓練模型,留出“驗證樣本”來展示預測準確性。由于“訓練樣本”和“驗證樣本”的選擇不同,檢驗結(jié)果很不同,而研究者聲稱的“隨機選擇”,很難查實,結(jié)果仍然可疑。地理空間信息擴散技術,將插值節(jié)點處的信息,向插值點外擴散,直接面對插值需求構造模型。
通信工程中的“信息”,是消除隨機不確定性的東西,只有波形的形式因素,沒有內(nèi)容因素,也沒有價值因素?,F(xiàn)代人工智能理論中,將信息分為客體信息和感知信息。前者是指客體所呈現(xiàn)的關于其自身的“狀態(tài)及其變化方式”; 后者是指主體從客體信息所感知的客體狀態(tài)及其變化方式的形式、內(nèi)容和效用[25]。地理空間信息擴散技術中,插值節(jié)點處的觀測值,是人們已經(jīng)感知到的信息;模型試圖推測的,是插值點外的客體信息。
信息擴散,是將觀測點的感知信息,擴散到非觀測點,力圖對非觀測點有所認識。信息擴散,是人類用有限的知識,認識無限世界的本能。信息擴散不同于聯(lián)想,并不是由于某人或某種事物而想起其他相關的人或事物;信息擴散,也不是信息傳播,并非是個人、組織和團體通過符號和媒介交流信息。近年來,許多文獻將“信息傳播”稱為“信息擴散”,旨在借用大量的數(shù)學工具,但內(nèi)涵并沒有變化。
地理空間信息擴散技術來自于優(yōu)化處理小樣本的信息擴散原理[26]:當我們用一個不完備數(shù)據(jù)估計一個關系時,一定存在合理的擴散方式可以將一個沒有幾何大小的觀測值變?yōu)橐粋€集值(例如,模糊集),以填充由不完備性造成的部分缺陷從而改進非擴散估計。該原理不僅在概率空間中成立,而且在幾何空間中也成立[27]。這就意味著,我們可以將信息擴散技術,拓展到在地理空間上去,以填補地理單元上的數(shù)據(jù)空白,使不完整的空間數(shù)據(jù)集,變?yōu)橥暾臄?shù)據(jù)集。
然而,概率空間中的信息擴散方法,并不能直接用于地理空間,而須借助在觀測點和非觀測點都有的同類背景數(shù)據(jù)作為橋梁[2],才能將觀測點的感知信息,擴散到非觀測點。為此,我們先界定兩個基本的概念:“空白單元”和“背景數(shù)據(jù)”。
定義1:設g和o是研究區(qū)域G中的兩個地理單元。如果在識別G上的地表現(xiàn)象F時,g被觀測并被賦值,而o沒有,則對于識別F而言,稱g是一個被觀測單元,o是一個空白單元。
例如,在洪水災區(qū),災情是一種臨時的地表現(xiàn)象,已經(jīng)被調(diào)查過災情并獲得數(shù)據(jù)的地理單元,是被觀測單元;沒有被調(diào)查過災情的地理單元,是空白單元。
對地理單元g的觀測值(或向量)wg稱為一個已觀測數(shù)據(jù);對空白單元o的相應值(或向量)wo,稱為一個待觀測或待推測數(shù)據(jù)。設bg1,bg2,… ,bgt和bo1,bo2,… ,bot分別是g和o的t個同類地理特征的屬性值。記向量bg=(bg1,bg2,… ,bgt),b0=(bo1,bo2,… ,bot)。
定義2:設g1,g2,…,gn是n個被觀測單元,o是一個空白單元,它們的屬性值向量集合是B={bg1,bg2,…,bgn,bo}。如果能用B依據(jù)觀測數(shù)據(jù)wg1,wg2,…,wgn推測wo,稱B為背景數(shù)據(jù)集,簡稱背景數(shù)據(jù)。
例如,用“人口”、“人均GDP”和“相對暴露度”等數(shù)據(jù),依據(jù)被觀測單元的災情,推測空白單元的災情時,“人口”、“人均GDP”和“相對暴露度”等就是背景數(shù)據(jù)。此時,空間位置已經(jīng)在計算“相對暴露度”時發(fā)揮過作用[28]。
任何能用背景數(shù)據(jù),由多個被觀測單元的觀測值,推測空白單元上相應值的方法,都具有將被觀測單元的信息擴散到空白單元的功能。例如,CK、GWR和BP-ANN等插值方法,都具有某種信息擴散的功能,但并不明顯,因為這些模型的控制規(guī)則,不是為了填補空白,而是為了最佳擬合。
設研究區(qū)域G由n-q個被觀測單元g1,g2,…,gn-q,和q個空白單元gn-q+1,…,gn組成,即,
G={g1,g2,…,gn-q,gn-q+1,…,gn}。
(19)
設背景數(shù)據(jù)由t個地理特征的屬性值組成。記地理單元gi第j個特征的屬性值為bij,i=1,2,…,n;j=1,2,…,t。將wgi簡記為wi,i=1,2,…,n,于是,關于G上的信息可由表1示之。
表1 研究區(qū)域G上的觀測值和背景數(shù)據(jù)
以背景數(shù)據(jù)bij為橋梁,在地理空間G上進行信息擴散的方法,由構建因果關系矩陣和模糊近似推理兩部分組成[2]。
令τ=n-q,λ=t+1,我們從表1中得到容量為τ的λ維樣本X:
X={(xi1,xi2,…,xiλ-1,xiλ)|i=1,2,…,τ}。
(20)
式中:xi1=bi1,xi2=bi2,…,xiλ-1=bit,xiλ=wi,i=1,2,…,τ。
設Uj,j=1,2,…,t,是用于擴散背景數(shù)據(jù)中第j個地理特征屬性值的監(jiān)控空間,而Ut+1是用于擴散已觀測數(shù)據(jù)的監(jiān)控空間。令λ維笛卡爾空間:
U=U1×U2…×Uλ。
(21)
式中:Uj={uj1,uj2,…,ujmj},j=1,2,…,λ。理論上,對不同的分量j,監(jiān)控點的個數(shù)mj可以不同,但由于監(jiān)控點的密度達到一定程度后,用不同的mj并不影響插值的精度,因此,我們?nèi)∫粋€m作為所有分量監(jiān)控空間中監(jiān)控點的個數(shù)。
對于任意一個樣本點,
xi=(xi1,xi2,…,xiλ)∈X,
(22)
和任意一個監(jiān)控點,
u=(u1k1,u2k2,…,uλkλ)∈U,kj∈{1,2,…,m},j=1,2,…,λ。
(23)
我們用式(24)的λ維初級擴散公式,將x的信息擴散到u。
(24)
根據(jù)表1中的背景數(shù)據(jù)和已觀測數(shù)據(jù),分別用式 (25)計算擴散系數(shù)hj,j=1,2,…,λ。
(25)
令:
(26)
此數(shù)值表征了樣本X在監(jiān)控點u處的密集程度,可用于改進擴散模型,得到適應性擴散模型[29]:
(27)
于是,我們獲得了一個U1×U2…×Uλ上的,關于X的信息矩陣:
Q={Qk1k2…kλ-1kλ}m×m×…×m。
(28)
?j∈{1,2,…,λ},kj∈{1,2,…,m},令:
(29)
和
(30)
此為針對分量j的歸一化信息矩陣中的元素,此矩陣記為:
(31)
我們可由X構造出一個背景數(shù)據(jù)與觀測數(shù)據(jù)之間的因果關系:
(32)
此因果關系矩陣中的元素為:
(33)
式(29)-式(32)的關系矩陣生成法,來自于模糊蘊含理論,適用于由小樣本生成,離散性較大的原始信息矩陣Q(式(28))。如果樣本較大,Q的元素值呈現(xiàn)出一定的統(tǒng)計規(guī)律,可直接將Rλ作為關系矩陣使用。對所有歸一化信息矩陣進行的取小運算,具有濾波的作用,也會丟失少量的統(tǒng)計信息。
設b=(b1,b2,…,bt)為表1中一個空白單元的背景數(shù)據(jù),λ-1維笛卡爾空間U1×U2×…Uλ-1中的一個點記為uλ-1=(u1k1,u2k2,…,uλ-1kλ-1)。用式(24)中用到過的擴散系數(shù)h,由式(34)將b變?yōu)檎撚騏1×U2…Uλ-1上的一個模糊集,并用式(35)進行歸一化處理。
(34)
(35)
(36)
(37)
最后,使用式(38)的信息集中法[32],我們獲得了一個分明值w:
(38)
當Rλ可以作為關系矩陣使用時,用重心法[8]替代信息集中法,精度更高。
由公式(24)-式(38)組成的模型,稱為自學習離散回歸(Self-Learning Discrete Regression,SLDR)模型,是一種地理空間信息擴散技術。式(38)中的w是使用此技術,由空白單元的背景數(shù)據(jù)b和從被觀測單元學習到的因果關系R,對空白單元的插值。
一個由“人口”、“人均 GDP”和“洪水相對暴露度”推測“洪水損失”的計算機仿真實驗證明,在擬合精度上,SLDR模型明顯優(yōu)于GWR和BP-ANN,誤差分別降低了60%和33%左右[8]。對空白地理單元“洪水損失”的推測,SLDR和BP-ANN通過了平均基準誤差小于平均預測誤差的檢驗,證明了SLDR和BP-ANN插值的效性,而GWR無效[30]。此檢驗中,基準誤差是指,給定樣本除去一個測試點后模型的均方根誤差;預測誤差是指,測試點的實際值與估計值之間的誤差。樣本中的每一個點均擔任一次測試點任務,形成的平均誤差用于檢測插值的有效性,避免了使用主觀“驗證樣本”存在的問題。
本文將以2018年和2020年發(fā)生在四川省三臺縣的兩次大洪水的水災災情為例,實證研究地理空間信息擴散技術的可靠性,為從理論走向?qū)嵺`,進行必要的探索。
我國三分之二以上的國土面積受到洪澇災害威脅,主要分布在長江、黃河、淮河、海河、珠江、松花江、遼河7大江河下游和東南沿海地區(qū)。這些大區(qū)域的水災,相鄰的較小地理單元上,災情的同質(zhì)性很高,只有進行大范圍的調(diào)研,獲得的數(shù)據(jù)才能支撐水災插值模型的研究。為此,我們選用小范圍內(nèi)差異較大的四川省三臺縣涪江流域麥冬主產(chǎn)區(qū)作為實證研究區(qū)域。由于發(fā)生在當?shù)氐暮樗哂幸蛔咭贿^的特點,澇災并不明顯,所以本文只研究洪水災害的插值問題。
四川省綿陽市三臺縣位于四川盆地中部偏北,30°42′34″~31°26′35″N,104°43′04″~105°18′13″E;屬于亞熱帶季風氣候區(qū),年平均降水量為876.2 mm,降水在年內(nèi)和年際變化大,年降水集中在夏秋兩季,其中6—9月降水量占全年降水量的72.4%;境內(nèi)地質(zhì)構造簡單,全部由褶皺構造組成,無地質(zhì)斷層,海拔高度307 m至672 m。屬川中丘陵地區(qū),地勢北高南低??h境內(nèi)大小江河溪流46條,均屬于長江支流嘉陵江水系,其中涪江、凱江、梓江、郪江為四條大江。涪江由綿陽市涪城區(qū)豐谷鎮(zhèn)進入三臺縣境內(nèi),經(jīng)永明、蘆溪、老馬、劉營、里程、靈興、新德、潼川、北壩出境至射洪縣香山鎮(zhèn)。
三臺縣歷來易受洪水災害影響。據(jù)歷史資料記載,從唐貞觀十八年(644)到民國三十八年的1 300年中,三臺發(fā)生嚴重的暴雨洪澇災害計38次,其中有19次縣城被淹。1949年 10月新中國成立后,共計出現(xiàn)洪水災害31次,其中特大洪災6次。截至2018年,近30%的涪江沿岸地段還暴露在無堤防狀態(tài)下。
三臺縣幅員面積2 659 km2,丘陵面積占94.39%,2021年轄31個鎮(zhèn)、2個鄉(xiāng),總?cè)丝?39.12萬,其中農(nóng)業(yè)人口123萬。2020年,生產(chǎn)總值407.45億元,經(jīng)濟發(fā)展程度較高,是我國最大的生豬產(chǎn)地縣。三臺縣享有“中國麥冬之鄉(xiāng)”的美譽,麥冬產(chǎn)業(yè)帶覆蓋了蘆溪鎮(zhèn)、永明鎮(zhèn)、老馬鎮(zhèn)、建設鎮(zhèn)、劉營鎮(zhèn)、靈興鎮(zhèn)、新德鎮(zhèn)等鄉(xiāng)鎮(zhèn),氣候、濕度、土壤均適合麥冬生長,有500多年種植麥冬的歷史,其“涪城麥冬”居全國麥冬之上品,目前三臺全縣常年種植麥冬面積達3 333 hm2,年均產(chǎn)量1.2萬t,占全國的70%以上,麥冬出口量占全國的80%以上。
2018年7月和2020年8月,三臺縣發(fā)生了大洪水,涪江流域的永明鎮(zhèn)、老馬鎮(zhèn)、劉營鎮(zhèn)、靈興鎮(zhèn)受災尤其嚴重,當?shù)孛癖妼那橛洃洩q新,為此,我們選擇了這四個鎮(zhèn)作為實證研究區(qū)域,其地理位置由圖1所示。
圖1 實證研究區(qū)域的地理位置(基于自然資源部標準地圖服務網(wǎng)站審圖號為GS(2019)1821號的標準地圖制作,底圖無修改)
2018年7月9-11日涪江流域上游縣市區(qū)的強降雨和局地的大暴雨使得涪江、凱江、梓江、魏城河、郪江遭受了建國以來最大洪峰的洗劫。尤其是三臺縣涪江、凱江水位極速大幅上漲,流量均為歷史最大峰值。
洪水期間,永明鎮(zhèn)和花園鎮(zhèn)(2019年劃歸蘆溪鎮(zhèn))等40個鎮(zhèn)鄉(xiāng)受災,受災人口達25.1萬人,實施緊急轉(zhuǎn)移安置21 562人,集中安置1 612人、分散安置19 950人,由于沿江的鎮(zhèn)鄉(xiāng)黨政對于群眾的疏散轉(zhuǎn)移有效及時,無人員死亡。
涪江流域“7.11”特大洪水,導致三臺縣境內(nèi)的道路、堤防、水庫、渠系、電力、供水、通信、能源等基礎設施毀損嚴重。洪水沖垮了2 000 m多的土堤造成決堤,有50 km多的基礎設施需維修加固或重建,有3條縣內(nèi)公路中斷,3座大橋臨時交通安全管制。全縣水利工程2 324處受損,直接損失4.2億元。江河干流堤防決口9處、損壞工程護岸145處,有14座水庫管涌產(chǎn)生新的病險。2條電力干線受損,導致19個鎮(zhèn)鄉(xiāng)突然停電?;A設施毀損5億余元。其中,蘆溪工業(yè)區(qū)殷家壕堤防、花園鎮(zhèn)涪城村護堤、里程鎮(zhèn)回龍村堤防和劉營鎮(zhèn)下渡口堤防瞬間決堤導致洪水災情最為慘重。蘆溪工業(yè)區(qū)的大量廠房被淹,物料、機器、設備被洪水浸泡,損毀慘重,造成24戶重點工業(yè)企業(yè)毀損、停產(chǎn),直接工業(yè)損失達6.3億元。
此次洪水共造成社會經(jīng)濟損失近18億元,其中,農(nóng)林水產(chǎn)受災19 442 hm2,其中絕收2 077 hm2,農(nóng)田(含魚塘)毀損198 hm2,農(nóng)業(yè)直接損失3.8億元。
2020年8月11—12日,涪江流域普降大到暴雨,上游的安州、北川、平武局地降下特大暴雨,洪災壓力加之疫情防控的重擔,為三臺縣帶來了70年來最為嚴峻的大考。
三臺縣于8月11日啟動并迅速提高至Ⅲ級防汛預警響應,16日啟動II級防汛應急響應。期間,涪江中下游超保證水位1.8 m,13 000 m3/s的洪峰沖擊導致明臺庫區(qū)尾段的新德鎮(zhèn)馬脊防洪堤基腳被洪水掏空100 m左右,出現(xiàn)了560 m迎水面“垮方險情”,省縣部門緊急加固搶修,最終保證了洪峰順利過境。
由于人員轉(zhuǎn)移安置及時,抗洪搶險行動到位,全縣此次洪災并無人員傷亡情況。但極端降水重創(chuàng)了交通基礎設施,造成三臺縣境內(nèi)道路路基垮塌、山體塌方嚴重,出現(xiàn)1 433處災毀險情,其中:國道16處、省道199處、縣道75處、鄉(xiāng)道193處、村道950處。中立路永明鎮(zhèn)涪建村段受災最為嚴重,車輛、群眾出行受阻。因災損毀道路于當月月底全部搶通。水路設施方面,共計受損5個渡口以及兩岸碼頭。
為了研究三臺縣的洪水和地震災害綜合風險,2017年北京師范大學與三臺縣合作建立了“安全科學與工程”教學實踐基地,2018年和2020年,分別對“7·11”特大洪水和“8·12”大洪水進行了一些調(diào)研。2021年6月17—20日期間,本文作者前往研究區(qū),對研究區(qū)的25個村莊進行了野外考察和入戶調(diào)查,獲得了第一手資料。根據(jù)調(diào)研村莊的海拔與水文特征(圖2a)、土地利用情況(圖2b)及坡度計算結(jié)果(圖2c),經(jīng)過整理和分析,我們得到了對地理空間信息擴散技術進行實證研究所需的背景數(shù)據(jù)(表2)和災情數(shù)據(jù)(表3)。每一個地理單元g獲得3個背景數(shù)據(jù)“與河流距離”、“GDP”和“坡度”,其中,“坡度”(bg3),是用擬合曲面法[31]由ArcGIS平臺計算而得。
圖2 調(diào)研區(qū)域水災背景數(shù)據(jù)分析資料及調(diào)研村莊的地理位置注:海拔來源于ASTER GDEM V2 全球高程數(shù)據(jù);水系數(shù)據(jù)由全國1∶25萬地理信息數(shù)據(jù)庫與縣水利局河流水系平面圖整理得到;土地利用資料來源于Esri提供的2020年10 m分辨率土地利用數(shù)據(jù)(https://www.geoscene.cn/)。
表2 研究區(qū)25個村莊的背景數(shù)據(jù)
表3 兩次大洪水的災情數(shù)據(jù)
我們以2018年“7·11”特大洪水中農(nóng)業(yè)損失為例,演示如何用信息擴散技術構建因果關系矩陣,由背景數(shù)據(jù)推測災情。然后,通過模型對全部3種災情的預測誤差分析,說明其插值是有效的。
由表2中的背景數(shù)據(jù)和表3中的第3列數(shù)據(jù),我們得到容量為τ=25,維度λ=4的樣本X:
(39)
根據(jù)表2中河流距離、GDP、坡度和表3中農(nóng)業(yè)損失的最大值和最小值,并依據(jù)樣本容量大小,我們以等步長方式,各取20點構成它們的監(jiān)控空間,即:
(40)
我們以式(39)中的第1個樣本點
x1={x11,x12,x13,x14}=(159.15,299,3.09,52 500)
(41)
為例,演示如何將其信息擴散給4維笛卡爾空間U1×U2×U3×U4中,與其距離較近的兩個點:
u18407=(u13,u27,u31,u47)=(155.66,288.32,2.68,40 000);
和
u18408=(u13,u27,u31,u48)=(155.66,288.32,2.68,46 666.67)。
笛卡爾空間點的編號,是按矩陣元素的序號排法所得。首先,由式(25)處理式(39)的樣本數(shù)據(jù),可得各分量的擴散系數(shù)h1,h2,h3,h4分別是145.974,12.866,1.374和14 171.362。于是,
=1.000×0.708×0.956×0.678
=0.459;
(42)
=1.000×0.708×0.956×0.919
=0.622;
(43)
將式(39)中的所有25個樣本點,在U1×U2×U3×U4上完成初級擴散并累加后,我們得到一個初級信息分矩陣S={Sk1k2…k4}20×20×20×20,例如u18407和u18408上獲得的初級信息擴散總量分別是S3,7,1,7=0.841,S3,7,1,8=0.868。由式(37)進行適應性擴散,我們得到一個原始信息矩陣Q={Qk1k2…k4}20×20×20×20例如u18407和u18408上獲得的適應性擴散總量分別是Q3,7,1,7=0.813,Q3,7,1,8=0.838。對X的信息矩陣Q,我們從第1分量到第4分量,分別進行歸一化處理,得到相應的歸一化信息矩陣。例如,對第4分量,即“農(nóng)業(yè)損失”,k4=7和k4=8時,我們分別有:
(44)
于是,
(45)
由式(32)對4個歸一化信息矩陣進行“取小”運算,可得該地區(qū)此次洪水事件中,得到“農(nóng)業(yè)損失”與“與河流距離”“GDP”、“坡度”因果關系的一個估計R。例如,在此因果型關系矩陣中我們有:
(46)
(47)
比較這兩個元素的值可知,輸入u=(u13,u27,u31)時,“農(nóng)業(yè)損失”是u47(=40 000元)的可能性比u48(=46 666.67元)的小。
我們以背景數(shù)據(jù)b=(b1,b2,b3)=(159.15,299,3.09)為例,用6.1節(jié)中構建的因果關系矩陣,推測農(nóng)業(yè)損失。選用的背景數(shù)據(jù)是式(41)中x1的前3個分量。推測的是長江村2018年“7·11”特大洪水中的農(nóng)業(yè)損失。
(48)
(49)
式中:uk1k2k3是U1×U2×U3中點(u1k1,u2k2,u3k3)的簡寫。例如:
=1.000×0.708×0.956
=0.677。
(50)
(51)
例如a371=0.677/0.979=0.692。使用近似推理公式(37),我們得到模糊輸出:
(52)
需注意上式并非分數(shù)求和,而是模糊集的扎德記法。該模糊輸出表達的是:損失為0元,6 666.67元,…,126 666.65元的可能性分別是0.885,0.952,…,0.161。使用式(38)對此模糊集進行信息集中處理,我們得到由背景數(shù)據(jù)(159.15,299,3.09)推測的農(nóng)業(yè)損失是:
=22 053.27(元)。
(53)
由背景數(shù)據(jù) (159.15,299,3.09),用地理空間信息擴散技術的SLDR模型推測的,長江村2018年“7·11”特大洪水中的農(nóng)業(yè)損失,是22 053.27元,與表2中觀測值52 500有較大的出入,這是由于25個樣本點的災情標準差高達37 448.98所致。通常,我們用均方根誤差,來比較兩個模型擬合插值節(jié)點的誤差。但擬合得很好的模型,不一定適合于節(jié)點以外的插值。只有節(jié)點以外的預測誤差,才能體現(xiàn)插值精度[30]。
為了區(qū)分樣本點中的自變量和因變量,我們將式(20)中的樣本改寫為
(54)
(55)
令:
E={1,2,…,τ}。
(56)
?η∈E,令:
(57)
稱XLη為訓練樣本(有τ-1個樣本點),稱Xη為測試樣本(只有一個樣本點)。顯然X=XLη∪Xη。由XLη訓練模型f,其均方根誤差稱為f的一個基準誤差,記為σLη;f對yη的預測誤差,稱為f的一個預測誤差,記為eη,即
(58)
(59)
對表2和表3給出的數(shù)據(jù),SLDR模型的均方根誤差、基準誤差和預測誤差見表4。
根據(jù)文獻[30]的研究,一個模型的預測是否有效,須通過兩個準則來檢驗。
準則I:平均基準誤差必須小于平均預測誤差,確保模型能從此樣本中總結(jié)出規(guī)律。
準則Ⅱ:平均預測誤差較小,確保模型的精度。
如果基準誤差大于預測誤差,就相當于說,你游歷了歐洲而不是非洲,但是你對非洲的描述比歐洲更準確,這顯然是荒謬的。如果基準誤差明顯大于預測誤差,說明模型不符合邏輯,對給定樣本的學習無效;或者說,使用的模型與給定的樣本不匹配。表4中,3個案例的基準誤差小于預測誤差,另3個案例的預測誤差沒有明顯小于基準誤差,說明SLDR用于學習相應6個樣本是有效的,具有普適性。至于SLDR的預測誤差是否較小,須同別的模型進行比較,才能顯現(xiàn)出來。
分別用CK、GWR和BP-ANN模型對表2和表3給出的數(shù)據(jù)進行處理,所得結(jié)果列入表5、表6和表7。由表4比較這三個表可知,就本文的實例而言,只有SLDR模型能夠通過預測有效性兩個準則的檢驗。CK模型的預測誤差均明顯小于基準誤差,通過不了準則I的檢驗,插值無效。在5個案例中,GWR模型的預測誤差,均明顯小于基準誤差,也不合邏輯,插值無效。
表4 自學習離散回歸模型(SLDR)均方根誤差σ、基準誤差和預測誤差
表5 協(xié)同克里金模型(CK)均方根誤差σ、平均基準誤差和平均預測誤差
表6 地理加權回歸模型(GWR)均方根誤差σ、平均基準誤差和平均預測誤差
表7 回傳神經(jīng)網(wǎng)絡模型(BP-ANN)均方根誤差σ、平均基準誤差和平均預測誤差
表7中,BP-ANN采用3×9×1拓撲結(jié)構,學習系數(shù)0.9,慣性系數(shù)0.7,系統(tǒng)誤差0.000 9。例如,用2018年“7·11”特大洪水時25個村莊的背景數(shù)據(jù)和農(nóng)業(yè)損失組成的樣本,訓練出的神經(jīng)網(wǎng)絡,擬合的均方根誤差是6 678.87元(見表7第3行第3列)。而從25個村莊中隨機地取24個的數(shù)據(jù)組成樣本訓練網(wǎng)絡時,一些樣本的訓練進入死循環(huán),擬合的均方根誤差較大;一些樣本能順利完成訓練,均方根誤差較小,平均基準誤差為12 645.68元(見表7第4行第3列)。用24個村莊的數(shù)據(jù)訓練出的網(wǎng)絡對沒有參加訓練的村莊進行插值(預測)時,平均預測誤差高達82 681.68元(見表7第5行第3列)。
對所有6個案例,BP-ANN模型的基準誤差均小于預測誤差,通過了準則I的檢驗,但沒有通過準則Ⅱ的檢驗,因為其預測誤差遠遠大于SLDR、CK和GWR模型,精度太低,是一個無效的預測模型。這一現(xiàn)象說明,能夠高度擬合訓練樣本的回傳神經(jīng)網(wǎng)絡模型,并不適用于復雜地表現(xiàn)象的插值。
由于成本和時效等諸多原因,用插值來完善地理空間數(shù)據(jù),具有重要意義。在滿足相應條件的情況下,許多插值模型都可以使用。但是,常用的插值模型,都不具有普適性。
雖然內(nèi)插式的數(shù)學插值模型精度很高,但只適用于空間連續(xù)場;克里金法和地理加權回歸等地統(tǒng)計方法考慮到了空間數(shù)據(jù)的隨機性,但只適用于有大樣本支撐的插值;回傳神經(jīng)網(wǎng)絡模型能夠高度擬合訓練樣本,但插值精度可能并不高。
模型的擬合精度高,并不等于插值精度也高。插值是因為缺失需要的信息,只有插值節(jié)點間的空白處,才需插值,節(jié)點上擬合并不是插值。插值是對空白處有關數(shù)值的預測。因此,一個模型是否可通過某樣本的訓練有效地進行插值,可通過兩個準則來檢驗,一是平均基準誤差必須小于平均預測誤差,確保模型能從此樣本中總結(jié)出規(guī)律;二是平均預測誤差較小,確保模型的精度。
本文以2018年和2020年發(fā)生在四川省三臺縣的兩次大洪水,造成25個村的房屋損失、農(nóng)業(yè)損失和莊稼被淹等三類水災災情數(shù)據(jù)組成的6個案例,實證了地理空間信息擴散技術能通過兩個準則的檢驗,是普適性插值模型。協(xié)同克里金模型在所有案例中,都沒有通過準則I的檢驗,不合邏輯,說明插值無效;地理加權回歸模型在5個案例中沒有通過準則I的檢驗。雖然回傳神經(jīng)網(wǎng)絡模型通過了準則I的檢驗,且基準誤差很小,但預測誤差卻比基準誤差高出近一個數(shù)量級,也比自學習離散回歸模型、協(xié)同克里金模型和地理加權回歸模型的預測誤差都大很多,沒有通過準則Ⅱ的檢驗。這說明,回傳神經(jīng)網(wǎng)絡模型并不適用于復雜地表現(xiàn)象的插值。
信息擴散的自學習離散回歸模型,是一種以離散數(shù)學表達的數(shù)學模型,能充分發(fā)揮現(xiàn)代計算機大容量存儲、高速度運行的功能,具有某種人工智能的屬性,如果能在擴散方式和近似推理等方面進一步完善,有望為地理空間插值提供一個重要的工具。