陳珂,陳括,吳萍,梅杰,袁逸葦
(1.自然資源部東海預(yù)報減災(zāi)中心, 上海 200136;2.自然資源部東海信息中心, 上海 200136)
隨著“海洋強國戰(zhàn)略”以及“建設(shè)智慧海洋”等一系列政策及理念的提出,海洋信息化正逐漸成為全面了解、研究和建設(shè)海洋的重要一環(huán)。海洋矢量數(shù)據(jù)的可視化作為直觀有效的數(shù)據(jù)展示形式,為海洋環(huán)境監(jiān)測、海洋災(zāi)害預(yù)警預(yù)報等方面研究提供了重要的信息資源。然而海洋矢量數(shù)據(jù)不同于傳統(tǒng)工業(yè)數(shù)據(jù),在時間、空間上具有實時動態(tài)性、空間相關(guān)性、多維多屬性和不連續(xù)不確定性,并且存在數(shù)據(jù)量大、冗余度高等問題,如何在保證整體精度的同時,高效、直觀、動態(tài)地將海洋矢量數(shù)據(jù)進行可視化成為海洋技術(shù)研究中的熱點問題之一[1]。
由于空間相關(guān)性分析兼顧了空間對象之間的相關(guān)性和變異性,已在地理研究、資源評估和農(nóng)作物監(jiān)測等領(lǐng)域被廣泛應(yīng)用[2-5]。如李連發(fā)等通過對空間數(shù)據(jù)的相關(guān)性進行量化,提出了空間抽樣框架;劉鐵軍等[6]以分層抽樣為基礎(chǔ),兼顧空間關(guān)聯(lián)性提出了“三明治”空間抽樣模型。這些理論將空間相關(guān)性理論應(yīng)用到空間數(shù)據(jù)處理中,一定程度上降低了空間數(shù)據(jù)的信息冗余。在插值研究中,常用的插值方法包括幾何方法、統(tǒng)計方法、空間統(tǒng)計方法、函數(shù)方法、隨機模擬方法、物理模型模擬方法和綜合方法等[7-9]。但海洋矢量數(shù)據(jù)其自身具有多源、異構(gòu)、多維等空間特性,插值過程中結(jié)合數(shù)據(jù)的空間相關(guān)性是非常必要的。
本文嘗試將空間相關(guān)性和插值算法相結(jié)合,應(yīng)用在海洋矢量數(shù)據(jù)可視化的研究中,通過對矢量數(shù)據(jù)進行空間相關(guān)性分析計算出海洋數(shù)據(jù)多種屬性的依賴度以及其權(quán)重系數(shù),對數(shù)據(jù)進行約簡、選擇和插值,進而為海洋矢量數(shù)據(jù)的插值可視化提供一種可行的新方法和新思路。
首先利用Moran's I 進行空間相關(guān)性分析,對海洋空間數(shù)據(jù)進行整理和過濾,形成插值計算初始場;然后根據(jù)空間相關(guān)性分析確定插值計算的影響半徑d'、插值權(quán)重Wijk,并進行Cressman 插值計算獲得新場;最后將新場與實際值進行對比分析,若超過誤差范圍,則根據(jù)插值對新場進行訂正,若在誤差范圍內(nèi),則針對海洋數(shù)據(jù)插值計算結(jié)果進行可視化分析,并與傳統(tǒng)插值算法作對比,檢驗海洋數(shù)據(jù)插值模型的合理性(圖1)。
圖1 海洋矢量數(shù)據(jù)插值流程圖
空間自相關(guān)是空間地理數(shù)據(jù)的重要性質(zhì),空間中鄰近的地理數(shù)據(jù)信息通常比相距較遠(yuǎn)的具有更高的相似性[10]。由于空間對象之間存在空間相關(guān)性,空間事物在分布上呈現(xiàn)結(jié)構(gòu)性。
Moran's I 是一種度量空間對象之間相關(guān)程度的重要參數(shù),在空間自相關(guān)分析中已得到廣泛應(yīng)用[11-12]。通過對Moran's I 值的標(biāo)準(zhǔn)化計算得到矢量數(shù)據(jù)間的空間聚類程度,即z-score 值,z-score值越大表示空間聚類程度越高,通過z-score 值,檢索研究區(qū)域矢量數(shù)據(jù)的最佳距離,即矢量數(shù)據(jù)在該距離內(nèi)空間聚類程度最高,由該距離推導(dǎo)研究區(qū)域內(nèi)的樣本量及樣本點的空間分布。通過對樣本點精度檢驗推導(dǎo)整個研究區(qū)域的精度水平。相關(guān)公式如下:
式(1)-(5)中,I 表示Moran's I 指數(shù)值,n 表示某區(qū)域數(shù)據(jù)的總數(shù),Wij表示數(shù)據(jù)i 和j 之間的空間權(quán)重,Zi表示數(shù)據(jù)i 的屬性值,zˉ表示所有數(shù)據(jù)的屬性平均值,S0表示所有空間權(quán)重的聚合,Z表示空間聚類程度z-score 標(biāo)準(zhǔn)化值,E( )I 表示Moran's I 的期望,V( )I 表示Moran's I 的方差,d表示歐氏距離,xi表示空間數(shù)據(jù)i 的經(jīng)度,yj表示空間數(shù)據(jù)j 的緯度,xmax表示所有空間數(shù)據(jù)中最大經(jīng)度,xmin表示所有空間數(shù)據(jù)中最小經(jīng)度,ymax表示所有空間數(shù)據(jù)中最大緯度,ymin表示所有空間數(shù)據(jù)中最小緯度,n'表示選擇的數(shù)據(jù)量,d'表示依據(jù)I選擇的最佳距離。
基于Moran's I 的空間樣本選擇算法是對空間結(jié)構(gòu)數(shù)據(jù)選擇進行優(yōu)化的算法,其本質(zhì)是通過數(shù)據(jù)的總數(shù)n、數(shù)據(jù)i 和j 之間的空間權(quán)重Wij、數(shù)據(jù)i的屬性值Zi、數(shù)據(jù)的屬性平均值zˉ四個參數(shù)獲得樣本間的最佳距離,算法描述如下:
算法. 基于Moran's I 的空間數(shù)據(jù)選擇算法(n,Wij,Zi,).
輸入:數(shù)據(jù)總數(shù)n,數(shù)據(jù)i 和j之間的空間權(quán)重Wij,數(shù)據(jù)i的屬性值Zi,數(shù)據(jù)的平均屬性值zˉ;
輸出:樣本點間的最佳距離d'.
①FOR(i=1;i<=n;i++){
② FOR(j=1;j<=n;j++){
③利用公式(2)計算空間數(shù)據(jù)權(quán)重的聚合S0;}}
④FOR(i=1;i<=n;i++){
⑤ FOR(j=1;j<=n;j++){
⑥利用公式(1)計算數(shù)據(jù)間的Moran's I指數(shù)值I}}
⑦利用公式(3)計算各數(shù)據(jù)的空間聚類程度Z值;
⑧利用公式(4)計算各Z值對應(yīng)的像元距離d;
⑨輸出聚類程度較高的最佳距離d'.
該算法中,在數(shù)據(jù)總數(shù)為n 的情況下,數(shù)據(jù)空間權(quán)重聚合S0的時間復(fù)雜度為O(n2);數(shù)據(jù)間的Moran's I指數(shù)值I的時間復(fù)雜度為O(n2);各Z值對應(yīng)的數(shù)據(jù)點距離d 的時間復(fù)雜度為O(n2);因此,該算法的時間復(fù)雜度為O(n2)。
Cressman 插值是在氣象領(lǐng)域中應(yīng)用最多的一種插值算法,是將離散點內(nèi)插到規(guī)則格點引起誤差較小的一種逐步訂正的內(nèi)插方法,被廣泛應(yīng)用于氣象領(lǐng)域空間矢量數(shù)據(jù)的各種診斷分析和數(shù)值預(yù)報方案的客觀分析中,因而Cressman 插值方法使客觀分析成了一門獨立的科學(xué)[13]。
Cressman插值算法[14-16]采用逐步訂正方法進行最優(yōu)化插值,用實際資料與預(yù)備場或初值場去改變和訂正,得到新場,再求出新場與實際值之差,去訂正上一次的場,直到訂正場逼近實際資料為止。公式如下:
其中:
式中,α 為任一氣象要素,α0是變量α 在格點(i,j)上的第一猜測值,α'是變量α 在格點(i,j)上的訂正值;?αk是參與插值計算點k 的值與第一猜測值之差;Wijk是權(quán)重因子,在0~1 之間變化;K是影響半徑d'內(nèi)的空間數(shù)據(jù)量。Cressman 客觀分析方法最重要的是權(quán)重函數(shù)Wijk的確定,它的一般形式為:
式中:影響半徑d'的選取具有一定的人為因素,一般取一常數(shù)。d'選取的原則是通過空間相關(guān)性分析選取的最佳距離。dijk是格點(i,j)到點k的距離。
Cressman 插值算法的思路如下:第一步,確定一個預(yù)備場,并設(shè)定一個逼近值范圍,用于比較計算后的新值與實際資料的差值;第二步,計算權(quán)重Wijk;第三步,將權(quán)重放入插值計算中,得到一個新場;第四步,將這個新場與實際資料相比,計算它們的差是否在預(yù)定的逼近范圍內(nèi),如果不在逼近范圍內(nèi),就用這個新場與實際值的差,去訂正上一次的場;第五步,對訂正后的場和實際值進行比較,如果還是超過逼近值的范圍,則繼續(xù)訂正,直到新場與實際值的差在預(yù)定的逼近值范圍內(nèi)。
基于Moran's I 的空間相關(guān)性分析和Cressman插值算法通常運用于空間矢量數(shù)據(jù)分析。流場數(shù)據(jù)作為空間矢量數(shù)據(jù),具有空間性、時效性、多維性等特點。因此,本文采用東海某區(qū)域的流場矢量數(shù)據(jù)進行仿真實驗,在插值計算前,首先對不同距離的矢量數(shù)據(jù)進行空間相關(guān)性分析,數(shù)據(jù)點間的距離與對應(yīng)z-score值如表1所示。
表1 不同距離的Moran's I及z-score值
由表1 可知,當(dāng)數(shù)據(jù)間距離為118.71 m 時,對應(yīng)的z-score 值最大為48.266 820,表示該距離為118.71 m 的范圍內(nèi),空間聚類程度最高,表現(xiàn)出強相關(guān)性,選此時對應(yīng)的距離d'為最佳距離。
流場數(shù)據(jù)原始數(shù)據(jù)點分布如圖2 所示,根據(jù)Moran's I 的空間相關(guān)性分析選取插值半徑d'為118.71 m,對流場數(shù)據(jù)進行Cressman 插值計算,并與傳統(tǒng)插值[15-18]計算結(jié)果進行對比(圖3、圖4)。反距離權(quán)重插值法(Inverse Distance Weight,IDW)是一種常用而簡便的空間插值方法,它以插值點與樣本點間的距離為權(quán)重進行加權(quán)平均,離插值點越近的樣本點賦予的權(quán)重越大,IDW 通過對鄰近區(qū)域的每個采樣點值平均運算獲得內(nèi)插單元。本文采用的傳統(tǒng)插值計算方法為Cressman 插值和反距離權(quán)重插值,插值半徑d默認(rèn)為50 m,如圖5、圖6所示。
圖2 某海域流場數(shù)據(jù)分布
圖3 基于Cressman優(yōu)化算法平面結(jié)果
圖4 基于Cressman優(yōu)化算法3D結(jié)果
圖5 基于Cressman插值算法計算結(jié)果
圖6 基于IDW插值算法計算結(jié)果
為更好地分析三種不同插值方法,本次研究在同一環(huán)境下,分別對三種不同插值方法運行10次,并對10 次運行時間進行統(tǒng)計分析,如表2、圖7所示。
表2 三種不同插值方法完成時間對比
圖7 基于Cressman插值算法計算結(jié)果
通過圖3與圖5對比可以看出,傳統(tǒng)Cressman插值方法和優(yōu)化Cressman插值方法結(jié)果基本一致,圖5和圖6對比可以看出,傳統(tǒng)Cressman插值方法和IDW 插值方法在插值半徑為50 m 的情況下,獲得的結(jié)果也基本一致,說明和傳統(tǒng)的插值方法相比,優(yōu)化后的Cressman 插值方法同樣可以保證插值結(jié)果的精確度。同時,通過表2和圖7看出,優(yōu)化Cressman插值方法比兩個傳統(tǒng)插值方法耗時短,傳統(tǒng)Cressman插值方法平均運行時間為5.72 s,反距離權(quán)重插值方法(IDW)完成時間為5.85 s,所耗時間基本相同,優(yōu)化Cressman 插值方法運行時間為3.46 s,與傳統(tǒng)插值方法相比,時間減少了近40%。這是由于優(yōu)化Cressman 插值方法通過對流場數(shù)據(jù)的空間相關(guān)性分析后選擇的插值半徑比傳統(tǒng)插值方法的插值半徑大,從而減少了插值計算過程中的數(shù)據(jù)冗余,縮短了運行時間。
海洋流場矢量數(shù)據(jù)具有空間性、時效性、數(shù)據(jù)量大等特點,傳統(tǒng)插值方法缺少對插值半徑的精準(zhǔn)分析,插值半徑需盡量選擇較小值來保證插值精度,因此會導(dǎo)致時間長、效率低和信息冗余等問題。本文提出的基于Cressman插值優(yōu)化算法,通過數(shù)據(jù)間空間相關(guān)性的度量,量化了矢量數(shù)據(jù)的插值半徑,在保證精度的同時,能夠較準(zhǔn)確地表達(dá)流場數(shù)據(jù),保持了數(shù)據(jù)的可靠性,減少了數(shù)據(jù)的冗余度,保障了其插值結(jié)果的可信度,有利于海洋流場數(shù)據(jù)精準(zhǔn)、高效地展示,大大減少了后臺程序的計算時間,使數(shù)據(jù)表達(dá)更加流暢。
文中針對海洋矢量模式數(shù)據(jù)的插值問題,提出了一種結(jié)合空間相關(guān)性分析對Cressman 算法進行優(yōu)化的插值方法。該方法考慮了海洋矢量數(shù)據(jù)的空間特性,采用Moran's I對數(shù)據(jù)進行空間相關(guān)性分析,并基于Cressman插值算法對空間數(shù)據(jù)進行處理及柵格化表達(dá)[17-20]?;贑ressman 插值優(yōu)化算法能夠保證結(jié)果的有效性、準(zhǔn)確性,并在一定程度上解決了傳統(tǒng)插值算法中數(shù)據(jù)冗余、時間成本高等問題,提高了運算效率,降低了時間成本。