劉 波
(山東省國土測繪院,山東 濟(jì)南 250013)
在信息技術(shù)飛速發(fā)展的背景下,地理信息系統(tǒng)的設(shè)計研發(fā)取得了質(zhì)的飛躍[1]。隨著地理信息指標(biāo)不斷地細(xì)化,地理信息系統(tǒng)產(chǎn)生了海量的數(shù)據(jù),如何在分析工作過程中迅速整合數(shù)據(jù)成為了當(dāng)下的研究熱點(diǎn)[2]。從地理數(shù)據(jù)的整合本質(zhì)來看,數(shù)據(jù)整合過程就是將地理信息系統(tǒng)中的數(shù)據(jù)處理為多源數(shù)據(jù)集后,利用數(shù)據(jù)集內(nèi)數(shù)據(jù)的多源性以及多尺度性,設(shè)定數(shù)據(jù)管理標(biāo)準(zhǔn),將不同管理項目內(nèi)的數(shù)據(jù)整合為相同的量綱的過程[3]。在該種數(shù)據(jù)整合方法的支持下,不同類型的地理信息系統(tǒng)數(shù)據(jù)之間能夠形成協(xié)調(diào)一致的狀態(tài),為高效分享地理信息數(shù)據(jù)提供支持。由此可知,研究基于多源數(shù)據(jù)集成的地理信息系統(tǒng)數(shù)據(jù)高效整合方法具有必要性。
在上世紀(jì)五十年代中期,國外研究人員將集成管理技術(shù)與地理空間處理技術(shù)作為技術(shù)支持,設(shè)定了數(shù)據(jù)整合的統(tǒng)一標(biāo)準(zhǔn)[4],實(shí)現(xiàn)了不同系統(tǒng)間的數(shù)據(jù)跨平臺互通。國內(nèi)地理信息系統(tǒng)研究起步較晚,研究人員歸納總結(jié)了地理信息系統(tǒng)數(shù)據(jù)的特點(diǎn),確定了數(shù)據(jù)整合工作首要解決的問題,并構(gòu)建了數(shù)據(jù)尺度變換算法。文獻(xiàn)[5]中的數(shù)據(jù)整合方法,以BIM和GIS作為數(shù)據(jù)集成處理工具,制定了數(shù)據(jù)整合的數(shù)據(jù)標(biāo)準(zhǔn),在三維可視化平臺的支持下構(gòu)建了數(shù)據(jù)整合過程。文獻(xiàn)[6]中的數(shù)據(jù)整合方法應(yīng)用Spark環(huán)境作為數(shù)據(jù)處理工具,采樣計算信息數(shù)據(jù)的綜合權(quán)重,采用基于相關(guān)性的特征處理方法構(gòu)建數(shù)據(jù)整合規(guī)范,構(gòu)建形成數(shù)據(jù)整合過程。經(jīng)階段性的應(yīng)用探析可發(fā)現(xiàn),現(xiàn)有的數(shù)據(jù)整合方法存在整合時間較長、屬性匹配度較低的問題,由此可知,研究基于多源數(shù)據(jù)集成的地理信息系統(tǒng)高效整合過程具有一定的意義。
地理信息系統(tǒng)內(nèi)存在多源結(jié)構(gòu)的信息數(shù)據(jù),在集成處理時,采用模式樹的方法將信息數(shù)據(jù)處理為層次結(jié)構(gòu),處理過程如公式(1)所示:
式(1)中,H為構(gòu)建的層次處理參數(shù);D0為模式樹的節(jié)點(diǎn)參數(shù);T為數(shù)據(jù)的處理周期。將模式樹結(jié)構(gòu)內(nèi)的數(shù)值按照從大到小的順序排列,將層次參數(shù)大的信息數(shù)據(jù)劃分在模式樹內(nèi)的主節(jié)點(diǎn)處,將數(shù)值大小相差不大的數(shù)據(jù)放置在相同等級內(nèi)的樹狀節(jié)點(diǎn)內(nèi),整理為以數(shù)值為模式結(jié)構(gòu)點(diǎn)的模式樹后,在相同結(jié)構(gòu)內(nèi)標(biāo)定信息多源數(shù)據(jù)的屬性,采用節(jié)點(diǎn)傳遞函數(shù)處理相同模式樹結(jié)構(gòu)內(nèi)的數(shù)據(jù),處理過程如公式(2)所示:
式(2)中,h(v)為構(gòu)建的節(jié)點(diǎn)函數(shù);v為屬性參數(shù);W為標(biāo)定函數(shù);其余參數(shù)含義不變。將模式樹間的地理信息數(shù)據(jù)構(gòu)建數(shù)值關(guān)系后,為了消除地理信息數(shù)據(jù)之間的約束,在多源數(shù)據(jù)內(nèi)設(shè)定一個數(shù)值等價條件。設(shè)定的等價條件如公式(3)所示:
式(3)中,R為地理信息數(shù)據(jù)的轉(zhuǎn)換參數(shù);S為信息數(shù)據(jù)的多源等價參數(shù);G為多源數(shù)據(jù)的屬性參數(shù);其余參數(shù)含義不變。等價處理后的多源數(shù)據(jù)存在一定的異構(gòu)沖突,為了消除實(shí)際產(chǎn)生的異構(gòu)沖突,采用K關(guān)聯(lián)的處理方式集成多源數(shù)據(jù)為模式樹的結(jié)構(gòu)增量。處理過程如公式(4)所示:
式(4)中,f(i)為構(gòu)建的模式樹節(jié)點(diǎn)的增量函數(shù);Bi為多源數(shù)據(jù)的沖突修正;N為模式樹結(jié)構(gòu)內(nèi)存在的節(jié)點(diǎn)總數(shù)。此時,在集成處理多源數(shù)據(jù)過程中,模式樹結(jié)構(gòu)內(nèi)形成了集成傳遞過程(如圖1所示):
圖1 多源數(shù)據(jù)的集成傳遞過程
由圖1中的集成傳遞過程可知,在不同結(jié)構(gòu)增量參數(shù)的控制下,地理信息系統(tǒng)中的數(shù)據(jù)處理多個傳遞條件的多源數(shù)據(jù)集,利用集成處理后的信息數(shù)據(jù)集,匹配地理信息數(shù)據(jù)的屬性。
使用上述集成處理后的多源數(shù)據(jù),將模式樹結(jié)構(gòu)內(nèi)的數(shù)據(jù)處理為屬性元素,引用相似度計算公式計算屬性元素之間的相似性,計算公式如公式(5)所示:
式(5)中,A、B分別為選定的屬性元素;wi為屬性元素的相似性權(quán)重;J為元素匹配參數(shù)??紤]到模式樹結(jié)構(gòu)中深層次元素的單位不可分性,在模式樹內(nèi)構(gòu)建一個路徑匹配過程。構(gòu)建的匹配過程如公式(6)所示:
式(6)中,P為構(gòu)建路徑匹配函數(shù);a為路徑條件參數(shù);k為匹配路徑的權(quán)重因子;d1為元素節(jié)點(diǎn)在模式樹中的路徑距離;其余參數(shù)含義不變。將符合路徑匹配數(shù)值關(guān)系的多源數(shù)據(jù)處理為相同的類別,采用數(shù)值擴(kuò)充的方式重新計算相同路徑內(nèi)的元素相似性,數(shù)值關(guān)系如公式7所示:
式(7)中,SSim(A′,B′)為相同路徑內(nèi)元素的相似度;S(A)、S(B)分別為相同路徑內(nèi)元素的屬性值。將上述處理的相似性數(shù)值處理為值域,并以該值域作為匹配過程中的數(shù)值條件,最終構(gòu)建的數(shù)據(jù)屬性匹配過程如公式(8)所示:
式(8)數(shù)值關(guān)系中,V為構(gòu)建的匹配函數(shù);V(A)、V(B)分別表示屬性參數(shù)形成的數(shù)值條件集;其余參數(shù)均保持原含義不變。利用上述構(gòu)建的信息數(shù)據(jù)屬性匹配的數(shù)值關(guān)系,為了高效實(shí)現(xiàn)數(shù)據(jù)整合過程,構(gòu)建數(shù)據(jù)整合算法。
在上述構(gòu)建的屬性匹配過程中,調(diào)用屬性匹配形成的數(shù)據(jù)個體選擇過程,根據(jù)多源數(shù)據(jù)之間的個體作用,確定多源數(shù)據(jù)間數(shù)值作用規(guī)則,數(shù)值關(guān)系如公式(9)所示:
式(9)中,Q為設(shè)定的數(shù)據(jù)作用參數(shù);f(A′)、f(B′)為數(shù)據(jù)匹配屬性的相互函數(shù);K為數(shù)據(jù)匹配次數(shù)。為了滿足數(shù)據(jù)整合過程的時效性,在上述的數(shù)值作用規(guī)則內(nèi),采用Metropolis準(zhǔn)則設(shè)置屬性數(shù)據(jù)更新過程。設(shè)定的更新過程如公式(10)所示:
式(10)中,F(xiàn)i為設(shè)定的更新函數(shù);λi為引用準(zhǔn)則內(nèi)的規(guī)則函數(shù);ti為設(shè)定的更新周期;其余參數(shù)保持其原有含義不變。受到地理信息系統(tǒng)數(shù)據(jù)標(biāo)度單位的影響,不同地理信息尺度數(shù)據(jù)在整合時,容易出現(xiàn)數(shù)據(jù)不兼容的現(xiàn)象。為了處理該現(xiàn)象,在上述構(gòu)建的數(shù)值更新過程內(nèi),以設(shè)定的更新周期作為自變量,整理更新過程產(chǎn)生的數(shù)值階躍響應(yīng)(如圖2所示):
圖2 更新過程產(chǎn)生的階躍響應(yīng)
由圖2可知:在前兩個更新周期內(nèi),更新數(shù)值內(nèi)產(chǎn)生了數(shù)值較大的階躍,將該階躍狀態(tài)下的更新參數(shù)作為整合算法內(nèi)的精細(xì)參數(shù),最終構(gòu)建形成的數(shù)據(jù)整合算法如公式(11)所示:
式(11)中,D(v)為構(gòu)建的數(shù)據(jù)整合算法;L為算法的收斂參數(shù);其余參數(shù)保持原有含義不變。為了增強(qiáng)數(shù)據(jù)整合算法的時效性,轉(zhuǎn)換融合數(shù)據(jù)的狀態(tài)為遍歷狀態(tài),增強(qiáng)數(shù)據(jù)融合算法的時效性。綜合上述處理過程,最終完成對基于多源數(shù)據(jù)集成的地理信息系統(tǒng)數(shù)據(jù)高效整合過程的研究。
隨機(jī)調(diào)用某地的地理信息系統(tǒng),調(diào)配后臺數(shù)據(jù)中的柵格配準(zhǔn)功能,采集得到地理信息系統(tǒng)中的數(shù)據(jù),采集過程(如圖3所示):
圖3 采集地理信息系統(tǒng)數(shù)據(jù)過程
數(shù)據(jù)采集后,將得到的系統(tǒng)數(shù)據(jù)整理為(如表1所示)的系統(tǒng)數(shù)據(jù)集:
表1 整理得到的地理信息系統(tǒng)數(shù)據(jù)
在圖3所示的系統(tǒng)數(shù)據(jù)支持下,采用單獨(dú)圖層處理的方式將表1中的數(shù)據(jù)增量處理為圖斑范圍,不斷核實(shí)圖斑范圍中產(chǎn)生的偏差。,修正處理完畢后,將更新后的信息系統(tǒng)數(shù)據(jù)作為整合處理對象,應(yīng)用基于多源異構(gòu)的整合方法、基于模式映射的整合方法以及所設(shè)計的數(shù)據(jù)整合方法進(jìn)行實(shí)驗(yàn),選定相同的性能指標(biāo)作為處理對象,對比三種整合方法的性能。
使用上述采集得到的地理信息系統(tǒng)數(shù)據(jù),對應(yīng)不同的地類名稱,采用XML文檔將其映射處理為圖斑數(shù)據(jù)模式。映射處理過程如公式(12)所示:
式(12)中,r(u)為構(gòu)建的映射模式函數(shù);Ne為參與整合數(shù)據(jù)的數(shù)量;pu為映射的調(diào)優(yōu)參數(shù)。將其映射處理為地理圖斑數(shù)據(jù)模式后,以該模式作為地理信息系統(tǒng)的屬性,定義三種數(shù)據(jù)整合方法數(shù)據(jù)匹配屬性的過程,統(tǒng)一計算三種數(shù)據(jù)整合方法在匹配過程中形成的匹配度,數(shù)值關(guān)系如公式(13)所示:
式(13)中,α為計算的匹配度;em為數(shù)據(jù)整合方法內(nèi)的匹配函數(shù);其余參數(shù)含義不變。結(jié)合上述構(gòu)建的匹配度數(shù)值關(guān)系,在表中地類數(shù)據(jù)的支持下,整理數(shù)據(jù)整合方法數(shù)據(jù)屬性的匹配度,結(jié)果(如圖4所示):
圖4 三種數(shù)據(jù)整合方法屬性匹配度結(jié)果
在定義采集地理信息數(shù)據(jù)的圖斑屬性后,根據(jù)映射處理形成的數(shù)值關(guān)系,構(gòu)建數(shù)據(jù)整合方法的匹配度數(shù)值關(guān)系,定義計算得到的匹配度參數(shù)越大,則表明該種數(shù)據(jù)整合方法匹配地理圖斑屬性越準(zhǔn)確。由圖4所示的屬性匹配度可知,基于模式映射的整合方法在處理前十種地類時,計算得到的匹配度在0.25左右,在處理第十一種地類時,屬性匹配度上升至0.6,該種數(shù)據(jù)整合方法能夠匹配準(zhǔn)確的圖斑屬性,但匹配過程不穩(wěn)定?;诙嘣串悩?gòu)的數(shù)據(jù)整合方法在前五組地類數(shù)據(jù)內(nèi)屬性匹配呈現(xiàn)了數(shù)值突變,在處理剩余地類數(shù)據(jù)時,匹配度數(shù)值保持在0.1左右,該種數(shù)據(jù)整合方法實(shí)際匹配土地圖斑屬性表現(xiàn)出的準(zhǔn)確性較差。而所設(shè)計的數(shù)據(jù)整合方法在處理前五組地類數(shù)據(jù)時,圖斑匹配度數(shù)值為0.6,在處理接下來的圖像時,匹配度數(shù)值上升至0.9,與選定對比的兩種數(shù)據(jù)整合方法相比,所設(shè)計的整合方法匹配地理圖斑屬性最準(zhǔn)確。
在上述實(shí)驗(yàn)環(huán)境下,整理不同地類數(shù)據(jù)形成的數(shù)據(jù)量大小,并結(jié)合表中各項參數(shù)的數(shù)值大小,構(gòu)建數(shù)據(jù)量數(shù)值關(guān)系,如公式(14)所示:
式(14)中,c為構(gòu)建的數(shù)據(jù)量處理函數(shù);b為線狀地編物;L為地理面積的長度;H為地理面積的寬度;S為地理處理面積。對應(yīng)上述數(shù)據(jù)量數(shù)值關(guān)系,處理表中地理信息為數(shù)據(jù)量,并以該數(shù)據(jù)量作為自變量,調(diào)用運(yùn)行地理信息系統(tǒng)的上位機(jī),整理三種數(shù)據(jù)整合方法產(chǎn)生的整合時間,時間結(jié)果(如圖5所示):
圖5 三種數(shù)據(jù)整合方法所需的時間
在構(gòu)建的數(shù)據(jù)量轉(zhuǎn)化公式內(nèi),整理上表中的各項數(shù)據(jù)處理為數(shù)據(jù)量為0~1400kb的數(shù)據(jù),調(diào)用運(yùn)行整合方法的上位機(jī),根據(jù)統(tǒng)計得到的時間結(jié)果可知,將數(shù)據(jù)整合方法處理的數(shù)據(jù)量規(guī)范在相同的數(shù)值區(qū)間時,以1400kb的地理信息數(shù)據(jù)作為對比指標(biāo),基于多源異構(gòu)的整合方法所需的運(yùn)行時間為58ms,實(shí)際所需的數(shù)據(jù)整合時間最長?;谀J接成涞臄?shù)據(jù)整合方法在相同數(shù)據(jù)處理量下所需的整合時間為40ms,實(shí)際所需的整合時間較長。而所設(shè)計的數(shù)據(jù)整合方法在相同的數(shù)據(jù)整合量下所需的數(shù)據(jù)整合時間為22ms,與兩種應(yīng)用對比的數(shù)據(jù)整合方法相比,所設(shè)計的數(shù)據(jù)整合方法消耗的整合時間最短,時效性最佳。
保持上述實(shí)驗(yàn)環(huán)境不變,對應(yīng)上述定義得到的地理圖斑屬性,對應(yīng)不同的地類,將采集得到的地理信息系統(tǒng)數(shù)據(jù)反向驗(yàn)證地理信息系統(tǒng)所構(gòu)建的圖斑面積,調(diào)用三種數(shù)據(jù)整合方法中的處理算法,構(gòu)建地理面積誤差判斷數(shù)值關(guān)系,如公式(15)所示:
式(15)中,V為計算得到的誤差;M、N分別為地理圖斑的邊長;P(ci,αj)為信息數(shù)據(jù)被整合的概率;i、j分別為信息系統(tǒng)的模式參數(shù);其余參數(shù)含義不變。對應(yīng)上述構(gòu)建的整合地理圖斑面積產(chǎn)生的誤差判別數(shù)值關(guān)系,整理三種數(shù)值整合方法產(chǎn)生的誤差結(jié)果(如圖6所示):
圖6 三種數(shù)據(jù)整合方法整合圖斑地理面積產(chǎn)生的誤差
根據(jù)定義的面積誤差數(shù)值關(guān)系,對應(yīng)整理三種整合方法整合地理圖斑面積產(chǎn)生的誤差,由上圖可知,定義統(tǒng)計坐標(biāo)范圍內(nèi)的正向?yàn)榇笥跇?biāo)準(zhǔn)地理圖斑面積,負(fù)向則為小于標(biāo)準(zhǔn)地理圖斑面積。結(jié)合上述標(biāo)定的數(shù)據(jù)點(diǎn)可知,基于多源異構(gòu)的數(shù)據(jù)整合方法在設(shè)定的地類范圍內(nèi),實(shí)際產(chǎn)生的整合面積誤差最大,遠(yuǎn)遠(yuǎn)偏離標(biāo)準(zhǔn)地理面積?;谀J接成涞臄?shù)據(jù)得到的整合面積誤差較小。而所設(shè)計的數(shù)據(jù)整合方法最終實(shí)際產(chǎn)生的整合誤差點(diǎn)在設(shè)定的0線左右,與兩種選定的數(shù)據(jù)整合方法相比,所設(shè)計的數(shù)據(jù)整合方法整合地理圖斑面積產(chǎn)生的誤差最小。
利用多源數(shù)據(jù)集成技術(shù)作為支持,研究構(gòu)建了地理信息系統(tǒng)數(shù)據(jù)整合過程,經(jīng)實(shí)驗(yàn)驗(yàn)證可知,所設(shè)計的數(shù)據(jù)整合過程能夠改善現(xiàn)有數(shù)據(jù)整合方法數(shù)據(jù)整合時產(chǎn)生的誤差過大的問題。在未來工作當(dāng)中,希望所設(shè)計的數(shù)據(jù)整合過程能夠?yàn)槠涮峁├碚撝С帧?/p>