国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

交叉驗證在離散數(shù)據(jù)網(wǎng)格化時的應(yīng)用

2012-01-11 08:14高艷芳
物探化探計算技術(shù) 2012年5期
關(guān)鍵詞:原始數(shù)據(jù)克里網(wǎng)格化

高艷芳,陳 實(shí),馮 斌

(1.中國地質(zhì)大學(xué),北京 100083;

2.中國地質(zhì)科學(xué)院 物化探研究所,河北 廊坊 065000)

交叉驗證在離散數(shù)據(jù)網(wǎng)格化時的應(yīng)用

高艷芳1,2,陳 實(shí)2,馮 斌2

(1.中國地質(zhì)大學(xué),北京 100083;

2.中國地質(zhì)科學(xué)院 物化探研究所,河北 廊坊 065000)

根據(jù)數(shù)據(jù)的特點(diǎn),選擇不同的算法和參數(shù)對離散數(shù)據(jù)進(jìn)行網(wǎng)格化,所得網(wǎng)格化數(shù)據(jù)對原始數(shù)據(jù)的反映程度不同。因此,在網(wǎng)格化時,可以利用交叉驗證(Cross Validation)對不同的網(wǎng)格化方法進(jìn)行定量的評估和比較,以選擇最能尊重原始數(shù)據(jù)的網(wǎng)格化算法和參數(shù)。

離散數(shù)據(jù);網(wǎng)格化;交叉驗證;地球化學(xué)數(shù)據(jù)

0 前言

利用離散分布的觀測數(shù)據(jù)制作等值線圖、框線圖、陰影圖和柵格圖等,用來表達(dá)客觀現(xiàn)實(shí)的空間分布狀況,需要通過內(nèi)插或外插方式填充空值點(diǎn),將不規(guī)則的數(shù)據(jù)轉(zhuǎn)換為規(guī)則分布的矩形陣列,這個過程就叫做離散數(shù)據(jù)網(wǎng)格化。目前,可以用來制作等值線的軟件很多,各軟件也提供了多種不同或相同的網(wǎng)格化方法。比如:國外著名的ArcGIS[1]、Golden Sufer10[2]、國內(nèi)著名的軟件 Mapgisk9[3],分別提供了六種、十二種、四種以上的網(wǎng)格化的數(shù)學(xué)算法,其中都包含Kring方法。諸多的數(shù)學(xué)算法是為了滿足各行業(yè)各領(lǐng)域?qū)哂胁煌攸c(diǎn)(空間分布、數(shù)據(jù)量)的數(shù)據(jù)網(wǎng)格化的需要。在網(wǎng)格化的過程中不僅要選擇算法,同時還有許多其它的參數(shù)需要根據(jù)數(shù)據(jù)本身的特點(diǎn)進(jìn)行選擇,例如:網(wǎng)格間距、網(wǎng)格化搜索域的形狀(矩形、圓、橢圓)、搜索半徑和向異性等等。諸多的方法、眾多的參數(shù),給用戶帶來了寬泛的選擇,也讓用戶在使用過程中產(chǎn)生迷惑。盡管有些軟件本身的智能可以根據(jù)數(shù)據(jù)的特點(diǎn)設(shè)置默認(rèn)的網(wǎng)格化方法和參數(shù),用戶使用這些默認(rèn)的設(shè)置就能產(chǎn)生滿意的結(jié)果。比如,對于一般的數(shù)據(jù),Sufer會將Kring作為首選的算法向用戶推薦,將X、Y中的較大方向的網(wǎng)格數(shù)設(shè)定為100。Sufer軟件的用戶說明里也說到:當(dāng)你創(chuàng)建一個網(wǎng)格文件時,通??梢允褂闷淠J(rèn)的方法和設(shè)置,基本上能產(chǎn)生可以接受的圖形[2]。但是實(shí)際應(yīng)用中并非這么簡單。數(shù)據(jù)量也許過大或過小,數(shù)據(jù)分布也許過于集中或散亂,應(yīng)用Kring方法并不是最佳選擇,默認(rèn)的搜索方式并不能使用戶獲得最佳的結(jié)果。這些原因迫使用戶要在眾多方法和參數(shù)之間進(jìn)行選擇來獲得滿意的,能對原始數(shù)據(jù)進(jìn)行良好反映的網(wǎng)格化數(shù)據(jù)。在這樣的前提下,Sufer自版本8開始,引用了一種統(tǒng)計學(xué)上的方法,來對離散數(shù)據(jù)網(wǎng)格化方法及參數(shù)的選擇結(jié)果進(jìn)行定量評估,這個方法就是交叉驗證。

1 交叉驗證

交叉驗證(Cross Validation),又稱為循環(huán)估計[4](Rotation Estimation),是通過將觀測數(shù)據(jù)分成不同的子集,來評估和比較算法優(yōu)劣的一種統(tǒng)計學(xué)上的實(shí)用方法。交叉驗證的科學(xué)基礎(chǔ)是為了滿足對算法的評估需求,一是評估一種算法的普遍性,二是比較兩個或多種算法的特征,以找出最優(yōu)的算法。交叉驗證目前應(yīng)用于算法特征評估、模型選擇和調(diào)整模型參數(shù)三個方面。

2 網(wǎng)格化時交叉驗證的基本思想

自Golden Sufer.8開始,引入了交叉驗證來進(jìn)行網(wǎng)格化算法的評估。實(shí)現(xiàn)的基本思想:已知有N個點(diǎn)的觀測數(shù)據(jù),交叉驗證通過計算和分析網(wǎng)格化后每個觀測點(diǎn)上數(shù)據(jù)的殘差,來對數(shù)據(jù)網(wǎng)格化的質(zhì)量進(jìn)行相對的評估。

數(shù)據(jù)的殘差=網(wǎng)格化后的評估值-觀測值[5]。

計算每個觀測點(diǎn)殘差的過程是:先把該點(diǎn)的觀察值從數(shù)據(jù)集中拿出,利用剩下的數(shù)據(jù)和確定的網(wǎng)格化方法,來計算該點(diǎn)插值后的評估值,利用這個值和觀測值就能得到該點(diǎn)上的殘差[2]。通過對N個觀測點(diǎn)逐個的計算,將得到含有M個(M為用戶用來進(jìn)行交叉驗證的數(shù)據(jù)點(diǎn)數(shù))殘差值的數(shù)據(jù)文件(見圖1),然后利用多種統(tǒng)計處理手段對殘差數(shù)據(jù)進(jìn)行分析,來定量評價網(wǎng)格化方法,指導(dǎo)網(wǎng)格化數(shù)學(xué)算法和參數(shù)的選擇。

在Sufer8中,交叉驗證得到的數(shù)據(jù)文件是一個ASCII的數(shù)據(jù)文件,共有M行。M是進(jìn)行交叉驗證的點(diǎn)數(shù),可以是全部的觀測點(diǎn)N,是部份隨機(jī)的觀測點(diǎn)。每一行共有七列,前三列是數(shù)據(jù)點(diǎn)的原始信息:X、Y方向的坐標(biāo)及Z值,后面的依次是點(diǎn)號、該點(diǎn)的評估值、該點(diǎn)的殘差和參與該點(diǎn)插值評估的數(shù)據(jù)點(diǎn)的個數(shù)。

3 交叉驗證的應(yīng)用

將野外采樣獲得的樣本數(shù)據(jù)進(jìn)行網(wǎng)格化來制作地球化學(xué)圖,是地球化學(xué)數(shù)據(jù)處理的主要手段之一。地球化學(xué)普查或詳查、區(qū)域化探,涉及的工作范圍為數(shù)十平方公里、數(shù)百平方公里,數(shù)據(jù)量數(shù)千甚至上萬個。因此地球化學(xué)數(shù)據(jù)的特點(diǎn)是分布范圍較廣,數(shù)據(jù)量大。

作者在本實(shí)例中,采用的數(shù)據(jù)是地球化學(xué)詳查工作的成果。點(diǎn)線距為:40*100,樣點(diǎn)數(shù)為2 706個,呈不規(guī)則多邊形分布在5.2km2*3.2km2的礦區(qū)范圍上,如圖2所示。

Sufer8中提供了十二種的網(wǎng)格化方法,對于地球化學(xué)數(shù)據(jù)來說,并不是全部適用:

(1)自然臨近點(diǎn)、三角網(wǎng)線性插值因為網(wǎng)格化方法不能向外擴(kuò)邊,而滿足不了地球化學(xué)方法技術(shù)的要求。

(2)多項式回歸因為不是真正進(jìn)行網(wǎng)格化插值,只是定義一種趨勢或模式。

(3)最近點(diǎn)也不是進(jìn)行真正的插值,只適用于數(shù)據(jù)分布均勻而空值點(diǎn)少的數(shù)據(jù)。

所以在制作地球化學(xué)圖時,也只有距離倒數(shù)、克里格、徑向基本函數(shù)、改進(jìn)謝別德、最小曲率、移動平均這些方法可以選擇。

采用距離倒數(shù)、克里格、徑向基本函數(shù)、改進(jìn)謝別德、最小曲率、移動平均分別對本數(shù)據(jù)進(jìn)行網(wǎng)格化處理,網(wǎng)格間距設(shè)定為40*40,圓域搜索,搜索半徑為300。在網(wǎng)格化時使用交叉驗證獲得的結(jié)果見下頁表1。

分析以上的結(jié)果,從數(shù)據(jù)的范圍、獲得殘差的平均值和標(biāo)準(zhǔn)離差等統(tǒng)計數(shù)據(jù)可以看出,克里格和距離倒數(shù),以及徑向基本函數(shù)、改進(jìn)謝別德,是化探數(shù)據(jù)進(jìn)行網(wǎng)格化可選的數(shù)學(xué)算法??死锔窈蛷较蚧竞瘮?shù)產(chǎn)生的結(jié)果特別相似,網(wǎng)格化后的Z值會超出原始數(shù)據(jù)的范圍;而距離倒數(shù)和改進(jìn)謝別德方法相似,皆以距離倒數(shù)為權(quán)重。由于克里格和距離倒數(shù)這兩種方法在插值點(diǎn)與取樣點(diǎn)重合時,插值點(diǎn)的值就是樣本點(diǎn)的值,所以克里格和距離倒數(shù)這兩種方法成為地球化學(xué)數(shù)據(jù)常用的方法,加之由于使用克里格方法產(chǎn)生的網(wǎng)格數(shù)據(jù)在制作等值線時,可以避免出現(xiàn)更多的牛眼點(diǎn)[8],因此克里格成為了地球化學(xué)數(shù)據(jù)網(wǎng)格化時首選的方法。大量的實(shí)際經(jīng)驗表明,地球化學(xué)數(shù)據(jù)進(jìn)行網(wǎng)格化處理可以利用的方法有距離倒數(shù)、克里格、徑向基本函數(shù)[7],交叉驗證的結(jié)果給予了證明。

表1 交叉驗證結(jié)果對比表Tab.1 The comparison of the results from cross validation

4 結(jié)論

不規(guī)則分布的原始數(shù)據(jù)經(jīng)過網(wǎng)格化后獲得網(wǎng)格數(shù)據(jù),由網(wǎng)格數(shù)據(jù)來產(chǎn)生等值線圖,用來分析某種客觀現(xiàn)象連續(xù)的分布態(tài)勢,是科學(xué)研究中通常采用的方法。但是網(wǎng)格化后的數(shù)據(jù)不一定完全尊重原始數(shù)據(jù),而等值線形態(tài)和趨勢僅是由網(wǎng)格化后的數(shù)據(jù)點(diǎn)所決定,這使得原始數(shù)據(jù)點(diǎn)和等值線圖會產(chǎn)生一定的偏離。因此尋找最優(yōu)的網(wǎng)格化的方法和參數(shù),對原始數(shù)據(jù)進(jìn)行最接近的表達(dá),是網(wǎng)格化時最需要考慮的地方。這個選擇可以利用已獲得的經(jīng)驗值,比如對地球化學(xué)數(shù)據(jù)進(jìn)行網(wǎng)格化一般選用克里格方法,網(wǎng)格間距通常為采樣間距的一半,搜索半徑為2倍~5倍,同樣可以利用交叉驗證來給予理論上的支持。同時,交叉驗證使得網(wǎng)格化過程變得透明,從交叉驗證的結(jié)果可以得到參與某一點(diǎn)網(wǎng)格化的數(shù)據(jù)點(diǎn)數(shù),可以對原數(shù)據(jù)點(diǎn)網(wǎng)格化前、后的數(shù)據(jù)值進(jìn)行比較,這使得網(wǎng)格化不再僅僅是一個快速完成的過程,而是讓用戶真正參與其中,去通過定量分析選擇自己需要的算法和參數(shù)。

[1] 秦濤,付宗堂.ArcGIS中幾種空間內(nèi)插方法的比較[J].物探化探計算技術(shù)2007,29(1):72.

[2] GOLDEN SOFTWARE,INC.User’s Guide of Surfer 8[M].Golden Software,Inc.2002.

[3] 中地數(shù)碼.MAPGIS K9空間分析使用手冊[M].北京:中地數(shù)碼,2009.

[4] PAYAM REFAEILZADEH,LEI TANG,HUAN LIU .Cross-Validation http://www.public.asu.edu/~ltang9/papers/ency-cross-validation.pdf.

[5] 徐新強(qiáng),張志剛.高程異常模型的已知點(diǎn)框架約束[J].海洋測繪,2006,26(6):59.

[6] 郭思,郭科,謝箭.基于ArcGIS儲量估算系統(tǒng)的開發(fā)與實(shí)踐[J].物探化探計算技術(shù),2010,32(5):560.

[7] 高艷芳.離散數(shù)據(jù)網(wǎng)格化參數(shù)的確定和數(shù)學(xué)模型的選擇[J].地質(zhì)與勘探,2002,38(增刊):139.

[8] 徐愛萍,胡力,舒紅.空間克里金插值的時空擴(kuò)展與實(shí)現(xiàn)[J].計算機(jī)應(yīng)用,2011,31(1):273.

O 241.5

A

10.3969/j.issn.1001-1749.2012.05.21

1001—1749(2012)05—0619—03

2012-05-10 改回日期:2012-06-07

高艷芳(1965-),女,碩士,高級工程師,在中國地質(zhì)科學(xué)院物化探研究所信息中心從事GIS技術(shù)的應(yīng)用開發(fā)工作。

猜你喜歡
原始數(shù)據(jù)克里網(wǎng)格化
GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
大銀幕上的克里弗
以黨建網(wǎng)格化探索“戶長制”治理新路子
受特定變化趨勢限制的傳感器數(shù)據(jù)處理方法研究
你今天真好看
你今天真好看
城市大氣污染防治網(wǎng)格化管理信息系統(tǒng)設(shè)計
全新Mentor DRS360 平臺借助集中式原始數(shù)據(jù)融合及直接實(shí)時傳感技術(shù)實(shí)現(xiàn)5 級自動駕駛
要借你個肩膀嗎?
化解難題,力促環(huán)境監(jiān)管網(wǎng)格化見實(shí)效