宋英慧
摘 要 由于放射性測量的數(shù)據(jù)缺失在數(shù)據(jù)調(diào)查和采樣中的廣泛存在,而缺失數(shù)據(jù)對數(shù)據(jù)質(zhì)量和分析結(jié)果的影響是至關(guān)重要的。因此,對測氡數(shù)據(jù)進(jìn)行有效的預(yù)處理具有非常重要的理論和現(xiàn)實意義。本文主要針對數(shù)據(jù)預(yù)處理中缺失數(shù)據(jù)的處理問題進(jìn)行研究和探討。
關(guān)鍵詞 活性炭測氡法 數(shù)據(jù)缺失 期望最大化法
中圖分類號:P631.6 文獻(xiàn)標(biāo)識碼:A
Radon Measurement Data Processing in
Applied Geophysical Exploration
SONG Yinghui
(Resources Engineering Department, Liao Yuan Vocational Institute of Technology, Liaoyuan, Jilin 136201)
Abstract Since the radiometric data missing in widespread investigation and sampling data, and the impact of missing data on the data quality and analysis is essential. Therefore, effective radon measurement data preprocessing has very important theoretical and practical significance. In this paper, data preprocessing for handling missing data problems studied and discussed.
Key words activated carbon radon measurement method; data missing; expectation maximization method
1 測氡數(shù)據(jù)的缺失模式
當(dāng)選用活性炭測氡法進(jìn)行實際工作時,主要分兩部分:一是野外布線探測,二是數(shù)據(jù)的提取和處理分析過程。通過野外布線探測獲得大量數(shù)據(jù),它們是解決實際問題的主要依據(jù),對其進(jìn)行系統(tǒng)的有效的數(shù)據(jù)處理,將有助于我們對測量結(jié)果的推斷解釋。布置點的觀測數(shù)據(jù)的處理主要包括:數(shù)據(jù)預(yù)處理;二次數(shù)據(jù)處理;數(shù)據(jù)結(jié)果成圖解釋。具體步驟如圖1所示。
目前,活性炭測氡數(shù)據(jù)處理方法和軟件的研究主要是從放射性測量的特點出發(fā)的,對數(shù)據(jù)缺失問題的關(guān)注較少,多數(shù)時候是通過經(jīng)驗手工填補或者就不處理,而數(shù)據(jù)缺失的普遍存在,以及對數(shù)據(jù)進(jìn)行二次處理時的大多分析方法都要求數(shù)據(jù)必須是完整的。所以,對測氡數(shù)據(jù)進(jìn)行缺失數(shù)據(jù)填補也是至關(guān)重要的。同時,這也為數(shù)據(jù)成圖打下了良好的數(shù)據(jù)基礎(chǔ)。
在對數(shù)據(jù)缺失及其處理方法做了認(rèn)真研究和比較的基礎(chǔ)上,對活性炭測氡數(shù)據(jù)的特點及各種影響因素進(jìn)行了詳盡的分析后,面向活性炭測氡數(shù)據(jù)處理和實際應(yīng)用要求,采用期望最大化法、回歸法,多重填補法對測氡數(shù)據(jù)缺失情況進(jìn)行處理。同時,這些填補方法也可以應(yīng)用于基于大量面積性數(shù)據(jù)的其他物化探等數(shù)據(jù)處理的研究與實踐工作中。
測氡數(shù)據(jù)的缺失模式可以分為單調(diào)缺失(見圖2)和任意缺失(見圖3)兩大類,圖中問號表示缺失的數(shù)據(jù)。
2 測氡數(shù)據(jù)的缺失處理方法
2.1 期望最大化法 (EM)
如果我們假設(shè)缺失數(shù)據(jù)為隨機缺失模式,而且建立了能正確反映出完整樣本的模型,那么我們就可以利用已存在數(shù)據(jù)的邊緣分布進(jìn)行缺失數(shù)據(jù)的極大似然的估計。而通常期望值的最大化法是對參數(shù)進(jìn)行極大似然估計的最常用方法。期望最大化法是對ML法的擴(kuò)展衍生,屬于一種迭代的優(yōu)化處理法。EM法的主要思路就是先對缺失數(shù)據(jù)進(jìn)行估計,然后再計算參數(shù)值。也就是說先假設(shè)數(shù)據(jù)是完整的不存在缺失的,進(jìn)而求出最大似然估計值,在此基礎(chǔ)上進(jìn)行E步驟,在已經(jīng)計算出的參數(shù)最大似然估計值與已有完整數(shù)據(jù)的基礎(chǔ)上,求出缺失的數(shù)據(jù)的條件期望值,用以替代缺失值,重復(fù)進(jìn)行一直到各參數(shù)估計開始收斂。這鐘方法是適用在大樣本這一重要前提下的,因為較多的有效數(shù)據(jù)的數(shù)量足以保證其極大似然的估算值滿足漸近無偏估計,并同時服從正態(tài)分布。
2.2 其他填補方法
測氡數(shù)據(jù)的填補方法除了選用EM法外,還適用回歸填補法和多重填補法,利用回歸技術(shù)來填補缺失了的數(shù)據(jù)的方法就稱為回歸填補法。該方法運用多元回歸法構(gòu)建數(shù)據(jù)集中缺失變量與所有完整變量之間的回歸模型,通過模型的估計值替代缺失的估計值。線性回歸填補法是最為典型的一種回歸法。
多重填補(MI)法,最早由Rubin教授提出,后來經(jīng)過一系列的補充與完善才漸漸形成了現(xiàn)在這樣一個更實用更系統(tǒng)的理論成果。它不僅保持了大部分單一值填補法所具有的優(yōu)點,還彌補了它們所存在的不足,改善了它們的缺點,使缺失數(shù)據(jù)的填補替代值更進(jìn)一步地靠近真實值。 MI法開始時候多用在社會普查等大樣本數(shù)據(jù)集的分析處理上。
3 結(jié)束語
EM法、回歸法和多重填補法較傳統(tǒng)手工填補方法,不僅擴(kuò)大了處理范圍也大大的減少了工作量,傳統(tǒng)的方法在缺失率大于15%時已經(jīng)不再具有優(yōu)勢,而且單調(diào)缺失需要依靠于工作人員的個人經(jīng)驗,穩(wěn)定性并不很好。
總之,EM法的填補效果與穩(wěn)定性較優(yōu),回歸法次之,MI法較差。三種方法在單調(diào)模式下的填補效果遠(yuǎn)不及任意模式的,在缺失率達(dá)到25%時就已經(jīng)有明顯偏差了,低于20%的填補效果還是可以接受的。
參考文獻(xiàn)
[1] Dempster A.P.,Laird N.M.,Rubin D.B.Maximan likelihood estimation from
Incomplete data via the algorithm[J].J Roy statist Soc B,1977.39:l-38.
[2] 金勇進(jìn),朱琳.不同插補方法的比較[J].數(shù)理統(tǒng)計與管理,2000.19(2):50-54.endprint