李建濤 黃飛 陳偉 成詩明
我國于2010年組織實施了全國第五次結核病流行病學抽樣調(diào)查(簡稱“流調(diào)”),獲得了全國的肺結核患病率數(shù)據(jù),同時,全國有部分省進行了省級結核病流調(diào),得到了省的肺結核患病率。但是,全國其他大部分省的肺結核患病率并未得到。因此,如何獲得省級肺結核患病率,特別是肺結核疫情比較嚴重的省份,是需要解決的一個現(xiàn)實問題。空間插值技術可以通過樣本數(shù)據(jù)推算未抽樣數(shù)據(jù),近年來在流行病學領域中的應用越來越廣泛。因此,筆者對幾種常用的空間插值方法的原理、特點及其應用作出介紹,以期能夠探索某種合適的空間插值方法,推算得到省級肺結核患病率,將會對更加全面的了解我國結核病現(xiàn)況和改進防控工作有重要的意義。
空間插值技術是空間分析地學統(tǒng)計中的一門重要技術,空間插值可以被定義為根據(jù)已知的空間數(shù)據(jù)估計未知的空間數(shù)據(jù)值[1]。空間分析技術是地理信息系統(tǒng)(geographic information system,GIS)的重要組成部分。目前,GIS已廣泛應用于農(nóng)業(yè)、林業(yè)、牧業(yè)、國土資源、地礦、測繪、水力、電力、教育等100多個領域[2]。其基本原理是空間位置上越靠近的點,越可能具有相似的特征值,而距離越遠的點,其特征值相似的可能性越?。?]。這就是地理學上的第一定律,也是空間插值技術的基本理論前提。
1.主要優(yōu)點[4]:(1)不受人口分布影響,但需以某病的發(fā)病率、患病率、死亡率等指標做空間插值估計。(2)模型連續(xù),符合大多數(shù)緩慢起伏變化的疾病空間分布模式。(3)可對發(fā)病強度或發(fā)病危險度的空間抽樣數(shù)據(jù)進行空間預測。
2.主要缺點:(1)除克里格插值方法外,大部分插值方法無法對插值結果的誤差進行評價。(2)插值方法要基于許多假設,不易滿足。(3)插值模型與影響疾病的因素結合較弱。
空間插值一般包括以下幾個過程:(1)插值方法的選擇;(2)空間數(shù)據(jù)的探索分析,包括對數(shù)據(jù)的均值、方差、協(xié)方差、獨立性和變異函數(shù)的估計等;(3)插值方法評價;(4)插值方法的重新選擇;(5)數(shù)據(jù)插值;(6)結果評價[5]。
1.原理:反距離加權空間插值法是最早使用、也是最經(jīng)常使用的插值方法之一。1972年由美國國家氣象局提出,以待測點與實際抽樣點之間的距離為權重進行插值估算,以與未采樣點距離最近的若干個點為基礎進行計算,每個點的貢獻與距離成反比,離待計算點越近的樣本點賦予的權重越大。
2.特點:反距離加權插值法具有普適性,不需要對數(shù)據(jù)特點進行分析,不需要對數(shù)據(jù)結構進行調(diào)整,在樣本點密度比較大,分布比較均勻時,插值結果精度比較高。其不足之處為:無法對誤差進行理論的測算;實際中的樣本點很難分布均勻;沒有考慮樣本點的整體空間分布;沒有考慮已知樣本點與待測點的空間關系;計算時容易受到極值的影響而產(chǎn)生較大誤差。
1.原理:1951年南非礦山工程師克里格(Krige)提出了克里格插值方法,法國著名統(tǒng)計學家馬特?。∕atheron)在大量研究的基礎上加以改進,引入了區(qū)域化變量和變異函數(shù)的概念。當一個變量呈現(xiàn)一定的空間分布時,稱為區(qū)域化變量,它反映了區(qū)域內(nèi)的某種特征或現(xiàn)象。區(qū)域化變量具有自相關性,即變量在點x與偏離空間距離為h的點x+h處的值具有某種程度的相似性。區(qū)域化變量在點x處的值與在點x+h處的值的差值的方差的1/2稱為該區(qū)域化變量的半變異函數(shù)。
2.公式:半變異函數(shù)曲線中有4個重要的參數(shù):塊金值(nugget)、變程(range)、基臺值(sill)和偏基臺值(partial sill)。
故常用的變異函數(shù)模型[6-7]有:球狀模型、高斯模型、指數(shù)模型等,選擇一個較好的模型來擬合樣本的變異性,對克里格插值的準確度影響非常大。
3.特點:克里格插值方法在數(shù)學上被證明是最優(yōu)、線性、無偏估計的方法。無偏是指偏差的數(shù)學期望為0,最優(yōu)是指估計值與實際值之差的平方和最小,即估計的方差最小??死锔癫逯导夹g考慮了樣點的大小、形狀、相互關系和空間分布等幾何特征,以及已知樣本點與待估計樣本點的空間關系,有了這些信息后,對未知采樣點進行估計[7]。克里格插值技術的應用條件是數(shù)據(jù)有無空間自相關性和是否滿足二階平穩(wěn)假設[8-9]。在實際中,二階平穩(wěn)假設不容易判別,通常通過正態(tài)性檢驗和半變異函數(shù)云圖來檢驗數(shù)據(jù)是否滿足二階平穩(wěn)假設[10]。經(jīng)過不斷的發(fā)展,除普通克里格方法外,克里格插值方法還有簡單克里格法、指示克里格法、泛克里格法、概率克里格法、析取克里格法以及協(xié)同克里格法。需要特別指出的是,協(xié)同克里格法把區(qū)域化變量的最佳估值方法從單一屬性發(fā)展到一個以上的協(xié)同區(qū)域化屬性,但它在計算中要用到兩屬性各自的半方差函數(shù)和交叉半方差函數(shù),比較復雜。
泰森多邊形法最初由荷蘭氣象學家Thiessen推出,用來根據(jù)分散的氣象站的降水量估計降水量的平均值的一種方法,又稱最近距離法。該方法算法簡單,即未采樣點的值等于與它距離最近的采樣點的值。具體為按樣本數(shù)據(jù)點的位置將研究區(qū)域分割成子區(qū)域,每個子區(qū)域只包含一個樣本數(shù)據(jù)點,各子區(qū)域到其內(nèi)數(shù)據(jù)點的距離小于任何到其他數(shù)據(jù)點的距離,利用這個內(nèi)數(shù)據(jù)點的值對這個子區(qū)域進行賦值。
泰森多邊形法計算簡單,效率較高[11]。當樣本點較多且分布較均勻時,插值效果較好,但其對空間因素考慮太少,受樣本點的影響較大,如果樣本點分布不均勻且樣本點數(shù)據(jù)變異明顯時,利用點對區(qū)域賦值是不合理的,誤差較大。
趨勢面分析方法是根據(jù)有限的觀測數(shù)據(jù)擬合曲面,進行內(nèi)插[1]。趨勢面的公式如下:y=Aθ+e。式中,y是n×1維矩陣,對應n個樣本;A是n個樣本的坐標矩陣;θ是趨勢面參數(shù)矩陣。A和θ依賴于趨勢面的次數(shù)。趨勢面的次數(shù)是它最重要的特征。e是殘差,通常是一個獨立隨機變量。當殘差是隨機獨立時,統(tǒng)計檢驗有效;但實際上,檢驗是顯著偏差的[1]。殘差的空間自相關可以用隨機過程模型模擬,趨勢面的目標有時并非最佳擬合,而是把數(shù)據(jù)分成區(qū)域趨勢組分和局部的殘差。
趨勢面的優(yōu)點是易于理解、計算簡單。多數(shù)空間數(shù)據(jù)可以用低次多項式擬合,一般來說趨勢面次數(shù)越大,擬合曲面越接近實際,但計算會越來越復雜。缺點是對采樣要求比較高,采樣過程沒有體現(xiàn)趨勢因素,內(nèi)插結果會有較大誤差。
徑向基函數(shù)法(radial basis function,RBF),是Broomhead于1988年提出的一種新型向神經(jīng)網(wǎng)絡,相對于傳統(tǒng)的BP神經(jīng)網(wǎng)絡,具有計算格式簡單,計算量小,精度相對較高等特點,是逼近理論的一個有力工具,越來越引起人們的重視[12]。
它主要是通過基函數(shù)計算待估計點得一組權系數(shù),從而實現(xiàn)平滑插值。常見的5種基函數(shù)為:反轉多重二次曲面(inverse multiquadric),多重二次曲面(multiquadratic),張 力 樣 條 (spline with tension),完全規(guī)則樣(completely regularized spline),薄板樣條(thinplate spline);它們類似于克里格插值中的變異函數(shù)模型,通過調(diào)整基函數(shù)中的平滑因子可以控制插值面的光滑程度及估計精度。
徑向基函數(shù)插值法適應于對大量點數(shù)據(jù)進行插值計算,同時要求獲得平滑表面的情況。將徑向基函數(shù)應用于表面變化平緩的表面,能得到比較精確的結果,而如果在一段較短的水平距離內(nèi),表面值發(fā)生較大的變化,徑向基函數(shù)插值的方法會產(chǎn)生較大的誤差[13]。
反距離加權插值法在流行病學研究中有廣泛的應用。汪旸等[14]利用該方法研究了江蘇省地方性氟中毒在空間上的分布態(tài)勢,建立了江蘇省水氟和氟斑牙患病率的空間分布預測圖,并與實際結果進行了比較,證明IDW得到的空間分布預測圖是真實、準確而詳細的。陸紹紅等[15]應用 ArcGIS 9.3的空間分析擴展模塊中的反距離插值法對釘螺面積、釘螺陽性率和人群感染率進行了空間插值分析,直觀地揭示和分析了安徽省銅陵縣的血吸蟲病疫情變化,為研究血吸蟲病的分布和流行提供了監(jiān)測和預測工具。胡茂瓊[16]運用反距離加權插值法獲得了血吸蟲患者的分布預測圖,顯示湖北省血吸蟲病在空間分布上存在明顯的高發(fā)區(qū)和低發(fā)區(qū)。馬家奇等[17]利用地理信息系統(tǒng)(GIS)的空間插值分析方法得到結論,IDW插值技術可以作為檢測鼠密度的一種宏觀的推導分析方法,用來推測檢測地區(qū)的鼠密度分布。唐咸艷等[18]利用IDW插值方法對廣西壯族自治區(qū)1989—2006年流行性乙型腦炎發(fā)病的時空格局進行了分析,并用時空重排掃描統(tǒng)計量進行了時空聚集性分析,兩種研究得到的結果基本一致,證明了IDW插值技術的準確性。
武繼磊等[19]通過克里格插值技術,實現(xiàn)了抽樣調(diào)查數(shù)據(jù)對全國出生缺陷發(fā)生水平的估計,比較準確的反映了中國出生缺陷發(fā)生水平的分布特點。尚磊等[20]利用克里格插值技術對我國應征男青年視力低下檢出率的空間分布進行了分析,利用交叉評價指標評估,認為空間局部內(nèi)插法能很好地估計我國應征男青年視力低下的空間分布。周蘭霞等[21]利用該方法對中國67個城市新生兒的苯丙酮尿癥的發(fā)病情況進行了分析研究,結果顯示苯丙酮尿癥患者出現(xiàn)明顯的空間分布,東南沿海地區(qū)發(fā)病率較低,東部和中部地區(qū)的發(fā)病率低于西北地區(qū)。顏仕鵬[22]在其學位論文中利用克里格插值方法對湖南省鉤端螺旋體病的空間分布規(guī)律進行了分析,結果顯示湖南省鉤端螺旋體病主要集中在中東部丘陵地帶、西北和西南部山區(qū),為湖南省以后該病防治措施的制定提供了依據(jù)和參考。
從上述空間插值方法在流行病學中的應用實例可看出,克里格插值法和反距離加權插值法的應用最多。筆者計劃應用這兩種方法對肺結核患病率進行插值計算,利用全國第五次結核病流行病學抽樣調(diào)查獲得的176個樣本點的數(shù)據(jù),對全國部分省的肺結核患病率進行推算,為結核病防控措施的改進提供依據(jù),而空間插值方法在結核病領域僅有初步的應用。國內(nèi)牧童等[23]利用普通克里格插值方法對四川省西北部結核病高發(fā)山區(qū)的兒童結核病相關資料進行了分析處理,獲得了四川省茂縣兒童結核病的發(fā)病特點,并描述了高發(fā)聚集區(qū),為指導茂縣結核病防治工作提供了科學依據(jù)。國外Gómez-Barroso等[24]在探討西班牙的結核病空間分布特征時用到了空間插值技術,利用西班牙2006年國家流行病監(jiān)測系統(tǒng)的資料,加入相關的影響因素,如性別、年齡、人口密度、失業(yè)率、人均經(jīng)費投入等,利用協(xié)同克里格插值法,準確預測了西班牙肺結核的高發(fā)區(qū),主要集中于半島西北和東南地區(qū)。Martínez等[25]在對墨西哥?;冀Y核病的預測時采用了空間插值方法,該研究首先對48 766個牛群進行了普查,計算得到其患病率,然后從中隨機抽取了2287個樣本,利用普通克里格插值法對樣本數(shù)據(jù)進行了推算,將普查結果和推算結果進行相關性檢驗,發(fā)現(xiàn)相關性很高,相關系數(shù)為0.78,證明了插值結果是準確的,插值方法是合適的。因此,探討空間插值方法在結核病領域的應用,具有重要的現(xiàn)實意義。
[1]李新,程國棟,盧玲.空間內(nèi)插方法比較.地球科學進展,2000,15(3):260-265.
[2]張凱,伍瑞昌,陶學強.GIS在公共衛(wèi)生領域的應用現(xiàn)狀與發(fā)展趨勢.醫(yī)療衛(wèi)生裝備,2010,31(10):41-42,50.
[3]朱求安,張萬昌,余鈞輝.基于GIS的空間插值方法研究.江西師范大學學報(自然科學版),2004,28(2):183-188.
[4]唐芳,薛付忠,王潔貞,等.疾病空間分布的“等值線-面積”多重分形模型及其應用.山東大學學報(醫(yī)學版),2006,44(11):1154-1158.
[5]孫然好,劉清麗,陳利頂.基于地統(tǒng)計學方法的降水空間插值研究.水文,2010,30(1):14-17,58.
[6]吳學文,晏路明.普通Kriging法的參數(shù)設置及變異函數(shù)模型選擇方法——以福建省一月均溫空間內(nèi)插為例.地球信息科學,2007,9(3):104-108.
[7]王勁峰,李連發(fā),胡茂桂.空間抽樣與統(tǒng)計推斷.北京:科學出版社,2009:82.
[8]唐咸艷.GIS空間分析技術在疾病空間異質性分布中的應用研究——以廣西原發(fā)性肝癌為例.南寧:廣西醫(yī)科大學,2009.
[9]Wang JF,Christakos G,Hu MG.Modeling spatial means of surfaces with stratified non-h(huán)omogeneity.IEEE Transactions on Geoscience and Reomote Sensing,2009,47(12):4167-4174.
[10]湯國安,楊昕.ArcGIS地理信息系統(tǒng)空間分析實驗教程.北京:科學出版社,2006:402.
[11]彭思嶺.氣象要素時空插值方法研究.長沙:中南大學,2010.
[12]楊彥軍,楊宇,康志宏.徑向基函數(shù)神經(jīng)網(wǎng)絡及其在插值計算中的應用.新疆石油地質,2005,26(2):209-211.
[13]湯國安,楊昕.ArcGIS地理信息系統(tǒng)空間分析實驗教程.北京:科學出版社,2006:367.
[14]汪旸,陳曉東,王彩生.運用反距離加權插值法研究江蘇省地方性氟中毒空間分布態(tài)勢.中國地方病學雜志,2009,28(1):97-100.
[15]陸紹紅,汪天平,陳睿,等.血吸蟲病流行的地理信息系統(tǒng)分析.國際流行病學傳染病學雜志,2009,36(6):377-379.
[16]胡茂瓊.空間分析技術在湖北省血吸蟲病流行趨勢研究中的應用.南寧:廣西醫(yī)科大學,2010.
[17]馬家奇,徐成,戚曉鵬,等.空間插值分析方法在鼠密度監(jiān)測中的應用.中國地方病學雜志,2007,26(3):340-342.
[18]唐咸艷,甘文燁,徐斌,等.廣西壯族自治區(qū)1989—2006年流行性乙型腦炎時空動態(tài)趨勢分析.中華流行病學雜志,2011,32(3):274-278.
[19]武繼磊,鄭曉瑛.中國出生缺陷區(qū)域發(fā)生水平的Kriging插值模擬研究.中華流行病學雜志,2007,28(2):184-188.
[20]尚磊,李滬建,徐勇勇,等.運用空間局部內(nèi)插研究我國應征男性青年視力低下的地區(qū)分布特征.疾病控制雜志,2007,11(2):117-119.
[21]周蘭霞,金蓮,趙麗,等.ArcGIS9.0在苯丙酮尿癥空間分析中的應用.中國衛(wèi)生統(tǒng)計,2007,24(6):604-606.
[22]顏仕鵬.湖南省鉤端螺旋體病流行態(tài)勢及空間分析.長沙:中南大學,2010.
[23]牧童,張會娜,孫永華,等.基于地理信息系統(tǒng)的兒童結核病疫情插值分析.中國婦幼健康研究,2009,20(3):239-241.
[24]Gómez-Barroso D,Rodríguez Valín E,F(xiàn)lores Segovia V,et al.Space distribution of tuberculosis in Spain by geostatistical methods.Rev Esp Salud Publica,2009,83(5):737-744.
[25]Martínez HZ,Suazo FM,Cuador Gil JQ,et al.Spatial epidemiology of bovine tuberculosis in Mexico.Vet Ital,2007,43(3):629-634.