胡維維 李業(yè)棉 顏 虹 陳方堯
西安交通大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系衛(wèi)生統(tǒng)計(jì)教研室,710061 陜西 西安
極端值是指數(shù)據(jù)中出現(xiàn)的極大或極小值,它們通常偏離數(shù)據(jù)的主體位置較遠(yuǎn),在實(shí)踐中又可分為單變量和多變量極端值[1]。研究設(shè)計(jì)存在的缺陷、統(tǒng)計(jì)調(diào)查與分析的錯(cuò)誤、樣本本身的變異等均可導(dǎo)致極端值的產(chǎn)生。隨著樣本量的增加,極端值的出現(xiàn)往往是一個(gè)難以避免的問題,常??赡軐?dǎo)致統(tǒng)計(jì)分析結(jié)果出現(xiàn)較大的偏差和錯(cuò)誤[2]。
在統(tǒng)計(jì)分析實(shí)踐中,在研究事物間的復(fù)雜關(guān)聯(lián)時(shí),多因素回歸分析有著廣泛的應(yīng)用[3]。多因素線性回歸模型的參數(shù)估計(jì)通常使用最小二乘法(ordinary least squares,OLS),通過(guò)最小化誤差的平方和來(lái)尋找最佳函數(shù)匹配,OLS估計(jì)法假定每一個(gè)樣本點(diǎn)對(duì)建立線性回歸模型的貢獻(xiàn)是均勻的[4-5]。OLS估計(jì)法對(duì)數(shù)據(jù)中的極端值點(diǎn)是十分敏感的,極端值點(diǎn)往往不能滿足OLS估計(jì)的假定,進(jìn)而出現(xiàn)少數(shù)極端值點(diǎn)支配線性回歸模型建模結(jié)果的情況,使分析結(jié)果出現(xiàn)較大的偏倚。
目前,對(duì)于多因素回歸分析中極端值點(diǎn)的處理已發(fā)展出了多種策略,但對(duì)于各種不同的極端值情況,在進(jìn)行多因素回歸分析時(shí)應(yīng)選用哪一種處理策略更為合適,目前并沒有統(tǒng)一的認(rèn)識(shí)。本研究旨在通過(guò)Monte Carlo模擬的方法,探討在不同極端值條件下,各種極端值處理策略對(duì)于多因素線性回歸分析結(jié)果準(zhǔn)確性的影響,為多因素回歸分析中極端值處理策略的選擇提供參考依據(jù)。
在線性回歸模型中,極端值通常包含了離群點(diǎn)(outlier points)、高杠桿值點(diǎn)(high leverage points)和強(qiáng)影響點(diǎn)(influential points)。離群點(diǎn)是指一組數(shù)據(jù)中與主體距離較遠(yuǎn)的觀測(cè)點(diǎn),主要使用學(xué)生化殘差(studentized residuals)進(jìn)行判定,學(xué)生化殘差絕對(duì)值大于等于3,則可認(rèn)定其為離群點(diǎn)[6]。高杠桿值點(diǎn)是由許多異常的預(yù)測(cè)變量值組合起來(lái)的,與響應(yīng)變量值沒有關(guān)系,常使用帽子統(tǒng)計(jì)量(hat values)來(lái)判斷杠桿值,通常以一個(gè)觀測(cè)點(diǎn)的帽子值大于帽子均值的2倍到3倍為標(biāo)準(zhǔn)判定。強(qiáng)影響點(diǎn)指對(duì)回歸模型有較大影響的樣本點(diǎn),常用Cook距離(Cook′s distance)來(lái)判斷,具有較大Cook距離的觀測(cè)點(diǎn)可能為強(qiáng)影響點(diǎn)[7]。
本研究使用了統(tǒng)計(jì)軟件R語(yǔ)言中的“car”包提供的influencePlot函數(shù),來(lái)計(jì)算學(xué)生化殘差、hat值和Cook距離,從而檢測(cè)出極端值點(diǎn)。
1.2.1 直接刪除極端值
在線性回歸分析中,在數(shù)據(jù)中極端值點(diǎn)數(shù)量很少或所占比例很低時(shí),直接刪除極端值并不會(huì)對(duì)回歸模型的參數(shù)估計(jì)產(chǎn)生大的影響,也不會(huì)損失有用的信息,是一種十分常用且操作簡(jiǎn)便的極端值處理策略[8];但盲目地刪除極端值可能會(huì)降低統(tǒng)計(jì)效率或?qū)е履P褪д妗?/p>
1.2.2 穩(wěn)健回歸(robust regression)
穩(wěn)健回歸是一種將穩(wěn)健估計(jì)(robust estimation)的運(yùn)算方法帶入到回歸分析中,以此來(lái)改善使用普通OLS法時(shí)對(duì)極端值十分敏感這一特性的回歸分析方法[9-10]。穩(wěn)健回歸對(duì)于極端值的抵抗性更好,可得到更接近于真實(shí)值的分析結(jié)果。本研究使用的穩(wěn)健MM估計(jì)法使用了一個(gè)以上的M估計(jì)程序來(lái)求解最終的估計(jì)量,具有高崩潰點(diǎn)(50%)和良好的效率(在高斯-馬爾科夫假定下,效率約為OLS估計(jì)的95%)[11]。
1.2.3 多重插補(bǔ)(multi-imputation)
多重插補(bǔ)是一種基于重復(fù)模擬來(lái)處理缺失值的方法,其基于原有的數(shù)據(jù)集進(jìn)行插補(bǔ)建模,可同時(shí)生成多個(gè)插補(bǔ)值,再進(jìn)行模型整合與評(píng)價(jià),最后構(gòu)建出完整的數(shù)據(jù)集[12]。將極端值轉(zhuǎn)換為缺失值再進(jìn)行多重插補(bǔ),插補(bǔ)數(shù)據(jù)對(duì)于構(gòu)建回歸模型有很好的估計(jì)效果,可極大減少極端值對(duì)模型參數(shù)估計(jì)的影響。
1.2.4 數(shù)據(jù)轉(zhuǎn)換
對(duì)極端值進(jìn)行數(shù)據(jù)轉(zhuǎn)換,可在一定程度上減小數(shù)據(jù)的變異程度,改善極端值對(duì)回歸分析模型估計(jì)的影響。對(duì)因變量方向上的極端值進(jìn)行Box-Cox變換,對(duì)自變量方向上的極端值使用最小-最大標(biāo)準(zhǔn)化法,均可在一定程度上減小極端值所帶來(lái)的變異[13-14]。
模擬研究基于R語(yǔ)言實(shí)現(xiàn),含極端值的模擬數(shù)據(jù)基于Monte Carlo方法產(chǎn)生。設(shè)存在2個(gè)服從正態(tài)分布的自變量X1和X2,X1~N(8,2.52),X2~N(9,2.82)。
假設(shè)因變量Y為服從正態(tài)分布的隨機(jī)變量,且Y與自變量間的關(guān)系,由線性回歸模型Y=β0+β1X1+β2X2+ε來(lái)確定?;貧w方程變量的系數(shù)設(shè)為截距項(xiàng)β0=15,回歸系數(shù)項(xiàng)β1=2,β2=1.5。模擬研究同時(shí)(在原假設(shè)下)產(chǎn)生了2個(gè)與Y無(wú)關(guān)的干擾變量X3~N(4,1.32),X4~N(6,1.92),測(cè)試在采用不同的極端值處理方法時(shí),對(duì)回歸模型正確篩選變量能力的影響。
產(chǎn)生極端值時(shí),以需要產(chǎn)生極端值的變量所服從正態(tài)分布的總體參數(shù)μ為基礎(chǔ),首先產(chǎn)生在其總體均值基礎(chǔ)上增加3~4倍標(biāo)準(zhǔn)差范圍內(nèi)的均勻分布U(μ+3σ,μ+4σ),然后從中隨機(jī)抽樣產(chǎn)生相應(yīng)的極端值,最后隨機(jī)替換該變量中最初產(chǎn)生的非極端觀測(cè)值。
模擬研究樣本量取50、100、200和400,每樣本中的極端值比例取5%、10%和15%。極端值分別添加于X變量方向、Y變量方向以及X和Y變量方向3種情況。每一個(gè)參數(shù)組合下,進(jìn)行1 000次模擬。
考慮到實(shí)際應(yīng)用中隨機(jī)誤差項(xiàng)并不一定服從標(biāo)準(zhǔn)正態(tài)分布,本研究第一部分模擬中設(shè)置ε~N(0,42),使模型R2在0.7左右。本研究第二部分模擬中,在樣本量為100的條件下,測(cè)試了不同的隨機(jī)誤差項(xiàng)標(biāo)準(zhǔn)差水平下,即σ=2,4,6的條件下,各種極端值處理策略的表現(xiàn)。
模擬評(píng)價(jià)指標(biāo)包括:Ⅰ類錯(cuò)誤概率α,即納入了實(shí)際上不應(yīng)該被納入回歸模型變量的概率,α水平越接近設(shè)定檢驗(yàn)水準(zhǔn)0.05越好;Ⅱ類錯(cuò)誤概率β,即未納入實(shí)際上應(yīng)該被納入回歸模型變量的概率,β水平越低越好;回歸模型系數(shù)估計(jì)值的均方根誤差(RMSE),表示所求得模型回歸系數(shù)與模擬數(shù)據(jù)所設(shè)定回歸系數(shù)之間的偏差;回歸模型的決定系數(shù)R2和調(diào)整R2,反映了回歸方程的擬合效果。
在不同樣本量、不同極端值比例和不同極端值方向的各種組合下,每種極端值情況均進(jìn)行1 000次模擬。第一部分模擬中,在固定隨機(jī)誤差標(biāo)準(zhǔn)差水平下,得到各種極端值處理方法的性能表現(xiàn)見表1至表4。
表1 線性回歸中各種極端值處理策略的α和β水平
表1 (續(xù))
表2 線性回歸中各種極端值處理策略的回歸系數(shù)估計(jì)值RMSE
表3 線性回歸中各種極端值處理策略的回歸模型R2
表4 線性回歸中各種極端值處理策略的回歸模型調(diào)整R2
表1至表4的模擬結(jié)果顯示,直接刪除極端值法在數(shù)據(jù)集中含極端值的觀測(cè)點(diǎn)數(shù)量較少和極端值比例較低時(shí),其Ⅰ類錯(cuò)誤概率α的水平更為接近0.05(預(yù)設(shè)水平),且Ⅱ類錯(cuò)誤概率β的水平也更低,結(jié)果準(zhǔn)確性更好;模型自變量X1和X2系數(shù)估計(jì)值的RMSE更小,所得回歸系數(shù)估計(jì)值更接近真實(shí)值;模型的決定系數(shù)R2和調(diào)整R2更為接近0.7,回歸模型的擬合效果更好。
穩(wěn)健回歸法隨著樣本量的增大,Ⅰ類錯(cuò)誤概率α的水平更為接近0.05,Ⅱ類錯(cuò)誤概率β的水平也越來(lái)越低,納入變量的準(zhǔn)確性更好,在樣本量相同和一定極端值比例內(nèi)的情況下,穩(wěn)健回歸的結(jié)果準(zhǔn)確性也幾乎不受極端值比例變化的影響。穩(wěn)健回歸法在樣本量足夠時(shí),模型自變量X1和X2系數(shù)估計(jì)值的RMSE更小,其所求得的回歸系數(shù)與真實(shí)水平的誤差越小,且樣本量越大,其所求得結(jié)果的相對(duì)誤差越小。穩(wěn)健回歸法在所設(shè)置的各種極端值條件下,所求得模型的決定系數(shù)R2和調(diào)整R2都達(dá)到了0.7左右的穩(wěn)定較高水平,且隨樣本量的增大,其R2和調(diào)整R2輕微增大,模型擬合效果很好。
將極端值轉(zhuǎn)換為缺失值再進(jìn)行多重插補(bǔ)的方法,其在小樣本量和較大極端值比例時(shí)Ⅰ類錯(cuò)誤概率α水平與0.05差異較大,Ⅱ類錯(cuò)誤概率β水平也較高,結(jié)果準(zhǔn)確性差。多重插補(bǔ)法的系數(shù)估計(jì)值的RMSE有隨樣本量增大而逐漸增大的趨勢(shì),極端值比例越大,其相對(duì)誤差也越大。其R2和調(diào)整R2隨樣本量和極端值比例的增大而逐漸減小,模型擬合效果逐漸變差。
對(duì)極端值進(jìn)行數(shù)據(jù)轉(zhuǎn)換法在各種極端值條件下,Ⅰ類錯(cuò)誤概率α水平變化較大,Ⅱ類錯(cuò)誤概率β水平較低,結(jié)果準(zhǔn)確性在各種極端值條件下變化較大,且所得模型R2和調(diào)整R2都很小,模型擬合效果很不好。
第二部分模擬研究結(jié)果顯示,在不同的σ條件下,隨著σ的增大,模型擬合程度逐漸變差,各種極端值處理策略的性能均有很大程度的下降。見圖1。
圖1 樣本量n=100時(shí)不同σ條件下各極端值處理策略的表現(xiàn)
總體來(lái)說(shuō),當(dāng)隨機(jī)誤差項(xiàng)水平一定的條件下,多因素回歸分析中對(duì)極端值進(jìn)行處理時(shí),樣本量與極端值所占比例的影響很大。在極端值所占比例較小時(shí),直接刪除極端值法、穩(wěn)健回歸法和多重插補(bǔ)法的效果均有所提高,隨著樣本量增大,穩(wěn)健回歸法所得結(jié)果更穩(wěn)定可靠,而直接刪除極端值法和多重插補(bǔ)法的效果逐漸變差。模擬研究還發(fā)現(xiàn)極端值所在變量方向?qū)O端值處理結(jié)果有輕微的影響。
在模擬研究中,穩(wěn)健回歸的方法在有足夠樣本量提供建模支持,極端值數(shù)量較少時(shí),有更好的表現(xiàn),且在其他極端值條件下也有很不錯(cuò)的表現(xiàn),其模型系數(shù)估計(jì)值的相對(duì)誤差較小,模型擬合效果也很好。多重插補(bǔ)法在含極端值的小樣本量和極端值比例較小時(shí)有可接受的表現(xiàn),隨著樣本量和極端值比例增大,其表現(xiàn)逐漸變差,但總體看來(lái),極端值處理效果優(yōu)于直接刪除法。直接刪除極端值的方法只在含極端值的觀測(cè)點(diǎn)數(shù)量較少和極端值比例較小時(shí)有可接受的表現(xiàn),其模型系數(shù)估計(jì)值的相對(duì)誤差大小和擬合效果均比以上2種方法差,其只適合在極端值數(shù)量較少和所占比例較小時(shí)使用。數(shù)據(jù)轉(zhuǎn)換的方法在所設(shè)置的極端值條件下均未見有較好的表現(xiàn),其不適合在此次模擬的極端值情況中使用。
模擬研究顯示,在多因素回歸分析中處理極端值時(shí),推薦使用穩(wěn)健回歸分析的處理方法,此方法可很好地處理極端值并得到較為準(zhǔn)確且擬合效果較好的回歸模型,但在小樣本量時(shí)需謹(jǐn)慎使用。多重插補(bǔ)的方法適用于極端值比例較小和模型擬合效果較好的數(shù)據(jù),此時(shí)用插補(bǔ)值替代極端值較為可靠。對(duì)于直接刪除極端值法,在專業(yè)角度上判斷為異常點(diǎn)、含極端值觀測(cè)點(diǎn)數(shù)量很少或極端值比例很低時(shí)可采用直接刪除的方法,且并不推薦直接使用,可在其他處理方法未得到滿意結(jié)果時(shí)再嘗試使用。而數(shù)據(jù)轉(zhuǎn)換的方法,并不適合大多數(shù)的極端值條件,可能只在某些少數(shù)特定極端值條件下適合使用。
中國(guó)醫(yī)院統(tǒng)計(jì)2022年4期