趙翠
(貴州財經(jīng)大學(xué) 貴州 貴陽 550025)
右刪失數(shù)據(jù)是刪失數(shù)據(jù)中最常見的數(shù)據(jù)類型,通常出現(xiàn)在實驗研究的各個鄰域范圍內(nèi),由于刪失數(shù)據(jù)的出現(xiàn),越來越多的研究者也加入了右刪失數(shù)據(jù)的研究中。
右刪失數(shù)據(jù)問題是實驗數(shù)據(jù)中經(jīng)常出現(xiàn)的、無法避免的,因此,學(xué)習(xí)和了解處理右刪失數(shù)據(jù)的方法的思想和原理尤為重要。其中,EM 算法作為一種優(yōu)化算法,被廣泛應(yīng)用于處理數(shù)據(jù)的缺失值,并且EM算法在處理數(shù)據(jù)缺失時有顯著優(yōu)勢,比如:算法和原理簡單、收斂穩(wěn)定、適用性廣等。另外,還介紹了Cox 回歸方法,Cox比例回歸模型是由英國統(tǒng)計學(xué)家D.R.Cox提出的一種半?yún)?shù)回歸模型。該模型以生存結(jié)局和生存時間為因變量,分析多因素對生存期的影響[1],該模型自提出以來就被廣泛應(yīng)用于各領(lǐng)域,特別是在臨床醫(yī)學(xué)科研領(lǐng)域,該模型實現(xiàn)了巨大的價值,解決了生存數(shù)據(jù)中遇到的截尾數(shù)據(jù)問題。本文基于文獻背景展開研究,旨在探討解決右刪失數(shù)據(jù)的兩種實用方法并深入闡述其原理。
若在對一個研究事件進行觀察試驗時,由于外部條件的原因與觀測對象在開始或結(jié)束試驗時產(chǎn)生不同的結(jié)果,導(dǎo)致試驗中出現(xiàn)右刪失數(shù)據(jù)。右刪失在平時研究刪失數(shù)據(jù)的研究中經(jīng)常避免不了它的出現(xiàn),然而通過對右刪失進一步的研究發(fā)現(xiàn),它可以分為3 種類型。具體敘述如下。
對任何個體的觀察從同一個起始時間開始,在事先指定的同一個時間內(nèi)結(jié)束,除了已經(jīng)歷過終點事件的個體,若其他個體的觀察截止到某一個穩(wěn)固的時間,這種刪失就稱為Ⅰ型刪失。
所有研究對象的觀察起點是統(tǒng)一的,一直隨訪觀察到有足夠數(shù)量的終點結(jié)局事件發(fā)生為止,這時研究停止,未發(fā)生終點事件的研究對象的生存時間未知,這種刪失就稱為Ⅱ型刪失。
在研究過程中,研究周期固定在一個范圍,研究對象開始和結(jié)束的時間不一樣,使得生存時間無法確定,像這種情況就稱為Ⅲ型刪失,由于刪失數(shù)據(jù)常常是隨機發(fā)生的,因此III型刪失又被稱為隨機刪失。
在數(shù)學(xué)實驗和統(tǒng)計數(shù)據(jù)分析中,經(jīng)常會產(chǎn)生數(shù)據(jù)刪失的情況。刪失數(shù)據(jù)是數(shù)據(jù)研究中不可避免的問題,在平時研究中只要涉及獲取數(shù)據(jù)的地方往往就避免不了數(shù)據(jù)的刪失。然而,在研究不同的數(shù)據(jù)時,產(chǎn)生的刪失數(shù)據(jù)也往往是不相同的。另外,在實驗中通常獲取數(shù)據(jù)的方式有調(diào)查獲取數(shù)據(jù)和應(yīng)用獲取數(shù)據(jù),調(diào)查獲取數(shù)據(jù)是通過人為地獲取數(shù)據(jù),人們通過實時調(diào)查研究得到數(shù)據(jù);應(yīng)用獲取數(shù)據(jù)則是在一些互聯(lián)網(wǎng)平臺,經(jīng)他人獲取的數(shù)據(jù)保留在一定平臺上面供其他人獲取,從而方便他人獲取想要的數(shù)據(jù)。而在調(diào)查過程中形成數(shù)據(jù)刪失是很普遍的情況[2]。現(xiàn)如今調(diào)查的方式多種多樣,除了一些比較傳統(tǒng)的調(diào)查之外,更流行于通過互聯(lián)網(wǎng)、大數(shù)據(jù)、文獻等方式獲取數(shù)據(jù),然而這些方式獲取的數(shù)據(jù)更能導(dǎo)致數(shù)據(jù)的刪失。
通過數(shù)據(jù)的收集,我們了解到產(chǎn)生數(shù)據(jù)刪失的主要原因有以下幾個方面。
就是在技術(shù)設(shè)備上面由于機器的性能、運轉(zhuǎn)等發(fā)生故障,精確度不足導(dǎo)致的刪失,比如:車輛在運行過程中,實時速度,性能等數(shù)據(jù)無法獲取,導(dǎo)致缺失。
主要表現(xiàn)在未收集到的數(shù)據(jù)存在明顯錯誤,例如:在調(diào)查過程中被調(diào)查者不認真回答問題,或者調(diào)查者工作不細心,導(dǎo)致數(shù)據(jù)填寫錯誤、記錄錯誤等造成數(shù)據(jù)刪失。
在數(shù)據(jù)采集過程中,多余調(diào)查問題沒有進行回答或者沒有有效回答,例如:調(diào)查問卷中涉及的某產(chǎn)品的滿意度不做出評價,這就造成了數(shù)據(jù)刪失。
綜上所述,第一種原因?qū)е碌娜笔枰ㄟ^技術(shù)設(shè)備解決,或者轉(zhuǎn)化為第三種原因方式的缺失來處理;第二種原因?qū)е碌膭h失需要完善調(diào)查過程中的管理模式;第三種原因?qū)е碌膭h失需要對被調(diào)查者進行篩選,使調(diào)查過程的數(shù)據(jù)更加準確[3]。
EM 算法、Cox 回歸方法常用來處理右刪失數(shù)據(jù),并對右刪失做統(tǒng)計分析。下面重點了解這兩種處理右刪失數(shù)據(jù)的方法與原理。
期望最大化算法(Expectation Maximization,EM 算法),是由DEMPSTER A P、LAIRD N、RUBIN D 這3 人在1977 年提出的。EM 算法作為一種迭代算法,主要分為兩個步驟,即E步和M步,分別是求密度函數(shù)的數(shù)學(xué)期望和極大值。EM 算法的提出解決了數(shù)據(jù)刪失存在的問題,為刪失數(shù)據(jù)的處理提供了便利。
下面對EM算法的基本思想簡單闡述如下。
設(shè)觀測數(shù)據(jù)X=(X1,X2,…,Xn1)T為獨立同分布的樣本,其密度函數(shù)為fX(x,θ),x=(x1,x2,…,xn1)T,未觀測到的數(shù)據(jù)為Y=(Y1,Y2,…,Yn-n1)T~fY(y,θ),且X和Y相互獨立。則完全似然函數(shù)為
E 步:假設(shè)有觀測數(shù)據(jù)x=(x1,x2,…,xn1)T及第i 步估計值θ=θ(i),就得到對數(shù)似然函數(shù)的數(shù)學(xué)期望為
M 步:求Q(θ|x,θ(i))關(guān)于θ 的最大值點θ(i+1),即找θ(i+1),使其滿足Q(θ(i+1)|x,θ(i)) =maxQ(θ|x,θ(i)),經(jīng)過不斷迭代到數(shù)據(jù)收斂,即得到θ的極大似然估計。
也就是說,為了能夠很好地理解EM 算法這個概念,可以將EM 算法看成是一個不斷重復(fù)求一個特定參數(shù)的算法,如果在一個模型的參數(shù)是未知的情況下,就把它假設(shè)為θ(i),這樣進行下一步的計算,從而確定這組參數(shù)所對應(yīng)的最可能狀態(tài)和概率數(shù),然后在確定的這組參數(shù)所對應(yīng)的最可能狀態(tài)下進行下一步修改,這樣就可以確定另外一個參數(shù),同樣又在這個參數(shù)的情況下確定新的情況,對這個參數(shù)進行重復(fù)多次的估計,當(dāng)求得模型的未知參數(shù)時就可停止迭代[4]。
Cox 比例回歸模型是由英國統(tǒng)計學(xué)家D.R.Cox 于1972 年提出的一種半?yún)?shù)回歸模型。它應(yīng)用的主要范圍是解決生存分析問題。該模型的目的是探索影響生存率的危險因素有哪些,并做出影響因素的預(yù)后分析。
為了便于理解Cox 回歸模型,下面先了解幾個與Cox模型相關(guān)的函數(shù)[5]。
(1)危險率函數(shù)。
當(dāng)t時刻還在存活的研究對象死于t時刻后一瞬間的概率,用h(t)表示為
式(3)中:T為觀察對象的生存時間;n(t)為t時刻的生存人數(shù);n(t+Δt)為t+Δt時刻的生存人數(shù)。
(2)生存函數(shù)與危險率函數(shù)的關(guān)系。
(3)Cox回歸模型的基本形式
式(5)中,h(t,X)表示在t時刻的風(fēng)險函數(shù)、風(fēng)險率或瞬間死亡率;h0(t)表示基準風(fēng)險函數(shù),即所有變量都取0 時t時刻的風(fēng)險函數(shù);X1,X2,…,Xm表示協(xié)變量、影響因素或者預(yù)后因素;β1,β2,…,βm為自變量的偏回歸系數(shù),它是須從樣本數(shù)據(jù)做出估計的參數(shù)[6]。
3.2.1 Cox回歸模型的參數(shù)估計
假設(shè)有n個患者,他們的生存時間從小排到大:t1≤t2≤…≤tn,對于任何生存時間ti來看,把不小于ti的所有病人看成是一個危險集合,記為R(ti)。在R(ti)內(nèi)的病人,在ti以前是活著的,但由于生存時間的變化,R(ti)內(nèi)的病人逐漸死亡,退出了觀察,直到最后一個病人死亡時,R(ti)消失。j代表ti時刻時間以后R(ti)中對似然函數(shù)做貢獻的個體[7]。
如果ti代表了真正的死亡,那么個體在時刻ti是死亡的條件概率為:
有截尾值時用δi來表示數(shù)據(jù)類型:δi=1,表示病人在ti時刻死亡;δi=0,表示病人在ti時刻截尾。得到偏似然函數(shù)為
兩邊取對數(shù),得
求關(guān)于βk(k=1,2,…m)的一階偏導(dǎo)數(shù),并求其等于0,即得到βk的最大似然估計值。
3.2.2 Cox回歸模型的假設(shè)檢驗
采用似然比檢驗剔除模型中原有不顯著變量,引入明顯的變量,并對變量個數(shù)不同的模型進行比較[8]。
檢驗新增加的協(xié)變量是否具有統(tǒng)計學(xué)意義的統(tǒng)計量為χ2=2[lnL(p+1) -lnL(p)],其服從自由度為1 的χ2分布,其中L(p)包含p個協(xié)變量的模型的似然函數(shù)值,L(p+1)包含p+1 個協(xié)變量的模型的似然函數(shù)值,假設(shè)檢驗步驟為:
步驟一:建立假設(shè)檢驗為H0:β1=β2=…=βm=0,H1:β1=β2=…=βm≠0。
步驟二:構(gòu)造合適的統(tǒng)計量χ2= 2[lnL(p+ 1) -lnL(p)],服從于自由度為1 的χ2分布,確定拒絕域R,PH0{χ2∈R}=α。
步驟三:做出判斷,根據(jù)樣本觀測值算出統(tǒng)計量χ2的值,若χ2∈R,則拒絕H0;否則接受H0。
本研究的主要目的是了解統(tǒng)計分析中發(fā)生的右刪失數(shù)據(jù),并對存在的右刪失數(shù)據(jù)進行處理。首先,介紹了右刪失數(shù)據(jù)的相關(guān)概念及其右刪失數(shù)據(jù)的類型,在統(tǒng)計研究中,發(fā)生數(shù)據(jù)的刪失是很常見的一種情況,然而了解在統(tǒng)計分析中右刪失數(shù)據(jù)發(fā)生的原因同樣重要,我們知道了發(fā)生右刪失數(shù)據(jù)的原因主要為技術(shù)上無法獲取、技術(shù)不合理或錯誤,有不可使用的信息,調(diào)查中的無回答等。其次,研究了處理右刪失數(shù)據(jù)的方法,分別是EM 算法和Cox 回歸兩種處理方法。EM 算法是一種優(yōu)化算法,該算法原理簡單,收斂穩(wěn)定,適用性廣,被廣泛應(yīng)用于處理數(shù)據(jù)的缺失值。Cox 回歸方法以生存結(jié)局和生存時間為因變量,分析了多因素對生存期的影響,主要應(yīng)用于臨床醫(yī)學(xué)科研鄰域,解決了生存數(shù)據(jù)中遇到的截尾數(shù)據(jù)問題。在統(tǒng)計分析過程中,往往避免不了產(chǎn)生刪失數(shù)據(jù),研究中給出的兩種處理辦法需要必備完善的統(tǒng)計數(shù)據(jù),收集充足的數(shù)據(jù)集,在數(shù)據(jù)完整之后進行分析處理刪失數(shù)據(jù)。