国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

如何正確運(yùn)用χ2檢驗(yàn)
——生存資料的似然比檢驗(yàn)和六種非參數(shù)檢驗(yàn)與SAS實(shí)現(xiàn)

2021-11-04 08:31胡純嚴(yán)胡良平
四川精神衛(wèi)生 2021年5期
關(guān)鍵詞:假設(shè)檢驗(yàn)變量資料

胡純嚴(yán) ,胡良平 ,2*

(1.軍事科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì),北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)

在臨床研究中,生存資料出現(xiàn)的頻率很高[1-7]。生存時(shí)間t是生存資料中的結(jié)果變量,它具有兩個(gè)明顯的特點(diǎn):①生存時(shí)間一般不服從正態(tài)分布;②生存資料中常包含刪失數(shù)據(jù)或稱為不完全數(shù)據(jù)。因此,對(duì)生存資料進(jìn)行統(tǒng)計(jì)分析的方法有別于常規(guī)的統(tǒng)計(jì)分析方法。本文將結(jié)合實(shí)例,介紹單因素和多因素生存資料的差異性檢驗(yàn)方法,包括似然比檢驗(yàn)方法和六種非參數(shù)檢驗(yàn)方法。

1 生存函數(shù)假設(shè)檢驗(yàn)的基礎(chǔ)

1.1 生存函數(shù)的定義

生存分布函數(shù)(SDF)也叫生存函數(shù),常用符號(hào)S(t)表示,它描述感興趣的總體(群體)的壽命時(shí)間[8]。在t時(shí)刻SDF的估計(jì)值是來(lái)自總體的試驗(yàn)單元(或受試對(duì)象)的壽命時(shí)間超過(guò)t的概率,即有下式:

式(1)中的S(t)為生存函數(shù),T是隨機(jī)選擇的一個(gè)試驗(yàn)單元(或受試對(duì)象)的壽命時(shí)間。

1.2 基本變量的定義

讓t1<t2<…<tD代表不同的事件時(shí)間。對(duì)每一個(gè)i(i=1,2,…,D),讓Yi代表ti時(shí)刻之前的生存單元數(shù)目(即風(fēng)險(xiǎn)集的大?。宒i代表ti時(shí)刻的失效或死亡的數(shù)目。

1.3 生存函數(shù)的估計(jì)

1.3.1 生存函數(shù)的Breslow估計(jì)

注意:Breslow估計(jì)是累計(jì)危險(xiǎn)函數(shù)的負(fù)Nelson-Aalen估計(jì)的指數(shù)。

1.3.2 生存函數(shù)的Fleming-Harrington估計(jì)

如果頻數(shù)值不是整數(shù),就不能計(jì)算Fleming-Harrington估計(jì)。

1.3.3 生存函數(shù)的Kaplan-Meier估計(jì)

在ti時(shí)刻的生存函數(shù)的Kaplan-Meier估計(jì)(乘積-極限)是累計(jì)乘積:

注意:式(2)、式(3)、式(4)定義的生存函數(shù)估計(jì)量都是右連續(xù)的,也就是說(shuō),在ti時(shí)刻發(fā)生的事件應(yīng)該被包含在S(ti)的估計(jì)之中。

1.4 生存函數(shù)的標(biāo)準(zhǔn)誤

由Kalbfleisch和Prentice于1980年提出生存函數(shù)標(biāo)準(zhǔn)誤的格林伍德(Greenwood)估計(jì)公式如下:

1.5 兩個(gè)或多個(gè)生存函數(shù)相等的檢驗(yàn)假設(shè)

讓K代表組數(shù),Sk(t)代表第k組中的生存函數(shù)(k=1,2,…,K)。于是,被檢驗(yàn)的無(wú)效假設(shè)和備擇假設(shè)分別如下。

H0:S1(t)=S2(t)=…=SK(t),對(duì)于所有的t≤τ都成立;

H1:至少有一個(gè)Sk(t)是不同的,對(duì)于某些t≤τ成立。

2 未分層生存函數(shù)相等的假設(shè)檢驗(yàn)計(jì)算公式

2.1 似然比檢驗(yàn)

Lawless于1982年基于各組生存資料服從指數(shù)分布的假定,推導(dǎo)出檢驗(yàn)前述“檢驗(yàn)假設(shè)”的似然比統(tǒng)計(jì)量[8],見(jiàn)下式:

在式(6)中,χ2是服從自由度為df=K-1的χ2分布的隨機(jī)變量(此處也叫做“檢驗(yàn)統(tǒng)計(jì)量”);Nk為第k組中事件總數(shù)(在生存分析中為“死亡”人數(shù));;Tk為第k組中參與檢驗(yàn)的全部生存時(shí)間之和;。

2.2 六種非參數(shù)檢驗(yàn)

2.2.1 六種非參數(shù)檢驗(yàn)的名稱

在SAS/STAT的“LIFETEST”過(guò)程中,有六種用于比較兩組或多組生存資料的生存函數(shù)是否相等的假設(shè)檢驗(yàn)方法[8],分別是對(duì)數(shù)秩(Log-rank)檢驗(yàn)、威爾科克森(Wilcoxcon)檢驗(yàn)、Tarone-Ware檢驗(yàn)、Peto-Peto檢驗(yàn)、修正的Peto-Peto檢驗(yàn)和Harrington-Fleming(p,q)檢驗(yàn)。

2.2.2 基本變量的定義

讓(Ti,δi,Xi),i=1,2,…,n,代表具有右刪失生存資料的一個(gè)獨(dú)立樣本,Ti是一個(gè)可能的右刪失的時(shí)間;δi是一個(gè)刪失的指示變量(δi=0代表Ti是刪失時(shí)間,δi=1代表Ti不是刪失時(shí)間,即事件發(fā)生的時(shí)間);Xi=1,2,…,K代表K個(gè)不同的組;讓t1<t2<…<tD代表樣本中不同的事件時(shí)間。在時(shí)刻Tj,讓W(xué)(tj)代表一個(gè)正權(quán)重函數(shù)(簡(jiǎn)稱“權(quán)函數(shù)”),讓Yjk和djk分別代表第k組中的風(fēng)險(xiǎn)集的大小和事件的數(shù)目,其中,。再分別讓。

2.2.3 六種非參數(shù)檢驗(yàn)對(duì)應(yīng)的權(quán)函數(shù)

六種非參數(shù)檢驗(yàn)的檢驗(yàn)統(tǒng)計(jì)量無(wú)論是在本質(zhì)上還是在表達(dá)形式上都是一樣的,所不同的僅僅是權(quán)函數(shù),見(jiàn)表1。

表1 生存資料六種非參數(shù)檢驗(yàn)對(duì)應(yīng)的權(quán)函數(shù)

2.2.4 六種非參數(shù)檢驗(yàn)的共同檢驗(yàn)統(tǒng)計(jì)量

六種非參數(shù)檢驗(yàn)的共同檢驗(yàn)統(tǒng)計(jì)量見(jiàn)式(7):

在式(7)中,χ2服從自由度為df=矩陣V的秩的χ2分布;v'是v的轉(zhuǎn)置向量;V-是矩陣V的廣義逆矩陣。式(7)中等號(hào)右邊各變量的具體含義如下:

在式(8)中,各分量的計(jì)算公式見(jiàn)式(10):

在式(10)中,W(tj)為權(quán)函數(shù),其定義參見(jiàn)前面的表1。在式(9)中,V是由vk的方差和vk與vh之間的協(xié)方差組成的矩陣,其各元素的定義如下:

2.3 校正的對(duì)數(shù)秩檢驗(yàn)

校正的對(duì)數(shù)秩檢驗(yàn)的檢驗(yàn)統(tǒng)計(jì)量見(jiàn)式(13):

在式(13)中,χ2服從自由度為K-1的χ2分布,它是對(duì)加權(quán)的K個(gè)樣本的生存函數(shù)進(jìn)行檢驗(yàn)的檢驗(yàn)統(tǒng)計(jì)量。式(13)中等號(hào)右邊各變量的含義和定義如下:

讓 (Ti,δi,Xi,wi),i=1,2,…,n,代表具有右刪失的生存資料的一個(gè)獨(dú)立樣本,Ti是一個(gè)可能的右刪失的時(shí)間;δi是一個(gè)刪失的指示變量(δi=0代表Ti是刪失時(shí)間,δi=1代表Ti不是刪失時(shí)間,即事件發(fā)生的時(shí)間);Xi=1,2,…,K代表K個(gè)不同的組;wi是LIFETEST過(guò)程的“WEIGHT”語(yǔ)句中指定變量在各觀測(cè)上的取值;讓t1<t2<…<tD代表樣本中不同的事件時(shí)間,在時(shí)刻Tj(j=1,2,…,D),并且,對(duì)于每一個(gè)1≤k≤K,則有下式:

在時(shí)刻tj合并的樣本中,讓和分別代表風(fēng)險(xiǎn)集的大小和事件的數(shù)目,讓分別代表風(fēng)險(xiǎn)集中權(quán)重的數(shù)目和事件的權(quán)重?cái)?shù)目。于是,在式(13)中,向量v中的各分量和矩陣V=(Vkh)中的各元素(即方差與協(xié)方差)分別見(jiàn)式(16)、式(17)、式(18):

在式(17)中,A、B和C的內(nèi)容分別如下:

在式(18)中,A的內(nèi)容與式(19)相同;D、E和F的內(nèi)容分別如下:

3 分層生存函數(shù)相等的假設(shè)檢驗(yàn)的計(jì)算公式

3.1 何為分層生存函數(shù)相等的假設(shè)檢驗(yàn)問(wèn)題

假定在生存資料中,有一個(gè)具有M水平的分層因素,在其各水平下均有一個(gè)具有K水平的重要試驗(yàn)因素。于是,就需要考慮將M層生存函數(shù)按那個(gè)重要試驗(yàn)因素分別合并起來(lái),再進(jìn)行合并后的K個(gè)生存函數(shù)是否相等的檢驗(yàn),這就是分層生存函數(shù)相等的假設(shè)檢驗(yàn)問(wèn)題。

3.2 分層生存函數(shù)相等的檢驗(yàn)統(tǒng)計(jì)量

進(jìn)行分層生存函數(shù)相等的假設(shè)檢驗(yàn),Klein和Moeschberger于1997年提出了如下方法:設(shè)分層因素有M個(gè)水平、重要試驗(yàn)因素有K個(gè)水平、第s(s=1,2,…,M)層中的檢驗(yàn)統(tǒng)計(jì)量為vs,于是,對(duì)合并后的生存函數(shù)進(jìn)行假設(shè)檢驗(yàn)的檢驗(yàn)統(tǒng)計(jì)量見(jiàn)下式:

式(25)中的χ2服從自由度為df=各層中協(xié)方差矩陣V的秩的χ2分布;v'是v的轉(zhuǎn)置向量;V-是協(xié)方差矩陣V的廣義逆矩陣。式(25)中等號(hào)右邊各變量的具體含義如下:

4 實(shí)例及SAS實(shí)現(xiàn)

4.1 問(wèn)題與數(shù)據(jù)

【例1】(未分層生存資料)將26例白血病患者分為兩組,分別采用化療、化療聯(lián)合中藥兩種方法,治療后患者存活數(shù)(月)如下,其中帶“+”號(hào)的為終檢值。試估計(jì)兩組患者的生存率,并比較兩種方法治療白血病患者的生存率差異是否有統(tǒng)計(jì)學(xué)意義[9]。化療組(A):2+,13,7+,11+,6,1,11,3,17,7;化療聯(lián)合中藥組(B):10,2+,12+,13,18,6+,19+,26,9+,8+,6+,43+,9,4,31,24。

【例2】(分層生存資料)某醫(yī)院腫瘤科提供的一份關(guān)于肺癌患者的失效時(shí)間資料[8],因變量為患者治療后的生存時(shí)間t(d),當(dāng)t為刪失數(shù)據(jù)時(shí),在前面加一個(gè)負(fù)號(hào)表示;考察的協(xié)變量(即危險(xiǎn)因素或預(yù)后因素)如下:①癌細(xì)胞的類型,它有4個(gè)水平,即腺癌細(xì)胞、鱗癌細(xì)胞、小細(xì)胞肺癌和大細(xì)胞肺癌;②治療類型,它有2個(gè)水平,即標(biāo)準(zhǔn)的方法和試驗(yàn)的方法;③療前處理,它有2個(gè)水平,即采取了療前處理和未采取療前處理;④患者年齡(歲);⑤從診斷到治療的等待時(shí)間;⑥患者的行動(dòng)狀態(tài)用Karnofsky率來(lái)度量,其取值用KPS表示,0≤KPS≤10表明患者完全靠醫(yī)院護(hù)理,40≤KPS≤60表明患者的行動(dòng)部分受到限制,70≤KPS≤90表明患者的行動(dòng)可以自理。前3個(gè)變量被當(dāng)作分類變量,后3個(gè)變量被當(dāng)作連續(xù)性變量。資料的形式為:各組患者的治療方法、癌細(xì)胞類型、同一組中的樣本含量、生存時(shí)間、KPS值、等待時(shí)間、年齡、與療前處理對(duì)應(yīng)的指示變量PR值(注:PR=0等價(jià)于令PRIOR='YES',即表示采取了療前處理;PR=10等價(jià)于令PRIOR='NO',即表示未采取療前處理)。(說(shuō)明:因數(shù)據(jù)量很大,各變量取值從略,可查閱參考文獻(xiàn)[8])

試按下面兩個(gè)要求分析此生存資料:其一,僅按“治療方法”一個(gè)因素分層,比較4種癌細(xì)胞類型患者的生存曲線差異是否有統(tǒng)計(jì)學(xué)意義;其二,同時(shí)按“治療方法”和“有無(wú)療前處理”兩個(gè)因素分層,比較4種癌細(xì)胞類型患者的生存曲線差異是否有統(tǒng)計(jì)學(xué)意義。

4.2 基于SAS軟件分析例1資料

【分析與解答】設(shè)所需要的SAS程序如下:

【程序說(shuō)明】在“strata”語(yǔ)句中,選項(xiàng)“test=all”代表選擇六種非參數(shù)假設(shè)檢驗(yàn)方法,其中,fleming(ρ1,ρ2)自動(dòng)設(shè)置為:fleming(1),即 ρ1=1、ρ2=0;當(dāng)特別指定ρ1、ρ2為非負(fù)數(shù)且不為0時(shí),對(duì)應(yīng)的計(jì)算結(jié)果會(huì)隨著這兩個(gè)參數(shù)的具體取值而發(fā)生改變,例如:給定fleming(1,4)與fleming(2,5)時(shí),對(duì)應(yīng)的χ2值和P值是不同的;如果要求輸出“似然比檢驗(yàn)”結(jié)果,必須加上選項(xiàng)“LR”。

【SAS輸出結(jié)果及解釋】

以上輸出結(jié)果中,前6行是六種非參數(shù)檢驗(yàn)結(jié)果,最后一行是似然比檢驗(yàn)結(jié)果。前6行檢驗(yàn)結(jié)果都得到“P<0.05”的結(jié)果;而最后一行的結(jié)果為“P>0.05”。當(dāng)生存資料服從“指數(shù)分布”時(shí),應(yīng)選取“似然比檢驗(yàn)”結(jié)果;當(dāng)生存資料服從“威布爾分布”時(shí),應(yīng)選取“對(duì)數(shù)秩檢驗(yàn)”結(jié)果;否則,可以考慮選取其他非參數(shù)檢驗(yàn)結(jié)果。通過(guò)查看圖1和圖2,可大致判斷出本例生存時(shí)間資料服從何種分布。

圖1 用于判斷生存資料是否服從指數(shù)分布的圖形

圖2 用于判斷生存資料是否服從威布爾分布的圖形

在圖1中,兩條折線都不呈直線,說(shuō)明本例兩組生存資料都不服從指數(shù)分布;而在圖2中,兩條折線都近似呈直線,說(shuō)明本例兩組生存資料都近似服從威布爾分布。由此可知,本例的假設(shè)檢驗(yàn)結(jié)果以選擇“對(duì)數(shù)秩檢驗(yàn)”結(jié)果為宜。為了便于直觀判斷哪一種治療方法所對(duì)應(yīng)的患者生存時(shí)間更長(zhǎng),需要呈現(xiàn)出他們的生存率曲線,見(jiàn)圖3。

在圖3中,左邊的生存曲線為“A組(化療組)”;右邊的生存曲線為“B組(化療聯(lián)合中藥組)”。

【統(tǒng)計(jì)結(jié)論與專業(yè)結(jié)論】因χ2=6.5792,df=1,P=0.0103<0.05,說(shuō)明兩條生存曲線之間的差異有統(tǒng)計(jì)學(xué)意義;由于B組(化療聯(lián)合中藥組)的生存曲線位于A組(化療組)生存曲線的右邊(見(jiàn)圖3),說(shuō)明“化療聯(lián)合中藥”治療的效果優(yōu)于“單純化療”的效果。

4.3 基于SAS軟件分析例2資料

【分析與解答】設(shè)所需要的SAS程序如下:

因篇幅所限,第1個(gè)過(guò)程步的主要輸出結(jié)果此處從略,僅給出概括性結(jié)論。第一層:標(biāo)準(zhǔn)治療組。標(biāo)準(zhǔn)治療的4種癌細(xì)胞類型的生存曲線之間的差別所對(duì)應(yīng)的P值均小于0.05,大細(xì)胞肺癌患者的生存曲線最長(zhǎng)。第二層:試驗(yàn)治療組。試驗(yàn)治療的4種癌細(xì)胞類型的生存曲線之間的差別所對(duì)應(yīng)的P值均小于0.05,肺鱗癌細(xì)胞患者的生存曲線最長(zhǎng)。

因篇幅所限,第2個(gè)過(guò)程步的主要輸出結(jié)果此處從略,僅給出概括性結(jié)論。第一層:標(biāo)準(zhǔn)治療且未接受預(yù)處理,結(jié)果顯示,三種方法對(duì)應(yīng)的結(jié)果為P>0.05,有4種方法對(duì)應(yīng)的P<0.05。第二層:標(biāo)準(zhǔn)治療但接受預(yù)處理,結(jié)果顯示,七種方法對(duì)應(yīng)的結(jié)果均為P>0.05。第三層:試驗(yàn)治療且未接受預(yù)處理,結(jié)果顯示,七種方法對(duì)應(yīng)的結(jié)果均為P<0.05。第四層:試驗(yàn)治療但接受預(yù)處理,結(jié)果顯示,前六種方法對(duì)應(yīng)的結(jié)果均為P>0.05,而最后的似然比檢驗(yàn)結(jié)果為P<0.05。

【統(tǒng)計(jì)結(jié)論與專業(yè)結(jié)論】本例資料按“治療方法”與“是否接受預(yù)處理”所形成的四層來(lái)分別比較4種癌細(xì)胞的患者生存曲線,因分析結(jié)果不盡相同,故統(tǒng)計(jì)結(jié)論與專業(yè)結(jié)論都需要在各層的條件下進(jìn)行具體描述,因篇幅所限,此處從略。

5 討論與小結(jié)

5.1 討論

在SAS/STAT的LIFETEST過(guò)程中,介紹了比較兩組或多組生存資料的差異性檢驗(yàn)方法,包括似然比檢驗(yàn)和六種非參數(shù)檢驗(yàn)。一般來(lái)說(shuō),在構(gòu)建似然比檢驗(yàn)統(tǒng)計(jì)量時(shí),需要假定所研究的變量服從某種概率分布;而非參數(shù)檢驗(yàn),顧名思義,不假定所研究的資料服從何種概率分布。當(dāng)各種非參數(shù)檢驗(yàn)用于同一個(gè)資料產(chǎn)生出不同的檢驗(yàn)結(jié)果時(shí),如何選取最終的結(jié)果就成了一個(gè)棘手的問(wèn)題。通常情況下,可以選擇P值最小的非參數(shù)檢驗(yàn)法給出的計(jì)算結(jié)果。例如,在例1的計(jì)算結(jié)果中,對(duì)數(shù)秩檢驗(yàn)給出的P=0.0103、χ2=6.5792,而fleming(1,4)的P=0.0052、χ2=7.8139;若進(jìn)一步嘗試,還可得到fleming(3,6)的P=0.0051、χ2=7.8382。在例2的分析中,因篇幅所限,未分析定量變量(即協(xié)變量KPS DIAGTIME AGE)對(duì)生存時(shí)間的影響。

有一個(gè)易于誤解之處:在SAS輸出差異性檢驗(yàn)結(jié)果時(shí),呈現(xiàn)的標(biāo)題為“層間等效檢驗(yàn)”,似乎表明:其下方給出的假設(shè)檢驗(yàn)結(jié)果是針對(duì)“分層因素”各水平計(jì)算出來(lái)的。其實(shí),標(biāo)題中的“層間”是指“試驗(yàn)因素各水平間”。在例2中,試驗(yàn)因素是“4種癌細(xì)胞類型”,第一種情況下的分層因素為“治療方法”,第二種情況下有兩個(gè)分層因素,即“治療方法”與“是否接受預(yù)處理”。

5.2 小結(jié)

本文分別介紹了未分層與分層條件下,兩組或多組生存資料比較的似然比檢驗(yàn)和六種非參數(shù)檢驗(yàn)方法,通過(guò)兩個(gè)實(shí)例并借助SAS軟件,進(jìn)行單因素和多因素生存資料的差異性分析,對(duì)SAS輸出結(jié)果作出解釋,給出統(tǒng)計(jì)結(jié)論和專業(yè)結(jié)論。

猜你喜歡
假設(shè)檢驗(yàn)變量資料
抓住不變量解題
Party Time
PAIRS & TWOS
JUST A THOUGHT
假設(shè)檢驗(yàn)結(jié)果的對(duì)立性分析
統(tǒng)計(jì)推斷的研究
鳳爪重量質(zhì)量管理報(bào)告
基于改進(jìn)隱馬爾科夫模型的畜禽全基因組關(guān)聯(lián)分析中的多重檢驗(yàn)方法
分離變量法:常見(jiàn)的通性通法
不可忽視變量的離散與連續(xù)
措勤县| 盐池县| 邵阳市| 桑日县| 小金县| 河南省| 鹤峰县| 临沂市| 永济市| 卓尼县| 双鸭山市| 崇州市| 承德市| 九寨沟县| 鸡泽县| 佳木斯市| 鹤山市| 芒康县| 萨迦县| 林周县| 东丰县| 肇庆市| 宝丰县| 余姚市| 新乡市| 茌平县| 潜山县| 淮南市| 玉环县| 扎赉特旗| 宽城| 麻城市| 杭锦旗| 文山县| 舞阳县| 平利县| 宁阳县| 黄龙县| 仲巴县| 海原县| 聂拉木县|