南方醫(yī)科大學(xué)生物統(tǒng)計(jì)學(xué)系(510515)
劉 薇 吳 軍 曹穎姝 陳平雁△
?
多分類(lèi)結(jié)局指標(biāo)中兩類(lèi)別占比之比的統(tǒng)計(jì)推斷方法*
南方醫(yī)科大學(xué)生物統(tǒng)計(jì)學(xué)系(510515)
劉 薇 吳 軍 曹穎姝 陳平雁△
目的 針對(duì)多分類(lèi)結(jié)局指標(biāo)數(shù)據(jù),就某兩類(lèi)占比之比構(gòu)建相應(yīng)的假設(shè)檢驗(yàn)及置信區(qū)間估計(jì)方法。方法 先根據(jù)Delta法構(gòu)建對(duì)數(shù)變換后比值的方差,然后用正態(tài)近似法構(gòu)建其假設(shè)檢驗(yàn)方法,分別基于Koopman法、對(duì)數(shù)變換法和校正的對(duì)數(shù)變換法構(gòu)建其置信區(qū)間。通過(guò)模擬驗(yàn)證假設(shè)檢驗(yàn)方法的一類(lèi)錯(cuò)誤、檢驗(yàn)效能和置信區(qū)間覆蓋率。最后以實(shí)例進(jìn)行說(shuō)明。結(jié)果 基于占比比值的假設(shè)檢驗(yàn)方法可以較好的控制一類(lèi)錯(cuò)誤。三種置信區(qū)間方法的覆蓋率均在95%左右,其中基于Koopman法更優(yōu)。當(dāng)樣本量太小(如不足20例)時(shí),所有方法均不夠穩(wěn)健。結(jié)論 本研究構(gòu)建的多分類(lèi)結(jié)局指標(biāo)某兩類(lèi)占比之比的統(tǒng)計(jì)推斷方法表現(xiàn)能滿足應(yīng)用需求,并推薦基于Koopman法的置信區(qū)間估計(jì)。
多項(xiàng)分布 占比比值 假設(shè)檢驗(yàn) 置信區(qū)間 Koopman法
單樣本率、兩獨(dú)立樣本率及相關(guān)樣本率的統(tǒng)計(jì)推斷及置信區(qū)間方法[1-3]目前已經(jīng)十分成熟且應(yīng)用相當(dāng)廣泛。我們前期的研究已經(jīng)提出了多分類(lèi)結(jié)局指標(biāo)中比較其中某兩類(lèi)占比差值的檢驗(yàn)方法及置信區(qū)間構(gòu)建方法[4],本研究則欲建立兩類(lèi)占比比值的統(tǒng)計(jì)推斷方法。
假設(shè)多分類(lèi)結(jié)局指標(biāo)有k個(gè)不同類(lèi)別,每類(lèi)發(fā)生的概率為π1,π2,…,πk,且π1+π2+…+πk=1。用xi表示第i類(lèi)的頻數(shù),則X=(x1,x2,…,xk)服從參數(shù)為n,π的多項(xiàng)分布,其中π=(π1,π2,…,πk)為相應(yīng)的概率向量。根據(jù)多項(xiàng)分析理論可知:
第i個(gè)類(lèi)別發(fā)生率的方差為:
(1)
第i及j類(lèi)別發(fā)生率的協(xié)方差為:
(2)
第i及j類(lèi)別發(fā)生的相關(guān)系數(shù)為:
(3)
兩個(gè)占比可以用差值或比值進(jìn)行比較,本研究只針對(duì)比值構(gòu)建其相應(yīng)統(tǒng)計(jì)推斷方法。兩占比之比本文用符號(hào)PR(percentratio)表示。不失一般性,假設(shè)第1、2類(lèi)為研究所關(guān)心的類(lèi)別,相應(yīng)的占比參數(shù)為π1和π2,觀測(cè)頻數(shù)為a和b。假設(shè)檢驗(yàn)和置信區(qū)間構(gòu)建具體推導(dǎo)如下:
1.假設(shè)檢驗(yàn)
針對(duì)PR,可以構(gòu)建如下原假設(shè)及備擇假設(shè):
進(jìn)一步將原假設(shè)及備擇假設(shè)改寫(xiě)為:
H0:log(π1)-log(π2)=0;H1:log(π1)-log(π2)≠0;
記log(PR)=log(π1)-log(π2),將log(PR)在(p1,p2)處進(jìn)行Taylor展開(kāi)得
根據(jù)大樣本理論在原假設(shè)下可構(gòu)建檢驗(yàn)統(tǒng)計(jì)量
(4)
式中,zPR近似服從標(biāo)準(zhǔn)正態(tài)分布。應(yīng)用中,PR值及其方差可用樣本進(jìn)行估計(jì),即
(5)
2.置信區(qū)間
對(duì)于PR的置信區(qū)間,本研究基于對(duì)數(shù)變換法、校正的對(duì)數(shù)變換法及Koopman法進(jìn)行推導(dǎo)。
(1)對(duì)數(shù)變換法[2]
(6)
(2)校正的對(duì)數(shù)變換法[5]
同方法(1)但是取p1=(a+0.5)/(n+0.5),p2=(b+0.5)/(n+0.5)
(3)基于Koopman法思想推導(dǎo)[6]
根據(jù)Koopman方法思想,令θ=π1/π2,首先構(gòu)建假設(shè)H0:θ=θ0,H1:θ≠θ0,此時(shí)可以構(gòu)建統(tǒng)計(jì)量如下:
ln(L) =aln(p1)+bln(p2)+cln(p3)
(7)
基于三項(xiàng)分布F(π1,π2,π3)的數(shù)據(jù)資料,對(duì)本研究提出的假設(shè)檢驗(yàn)方法和置信區(qū)間方法采用Monte Carlo模擬進(jìn)行驗(yàn)證。模擬參數(shù)設(shè)置樣本量n從小到大設(shè)置10、20、30、40、50、100六種情況,π1,π2,π3參數(shù)組合見(jiàn)表1。假設(shè)檢驗(yàn)均為雙側(cè)檢驗(yàn),檢驗(yàn)水準(zhǔn)為0.05,置信水平為常用的雙側(cè) 。模擬采用SAS9.4編程實(shí)現(xiàn),每種情況模擬10000次。
表1 參數(shù)設(shè)置
*π3=1-π1-π2
1.假設(shè)檢驗(yàn)?zāi)M結(jié)果
假設(shè)檢驗(yàn)方法的一類(lèi)錯(cuò)誤和檢驗(yàn)效能模擬結(jié)果見(jiàn)表2和表3。從模擬結(jié)果中可以看出除了發(fā)生率為0.05的參數(shù)設(shè)置,其他參數(shù)情況下隨著樣本量增大本研究提出的檢驗(yàn)方法其一類(lèi)錯(cuò)誤能較好的控制在0.05左右。樣本量越小發(fā)生率越低,一類(lèi)錯(cuò)誤越保守。檢驗(yàn)效能模擬結(jié)果顯示,相同樣本量下隨著兩組占比之比的增大檢驗(yàn)效能逐漸增大。
2.置信區(qū)間模擬結(jié)果
對(duì)于占比之比指標(biāo)的三種置信區(qū)間覆蓋率模擬結(jié)果見(jiàn)圖1。從整體來(lái)看其波動(dòng)較小,且各種樣本量設(shè)置下其規(guī)律較為一致。當(dāng)發(fā)生率較低時(shí)對(duì)數(shù)變換法及校正的對(duì)數(shù)變換法偏向保守,隨著發(fā)生率的增加又逐漸偏向激進(jìn)?;贙oopman思想的方法則在各種參數(shù)設(shè)置下都要優(yōu)于其他兩種方法,除樣本量較小時(shí)其波動(dòng)較大外,其他情況下均很好的控制在95% 左右。
表2 一類(lèi)錯(cuò)誤的模擬結(jié)果(%)
表3 檢驗(yàn)效能的模擬結(jié)果(%)
在某冠狀動(dòng)脈疾病的危險(xiǎn)因素研究中,105名已形成冠狀動(dòng)脈斑塊患者的斑塊類(lèi)型的分布見(jiàn)表4,試比較鈣化斑塊與非鈣化之間的差異是否有統(tǒng)計(jì)學(xué)意義。
根據(jù)上述資料背景,求得鈣化斑塊占比與非鈣化占比的比值為PR=3.5(0.467/0.133);由公式(4)和公式(5)求得Z=3.642,P<0.001,即鈣化斑塊占比顯著高于非鈣化占比。由公式(6)和公式(7)還可分別求得三種方法估計(jì)的95%置信區(qū)間,即對(duì)數(shù)變換法、連續(xù)性校正對(duì)數(shù)變換法和Koopman法分別為[1.995,6.142]、[1.961,5.944]和[1.949,6.286]。
圖1 PR值置信區(qū)間覆蓋率模擬結(jié)果
表4 不同類(lèi)型冠狀動(dòng)脈斑塊的分布
對(duì)于多分類(lèi)結(jié)局指標(biāo),本研究基于理論推導(dǎo),構(gòu)建了其兩類(lèi)別占比之比的假設(shè)檢驗(yàn)方法及置信區(qū)間估計(jì)方法,并通過(guò)模擬進(jìn)行驗(yàn)證。
就假設(shè)檢驗(yàn)方法而言,基于占比之比的檢驗(yàn)方法其理論基礎(chǔ)除了基于大樣本理論之外[7],其方差推導(dǎo)中還用到了delta法近似[8],兩步近似使得其方法的誤差變大,然而模擬結(jié)果顯示雖然當(dāng)樣本量較小及發(fā)生率較低時(shí)偏保守,但是隨著樣本量的增大它能較好的控制一類(lèi)錯(cuò)誤。
就置信區(qū)間估計(jì)方法而言,應(yīng)用正態(tài)近似的對(duì)數(shù)變換法是較為常用的方法。本研究借鑒Koopman思想構(gòu)建適合多分類(lèi)結(jié)局指標(biāo)兩類(lèi)別間占比之比的置信區(qū)間源于Fagerland[9]研究的啟發(fā),該研究針對(duì)兩獨(dú)立樣本PR值的置信區(qū)間方法進(jìn)行模擬比較,結(jié)果顯示Koopman法都要優(yōu)于其他方法。而且本研究模擬結(jié)果顯示基于Koopman思想的方法在各種參數(shù)設(shè)置下都要優(yōu)于對(duì)數(shù)變換的方法,在應(yīng)用中推薦使用該方法。
我們的前期研究提出了針對(duì)多分類(lèi)結(jié)局指標(biāo)占比之差的統(tǒng)計(jì)推斷及置信區(qū)間構(gòu)建方法[4],并經(jīng)模擬驗(yàn)證得出其表現(xiàn)優(yōu)越,可以滿足應(yīng)用需求。對(duì)于特定數(shù)據(jù),占比之差和占比之比指標(biāo)在應(yīng)用中并無(wú)孰優(yōu)孰劣,只是當(dāng)事件發(fā)生率較低時(shí),尤其是比值分母接近0或?yàn)?時(shí),差值在估計(jì)穩(wěn)定性上要優(yōu)于比值。我們考慮后續(xù)對(duì)提出的差值及比值的統(tǒng)計(jì)推斷及置信區(qū)間構(gòu)建方法進(jìn)行綜合模擬比較,以指導(dǎo)實(shí)踐應(yīng)用。
綜上所述,本文提出的針對(duì)多分類(lèi)結(jié)局指標(biāo)中兩類(lèi)別占比比值的假設(shè)檢驗(yàn)及其置信區(qū)間方法均能較好的滿足應(yīng)用需求。
[1]Newcombe RG.Improved confidence intervals for the difference between binomial proportions based on paired data.Stat Med,1998,17(22):2635-2650.
[2]Newcombe RG.Interval estimation for the difference between independent proportions:comparison of eleven methods.Stat Med,1998,17(8):873-890.
[3]Agresti A,Coull BA.Approximate is Better than “Exact”for Interval Estimation of BinomialProportions.The American Statistician,1998,52(2):119-126.
[4]吳軍,段重陽(yáng),陳平雁.多分類(lèi)結(jié)局指標(biāo)中兩類(lèi)別占比之差的統(tǒng)計(jì)推斷方法.中國(guó)衛(wèi)生統(tǒng)計(jì),2016,33(3):404-407.
[5]Gart JJ,Nam J.Approximate interval estimation of the ratio of binomial parameters:a review and corrections for skewness.Biometrics,1988,44(2):323-338.
[6]Koopman PAR.Confidence Intervals for the Ratio of Two Binomial Proportions.Biometrics,1984,40(2):513.
[7]Fleiss JL,Levin B,Paik MC.Statistical Methods for Rates and Proportions,Third Edition.John Wiley & Sons,2003,354-376.
[8]周勇主編.廣義估計(jì)方程估計(jì)方法.北京:科學(xué)出版社,2013,208-340.
[9]Fagerland MW,Lydersen S,Laake P.Recommended confidence intervals for two independent binomial proportions.Stat Methods Med Res,2015,24(2):224-254.
(責(zé)任編輯:郭海強(qiáng))
Statistical Inference Methods for the Percent Ratio Between Two Categories of the Multinomial Outcome
Liu Wei,Wu Jun,Cao Yingshu,et al
(DepartmentofBiostatistics,SouthernMedicalUniversity(510515),Guangzhou)
Objective Statistical inference methods for comparisons between two categories of the multinomial outcome are not available now.This study aims to develop hypothesis testing and interval estimation methods based on the percent ratio(PR).Methods Firstly,the variance of log transformed PR was constructed based on the delta method and the hypothesis testing method was established using normal approximation method.The confidence interval was estimated based on Koopman method,logarithm transformation method and adjusted logarithm transformation method.Type I error,statistical power and the coverage rate of confidence interval were assessed by Monte Carlo simulation methods.Results Type I error of the developed hypothesis testing method was well controlled.All coverage rates of constructed 95%confidence interval methods were around.Koopman method was superior to logarithm transformation method and adjusted logarithm transformation method,but all methods were unstablewhen the sample size was too small(for instance,less than 20).Conclusion The hypothesis testing method and confidence interval methods brought up in the paper can meet application requirements and the CI estimation method base on Koopman's method is recommended for confidence interval estimation.
Multinomial outcome;Percent ratio;Hypothesis testing;Confidence interval;Koopman′s method
國(guó)家自然基金資助(81673270)
△通信作者:陳平雁