段乃華 王元佳
精神醫(yī)學(xué)中的生物統(tǒng)計(jì)學(xué)(2)連續(xù)性結(jié)果測(cè)量的效應(yīng)度
段乃華 王元佳
我們?cè)谏弦黄跈谀恐幸呀?jīng)討論了效應(yīng)度是評(píng)估治療效果的重要指標(biāo)[1]。接下來(lái)我們討論幾種廣泛使用的方法來(lái)計(jì)算連續(xù)性結(jié)果測(cè)量值的效應(yīng)度(以后將討論二分結(jié)果測(cè)量值的效應(yīng)度)。
對(duì)連續(xù)性結(jié)果測(cè)量值,觀察到的效應(yīng)度(observed effect size,OES)是指以樣本測(cè)量值均數(shù)計(jì)算的組間(研究組對(duì)比對(duì)照組)差異。它通常是在治療結(jié)束時(shí)進(jìn)行評(píng)定(當(dāng)然也可以在不同的治療時(shí)點(diǎn)評(píng)定,或在全部治療完成之后的一段時(shí)間再評(píng)定,以測(cè)量療效的持續(xù)時(shí)間)。OES定義為:
其中M1為研究組的樣本均數(shù),M0為對(duì)照組的樣本均數(shù)。報(bào)告OES的時(shí)候,通常伴有相關(guān)的顯著性檢驗(yàn)和95%CI(采用OES的標(biāo)準(zhǔn)誤差,即標(biāo)準(zhǔn)差除以樣本量的平方根,進(jìn)行計(jì)算;可信區(qū)間的計(jì)算參考Moore等[2]的方法)。
許多精神病學(xué)的研究結(jié)果是基于心理測(cè)量量表的分值,因此并不具備物理或生理學(xué)解釋?zhuān)棺x者難以解釋OES。例如,簡(jiǎn)明精神病量表(Brief Psychiatric Rating Scale,BPRS)評(píng)分均分的組間差異為1分,讀者難以解釋它對(duì)患者的意義。在這些情況下,研究者常采用標(biāo)準(zhǔn)效應(yīng)度(standardized effect size,SES),即用觀察到的差異除以適當(dāng)?shù)臉?biāo)準(zhǔn)差(standard deviation,SD),而不是采用OES,以便對(duì)結(jié)果進(jìn)行解釋。SES定義為:
SES把研究組比對(duì)照組的優(yōu)異性表示為SD的單位,因此能夠幫助解釋研究組治療方案對(duì)一般患者人群的治療效果。
對(duì)正態(tài)分布的結(jié)果測(cè)量值,SES可用患者人群的百分位數(shù)值來(lái)解釋?zhuān)刹捎弥狈綀D或多種正態(tài)檢驗(yàn),如Kolmogorov-Smirnov檢驗(yàn),確定是否為正態(tài)分布)。例如,在所有接受治療的患者中,標(biāo)準(zhǔn)治療后患者癥狀的平均水平處于第50百分位數(shù),新的治療措施使患者的癥狀水平下降了1個(gè)標(biāo)準(zhǔn)差(也就是SES=1.0),那么,接受新療法的患者的平均癥狀水平處于接受標(biāo)準(zhǔn)治療的患者的第16百分位數(shù),也就是說(shuō),有84%的接受標(biāo)準(zhǔn)治療的患者癥狀會(huì)重于接受新療法者的平均癥狀水平。
SES的計(jì)算可采用幾種不同的SD:治療組的合計(jì)SD,對(duì)照組的SD(假定它更能代表患者),或采用在更能代表患者群體的、大樣本患者中獨(dú)立進(jìn)行研究獲得的SD。Cohen[3]的估計(jì)值d運(yùn)用治療組的合計(jì)SD得到的SES,隱含地假定了組內(nèi)方差(及SD)齊。Glass[4,5]的估計(jì)值Δ運(yùn)用對(duì)照組SD,允許組內(nèi)方差(及SD)不齊。近期,Henson[6]比較了Cohen的估計(jì)值d與Glass的估計(jì)值Δ,回顧了它們的作用及在臨床研究中的解釋。我們建議研究者常規(guī)進(jìn)行組間方差同質(zhì)性檢驗(yàn),如Levene[7]檢驗(yàn)。這一檢驗(yàn)具有兩個(gè)重要的目的:①如果方差齊,采用標(biāo)準(zhǔn)t檢驗(yàn),但如果方差不齊,應(yīng)采用Sat-terthwaite法校正t檢驗(yàn);②如果方差齊,采用合計(jì)SD計(jì)算SES(Cohen的d值),但如果方差不齊,應(yīng)采用對(duì)照組SD(Glass的Δ值)。
Cohen的估計(jì)值d和Glass的估計(jì)值Δ都使用了SD的內(nèi)部估計(jì)值。這些內(nèi)部估計(jì)值采用臨床研究患者數(shù)據(jù)樣本來(lái)估計(jì)SD??墒牵蠖鄶?shù)臨床研究的患者樣本具有高度選擇性,所以這些SD可能不能代表一般患者人群的SD。Johnston等[8]報(bào)道了臨床研究的納入標(biāo)準(zhǔn)如何影響了所報(bào)道的效應(yīng)度。例如,采用嚴(yán)格的納入標(biāo)準(zhǔn)招募到同質(zhì)性的患者的臨床研究,盡管可能OES并不大,量表評(píng)定后卻可能得到較小的內(nèi)部SD,相應(yīng)地得到較大的SES。另一方面,為了增強(qiáng)外部效度(一般性)納入不同質(zhì)性的患者的臨床研究,可能產(chǎn)生較大的內(nèi)部SD,因此較小的SES,盡管此研究的OES與前述研究的OES數(shù)值相當(dāng)。為避免同質(zhì)患者樣本的造成SES偏高的想象,Glass[5]推薦(我們也贊同)在可能的時(shí)候,應(yīng)該采用外部估計(jì)的SD值來(lái)計(jì)算SES;這里的外部估計(jì)值是指從其他較大的,招募具有代表性的患者樣本的研究中估計(jì)SD,以便得到代表一般患者人群的SD。例如采用最初進(jìn)行的、旨在獲得量表常模的心理測(cè)量研究報(bào)告中的SD來(lái)計(jì)算SES。
現(xiàn)用如下假定的情形來(lái)舉例說(shuō)明怎樣計(jì)算OES和不同形式的SES。一項(xiàng)研究要比較新抗抑郁劑與標(biāo)準(zhǔn)抗抑郁劑的療效,治療結(jié)束時(shí)實(shí)驗(yàn)組與對(duì)照組漢密爾頓抑郁量表(Hamilton Depression Rating Scale,HAMD)評(píng)分的均數(shù)(標(biāo)準(zhǔn)差)分別為10.5(5.0)與14.0(8.0)。該研究HAMD的合計(jì)SD為6.7,一項(xiàng)大的國(guó)家抑郁癥研究中HAMD的SD為7.5。OSE為-4.0(10.0-14.0)分;Cohen估計(jì)值d為0.60(4.0/6.7),Glass估計(jì)值Δ為0.50(4.0/8.0),采用外部研究SD值計(jì)算得到的SES為0.53(4.0/7.5)。
Cohen[3]提出了下述對(duì)SES大致進(jìn)行分級(jí)的法則:d= 0.2、0.5、0.8分別表示“小”、“中等”、“大”的效應(yīng)度。研究者常把這一大致法則用于臨床研究的設(shè)計(jì)、統(tǒng)計(jì)效力檢驗(yàn)及臨床結(jié)果的解釋。然而,這個(gè)法則是相對(duì)的,不是絕對(duì)的。對(duì)效應(yīng)度分級(jí)的臨床解釋需考慮到所研究的每種治療措施的特定情況:比較新治療方法與標(biāo)準(zhǔn)治療方案增加的成本,治療獲益和不良反應(yīng),等等。對(duì)有危及生命情況的低成本干預(yù)研究,SES為0.2,效應(yīng)度為“小”,但它可能具有較大的臨床意義。而對(duì)較次要的臨床情況,高成本的干預(yù)研究,SES為0.8,效應(yīng)度為“大”,但它可能不具有臨床意義。我們將以后在本欄目中討論有關(guān)臨床意義的內(nèi)容。
盡管精神病學(xué)文獻(xiàn)已廣泛報(bào)道SES,對(duì)某些結(jié)果測(cè)量值,例如體重的改變、納入的例數(shù)、病情緩解的天數(shù)等等來(lái)說(shuō),OES比SES能提供較多的與臨床生理明確相關(guān)的信息。例如,比較為期6個(gè)月的社區(qū)治療與常規(guī)治療對(duì)精神分裂癥的療效,治療結(jié)束時(shí)實(shí)驗(yàn)組患者病情緩解的平均值(標(biāo)準(zhǔn)差)為150(60)天,對(duì)照組為100(50)天,那么OES為50天(這很容易理解)但很難解釋SES(采用對(duì)照組的SD)為1.0。
文獻(xiàn)中“效應(yīng)度effect size(ES)”常指的是SES。這個(gè)術(shù)語(yǔ)有時(shí)會(huì)令人困惑,因?yàn)樽x者不清楚作者采用的是OES還是SES。我們推薦作者使用“觀察效應(yīng)度(OES)”和“標(biāo)準(zhǔn)效應(yīng)度(SES)”的術(shù)語(yǔ)以闡明兩種效應(yīng)度計(jì)算方法的差別。理想的情況是,作者應(yīng)說(shuō)明用于計(jì)算SES的SD,如“基于合計(jì)SD的SES”、“基于對(duì)照組SD的SES”或“基于外部某研究的SD的SES”。