李曉煦
摘 要:通過一個示例解釋了多組均值比較統(tǒng)計結(jié)果常見疑難,提出將p值換算成“若干個標(biāo)準(zhǔn)誤”作定量解讀。同時提供Tukey HSD多重比較校正后的置信區(qū)間半徑與未作校正的LSD置信區(qū)間半徑的對比參考表和圖示做參考。
關(guān)鍵詞:多重比較;Tukey HSD檢驗;LSD檢驗;p值
中圖分類號:O213.9? 文獻(xiàn)標(biāo)識碼:A? 文章編號:1673-260X(2021)11-0001-02
Pearson作為統(tǒng)計檢驗的一種輔助指標(biāo)引入p值以來,p值在幾乎所有自然科學(xué)與社會學(xué)領(lǐng)域內(nèi)扮演了重要角色。很多情況下研究者只看p值的大小就直接得出結(jié)論。在統(tǒng)計分析中p值獨一無二的地位堪稱“強(qiáng)勢”。
1 誤讀與迷思
以探討攝入糖份對競技活動成績的影響數(shù)據(jù)為教學(xué)示例[2],研究三組均值兩兩之間是否存在差異。在方差一致前提下,研究者通常會采用SPSS的方差分析和事后檢驗多重比較的界面。本例各組樣本量一致,主流教材[3,4]往往推薦使用Tukey校正方法(即Tukey HSD檢驗)。
LSD方法通常報告的p值小于Tukey HSD校正方法。出盲目選用LSD方法,是科研中常見的誤區(qū)。在這個例子中,以0.05為一類錯誤率,采用上述兩種校正方法都得到定性上一致的結(jié)論:“無干預(yù)組與控制組無(或未發(fā)現(xiàn))顯著差異;實驗組也與控制組無(或未發(fā)現(xiàn))顯著差異;無干預(yù)組與實驗組有(或發(fā)現(xiàn)了)顯著差異”。對p值的定性解讀往往帶來無法回避的迷思:既然無干預(yù)組與控制組無差異,實驗組也與控制組無差異,為何無干預(yù)組與實驗組還會出現(xiàn)差異?
2 剖析與糾正
糾正上述p值定性誤讀的迷思,需要在統(tǒng)計結(jié)果解讀中把p值換算成“若干個標(biāo)準(zhǔn)誤”作定量解讀,即T統(tǒng)計量。雙尾0.01與雙尾0.02的p值,在未標(biāo)準(zhǔn)化效應(yīng)上并不是兩倍的對比,其實只是1.1~1.3倍的對比[5]。同樣,雙尾0.01與雙尾0.05的p值反差也不是五倍的未標(biāo)準(zhǔn)化效應(yīng),而是1.3~1.4倍。精確的倍數(shù)可借助Excel公式便捷計算,=T.Inv(1-0.01/2,自由度)/T.Inv(1-0.02/2,自由度)。根據(jù)統(tǒng)計結(jié)果代入自由度數(shù)值,結(jié)果略有變化,其范圍可參見附錄代碼運(yùn)行報告。
“若干個標(biāo)準(zhǔn)誤”的統(tǒng)計學(xué)顯著標(biāo)準(zhǔn),可能會因為多重比較校正而擴(kuò)大。這種擴(kuò)大可以類比為雙尾檢驗與單尾檢驗的關(guān)系。雙尾檢驗如果看作多重比較,等價于兩次方向相反、一類錯誤率減半的單尾檢驗。如果沒有做“一類錯誤率減半”的操作,雙尾檢驗以“若干個標(biāo)準(zhǔn)誤”表述的統(tǒng)計學(xué)顯著標(biāo)準(zhǔn)要大于單尾檢驗。就本例結(jié)果而言,LSD結(jié)果報告的單尾檢驗pC≥E=0.031<0.050,此時單尾(0.05一類錯誤率)檢驗“若干個標(biāo)準(zhǔn)誤”表述的顯著性標(biāo)準(zhǔn)比雙尾情形的2.13個標(biāo)準(zhǔn)誤要小一些,只需要1.75個標(biāo)準(zhǔn)誤。借助Excel公式計算=T.Inv(1-0.05,15)。而Tukey HSD結(jié)果報告的單尾檢驗p=0.072≥0.050,LSD結(jié)果達(dá)到單尾顯著標(biāo)準(zhǔn),Tukey HSD結(jié)果未達(dá)到。
3 LSD與Tukey HSD的置信區(qū)間半徑比例
在超過兩組的多組比較情形,Tukey HSD的一類錯誤率意義與LSD的一類錯誤率意義不同。相對于LSD檢驗,Tukey HSD檢驗以“若干個標(biāo)準(zhǔn)誤”表述的顯著性標(biāo)準(zhǔn)總是更大。LSD的一類錯誤率是各對比較自身的一類錯誤率,要小于三對比較合起來的一類錯誤率。Tukey HSD衡量三對比較整體的一類錯誤率,任何一組比較犯一類錯誤都被認(rèn)為整體上出現(xiàn)一類錯誤。從多重比較的校正角度,可以認(rèn)為LSD沒有作任何的多重比較校正,它的結(jié)論只適用于單獨研究其中一對比較的情形。如果將三對比較作為整體研究,LSD的結(jié)果通常不適用。
用置信區(qū)間來分析有助于進(jìn)一步理解:LSD的三對比較,每個差異值的置信區(qū)間各自都達(dá)到(1-?琢)的置信度。如果一類錯誤率?琢=0.05,研究者有95%的把握得到一個包含總體參數(shù)在其中的置信區(qū)間。但研究者并沒有95%的把握得到三個差異值的置信區(qū)間同時都包含各自的總體參數(shù),這個把握要比95%小一些。為了使這個整體把握校正到95%,置信區(qū)間的半徑需要適當(dāng)擴(kuò)大。所以,超過兩組的多組情形,Tukey HSD給出的置信區(qū)間半徑總是比LSD給出的置信區(qū)間半徑會大。
置信區(qū)間是否排除0點,即差異值(區(qū)間中心)是否超過置信區(qū)間半徑。前文操作化解讀的“若干個標(biāo)準(zhǔn)誤”的統(tǒng)計標(biāo)準(zhǔn),即置信區(qū)間半徑等于若干個標(biāo)準(zhǔn)誤。Tukey HSD置信區(qū)間半徑的擴(kuò)大比例,就是這個“達(dá)到若干個標(biāo)準(zhǔn)誤”的統(tǒng)計標(biāo)準(zhǔn)擴(kuò)大比例。給定雙尾0.05一類錯誤率,再給定兩兩比較組數(shù)k和自由度df,這個“標(biāo)準(zhǔn)誤倍數(shù)”的擴(kuò)大比例是個常數(shù)。k=3,接近1.2倍。圖1為該比例隨自由度df擴(kuò)大而收斂的圖示。附錄部分給出作圖的R代碼,還可以輸出完整的比例表格。在研究實踐中,有不少場合統(tǒng)計軟件沒有多重比較輸出選項。此時,LSD結(jié)果較方便通過T統(tǒng)計量計算。在LSD結(jié)果的基礎(chǔ)上,可以應(yīng)用比例表格的數(shù)值進(jìn)一步推算Tukey HSD的統(tǒng)計結(jié)果。
參考文獻(xiàn):
〔1〕Karl P. X. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling[J]. Philosophical Magazine Series 5,1900, 50(302): 157-175.
〔2〕[EB/OL].(2021-10-12).http://www.http://personality-project.org/r/datasets/R.appendix5.data.
〔3〕Green, Samuel B. &Neil J. Salkind. Using SPSS for windows and macintosh[M]. NewYork: Pearson, 2013.
〔4〕甘怡群.心理與行為科學(xué)統(tǒng)計[M].北京:北京大學(xué)出版社,2019.
〔5〕Wilkinson, L., Statistical methods in psychology journals: Guidelines and explanations. [J].American psychologist, 1999,54(08):594-596.