彭佳師
(湖南科技大學(xué) 生命科學(xué)學(xué)院 經(jīng)濟(jì)作物遺傳改良與綜合利用湖南省重點(diǎn)實(shí)驗(yàn)室, 湘潭 411201)
統(tǒng)計(jì)學(xué)知識(shí)在不同領(lǐng)域都有廣泛應(yīng)用,在終生學(xué)習(xí)的社會(huì)氛圍中,即使不是所有學(xué)生在以后的職業(yè)生涯中都會(huì)頻繁用到統(tǒng)計(jì)學(xué)知識(shí),但對(duì)于統(tǒng)計(jì)學(xué)知識(shí)的掌握也有助于他們理解和學(xué)習(xí)其他知識(shí)。因此,統(tǒng)計(jì)學(xué)相關(guān)課程作為很多專業(yè)的基礎(chǔ)課程在高校中廣泛開(kāi)設(shè)。生命科學(xué)相關(guān)專業(yè)一般開(kāi)設(shè)生物統(tǒng)計(jì)學(xué)等課程。特別是在生命科學(xué)步入大數(shù)據(jù)時(shí)代,此門經(jīng)典課程的重要性和實(shí)用性日益提升。
統(tǒng)計(jì)學(xué)中P值概念的提出最早可以追溯到1900年[1-2],經(jīng)過(guò)不斷發(fā)展,一個(gè)多世紀(jì)以來(lái)已然成為統(tǒng)計(jì)推斷中普遍依據(jù)的一個(gè)指標(biāo),這也部分得益于其依賴的統(tǒng)計(jì)學(xué)模型相對(duì)簡(jiǎn)單且學(xué)術(shù)界有普遍采用的“判斷閾值”(如P< 0.05)。研究發(fā)現(xiàn),P值的使用頻率遠(yuǎn)高于置信區(qū)間等其他統(tǒng)計(jì)學(xué)指標(biāo),且在研究結(jié)果中報(bào)告P值的科學(xué)論文比例仍呈上升趨勢(shì)[3]。然而P值被大量誤用甚至不合理地作為統(tǒng)計(jì)推斷的唯一依據(jù)的情形亦屢見(jiàn)不鮮,導(dǎo)致其在被廣為采用的同時(shí)也飽受爭(zhēng)議。
P值作為統(tǒng)計(jì)推斷的核心依據(jù),其概念也是生物統(tǒng)計(jì)學(xué)課程教學(xué)的重點(diǎn)和難點(diǎn)。然而P值的大量誤用也促使我們?cè)诖髮W(xué)教育中對(duì)于統(tǒng)計(jì)學(xué)的教學(xué)作出反思。美國(guó)統(tǒng)計(jì)學(xué)會(huì)(ASA)在關(guān)于統(tǒng)計(jì)意義和P值的聲明中描述了George Cobb教授在ASA 論壇上提出的兩個(gè)問(wèn)題以及所得到的令人深思的答案[4]。
問(wèn)題1:為什么在眾多高校中教授的P值判斷閾值是0.05?
答案:因?yàn)閷W(xué)術(shù)界以及期刊的編輯們都是這樣使用的。
問(wèn)題2:為什么大家仍在使用0.05作為P值的判斷閾值?
答案:因?yàn)榇髮W(xué)課程是這樣教的。
上述問(wèn)題所描述的“怪圈”折射出我們?cè)谙嚓P(guān)課程教學(xué)中仍有亟待改進(jìn)的地方。而關(guān)于P值的爭(zhēng)論在生命科學(xué)領(lǐng)域的研究中尤為激烈,因此不能忽視其對(duì)生物統(tǒng)計(jì)學(xué)課程教學(xué)的影響。
隨著《自然》等權(quán)威期刊的持續(xù)關(guān)注及討論[5-6],學(xué)術(shù)界爭(zhēng)論了一個(gè)多世紀(jì)的P值在近幾年討論更加廣泛和深入。針對(duì)P值的爭(zhēng)論,ASA 在2016年發(fā)表了關(guān)于統(tǒng)計(jì)意義和P值的聲明[3],在學(xué)術(shù)界引起很大反響。關(guān)于P值爭(zhēng)論的學(xué)術(shù)論文很多,觀點(diǎn)也不盡相同,這里難以描述全面,只簡(jiǎn)單介紹作者的一些理解。
引起P值爭(zhēng)論的一個(gè)重要原因是過(guò)分強(qiáng)調(diào)P值甚至錯(cuò)誤地使用和解釋P值,從而引發(fā)了學(xué)術(shù)界對(duì)相關(guān)科學(xué)結(jié)論的可靠性和可重復(fù)性的擔(dān)憂。過(guò)分強(qiáng)調(diào)和依賴P值,甚至以P值作為統(tǒng)計(jì)推斷的唯一依據(jù)而不考慮實(shí)驗(yàn)設(shè)計(jì)和數(shù)據(jù)收集過(guò)程以及其他統(tǒng)計(jì)學(xué)指標(biāo),這顯然是片面的。特別是隨著“P< 0.05”逐步成為學(xué)術(shù)界默認(rèn)的“標(biāo)準(zhǔn)”,研究人員容易陷入“P值操縱”(P-hacking)的陷阱[7]。除了過(guò)分強(qiáng)調(diào)P值外,對(duì)于P值常見(jiàn)的錯(cuò)誤使用和解釋也是引起學(xué)術(shù)界擔(dān)憂的重要方面。例如,當(dāng)P值大于設(shè)定的顯著水準(zhǔn)時(shí),可能會(huì)做出零假設(shè)成立(即沒(méi)有顯著差異)的推斷,這是很多學(xué)術(shù)論文中常見(jiàn)的因?qū)值的誤解而得出的不合理的科學(xué)推論[7]。引起P值爭(zhēng)論的另一重要原因可能是P值或其依賴的統(tǒng)計(jì)學(xué)模型本身并非完美。例如P值并不是原假設(shè)成立的概率,正如ASA關(guān)于統(tǒng)計(jì)意義和P值的聲明中的描述:P值本身并非一個(gè)對(duì)模型或假設(shè)提供證據(jù)度量的理想指標(biāo)[4]。另一方面,當(dāng)樣本容量增大時(shí), 理論上得到一個(gè)非常小的P值的可能性會(huì)大大增加, 進(jìn)而導(dǎo)致拒絕原假設(shè)的概率也會(huì)增加,此時(shí)P值并不能算是一個(gè)十分有效的指標(biāo),這也是導(dǎo)致“P值操縱”容易實(shí)現(xiàn)的重要原因。
關(guān)于P值的爭(zhēng)論仍在進(jìn)行,但是目前學(xué)術(shù)界普遍接受和認(rèn)可的是,P值在當(dāng)前應(yīng)用于統(tǒng)計(jì)推斷中的作用被過(guò)分放大甚至誤用是客觀存在的。雖然存在完全摒棄P值的意見(jiàn)[8],但是多數(shù)學(xué)者仍認(rèn)可P值的作用。在BiometricalJournal關(guān)于P值爭(zhēng)論的專刊(59卷5期)中,參與討論的學(xué)者幾乎一致地認(rèn)為P值作為基本的統(tǒng)計(jì)推斷工具不應(yīng)該被摒棄[9]。近期Nature發(fā)布的一篇超過(guò)800位學(xué)者簽名支持的評(píng)論文章呼吁放棄使用統(tǒng)計(jì)顯著性作為研究結(jié)果評(píng)估指標(biāo),但是也強(qiáng)調(diào)并不是摒棄P值,并建議在報(bào)告P值時(shí)給出其精確值而不是一個(gè)不等式(如P<0.05)[6]。
盡管如此,學(xué)術(shù)界仍未形成一個(gè)普遍認(rèn)可的作為統(tǒng)計(jì)推斷依據(jù)的理想方案。參與P值爭(zhēng)論的觀點(diǎn)中,多數(shù)認(rèn)可P值應(yīng)當(dāng)與置信區(qū)間、效應(yīng)值、Bayes 統(tǒng)計(jì)模型等綜合使用,從不同角度闡釋研究現(xiàn)象,而不是將P值作為統(tǒng)計(jì)推斷的唯一依據(jù)。需要指出的是,這些統(tǒng)計(jì)學(xué)指標(biāo)可能也面臨著P值同樣的問(wèn)題。如效應(yīng)值取多大的閾值算作高效應(yīng)(如Cohen′s d>0.8)? ASA的聲明中建議研究者公開(kāi)所提出的全部假設(shè)、收集到的數(shù)據(jù)、數(shù)據(jù)分析結(jié)果,P值結(jié)果,以及這些分析是如何被選中用于報(bào)告的[4]。事實(shí)上已經(jīng)有不少學(xué)術(shù)期刊正在努力這樣做。當(dāng)然報(bào)告確切的P值可以讓讀者或研究者自己判斷結(jié)果提示的意義不失為另一種選擇[6],但是筆者認(rèn)為這似乎有為了避免錯(cuò)誤而將做出科學(xué)推論的任務(wù)推給讀者的嫌疑。由此可見(jiàn),持續(xù)了一個(gè)多世紀(jì)的P值爭(zhēng)論可能將繼續(xù)爭(zhēng)論下去。
P值作為假設(shè)檢驗(yàn)統(tǒng)計(jì)思想的核心,在生命科學(xué)研究中應(yīng)用尤為廣泛[3]。使學(xué)生正確理解并合理使用P值進(jìn)行生物學(xué)數(shù)據(jù)的分析是生物統(tǒng)計(jì)學(xué)課程的重要教學(xué)目標(biāo)。學(xué)術(shù)界關(guān)于P值的大討論不僅使得對(duì)P值的理解以及正確使用越來(lái)越清晰,而且將P值爭(zhēng)論融入教學(xué)對(duì)于幫助學(xué)生了解和掌握P值這一關(guān)鍵概念,從而對(duì)提升生物統(tǒng)計(jì)學(xué)的課堂教學(xué)效果亦大有幫助。此外,學(xué)術(shù)界關(guān)于P值的爭(zhēng)論雖然持續(xù)多年,但是P值爭(zhēng)論的最新動(dòng)態(tài)也是該門課程教學(xué)中關(guān)于學(xué)科發(fā)展前沿介紹無(wú)法回避的方面。因此,應(yīng)該積極對(duì)待P值爭(zhēng)論對(duì)此門課程教學(xué)的影響,并將P值爭(zhēng)論的相關(guān)觀點(diǎn)和由此引發(fā)的教學(xué)方面的改革積極融入此門課程的教學(xué)過(guò)程中。
在前文提及的ASA的聲明中關(guān)于“為什么學(xué)校這樣教是因?yàn)榇蠹叶际沁@么做的,而為什么大家都這樣做是因?yàn)閷W(xué)校是這樣教的”的“P值使用怪圈”[4]至少給我們的教學(xué)提供兩個(gè)方面的反思:一方面,我們關(guān)于P值的教學(xué)可能存在欠缺或者不當(dāng),比如對(duì)于P值的概念講解不透徹,對(duì)其局限性以及常見(jiàn)使用誤區(qū)未加以深入剖析等,以致同學(xué)們對(duì)P值的理解可能片面化,在P值使用時(shí)缺乏靈活性甚至誤用;另一方面,當(dāng)前關(guān)于P值的學(xué)校教育可能使同學(xué)們走出學(xué)校后繼續(xù)“機(jī)械地”按課堂上所學(xué)知識(shí)使用P值,這可能也是導(dǎo)致如今P值誤用和爭(zhēng)論的一個(gè)重要原因。因此,正確、及時(shí)地調(diào)整關(guān)于P值的學(xué)校教育可能是解鎖“P值使用怪圈”的一個(gè)根本環(huán)節(jié),同時(shí)也會(huì)給關(guān)于P值的爭(zhēng)論注入更多積極、理性的因素。
相對(duì)于專門的統(tǒng)計(jì)學(xué)教材,目前普遍采用的生物統(tǒng)計(jì)學(xué)教材一般更偏重怎樣運(yùn)用統(tǒng)計(jì)學(xué)知識(shí)設(shè)計(jì)和解決生物學(xué)問(wèn)題,而對(duì)于統(tǒng)計(jì)學(xué)相關(guān)的原理和方法的描述相對(duì)簡(jiǎn)單。然而生命科學(xué)相關(guān)專業(yè)鮮有在開(kāi)設(shè)生物統(tǒng)計(jì)學(xué)的同時(shí)開(kāi)設(shè)專門的統(tǒng)計(jì)學(xué)課程。因此,在課堂教學(xué)中對(duì)于像P值這種不易被學(xué)生理解的關(guān)鍵概念應(yīng)該避免按課本的簡(jiǎn)短描述來(lái)簡(jiǎn)單教學(xué)。建議在介紹假設(shè)檢驗(yàn)以及假設(shè)檢驗(yàn)的兩類錯(cuò)誤時(shí)應(yīng)詳細(xì)、客觀地介紹P值的概念。
作者在教學(xué)過(guò)程中經(jīng)常發(fā)現(xiàn)學(xué)生們認(rèn)為P值是原假設(shè)(null hypothesis)發(fā)生的概率,因而依此根據(jù)較小的P值推斷原假設(shè)成立的可能性較小。雖然按此邏輯對(duì)最終的統(tǒng)計(jì)推斷結(jié)果沒(méi)有影響,但這顯然不是對(duì)P值概念的正確理解。關(guān)于P值的具體含義,可以理解成從一個(gè)假設(shè)所規(guī)定的特定總體中隨機(jī)抽樣,得到的統(tǒng)計(jì)量值(如t值等)與實(shí)際觀測(cè)數(shù)據(jù)的相同及更極端(更大或更小)的概率[4]。這個(gè)假設(shè)即無(wú)效假設(shè)或稱為原假設(shè),顧名思義,它一般假設(shè)數(shù)據(jù)之間沒(méi)有差異,或相關(guān)的效應(yīng)等不明顯。與之對(duì)立的假設(shè)稱為備擇假設(shè)(alternative hypothesis)。P值越小,即在原假設(shè)的前提下得到現(xiàn)有樣本觀察結(jié)果的概率越小,則可以反推出原假設(shè)成立的可能性越小。
為促進(jìn)學(xué)生深入理解P值,在介紹P值概念的同時(shí)還應(yīng)該重點(diǎn)介紹顯著水準(zhǔn)的概念,以引導(dǎo)學(xué)生正確看待和靈活使用計(jì)算得到的P值,這對(duì)于解鎖當(dāng)前的“P值使用怪圈”非常重要。顯著水準(zhǔn)一般是人為設(shè)定的一個(gè)是否拒絕原假設(shè)的P值的閾值,若計(jì)算得出的P值小于設(shè)定的顯著性水準(zhǔn),則根據(jù)小概率反證法原理,作出拒絕原假設(shè)的判斷。需要指出的是,確定的顯著性水準(zhǔn)不同,可能得到完全相反的結(jié)論。因此,影響做出差異是否具有統(tǒng)計(jì)學(xué)意義的統(tǒng)計(jì)推斷的因素除了計(jì)算得到的P值外,還有事先確定的顯著性水準(zhǔn)的值。P值是一個(gè)概率值,依據(jù)P值不論作出是否拒絕原假設(shè)的判斷都可能得到錯(cuò)誤的結(jié)論。錯(cuò)誤地拒絕了實(shí)際正確的原假設(shè),稱為第一類錯(cuò)誤,而確立的顯著性水準(zhǔn)的大小決定了犯此類錯(cuò)誤的可能性。同樣,當(dāng)原假設(shè)實(shí)際不成立時(shí)卻未能正確的否定原假設(shè),稱為第二類錯(cuò)誤。犯第二類錯(cuò)誤的概率不能確定,但是在樣本容量相同的情況下,它與犯第一類錯(cuò)誤的概率呈“此消彼長(zhǎng)”的關(guān)系。因此,學(xué)術(shù)界普遍采用的0.05或0.01作為顯著性水準(zhǔn)并不是“黃金準(zhǔn)則”,需要我們根據(jù)良好的實(shí)驗(yàn)設(shè)計(jì)以及實(shí)際情況合理地設(shè)置。這一點(diǎn)無(wú)論是在實(shí)際應(yīng)用還是學(xué)校教育中都是容易被忽視的,值得在課程教學(xué)過(guò)程中重點(diǎn)強(qiáng)調(diào)。
P值的誤用是引起P值爭(zhēng)論的主要原因,因此在P值爭(zhēng)論中被學(xué)術(shù)界普遍討論的P值的常見(jiàn)誤用不僅反映了學(xué)校教育的薄弱環(huán)節(jié),也給這門課程的課堂教學(xué)指出了需要重視的地方。這里結(jié)合作者對(duì)于此門課程的教學(xué)經(jīng)驗(yàn),列舉兩點(diǎn)學(xué)生們對(duì)于P值常見(jiàn)的誤用加以討論。
最常見(jiàn)的誤用即當(dāng)計(jì)算得出的P值大于設(shè)定的顯著性水準(zhǔn)時(shí),認(rèn)為原假設(shè)是成立的,即得出“無(wú)差別”或“無(wú)作用”等結(jié)論。然而實(shí)際上,假設(shè)檢驗(yàn)方法不能提供原假設(shè)正確的概率保證。如果試驗(yàn)樣本少,也可能得到P值大于設(shè)定的顯著性水準(zhǔn)的檢驗(yàn)結(jié)果。在教學(xué)中可以結(jié)合檢驗(yàn)統(tǒng)計(jì)量的計(jì)算公式從原理上講解,如t值的計(jì)算公式中,在均數(shù)一致的情況下,樣本容量直接影響公式中作為分母的標(biāo)準(zhǔn)誤的大小,并最終對(duì)P值和統(tǒng)計(jì)推斷結(jié)果產(chǎn)生影響。在介紹原理的基礎(chǔ)上,結(jié)合相應(yīng)的生物學(xué)數(shù)據(jù)作為例題,例如以大田條件下,單株產(chǎn)量實(shí)際存在差異的兩水稻品種的單株產(chǎn)量數(shù)據(jù)為例,當(dāng)統(tǒng)計(jì)的樣本容量逐漸增大或減小時(shí),均值變化不會(huì)很大,但是兩樣本t檢驗(yàn)的P值會(huì)有明顯變化,一般樣本容量較小時(shí)對(duì)應(yīng)的P值相對(duì)較大。通過(guò)此類例題直觀的展現(xiàn)出較大的P值與實(shí)際能否作出“無(wú)差別”的結(jié)論的關(guān)系,輔助學(xué)生加深對(duì)此的理解。
在教學(xué)過(guò)程中遇到的另一常被學(xué)生誤用的情形是,P值越小被錯(cuò)誤地理解為差異越大。然而P值的大小只表征差別有無(wú)統(tǒng)計(jì)學(xué)意義,與效應(yīng)量(effect size)沒(méi)有必然的聯(lián)系,即并不表示實(shí)際差異的大小。例如在樣本容量足夠大時(shí),即使差異非常微小也可能得到很小的P值。對(duì)于效應(yīng)量的表征目前有多種形式,使用較為普遍的是Cohen′s d 值[10]。此點(diǎn)在教學(xué)過(guò)程中也可以結(jié)合檢驗(yàn)統(tǒng)計(jì)量的計(jì)算公式從原理上講解,并可以通過(guò)從反面列舉相關(guān)例題加以輔助教學(xué),如列舉兩組集中性很好的樣本,容量較大但均數(shù)相近的數(shù)據(jù)且計(jì)算的P值遠(yuǎn)小于顯著水準(zhǔn),這樣可以直觀地讓學(xué)生理解P值與實(shí)際差異大小之間的關(guān)系。
P值爭(zhēng)論本身也可以作為生物統(tǒng)計(jì)學(xué)課程很好的教學(xué)素材??梢酝ㄟ^(guò)介紹學(xué)術(shù)界對(duì)P值爭(zhēng)論的原因、過(guò)程以及各種學(xué)術(shù)觀點(diǎn),引導(dǎo)學(xué)生思考,加深學(xué)生對(duì)相關(guān)概念的理解。此外,P值爭(zhēng)論是目前尚未形成統(tǒng)一的學(xué)術(shù)觀點(diǎn)的前沿?zé)狳c(diǎn)話題,是組織學(xué)生討論的很好的素材。可以向?qū)W生推薦P值爭(zhēng)論的熱點(diǎn)文獻(xiàn),并鼓勵(lì)學(xué)生課下自己搜集材料,組織學(xué)生分組,每組圍繞一個(gè)主題或圍繞一個(gè)共同的主題,在條件允許的情況下,通過(guò)翻轉(zhuǎn)課堂的形式讓學(xué)生討論并闡述對(duì)P值及P值爭(zhēng)論的理解。同時(shí),教師應(yīng)該在課堂上對(duì)學(xué)生在討論過(guò)程中關(guān)于概念可能的不當(dāng)理解及時(shí)指出,對(duì)學(xué)生的各種觀點(diǎn)予以客觀總結(jié)、點(diǎn)評(píng)。這也是促進(jìn)學(xué)生對(duì)P值的理解以及正確使用的一個(gè)行之有效的教學(xué)方式。
在課堂中利用P值爭(zhēng)論的熱點(diǎn)組織討論,不僅使學(xué)術(shù)前沿自然地走進(jìn)課堂,而且改變了傳統(tǒng)的教學(xué)方式,使課堂成為師生共同探究、共同成長(zhǎng)的場(chǎng)所,作為一名教師,作者也常被學(xué)生們的新穎觀點(diǎn)吸引而引發(fā)思考。此外,學(xué)生通過(guò)自主學(xué)習(xí)、自主表達(dá)的方式,激發(fā)了自己的創(chuàng)新精神和探索精神,同時(shí)也活躍了課堂氛圍,提高了教學(xué)效果。
經(jīng)典統(tǒng)計(jì)學(xué)中假設(shè)檢驗(yàn)的思想雖然應(yīng)用廣泛,但是也存在缺陷(見(jiàn)前文描述),因此有必要讓學(xué)生意識(shí)到P值并不是唯一的統(tǒng)計(jì)推斷工具。建議在講授P值的基礎(chǔ)上,可以視課時(shí)充裕與否介紹其他的統(tǒng)計(jì)推斷方式,如區(qū)間估計(jì)、貝葉斯方法等。在介紹其他統(tǒng)計(jì)學(xué)模型的同時(shí),也可以對(duì)比教學(xué)假設(shè)檢驗(yàn)的優(yōu)勢(shì)和缺點(diǎn),促進(jìn)學(xué)生更好地理解假設(shè)檢驗(yàn)和P值的概念,這也對(duì)學(xué)生在實(shí)驗(yàn)設(shè)計(jì)和數(shù)據(jù)分析中能否配合使用P值和其他統(tǒng)計(jì)推斷工具來(lái)綜合分析問(wèn)題至關(guān)重要。
P值在統(tǒng)計(jì)學(xué)中的作用和其存在的意義是被普遍認(rèn)可的,P值爭(zhēng)論的焦點(diǎn)不在其本身,而更多地在其被不當(dāng)使用在學(xué)術(shù)界所引起的擔(dān)憂。P值一直存在爭(zhēng)議,甚至有觀點(diǎn)建議徹底地摒棄P值,但是可以預(yù)見(jiàn)的是,經(jīng)典統(tǒng)計(jì)學(xué)中關(guān)于P值以及假設(shè)檢驗(yàn)的思想在今后相當(dāng)長(zhǎng)的一段時(shí)期內(nèi)仍將被大量使用。同時(shí),學(xué)術(shù)界關(guān)于P值的爭(zhēng)論不僅折射出我們?cè)诮y(tǒng)計(jì)學(xué)教育中的不足,也為我們指出了教學(xué)過(guò)程中相對(duì)薄弱且需要重點(diǎn)關(guān)注的環(huán)節(jié)。因此,這需要我們?cè)谡n堂上客觀地介紹當(dāng)前對(duì)P值的爭(zhēng)論,并有針對(duì)性地講析P值的一些誤解、誤用,引導(dǎo)學(xué)生正確地理解、使用、解釋P值這個(gè)當(dāng)前生物統(tǒng)計(jì)學(xué)中最重要的一個(gè)概念。這對(duì)打破“P值使用怪圈”非常重要。