国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

心理學(xué)可重復(fù)性危機(jī)兩種根源的評(píng)估

2017-11-02 09:03駱大森
心理與行為研究 2017年5期
關(guān)鍵詞:偏差心理學(xué)概率

駱大森

(美國(guó)賓夕法尼亞印第安納大學(xué),美國(guó))

心理學(xué)可重復(fù)性危機(jī)兩種根源的評(píng)估

駱大森

(美國(guó)賓夕法尼亞印第安納大學(xué),美國(guó))

心理學(xué)的可重復(fù)性危機(jī)有兩大已知的根源:傳統(tǒng)統(tǒng)計(jì)學(xué)中虛無假設(shè)顯著性檢驗(yàn)體系的局限,和心理學(xué)的學(xué)術(shù)傳統(tǒng)中的弊端,本文以開放科學(xué)協(xié)作組2015年報(bào)告的數(shù)據(jù)為依據(jù),試對(duì)這兩個(gè)根源的影響作一粗略的估算。采用Goodman(1992)和Cumming(2008)提出的方法對(duì)傳統(tǒng)統(tǒng)計(jì)體系所加諸于可重復(fù)性的限制加以分析后,估算的結(jié)果表明傳統(tǒng)統(tǒng)計(jì)學(xué)體系的制約,雖然有舉足輕重的影響,卻遠(yuǎn)不能完全解釋該報(bào)告中低至36%的可重復(fù)率,該報(bào)告所反映的狀況,顯然還另有重大的非統(tǒng)計(jì)學(xué)的根源。本文進(jìn)一步用Ioannidis(2005)提出的模型對(duì)這類非統(tǒng)計(jì)學(xué)因素的影響加以分析。分析后得到的若干組人為偏差率和Ha真實(shí)概率的估算,表明在原來研究所獲得的幾乎清一色的陽性結(jié)果中,大約只有不到三分之一或更低的比例是真陽性,而且相當(dāng)部分的陽性結(jié)果,可能由人為偏差所造成。這樣的分析可比較具體地描述該類因素對(duì)當(dāng)前可重復(fù)性危機(jī)的可能影響。

心理學(xué)可重復(fù)性危機(jī),傳統(tǒng)統(tǒng)計(jì)檢驗(yàn)的局限,心理學(xué)學(xué)術(shù)傳統(tǒng)中的弊端,備擇假設(shè)真實(shí)概率,人為偏差,危機(jī)根源的評(píng)估。

1 引言

近期來一些大規(guī)模調(diào)查的結(jié)果,使心理科學(xué)研究的可重復(fù)性成了人們議論的焦點(diǎn),這些議論,不但見諸于影響因子最高的科學(xué)期刊上(Open Science Collaboration, 2015; Baker, 2015, 2016;Gilbert, King, Pettigrew, & Wilson, 2016; Anderson et al., 2016),也出現(xiàn)在享有很高聲譽(yù)的大眾媒體上(如Carroll, 2017),在中國(guó)國(guó)內(nèi)的心理學(xué)同行中,也引起了相當(dāng)?shù)年P(guān)注(胡傳鵬等, 2016; 焦璨,張敏強(qiáng), 2014; 朱瀅, 2016)。特別值得注意的是,這一問題并不僅僅困擾著心理學(xué)科學(xué)工作者,也在其它重要科學(xué)領(lǐng)域中掀起不小的波瀾。比如最近經(jīng)過嚴(yán)格驗(yàn)證發(fā)現(xiàn),在五篇有影響的癌癥研究文章中,只有兩篇的結(jié)果被重復(fù)驗(yàn)證所肯定(Kaiser, 2017),引起了生物醫(yī)學(xué)界中的一場(chǎng)軒然大波。這一系列的情況,使得當(dāng)前對(duì)科學(xué)研究可重復(fù)性的反思,在一個(gè)前所未有的深度和廣度上展開,而積極關(guān)注和參與這一反思,是廣大心理工作者,包括中國(guó)心理工作者無可推脫的職責(zé)。

若干年來,人們對(duì)心理學(xué)研究的可重復(fù)性一直存在著種種疑問,這些疑問中,最引人關(guān)切的是心理學(xué)在研究的可重復(fù)性上是否存在著可稱作危機(jī)的嚴(yán)重問題。雖然對(duì)于危機(jī)與否的確定,難免受各人主觀成見的影響,但最近的發(fā)展,至少使得人們對(duì)問題的嚴(yán)重性有了比較清醒的認(rèn)識(shí)。本文采用危機(jī)的提法,主要為了強(qiáng)調(diào)解決這一問題的緊迫性,如聽任流弊相沿,不全面改變心理學(xué)研究的現(xiàn)狀,其后果對(duì)心理科學(xué)的發(fā)展可能是災(zāi)難性的。當(dāng)前的分歧其實(shí)主要是如何對(duì)危機(jī)的嚴(yán)重程度作一個(gè)客觀的評(píng)價(jià),例如不少人并不認(rèn)為局面已經(jīng)到了令人十分悲觀的地步,覺得目前的一些嚴(yán)厲評(píng)批有言過其實(shí)之虞(Gilbert et al.,2016)。對(duì)這一危機(jī)的嚴(yán)重程度作一恰如其分的估價(jià),難度頗大,但有一定的必要性,因?yàn)樽龀鲆粋€(gè)較準(zhǔn)確的估價(jià),將幫助人們提出更有效更有針對(duì)性的措施。

正像不少人在討論中所指出的那樣,當(dāng)前的可重復(fù)性危機(jī),既有學(xué)術(shù)傳統(tǒng)上的根源,也有統(tǒng)計(jì)學(xué)上的根源(Goodman, 1992; Cumming, 2008;Ioannidis, 2005, 2012; John, Loewenstein, & Prelec,2012; Joober, Schmitz, Annable, & Boksa, 2012; Nosek,Spies, & Motyl, 2012; Wagenmakers, Wetzels,Borsboom, van de Maas, & Kievit, 2012; 胡傳鵬等,2016; 焦璨, 張敏強(qiáng), 2014),而從這兩個(gè)根源各作一些分析,得出某種雖然粗略但合理的估價(jià),可幫助人們?cè)趯?duì)這一危機(jī)的反思中較好地把握分寸。本文擬以盡可能淺顯的方式,提供一點(diǎn)這樣的分析,期能對(duì)廣大心理學(xué)者的反思有所助益。

2 對(duì)現(xiàn)狀的調(diào)查

2015年,以開放科學(xué)協(xié)作組名義發(fā)表的一份報(bào)告(OpenScience Collaboration,下文簡(jiǎn)稱OSC,2015),在已經(jīng)議論叢生的心理學(xué)界引起了巨大地反響。OSC選取了2008年在三家心理學(xué)重要期刊上發(fā)表的100個(gè)研究結(jié)果,對(duì)每個(gè)選取的結(jié)果在新的被試樣本中按原研究程序作了重復(fù)觀察,并將重復(fù)的結(jié)果與原來的結(jié)果加以比較。經(jīng)過比較,OSC的總的結(jié)論是:原來的結(jié)果只有一小部分經(jīng)過重復(fù)得到驗(yàn)證。例如在原來的100個(gè)結(jié)果中,有百分之九十七達(dá)到了0.05水平上的統(tǒng)計(jì)顯著性,而在重復(fù)觀察的結(jié)果中,只有百分之三十六達(dá)到了0.05水平上的統(tǒng)計(jì)顯著性。原來結(jié)果的平均實(shí)驗(yàn)效應(yīng)值(mean effect size)為0.403(SD=0.188),而重復(fù)研究的平均實(shí)驗(yàn)效應(yīng)值僅為0.197(SD=0.257)。只有47%的原來結(jié)果的效應(yīng)量(effect size)落入重復(fù)研究的95%置信區(qū)間(confidence interval),也即意味有一半以上(53%)的原結(jié)果在統(tǒng)計(jì)上顯著不同于重復(fù)結(jié)果。OSC認(rèn)為如此不盡人意的可重復(fù)性,反映出心理學(xué)在學(xué)術(shù)傳統(tǒng)上過于強(qiáng)調(diào)研究成果的創(chuàng)新意義,而過于輕視研究成果的可重復(fù)性。

OSC的一些主要成員此前還進(jìn)行過另一個(gè)有關(guān)心理學(xué)研究可重復(fù)性的協(xié)作項(xiàng)目(Klein et al.,2014, 以下簡(jiǎn)稱Many Labs,2014),該項(xiàng)目的重點(diǎn)是調(diào)查心理學(xué)以往一些研究的效應(yīng)量的可重復(fù)性,及幾個(gè)可能影響其可重復(fù)性的因素。該項(xiàng)目選取了13項(xiàng)以往發(fā)表的結(jié)果,由參加該協(xié)作的每家研究機(jī)構(gòu)(共36家)對(duì)其中每項(xiàng)結(jié)果均做重復(fù)實(shí)驗(yàn),從而可提供每項(xiàng)選取結(jié)果的三十多個(gè)重復(fù)研究結(jié)果。在選取的結(jié)果中,有些是著名的實(shí)驗(yàn)成果(如若貝爾獎(jiǎng)得主Kahneman的兩個(gè)經(jīng)典的成果),也有些是比較近期發(fā)表的成果。有些成果已知有優(yōu)良的可重復(fù)性,有些成果的可重復(fù)性則尚待驗(yàn)證。最終的數(shù)據(jù)顯示:在13項(xiàng)結(jié)果中,有10項(xiàng)的統(tǒng)計(jì)顯著性被重復(fù)實(shí)驗(yàn)所證實(shí)。但這些顯著性被證實(shí)的結(jié)果,它們的效應(yīng)量多和重復(fù)實(shí)驗(yàn)的效應(yīng)量不相吻合,例如僅有百分之三十強(qiáng)的重復(fù)實(shí)驗(yàn)的效應(yīng)量中值落入了原來效應(yīng)量的95%置信區(qū)間(confidence interval)中,其它的重復(fù)實(shí)驗(yàn)的效應(yīng)量中值都較遠(yuǎn)地偏離了原效應(yīng)量。

Many Labs研究組最近又完成了另一項(xiàng)由二十家機(jī)構(gòu)協(xié)作的重復(fù)性研究(Ebersolea et al., 2016; 以下簡(jiǎn)稱Many Labs 2016)。這次在選取重復(fù)對(duì)象時(shí),該研究組避開了公認(rèn)的具有優(yōu)良可重復(fù)性的對(duì)象,僅選取社會(huì)心理學(xué)和人格心理學(xué)領(lǐng)域里可重復(fù)性性質(zhì)不明的一些研究成果作為重復(fù)的對(duì)象,最后選中的九項(xiàng)都屬于比較引人注意但在可重復(fù)性上存在某些疑問的研究成果。這二十家機(jī)構(gòu)對(duì)九項(xiàng)中的每項(xiàng)結(jié)果都進(jìn)行了重復(fù)研究,從而取得了每項(xiàng)結(jié)果的二十個(gè)重復(fù)樣本。這些重復(fù)樣本的數(shù)據(jù)在統(tǒng)計(jì)顯著性上只驗(yàn)證了原來九個(gè)結(jié)果中的三個(gè),而且其中有一個(gè)的原效應(yīng)量與重復(fù)結(jié)果的效應(yīng)量相去較遠(yuǎn)。

科學(xué)講究嚴(yán)密,而這些報(bào)告所反映的狀況,難免令人對(duì)心理科學(xué)的嚴(yán)密性打一個(gè)不小的問號(hào)。如上文所述,如果人們將關(guān)注的眼光,延展到超越心理學(xué)疆界的更廣大的科研領(lǐng)域中去,就會(huì)發(fā)現(xiàn)在研究可重復(fù)性方面存在的問題,有著更為普遍深遠(yuǎn)的根源,而這些根源,既有統(tǒng)計(jì)學(xué)上的,又有非統(tǒng)計(jì)學(xué)的學(xué)術(shù)傳統(tǒng)上的,亟待人們追本尋源,逐一厘清。本文擬以O(shè)SC(2015)的報(bào)告為樣本,對(duì)這兩大類根源作一區(qū)分,并分別提供對(duì)于二者的粗略估價(jià)。

3 傳統(tǒng)虛無假設(shè)顯著性檢驗(yàn)體系對(duì)可重復(fù)性的制約

3.1 制約的根源

傳統(tǒng)虛無假設(shè)顯著性檢驗(yàn)(null hypothesis significance testing, NHST)體系中最關(guān)鍵的部分,第一是提出所謂的虛無假設(shè)(null hypothesis,H0),第二是根據(jù)現(xiàn)有的數(shù)據(jù)對(duì)H0做出保留或拒斥的二元決策。更具體來說,虛無假設(shè)可表達(dá)為H0=0,或效應(yīng)量為0,而如果拒斥H0, 則接受H0≠0(也可以是>0或<0)的備擇假設(shè)(alternative hypothesis, Ha)。從現(xiàn)有數(shù)據(jù)中所獲得的統(tǒng)計(jì)量如果達(dá)到事先預(yù)定的顯著性標(biāo)準(zhǔn),則拒斥H0=0并接受Ha, 否則便保留H0=0的虛無假設(shè)。這一二元決策的任一結(jié)果,都會(huì)有錯(cuò)誤的可能,即一類錯(cuò)誤(type 1 error)和二類錯(cuò)誤(type 2 error)。一類錯(cuò)誤指真實(shí)效應(yīng)量(true effect size)等于0時(shí)(H0=0)統(tǒng)計(jì)檢驗(yàn)卻呈顯著的錯(cuò)誤,而二類錯(cuò)誤則指真實(shí)效應(yīng)量不等于0(或大于/小于0)時(shí)統(tǒng)計(jì)檢驗(yàn)卻呈不顯著的錯(cuò)誤。

舉例來說,如果有人要比較男女兒童在智商上可能的差異,他/她首先必須闡述H0,也即首先假定男女兒童在智商上的差異為0(效應(yīng)量=0,或H0=0)。假設(shè)檢驗(yàn)的結(jié)果,如果是拒斥了H0,則意味著必須接受Ha,認(rèn)為男女兒童有智商差異。由于假設(shè)檢驗(yàn)是一種統(tǒng)計(jì)的檢驗(yàn),檢驗(yàn)的結(jié)論都會(huì)有或大或小的錯(cuò)誤概率。如果最終的決定是拒斥虛無假設(shè)(拒斥男女兒童智商差異為0的假設(shè)),而實(shí)際上虛無假設(shè)倒是正確的(男女兒童在智商上差異確實(shí)為0),則結(jié)論的錯(cuò)誤屬一類錯(cuò)誤。倒過來,如結(jié)論是肯定男女兒童智商差異差異為0這一H0假設(shè),而Ha卻偏是對(duì)的,亦即男女兒童的智商差異實(shí)際并不為0,則結(jié)論的錯(cuò)誤屬二類錯(cuò)誤。

在拒斥虛無假設(shè)時(shí),須預(yù)先劃定一類錯(cuò)誤概率的容忍范圍,一般該范圍選擇在0.05(或0.01)以下。如果從現(xiàn)有數(shù)據(jù)獲得的統(tǒng)計(jì)量在一類錯(cuò)誤水平上低于0.05或0.01,通常的說法就是研究的結(jié)果在統(tǒng)計(jì)上顯著,也即認(rèn)為這樣小的一類錯(cuò)誤可以容忍,因而拒斥H0=0,接受Ha。對(duì)于這樣的結(jié)果有一種誤解,是認(rèn)為既然現(xiàn)有的數(shù)據(jù)表明H0=0(真實(shí)效應(yīng)量=0)成立的概率低于0.05,那么Ha(H0≠0,或真實(shí)效應(yīng)量≠0,即例子中所述的男女兒童的真實(shí)智商差異不為0)成立的概率應(yīng)大于0.95,也即誤以為在重復(fù)研究時(shí)發(fā)現(xiàn)男女兒童智商有顯著差異的概率應(yīng)大于0.95,但實(shí)際上,這個(gè)概率會(huì)遠(yuǎn)小于0.95。

Goodman(1992)指出,比較理想的情況下,當(dāng)真實(shí)效應(yīng)量等于原來研究所報(bào)告的效應(yīng)量時(shí),原來0.05水平的顯著成果,只有約0.50的概率在重復(fù)時(shí)也呈0.05水平上的顯著,原來0.01水平的顯著成果,只有約0.73的概率在0.05水平上呈顯著(見圖1)。

圖1a取之Goodman(1992, Figure 1),但做了改動(dòng)。原圖中首次檢驗(yàn)的統(tǒng)計(jì)值的顯著水平由0.01改為0.05。圖1b也據(jù)Goodman(1992, Figure 1)做了部分改動(dòng)。對(duì)于雙向(2-tailed)檢驗(yàn),Ha的分布曲線在左側(cè)尚有小于–zα/2=–1.96的豎條陰影部分,在圖1a和圖1b中該陰影部分因太微小而無法顯示。

Goodman以簡(jiǎn)單的z檢驗(yàn)說明以上的結(jié)論,但同樣的結(jié)論也適用于更復(fù)雜的t檢驗(yàn)和F檢驗(yàn)。仍以男女兒童智商差異為例,根據(jù)H0=0的假設(shè),男女兒童的總體平均差別應(yīng)等于0。在首次取樣時(shí),女童的樣本平均(sample mean)比男童的樣本平均高出3.0,且由該3.0的差異得出的檢驗(yàn)統(tǒng)計(jì)量z=1.96正好位于雙向(2-tailed)0.05水平顯著的分界點(diǎn)上。假定事先擬定的一類錯(cuò)誤水平是0.05,那么檢驗(yàn)的結(jié)論就應(yīng)是男女兒童在智商水平上有顯著差異,從而拒斥H0=0。做出這一結(jié)論的依據(jù)是,如果H0=0成立的話,再在男女兒童總體中以同樣的方式反復(fù)取樣,將會(huì)有95%的男女樣本平均差落在–3.0和3.0之間,而僅有5%的樣本平均差會(huì)超出±3.0,如此微小的幾率,使得H0=0難以成立,因此拒斥H0。但這樣的結(jié)果并不意味著Ha成立的概率將大于或等于95%。

圖 1 首次檢驗(yàn)顯著水平為0.05或0.01,假定真實(shí)效應(yīng)量已知,重復(fù)驗(yàn)證時(shí)獲0.05水平顯著結(jié)果的概率分布

為了便于說明,先假定男女兒童智商的總體平均差異(population mean difference)確實(shí)不為0,且該差異恰好是3.0,也即Ha=3.0在兒童總體中成立。這樣的情境,并不意味著在未來的研究中有95%的概率重復(fù)女童顯著高于男童的結(jié)果,因?yàn)槟信畠和臉颖酒骄睿╯ample mean difference)是一個(gè)隨機(jī)變量,在未來的研究中也會(huì)隨機(jī)地在3.0上下浮動(dòng),實(shí)際女童的樣本平均比男童的樣本平均高3.0或更多的概率在未來的重復(fù)實(shí)驗(yàn)中僅有50%(見圖1a)。

以上假設(shè)的情境會(huì)使人產(chǎn)生一個(gè)疑問:在實(shí)際的研究中,所獲得的顯著結(jié)果極少有可能正好落在0.05的臨界點(diǎn)上,絕大部分的顯著結(jié)果會(huì)是低于0.05的臨界點(diǎn),如果這樣的話,顯著結(jié)果的可重復(fù)性是否會(huì)大大提高了呢?圖1b表明即使首次研究的結(jié)果明顯地低于0.05的水平,而達(dá)到了0.01的水平,在未來的重復(fù)實(shí)驗(yàn)中,仍然只有73%的結(jié)果會(huì)在0.05水平上顯著。以男女兒童智商差異為例,假如在首次實(shí)驗(yàn)中男女兒童的樣本平均差是3.87,樣本統(tǒng)計(jì)量z=2.58,顯著水平為0.01。再假定男女兒童的總體平均差確為3.87,但由于男女兒童的樣本平均差是一個(gè)隨機(jī)變量,在重復(fù)取樣時(shí),仍會(huì)有27%的樣本平均差會(huì)小于3.0而達(dá)不到0.05的顯著水平。

以上Goodman(1992)所設(shè)想的這些情境都假定真實(shí)的效應(yīng)量是已知的(如男女兒童智商的總體平均差異為已知的3.00或3.87),但在絕大多數(shù)的實(shí)際研究中,真實(shí)的效應(yīng)量是無法確定的。Goodman指出,在真實(shí)的效應(yīng)量未知的情境中,顯著結(jié)果的可重復(fù)率將會(huì)更低。

Cumming(2008)進(jìn)一步分析了真實(shí)的效應(yīng)量未知的情況。如果真實(shí)的效應(yīng)量未知(例如男女兒童智商的總體平均差異未知),已知的僅是在某次實(shí)驗(yàn)中樣本平均差的顯著水平,諸如0.030,0.008之類的低于0.05臨界點(diǎn)的一類錯(cuò)誤概率水平,人們?nèi)钥梢該?jù)此推算以后在同類實(shí)驗(yàn)中得到顯著結(jié)果的概率,只是由于有關(guān)真實(shí)的效應(yīng)量的不確定性,顯著結(jié)果的可重復(fù)率將會(huì)低于上述Goodman所列出的水平。圖2是Cumming的分析的一個(gè)圖解。該圖據(jù)Cumming(2008, Figure A3)做了改動(dòng)。原圖中首次檢驗(yàn)的統(tǒng)計(jì)值的顯著水平由p獲得=0.11改為p獲得=0.01。對(duì)于雙向(2-tailed)檢驗(yàn),Ha的分布曲線在左側(cè)尚有小于–zα/2=–1.96的豎條陰影部分,但因其過于微小而無法顯示。圖中左面的鐘型曲線代表了H0=0的分布,橫軸上z=–1.96和z=1.96是雙向0.05顯著水平的臨界點(diǎn)。假定某次實(shí)驗(yàn)中獲得的結(jié)果是樣本平均差的顯著水平為0.01,由于該水平低于預(yù)先劃定的0.05水平,實(shí)驗(yàn)的結(jié)論是拒斥H0=0,接受Ha。圖中右面的曲線代表了獲得0.01顯著水平時(shí)Ha的分布,這一曲線并不假設(shè)真實(shí)的效應(yīng)量已知,它所依據(jù)的只是獲得的顯著水平p獲得=0.01。這個(gè)分布曲線的特點(diǎn)是它的方差要大于左面的曲線,反映出由于真實(shí)效應(yīng)量未知所造成的更大的不確定性。如圖所示,右面曲線覆蓋下的右側(cè)豎條陰影區(qū)域代表了在將來類似實(shí)驗(yàn)中可重復(fù)0.05水平顯著結(jié)果的概率。這一概率是0.67,低于圖1b中的0.73。

圖 2 首次檢驗(yàn)顯著水平為0.01,假定真實(shí)效應(yīng)量未知,重復(fù)驗(yàn)證時(shí)獲0.05水平顯著結(jié)果的概率分布

3.2 依據(jù)NHST的制約對(duì)心理學(xué)的可重復(fù)性危機(jī)作一估算

上述Goodman和Cumming的分析表明,傳統(tǒng)H0=0的假設(shè)檢驗(yàn)體系無形中為該體系中產(chǎn)生的成果的可重復(fù)性設(shè)置了一個(gè)上限,心理科學(xué)研究的可重復(fù)性也受這一無形上限的羈絆而難臻理想的水平。這樣的分析同時(shí)也演示了合理的分析方法,可用來幫助估算心理學(xué)的可重復(fù)性危機(jī)的程度。

根據(jù)OSC(2015)的報(bào)告,在全部原來研究的0.05水平的顯著結(jié)果中,有36%得到了重復(fù)驗(yàn)證。這些原報(bào)告的結(jié)果,可以在線獲得(https://osf.io/5wup8) 。原報(bào)告的結(jié)果中列出了所選取的97個(gè)達(dá)到顯著結(jié)果的統(tǒng)計(jì)量(F, t, z, χ2, r)以及有關(guān)的自由度(df)或樣本量。根據(jù)這些信息可得到這些結(jié)果的顯著性水平。為統(tǒng)一起見,所有的t,z和r的顯著水平均根據(jù)雙向(2-tailed)檢驗(yàn)確定。這樣得出的顯著水平的中值(median)=0.0069,也即原結(jié)果的顯著水平在0.0069上下。用Goodman和Cumming的分析方法,可進(jìn)一步粗略估算OSC報(bào)告的研究的可重復(fù)率。這樣估算的可重復(fù)率,代表了按照NHST體系嚴(yán)格操作,排除任何非統(tǒng)計(jì)學(xué)因素所應(yīng)當(dāng)?shù)玫降目芍貜?fù)率。圖3a和圖3b顯示了原結(jié)果的顯著水平在0.0069上下時(shí),用Goodman和Cumming的分析方法所得出的可重復(fù)率。二圖在原則上和圖1b和圖2一致,但圖中首次檢驗(yàn)的統(tǒng)計(jì)值的顯著水平為OSC報(bào)告所得的顯著水平的中值0.0069。對(duì)于雙向(2-tailed)檢驗(yàn),Ha的分布曲線在左側(cè)尚有小于–zα/2=–1.96的豎條陰影部分,但因其太過微小而無法在二圖中顯示。

按照Goodman(1992)的分析方法,假設(shè)真實(shí)效應(yīng)量(true effect size)已知并等于原研究的效應(yīng)量,從0.0069的顯著水平可推算出0.77的可重復(fù)率(見圖3a和附錄A)。按照Cumming(2008)的分析方法,不假定真實(shí)效應(yīng)量已知,當(dāng)p獲得=0.0069時(shí),可推出可重復(fù)率為0.70(見圖3b和附錄A),二者均大大高于OSC報(bào)告的0.36的可重復(fù)率。這一比較的結(jié)果頗發(fā)人深省,這意味著統(tǒng)計(jì)學(xué)的NHST的制約,只是造成心理學(xué)可重復(fù)性危機(jī)的原因之一,另外還有不能歸咎于統(tǒng)計(jì)學(xué)的重要因素。

圖 3 首次檢驗(yàn)顯著水平為0.0069,假定真實(shí)效應(yīng)量未知或未知,重復(fù)驗(yàn)證時(shí)獲0.05水平顯著結(jié)果的概率分布

4 估測(cè)非統(tǒng)計(jì)學(xué)根源對(duì)重復(fù)性危機(jī)的影響

4.1 統(tǒng)計(jì)學(xué)和非統(tǒng)計(jì)學(xué)因素對(duì)可重復(fù)性的綜合影響

Goodman和Cumming所分析的仍然是不受人為偏差干擾的規(guī)范操作,在現(xiàn)實(shí)世界里,自選題至發(fā)表結(jié)果的整個(gè)過程中,尚有種種偏離規(guī)范的人為因素,能進(jìn)一步削弱研究的可重復(fù)性,且這些因素的影響可以逐步累加,最終導(dǎo)致結(jié)果的可重復(fù)性下降到科學(xué)上難以容忍的水平。

更具體地來說,Goodman和Cumming的分析方法,都依據(jù)于一個(gè)關(guān)鍵的假定,也即假定備擇假設(shè)(Ha)為真,而將無法重復(fù)顯著結(jié)果的根源全部歸咎于二類錯(cuò)誤,但實(shí)際研究的狀況,往往與該假定大相徑庭。首次實(shí)驗(yàn)時(shí)獲統(tǒng)計(jì)顯著的結(jié)果,導(dǎo)致接受備擇假設(shè)(Ha),并不就意味著所接受的備擇假設(shè)(Ha)就是真實(shí)的。而如果接受的備擇假設(shè)(Ha)有不真實(shí)的可能,則結(jié)果的不可重復(fù)概率將可能大大高于二類錯(cuò)誤。如以HTP代表備擇假設(shè)(Ha)的真實(shí)性概率,以β代表二類錯(cuò)誤概率,則備擇假設(shè)(Ha)為真且得重復(fù)的概率是(1–β)HTP, 而不是研究強(qiáng)度(Power)=1–β。例如當(dāng)HTP=0.5,β=0.30時(shí),真實(shí)的備擇假設(shè)(Ha)得到重復(fù)驗(yàn)證的概率是(1–0.30)×0.5 =0.35,而不是0.70。

當(dāng)Ha真實(shí)概率(HTP)小于1.0時(shí),還有所謂的假陽性的問題,也即虛假的備擇假設(shè)因一類錯(cuò)誤或其它的原因而呈顯著(也即呈陽性)的可能,如以α代表一類錯(cuò)誤概率,則因一類錯(cuò)誤而呈假陽性的概率為α(1–HTP)。例如在OSC(2015)所報(bào)告的統(tǒng)計(jì)顯著的原結(jié)果中,也許只有40%的備擇假設(shè)為真,這樣的話,在進(jìn)行這一系列實(shí)驗(yàn)時(shí),假陽性的概率就會(huì)是0.05×(1–0.40)=0.030。假陽性的概率并不僅受一類錯(cuò)誤的影響,它的另一個(gè)影響因子是人為偏誤(bias),諸如辦公桌抽屜效應(yīng)(desk drawer effect,也即只投送顯著的結(jié)果以求發(fā)表, 而將不顯著的結(jié)果留在辦公桌抽屜里按下不表), 發(fā)表偏見(publication bias,即只有顯著的結(jié)果才得發(fā)表的機(jī)會(huì)),和可疑研究操作(questionable research practice)之類。如以μ代表人為偏誤(bias)的總概率,則其對(duì)假陽性概率的影響可表達(dá)為μ(1–α)(1–HTP)。例如當(dāng)一類錯(cuò)誤(α)為0.05,Ha真實(shí)概率(HTP)為0.40時(shí),虛無假設(shè)H0成立的概率是1–HTP =0.60, 避免一類錯(cuò)誤的概率是1–0.05 =0.95,而如果人為偏差的概率是μ=0.30,那么由于人為偏差造成假陽性的概率是0.30×0.95×0.60=0.171。如以比較通俗的語言來解釋這種情況,則可說在這一批研究中,盡管有60%的虛無假設(shè)(H0=0)是實(shí)際成立的,盡管一類錯(cuò)誤(α)為0.05的臨界值使得絕大部分(95%)H0=0分布總體中的樣本不呈陽性(不呈統(tǒng)計(jì)顯著性),但由于0.30的人為偏差率,使得這部分(0.95×0.60=0.57)本不應(yīng)呈陽性的結(jié)果中有17.1%呈了陽性!

由于人為偏差是追逐陽性的傾向,它也可造成真陽性。當(dāng)備擇假設(shè)為真時(shí),有部分結(jié)果因?yàn)槎愬e(cuò)誤而不呈陽性,這部分結(jié)果的概率是β×HTP,但由于人為的對(duì)于陽性的趨鶩,使得這些結(jié)果中的一些由陰轉(zhuǎn)陽,其概率是μ×β×HTP。設(shè)二類錯(cuò)誤β=0.30,Ha真實(shí)概率是HTP=0.50,人為偏差率μ=0.30,這一部分真陽性的概率則為0.30×0.30×0.40=0.036。

表1列出了以上諸項(xiàng)真假陽性概率。如用真陽性總概率除以真陽性總概率與假陽性總概率之和,就得到了所謂的陽性預(yù)測(cè)值(positive,predicted value, PPV),代表了在所有報(bào)告的陽性結(jié)果中真陽性的比例。

表 1 真陽性,假陽性和一類錯(cuò)誤(α),二類錯(cuò)誤(β),Ha真實(shí)概率(HTP),及人為偏差(μ)的關(guān)系

Ioannidis(2005)用統(tǒng)計(jì)模型對(duì)上述這類因素的影響作了系統(tǒng)分析。圖4為Ioannidis模型的一個(gè)圖解。該模型為:

其中:

PPV=陽性預(yù)測(cè)值,

α=一類錯(cuò)誤,

β=二類錯(cuò)誤,

μ=人為偏差,

R=Ha真實(shí)概率/H0真實(shí)概率(在圖中換算成Ha真實(shí)概率HTP=R/(1+R))。

Ioannidis的模型參數(shù)包括一類錯(cuò)誤的概率(如以0.05或0.01作為顯著性檢驗(yàn)的標(biāo)準(zhǔn)),二類錯(cuò)誤的可能水平(0.80, 0.60, 0.40, 0.20, 等等),某特定研究領(lǐng)域中所提出和檢驗(yàn)的備擇假設(shè)有多大的比例是真正成立的(例如在各種食品原料和配料中被懷疑為致癌物質(zhì)中究竟有多大的比例是真實(shí)致癌的),以及研究過程中種種人為偏向的(如選擇性報(bào)告結(jié)果,發(fā)表偏見,和可疑研究操作)總概率。Ioannidis發(fā)現(xiàn),當(dāng)下依賴傳統(tǒng)統(tǒng)計(jì)方法的研究領(lǐng)域中,如果把典型的參數(shù)值范圍(例如0.05的一類錯(cuò)誤,0.40或更高的二類錯(cuò)誤,低于0.10的Ha真實(shí)概率,0.10,0.20或更高的人為偏差概率)代入該模型,得出的結(jié)論是大部分的顯著結(jié)果實(shí)際上并不真實(shí)。該模型還可進(jìn)一步引出一些值得注意的結(jié)論,例如在一個(gè)探索性的領(lǐng)域中,Ha真實(shí)概率(HTP)往往很低,而如果Ha真實(shí)概率低于0.09(心理學(xué)的某些探索性領(lǐng)域是否能有超出這一水平的Ha真實(shí)概率,尚有待認(rèn)真調(diào)查),即使研究的強(qiáng)度較高(例如低于0.20的二類錯(cuò)誤),且無非常嚴(yán)重的人為偏差(如約為0.20的偏差概率),所報(bào)告的顯著成果也僅有低于20%的真實(shí)率,使得人為偏差率竟超出了顯著結(jié)果的真實(shí)概率,令人難免對(duì)研究結(jié)果的可靠性缺乏信心(見圖4)。又譬如在一個(gè)很熱門的領(lǐng)域中,有許多研究團(tuán)隊(duì)在追逐類似的顯著性成果,而任何某團(tuán)隊(duì)所得到的顯著性成果,就其自身而言,僅有很低的真實(shí)率??梢韵胍?,在一個(gè)既熱門又是探索性的領(lǐng)域中,顯著性成果的真實(shí)率將會(huì)非常低,如果還存在較明顯的人為偏差的話,則所報(bào)道的顯著性成果的真實(shí)率,將低于人為偏差的概率。

圖 4 Ioannidis(2005)模型的圖解

4.2 對(duì)影響心理學(xué)可重復(fù)性危機(jī)的非統(tǒng)計(jì)學(xué)因素的粗略估算

OSC和Many Labs所報(bào)告的研究結(jié)果的重復(fù)率在30%多的范圍內(nèi)。如以陽性預(yù)測(cè)值(positive predictive value,即陽性的報(bào)告結(jié)果實(shí)際上確為陽性的概率)作為研究結(jié)果得到重復(fù)驗(yàn)證的指標(biāo),這30%多的范圍可作為陽性預(yù)測(cè)值的樣本估算值(sample estimate)。這樣的估算值,如代入Ioannidis(2005)的模型可用以推算心理學(xué)中人為偏差(bias, 以符號(hào)μ代表)和Ha真實(shí)概率(HTP)。圖5顯示了按照Ioannidis(2005)模型所作的推算。本圖根據(jù)Ioannidis(2005)模型,先假定陽性預(yù)測(cè)值(PPV)已知,再將設(shè)定的一類錯(cuò)誤值(α),二類錯(cuò)誤值(β),和Ha真實(shí)概率HTP=R/(1+R)代入模型,求出人為偏差率(μ)的方程解。按照OSC(2015)的報(bào)告,已知陽性預(yù)測(cè)值(PPV)=0.36,一類錯(cuò)誤(α)=0.0069, 取三個(gè)不同二類錯(cuò)誤水平(0.30,0.40,0.50),分別在0.09到0.35的Ha真實(shí)概率(HTP)區(qū)間(也即0.10到0.54的R區(qū)間)內(nèi)得出人為偏差率(μ)軌跡。軌跡方程見附錄B。圖中列出了三種可能的研究的二類錯(cuò)誤水平:0.30(這在心理學(xué)中應(yīng)算相當(dāng)理想的水平),0.40(在心理學(xué)總體中仍然是很不錯(cuò)的水平)和0.50(可能是心理學(xué)研究總體的中上水平)。假設(shè)一類錯(cuò)誤水平為OSC(2015)重復(fù)驗(yàn)證報(bào)告中採用的臨界值0.05,則有一系列人為偏差概率(μ)和Ha真實(shí)概率(HTP)的組合值可令陽性預(yù)測(cè)值恰處OSC(2015)報(bào)告的36%的水平。

在OSC所選中的100個(gè)重復(fù)驗(yàn)證項(xiàng)目中,相對(duì)應(yīng)的原研究均發(fā)表于心理學(xué)的一流期刊,從前文采用Goodman(2015)和Cumming(2008)方法分析的結(jié)果來看,大部分原研究至少在理論上都達(dá)到了二類錯(cuò)誤(β)=0.30或研究強(qiáng)度(Power)=1 – 0.30 =0.70或更高的水平,故當(dāng)一類錯(cuò)誤值為0.05時(shí),強(qiáng)度(Power)=0.70大體代表了這批研究的強(qiáng)度水平。設(shè)強(qiáng)度=0.70或二類錯(cuò)誤β=0.30,在圖5中可選取五種有代表性的Ha真實(shí)概率水平:HTP=0.33, HTP=0.25, HTP=0.20,HTP=0.15和HTP=0.09。在這五種水平中,HTP=0.33使得人為偏差率(μ)接近1.0的上限,未免太過極端。第五個(gè)水平HTP=0.09對(duì)應(yīng)于Ioannidis所指出的Ha真實(shí)概率的下限,倘真反映了心理學(xué)的實(shí)際,則不免令人沮喪,但對(duì)應(yīng)的μ=0.08左右的人為偏差概率顯然低估了實(shí)際的人為偏差程度。HTP=0.25,HTP=0.20,和HTP=0.15這三個(gè)對(duì)應(yīng)的組合可能更貼近實(shí)際一些。這三組估算值,分別對(duì)應(yīng)于μ=0.48,μ=0.33,μ=0.20的人為偏差率,意味著在OSC所調(diào)查的原結(jié)果中,約有不到五分之一到將近一半的顯著結(jié)果(包括假陽性和真陽性,但主要是假陽性)乃由非統(tǒng)計(jì)學(xué)的人為偏差因素(如選擇性的報(bào)告和發(fā)表以及可疑研究操作)所造成,同時(shí)在原來研究所接受的全部備擇假設(shè)(97個(gè))中,可能僅有15%到25%為真。這幾個(gè)組合所反映的狀況,自然不免令人蹙額,但仍可說是好于最壞的估計(jì)。心理學(xué)總體的狀況,可能會(huì)比OSC(2015)所報(bào)告的一流期刊上發(fā)表的結(jié)果更有不如。

圖 5 根據(jù)Ioannidis(2005)模型,已知陽性預(yù)測(cè)值(PPV) =0.36,一類錯(cuò)誤(α)=0.0069,在三個(gè)二類錯(cuò)誤水平水平上的Ha真實(shí)概率(HTP)和人為偏差率(μ)變化軌跡

從另一個(gè)角度來說,這樣比較嚴(yán)重的非統(tǒng)計(jì)學(xué)的學(xué)術(shù)傳統(tǒng)上的弊端,表明即使基于當(dāng)前這個(gè)有缺陷的統(tǒng)計(jì)檢驗(yàn)體系,心理學(xué)家們?nèi)匀皇穷H有可為的。在當(dāng)前的體系中,如欲超越0.50的陽性預(yù)測(cè)值,心理學(xué)家們需要進(jìn)一步以增大樣本,選擇研究較大的效應(yīng)量等方式提高研究的強(qiáng)度,大力降低人為偏差,并在選題上更注重研究假設(shè)的真實(shí)性而不過于耽溺所謂的“創(chuàng)新探索”。例如在強(qiáng)度(Power)=0.80, 一類錯(cuò)誤=0.05, 人為偏差μ=0.10,Ha真實(shí)概率HTP =0.15的水平上,陽性預(yù)測(cè)值可達(dá)0.50。如進(jìn)一步降低一類錯(cuò)誤標(biāo)準(zhǔn)到0.01,則陽性預(yù)測(cè)值可達(dá)0.58。倘再提高HTP到0.20的水平,可將陽性預(yù)測(cè)值增至0.65。這樣的陽性預(yù)測(cè)率,如若再結(jié)合比NHST體系更有效的統(tǒng)計(jì)分析方法,可望使心理學(xué)研究的可重復(fù)性水平更上一個(gè)層次。

5 結(jié)語

本文以O(shè)SC(2015)報(bào)告的結(jié)果為依據(jù),采用Goodman(1992), Cumming(2008), 和Ioannidis(2005)提出的分析方法,分別對(duì)傳統(tǒng)NHST統(tǒng)計(jì)體系加諸于研究的可重復(fù)性的影響和心理科學(xué)中非統(tǒng)計(jì)學(xué)因素造成的有關(guān)困擾作了嘗試性的定量評(píng)估。這樣的評(píng)估當(dāng)然有其局限。首先,OSC(2015)的結(jié)果只是一個(gè)不太大的樣本。其次,某個(gè)研究未能通過該調(diào)查的重復(fù)檢驗(yàn),并不必然意味著這個(gè)研究的結(jié)果就是所謂的假陽性,而被該調(diào)查所支持的那些研究結(jié)果,也不一定就都是真陽性的結(jié)果,本文中將OSC(2015)所報(bào)告的36%的重復(fù)率作為所有陽性結(jié)果中真陽性的比例(PPV),只是一種粗略的樣本估算。這些分析方法所基于的假設(shè),也都難免對(duì)現(xiàn)實(shí)世界做了一些也許是過分的簡(jiǎn)化,由此而得的分析結(jié)果,至多只能算是某種大體的評(píng)估,不能替代進(jìn)一步的大規(guī)模的如OSC(2015)和Many Labs(2014, 2016)一類的調(diào)查研究。但這些粗略的評(píng)估,仍可能幫助人們進(jìn)一步認(rèn)識(shí)心理學(xué)所面對(duì)的可重復(fù)性危機(jī)。

傳統(tǒng)H0=0的假設(shè)檢驗(yàn)體系無形中使研究成果的高度可重復(fù)性成了一個(gè)難以企及的目標(biāo),這一統(tǒng)計(jì)學(xué)上的制約是心理科學(xué)研究的可重復(fù)性危機(jī)的一個(gè)重要肇因。雖然統(tǒng)計(jì)學(xué)界已經(jīng)在開始重估傳統(tǒng)H0=0的假設(shè)檢驗(yàn)體系,一個(gè)全新體系的形成,仍需時(shí)日,這對(duì)統(tǒng)計(jì)學(xué)的教育改革造成了不小的困難,但認(rèn)真總結(jié)傳統(tǒng)統(tǒng)計(jì)教育中的問題,并引用一些難度并不太高的方法和技術(shù),如強(qiáng)調(diào)對(duì)結(jié)果的置信區(qū)間(confidence interval)的分析, 可以在一定程度上克服傳統(tǒng)體系的障礙(Cumming,2008; 胡竹菁, 董圣鴻, 張闊, 2013),心理學(xué)家們應(yīng)盡快地調(diào)整自己的知識(shí)結(jié)構(gòu)以適應(yīng)這樣的變化。

從心理學(xué)家本身來說,長(zhǎng)期以來對(duì)學(xué)科中種種忽視研究可重復(fù)性的做法,常采取一種視而不見的態(tài)度,也是一個(gè)難以否認(rèn)的事實(shí)。這種長(zhǎng)期的忽視,造成了學(xué)術(shù)傳統(tǒng)上的種種流弊,其后果正如本文的評(píng)估所顯示的那樣,嚴(yán)重地?fù)p害了心理學(xué)的科學(xué)性。本文的分析也顯示,如果鼎力革除這些弊端,即使在傳統(tǒng)的統(tǒng)計(jì)學(xué)體系中,也可望長(zhǎng)足地提高心理學(xué)研究的可重復(fù)性。

胡傳鵬, 王非, 過繼成思, 宋夢(mèng)迪, 隋潔, 彭凱平.(2016). 心理學(xué)研究中的可重復(fù)性問題: 從危機(jī)到契機(jī). 心理科學(xué)進(jìn)展, 24(9), 1504–1518.

胡竹菁, 董圣鴻, 張闊.(2013). 《心理統(tǒng)計(jì)學(xué)》教學(xué)內(nèi)容的新探索. 心理學(xué)探新, 33(5), 402–408.

焦璨, 張敏強(qiáng).(2014). 迷失的邊界: 心理學(xué)虛無假設(shè)檢驗(yàn)方法探究. 中國(guó)社會(huì)科學(xué), (2), 148–163.

朱瀅.(2016). “開放科學(xué) 數(shù)據(jù)共享 軟件共享”, 你準(zhǔn)備好了嗎?. 心理科學(xué)進(jìn)展, 24(6), 995–996.

Anderson, C. J., Bahník, ?., Barnett-Cowan, M., Bosco, F. A., Chandler, J.,Chartier, C. R., …, Zuni, K.(2016). Response to comment on“Estimating the reproducibility of psychological science.”. Science,351, 1037.

Baker, M. (2015). Over half of psychology studies fail reproducibility test.Nature. http://dx.doi.org/10.1038/nature.2015.182.

Baker, M. (2016). Psychology’s reproducibility problem is exaggerated –say psychologists. Nature. http://dx.doi.org/10.1038/nature.2016.19498.

Carroll, A. E. (2017, May). Science needs a solution for the temptation of positive results. The New York Times. Retrieved from http://www.nytimes.com/.

Cumming, G.(2008). Replication and p intervals: P values predict the future only vaguely, but confidence intervals do much better. Perspectives on Psychological Science, 3(4), 286–300.

Ebersole, C. R., Atherton, O. E., Belanger, A. L., Skulborstad, H. M., Allen,J. M., Banks, J. B., …, Nosek, B. A.(2016). Many Labs 3: Evaluating participant pool quality across the academic semester via replication.Journal of Experimental Social Psychology, 67, 68–82.

Gilbert, D. T., King, G., Pettigrew, S., & Wilson, T. D.(2016). Comment on“Estimating the reproducibility of psychological science ”. Science,351, 1037.

Goodman, S. N.(1992). A comment on replication, P-values and evidence.Statistics in Medicine, 11(7), 875–879.

Ioannidis, J. P. A.(2005). Why most published research findings are false.PLoS Medicine, 2, e124.

Ioannidis, J. P. A.(2012). Why science is not necessarily self-correcting.Perspectives on Psychological Science, 7, 645–654.

John, L. K., Loewenstein, G., & Prelec, D.(2012). Measuring the prevalence of questionable research practices with incentives for truth telling.Psychological Science, 23(5), 524–532.

Joober, R., Schmitz, N., Annable, L., & Boksa, P.(2012). Publication bias:What are the challenges and can they be overcome?. Journal of Psychiatry & Neuroscience, 37(3), 149–152.

Kaiser, J.(2017). Rigorous replication effort succeeds for just two of five cancer papers. Science, , doi: 10.1126/science.aal0628.

Klein, R. A., Ratliff, K. A., Vianello, M., Adams, R. B., Jr., Bahník, ?.,Bernstein, M. J., …, Nosek, B. A.(2014). Investigating variation in replicability: A “many labs” replication project. Social Psychology, 45,142–152.

Nosek, B. A., Spies, J. R., & Motyl, M.(2012). Scientific utopia: II.Restructuring incentives and practices to promote truth over publishability. Perspectives on Psychological Science, 7, 615–631.

Open Science Collaboration.(2015). Estimating the reproducibility of psychological science. Science, 349, aac4716.

Wagenmakers, E. J., Wetzels, R., Borsboom, D., van der Maas, H. L. J., &Kievit, R. A.(2012). An agenda for purely confirmatory research.Perspectives on Psychological Science, 7(6), 632–638.

附錄A

圖3a所說明的是總體效應(yīng)量已知情況下的可重復(fù)率。設(shè)φ(z)為標(biāo)準(zhǔn)常態(tài)累計(jì)分布函數(shù)方程(cumulative distribution function of the standard normal distribution),在圖3a中,右側(cè)豎條陰影部分和左側(cè)豎條陰影因太微小而無法呈示的總面積為P = 1–φ(z+zα/2)+ φ(z–zα/2),此面積即重復(fù)驗(yàn)證時(shí)結(jié)果仍然顯著的概率。其中zα指首次檢驗(yàn)時(shí)顯著性的臨界值,如在雙向(2-tailed)檢驗(yàn)時(shí)z0.05/2= 1.96,z是首次檢驗(yàn)時(shí)實(shí)際獲得的z統(tǒng)計(jì)量。用Microsoft Excel函數(shù)可表達(dá)為:

P=1–NORMSDIST(z+NORMSINV(α/2))+NORMSDIST(z-NORMSINV(α/2)。

例如當(dāng)首次檢驗(yàn)時(shí)顯著水平是0.0069,可得z=NORMSINV(1–0.0069/2)=2.7016, P=1–NORMSDIST(2.7016+1.96)+NORMSDIST(2.7016–1.96)=0.7709。

圖3b說明的是總體效應(yīng)量未知時(shí)的可重復(fù)率。和圖3a不同的是,圖3b右面的代表Ha的鐘形曲線有較大的方差(2倍于左面代表H0的曲線的方差,也即約1.414倍于左面曲線的標(biāo)準(zhǔn)差)。在圖3b中,重復(fù)驗(yàn)證時(shí)結(jié)果仍然顯著的概率是P=1–φ((z獲得+zα/2)/√2)+ φ((z獲得–zα/2)/√2)。其中z獲得指在首次檢驗(yàn)時(shí)所獲得的z統(tǒng)計(jì)量,可從首次驗(yàn)證時(shí)的顯著水平p獲得得出。該方程的Microsoft Excel函數(shù)表達(dá)為:

P=1–NORMSDIST((z獲得+NORMSINV(α/2))×SQRT(2)+NORMSDIST(z獲得–NORMSINV(α/2))×SQRT(2))。

例如當(dāng)首次檢驗(yàn)時(shí)α/2 = 0.025,實(shí)際獲得顯著水平是p獲得= 0.0069,可得z獲得=NORMSINV(1–0.0069/2)=2.7016, P=1–NORMSDIST(2.7016+NORMSINV(α/2))×SQRT(2)+NORMSDIST(2.7016-NORMSINV(α/2))×SQRT(2))=0.7005。

附錄B

根據(jù)Ioannidis(2005)的模型:

經(jīng)過代數(shù)的換項(xiàng)整理可得人為偏差率(μ)的方程如下:

例如PPV = 0.36, α = 0.05, 設(shè)β = 0.30, HTP取其區(qū)間下限HTP = 0.09也即R = 0.10,將這些數(shù)值代入該方程得人為偏差率:

μ =(0.36×(0.10 + 0.05 – 0.30×0.10)–(1 – 0.30) × 0.10)/(0.30×0.10 – 0.36× (1 – 0.05 +0.30×0.10 ))= 0.08。

A Crude Evaluation on the Two Roots of the Reproducibility Crisis in Psychology

LUO Dasen
(Indiana University of Pennsylvania, USA)

The reproducibility crisis in psychology is known to have two roots, the root in the traditional statistical system of null hypothesis significance testing, and that in the academic tradition of psychology. This article was an attempt to crudely estimate the respective impacts of the two roots on the reproducibility crisis in psychology. The results reported by Open Science Collaboration(2015) were analyzed using the methods suggested by Goodman (1992) and by Cumming (2008) to roughly estimate the limiting influence on reproducibility imposed by the traditional system of statistics. The estimated limiting influence, although quite notable,appears to be far short of being able to account for the reproducibility rate as low as 36% indicated by the report, suggesting that factors other than the traditional system of statistics have played a tremendous role in the crisis. The model proposed by Ioannidis(2005) was adopted to analyze the possible impacts of factors other than the traditional system of statistics, and possible ranges of the joint impact of bias and the probability of true alternative hypotheses were extrapolated。 The analysis led to estimates indicating that, of all original positive results, only no more than one third, and probably even less, was true positive, and a considerable portion of these positive results was caused by bias. These results may help explicate how these factors are likely to contribute to the current crisis.

the reproducibility crisis in psychology, limitations of traditional system of statistical testing, flaws in the academic tradition of psychology, the probability of true alternative hypotheses, bias, evaluation on the roots of the reproducibility crisis.

B841

2017–8–10

駱大森,E-mail: dluo@iup.edu。

猜你喜歡
偏差心理學(xué)概率
第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
50種認(rèn)知性偏差
第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
概率與統(tǒng)計(jì)(一)
概率與統(tǒng)計(jì)(二)
如何走出文章立意偏差的誤區(qū)
機(jī)械裝配偏差源及其偏差傳遞機(jī)理研究
自適應(yīng)兩級(jí)UKF算法及其在時(shí)變偏差估計(jì)中的應(yīng)用