国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

關(guān)于假設(shè)檢驗(yàn)的爭議:問題的澄清與解決*

2016-02-01 03:18:45仲曉波
心理科學(xué)進(jìn)展 2016年10期
關(guān)鍵詞:假設(shè)檢驗(yàn)學(xué)派貝葉斯

仲曉波

(嘉應(yīng)學(xué)院教育科學(xué)學(xué)院, 廣東梅州 514015)

1 問題的提出

自心理學(xué)開始使用實(shí)驗(yàn)方法起, 傳統(tǒng)的假設(shè)檢驗(yàn)方法就一直是其分析實(shí)驗(yàn)數(shù)據(jù)和報告實(shí)驗(yàn)結(jié)果的主要工具。但是也幾乎是從開始使用這一方法的時候起, 在心理學(xué)中就有著斷斷續(xù)續(xù)的對它的批評(Balluerka, Gómez, & Hidalgo, 2005)。心理統(tǒng)計(jì)學(xué)中的這一輪新的關(guān)于傳統(tǒng)假設(shè)檢驗(yàn)的爭議發(fā)軔于 Cohen等人對其邏輯基礎(chǔ)的否定(Cohen,1994; Hagen, 1997)。

在 Cohen等批評者們看來, 傳統(tǒng)假設(shè)檢驗(yàn)確定研究假設(shè)(備擇假設(shè))接受域的推演邏輯是:首先把假設(shè)空間(由實(shí)驗(yàn)結(jié)果能夠得出的所有可能結(jié)論組成)分為零假設(shè)H0和備擇假設(shè)H1兩個互補(bǔ)的部分; 然后在樣本空間(由實(shí)驗(yàn)所有的可能結(jié)果組成)中尋得一個區(qū)域, 使得在零假設(shè)成立的情況下, 實(shí)驗(yàn)結(jié)果落在這個區(qū)域的概率小到這樣的程度——以至于可以近似地認(rèn)為:在零假設(shè)成立的情況下, 實(shí)驗(yàn)結(jié)果不可能落在這個區(qū)域; 根據(jù)“條件命題的逆否命題和原條件命題等價”的邏輯學(xué)原理, 當(dāng)發(fā)現(xiàn)實(shí)驗(yàn)結(jié)果確實(shí)落在這個區(qū)域中時,就可以拒絕零假設(shè); 由于零假設(shè)和備擇假設(shè)的互補(bǔ)性, 拒絕零假設(shè)就意味著接受備擇假設(shè)(Cohen,1994; Hagen, 1997; Balluerka et al., 2005)。這種對傳統(tǒng)假設(shè)檢驗(yàn)原理的論述也常常見諸于心理統(tǒng)計(jì)學(xué)等非數(shù)學(xué)專業(yè)的統(tǒng)計(jì)學(xué)教科書中。

批評者們指出:傳統(tǒng)假設(shè)檢驗(yàn)這一推演邏輯意味著把在樣本空間子集M中能夠拒絕零假設(shè)的標(biāo)準(zhǔn)建立在上, 然而是否拒絕零假設(shè)應(yīng)該以為標(biāo)準(zhǔn)(Cohen, 1994; Hagen,1997)。而和有如下的由貝葉斯公式所確定的關(guān)系:

Cohen等人的這些批評在心理統(tǒng)計(jì)學(xué)中引起熱烈的反響, 研究者們提出各種取代、改進(jìn)或者補(bǔ)充傳統(tǒng)假設(shè)檢驗(yàn)的方案, 但是這些方案大都由于自身的缺陷也受到質(zhì)疑和批評(Balluerka et al.,2005)。關(guān)于傳統(tǒng)假設(shè)檢驗(yàn)的爭議之所以至今尚未得到平息, 其中的一個關(guān)鍵原因是它和統(tǒng)計(jì)學(xué)中的頻率學(xué)派和貝葉斯學(xué)派的對立交織在一起。屬于頻率學(xué)派的傳統(tǒng)假設(shè)檢驗(yàn)在心理學(xué)中所遭受的批評使得一些心理學(xué)研究人員傾向于認(rèn)為應(yīng)該使用貝葉斯學(xué)派中的假設(shè)檢驗(yàn)方法(Morey & Rouder,2011)。Cohen等人的對傳統(tǒng)假設(shè)檢驗(yàn)的邏輯基礎(chǔ)的上述批評使用的也正是貝葉斯統(tǒng)計(jì)學(xué)派中的概念和方法。

統(tǒng)計(jì)學(xué)家們一致地認(rèn)為:取決于問題本身的性質(zhì), 有些問題適合用頻率學(xué)派的方法, 而有些問題則適合用貝葉斯學(xué)派的方法(張堯庭, 陳漢峰,1991)。所以, 為平息心理學(xué)中這場關(guān)于假設(shè)檢驗(yàn)的爭議, 首先必須澄清和解決的問題是:心理學(xué)實(shí)驗(yàn)的數(shù)據(jù)分析適宜用哪個學(xué)派的方法?文章下面的第二部分將通過分析指出:心理學(xué)實(shí)驗(yàn)的性質(zhì)決定了其數(shù)據(jù)處理仍然應(yīng)該用頻率學(xué)派的統(tǒng)計(jì)學(xué)方法; 在頻率學(xué)派的框架下, 傳統(tǒng)的假設(shè)檢驗(yàn)實(shí)際上有著合法的邏輯基礎(chǔ), 但是同時它在效用性方面卻存在缺陷。在澄清這些問題之后, 第三部分將說明:為了克服這些缺陷, 應(yīng)該對傳統(tǒng)的假設(shè)檢驗(yàn)做怎樣的改進(jìn)和補(bǔ)充?置信區(qū)間怎樣能夠集成地表示這些改進(jìn)和補(bǔ)充?文章的第四部分將說明:為什么現(xiàn)行的面向總體的實(shí)驗(yàn)設(shè)計(jì)和數(shù)據(jù)分析方法需要轉(zhuǎn)向?yàn)槊嫦騻€體?

2 問題的澄清

2.1 貝葉斯學(xué)派和頻率學(xué)派關(guān)于假設(shè)檢驗(yàn)的不同觀念

貝葉斯學(xué)派和頻率學(xué)派的區(qū)別并不在于是否使用貝葉斯公式(事實(shí)上兩個學(xué)派都使用這一公式), 就心理學(xué)實(shí)驗(yàn)數(shù)據(jù)的處理來說, 頻率學(xué)派認(rèn)為自變量影響因變量的強(qiáng)度(效應(yīng)值)是個固定值(盡管這個固定值的大小研究者不知道), 而貝葉斯學(xué)派則認(rèn)為這個效應(yīng)值是隨機(jī)變量。由于認(rèn)為效應(yīng)值是隨機(jī)變量, 貝葉斯學(xué)派認(rèn)為關(guān)于效應(yīng)值取值范圍的任何假設(shè)H成立的概率都是0和1之間的某個數(shù)值。設(shè)從實(shí)驗(yàn)獲得的結(jié)果為x, 由貝葉斯公式可得:

從貝葉斯學(xué)派的觀念來看, 實(shí)驗(yàn)在假設(shè)檢驗(yàn)方面的價值就在于把H成立的概率從先驗(yàn)概率更新為后驗(yàn)概率, 而能否接受H的依據(jù)就應(yīng)該是P(H|x)。如果后面的研究者針對相同的問題又做了一個實(shí)驗(yàn), 那么他在應(yīng)用上述公式時所涉及的先驗(yàn)概率就是上一個研究者獲得的。因此貝葉斯假設(shè)檢驗(yàn)強(qiáng)調(diào)研究者在根據(jù)當(dāng)下的實(shí)驗(yàn)結(jié)果做出統(tǒng)計(jì)推斷時, 需要考慮以前的相關(guān)實(shí)驗(yàn)的結(jié)果。正是由于這個原因, 元分析被認(rèn)為是貝葉斯假設(shè)檢驗(yàn)的內(nèi)在要求(Balluerka et al., 2005)。

與貝葉斯學(xué)派的觀念不同, 頻率學(xué)派把效應(yīng)值當(dāng)作固定值, 認(rèn)為關(guān)于效應(yīng)值取值范圍的任何假設(shè)(包括零假設(shè)或者備擇假設(shè))要么成立要么不成立, 即或者P(H)=0。從公式2可以看出:當(dāng)時, 不管x取什么值, 都有;而當(dāng)時, 不管x取什么值, 都有。所以在頻率學(xué)派中, 不存在假設(shè)成立的概率隨實(shí)驗(yàn)結(jié)果變化的問題。

在幾乎所有的心理學(xué)實(shí)驗(yàn)情境中, 自變量的取值都得到研究者嚴(yán)格的操縱, 這決定了自變量對因變量的影響強(qiáng)度(即效應(yīng)值)應(yīng)該看作固定值而不是隨機(jī)變量。所以, 心理學(xué)實(shí)驗(yàn)的基礎(chǔ)條件和頻率學(xué)派的前提吻合, 它的數(shù)據(jù)分析應(yīng)該用頻率學(xué)派的統(tǒng)計(jì)學(xué)方法。在頻率學(xué)派統(tǒng)計(jì)學(xué)中,只可能是0或者1決定了也只可能是0或者是1, 非此即彼。這使得根據(jù)的大小決定是否拒絕H0的說法是沒有意義的,所以Cohen等人通過公式1對傳統(tǒng)的假設(shè)檢驗(yàn)邏輯基礎(chǔ)的批評的出發(fā)點(diǎn)就是錯誤的。

另一方面, 認(rèn)為傳統(tǒng)的假設(shè)檢驗(yàn)是建立在“小概率事件在一次試驗(yàn)中幾乎不可能”原理上也是對它的誤解。根據(jù)這一原理實(shí)際上根本不可能唯一地確定零假設(shè)的拒絕域:除了與M的位置有關(guān)外, 還與M的大小有關(guān); 對于任何一個從實(shí)驗(yàn)獲得的可能結(jié)果x, 我們總可以選取足夠小的包括x的集合M, 使得很小, 并根據(jù)上述“小概率事件在一次試驗(yàn)中幾乎不可能”原理拒絕H0從而接受H1。這顯然是不合理的。事實(shí)上, 嚴(yán)謹(jǐn)?shù)慕y(tǒng)計(jì)學(xué)教科書都明確地指出, 傳統(tǒng)的假設(shè)檢驗(yàn)確定零假設(shè)的拒絕域(備擇假設(shè)的接受域)的方法規(guī)定是奈曼-皮爾遜原則:在維持α足夠小(一般規(guī)定為不大于 0.05或者 0.01)的情況下, 尋找使得 β最小的區(qū)域(梁之舜, 鄧集賢,楊維權(quán), 司徒榮, 鄧永錄, 1980)。這一原則在樣本空間中唯一地確定零假設(shè)的拒絕域。

2.2 傳統(tǒng)的假設(shè)檢驗(yàn)的缺陷和使用者常犯的錯誤

傳統(tǒng)的假設(shè)檢驗(yàn)依據(jù)奈曼-皮爾遜原則確定零假設(shè)拒絕域這一事實(shí)說明它實(shí)際上是考慮降低第二類錯誤的概率的。但是, 一方面由于兩類錯誤概率的相互牽制:在實(shí)驗(yàn)設(shè)計(jì)和樣本容量確定的情況下——一個的減小必然導(dǎo)致另一個的增加,另一方面由于這個原則采取優(yōu)先降低第一類錯誤的策略, 因此在實(shí)際應(yīng)用中, 第二類錯誤的概率β一般都比第一類錯誤的概率α大得多。

比如, 設(shè)有一研究者探究一種新的干預(yù)方法相比于舊的干預(yù)方法是否對兒童自閉癥的治療更有效。在這里零假設(shè)是, 備擇假設(shè)是(2μ和1μ分別是新方法和舊方法干預(yù)效果的量化表示),在中等效應(yīng)(效應(yīng)值為0.5個標(biāo)準(zhǔn)差)、組間設(shè)計(jì)被試數(shù)為25的情況下, 可以算得第二類錯誤概率達(dá)到 0.59。所以, 當(dāng)實(shí)驗(yàn)結(jié)果越過臨界值時,可以做出新方法好于舊方法的統(tǒng)計(jì)推斷(即接受備擇假設(shè)), 并且這個推斷錯誤的概率小于 0.05;但是, 當(dāng)實(shí)驗(yàn)結(jié)果沒有越過臨界值并且研究者因此而做出新方法不比舊方法好的結(jié)論(即接受零假設(shè))時, 那么這個結(jié)論錯誤的概率將達(dá)到0.59。易于看出, 雙尾檢驗(yàn)也存在同樣的問題。

所以, 盡管當(dāng)實(shí)驗(yàn)結(jié)果落在備擇假設(shè)接受域中時, 可以作出接受備擇假設(shè)同時拒絕零假設(shè)的統(tǒng)計(jì)推斷(這個推斷錯誤的概率小于等于α); 但是當(dāng)實(shí)驗(yàn)結(jié)果沒有落在備擇假設(shè)的接受域中時, 卻不能拒絕備擇假設(shè)或者接受零假設(shè)(如果做出這個推斷, 這個推斷錯誤的概率將達(dá)到 β), 此時實(shí)際上處于不能做出統(tǒng)計(jì)推斷的境地。因此, 在傳統(tǒng)的假設(shè)檢驗(yàn)的范式中, 零假設(shè)不可能被接受,相應(yīng)地備擇假設(shè)不可能被否定, 而這違背了研究假設(shè)可證偽這一科學(xué)研究的基本原則。

有相當(dāng)多的研究者意識到傳統(tǒng)假設(shè)檢驗(yàn)的零假設(shè)不可能被接受的缺陷, 當(dāng)實(shí)驗(yàn)結(jié)果沒有越過臨界值時, 他們給出的研究結(jié)論是“不顯著大于(或小于)” (針對單尾檢驗(yàn))和“沒有顯著差異” (針對雙尾檢驗(yàn))。但是, “顯著”卻無法解釋成效應(yīng)值的大小, 因?yàn)閷?shí)驗(yàn)結(jié)果能否越過臨界值除了取決于效應(yīng)大小外, 還取決于樣本容量和實(shí)驗(yàn)設(shè)計(jì)方法。

傳統(tǒng)的假設(shè)檢驗(yàn)的上述缺陷導(dǎo)致人們在使用它時傾向于犯下面的兩個錯誤:

(1) “當(dāng)樣本觀察值沒有落在零假設(shè)的拒絕域中時, 就接受零假設(shè)” (Monterde-i-Bort, Frías-Navarro, & Pascual-Llobell, 2010; Nickerson, 2000)。從某種意義上說, 使用者的這一錯誤是被“逼”出來的, 因?yàn)樗麄內(nèi)绻环高@樣的錯誤, 就會落入備擇假設(shè)不可證偽的尷尬境地。與這個錯誤相對應(yīng), 將第二類錯誤的概率 β稱為“取偽”的概率實(shí)際上也是不恰當(dāng)?shù)?Nickerson, 2000)。

(2)由于當(dāng)樣本觀察值沒有落在零假設(shè)拒絕域中時, 實(shí)際上既不能接受備擇假設(shè), 也不能接受零假設(shè)。這使得一些心理學(xué)研究人員認(rèn)為:當(dāng)實(shí)驗(yàn)數(shù)據(jù)沒有落在零假設(shè)拒絕域中時, 實(shí)驗(yàn)就是失敗的(Monterde-i-Bort et al., 2010)。使用者的這一錯誤傾向是元分析研究中效應(yīng)估計(jì)系統(tǒng)誤差的主要來源; 另一方面除了在效應(yīng)值估計(jì)方面的價值之外, 那些沒有達(dá)到顯著性水平的實(shí)驗(yàn)在統(tǒng)計(jì)推斷方面也是有價值的:元分析方法作用于若干沒有達(dá)到顯著性水平的實(shí)驗(yàn), 也有可能取得達(dá)到顯著性水平的結(jié)果(Ferguson & Brannick, 2012; Coburn& Vevea, 2015; Rothstein & Bushman, 2012)。

傳統(tǒng)假設(shè)檢驗(yàn)的另一個經(jīng)常為人們提及的缺陷是:即使在接受備擇假設(shè)的情況下, 它也只能判斷自變量是否對因變量有影響(雙尾檢驗(yàn))和這種影響的方向(單尾檢驗(yàn)), 但是卻不能告訴這種影響的大小。所以假設(shè)檢驗(yàn)給出的結(jié)論實(shí)際上只是定性的, 它不能提供自變量影響因變量強(qiáng)度的定量說明(Balluerka et al., 2005; Nickerson, 2000)。為克服這一缺陷, 大部分研究者認(rèn)為應(yīng)該以效應(yīng)估計(jì)作為假設(shè)檢驗(yàn)的補(bǔ)充(Kelley & Preacher,2012)。

3 問題的解決

上面的論述所要表達(dá)的結(jié)論是:心理學(xué)實(shí)驗(yàn)的數(shù)據(jù)分析適宜用頻率學(xué)派的統(tǒng)計(jì)學(xué)方法; 按照頻率學(xué)派統(tǒng)計(jì)學(xué)的觀念, 傳統(tǒng)的假設(shè)檢驗(yàn)確定零假設(shè)拒絕域(備擇假設(shè)接受域)的依據(jù)不是“小概率事件在一次試驗(yàn)中幾乎不可能”原理, 而是奈曼-皮爾遜原則; 但是作為一種數(shù)據(jù)處理方法, 傳統(tǒng)的假設(shè)檢驗(yàn)在效用性方面卻是有缺陷的。這決定了:對傳統(tǒng)假設(shè)檢驗(yàn)的恰當(dāng)?shù)膽B(tài)度是改進(jìn)和補(bǔ)充, 而不是拋棄; 而且, 這種改進(jìn)和補(bǔ)充的價值也應(yīng)該在頻率學(xué)派的框架中得到說明。在研究者們提出的各種各樣的改進(jìn)措施中, 最引人注目的是將傳統(tǒng)假設(shè)檢驗(yàn)結(jié)果的兩分法改造為三分法;在研究者們提出的各種各樣的補(bǔ)充措施中, 最重要的是效應(yīng)值估計(jì)和對實(shí)驗(yàn)結(jié)果可重復(fù)性的評估。

3.1 假設(shè)檢驗(yàn)結(jié)果的三分法

對于心理學(xué)中典型的比較平均值的實(shí)驗(yàn), 可以把假設(shè)空間分割為三個部分:

當(dāng)實(shí)驗(yàn)結(jié)果落在兩個臨界值之間時, 則說明從實(shí)驗(yàn)獲得的數(shù)據(jù)還不足以作出接受HR或者的推斷。但是在頻率學(xué)派的統(tǒng)計(jì)學(xué)中, 這種模棱兩可的狀態(tài)是暫時的。由中心極限定理可以證明:不管1μ和2μ的差異多么小, 通過增加樣本容量或者借助于元分析方法, 最終都能使得實(shí)驗(yàn)結(jié)果或者元分析結(jié)果按照1μ和2μ差異的方向越過臨界值, 從而使得研究者最終作出接受HR或者明確推斷。所以, 這種三分法的假設(shè)檢驗(yàn)和元分析方法在邏輯上也是連貫的。

而在貝葉斯統(tǒng)計(jì)學(xué)中, 由于認(rèn)為自變量影響因變量的效應(yīng)值是隨機(jī)變量, 樣本容量的增加或者元分析研究卻不一定能夠達(dá)成擺脫這種模棱兩可狀態(tài)。

3.2 效應(yīng)值的點(diǎn)估計(jì)和及其估計(jì)精度

其統(tǒng)計(jì)學(xué)含義是:這個區(qū)間覆蓋δ的概率是1?a。置信區(qū)間不僅可以通過它的中點(diǎn)給出效應(yīng)的點(diǎn)估計(jì)值d, 而且還可以通過區(qū)間的寬度對這個點(diǎn)估計(jì)值的精確度進(jìn)行估計(jì):區(qū)間越窄,d和δ在統(tǒng)計(jì)上就越接近, 因而這個點(diǎn)估計(jì)值越精確(Geoff& Fiona, 2009)。

公式 3的得出及其對δ的估計(jì)價值只有在δ為固定值而不是隨機(jī)變量的前提下才有可能。所以, 近來為越來越多的心理統(tǒng)計(jì)學(xué)研究人員所提倡的以置信區(qū)間報告心理學(xué)實(shí)驗(yàn)結(jié)果的主張也恰恰說明了心理學(xué)實(shí)驗(yàn)數(shù)據(jù)的分析適宜用頻率學(xué)派的統(tǒng)計(jì)學(xué)方法。

由于雙尾檢驗(yàn)的左臨界值對應(yīng)于效應(yīng)值置信區(qū)間右邊界等于 0的情形, 右臨界值對應(yīng)于置信區(qū)間左邊界值等于0的情形。所以前述的三分結(jié)果的假設(shè)檢驗(yàn)方法可以作為一個子集包含于效應(yīng)值置信區(qū)間中。

3.3 實(shí)驗(yàn)結(jié)果的可重復(fù)性

在這次關(guān)于假設(shè)檢驗(yàn)的爭議中, 心理學(xué)實(shí)驗(yàn)的可重復(fù)性也引起研究者們的關(guān)注和討論(Killeen, 2005, 2010; Iverson, Wagenmakers, & Lee,2010; Lecoutre, Lecoutre, & Poitevineau, 2010)。人們普遍地認(rèn)為:和其他科學(xué)的實(shí)驗(yàn)一樣, 可重復(fù)性也應(yīng)該是評估心理學(xué)實(shí)驗(yàn)的一個核心標(biāo)準(zhǔn), 因?yàn)椴痪邆淇芍貜?fù)性的研究成果不可能產(chǎn)生應(yīng)用價值(Miller & Schwarz, 2011; Maraun & Gabriel,2010; Lilienfeld, 2012; Serlin, 2010)。傳統(tǒng)的假設(shè)檢驗(yàn)由于其備擇假設(shè)的不可證偽性, 使得基于它的對實(shí)驗(yàn)可重復(fù)性的說明存在著這樣的問題:前后兩個同質(zhì)的實(shí)驗(yàn)只要有一個實(shí)驗(yàn)的結(jié)果沒有越過臨界值, 就不能對后一個實(shí)驗(yàn)是否重復(fù)了前一個實(shí)驗(yàn)的結(jié)果做出判斷。為避免這個問題, Killeen提出將第二次實(shí)驗(yàn)的結(jié)果重復(fù)了第一次的實(shí)驗(yàn)的結(jié)果定義為兩次實(shí)驗(yàn)的樣本效應(yīng)值的正負(fù)號相同(Killeen, 2005, 2010)。但是, 他的定義卻有著這樣的缺陷:在樣本效應(yīng)值符號相同這一限制下前后兩個實(shí)驗(yàn)的樣本效應(yīng)值可能相差很大, 而在符號不同的情況下兩個樣本效應(yīng)值也可能相差很小。

Schmidt提出應(yīng)該區(qū)別兩種不同性質(zhì)的實(shí)驗(yàn)的可重復(fù)性問題:一種是如Killeen所說的前后兩個實(shí)驗(yàn)同質(zhì)的情形; 另一種是實(shí)驗(yàn)控制條件變化的情況下, 由控制變量和自變量的交互作用而引起的實(shí)驗(yàn)可重復(fù)性的問題(Schmidt, 2009)。顯然,對于前者, 只需要對兩個實(shí)驗(yàn)的結(jié)果是否相同做出量的評估, 而不必要也不應(yīng)該對它們做出質(zhì)的區(qū)分。在頻率學(xué)派統(tǒng)計(jì)學(xué)中, 同質(zhì)的兩個實(shí)驗(yàn)的樣本效應(yīng)值d1和d2相互獨(dú)立并且滿足, 由此可得d2的1?a置信水平的預(yù)測區(qū)間如下:

其含義是d2以1?a的概率處于上述區(qū)間中。所以這個區(qū)間可以這樣表示實(shí)驗(yàn)結(jié)果的可重復(fù)性程度:區(qū)間的寬度越窄,d2和d1在統(tǒng)計(jì)上越接近,從而實(shí)驗(yàn)的可重復(fù)性也就越好。將上式和公式 3比較可以看出:兩個區(qū)間的中間值相同, 前者的寬度是后者寬度的倍。因此, 也可以直接用CIδ表示實(shí)驗(yàn)結(jié)果的可重復(fù)程度(Cumming, 2010)。

于是, 以置信區(qū)間表示心理學(xué)實(shí)驗(yàn)的結(jié)果能夠集中地實(shí)現(xiàn)假設(shè)檢驗(yàn)結(jié)果的三分法、效應(yīng)值估計(jì)及其精度的估計(jì)以及表示實(shí)驗(yàn)結(jié)果的可重復(fù)性這三方面的功能。而實(shí)驗(yàn)數(shù)據(jù)分析精度, 無論是檢驗(yàn)效力、效應(yīng)估計(jì)精度還是實(shí)驗(yàn)結(jié)果的可重復(fù)性程度都表現(xiàn)在置信區(qū)間的寬度上:區(qū)間的寬度越小, 這三方面的精度越高。如前所述, 置信區(qū)間所有的這些價值只有在頻率學(xué)派統(tǒng)計(jì)學(xué)中才有可能。

4 從面向總體轉(zhuǎn)向面向個體

上述頻率學(xué)派統(tǒng)計(jì)學(xué)中的平均值差異的t檢驗(yàn)、效應(yīng)值估計(jì)、實(shí)驗(yàn)結(jié)果可重復(fù)性的評估以及將這三者合而為一的置信區(qū)間方法都以不同自變量水平下因變量的方差齊性(相等)為前提, 因此在使用這些數(shù)據(jù)分析方法之前, 都應(yīng)該進(jìn)行方差齊性的假設(shè)檢驗(yàn)。但是和在其他情境下使用假設(shè)檢驗(yàn)的過程一樣, 在方差齊性檢驗(yàn)中, 人們也總習(xí)慣于犯這樣的錯誤:當(dāng)檢驗(yàn)數(shù)據(jù)沒有越過臨界值時, 就接受方差齊性這一結(jié)論。心理統(tǒng)計(jì)學(xué)中這場關(guān)于假設(shè)檢驗(yàn)的討論使研究者們認(rèn)識到:在方差齊性檢驗(yàn)中, 方差相等作為零假設(shè), 在原理上實(shí)際上不可能被接受; 而且如前所述, 在備擇假設(shè)(在這里就是方差非齊性)接受域的余集中,備擇假設(shè)(方差非齊性)成立的概率仍有可能相當(dāng)大; 這說明:方差非齊性的情況要比人們所判斷的普遍(Rosopa, Schaffer, & Schroeder, 2013)。

對于在實(shí)驗(yàn)設(shè)計(jì)方面合法的心理學(xué)實(shí)驗(yàn), 實(shí)驗(yàn)處理前不同自變量取值水平下的被試應(yīng)該是同質(zhì)的, 因此實(shí)驗(yàn)前各組被試與因變量有關(guān)的各項(xiàng)指標(biāo)的方差應(yīng)該是齊性的。那么經(jīng)歷實(shí)驗(yàn)處理之后, 不同自變量取值水平下因變量的方差不相等只能歸因于實(shí)驗(yàn)處理和被試的某一(或者某一些)個性特征發(fā)生了交互作用(即 Person×Situation interaction, 簡稱PSI) (Tucker-Drob, 2011)。另一方面 PSI也必然導(dǎo)致方差非齊性, 所以對方差非齊性普遍性的低估同時也意味著對 PSI普遍性的低估。Scott指出:忽視這種交互作用正是制約心理學(xué)實(shí)驗(yàn)應(yīng)用價值的一個重要原因(Lilienfeld, 2012)。

我們認(rèn)為:和任何其他科學(xué)的研究一樣, 心理學(xué)研究(包括心理學(xué)實(shí)驗(yàn))的終極目標(biāo)也應(yīng)該是預(yù)測; 因?yàn)轭A(yù)測是對理論最令人信服的檢驗(yàn), 預(yù)測也是科學(xué)研究應(yīng)用價值的最直接的保證; 而且心理學(xué)的這種預(yù)測應(yīng)該體現(xiàn)在具體的個體上, 因?yàn)閼?yīng)用總是針對具體的個體的。當(dāng)實(shí)驗(yàn)處理和被試的個性特征不存在交互作用時, 實(shí)驗(yàn)處理作用在不同的被試上所產(chǎn)生的效應(yīng)相同, 都等于實(shí)驗(yàn)處理的總體效應(yīng)。自變量和被試個性特征的交互作用意味著:實(shí)驗(yàn)處理作用在不同個性特征的被試上, 產(chǎn)生不同的效應(yīng), 所以, 當(dāng)存在PSI時, 前述的面向總體效應(yīng)的實(shí)驗(yàn)數(shù)據(jù)分析方法就不再合適。

設(shè)實(shí)驗(yàn)操縱的自變量為T, 和T產(chǎn)生交互作用的被試個性特征變量為X, 那么因變量和它們的關(guān)系可表示成如下的形式(其中,e代表不涉及PSI的被試個性特征對因變量的影響):

T和X的交互作用使得它們在公式中不可分離。因此, 此時是用頻率學(xué)派的統(tǒng)計(jì)學(xué)方法還是貝葉斯學(xué)派的統(tǒng)計(jì)學(xué)方法處理實(shí)驗(yàn)數(shù)據(jù)(即將δ(T,X)看著普通變量還是隨機(jī)變量)取決于是否把X看作隨機(jī)變量。

正如當(dāng)實(shí)驗(yàn)中兩個可操縱自變量存在交互作用時, 人們更關(guān)注簡單效應(yīng)一樣, 當(dāng)存在 PSI時,我們也更應(yīng)該關(guān)注實(shí)驗(yàn)處理對X取某個具體數(shù)值x的個體所產(chǎn)生的效應(yīng), 即δ(T,x)。雖然我們也會考察δ(T,x)隨x的變化規(guī)律, 但此時X和仍然只是一般變量, 而不是隨機(jī)變量。基于這樣的理由, 我們認(rèn)為:關(guān)于δ(T,X)的統(tǒng)計(jì)推斷和參數(shù)估計(jì)仍然應(yīng)該用頻率學(xué)派的方法。借助于線性回歸中的數(shù)據(jù)分析程序, 可得關(guān)于X取某個具體數(shù)值x的個體的效應(yīng)δ(T,x)的置信區(qū)間。和公式 3所表示的置信區(qū)間一樣,δ(T,x)的置信區(qū)間也具有統(tǒng)計(jì)推斷、效應(yīng)值及其精度的估計(jì)以及評估實(shí)驗(yàn)結(jié)果的可重復(fù)性的三重功能。

從預(yù)測的角度來看, 心理學(xué)實(shí)驗(yàn)追求的是由T對Y的預(yù)測, 而由X對Y的預(yù)測——由被試的一些個性特征預(yù)測其他的個性特征——則是心理測量學(xué)的主題。到目前為止, 心理學(xué)中這兩個研究取向基本上是分離的。早在上個世紀(jì)中葉Cronbach就提醒人們注意心理學(xué)實(shí)驗(yàn)中實(shí)驗(yàn)處理和被試個性特征交互作用, 同時他還指出這種交互作用必然要求把心理學(xué)研究中的實(shí)驗(yàn)取向和測量學(xué)取向整合在一起(Cronbach, 1957)。只是到了現(xiàn)在, 由于結(jié)構(gòu)方程建模這些統(tǒng)計(jì)工具在心理學(xué)中的使用和普及, 心理學(xué)研究人員才開始在實(shí)踐中對Cronbach的這個要求做出響應(yīng)(Tucker-Drob,2011; Geiser et al., 2015)。有學(xué)者斷言:這種整合將會帶來心理學(xué)方法論的革命(Sharpe, 2013)。

5 結(jié)束語

問題的解決以問題的澄清為必要條件, 在這場因?qū)鹘y(tǒng)的假設(shè)檢驗(yàn)的批評而引發(fā)的一系列爭議中, 首先需要澄清的問題是:心理學(xué)實(shí)驗(yàn)數(shù)據(jù)的處理適宜用貝葉斯學(xué)派的統(tǒng)計(jì)學(xué)方法還是頻率學(xué)派的統(tǒng)計(jì)學(xué)方法?我們認(rèn)為:對于絕大部分心理學(xué)實(shí)驗(yàn), 其數(shù)據(jù)分析適宜用頻率學(xué)派的方法。正因?yàn)槿绱? 傳統(tǒng)的假設(shè)檢驗(yàn)作為頻率學(xué)派中的統(tǒng)計(jì)學(xué)方法, 其缺陷只能也應(yīng)該在頻率學(xué)派統(tǒng)計(jì)學(xué)的框架中得到解決; 而以效應(yīng)值置信區(qū)間表示心理學(xué)實(shí)驗(yàn)數(shù)據(jù)分析的結(jié)果能夠集中地體現(xiàn)對傳統(tǒng)假設(shè)檢驗(yàn)的改進(jìn)和補(bǔ)充。此外, 對假設(shè)檢驗(yàn)使用錯誤的澄清也將會使得心理學(xué)實(shí)驗(yàn)的設(shè)計(jì)和數(shù)據(jù)分析由面向總體轉(zhuǎn)向面向個體。

梁之舜, 鄧集賢, 楊維權(quán), 司徒榮, 鄧永錄. (1980).概率論及數(shù)理統(tǒng)計(jì)(下冊). 北京: 高等教育出版社.

張堯庭, 陳漢峰. (1991).貝葉斯統(tǒng)計(jì)推斷.北京: 科學(xué)出版社.

Balluerka, N., Gómez, J., & Hidalgo, D. (2005). The controversy over null hypothesis significance testing revisited.Methodology,1(2), 55–70.

Coburn, K. M., & Vevea, J. L. (2015). Publication bias as a function of study characteristics.Psychological Methods,20(3), 310–330.

Cohen, J. (1994). The earth is round (p<.05).American Psychologist, 49(12), 997–1003.

Cronbach, L. J. (1957). The two disciplines of scientific psychology.American Psychologist, 12, 671–684.

Cumming, G., & Fidler, F. (2009). Confidence intervals: Better answers to better questions.Zeitschrift für Psychologie/Journal of Psychology, 217(1), 15–26.

Cumming, G. (2010). Replication, prep, and confidence intervals:Comment prompted by Iverson, Wagenmakers, and Lee(2010); Lecoutre, Lecoutre, and Poitevineau (2010); and Maraun and Gabriel (2010).Psychological Methods, 15(2),192–198.

Ferguson, C. J., & Brannick, M. T. (2012). Publication bias in psychological science: Prevalence, methods for identifying and controlling, and implications for the use of metaanalyses.Psychological Methods, 17(1), 120–128.

Geiser, C., Litson, K., Bishop, J., Keller, B., Burns, G. L.,Servera, M., & Shiffman, S. (2015). Analyzing person,situation and person × situation interaction effects: Latent state-trait models for the combination of random and fixed situations.Psychological Methods, 20(2), 165–192.

Hagen, R. L. (1997). In praise of the null hypothesis statistical test.American Psychologist, 52(1), 15–24.

Harris, R. J. (1997). Significance tests have their place.Psychological Science, 8(1), 8–11.

Iverson, G. J., Wagenmakers, E. J. & Lee, M. D. (2010). A modelaveraging approach to replication: The case of prep.Psychological Methods, 15(2), 172–181.

Kelley, K., & Preacher, K. J. (2012). On effect size.Psychological Methods,17(2), 137–152.

Killeen, P. R. (2005). An alternative to null-hypothesis significance tests.Psychological Science, 16, 345–352.

Killeen, P. R. (2010).Prepreplicates: Comment prompted by Iverson, Wagenmakers, and Lee (2010); Lecoutre,Lecoutre, and Poitevineau (2010); and Maraun and Gabriel(2010).Psychological Methods, 15(2), 199–202.

Lecoutre, B., Lecoutre, M. P., & Poitevineau, J. (2010). Killeen's probability of replication and predictive probabilities:How to compute, use, and interpret them.Psychological Methods, 15(2), 158–171.

Lilienfeld, S. O. (2012). Public skepticism of psychology:Why many people perceive the study of human behavior as unscientific.American Psychologist, 67(2), 111–129.

Maraun, M., & Gabriel, S. (2010). Killeen's (2005)prepcoefficient: Logical and mathematical problems.Psychological Methods, 15(2), 182–191.

Miller, J., & Schwarz, W. (2011). Aggregate and individual replication probability within an explicit model of the research process.Psychological Methods, 16(3), 337–360.

Monterde-i-Bort, H., Frías-Navarro, D., & Pascual-Llobell, J.(2010). Uses and abuses of statistical significance tests and other statistical resources: A comparative study.European Journal of Psychology of Education, 25, 429–447.

Morey, R. D., & Rouder, J. N. (2011). Bayes factor approaches for testing interval null hypotheses.Psychological Methods,16(4), 406–419.

Nickerson, R. S. (2000). Null hypothesis significance testing:A review of an old and continuing controversy.Psychological Methods, 5(2), 241–301.

Rosopa, P. J., Schaffer, M. M., & Schroeder, A. N. (2013).Managing heteroscedasticity in general linear models.Psychological Methods, 18(3), 335–351.

Rothstein, H. R., & Bushman, B. J. (2012). Publication bias in psychological science: Comment on Ferguson and Brannick (2012).Psychological Methods, 17(1), 129–136.

Schmidt, S. (2009). Shall we really do it again? The powerful concept of replication is neglected in the social sciences.Review of General Psychology, 13(2), 90–100.

Serlin, R. C. (2010). Regardingprep: Comment prompted by Iverson, Wagenmakers, and Lee (2010); Lecoutre, Lecoutre,and Poitevineau (2010); and Maraun and Gabriel (2010).Psychological Methods, 15(2), 203–208.

Sharpe, D. (2013). Why the resistance to statistical innovations?Bridging the communication gap.Psychological Methods,18(4), 572–582.

Tucker-Drob, E. M. (2011). Individual differences methods for randomized experiments.Psychological Methods, 16(3),298–318.

猜你喜歡
假設(shè)檢驗(yàn)學(xué)派貝葉斯
創(chuàng)建梵凈山學(xué)派 培育梵凈山學(xué)
貝葉斯公式及其應(yīng)用
統(tǒng)計(jì)推斷的研究
時代金融(2017年6期)2017-03-25 12:02:43
雙冪變換下正態(tài)線性回歸模型參數(shù)的假設(shè)檢驗(yàn)
Primary Question and Hypothesis Testing in Randomized Controlled Clinical Trials
統(tǒng)計(jì)學(xué)教學(xué)中關(guān)于假設(shè)檢驗(yàn)問題探討
基于貝葉斯估計(jì)的軌道占用識別方法
一種基于貝葉斯壓縮感知的說話人識別方法
電子器件(2015年5期)2015-12-29 08:43:15
法蘭克福學(xué)派自由觀的探析
試析子思學(xué)派的“誠敬”論
中阳县| 合水县| 潜江市| 全椒县| 宜宾市| 乐至县| 巫山县| 龙井市| 临猗县| 宝丰县| 板桥市| 横峰县| 芦山县| 巴楚县| 左云县| 临海市| 无锡市| 平江县| 富顺县| 蕉岭县| 广汉市| 南澳县| 荥经县| 赣州市| 星子县| 镇原县| 泰宁县| 库尔勒市| 会宁县| 沙坪坝区| 泰和县| 永寿县| 德惠市| 钟山县| 清水河县| 丹寨县| 岐山县| 工布江达县| 浑源县| 泰宁县| 罗源县|