鮑 貴
(南京工業(yè)大學 英語系,江蘇 南京 211816)
任何推理統(tǒng)計都涉及到兩類錯誤率,即第一類錯誤率(Type I error rate,記作α)和第二類錯誤率(Type II error rate,記作β)。第一類錯誤率是零假設(H0)為真卻被錯誤拒絕的概率,因而不拒絕零假設的置信度為1-α。第二類錯誤率是零假設為誤卻被錯誤接受的概率,因而拒絕零假設的置信度為1-β。以往的研究重視第一類錯誤率,將α值設得很低,譬如.05或.01等,以期獲得科學的新發(fā)現(xiàn)。傳統(tǒng)上對第二類錯誤率的重視程度不足,主要是因為研究者通常希望證實與零假設相對立的備擇假設(Ha,又稱研究假設)而非零假設本身,零假設的提出與拒絕只是為備擇假設的成立提供反證。
實際上,第一類和第二類錯誤率是緊密聯(lián)系的,重視一類錯誤、忽略另一類錯誤不是很好的統(tǒng)計思維方法。近40年來,尤其在 Cohen(1969;1977;1988)的力作問世之后,研究者們逐漸意識到第二類錯誤率和第一類錯誤率一樣值得重視,因為它們均對能否得到科學的新發(fā)現(xiàn)起著至關重要的作用。不過,研究者們在研究第二類錯誤率時卻通常換用其補數(shù)(1-β),將之稱作統(tǒng)計效力(statistical power,簡稱效力),以此反映零假設為誤時研究拒絕零假設的能力。在科學的實證研究中,由于并不真正知道會犯哪類錯誤,因而研究者既需要控制第一類錯誤率,以避免在零假設為真的情況下得到虛假的研究發(fā)現(xiàn),又需要控制第二類錯誤率(即提高統(tǒng)計效力),以便在研究假設為真的情況下能夠得到研究發(fā)現(xiàn)。關于實證研究中效力的重要性,Hallahan&Rosenthal(1996:491)做了很好的概括:(1)如果計劃研究時不考慮效力,研究能夠發(fā)現(xiàn)實際存在的效應的可能性或許很小。其結果是,由于不可能拒絕零假設而造成時間和資源的浪費。(2)由于解釋結果時沒有考慮效力,研究者可能將無顯著性結果解釋為零假設為真,從而過早地放棄很有前景的研究取向。Shadish等.(2002)和 Heppner等(2008)等將低統(tǒng)計效力視作統(tǒng)計結論效度的重要威脅。美國心理學會(American Psychological As-sociation,2010:30)建議,使用推理統(tǒng)計時,研究者應考慮與假設檢驗相關的統(tǒng)計效力。這關系到在α水平、一定效應量(effect size,簡稱ES)和樣本量(sample size)條件下正確拒絕所要檢驗的假設的可能性,因此,研究者應常規(guī)性地提供證據(jù),表明研究有足夠效力發(fā)現(xiàn)有實質性意義的效應。
在研究設計中,要保證統(tǒng)計效力,就要考慮選用合適的樣本量。外語教學研究者在研究設計中通常對選擇多大的樣本量沒有把握,樣本量選擇過大或過小的情況時常出現(xiàn)。樣本量選擇過大雖然不會削弱統(tǒng)計效力,但是往往會造成人力和物力資源的浪費,使研究設計顯得不經(jīng)濟。而且,樣本量過大也更易產(chǎn)生統(tǒng)計顯著性結果(即概率p<α),可能導致研究發(fā)現(xiàn)沒有實際意義的效應量。當然,習慣于直接解釋效應量的研究者不會落入根據(jù)p值判斷效應是否重要這一陷阱(Ellis,2010:52)。另一方面,樣本量過小則會使統(tǒng)計效力降低,減少了發(fā)現(xiàn)總體效應的可能性,不僅造成人力和物力資源的浪費,還會導致錯誤的結論,譬如將統(tǒng)計不顯著的結果錯誤地解釋為接受零假設。因此,樣本量過大和過小都會降低研究的效率。優(yōu)化研究設計必須考慮效力、效應量和樣本量之間的關系,選擇適當?shù)臉颖玖俊1狙芯恳苑讲罘治?含t檢驗)為例介紹統(tǒng)計效力和效應量的基本概念,分析樣本量與其他影響參數(shù)之間的關系,為樣本量的確定提供必要的方法。
就方差分析而言,傳統(tǒng)上影響效力的參數(shù)為第一類錯誤率、樣本量和非中心參數(shù)(noncentrality parameter,簡稱NCP,記作λ)。非中心參數(shù)表示研究假設偏離零假設的程度,計算公式為:
公式中,SSHa是研究假設中期望平均數(shù)的平方和,n是每個比較總體平均數(shù)μi的樣本量,μ是各個比較總體平均數(shù)μi的平均數(shù),k是比較總體數(shù)。σ2是總體方差,常用方差分析中的誤差均方(MSE)來估計。零假設為真時,λ =0,F(xiàn)分布為中心分布。研究假設為真時,λ≠0,F(xiàn)分布為非中心分布。自由度確定時,零假設條件下的F分布只有一個,即中心F分布,但是同樣自由度時的非中心F分布卻有多個,分布的位置取決于λ。非中心參數(shù)λ值越大,非中心F分布就越遠離中心分布,統(tǒng)計效力就越高。圖1顯示單因素方差分析時中心和非中心F分布中各個參數(shù)之間的關系。
圖1 中心與非中心F分布比較
左圖中心F分布F(k-1,k(n-1))臨界值右邊的面積等于α值。右圖中的β值為非中心F分布中小于或等于α值所對應的F臨界值的F統(tǒng)計量的概率,效力為1-β。中心F分布臨界值是F分布的分子、分母的自由度和α的函數(shù),其中,分子、分母的自由度完全由比較總體數(shù)k和每組樣本量n決定。中心F分布的臨界值越大,臨界線就越向右移,β值就會越大,效力也就越低,反之亦然。α值不變時,對于比較組數(shù)(k)相同的方差分析,每組樣本量(n)越大,F(xiàn)分布臨界值就越小(圖中的臨界線左移),β值隨之減小,效力也就增加。如果α值也增加,F(xiàn)分布臨界值就會更小,β值也會更小,效力也就會再增加。
下面仍以單因素方差分析為例探討不同參數(shù)之間的關系。假設三個比較總體的平均數(shù)分別為μ1=85、μ2=90 和 μ3=80,標準差 σ =10。我們利用R軟件(鮑貴,2012)編寫程序考察在α =.05、每組樣本量n取10-30區(qū)間21個不同值時,樣本量、非中心參數(shù)和效力之間的關系,統(tǒng)計結果見表1。
表1 顯示,k=3、n=10 時,效力為 0.46,即在總體效應存在的情況下,基于該樣本量發(fā)現(xiàn)它的概率卻不到50%。要提高效力,就要增加樣本量。當每組樣本量增至20時,效力水平基本達到0.8。在此之前,效力隨樣本量增加而增加的速度較快,而在此之后,效力隨樣本量增加的速度有減緩的趨勢,樣本量的影響力減小。
總體上,α值不變時,增大任何兩個參數(shù)值,都會增大第三個參數(shù)值。在一個參數(shù)值減小的情況下,要使另一個參數(shù)值保持不變,就要增大第三個參數(shù)值。譬如,如果非中心參數(shù)值小,要使效力保持在一個較高的水平,那就需要增加樣本量。實際研究中,由于α值通常設定為.05,研究者往往根據(jù)n和λ確定效力或根據(jù)λ和效力確定研究所需的樣本量。
表1 不同參數(shù)之間的關系
從λ的計算公式可以看到,λ不獨立于樣本量n,即λ不是反映總體特征的一個固定值。這兩個參數(shù)的相互依賴性往往使得研究者不便依據(jù)λ來確定研究所需的樣本量。當今研究中,往往用反映總體特征的一個固定參數(shù)來替代λ。這一固定參數(shù)就是Cohen(1969;1977;1988)提出的獨立于樣本量的效應量。效應量是指某個現(xiàn)象存在于總體中的程度或零假設錯誤的程度(Cohen,1988:9-10),測量上表現(xiàn)為標準化平均數(shù)的標準差。方差分析中,效應量(用f表示)的計算公式為:
零假設為真時,f=0;零假設為誤時,f≠ 0。在n和α值不變時,f值越大,效力就越高,反之亦然。表1的21個樣本中,雖然λ值各不相同,但是效應量均相等(f≈0.41)。在f和α值不變時,如果要使效力保持在一個較高的水平,切實可行的辦法是增加樣本量。
由于f是反映總體平均數(shù)差異大小的一個穩(wěn)定的特征,所以用它來估計研究所需的樣本量比使用λ更為方便。以下仍以三組單因素方差分析為例探討不同參數(shù)之間的關系。圖2顯示單因素方差分析(k=3,α =.05)中效應量與樣本量之間的關系隨效力變化的趨勢。
圖2 不同效力中效應量與樣本量的關系
圖2中的9條曲線自下而上反映效力水平為0.1-0.9時研究需要的每組樣本量??傮w上,效力恒定時,隨著效應量的增加,研究所需的樣本量呈下降趨勢。效應量介于0.1-0.25之間時,圖中曲線下降較為陡峭,說明樣本量受效力水平的影響較大。效應量大于0.25之后,曲線變化較為平緩,說明樣本量受效力水平的影響減弱。效應量大于0.4之后,9條線幾乎重合,效力水平對樣本量的影響大大減弱。效應量小時,要使研究的效力保持在較高的水平,則必須擴大樣本量。如果效應量大,即便要保持較高的效力水平,樣本量也不必很大。
表2以具體數(shù)值的形式反映單因素方差分析(k=3,α =.05)中每組樣本量、效力和效應量之間的關系。
表2 不同效力和效應量條件下的每組樣本量
當f值為最小值0.1、每組樣本量為22時,效力只有0.1,因而雖然總體效應存在,基于該樣本量發(fā)現(xiàn)它的概率卻只有10%。隨著樣本量的增大,效力也在增大。如果要達到0.8這一效力水平,每組樣本量則應為323。隨著效應量的提高,達到同等效力所需的每組樣本量則減少。譬如,在效應量為0.3時,要達到效力水平0.8,每組所需樣本量降至37。如果效應量高達0.5,每組樣本量為14時便可達到效力水平0.8。
效力分析涉及四個參數(shù),即樣本量(n)、α、效力和效應量(或非中心參數(shù))。知道其中的任何三個參數(shù)便可求得另一個參數(shù)。效力分析的主要目的之一是在研究設計階段根據(jù)參數(shù)之間的關系確定研究所需的樣本量。要確定研究所需的樣本量,就要確定其他三個參數(shù)。為了同時控制第一類和第二類錯誤率,α和β通常設定為很小的水平。按常規(guī),α =.05、.01或.001,其中 α 最常用值為.05。對于β值設定的規(guī)約性沒有α那么強,但是當今研究中β的通常值設定為0.1,即效力取值為0.9,0.8常被視作可接受的最小效力值(即 β =0.2)(Batterham & Atkinson,2005:158)。傳統(tǒng)上,β 取值大于α之值,反映出研究者對錯誤接受零假設不那么保守。正如Cohen(1988:56)所說,通常情況下,行為科學家判定第一類錯誤比第二類錯誤嚴重,因此需要更加嚴防。沒有發(fā)現(xiàn)比虛假的發(fā)現(xiàn)危害程度小這一認識與傳統(tǒng)的科學觀是一致的。研究者通常固定α和β值,其目的是為了控制基于樣本的統(tǒng)計推理可能犯的不同類型錯誤。因此,研究者最重要的工作就是確定研究總體效應量或非中心參數(shù)。由于非中心參數(shù)與樣本量不獨立,因而,比較切合實際的做法是估計總體效應量。一旦明確了總體效應量估計,研究所需的樣本量便可確定。總體效應量通常是未知的,準確估計它至關重要,因為它不僅直接影響對研究所需樣本量的估計,而且也是科學研究追求的目標。
研究者通常可以用不同方法估計總體效應量。最好的方法是回顧相關實證研究,計算平均效應量作為總體效應量的最接近的估計。如果前期研究沒有提供基于樣本的效應量,研究者可以根據(jù)它們提供的基本數(shù)據(jù)(比如平均數(shù)和標準差)計算估計的效應量。計算平均效應量可采用加權(weight)方法,最簡便的方法是以樣本量作為權重(Hunter&Schmidt,2004;Ellis,2010)。利用前期各項研究的效應量估計平均效應量采用加權的方式而不采用簡單地求它們的算術平均數(shù)(即各個研究效應量之和除以研究的數(shù)量)的理由是,來自大樣本的效應量估計因為取樣誤差小,所以比來自小樣本的估計更準確,在平均效應量估計中應占有更大的權重。現(xiàn)以實驗研究中常用的獨立樣本t檢驗為例。該檢驗用于比較實驗組和對照組平均數(shù)差異,是單因素方差分析的簡化形式。效應量(d)的計算公式為:
公式中,ME和Mc分別代表實驗組和控制組總體平均數(shù),σ為每個總體的標準差(假設每個總體的標準差相等)。該公式也適用于非實驗條件下兩個獨立組比較時的效應量計算。如果前期研究對兩個獨立樣本平均數(shù)差異采用單因素方差分析,則d=2f。實際研究中,用樣本平均數(shù)(和)和合并標準差(SD)估計對應總體參數(shù)。兩組樣本量相等時,合并標準差為兩個樣本方差(VE和VC)平均數(shù)的平方根。假定某研究者回顧前期五項研究得到表3數(shù)據(jù)。
表3 五項研究的結果和效應量
根據(jù)d的計算公式,求得各項研究的效應量,如表3最后一列所示。從效應量估計值來看,各研究之間有很大差異??傮w效應量的最優(yōu)估計為各研究效應量加權平均數(shù)(),計算公式為:
公式中,wi是權重,di是第i個研究的效應量,k是研究的數(shù)量。本研究使用的權重是樣本量Ni(第i個研究兩個樣本量之和),經(jīng)計算得到≈ 0.35。
由于d可以有方向性地比較實驗組和控制組標準化平均數(shù)差異的大小,因而在元分析(metaanalysis)中常采用加權的方法估計總體效應。方差分析是無方向性的。在比較多組(三組或三組以上)平均數(shù)差異時,該分析只能回答各組之間有無顯著性差異存在,不能明確差異的具體位置,除非進行多重比較(multiple comparisons)。正因為如此,統(tǒng)計學家不對多組方差分析中的效應量f進行元分析。不過,在研究設計階段,為了確定研究所需的樣本量,研究者也可以用以上對d的加權方法估計平均效應量f,作為對總體效應量的最近似估計。如果研究者不采用這一估算方法,也可以只計算出與自身研究相似的前期研究的效應量f,再決定合理的效應量應該有多大。
另一種方法是在沒有前期實證研究結果做參考的情況下開展先導研究,對研究總體的效應量進行恰當?shù)墓烙?。第三種方法是結合研究實際合理地主觀估計效應量。該方法適用于既沒有前期相關實證研究結果作為支撐、條件又不允許開展先導研究的情形。由此得到的總體效應量估計可能不是很精確。最后,如果研究者認為合理的估計很難,不妨采用Cohen(1988)的建議。Cohen(1988)針對各種統(tǒng)計分析方法提出的效應量大小的標準可以作為合理的參照。譬如,Cohen(1988:25-27,284-288)將t檢驗中小、中、大效應量分別操作定義為d=0.2、d=0.5 和d=0.8;方差分析中的小、中、大效應量分別操作定義為f=0.1、f=0.25和f=0.4。在缺乏判斷效應量大小的依據(jù)時,建議研究者采用小效應量計算研究所需的樣本量,以免效應量估計過高導致實際統(tǒng)計效力降低。不管研究的實際效應量有多大,如果研究有足夠的效力確保發(fā)現(xiàn)小效應,那么犯第一類或第二類嚴重錯誤的風險就會很小(Murphy&Myors,2004:59)。
在設定第一類錯誤率α和效力水平,并且估計出總體效應量之后,便可以確定研究所需的樣本量了。研究所需樣本量的確定方法主要有以下幾種。第一種是利用R和SAS等軟件的外置或附加效力分析程序計算出不同統(tǒng)計分析需要的樣本量。譬如,表3中的平均效應量珔d≈0.35,設α=.05,效力水平為0.8。使用R的外置程序pwr,輸入命令:pwr.t.test(d=0.35,sig.level=.05,power=.8,type= “two.sample”,alternative= “greater”),則單側t檢驗所需要的每組樣本量為102。這意味著,要使研究在80%的情況下能夠發(fā)現(xiàn)總體效應(0.35),每組的樣本量應為102。如果研究者使用雙側t檢驗,則只需將命令中的“greater”改為“two.sided”,由此得到n=130,比單側t檢驗需要的樣本量要大一些。
PASS和G*Power等效力分析專用軟件也是很方便的選擇。這些軟件能夠計算各種統(tǒng)計分析的效力或需要的樣本量,并能繪制出各種效力分析圖形。G*Power是免費使用軟件(網(wǎng)址:http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3/download-and-register),且界面操作簡便,因此建議研究者使用該軟件。關于該軟件各種統(tǒng)計分析功能的詳細介紹,研究者可參考Faulet al.(2007)、Mayret al.(2007)和 Lan & Lian(2010)。
第三種方法是查閱效力分析樣本量表。以Cohen(1988)提供的不同統(tǒng)計分析(包括t檢驗、方差分析和相關分析等)樣本量表為例。如果研究的某個效應量在表中有顯示,則查表比較方便:在某個α水平上,某個效應量所在的列與設定的某個效力水平所在的排交叉得到的數(shù)值即為樣本量。譬如,d=0.30、α =.05、效力水平為 0.8 時,查表得到單側獨立樣本t檢驗需要的每組樣本量n=138。但是,如果研究的效應量d不在表中,則需要采用近似計算的方法得到樣本量,計算公式為:
公式中,分子n.10是在某個α和效力水平上d=0.10時所需的樣本量,分母中的d為表中沒有顯示的效應量,常數(shù)1是調整所需樣本量的經(jīng)驗平均值。根據(jù)表3求出的加權平均效應量0.35不在效力分析表中,但是表中提供了單側獨立樣本t檢驗在 α =.05、效力水平為 0.8 時的n.10值(1237)。在α =.05(單側t檢驗)時,樣本略微更精確的估計可采用常數(shù)0.7代替1,經(jīng)計算得到本例所需的樣本量為n≈102。如果采用雙側t檢驗,α值和效力水平不變,則n.10=1571(表中值),經(jīng)計算得到n≈ 130。
關于方差分析樣本量表需要做點說明。Cohen(1988)提供的表為單因素方差分析樣本量表。表中列出在分子自由度不同,α和效應量f取不同值時不同效力水平對應的樣本量。如果研究的效應量f不在表中,則也需要采用近似計算的方法得到樣本量,計算公式為:
公式中,分子n.05是在某個α和效力水平上f=0.05時所需的樣本量,分母中的f為表中沒有顯示的效應量,1為調整樣本量的常數(shù)。前面提到,獨立樣本t檢驗是單因素方差分析的簡化形式(比較組限于2個)。用方差分析同樣可以得到研究所需的樣本量。兩組比較時,表3求出的效應量d≈0.35等同于f≈0.175。在 α =.05,效力為0.8時,n.05=1571(表中值),經(jīng)計算得到n≈ 130,與上面得到的樣本量相同。
Cohen(1988:396-403)談到因素方差分析中在計算某個效力水平上發(fā)現(xiàn)主效應和交互效應所需的樣本量時如何利用單因素方差分析樣本量表的問題。各個效應量單元格樣本量(nc)的計算公式為:
公式中,n'數(shù)值上等于表中的n,number of cells為單元格總數(shù),u是效應自由度(等于因素水平數(shù)-1),末尾的1是校正單元格樣本〗uB=2,fB=0.4;uA×B=2,fA×B=0.25。為了確定各個效應需要的樣本量,研究者決定將α和效力水平分別設定為.05和0.8。對于A因素效應,查表得到n=n'=45,利用上面的公式得到nc≈16,那么研究所需的總樣本量N應為96。同樣方法可以得到:因素B的單元格nc=11,總樣本量N為66;交互作用A×B的單元格nc≈27,總樣本量N為162。如果研究者要在效力為0.8的水平上發(fā)現(xiàn)中等效應的交互作用,則總樣本量應為162。由于162是三個效應量所需樣本量的最大值,所以使用此樣本量能夠保證兩個主效應的效力水平在0.8以上。用G*Power計算得到的各效應所需總樣本量分別為90(A因素)、64(B因素)和 158(A×B交互作用)。由于舍入和計算方法的不同,這些值略低于利用表格計算得到的對應總樣本量。在算法上,Cohen(1988)表中的樣本量采用近似算法,G*Power采用精確算法??傮w上,這兩種方法得到的結果基本一致。對于因素設計,Cohen(1988)算法得到的樣本量估計偏高(Erdfelderet al.,1996)。
統(tǒng)計學是發(fā)展迅猛的一門學科。傳統(tǒng)的統(tǒng)計分析方法和統(tǒng)計觀念不斷地被調整,新的統(tǒng)計分析方法不斷涌現(xiàn)。既然外語教學研究是以統(tǒng)計分析為主導的,那么外語教學研究者就有必要跟得上統(tǒng)計學發(fā)展的步伐,更新研究方法和統(tǒng)計觀念。效力分析是外語教學研究必不可少的研究設計與分析環(huán)節(jié)。其主要目的之一就是為了在規(guī)定第一類和第二類錯誤率的前提下選擇適當?shù)臉颖玖?,確??傮w效應量存在時一項研究在很大程度上能夠發(fā)現(xiàn)它。
外語教學研究者對研究所需樣本量問題的認識不夠深刻,對效力分析還比較陌生。鑒于此,本文以單因素方差分析為例,介紹了決定研究所需樣本量的三個重要參數(shù),即第一類錯誤率、效力和效應量(或非中心參數(shù)),探討了它們之間的關系,詳細分析了確定效應量的方法以及計算研究所需樣本量的多種途徑,以期引起研究者對確定樣本量問題的重視,并在未來研究設計中能夠確定恰當?shù)臉颖玖?,提高統(tǒng)計分析的水平。
[1] American Psychological Association.Publication Manual of the American Psychological Association(6th ed.)[M].Washington,DC:Author,2010.
[2]Batterham,A.M.& G.Atkinson.How Big does My Sample Need to Be?A Primer on the Murky World of Sample Size Estimation [J].Physical Therapy in Sport,2005(6)3:153-163.
[3]Cohen,J.Statistical Power Analysis for the Behavioral Sciences[M].New York:Academic Press,1969.
[4]Cohen,J.Statistical Power Analysis for the Behavioral Sciences[M].New York:Academic Press,1977.
[5]Cohen,J.Statistical Power Analysis for the Behavioral Sciences[M].Hillsdale,NJ:Lawrence Erlbaum Associates,1988.
[6]Ellis,P.D.The Essential Guide to Effect Sizes:Statistical Power,Meta-Analysis,and the Interpretation of Research Results[M]. Cambridge: Cambridge University Press,2010.
[7]Erdfelder,E.,F(xiàn).Faul& A.Buchner.G*POWER:A General Power Analysis Program [J].Behavior Research Methods,Instruments,&Computers,1996,(28)1:1–11.
[8]Faul,F(xiàn).,E.Erdfelder,A.G.Lang& A.Buchner.G*Power 3:A Flexible Statistical Power Analysis Program for the Social,Behavioral,and Biomedical Sciences[J].Be-havior Research Methods,2007(39)2:175-191.
[9]Hallahan,M.& R.Rosenthal.Statistical Power:Concepts,Procedures,and Applications[J].Behaviour Research and Therapy,1996,(34)5/6:489-499.
[10]Heppner,P.P.,B.E.Wampold& D.M.Kivlighan,Jr.Research Design in Counseling(3th ed.)[M].Belmont,CA:Thomson Brooks/Cole,2008.
[11]Hunter,J.E.& F.L.Schmidt.Methods of Meta-Analysis:Correcting Error and Bias in Research Findings(2nd ed.) [M]. London:Sage Publications Ltd.,2004.
[12]Lan,L.& ZW.Lian.Application of Statistical Power A-nalysis–How to Determine the Right Sample Size in Human Health,Comfort and Productivity Research[J].Building and Environment,2010,(45)5:1202-1213.
[13] Mayr,S.,E.Erdfelder,A.Buchner & F.Faul.A Short Tutorial of G*Power[J].Tutorials in Quantitative Methods for Psychology,2007,(3)2:51-59.
[14]Murphy,K.R.& B.Myors.Statistical Power Analysis:A Simple and General Model for Traditional and Modern Hypothesis Tests(2nd ed.)[M].Mahwah,NJ:Lawrence Erlbaum Associates,2004.
[15]Shadish,W.R.,T.D.Cook& D.T.Campbell.Experimental and Quasi-Experimental Designs for Generalized Causal Inference[M].Boston:Houghton Mifflin Company,2002.
[16]鮑貴.多元回歸分析中的交互作用問題——以語言閾限假設檢驗為例[J].外國語文,2012(4):63-68.