[摘要]在統(tǒng)計分析中,多元多水平數(shù)據(jù)越來越多的被應(yīng)用到現(xiàn)代科學(xué)的各個領(lǐng)域,對于這類數(shù)據(jù)分析方法的需求也隨之上升。目前,對于二元數(shù)據(jù)在完全隨機分組實驗里的研究是最基本也是最普遍的一種分析,然而這種二元數(shù)據(jù)的分析并非簡單易行。通常的方法是GLMM分析方法,因為這能夠保證檢驗擁有很好的精度和適當?shù)牡谝活愬e誤水平。然而GLMM分析方法在計算上較為復(fù)雜且時常出現(xiàn)非收斂性。反觀Cochrans Q檢驗不但擁有GLMM分析的優(yōu)勢,同時簡易的計算方法和結(jié)果的收斂性使得這種方法更加有效。以前的研究我可GLMM分析方法已經(jīng)被更廣泛的歸納,但Cochrans Q檢驗僅僅應(yīng)用于兩元多水平的實驗數(shù)據(jù)分析中。因此本文利用實例來闡述并解釋Cochrans Q檢驗在多元多水平數(shù)據(jù)中的應(yīng)用。
[關(guān)鍵詞]多元多水平;完全隨機分組實驗;Cochrans Q檢驗;GLMM;Wald統(tǒng)計量
引言
隨著多元多水平數(shù)據(jù)在生物學(xué),經(jīng)濟學(xué),社會科學(xué)等多個領(lǐng)域中的廣泛出現(xiàn)和應(yīng)用,對這類數(shù)據(jù)分析方法的需求也日益增多。作為其中的代表,GLMM分析方法可以很好的解決這類數(shù)據(jù)在完全隨機分組實驗中的問題,但其計算的繁瑣程度,分析的復(fù)雜性,以及結(jié)果收斂性的不足也限制了此方法的應(yīng)用。Cochrans Q檢驗以簡單的計算,被頻繁應(yīng)用于多水平數(shù)據(jù)在完全隨機分組實驗中的分析,Stuart教授在1955年的研究中對于Cochrans Q檢驗有個歸納,但僅僅針對于二元數(shù)據(jù)。在另一項之前的研究中,Minton教授和Evans教授于2013年發(fā)現(xiàn)Cochrans Q檢驗和GLMM分析方法在檢驗精度以及第一類錯誤水平上,相對于其他一些統(tǒng)計檢驗有較明顯的優(yōu)勢,而GLMM分析方法已經(jīng)被廣泛的應(yīng)用以及歸納,但Cochrans Q檢驗的開發(fā)和應(yīng)用才剛剛延伸到二元多水平數(shù)據(jù)。本文的研究目的在于通過兩個具體的實例,向讀者展示Cochrans Q檢驗對于二元多水平數(shù)據(jù)的分析以及延伸到對于多元多水平數(shù)據(jù)的分析。
基礎(chǔ)工作
多元多水平數(shù)據(jù)在完全隨機分組實驗中的分析是基于二元多水平數(shù)據(jù)在完全隨機分組實驗中的分析,所以在此我們先回顧一下二元多水平數(shù)據(jù)在完全隨機分組實驗中的數(shù)理基礎(chǔ)。
我們定義Yij為二重水平中第j個變量的第i個分組為:
例如,并且,對于第i個分組中,我們假設(shè)一個2t乘以1的向量來顯示成功與失敗的變量:
同時期望值為
通過加和所有分組,得到一個2t乘以1的向量。在等概率的原假設(shè)之下(),加和所有的分組,則對于第j個變量的第i個分組的成功的估計概率為:
假設(shè)原假設(shè)中等概率的假設(shè)是正確的,那么協(xié)方差陣中對于第j個變量的第i個水平是一個單獨貝努利變量,他的結(jié)果可以表示為1成功, 2失敗:
由于貝努利變量只有兩個結(jié)果,非1即2,所以我們可以將表達式簡化為:
基于上面的表達式以及假設(shè)原假設(shè)是正確的,我們可以得出:
因此Y的協(xié)方差陣是:
在帶入估計量πi后,我們可以得到一個關(guān)于協(xié)方差陣穩(wěn)定的估計量。
為了實現(xiàn)原假設(shè)中等概率的假設(shè),Cochrans Q檢驗利用了Wald統(tǒng)計量,。其中 H為一個(t-1)乘以2t的矩陣,由于Wald統(tǒng)計量漸進的服從卡方分布,其中自由度為H矩陣的Rank值(例如,t-1)。
在1955年,Stuart教授將Cochrans Q檢驗延伸到可以分析二元多水平數(shù)據(jù)的完全隨機分組實驗,但是從二元向多元的延伸并沒有出現(xiàn)在他的論文中,所以在下文中,我們將基于之前的分析研究,將Cochrans Q檢驗從二元多水平數(shù)據(jù)的應(yīng)用拓展到多元多水平數(shù)據(jù)的應(yīng)用。
定義多重貝努力變量Yijk對于第j個變量,第k個水平以及第i個分組:
例如,并且
在原假設(shè)之下,處于同一水平下的t個變量的概率應(yīng)該相同,對于第 i個分組,概率的期望值為:
把第k個水平中的所有分組加和之后,我們可以得到估計量:
對于分組之中,水平向量進行加和得到:
一個單獨的多重貝努力變量(例如Yij)的協(xié)方差陣為:
假設(shè)原假設(shè)是正確的,在把第i個分組和第j個變量加和之后,協(xié)方差陣為:
或者表達為
基于之前的表達式,Y的協(xié)方差陣為:
帶入估計量之后,我們就可以得到多重貝努力變量的協(xié)方差陣的估計量。在多重貝努力變量進行Cochrans Q檢驗時,統(tǒng)計量W的表達式為:
其中H是一個(t-1)(s-1)乘以ts的矩陣,而Wald的統(tǒng)計量也如之前一樣,漸進的服從于自由度為H矩陣的秩例如((t-1)(s-1))的卡方分布。
實例:
為了驗證之前數(shù)理理論的正確性,我們會用以下一個例子來將理論付諸于實際問題。
Remedios Vallimor是一位就讀于美國華盛頓州立大學(xué)食品科學(xué)科學(xué)學(xué)院的博士生,他在研究乙醇濃度對于葡萄酒味覺影響的論文中使用了以下數(shù)據(jù),在小組成員品評葡萄酒味覺時使用了3種不同濃度的乙醇,分別為8%,12%以及16%。本次試驗使用了完全隨機分組實驗,一共有三個變量,對于每一種葡萄酒的水果香氣我們定級為三個級別,為低(0),中(1)以及高(2),匯總后的數(shù)據(jù)如下表所示:
本次試驗的目的在于調(diào)查不同濃度的乙醇水平,對于葡萄酒味覺的影響是不是顯著的不同?;谠僭O(shè)等概率的假設(shè),那么相關(guān)的差異列表如下(此處只列出一部分):
表3:三個不同水平下單元編號, 單元數(shù)值以及估計概率
從上表中的數(shù)值我們可以得出,Y的表達式,并且對于第j個變量的所有水平,我們可以得出協(xié)方差陣為:
= 6 * + 12 * + 20 * + 7 * =
在結(jié)合各個水平相對應(yīng)的數(shù)值,我們可以得到他們的加和:
例如:單元編號002數(shù)值為2,單元編號020數(shù)值為1,單元編號200數(shù)值為1,單元編號220數(shù)值為2,那么總數(shù)值為6:
= counts ×= 6×
再結(jié)合三個變量,我們可以得到估計協(xié)方差陣:
=
=
利用下面的對比矩陣,我們便可以計算出總體的Cochrans Q檢驗。
H =
經(jīng)過檢驗,得出的統(tǒng)計值為12.9405,自由度為4,P值為0.0116,由此可以得出結(jié)論:這三種不同的乙醇濃度會導(dǎo)致葡萄酒的口味有顯著差異。由于總體的檢驗結(jié)論拒絕了原假設(shè),那么就希望能夠更進一步的探索出具體這三種不同濃度的乙醇之間的相互比較。基于Cochrans Q檢驗的表達式,可以很方便的得出兩兩比較需要使用的原假設(shè)以及在計算中需要使用的矩陣H。
H(8 vs 12) =
H(8 vs 16)=
H(12 vs 16)=
計算后我們得出三組比較分別得Wald統(tǒng)計量為: = 2.9418, = 12.1817 and = 4.2872.在95%的置信區(qū)間范圍內(nèi),當自由度為2時,臨界值為5.99,通過將Wald統(tǒng)計量于臨界值相比較,我們可以得出,8%與12%的對比,以及12%與16%的對比都并不顯著,但是8%與16%的比較則有顯著地差距。同樣的,我們再一次利用SAS中Proc NLMixed的模塊計算出極大似然統(tǒng)計值,結(jié)果為13.4,自由度為4,P值為0.0095,由此我們可以同樣的到拒絕原假設(shè)的結(jié)論。而利用這種方法得到的結(jié)果與我們Cochrans Q檢驗的結(jié)果非常接近,也驗證了我們理論的正確性及實用性。
討論
當討論和研究多元多水平數(shù)據(jù)在完全隨機分組實驗中的分析時,Cochrans Q檢驗這種分析方法為我們提供了便捷的計算以及準確的結(jié)果。就如上述的例子,利用Cochrans Q檢驗得到的結(jié)果,與利用計算更為復(fù)雜的GLMM分析方法所得出的結(jié)論非常接近。盡管僅通過一個例子很難全方位的展示該理論的準確性以及實用性,但是我仍然堅信該理論能夠很好地應(yīng)用于科學(xué)研究之中。對于該檢驗的其他側(cè)面,例如精度以及第一類錯誤的水平等,會在之后的研究,利用電腦模擬的方法進行檢測,并與其他的主流檢驗方法進行比較。
作者簡介
于晶晶(1990-),女,北京市,研究生在讀,學(xué)歷:研究生,研究方向:數(shù)據(jù)挖掘。