丁雪梅,張曉君,白春艷,孫藝學(xué),徐向紅,叢彥龍,官 員,李心慰,包國(guó)章,丁洪浩
(1.吉林大學(xué) 動(dòng)物科學(xué)學(xué)院,吉林 長(zhǎng)春 130062;2.吉林大學(xué) 教育技術(shù)中心,吉林 長(zhǎng)春 130012; 3.吉林省畜牧獸醫(yī)研究院,吉林 長(zhǎng)春130062;4.吉林大學(xué) 數(shù)學(xué)學(xué)院,吉林 長(zhǎng)春 130012;5.吉林大學(xué) 動(dòng)物醫(yī)學(xué)學(xué)院,吉林 長(zhǎng)春 130062;6.吉林大學(xué) 新能源與環(huán)境學(xué)院,吉林 長(zhǎng)春 130012;7.吉林大學(xué) 教務(wù)處,吉林 長(zhǎng)春 130012)
試驗(yàn)結(jié)果的統(tǒng)計(jì)分析是科學(xué)研究中至關(guān)重要的一個(gè)環(huán)節(jié),統(tǒng)計(jì)分析方法通常利用SPSS軟件來(lái)實(shí)現(xiàn)[1-3]。選擇不合適的統(tǒng)計(jì)分析方法,不僅會(huì)使前期的試驗(yàn)設(shè)計(jì)和實(shí)施的試驗(yàn)方案功虧一簣,可能還會(huì)得出錯(cuò)誤的結(jié)論。統(tǒng)計(jì)分析方法的選擇要考慮分析目的、因素和水平數(shù)量、試驗(yàn)設(shè)計(jì)類型、資料類型等,這一直是從事動(dòng)物科學(xué)和動(dòng)物醫(yī)學(xué)實(shí)驗(yàn)的研究人員,特別是初學(xué)者最為困惑的問(wèn)題。本研究將統(tǒng)計(jì)分析方法的選擇以流程圖的形式進(jìn)行簡(jiǎn)明總結(jié),方便動(dòng)物科學(xué)、動(dòng)物醫(yī)學(xué)等非統(tǒng)計(jì)專業(yè)人員了解和掌握,并就統(tǒng)計(jì)分析方法如何在SPSS上的實(shí)現(xiàn)等進(jìn)行詳解。
1.1 統(tǒng)計(jì)分析方法應(yīng)在試驗(yàn)前確定統(tǒng)計(jì)分析與試驗(yàn)設(shè)計(jì)密不可分。采用何種統(tǒng)計(jì)分析方法,在進(jìn)行試驗(yàn)設(shè)計(jì)時(shí)就應(yīng)該考慮到。例如,研究3種飼料對(duì)烏雞體質(zhì)量的影響,如果烏雞的性別、籠舍擺放位置等都相同,體質(zhì)量相近,則試驗(yàn)有1個(gè)試驗(yàn)因素3個(gè)水平,可采用單因素多水平設(shè)計(jì)或稱為完全隨機(jī)設(shè)計(jì),將30只烏雞隨機(jī)分成3組,隨機(jī)喂3種不同飼料,飼養(yǎng)30 d,烏雞的體質(zhì)量是計(jì)量資料,為單變量計(jì)量資料,經(jīng)過(guò)總體分布類型的判斷與檢驗(yàn)后,若服從正態(tài)分布,且獨(dú)立、等方差,可選擇單因素方差分析。這里,單因素方差分析的前提條件之一是獨(dú)立性,體現(xiàn)在試驗(yàn)設(shè)計(jì)和實(shí)施方案中就是烏雞在各組中的分配是隨機(jī)的。如果想進(jìn)一步考察其中某一種飼料飼養(yǎng)的10只烏雞體斜長(zhǎng)與體質(zhì)量之間的直線回歸關(guān)系,1個(gè)試驗(yàn)因素1個(gè)水平,單組設(shè)計(jì),體斜長(zhǎng)和體質(zhì)量是計(jì)量資料,為雙變量計(jì)量資料,若自變量體斜長(zhǎng)和因變量體質(zhì)量皆呈正態(tài)分布,可采用直線回歸分析。
1.2 統(tǒng)計(jì)分析方法選擇的思路統(tǒng)計(jì)分析方法的選擇可遵循下面的思路:分析目的→因素和水平數(shù)量→試驗(yàn)設(shè)計(jì)類型→資料類型→變量數(shù)量和類型→統(tǒng)計(jì)分析方法的前提條件→統(tǒng)計(jì)分析方法的選擇。
2.1 分析目的與統(tǒng)計(jì)分析方法選擇合適的統(tǒng)計(jì)分析方法,首先要考慮分析目的。歸納起來(lái),分析目的及統(tǒng)計(jì)分析方法見(jiàn)表1。
表1 分析目的與統(tǒng)計(jì)分析方法
2.2 因素和水平數(shù)量、試驗(yàn)設(shè)計(jì)類型、資料類型與統(tǒng)計(jì)分析方法按供試因素的多少,試驗(yàn)可分為只有1個(gè)因素的單組設(shè)計(jì)、配對(duì)設(shè)計(jì)、成組設(shè)計(jì)和單因素多水平設(shè)計(jì)的單因素試驗(yàn)以及隨機(jī)區(qū)組設(shè)計(jì)、拉丁方設(shè)計(jì)、交叉設(shè)計(jì)、析因設(shè)計(jì)、重復(fù)測(cè)量設(shè)計(jì)等2個(gè)或2個(gè)以上因素的多因素試驗(yàn)。此外,還有完全隨機(jī)設(shè)計(jì)方法,是將全部受試對(duì)象隨機(jī)地分配到各個(gè)處理組中,分別接受不同的處理,然后對(duì)其效應(yīng)進(jìn)行比較[4]。這里,處理有2個(gè)或2個(gè)以上水平,分別相當(dāng)于成組設(shè)計(jì)和單因素多水平設(shè)計(jì)。每種試驗(yàn)設(shè)計(jì)方法,至少有1個(gè)試驗(yàn)因素。多因素試驗(yàn),只有星點(diǎn)設(shè)計(jì)是5個(gè)水平,其他試驗(yàn)設(shè)計(jì)的水平數(shù)2個(gè)或2個(gè)以上。根據(jù)試驗(yàn)設(shè)計(jì)開(kāi)展試驗(yàn)的結(jié)果,按變量屬于定量或定性,可將資料分為3種類型[5](表2)。盡管計(jì)量資料可以轉(zhuǎn)換成二分類計(jì)數(shù)資料和等級(jí)資料,但首選的還是計(jì)量資料的統(tǒng)計(jì)分析方法。常用的試驗(yàn)設(shè)計(jì)方法和統(tǒng)計(jì)分析方法見(jiàn)表3。
2.2.1計(jì)量資料統(tǒng)計(jì)分析方法的選擇及在SPSS19.0上的實(shí)現(xiàn) 計(jì)量資料統(tǒng)計(jì)分析方法的選擇需要考慮分析目的、因素?cái)?shù)、水平數(shù)、試驗(yàn)設(shè)計(jì)方法、前提條件等。如果隨機(jī)樣本服從正態(tài)分布,可選用t檢驗(yàn)、方差分析、協(xié)方差分析等,否則需選用非參數(shù)檢驗(yàn),或者通過(guò)變量轉(zhuǎn)換服從正態(tài)分布后再進(jìn)行方差分析(圖1~3,表4)。
因素既包括試驗(yàn)因素也包括區(qū)組因素(重要的非試驗(yàn)因素)。做為試驗(yàn)對(duì)象的動(dòng)物往往在性別、年齡、體質(zhì)量等很多方面存在差異,這些差異對(duì)試驗(yàn)結(jié)果有不可忽視的影響,在試驗(yàn)設(shè)計(jì)時(shí)必須將其作為區(qū)組因素加以考慮。因素取不同的值或狀態(tài),即為水平。例如研究飼料對(duì)烏雞體質(zhì)量的影響,粗蛋白含量15%,17%,19%為試驗(yàn)因素“飼料”的3個(gè)水平。如果烏雞僅體質(zhì)量差別較大,為了降低體質(zhì)量對(duì)試驗(yàn)結(jié)果的影響,按照體質(zhì)量的不同劃分成若干個(gè)區(qū)組。
表2 資料類型、分類及舉例
表3 常用的試驗(yàn)設(shè)計(jì)方法及統(tǒng)計(jì)分析方法
續(xù)表3
圖1 計(jì)量資料統(tǒng)計(jì)分析方法選擇流程圖
圖2 協(xié)方差分析方法選擇步驟圖
圖3 不滿足方差分析前提條件的計(jì)量資料的數(shù)據(jù)轉(zhuǎn)換
表4 計(jì)量資料統(tǒng)計(jì)分析方法的選擇及在SPSS19.0上的實(shí)現(xiàn)
如果性別、籠舍擺放位置等都相同,隨機(jī)選定的30只烏雞體質(zhì)量也相近,只考察1種飼料飼養(yǎng)30 d后,與散養(yǎng)相同天數(shù)的烏雞增質(zhì)量的平均值(或中位數(shù))比較是否有差異,就是單組設(shè)計(jì),1個(gè)因素1個(gè)水平,若增質(zhì)量服從正態(tài)分布,采用單樣本t檢驗(yàn),非正態(tài)可采用單個(gè)樣本的符號(hào)檢驗(yàn);如果考察兩種飼料之間烏雞增質(zhì)量是否有差異,將烏雞隨機(jī)分成2組,隨機(jī)喂2種不同飼料,就是成組設(shè)計(jì),1個(gè)因素2個(gè)水平,獲得2個(gè)獨(dú)立樣本,若增質(zhì)量服從正態(tài)分布,采用獨(dú)立樣本t檢驗(yàn),非正態(tài)可采用兩個(gè)獨(dú)立樣本比較的Wilcoxon秩和檢驗(yàn);如果考察3種飼料對(duì)烏雞增質(zhì)量是否有影響,將烏雞隨機(jī)分成3組,隨機(jī)喂3種不同飼料,就是單因素多水平設(shè)計(jì)(完全隨機(jī)設(shè)計(jì)),1個(gè)因素至少3個(gè)水平,若增質(zhì)量正態(tài)、等方差,采用單因素方差分析,非正態(tài)可采用Kruskal-WallisH檢驗(yàn)。如果要考察3種飼料和2個(gè)溫度對(duì)烏雞增質(zhì)量是否有影響,將6只烏雞隨機(jī)分成2組,1組飼養(yǎng)溫度為25℃,另外1組為30℃,每組隨機(jī)喂3種不同飼料,這就是雙因素?zé)o重復(fù)設(shè)計(jì),有2個(gè)試驗(yàn)因素,水平數(shù)至少2個(gè)且無(wú)重復(fù),不能考察因素間的交互作用,若增質(zhì)量正態(tài)、等方差,采用兩因素方差分析,非正態(tài)或正態(tài)但方差不齊可采用FriedmanM檢驗(yàn)。
上述的單組設(shè)計(jì)、成組設(shè)計(jì)、單因素多水平設(shè)計(jì)(完全隨機(jī)設(shè)計(jì))和雙因素?zé)o重復(fù)設(shè)計(jì)增加時(shí)間因素,如考察30,60,90 d的烏雞增質(zhì)量,就是重復(fù)測(cè)量設(shè)計(jì),至少具有1個(gè)重復(fù)測(cè)量因素,從類型上劃分,第1種為具有1個(gè)重復(fù)測(cè)量因素的單因素設(shè)計(jì),中間的2種為具有1個(gè)重復(fù)測(cè)量因素的兩因素設(shè)計(jì),最后1種為具有1個(gè)重復(fù)測(cè)量因素的3因素設(shè)計(jì),第1種類型不能夠考察交互作用,其他2種類型可以考察因素間的交互作用,若增質(zhì)量正態(tài)、等方差、又滿足球?qū)ΨQ,可采用多因素方差分析。
其他因素都相同,僅烏雞體質(zhì)量差別較大,如果想比較30只烏雞飼養(yǎng)30 d增質(zhì)量在2種飼料之間是否有差異,按照體質(zhì)量的不同劃分成2個(gè)區(qū)組,每1個(gè)區(qū)組隨機(jī)分配2種不同飼料,獲得2個(gè)配對(duì)樣本,若增質(zhì)量正態(tài),采用配對(duì)樣本t檢驗(yàn),非正態(tài)可采用配對(duì)樣本比較的Wilcoxon符號(hào)秩檢驗(yàn);如果想比較3種飼料對(duì)烏雞增質(zhì)量的影響,將9只烏雞按照體質(zhì)量的不同劃分成3個(gè)區(qū)組,試驗(yàn)有2個(gè)因素(飼料為試驗(yàn)因素,體質(zhì)量為區(qū)組因素)3個(gè)水平,每1個(gè)區(qū)組隨機(jī)分配3種不同飼料,即進(jìn)行隨機(jī)區(qū)組設(shè)計(jì),2個(gè)因素,1個(gè)試驗(yàn)因素、1個(gè)區(qū)組因素,至少2個(gè)水平且無(wú)重復(fù),不能考察因素間的交互作用,若增質(zhì)量正態(tài)、等方差,可選擇2因素方差分析,非正態(tài)或正態(tài)但方差不齊可采用非參數(shù)檢驗(yàn)的FriedmanM檢驗(yàn);如果再增加1個(gè)區(qū)組因素,籠舍擺放位置,即3個(gè)因素,2個(gè)區(qū)組因素(體質(zhì)量、籠舍擺放位置)、1個(gè)試驗(yàn)因素(飼料)對(duì)烏雞增質(zhì)量是否有影響,將9只烏雞按照體質(zhì)量的不同劃分成3個(gè)區(qū)組,采用3×3階拉丁方,每個(gè)區(qū)組隨機(jī)分配3種不同飼料,隨機(jī)分配上、中、下籠舍擺放位置,這是拉丁方設(shè)計(jì),要求橫行單位組數(shù)、直列單位組數(shù)、試驗(yàn)處理數(shù)與試驗(yàn)處理的重復(fù)數(shù)必須相等,不能考察因素間的交互作用,若增質(zhì)量正態(tài)、等方差,可選擇多因素方差分析。
想考察2種瘤株的生瘤效果和2種藥物的抑瘤作用,如果其他因素都相同,僅烏雞體質(zhì)量差別較大,按照體質(zhì)量不同將20只烏雞分成5個(gè)區(qū)組,每個(gè)區(qū)組內(nèi)的4只烏雞隨機(jī)分成2組,每組隨機(jī)接種2種不同瘤株,觀察腫瘤生長(zhǎng)情況,1 d后,每組的2只烏雞分別注射2種不同藥物,連續(xù)用藥10 d,停藥1 d后解剖測(cè)定腫瘤直徑,就是裂區(qū)設(shè)計(jì),對(duì)時(shí)段(或區(qū)域)進(jìn)行了分割,因素施加有時(shí)間先后,有重復(fù)的裂區(qū)設(shè)計(jì)可以考察因素間的交互作用,若腫瘤直徑正態(tài)、等方差,可采用多因素方差分析;將20只患腫瘤烏雞隨機(jī)分成2組,1組先用A藥,后用B藥,另1組先用B藥,后用A藥,考察2種藥物的療效,就是交叉設(shè)計(jì),3個(gè)因素,1個(gè)試驗(yàn)因素,2個(gè)區(qū)組因素,受試對(duì)象可以接受因素的多個(gè)水平,不能考察因素間的交互作用,若腫瘤直徑正態(tài)、等方差,可采用多因素方差分析;要考察兩種藥物的療效,A藥濃度的數(shù)值為20,25,B藥濃度的數(shù)值為5,10,15,將20只患腫瘤烏雞隨機(jī)分成5組,隨機(jī)分配1種藥物的某個(gè)濃度,從專業(yè)上講,藥物種類的作用大于濃度的作用,即濃度的作用嵌套在藥物中,而且不同藥物所用的濃度即水平數(shù)量和數(shù)值也不相同,這就是系統(tǒng)分組設(shè)計(jì),因素之間具有自然屬性上的嵌套關(guān)系或因素對(duì)指標(biāo)的影響存在主次關(guān)系,不能考察因素間的交互作用,若腫瘤直徑正態(tài)、等方差,可采用多因素方差分析。
分析飼料、溫度等試驗(yàn)因素或體質(zhì)量、性別、籠舍擺放位置等區(qū)組因素對(duì)烏雞增質(zhì)量的影響,只要因素和水平都2個(gè)或2個(gè)以上,因素的各水平之間交叉組合,且至少有2次重復(fù),就是析因設(shè)計(jì),因素同時(shí)施加,有重復(fù)的析因設(shè)計(jì)可以考察因素間的交互作用,若增質(zhì)量正態(tài)、等方差就可以選擇多因素方差分析。研究飼料、溫度、微量元素銅的添加量等多因素多水平對(duì)烏雞增重的影響,可采用析因設(shè)計(jì)、正交設(shè)計(jì)、均勻設(shè)計(jì)、星點(diǎn)設(shè)計(jì),增質(zhì)量正態(tài)、等方差就可以選擇多因素方差分析。若想進(jìn)行全面試驗(yàn),可進(jìn)行析因設(shè)計(jì),但試驗(yàn)次數(shù)較多,可采用其他3種部分試驗(yàn),要求是試驗(yàn)因素,自變量是連續(xù)變量,則3種試驗(yàn)設(shè)計(jì)方法都可以采用,其中星點(diǎn)設(shè)計(jì)精度高、預(yù)測(cè)性強(qiáng),若有非連續(xù)變量,只能采用正交設(shè)計(jì)和均勻設(shè)計(jì),均勻設(shè)計(jì)比正交設(shè)計(jì)試驗(yàn)次數(shù)少,但只具有均衡分散的特點(diǎn)而缺少了正交設(shè)計(jì)整齊可比的特點(diǎn)。正交設(shè)計(jì)、均勻設(shè)計(jì)、星點(diǎn)設(shè)計(jì)分別按照有交互作用的正交設(shè)計(jì)表、有交互作用的均勻設(shè)計(jì)表、星點(diǎn)設(shè)計(jì)表開(kāi)展試驗(yàn),無(wú)重復(fù)也可以考察因素間的交互作用。
在實(shí)際科學(xué)研究中,烏雞的初始體質(zhì)量或多或少都會(huì)有一些差異,為了降低初始體質(zhì)量對(duì)試驗(yàn)結(jié)果的影響,可以考慮采用協(xié)方差分析,在實(shí)施單因素多水平設(shè)計(jì)(完全隨機(jī)設(shè)計(jì))、隨機(jī)區(qū)組設(shè)計(jì)、雙因素?zé)o重復(fù)設(shè)計(jì)、析因設(shè)計(jì)時(shí),將烏雞的初始體質(zhì)量作為協(xié)變量,可以同時(shí)考察飼料和初始體質(zhì)量對(duì)烏雞增的影響,初始體質(zhì)量和增質(zhì)量是連續(xù)型計(jì)量資料,若增質(zhì)量獨(dú)立、正態(tài)、等方差,就可以采用協(xié)方差分析。
多因素試驗(yàn)設(shè)計(jì)的方差分析,單變量計(jì)量資料除了滿足獨(dú)立、正態(tài)、等方差,重復(fù)測(cè)量設(shè)計(jì)還要滿足球?qū)ΨQ;利用SPSS軟件進(jìn)行多因素方差分析,系統(tǒng)分組設(shè)計(jì)在“模型”模塊中的“平方和類型”選擇“類型Ⅰ”,而其他多因素試驗(yàn)設(shè)計(jì)皆選擇系統(tǒng)默認(rèn)的“類型Ⅲ”;兩因素方差分析和多因素方差分析,都能夠比較因素影響的大小關(guān)系。除了星點(diǎn)設(shè)計(jì),其他多因素試驗(yàn)設(shè)計(jì)方法都可利用SPSS軟件直接輸出兩因素方差分析和多因素方差分析結(jié)果。星點(diǎn)設(shè)計(jì)也可利用SPSS軟件進(jìn)行統(tǒng)計(jì)分析,但需要通過(guò)不斷地剔除無(wú)意義的交互項(xiàng)和高次項(xiàng),最終得到一個(gè)最佳的簡(jiǎn)化方程[6]。對(duì)于星點(diǎn)設(shè)計(jì)的統(tǒng)計(jì)分析,經(jīng)常采用Design-Expert軟件,因?yàn)榭芍苯拥玫饺拷Y(jié)果,即方差分析結(jié)果、極值點(diǎn)、最佳工藝,繪制三維效應(yīng)面和等高線圖等。
2.2.2計(jì)數(shù)資料或等級(jí)資料統(tǒng)計(jì)分析方法的選擇及在SPSS19.0上的實(shí)現(xiàn) 計(jì)數(shù)資料或等級(jí)資料統(tǒng)計(jì)分析方法的選擇需要考慮分析目的、因素?cái)?shù)、水平數(shù)、試驗(yàn)設(shè)計(jì)方法、樣本數(shù)量、列聯(lián)表類型(前提條件)等(表3,5~7)。利用SPSS軟件對(duì)計(jì)數(shù)資料或等級(jí)資料進(jìn)行統(tǒng)計(jì)分析時(shí),都要先對(duì)“頻數(shù)”進(jìn)行加權(quán),操作步驟:數(shù)據(jù)→加權(quán)個(gè)案,加權(quán)個(gè)案(W)→頻率變量(F):頻數(shù)→確定。一個(gè)屬性分類時(shí)通??蛇x擇3種統(tǒng)計(jì)分析方法(表4)。2個(gè)或更多屬性分類時(shí),常將資料整理成列聯(lián)表形式,可分為4大類13型[7-8],統(tǒng)計(jì)分析方法見(jiàn)表5~7。其中,SPSS軟件對(duì)2×2四格表進(jìn)行CMH檢驗(yàn)(分層卡方檢驗(yàn)),也稱為k×2×2表格數(shù)據(jù)的CMH檢驗(yàn),即Mantel-Haenszel分層卡方檢驗(yàn),控制混雜因素,考察分層因素(分層變量或控制變量)的影響[9]。R×C單向有序分為2種,1種是分組有序,指標(biāo)無(wú)序;1種是分組無(wú)序,指標(biāo)有序。
表5 1個(gè)屬性分類時(shí)可選擇的統(tǒng)計(jì)分析方法及在SPSS19.0上的實(shí)現(xiàn)
表6 列聯(lián)表的類型和舉例
2.3 變量數(shù)量和類型與統(tǒng)計(jì)分析方法單變量、雙變量、多變量的統(tǒng)計(jì)分析方法見(jiàn)表8。
2.3.1雙變量資料統(tǒng)計(jì)分析方法的選擇 根據(jù)分析目的、資料類型、前提條件等選擇雙變量資料統(tǒng)計(jì)分析方法(圖4)。例如,考察葡萄糖溶液質(zhì)量濃度(0,40,80,120,160,200 mg/L)與對(duì)應(yīng)的光密度值(因變量,為計(jì)量資料)之間的直線回歸關(guān)系,光密度值獨(dú)立、正態(tài),可采用Ⅰ型直線回歸分析。如果想考察某一種飼料飼養(yǎng)的30只烏雞胸圍與體質(zhì)量之間的直線回歸關(guān)系,兩者都是計(jì)量資料,若自變量胸圍和因變量體質(zhì)量皆呈正態(tài)分布,可采用Ⅱ型直線回歸分析;如果想考察體斜長(zhǎng)與胸圍的相關(guān)關(guān)系,若這2個(gè)變量都服從正態(tài)分布,可采用Pearson直線相關(guān)分析,如果非正態(tài),可采用Spearman或kendall等級(jí)相關(guān)分析。兩個(gè)變量間并非都呈直線形式,例如,火箭電泳實(shí)驗(yàn)中,對(duì)自變量免疫球蛋白濃度和因變量火箭高度作散點(diǎn)圖,顯示兩者不呈線性關(guān)系,分別用對(duì)數(shù)函數(shù)、指數(shù)函數(shù)等曲線擬合,通過(guò)P值最終確定兩者存在對(duì)數(shù)曲線關(guān)系。如果含有等級(jí)資料,例如研究20頭患病狗的血小板數(shù)量(計(jì)量資料)與出血狀況(等級(jí)資料,分為4個(gè)等級(jí):明顯、較明顯、個(gè)別血點(diǎn)、無(wú))的關(guān)系,可采用Kendall等級(jí)相關(guān)分析。
2.3.2多變量資料統(tǒng)計(jì)分析方法的選擇及在SPSS19.0上的實(shí)現(xiàn) 按統(tǒng)計(jì)研究設(shè)計(jì)的功能劃分,一種是試驗(yàn)設(shè)計(jì),一種是調(diào)查設(shè)計(jì)[10]。試驗(yàn)設(shè)計(jì)是根據(jù)研究目的,通過(guò)具體的試驗(yàn)去探測(cè)未知事物或現(xiàn)象的本質(zhì)規(guī)律,研究者主動(dòng)去安排試驗(yàn),為了使試
表7 列聯(lián)表中計(jì)數(shù)資料和等級(jí)資料常用的統(tǒng)計(jì)分析方法的選擇及在SPSS19.0上的實(shí)現(xiàn)
續(xù)表7
表8 變量數(shù)量與類型與統(tǒng)計(jì)分析方法
圖4 雙變量資料統(tǒng)計(jì)分析方法選擇的流程圖
驗(yàn)因素的試驗(yàn)效應(yīng)能更加充分地顯露出來(lái),除了試驗(yàn)因素之外的其他試驗(yàn)條件盡可能一致,或者嚴(yán)格控制區(qū)組因素,例如表3中的15種試驗(yàn)設(shè)計(jì)方法;調(diào)查設(shè)計(jì)是為了某種目的而進(jìn)行的調(diào)查研究,對(duì)客觀存在的事物或者現(xiàn)象進(jìn)行被動(dòng)觀察,包括詢問(wèn)相關(guān)情況和測(cè)定一些指標(biāo),以便弄清楚引起某種結(jié)果的原因和已產(chǎn)生的影響或關(guān)于未來(lái)情況的預(yù)測(cè)。
多變量資料統(tǒng)計(jì)分析,即多元統(tǒng)計(jì)分析。通常對(duì)調(diào)查設(shè)計(jì)和試驗(yàn)設(shè)計(jì)中的單組設(shè)計(jì)進(jìn)行多元統(tǒng)計(jì)分析,對(duì)于其他試驗(yàn)設(shè)計(jì)的某一水平也可以進(jìn)行多元統(tǒng)計(jì)分析,例如,考察某一種飼料飼養(yǎng)的肉用型豬眼肌面積、胴體長(zhǎng)、背膘厚等與瘦肉量之間的線性關(guān)系,可采用多元線性回歸分析。調(diào)查設(shè)計(jì)的統(tǒng)計(jì)分析,例如,為了更加科學(xué)地指導(dǎo)學(xué)生選擇文科和理科,調(diào)查了600名學(xué)生的數(shù)學(xué)、物理、化學(xué)、語(yǔ)文、歷史、英語(yǔ)成績(jī),進(jìn)行主成分分析。
多變量資料統(tǒng)計(jì)分析方法的選擇需要考慮變量間的關(guān)系、分析目的、變量類型、前提條件等(圖5、表9)。例如想考察某一種飼料飼養(yǎng)的30只烏雞體質(zhì)量與體斜長(zhǎng)、胸深、胸寬、胸圍、胸骨長(zhǎng)、髖寬、脛長(zhǎng)與體質(zhì)量的線性關(guān)系,變量皆是計(jì)量資料,為多變量連續(xù)型計(jì)量資料,其他變量為自變量,若因變量體質(zhì)量獨(dú)立、正態(tài)、線性、齊性,可采用多元線性回歸分析。
多元線性回歸是研究一個(gè)變量(因變量)和另一些變量(自變量)間的線性關(guān)系,通徑分析是在多元線性回歸的基礎(chǔ)上將相關(guān)系數(shù)分解為直接通徑系數(shù)和間接通徑系數(shù)[11]。多元線性回歸、逐步回歸分析、通徑分析之間的關(guān)系:多元線性回歸分析能夠建立因變量與自變量間的線性關(guān)系,但并非所有的自變量都對(duì)因變量有顯著效應(yīng),逐步回歸分析是從多元線性回歸方程式中剔除對(duì)因變量作用不顯著的自變量,保留作用顯著的變量,通徑分析不僅可以建立自變量與因變量之間的線性關(guān)系,可以考察某一個(gè)自變量對(duì)因變量的直接作用,還可以考察該自變量通過(guò)其他自變量對(duì)因變量的間接作用。3種統(tǒng)計(jì)分析方法要求因變量為連續(xù)型計(jì)量數(shù)據(jù),且滿足獨(dú)立(觀測(cè)間獨(dú)立)、正態(tài)(殘差服從正態(tài)分布)、線性(自變量與因變量之間是線性關(guān)系)、齊性(殘差的方差齊性)。
研究多個(gè)變量之間相關(guān)關(guān)系時(shí),常常用到偏相關(guān)分析。偏相關(guān)分析在研究其中兩個(gè)變量之間的相關(guān)關(guān)系時(shí)控制可能對(duì)其產(chǎn)生影響的其他變量[12]。進(jìn)行SPSS操作時(shí),把要比較的兩個(gè)變量放在“變量”中,將其余的變量放在“控制”中。
多元線性回歸模型適用于分析一個(gè)連續(xù)型因變量與一組自變量之間的關(guān)系,但如果因變量為分類變量,則喪失了線性關(guān)系,不適用線性回歸分析,可采用Logistic回歸分析。Logistic回歸按因變量類型劃分為二分類Logistic回歸、無(wú)序多分類Logistic回歸、有序Logistic回歸,按研究設(shè)計(jì)類型劃分為條件Logistic回歸、非條件Logistic回歸。其中,非條件Logistic回歸通常采用成組設(shè)計(jì),例如,為了研究糖尿病腎病患者死亡的影響因素,用成組設(shè)計(jì)研究600名糖尿病腎病患者性別、年齡、心衰(是與否)、呼衰(是與否)、感染(是與否)對(duì)死亡(是與否)的影響。若想研究糖尿病的危險(xiǎn)因素,要采用配對(duì)設(shè)計(jì),病例與對(duì)照需要按照一定的配比方式(1∶M),例如1∶2或1∶3,調(diào)查患者和正常人的性別、年齡、心衰(是與否)、呼衰(是與否)、感染(是與否)對(duì)死亡(是與否)的影響,統(tǒng)計(jì)分析方法采用條件Logistic回歸。同為配對(duì)設(shè)計(jì)和成組設(shè)計(jì),這里的變量多變量,而表3中相同名稱的兩種試驗(yàn)設(shè)計(jì)方法分別獲得2個(gè)配對(duì)樣本和2個(gè)獨(dú)立樣本,按照表8中變量數(shù)量劃分則是單變量。
圖5 多變量資料統(tǒng)計(jì)分析方法(多元統(tǒng)計(jì)分析方法)選擇流程圖
表9 常用的多變量資料統(tǒng)計(jì)分析方法(多元統(tǒng)計(jì)分析方法)、舉例及在SPSS19.0上的實(shí)現(xiàn)
主成分分析,精選少數(shù)有代表性的綜合指標(biāo),來(lái)反應(yīng)原來(lái)眾多指標(biāo)中所含的大部分信息,用較少的變量去解釋原始數(shù)據(jù)中的大部分變異[12]。主成分分析和因子分析適用于變量之間存在較強(qiáng)相關(guān)性的數(shù)據(jù)。SPSS操作時(shí),除了點(diǎn)擊“描述”、“抽取”、“得分”、“選項(xiàng)”模塊,因子分析只比主成分分析多點(diǎn)擊一個(gè)模塊即“旋轉(zhuǎn)”模塊,“方法”通常選擇“最大方差法”。
判別分析,首先要有一批分類明確的樣品,根據(jù)這些樣品制定出一個(gè)分類標(biāo)準(zhǔn)來(lái)指導(dǎo)以后對(duì)新樣品的歸類[13]。聚類分析是根據(jù)對(duì)象的特征,按照一定的標(biāo)準(zhǔn)對(duì)研究對(duì)象進(jìn)行分類[14]。判別分析和聚類分析都是按照“物以類推”的原則來(lái)研究事物分類。不同點(diǎn):聚類分析有別于判別分析的是事先不知道事物的分類,需要根據(jù)事物的數(shù)量表現(xiàn)來(lái)聚類。聚類分析,若變量是計(jì)量資料,要求多元正態(tài)性、方差齊性。
2.4 樣本數(shù)量和樣本量大小與統(tǒng)計(jì)分析方法的檢驗(yàn)效能若樣本數(shù)量過(guò)小,會(huì)影響正態(tài)性檢驗(yàn)、t檢驗(yàn)、直線回歸分析等的檢驗(yàn)效能。Logistic回歸樣本量至少>100,>500 比較合適,一般每1個(gè)自變量至少需要10例結(jié)局,變量的個(gè)數(shù)越多需要的例數(shù)相應(yīng)也越大[9,15],樣本量過(guò)小也會(huì)影響其檢驗(yàn)效能。
3.1 數(shù)據(jù)錄入形式很重要例如,利用Logistic 回歸研究不同因素如組別(試驗(yàn)組:采用翻轉(zhuǎn)課堂教學(xué)模式,對(duì)照組:采用傳統(tǒng)教學(xué)模式)、專業(yè)(動(dòng)物科學(xué),動(dòng)物醫(yī)學(xué))、性別(男,女)與學(xué)生對(duì)《生物統(tǒng)計(jì)學(xué)》教學(xué)滿意度(因變量)之間的關(guān)系。若因變量為二分類計(jì)數(shù)資料(滿意程度分為滿意和不滿意),采用二分類Logistic 回歸,若考察因素間的交互作用,必須點(diǎn)擊“分類”,系統(tǒng)默認(rèn)“最后一個(gè)”為參考類別,賦值時(shí),組別變量1應(yīng)為試驗(yàn)組,2為對(duì)照組;若不考察交互作用,則不需要點(diǎn)擊“分類”,系統(tǒng)默認(rèn)“第1個(gè)”為參考類別,則組別變量1應(yīng)為對(duì)照組,2為試驗(yàn)組。若因變量為等級(jí)資料(滿意程度分為滿意、一般和不滿意),需采用有序Logistic 回歸,系統(tǒng)默認(rèn)“最后一個(gè)”為參考類別,則組別變量1應(yīng)為試驗(yàn)組,2為對(duì)照組。
3.2 個(gè)別統(tǒng)計(jì)分析方法不能輸出全部重要結(jié)果例如,主成分分析中的綜合得分,通徑分析中1個(gè)變量通過(guò)另1個(gè)變量對(duì)因變量影響的間接通徑系數(shù),有序分類Logistic回歸分析中OR值(優(yōu)勢(shì)比),但都可根據(jù)輸出的部分結(jié)果利用SPSS或Excel數(shù)據(jù)轉(zhuǎn)換間接獲得。
因此,在進(jìn)行統(tǒng)計(jì)分析時(shí),除了要掌握SPSS或Design-Expert軟件操作步驟、數(shù)據(jù)的錄入形式和能夠解讀輸出結(jié)果,更要理解SPSS背后的統(tǒng)計(jì)學(xué)基本理論,知其然,更知其所以然。
統(tǒng)計(jì)分析方法的選擇要考慮分析目的、因素和水平數(shù)量、試驗(yàn)設(shè)計(jì)類型、資料類型、變量類型和數(shù)量、統(tǒng)計(jì)分析方法的前提條件、樣本數(shù)量和樣本量等,在開(kāi)展實(shí)際科學(xué)試驗(yàn)工作前,還要反復(fù)斟酌測(cè)定指標(biāo)的類型、必要性、數(shù)量、重復(fù)次數(shù)、受限條件等,在專業(yè)知識(shí)和統(tǒng)計(jì)學(xué)原理基礎(chǔ)上,在綜合考慮人力、物力、財(cái)力、精力、時(shí)間等方面的承受能力后再靈活地選擇試驗(yàn)設(shè)計(jì)方法和統(tǒng)計(jì)分析方法。