余紅盈
高教版《體育統(tǒng)計》中單因素方差分析模型實際意義解析
余紅盈
運用文獻資料法與邏輯分析法詳細(xì)地闡述了方差分析的思想,并以高等教育出版社1998年7月出版的《體育統(tǒng)計》第三章中的方差模型及第七章中的單因素方差分析統(tǒng)計模型為例,解析其實際意義,旨在幫助體育統(tǒng)計學(xué)習(xí)者及使用者在學(xué)習(xí)和應(yīng)用單因素方差分析時所遇到的困惑。
方差;方差分析;單因素方差分析;統(tǒng)計模型;實際意義
參閱了許多統(tǒng)計學(xué)方面的教材方差分析部分,發(fā)現(xiàn)教材上均給出了方差分析的統(tǒng)計模型計算公式,但為什么要這樣或那樣計算,教材中并沒有給出詳細(xì)地說明,不注重統(tǒng)計思想的培養(yǎng),因此給讀者留下了許多疑點。讀者都知道有方差分析這么一個統(tǒng)計模型計算公式,到要用的時候就按照這個公式套就是了,甚至有些讀者連公式都不想套,直接用一些統(tǒng)計軟件輕輕一點,數(shù)據(jù)分析結(jié)果就出來了,至于分析結(jié)果是怎么樣出來的就一無所知了,結(jié)果是否可信或存在什么缺陷就更不知道了。
假設(shè)檢驗是以小概率事件為基礎(chǔ)的,而以小概率事件為基礎(chǔ)的假設(shè)檢驗統(tǒng)計模型在實際應(yīng)用過程中容易犯統(tǒng)計學(xué)中的兩類錯誤,即第一類為納偽,第二類為棄真。在進行多重比較的時候如果采用兩兩配對假設(shè)檢驗得出結(jié)論就很容易犯統(tǒng)計學(xué)中的兩類錯誤。如在顯著性水平為α=0.05時比較隨機抽取的K組樣本數(shù)據(jù)的均值(mean)是否存在差異顯著性,如果進行兩兩配對的獨立樣本t檢驗,共要檢驗C2K次,每一次檢驗都會得到一個α值,這是每一次犯第一類錯誤的概率,只有綜合了C2K次α值才能得出結(jié)論。規(guī)定不犯第一類錯誤的概率為95%,因此每一次不犯第一類錯誤的概率為95%。根據(jù)邦弗隆尼(Bonferroni)不等式原理可知進行C2K次檢驗后,不犯第一類錯誤的概率則為95%的C2K次方,而95%的C2K次方必然小于0.95%,這時的 α必然大于0.05。隨著比較次數(shù)的增多,α?xí)兊迷絹碓酱?。?guī)定顯著性水平(significance level)為0.05時才為小概率事件,而經(jīng)過C2K次檢驗后α值大于0.05時也認(rèn)為是小概率事件。因此在進行多重比較的情況下,用兩兩配對t檢驗,不僅麻煩,而且容易拒絕原假設(shè)。若原假設(shè)是真,則犯第二類錯誤。[1]
隨機抽取的K組樣本數(shù)據(jù)的均值本身在數(shù)值上就存在差別,但我們并不知道這種數(shù)值上的差別是由隨機抽樣造成的還是由樣本所來自的總體本身存在的差異所造成的,因此如果能設(shè)計一種檢驗?zāi)P?,把所有樣本之間的差異分解為由于隨機分組造成的差異和隨機抽樣造成的差異兩部分,并能檢驗出由于隨機分組造成的差異遠(yuǎn)遠(yuǎn)大于由于隨機抽樣造成的差異,那么就有充分的理由說明這K組樣本數(shù)據(jù)的均值存在差異顯著性。為了解決這個問題,英國統(tǒng)計學(xué)家費歇爾(Ronald A.Fisher)于1924年在加拿大多倫多舉行的國際統(tǒng)計學(xué)會大會上,作了題為《關(guān)于一個引出若干周知統(tǒng)計量的誤差函數(shù)的分析》的報告,正式提出了方差分析(analysis of variance;ANOVA)的概念及思想,最初主要應(yīng)用于生物和農(nóng)業(yè)田間試驗,而后推廣到各領(lǐng)域應(yīng)用。[2]
方差分析思想的核心就是將組間方差(sum of squares for factor A,SSA)與組內(nèi)方差(sum of squares for error,SSE)進行對比,分析二者是否存在差異顯著性。組內(nèi)方差是反映本組內(nèi)各變量值相對于本組均值的分布離散程度的統(tǒng)計量,實際上代表的是樣本總方差中不能用分組因素解釋的部分,反映的是樣本個體觀測指標(biāo)之間的差異,即隨機抽樣所造成的差異,這是抽樣本身不可避免的。組間方差是反映各組均值相對于總體均值的分布離散程度的統(tǒng)計量,實際上代表的是樣本總方差中可以用分組因素解釋的部分,反映的樣本組觀測指標(biāo)均值之間的差異,即隨機分組所造成的差異,這與抽樣無關(guān)。如果組間方差遠(yuǎn)遠(yuǎn)大于組內(nèi)方差,就有充分的理由說明上述K組樣本數(shù)據(jù)存在差異顯著性。
方差分析在體育科研工作中是一種非常實用且應(yīng)用廣泛的統(tǒng)計分析技術(shù),但它的思想和方法的確有難以理解的地方。要解析方差分析模型的實際意義就必須先解析方差(variance)模型的實際意義。
我們首先來看高等教育出版社1998年7月出版的《體育統(tǒng)計》第三章中的方差模型:
方差是用來描述各變量值(variable)與均值離散程度的統(tǒng)計量,方差越小表明觀測值越向均值集中,方差越大表明觀測值與均值越分散。在理想狀態(tài),當(dāng)n→∝時,我們對方差的數(shù)學(xué)期望為0,但在一次抽樣中實難辦到,這是小概率事件。因此在一次抽樣中只能力求方差越小越好,而當(dāng)n一定,n-1也一定,只有將希望寄托在∑(x-珋x)的身上了。又由于在一次抽樣中x-珋x可正可負(fù),所以在x與珋x左右偏差較大時,也可能使∑(x-珋x)最小或者為0,此時不能排除珋x左右兩邊異常值對∑(x-珋x)的影響,因此根據(jù)最小二乘法原理,考慮將∑(x-珋x)平方,使∑(x-珋x)2最小,即總離差平方和(sum of squares for total,SST)最小,可保證在一次抽樣過程中方差最小,又可排除珋x左右兩邊異常值對∑(x-珋x)的影響。
為什么要用總離差平方和∑(x-珋x)2除以n-1呢?n-1在這里稱為自由度(degree of freedom,df),是指當(dāng)利用樣本統(tǒng)計量來估計總體參數(shù)時,樣本中能自由變化的變量值的個數(shù)。[2,4]例如;有一組獨立樣本觀測變量x1,x2,x3……xn,則樣本觀測變量x有n種自由變化的可能,如果從這組樣本觀測變量中任意取出一個x來時,則樣本觀測變量x還有n-1種自由變化的可能,以此類推,當(dāng)取出n-1個x來時,則樣本觀測變量只有1種自由變化的可能。之所以用n-1作除數(shù),是由于抽樣會產(chǎn)生誤差,數(shù)理統(tǒng)計已經(jīng)證明,除以n-1更接近真值。[5]因此用總離差平方和∑(x-珋x)2除以自由度n-1得到的是均離差平方和,即方差。
單因素方差分析是方差分析中最簡單的一種統(tǒng)計方法,它是學(xué)習(xí)和理解多因素方差分析和多元統(tǒng)計的基礎(chǔ)。因此下面我們就從單因素方差分析模型入手來進行逐步解析。
以下是高等教育出版社1998年7月出版的《體育統(tǒng)計》第七章中的單因素方差分析統(tǒng)計模型:
我們不防用逆向思維來理解和分析這個統(tǒng)計模型。上面方差分析思想中已經(jīng)提到方差分析思想的核心就是將組間方差與組內(nèi)方差進行對比,得出結(jié)論。由于組間方差與組內(nèi)方差不服從統(tǒng)一的分布,如果將組間方差與組內(nèi)方差進行比較,將沒有統(tǒng)計意義,故而需要利用組間方差組內(nèi)方差構(gòu)造一個統(tǒng)計量,再對這個統(tǒng)計量進行評估,這樣就能得出結(jié)論了。而利用組間方差與組內(nèi)方差的比值構(gòu)造一個統(tǒng)計量剛好服從一定的分布,由于這種分布是英國統(tǒng)計學(xué)家費歇爾(Ronald A.Fisher)發(fā)現(xiàn)的,因此用姓氏的首字母F將這種分布稱之為F分布,這種統(tǒng)計量稱之為F統(tǒng)計量。為了使用方便,他將這種分布制成表稱之為F分布表。將求得的F統(tǒng)計量與從F分布表中查得的 Fα(n'1,n'2)進行比較,最后得出結(jié)論。由方差模型知道,要求組間方差與組內(nèi)方差就要利用它們各自的離差平方和及自由度,而數(shù)理統(tǒng)計學(xué)已經(jīng)證明了總離差平方和可以分解為組間離差平方和與組內(nèi)平方和,且服從各自的自由度,[6]只要抽樣與分組結(jié)束,模型中的k-1和N-k就一定,觀測變量x可測,因此總方差可以分解為組間方差和組內(nèi)方差兩部分,這樣問題就迎刃而解了。
體育統(tǒng)計在體育科研工作中應(yīng)用非常廣泛,而每一種統(tǒng)計方法及模型都是根據(jù)具體問題而建立的,必然有其適用的范圍,如果超范圍應(yīng)用則屬張冠李戴,會貽笑大方。由于種種原因造成了基層體育工作者文化科研理論相對溥弱,有一部分體育科研工作者在從事體育科研時不愿意去碰統(tǒng)計學(xué)這條高壓線,不能對數(shù)據(jù)進行深層的分析,使辛辛苦苦得來的有價值的數(shù)據(jù)白白浪費。因此基層體育科研工作者很有必要加強自身的統(tǒng)計學(xué)修養(yǎng),在運用統(tǒng)計學(xué)進行數(shù)據(jù)分析時不但要知其然還要知其所以然,才能讓統(tǒng)計學(xué)為我們的體育科研工作更好地服務(wù)。
[1]周皓.統(tǒng)計基礎(chǔ)和 SPSS11.0入門與提高[M].北京:清華大學(xué)出版社,2004.
[2]管于華.統(tǒng)計學(xué)[M].北京:高等教育出版社,2005.
[3]叢湖平.體育統(tǒng)計[M].北京:高等教育出版社,1998.
[4]百度百科.自由度[EQ/OL].http://baike.baidu.com/view/327514.htm2009-9-11.
[5]姜達維.實用統(tǒng)計學(xué)[M].北京:機械工業(yè)出版社,2005.
[6]盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計[M].北京:高等教育出版社,2001.
[7]張文彤.世界優(yōu)秀統(tǒng)計軟件工具SPSS 11.0統(tǒng)計分析教程[M].北京:北京希望電子出版社,2002.
The Implication of the One-way Analysis of Variance Model Provided by Sports Statistics
Yu Hongying
With the literature and logic analysis approach,the paper tries to explain in detail the analysis of variance and One-way Analysis of Variance prescribed in Chapter 3 and Chapter 7 of the textbook"Sports Statistics"published by Higher Education Press in July 1998.The aim is to help the learners solve the problems in their study and application of the One-way Analysis of Variance.
variance;analysis of variance;one-way analysis of variance;statistical model;practical meaning
G80-05
A
1672-6758(2012)04-0139-2
余紅盈,碩士,荊楚理工學(xué)院公共體育部,湖北·荊門。郵政編碼:448000
Class No.:G80 -05Document Mark:A
(責(zé)任編輯:鄭英玲)