張林泉
(廣東女子職業(yè)技術(shù)學(xué)院,廣東 廣州 511450)
在實(shí)際研究工作中,人們常常用列聯(lián)表的形式來(lái)描述屬性變量(定類尺度或定序尺度)的各種狀態(tài)或是相關(guān)關(guān)系,這在某些調(diào)查研究項(xiàng)目中運(yùn)用得尤為普遍[1].列聯(lián)表可用來(lái)進(jìn)行卡方檢驗(yàn)、做相關(guān)分析、給出相應(yīng)的關(guān)聯(lián)系數(shù)、計(jì)算特定的統(tǒng)計(jì)量等.本文通過(guò)列聯(lián)表考察CEO年齡組與企業(yè)規(guī)模關(guān)系兩個(gè)變量的期望頻數(shù),運(yùn)用卡方檢驗(yàn)這兩個(gè)變量間的獨(dú)立性.
交叉分組下的頻數(shù)分析又稱列聯(lián)表分析.編制交叉列聯(lián)表是交叉分組下頻數(shù)分析的第一個(gè)任務(wù).交叉列聯(lián)表是兩個(gè)或兩個(gè)以上的變量交叉分組后形成的頻數(shù)分布表.
頻數(shù)分析能夠掌握單個(gè)變量的數(shù)據(jù)分布情況,在實(shí)際分析中,不僅要了解單個(gè)變量的分布特征,還要分析多個(gè)變量不同取值下的分布,進(jìn)而分析變量之間的相互影響和關(guān)系.對(duì)于這種涉及兩個(gè)或兩個(gè)以上變量分布情況的研究通常要利用交叉分組下的頻數(shù)分析來(lái)完成.
(1)根據(jù)收集到的樣本數(shù)據(jù),產(chǎn)生二維或多維交叉列聯(lián)表;
(2)在交叉列聯(lián)表的基礎(chǔ)上,對(duì)兩兩變量間是否存在一定的相關(guān)性進(jìn)行分析.
對(duì)交叉列聯(lián)表中的行變量和列變量之間關(guān)系進(jìn)行分析是交叉分組下頻數(shù)分析的第二個(gè)任務(wù).
交叉列聯(lián)表的卡方檢驗(yàn).卡方檢驗(yàn)屬假設(shè)檢驗(yàn)的范疇,步驟如下:
(1)建立原假設(shè).在列聯(lián)表分析中卡方檢驗(yàn)的原假設(shè)為行變量與列變量獨(dú)立.
其中,RT是指定單元格所在行的觀測(cè)頻數(shù)合計(jì),CT是指定單元格所在列的觀測(cè)頻數(shù)合計(jì),n是觀測(cè)頻數(shù)的合計(jì).期望頻數(shù)的分布反映的是行列變量互不相干下的分布[2].
卡方統(tǒng)計(jì)量觀測(cè)值的大小取決于兩個(gè)因素:第一,列聯(lián)表的單元格子數(shù);第二,觀測(cè)頻數(shù)與期望頻數(shù)的總差值.在列聯(lián)表確定的情況下,卡方統(tǒng)計(jì)量觀測(cè)值的大小取決于觀測(cè)頻數(shù)與期望頻數(shù)的總差值.當(dāng)總差值越大時(shí),卡方值也就越大,實(shí)際分布與期望分布的差距越大,表明行列變量之間越相關(guān);反之表明行列變量之間越獨(dú)立[3].
在統(tǒng)計(jì)上卡方統(tǒng)計(jì)量的觀測(cè)值究竟達(dá)到什么程度才能斷定行列變量不獨(dú)立呢?由于該檢驗(yàn)中的Pearson卡方統(tǒng)計(jì)量近似服從卡方分布,因此可依據(jù)卡方理論找到某自由度和顯著性水平下的卡方值,即卡方臨界值.
(3)確定顯著性水平(Significant Level)和臨界值.顯著性水平α是指原假設(shè)為真卻將其拒絕的風(fēng)險(xiǎn),即棄真的概率.通常設(shè)為0.05或0.01.在卡方檢驗(yàn)中,由于卡方統(tǒng)計(jì)量服從自由度為(行數(shù)-1)×(列數(shù)-1)的卡方分布,因此,在行列數(shù)目和顯著性水平確定時(shí),卡方臨界值是可唯一確定的.
(4)結(jié)論和決策.對(duì)統(tǒng)計(jì)推斷做決策通常有兩種方式.第一,根據(jù)統(tǒng)計(jì)量觀測(cè)值和臨界值比較的結(jié)果進(jìn)行決策.如果卡方觀測(cè)值大于臨界值,則認(rèn)為實(shí)際分布與期望分布之間的差異顯著,可以拒絕原假設(shè),斷定列聯(lián)表的行列變量間不獨(dú)立,存在相關(guān)關(guān)系;反之,如果卡方觀測(cè)值不大于臨界值,則認(rèn)為實(shí)際分布與期望分布之間的差異不顯著,不能拒絕原假設(shè),不能拒絕列聯(lián)表的行列變量間相互獨(dú)立;第二,根據(jù)統(tǒng)計(jì)量觀測(cè)值的概率p值和顯著性水平α比較的結(jié)果進(jìn)行決策.如果p值小于等于α,則認(rèn)為卡方觀測(cè)值出現(xiàn)的概率是很小的,拒絕原假設(shè),斷定列聯(lián)表的行列變量間不獨(dú)立,存在依存關(guān)系;反之,不能拒絕原假設(shè)[2-3].
例1 550名公司CEO基本情況數(shù)據(jù)[4]按年齡組和公司規(guī)模編制的二維交叉列聯(lián)表(見(jiàn)表1)對(duì)CEO年齡組與企業(yè)規(guī)模關(guān)系兩個(gè)變量的關(guān)系進(jìn)行檢驗(yàn),用獨(dú)立性檢驗(yàn)方法(the test for independence),研究這兩個(gè)變量是否存在依賴關(guān)系.
提出原假設(shè)(null hypothesis)和備擇假設(shè)(alternative hypothesis)分別為:
H0:CEO年齡組與企業(yè)規(guī)模之間是獨(dú)立的;
Ha:CEO年齡組與企業(yè)規(guī)模之間是不獨(dú)立.
計(jì)算檢驗(yàn)統(tǒng)計(jì)量χ2值,χ2=77.887.確定概率P值和判斷結(jié)果.
根據(jù)卡方統(tǒng)計(jì)量觀測(cè)值的概率p=.000值小于0.05,則認(rèn)為卡方觀測(cè)值出現(xiàn)的概率是很小的,拒絕原假設(shè),支持備擇假設(shè),斷定列聯(lián)表的行列變量間不獨(dú)立,存在依存關(guān)系.即CEO年齡組與企業(yè)規(guī)模之間是不獨(dú)立,因此可以認(rèn)為CEO年齡組與企業(yè)規(guī)模有關(guān).用Cramer's V判斷年齡組與企業(yè)規(guī)模之間相關(guān)強(qiáng)度,p=.000,顯示有統(tǒng)計(jì)顯著關(guān)系,但系數(shù)值(v=0.376),這種關(guān)系為弱相關(guān).卡方檢驗(yàn)基本上是雙尾檢驗(yàn),但因我們只關(guān)心是否(fo-fe)2>0,故圖2的臨界區(qū)是在右尾.
表1 企業(yè)規(guī)模與CEO年齡組交叉表
圖1 交叉分組下的頻數(shù)分析圖形
圖2 卡方檢驗(yàn)臨界區(qū)設(shè)定
參加調(diào)查的共有550名CEO,實(shí)際觀察頻數(shù)中,300人是中小企業(yè)CEO,占總?cè)藬?shù)的54.55%,250人是大企業(yè)CEO,占總?cè)藬?shù)的45.45%;年齡<=39、40-49、50-59、60-69、70and over的人數(shù)分別為47、87、193、180、43,分別占總數(shù)的8.55%、15.82%、35.09%、32.73%、7.82%;
(1)中小企業(yè)的CEO共300人,按年齡組分布為:小于等于39年齡組有42人,占中小企業(yè)總?cè)藬?shù)的14.00%(行百分分比),占年齡小于39年齡組總?cè)藬?shù)的89.36%(行百分分比),點(diǎn)總?cè)藬?shù)的7.64%(總百分比);其余組同理.
(2)大企業(yè)的CEO共250人,按年齡組分布為:小于等于39年齡組有5人,占大企業(yè)總?cè)藬?shù)的2.00%(行百分分比),占年齡小于39年齡組總?cè)藬?shù)的10.64%(行百分分比),點(diǎn)總?cè)藬?shù)的0.91%(總百分比);其余組同理.
從總體上講,550個(gè)CEO按<=39、40-49、50-59、60-69、70and over的年齡組分布是8.55%、15.82%、35.09%、32.73%、7.82%.如果遵從這種年齡組的總體比例關(guān)系,中小企業(yè)300人的年齡組分布也應(yīng)為8.55%、15.82%、35.09%、32.73%、7.82%,于是期望頻數(shù)為300*8.55%、300*15.82%、300*35.09%、300*32.73%、300*7.82%.同理,大企業(yè)250人的年齡組分布也應(yīng)為250*8.55%、250*15.82%、250*35.09%、250*32.73%、250*7.82%.
綜上,可以認(rèn)為CEO年齡組與企業(yè)規(guī)模有關(guān).用Cramer's V判斷年齡組與企業(yè)規(guī)模之間相關(guān)強(qiáng)度,p=.000,顯示有統(tǒng)計(jì)顯著關(guān)系,但系數(shù)值(v=0.376),這種關(guān)系為正向弱相關(guān).
參考文獻(xiàn):
[1]何曉群.多元統(tǒng)計(jì)分析[M].第三版.北京:中國(guó)人民大學(xué)出版社,2012.
[2]薛微.統(tǒng)計(jì)分析與SPSS的應(yīng)用[M].第三版.北京:中國(guó)人民大學(xué)出版社,2011.
[3]賈俊平,何曉群,金勇進(jìn).統(tǒng)計(jì)學(xué)[M].第五版.北京:中國(guó)人民大學(xué)出版社,2012.
[4]Ron Larson,Besty Farber.基礎(chǔ)統(tǒng)計(jì)學(xué)[M].第四版.中國(guó)人民大學(xué)出版社,2010.
[5]Stephen Wolfram.The Mathematica Book[M].5thed.Wolfram Media,2003.