楊元啟
摘 要:分類數(shù)據(jù)是定性數(shù)據(jù),有別于定量數(shù)據(jù),在數(shù)學(xué)上不易進(jìn)行處理分析。本文對(duì)分類數(shù)據(jù)的顯著性檢驗(yàn)問(wèn)題做了一些討論。主要介紹了分類數(shù)據(jù)的X2-檢驗(yàn)和似然比檢驗(yàn)。
關(guān)鍵詞:分類數(shù)據(jù);定性數(shù)據(jù); X2-檢驗(yàn);似然比檢驗(yàn)
生活中存在著大量的數(shù)據(jù),類型可分為定量數(shù)據(jù)和定性數(shù)據(jù)。定量數(shù)據(jù)常見(jiàn)于計(jì)量、計(jì)數(shù)等,易于用數(shù)學(xué)的方法處理分析;但生活中仍有許多不可量化的數(shù)據(jù),如表示事物性質(zhì)、規(guī)定事物類別的文字表述型數(shù)據(jù),將其統(tǒng)稱為定性數(shù)據(jù)。對(duì)定性數(shù)據(jù)的研究,有時(shí)作純定性研究,沒(méi)有或缺乏數(shù)量分析,其結(jié)論往往具有概括性和較濃的思辨色彩;為便于作定量分析,還得將這些數(shù)據(jù)合理量化,并建立相應(yīng)的統(tǒng)計(jì)模型。
定性數(shù)據(jù)有時(shí)只表示事物的屬性,如人的性別,婚姻狀況,物體的顏色、形狀。我們常用數(shù)"0"和"1"來(lái)表示其屬性的分類。而有些事物的屬性有一個(gè)順序關(guān)系,如人的文化程度由低到高可分為文盲、小學(xué)、初中、高中、中專和大專、大學(xué)等5類。用數(shù)0,1,2,3和4分別表示文盲,小學(xué),初中,高中,中專和大專,大學(xué)。有如顧客對(duì)某商場(chǎng)營(yíng)業(yè)員服務(wù)態(tài)度的評(píng)價(jià)分為"滿意"、"一般"、"不滿意"三類,可分別用"3"、"2"、"1"表示。這些數(shù)只起一個(gè)順序作用,這一類數(shù)據(jù)稱為有序定性數(shù)據(jù),簡(jiǎn)稱有序數(shù)據(jù)。
本文將對(duì)分類數(shù)據(jù)的顯著性檢驗(yàn)問(wèn)題做一些討論。主要介紹分類數(shù)據(jù)的 -檢驗(yàn)和似然比檢驗(yàn)。
分類數(shù)據(jù)的顯著性檢驗(yàn)一般有如下提法。
設(shè)總體的某個(gè)指標(biāo)數(shù)據(jù)被分為r類:A1,…Ar。根據(jù)相關(guān)理論,或從經(jīng)驗(yàn)出發(fā)提出了一個(gè)原假設(shè):
H■:類A■所占的比例為P■=P■(i=1,…,r)
其中:P■,i=1,…,r,■P■=1為已知的r個(gè)數(shù)。對(duì)該總體進(jìn)行n次獨(dú)立重復(fù)觀察,每次觀察一個(gè)個(gè)體,看它屬于哪一類。此時(shí),個(gè)體的觀察值不是數(shù),而是事物的屬性。
設(shè)n個(gè)個(gè)體中屬于Ai類的觀察個(gè)數(shù)為n■i=1,…,r。顯然,■n■=n?;谟^察值n■i=1,…,r對(duì)原假設(shè)H■進(jìn)行檢驗(yàn)。
1 分類數(shù)據(jù)的X2-檢驗(yàn)
如果原假設(shè)H■成立,則n個(gè)個(gè)體中屬于Ai類的"期望個(gè)數(shù)"為np■■i=1,…,r。ni與np■■分別稱為屬于Ai類的實(shí)際頻數(shù)與期望頻數(shù)。當(dāng)原假設(shè)H■成立時(shí),對(duì)每一個(gè)i=1,…,r,實(shí)際頻數(shù)ni都應(yīng)該接近于期望頻數(shù)np■■。用皮爾遜(Pearson)統(tǒng)計(jì)量X■=■■來(lái)作為衡量實(shí)際頻數(shù)n■,…,n■與期望頻數(shù)np■,…,np■ ∞的偏差的綜合指標(biāo),分子說(shuō)明實(shí)際頻數(shù)與期望頻數(shù)的差異,將其差平方是為累加差異。平方項(xiàng)除以期望頻數(shù),是給以權(quán)數(shù),體現(xiàn)"相對(duì)性",當(dāng)然也與統(tǒng)計(jì)量的漸進(jìn)分布有關(guān)。
如果原假設(shè)H■成立, X2統(tǒng)計(jì)量的值應(yīng)該比較小,若X2統(tǒng)計(jì)量的值比較大,說(shuō)明實(shí)際頻數(shù)與期望頻數(shù)的差異較大,應(yīng)該拒絕原假設(shè)H■。衡量統(tǒng)計(jì)量X2必須有一個(gè)臨界值。皮爾遜證明了,在原假設(shè)H■成立時(shí),該統(tǒng)計(jì)量的漸進(jìn)分布為X2(r-1)分布,它的自由度為類別個(gè)數(shù)r減去1。記X21-a(r-1)為自由度為r-1的X2分布的(下側(cè))1-a分位數(shù),則事件"x■≥x■■r-1"發(fā)生的概率為a。a是顯著性水平,一個(gè)很小的數(shù)。這說(shuō)明,"x■≥x■■r-1"是一個(gè)小概率事件,小概率事件在一次實(shí)驗(yàn)中不大可能發(fā)生,如果發(fā)生了我們可以做出"拒絕原假設(shè)H0" 的判斷。拒絕原假設(shè)時(shí),可能會(huì)犯"棄真"的錯(cuò)誤,其概率不超過(guò)a。因此顯著性水平為a的X2-檢驗(yàn)的拒絕域?yàn)閤■≥x■■r-1,其中,x■■r-1是自由度為r-1的X2分布的上側(cè)a-分位數(shù)。
也可以通過(guò)計(jì)算P值完成檢驗(yàn)的程序。P值等于自由度為r-1的X2變量大于等于X2統(tǒng)計(jì)量值的概率:P(X2(r-1)≥X2)。如果a≥P值,則在水平a下拒絕原假設(shè)H0;如果a
2 分類數(shù)據(jù)的似然比檢驗(yàn)
分類數(shù)據(jù)的檢驗(yàn)問(wèn)題也可以用統(tǒng)計(jì)中常用的似然比檢驗(yàn)方法。觀察值ni(i=1,…,r)服從多項(xiàng)分布M(n,p1,…,pr),其分布律為pn■,…,n■=■p■■…p■■,■n■=n。
記n■,…,n■~Mn,p■,…p■ 。若r=2,則Mn,p■,p■=B(n,p1),即二項(xiàng)分布。故n1,n■~Mn,,p■,p■等價(jià)于n■~bn,p■ ,或等價(jià)于n■~bn,p■ 。
對(duì)M(n,p1,…,pr),觀測(cè)值n■,…,n■的似然函數(shù)為L(zhǎng)P■,…,P■=■p■■…p■■,將P■,…,P■看作變量,注意到■■p■■…p■■=1,因而對(duì)似然函數(shù)而言,可以略去也可以添上與參數(shù)P■,…,P■無(wú)關(guān)的任意一個(gè)因子,所以似然函數(shù)可以簡(jiǎn)記作Lp■,…,p■∞p■■…p■■
或者也可以寫成 Lp■,…,p■∞p■■…p■■1-p■-…p■■
令Lp■,…,p■的偏導(dǎo)數(shù)為0,可以求出P■,…,P■的極大似然估計(jì)分別為■,…,■。
由此得檢驗(yàn)問(wèn)題的似然比為?撰=■=■=■■■
?撰的值在0與1之間,其值越接近1,則越傾向于認(rèn)為檢驗(yàn)問(wèn)題的原假設(shè)Ho為真,所以在?撰的值越接近0,或者在-2ln?撰=-2■n■ln■的值比較大的時(shí)候拒絕原假設(shè)Ho。通常把-2ln(?撰)稱為似然比檢驗(yàn)統(tǒng)計(jì)量。
在分類數(shù)據(jù)的X2檢驗(yàn)中,皮爾遜把式X■=■■作為衡量實(shí)際頻數(shù)n■,…,n■與期望頻數(shù)np■■,…,np■■的偏差的綜合指標(biāo),而分類數(shù)據(jù)的似然比檢驗(yàn)用式-2ln?撰=-2■n■ln■作為衡量實(shí)際頻數(shù)與期望頻數(shù)的偏差綜合指標(biāo)。X2-檢驗(yàn)與似然比檢驗(yàn)的差別可以認(rèn)為在于它們采用了不同的衡量偏差的綜合指標(biāo)。
在原假設(shè)Ho成立時(shí),-2ln?撰的漸進(jìn)分布和皮爾遜的X2統(tǒng)計(jì)量的漸近分布相同,都是X2(r-1),起自由度都等于類別個(gè)數(shù)r減去1。事實(shí)上我們也可以根據(jù)似然比檢驗(yàn)統(tǒng)計(jì)量的極限分布定理,從而在原假設(shè)Ho成立時(shí),-2ln?撰有漸進(jìn)分布X2(r-1),其中漸近X2分布的自由度可看作完全參數(shù)空間被估價(jià)的獨(dú)立參數(shù)的個(gè)數(shù)與原假設(shè)成立時(shí)參數(shù)空間被估價(jià)的獨(dú)立參數(shù)的個(gè)數(shù)的差。
顯著性水平為a的似然比檢驗(yàn)的拒絕域?yàn)?2ln?撰≥X21-a(r-1)。
也可以通過(guò)計(jì)算p值完成檢驗(yàn)程序。p值為p=p(X21-a(r-1)≥-2ln?撰)。如果 ,則在水平a≥p下拒絕原假設(shè)Ho;如果a
參考文獻(xiàn):
[01]張堯庭, 方開泰. 多元統(tǒng)計(jì)分析引論[M]. 北京: 科學(xué)出版社, 1982.
[02]王靜龍,梁小筠.定性數(shù)據(jù)統(tǒng)計(jì)分析[M].北京,中國(guó)統(tǒng)計(jì)出版社,2008.
[03]史希來(lái). 屬性數(shù)據(jù)分析引論[M]. 北京: 北京大學(xué)出版社, 2006.
[04]黃強(qiáng).定性資料的數(shù)量分析[J].統(tǒng)計(jì)與決策,1997,(3).
摘 要:分類數(shù)據(jù)是定性數(shù)據(jù),有別于定量數(shù)據(jù),在數(shù)學(xué)上不易進(jìn)行處理分析。本文對(duì)分類數(shù)據(jù)的顯著性檢驗(yàn)問(wèn)題做了一些討論。主要介紹了分類數(shù)據(jù)的X2-檢驗(yàn)和似然比檢驗(yàn)。
關(guān)鍵詞:分類數(shù)據(jù);定性數(shù)據(jù); X2-檢驗(yàn);似然比檢驗(yàn)
生活中存在著大量的數(shù)據(jù),類型可分為定量數(shù)據(jù)和定性數(shù)據(jù)。定量數(shù)據(jù)常見(jiàn)于計(jì)量、計(jì)數(shù)等,易于用數(shù)學(xué)的方法處理分析;但生活中仍有許多不可量化的數(shù)據(jù),如表示事物性質(zhì)、規(guī)定事物類別的文字表述型數(shù)據(jù),將其統(tǒng)稱為定性數(shù)據(jù)。對(duì)定性數(shù)據(jù)的研究,有時(shí)作純定性研究,沒(méi)有或缺乏數(shù)量分析,其結(jié)論往往具有概括性和較濃的思辨色彩;為便于作定量分析,還得將這些數(shù)據(jù)合理量化,并建立相應(yīng)的統(tǒng)計(jì)模型。
定性數(shù)據(jù)有時(shí)只表示事物的屬性,如人的性別,婚姻狀況,物體的顏色、形狀。我們常用數(shù)"0"和"1"來(lái)表示其屬性的分類。而有些事物的屬性有一個(gè)順序關(guān)系,如人的文化程度由低到高可分為文盲、小學(xué)、初中、高中、中專和大專、大學(xué)等5類。用數(shù)0,1,2,3和4分別表示文盲,小學(xué),初中,高中,中專和大專,大學(xué)。有如顧客對(duì)某商場(chǎng)營(yíng)業(yè)員服務(wù)態(tài)度的評(píng)價(jià)分為"滿意"、"一般"、"不滿意"三類,可分別用"3"、"2"、"1"表示。這些數(shù)只起一個(gè)順序作用,這一類數(shù)據(jù)稱為有序定性數(shù)據(jù),簡(jiǎn)稱有序數(shù)據(jù)。
本文將對(duì)分類數(shù)據(jù)的顯著性檢驗(yàn)問(wèn)題做一些討論。主要介紹分類數(shù)據(jù)的 -檢驗(yàn)和似然比檢驗(yàn)。
分類數(shù)據(jù)的顯著性檢驗(yàn)一般有如下提法。
設(shè)總體的某個(gè)指標(biāo)數(shù)據(jù)被分為r類:A1,…Ar。根據(jù)相關(guān)理論,或從經(jīng)驗(yàn)出發(fā)提出了一個(gè)原假設(shè):
H■:類A■所占的比例為P■=P■(i=1,…,r)
其中:P■,i=1,…,r,■P■=1為已知的r個(gè)數(shù)。對(duì)該總體進(jìn)行n次獨(dú)立重復(fù)觀察,每次觀察一個(gè)個(gè)體,看它屬于哪一類。此時(shí),個(gè)體的觀察值不是數(shù),而是事物的屬性。
設(shè)n個(gè)個(gè)體中屬于Ai類的觀察個(gè)數(shù)為n■i=1,…,r。顯然,■n■=n。基于觀察值n■i=1,…,r對(duì)原假設(shè)H■進(jìn)行檢驗(yàn)。
1 分類數(shù)據(jù)的X2-檢驗(yàn)
如果原假設(shè)H■成立,則n個(gè)個(gè)體中屬于Ai類的"期望個(gè)數(shù)"為np■■i=1,…,r。ni與np■■分別稱為屬于Ai類的實(shí)際頻數(shù)與期望頻數(shù)。當(dāng)原假設(shè)H■成立時(shí),對(duì)每一個(gè)i=1,…,r,實(shí)際頻數(shù)ni都應(yīng)該接近于期望頻數(shù)np■■。用皮爾遜(Pearson)統(tǒng)計(jì)量X■=■■來(lái)作為衡量實(shí)際頻數(shù)n■,…,n■與期望頻數(shù)np■,…,np■ ∞的偏差的綜合指標(biāo),分子說(shuō)明實(shí)際頻數(shù)與期望頻數(shù)的差異,將其差平方是為累加差異。平方項(xiàng)除以期望頻數(shù),是給以權(quán)數(shù),體現(xiàn)"相對(duì)性",當(dāng)然也與統(tǒng)計(jì)量的漸進(jìn)分布有關(guān)。
如果原假設(shè)H■成立, X2統(tǒng)計(jì)量的值應(yīng)該比較小,若X2統(tǒng)計(jì)量的值比較大,說(shuō)明實(shí)際頻數(shù)與期望頻數(shù)的差異較大,應(yīng)該拒絕原假設(shè)H■。衡量統(tǒng)計(jì)量X2必須有一個(gè)臨界值。皮爾遜證明了,在原假設(shè)H■成立時(shí),該統(tǒng)計(jì)量的漸進(jìn)分布為X2(r-1)分布,它的自由度為類別個(gè)數(shù)r減去1。記X21-a(r-1)為自由度為r-1的X2分布的(下側(cè))1-a分位數(shù),則事件"x■≥x■■r-1"發(fā)生的概率為a。a是顯著性水平,一個(gè)很小的數(shù)。這說(shuō)明,"x■≥x■■r-1"是一個(gè)小概率事件,小概率事件在一次實(shí)驗(yàn)中不大可能發(fā)生,如果發(fā)生了我們可以做出"拒絕原假設(shè)H0" 的判斷。拒絕原假設(shè)時(shí),可能會(huì)犯"棄真"的錯(cuò)誤,其概率不超過(guò)a。因此顯著性水平為a的X2-檢驗(yàn)的拒絕域?yàn)閤■≥x■■r-1,其中,x■■r-1是自由度為r-1的X2分布的上側(cè)a-分位數(shù)。
也可以通過(guò)計(jì)算P值完成檢驗(yàn)的程序。P值等于自由度為r-1的X2變量大于等于X2統(tǒng)計(jì)量值的概率:P(X2(r-1)≥X2)。如果a≥P值,則在水平a下拒絕原假設(shè)H0;如果a
2 分類數(shù)據(jù)的似然比檢驗(yàn)
分類數(shù)據(jù)的檢驗(yàn)問(wèn)題也可以用統(tǒng)計(jì)中常用的似然比檢驗(yàn)方法。觀察值ni(i=1,…,r)服從多項(xiàng)分布M(n,p1,…,pr),其分布律為pn■,…,n■=■p■■…p■■,■n■=n。
記n■,…,n■~Mn,p■,…p■ 。若r=2,則Mn,p■,p■=B(n,p1),即二項(xiàng)分布。故n1,n■~Mn,,p■,p■等價(jià)于n■~bn,p■ ,或等價(jià)于n■~bn,p■ 。
對(duì)M(n,p1,…,pr),觀測(cè)值n■,…,n■的似然函數(shù)為L(zhǎng)P■,…,P■=■p■■…p■■,將P■,…,P■看作變量,注意到■■p■■…p■■=1,因而對(duì)似然函數(shù)而言,可以略去也可以添上與參數(shù)P■,…,P■無(wú)關(guān)的任意一個(gè)因子,所以似然函數(shù)可以簡(jiǎn)記作Lp■,…,p■∞p■■…p■■
或者也可以寫成 Lp■,…,p■∞p■■…p■■1-p■-…p■■
令Lp■,…,p■的偏導(dǎo)數(shù)為0,可以求出P■,…,P■的極大似然估計(jì)分別為■,…,■。
由此得檢驗(yàn)問(wèn)題的似然比為?撰=■=■=■■■
?撰的值在0與1之間,其值越接近1,則越傾向于認(rèn)為檢驗(yàn)問(wèn)題的原假設(shè)Ho為真,所以在?撰的值越接近0,或者在-2ln?撰=-2■n■ln■的值比較大的時(shí)候拒絕原假設(shè)Ho。通常把-2ln(?撰)稱為似然比檢驗(yàn)統(tǒng)計(jì)量。
在分類數(shù)據(jù)的X2檢驗(yàn)中,皮爾遜把式X■=■■作為衡量實(shí)際頻數(shù)n■,…,n■與期望頻數(shù)np■■,…,np■■的偏差的綜合指標(biāo),而分類數(shù)據(jù)的似然比檢驗(yàn)用式-2ln?撰=-2■n■ln■作為衡量實(shí)際頻數(shù)與期望頻數(shù)的偏差綜合指標(biāo)。X2-檢驗(yàn)與似然比檢驗(yàn)的差別可以認(rèn)為在于它們采用了不同的衡量偏差的綜合指標(biāo)。
在原假設(shè)Ho成立時(shí),-2ln?撰的漸進(jìn)分布和皮爾遜的X2統(tǒng)計(jì)量的漸近分布相同,都是X2(r-1),起自由度都等于類別個(gè)數(shù)r減去1。事實(shí)上我們也可以根據(jù)似然比檢驗(yàn)統(tǒng)計(jì)量的極限分布定理,從而在原假設(shè)Ho成立時(shí),-2ln?撰有漸進(jìn)分布X2(r-1),其中漸近X2分布的自由度可看作完全參數(shù)空間被估價(jià)的獨(dú)立參數(shù)的個(gè)數(shù)與原假設(shè)成立時(shí)參數(shù)空間被估價(jià)的獨(dú)立參數(shù)的個(gè)數(shù)的差。
顯著性水平為a的似然比檢驗(yàn)的拒絕域?yàn)?2ln?撰≥X21-a(r-1)。
也可以通過(guò)計(jì)算p值完成檢驗(yàn)程序。p值為p=p(X21-a(r-1)≥-2ln?撰)。如果 ,則在水平a≥p下拒絕原假設(shè)Ho;如果a
參考文獻(xiàn):
[01]張堯庭, 方開泰. 多元統(tǒng)計(jì)分析引論[M]. 北京: 科學(xué)出版社, 1982.
[02]王靜龍,梁小筠.定性數(shù)據(jù)統(tǒng)計(jì)分析[M].北京,中國(guó)統(tǒng)計(jì)出版社,2008.
[03]史希來(lái). 屬性數(shù)據(jù)分析引論[M]. 北京: 北京大學(xué)出版社, 2006.
[04]黃強(qiáng).定性資料的數(shù)量分析[J].統(tǒng)計(jì)與決策,1997,(3).
摘 要:分類數(shù)據(jù)是定性數(shù)據(jù),有別于定量數(shù)據(jù),在數(shù)學(xué)上不易進(jìn)行處理分析。本文對(duì)分類數(shù)據(jù)的顯著性檢驗(yàn)問(wèn)題做了一些討論。主要介紹了分類數(shù)據(jù)的X2-檢驗(yàn)和似然比檢驗(yàn)。
關(guān)鍵詞:分類數(shù)據(jù);定性數(shù)據(jù); X2-檢驗(yàn);似然比檢驗(yàn)
生活中存在著大量的數(shù)據(jù),類型可分為定量數(shù)據(jù)和定性數(shù)據(jù)。定量數(shù)據(jù)常見(jiàn)于計(jì)量、計(jì)數(shù)等,易于用數(shù)學(xué)的方法處理分析;但生活中仍有許多不可量化的數(shù)據(jù),如表示事物性質(zhì)、規(guī)定事物類別的文字表述型數(shù)據(jù),將其統(tǒng)稱為定性數(shù)據(jù)。對(duì)定性數(shù)據(jù)的研究,有時(shí)作純定性研究,沒(méi)有或缺乏數(shù)量分析,其結(jié)論往往具有概括性和較濃的思辨色彩;為便于作定量分析,還得將這些數(shù)據(jù)合理量化,并建立相應(yīng)的統(tǒng)計(jì)模型。
定性數(shù)據(jù)有時(shí)只表示事物的屬性,如人的性別,婚姻狀況,物體的顏色、形狀。我們常用數(shù)"0"和"1"來(lái)表示其屬性的分類。而有些事物的屬性有一個(gè)順序關(guān)系,如人的文化程度由低到高可分為文盲、小學(xué)、初中、高中、中專和大專、大學(xué)等5類。用數(shù)0,1,2,3和4分別表示文盲,小學(xué),初中,高中,中專和大專,大學(xué)。有如顧客對(duì)某商場(chǎng)營(yíng)業(yè)員服務(wù)態(tài)度的評(píng)價(jià)分為"滿意"、"一般"、"不滿意"三類,可分別用"3"、"2"、"1"表示。這些數(shù)只起一個(gè)順序作用,這一類數(shù)據(jù)稱為有序定性數(shù)據(jù),簡(jiǎn)稱有序數(shù)據(jù)。
本文將對(duì)分類數(shù)據(jù)的顯著性檢驗(yàn)問(wèn)題做一些討論。主要介紹分類數(shù)據(jù)的 -檢驗(yàn)和似然比檢驗(yàn)。
分類數(shù)據(jù)的顯著性檢驗(yàn)一般有如下提法。
設(shè)總體的某個(gè)指標(biāo)數(shù)據(jù)被分為r類:A1,…Ar。根據(jù)相關(guān)理論,或從經(jīng)驗(yàn)出發(fā)提出了一個(gè)原假設(shè):
H■:類A■所占的比例為P■=P■(i=1,…,r)
其中:P■,i=1,…,r,■P■=1為已知的r個(gè)數(shù)。對(duì)該總體進(jìn)行n次獨(dú)立重復(fù)觀察,每次觀察一個(gè)個(gè)體,看它屬于哪一類。此時(shí),個(gè)體的觀察值不是數(shù),而是事物的屬性。
設(shè)n個(gè)個(gè)體中屬于Ai類的觀察個(gè)數(shù)為n■i=1,…,r。顯然,■n■=n。基于觀察值n■i=1,…,r對(duì)原假設(shè)H■進(jìn)行檢驗(yàn)。
1 分類數(shù)據(jù)的X2-檢驗(yàn)
如果原假設(shè)H■成立,則n個(gè)個(gè)體中屬于Ai類的"期望個(gè)數(shù)"為np■■i=1,…,r。ni與np■■分別稱為屬于Ai類的實(shí)際頻數(shù)與期望頻數(shù)。當(dāng)原假設(shè)H■成立時(shí),對(duì)每一個(gè)i=1,…,r,實(shí)際頻數(shù)ni都應(yīng)該接近于期望頻數(shù)np■■。用皮爾遜(Pearson)統(tǒng)計(jì)量X■=■■來(lái)作為衡量實(shí)際頻數(shù)n■,…,n■與期望頻數(shù)np■,…,np■ ∞的偏差的綜合指標(biāo),分子說(shuō)明實(shí)際頻數(shù)與期望頻數(shù)的差異,將其差平方是為累加差異。平方項(xiàng)除以期望頻數(shù),是給以權(quán)數(shù),體現(xiàn)"相對(duì)性",當(dāng)然也與統(tǒng)計(jì)量的漸進(jìn)分布有關(guān)。
如果原假設(shè)H■成立, X2統(tǒng)計(jì)量的值應(yīng)該比較小,若X2統(tǒng)計(jì)量的值比較大,說(shuō)明實(shí)際頻數(shù)與期望頻數(shù)的差異較大,應(yīng)該拒絕原假設(shè)H■。衡量統(tǒng)計(jì)量X2必須有一個(gè)臨界值。皮爾遜證明了,在原假設(shè)H■成立時(shí),該統(tǒng)計(jì)量的漸進(jìn)分布為X2(r-1)分布,它的自由度為類別個(gè)數(shù)r減去1。記X21-a(r-1)為自由度為r-1的X2分布的(下側(cè))1-a分位數(shù),則事件"x■≥x■■r-1"發(fā)生的概率為a。a是顯著性水平,一個(gè)很小的數(shù)。這說(shuō)明,"x■≥x■■r-1"是一個(gè)小概率事件,小概率事件在一次實(shí)驗(yàn)中不大可能發(fā)生,如果發(fā)生了我們可以做出"拒絕原假設(shè)H0" 的判斷。拒絕原假設(shè)時(shí),可能會(huì)犯"棄真"的錯(cuò)誤,其概率不超過(guò)a。因此顯著性水平為a的X2-檢驗(yàn)的拒絕域?yàn)閤■≥x■■r-1,其中,x■■r-1是自由度為r-1的X2分布的上側(cè)a-分位數(shù)。
也可以通過(guò)計(jì)算P值完成檢驗(yàn)的程序。P值等于自由度為r-1的X2變量大于等于X2統(tǒng)計(jì)量值的概率:P(X2(r-1)≥X2)。如果a≥P值,則在水平a下拒絕原假設(shè)H0;如果a
2 分類數(shù)據(jù)的似然比檢驗(yàn)
分類數(shù)據(jù)的檢驗(yàn)問(wèn)題也可以用統(tǒng)計(jì)中常用的似然比檢驗(yàn)方法。觀察值ni(i=1,…,r)服從多項(xiàng)分布M(n,p1,…,pr),其分布律為pn■,…,n■=■p■■…p■■,■n■=n。
記n■,…,n■~Mn,p■,…p■ 。若r=2,則Mn,p■,p■=B(n,p1),即二項(xiàng)分布。故n1,n■~Mn,,p■,p■等價(jià)于n■~bn,p■ ,或等價(jià)于n■~bn,p■ 。
對(duì)M(n,p1,…,pr),觀測(cè)值n■,…,n■的似然函數(shù)為L(zhǎng)P■,…,P■=■p■■…p■■,將P■,…,P■看作變量,注意到■■p■■…p■■=1,因而對(duì)似然函數(shù)而言,可以略去也可以添上與參數(shù)P■,…,P■無(wú)關(guān)的任意一個(gè)因子,所以似然函數(shù)可以簡(jiǎn)記作Lp■,…,p■∞p■■…p■■
或者也可以寫成 Lp■,…,p■∞p■■…p■■1-p■-…p■■
令Lp■,…,p■的偏導(dǎo)數(shù)為0,可以求出P■,…,P■的極大似然估計(jì)分別為■,…,■。
由此得檢驗(yàn)問(wèn)題的似然比為?撰=■=■=■■■
?撰的值在0與1之間,其值越接近1,則越傾向于認(rèn)為檢驗(yàn)問(wèn)題的原假設(shè)Ho為真,所以在?撰的值越接近0,或者在-2ln?撰=-2■n■ln■的值比較大的時(shí)候拒絕原假設(shè)Ho。通常把-2ln(?撰)稱為似然比檢驗(yàn)統(tǒng)計(jì)量。
在分類數(shù)據(jù)的X2檢驗(yàn)中,皮爾遜把式X■=■■作為衡量實(shí)際頻數(shù)n■,…,n■與期望頻數(shù)np■■,…,np■■的偏差的綜合指標(biāo),而分類數(shù)據(jù)的似然比檢驗(yàn)用式-2ln?撰=-2■n■ln■作為衡量實(shí)際頻數(shù)與期望頻數(shù)的偏差綜合指標(biāo)。X2-檢驗(yàn)與似然比檢驗(yàn)的差別可以認(rèn)為在于它們采用了不同的衡量偏差的綜合指標(biāo)。
在原假設(shè)Ho成立時(shí),-2ln?撰的漸進(jìn)分布和皮爾遜的X2統(tǒng)計(jì)量的漸近分布相同,都是X2(r-1),起自由度都等于類別個(gè)數(shù)r減去1。事實(shí)上我們也可以根據(jù)似然比檢驗(yàn)統(tǒng)計(jì)量的極限分布定理,從而在原假設(shè)Ho成立時(shí),-2ln?撰有漸進(jìn)分布X2(r-1),其中漸近X2分布的自由度可看作完全參數(shù)空間被估價(jià)的獨(dú)立參數(shù)的個(gè)數(shù)與原假設(shè)成立時(shí)參數(shù)空間被估價(jià)的獨(dú)立參數(shù)的個(gè)數(shù)的差。
顯著性水平為a的似然比檢驗(yàn)的拒絕域?yàn)?2ln?撰≥X21-a(r-1)。
也可以通過(guò)計(jì)算p值完成檢驗(yàn)程序。p值為p=p(X21-a(r-1)≥-2ln?撰)。如果 ,則在水平a≥p下拒絕原假設(shè)Ho;如果a
參考文獻(xiàn):
[01]張堯庭, 方開泰. 多元統(tǒng)計(jì)分析引論[M]. 北京: 科學(xué)出版社, 1982.
[02]王靜龍,梁小筠.定性數(shù)據(jù)統(tǒng)計(jì)分析[M].北京,中國(guó)統(tǒng)計(jì)出版社,2008.
[03]史希來(lái). 屬性數(shù)據(jù)分析引論[M]. 北京: 北京大學(xué)出版社, 2006.
[04]黃強(qiáng).定性資料的數(shù)量分析[J].統(tǒng)計(jì)與決策,1997,(3).