曹淑娟, 李佳澤, 周 晨
(天津工業(yè)大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,天津 西青 300387)
非參數(shù)統(tǒng)計(jì)是統(tǒng)計(jì)學(xué)的一個(gè)重要分支,是21世紀(jì)統(tǒng)計(jì)理論的重要發(fā)展方向之一。傳統(tǒng)的參數(shù)方法強(qiáng)烈依賴于對總體分布的假設(shè),而非參數(shù)統(tǒng)計(jì)與總體分布幾乎沒有什么關(guān)系,不用假定特定的總體分布,僅需要一些非常一般性的假設(shè)(例如連續(xù)分布、對稱分布等),利用樣本觀察值中一些比較直觀的信息進(jìn)行統(tǒng)計(jì)推斷,有許多學(xué)者和教師在教學(xué)和研究中都提到非參數(shù)統(tǒng)計(jì)的這一特點(diǎn),并利用非參數(shù)統(tǒng)計(jì)解決具體的問題[1-2]。也因?yàn)槿绱耍菂?shù)統(tǒng)計(jì)成為一門應(yīng)用性和研究性兼具的核心課程[3]。
在實(shí)際問題中,常常需要比較兩個(gè)總體的位置參數(shù),如兩種市場營銷策略哪種更有效,兩種汽油哪一種對環(huán)境的污染更少,兩種訓(xùn)練方法哪一種更出色等,如果總體的分布未知,就需要用到非參數(shù)統(tǒng)計(jì)中的兩樣本位置參數(shù)的檢驗(yàn)方法了。筆者根據(jù)文獻(xiàn)[4-6]總結(jié)了4種兩樣本位置參數(shù)檢驗(yàn)方法:符號檢驗(yàn)、Brown-Mood中位數(shù)檢驗(yàn)、Wilcoxon秩和檢驗(yàn)和Wilcoxon-Mann-Whitney檢驗(yàn),針對不同的假設(shè)檢驗(yàn)問題,選擇不同的檢驗(yàn)統(tǒng)計(jì)量,以表格的形式簡潔地描述了不同的拒絕域的具體形式和求p值的方法。最后分別用這4種檢驗(yàn)方法解決一個(gè)實(shí)際問題。
表1 符號檢驗(yàn)的基本內(nèi)容Tab.1 Basic content of sign test
當(dāng)樣本量n足夠大(>10)時(shí),由棣莫佛-拉普拉斯中心極限定理可知
表2 符號檢驗(yàn)大樣本的基本內(nèi)容
假設(shè)X1,X2,…,Xm;Y1,Y2,…,Yn是兩組相互獨(dú)立的樣本,來自兩個(gè)分布F(x)和F(x-μ),有相應(yīng)的中位數(shù)mex和mey。假設(shè)檢驗(yàn)問題為H0:mex=mey。在原假設(shè)成立的情況下,如果兩組數(shù)據(jù)有相同的中位數(shù),則將兩組數(shù)據(jù)混合后,兩組數(shù)據(jù)的混合中位數(shù)mexy與mex相等,兩組數(shù)據(jù)應(yīng)該比較均勻分布在mexy兩邊。因此,與符號檢驗(yàn)類似,檢驗(yàn)的第一步是找出混合數(shù)據(jù)的樣本中位數(shù)Mxy,將X和Y按照分布在Mxy的左右兩側(cè)分為4類,對每一類計(jì)數(shù),形成四格表如表3。
表3 Brown-Mood中位數(shù)檢驗(yàn)的四格表
令A(yù),B,C,D表示表3中4個(gè)類別的樣本點(diǎn)數(shù),A表示X樣本中大于Mxy的個(gè)數(shù)。t表示混合樣本中大于Mxy的個(gè)數(shù),它依賴于m+n的奇偶性,當(dāng)m,n和t固定后,A的分布在原假設(shè)下服從超幾何分布A~H(t,m,N),其概率的計(jì)算公式為
表4 Brown-Mood中位數(shù)檢驗(yàn)的基本內(nèi)容
注意:兩樣本數(shù)據(jù)混合之后排秩,找出中位數(shù)Mxy后,如果樣本數(shù)據(jù)中存在與中位數(shù)一致的樣本數(shù)據(jù),應(yīng)該刪除。
表5 Brown-Mood中位數(shù)檢驗(yàn)大樣本的基本內(nèi)容
Wilcoxon秩和檢驗(yàn)是Wilcoxon于1945年提出的,在應(yīng)用上有重要意義。它的提出,極大地推動(dòng)了有關(guān)秩的方法的發(fā)展。假設(shè)X1,X2,…,Xm;Y1,Y2,…,Yn是兩組相互獨(dú)立的樣本,來自兩個(gè)分布F(x)和F(x-μ),同Brown-Mood中位數(shù)檢驗(yàn)法一樣,可以分別記X和Y的中位數(shù)mex和mey。在mex>mey時(shí),認(rèn)為X1,X2,…,Xm和Y1,Y2,…,Yn混合之后,從小到大排秩,Y樣本Y1,Y2,…,Yn傾向排在前面,而mex 表6 Wilcoxon秩和檢驗(yàn)的基本內(nèi)容 表7 Wilcoxon秩和檢驗(yàn)大樣本的基本內(nèi)容 Wilcoxon-Mann-Whitney檢驗(yàn)是Mann和Whitney于1947年提出的,是Wilcoxon秩和檢驗(yàn)的推廣,但是與Wilcoxon秩和檢驗(yàn)區(qū)別不大。Wilcoxon-Mann-Whitney檢驗(yàn)統(tǒng)計(jì)量表示混合樣本中X觀測值小于Y觀測值的個(gè)數(shù),表達(dá)式為 其中,ri=#{xi 與Wxy相對應(yīng)的,有 其中,rj=#{xi>yj,i=1,2,…,m},j=1,2,…,n。顯然,Wxy+Wyx=mn。 有關(guān)國內(nèi)南北方34座主要城市的年平均氣溫差異研究。數(shù)據(jù)來源于2017年中國統(tǒng)計(jì)年鑒“國內(nèi)南北方劃分主要依據(jù)秦嶺—淮河一線及其延長線”[7],數(shù)據(jù)如表8和表9。在對國內(nèi)南北方的年平均氣溫差異研究中,收集了國內(nèi)34座主要城市2017年度的年平均氣溫?cái)?shù)據(jù),用來研究南北地區(qū)的年平均氣溫是否存在顯著差異(在對總體不作任何分布假設(shè)的前提下)。 表8 2017年南方城市的年平均氣溫/℃ 表9 2017年北方城市的年平均氣溫/℃ 設(shè)國內(nèi)南方城市平均氣溫的中位數(shù)為mex;國內(nèi)北方城市平均氣溫的中位數(shù)為mey。建立問題:原假設(shè)H0:mex=mey;備擇假設(shè)H1:mex>mey,顯著性水平α=0.05。 針對上面檢驗(yàn)問題,計(jì)算檢驗(yàn)統(tǒng)計(jì)量的實(shí)驗(yàn)值,Z+=17;即當(dāng)顯著性水平α=0.05時(shí),拒絕域?yàn)閣={Z+>12}。檢驗(yàn)統(tǒng)計(jì)量Z+落入拒絕域中,所以拒絕原假設(shè)。或計(jì)算p值:p(b(N,1/2)≥Z+),算得p值為0,遠(yuǎn)遠(yuǎn)小于α=0.05,所以拒絕原假設(shè),接受備擇假設(shè)。認(rèn)為在2017年國內(nèi)南方城市年平均氣溫顯著高于北方城市年平均氣溫。 對南北城市的平均氣溫混合排秩,如表10,其中南方城市的樣本數(shù)據(jù)個(gè)數(shù)為17,[]中是北方城市的17個(gè)樣本數(shù)據(jù)。 表10 南北城市的平均氣溫混合秩 計(jì)算混合樣本中的中位數(shù)mexy=15.65,國內(nèi)南方城市中平均溫度低于混合樣本的中位數(shù)的個(gè)數(shù)2;高于混合樣本中位數(shù)的個(gè)數(shù)15,國內(nèi)北方城市中平均溫度低于混合樣本的中位數(shù)的個(gè)數(shù)15;高于混合樣本中位數(shù)的個(gè)數(shù)2;四格表如表11。 表11 氣溫比較四格表 計(jì)算p值近似為0,小于α=0.05,所以拒絕原假設(shè),接受備擇假設(shè)。認(rèn)為在2017年國內(nèi)南方城市年平均氣溫顯著高于北方城市年平均氣溫。 如同Brown-Mood中位數(shù)檢驗(yàn)法的實(shí)例分析,Wilcoxon秩和檢驗(yàn)要對南北城市的平均氣溫混合排秩,求出秩和 Wx=427.5,Wy=167.5。 選取Wy作為檢驗(yàn)統(tǒng)計(jì)量。由于數(shù)值較大,查表無法實(shí)現(xiàn),可以考慮基于大樣本下的Wilcoxon 秩和檢驗(yàn)的漸進(jìn)正態(tài)分布,在此不詳述。因?yàn)閃ilcoxon 秩和檢驗(yàn)和Wilcoxon-Mann-Whitney檢驗(yàn)完全等價(jià),Wilcoxon-Mann-Whitney檢驗(yàn)是Wilcoxon秩和檢驗(yàn)的推廣,因此用Wilcoxon-Mann-Whitney檢驗(yàn)即可。 Wilcoxon-Mann-Whitney檢驗(yàn)也得先對南北城市的平均氣溫混合排秩,選取檢驗(yàn)統(tǒng)計(jì)量 得到檢驗(yàn)統(tǒng)計(jì)量的實(shí)驗(yàn)值Wyx=Wx-m(m+1)/2=274.5。 當(dāng)m=17,n=17,算得p值4.07E-06遠(yuǎn)小于α=0.05,所以拒絕原假設(shè),接受備擇假設(shè)。認(rèn)為在2017年國內(nèi)南方城市年平均氣溫顯著高于北方城市。 非參數(shù)統(tǒng)計(jì)常用的兩樣本位置參數(shù)檢驗(yàn)方法有符號檢驗(yàn)、Brown-Mood中位數(shù)檢驗(yàn)法、Wilcoxon秩和檢驗(yàn)以及它的推廣Wilcoxon-Mann-Whitney檢驗(yàn)等。 符號檢驗(yàn)是非參數(shù)統(tǒng)計(jì)中很古老的檢驗(yàn)法,主要是利用正、負(fù)號的數(shù)目對某種假設(shè)做出推斷。優(yōu)點(diǎn)是簡單方便,并不要求知道被檢驗(yàn)量的分布規(guī)律,所以用途十分廣泛。符號檢驗(yàn)法只考慮了正、負(fù)號的個(gè)數(shù),而沒有考慮到數(shù)據(jù)大小的信息,這就導(dǎo)致了數(shù)據(jù)信息有所損失,精確度不高。當(dāng)兩樣本的樣本容量相差較大的時(shí)候,需要舍棄較多的數(shù)據(jù),數(shù)據(jù)信息損失更多,符號檢驗(yàn)法適用于兩樣本的數(shù)據(jù)量一致的情況。 Brown-Mood中位數(shù)檢驗(yàn)的主要思想是將兩樣本混合起來排秩,將兩樣本中大于或小于混合樣本中位數(shù)的數(shù)據(jù)個(gè)數(shù)進(jìn)行計(jì)數(shù),繪制四格表,利用超幾何分布進(jìn)行檢驗(yàn)。 Wilcoxon秩和檢驗(yàn)主要對兩樣本數(shù)據(jù)混合排秩,并計(jì)算秩和檢驗(yàn)統(tǒng)計(jì)量進(jìn)行檢驗(yàn)。當(dāng)樣本數(shù)據(jù)量較大時(shí),統(tǒng)計(jì)量值太大不易處理,可用其統(tǒng)計(jì)量的漸近分布解決,或用其推廣的方法——Wilcoxon-Mann-Whitney檢驗(yàn)法,這兩種方法本質(zhì)上是等價(jià)的,一般采用后者進(jìn)行檢驗(yàn)。當(dāng)樣本數(shù)據(jù)充分大的時(shí)候,考慮基于大樣本下的漸近正態(tài)分布,利用正態(tài)分布進(jìn)行顯著性檢驗(yàn)。這兩種方法既考慮了數(shù)據(jù)的符號,又考慮了數(shù)據(jù)大小信息,較符號檢驗(yàn)更為全面考慮數(shù)據(jù)的相關(guān)信息。 這些非參數(shù)檢驗(yàn)方法的共同優(yōu)點(diǎn)是,不知總體分布的時(shí)候也可以使用,但是它們有一個(gè)共同的缺點(diǎn),即,當(dāng)數(shù)據(jù)符合參數(shù)檢驗(yàn)條件時(shí),這些非參數(shù)檢驗(yàn)沒有充分運(yùn)用數(shù)據(jù)信息。1.4 Wilcoxon-Mann-Whitney 檢驗(yàn)[5-6]
2 實(shí)例分析
2.1 符號檢驗(yàn)法的實(shí)例分析
2.2 Brown-Mood中位數(shù)檢驗(yàn)法的實(shí)例分析
2.3 Wilcoxon秩和檢驗(yàn)和Wilcoxon-Mann-Whitney檢驗(yàn)的實(shí)例分析
3 結(jié)束語