王軍虎
(洛陽理工學(xué)院 經(jīng)濟與管理學(xué)院,河南 洛陽 471023)
區(qū)間估計和假設(shè)檢驗是統(tǒng)計推斷的基本內(nèi)容。用隨機樣本推斷總體數(shù)量特征的準確程度一般用抽樣誤差來表征,抽樣誤差由登記誤差和隨機誤差組成。登記誤差是調(diào)查或?qū)嶒灩ぷ鞯恼`差,理論上是可以消除的,在推斷統(tǒng)計中一般只研究隨機誤差。隨機誤差無法消除,但可以通過抽樣設(shè)計進行控制,其核心是確定必要樣本容量。對于單一推斷目標的參數(shù)閉區(qū)間估計的必要樣本容量確定方法已經(jīng)很成熟,林才生和曾五一(2005)[1]、賀建風(fēng)和劉建平(2008)[2]研究了多推斷目標參數(shù)估計的必要樣本容量確定方法,但研究者很少涉及開區(qū)間估計的樣本容量,也沒有考慮到納偽錯誤的概率。郭文(2012)[3]研究了方差假設(shè)檢驗的樣本容量,耿修林(2008)[4]研究了方差分析的必要樣本容量,但都沒有涉及參數(shù)估計問題。鄭慶玉(2001)[5]單獨研究了總體均值閉區(qū)間估計與雙側(cè)假設(shè)檢驗時必要樣本容量的確定方法,但沒有建立二者之間的聯(lián)系。魏杰(2004)[6]對總體均值閉區(qū)間估計時的必要樣本容量與總體均值左側(cè)假設(shè)檢驗時的必要樣本容量進行了簡單比較,但未能說明二者之間的本質(zhì)聯(lián)系。本文基于抽樣推斷的基本原理,探索總體參數(shù)區(qū)間估計與假設(shè)檢驗時必要樣本容量的確定方法之間的內(nèi)在聯(lián)系,把兩類錯誤納入閉區(qū)間估計和開區(qū)間估計的必要樣本容量確定之中,以實現(xiàn)對總體參數(shù)的科學(xué)推斷。
假設(shè)檢驗是利用小概率原理,通過隨機樣本信息推斷事先做出的關(guān)于總體某一數(shù)量特征的論斷是否成立的統(tǒng)計研究方法。假設(shè)檢驗結(jié)論的有效性與事先設(shè)定的小概率α有關(guān),但并不是越小越好,而是需要同時控制存在著此消彼長關(guān)系的兩種錯誤發(fā)生的概率,即棄真錯誤發(fā)生的概率α和納偽錯誤發(fā)生的概率β。通過調(diào)節(jié)樣本容量可以達到有效控制兩類錯誤的目的。
總體均值的雙側(cè)檢驗的原假設(shè)是“H0:μ=μ0”,備擇假設(shè)是“H1:μ<μ0或μ>μ0”。
當(dāng)原假設(shè)H0非真而備擇假設(shè)“H1:μ=μ1(μ1>μ0)”為真時,檢驗中納偽錯誤發(fā)生的概率,即:
圖1 雙側(cè)檢驗中的兩類錯誤圖
如圖1(b)所示,當(dāng)原假設(shè)“H0:μ=μ0”為真而備擇假設(shè)“H1:μ=μ1(μ1<μ0)”非真時,檢驗中棄真錯誤發(fā)生的概率,即公式(1)。
當(dāng)原假設(shè)H0非真而備擇假設(shè)“H1:μ=μ1(μ1<μ0)”為真時,檢驗中納偽錯誤發(fā)生的概率即:
兩類錯誤發(fā)生的概率α和β此消彼長。在平衡點B,由公式(1)和公式(5)可以得到:
假設(shè)x1,x2,…,xn是來自總體X的一個簡單隨機樣本,X~N(μ,σ2),σ2已知,
1.2.1 左側(cè)檢驗
總體均值左側(cè)檢驗的原假設(shè)是“H0:μ≥μ0”,備擇假設(shè)是“H1:μ<μ0”。
如圖2(a)所示,當(dāng)原假設(shè)“H0:μ=μ0”為真而備擇假設(shè)“H1:μ<μ0”非真時,檢驗中棄真錯誤發(fā)生的概率為真),即:
圖2 單側(cè)檢驗中的兩類錯誤圖
當(dāng)原假設(shè)H0非真而備擇假設(shè)“H1:μ=μ1(μ1<μ0)”為真時,檢驗中納偽錯誤發(fā)生的概率即公式(5)。在兩類錯誤的平衡點C,由公式(5)和公式(8)可以得到:
1.2.2 右側(cè)檢驗
總體均值右側(cè)檢驗的原假設(shè)是“H0:μ≤μ0”,備擇假設(shè)是“H1:μ>μ0”。
如圖2(b)所示,當(dāng)原假設(shè)“H0:μ≤μ0”為真而備擇假設(shè)“H1:μ>μ0”非真時,檢驗中棄真錯誤發(fā)生的概率為真),即:
在簡單隨機重復(fù)抽樣和簡單隨機不重復(fù)抽樣下,分別可以推導(dǎo)出與左側(cè)檢驗相同的兼顧控制兩類錯誤發(fā)生的概率α和β的樣本容量確定公式(10)和公式(11)。
參數(shù)的區(qū)間估計是在給定的置信度1-α下,利用隨機樣本信息對總體參數(shù)真值的取值范圍做出的統(tǒng)計推斷。評價總體均值μ的區(qū)間估計的精度時常用絕對誤差來衡量,它是樣本均值與總體均值真值的誤差。由于總體均值的真值μ是無法得到的,因此估計的絕對誤差也無法計算,但在區(qū)間估計時需要控制這個絕對誤差的取值范圍,使它不超過一個極限值Δ,Δ 稱為區(qū)間估計的極限誤差。在區(qū)間估計中,置信度1-α和極限誤差Δ 呈正向關(guān)系。當(dāng)置信度1-α增大時,區(qū)間估計錯誤的概率α?xí)p小,但極限誤差Δ 會增大,估計的精度降低;反之,當(dāng)提高估計精度時,極限誤差Δ 變小,但置信度1-α?xí)档?,區(qū)間估計錯誤的概率α將增大。通過調(diào)節(jié)樣本容量可以有效調(diào)和區(qū)間估計錯誤的概率α和極限誤差Δ 之間存在的矛盾。
總體參數(shù)的閉區(qū)間估計是指在估計總體參數(shù)真值θ時,所估計的1-α置信區(qū)間是一個既有上限值又有下限值的閉區(qū)間,即為θ的點估計值,Δ ≥0 為估計的極限誤差。
總體參數(shù)的開區(qū)間估計是指在估計總體參數(shù)真值θ時,所估計的1-α置信區(qū)間是一個只有上限值或只有下限值的開區(qū)間。其中,只有下限值的開區(qū)間估計稱為最小值開區(qū)間估計,即只有上限值的開區(qū)間估計稱為最大值開區(qū)間估計,即
假設(shè)x1,x2,…,xn是來自總體X的一個簡單隨機樣本,X~N(μ,σ2),σ2已知,
2.2.1 最小值開區(qū)間估計
參照圖2(b),在給定的置信度1-α下,有:
2.2.2 最大值開區(qū)間估計
參照圖2(a),在給定的置信度1-α下,有:
通過比較總體均值雙側(cè)檢驗的必要樣本容量計算公式(4)、公式(7)和總體均值閉區(qū)間的必要樣本容量計算公式(14)、公式(15),以及總體均值單側(cè)檢驗的必要樣本容量計算公式(10)、公式(11)和總體均值開區(qū)間的必要樣本容量計算公式(17)、公式(18),可以得到如下結(jié)論:
(1)對于單側(cè)檢驗而言,無論是左側(cè)檢驗還是右側(cè)檢驗,確定樣本容量都采用同一個計算公式;在進行開區(qū)間估計時,無論是最小值開區(qū)間估計還是最大值開區(qū)間估計,確定樣本容量也都采用同一個計算公式。單側(cè)檢驗和雙側(cè)檢驗、閉區(qū)間估計和開區(qū)間估計,計算必要樣本容量的公式不相同但非常相似。在研究總體均值時,只有一點不同:單側(cè)檢驗或開區(qū)間估計計算必要樣本容量公式中的zα在雙側(cè)檢驗或閉區(qū)間估計中變成了
(2)假設(shè)檢驗和區(qū)間估計的必要樣本容量大小與抽樣的方式和方法有關(guān),不同的抽樣方式和方法下計算必要樣本容量的公式是不同的。就簡單隨機抽樣方式而言,采用不重復(fù)抽樣方法的必要樣本容量小于重復(fù)抽樣方法的必要樣本容量。一般而言,分層抽樣、系統(tǒng)抽樣等其他抽樣方式有效地利用了已有的總體信息,降低了隨機抽樣的盲目性,使樣本的代表性增加,可以減小假設(shè)檢驗和區(qū)間估計的必要樣本容量。
(3)假設(shè)檢驗和區(qū)間估計的必要樣本容量與總體方差成正比??傮w方差越大,總體中的個體變異程度越大,需要抽取更大容量的樣本,以保證假設(shè)檢驗中兩類錯誤的概率都得到有效控制或保證區(qū)間估計在一定的置信度下的估計精度。反之,總體方差越小,總體中的個體變異程度越低,只需要抽取較小容量的樣本就能滿足假設(shè)檢驗或區(qū)間估計的設(shè)計需要。
(4)在計算假設(shè)檢驗的必要樣本容量時,需要確定參數(shù)真值與其假設(shè)值之間的偏差,如|μ1-μ0|。在計算區(qū)間估計的必要樣本容量時,需要確定參數(shù)真值與樣本估計值之間允許的最大偏差,如在實踐中,|μ1-μ0|和都是未知的,在確定必要樣本容量時,可以通過分析增大或減小偏差帶來的成本和收益之間的平衡關(guān)系來確定這兩個離差的最大允許值。兩個最大允許偏差值均可以用Δ 來表示。
作為統(tǒng)計推斷的兩個基本研究內(nèi)容,參數(shù)的假設(shè)檢驗和區(qū)間估計都是依據(jù)一個隨機樣本提供的統(tǒng)計信息和統(tǒng)計量的概率分布原理,在一定的概率保證下,對總體的數(shù)量特征進行科學(xué)推斷。因此,可以用區(qū)間估計方法進行假設(shè)檢驗,即在假設(shè)檢驗中用區(qū)間估計準則進行檢驗決策:構(gòu)造備擇假設(shè)H1的1-α置信區(qū)間,如果備擇假設(shè)H1的區(qū)間完全包含了這個1-α置信區(qū)間,那么就拒絕原假設(shè);否則,就接受原假設(shè)[7]。用區(qū)間估計準則進行假設(shè)檢驗有助于從假設(shè)檢驗的視角認識區(qū)間估計問題。
可以把區(qū)間估計看作一個假設(shè)檢驗問題。對于單個總體均值的閉區(qū)間估計,可以用下列假設(shè)檢驗來表示:
顯然,當(dāng)β=0.5,即zβ=0 時,這樣的假設(shè)檢驗的必要樣本容量與區(qū)間估計的必要樣本容量相等。由此可見,參數(shù)區(qū)間估計的實質(zhì)是一個忽視納偽錯誤的假設(shè)檢驗,它所檢驗的假設(shè)值就是樣本估計值。忽視納偽錯誤意味著當(dāng)總體參數(shù)的真值沒有落入所估計的1-α置信區(qū)間時,接受這個置信區(qū)間和拒絕這個置信區(qū)間具有相同的概率,區(qū)間估計方法本身并不能為人們避免接受錯誤的置信區(qū)間提供有用的信息,只能由決策人自己來做出判斷。
如果期望區(qū)間估計和假設(shè)檢驗一樣,能為人們避免接受錯誤的置信區(qū)間提供幫助,那么就不能忽視納偽錯誤,必須把納偽錯誤發(fā)生的概率β和棄真錯誤發(fā)生的概率α同時納入必要樣本容量的確定之中,使兩類錯誤在區(qū)間估計中都得到有效控制。
在同時考慮兩類錯誤的條件下進行區(qū)間估計時,納偽錯誤發(fā)生的概率β應(yīng)控制在0.5以下,zβ>0。此時,進行區(qū)間估計的必要樣本容量n′大于僅考慮去真錯誤時進行區(qū)間估計的必要樣本容量n。由于必要樣本容量增大,因此當(dāng)其他條件不變時,置信區(qū)間的寬度變窄,估計的精度提高。下面以簡單重復(fù)抽樣為例,模擬驗證在同時考慮兩類錯誤的條件下區(qū)間估計必要樣本容量的變化及估計精度的變化。
假設(shè)總體服從正態(tài)分布,且方差σ2已知,采用重復(fù)抽樣方法從總體中抽取一個簡單隨機樣本。在相同的置信度1-α和相同的極限誤差Δ 要求下,控制納偽錯誤的概率β與不控制納偽錯誤的概率β時,進行區(qū)間估計的必要樣本容量變化率δn的計算公式分別如下:
抽取的必要樣本容量變化后,引起的置信區(qū)間寬度變化率δΔ的計算公式分別如下:
當(dāng)分別取常用的置信度0.90、0.95和0.99時,表1模擬了把納偽錯誤的概率β控制在不同水平下的閉區(qū)間估計和開區(qū)間估計必要樣本容量的變化率δn和置信區(qū)間寬度的變化率δΔ的變動規(guī)律。δn為正值表明控制納偽錯誤的概率β之后,必須增加必要樣本容量,才能在區(qū)間估計中滿足同時控制兩類錯誤和極限誤差的要求;δΔ為負值表明控制納偽錯誤的概率β之后,由于必要樣本容量增加,因此區(qū)間估計寬度變窄,估計的精度提高。
表1 控制兩類錯誤下置信區(qū)間寬度變化率和必要樣本容量變化率(單位:%)
表1的模擬結(jié)果顯示,與不考慮納偽錯誤的區(qū)間估計相比,將納偽錯誤的概率β控制得越低,必要樣本容量增加得越多,估計結(jié)果的精度也越高。在相同的兩類錯誤控制要求下,開區(qū)間估計的必要樣本容量增加率和估計精度增加率高于閉區(qū)間估計。當(dāng)β取0.20時,必要樣本容量約增加1 倍,區(qū)間估計的精度約增加30%。當(dāng)β取0.05 時,必要樣本容量約增加1.6至4.2倍,區(qū)間估計的精度約增加41%至50%。當(dāng)β取值減小時,由于必要樣本容量增加導(dǎo)致的抽樣成本增加的程度可能會大于估計精度增加的程度,因此β的取值不宜太小。
本文通過對總體均值單側(cè)檢驗和雙側(cè)檢驗確定必要樣本容量的方法和總體均值開區(qū)間估計和閉區(qū)間估計確定必要樣本容量的方法進行比較,發(fā)現(xiàn)二者所依據(jù)的數(shù)理統(tǒng)計原理相同,主要區(qū)別在于二者采用不同的統(tǒng)計方法來推斷總體的數(shù)量特征。區(qū)間估計所提供的方法可以用于進行假設(shè)檢驗。同理,區(qū)間估計也可以看作一種特殊的假設(shè)檢驗,即樣本統(tǒng)計量計算值是否與總體參數(shù)的真值在統(tǒng)計上顯著相同。在區(qū)間估計中,一般忽略了決策者使用置信區(qū)間時可能犯下的納偽錯誤的概率為50%。如果決策者希望降低犯納偽錯誤的概率,那么就需要在抽樣實驗設(shè)計或抽樣調(diào)查設(shè)計中借助相應(yīng)的假設(shè)檢驗方法來確定必要的樣本容量。當(dāng)其他條件不變時,在估計置信區(qū)間時若要同時控制棄真錯誤和納偽錯誤的概率,則可以通過增加樣本容量的方法來實現(xiàn),進而提高置信區(qū)間的精度。