張鳳寬
(天津商業(yè)大學(xué) 理學(xué)院,天津 300134)
在沈世鎰教授的文章[1]中給出了一種改進(jìn)的經(jīng)驗(yàn)分布函數(shù)的定義,使之更適用于Shannon熵的計(jì)算,并利用推導(dǎo)出的有關(guān)結(jié)果及最大熵原理給出了一個(gè)分布檢驗(yàn)的新方法,即《分布的熵—矩檢驗(yàn)法》。為了使這種方法的應(yīng)用更廣泛,本文擬將一維推廣到二維及至多維的情形。
對(duì)于任意給定的二維隨機(jī)向量(X,Y)的樣本為了給出它的經(jīng)驗(yàn)分布函數(shù),我們先進(jìn)行如下討論:
從(1)式出發(fā)可以得到一維樣本x1,x2,..xm,排序后得x[1]≤x[2]≤...≤x[m],相應(yīng)地有:
即 {(x[i],yx[i])}(i=1,2...,m)為(2)中的所有樣本,取0<α<1/4 ,記 n=m12,n1=m1/2+α,n2=m1/2-α,顯 然n2=m,n1.n2=m,定義[1](帶“^”者均為經(jīng)驗(yàn)分布,以后出現(xiàn)“^”意思相同,不再敘述)
為X的Ⅱ型經(jīng)驗(yàn)分布函數(shù)。
相應(yīng)的有分布密度函數(shù):
對(duì)于每一個(gè)k(0≤k≤n2-1):x[kn1+1],x[kn1+2],..x[kn1+n1]對(duì)應(yīng)于(2)中的
排序得:
取 0<α'<1/4,記 n0=n11 2,n3=n11/2+α',n4=n11/2-α',從而n3.n4=n1,=n1(顯然m→∞時(shí),n1=m1/2+α→∞)。
定義
為y關(guān)于x的條件經(jīng)驗(yàn)分布函數(shù)。
相應(yīng)的分布密度函數(shù)為:
當(dāng) x[kn1]<x≤x[(k+1)n1]時(shí)。
所以當(dāng) x[kn1]<x≤x[(k+1)n1],yk[ln3]<y≤yk[(l+1)n3]時(shí),有:
將(3)、(6)式代入(8)式即得二維隨機(jī)向量的經(jīng)驗(yàn)分布函數(shù):
其相應(yīng)的分布密度函數(shù)為:
不妨假設(shè)(1)式中的樣本是來(lái)自分布密度函數(shù)為f(x,y)的總體中,下面討論 f?m,α,α'(x,y)與 f(x,y)之間的關(guān)系。
定理1如果 f(x,y)為支集S上的分布密度函數(shù)且為二元連續(xù)的。其條件分布密度函數(shù) f(y|x),f(x|y)關(guān)于x,y有一致有界導(dǎo)數(shù),其邊際分布密度函數(shù) f1(x),f2(y)分別具有一致有界的導(dǎo)數(shù),且在S上 f1(x)>0,f2(y)>0,則對(duì)任何,有
證明:
由已知條件 f(y|x)關(guān)于 x,y有一致有界導(dǎo)數(shù),而∫f(x,y)dy=1,從而 f(y|x)有界。又由[1]中結(jié)論:當(dāng) f1(x)有一致有界導(dǎo)數(shù)時(shí):
所以:
同時(shí)由 f1(x)有一致有界導(dǎo)數(shù)及∫f1(x)dx=1知 f1(x)有界。從而由(12)式知:
對(duì)于任意給定的x0:對(duì)應(yīng)于每一個(gè)固定的m。有且僅有一個(gè)k,使得x[kn1]<x0≤x[(k+1)n1],所以:
而對(duì)于(15)式中的每一個(gè)(x[kn1],x[(k+1)n1]],當(dāng)m→∞時(shí),n1→∞。且(x[kn1],x[(k+1)n1]]→x0
證畢。
從(1)式出發(fā)又可以得到一維樣本y1,y2,...,ym,按照定義的方法可以得到關(guān)于y的經(jīng)驗(yàn)分布密度函數(shù),同樣與類似定義可得到
定理2在定理1的條件下,若∫f(y|x)|logf(y|x)|dy存在,∫f(y|x)|logf(y|x)|dy關(guān)于x一致有界(以概率1),則:
證明:
由文[1]的結(jié)論有:
可知:
由于∫f(y|x)logf(y|x)dy以概率1關(guān)于x一致有界,故存在M1>0,使得
再考慮(12)式即知:
對(duì)于任意給定的x,由∫f(y|x)|logf(y|x)|dy的存在性及的證明過(guò)程,可用(15)~(16)式的極限方法證得:
考慮(14)式即有:
由(20)、(21)、(24)式即知:
定理2證畢。
已知多維隨機(jī)向量(x1,x2,...xn)(n≥3)的樣本序列為:從上述討論看出,可以從二維樣本(x11,x21),(x12,x22),...(x1m,x2m)出發(fā)首先得到m,α,α'(x1,x2)(見(jiàn)(6)式)及相應(yīng)的(見(jiàn)(7)式),對(duì)于每一個(gè)給定的k及l(fā),有x3的相應(yīng)樣本序列(xkl[1],xkl[2],...xkl[n3])
然后與一維推廣到二維完全類似,按照(6)~(9)式的定義方式可以得到:
對(duì)于n維情形,可通過(guò)
由此可見(jiàn),在某些條件下,當(dāng)且僅當(dāng)分布密度函數(shù)屬于指數(shù)分布族時(shí)其熵達(dá)到最大。所以以下的討論都是在指數(shù)分布族中進(jìn)行。
例1:如何判別一個(gè)多元樣本序列
是否服從多元正態(tài)分布。
首先從(29)式出發(fā)計(jì)算數(shù)學(xué)期望和方差估計(jì)值:
當(dāng)然如果期望和方差均為已知或者二者之一為已知,則不必再計(jì)算其估計(jì)值。
記 X=(x1,x2,...xn)',A=,B=,(如果ai,bij為已知,則令
如果隨機(jī)向量X服從多員正態(tài)分布,則其相應(yīng)的B=(bij)為正定陣,從而有非奇異陣L,使B=LL',對(duì)應(yīng)于A,B的n元正態(tài)分布密度Nn(A,B)為:
由此 f(x1,x2,...xn)可以計(jì)算出:
對(duì)(31)做如下線性變換:
則逆變換為:
變換(34)的雅可比行列式為:
因此:
由此即知以 f(x1,x2,...xn)為分布密度的多元正態(tài)隨機(jī)向量的模擬數(shù)據(jù)可以從標(biāo)準(zhǔn)正態(tài)分布的模擬數(shù)據(jù)求得,
即:如取作為n個(gè)獨(dú)立模擬的標(biāo)準(zhǔn)正態(tài)隨機(jī)變數(shù)據(jù)序列(這種序列可以從(0,1)上均勻分布的模擬數(shù)據(jù)得到,具體模擬方法見(jiàn)[6])。經(jīng)過(guò)變換(34)式所得到的X的相應(yīng)序列:
即為服從Nn(A,B)的多元正態(tài)隨機(jī)向量序列。關(guān)于這一點(diǎn)從(31)~(36)的推導(dǎo)過(guò)程中易見(jiàn)。對(duì)于不同的(37)中序列就有對(duì)應(yīng)的(38)中的不同序列(服從Nn(A,B)),并且可以有無(wú)窮多組不同的序列(37)、(38),不妨?。?8)中的100組。計(jì)算其相應(yīng)的(j=1,2,...100)再與(32)式比較即得Δj=-Hj(f)|(j=1,2,...100)從Δj中依次挑出11個(gè)最大值[3],將它們從大到小排列,分別記為Δm0,Δm1,...Δm10,取Δm1,Δm2,Δm5,Δm10為樣本容量為m時(shí)的擬顯著水平α=0.01,0.02,0.05,0.10的臨界值。此即可作為Δ=|H(f?)-H(f)|當(dāng) f為n元正態(tài)分布密度時(shí)的判別標(biāo)準(zhǔn)。增大樣本容量m或增加模擬次數(shù)均可提高這種標(biāo)準(zhǔn)的精確度。
對(duì)于指數(shù)分布族中的其它的連續(xù)型向量也可以做類似于例1的處理,即先計(jì)算Shannon熵的精確值H(f),再?gòu)臉颖境霭l(fā)計(jì)算H(f?),通過(guò)模擬得到一個(gè)Δ=|H(f?) -H(f)|的判別標(biāo)準(zhǔn)。
上述判別法的缺點(diǎn)在于造表(即Δ的大小判別標(biāo)準(zhǔn)或?qū)?yīng)臨界值表)時(shí)比較麻煩,但是具體用表時(shí)比較簡(jiǎn)易。從樣本出發(fā)計(jì)算H(f?)時(shí)在計(jì)算機(jī)上較易實(shí)現(xiàn)。對(duì)維數(shù)較低的隨機(jī)向量這種方法精確度較高,從而比高維時(shí)更適用。
[1]沈世鎰.關(guān)于Shannon熵的統(tǒng)計(jì)計(jì)算及其在分布檢驗(yàn)中的應(yīng)用[J].高校應(yīng)用數(shù)學(xué)學(xué)報(bào),1988,12.
[2]Jhon,Willy S.Kullback.Information Theory and Statistics[M].New York:Wiley,1959.
[3]沈世鎰,張潤(rùn)楚,肖蕓茹.熵矩檢驗(yàn)法與熵矩檢驗(yàn)表[D].南開大學(xué), 1985.
[4]張潤(rùn)楚.多元統(tǒng)計(jì)分析[M].天津:南開大學(xué)出版社,1986.
[5]林畛.變分法與最優(yōu)控制[M].哈爾濱:哈爾濱工業(yè)大學(xué)出版社, 1987.
[6]肖蕓茹.概率統(tǒng)計(jì)計(jì)算[M].天津:南開大學(xué)出版社,1986.