朱成蓮
1951年,統(tǒng)計(jì)學(xué)家Kullback和Leibler提出了相對(duì)熵的概念,用來(lái)度量?jī)蓚€(gè)分布之間的差異程度,也稱為Kullback-Leibler距離。在數(shù)理統(tǒng)計(jì)中,統(tǒng)計(jì)推斷的一個(gè)重要方面就是從已知樣本去估計(jì)母體的分布,或者推斷分布的特征,對(duì)于同樣的母體分布,當(dāng)用幾種不同的統(tǒng)計(jì)方法獲得了母體的不同估計(jì)分布后,人們往往要對(duì)所求得的分布進(jìn)行比較,為此,統(tǒng)計(jì)學(xué)上引入了許多度量?jī)蓚€(gè)分布差異的方法,如相對(duì)熵,Pearson-χ2距離和全變差距離等,相對(duì)熵應(yīng)用于許多領(lǐng)域,從相對(duì)熵的定義看出,它已經(jīng)不滿足傳統(tǒng)的距離中對(duì)稱性、三角不等式性等條款。盡管如此,由于它確實(shí)能夠在某種程度上刻畫(huà)兩個(gè)密度函數(shù)的差異程度,近年來(lái),概率密度函數(shù)的相對(duì)熵在學(xué)術(shù)界備受關(guān)注,人們?cè)谟懻摌O值分布的大樣本問(wèn)題、分布函數(shù)估計(jì)的收斂性、用不同算法借補(bǔ)有缺失數(shù)據(jù)的分布估計(jì)的收斂速度等問(wèn)題時(shí),都使用相對(duì)熵[1-5]。本文將相對(duì)熵定義進(jìn)行了推廣,定義了最小相對(duì)熵。從定義形式上看,并不難理解,最小相對(duì)熵是將兩個(gè)概率密度函數(shù)間的相對(duì)熵求較小值,但它的意義在于克服了相對(duì)熵沒(méi)有對(duì)稱性的缺陷。本文計(jì)算了兩個(gè)廣義伽瑪分布之間相對(duì)熵及最小相對(duì)熵。作為廣義伽瑪分布的特例,推導(dǎo)出兩個(gè)伽瑪分布、Weibull分布、Rayleigh分布、正態(tài)分布、指數(shù)分布之間的相對(duì)熵及最小相對(duì)熵。
則稱隨機(jī)變量X服從廣義伽瑪分布,記為GΓ()α,β,λ。
由定義1可知,當(dāng)α,β取一些特殊值時(shí),得到以下一些特例:
定義1[6]:如果隨機(jī)變量X的概率密度函數(shù)為:
一般記為Γ(α,λ)。伽瑪分布中,若α為整數(shù)就是Erlang分布;伽瑪分布中,α=n(1)當(dāng)β=1時(shí),得到伽瑪分布,密度函數(shù)為:2,λ=2就是 χ2分布。(2)當(dāng)α=1時(shí),得到Weibull分布,密度函數(shù)為:
一般記為W(β,λ)。
(3)當(dāng) α=1,β=2,λ=2σ 時(shí),得到 Rayleigh分布,密度函數(shù)為:
一般記為 R(σ)。
(4)當(dāng)α=1,β=1時(shí),得到指數(shù)分布,密度函數(shù)為:
一般記為 E(λ)。
一般記為 N(0,σ2)。
定義 2[7]:設(shè) f(x),g(x)是兩個(gè)密度函數(shù),Sf和Sg分f(x) dx<+∞時(shí),則稱這個(gè)值是g(x)到f(x)的相對(duì)熵,又稱為Kullback-Leibler距離,記為d( f ,g )。
當(dāng)f(x),g(x)都是離散型隨機(jī)變量分布時(shí),定義2中的積分需換成相應(yīng)的求和記號(hào)。
定義3:設(shè)兩個(gè)隨機(jī)變量 X1,X2的概率密度函數(shù)分別為 f(x)、g(x),并且 f(x)>0,g(x)>0,若 d( f ,g ) 和d(g,f)都存在,記 dmin(f,g)=min{d(f,g),d(g,f)} ,則稱dmin(f,g)為 f(x),g(x)兩個(gè)密度函數(shù)之間的最小相對(duì)熵。
由定義2和定義3易得以下有關(guān)相對(duì)熵的性質(zhì)。
性質(zhì)1:設(shè) f(x)>0,g(x)>0是兩個(gè)概率密度函數(shù),則:
(1)非負(fù)性 d(f,g)≥0
(3)d(f,g)=0?E(lnf(x))=E(lng(x))?f(x)=g(x)=0
(4)d(f,g1)-d(f,g2)=
從性質(zhì)1的(1)、(3)知相對(duì)熵確實(shí)能刻畫(huà)兩個(gè)分布g(x)與Sf之間的差異程度,但是相對(duì)熵對(duì)稱性,三角形不等式未必成立。
性質(zhì)2:設(shè) f(x)>0,g(x)>0是兩個(gè)概率密度函數(shù),
則:
從性質(zhì)2可以看出,最小相對(duì)熵與相對(duì)熵相比較,最小相對(duì)熵除了具有相對(duì)熵的性質(zhì)外,還具有對(duì)稱性、三角不等式性質(zhì)。
引理1:如果隨機(jī)變量X的概率密度函數(shù)為:
則:
證明:計(jì)算積分
由式(1)可得隨機(jī)變量X的K階矩為:
當(dāng)式(1)中 s=0時(shí),得到:
對(duì)式(2)兩邊關(guān)于α求導(dǎo)得:
因此:
定理 1:設(shè) f(x)、g(x)分別是廣義伽瑪分布GΓ(α,β,λ1) 、GΓ(α,β,λ2)的密度函數(shù),則:
證明:根據(jù)定義2可得:
所以:
從上式可看出,當(dāng) λ1→λ2時(shí),d(f,g)→0
定理 2:設(shè)f(x ) 、g(x)分別是廣義伽瑪分布GΓ(α,β,λ1) 、GΓ(α,β,λ2)的密度函數(shù),則:
定理 3:設(shè)f(x ) 、g(x)分別是廣義伽瑪分布GΓ(α,β,λ1) 、GΓ(α,β,λ2)的密度函數(shù),則:
證明:由定理1和定理2可知:
構(gòu)造函數(shù):
可得:
易知 f(t)為(0,+∞ )單調(diào)遞增函數(shù)。且當(dāng)t=1時(shí):
故:
因此:
且當(dāng) λ1→λ2時(shí),d(f,g)→0 。
定理4:設(shè) f(x)、g(x)分別是廣義伽瑪分布GΓ(α1,β,λ)、GΓ(α2,β,λ)的密度函數(shù),則:′
證明:根據(jù)相對(duì)熵的定義得:
根據(jù)引理1結(jié)論可得:
所以:
由上式可知,d( f ,g )與λ、β無(wú)關(guān),兩個(gè)密度函數(shù)的相近程度由參數(shù)α決定,當(dāng)α1→α2時(shí),d( f ,g )→0。
定理 5:設(shè) f(x)、g(x)分別是廣義伽瑪分布GΓ(α1,β,λ)、GΓ(α2,β,λ)的密度函數(shù),當(dāng) β ,λ確定時(shí),
且當(dāng)α1→α2時(shí),d( f ,g )→0。
定理 6:設(shè) f(x)、g(x)分別是廣義伽瑪分布GΓ(α,β1,λ)、GΓ(α,β2,λ)的密度函數(shù),當(dāng) α ,λ確定時(shí),
證明:根據(jù)相對(duì)熵的定義可得:
分別計(jì)算上式三個(gè)積分,根據(jù)引理1結(jié)論可得:
所以:
從上式可看出,d( f ,g ) 與 λ無(wú)關(guān),當(dāng) β1→β2時(shí),d(f,g)→0 。
定理 7:設(shè)f(x ) 、g(x)分別是廣義伽瑪分布GΓ(α,β1,λ)、GΓ(α,β2,λ)的密度函數(shù),當(dāng) α ,λ確定時(shí),則:
且當(dāng) β1→β2時(shí),d(f,g)→0 。
由以上定理可得以下推論:
推論1:設(shè) f(x)、g(x) 分別是伽瑪 Γ(α,λ1) Γ(α,λ2)的密度函數(shù),則:
且當(dāng) λ1→λ2時(shí),d(f,g)→0
推論2:設(shè) f(x)、g(x) 分別是伽瑪 Γ(α,λ1) Γ(α,λ2)的密度函數(shù),則:
且當(dāng) λ1→λ2時(shí),d(f,g)→0
推論3:設(shè) f(x)、g(x )分別是Weibull分布W(β,λ1)、W(β,λ2)的密度函數(shù),則:
且當(dāng) λ1→λ2時(shí),d(f,g)→0。
推論4:設(shè) f(x)、g(x )分別是Weibull分布W(β,λ1)、W(β,λ2)的密度函數(shù),則:
且當(dāng) λ1→λ2時(shí),d(f,g)→0 。
推論5:設(shè) f(x)、g(x) 分別是 Rayleigh分布 R(σ1)、R(σ2)的密度函數(shù),則:
且當(dāng)σ1→σ2時(shí),d(f,g)→0。
推論6:設(shè) f(x)、g(x) 分別是 Rayleigh分布 R(σ1)、R(σ2)的密度函數(shù),則:
且當(dāng)σ1→σ2時(shí),d(f,g)→0。
且當(dāng)σ1→σ2時(shí),d(f,g)→0。
且當(dāng)σ1→σ2時(shí),d(f,g)→0。
推論9:設(shè) f(x)、g(x) 分別是指數(shù)分布 E(λ1)、E(λ2)的密度函數(shù),則:
且當(dāng) λ1→λ2時(shí),d(f,g)→0 。
推論10:設(shè) f(x)、g(x) 分別是指數(shù)分布 E(λ1)、E(λ2)的密度函數(shù),則:且當(dāng) λ1→λ2時(shí),d(f,g)→0 。
定義4[7]:設(shè) f(x),g(x)是兩個(gè)密度函數(shù),Sf和Sg分離,記為 d2(f,g)。
定義 5[7]:設(shè) f(x),g(x)是兩個(gè)密度函數(shù),稱V2(f,g)=suAp|F(A)-G(A)|是f(x)到g(x)的全變差距離,其中
定理8[7]:以下討論的距離都存在,則:
(1)當(dāng) f(x)≥g(x)時(shí),d(f,g)≤d2(g,f)。
(2)V2(f,g)≤ d2(f,g)。
有 d(f,g),d(g,f)及 min{d(f,g),d(g,f)} 的定義易得如下定理。
定理9:若以下討論的距離都存在,則:
(1)min{d(f,g),d(g,f)} ≤d(f,g)≤ max{d(f,g),d(g,f)} ;
(2)當(dāng) f(x)≥g(x)時(shí) d(f,g)≥d(g,f),且 d(f,g)≥(d(f,g)+d(g,f))≥d(g,f) ;當(dāng)f(x)≤g(x) 時(shí) d(f,g)≤d(g,f),且 d(f,g)≤(d(f,g)+d(g,f))≤d(g,f)。
從定理 9中的式(1)還可以看出,當(dāng) min{d(f,g),d(g,f)}充分小時(shí),必有d(f,g)充分小。用最小Kullback-Leibler距離min{d(f,g),d(g,f)} 來(lái)比較兩個(gè)密度函數(shù)比用d(f,g)刻畫(huà)要合理。
相對(duì)熵用來(lái)度量?jī)蓚€(gè)分布之間的差異程度,相對(duì)熵越小,表示兩個(gè)分布之間越接近,反之,相差越大,當(dāng)兩個(gè)分布相同時(shí),相對(duì)熵為零。本文計(jì)算了兩個(gè)廣義伽瑪分布之間的相對(duì)熵,得到了公式。根據(jù)參數(shù)的大小,非常容易度量?jī)蓚€(gè)廣義伽瑪分布之間接近程度,或根據(jù)兩個(gè)廣義伽瑪分布之間接近程度的要求,由公式快捷選擇參數(shù)。從相對(duì)熵的定義看出,它不滿足傳統(tǒng)的距離中對(duì)稱性、三角不等式性等條款。本文定義了最小相對(duì)熵。從定義形式上看,并不難理解,最小相對(duì)熵是將兩個(gè)概率密度函數(shù)間的相對(duì)熵求較小值,但它的意義在于克服了相對(duì)熵沒(méi)有對(duì)稱性的缺陷。并且最小相對(duì)熵充分小時(shí),必有相對(duì)熵充分小。用最小相對(duì)熵來(lái)度量?jī)蓚€(gè)密度函數(shù)比用相對(duì)熵刻畫(huà)更為合理。本文還推導(dǎo)出兩個(gè)伽瑪分布、Weibull分布、Rayleigh分布、正態(tài)分布、指數(shù)分布之間的相對(duì)熵及最小相對(duì)熵。為實(shí)際應(yīng)用,提供許多方便。
[1]Robert G O,Shau S K.Updating Schemes,Correlation Structure,Blocking and Parameterization for the Gibbs Sampler[J].J R Statist Soc B,1997,(59).
[2]Liu S J,Wong W H,Kong A.Correlation Structure and Convergence Rate of the Gibbs Sampler with Various Scans[J].J R Statist Soc B,1995,(57).
[3]Reiss R D.Approximate Distributions of Order Statistics[M].New York:Springer,1980.
[4]Whittaker J.Graphical Models in Applied Multivariate Statistics[M].Wiley:Chichester,1990.
[5]李開(kāi)燦,孟朝玲.χ2分布、t分布和F分布的一致漸進(jìn)正態(tài)性[J].北京印刷學(xué)院學(xué)報(bào),2004,12(3).
[6]金秀巖.廣義Γ分布的Pearson-χ2距離及其漸近性[J].西南師范大學(xué)學(xué)報(bào):自然科學(xué)版,2008,33(4).
[7]李開(kāi)燦.Pearson-χ2距離的若干性質(zhì)[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2003,33(1).