李 叢,吳傳生*
(武漢理工大學(xué),湖北武漢,430070)
?
一維連續(xù)隨機(jī)變量概率密度估計(jì)
李 叢,吳傳生*
(武漢理工大學(xué),湖北武漢,430070)
摘要:由概率密度估計(jì)問(wèn)題的定義可知概率密度估計(jì)問(wèn)題可歸結(jié)為概率分布函數(shù)的求導(dǎo)問(wèn)題。將積分算子法應(yīng)用于一維概率密度估計(jì)問(wèn)題中,借助Taylor展開(kāi)式得出基于積分算子法的概率密度估計(jì);
關(guān)鍵詞:概率密度估計(jì);積分法
模式識(shí)別、回歸估計(jì)、概率密度估計(jì)是統(tǒng)計(jì)學(xué)習(xí)理論的三個(gè)基本問(wèn)題。在解決學(xué)習(xí)問(wèn)題的傳統(tǒng)模式中,模式識(shí)別和回歸估計(jì)都是建立在密度估計(jì)的基礎(chǔ)之上。
在密度分布未知的情況下,我們需要通過(guò)已知的樣本點(diǎn)數(shù)據(jù)對(duì)未知的分布進(jìn)行估計(jì),以達(dá)到預(yù)測(cè)概率密度的目的。大多數(shù)學(xué)者采用的密度估計(jì)方法主要分為兩種:參數(shù)估計(jì)和非參數(shù)估計(jì)。非參數(shù)方法包括正態(tài)化方法,直方圖方法、離散化方法、核方法、以及今年來(lái)人們將正則化方法應(yīng)用到概率密度估計(jì)問(wèn)題上產(chǎn)生的基于支持向量機(jī)的概率密度估計(jì)方法,以及基于TSVD方法的概率密度估計(jì)。
而上述提到的方法都只在一維情況下對(duì)概率密度估計(jì)問(wèn)題進(jìn)行了討論,而對(duì)二維或高維的情況由于方法的限制或其他原因鮮有討論。但在實(shí)際應(yīng)用中概率密度所服從的分布是未知的,且在大多數(shù)情況下二維的隨機(jī)變量相互之間并不是獨(dú)立的,二維的隨機(jī)變量的概率密度無(wú)法由兩個(gè)一維隨機(jī)變量的乘積得到,即f( x, y)≠f( x)?f( y )。所以只討論一維的情況是不完全的。
本文將積分方法引入概率密度估計(jì)問(wèn)題,將概率密度求解問(wèn)題轉(zhuǎn)化為數(shù)值微分問(wèn)題,并提供了解決高維概率密度估計(jì)問(wèn)題的新方法。
在進(jìn)行概率密度估計(jì)之前,我們首先引入新的概率密度估計(jì)。
所以當(dāng)樣本個(gè)數(shù)足夠大時(shí),F(xiàn)n(x )是總體分布函數(shù)F( x)的一個(gè)良好近似。
所以我們構(gòu)造的經(jīng)驗(yàn)分布函數(shù)Fn(x )具有如下性質(zhì):
②Fn(x )為絕對(duì)連續(xù)函數(shù);
但在實(shí)際情況中,由于樣本量的限制,經(jīng)驗(yàn)分布函數(shù)與真實(shí)分布函數(shù)之間必定存在差異,而這些微小的誤差可能會(huì)造成數(shù)值結(jié)果的巨大誤差。為了克服這種不穩(wěn)定性,所以我們采用積分算子的方法,逼近F( x )的導(dǎo)數(shù)p( x)。
1.1一維數(shù)值微分的積分方法
假定f( x)∈Ck[ a, b],fδ(x)∈C[ a, b]且滿足J( x)∈C[?1,1]為非負(fù)偶函數(shù),∫1J( x) dx =1且滿足J(i )(1)=J(i)(?1)=0,
?1i=0,1,2,…,k?1.滿足以上條件的J( x)是存在的,比如取:
定義積分算子:
其中h>0為參數(shù),r=1,2,…,k .(Drf)(x)可作為f(r)(x)的
h近似。
又由于概率密度估計(jì)的特殊性,我們只需要考慮經(jīng)驗(yàn)分布的一次導(dǎo)數(shù),即為我們的概率密度函數(shù)。因此
上式即作為我們的積分算子,其中F( x)為分布函數(shù)。
接下來(lái),我們來(lái)介紹一維情況下積分算子對(duì)導(dǎo)函數(shù)的逼近效果。
而在概率密度估計(jì)問(wèn)題中,由于樣本量的限制,經(jīng)驗(yàn)分布函數(shù)與真實(shí)分布函數(shù)間存在一定的差異,當(dāng)經(jīng)驗(yàn)分布函數(shù)與真實(shí)分布函數(shù)F之間滿足如下條件時(shí):
則有如下定理。
1.2概率密度函數(shù)性質(zhì)的證明
眾所周知,密度函數(shù)具有以下兩個(gè)性質(zhì):
1)非負(fù)性的證明:
由于J( x)有良好的連續(xù)性,F(xiàn)( x )是絕對(duì)連續(xù)函數(shù),且F′( x)勒貝格可積,所以根據(jù)勒貝格積分的分部積分公式可得:
由于J(1)=J(?1)=0,所以
又由于J( x)≥0恒成立,且F( x)為分布函數(shù),滿足右連續(xù)性且為非降函數(shù),所以F′( x )>0恒成立。至此,非負(fù)性得證。
2)正則性的證明:
同樣地,根據(jù)勒貝格分部積分法可得:
根據(jù)經(jīng)驗(yàn)分布函數(shù)性質(zhì)④我們可以得到:
運(yùn)用積分方法,筆者構(gòu)造新的概率密度估計(jì)的正則化方法,將概率密度問(wèn)題看作數(shù)值微分問(wèn)題,很好的解決了一維情況下的概率密度估計(jì)問(wèn)題。
同時(shí)積分方法也存在一定的缺陷,當(dāng)樣本量過(guò)大時(shí),計(jì)算量將快速增加。下一步繼續(xù)分析誤差產(chǎn)生的原因,并對(duì)精度進(jìn)行提高,同時(shí)尋找減小計(jì)算量的方法。
參考文獻(xiàn)
[1]VLADIMIR NV.統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)[M].張學(xué)工,譯.北京:清華大學(xué)出版社,2000:12-98
[2]George H. John, Pat Langley. Estimating Continuous Distributions in Bayesian Classifiers. In
Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence, San Mateo, 1995.
[3] David W. Scott. Multivariate Density Estimation: Theory, Practice, and Visualization. New York, John Wile and Sons, 1992.
[4] J. Dougherty, R. Kohavi and M. Sahami. Supervised and Unsupervised Discretization of Continuous Features. ICML, 1995: 194-202.
[5] Emanuel Parzen. On Estimation of a Probability Density Function and Mode. Annals of Mathematical Statistics, 1962, 33(3): 1065-1076.
[6] 曹華孝等,一種基于改進(jìn)W-SVM算法的概率密度估計(jì)[J].電子科技,第27卷第9期,2014年:40~43
[7] 吳笛,劉文.基于TSVD正則化方法的概率密度估計(jì)[J].武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版).2012(01):60~63
[8] 黃小為,吳傳生,高飛,高階數(shù)值微分的積分方法[J].數(shù)學(xué)雜志,2008(04):431~434
作者簡(jiǎn)介
李叢(1990-),男,漢族,河北廊坊人,武漢理工大學(xué)碩士研究生,統(tǒng)計(jì)學(xué)基礎(chǔ)研究
*通訊作者:吳傳生(1957-),博士生導(dǎo)師,教授,研究方向:反問(wèn)題、智能計(jì)算。
One-dimensional Continuous Random Variable Probability Density Estimation
Li Cong,Wu Chuangsheng
(Wuhan University of Technology, Wu han 430070,Hubei Province,China)
Abstract:According to definition of probability density estimation,probability density estimation can come down to the derivation of probability distribution function.The probability density estimation based on integral operator method using integral operator method into one-dimensional probability density estimation could be presented under the help of Taylor expanding.
Keywords:probability density estimation;integral method