張夢(mèng)珠, 王旭輝
(合肥工業(yè)大學(xué)數(shù)學(xué)學(xué)院,合肥230601)
概率論與數(shù)理統(tǒng)計(jì)研究的對(duì)象是隨機(jī)現(xiàn)象,隨機(jī)變量的引進(jìn)使得對(duì)隨機(jī)現(xiàn)象結(jié)果進(jìn)行定量的數(shù)學(xué)處理成為可能.給定一個(gè)隨機(jī)變量,其概率分布情況有著廣泛的應(yīng)用[1].因此獲取其概率分布情況是一個(gè)值得研究的課題.在連續(xù)型隨機(jī)變量中,密度函數(shù)是一個(gè)核心概念[2].現(xiàn)實(shí)生活中大量復(fù)雜問(wèn)題其狀態(tài)受到內(nèi)在和外在雙重因素的影響,為了掌握這類事物的內(nèi)在規(guī)律并對(duì)未來(lái)可能發(fā)生的狀態(tài)變換作出預(yù)測(cè),就需要通過(guò)數(shù)據(jù)分析、概率建模等方式,尋找一個(gè)概率分布.了解隨機(jī)變量的概率分布有助于計(jì)算分布的均值、方差和進(jìn)行結(jié)構(gòu)可靠性分析或風(fēng)險(xiǎn)分析[3].此外,銀行學(xué)、經(jīng)濟(jì)學(xué)、生理學(xué)等都以概率密度函數(shù)估計(jì)為基礎(chǔ),展開對(duì)所在領(lǐng)域的知識(shí)和問(wèn)題的探討與研究[4].但實(shí)際生活中,隨機(jī)變量的概率分布一般是未知的.事實(shí)上,所獲得的只是一個(gè)觀察樣本.假設(shè)這些數(shù)據(jù)點(diǎn)是一個(gè)未知概率密度函數(shù)的樣本,概率密度估計(jì)就是從觀測(cè)數(shù)據(jù)中構(gòu)造密度函數(shù)的估計(jì).
概率密度函數(shù)估計(jì)方法主要有三類:參數(shù)化方法、非參數(shù)化方法和半?yún)?shù)估計(jì)方法.參數(shù)概率密度函數(shù)估計(jì),總是假設(shè)概率密度函數(shù)的參數(shù)形式已知[5],但在實(shí)際問(wèn)題中參數(shù)形式的假設(shè)可能會(huì)產(chǎn)生誤導(dǎo)的結(jié)論或結(jié)果.而本文要討論的非參數(shù)密度估計(jì)可以避免概率建模和推理中的參數(shù)假設(shè),從而為上述問(wèn)題提供了新的解決思路[6].非參數(shù)密度估計(jì)方法不需要對(duì)點(diǎn)樣本分布的參數(shù)形式做事先的假設(shè),而僅僅從采樣數(shù)據(jù)本身對(duì)概率密度函數(shù)做出估計(jì).半?yún)?shù)估計(jì)是將參數(shù)化估計(jì)與非參數(shù)化估計(jì)相結(jié)合的一種方法.非參數(shù)密度估計(jì)是一個(gè)持久和不斷發(fā)展的研究領(lǐng)域,在金融、金融計(jì)量經(jīng)濟(jì)學(xué)、物理和社會(huì)科學(xué)等學(xué)科中有著廣泛的應(yīng)用,它提供了參數(shù)化方法的另一種選擇,在數(shù)據(jù)建模中實(shí)現(xiàn)了更大的靈活性,降低了模型誤用的風(fēng)險(xiǎn).本文重點(diǎn)討論的是單變量密度函數(shù)的非參數(shù)估計(jì).
20世紀(jì)以前,參數(shù)化的概率密度函數(shù)估計(jì)方法得到了廣泛的應(yīng)用.到了20世紀(jì)上半葉,不需要對(duì)總體特征作假設(shè)的非參數(shù)統(tǒng)計(jì)方法迅速發(fā)展起來(lái)[7].自20世紀(jì)50年代以來(lái),已經(jīng)出現(xiàn)了一些強(qiáng)大的方法來(lái)提高概率密度估計(jì)的性能,而不僅僅是簡(jiǎn)單的直方圖表示,還包括正交序列、核函數(shù)和樣條三類非參數(shù)估計(jì)方法.直方圖估計(jì)的缺點(diǎn)是它的形狀取決于樣本范圍劃分的寬度的主觀選擇,且直方圖密度估計(jì)在高維空間很少有實(shí)效.參考文獻(xiàn)[8-10]研究的正交序列估計(jì)方法用正交級(jí)數(shù)(如埃爾米特、傅立葉或三角標(biāo)準(zhǔn)正交函數(shù)系)展開逼近概率密度函數(shù).但其主要缺點(diǎn)是得到的估計(jì)結(jié)果無(wú)法保證滿足概率密度函數(shù)條件(非負(fù)且積分為1).關(guān)于核密度估計(jì)的文獻(xiàn)很廣泛,包括Fix、Hodges[11]、RosenBlatt[12]等.相比于傳統(tǒng)直方圖,核密度估計(jì)不僅能更好地分析所研究的概率分布,而且可以生成概率密度函數(shù)的平滑估計(jì)[13].核函數(shù)的形狀和平滑系數(shù)是核估計(jì)的兩個(gè)基本概念,其中平滑系數(shù)是核估計(jì)的關(guān)鍵.此外,參考文獻(xiàn)[14]提出了一種局部基的非參數(shù)密度估計(jì)方法,結(jié)合基對(duì)偶理論介紹了基于有限維B樣條基投影的伽遼金方法.
本文結(jié)合非參數(shù)密度估計(jì)方法,提出了從給定的數(shù)據(jù)樣本中識(shí)別連續(xù)隨機(jī)變量的概率密度函數(shù)的方法,在信息熵的無(wú)偏估計(jì)的基礎(chǔ)上,利用內(nèi)點(diǎn)法優(yōu)化得到了B樣條基函數(shù)的對(duì)應(yīng)系數(shù).在數(shù)值實(shí)驗(yàn)部分,本文將基于B樣條的概率密度估計(jì)方法與經(jīng)典的核密度估計(jì)方法以及正交序列估計(jì)方法進(jìn)行了對(duì)比.此外,本文討論了兩個(gè)評(píng)價(jià)指標(biāo)MAE,MSE用來(lái)評(píng)估模型的擬合程度.實(shí)驗(yàn)結(jié)果表明,基于B樣條的概率密度估計(jì)方法取得了較優(yōu)估計(jì)效果.
定義1B樣條基函數(shù)的定義如下:
設(shè)U=[u0,u1,…,um+k+1]是非遞減實(shí)數(shù)序列,即ui≤ui+1(i=0,1,…,m+k),其中ui稱為節(jié)點(diǎn),U稱為節(jié)點(diǎn)序列.第i個(gè)k次(k+1階)B樣條基函數(shù)Ni,k(t)的遞歸定義如下:
(1)
定義2給定節(jié)點(diǎn)向量U=[u0,u1,…,um+k+1],則B樣條函數(shù)的定義為
其中di∈R(i=0,1,…,m)為控制系數(shù),Ni,k(t)(i=0,1,…,m)為(1)式定義的B樣條基函數(shù).
給定概率密度函數(shù)一個(gè)隨機(jī)樣本,設(shè)其樣本容量為N.采樣點(diǎn)記為yt(t=1,2,…,N),其中p=min{y1,y2,…,yN},q=max{y1,y2,…,yN}.
本文使用二次B樣條函數(shù)
(2)
(i)βj≥0 (j=1,2,…,M);
(3)
為了便于計(jì)算,將節(jié)點(diǎn)向量選取為
U=[p,p,p,u1,u2,…,un,q,q,q],u1 則(3)式可表示為 (4) (5) (6) 進(jìn)而,概率密度函數(shù)Φ(y)的最佳估計(jì)問(wèn)題可轉(zhuǎn)換為如下的優(yōu)化問(wèn)題: (7) (7)式是一個(gè)帶有約束條件的非線性規(guī)劃問(wèn)題,求解約束非線性規(guī)劃問(wèn)題的方法主要有Lagrange乘數(shù)法、可行方向法、懲罰函數(shù)法等方法[15].本文利用內(nèi)點(diǎn)法解決該優(yōu)化問(wèn)題. 注 文中選擇了二次B樣條基函數(shù)進(jìn)行估計(jì),也可將其推廣至其它次數(shù)B樣條情形. 本節(jié)對(duì)一些模擬采樣數(shù)據(jù),針對(duì)其概率密度函數(shù)進(jìn)行B樣條估計(jì),求解優(yōu)化問(wèn)題(7)得到的解為B樣條基函數(shù)的對(duì)應(yīng)系數(shù),從而得到一個(gè)估計(jì)模型.為了說(shuō)明本文方法的有效性,與經(jīng)典的核密度估計(jì)方法(核函數(shù)為高斯函數(shù))以及正交序列估計(jì)方法(傅里葉為正交級(jí)數(shù))進(jìn)行了對(duì)比.對(duì)于核密度估計(jì)方法[13],文中采樣了三種策略進(jìn)行帶寬選擇,依次為ROT[13],LCV[13],HALL[16].實(shí)驗(yàn)中,本文討論了MAE,MSE兩個(gè)評(píng)價(jià)指標(biāo),其中MAE為平均絕對(duì)誤差,MSE為均方誤差,其計(jì)算公式為: 本節(jié)實(shí)例中樣本量均為800,即N=800,樣本點(diǎn)記為y1,y2,…,yN.記p=min{y1,…,yN},q=max{y1,…,yN}. 例1隨機(jī)變量Y的概率密度函數(shù)ΦY~N(0,4). 以ΦY~N(0,4)為例說(shuō)明基函數(shù)個(gè)數(shù)M是如何選取的.熵的無(wú)偏估計(jì)ME越小越好,選取與其對(duì)應(yīng)的基函數(shù)個(gè)數(shù)M作為估計(jì)模型中B樣條基函數(shù)的個(gè)數(shù).圖1表示的是選取不同的基函數(shù)個(gè)數(shù)M得到的擬合結(jié)果.由表1知,當(dāng)基函數(shù)個(gè)數(shù)M=5擬合效果最佳. 圖1 ΦY~N(0,4)的擬合結(jié)果 表1 密度函數(shù)ΦY~N(0,4)的計(jì)算結(jié)果 例2隨機(jī)變量Y的概率密度函數(shù)ΦY~χ2(3). 圖2 ΦY~χ2(3)的擬合結(jié)果 表2 密度函數(shù)ΦY~χ2(3)的計(jì)算結(jié)果 例3隨機(jī)變量Y的概率密度函數(shù)ΦY~0.5N(0,1)+0.5N(4,1). 圖3 ΦY~0.5N(0,1)+0.5N(4,1)的擬合結(jié)果 表3 密度函數(shù)ΦY~0.5N(0,1)+0.5N(4,1)的計(jì)算結(jié)果 圖4 ΦY~N(0,3)的擬合結(jié)果 表4 密度函數(shù)ΦY~N(0,3)的計(jì)算結(jié)果 數(shù)值實(shí)驗(yàn)結(jié)果表明,由內(nèi)點(diǎn)法作為系數(shù)矢量的優(yōu)化策略的B樣條函數(shù)估計(jì)方法取得了不錯(cuò)的效果.由圖2到圖4和表2到表4,擬合效果以及評(píng)價(jià)指標(biāo)MAE,MSE兩方面都表明:本文給出的估計(jì)方法相較于核密度估計(jì)方法與正交系列估計(jì)方法有更好的估計(jì)表現(xiàn).但是該方法效率比較低,下一步工作將在此基礎(chǔ)上對(duì)如何讓進(jìn)一步縮短計(jì)算時(shí)間展開研究.此外,文中選擇了二次B樣條基函數(shù)進(jìn)行估計(jì),也可將其推廣至其它次數(shù)B樣條情形. 致謝作者非常感謝相關(guān)文獻(xiàn)對(duì)本文的啟發(fā)以及審稿專家提出的寶貴意見(jiàn).3 數(shù)值實(shí)例
4 結(jié) 論