基于B樣條的概率密度函數(shù)非參數(shù)估計(jì)

2022-06-24 05:52張夢(mèng)珠王旭輝

大學(xué)數(shù)學(xué) 2022年3期

張夢(mèng)珠，王旭輝

(合肥工業(yè)大學(xué)數(shù)學(xué)學(xué)院，合肥230601)

1 引言

概率論與數(shù)理統(tǒng)計(jì)研究的對(duì)象是隨機(jī)現(xiàn)象，隨機(jī)變量的引進(jìn)使得對(duì)隨機(jī)現(xiàn)象結(jié)果進(jìn)行定量的數(shù)學(xué)處理成為可能.給定一個(gè)隨機(jī)變量，其概率分布情況有著廣泛的應(yīng)用[1].因此獲取其概率分布情況是一個(gè)值得研究的課題.在連續(xù)型隨機(jī)變量中，密度函數(shù)是一個(gè)核心概念[2].現(xiàn)實(shí)生活中大量復(fù)雜問(wèn)題其狀態(tài)受到內(nèi)在和外在雙重因素的影響，為了掌握這類事物的內(nèi)在規(guī)律并對(duì)未來(lái)可能發(fā)生的狀態(tài)變換作出預(yù)測(cè)，就需要通過(guò)數(shù)據(jù)分析、概率建模等方式，尋找一個(gè)概率分布.了解隨機(jī)變量的概率分布有助于計(jì)算分布的均值、方差和進(jìn)行結(jié)構(gòu)可靠性分析或風(fēng)險(xiǎn)分析[3].此外，銀行學(xué)、經(jīng)濟(jì)學(xué)、生理學(xué)等都以概率密度函數(shù)估計(jì)為基礎(chǔ)，展開對(duì)所在領(lǐng)域的知識(shí)和問(wèn)題的探討與研究[4].但實(shí)際生活中，隨機(jī)變量的概率分布一般是未知的.事實(shí)上，所獲得的只是一個(gè)觀察樣本.假設(shè)這些數(shù)據(jù)點(diǎn)是一個(gè)未知概率密度函數(shù)的樣本，概率密度估計(jì)就是從觀測(cè)數(shù)據(jù)中構(gòu)造密度函數(shù)的估計(jì).

概率密度函數(shù)估計(jì)方法主要有三類：參數(shù)化方法、非參數(shù)化方法和半?yún)?shù)估計(jì)方法.參數(shù)概率密度函數(shù)估計(jì)，總是假設(shè)概率密度函數(shù)的參數(shù)形式已知[5]，但在實(shí)際問(wèn)題中參數(shù)形式的假設(shè)可能會(huì)產(chǎn)生誤導(dǎo)的結(jié)論或結(jié)果.而本文要討論的非參數(shù)密度估計(jì)可以避免概率建模和推理中的參數(shù)假設(shè)，從而為上述問(wèn)題提供了新的解決思路[6].非參數(shù)密度估計(jì)方法不需要對(duì)點(diǎn)樣本分布的參數(shù)形式做事先的假設(shè)，而僅僅從采樣數(shù)據(jù)本身對(duì)概率密度函數(shù)做出估計(jì).半?yún)?shù)估計(jì)是將參數(shù)化估計(jì)與非參數(shù)化估計(jì)相結(jié)合的一種方法.非參數(shù)密度估計(jì)是一個(gè)持久和不斷發(fā)展的研究領(lǐng)域，在金融、金融計(jì)量經(jīng)濟(jì)學(xué)、物理和社會(huì)科學(xué)等學(xué)科中有著廣泛的應(yīng)用，它提供了參數(shù)化方法的另一種選擇，在數(shù)據(jù)建模中實(shí)現(xiàn)了更大的靈活性，降低了模型誤用的風(fēng)險(xiǎn).本文重點(diǎn)討論的是單變量密度函數(shù)的非參數(shù)估計(jì).

20世紀(jì)以前，參數(shù)化的概率密度函數(shù)估計(jì)方法得到了廣泛的應(yīng)用.到了20世紀(jì)上半葉，不需要對(duì)總體特征作假設(shè)的非參數(shù)統(tǒng)計(jì)方法迅速發(fā)展起來(lái)[7].自20世紀(jì)50年代以來(lái)，已經(jīng)出現(xiàn)了一些強(qiáng)大的方法來(lái)提高概率密度估計(jì)的性能，而不僅僅是簡(jiǎn)單的直方圖表示，還包括正交序列、核函數(shù)和樣條三類非參數(shù)估計(jì)方法.直方圖估計(jì)的缺點(diǎn)是它的形狀取決于樣本范圍劃分的寬度的主觀選擇，且直方圖密度估計(jì)在高維空間很少有實(shí)效.參考文獻(xiàn)[8-10]研究的正交序列估計(jì)方法用正交級(jí)數(shù)(如埃爾米特、傅立葉或三角標(biāo)準(zhǔn)正交函數(shù)系)展開逼近概率密度函數(shù).但其主要缺點(diǎn)是得到的估計(jì)結(jié)果無(wú)法保證滿足概率密度函數(shù)條件(非負(fù)且積分為1).關(guān)于核密度估計(jì)的文獻(xiàn)很廣泛，包括Fix、Hodges[11]、RosenBlatt[12]等.相比于傳統(tǒng)直方圖，核密度估計(jì)不僅能更好地分析所研究的概率分布，而且可以生成概率密度函數(shù)的平滑估計(jì)[13].核函數(shù)的形狀和平滑系數(shù)是核估計(jì)的兩個(gè)基本概念，其中平滑系數(shù)是核估計(jì)的關(guān)鍵.此外，參考文獻(xiàn)[14]提出了一種局部基的非參數(shù)密度估計(jì)方法，結(jié)合基對(duì)偶理論介紹了基于有限維B樣條基投影的伽遼金方法.

本文結(jié)合非參數(shù)密度估計(jì)方法，提出了從給定的數(shù)據(jù)樣本中識(shí)別連續(xù)隨機(jī)變量的概率密度函數(shù)的方法，在信息熵的無(wú)偏估計(jì)的基礎(chǔ)上，利用內(nèi)點(diǎn)法優(yōu)化得到了B樣條基函數(shù)的對(duì)應(yīng)系數(shù).在數(shù)值實(shí)驗(yàn)部分，本文將基于B樣條的概率密度估計(jì)方法與經(jīng)典的核密度估計(jì)方法以及正交序列估計(jì)方法進(jìn)行了對(duì)比.此外，本文討論了兩個(gè)評(píng)價(jià)指標(biāo)MAE，MSE用來(lái)評(píng)估模型的擬合程度.實(shí)驗(yàn)結(jié)果表明，基于B樣條的概率密度估計(jì)方法取得了較優(yōu)估計(jì)效果.

2 預(yù)備知識(shí)

定義1B樣條基函數(shù)的定義如下：

設(shè)U=[u0,u1,…,um+k+1]是非遞減實(shí)數(shù)序列，即ui≤ui+1(i=0,1,…,m+k)，其中ui稱為節(jié)點(diǎn)，U稱為節(jié)點(diǎn)序列.第i個(gè)k次(k+1階)B樣條基函數(shù)Ni,k(t)的遞歸定義如下：

(1)

定義2給定節(jié)點(diǎn)向量U=[u0,u1,…,um+k+1]，則B樣條函數(shù)的定義為

其中di∈R(i=0,1,…,m)為控制系數(shù)，Ni,k(t)(i=0,1,…,m)為(1)式定義的B樣條基函數(shù).

3 B樣條函數(shù)的概率密度估計(jì)

給定概率密度函數(shù)一個(gè)隨機(jī)樣本，設(shè)其樣本容量為N.采樣點(diǎn)記為yt(t=1,2,…,N)，其中p=min{y1,y2,…,yN}，q=max{y1,y2,…,yN}.

本文使用二次B樣條函數(shù)

(2)

(i)βj≥0 (j=1,2,…,M)；

(3)

為了便于計(jì)算，將節(jié)點(diǎn)向量選取為

U=[p,p,p,u1,u2,…,un,q,q,q]，u1

則(3)式可表示為

(4)

(5)

(6)

進(jìn)而，概率密度函數(shù)Φ(y)的最佳估計(jì)問(wèn)題可轉(zhuǎn)換為如下的優(yōu)化問(wèn)題：

(7)

(7)式是一個(gè)帶有約束條件的非線性規(guī)劃問(wèn)題，求解約束非線性規(guī)劃問(wèn)題的方法主要有Lagrange乘數(shù)法、可行方向法、懲罰函數(shù)法等方法[15].本文利用內(nèi)點(diǎn)法解決該優(yōu)化問(wèn)題.

注文中選擇了二次B樣條基函數(shù)進(jìn)行估計(jì)，也可將其推廣至其它次數(shù)B樣條情形.

3 數(shù)值實(shí)例

本節(jié)對(duì)一些模擬采樣數(shù)據(jù)，針對(duì)其概率密度函數(shù)進(jìn)行B樣條估計(jì)，求解優(yōu)化問(wèn)題(7)得到的解為B樣條基函數(shù)的對(duì)應(yīng)系數(shù)，從而得到一個(gè)估計(jì)模型.為了說(shuō)明本文方法的有效性，與經(jīng)典的核密度估計(jì)方法(核函數(shù)為高斯函數(shù))以及正交序列估計(jì)方法(傅里葉為正交級(jí)數(shù))進(jìn)行了對(duì)比.對(duì)于核密度估計(jì)方法[13]，文中采樣了三種策略進(jìn)行帶寬選擇，依次為ROT[13]，LCV[13]，HALL[16].實(shí)驗(yàn)中，本文討論了MAE，MSE兩個(gè)評(píng)價(jià)指標(biāo)，其中MAE為平均絕對(duì)誤差，MSE為均方誤差，其計(jì)算公式為：

本節(jié)實(shí)例中樣本量均為800，即N=800，樣本點(diǎn)記為y1,y2,…,yN.記p=min{y1,…,yN}，q=max{y1,…,yN}.

例1隨機(jī)變量Y的概率密度函數(shù)ΦY～N(0,4).

以ΦY～N(0,4)為例說(shuō)明基函數(shù)個(gè)數(shù)M是如何選取的.熵的無(wú)偏估計(jì)ME越小越好，選取與其對(duì)應(yīng)的基函數(shù)個(gè)數(shù)M作為估計(jì)模型中B樣條基函數(shù)的個(gè)數(shù).圖1表示的是選取不同的基函數(shù)個(gè)數(shù)M得到的擬合結(jié)果.由表1知，當(dāng)基函數(shù)個(gè)數(shù)M=5擬合效果最佳.

圖1 ΦY～N(0,4)的擬合結(jié)果

表1 密度函數(shù)ΦY～N(0,4)的計(jì)算結(jié)果

例2隨機(jī)變量Y的概率密度函數(shù)ΦY～χ2(3).

圖2 ΦY～χ2(3)的擬合結(jié)果

表2 密度函數(shù)ΦY～χ2(3)的計(jì)算結(jié)果

例3隨機(jī)變量Y的概率密度函數(shù)ΦY～0.5N(0,1)+0.5N(4,1).

圖3 ΦY～0.5N(0,1)+0.5N(4,1)的擬合結(jié)果

表3 密度函數(shù)ΦY～0.5N(0,1)+0.5N(4,1)的計(jì)算結(jié)果

圖4 ΦY～N(0,3)的擬合結(jié)果

表4 密度函數(shù)ΦY～N(0,3)的計(jì)算結(jié)果

4 結(jié) 論

數(shù)值實(shí)驗(yàn)結(jié)果表明，由內(nèi)點(diǎn)法作為系數(shù)矢量的優(yōu)化策略的B樣條函數(shù)估計(jì)方法取得了不錯(cuò)的效果.由圖2到圖4和表2到表4，擬合效果以及評(píng)價(jià)指標(biāo)MAE，MSE兩方面都表明：本文給出的估計(jì)方法相較于核密度估計(jì)方法與正交系列估計(jì)方法有更好的估計(jì)表現(xiàn).但是該方法效率比較低，下一步工作將在此基礎(chǔ)上對(duì)如何讓進(jìn)一步縮短計(jì)算時(shí)間展開研究.此外，文中選擇了二次B樣條基函數(shù)進(jìn)行估計(jì)，也可將其推廣至其它次數(shù)B樣條情形.

致謝作者非常感謝相關(guān)文獻(xiàn)對(duì)本文的啟發(fā)以及審稿專家提出的寶貴意見(jiàn).