張軍艦
(廣西師范大學 數(shù)學與統(tǒng)計學院, 廣西 桂林 541006)
似然方法是統(tǒng)計中非常重要的方法之一,自Fisher提出后引起很多學者的重視,得到非常豐富的研究結果,統(tǒng)計中大部分論文或多或少要用到似然方法。從最開始的參數(shù)似然方法,發(fā)展到如今的非參數(shù)似然和半?yún)?shù)似然方法,其理論和應用研究還在不斷深入,詳情可參見文獻[1-3]。參數(shù)似然方法是要求總體的分布類型和形式已知,僅依賴若干個未知參數(shù),接著通過似然函數(shù)對相應參數(shù)進行統(tǒng)計推斷,進而研究相應的統(tǒng)計性質;非參數(shù)似然則不需要總體的分布類型或形式已知,它僅利用樣本點的觀測信息對分布作出估計,進而借助參數(shù)與分布函數(shù)的關系對參數(shù)進行估計;半?yún)?shù)則是介于參數(shù)與非參數(shù)之間,其部分信息需要知道分布結構,部分信息對分布類型或形式不做要求,在此基礎上,對分布或相應參數(shù)做出統(tǒng)計推斷。參數(shù)似然方法理論相對來說比較成熟,其應用非常廣泛。但在實際中,對所研究問題的背景所知甚少,僅僅依靠經(jīng)驗或已有研究基礎很難對分布類型或形式做出要求,這就必須考慮非參數(shù)或半?yún)?shù)似然方法,盡可能有效地利用部分已有信息,從而進行統(tǒng)計推斷。本文正是在此基礎上,結合團隊多年研究內(nèi)容,對非參數(shù)似然方法做一綜述。
論文安排如下:第1章簡述非參數(shù)似然的基本概念和思想,進而探討基于經(jīng)驗似然推廣的非參數(shù)似然方法,側重點主要是估計方面;第2章重點考慮非參數(shù)似然擬合優(yōu)度檢驗問題;第3章考慮更復雜數(shù)據(jù)的非參數(shù)似然方法;最后是總結和展望。
為便于理解,先從參數(shù)似然開始。假定所研究的總體為X,其對應的分布函數(shù)為F,概率函數(shù)為f(x,θ)(如果X是離散型隨機變量,f(x,θ)就是X的概率分布列;如果X是連續(xù)型隨機變量,f(x,θ)就是X的密度函數(shù)),其中f(x,θ)的分布類型或形式已知,參數(shù)θ∈Θ未知?,F(xiàn)從總體X中抽取一個獨立同分布(i.i.d.)樣本X1,X2,…,Xn,希望通過樣本獲得參數(shù)θ的一個合理估計,極大似然估計(MLE)即是其中之一。給定X1,X2,…,Xn,θ的似然函數(shù)定義為
當總體分布未知時,概率函數(shù)f(x,θ)的分布類型或形式也是未知的,MLE自然沒有辦法求出,這時需要借助非參數(shù)似然函數(shù),定義分布F的非參數(shù)似然函數(shù)如下
(1)
從前述可以看出,非參數(shù)似然的基本思想就是把概率函數(shù)用樣本觀測值的質量來替換,也就是把F限制在支撐點X1,X2,…,Xn上,即F?Fn,若用F表示某一分布族,則
現(xiàn)在的問題是上述考慮的分布族僅利用樣本信息,忽略了參數(shù)與未知分布之間的關系信息θ=θ(F)。如何利用θ=θ(F)所帶來的信息?直觀想法就是把所考慮的分布限制到一個更小的分布族中,其中θ=θ(F)用樣本點上的質量表達出來,作為輔助信息使用,也就是考慮
其中λ滿足
可以證明,在一定正則條件下,由經(jīng)驗似然方法得到的估計具有良好的統(tǒng)計性質:有類似于bootstrap的抽樣特性,這一方法與經(jīng)典非參數(shù)統(tǒng)計方法比較有很多突出優(yōu)點,如構造的置信區(qū)間有域保持性、變換不變性、置信域的形狀由數(shù)據(jù)自行決定、有Bartlett糾偏性、無需構造樞軸量等,詳情可參見文獻[1,5]。文獻[6]將其應用到廣義估計方程模型中,給出了經(jīng)驗似然更一般的理論。
假定所考慮的是與F相關的d維參數(shù)θ=(θ1,…,θd)T,θ與F的關聯(lián)信息是通過r(≥p)個獨立無偏的估計方程得到,也即
g(x,θ)=(g1(x,θ),g2(x,θ),…,gr(x,θ))T,r≥d,
滿足EF{g(X,θ)}=0,則Profile經(jīng)驗似然比函數(shù)為
(2)
具體計算時,
其中λ滿足
當然也可由此分別得到參數(shù)θ以及分布函數(shù)F相應的經(jīng)驗似然比估計
式(2)給出的Profile經(jīng)驗似然比函數(shù)極大地拓寬了其應用范圍,只要尋找到滿足條件的估計方程g(x,θ),就可以使用經(jīng)驗似然方法。Owen的方法可以看做是g(x,θ)=x-θ的特殊形式。經(jīng)驗似然提出后,引起很多學者的重視,形成了統(tǒng)計學的一個研究熱點方向。如文獻[7]將其應用到線性回歸模型的統(tǒng)計推斷中;文獻[8]給出了密度函數(shù)的經(jīng)驗似然置信區(qū)間;文獻[9]發(fā)展了非參數(shù)回歸模型的經(jīng)驗似然;文獻[10-12]發(fā)展了部分線性模型的經(jīng)驗似然;文獻[13-15]將其應用于抽樣數(shù)據(jù)的研究;文獻[16]將其應用于經(jīng)濟模型的研究;文獻[17-20]將其應用于相依樣本;文獻[2]綜述了其在半?yún)?shù)模型中的應用;文獻[3]綜述了其在生存分析中的應用等。
盡管經(jīng)驗似然方法具有許多優(yōu)勢,得到廣泛應用,但也存在一些不足,主要是2個方面:一是計算中需要迭代,計算比較復雜;二是均值參數(shù)μ有解需要在樣本{X1,X2,…,Xn}的凸包內(nèi),對一般情況,則是要求0位于{g(X1,θ),…,g(Xn,θ)}的凸包內(nèi)部等,統(tǒng)稱為凸包問題。凸包問題在樣本量較小時是不可以忽略的,文獻[21]通過模擬顯示,在一維或二維情況,有可能出現(xiàn)凸包問題(也就是經(jīng)驗似然無解情況)的比例達到50%。為了克服經(jīng)驗似然中存在的2個主要不足:計算復雜和凸包問題,許多學者對此進行研究,提出一些改進辦法。
首先考慮計算復雜性問題。為了克服計算的復雜性,文獻[5]提出可以考慮用經(jīng)驗歐氏距離來代替對數(shù)經(jīng)驗似然,進而提出經(jīng)驗歐氏似然方法,也就是說,針對式(1)的對數(shù)經(jīng)驗似然
可以看做是pi和1/n的對數(shù)似然距離,因此用其歐氏距離
來代替對數(shù)經(jīng)驗似然距離。文獻[22]進一步研究經(jīng)驗歐氏似然方法,得到與經(jīng)驗似然類似的統(tǒng)計性質,說明該方法計算的簡便性。
針對凸包問題,也有很多學者進行探討,文獻[27]給出經(jīng)驗似然t方法;文獻[28-29]給出懲罰經(jīng)驗似然方法;文獻[30-31]給出調(diào)整經(jīng)驗似然方法;文獻[32-33]給出平衡經(jīng)驗似然方法等,也進一步探討了這些方法的統(tǒng)計性質。也有學者把計算復雜和凸包問題結合在一起,提出調(diào)整經(jīng)驗歐氏似然、平衡經(jīng)驗歐氏似然、懲罰經(jīng)驗歐氏似然等方法,詳細內(nèi)容可參見文獻[33-35]等。也有學者從Bayes角度對經(jīng)驗似然進行研究,提出貝葉斯經(jīng)驗思想并探討他們相應的性質,具體可參見文獻[36-40]。
下面討論擬合優(yōu)度檢驗問題。設總體X~F,分布函數(shù)F未知,從總體X中抽取i.i.d.樣本X1,…,Xn,感興趣的問題是檢驗
H0∶F≡F0?H1∶F≠F0,
(3)
H0∶F∈Fθ?H1∶F?Fθ,
(4)
式中:F0為一個完全已知的分布函數(shù);Fθ={Fθ∶θ∈Θ?Rd}為帶有未知參數(shù)θ的分布族(分布類型或形式已知)。式(3)稱為簡單假設,式(4)稱為復合假設。針對上述2種檢驗問題,常用的檢驗有2大類,一類是χ2型檢驗,另一類是經(jīng)驗分布函數(shù)(EDF)型檢驗。EDF型檢驗又可以分為上界型檢驗和積分型檢驗,經(jīng)典的上界型檢驗包括Kolmogorov和Smirnov(KS)檢驗、加權KS檢驗等;經(jīng)典的積分型檢驗包括Cramér和von-Mises(CV)檢驗、Anderson和Darling(AD)檢驗以及加權CV檢驗等。其后,EDF型檢驗又出現(xiàn)Berk和Jones(BJ)檢驗、Einmahl和Mckeague(EM)檢驗、修正的BJ檢驗以及本文作者所提出的廣義非參數(shù)似然比檢驗(GNLRT)等。此處僅簡單介紹一下非參數(shù)似然比檢驗,更具體的內(nèi)容可見文獻[41-49]。
先考慮簡單假設情況,文獻[41]定義上界型檢驗統(tǒng)計量
(5)
式中Fn(x)為經(jīng)驗分布函數(shù),
λ∈(-∞,∞),q(·)為一個權函數(shù)。當λ=0,-1時,Kλ(t,s)分別取λ→0,-1的極限形式。類似地,定義積分型檢驗統(tǒng)計量為
(6)
事實上,Kλ(t,s)是(t,1-t)和(s,1-s)之間的冪偏差度量(詳見文獻[50]),但它不是常規(guī)意義上所說的距離(除λ=1/2外,它不滿足對稱性和三角不等式)。此外,它還滿足:
K0(Fn(x),F0(x))即為文獻[51]中所研究的非參數(shù)似然比檢驗統(tǒng)計量(經(jīng)驗似然比形式):
當λ取一些特殊值時,前面所提到檢驗都可以包括在此檢驗類中。例如2nRn,1(q)為加權KS檢驗函數(shù)的平方;2nTn,1(q)為加權CV檢驗函數(shù);Rn,0(1)為BJ檢驗函數(shù);Tn,0(1)為EM檢驗函數(shù);Rn,-1(1)為修正BJ檢驗函數(shù)等。
如果X~F0為連續(xù)型隨機變量的分布函數(shù),相應的F0(X)服從(0,1)上均勻分布U(0,1),文獻[41]和文獻[53]得到如下理論結果:在簡單零假設成立時,Rn,λRn,λ(1)(n≥2)的精確分布為
式中:
n較小時可以給出精確分布的顯式表達;否則可以利用文獻[54]的迭代算法求出其精確分布。由于權函數(shù)不依賴于樣本和λ,加權上界型檢驗函數(shù)也有類似結論,這些結論包含文獻[45](λ=0和-1)和文獻[43](λ=1)的結論。當n較大時,用精確分布計算比較復雜,這時可以考慮用其極限分布計算。文獻[41,55]給出如下結果:在簡單零假設成立時,
式中:
式中{B(t):0≤t≤1}為Brownian橋過程(詳見文獻[57]中解釋)。
如果樣本容量n有限,盡管可以給出其精確分布,但隨著n的增加,需要迭代的次數(shù)增加,計算時間較長。文獻[53]從計算精度和時間長度綜合考慮,并通過模擬顯示:如果n≤110,分位數(shù)建議利用精確分布計算;如果n≥150,分位數(shù)建議利用模擬或其極限分布計算。不同λ和不同權函數(shù)q(·),功效較高的檢驗也不同。文獻[53]發(fā)現(xiàn),對給定的q(·),不存在對任何情況都一致最優(yōu)的檢驗,在小樣本情況,λ對檢驗函數(shù)的影響要比權函數(shù)的影響大一些,對于較大的|λ|,Rn,λ(q)(Tn,λ(q))使得F(t)和F0(t)之間的差異變得更大,再加上誤差等因素,檢驗函數(shù)基本無用,故一般情況,文獻[53]建議λ∈[-2,2]。
是否存在一個與λ無關的一致較優(yōu)的檢驗統(tǒng)計量呢?文獻[42]發(fā)現(xiàn),在給定權函數(shù)q(·)時,功效一致較優(yōu)的上界型非參似然比檢驗函數(shù)為
其中I為一個區(qū)間,一般情況下,如果q≡1,經(jīng)驗上可取λ∈I=[-2/3,0];如果q≡[t(1-t)]-1,經(jīng)驗上可取λ∈I=[-1,2]。在給定權函數(shù)q(·)時,功效一致較優(yōu)的積分型非參似然比檢驗函數(shù)為
一般情況下,如果q≡1和q≡[t(1-t)]-1,經(jīng)驗上可取λ∈I=[-2,2]。文獻[42,48]中給出較為詳細的模擬說明。
對于高維數(shù)據(jù)的擬合優(yōu)度檢驗,由于“維數(shù)禍根(Huber,1985)”的存在,在一維上比較有效的檢驗,在高維上未必還有效,這時一般采用投影或者變換的思想去處理。文獻[42]借助投影追蹤技術,提出投影追蹤非參數(shù)似然比檢驗。當然,也有借助經(jīng)驗歐氏似然討論檢驗問題,例如文獻[58-60]等,其基本思想與前述討論類似,感興趣的讀者可參見相關文獻。
文獻[61]指出,21世紀統(tǒng)計學主要面臨3大問題:相依、高維和不完全數(shù)據(jù)的統(tǒng)計理論。針對這些復雜數(shù)據(jù),本章簡單綜述在復雜數(shù)據(jù)下的非參數(shù)似然方法。
相依數(shù)據(jù)在實際工作中非常普遍,例如醫(yī)學、生物學、金融學等許多領域都會出現(xiàn)相依數(shù)據(jù)。理論研究中,隨機變量的函數(shù)、時間序列數(shù)據(jù)、馬氏鏈和Copulas結構等都是相依數(shù)據(jù)。目前在相依序列數(shù)據(jù)中研究比較多的是鞅差序列、混合序列、相伴序列等。一般來說,此時數(shù)據(jù)結構比較復雜,樣本內(nèi)部不再是i.i.d.,傳統(tǒng)統(tǒng)計方法的前提條件往往很難滿足,理論性質討論相對比較困難。目前的主要解決思想就是分組(Blockwise),把相依數(shù)據(jù)轉化為獨立或近似獨立情況,然后再借助相關理論進行研究。針對混合相依的經(jīng)驗似然,文獻[17]研究α混合相依序列;文獻[18]研究φ混合相依序列;文獻[62]研究一般混合相依序列等。針對相伴相依的經(jīng)驗似然,文獻[19]研究負相伴相依序列;文獻[20]研究正相伴相依序列等。還有較多文獻也探討相依序列下的經(jīng)驗似然并應用到各種模型中,具體可參見文獻[62-71]等。
高維數(shù)據(jù)也是近年來學者們非常關注的研究方向,它在金融、生物信息、經(jīng)濟等多個領域都很普遍。前面簡單介紹了高維數(shù)據(jù)的擬合優(yōu)度檢驗問題,文獻[42]利用投影追蹤技術進行研究。此外,文獻[29,72-74]利用前面介紹的非參數(shù)似然方法探討高維數(shù)據(jù)的變量選擇和模型建立等方法,也獲得了一些重要的理論結果。
不完全數(shù)據(jù)主要包括缺失或刪失數(shù)據(jù)、四舍五入數(shù)據(jù)等,是常見的數(shù)據(jù)類型。針對缺失數(shù)據(jù),文獻[75]給出部分線性模型的經(jīng)驗似然方法;針對刪失數(shù)據(jù),文獻[2]總結了生存分析中的經(jīng)驗似然方法;針對舍入數(shù)據(jù),文獻[76-77]研究舍入數(shù)據(jù)的經(jīng)驗似然方法,文獻[78]研究舍入數(shù)據(jù)的經(jīng)驗歐氏似然等。
除以上比較困難的3大數(shù)據(jù)外,現(xiàn)實生活中還有許多現(xiàn)象都可以借助非參數(shù)似然方法進行研究。例如當總體是離散分布時,如何合理利用非參數(shù)似然方法也是一個值得探討的問題,文獻[79-80]對此進行探討。在風險分析中,VaR和ES的估計也是一個比較重要的問題,文獻[39-40,81-82]分別利用經(jīng)驗似然、經(jīng)驗歐氏似然和貝葉斯經(jīng)驗似然對其進行探討;文獻[83]研究具有測量誤差的縱向部分線性模型的經(jīng)驗歐氏似然方法;文獻[84]研究半?yún)?shù)位置偏移混合模型的最小似然距離估計;文獻[85]研究基于平滑經(jīng)驗歐氏似然的分位回歸分布式估計等。
近年來,變點問題也得到越來越多學者的重視,它在經(jīng)濟、地質、氣候、生物醫(yī)學、圖像處理以及信號去噪等方面都有較廣泛的應用。針對參數(shù)模型的變點檢測與估計,文獻[86-87]給出較為詳細的綜述;針對非參數(shù)變點檢測,文獻[88-91]分別探討經(jīng)驗似然的變點檢測方法。近幾年,把變點檢測看成一個稀疏問題,借助變量選擇方法,從不同角度對變點檢測和估計的非參數(shù)方法重新進行討論,取得一定成果。由于問題內(nèi)容和解決辦法相對比較復雜,在此不再贅述,感興趣的讀者可參見文獻[92-98]。
非參數(shù)似然比是近年來的一個研究熱點,不同于模型研究,它是一種方法上的創(chuàng)新,可以適用于多種模型。本文簡單介紹非參數(shù)似然的發(fā)展思路,從估計、檢驗和復雜數(shù)據(jù)運用3個方面進行簡單綜述,給出一些基本的研究內(nèi)容和結論,指出其在復雜數(shù)據(jù)研究中的應用,希望這些內(nèi)容能提供一定的借鑒意義和參考價值,尤其是那些對非參數(shù)似然方法有興趣的讀者。
目前,非參數(shù)似然方法還有許多方面可以進一步考慮,例如:可以考慮構造pi與1/n之間的合理函數(shù),進一步說明它們在估計和檢驗中的優(yōu)勢;如何充分利用輔助信息,提高估計或檢驗的精度;對于一些復雜數(shù)據(jù)或模型,如何把現(xiàn)有工具合理科學地應用好等。特別地,一些實際問題并不需要很復雜的方法或者模型,關鍵是盡可能地利用好已有相關信息,得到簡單實用的模型或方法,較好地發(fā)現(xiàn)規(guī)律或問題,為決策者制定正確科學的決策服務。