趙 靜
(天津財經(jīng)大學 統(tǒng)計學院,天津 300202)
回歸分析在統(tǒng)計學中具有十分重要的地位,是應用最廣泛的分析方法之一?;貧w分析大致分為參數(shù)模型及非參數(shù)模型。參數(shù)模型通常假定函數(shù)基本形式已知、參數(shù)未知,通過對參數(shù)的估計得到函數(shù)關系的表達式,從而進行分析、預測等。參數(shù)模型的優(yōu)勢在于理論完善,形式簡潔,實際應用廣泛,但由于擬合能力不足,存在模型設定錯誤等,因而學術界提出了非參數(shù)模型。非參數(shù)模型的主要特點在于回歸函數(shù)的形式任意,對協(xié)變量和響應變量的分布限制較少,具有較大的適應性與穩(wěn)健性。與傳統(tǒng)回歸模型相比,非參數(shù)模型具有更多的靈活性,可以對同一數(shù)據(jù)進行多次擬合,深入探究數(shù)據(jù)中可能存在的某種隱藏關系。而且,非參數(shù)模型可以對數(shù)據(jù)中的任何模式或變量間任何一種曲線關系進行擬合,而傳統(tǒng)回歸只能對直線或二次曲線等形式進行擬合。實際上,非參數(shù)回歸擬合往往也會帶來意想不到的結果,會改變?nèi)藗儗?shù)據(jù)進行進一步分析的方向,得到更深刻的結論。在非參數(shù)模型中通常假定函數(shù)形式未知,需要由觀測數(shù)據(jù)本身對整體函數(shù)進行估計,進而得到擬合效果更好的模型[1]。
單指標模型是一種應用背景廣泛的非參數(shù)模型,它的優(yōu)勢在于能夠有效地避免“維度災禍”問題,很多學者對此進行了研究。Ichimura采用了回歸模型中最小二乘估計,并結合N-W估計法對模型指標參數(shù)進行了估計[2];Weisberg等基于以上方法證明了指標參數(shù)估計量的相合性[3];Xia等提出了最小平均方差估計法,構造的指標函數(shù)在聯(lián)系函數(shù)欠光滑的情況下估計結果也具有良好的收斂性,同時Xia證明了最小平均方差估計的漸近性[4-5];Jiang等提出了縱向和函數(shù)響應數(shù)據(jù)的單指標模型,并采用指標函數(shù)的初始估計,證明了估計量的相合性和漸近性[6]。
為避免模型中出現(xiàn)過擬合的情況,Eilers等以B樣條為基函數(shù),在目標函數(shù)中加入基函數(shù)系數(shù)的二階差分作為懲罰[7];Ruppert等以截斷冪基函數(shù)為基礎,取系數(shù)的平方和作為懲罰項,得到函數(shù)系數(shù)的懲罰樣條估計值[8];Yu等提出了截斷冪基函數(shù)的部分線性單指標模型的懲罰樣條估計,通過“去一分量”法及最優(yōu)化算法得到參數(shù)的估計值,并證明了估計量的相合性和漸近性[9]。
由于懲罰樣條模型中對基函數(shù)的懲罰權重是相同的,因此將上述懲罰方法稱為均勻懲罰樣條或整體懲罰樣條估計法。Ruppert等提出了一種基于網(wǎng)格搜索及線性插值技術的局部懲罰樣條估計方法,該方法充分考慮數(shù)據(jù)異質(zhì)性,但計算較為復雜[10];丁夢珍等針對非參數(shù)模型,提出了基于極差調(diào)節(jié)的局部懲罰樣條估計方法,將各節(jié)點區(qū)間數(shù)據(jù)的極差值作為反映該區(qū)間數(shù)據(jù)波動性的依據(jù),構造遞減函數(shù),生成局部懲罰權重,并得到函數(shù)系數(shù)估計值,但由于對節(jié)點區(qū)間內(nèi)存在數(shù)據(jù)異常值的情況沒有充分考慮,若某區(qū)間具有數(shù)據(jù)異常值時,此方法會錯誤地判斷該區(qū)間數(shù)據(jù)的波動性[11];江坤等針對非參數(shù)模型,提出了一種基于方差的局部樣條估計方法,雖然各區(qū)間數(shù)據(jù)量綱相同,但由于均值不同,直接使用方差作為數(shù)據(jù)離散程度的判斷是不充分的[12]。
針對單指數(shù)模型,本文以徑向基函數(shù)作為樣條函數(shù),提出了一種基于變異系數(shù)的局部懲罰樣條估計方法。通過變異系數(shù)反映各區(qū)間數(shù)據(jù)的離散程度,并構造遞減函數(shù)生成局部懲罰權重向量,得到局部懲罰樣條函數(shù)系數(shù)的估計值,再結合“去一分量”法和Levenberg-Marquardt算法迭代得到單指標模型指標參數(shù)的估計值,采用Monte-Carlo模擬驗證了該方法的正確性和有效性。
假設非參數(shù)模型為:
yi=g(xi)+εi
(1)
其中i=1,2,…,n,εi~N(0,σ2)。
Ruppert描述了徑向基的懲罰樣條估計,進一步考慮p次樣條徑向基函數(shù)為:
x=(1,x,x2,…,xp-1,|x-k1|2p-1,…,|x-kl|2p-1)
其中a≤k1<… (2) 令Y=(y1,y2,…,yn)T,X=(x1,x2,…,xn)T,則式(1)的目標函數(shù)可以表示為: Q(α)=‖Y-Xα‖2+λαTDα (3) 其中λ為懲罰參數(shù),D為徑向基懲罰矩陣,通常設定為: (4) 其中 當節(jié)點固定時,函數(shù)系數(shù)的總懲罰量只依賴懲罰參數(shù)λ,因此將此類方法稱為均勻懲罰樣條回歸或整體懲罰樣條回歸。 設單指標模型形式為: (5) 其中xi=(xi1,xi2,…,xid)T為觀測變量,β=(β1,β2,…,βd)T為未知指標參數(shù),yi為解釋變量,εi獨立同分布,服從均值為0方差為σ2的正態(tài)分布。為了模型的可識別性,假定‖β‖=1且β的第一個非零元素為正,通過模型可以看出,當d=1且β=1時,模型轉(zhuǎn)化為非參數(shù)模型。 設徑向基函數(shù)系數(shù)為α=(α0,α1,…,αp-1,αp,…,αp+l-1)T,則g(ui)≈δ(ui)α,(i=1,2,…,n),將其代入單指標模型(5),為了估計徑向基函數(shù)系數(shù)和指標參數(shù)β,最小化式(6): (6) 其中λ為懲罰參數(shù)且λ>0,D為懲罰矩陣,懲罰矩陣的設置如式(4)所示。此時,通過最小化Qn,λ把計算未知系數(shù)函數(shù)與指標參數(shù)的問題轉(zhuǎn)化為估計向量α和β的問題。 用矩陣形式表示,令Y=(y1,y2,…,yn)T,X=(x1,x2,…,xn)T,δ(U)=(δ(u1),δ(u2),…,δ(un))T,ε=(ε1,ε2,…,εn)T,則式(5)可以表示為: Y=g(Xβ)+ε 局部懲罰樣條估計從直觀上來說,當觀測數(shù)據(jù)在節(jié)點具有較大的波動性時,應當給予其較小的懲罰,使得擬合曲線在該區(qū)間處具有較大的自由,反之,若觀測數(shù)據(jù)在節(jié)點中波動性較小時,應當給予較大的懲罰,限制擬合曲線在該區(qū)間的自由?;诖讼敕?我們使用變異系數(shù)作為波動性判斷依據(jù),通過構造遞減函數(shù),得到局部懲罰權重設置。 設局部懲罰權重向量ω=(0,0,…,0,ω(k1),…,ω(kl)),其中ω(ki)表示對第i個節(jié)點處的系數(shù)的懲罰,取對角矩陣: R=diag(0,0,…,0,ω(k1),…,ω(kl)) 將R代入式(6),則: 其中Q=RTDR。 對于權重ω(k1),ω(k2),…,ω(kl)的設置,采用節(jié)點間觀測數(shù)據(jù)的變異系數(shù)來反映局部波動性,即: ω(km)=-ln|cvm|,m=1,2,…,l 基于以上思想,給出單指標模型局部懲罰樣條估計步驟,具體如下: 則: (7) 則擬合值為: 對于第一步給定的初始值β0,采用Yu等提出的方法,選定線性模型: 通過極小化線性模型得到β的初值β0: 局部懲罰參數(shù)λ通常使用廣義交叉驗證法(Generalized-cross-validation,GCV)準則計算: 本章通過Monte-Carlo模擬探究局部懲罰樣條估計在有限樣本下的表現(xiàn)。分別采用估計標準誤(S.E.)、偏差(Bias)、均方誤(MSE)以及真實函數(shù)與擬合值的平均偏差平方根(MAISE)作為評估指標。 本文選取兩個模型進行模擬,并且分別比較了不同樣本量n、不同誤差項方差σ2以及選擇不同節(jié)點步長knot情況下參數(shù)的估計及評估指標結果,具體模型設定與結果如下。 模型1: 圖1 模型1數(shù)據(jù)及真實函數(shù)圖 表2中MAISE反映了樣條函數(shù)的擬合情況,可以看出,均勻懲罰樣條估計下的MAISE為0.228 4,局部懲罰樣條估計下的MAISE為0.030 8,局部懲罰樣條的MAISE小于均勻懲罰樣條,說明局部懲罰樣條估計下的樣條函數(shù)擬合效果優(yōu)于均勻懲罰樣條。 表2 模型1擬合指標及時間消耗 模擬200次擬合圖像如圖2所示,其中(a)為均勻懲罰樣條函數(shù)擬合圖,(b)為局部懲罰樣條函數(shù)擬合圖。 圖2 模型1樣條函數(shù)擬合圖 從圖2明顯可以看出,局部懲罰樣條函數(shù)擬合優(yōu)于均勻懲罰樣條函數(shù),局部懲罰樣條函數(shù)擬合的曲線更接近真實函數(shù)曲線。 分別選取樣本量為n=100,節(jié)點步長knot=10,誤差項εi~N(0,0.52)和εi~N(0,12),局部懲罰樣條估計結果如表3所示。 對比表1、表2和表3可以看出,當樣本量選取n=100時,參數(shù)估計均值接近真實值,但偏差、均方誤均大于樣本量n=200的偏差值與均方誤差值。從擬合效果來看,n=100時MAISE為0.043 8,大于0.030 8,說明隨著樣本量的增大,參數(shù)估計的精確性越好,越接近真實值,函數(shù)擬合效果越好。比較運行時間可以看出,隨著樣本量的增加,在得到較精確的估計值時,估計所花費的時間也隨之增加。當節(jié)點步長選取knot=10時,參數(shù)估計值及函數(shù)擬合值MAISE大于knot=5的數(shù)值,所花費的時間268.036小于415.621,說明節(jié)點步長選取越小,節(jié)點越密集,參數(shù)估計的精確性越好,擬合效果越好,但是計算時間會增加。同理,當誤差項方差分別選取σ2=0.52與σ2=12時,參數(shù)估計效果及函數(shù)擬合值MAISE均明顯不如σ2=0.12的估計結果,同時對比σ2=0.52與σ2=12來看,隨著誤差項方差的減小,參數(shù)估計的精確性越好,函數(shù)擬合效果越好,花費的時間越少。 表3 模型1不同樣本量、誤差項方差及節(jié)點步長參數(shù)估計結果 模型2: 其中誤差項εi~N(0,0.12),樣本個數(shù)n=200,xij獨立隨機從均勻分布U(-1,1)上取值,選擇節(jié)點步長knot=5,真實函數(shù)g3(t)=exp{-t},g4(t)=3t2,g5(t)=5cos(tπ)。選取一組模型數(shù)據(jù)散點圖及真實函數(shù)曲線如圖3所示。 圖3 模型2數(shù)據(jù)及真實函數(shù)圖 模型200次估計及評估結果見表4,擬合結果與運行時間見表5。 由表4和表5對比均勻懲罰樣條與局部懲罰樣條參數(shù)估計結果可以看出,在200次模擬的情況下,局部懲罰樣條估計的參數(shù)及函數(shù)擬合效果均優(yōu)于均勻懲罰樣條。 表4 模型2參數(shù)估計結果 表5 模型2擬合指標及時間消耗 模擬200次擬合圖像如圖4所示,其中(a)為均勻懲罰樣條函數(shù)擬合圖,(b)為局部懲罰樣條函數(shù)擬合圖。 由圖4可以看出,雖然均勻懲罰樣條與局部懲罰樣條函數(shù)擬合都接近于真實函數(shù),但是局部懲罰樣條函數(shù)擬合圖像與真實函數(shù)圖像幾乎重合,表明局部懲罰樣條函數(shù)擬合效果優(yōu)于均勻懲罰樣條函數(shù)。 圖4 模型2樣條函數(shù)擬合圖 另外類似于模型1,分別選取樣本量為n=100,節(jié)點步長knot=10,誤差項εi~N(0,0.52)和εi~N(0,12),局部懲罰樣條估計結果如表6所示。由表6可以得到相同的結論,即隨著樣本量的增加,參數(shù)的估計值越精確,函數(shù)的擬合效果越好,但所花費時間略有提高;隨著節(jié)點步長的減小,節(jié)點個數(shù)增多,參數(shù)的估計值越好,函數(shù)的擬合效果越好,但花費時間有所提高;隨著誤差項方差的減小,樣本點在真實函數(shù)周圍波動性越小,參數(shù)的估計和函數(shù)的擬合效果越好,同時花費時間越少。 表6 模型2不同樣本量、誤差項方差及節(jié)點步長參數(shù)估計結果 接下來,使用模型1與模型2,分別將于夢玲等與江坤等提出的方法與本文提出的方法做對比實驗[11-12]。算法方面:將他們的方法分別嵌入單指標模型中,其它算法均與本文相同,局部懲罰力度均設定為5。模型方面:對于模型1,xij從均勻分布U(0,1)上隨機取值,對于模型2,xij從均勻分布U(-1,1)上隨機取值。其它參數(shù)均設置為:樣本量n=200,節(jié)點步長knot=5,誤差項方差σ2=1,樣條函數(shù)階數(shù)p=3,模擬次數(shù)mcn=200。選取一組真實數(shù)據(jù)及函數(shù)曲線如圖5所示。 圖5 模型數(shù)據(jù)散點及真實函數(shù)曲線圖 圖6 模型1擬合圖 圖7 模型2擬合圖 擬合評價指標MAISE如表7所示??梢钥闯?本文使用的方法在模型1中的MAISE為0.305 2,在模型2中的MAISE為0.308 1,均小于其它兩種方法,說明本文方法在擬合上效果略好。 表7 不同方法擬合指標比較結果 針對單指標模型,本文提出了一種基于變異系數(shù)調(diào)節(jié)的局部懲罰樣條估計方法,相比較常使用的均勻懲罰樣條估計方法,基于變異系數(shù)的局部懲罰樣條估計方法充分考慮數(shù)據(jù)縱向上的信息,克服了均勻懲罰樣條估計方法因各節(jié)點懲罰權重的一致,導致模型對于復雜數(shù)據(jù)的擬合缺乏自適應性的缺點。 在基于變異系數(shù)的局部懲罰樣條估計方法中,以各節(jié)點相鄰區(qū)間內(nèi)數(shù)據(jù)的變異系數(shù)數(shù)值的大小來衡量數(shù)據(jù)的離散程度,通過計算所得的各節(jié)點的變異系數(shù)值,構造遞減函數(shù)生成局部懲罰權重向量,結合徑向基函數(shù),給出了局部懲罰樣條函數(shù)系數(shù)估計值。然后,通過“去一分量”法及Levenberg-Marquardt優(yōu)化算法,迭代得到最優(yōu)指標參數(shù)估計值。本文的估計方法具有較好的自適應性,在數(shù)據(jù)離散程度大的區(qū)間,會給予擬合曲線較小的懲罰,以提高擬合效果;在數(shù)據(jù)離散程度小的區(qū)間,會給予擬合曲線較大的懲罰,以保證曲線的光滑。模擬仿真探究了有限樣本下單指標模型局部懲罰樣條估計方法的正確性和有效性,從而使擬合曲線能夠自適應地反映不同區(qū)間的數(shù)據(jù)特征。 模擬仿真結果表明,基于變異系數(shù)的局部懲罰樣條估計結果優(yōu)于均勻懲罰樣條估計結果,同時基于變異系數(shù)的局部懲罰樣條估計的曲線擬合結果也優(yōu)于均勻懲罰樣條。樣本量的多少、選擇節(jié)點步長的大小以及誤差項方差的大小都會影響模型的估計效果。對比實驗結果表明,隨著樣本量的增加,節(jié)點步長的減小,或者誤差項方差的減小,參數(shù)的估計值會更精確,函數(shù)的擬合效果更好。另外,本文還比較了計算花費時間,帶來良好估計結果的同時所需要的計算時間也不同,因此在應用中合適的選取是非常重要的。最后,與基于極差和基于方差的局部懲罰樣條估計方法做了對比實驗,結果表明基于變異系數(shù)的局部懲罰樣條估計方法在擬合效果上略優(yōu)于基于極差和基于方差的局部懲罰樣條估計方法。三、單指標模型局部懲罰樣條估計
四、模擬仿真
五、結 論