国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于估計(jì)穩(wěn)定性的變系數(shù)模型選擇

2018-04-08 11:23呂曉玲劉擷芯戴秀紅
統(tǒng)計(jì)與決策 2018年5期
關(guān)鍵詞:樣本量個(gè)數(shù)顯著性

呂曉玲,劉擷芯,戴秀紅

(中國人民大學(xué)a.應(yīng)用統(tǒng)計(jì)研究中心;b.數(shù)據(jù)挖掘中心;c.統(tǒng)計(jì)學(xué)院,北京100872)

0 引言

變系數(shù)模型最初由Hastie和Tibshirani(1993)[1]提出,是一類非常重要的非參數(shù)回歸模型。它考慮了指示變量與協(xié)變量之間的交互效應(yīng),與常規(guī)的線性模型相比具有更強(qiáng)的適應(yīng)性和解釋性。它在計(jì)量經(jīng)濟(jì)、生物統(tǒng)計(jì)、社會(huì)科學(xué)等多個(gè)領(lǐng)域中都有著廣泛的應(yīng)用,已成為處理多元非參數(shù)、半?yún)?shù)回歸問題的有力工具[2-4]。

在對實(shí)際問題進(jìn)行回歸建模時(shí),為了減小可能存在的模型誤差,研究者在初始建模時(shí)往往會(huì)引入很多可能與被解釋變量相關(guān)的協(xié)變量。但為了提高模型的預(yù)測精度、增強(qiáng)模型的可解釋性,研究者需要判別對因變量具有顯著影響的重要變量。因此,變量選擇已成為當(dāng)今統(tǒng)計(jì)分析中一個(gè)重要的研究課題。各種各樣的正則化估計(jì)方法應(yīng)運(yùn)而生,也即在傳統(tǒng)損失函數(shù)的基礎(chǔ)上加入懲罰函數(shù),從而實(shí)現(xiàn)變量選擇和參數(shù)估計(jì)的同時(shí)進(jìn)行。

與其他正則化估計(jì)方法一樣,在對變系數(shù)模型的正則化估計(jì)中,調(diào)節(jié)參數(shù)的選擇至關(guān)重要。常用的選參準(zhǔn)則包括交叉驗(yàn)證(Cross-validation,CV)、貝葉斯信息準(zhǔn)則(Bayesian Information Criterion,BIC)、赤池信息量準(zhǔn)則(Akaike Information Criterion,AIC)等,這些方法在判別顯著變量、提高模型預(yù)測準(zhǔn)確性等多個(gè)方面都非常有效。不過,這些方法所確定的模型或多或少都不具有穩(wěn)定性,尤其是在高維數(shù)據(jù)設(shè)定下。對此,Lim和Yu(2013)[5]針對線性模型的LASSO問題中正則化參數(shù)的選擇提出了ESCV(estimation stability cross validation)方法,這一方法有效彌補(bǔ)了以往選參方法在高維數(shù)據(jù)分析中不穩(wěn)定這一不足。因此,本文將ESCV方法作為一種選參準(zhǔn)則引入到變系數(shù)模型的正則化估計(jì)中,以期提高變系數(shù)模型的穩(wěn)定性。

1 變系數(shù)模型及KLASSO估計(jì)

其中ei∈R1是隨機(jī)噪聲,滿足E(ei|Xi,Zi)=0,系數(shù)向量β(z)={β1(z),...,βd(z)}T∈Rd是未知的,并且是Z的光滑函數(shù)。其真實(shí)值可給定為β0(z)={β01(z),...,β0d(z)}T∈Rd。不失一般性的假定存在整數(shù)d0≤d,對于任意的j≤d,有0<E{(Z)}<∞,但對于任意的j>d,0i0E{(Z)}=0,簡單來說,就是假定前d個(gè)預(yù)測變量與響i0應(yīng)變量是真實(shí)相關(guān)的,其余的是不相關(guān)的。

Wang和Xia(2013)[4]提出的KLASSO(Kernel Lasso)估計(jì),是一種將流行的核光滑方法與加罰估計(jì)結(jié)合起來的估計(jì)方法,其基本思想是將一個(gè)典型的收縮方法即LASSO算法的局部連續(xù)核估計(jì)應(yīng)用于變系數(shù)模型,KLASSO估計(jì)方法如下:

對于任意的指標(biāo)變量Zi∈[0,1],β(z)可以通過最小化下面的局部加權(quán)最小二乘函數(shù)來估計(jì):

對于B0={β0(Z1),…,β0(Zn)}T∈Rn×d,可通過最小化如下全局最小二乘函數(shù)來估計(jì):

注意到,在模型假設(shè)下,矩陣B0的最后(d-d0)列應(yīng)該都是0,因此變量選擇就等價(jià)于在矩陣B0中辨別出稀疏列。借用Yuan和Lin(2006)[6]提出的Group LASSO的方法來判別稀疏列,提出下面的加罰估計(jì):

其中,bj是B的第j列,‖.‖表示常用的歐幾里德范數(shù)。Wang和Xia(2013)[4]使用局部二階近似算法得到上述估計(jì)的解,并證明了KLASSO方法有很好的理論性質(zhì)。

上述方法涉及到調(diào)節(jié)參數(shù)(核函數(shù)K的窗寬h以及懲罰函數(shù)的λj,1≤j≤d)的選擇問題。文中第一步使用了留一交叉驗(yàn)證方法選取h,然后簡使用BIC準(zhǔn)則選取λ0。

2 基于估計(jì)穩(wěn)定性的新的變量選擇方法

估計(jì)穩(wěn)定性對于一個(gè)合理的估計(jì)過程來說是一個(gè)必要的性質(zhì),如果隨著樣本的不同,估計(jì)的值變動(dòng)相當(dāng)大,那么這個(gè)估計(jì)是沒有意義的[5,7]。當(dāng)用L2誤差來度量不同樣本間的差異時(shí),估計(jì)穩(wěn)定性顯然與方差相關(guān),然而在統(tǒng)計(jì)學(xué)上人們傾向于用穩(wěn)定性而非變異性來形容不同條件和環(huán)境對所估計(jì)模型的影響,這就是說穩(wěn)定性是一個(gè)比方差或者變異性更廣泛的概念。現(xiàn)有文獻(xiàn)中研究變系數(shù)模型變量選擇和估計(jì)方法的文章很多,但是研究變系數(shù)模型穩(wěn)定性的文章卻很少。然而模型穩(wěn)定性對于任何模型來說都是重要的,尤其是在數(shù)據(jù)采集技術(shù)及數(shù)據(jù)存儲技術(shù)日益強(qiáng)大的今天,人們經(jīng)常可以收集到非常多的變量和樣本數(shù)據(jù),數(shù)據(jù)往往呈現(xiàn)海量或高維的形態(tài)。在分析這些大數(shù)據(jù)和高維數(shù)據(jù)時(shí),統(tǒng)計(jì)方法的不穩(wěn)定性出現(xiàn)得更為普遍。

在對有限樣本且無模型假定的數(shù)據(jù)建模時(shí),交叉驗(yàn)證(CV)是建模常用方法,它依賴數(shù)據(jù)重抽樣來評估候選模型的預(yù)測誤差。具體做法是:在給定的建模樣本中,拿出大部分樣本作為訓(xùn)練集建立模型,留小部分樣本作為測試集,用訓(xùn)練集所建立的模型對預(yù)測集進(jìn)行預(yù)測,并求出測試樣本的預(yù)測誤差,記錄它們的誤差平方和,這個(gè)過程一直進(jìn)行,直到所有的樣本都被作為測試集測試了一次而且僅被測試一次時(shí),選出預(yù)測誤差平方和最小的模型作為最終模型。交叉驗(yàn)證的目的是為了得到可靠穩(wěn)定的模型,然而,數(shù)據(jù)重抽樣會(huì)引發(fā)模型的不穩(wěn)定性,尤其是數(shù)據(jù)為大數(shù)據(jù)或者高維數(shù)據(jù)時(shí)。在正則化估計(jì)如LASSO估計(jì)方法中經(jīng)常用CV方法來選擇調(diào)節(jié)參數(shù),然而CV通常會(huì)導(dǎo)致模型不穩(wěn)定,從而不利于可靠性解釋。Lim和Yu(2013)[5]提出了ESCV方法,即將數(shù)據(jù)可信度需求加入到交叉驗(yàn)證中,ESCV是一個(gè)基于估計(jì)穩(wěn)定性ES(Estimation stability)并將其與CV結(jié)合起來的一種無需模型假定的變量選擇方法。

在變系數(shù)模型KLASSO估計(jì)實(shí)際計(jì)算中,需要選擇合適的調(diào)節(jié)參數(shù),調(diào)整參數(shù)的選擇在加罰估計(jì)的變量選擇過程中起著極其重要的作用。當(dāng)調(diào)整參數(shù)λ=0時(shí),所有的變量都被選進(jìn)模型;當(dāng)調(diào)整參數(shù)λ=∞時(shí),那么模型中不含有任何變量。λ起到了控制模型復(fù)雜度的作用。λ取值越大,得到的模型越簡單。反之,λ取值越小,得到的模型越復(fù)雜。大的λ給出的估計(jì)的方差比較小,而小的λ對應(yīng)的模型偏差會(huì)比較小。因此,在KLASSO估計(jì)中調(diào)節(jié)參數(shù)λ的確定對模型的穩(wěn)定性有重要影響,估計(jì)方差和模型偏差之間一個(gè)好的平衡就需要選出一個(gè)比較理想的λ,如何選擇一個(gè)合適的調(diào)整參數(shù)使得模型在預(yù)測性和解釋性上都能達(dá)到一個(gè)理想結(jié)果就成為人們所關(guān)心的重要問題。

Wang和Xia(2009)[4]提出的變系數(shù)模型的KLASSO估計(jì)中,確定收縮參數(shù)λ,是采用BIC最小準(zhǔn)則,BIC雖然易于計(jì)算,但其有效性依賴于模型假定,而且它是漸近性結(jié)果,因此在樣本量有限的情況下,BIC模擬結(jié)果表現(xiàn)不一定很好,且BIC在統(tǒng)計(jì)性能上是不穩(wěn)定的[8],當(dāng)數(shù)據(jù)是高維數(shù)據(jù)時(shí),即樣本量n小于變量維度p時(shí),Lim和Yu(2013)[5]將ESCV、CV(cross validation)和BIC應(yīng)用與Lasso方法,并對這三種方法所估計(jì)的模型的穩(wěn)定性進(jìn)行比較,結(jié)果表明ESCV方法在多個(gè)指標(biāo)上面都表現(xiàn)較好?;诖?,本文將ESCV作為一種選參方法引入到變系數(shù)模型加罰估計(jì)中,以期提高變系數(shù)模型在傳統(tǒng)變量選擇方法BIC下的模型穩(wěn)定性,挑選λ的準(zhǔn)則是選擇具有局部最小標(biāo)準(zhǔn)化方差的[λ],即就是要使ES(λ)值最小。

本文的分析比較中,選用模型預(yù)測均方誤差(MSE)、模型大?。∕S)以及顯著性變量個(gè)數(shù)(NOSV)及其百分比(PSV)四個(gè)方面來度量模型的穩(wěn)定性。均方誤差是度量模型穩(wěn)定性的首要標(biāo)準(zhǔn),模型預(yù)測能力不好,則模型不可靠。模型大小即所選變量的個(gè)數(shù),在高維數(shù)據(jù)分析中,需要控制模型復(fù)雜度,若所選變量過多,模型太過復(fù)雜,模型的穩(wěn)定性就可能得不到保證。在眾多變量中對模型有顯著性影響的自變量對模型穩(wěn)定性有重要影響,顯著性變量個(gè)數(shù)及其百分比是指挑選多個(gè)變量的情況下,對模型有顯著影響的自變量個(gè)數(shù)及其占所選全部變量的比例。

3 模擬研究

3.1 正態(tài)分布下變系數(shù)模型模擬

本文的次模擬是模擬實(shí)際中常見的數(shù)據(jù)分布形式,即自變量服從或近似服從正態(tài)分布的情形,模擬所采用的模型如下:

其中假定X=(Xi1,Xi2,Xi3)服從正態(tài)分布N(0,1),ei服從正態(tài)分布N(0,0.8),σe=1.2,并設(shè)定不顯著變量(Xi4,…,Xip)服從正態(tài)分布N(0,0.8),全部變量之間的協(xié)示變量Z服從

i均勻分布U(0,1)。

在自變量來自正態(tài)分布的變系數(shù)模型中,本文用KLASSO方法進(jìn)行參數(shù)估計(jì)和變量選擇,在估計(jì)過程中,調(diào)節(jié)參數(shù)分別選用ESCV準(zhǔn)則和傳統(tǒng)的BIC準(zhǔn)則進(jìn)行確定。為了比較在不同變量維度下BIC和ESCV方法進(jìn)行變量選擇對模型穩(wěn)定性的影響,本文設(shè)定總變量數(shù)p∈{10,30,60,70,90,100}。

在模型樣本量n=50不變,變量數(shù)p不斷增大的情況下,將每個(gè)模型隨機(jī)模擬100次,結(jié)果如表1所示。

表1 正態(tài)分布下模擬結(jié)果

從表1中可以看出,在樣本量n=50保持不變而總變量數(shù)p變化時(shí),兩種變量選擇方法的均方誤差(MSE)都隨著變量總數(shù)的增加而增大。當(dāng)變量維度p小于樣本量n,即當(dāng)p為10和30時(shí),ESCV方法估計(jì)的預(yù)測誤差、變量個(gè)數(shù)以及顯著性百分比都不如BIC方法,但在高維數(shù)據(jù)情形下,即當(dāng)變量維度p大于樣本量n時(shí),ESCV方法的預(yù)測誤差、變量個(gè)數(shù)以及顯著性變量百分比優(yōu)于BIC方法且這種優(yōu)勢隨著變量維度p的增大越發(fā)明顯。

當(dāng)樣本量n=50,變量維度p=70時(shí),ESCV的100次模擬平均預(yù)測誤差為2.29,BIC的100次模擬平均預(yù)測誤差為2.80,ESCV所選模型的MSE小于BIC所選模型且較BIC所選模型的MSE降低了18.21%,同時(shí)ESCV的100次模擬所選變量個(gè)數(shù)平均為16.92,BIC的100次模擬所選變量個(gè)數(shù)平均為42.88,ESCV所選模型的變量個(gè)數(shù)不到BIC所選模型變量個(gè)數(shù)的一半,ESCV方法較BIC大大縮減了模型變量維度,在顯著性變量占所選變量百分比上,ESCV所選模型的顯著性變量百分比為14.36%,是BIC所選模型的兩倍。當(dāng)p=100時(shí),ESCV所選模型的MSE較BIC所選模型降低約20%,ESCV所挑選的變量個(gè)數(shù)僅占全部變量數(shù)的16.05%,而BIC所選變量個(gè)數(shù)占全部變量數(shù)的66.29%,ESCV所選變量個(gè)數(shù)大約是BIC所選變量個(gè)數(shù)的四分之一,在顯著性變量百分比上,ESCV所選模型的顯著性變量百分比為14.70%,是BIC所選模型的三倍。由上述分析可知,當(dāng)變量維度p大于樣本量n時(shí),ESCV方法在模型穩(wěn)定性上的表現(xiàn)優(yōu)于BIC,且在樣本量不變的情況下,隨著變量維度p的增加優(yōu)勢越發(fā)明顯。

3.2 稀疏情況下變系數(shù)模型模擬

Lim和Yu(2013)[5]給出在高維稀疏情況下,ESCV方法較BIC估計(jì)方法更能突顯模型的穩(wěn)定性優(yōu)勢,因此,改變變系數(shù)模型中自變量的分布,將自變量分布稀疏化來探討在自變量稀疏情況下,ESCV方法與傳統(tǒng)變量選擇方法BIC在模型穩(wěn)定性上的不同表現(xiàn)。

模擬模型假定與第一種情況相同,只是假定自變量X來自于服從均勻分布的隨機(jī)稀疏矩陣sprand(ss,p,d),其中ss為樣本量,p為總變量個(gè)數(shù),d為非零元素分布密度的大小,設(shè)為0.4。

模型在樣本量n=50保持不變,總變量數(shù)p∈{10,30,60,70,90,100}的情況下,對每組模型設(shè)定都進(jìn)行100次模擬,在KLASSO估計(jì)方法下,分別選用ESCV選參準(zhǔn)則和BIC選參準(zhǔn)則來選擇調(diào)節(jié)參數(shù),結(jié)果如表2所示。

表2 稀疏情況下模擬結(jié)果

從表2可以看出,自變量來自于稀疏分布情形時(shí),在樣本量p小于n的情況下,即p=10或30時(shí),在均方誤差MSE上,ESCV方法所選模型對應(yīng)的均方誤差較BIC方法要小,在模型大小以及顯著性變量百分比上,ESCV方法對應(yīng)的模型較BIC要大,但隨著變量維度的增加,當(dāng)變量維度p大于樣本量n,即p∈{60,70,90,100}時(shí),ESCV篩選變量的優(yōu)勢大大增強(qiáng),均方誤差也越來越小。當(dāng)p=100時(shí),ESCV方法平均100次模擬的均方誤差為1.06,BIC方法對應(yīng)的均方誤差為1.18,ESCV方法的對應(yīng)模型的MSE較BIC減少了10.17%,且ESCV方法為模型所挑選的變量個(gè)數(shù)平均為4.09,大大少于BIC方法所選變量個(gè)數(shù)33.77,ESCV所選變量個(gè)數(shù)大約是BIC方法所選變量個(gè)數(shù)的四分之一,在顯著性變量百分比上,ESCV所選顯著性變量占全部所選變量的50.86%,而BIC方法所選顯著性變量占所選全部變量的7.26%,即BIC方法較ESCV方法更多的選擇了不顯著變量。

與自變量來自于正態(tài)分布下的變系數(shù)模型相比,稀疏分布下兩種方法擬合的模型在模型均方誤差、模型大小、顯著性變量百分比上的表現(xiàn)都更好,但與BIC方法相比,ESCV方法對模型穩(wěn)定性的影響更為顯著,即ESCV方法下的模型均方誤差、模型大小減小幅度更大,顯著性變量百分比增大幅度則更多,如稀疏情形下,BIC方法對應(yīng)的模型大小是正態(tài)分布下模型大小的二分之一,而ESCV方法對應(yīng)的模型大小是正態(tài)分布下的四分之一。且稀疏分布情形下,低維時(shí),ESCV方法對應(yīng)的模型均方誤差小于BIC,這與自變量來自于正態(tài)分布且數(shù)據(jù)為低維情況下ESCV預(yù)測誤差大于BIC相反。高維時(shí),不論自變量來自哪種分布,ESCV在均方誤差、模型大小、顯著性變量百分比上都優(yōu)于BIC。在高維稀疏數(shù)據(jù)分析中,ESCV較BIC方法的穩(wěn)定性優(yōu)勢更加明顯。

4 實(shí)例分析

4.1 Boston Housing數(shù)據(jù)分析

本文將分析Boston住房數(shù)據(jù),該數(shù)據(jù)是在1970年Boston地區(qū)收集的506個(gè)人口普查區(qū)的房價(jià)信息。本文沿用Fan和Huang(2005)[9]的變量設(shè)定,將MEDV(業(yè)主自用房子的中位數(shù),以$1000為單位)作為響應(yīng)變量Y,LSTAT(地區(qū)較低地位人群占總體的百分比)作為指示變量Z,數(shù)據(jù)集中的其他七個(gè)變量作為自變量INT(截距,X1),CRIM(鎮(zhèn)上人均犯罪率,X2),RM(每座房子的平均房間數(shù),X3),PTRATIO(鎮(zhèn)上學(xué)生-老師人數(shù)比,X4),NOX(氮氧化物濃度,X5),TAX(房間全價(jià)值物業(yè)稅率,以$10000為單位,X6)和AGE(業(yè)主占用房子建造早于1940年的比例,X7)。

將全部506個(gè)樣本單元隨機(jī)分成十份,每次選取其中九份做訓(xùn)練集,另一份為預(yù)測集。在應(yīng)用模型之前,需要將自變量X和指示變量LSTAT標(biāo)準(zhǔn)化處理。由抽取的訓(xùn)練集數(shù)據(jù)建立變系數(shù)模型,并在KLASSO方法下分別選用ESCV與BIC兩種方法進(jìn)行變量選擇,記錄10次抽樣數(shù)據(jù)擬合中每個(gè)變量被選入模型的次數(shù),以及每次模型預(yù)測集的均方誤差MSE,結(jié)果如表3所示。

從表3中可以看出,對10次擬合進(jìn)行平均,ESCV的均方誤差MSE與BIC方法對應(yīng)模型的MSE相當(dāng),但在10次擬合中,ESCV方法傾向于選擇前三個(gè)變量,變量X1,X2,X3被選中的次數(shù)分別為10、9、10,即ESCV方法能夠穩(wěn)定的選擇出前三個(gè)自變量,而BIC方法在每次模擬時(shí)所選變量的個(gè)數(shù)以及傾向于選擇哪些變量都不穩(wěn)定,即抽樣數(shù)據(jù)不同時(shí),BIC不能保證所估計(jì)模型的穩(wěn)定性。

為了進(jìn)一步理解抽樣數(shù)據(jù)分析中的不穩(wěn)定性,給出第6次抽樣下,BIC方法對應(yīng)模型的估計(jì)系數(shù)圖,如圖1(上);ESCV方法所對應(yīng)模型的估計(jì)系數(shù)圖,如圖1(下)。

從圖1(上)中可以看出,在BIC方法下,用此次抽樣所得的455個(gè)數(shù)據(jù)進(jìn)行變量選擇,所選取的變量數(shù)為1,即僅第一個(gè)變量INT顯著不為0,其他六個(gè)變量的全部估計(jì)為0。用此次數(shù)據(jù)建立模型并對余下的51個(gè)數(shù)據(jù)進(jìn)行預(yù)測,所對應(yīng)的平均預(yù)測誤差為0.5115;圖1(下)給出了相同樣本數(shù)據(jù)下,用ESCV方法進(jìn)行變量選擇,所選取的變量個(gè)數(shù)為3,即INT、RM、CRIM這3個(gè)變量顯著不為0,用所建模型對余下的51個(gè)數(shù)據(jù)進(jìn)行預(yù)測,所對應(yīng)的平均預(yù)測誤差為0.4082。對比兩個(gè)圖可以看出在一次抽樣數(shù)據(jù)擬合中,對同一個(gè)自變量的估計(jì),例如自變量INT,ESCV方法對該變量估計(jì)的波動(dòng)程度要顯著小于BIC方法,即ESCV方法估計(jì)的變量系數(shù)更為穩(wěn)定。

表3 Boston住房數(shù)據(jù)結(jié)果

圖1 BIC(上)和ESCV(下)方法下自變量估計(jì)系數(shù)變動(dòng)情況

從Boston housing的數(shù)據(jù)分析中可以看到,當(dāng)所抽取的樣本數(shù)據(jù)發(fā)生變化時(shí),BIC方法選擇的變量個(gè)數(shù)就會(huì)隨之發(fā)生大的變動(dòng),而ESCV卻能穩(wěn)定地選出對因變量有重要影響的自變量,且對所選變量的系數(shù)估計(jì)也更穩(wěn)定。

4.2 新浪新聞數(shù)據(jù)分析

利用爬蟲技術(shù)在新浪新聞網(wǎng)站獲取2013年7月1日至9月30日(共12周)財(cái)經(jīng)(標(biāo)簽為+1)和健康(標(biāo)簽為-1)兩類新聞文檔。共390篇,兩類的比例為1:1。利用分詞軟件將原始文本數(shù)據(jù)轉(zhuǎn)化為文檔詞頻矩陣。隨機(jī)選取150篇文檔為訓(xùn)練集,剩余240篇為測試集。利用LASSO初步篩選出162個(gè)關(guān)鍵詞。指示變量z為時(shí)間并以周為時(shí)間單位。即假定關(guān)鍵詞對新聞?lì)悇e的影響與其出現(xiàn)的時(shí)間有關(guān)。

在變系數(shù)模型KLASSO估計(jì)中,分別用ESCV和BIC兩種方法確定調(diào)節(jié)參數(shù),用所確定模型的分類準(zhǔn)確率來衡量模型預(yù)測誤差,用所選擇變量的個(gè)數(shù)來確定模型大小。將數(shù)據(jù)進(jìn)行10次抽樣,并對每次抽樣所得數(shù)據(jù)進(jìn)行擬合,每次擬合模型所選變量數(shù),以及模型分類準(zhǔn)確率所得結(jié)果如表4所示:

表4 新聞數(shù)據(jù)分類準(zhǔn)確率和模型大小

從表4中可以看出,在樣本量n=150小于變量維度p=162時(shí),盡管10次所抽取的樣本數(shù)據(jù)不一樣,但用ESCV方法選擇出的變量所建模型的分類準(zhǔn)確率始終要大于BIC方法的分類準(zhǔn)確率,且在模型大小上,BIC方法傾向于選擇幾乎所有的變量,而ESCV傾向于選擇固定的20多個(gè)變量,ESCV挑選出的變量個(gè)數(shù)始終顯著小于BIC方法下的變量個(gè)數(shù),在此次新聞數(shù)據(jù)分析中,ESCV變量選擇方法有明顯的降維作用,在分類準(zhǔn)確率上較傳統(tǒng)BIC方法也有優(yōu)勢,采用ESCV變量選擇方法可以顯著提高模型的穩(wěn)定性。

為了更好地理解ESCV選擇變量的穩(wěn)定性要優(yōu)于BIC,給出某次抽樣下,ESCV選擇變量的情況,如在第四次抽樣中,ESCV在162個(gè)關(guān)鍵詞中,選擇了22個(gè)對分類有重要影響的關(guān)鍵詞,即選擇的變量個(gè)數(shù)為22。分析這22個(gè)關(guān)鍵詞,大致可以分為三大類,第一類是明顯跟經(jīng)濟(jì)類相關(guān)的詞,如:美元、經(jīng)濟(jì)、投資、下降、漲、中國、企業(yè)、發(fā)展、部門;第二類是跟健康類相關(guān)詞,如:醫(yī)院、性、肌肉、成分、疾病、健康、破壞、食物、效果;第三類是對分類沒有很重要作用,但在兩類文章中都會(huì)出現(xiàn)的詞,如:發(fā)布、公布、好。

在此次抽樣中,BIC方法所選變量個(gè)數(shù)為160,幾乎所有由LASSO初步篩選出的關(guān)鍵詞都被引入到模型中。因此BIC所建模型比ESCV更復(fù)雜。在兩種選參方法下,“健康”一詞都被選中,但兩種方法對其重要性的估計(jì)不同,下面本文給出兩種方法下,關(guān)鍵詞“健康”在12周中估計(jì)系數(shù)的變化對比圖,如圖2所示。

圖2ESCV和BIC方法下關(guān)鍵詞“健康”估計(jì)系數(shù)變化圖

從圖2中可以看出,在12周中,“健康”一詞在分類上始終是有重要作用的詞匯,但在BIC方法下估計(jì)出的系數(shù)值即關(guān)鍵詞重要性波動(dòng)較大,而在ESCV方法下估計(jì)系數(shù)值變動(dòng)較小,在前4周幾乎沒有變動(dòng),第4周略有下降,但在后4周中又開始固定不變,系數(shù)值基本保持在0.4995的水平上,ESCV比BIC方法對該詞的估計(jì)更為穩(wěn)定。

從新浪新聞數(shù)據(jù)分析可以看出,在高維數(shù)據(jù)情況下,ESCV在模型預(yù)測、變量選擇上較BIC表現(xiàn)得更好,即在變系數(shù)模型KLASSO估計(jì)下,選用ESCV準(zhǔn)則比選用BIC準(zhǔn)則進(jìn)行變量選擇所確立模型的穩(wěn)定性更強(qiáng)。

5 總結(jié)

本文是基于Yu和Lim(2013)[5]提出的ESCV方法以及對模型穩(wěn)定性的度量標(biāo)準(zhǔn),將ESCV方法引入到變系數(shù)模型加罰估計(jì)中,以期提高變系數(shù)模型的穩(wěn)定性。本次研究主要是基于Wang和Xia(2009)[4]提出的變系數(shù)模型KLASSO估計(jì),在KLASSO估計(jì)實(shí)際計(jì)算中,分別應(yīng)用ESCV方法與BIC方法進(jìn)行調(diào)節(jié)參數(shù)的選擇,并對比不同選參方法對模型穩(wěn)定性的影響,而模型穩(wěn)定性主要從模型預(yù)測誤差、模型大小和顯著性變量百分比上來進(jìn)行比較。

本文雖然找到了一種能夠提高變系數(shù)模型穩(wěn)定性的方法,但同樣存在很多問題:首先對于模型穩(wěn)定性統(tǒng)計(jì)學(xué)上還沒有給出標(biāo)準(zhǔn)的定義,本文只能直觀地從預(yù)測誤差、選擇變量等方面來衡量模型是否穩(wěn)定;其次變系數(shù)模型有很多估計(jì)方法,而此次研究僅限于KLASSO估計(jì),在其他變系數(shù)模型估計(jì)方法下,ESCV方法是否能夠比BIC方法表現(xiàn)好還有待進(jìn)一步研究;最后數(shù)據(jù)在低維情形時(shí),多次抽樣情況下,雖然ESCV方法的變量選擇穩(wěn)定性要優(yōu)于BIC,但是BIC方法的平均預(yù)測誤差要小于ESCV,ESCV方法可能存在總是漏選某個(gè)重要變量的情況。

參考文獻(xiàn):

[1]Hastie T,Tibshirani R.Varying Coefficient Models[J].Journal of Royal Statistical Society:Series B,1993,(55).

[2]Fan J,Zhang W.Statistical Estimation in Varying Coefficient Models[J].Journal of the American Statistical Association,1999,(27).

[3]Chiang C,Rice J A,Wu C O.Smoothing Spline Estimation for Varying Coefficient Models With Repeatedly Measured Dependent Variables[J].Journal of American Statistical Association,2001,(96).

[4]Wang H,Xia Y.Shrinkage Estimation of the Varying Coefficient Model[J].Journal of the American Statistical Association,2009,(104).

[5]Lim C,Yu B.Estimation Stability With Cross Validation(ESCV)[J].arXiv,2013,(1303).

[6]Yuan M,Lin Y.Model Selection and Estimation in Regression With Grouped Variables[J].Journal of the Royal Statistical Society:Series B,2006,(68).

[7]Yu B.Stability[J].Bernoulli,2013,19(4).

[8]Breiman L.Heuristics of Instability and Stabilization in Model Selection[J].Annals of Statistics,1996,(24).

[9]Fan J,Huang T.Profile Likelihood Inferences on Semiparametric Varying Coefficient Partially Linear Models[J].Bernoulli,2005,(11).

猜你喜歡
樣本量個(gè)數(shù)顯著性
對統(tǒng)計(jì)結(jié)果解釋和表達(dá)的要求
一種基于進(jìn)化算法的概化理論最佳樣本量估計(jì)新方法:兼與三種傳統(tǒng)方法比較*
醫(yī)學(xué)研究中樣本量的選擇
怎樣數(shù)出小正方體的個(gè)數(shù)
本刊對論文中有關(guān)統(tǒng)計(jì)學(xué)表達(dá)的要求
等腰三角形個(gè)數(shù)探索
怎樣數(shù)出小木塊的個(gè)數(shù)
樣本量估計(jì)及其在nQuery和SAS軟件上的實(shí)現(xiàn)*——均數(shù)比較(十一)
樣本量估計(jì)及其在nQuery和SAS軟件上的實(shí)現(xiàn)*——均數(shù)比較(十)
基于區(qū)域特征聚類的RGBD顯著性物體檢測
正蓝旗| 綦江县| 古蔺县| 沾化县| 平陆县| 九龙坡区| 崇礼县| 江陵县| 韩城市| 彰化市| 林口县| 怀化市| 利川市| 云梦县| 巴中市| 望谟县| 郁南县| 海盐县| 克山县| 白河县| 鲁山县| 威海市| 和平区| 华坪县| 抚顺市| 鹿邑县| 竹北市| 锦州市| 宣恩县| 紫阳县| 吉木萨尔县| 筠连县| 永登县| 裕民县| 景东| 郯城县| 韶山市| 九江县| 淮安市| 浙江省| 清水河县|