国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于估計(jì)穩(wěn)定性的變系數(shù)模型選擇

2018-04-08 11:23呂曉玲劉擷芯戴秀紅

統(tǒng)計(jì)與決策 2018年5期

關(guān)鍵詞：樣本量個(gè)數(shù)顯著性

呂曉玲，劉擷芯，戴秀紅

（中國人民大學(xué)a.應(yīng)用統(tǒng)計(jì)研究中心；b.數(shù)據(jù)挖掘中心；c.統(tǒng)計(jì)學(xué)院，北京100872）

0　引言

變系數(shù)模型最初由Hastie和Tibshirani（1993）[1]提出，是一類非常重要的非參數(shù)回歸模型。它考慮了指示變量與協(xié)變量之間的交互效應(yīng)，與常規(guī)的線性模型相比具有更強(qiáng)的適應(yīng)性和解釋性。它在計(jì)量經(jīng)濟(jì)、生物統(tǒng)計(jì)、社會(huì)科學(xué)等多個(gè)領(lǐng)域中都有著廣泛的應(yīng)用，已成為處理多元非參數(shù)、半?yún)?shù)回歸問題的有力工具[2-4]。

在對實(shí)際問題進(jìn)行回歸建模時(shí)，為了減小可能存在的模型誤差，研究者在初始建模時(shí)往往會(huì)引入很多可能與被解釋變量相關(guān)的協(xié)變量。但為了提高模型的預(yù)測精度、增強(qiáng)模型的可解釋性，研究者需要判別對因變量具有顯著影響的重要變量。因此，變量選擇已成為當(dāng)今統(tǒng)計(jì)分析中一個(gè)重要的研究課題。各種各樣的正則化估計(jì)方法應(yīng)運(yùn)而生，也即在傳統(tǒng)損失函數(shù)的基礎(chǔ)上加入懲罰函數(shù)，從而實(shí)現(xiàn)變量選擇和參數(shù)估計(jì)的同時(shí)進(jìn)行。

與其他正則化估計(jì)方法一樣，在對變系數(shù)模型的正則化估計(jì)中，調(diào)節(jié)參數(shù)的選擇至關(guān)重要。常用的選參準(zhǔn)則包括交叉驗(yàn)證（Cross-validation,CV）、貝葉斯信息準(zhǔn)則（Bayesian Information Criterion,BIC）、赤池信息量準(zhǔn)則（Akaike Information Criterion,AIC）等，這些方法在判別顯著變量、提高模型預(yù)測準(zhǔn)確性等多個(gè)方面都非常有效。不過，這些方法所確定的模型或多或少都不具有穩(wěn)定性，尤其是在高維數(shù)據(jù)設(shè)定下。對此，Lim和Yu（2013）[5]針對線性模型的LASSO問題中正則化參數(shù)的選擇提出了ESCV（estimation stability cross validation）方法，這一方法有效彌補(bǔ)了以往選參方法在高維數(shù)據(jù)分析中不穩(wěn)定這一不足。因此，本文將ESCV方法作為一種選參準(zhǔn)則引入到變系數(shù)模型的正則化估計(jì)中，以期提高變系數(shù)模型的穩(wěn)定性。

1　變系數(shù)模型及KLASSO估計(jì)

其中ei∈R1是隨機(jī)噪聲，滿足E(ei|Xi,Zi)=0，系數(shù)向量β(z)={β1(z),...,βd(z)}T∈Rd是未知的，并且是Z的光滑函數(shù)。其真實(shí)值可給定為β0(z)={β01(z),...,β0d(z)}T∈Rd。不失一般性的假定存在整數(shù)d0≤d，對于任意的j≤d，有0＜E{(Z)}＜∞，但對于任意的j＞d，0i0E{(Z)}=0，簡單來說，就是假定前d個(gè)預(yù)測變量與響i0應(yīng)變量是真實(shí)相關(guān)的，其余的是不相關(guān)的。

Wang和Xia（2013）[4]提出的KLASSO（Kernel Lasso）估計(jì)，是一種將流行的核光滑方法與加罰估計(jì)結(jié)合起來的估計(jì)方法，其基本思想是將一個(gè)典型的收縮方法即LASSO算法的局部連續(xù)核估計(jì)應(yīng)用于變系數(shù)模型，KLASSO估計(jì)方法如下：

對于任意的指標(biāo)變量Zi∈[0,1]，β(z)可以通過最小化下面的局部加權(quán)最小二乘函數(shù)來估計(jì)：

對于B0={β0(Z1),…,β0(Zn)}T∈Rn×d，可通過最小化如下全局最小二乘函數(shù)來估計(jì)：

注意到，在模型假設(shè)下，矩陣B0的最后(d-d0)列應(yīng)該都是0，因此變量選擇就等價(jià)于在矩陣B0中辨別出稀疏列。借用Yuan和Lin（2006）[6]提出的Group LASSO的方法來判別稀疏列，提出下面的加罰估計(jì)：

其中，bj是B的第j列，‖.‖表示常用的歐幾里德范數(shù)。Wang和Xia（2013）[4]使用局部二階近似算法得到上述估計(jì)的解，并證明了KLASSO方法有很好的理論性質(zhì)。

上述方法涉及到調(diào)節(jié)參數(shù)（核函數(shù)K的窗寬h以及懲罰函數(shù)的λj,1≤j≤d）的選擇問題。文中第一步使用了留一交叉驗(yàn)證方法選取h，然后簡使用BIC準(zhǔn)則選取λ0。

2　基于估計(jì)穩(wěn)定性的新的變量選擇方法

估計(jì)穩(wěn)定性對于一個(gè)合理的估計(jì)過程來說是一個(gè)必要的性質(zhì)，如果隨著樣本的不同，估計(jì)的值變動(dòng)相當(dāng)大，那么這個(gè)估計(jì)是沒有意義的[5，7]。當(dāng)用L2誤差來度量不同樣本間的差異時(shí)，估計(jì)穩(wěn)定性顯然與方差相關(guān)，然而在統(tǒng)計(jì)學(xué)上人們傾向于用穩(wěn)定性而非變異性來形容不同條件和環(huán)境對所估計(jì)模型的影響，這就是說穩(wěn)定性是一個(gè)比方差或者變異性更廣泛的概念。現(xiàn)有文獻(xiàn)中研究變系數(shù)模型變量選擇和估計(jì)方法的文章很多，但是研究變系數(shù)模型穩(wěn)定性的文章卻很少。然而模型穩(wěn)定性對于任何模型來說都是重要的，尤其是在數(shù)據(jù)采集技術(shù)及數(shù)據(jù)存儲技術(shù)日益強(qiáng)大的今天，人們經(jīng)常可以收集到非常多的變量和樣本數(shù)據(jù)，數(shù)據(jù)往往呈現(xiàn)海量或高維的形態(tài)。在分析這些大數(shù)據(jù)和高維數(shù)據(jù)時(shí)，統(tǒng)計(jì)方法的不穩(wěn)定性出現(xiàn)得更為普遍。

在對有限樣本且無模型假定的數(shù)據(jù)建模時(shí)，交叉驗(yàn)證（CV）是建模常用方法，它依賴數(shù)據(jù)重抽樣來評估候選模型的預(yù)測誤差。具體做法是：在給定的建模樣本中，拿出大部分樣本作為訓(xùn)練集建立模型，留小部分樣本作為測試集，用訓(xùn)練集所建立的模型對預(yù)測集進(jìn)行預(yù)測，并求出測試樣本的預(yù)測誤差，記錄它們的誤差平方和，這個(gè)過程一直進(jìn)行，直到所有的樣本都被作為測試集測試了一次而且僅被測試一次時(shí)，選出預(yù)測誤差平方和最小的模型作為最終模型。交叉驗(yàn)證的目的是為了得到可靠穩(wěn)定的模型，然而，數(shù)據(jù)重抽樣會(huì)引發(fā)模型的不穩(wěn)定性，尤其是數(shù)據(jù)為大數(shù)據(jù)或者高維數(shù)據(jù)時(shí)。在正則化估計(jì)如LASSO估計(jì)方法中經(jīng)常用CV方法來選擇調(diào)節(jié)參數(shù)，然而CV通常會(huì)導(dǎo)致模型不穩(wěn)定，從而不利于可靠性解釋。Lim和Yu（2013）[5]提出了ESCV方法，即將數(shù)據(jù)可信度需求加入到交叉驗(yàn)證中，ESCV是一個(gè)基于估計(jì)穩(wěn)定性ES（Estimation stability）并將其與CV結(jié)合起來的一種無需模型假定的變量選擇方法。

在變系數(shù)模型KLASSO估計(jì)實(shí)際計(jì)算中，需要選擇合適的調(diào)節(jié)參數(shù)，調(diào)整參數(shù)的選擇在加罰估計(jì)的變量選擇過程中起著極其重要的作用。當(dāng)調(diào)整參數(shù)λ=0時(shí),所有的變量都被選進(jìn)模型；當(dāng)調(diào)整參數(shù)λ=∞時(shí),那么模型中不含有任何變量。λ起到了控制模型復(fù)雜度的作用。λ取值越大，得到的模型越簡單。反之，λ取值越小，得到的模型越復(fù)雜。大的λ給出的估計(jì)的方差比較小,而小的λ對應(yīng)的模型偏差會(huì)比較小。因此，在KLASSO估計(jì)中調(diào)節(jié)參數(shù)λ的確定對模型的穩(wěn)定性有重要影響，估計(jì)方差和模型偏差之間一個(gè)好的平衡就需要選出一個(gè)比較理想的λ，如何選擇一個(gè)合適的調(diào)整參數(shù)使得模型在預(yù)測性和解釋性上都能達(dá)到一個(gè)理想結(jié)果就成為人們所關(guān)心的重要問題。

Wang和Xia（2009）[4]提出的變系數(shù)模型的KLASSO估計(jì)中，確定收縮參數(shù)λ，是采用BIC最小準(zhǔn)則，BIC雖然易于計(jì)算，但其有效性依賴于模型假定，而且它是漸近性結(jié)果，因此在樣本量有限的情況下，BIC模擬結(jié)果表現(xiàn)不一定很好，且BIC在統(tǒng)計(jì)性能上是不穩(wěn)定的[8]，當(dāng)數(shù)據(jù)是高維數(shù)據(jù)時(shí)，即樣本量n小于變量維度p時(shí)，Lim和Yu（2013）[5]將ESCV、CV（cross validation）和BIC應(yīng)用與Lasso方法，并對這三種方法所估計(jì)的模型的穩(wěn)定性進(jìn)行比較，結(jié)果表明ESCV方法在多個(gè)指標(biāo)上面都表現(xiàn)較好?；诖?，本文將ESCV作為一種選參方法引入到變系數(shù)模型加罰估計(jì)中，以期提高變系數(shù)模型在傳統(tǒng)變量選擇方法BIC下的模型穩(wěn)定性，挑選λ的準(zhǔn)則是選擇具有局部最小標(biāo)準(zhǔn)化方差的[λ]，即就是要使ES(λ)值最小。

本文的分析比較中，選用模型預(yù)測均方誤差（MSE）、模型大?。∕S）以及顯著性變量個(gè)數(shù)（NOSV）及其百分比（PSV）四個(gè)方面來度量模型的穩(wěn)定性。均方誤差是度量模型穩(wěn)定性的首要標(biāo)準(zhǔn)，模型預(yù)測能力不好，則模型不可靠。模型大小即所選變量的個(gè)數(shù)，在高維數(shù)據(jù)分析中，需要控制模型復(fù)雜度，若所選變量過多，模型太過復(fù)雜，模型的穩(wěn)定性就可能得不到保證。在眾多變量中對模型有顯著性影響的自變量對模型穩(wěn)定性有重要影響，顯著性變量個(gè)數(shù)及其百分比是指挑選多個(gè)變量的情況下，對模型有顯著影響的自變量個(gè)數(shù)及其占所選全部變量的比例。

3　模擬研究

3．1　正態(tài)分布下變系數(shù)模型模擬

本文的次模擬是模擬實(shí)際中常見的數(shù)據(jù)分布形式，即自變量服從或近似服從正態(tài)分布的情形，模擬所采用的模型如下：

其中假定X=(Xi1,Xi2,Xi3)服從正態(tài)分布N(0,1)，ei服從正態(tài)分布N(0,0.8)，σe=1.2，并設(shè)定不顯著變量(Xi4,…,Xip)服從正態(tài)分布N(0,0.8)，全部變量之間的協(xié)示變量Z服從

i均勻分布U(0,1)。

在自變量來自正態(tài)分布的變系數(shù)模型中，本文用KLASSO方法進(jìn)行參數(shù)估計(jì)和變量選擇，在估計(jì)過程中，調(diào)節(jié)參數(shù)分別選用ESCV準(zhǔn)則和傳統(tǒng)的BIC準(zhǔn)則進(jìn)行確定。為了比較在不同變量維度下BIC和ESCV方法進(jìn)行變量選擇對模型穩(wěn)定性的影響，本文設(shè)定總變量數(shù)p∈{10,30,60,70,90,100}。

在模型樣本量n=50不變，變量數(shù)p不斷增大的情況下，將每個(gè)模型隨機(jī)模擬100次，結(jié)果如表1所示。

表1　正態(tài)分布下模擬結(jié)果

從表1中可以看出，在樣本量n=50保持不變而總變量數(shù)p變化時(shí)，兩種變量選擇方法的均方誤差（MSE）都隨著變量總數(shù)的增加而增大。當(dāng)變量維度p小于樣本量n，即當(dāng)p為10和30時(shí)，ESCV方法估計(jì)的預(yù)測誤差、變量個(gè)數(shù)以及顯著性百分比都不如BIC方法，但在高維數(shù)據(jù)情形下，即當(dāng)變量維度p大于樣本量n時(shí)，ESCV方法的預(yù)測誤差、變量個(gè)數(shù)以及顯著性變量百分比優(yōu)于BIC方法且這種優(yōu)勢隨著變量維度p的增大越發(fā)明顯。

當(dāng)樣本量n=50，變量維度p=70時(shí)，ESCV的100次模擬平均預(yù)測誤差為2.29，BIC的100次模擬平均預(yù)測誤差為2.80，ESCV所選模型的MSE小于BIC所選模型且較BIC所選模型的MSE降低了18.21%，同時(shí)ESCV的100次模擬所選變量個(gè)數(shù)平均為16.92，BIC的100次模擬所選變量個(gè)數(shù)平均為42.88，ESCV所選模型的變量個(gè)數(shù)不到BIC所選模型變量個(gè)數(shù)的一半，ESCV方法較BIC大大縮減了模型變量維度，在顯著性變量占所選變量百分比上，ESCV所選模型的顯著性變量百分比為14.36%，是BIC所選模型的兩倍。當(dāng)p=100時(shí)，ESCV所選模型的MSE較BIC所選模型降低約20%，ESCV所挑選的變量個(gè)數(shù)僅占全部變量數(shù)的16.05%，而BIC所選變量個(gè)數(shù)占全部變量數(shù)的66.29%，ESCV所選變量個(gè)數(shù)大約是BIC所選變量個(gè)數(shù)的四分之一，在顯著性變量百分比上，ESCV所選模型的顯著性變量百分比為14.70%，是BIC所選模型的三倍。由上述分析可知，當(dāng)變量維度p大于樣本量n時(shí)，ESCV方法在模型穩(wěn)定性上的表現(xiàn)優(yōu)于BIC，且在樣本量不變的情況下，隨著變量維度p的增加優(yōu)勢越發(fā)明顯。

3．2　稀疏情況下變系數(shù)模型模擬

Lim和Yu（2013）[5]給出在高維稀疏情況下，ESCV方法較BIC估計(jì)方法更能突顯模型的穩(wěn)定性優(yōu)勢，因此，改變變系數(shù)模型中自變量的分布，將自變量分布稀疏化來探討在自變量稀疏情況下，ESCV方法與傳統(tǒng)變量選擇方法BIC在模型穩(wěn)定性上的不同表現(xiàn)。

模擬模型假定與第一種情況相同，只是假定自變量X來自于服從均勻分布的隨機(jī)稀疏矩陣sprand(ss,p,d),其中ss為樣本量，p為總變量個(gè)數(shù)，d為非零元素分布密度的大小，設(shè)為0.4。

模型在樣本量n=50保持不變，總變量數(shù)p∈{10,30,60,70,90,100}的情況下，對每組模型設(shè)定都進(jìn)行100次模擬，在KLASSO估計(jì)方法下，分別選用ESCV選參準(zhǔn)則和BIC選參準(zhǔn)則來選擇調(diào)節(jié)參數(shù)，結(jié)果如表2所示。

表2　稀疏情況下模擬結(jié)果

從表2可以看出，自變量來自于稀疏分布情形時(shí)，在樣本量p小于n的情況下，即p=10或30時(shí)，在均方誤差MSE上，ESCV方法所選模型對應(yīng)的均方誤差較BIC方法要小，在模型大小以及顯著性變量百分比上，ESCV方法對應(yīng)的模型較BIC要大，但隨著變量維度的增加，當(dāng)變量維度p大于樣本量n，即p∈{60,70,90,100}時(shí)，ESCV篩選變量的優(yōu)勢大大增強(qiáng)，均方誤差也越來越小。當(dāng)p=100時(shí)，ESCV方法平均100次模擬的均方誤差為1.06，BIC方法對應(yīng)的均方誤差為1.18，ESCV方法的對應(yīng)模型的MSE較BIC減少了10.17%，且ESCV方法為模型所挑選的變量個(gè)數(shù)平均為4.09，大大少于BIC方法所選變量個(gè)數(shù)33.77，ESCV所選變量個(gè)數(shù)大約是BIC方法所選變量個(gè)數(shù)的四分之一，在顯著性變量百分比上，ESCV所選顯著性變量占全部所選變量的50.86%，而BIC方法所選顯著性變量占所選全部變量的7.26%，即BIC方法較ESCV方法更多的選擇了不顯著變量。

與自變量來自于正態(tài)分布下的變系數(shù)模型相比，稀疏分布下兩種方法擬合的模型在模型均方誤差、模型大小、顯著性變量百分比上的表現(xiàn)都更好，但與BIC方法相比，ESCV方法對模型穩(wěn)定性的影響更為顯著，即ESCV方法下的模型均方誤差、模型大小減小幅度更大，顯著性變量百分比增大幅度則更多，如稀疏情形下，BIC方法對應(yīng)的模型大小是正態(tài)分布下模型大小的二分之一，而ESCV方法對應(yīng)的模型大小是正態(tài)分布下的四分之一。且稀疏分布情形下，低維時(shí)，ESCV方法對應(yīng)的模型均方誤差小于BIC，這與自變量來自于正態(tài)分布且數(shù)據(jù)為低維情況下ESCV預(yù)測誤差大于BIC相反。高維時(shí)，不論自變量來自哪種分布，ESCV在均方誤差、模型大小、顯著性變量百分比上都優(yōu)于BIC。在高維稀疏數(shù)據(jù)分析中，ESCV較BIC方法的穩(wěn)定性優(yōu)勢更加明顯。

4　實(shí)例分析

4．1　Boston Housing數(shù)據(jù)分析

本文將分析Boston住房數(shù)據(jù)，該數(shù)據(jù)是在1970年Boston地區(qū)收集的506個(gè)人口普查區(qū)的房價(jià)信息。本文沿用Fan和Huang（2005）[9]的變量設(shè)定，將MEDV（業(yè)主自用房子的中位數(shù)，以$1000為單位）作為響應(yīng)變量Y，LSTAT（地區(qū)較低地位人群占總體的百分比）作為指示變量Z，數(shù)據(jù)集中的其他七個(gè)變量作為自變量INT（截距，X1），CRIM（鎮(zhèn)上人均犯罪率，X2），RM（每座房子的平均房間數(shù)，X3），PTRATIO（鎮(zhèn)上學(xué)生-老師人數(shù)比，X4），NOX（氮氧化物濃度，X5），TAX（房間全價(jià)值物業(yè)稅率，以$10000為單位，X6）和AGE（業(yè)主占用房子建造早于1940年的比例，X7）。

將全部506個(gè)樣本單元隨機(jī)分成十份，每次選取其中九份做訓(xùn)練集，另一份為預(yù)測集。在應(yīng)用模型之前，需要將自變量X和指示變量LSTAT標(biāo)準(zhǔn)化處理。由抽取的訓(xùn)練集數(shù)據(jù)建立變系數(shù)模型，并在KLASSO方法下分別選用ESCV與BIC兩種方法進(jìn)行變量選擇，記錄10次抽樣數(shù)據(jù)擬合中每個(gè)變量被選入模型的次數(shù)，以及每次模型預(yù)測集的均方誤差MSE，結(jié)果如表3所示。

從表3中可以看出，對10次擬合進(jìn)行平均，ESCV的均方誤差MSE與BIC方法對應(yīng)模型的MSE相當(dāng)，但在10次擬合中，ESCV方法傾向于選擇前三個(gè)變量，變量X1，X2，X3被選中的次數(shù)分別為10、9、10，即ESCV方法能夠穩(wěn)定的選擇出前三個(gè)自變量，而BIC方法在每次模擬時(shí)所選變量的個(gè)數(shù)以及傾向于選擇哪些變量都不穩(wěn)定，即抽樣數(shù)據(jù)不同時(shí)，BIC不能保證所估計(jì)模型的穩(wěn)定性。

為了進(jìn)一步理解抽樣數(shù)據(jù)分析中的不穩(wěn)定性，給出第6次抽樣下，BIC方法對應(yīng)模型的估計(jì)系數(shù)圖，如圖1（上）；ESCV方法所對應(yīng)模型的估計(jì)系數(shù)圖，如圖1（下）。

從圖1（上）中可以看出，在BIC方法下，用此次抽樣所得的455個(gè)數(shù)據(jù)進(jìn)行變量選擇，所選取的變量數(shù)為1，即僅第一個(gè)變量INT顯著不為0，其他六個(gè)變量的全部估計(jì)為0。用此次數(shù)據(jù)建立模型并對余下的51個(gè)數(shù)據(jù)進(jìn)行預(yù)測，所對應(yīng)的平均預(yù)測誤差為0.5115；圖1（下）給出了相同樣本數(shù)據(jù)下，用ESCV方法進(jìn)行變量選擇，所選取的變量個(gè)數(shù)為3，即INT、RM、CRIM這3個(gè)變量顯著不為0，用所建模型對余下的51個(gè)數(shù)據(jù)進(jìn)行預(yù)測，所對應(yīng)的平均預(yù)測誤差為0.4082。對比兩個(gè)圖可以看出在一次抽樣數(shù)據(jù)擬合中，對同一個(gè)自變量的估計(jì)，例如自變量INT，ESCV方法對該變量估計(jì)的波動(dòng)程度要顯著小于BIC方法，即ESCV方法估計(jì)的變量系數(shù)更為穩(wěn)定。

表3　Boston住房數(shù)據(jù)結(jié)果

圖1 BIC（上）和ESCV（下）方法下自變量估計(jì)系數(shù)變動(dòng)情況

從Boston housing的數(shù)據(jù)分析中可以看到，當(dāng)所抽取的樣本數(shù)據(jù)發(fā)生變化時(shí)，BIC方法選擇的變量個(gè)數(shù)就會(huì)隨之發(fā)生大的變動(dòng)，而ESCV卻能穩(wěn)定地選出對因變量有重要影響的自變量，且對所選變量的系數(shù)估計(jì)也更穩(wěn)定。

4．2　新浪新聞數(shù)據(jù)分析

利用爬蟲技術(shù)在新浪新聞網(wǎng)站獲取2013年7月1日至9月30日（共12周）財(cái)經(jīng)（標(biāo)簽為+1）和健康（標(biāo)簽為-1）兩類新聞文檔。共390篇，兩類的比例為1：1。利用分詞軟件將原始文本數(shù)據(jù)轉(zhuǎn)化為文檔詞頻矩陣。隨機(jī)選取150篇文檔為訓(xùn)練集，剩余240篇為測試集。利用LASSO初步篩選出162個(gè)關(guān)鍵詞。指示變量z為時(shí)間并以周為時(shí)間單位。即假定關(guān)鍵詞對新聞?lì)悇e的影響與其出現(xiàn)的時(shí)間有關(guān)。

在變系數(shù)模型KLASSO估計(jì)中，分別用ESCV和BIC兩種方法確定調(diào)節(jié)參數(shù)，用所確定模型的分類準(zhǔn)確率來衡量模型預(yù)測誤差，用所選擇變量的個(gè)數(shù)來確定模型大小。將數(shù)據(jù)進(jìn)行10次抽樣，并對每次抽樣所得數(shù)據(jù)進(jìn)行擬合，每次擬合模型所選變量數(shù)，以及模型分類準(zhǔn)確率所得結(jié)果如表4所示：

表4　新聞數(shù)據(jù)分類準(zhǔn)確率和模型大小

從表4中可以看出，在樣本量n=150小于變量維度p=162時(shí)，盡管10次所抽取的樣本數(shù)據(jù)不一樣，但用ESCV方法選擇出的變量所建模型的分類準(zhǔn)確率始終要大于BIC方法的分類準(zhǔn)確率，且在模型大小上，BIC方法傾向于選擇幾乎所有的變量，而ESCV傾向于選擇固定的20多個(gè)變量，ESCV挑選出的變量個(gè)數(shù)始終顯著小于BIC方法下的變量個(gè)數(shù)，在此次新聞數(shù)據(jù)分析中，ESCV變量選擇方法有明顯的降維作用，在分類準(zhǔn)確率上較傳統(tǒng)BIC方法也有優(yōu)勢，采用ESCV變量選擇方法可以顯著提高模型的穩(wěn)定性。

為了更好地理解ESCV選擇變量的穩(wěn)定性要優(yōu)于BIC，給出某次抽樣下，ESCV選擇變量的情況，如在第四次抽樣中，ESCV在162個(gè)關(guān)鍵詞中，選擇了22個(gè)對分類有重要影響的關(guān)鍵詞，即選擇的變量個(gè)數(shù)為22。分析這22個(gè)關(guān)鍵詞，大致可以分為三大類，第一類是明顯跟經(jīng)濟(jì)類相關(guān)的詞，如：美元、經(jīng)濟(jì)、投資、下降、漲、中國、企業(yè)、發(fā)展、部門；第二類是跟健康類相關(guān)詞，如：醫(yī)院、性、肌肉、成分、疾病、健康、破壞、食物、效果；第三類是對分類沒有很重要作用，但在兩類文章中都會(huì)出現(xiàn)的詞，如：發(fā)布、公布、好。

在此次抽樣中，BIC方法所選變量個(gè)數(shù)為160，幾乎所有由LASSO初步篩選出的關(guān)鍵詞都被引入到模型中。因此BIC所建模型比ESCV更復(fù)雜。在兩種選參方法下，“健康”一詞都被選中，但兩種方法對其重要性的估計(jì)不同，下面本文給出兩種方法下，關(guān)鍵詞“健康”在12周中估計(jì)系數(shù)的變化對比圖，如圖2所示。

圖2ESCV和BIC方法下關(guān)鍵詞“健康”估計(jì)系數(shù)變化圖

從圖2中可以看出，在12周中，“健康”一詞在分類上始終是有重要作用的詞匯，但在BIC方法下估計(jì)出的系數(shù)值即關(guān)鍵詞重要性波動(dòng)較大，而在ESCV方法下估計(jì)系數(shù)值變動(dòng)較小，在前4周幾乎沒有變動(dòng)，第4周略有下降，但在后4周中又開始固定不變，系數(shù)值基本保持在0.4995的水平上，ESCV比BIC方法對該詞的估計(jì)更為穩(wěn)定。

從新浪新聞數(shù)據(jù)分析可以看出，在高維數(shù)據(jù)情況下，ESCV在模型預(yù)測、變量選擇上較BIC表現(xiàn)得更好，即在變系數(shù)模型KLASSO估計(jì)下，選用ESCV準(zhǔn)則比選用BIC準(zhǔn)則進(jìn)行變量選擇所確立模型的穩(wěn)定性更強(qiáng)。

5　總結(jié)

本文是基于Yu和Lim（2013）[5]提出的ESCV方法以及對模型穩(wěn)定性的度量標(biāo)準(zhǔn)，將ESCV方法引入到變系數(shù)模型加罰估計(jì)中，以期提高變系數(shù)模型的穩(wěn)定性。本次研究主要是基于Wang和Xia（2009）[4]提出的變系數(shù)模型KLASSO估計(jì)，在KLASSO估計(jì)實(shí)際計(jì)算中，分別應(yīng)用ESCV方法與BIC方法進(jìn)行調(diào)節(jié)參數(shù)的選擇，并對比不同選參方法對模型穩(wěn)定性的影響，而模型穩(wěn)定性主要從模型預(yù)測誤差、模型大小和顯著性變量百分比上來進(jìn)行比較。

本文雖然找到了一種能夠提高變系數(shù)模型穩(wěn)定性的方法，但同樣存在很多問題：首先對于模型穩(wěn)定性統(tǒng)計(jì)學(xué)上還沒有給出標(biāo)準(zhǔn)的定義，本文只能直觀地從預(yù)測誤差、選擇變量等方面來衡量模型是否穩(wěn)定；其次變系數(shù)模型有很多估計(jì)方法，而此次研究僅限于KLASSO估計(jì)，在其他變系數(shù)模型估計(jì)方法下，ESCV方法是否能夠比BIC方法表現(xiàn)好還有待進(jìn)一步研究；最后數(shù)據(jù)在低維情形時(shí)，多次抽樣情況下，雖然ESCV方法的變量選擇穩(wěn)定性要優(yōu)于BIC，但是BIC方法的平均預(yù)測誤差要小于ESCV，ESCV方法可能存在總是漏選某個(gè)重要變量的情況。

參考文獻(xiàn)：

[1]Hastie T,Tibshirani R.Varying Coefficient Models[J].Journal of Royal Statistical Society:Series B,1993,(55).

[2]Fan J,Zhang W.Statistical Estimation in Varying Coefficient Models[J].Journal of the American Statistical Association,1999,(27).

[3]Chiang C,Rice J A,Wu C O.Smoothing Spline Estimation for Varying Coefficient Models With Repeatedly Measured Dependent Variables[J].Journal of American Statistical Association,2001,(96).

[4]Wang H,Xia Y.Shrinkage Estimation of the Varying Coefficient Model[J].Journal of the American Statistical Association,2009,(104).

[5]Lim C,Yu B.Estimation Stability With Cross Validation(ESCV)[J].arXiv,2013,(1303).

[6]Yuan M,Lin Y.Model Selection and Estimation in Regression With Grouped Variables[J].Journal of the Royal Statistical Society:Series B,2006,(68).

[7]Yu B.Stability[J].Bernoulli,2013,19(4).

[8]Breiman L.Heuristics of Instability and Stabilization in Model Selection[J].Annals of Statistics,1996,(24).

[9]Fan J,Huang T.Profile Likelihood Inferences on Semiparametric Varying Coefficient Partially Linear Models[J].Bernoulli,2005,(11).

猜你喜歡

樣本量個(gè)數(shù)顯著性

對統(tǒng)計(jì)結(jié)果解釋和表達(dá)的要求

山東第一醫(yī)科大學(xué)(山東省醫(yī)學(xué)科學(xué)院)學(xué)報(bào)(2022年7期)2023-01-05

一種基于進(jìn)化算法的概化理論最佳樣本量估計(jì)新方法：兼與三種傳統(tǒng)方法比較*

心理學(xué)報(bào)(2022年10期)2022-10-12

醫(yī)學(xué)研究中樣本量的選擇

內(nèi)蒙古統(tǒng)計(jì)(2021年4期)2021-12-06

怎樣數(shù)出小正方體的個(gè)數(shù)

小學(xué)生學(xué)習(xí)指導(dǎo)(低年級)(2021年9期)2021-10-14

本刊對論文中有關(guān)統(tǒng)計(jì)學(xué)表達(dá)的要求

中國人獸共患病學(xué)報(bào)(2020年11期)2020-12-08

等腰三角形個(gè)數(shù)探索

中學(xué)生數(shù)理化·七年級數(shù)學(xué)人教版(2019年10期)2019-11-25

怎樣數(shù)出小木塊的個(gè)數(shù)

小學(xué)生學(xué)習(xí)指導(dǎo)(低年級)(2019年9期)2019-09-25

樣本量估計(jì)及其在nQuery和SAS軟件上的實(shí)現(xiàn)*——均數(shù)比較(十一)

中國衛(wèi)生統(tǒng)計(jì)(2019年3期)2019-07-10

樣本量估計(jì)及其在nQuery和SAS軟件上的實(shí)現(xiàn)*——均數(shù)比較(十)

中國衛(wèi)生統(tǒng)計(jì)(2019年3期)2019-07-10

基于區(qū)域特征聚類的RGBD顯著性物體檢測

小型微型計(jì)算機(jī)系統(tǒng)(2019年4期)2019-05-05

統(tǒng)計(jì)與決策2018年5期

統(tǒng)計(jì)與決策的其它文章: 收入異動(dòng)對未來利潤高增長影響的實(shí)證檢驗(yàn); 復(fù)合MLINEX對稱損失函數(shù)下Pareto分布參數(shù)的Bayes估計(jì); 自適應(yīng)N-W核回歸估計(jì)量的改進(jìn); 面板數(shù)據(jù)復(fù)合分位數(shù)回歸模型的估計(jì); 基于有偏Logistic分布的回歸建模及其Score檢驗(yàn); DIVISIA貨幣總量指數(shù)的構(gòu)建及實(shí)證檢驗(yàn)

正蓝旗| 綦江县| 古蔺县| 沾化县| 平陆县| 九龙坡区| 崇礼县| 江陵县| 韩城市| 彰化市| 林口县| 怀化市| 利川市| 云梦县| 巴中市| 望谟县| 郁南县| 海盐县| 克山县| 白河县| 鲁山县| 威海市| 和平区| 华坪县| 抚顺市| 鹿邑县| 竹北市| 锦州市| 宣恩县| 紫阳县| 吉木萨尔县| 筠连县| 永登县| 裕民县| 景东| 郯城县| 韶山市| 九江县| 淮安市| 浙江省| 清水河县|