国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于split-and-conquer和非參數(shù)向前選擇法的變量選擇

2019-12-04 03:25:02李順勇趙永勝
關(guān)鍵詞:降維預(yù)測值變量

李順勇,趙永勝

(山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山西 太原 030006)

大數(shù)據(jù)時代,為獲取更多的數(shù)據(jù)提供了便利條件,也給數(shù)據(jù)研究帶來了挑戰(zhàn).當(dāng)數(shù)據(jù)維數(shù)遠遠高于樣本量時,很多常用的經(jīng)典算法往往舉步維艱.面對巨多雜亂的數(shù)據(jù),如何處理,才能為研究做數(shù)據(jù)支撐?統(tǒng)計學(xué)者把變量選擇作為解決這一問題的突破口.選擇出相關(guān)性高的變量,為進一步對模型進行預(yù)測和解釋埋下伏筆.Fan和Lv[1]將變量選擇作為處理超高維數(shù)據(jù)的突破口.目前最常用的變量選擇方法有:基于統(tǒng)計學(xué)方法的主成分分析、充分降維、偏最小二乘回歸、全部子集法等.其中,李正欣等[2]提出了一種基于共同主成分的降維方法;解洪勝等[3]介紹3種非線性降維算法的概念和實現(xiàn)步驟;李向杰等[4]提出了一種穩(wěn)健的降維方法,使用了切片逆回歸方法.基于范數(shù)的變量選擇方法有:嶺回歸、Lasso回歸、彈性網(wǎng)回歸及SCAD等.其中,Tibshirani[5]提出的Lasso方法已經(jīng)得到了廣泛的運用;Efron 等[6]提出了LARS算法;Sherwood[7]利用 SCAD估計方法和MCP估計算法進行變量選擇;Zhang[8]在進行降維的過程中,既保留了數(shù)據(jù)的代表性又節(jié)省了運算空間.

上述方法適用于線性回歸的變量選擇,而對于復(fù)雜的模型,尤其當(dāng)數(shù)據(jù)維數(shù)比較大的時候,會出現(xiàn)消耗時間過長的問題.并且當(dāng)數(shù)據(jù)的維數(shù)大于樣本量時,變量選擇的效果比較差.針對這一問題運用split-and-conquer加向前選擇法對非參數(shù)可加模型進行研究,以解決傳統(tǒng)方法在處理超高維數(shù)據(jù)時耗時過長的問題.

1 非參數(shù)可加模型

Stone[9]首次提出非參數(shù)可加模型,具體的表達式為

(1)

其中,X表示解釋變量,Xij表示向量Xi的第j個變量,Y表示被解釋變量,(Yi,Xi),i=1,...,n與(Y,X)獨立同分布.μ在這里是常數(shù),作為截距項.εi是一個隨機變量,其均值為0,方差為σ2.fj(j=1,…,p)表示函數(shù)項.當(dāng)E(Xij)=0,Var(Xij)=1,E(Yi)=0,Var(Yi)=1時,常數(shù)項變?yōu)?,即μ=0.本文假設(shè)函數(shù)滿足Efj(Xj)=0,1≤j≤p使得函數(shù)展開時具有唯一性,即使得被解釋變量的均值為0.我們定義指標(biāo)集P1={1,2,…,p},|P1|=p=pn,使得fj(Xj)≠0時的變量為相關(guān)聯(lián)的變量,與之對應(yīng)的集合為M0={j:Efj(Xj)2>0},那么此時得到的稀疏模型就為p0=|M0|.

(2)

2 數(shù)據(jù)處理方法

面對大量的高維數(shù)據(jù),尤其當(dāng)數(shù)據(jù)維數(shù)高于樣本量的時,進行變量選擇迭代次數(shù)很大,會浪費很長的時間.而split-and-conquer方法進行變量選擇前的數(shù)據(jù)處理可以解決耗時長的問題.

2.1 spilt-and-conquer方法

Chen提出的split-and-conquer方法[10],不僅能夠很好的去除錯誤模型選擇帶來的偽相關(guān),而且可以極大地降低計算時間.計算機產(chǎn)生的時間復(fù)雜度正比于O(na,pb),a>1,b≥0.

(3)

相應(yīng)的懲罰估計為:

(4)

其中ρ(β;λk)訓(xùn)練參數(shù)λk的懲罰函數(shù),可參見文獻[11].當(dāng)數(shù)據(jù)量比較大的時候,此方法不僅能夠選擇出關(guān)聯(lián)特征,還能很大程度上節(jié)省時間.

2.2 非參數(shù)向前選擇法

秦玲曄[12]提出了非參數(shù)向前選擇法.向前選擇方法一般用于參數(shù)回歸中,將其用到非參數(shù)回歸中,運用殘差平方和進行選擇,得到使殘差平方和最小的變量.篩選的變量集合為:

具體步驟為:

1)設(shè)t1=0,S0=0.

2)進行迭代.當(dāng)t1次迭代,St1-1和P1﹨St1-1中的各個元素為備選模型Mj,t1-1=St1-1∪{j},計算每個j值的RSSMj,t1-1,選擇出RSS最小時的j值記為at1=arg minj∈P1﹨St1-1RSSMj,t1 - 1,迭代得到St1-1∪{at1}.

由于非參數(shù)向前選擇法比較復(fù)雜,會消耗很長時間,所以本文通過設(shè)置殘差平方和的大小來控制迭代.設(shè)迭代次數(shù)為D0時可以停止,記BIC準(zhǔn)則為:

(5)

非參數(shù)向前選擇法具有變量選擇一致性的特點.

2.3 評價標(biāo)準(zhǔn)

本文考慮真正例、假正例、R23個指標(biāo)來衡量模型的好壞.

真正例表示預(yù)測值和真實值同為1,而假正例表示真實值為0,預(yù)測值為1的情況,在文章中我們希望真正例越大越好,而盡量避免假正例的存在.

平均模型大小可以看做變量選擇模型好壞的評價指標(biāo),可通過計算樣本的R2,即

(6)

當(dāng)R2越大,則表示模型的擬合效果越好.

3 數(shù)據(jù)模擬

考慮模型1:Y=g1(X)+g2(X)+g3(X)+g4(X)+ε

其中g(shù)1(X)=-sin(2x),g2(X)=x2-25/12,g3(X)=x,

g4(X)=exp(-x)-2/5×sin(2.5),X~U(-2.5,2.5),ε~N(0,1).

定義信噪比為3.可得到函數(shù)與非參數(shù)可加模型的擬合結(jié)果圖如圖1所示.

圖1中是通過變量選擇后前 4個得出來的圖,虛線是函數(shù)的真實值,實線是預(yù)測值,2條外部的實線表示預(yù)測值的置信區(qū)間.圖1、2中橫坐標(biāo)表示自變量,縱坐標(biāo)表示預(yù)測值.從模擬圖c中可以明顯地看出來,當(dāng)預(yù)測的函數(shù)比較簡單,呈一條直線時,預(yù)測效果較好,預(yù)測曲線與真實曲線都比較接近;當(dāng)預(yù)測的函數(shù)為一條簡單曲線,如擬合圖d,預(yù)測值與真實值會在曲線的地方發(fā)生較小偏離;從擬合圖a和b中可以看出,非參數(shù)向前選擇法在預(yù)測曲線的拐角處時會發(fā)生較大偏離,預(yù)測效果較差.總的來說,隨著真實曲線的曲度不同,非參數(shù)向前選擇法預(yù)測的效果稍有差別,但總體預(yù)測效果較好.

圖2中預(yù)測曲線與真實曲線都比較接近.當(dāng)曲線比較簡單時,模型擬合的比較好;當(dāng)曲線比較復(fù)雜時,模型模擬的稍微差一點.但是總的來說,選擇出的變量還是與真實曲線的走勢一致,如模擬圖f1,當(dāng)真實曲線發(fā)生較多拐彎,雖然在拐彎處發(fā)生了偏離,但預(yù)測曲線仍可以適應(yīng)其正確的走勢.根據(jù)模擬1和2,得出模型在時間和預(yù)測準(zhǔn)確度方面的結(jié)果.為了對比,加入split-and-conquer(SAC)方法對數(shù)據(jù)處理,以驗證是否在保持模型準(zhǔn)確性的同時,能節(jié)省時間.非參數(shù)向前選擇法,文獻[12]給出了詳細的解釋.本節(jié)得出的數(shù)據(jù)結(jié)果,如表1所示.

表1 模擬數(shù)據(jù)效果對比

表1中,模擬1的數(shù)據(jù)通過非參數(shù)向前選擇法得到的正確率為0.936,消耗時間為 12.12 min.通過 SAC 方法處理數(shù)據(jù)后,再使用非參數(shù)向前選擇法得到的準(zhǔn)確率為 0.923,消耗時長為4.31 min.結(jié)果表明,數(shù)據(jù)通過SAC方法處理后準(zhǔn)確率減小了,但是影響程度不大.從消耗時長的角度來看,有很好的效果,節(jié)省了 7.81 min;模擬 2的數(shù)據(jù)通過非參數(shù)向前選擇法得到的正確率為 0.797,消耗時長為 15.68 min.通過SAC方法處理數(shù)據(jù)后,再使用非參數(shù)向前選擇法得到的準(zhǔn)確率為 0.824,消耗時長為 3.96 min.結(jié)果表明,數(shù)據(jù)通過SAC方法處理后準(zhǔn)確率增加了,但是影響程度也不大,而從消耗時長來看,節(jié)省了 11.72 min.總之,數(shù)據(jù)進行SAC處理后,通過非參數(shù)向前選擇方法進行變量選擇,對模型的準(zhǔn)確率影響不大,能保證處理前后結(jié)果的一致性,然而對數(shù)據(jù)進行SAC方法處理后,能較好地節(jié)省時間.

4 結(jié)語

變量選擇是解決大數(shù)據(jù)的一種方法,但是有效地處理高維數(shù)據(jù)有一定難度.本文針對這一問題提出了一種新的方法進行變量選擇.首先使用split-and-conquer方法將數(shù)據(jù)進行拆分,然后使用B樣條函數(shù)逼近的非參數(shù)向前選擇法進行研究.模擬實驗表明,基于split-and-conquer的非參數(shù)向前選擇法可以將變量選擇出來,并且節(jié)省了大量時間.

猜你喜歡
降維預(yù)測值變量
IMF上調(diào)今年全球經(jīng)濟增長預(yù)期
企業(yè)界(2024年8期)2024-07-05 10:59:04
Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
加拿大農(nóng)業(yè)部下調(diào)2021/22年度油菜籽和小麥產(chǎn)量預(yù)測值
±800kV直流輸電工程合成電場夏季實測值與預(yù)測值比對分析
抓住不變量解題
也談分離變量
法電再次修訂2020年核發(fā)電量預(yù)測值
國外核新聞(2020年8期)2020-03-14 02:09:19
降維打擊
海峽姐妹(2019年12期)2020-01-14 03:24:40
SL(3,3n)和SU(3,3n)的第一Cartan不變量
分離變量法:常見的通性通法
叶城县| 沙田区| 图片| 阿合奇县| 宁津县| 荣昌县| 花莲县| 韩城市| 大英县| 盐城市| 东莞市| 紫金县| 花莲县| 枞阳县| 噶尔县| 蛟河市| 玛沁县| 松原市| 浙江省| 庆元县| 邻水| 盐池县| 拉萨市| 什邡市| 咸阳市| 和顺县| 安塞县| 二手房| 额尔古纳市| 江永县| 昆山市| 贵定县| 浮梁县| 武强县| 略阳县| 金平| 鄂托克前旗| 容城县| 武清区| 葫芦岛市| 乌海市|