国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

超高維判別分析中的迭代穩(wěn)健特征篩選方法

2019-11-11 07:36:10何勝美
關(guān)鍵詞:邊際分類變量

何勝美

(廣東金融學(xué)院 金融數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,廣東廣州510521)

隨著科學(xué)技術(shù)的發(fā)展,大數(shù)據(jù)成了當(dāng)下研究的熱點(diǎn).高維作為大數(shù)據(jù)的主要特征,得到了學(xué)者們的廣泛關(guān)注.在數(shù)據(jù)分析中,當(dāng)特征的維數(shù)超過樣本量,統(tǒng)計(jì)建模分析將面臨巨大的挑戰(zhàn).對(duì)于高維數(shù)據(jù),涌現(xiàn)出來一批傾向于精確變量選擇的方法,例如 LASSO[1],SCAD[2],Elastic net[3]以及它們的各種擴(kuò)展[4-5].但是,超高維時(shí),上述變量選擇方法在計(jì)算成本,統(tǒng)計(jì)的準(zhǔn)確性以及算法的穩(wěn)定性上都遇到巨大挑戰(zhàn).Fan和Lv在線性模型假情況下,利用邊際皮爾森相關(guān)性對(duì)協(xié)變量做初步篩選,提出了確定性獨(dú)立篩選方法(SIS),證明在一定條件下該方法滿足確定篩選性質(zhì),即模型所選變量集合包含全部真實(shí)變量的概率趨近于1,首次提出了變量篩選的概念[6].隨之而來,各種以邊際效用為基礎(chǔ)的變量篩選方法相繼涌現(xiàn).比如線性與廣義線性模型上有基于最大邊際似然的篩選方法[7]和基于邊際經(jīng)驗(yàn)似然比的變量篩選方法[8].非參數(shù)方法上有Fan等的基于b樣條估計(jì)邊際相關(guān)效用的非參數(shù)獨(dú)立篩選[9]、NIS,Li等的基于Kendall相關(guān)的變量篩選方法[10]、距離相關(guān)篩選方法[11]、球相關(guān)變量篩選方法[12]等.針對(duì)超高維判別分類問題,也有相關(guān)變量篩選方法出現(xiàn),例如Ma 和 Zou 的 Kolmogorov filter(KF)[13];Cui等的適用于多分類的穩(wěn)健特征篩選方法 MV-SIS[14]及其修正方法 AD-SIS[15].

邊際思想讓變量篩選方法能夠?qū)Τ呔S模型進(jìn)行快速降維,但是它忽略了變量間可能存在的強(qiáng)相關(guān)性,進(jìn)而導(dǎo)致漏選重要變量或者錯(cuò)選不重要的變量.為解決這個(gè)問題,很多方法都提出了相應(yīng)的迭代篩選形式,例如 ISIS[6],ISIRS[16],DC-ISIS[17],MBKR-ISIS[18]和 QC-ISIS[19],但上述這些方法主要針對(duì)連續(xù)變量問題,對(duì)于超高維分類問題的變量篩選,相應(yīng)的迭代篩選還沒有得到充分的研究.

本文在Cui等人提出的MV-SIS[14]和He等人提出的AD-SIS[15]的研究基礎(chǔ)上,考慮超高維分類數(shù)據(jù)的判別分析的迭代變量篩選問題.結(jié)合Zhu等的思想[16],提出了超高維判別分類問題中的迭代特征篩選方法MV-ISIS和AD-ISIS,并通過數(shù)值模擬,研究了這兩種方法的有限樣本效果.

1 迭代特征篩選方法

1.1 MV-SIS和AD-SIS

這里 F(y│X),是給定 X 的條件下 Y 的分布函數(shù).則若 j∈A,Xj為重要變量,反之,若 j?A,Xj為不重要變量.令F(x)=Pr(X≤x)是隨機(jī)變量X的分布函數(shù),F(xiàn)r(x)=Pr(X≤x|Y=yr)是給定Y=yr的條件下,X的條件分布函數(shù),以及pr=P(Y=yr),Cui等人提出了:

來刻畫X與Y的依賴性[14].顯然,MV(X│Y)=0當(dāng)且僅當(dāng)X與Y相互獨(dú)立.因此MV(X│Y)可以作為變量篩選指標(biāo).給定n個(gè)獨(dú)立同分布的樣本{(Xi,Yi),i=1,2,…,n},Cui等提出了適用于超高維判別分析的變量篩選方法 MV-SIS[14]來求如下特征集合:

其中,d=[n/log(n)],ω?k是第 k個(gè)變量相應(yīng)指標(biāo)的樣本估計(jì),其具體計(jì)算如下:

對(duì)于厚尾數(shù)據(jù),MV-SIS并不能很好反映條件分布函數(shù)與無條件分布函數(shù)在尾部的差異,He等通過引進(jìn)權(quán)重函數(shù)φ(F(x))=1/F(x)(1-F(x))對(duì)MV-SIS進(jìn)行修正,得到:

以及:

以此得到新的適用于判別分析的超高維特征篩選方法AD-SIS[15].

1.2 迭代特征篩選MV-ISIS和AD-ISIS

MV-SIS和AD-SIS在數(shù)值模擬研究和實(shí)際數(shù)據(jù)研究中都顯示了不錯(cuò)效果.但是,二者都是基于某一邊際效應(yīng)指標(biāo)的特征篩選方法,忽略了變量間可能存在的強(qiáng)相關(guān)性,進(jìn)而可能導(dǎo)致漏選重要變量或者錯(cuò)選不重要的變量.類似于Zhu等的思想[16],本文基于MV-SIS(AD-SIS)做如下迭代算法:

第一步,應(yīng)用變量篩選方法MV-SIS(或者AD-SIS)對(duì)觀測(cè)樣本(X,Y)進(jìn)行篩選,記這一步中篩選的變量.

第二步,記 X1=(X1A1,X2A1,…,XnA1),顯然,X1是是 n×(p-|A1|)矩陣.然后,進(jìn)一步利用 MV-SIS(或者 AD-SIS)對(duì)新數(shù)據(jù)(Xnew,Y)進(jìn)行變量篩選,篩選出另外d2個(gè)特征,記為

第三步,更新A1=A1∪A2和d1=d1+d2,再重復(fù)第二步,直到篩選的變量達(dá)到預(yù)先給定的數(shù)量.最終篩選的變量集合設(shè)為A1,則變量數(shù)量為d=|A1|.

上述迭代篩選方法簡記為MV-ISIS和AD-ISIS.其中,通常設(shè)定d=[n/log(n)],實(shí)際模擬中選擇d1=d2=5.另外,注意到與 Xnew不相關(guān),因此,MV-ISIS(或者AD-ISIS)能在一定程度上解決變量間可能存在的強(qiáng)相關(guān)導(dǎo)致的漏選重要變量或者錯(cuò)選不重要的變量的問題.

2 數(shù)值模擬

下面通過蒙特卡羅模擬來評(píng)價(jià)迭代篩選算法MV-ISIS和AD-ISIS的效果.

例1 考慮其中,預(yù)測(cè)變量生成于正態(tài)分布 N(0p,Σ)的隨機(jī)向量,0p是 p 維零向量,Σ=(σij)p×p為協(xié)方差矩陣,滿足:(1)σij=1,i=1,2,…,i≠4;(3)σij=ρ,i≠j,j≠4 和 i≠4.ε 為誤差項(xiàng).按照下列規(guī)則離散化得到 Y:

顯然,該模型中,Y依賴于X1,X2,X3和X4,但是不難計(jì)算Cov(Y*,X4)=Cov(5X1+5X2+5X3-155Cov(X1,X4)+5Cov(X2,X4)+5Cov(X3,X4)-15=0.因此,Y*與X4是邊際獨(dú)立的,從而 Y 與 X4也是邊際獨(dú)立的.取 n=200,p=2 000,考慮以下情況:(1)ρ=0.5 和 0.8;(2)ε~N(0,1)和 ε~t(1).

分別利用MV-SIS,AD-SIS,MV-ISIS和AD-ISIS對(duì)生成的數(shù)據(jù)進(jìn)行變量篩選,比較它們變量篩選的效果.通過500次獨(dú)立重復(fù)模擬,統(tǒng)計(jì)變量Xi正確篩選的頻率pi,i=1,2,3,4,同時(shí)4個(gè)變量同時(shí)正確篩選的頻率pa,結(jié)果如表1和表2所示.

表1 例1中誤差項(xiàng) ε~N(0,1)情形下模擬數(shù)據(jù)變量篩選結(jié)果

表2 例1中誤差項(xiàng)ε~t(1)情形下模擬數(shù)據(jù)變量篩選結(jié)果

表1和表2結(jié)果表明,MV-SIS和AD-SIS的變量篩選結(jié)果受到變量間的相關(guān)性影響較大,當(dāng)變量間相關(guān)系數(shù)由0.5增長到0.8時(shí),變量X1,X2和X3被正確篩選的頻率有較大的下滑(無論誤差項(xiàng)是標(biāo)準(zhǔn)正態(tài)情形還是t(1)分布情形).而迭代篩選算法有效的解決了上述問題,尤其是對(duì)于p=0.8高相關(guān)的情況,MV-ISIS(AD-ISIS)大幅度提高了變量X1、X2和X3被正確篩選的頻率.例如在表2中,當(dāng)p=0.8時(shí),MV-SIS和ADSIS對(duì)第一個(gè)變量篩選的概率p1只有0.690和0.712,但迭代方法的結(jié)果有了較大提升,MV-ISIS和AD-ISIS均為為0.998,其它情況也都有類似的結(jié)果.而對(duì)于X4的篩選,由于X4與類別變量Y邊際獨(dú)立,MV-SIS和AD-SIS在各種情況下都未能正確的將X4篩選出來,相應(yīng)的概率p4都為零,從而導(dǎo)致4個(gè)變量全部被正確篩選的概率pa全為零.而兩種迭代篩選方法得到了滿意的結(jié)果.表2結(jié)果顯示,在誤差項(xiàng),ε~t(1),p=0.8時(shí),MV-ISIS和AD-ISIS對(duì)應(yīng)的p4分別從零上升到了0.864和0.918,相應(yīng)的pa也從零分別提高到了0.864和0.918.

3 結(jié)語

本文研究了超高維判別分類問題中的迭代變量篩選問題,針對(duì)以往邊際篩選方法忽略了變量間可能存在的強(qiáng)相關(guān)性,進(jìn)而可能導(dǎo)致漏選重要變量或者錯(cuò)選不重要的變量的問題,提出了兩種迭代穩(wěn)健變量篩選方法MV-ISIS和AD-ISIS,并通過數(shù)值模擬,討論了這兩種方法在有限樣本上的效果.模擬結(jié)果表明,在判別分類模型中,某些不重要變量與重要變量高度相關(guān),而其他重要變量與類別變量的相關(guān)性較弱;或者某些變量與類別變量邊際相關(guān)性較弱,但聯(lián)合相關(guān)性又較強(qiáng)時(shí),MV-ISIS(或者AD-ISIS)能大幅提高原始方法MV-SIS(AD-SIS)的變量篩選效果.

猜你喜歡
邊際分類變量
隨身新配飾
分類算一算
抓住不變量解題
也談分離變量
分類討論求坐標(biāo)
追求騎行訓(xùn)練的邊際收益
數(shù)據(jù)分析中的分類討論
社會(huì)治理的邊際成本分析
教你一招:數(shù)的分類
SL(3,3n)和SU(3,3n)的第一Cartan不變量
海口市| 岳池县| 扶余县| 朝阳区| 琼中| 大兴区| 城口县| 霞浦县| 叶城县| 昌乐县| 伊宁市| 民权县| 稷山县| 湘潭县| 禄丰县| 昌宁县| 横山县| 广西| 高清| 哈密市| 孝义市| 睢宁县| 涿州市| 襄垣县| 乌苏市| 靖西县| 五台县| 乡城县| 惠来县| 三江| 河南省| 阿合奇县| 山阳县| 三明市| 延长县| 灌南县| 洛川县| 蒙自县| 盈江县| 璧山县| 湖南省|