雷馨鈺,徐嘉璐
(蘭州財經(jīng)大學(xué),甘肅 蘭州 730101)
在信息爆炸的時代,高維數(shù)據(jù)的產(chǎn)生便于研究者從多個維度去分析問題,但同時,傳統(tǒng)的回歸模型就不能滿足高維數(shù)據(jù)的需要,故近年來,半?yún)?shù)回歸模型的產(chǎn)生很好地解決了模型構(gòu)造問題。Cox 模型是由英國統(tǒng)計學(xué)家D.R.Cox 于1972 年提出的一種半?yún)?shù)回歸模型[1]。該模型以生存結(jié)局和生存時間為因變量,引入基線風(fēng)險函數(shù),對實際問題中的無規(guī)律分布、刪失數(shù)據(jù)等問題可以很好地處理。該模型自問世以來,在醫(yī)學(xué)隨訪研究中得到廣泛的應(yīng)用,也是迄今生存分析中應(yīng)用最多的多因素分析方法。
然而,在實踐中,通常很少或沒有先驗信息表明協(xié)變量的影響呈線性形式或?qū)儆谌魏纹渌邢蘧S參數(shù)族。因此需要通過使用一類更靈活的非參數(shù)模型,例如加性Cox 模型,加性Cox 模型中分量函數(shù)的引入顯著增加了模型的靈活性,因此,大量學(xué)者對加性Cox 模型進(jìn)行了研究。
Tibshirani(1997)首次提出在Cox 模型中使用Lasso進(jìn)行變量選擇,F(xiàn)an 和Li(2002a,2002b)提出在Cox模型中使用平滑剪裁絕對偏差(SCAD)懲罰進(jìn)行變量選擇和估計,Huang(1999)利用多項式樣條研究了部分線性可加Cox 模型下最大偏似然估計的性質(zhì),但是,上述作者僅僅研究了加性模型維數(shù)p 固定時的情況。對于稀疏加性Cox 模型,Lemler(2012)考慮了Cox 模型中基線風(fēng)險函數(shù)和回歸系數(shù)的聯(lián)合估計,但未考慮由分量函數(shù)和基線函數(shù)的線性組合引起的近似誤。基于高維數(shù)據(jù)與生存分析模型所具有的特殊性,傳統(tǒng)的變量選擇方法就不再適用,這是由于傳統(tǒng)的變量選擇方法不滿足變量選擇應(yīng)該具有的準(zhǔn)確性、可解釋性、穩(wěn)定性等顯著特點。因此需要對加性Cox 模型在高維情況下的變量選擇進(jìn)行系統(tǒng)分析,以便高效處理高維數(shù)據(jù)下的變量選擇問題。
總體上看,在高維數(shù)據(jù)中,使用變量選擇方法來篩選出數(shù)據(jù)中的重要信息是未來發(fā)展的趨勢。大量學(xué)者基于懲罰思想對有關(guān)模型的變量選擇進(jìn)行不斷地改進(jìn),常見的變量選擇的方法有嶺回歸、Lasso、SCAD、MCP[2]等。但往往有些變量選擇方法的“過度壓縮”會導(dǎo)致重要信息的損失,從而損失模型估計的精確度。故如何使模型在變量選擇后仍保留更多的有用信息也是研究者們大量關(guān)注的問題。
傳統(tǒng)Lasso 方法對不同系數(shù)進(jìn)行相同程度的加權(quán),造成過度壓縮絕對值較大的參數(shù)的情況,得到過于稀疏的模型,而且Lasso 方法是在單個變量的基礎(chǔ)上對模型進(jìn)行特征選擇,不具備處理具有組特性的數(shù)據(jù)。Yuan(2006)提出了組Lasso(Group Lasso)方法,組Lasso是Lasso 的擴展,它的不同之處是對一組系數(shù)向量添加約束,因此克服了Lasso 方法無法實現(xiàn)從組的水平進(jìn)行特征選擇的這一缺點。組Lasso 在各個領(lǐng)域中都被廣泛使用:
在醫(yī)學(xué)方面,Ma(2007)將有監(jiān)督的組Lasso 方法用于基因選擇和模型預(yù)測,并通過組Lasso 方法選擇集群,從基因簇中找到重要的基因?;谧兞窟x擇特征,Kim(2012)將組Lasso 方法用于生存數(shù)據(jù)的分析中,該方法可以有效地結(jié)合臨床和基因組協(xié)變量,并在實際微陣列中進(jìn)行了實驗。
在機器學(xué)習(xí)方面,Yeh(2014)將組Lasso 多核學(xué)習(xí)方法應(yīng)用于異構(gòu)特征選擇,并證明了在選擇緊湊特征子集方面是有效的。在金融風(fēng)險投資方面,Qi 等(2021)利用非負(fù)稀疏組Lasso 方法[3],用于成分股的選擇和權(quán)重系數(shù)的估計。
針對現(xiàn)有文獻(xiàn)中存在的問題,本文使用了一類正則化方法,通過對對數(shù)偏似然函數(shù)施加群組懲罰,并基于一些溫和的假設(shè)條件可以同時對高維Cox 加性模型進(jìn)行結(jié)構(gòu)識別,變量選擇及其估計。特別地,我們將模型的結(jié)構(gòu)識別和變量選擇問題轉(zhuǎn)化為一個對于分量函數(shù)的判別問題,通過構(gòu)建正交B 樣條基可以將這些問題參數(shù)化,并通過快坐標(biāo)最優(yōu)下降法lv(2017)[4]對提出的變量選擇方法進(jìn)行識別。
一般來說,醫(yī)學(xué)中生存分析的研究應(yīng)用在觀察時間與事件發(fā)生時間不一致的情況,它將事件發(fā)生的結(jié)果與觀察時間兩因素結(jié)合起來,研究生存函數(shù)與斜變量之間的關(guān)系,可以分別對完全、不完全數(shù)據(jù)進(jìn)行分析,通常可用生存率、生存曲線等指標(biāo)來估計生存時間。但當(dāng)生存時間的分布過于復(fù)雜時,簡單的計算指標(biāo)不能滿足現(xiàn)實的需要,而Cox 比例風(fēng)險模型就可以很好地解決上述問題。
Cox 模型不直接考察生存函數(shù)與斜變量之間的關(guān)系,而是用風(fēng)險函數(shù)作為因變量,將參數(shù)與非參數(shù)結(jié)合,排除混雜因素影響,篩選出影響生存時間的因素。但在Cox 模型中,當(dāng)引進(jìn)的斜變量對時間的響應(yīng)較為敏感時,偏似然函數(shù)損失的信息較多。故在本文中對帶有時間變量的Cox 模型進(jìn)行假設(shè)。
由lv(2017)知稀疏加性Cox 模型如下:
其中,Yi(t)為關(guān)于i 的主觀時變風(fēng)險過程,為參數(shù)部分,f*(Xi(t))為具有P 維斜變量的真實分量函數(shù),為非參數(shù)部分。Λ0(t)為未知的基線累積函數(shù)。并且針對稀疏加性cox 模型要滿足p≥n。但在實際中關(guān)于f(x)的重要協(xié)變量相對較少,所以,針對式(1)中的分量函數(shù)可以表示為:
其中,中的元素都為單變量,并且??{1,2,...,p}是基底|?|=d0的子集,滿足d0<<p。
本文針對模型,提出主要應(yīng)用B樣條[5]的方法對未知的分量函數(shù)進(jìn)行樣條基函數(shù)展開,從而進(jìn)行后續(xù)估計。在樣條估計中,主要利用樣條基函數(shù)的線性組合來逼近未知的光滑函數(shù),這種組合可以擬合不同形狀或分布的數(shù)據(jù),因此,為了使得B 樣條估計方法可以對更復(fù)雜的模型進(jìn)行逼近求解,對于合適的基函數(shù)的選取也是我們值得關(guān)心的問題。
假定Xj(t)在任意t∈[0,T]在區(qū)間[a,b]上取值,且j=1,2,…p,假定多項式空間Sn中有K個點,滿足a=ξ0<ξ1<…ξK+1=b,則K個點就為多項式空間Sn中的K個節(jié)點。用IKq表示為區(qū)間[a,b]上的子集,建立IKq=[ξq,ξq+1],q=0,1,…K,其中K滿足K=K(n)=nv0<v<1/2 并使得max1≤q≤K+1|ξq-ξq+1|=O(n-v)成立。
此時定義Sn為滿足以下條件的多項式樣條空間:(1)IKq為Sn的子集,且1≤q≤K;(2)對于?≥2 與0≤?≤?-2,函數(shù)s是? 次連續(xù)可微的。
由上述可知,在空間Sn上,當(dāng)1<k<mn,mn=K(n)+l時存在一個B 樣條基k使得對于任意fnj∈Sn都存在:
基于光滑性假定,基函數(shù)fnj(z)可以逼近Sn,在上述近似下,每個分參數(shù)分量都可以表示為樣條基函數(shù)的線性組合,則通過B 樣條可以將模型中未知的分量選擇問題變成了線性組合中選擇系數(shù)組的問題,便于之后的估計。
目標(biāo)函數(shù):
本節(jié)對整合后的加性Cox 模型進(jìn)行蒙特卡洛模擬分析,因高維數(shù)據(jù)的特殊性,分別考慮當(dāng)P=10 和P=50時的擬合情況。
其中,假定在上式中前三個變量當(dāng)j=1,2,3 時定義為f1(x)=sinx+2,f2(x)=sin(2x)2+12,f3(x)=10(x-2)2,當(dāng)j=4,…p定義為fj(x)=0,且協(xié)變量和殘差都滿足均勻分布。
情形1:當(dāng)P=10 時,分別取n=100、200、500??傻帽?:
表1
情形2:當(dāng)P=50 時,分別取n=100、200、500??傻帽?:
表2
由情形1 和情形2 可知,隨著維數(shù)增加,誤差會增大,但數(shù)值普遍較小,可知估計量有良好的性能。
從大量數(shù)據(jù)中選擇出重要變量對于模擬研究及探尋事物變化的本質(zhì)有著重要的意義,因此變量選擇方法在高維數(shù)據(jù)中就顯得尤為重要。在本文中,考慮加性Cox 模型在高維數(shù)據(jù)中的情況,通過B 樣條曲線擬合模型,將函數(shù)中的未知函數(shù)用樣條基函數(shù)展開,結(jié)合具有Oracle 性質(zhì)的組Lasso 懲罰方法,建立了更完善的加性Cox 模型的變量選擇過程。后續(xù)可考慮在更高維度下的變量選擇問題。