袁曉惠,金宛霖,曹儒雅
(長春工業(yè)大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院, 吉林 長春 130012)
函數(shù)型數(shù)據(jù)最早由Ramsay J O[1]提出,常以曲線或者圖像形式出現(xiàn)。由于其無限維的特性,傳統(tǒng)的數(shù)據(jù)處理方法具有局限性,需要探索新的方法和模型對函數(shù)型數(shù)據(jù)進(jìn)行分析,其中最經(jīng)典的是函數(shù)型線性回歸模型。Ramsay J O等[2]使用函數(shù)型線性模型對加拿大的溫度和降雨量進(jìn)行了實證分析。劉鋒等[3]利用低階基函數(shù)的線性組合研究了函數(shù)型線性模型在肉類光譜數(shù)據(jù)上的應(yīng)用。Lin Z等[4]提出一種稱為“fSCAD”(functional SCAD)的方法。基于B-樣條,結(jié)合粗糙度懲罰和稀疏懲罰得到回歸參數(shù)的最小二乘估計。徐夢佳[5]構(gòu)造帶懲罰項的函數(shù)型多元線性回歸模型,并將該模型應(yīng)用到江西省的空氣質(zhì)量分析中。
對于協(xié)變量是函數(shù),響應(yīng)變量是二值標(biāo)量的情形,經(jīng)典的統(tǒng)計模型為函數(shù)型Logistic回歸模型。Cardot H等[6]分析了標(biāo)量響應(yīng)和函數(shù)預(yù)測之間的聯(lián)系,在光滑性假設(shè)的條件下,利用樣條逼近的懲罰似然來估計模型中的系數(shù)函數(shù)。Liu Y等[7]提出一種稀疏的函數(shù)型Logistic模型來預(yù)測抑郁癥患者的治療緩解狀態(tài),并將函數(shù)型數(shù)據(jù)分析應(yīng)用在重度抑郁這樣的疾病研究。王惠文等[8]研究含有函數(shù)型協(xié)變量的Logistic模型,結(jié)合B-樣條基函數(shù),得到該模型回歸參數(shù)的極大似然估計。
對于響應(yīng)變量是標(biāo)量,協(xié)變量是混合函數(shù)型數(shù)據(jù)的情形,最常見統(tǒng)計的模型是部分函數(shù)型線性模型。程麗娟[9]對部分函數(shù)型線性模型在上證指數(shù)中的應(yīng)用進(jìn)行了研究。張雪[10]采用預(yù)平滑的方法得到部分函數(shù)型線性模型中系數(shù)函數(shù)的估計。丁輝[11]研究了部分函數(shù)型線性模型的局部稀疏估計,采用最小二乘法,結(jié)合粗糙度懲罰和fSCAD方法分別估計函數(shù)型系數(shù)和標(biāo)量型系數(shù)。
梳理文獻(xiàn)發(fā)現(xiàn),盡管已有文獻(xiàn)給出了各種函數(shù)型回歸模型的研究和應(yīng)用,但對協(xié)變量同時包含函數(shù)型數(shù)據(jù)和數(shù)值型數(shù)據(jù)的Logistic模型研究還很少。文中針對響應(yīng)變量為二分類[12-13],協(xié)變量為混合函數(shù)型數(shù)據(jù)的情形,構(gòu)造Logistic回歸模型,并求得回歸參數(shù)的懲罰似然估計,最后將該模型應(yīng)用于實例數(shù)據(jù)中。
數(shù)據(jù)類型為{Yi,Xi(t),Zi},i=1,2,…,n,響應(yīng)變量Yi∈{0,1},協(xié)變量為混合函數(shù)型數(shù)據(jù)的Logistic回歸模型為
P(Yi=1|Xi(t),Zi)=
(1)
i=1,2,…,n,
式中:μ----截距項;
β(t)----系數(shù)函數(shù);
X1(t),X2(t),…,Xn(t)----定義在區(qū)間[0,T]上的函數(shù)型協(xié)變量;
Zi----p維向量,Zi=(Zi1,Zi2,…,Zip)T;
α----Zi的系數(shù),α=(α1,α2,…,αp)T。
以Logit為鏈接函數(shù),則式(1)可表示為
logitP(Yi=1|Xi(t),Zi)=
i=1,2,…,n。
該模型描述了標(biāo)量型響應(yīng)變量和混合型協(xié)變量之間的關(guān)系,根據(jù)式(1)求得該模型的對數(shù)似然函數(shù)為
(2)
由于函數(shù)型數(shù)據(jù)是一種新型高維數(shù)據(jù),需要對其進(jìn)行低維表示,常用的方法是選取基函數(shù)對其進(jìn)行基展開。在函數(shù)型數(shù)據(jù)分析中經(jīng)常使用的基函數(shù)有B-樣條基函數(shù)、傅里葉基函數(shù)、小波基函數(shù)等。文中選取B-樣條基函數(shù)對系數(shù)函數(shù)β(t)進(jìn)行基展開為
(3)
式中:B(t)----定義在區(qū)間[0,T]上的d次B-樣條基,B(t)=(B1(t),B2(t),…,BM+d(t))T;
b----對應(yīng)的系數(shù)向量,b=(b1,b2,…,bM+d)T。
在區(qū)間[0,T]上設(shè)置M+1個等距結(jié)點將區(qū)間分成M個等長度的子區(qū)間,其中等距結(jié)點為0=t0 令U是一個n×(M+d)的矩陣,其中 且 U=(U1,U2,…,Un)T,i=1,2,…,n。 結(jié)合式(2)和式(3),對數(shù)似然函數(shù)可改寫為 (4) 令V是一個(M+d)×(M+d)的矩陣,且 1≤i,j≤M+d,則粗糙度懲罰的懲罰函數(shù)可改寫為 γ‖Dmβ‖2=γbTVb。 (5) (6) 其中 令Wj是一個(M+d)×(M+d)的矩陣,具體形式為 采用Fan J等[15]提出局部平方近似(LQA)方法對式(6)中的稀疏懲罰項進(jìn)行近似。即給定初始值β(0),有 G(β(0)), (7) 其中 令 (8) 則有 (9) nγbTVb-nbTW(0)b- G(β(0))-nαTΣα。 可見β(t)的優(yōu)化問題等價于b的優(yōu)化問題。由于G(β(0))不依賴于β,因此其對b的優(yōu)化沒有影響,懲罰似然函數(shù)可改寫為 nγbTVb-nbTW(0)b-nαTΣα。 (10) 分別求得式(10)中b和α的一階導(dǎo)數(shù)和二階導(dǎo)數(shù)為: 2nγVb-2nW(0)b, (11) 2nγV-2nW(0), 2nΣα, 2nΣ。 1)通過下式獲得b和α的初始估計值 nγbTVb-nαTΣα; 2)通過式(11)在每一次迭代中更新b和α,同時也對W(0)和Σ進(jìn)行迭代更新 b(m+1)=b(m)- α(m+1)=α(m)- 通過模擬研究提出SLoS估計方法的數(shù)值性能,數(shù)據(jù)由以下模型產(chǎn)生 logitP(Yi=1|Xi(t),Zi)=μ+ (12) i=1,2,…,n。 協(xié)變量函數(shù)Xi(t)基于等式 Xi(t)=∑aijBj(t) 來生成,其中aij服從標(biāo)準(zhǔn)正態(tài)分布,每個Bj(t)是101個具有98個等距結(jié)點的5階B-樣條基函數(shù)。對于數(shù)值型協(xié)變量,令Z1,Z2,…,Z5為來自獨立同分布的正態(tài)分布的樣本,回歸系數(shù)α=c(0,2,0,1,0),且Xi(t)和Z1,Z2,…,Z5獨立。 在模擬中,令μ=0,考慮既包含非空子區(qū)間,又包含空子區(qū)間的β(t), 將上述假設(shè)代入模型(12)中,考慮了三種不同樣本容量N=100,450,1 000下的系數(shù)函數(shù)β(t)的估計。繪制樣本量N=1 000時,β(t)的SLoS估計曲線與β(t)的真實曲線,如圖1所示。 圖1 β(t)的SLoS估計曲線 β(t)的估計效果由空子區(qū)間和非空子區(qū)間上的積分平方誤差的大小來決定,分別定義如下: 式中:l0----β(t)的空子區(qū)間長度; l1----β(t)的非空子區(qū)間長度。 表1 β(t)的ISE0和ISE1 根據(jù)表1發(fā)現(xiàn),β(t)的空子區(qū)間ISE0和非空子區(qū)間ISE1都有隨著樣本量的增大而減小的趨勢。結(jié)合圖1可知,SLoS方法可以較準(zhǔn)確識別空子區(qū)間和非空子區(qū)間,是一種比較有效的估計方法。 α估計值的表現(xiàn)通過標(biāo)準(zhǔn)差、偏差和均方誤差體現(xiàn)。將α在樣本量為N=100,450,1 000時的標(biāo)準(zhǔn)差、偏差和均方誤差,分別匯總見表2~表4。 表2 α的標(biāo)準(zhǔn)差(×10-3) 表3 α的偏差(×10-4) 表4 α的均方偏差(×10-6) 由上述表中可以明顯看出,隨著樣本量的增大,α估計的標(biāo)準(zhǔn)差、偏差和均方誤差都在減小。綜上可知,函數(shù)型Logistic模型對系數(shù)函數(shù)β(t)和回歸系數(shù)α都給出了良好的估計,證明該模型是有效的。 數(shù)據(jù)來源于http://lib.stat.cmu.edu/datasets/tecator的Tecator數(shù)據(jù)集。該數(shù)據(jù)集包含以百分比為單位的215個碎肉樣本的脂肪含量、水含量和蛋白質(zhì)含量。光譜數(shù)據(jù)的每個樣本記錄了在波長為[850 nm,1 050 nm]上的100個觀測通道下的光譜吸光記錄。將該數(shù)據(jù)集中脂肪含量高于28%的54塊碎肉判定為具有一定肥胖特征的樣本,脂肪含量低于28%的161塊碎肉判定為不具有肥胖特征的樣本。從兩類樣本中各隨機(jī)抽取30條光譜曲線如圖2所示。 圖2 兩類樣本的部分光譜曲線 首先對數(shù)據(jù)進(jìn)行預(yù)處理,然后使用函數(shù)型Logistic模型進(jìn)行實例研究 logitP(Yi=1|Xi(t),Zi)=μ+ (13) 式中:Yi=1----樣本具有一定的肥胖特征; Xi(t)----光譜數(shù)據(jù); Z1----水的含量; Z2----蛋白質(zhì)的含量。 在對該實例進(jìn)行分析時,主要探究光譜數(shù)據(jù)的各段波長范圍是否對判定肥胖特征有顯著影響。在對碎肉樣本是否具有肥胖特征的研究中使用提出的SLoS估計方法分析上述問題,得到β(t)的估計曲線如圖3所示。 圖3 β(t)的估計曲線 由圖3可以發(fā)現(xiàn),波長在[960 nm,980 nm]時,光譜數(shù)據(jù)對肥胖特征的判定沒有影響。 面向協(xié)變量為函數(shù)型和數(shù)值型混合數(shù)據(jù)的二分類問題,提出一種基于Logit變換的函數(shù)型 Logistic回歸模型。通過數(shù)值模擬驗證了該方法的有效性,并將該模型應(yīng)用于Tecator數(shù)據(jù)集進(jìn)行實例分析。實證結(jié)果表明,波長范圍大約在[960 nm,980 nm]時,光譜吸收率對肥胖特征的判定沒有影響。文中僅考慮了函數(shù)型協(xié)變量為單一變量的回歸模型,針對多元函數(shù)型協(xié)變量的函數(shù)型Logistic回歸模型可作為后續(xù)研究。2.1 粗糙度懲罰
2.2 函數(shù)型SCAD (fSCAD)
2.3 結(jié)合粗糙度懲罰和稀疏懲罰的懲罰似然估計
3 數(shù)值模擬
4 實證分析
5 結(jié) 語