李會賢, 袁曉惠, 周世權(quán), 王 岳
(長春工業(yè)大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院, 吉林 長春 130012)
體脂率是指人體內(nèi)脂肪重量在人體總體重中所占的比例,又稱體脂百分?jǐn)?shù)[1]。體脂率是衡量人體健康程度的指標(biāo)之一,通過對體脂率的研究,可以科學(xué)指導(dǎo)膳食營養(yǎng),有效地控制體重和為醫(yī)學(xué)觀察提供客觀依據(jù)。關(guān)于體脂率的研究有很多,例如張弛[2]通過測量部分大學(xué)生的身體成分指標(biāo),探討了相關(guān)因素對體脂含量的影響。籍曉蕾[1]重點(diǎn)研究了城鎮(zhèn)成年人體脂率與體重指數(shù)(BMI)和腰臀比(WHR)的關(guān)系,并且分析了影響體脂變化的相關(guān)因素。
分位數(shù)回歸模型能夠提供全面的回歸信息以及關(guān)于響應(yīng)變量條件分布的更多信息,最早由Koenker等[3]提出,其后應(yīng)用于計量經(jīng)濟(jì)學(xué)、政治學(xué)、醫(yī)學(xué)等多個領(lǐng)域。Koenker等[4]基于分位數(shù)回歸探討了1965-1985年影響世界主要國家經(jīng)濟(jì)增長的因素。Chen[5]應(yīng)用分位數(shù)回歸模型研究了美國8 250名男性的身體質(zhì)量指數(shù)。李育安[6]介紹了分位數(shù)回歸的概念、算法,并將分位數(shù)回歸應(yīng)用于經(jīng)濟(jì)領(lǐng)域的恩格爾系數(shù)上,說明了經(jīng)濟(jì)發(fā)展與收入增加對生活消費(fèi)的影響程度,揭示了居民收入和食品支出之間的相關(guān)關(guān)系。謝蘭云[7]利用分位數(shù)回歸模型對我國R&D投入在不同分位點(diǎn)上影響因素的作用進(jìn)行了詳細(xì)研究。
當(dāng)模型中協(xié)變量維數(shù)過高時,直接的估計方法效率很低,需要進(jìn)行變量選擇。較為流行的是通過加入懲罰函數(shù)來進(jìn)行變量篩選。經(jīng)典的懲罰是Tibshiani[8]提出的Lasso,該方法也成功應(yīng)用到分位數(shù)回歸模型中。Fan等[9]提出了SCAD懲罰,Zhang[10]構(gòu)造了MCP的懲罰。Peng等[11]討論了分位數(shù)回歸下的變量選擇,提出了迭代坐標(biāo)下降(QICD)算法。
文中計劃通過懲罰分位數(shù)回歸模型來探討體脂率影響因素,重點(diǎn)探討各因素對體脂率的影響程度,以期達(dá)到控制體脂率,減少和預(yù)防因肥胖導(dǎo)致的疾病的目的。
分位數(shù)回歸模型為
式中:yi----響應(yīng)變量;
xi----k維自向量,xi=(1,x1,…,xk-1);
βτ----分別對應(yīng)于x第τ分位數(shù)的回歸系數(shù);
ετ----隨機(jī)分位數(shù)誤差項(xiàng),ετ=ε-q(τ);
q(τ)----誤差的概率分布函數(shù)。
給定x時,響應(yīng)變量y的第τ條件分位數(shù)為
Qτ(y|x)=xTβτ。
參數(shù)β的估計值表達(dá)式[12]
式中:ρτ----損失函數(shù),ρτ=u(τ-I(u<0)),0<τ<1;
I(·)----示性函數(shù)。
當(dāng)k很大且參數(shù)β存在0時,可以通過構(gòu)建懲罰函數(shù)來提高估計效率。加入懲罰項(xiàng)后目標(biāo)函數(shù)表達(dá)式為
式中:λ----調(diào)節(jié)參數(shù),λ≥0;
pλ(|βj|)----針對β構(gòu)建的懲罰函數(shù)項(xiàng),j=1,2,…,k。
當(dāng)懲罰函數(shù)pλ(β)=λβ時,此為Lasso懲罰。
Fan等[9]在變量選擇方面展示了SCAD的Oracle性質(zhì)。對于θ>0,懲罰項(xiàng)表達(dá)式為
pλ(|β|)=λ|β|I(0≤ |β|<λ)+
I(λ≤ |β|≤aλ)+
式中:a,λ----調(diào)節(jié)參數(shù),此時為SCAD懲罰,a>2,λ>0。
對于a>1,懲罰項(xiàng)函數(shù)是
時,為MCP懲罰。
通過最小化懲罰函數(shù),可篩選變量,提高估計效率。
考慮分位數(shù)回歸模型
其中,x=(1,x1,…,x6),且x與誤差ετ均服從標(biāo)準(zhǔn)正態(tài)分布,ετ=ε-q(τ)為隨機(jī)分位數(shù)誤差,q(τ)表示誤差的概率分布函數(shù)。
給定樣本量n=100,β的真值βZ=(1,1,2,0,0,0,0),τ=0.5時,得到1 000個樣本數(shù)據(jù)集,進(jìn)行參數(shù)估計,并選取3種懲罰函數(shù)進(jìn)行變量選擇。
對于懲罰分位數(shù)回歸模型,根據(jù)Fan等的建議,我們設(shè)定a=3.7來減少計算負(fù)擔(dān)。列出了此模型是否加入懲罰的變量選擇結(jié)果,見表1。
其中β0表示截距項(xiàng)的參數(shù)值,β1,β2,…,β6表示各回歸系數(shù)值。
表1 不同方法的參數(shù)估計、偏度及均方誤
注:由于在施加懲罰的模型中對真值為0的參數(shù)進(jìn)行估計,并求得偏和均方誤無意義,因此此表僅保留β0、β1、β2的估計結(jié)果。
在3種懲罰函數(shù)的變量選擇中,SCAD和MCP懲罰運(yùn)行效率相同,均方誤最小,即估計效果最好。
給定樣本量n=20、50、100時,令τ=0.3、0.5、0.7,生成100個數(shù)據(jù)集。列出了變量選擇中參數(shù)估計的正確率與錯誤率,見表2。
表2 τ不同時3種變量選擇參數(shù)估計的正確率與錯誤率
注:“*”表示選擇最好的概率;Correct表示真值為0,估計值仍為0的概率;Right表示真值非0,估計值非0的概率; Wrong表示真值為0,估計值非0的概率; Error表示真值非0,估計值為0的概率。
由表2可以看出,在不同的τ分位點(diǎn)處,均是SCAD變量選擇的效果更好。
通過模擬實(shí)驗(yàn)發(fā)現(xiàn):
1)分位數(shù)回歸模型加入懲罰后,估計效率均有不同程度的提高,SCAD懲罰得到的估計效果最好。
2)比較變量選擇的參數(shù)估計正確率,SCAD懲罰所得結(jié)果更精確。
分位數(shù)回歸模型及其變量選擇以往已經(jīng)有許多人研究過,文中將此理論應(yīng)用到對體脂率影響因素的進(jìn)一步研究中。
選擇美國2003—2004年NHANES共6 596名被測試人群的體脂率數(shù)據(jù)[14]。由于體脂率(Totalpf)受到多種因素的影響,所以因素的選擇至關(guān)重要。張弛[2]的研究提出:青春期開始以后,雄性和雌性激素分別有不同的作用,使男女體脂率出現(xiàn)差別,因此性別是影響體脂率的因素之一。區(qū)分性別的同時,年齡增長會導(dǎo)致人的體重和身高發(fā)生改變。體重發(fā)生變化,人體的各部分身體成分也在發(fā)生變化,從而影響體脂率。體脂率超標(biāo)可能會導(dǎo)致高血壓等疾病,所以也將秒內(nèi)血壓時間作為分析體脂率的一個因素。環(huán)境同樣是影響體脂率的重要因素,但由于環(huán)境數(shù)據(jù)的復(fù)雜性和收集的困難性,因此將年收入水平作為環(huán)境因素的代表量。
綜上所述,文中選定的影響因素為:性別(Gender,男性=1,女性=2)、年齡(Age)、年收入水平(aHI) 、秒內(nèi)血壓時間(BPTS)、體重(weight/kg)及身高(height/cm)。
采用的分位數(shù)回歸模型是:
Totalpf=β0+β1τGender+β2τAge+β3τaHI+
β4τBTS+β5τweight+β6τheight。
τ不同時的參數(shù)估計結(jié)果見表3。
表3 τ不同時的參數(shù)估計結(jié)果及P值
體脂率的分位數(shù)回歸模型在不同的τ分位點(diǎn)時,秒內(nèi)血壓時間對應(yīng)的P值大于0.05,接受原假設(shè),即參數(shù)不顯著,年收入水平對體脂率的影響同樣可以忽略不計,而性別、體重與身高的影響較大,身高是對體脂率呈負(fù)影響。
此模型系數(shù)在τ=0.1,0.3,0.5,0.7,0.9時的估計值分別如圖1~圖6所示。
通過圖1和圖2可以得出,性別和年齡在不同τ分位點(diǎn)對體脂率都是正影響,且體脂率水平較低的人群中受到性別、年齡的影響程度較大,而體脂率較高人群受兩因素的影響程度會低很多。
圖1 Gender在τ不同時的參數(shù)估計值
圖2 Age在τ不同時的參數(shù)估計值
圖3 aHI在τ不同時的參數(shù)估計值
圖4 BPTS在τ不同時的參數(shù)估計值
通過圖3和圖4可以得出,年收入水平和秒內(nèi)血壓時間對體脂率的影響是最小的,幾乎可以忽略不計。
圖5 weight在τ不同時的參數(shù)估計值
圖6 height在τ不同時的參數(shù)估計值
通過圖5和圖6可以得出,體重系數(shù)在不同分位點(diǎn)處均為正影響,體脂率偏高的人群受體重因素的影響程度會較大,這也是人們的一個普遍認(rèn)知,而身高對體脂率呈負(fù)影響,體脂率偏低的人群受到身高的影響更小。
體脂率數(shù)據(jù)在不同分位點(diǎn)進(jìn)行變量選擇時各參數(shù)估計結(jié)果見表4。
不同分位點(diǎn)下,Lasso、SCAD和MCP三種變量選擇方法下,年收入水平對應(yīng)的參數(shù)均為0,即年收入水平對體脂率沒有影響,性別、年齡、體重與體脂率均呈正相關(guān),而身高呈負(fù)相關(guān)。τ=0.5和τ=0.9較τ=0.1時,同樣篩選出性別系數(shù)的參數(shù)為0,即對體脂率沒有影響。偏瘦和偏胖人群中,秒內(nèi)血壓時間和身高與體脂率呈負(fù)相關(guān);中等體脂率的人群中,秒內(nèi)血壓時間對體脂率是正影響,體重對體脂率的影響最大。
表4 Lasso、SCAD、MCP變量選擇分位數(shù)回歸模型的參數(shù)估計結(jié)果
通過實(shí)例研究發(fā)現(xiàn):
1)體脂率的分位數(shù)回歸模型中,秒內(nèi)血壓時間參數(shù)不顯著,體脂率主要受到性別、體重與身高的影響。
2)變量選擇過程中,年收入水平與秒內(nèi)血壓時間變量對體脂率幾乎沒有影響,得到與參數(shù)估計過程同樣的結(jié)論。
由模擬實(shí)驗(yàn)和實(shí)例研究發(fā)現(xiàn):通過懲罰分位數(shù)回歸模型的數(shù)值模擬,SCAD懲罰得到的結(jié)果更精確,即估計效率較高;體脂率的分位數(shù)回歸模型中,除年收入水平和秒內(nèi)血壓時間外其他參數(shù)均顯著;性別、年齡、體重與身高對體脂率有較大影響,體脂率較高人群主要受到年齡和體重的影響。
如果想要保持體脂率達(dá)到適中水平并且維持健康,建議保持正常的體重,多鍛煉身體,合理飲食。