国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于懲罰分位數(shù)回歸的體脂率影響因素分析

2019-10-25 00:57:28李會賢袁曉惠周世權(quán)
關(guān)鍵詞:體脂率估計值位數(shù)

李會賢, 袁曉惠, 周世權(quán), 王 岳

(長春工業(yè)大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院, 吉林 長春 130012)

0 引 言

體脂率是指人體內(nèi)脂肪重量在人體總體重中所占的比例,又稱體脂百分?jǐn)?shù)[1]。體脂率是衡量人體健康程度的指標(biāo)之一,通過對體脂率的研究,可以科學(xué)指導(dǎo)膳食營養(yǎng),有效地控制體重和為醫(yī)學(xué)觀察提供客觀依據(jù)。關(guān)于體脂率的研究有很多,例如張弛[2]通過測量部分大學(xué)生的身體成分指標(biāo),探討了相關(guān)因素對體脂含量的影響。籍曉蕾[1]重點(diǎn)研究了城鎮(zhèn)成年人體脂率與體重指數(shù)(BMI)和腰臀比(WHR)的關(guān)系,并且分析了影響體脂變化的相關(guān)因素。

分位數(shù)回歸模型能夠提供全面的回歸信息以及關(guān)于響應(yīng)變量條件分布的更多信息,最早由Koenker等[3]提出,其后應(yīng)用于計量經(jīng)濟(jì)學(xué)、政治學(xué)、醫(yī)學(xué)等多個領(lǐng)域。Koenker等[4]基于分位數(shù)回歸探討了1965-1985年影響世界主要國家經(jīng)濟(jì)增長的因素。Chen[5]應(yīng)用分位數(shù)回歸模型研究了美國8 250名男性的身體質(zhì)量指數(shù)。李育安[6]介紹了分位數(shù)回歸的概念、算法,并將分位數(shù)回歸應(yīng)用于經(jīng)濟(jì)領(lǐng)域的恩格爾系數(shù)上,說明了經(jīng)濟(jì)發(fā)展與收入增加對生活消費(fèi)的影響程度,揭示了居民收入和食品支出之間的相關(guān)關(guān)系。謝蘭云[7]利用分位數(shù)回歸模型對我國R&D投入在不同分位點(diǎn)上影響因素的作用進(jìn)行了詳細(xì)研究。

當(dāng)模型中協(xié)變量維數(shù)過高時,直接的估計方法效率很低,需要進(jìn)行變量選擇。較為流行的是通過加入懲罰函數(shù)來進(jìn)行變量篩選。經(jīng)典的懲罰是Tibshiani[8]提出的Lasso,該方法也成功應(yīng)用到分位數(shù)回歸模型中。Fan等[9]提出了SCAD懲罰,Zhang[10]構(gòu)造了MCP的懲罰。Peng等[11]討論了分位數(shù)回歸下的變量選擇,提出了迭代坐標(biāo)下降(QICD)算法。

文中計劃通過懲罰分位數(shù)回歸模型來探討體脂率影響因素,重點(diǎn)探討各因素對體脂率的影響程度,以期達(dá)到控制體脂率,減少和預(yù)防因肥胖導(dǎo)致的疾病的目的。

1 懲罰分位數(shù)回歸模型

分位數(shù)回歸模型為

式中:yi----響應(yīng)變量;

xi----k維自向量,xi=(1,x1,…,xk-1);

βτ----分別對應(yīng)于x第τ分位數(shù)的回歸系數(shù);

ετ----隨機(jī)分位數(shù)誤差項(xiàng),ετ=ε-q(τ);

q(τ)----誤差的概率分布函數(shù)。

給定x時,響應(yīng)變量y的第τ條件分位數(shù)為

Qτ(y|x)=xTβτ。

參數(shù)β的估計值表達(dá)式[12]

式中:ρτ----損失函數(shù),ρτ=u(τ-I(u<0)),0<τ<1;

I(·)----示性函數(shù)。

當(dāng)k很大且參數(shù)β存在0時,可以通過構(gòu)建懲罰函數(shù)來提高估計效率。加入懲罰項(xiàng)后目標(biāo)函數(shù)表達(dá)式為

式中:λ----調(diào)節(jié)參數(shù),λ≥0;

pλ(|βj|)----針對β構(gòu)建的懲罰函數(shù)項(xiàng),j=1,2,…,k。

當(dāng)懲罰函數(shù)pλ(β)=λβ時,此為Lasso懲罰。

Fan等[9]在變量選擇方面展示了SCAD的Oracle性質(zhì)。對于θ>0,懲罰項(xiàng)表達(dá)式為

pλ(|β|)=λ|β|I(0≤ |β|<λ)+

I(λ≤ |β|≤aλ)+

式中:a,λ----調(diào)節(jié)參數(shù),此時為SCAD懲罰,a>2,λ>0。

對于a>1,懲罰項(xiàng)函數(shù)是

時,為MCP懲罰。

通過最小化懲罰函數(shù),可篩選變量,提高估計效率。

2 數(shù)值模擬

考慮分位數(shù)回歸模型

其中,x=(1,x1,…,x6),且x與誤差ετ均服從標(biāo)準(zhǔn)正態(tài)分布,ετ=ε-q(τ)為隨機(jī)分位數(shù)誤差,q(τ)表示誤差的概率分布函數(shù)。

給定樣本量n=100,β的真值βZ=(1,1,2,0,0,0,0),τ=0.5時,得到1 000個樣本數(shù)據(jù)集,進(jìn)行參數(shù)估計,并選取3種懲罰函數(shù)進(jìn)行變量選擇。

對于懲罰分位數(shù)回歸模型,根據(jù)Fan等的建議,我們設(shè)定a=3.7來減少計算負(fù)擔(dān)。列出了此模型是否加入懲罰的變量選擇結(jié)果,見表1。

其中β0表示截距項(xiàng)的參數(shù)值,β1,β2,…,β6表示各回歸系數(shù)值。

表1 不同方法的參數(shù)估計、偏度及均方誤

注:由于在施加懲罰的模型中對真值為0的參數(shù)進(jìn)行估計,并求得偏和均方誤無意義,因此此表僅保留β0、β1、β2的估計結(jié)果。

在3種懲罰函數(shù)的變量選擇中,SCAD和MCP懲罰運(yùn)行效率相同,均方誤最小,即估計效果最好。

給定樣本量n=20、50、100時,令τ=0.3、0.5、0.7,生成100個數(shù)據(jù)集。列出了變量選擇中參數(shù)估計的正確率與錯誤率,見表2。

表2 τ不同時3種變量選擇參數(shù)估計的正確率與錯誤率

注:“*”表示選擇最好的概率;Correct表示真值為0,估計值仍為0的概率;Right表示真值非0,估計值非0的概率; Wrong表示真值為0,估計值非0的概率; Error表示真值非0,估計值為0的概率。

由表2可以看出,在不同的τ分位點(diǎn)處,均是SCAD變量選擇的效果更好。

通過模擬實(shí)驗(yàn)發(fā)現(xiàn):

1)分位數(shù)回歸模型加入懲罰后,估計效率均有不同程度的提高,SCAD懲罰得到的估計效果最好。

2)比較變量選擇的參數(shù)估計正確率,SCAD懲罰所得結(jié)果更精確。

分位數(shù)回歸模型及其變量選擇以往已經(jīng)有許多人研究過,文中將此理論應(yīng)用到對體脂率影響因素的進(jìn)一步研究中。

3 實(shí)例分析

選擇美國2003—2004年NHANES共6 596名被測試人群的體脂率數(shù)據(jù)[14]。由于體脂率(Totalpf)受到多種因素的影響,所以因素的選擇至關(guān)重要。張弛[2]的研究提出:青春期開始以后,雄性和雌性激素分別有不同的作用,使男女體脂率出現(xiàn)差別,因此性別是影響體脂率的因素之一。區(qū)分性別的同時,年齡增長會導(dǎo)致人的體重和身高發(fā)生改變。體重發(fā)生變化,人體的各部分身體成分也在發(fā)生變化,從而影響體脂率。體脂率超標(biāo)可能會導(dǎo)致高血壓等疾病,所以也將秒內(nèi)血壓時間作為分析體脂率的一個因素。環(huán)境同樣是影響體脂率的重要因素,但由于環(huán)境數(shù)據(jù)的復(fù)雜性和收集的困難性,因此將年收入水平作為環(huán)境因素的代表量。

綜上所述,文中選定的影響因素為:性別(Gender,男性=1,女性=2)、年齡(Age)、年收入水平(aHI) 、秒內(nèi)血壓時間(BPTS)、體重(weight/kg)及身高(height/cm)。

采用的分位數(shù)回歸模型是:

Totalpf=β0+β1τGender+β2τAge+β3τaHI+

β4τBTS+β5τweight+β6τheight。

τ不同時的參數(shù)估計結(jié)果見表3。

表3 τ不同時的參數(shù)估計結(jié)果及P值

體脂率的分位數(shù)回歸模型在不同的τ分位點(diǎn)時,秒內(nèi)血壓時間對應(yīng)的P值大于0.05,接受原假設(shè),即參數(shù)不顯著,年收入水平對體脂率的影響同樣可以忽略不計,而性別、體重與身高的影響較大,身高是對體脂率呈負(fù)影響。

此模型系數(shù)在τ=0.1,0.3,0.5,0.7,0.9時的估計值分別如圖1~圖6所示。

通過圖1和圖2可以得出,性別和年齡在不同τ分位點(diǎn)對體脂率都是正影響,且體脂率水平較低的人群中受到性別、年齡的影響程度較大,而體脂率較高人群受兩因素的影響程度會低很多。

圖1 Gender在τ不同時的參數(shù)估計值

圖2 Age在τ不同時的參數(shù)估計值

圖3 aHI在τ不同時的參數(shù)估計值

圖4 BPTS在τ不同時的參數(shù)估計值

通過圖3和圖4可以得出,年收入水平和秒內(nèi)血壓時間對體脂率的影響是最小的,幾乎可以忽略不計。

圖5 weight在τ不同時的參數(shù)估計值

圖6 height在τ不同時的參數(shù)估計值

通過圖5和圖6可以得出,體重系數(shù)在不同分位點(diǎn)處均為正影響,體脂率偏高的人群受體重因素的影響程度會較大,這也是人們的一個普遍認(rèn)知,而身高對體脂率呈負(fù)影響,體脂率偏低的人群受到身高的影響更小。

體脂率數(shù)據(jù)在不同分位點(diǎn)進(jìn)行變量選擇時各參數(shù)估計結(jié)果見表4。

不同分位點(diǎn)下,Lasso、SCAD和MCP三種變量選擇方法下,年收入水平對應(yīng)的參數(shù)均為0,即年收入水平對體脂率沒有影響,性別、年齡、體重與體脂率均呈正相關(guān),而身高呈負(fù)相關(guān)。τ=0.5和τ=0.9較τ=0.1時,同樣篩選出性別系數(shù)的參數(shù)為0,即對體脂率沒有影響。偏瘦和偏胖人群中,秒內(nèi)血壓時間和身高與體脂率呈負(fù)相關(guān);中等體脂率的人群中,秒內(nèi)血壓時間對體脂率是正影響,體重對體脂率的影響最大。

表4 Lasso、SCAD、MCP變量選擇分位數(shù)回歸模型的參數(shù)估計結(jié)果

通過實(shí)例研究發(fā)現(xiàn):

1)體脂率的分位數(shù)回歸模型中,秒內(nèi)血壓時間參數(shù)不顯著,體脂率主要受到性別、體重與身高的影響。

2)變量選擇過程中,年收入水平與秒內(nèi)血壓時間變量對體脂率幾乎沒有影響,得到與參數(shù)估計過程同樣的結(jié)論。

4 結(jié) 語

由模擬實(shí)驗(yàn)和實(shí)例研究發(fā)現(xiàn):通過懲罰分位數(shù)回歸模型的數(shù)值模擬,SCAD懲罰得到的結(jié)果更精確,即估計效率較高;體脂率的分位數(shù)回歸模型中,除年收入水平和秒內(nèi)血壓時間外其他參數(shù)均顯著;性別、年齡、體重與身高對體脂率有較大影響,體脂率較高人群主要受到年齡和體重的影響。

如果想要保持體脂率達(dá)到適中水平并且維持健康,建議保持正常的體重,多鍛煉身體,合理飲食。

猜你喜歡
體脂率估計值位數(shù)
上海市7~8歲兒童膳食纖維攝入量與其體脂率的關(guān)系
五次完全冪的少位數(shù)三進(jìn)制展開
一道樣本的數(shù)字特征與頻率分布直方圖的交匯問題
不胖不瘦,需要運(yùn)動鍛煉嗎?
祝您健康(2018年12期)2018-11-27 02:30:34
統(tǒng)計信息
2018年4月世界粗鋼產(chǎn)量表(續(xù))萬噸
體脂率下降5%后,你的身體會發(fā)生怎樣的變化
海外星云(2017年18期)2017-09-26 19:59:26
我渴望一個健康標(biāo)準(zhǔn)身材
遙感衛(wèi)星CCD相機(jī)量化位數(shù)的選擇
“判斷整數(shù)的位數(shù)”的算法分析
河南科技(2014年11期)2014-02-27 14:09:41
乐陵市| 巴林左旗| 舞钢市| 兴义市| 枣庄市| 蓬莱市| 黎城县| 开远市| 连江县| 岑巩县| 太仆寺旗| 外汇| 怀宁县| 获嘉县| 永川市| 大理市| 汾西县| 福安市| 江陵县| 博兴县| 揭阳市| 开封县| 龙南县| 永济市| 大名县| 靖边县| 黄大仙区| 军事| 大足县| 虹口区| 凤冈县| 安丘市| 柯坪县| 泽库县| 新巴尔虎左旗| 石景山区| 嘉荫县| 灌南县| 双鸭山市| 高州市| 安多县|