定量變量的分級(jí)方法對(duì)logistic模型影響的研究*

2014-04-03 07:49周凌峰安勝利

中國(guó)衛(wèi)生統(tǒng)計(jì) 2014年4期

周凌峰安勝利

logistic回歸分析是用于篩選影響因素及建立預(yù)測(cè)模型的最常用的方法之一，它的綜合預(yù)報(bào)效果具有很好的穩(wěn)健性和非模糊性[1-2]。在logistic回歸分析中，常會(huì)用到三種自變量類型：定量變量、等級(jí)變量及分類變量，為使得OR值具有更明確的臨床意義或便于預(yù)測(cè)模型的實(shí)際應(yīng)用，研究者[3-5]常將有統(tǒng)計(jì)學(xué)意義的定量變量轉(zhuǎn)化為兩個(gè)或兩個(gè)以上等級(jí)，并賦予相應(yīng)的分?jǐn)?shù)。但目前等級(jí)劃分方法大多是由研究者主觀決定，若分界點(diǎn)選擇不當(dāng)，其模型預(yù)測(cè)效果便會(huì)受到影響，甚至?xí)绊懙窖芯拷Y(jié)論的正確性。本研究擬在計(jì)算機(jī)上以常用的非條件二分類logistic回歸分析為例進(jìn)行模擬研究，在不同的參數(shù)條件下，對(duì)有統(tǒng)計(jì)學(xué)意義的自變量進(jìn)行不同數(shù)量、不同方式的等級(jí)劃分，建立預(yù)測(cè)模型，考察其預(yù)測(cè)效果的變化規(guī)律，并對(duì)所得結(jié)論以實(shí)例進(jìn)行考核，以期發(fā)現(xiàn)各種參數(shù)條件下合理的等級(jí)劃分方法。為建立更準(zhǔn)確、實(shí)用的logistic預(yù)測(cè)模型提供可靠的變量轉(zhuǎn)化依據(jù)。

方法

為了便于解釋，本研究將模擬數(shù)據(jù)簡(jiǎn)化設(shè)計(jì)為僅有一個(gè)自變量X(連續(xù)變量)及一個(gè)因變量Y(0-1變量)，然后觀測(cè)各種轉(zhuǎn)換方法對(duì)預(yù)測(cè)模型的影響規(guī)律，進(jìn)而延伸說(shuō)明多個(gè)自變量情況下該指標(biāo)的變化狀況。

1.自變量

利用R語(yǔ)言，模擬產(chǎn)生單個(gè)自變量，考慮三種分布狀況，即標(biāo)準(zhǔn)正態(tài)分布、正偏態(tài)分布、負(fù)偏態(tài)分布。標(biāo)準(zhǔn)正態(tài)分布使用rnorm( )語(yǔ)句直接生成。正(負(fù))偏態(tài)則采取以下方法產(chǎn)生。以正偏態(tài)為例，生成1000例標(biāo)準(zhǔn)正態(tài)分布數(shù)據(jù)，并截掉大于0.8的部分，同時(shí)再生成1000例0至5.5服從均勻分布的數(shù)據(jù)，合并二者后，從中選取1500例，最后得到近似正偏態(tài)的數(shù)據(jù)。負(fù)偏態(tài)自變量采取類似方法。

2.因變量

為了保證原始數(shù)據(jù)中自變量與因變量經(jīng)logistic回歸分析具有一定的聯(lián)系，因變量可利用自變量通過(guò)公式產(chǎn)生；鑒于因變量0、1的分布在實(shí)際數(shù)據(jù)中存在不同，我們通過(guò)調(diào)整OR值來(lái)改變Y的分布。方法如下：

利用logistic回歸模型計(jì)算陽(yáng)性事件發(fā)生概率P：

(1)

式中e為隨機(jī)誤差，服從標(biāo)準(zhǔn)正態(tài)分布。

假定β0為任意已知常數(shù)，如0.2，取βm為log(OR)，并取多種OR值情況(如OR=1.5～5,以0.5為間隔)。當(dāng)確定某OR值后，便可通過(guò)上式計(jì)算相應(yīng)的陽(yáng)性事件發(fā)生概率P，對(duì)應(yīng)的因變量Y則由0-1二項(xiàng)分布函數(shù)計(jì)算得到。

3.確定樣本含量

對(duì)上述產(chǎn)生的數(shù)據(jù)逐步增加樣本含量，并觀察自變量轉(zhuǎn)換后，其與因變量的關(guān)系變化，當(dāng)這種關(guān)系穩(wěn)定時(shí)所對(duì)應(yīng)的樣本含量即為所需模擬的樣本含量大小。經(jīng)測(cè)試，樣本量為1500時(shí)滿足上述要求。

4.自變量分級(jí)方法

共考慮三種分級(jí)數(shù)，即二級(jí)、三級(jí)、四級(jí)分類。

(1)二級(jí)分類

均數(shù)分級(jí)：以均數(shù)為分割點(diǎn)分為兩級(jí)；中位數(shù)分級(jí)：以中位數(shù)為分割點(diǎn)分為兩級(jí)；ROC分級(jí)：對(duì)自變量與因變量做ROC曲線，取約登指數(shù)最大的自變量值為分割點(diǎn)。分別賦為0、1。

(2)三級(jí)分類

(3)四級(jí)分類

百分位四等分：將自變量從小到大排序，并依據(jù)總的樣本量平均分為四級(jí)，各級(jí)觀察單位數(shù)約占總樣本量的25%；極差四等分分級(jí)：自變量最大值減最小值所得區(qū)間平均分為四份，分別賦為0、1、2、3。

5.評(píng)價(jià)指標(biāo)

從現(xiàn)行的一些研究來(lái)看，學(xué)者們[6-9]較為關(guān)注兩個(gè)方面，一方面是分級(jí)后的自變量對(duì)因變量的預(yù)測(cè)準(zhǔn)確程度；另一方面，分級(jí)后變量在回歸中的擬合效果。對(duì)于前者，人們普遍采用ROC曲線下面積AUC[10]來(lái)衡量其優(yōu)劣程度，本研究亦采用AUC作為其中一種評(píng)價(jià)指標(biāo)。在第二方面，本研究擬采用AIC信息量[11]。

在各種參數(shù)條件下(OR=1.5～5,以0.5為間隔)，對(duì)模擬數(shù)據(jù)(分別對(duì)不分級(jí)、各分級(jí)情形)計(jì)算AUC，同時(shí)再進(jìn)行l(wèi)ogistic回歸計(jì)算AIC信息量，重復(fù)模擬1000次，并計(jì)算上述兩指標(biāo)的平均值及標(biāo)準(zhǔn)差。

6.模擬次數(shù)確定

不同分布、不同OR值下，當(dāng)AUC、AIC均值達(dá)到穩(wěn)定時(shí)所對(duì)應(yīng)的模擬次數(shù)即為所需模擬的總次數(shù)。經(jīng)過(guò)測(cè)試，本研究各種情況下模擬次數(shù)取1000次即可達(dá)到穩(wěn)定。

結(jié) 果

正態(tài)和部分正偏態(tài)分布模擬結(jié)果見(jiàn)圖1-圖5。

圖1 正態(tài)分布分二級(jí)

1.二級(jí)分級(jí)

正態(tài)分布下均數(shù)與中位數(shù)分級(jí)結(jié)果基本沒(méi)有區(qū)別(理論上也應(yīng)如此)。分級(jí)首選為ROC分級(jí)，其次為均數(shù)或中位數(shù)分級(jí)。

偏態(tài)分布時(shí)，首選ROC分級(jí)，其余方法AUC和AIC兩指標(biāo)無(wú)法同時(shí)最優(yōu)，若以AIC為首選指標(biāo)，則最優(yōu)為均數(shù)分級(jí)，若以AUC為首選指標(biāo)則最優(yōu)為中位數(shù)分級(jí)。

2.三級(jí)分級(jí)

圖2 正態(tài)分布分三級(jí)

偏態(tài)時(shí)，均數(shù)±標(biāo)準(zhǔn)差不宜作為統(tǒng)計(jì)描述指標(biāo)，因此不做模擬，從優(yōu)到劣的分級(jí)方法順序?yàn)榘俜治蝗确?、四分位?shù)分級(jí)、極差三等分分級(jí)。

3.四級(jí)分級(jí)

正態(tài)分布或偏態(tài)分布下，方法優(yōu)先順序均為百分位數(shù)四等分分級(jí)、極差四等分分級(jí)，其中偏態(tài)分布下，OR值<3時(shí)，AIC信息量曲線略有交叉，OR>3后百分位數(shù)四等分分級(jí)AIC略優(yōu)于極差四等分，但二者區(qū)別不大。

實(shí)例考核

1.實(shí)例背景

某研究在各個(gè)時(shí)間點(diǎn)均獲得57名病人的各指標(biāo)結(jié)果，如neu,wbc,crp等，并以記錄病人是否發(fā)生了感染(1-發(fā)生感染，0-未發(fā)生感染)，目的是用特定時(shí)間的指標(biāo)建立診斷、預(yù)測(cè)感染的模型?，F(xiàn)假設(shè)需要對(duì)其中的第9個(gè)時(shí)間點(diǎn)的某定量指標(biāo)(neu9)進(jìn)行分級(jí)，將其轉(zhuǎn)換為等級(jí)變量來(lái)建立預(yù)測(cè)感染模型。

2.實(shí)例分級(jí)驗(yàn)證

首先，確定該定量變量(neu9)的分布，經(jīng)Kolmogorov-Smirnov以及Shapiro-Wilk正態(tài)性檢驗(yàn)，P值均大于0.10，可以近似看作正態(tài)分布。經(jīng)logistic回歸分析，有統(tǒng)計(jì)學(xué)意義，并計(jì)算出該變量OR值為1.1，假定欲將neu9分別分為二級(jí)、三級(jí)、四級(jí)，所得結(jié)果如表1。

圖3 正態(tài)分布分四級(jí)

表1 實(shí)例考核結(jié)果

該定量變量OR<1.5，對(duì)比前述模擬結(jié)果，由表1可知，實(shí)例數(shù)據(jù)所得結(jié)論基本符合模擬結(jié)果給出的預(yù)期結(jié)論。

由此，綜合以上結(jié)論分析，我們可以給出OR為1.5～5內(nèi)的一個(gè)簡(jiǎn)明的分級(jí)建議，見(jiàn)表2。

圖4 正偏態(tài)分布二級(jí)

表2 三種分布分級(jí)建議

其他數(shù)據(jù)分布若與上述特定分布存在較大偏差，則最優(yōu)分級(jí)方法可能會(huì)與上述分級(jí)建議不一致。建議通過(guò)比較不同分級(jí)方法下的ROC曲線下面積、AIC信息量?jī)芍笜?biāo)，擇優(yōu)選擇。

改進(jìn)方向

目前還有一些其他學(xué)者提出的分級(jí)方法未能在本研究中進(jìn)行演示，擬在今后的研究中，繼續(xù)拓展分級(jí)方法，給出更多的分級(jí)參考。另外，由于偏態(tài)分布模擬沒(méi)有特定的參數(shù)標(biāo)準(zhǔn)，實(shí)際的偏態(tài)分布形式多樣。經(jīng)本研究的驗(yàn)證，不同偏態(tài)分布數(shù)據(jù)可能得到不同最優(yōu)分級(jí)方法，因此對(duì)于特定偏態(tài)分布本研究的分級(jí)建議參考價(jià)值有限。本研究在數(shù)據(jù)模擬中，OR值取值范圍為常見(jiàn)的1.5～5(以0.5為間隔)，如果繼續(xù)擴(kuò)大OR值的取值范圍，AUC和AIC結(jié)果會(huì)否出現(xiàn)其他結(jié)論？其對(duì)分級(jí)方法的選擇又有何影響？這將在以后的研究中繼續(xù)探討。

圖5 正偏態(tài)分布三級(jí)

參考文獻(xiàn)

1.鐘曉妮,周燕榮.女性乳腺癌預(yù)報(bào)模型研究.數(shù)理醫(yī)藥學(xué)雜志,2002,15(1):4-6.

2.Steyerberg EW,Eijkemans MJ,Harrell FE Jr.Prognostic modeling with logistic regression analysis:in search of a sensible strategy in small data sets.Medical Decision Making,2001,21 (1):45-56.

3.萬(wàn)偉.影響老年高血壓患者血壓控制率因素的Logistic回歸分析.高血壓雜志,2001,9(1):74-75.

4.陳暉,王小波,張麗萍，等.中老年人牙列缺損危險(xiǎn)因素的Logistic回歸分析.山東醫(yī)藥,2010,50(48):48-49.

5.Subherwal S,Richard GB,Anita YC,et al.Baseline Risk of Major Bleeding in Non-ST-Segment-Elevation Myocardial Infarction.Circulation,2009,119:1843-1845.

6.劉寶利,楊寶友,鄭桂敏，等.logistic回歸和ROC曲線綜合評(píng)價(jià)檢測(cè)四種尿蛋白排泄對(duì)早期腎小球疾病的診斷價(jià)值.中國(guó)中西醫(yī)結(jié)合腎病雜志,2011,12(8):695-697.

7.Kheterpal S,Kevin KT，Heung M,et al.Development and Validation of an Acute Kidney Injury Risk Index for Patients Undergoing General Surgery.Anesthesiology,2009,110:505-15.

8.Kim MY,Jang HR,Wooseong Huh.Incidence,Risk Factors,and Prediction of Acute Kidney Injury After Off-Pump Coronary Artery Bypass Grafting.Renal Failure，2011,33(3):316-322.

9.Palomba H,de Castro I,Neto ALC,et al.Acute kidney injury prediction following elective cardiac surgery:AKICS Score.Kidney International，2007 (72):624-631.

10.李康.連續(xù)變量診斷試驗(yàn)數(shù)據(jù)的ROC分析.中國(guó)衛(wèi)生統(tǒng)計(jì),2007,14(1):1-4.

11.王濟(jì)川,郭志剛.Logistic回歸模型——方法與應(yīng)用.北京:高等教育出版社.2001.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

定量變量的分級(jí)方法對(duì)logistic模型影響的研究*

方 法

結(jié) 果

實(shí)例考核

改進(jìn)方向

方法