国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

定量變量的分級(jí)方法對(duì)logistic模型影響的研究*

2014-04-03 07:49周凌峰安勝利
關(guān)鍵詞:因變量均數(shù)正態(tài)分布

周凌峰 安勝利

logistic回歸分析是用于篩選影響因素及建立預(yù)測(cè)模型的最常用的方法之一,它的綜合預(yù)報(bào)效果具有很好的穩(wěn)健性和非模糊性[1-2]。在logistic回歸分析中,常會(huì)用到三種自變量類型:定量變量、等級(jí)變量及分類變量,為使得OR值具有更明確的臨床意義或便于預(yù)測(cè)模型的實(shí)際應(yīng)用,研究者[3-5]常將有統(tǒng)計(jì)學(xué)意義的定量變量轉(zhuǎn)化為兩個(gè)或兩個(gè)以上等級(jí),并賦予相應(yīng)的分?jǐn)?shù)。但目前等級(jí)劃分方法大多是由研究者主觀決定,若分界點(diǎn)選擇不當(dāng),其模型預(yù)測(cè)效果便會(huì)受到影響,甚至?xí)绊懙窖芯拷Y(jié)論的正確性。本研究擬在計(jì)算機(jī)上以常用的非條件二分類logistic回歸分析為例進(jìn)行模擬研究,在不同的參數(shù)條件下,對(duì)有統(tǒng)計(jì)學(xué)意義的自變量進(jìn)行不同數(shù)量、不同方式的等級(jí)劃分,建立預(yù)測(cè)模型,考察其預(yù)測(cè)效果的變化規(guī)律,并對(duì)所得結(jié)論以實(shí)例進(jìn)行考核,以期發(fā)現(xiàn)各種參數(shù)條件下合理的等級(jí)劃分方法。為建立更準(zhǔn)確、實(shí)用的logistic預(yù)測(cè)模型提供可靠的變量轉(zhuǎn)化依據(jù)。

方 法

為了便于解釋,本研究將模擬數(shù)據(jù)簡(jiǎn)化設(shè)計(jì)為僅有一個(gè)自變量X(連續(xù)變量)及一個(gè)因變量Y(0-1變量),然后觀測(cè)各種轉(zhuǎn)換方法對(duì)預(yù)測(cè)模型的影響規(guī)律,進(jìn)而延伸說(shuō)明多個(gè)自變量情況下該指標(biāo)的變化狀況。

1.自變量

利用R語(yǔ)言,模擬產(chǎn)生單個(gè)自變量,考慮三種分布狀況,即標(biāo)準(zhǔn)正態(tài)分布、正偏態(tài)分布、負(fù)偏態(tài)分布。標(biāo)準(zhǔn)正態(tài)分布使用rnorm( )語(yǔ)句直接生成。正(負(fù))偏態(tài)則采取以下方法產(chǎn)生。以正偏態(tài)為例,生成1000例標(biāo)準(zhǔn)正態(tài)分布數(shù)據(jù),并截掉大于0.8的部分,同時(shí)再生成1000例0至5.5服從均勻分布的數(shù)據(jù),合并二者后,從中選取1500例,最后得到近似正偏態(tài)的數(shù)據(jù)。負(fù)偏態(tài)自變量采取類似方法。

2.因變量

為了保證原始數(shù)據(jù)中自變量與因變量經(jīng)logistic回歸分析具有一定的聯(lián)系,因變量可利用自變量通過(guò)公式產(chǎn)生;鑒于因變量0、1的分布在實(shí)際數(shù)據(jù)中存在不同,我們通過(guò)調(diào)整OR值來(lái)改變Y的分布。方法如下:

利用logistic回歸模型計(jì)算陽(yáng)性事件發(fā)生概率P:

(1)

式中e為隨機(jī)誤差,服從標(biāo)準(zhǔn)正態(tài)分布。

假定β0為任意已知常數(shù),如0.2,取βm為log(OR),并取多種OR值情況(如OR=1.5~5,以0.5為間隔)。當(dāng)確定某OR值后,便可通過(guò)上式計(jì)算相應(yīng)的陽(yáng)性事件發(fā)生概率P,對(duì)應(yīng)的因變量Y則由0-1二項(xiàng)分布函數(shù)計(jì)算得到。

3.確定樣本含量

對(duì)上述產(chǎn)生的數(shù)據(jù)逐步增加樣本含量,并觀察自變量轉(zhuǎn)換后,其與因變量的關(guān)系變化,當(dāng)這種關(guān)系穩(wěn)定時(shí)所對(duì)應(yīng)的樣本含量即為所需模擬的樣本含量大小。經(jīng)測(cè)試,樣本量為1500時(shí)滿足上述要求。

4.自變量分級(jí)方法

共考慮三種分級(jí)數(shù),即二級(jí)、三級(jí)、四級(jí)分類。

(1)二級(jí)分類

均數(shù)分級(jí):以均數(shù)為分割點(diǎn)分為兩級(jí);中位數(shù)分級(jí):以中位數(shù)為分割點(diǎn)分為兩級(jí);ROC分級(jí):對(duì)自變量與因變量做ROC曲線,取約登指數(shù)最大的自變量值為分割點(diǎn)。分別賦為0、1。

(2)三級(jí)分類

(3)四級(jí)分類

百分位四等分:將自變量從小到大排序,并依據(jù)總的樣本量平均分為四級(jí),各級(jí)觀察單位數(shù)約占總樣本量的25%;極差四等分分級(jí):自變量最大值減最小值所得區(qū)間平均分為四份,分別賦為0、1、2、3。

5.評(píng)價(jià)指標(biāo)

從現(xiàn)行的一些研究來(lái)看,學(xué)者們[6-9]較為關(guān)注兩個(gè)方面,一方面是分級(jí)后的自變量對(duì)因變量的預(yù)測(cè)準(zhǔn)確程度;另一方面,分級(jí)后變量在回歸中的擬合效果。對(duì)于前者,人們普遍采用ROC曲線下面積AUC[10]來(lái)衡量其優(yōu)劣程度,本研究亦采用AUC作為其中一種評(píng)價(jià)指標(biāo)。在第二方面,本研究擬采用AIC信息量[11]。

在各種參數(shù)條件下(OR=1.5~5,以0.5為間隔),對(duì)模擬數(shù)據(jù)(分別對(duì)不分級(jí)、各分級(jí)情形)計(jì)算AUC,同時(shí)再進(jìn)行l(wèi)ogistic回歸計(jì)算AIC信息量,重復(fù)模擬1000次,并計(jì)算上述兩指標(biāo)的平均值及標(biāo)準(zhǔn)差。

6.模擬次數(shù)確定

不同分布、不同OR值下,當(dāng)AUC、AIC均值達(dá)到穩(wěn)定時(shí)所對(duì)應(yīng)的模擬次數(shù)即為所需模擬的總次數(shù)。經(jīng)過(guò)測(cè)試,本研究各種情況下模擬次數(shù)取1000次即可達(dá)到穩(wěn)定。

結(jié) 果

正態(tài)和部分正偏態(tài)分布模擬結(jié)果見(jiàn)圖1-圖5。

圖1 正態(tài)分布分二級(jí)

1.二級(jí)分級(jí)

正態(tài)分布下均數(shù)與中位數(shù)分級(jí)結(jié)果基本沒(méi)有區(qū)別(理論上也應(yīng)如此)。分級(jí)首選為ROC分級(jí),其次為均數(shù)或中位數(shù)分級(jí)。

偏態(tài)分布時(shí),首選ROC分級(jí),其余方法AUC和AIC兩指標(biāo)無(wú)法同時(shí)最優(yōu),若以AIC為首選指標(biāo),則最優(yōu)為均數(shù)分級(jí),若以AUC為首選指標(biāo)則最優(yōu)為中位數(shù)分級(jí)。

2.三級(jí)分級(jí)

圖2 正態(tài)分布分三級(jí)

偏態(tài)時(shí),均數(shù)±標(biāo)準(zhǔn)差不宜作為統(tǒng)計(jì)描述指標(biāo),因此不做模擬,從優(yōu)到劣的分級(jí)方法順序?yàn)榘俜治蝗确?、四分位?shù)分級(jí)、極差三等分分級(jí)。

3.四級(jí)分級(jí)

正態(tài)分布或偏態(tài)分布下,方法優(yōu)先順序均為百分位數(shù)四等分分級(jí)、極差四等分分級(jí),其中偏態(tài)分布下,OR值<3時(shí),AIC信息量曲線略有交叉,OR>3后百分位數(shù)四等分分級(jí)AIC略優(yōu)于極差四等分,但二者區(qū)別不大。

實(shí)例考核

1.實(shí)例背景

某研究在各個(gè)時(shí)間點(diǎn)均獲得57名病人的各指標(biāo)結(jié)果,如neu,wbc,crp等,并以記錄病人是否發(fā)生了感染(1-發(fā)生感染,0-未發(fā)生感染),目的是用特定時(shí)間的指標(biāo)建立診斷、預(yù)測(cè)感染的模型?,F(xiàn)假設(shè)需要對(duì)其中的第9個(gè)時(shí)間點(diǎn)的某定量指標(biāo)(neu9)進(jìn)行分級(jí),將其轉(zhuǎn)換為等級(jí)變量來(lái)建立預(yù)測(cè)感染模型。

2.實(shí)例分級(jí)驗(yàn)證

首先,確定該定量變量(neu9)的分布,經(jīng)Kolmogorov-Smirnov以及Shapiro-Wilk正態(tài)性檢驗(yàn),P值均大于0.10,可以近似看作正態(tài)分布。經(jīng)logistic回歸分析,有統(tǒng)計(jì)學(xué)意義,并計(jì)算出該變量OR值為1.1,假定欲將neu9分別分為二級(jí)、三級(jí)、四級(jí),所得結(jié)果如表1。

圖3 正態(tài)分布分四級(jí)

表1 實(shí)例考核結(jié)果

該定量變量OR<1.5,對(duì)比前述模擬結(jié)果,由表1可知,實(shí)例數(shù)據(jù)所得結(jié)論基本符合模擬結(jié)果給出的預(yù)期結(jié)論。

由此,綜合以上結(jié)論分析,我們可以給出OR為1.5~5內(nèi)的一個(gè)簡(jiǎn)明的分級(jí)建議,見(jiàn)表2。

圖4 正偏態(tài)分布二級(jí)

表2 三種分布分級(jí)建議

其他數(shù)據(jù)分布若與上述特定分布存在較大偏差,則最優(yōu)分級(jí)方法可能會(huì)與上述分級(jí)建議不一致。建議通過(guò)比較不同分級(jí)方法下的ROC曲線下面積、AIC信息量?jī)芍笜?biāo),擇優(yōu)選擇。

改進(jìn)方向

目前還有一些其他學(xué)者提出的分級(jí)方法未能在本研究中進(jìn)行演示,擬在今后的研究中,繼續(xù)拓展分級(jí)方法,給出更多的分級(jí)參考。另外,由于偏態(tài)分布模擬沒(méi)有特定的參數(shù)標(biāo)準(zhǔn),實(shí)際的偏態(tài)分布形式多樣。經(jīng)本研究的驗(yàn)證,不同偏態(tài)分布數(shù)據(jù)可能得到不同最優(yōu)分級(jí)方法,因此對(duì)于特定偏態(tài)分布本研究的分級(jí)建議參考價(jià)值有限。本研究在數(shù)據(jù)模擬中,OR值取值范圍為常見(jiàn)的1.5~5(以0.5為間隔),如果繼續(xù)擴(kuò)大OR值的取值范圍,AUC和AIC結(jié)果會(huì)否出現(xiàn)其他結(jié)論?其對(duì)分級(jí)方法的選擇又有何影響?這將在以后的研究中繼續(xù)探討。

圖5 正偏態(tài)分布三級(jí)

參 考 文 獻(xiàn)

1.鐘曉妮,周燕榮.女性乳腺癌預(yù)報(bào)模型研究.數(shù)理醫(yī)藥學(xué)雜志,2002,15(1):4-6.

2.Steyerberg EW,Eijkemans MJ,Harrell FE Jr.Prognostic modeling with logistic regression analysis:in search of a sensible strategy in small data sets.Medical Decision Making,2001,21 (1):45-56.

3.萬(wàn)偉.影響老年高血壓患者血壓控制率因素的Logistic回歸分析.高血壓雜志,2001,9(1):74-75.

4.陳暉,王小波,張麗萍,等.中老年人牙列缺損危險(xiǎn)因素的Logistic回歸分析.山東醫(yī)藥,2010,50(48):48-49.

5.Subherwal S,Richard GB,Anita YC,et al.Baseline Risk of Major Bleeding in Non-ST-Segment-Elevation Myocardial Infarction.Circulation,2009,119:1843-1845.

6.劉寶利,楊寶友,鄭桂敏,等.logistic回歸和ROC曲線綜合評(píng)價(jià)檢測(cè)四種尿蛋白排泄對(duì)早期腎小球疾病的診斷價(jià)值.中國(guó)中西醫(yī)結(jié)合腎病雜志,2011,12(8):695-697.

7.Kheterpal S,Kevin KT,Heung M,et al.Development and Validation of an Acute Kidney Injury Risk Index for Patients Undergoing General Surgery.Anesthesiology,2009,110:505-15.

8.Kim MY,Jang HR,Wooseong Huh.Incidence,Risk Factors,and Prediction of Acute Kidney Injury After Off-Pump Coronary Artery Bypass Grafting.Renal Failure,2011,33(3):316-322.

9.Palomba H,de Castro I,Neto ALC,et al.Acute kidney injury prediction following elective cardiac surgery:AKICS Score.Kidney International,2007 (72):624-631.

10.李康.連續(xù)變量診斷試驗(yàn)數(shù)據(jù)的ROC分析.中國(guó)衛(wèi)生統(tǒng)計(jì),2007,14(1):1-4.

11.王濟(jì)川,郭志剛.Logistic回歸模型——方法與應(yīng)用.北京:高等教育出版社.2001.

猜你喜歡
因變量均數(shù)正態(tài)分布
調(diào)整有限因變量混合模型在藥物經(jīng)濟(jì)學(xué)健康效用量表映射中的運(yùn)用
關(guān)于n維正態(tài)分布線性函數(shù)服從正態(tài)分布的證明*
生活常態(tài)模式
偏對(duì)稱正態(tài)分布的若干性質(zhì)
偏最小二乘回歸方法
談?wù)勅绾沃v解多元復(fù)合函數(shù)的求導(dǎo)法則
正態(tài)分布及其應(yīng)用
關(guān)于均數(shù)與偏差
關(guān)于均數(shù)與偏差
回歸分析中應(yīng)正確使用r、R、R23種符號(hào)
平阳县| 罗江县| 文山县| 甘肃省| 仁怀市| 平阳县| 中山市| 浦东新区| 枣强县| 东城区| 吉林省| 独山县| 叶城县| 吉林市| 阳新县| 黄梅县| 汕头市| 修武县| 西峡县| 扬州市| 东辽县| 老河口市| 新宁县| 宁国市| 木里| 丁青县| 义马市| 馆陶县| 宣威市| 辽中县| 墨竹工卡县| 伽师县| 泗水县| 五峰| 会昌县| 香港| 大庆市| 湘阴县| 龙陵县| 东安县| 句容市|