周凌峰 安勝利
logistic回歸分析是用于篩選影響因素及建立預(yù)測(cè)模型的最常用的方法之一,它的綜合預(yù)報(bào)效果具有很好的穩(wěn)健性和非模糊性[1-2]。在logistic回歸分析中,常會(huì)用到三種自變量類型:定量變量、等級(jí)變量及分類變量,為使得OR值具有更明確的臨床意義或便于預(yù)測(cè)模型的實(shí)際應(yīng)用,研究者[3-5]常將有統(tǒng)計(jì)學(xué)意義的定量變量轉(zhuǎn)化為兩個(gè)或兩個(gè)以上等級(jí),并賦予相應(yīng)的分?jǐn)?shù)。但目前等級(jí)劃分方法大多是由研究者主觀決定,若分界點(diǎn)選擇不當(dāng),其模型預(yù)測(cè)效果便會(huì)受到影響,甚至?xí)绊懙窖芯拷Y(jié)論的正確性。本研究擬在計(jì)算機(jī)上以常用的非條件二分類logistic回歸分析為例進(jìn)行模擬研究,在不同的參數(shù)條件下,對(duì)有統(tǒng)計(jì)學(xué)意義的自變量進(jìn)行不同數(shù)量、不同方式的等級(jí)劃分,建立預(yù)測(cè)模型,考察其預(yù)測(cè)效果的變化規(guī)律,并對(duì)所得結(jié)論以實(shí)例進(jìn)行考核,以期發(fā)現(xiàn)各種參數(shù)條件下合理的等級(jí)劃分方法。為建立更準(zhǔn)確、實(shí)用的logistic預(yù)測(cè)模型提供可靠的變量轉(zhuǎn)化依據(jù)。
為了便于解釋,本研究將模擬數(shù)據(jù)簡(jiǎn)化設(shè)計(jì)為僅有一個(gè)自變量X(連續(xù)變量)及一個(gè)因變量Y(0-1變量),然后觀測(cè)各種轉(zhuǎn)換方法對(duì)預(yù)測(cè)模型的影響規(guī)律,進(jìn)而延伸說(shuō)明多個(gè)自變量情況下該指標(biāo)的變化狀況。
1.自變量
利用R語(yǔ)言,模擬產(chǎn)生單個(gè)自變量,考慮三種分布狀況,即標(biāo)準(zhǔn)正態(tài)分布、正偏態(tài)分布、負(fù)偏態(tài)分布。標(biāo)準(zhǔn)正態(tài)分布使用rnorm( )語(yǔ)句直接生成。正(負(fù))偏態(tài)則采取以下方法產(chǎn)生。以正偏態(tài)為例,生成1000例標(biāo)準(zhǔn)正態(tài)分布數(shù)據(jù),并截掉大于0.8的部分,同時(shí)再生成1000例0至5.5服從均勻分布的數(shù)據(jù),合并二者后,從中選取1500例,最后得到近似正偏態(tài)的數(shù)據(jù)。負(fù)偏態(tài)自變量采取類似方法。
2.因變量
為了保證原始數(shù)據(jù)中自變量與因變量經(jīng)logistic回歸分析具有一定的聯(lián)系,因變量可利用自變量通過(guò)公式產(chǎn)生;鑒于因變量0、1的分布在實(shí)際數(shù)據(jù)中存在不同,我們通過(guò)調(diào)整OR值來(lái)改變Y的分布。方法如下:
利用logistic回歸模型計(jì)算陽(yáng)性事件發(fā)生概率P:
(1)
式中e為隨機(jī)誤差,服從標(biāo)準(zhǔn)正態(tài)分布。
假定β0為任意已知常數(shù),如0.2,取βm為log(OR),并取多種OR值情況(如OR=1.5~5,以0.5為間隔)。當(dāng)確定某OR值后,便可通過(guò)上式計(jì)算相應(yīng)的陽(yáng)性事件發(fā)生概率P,對(duì)應(yīng)的因變量Y則由0-1二項(xiàng)分布函數(shù)計(jì)算得到。
3.確定樣本含量
對(duì)上述產(chǎn)生的數(shù)據(jù)逐步增加樣本含量,并觀察自變量轉(zhuǎn)換后,其與因變量的關(guān)系變化,當(dāng)這種關(guān)系穩(wěn)定時(shí)所對(duì)應(yīng)的樣本含量即為所需模擬的樣本含量大小。經(jīng)測(cè)試,樣本量為1500時(shí)滿足上述要求。
4.自變量分級(jí)方法
共考慮三種分級(jí)數(shù),即二級(jí)、三級(jí)、四級(jí)分類。
(1)二級(jí)分類
均數(shù)分級(jí):以均數(shù)為分割點(diǎn)分為兩級(jí);中位數(shù)分級(jí):以中位數(shù)為分割點(diǎn)分為兩級(jí);ROC分級(jí):對(duì)自變量與因變量做ROC曲線,取約登指數(shù)最大的自變量值為分割點(diǎn)。分別賦為0、1。
(2)三級(jí)分類
(3)四級(jí)分類
百分位四等分:將自變量從小到大排序,并依據(jù)總的樣本量平均分為四級(jí),各級(jí)觀察單位數(shù)約占總樣本量的25%;極差四等分分級(jí):自變量最大值減最小值所得區(qū)間平均分為四份,分別賦為0、1、2、3。
5.評(píng)價(jià)指標(biāo)
從現(xiàn)行的一些研究來(lái)看,學(xué)者們[6-9]較為關(guān)注兩個(gè)方面,一方面是分級(jí)后的自變量對(duì)因變量的預(yù)測(cè)準(zhǔn)確程度;另一方面,分級(jí)后變量在回歸中的擬合效果。對(duì)于前者,人們普遍采用ROC曲線下面積AUC[10]來(lái)衡量其優(yōu)劣程度,本研究亦采用AUC作為其中一種評(píng)價(jià)指標(biāo)。在第二方面,本研究擬采用AIC信息量[11]。
在各種參數(shù)條件下(OR=1.5~5,以0.5為間隔),對(duì)模擬數(shù)據(jù)(分別對(duì)不分級(jí)、各分級(jí)情形)計(jì)算AUC,同時(shí)再進(jìn)行l(wèi)ogistic回歸計(jì)算AIC信息量,重復(fù)模擬1000次,并計(jì)算上述兩指標(biāo)的平均值及標(biāo)準(zhǔn)差。
6.模擬次數(shù)確定
不同分布、不同OR值下,當(dāng)AUC、AIC均值達(dá)到穩(wěn)定時(shí)所對(duì)應(yīng)的模擬次數(shù)即為所需模擬的總次數(shù)。經(jīng)過(guò)測(cè)試,本研究各種情況下模擬次數(shù)取1000次即可達(dá)到穩(wěn)定。
正態(tài)和部分正偏態(tài)分布模擬結(jié)果見(jiàn)圖1-圖5。
圖1 正態(tài)分布分二級(jí)
1.二級(jí)分級(jí)
正態(tài)分布下均數(shù)與中位數(shù)分級(jí)結(jié)果基本沒(méi)有區(qū)別(理論上也應(yīng)如此)。分級(jí)首選為ROC分級(jí),其次為均數(shù)或中位數(shù)分級(jí)。
偏態(tài)分布時(shí),首選ROC分級(jí),其余方法AUC和AIC兩指標(biāo)無(wú)法同時(shí)最優(yōu),若以AIC為首選指標(biāo),則最優(yōu)為均數(shù)分級(jí),若以AUC為首選指標(biāo)則最優(yōu)為中位數(shù)分級(jí)。
2.三級(jí)分級(jí)
圖2 正態(tài)分布分三級(jí)
偏態(tài)時(shí),均數(shù)±標(biāo)準(zhǔn)差不宜作為統(tǒng)計(jì)描述指標(biāo),因此不做模擬,從優(yōu)到劣的分級(jí)方法順序?yàn)榘俜治蝗确?、四分位?shù)分級(jí)、極差三等分分級(jí)。
3.四級(jí)分級(jí)
正態(tài)分布或偏態(tài)分布下,方法優(yōu)先順序均為百分位數(shù)四等分分級(jí)、極差四等分分級(jí),其中偏態(tài)分布下,OR值<3時(shí),AIC信息量曲線略有交叉,OR>3后百分位數(shù)四等分分級(jí)AIC略優(yōu)于極差四等分,但二者區(qū)別不大。
1.實(shí)例背景
某研究在各個(gè)時(shí)間點(diǎn)均獲得57名病人的各指標(biāo)結(jié)果,如neu,wbc,crp等,并以記錄病人是否發(fā)生了感染(1-發(fā)生感染,0-未發(fā)生感染),目的是用特定時(shí)間的指標(biāo)建立診斷、預(yù)測(cè)感染的模型?,F(xiàn)假設(shè)需要對(duì)其中的第9個(gè)時(shí)間點(diǎn)的某定量指標(biāo)(neu9)進(jìn)行分級(jí),將其轉(zhuǎn)換為等級(jí)變量來(lái)建立預(yù)測(cè)感染模型。
2.實(shí)例分級(jí)驗(yàn)證
首先,確定該定量變量(neu9)的分布,經(jīng)Kolmogorov-Smirnov以及Shapiro-Wilk正態(tài)性檢驗(yàn),P值均大于0.10,可以近似看作正態(tài)分布。經(jīng)logistic回歸分析,有統(tǒng)計(jì)學(xué)意義,并計(jì)算出該變量OR值為1.1,假定欲將neu9分別分為二級(jí)、三級(jí)、四級(jí),所得結(jié)果如表1。
圖3 正態(tài)分布分四級(jí)
表1 實(shí)例考核結(jié)果
該定量變量OR<1.5,對(duì)比前述模擬結(jié)果,由表1可知,實(shí)例數(shù)據(jù)所得結(jié)論基本符合模擬結(jié)果給出的預(yù)期結(jié)論。
由此,綜合以上結(jié)論分析,我們可以給出OR為1.5~5內(nèi)的一個(gè)簡(jiǎn)明的分級(jí)建議,見(jiàn)表2。
圖4 正偏態(tài)分布二級(jí)
表2 三種分布分級(jí)建議
其他數(shù)據(jù)分布若與上述特定分布存在較大偏差,則最優(yōu)分級(jí)方法可能會(huì)與上述分級(jí)建議不一致。建議通過(guò)比較不同分級(jí)方法下的ROC曲線下面積、AIC信息量?jī)芍笜?biāo),擇優(yōu)選擇。
目前還有一些其他學(xué)者提出的分級(jí)方法未能在本研究中進(jìn)行演示,擬在今后的研究中,繼續(xù)拓展分級(jí)方法,給出更多的分級(jí)參考。另外,由于偏態(tài)分布模擬沒(méi)有特定的參數(shù)標(biāo)準(zhǔn),實(shí)際的偏態(tài)分布形式多樣。經(jīng)本研究的驗(yàn)證,不同偏態(tài)分布數(shù)據(jù)可能得到不同最優(yōu)分級(jí)方法,因此對(duì)于特定偏態(tài)分布本研究的分級(jí)建議參考價(jià)值有限。本研究在數(shù)據(jù)模擬中,OR值取值范圍為常見(jiàn)的1.5~5(以0.5為間隔),如果繼續(xù)擴(kuò)大OR值的取值范圍,AUC和AIC結(jié)果會(huì)否出現(xiàn)其他結(jié)論?其對(duì)分級(jí)方法的選擇又有何影響?這將在以后的研究中繼續(xù)探討。
圖5 正偏態(tài)分布三級(jí)
參 考 文 獻(xiàn)
1.鐘曉妮,周燕榮.女性乳腺癌預(yù)報(bào)模型研究.數(shù)理醫(yī)藥學(xué)雜志,2002,15(1):4-6.
2.Steyerberg EW,Eijkemans MJ,Harrell FE Jr.Prognostic modeling with logistic regression analysis:in search of a sensible strategy in small data sets.Medical Decision Making,2001,21 (1):45-56.
3.萬(wàn)偉.影響老年高血壓患者血壓控制率因素的Logistic回歸分析.高血壓雜志,2001,9(1):74-75.
4.陳暉,王小波,張麗萍,等.中老年人牙列缺損危險(xiǎn)因素的Logistic回歸分析.山東醫(yī)藥,2010,50(48):48-49.
5.Subherwal S,Richard GB,Anita YC,et al.Baseline Risk of Major Bleeding in Non-ST-Segment-Elevation Myocardial Infarction.Circulation,2009,119:1843-1845.
6.劉寶利,楊寶友,鄭桂敏,等.logistic回歸和ROC曲線綜合評(píng)價(jià)檢測(cè)四種尿蛋白排泄對(duì)早期腎小球疾病的診斷價(jià)值.中國(guó)中西醫(yī)結(jié)合腎病雜志,2011,12(8):695-697.
7.Kheterpal S,Kevin KT,Heung M,et al.Development and Validation of an Acute Kidney Injury Risk Index for Patients Undergoing General Surgery.Anesthesiology,2009,110:505-15.
8.Kim MY,Jang HR,Wooseong Huh.Incidence,Risk Factors,and Prediction of Acute Kidney Injury After Off-Pump Coronary Artery Bypass Grafting.Renal Failure,2011,33(3):316-322.
9.Palomba H,de Castro I,Neto ALC,et al.Acute kidney injury prediction following elective cardiac surgery:AKICS Score.Kidney International,2007 (72):624-631.
10.李康.連續(xù)變量診斷試驗(yàn)數(shù)據(jù)的ROC分析.中國(guó)衛(wèi)生統(tǒng)計(jì),2007,14(1):1-4.
11.王濟(jì)川,郭志剛.Logistic回歸模型——方法與應(yīng)用.北京:高等教育出版社.2001.