周 麗 陳 科
社區(qū)獲得性肺炎是常見住院治療的呼吸道疾病,其療效受年齡、病情、體質(zhì)等因素影響而呈現(xiàn)多樣化?;貧w模型常用以探索影響療效的因素,定量檢測(cè)指標(biāo)通常直接反映病情并提示預(yù)后。在住院病史中通??梢娨环N生理病理狀況由多個(gè)指標(biāo)共同判斷,它們之間往往存在多重共線性,造成自變量權(quán)重偏倚,影響模型預(yù)測(cè)精度。主成分分析通過(guò)提取這些指標(biāo)的公因子,并將原指標(biāo)與因子的相關(guān)系數(shù)作為權(quán)數(shù),以加權(quán)方式計(jì)算因子標(biāo)化總分來(lái)替代原指標(biāo)。本文旨在應(yīng)用主成分分析結(jié)合回歸模型來(lái)探索某醫(yī)院社區(qū)獲得性肺炎療效的影響因素。
1資料與方法
資料來(lái)源于復(fù)旦大學(xué)附屬華山醫(yī)院寶山分院2007—2008年收治無(wú)慢性阻塞性肺病史的社區(qū)獲得性肺炎住院數(shù)據(jù),共計(jì)310例,其中男161例,女149例;平均年齡69.40歲,標(biāo)準(zhǔn)差19.01歲,均按標(biāo)準(zhǔn)化方式治療。結(jié)果治愈38例,好轉(zhuǎn)240例,未愈32例。統(tǒng)計(jì)軟件為SPSS13.0,主成分分析采用Data Reduction(Factor)過(guò)程,Logistic回歸采用Regression(Ordinal)過(guò)程。
2結(jié)果
2.1共線性診斷
實(shí)際碳酸氫鹽(AB)、剩余堿(BE)、緩沖堿(BB)均反映血液堿度,與后者呈正變關(guān)系。310人上述3個(gè)指標(biāo)呈多重線性相關(guān)(R>0.7,P=0.000)。此外尚發(fā)現(xiàn)尿素氮與肌酐呈線性相關(guān)(R=0.615,P=0.000)。R值較高且均具有統(tǒng)計(jì)學(xué)意義,有必要進(jìn)行主成分分析(表1)。
2.2提取公因子
按主成分分析流程,首先檢驗(yàn)表1中3個(gè)變量的偏相關(guān)性(KMO法)及獨(dú)立性(Bartlett's球形檢驗(yàn))。結(jié)果KMO=0.725,提示3個(gè)變量偏相關(guān)系數(shù)遠(yuǎn)小于簡(jiǎn)單相關(guān)系數(shù),各變量間相關(guān)程度差異不大,適合提取公因子(KMO>0.6)。球形檢驗(yàn)X2=697.604,自由度(υ)=3,P=0.000,拒絕獨(dú)立性假設(shè),提示變量間存在相關(guān)性,可進(jìn)行因子提取,均與表1結(jié)果吻合。SPSS軟件計(jì)算第1主成分(Component 1,C1)的特征根(Eigenvalue)=2.553,變異解釋率=85.115%,均超過(guò)閾值(特征根=1,累計(jì)變異解釋率=80%),并如圖1所示與下一主成分(特征根=0.320)差距顯著,故SPSS僅提取C1,并求得AB、BE、BB在C1上的載荷(相關(guān)系數(shù))分別為0.945,0.940,0.882,呈高度相關(guān),故C1對(duì)AB、BE、BB的代表性非常好,在意義上命名為“堿因子”。SPSS按載荷加權(quán)法自動(dòng)生成310條記錄的堿因子標(biāo)化總分。按同樣步驟提取了尿素氮與肌酐的第1主成分(特征根=1.615,累計(jì)變異解釋率=80.75%,BUN及Cr載荷均為0.899),命名為“腎因子”,同時(shí)計(jì)算腎因子標(biāo)化總分。
2.3建立Logistic回歸模型
設(shè)應(yīng)變量為治療結(jié)果(1.治愈,2.好轉(zhuǎn),3.未愈)。設(shè)自變量為:年齡(歲)、中性粒細(xì)胞(個(gè))、氧分壓(mmHg)、二氧化碳分壓(mmHg)、堿因子(標(biāo)化分)、腎因子(標(biāo)化分)、性別(1.男,2.女)。建立累加型Logistic回歸模型,分析主效應(yīng),隨后以A=0.05標(biāo)準(zhǔn)、后退法逐個(gè)剔除自變量。最終保留于模型中的自變量為:年齡、氧分壓、腎因子(該模型全局似然比X2=32.469,υ=3,P=0.000)。如表2所示,由偏回歸系數(shù)(β)與0的關(guān)系可知:年齡愈大療效愈差,氧分壓愈高療效愈好,腎因子愈高療效愈差(WaldX2如表所示,ν=1,P<0.01)。結(jié)合主成分分析可知,尿素氮、肌酐愈高,腎功能愈差,則療效愈差。由標(biāo)化β的絕對(duì)值可見影響程度最高的是腎因子,第2是年齡,第3是氧分壓。因子得分為SPSS自動(dòng)標(biāo)化,其余自變量根據(jù)“u=離均差/標(biāo)準(zhǔn)差”公式進(jìn)行標(biāo)化。
3討論
主成分分析適合定量數(shù)據(jù)研究,既能縮減變量個(gè)數(shù),又能解決回歸模型中的多重共線性問(wèn)題,非常適用于臨床資料中的實(shí)驗(yàn)室診斷數(shù)據(jù)。但本身也有局限性,對(duì)各變量相關(guān)性及偏相關(guān)性有較高要求,若簡(jiǎn)單相關(guān)系數(shù)較低或偏相關(guān)系數(shù)較高則可造成主成分提取不充分、提取數(shù)量過(guò)多、殘差過(guò)大、代表性差。一般認(rèn)為,主成分?jǐn)?shù)量在3個(gè)以內(nèi)為佳。本文資料主成分僅有1個(gè),提取充分代表性佳。因子解釋是另一大難點(diǎn),在本文中尚容易解釋“堿因子”代表AB、BE、BB 3種血液堿度指標(biāo)的意義,“腎因子”代表尿素氮、肌酐2種腎功能指標(biāo)的意義,但筆者在一次調(diào)查中曾發(fā)現(xiàn)直接提取8種食物頻率的3個(gè)因子作為飲食模式時(shí)無(wú)法解釋意義,但在SPSS軟件中選擇方差最大化正交旋轉(zhuǎn)后,系統(tǒng)按區(qū)分度最大化原則重新分配了各因子載荷,使得意義解釋變得非常容易。當(dāng)然主成分分析為各種預(yù)測(cè)模型提供數(shù)據(jù),其最終意義取決于在預(yù)測(cè)模型中的表現(xiàn)。Logistic回歸結(jié)果顯示,腎功能、年齡、氧分壓是決定肺炎療效的因素,其中腎功能的影響最大。鑒于橫斷面調(diào)查的限制,因果關(guān)系有待于進(jìn)一步研究。