唐 敏,鄭海濤,李清華
(西南交通大學(xué) 數(shù)學(xué)學(xué)院,成都 611756)
BPH是以前列腺肥大為主要病理學(xué)特征的老年男性的常見病,是導(dǎo)致老年男性患者尿急、尿頻以及排尿苦難等下尿路癥狀最常見的因素[1]。80歲及以上的男性群體中,患病率超過60%。BPH帶來的負(fù)面影響,嚴(yán)重影響老年男性的生命健康和生活質(zhì)量,但是BPH卻屬于可逆性疾病。MS的核心是胰島素抵抗和繼發(fā)性高胰島素血癥,其基本特征包括高血糖、中央型肥胖、血脂異常和高血壓[2]。近年來的流行病學(xué)研究發(fā)現(xiàn)BPH與MS有密切關(guān)系,但兩者如何產(chǎn)生關(guān)聯(lián)尚未明確,并且目前尚無利用隊(duì)列數(shù)據(jù)來研究BPH與MS關(guān)聯(lián)性的參考。研究MS各組分對BPH的影響以及預(yù)測,有針對性制訂預(yù)防和干預(yù)措施,對BPH防治有重大意義[3]。因此,旨在利用2006—2016年體檢人群的體檢數(shù)據(jù),通過采用病例對照以及GPLSIM來研究MS和BPH之間的關(guān)系,GPLSIM中的非參數(shù)部分使用樣條函數(shù)進(jìn)行擬合。利用GPLSIM對實(shí)測數(shù)據(jù)進(jìn)行分析,并與常用的廣義線性混合效應(yīng)模型(GLMM)進(jìn)行對比,以此來探討GPLSIM在重復(fù)測量數(shù)據(jù)中的適用性。
數(shù)據(jù)源自2006—2016年在西部戰(zhàn)區(qū)總醫(yī)院健康體檢中心定期健康體檢人群的體檢數(shù)據(jù)(該體檢中心為該人群管理其歷年的體檢數(shù)據(jù)資料)。
MS以胰島素抵抗為病理生理基礎(chǔ),因蛋白質(zhì)、脂肪、碳水化合物等多種物質(zhì)發(fā)生代謝紊亂而表現(xiàn)出臨床癥候群,主要包括肥胖、高血壓、血壓升高、血糖升高、血脂異常等[4]。33 901例體檢者2006—2016年的364 001條疾病史記錄反映的MS下各疾病的新增率如表1所示。
表1 2006—2016年相關(guān)疾病新增率 %
2006—2016年,高血壓、高脂血癥、高尿酸、BPH的患病新增率呈現(xiàn)下降的趨勢;而高膽固醇的患病新增率總體也呈下降趨勢,但在2012年升至13.68%;糖尿病的患病新增率在2008年達(dá)到最高,其余疾病新增率最高值均為2006年。另一方面,基于我國人群的研究證據(jù)所制定的MS診斷標(biāo)準(zhǔn),具備以下3項(xiàng)或更多項(xiàng):腹部脂肪堆積、空腹血糖水平過高、高血壓、甘油三酯水平過高、高密度脂蛋白膽固醇水平過低等,故可由體檢指標(biāo)的組合反映MS[5]。
計(jì)量資料均使用均數(shù)±標(biāo)準(zhǔn)差(x±σ)表示,各組間差異比較采用t檢驗(yàn)。下一步建立GPLSIM來分析BPH和MS各指標(biāo)之間的相關(guān)性以及是否患BPH的預(yù)測。對于參數(shù),使用估計(jì)值的標(biāo)準(zhǔn)誤來構(gòu)造z統(tǒng)計(jì)量檢驗(yàn)其顯著性,以P<0.05為差異有統(tǒng)計(jì)學(xué)意義[6]。
將體檢者分為正常對照組(無BPH及MS,57例)、單純BPH組(400例)、BPH合并MS組(435例),其相關(guān)指標(biāo)見表2。單純BPH組及BPH合并MS組AGE、SBP、Glu均顯著高于對照組(P<0.05),DBP、WBC、ALT顯著低于對照組,差異具有統(tǒng)計(jì)學(xué)意義(P<0.05);BPH合并MS組BMI、TG、TP顯著高于對照組(P<0.05),HDL顯著降低(P<0.05);BPH合并MS組,BMI、TG、SBP、DBP、Glu、TP、WBC、ALT均顯著高于BPH組(P<0.05),BPH合并MS組的HDL為1.331±0.249,BPH組的HDL為1.500±0.273,說明HDL顯著降低(P<0.05);單純BPH組與對照組的BMI、TG、HDL、TP 2組比較差異無統(tǒng)計(jì)學(xué)意義(P>0.05);BPH合并MS組與BPH組的AGE比較差異無統(tǒng)計(jì)學(xué)意義(P>0.05);BPH合并MS組與對照組的DBP、WBC、ALT比較差異無統(tǒng)計(jì)學(xué)意義(P>0.05)。上述結(jié)果間接說明高甘油三酯、肥胖、高血糖、高密度脂蛋白均是引發(fā)MS的因素,并且較高的TP、WBC、ALT也會誘發(fā)MS。
通過logistic逐步回歸從22個特征候選集合中篩選出對BPH影響顯著的指標(biāo):AGE、SBP、Glu、HDL、TP、WBC、ALT、前列腺特異性抗原(PSA)。篩選出的7個體檢指標(biāo)的均值均位于正常值范圍內(nèi),PSA的最大值遠(yuǎn)超過了正常值。將使用經(jīng)過縮放(除以2個標(biāo)準(zhǔn)差)和居中(減去它們的平均值)的預(yù)測變量來擬合模型,這種標(biāo)準(zhǔn)化將使系數(shù)的大小大致具有直接可比性[7]。年份為取值為1,2,…,9的數(shù)值變量,對AGE、PSA、Glu使用響應(yīng)變量進(jìn)行雙變量分析,通過條件推理樹找到預(yù)測性最有用的方法來拆分?jǐn)?shù)字預(yù)測器,處理為未居中的0-1分類變量。Glu(>5.29 mmol/L)賦值為1,(≤5.29 mmol/L)賦值為0;PSA(>3.9 ng/mL)賦值為1,(≤3.9 ng/mL)賦值為0;AGE(>79歲)賦值為1,(≤79歲)賦值為0,其余變量均為連續(xù)型數(shù)值變量。
表2 對照組、單純BPH及BPH&MS組相關(guān)指標(biāo)
對于復(fù)雜的縱向數(shù)據(jù)問題,線性模型最多只能作為“真實(shí)”模型的一種近似。另一方面,檢驗(yàn)一個模型是否是線性模型或者某個具體的參數(shù)模型是非常困難的。為了減少建模偏差,所以分析時采用了如下半?yún)?shù)模型。建立的GPLSIM模型如下:
其中:i=1,2,…,n表示第i個體檢者,j=1,2,…,mi表示第j年測量,uij是第i個體檢者的第j年患BPH的概率,采用的連接函數(shù)是logit,對于部分線性模型已經(jīng)有了很成熟的估計(jì)以及檢驗(yàn),如劉峰等對參數(shù)部分和非參數(shù)部分分別進(jìn)行了估計(jì)[8],對于GPLSIM而言,只是響應(yīng)變量拓展到二分類。Xij=(Xij1,Xij2,…,Xijp)T,θ=(θ1,θ2,…,θp)T,非線性部分Xij均為連續(xù)型變量,Zij=(Zij1,Zij2,…,Zijq)T,γ=(γ1,γ2,…,γq)T,線性部分Zij可為連續(xù)型和離散型變量。
對η(·)函數(shù)采用懲罰樣條估計(jì),懲罰樣條可以通過快速計(jì)算很好地逼近任何靈活的函數(shù),通過施加由平滑參數(shù)控制的粗糙度懲罰來避免過度擬合[9]。在懲罰樣條中,η(·)可以通過樣條基的線性組合來估計(jì):
η(u)=α0+α1τ+α2τ2+…+
圖1 預(yù)測變量與pij的散點(diǎn)圖及局部加權(quán)回歸擬合曲線(陰影部分為95%置信區(qū)間)
由圖1可知,pij與各協(xié)變量散點(diǎn)圖的局部加權(quán)回歸曲線絕大部分呈現(xiàn)非線性關(guān)系,為了克服以上的問題,以損失非參數(shù)回歸模型的靈活性為代價,所以采用GPLSIM。這樣,既保留了參數(shù)回歸模型易于解釋的特點(diǎn),又有非參數(shù)回歸模型適應(yīng)性強(qiáng)的特點(diǎn)。其次,單指標(biāo)模型通過降維將多元預(yù)測變量降為單變量指標(biāo)[12]。由在縱向數(shù)據(jù)分析中,年份等時間代表性的預(yù)測變量存在非線性效應(yīng),故“Year”一定是納入單指標(biāo)內(nèi)的[13];AGE、PSA、Glu是分類變量,納入線性部分分析。
最后擬合GPLSIM估計(jì)出的系數(shù)結(jié)果見表3,未知函數(shù)η(·)的估計(jì)曲線見圖2。由于采用了2個標(biāo)準(zhǔn)差來縮放回歸輸入,故標(biāo)準(zhǔn)化預(yù)測變量之一的單位變化表示原始變量的2個標(biāo)準(zhǔn)差。在只有分析指標(biāo)變動,其余指標(biāo)不變的情況下,年齡高于79歲的體檢者患BPH的幾率比低于79歲的體檢者高36.1%;正常情況(PSA>3.9 ng/mL)的體檢者患BPH的幾率比異常情況下(PSA≤3.9 ng/mL)的體檢者高55.8%;SBP每增加約31 mmHg,患BPH的幾率是原來的1.202倍;Glu>5.29 mmol/L的體檢者患BPH的幾率比Glu≤5.29 mmol/L的體檢者高26.56%;ALT每增加約23 U/L,患BPH的幾率是原來的0.815倍。
表3 GPLSIM擬合結(jié)果
圖2 GPLISM中未知函數(shù)η(·)的估計(jì)曲線
根據(jù)實(shí)際數(shù)據(jù)分析,最終選取P樣條的節(jié)點(diǎn)數(shù)目為13。懲罰樣條中節(jié)點(diǎn)數(shù)的選擇并不會對數(shù)據(jù)分析產(chǎn)生太大影響,因?yàn)閼土P項(xiàng)可以通過正則化來控制模型的復(fù)雜度,并且節(jié)點(diǎn)數(shù)可以根據(jù)具體問題和數(shù)據(jù)的復(fù)雜性進(jìn)行適當(dāng)選擇。非線性部分單指標(biāo)用樣條基系數(shù)α值為:α=(0.947 0,0.728 0,0.459 4,-0.054 0,-0.734 6,-0.834 9,-0.583 2,-0.609 6,-0.786 0,-0.995 9,-1.210 3,-1.425 4)。圖2是單指數(shù)項(xiàng)的未知函數(shù)η(·)的估計(jì)曲線,可以看出η(·)存在非常強(qiáng)烈的非線性模式。年份、白細(xì)胞、總蛋白和高密度脂蛋白作為非線性部分,單指標(biāo)整體對患BPH的影響在不同的持續(xù)時間內(nèi)并不恒定。結(jié)合表3中非線性分量估計(jì)可以分析觀察到TP、HDL的估計(jì)系數(shù)為負(fù),這2個預(yù)測變量是單指標(biāo)部分的重要因素,HDL影響次之??偟膩碚f,當(dāng)線性部分的5個指標(biāo)“AGE”、“PSA”、“Glu”、“SBP”、“ALT”均保持不變時,圖2中由η(·)的估計(jì)曲線可以觀察到一個整體趨勢是開始的時候急劇下降,結(jié)束時反而急劇增加的趨勢,波動并在中間區(qū)間范圍內(nèi)相對穩(wěn)定。非線性部分的單指標(biāo)整體趨勢是呈現(xiàn)前期波動相對較小,YEAR、WBC、TP、HDL對BPH的患病率的影響在小范圍內(nèi)波動,也說明高脂血癥在前期對是否患BPH的影響不大;后期大幅上升,YEAR、WBC、TP、HDL對BPH的患病率的影響急劇增加,隨著年份的推移,高脂血癥在前期對是否患BPH的影響愈漸顯著。
在體檢隊(duì)列的相關(guān)研究中,常用的處理方法是GLMM,所以如下構(gòu)建GLMM對相同的數(shù)據(jù)集做BPH與MS之間的相關(guān)性分析,以此來探討GPLSIM在重復(fù)測量數(shù)據(jù)中的適用性。
β=(β1,β2,…,βp)T是未知固定效應(yīng),ui=(ui1,ui2,…,uiq)T是未知隨機(jī)效應(yīng),上述篩選出的協(xié)變量向量為Xij=(Xij1,Xij2,…,Xijp)T,Zij=(Zij1,Zij2,…,Zijq)T,是已知向量。在滿足低次項(xiàng)顯著的情況下,由零模型逐一納入高次項(xiàng)或者從全模型篩選顯著的高次項(xiàng)[14]。得到最優(yōu)結(jié)果可知,在只有分析指標(biāo)變動,其余指標(biāo)不變的情況下,年齡高于79歲的體檢者患BPH的幾率比低于79歲的體檢者高44.7%,對比GPLSIM分析得到的結(jié)果相對而言高8.6%;PSA>3.9 ng/mL的體檢者患BPH的幾率比PSA≤3.9 ng/mL的體檢者高58.8%,對比GPLSIM分析得到的結(jié)果相對而言高3.0%;SBP每增加約31 mmHg,患BPH的幾率是原來的1.225倍;對比GPLSIM分析得到的結(jié)果基本一致。Glu>5.29 mmol/L的體檢者患BPH的幾率比Glu≤5.29 mmol/L的體檢者高23.7%,對比GPLSIM分析得到的結(jié)果相對而言低2.86%;WBC每增加約3×109L-1,患BPH的幾率是原來的0.836倍。ALT、HDL、TP、Year 4個指標(biāo)存在交互作用,ALT、WBC的OR<1,與BPH患病率呈現(xiàn)負(fù)相關(guān)。個體和年份的隨機(jī)效應(yīng)的估計(jì)方差分別為1.407、0.453,并且個體的隨機(jī)效應(yīng)伴隨著年齡的隨機(jī)斜率。
由靈敏度、特異度、精確率、召回率、正確率5個指標(biāo)來反映GPLSIM和GLMM模型的預(yù)測能力,得到的結(jié)果如表4所示。
表4 模型預(yù)測的評價指標(biāo)
在研究GPLSIM和GLMM模型的預(yù)測能力時,將數(shù)據(jù)集分成了訓(xùn)練集和測試集的。訓(xùn)練集與測試集的劃分比是8∶2。對于模型預(yù)測部分,采用的是一次劃分的結(jié)果,因?yàn)閿?shù)據(jù)量較小,使用一次劃分更適合,所需的計(jì)算資源和時間相對較少。
由表4可得GPLSIM的預(yù)測正確率比GLMM高6.134%。含有交互作用的GLMM預(yù)測的靈敏度為77.505%,特異度為72.592%,正確率為75.139%。雖然GLMM分類正確率明顯優(yōu)于無信息比率51.836%以及隨機(jī)比例猜測50.067%,但是整體模型的預(yù)測評價指標(biāo)均低于GPLSIM,并且,廣義部分線性模型比廣義線性混合模型有更好的擬合度,調(diào)整R方相對來說高出0.51%。由于其存在類別變量、交乘項(xiàng),所以GLMM解釋性較弱,GLMM通常用于解釋數(shù)據(jù)的個體差異,而難以解釋整體趨勢。只能通過邊際效應(yīng)來探求自變量變化對因變量變化的影響作用或分析比較不同情況時的因變量預(yù)測邊際值的大小。因此,它不適用于探索數(shù)據(jù)的整體模式或結(jié)構(gòu)。而GPLSIM卻能夠很好地如圖2那樣呈現(xiàn)數(shù)據(jù)的整體趨勢。
綜上所述,GPLSIM和GLMM都是常用的廣義線性模型的擴(kuò)展,GPLSIM的最大優(yōu)勢在于避免了對數(shù)據(jù)分布的任何假設(shè),更具有魯棒性。這種方法還能夠解決數(shù)據(jù)中存在的非線性關(guān)系問題,將自變量的影響分解為線性和非線性部分,從而更好地理解變量之間的關(guān)系。
結(jié)合930例體檢者的2006—2014年的B型超聲結(jié)果可得,112例BPH患者同時患有脂肪肝;209例BPH患者同時患有腎囊腫;31例BPH患者存在膽囊缺如的情況;185例BPH患者同時患有肝囊腫;336例BPH患者有膽道疾病;74例BPH患者是肥胖體(BMI≥28 kg/m2)。所以ALT指標(biāo)在本研究的回歸模型中受到了其他疾病的影響,并不能直接說明ALT下降會導(dǎo)致患BPH的幾率增加。PSA異?;蛘呖崭寡瞧?患BPH的概率明顯增加。血清ALT是反映肝細(xì)胞受損的指標(biāo),非特異性的ALT升高是臨床上常見的現(xiàn)象[15]。而WBC是體內(nèi)慢性炎癥的傳統(tǒng)指標(biāo)。有前瞻性研究表示,ALT、WBC與MS大部分臨床特征相關(guān),是臨床上非常經(jīng)濟(jì)適用的指標(biāo)[16]。ALT及WBC的升高并非器官的專一性,且其檢測結(jié)果受很多因素的影響,導(dǎo)致檢測結(jié)果不太穩(wěn)定。如果可以闡明ALT、WBC與BPH及MS的相關(guān)性,那么ALT、WBC對防治BPH和MS的發(fā)生具有重要的意義。WBC升高見于很多非感染性炎癥疾病以及代謝綜合征等,本研究中WBC與MS呈現(xiàn)負(fù)相關(guān),在納入分析的患者疾病史中表現(xiàn)在其他非感染性炎癥等疾病上[17]。
近年來,較多的研究認(rèn)為MS或其組分可能對前列腺增生的發(fā)展起促進(jìn)作用。BPH嚴(yán)重影響了男性老年群體的生活[18]。所以,研究BPH與MS的相關(guān)性,確立準(zhǔn)確的預(yù)測模型以便檢測BPH病發(fā)風(fēng)險并及時治療非常必要,具有巨大的醫(yī)療價值和潛在的經(jīng)濟(jì)價值。關(guān)于BPH與MS之間的研究,我國尚無大樣本、長隨訪時間、前瞻性隊(duì)列研究。本研究基于930人2006—2014年的不等距測量的5 583條記錄,建立GPLSIM來探究BPH與MS之間的相關(guān)性。結(jié)果也表明高血壓、高密度脂蛋白、高血糖等代謝異常是BPH的危險因素。
但是在不平衡的稀疏縱向數(shù)據(jù)下,所研究模型的適用性存在問題。另一個可能的主題是縱向數(shù)據(jù)的廣義部分線性單指數(shù)模型的變量選擇,仍然存在將它們從線性部分區(qū)分為單指標(biāo)部分的問題[19]。在實(shí)際情況中,預(yù)測變量的維數(shù)相當(dāng)大,這就導(dǎo)致“維數(shù)禍根”,Y關(guān)于X的組成部分的函數(shù)變化的情況很復(fù)雜,使得建模具有挑戰(zhàn)性。可以考慮將亞組識別運(yùn)用到二分類的高維縱向數(shù)據(jù)中,如段謙等構(gòu)建了一種數(shù)據(jù)驅(qū)動的亞組識別方法[20]。降維的目的是在擬合模型之前降低回歸或者分類問題的復(fù)雜性[21]。在現(xiàn)實(shí)生活中,相對來說比較穩(wěn)健的回歸模型的制定會受到諸如回歸方程、變量選擇、懲罰函數(shù)等約束。所以,廣義部分線性單指標(biāo),以及將其拓展到廣義多指標(biāo)等問題都值得在未來深入研究。