謝雁鳴 蔡博婧 田 峰 易丹輝 虞 鯤 康 澍 李建鵬 崔慶榮
絕經(jīng)后骨質(zhì)疏松癥(postmenopausal osteoporosis,PMOP)是目前患病率最高的慢病之一,在40~65歲婦女中有很高的患病率。如何判別PMOP的發(fā)生風(fēng)險(xiǎn),針對(duì)其危險(xiǎn)因素采取有效的預(yù)防性干預(yù)措施,是防治PMOP的關(guān)鍵。由于中醫(yī)證候要素的復(fù)雜性,以及危險(xiǎn)因素與骨密度(bone mineral density,BMD)定性診斷之間可能存在著某種非線性關(guān)系,運(yùn)用logistic回歸模型等線性模型擬合效果不佳。廣義偏線性模型(generalized partial linear model,GPLM)是廣義線性模型(generalized linear model,GLM)的擴(kuò)展,有機(jī)結(jié)合廣義線性模型的優(yōu)點(diǎn)與連續(xù)數(shù)值變量的非參數(shù)特點(diǎn),增加判別模型的靈活性,避免因非參數(shù)形式過多而造成的估計(jì)困難,可以清楚地展示出特定變量的非線性作用。本文運(yùn)用GPLM進(jìn)行40~65歲絕經(jīng)后骨質(zhì)疏松癥風(fēng)險(xiǎn)判別模型探索性研究。
1.資料來(lái)源 2009年3月至8月,在上海市和北京市社區(qū)進(jìn)行PMOP高危人群篩選,對(duì)符合納入標(biāo)準(zhǔn)的人員進(jìn)行現(xiàn)場(chǎng)問卷調(diào)查。研究人員在上海社區(qū)發(fā)放問卷1101份,返回問卷1027份,其中合格問卷1001份,占90.92%;在北京社區(qū)發(fā)放問卷800份,返回問卷763份,其中合格問卷739份,占92.38%。
2.研究方法
(1)PMOP調(diào)查問卷的設(shè)計(jì)
在課題組前期研究基礎(chǔ)上,根據(jù)量表學(xué)和臨床流行病學(xué)方法,結(jié)合骨質(zhì)疏松癥專家的臨床經(jīng)驗(yàn),制定了《40~65歲婦女骨質(zhì)疏松危險(xiǎn)因素及證候調(diào)查問卷》。整個(gè)問卷包括一般信息、生活習(xí)慣、發(fā)病相關(guān)因素、軀體狀況、臨床體征等五個(gè)領(lǐng)域的內(nèi)容,共65個(gè)條目,為封閉式設(shè)計(jì)。在調(diào)查實(shí)施前,由獨(dú)立的中國(guó)中醫(yī)科學(xué)院中醫(yī)臨床基礎(chǔ)醫(yī)學(xué)研究所倫理委員會(huì)對(duì)問卷內(nèi)容進(jìn)行論證,認(rèn)為符合醫(yī)學(xué)倫理要求。
(2)調(diào)查人群篩選標(biāo)準(zhǔn)
納入標(biāo)準(zhǔn) ①女性;②年齡40~65歲;③意識(shí)清楚,可用言辭表達(dá),有閱讀能力,與調(diào)查人員溝通無(wú)障礙者;④經(jīng)調(diào)查人員說明研究目的后,本人愿意接受問卷調(diào)查和BMD檢測(cè),并在“卷首頁(yè)”簽名同意者。
排除標(biāo)準(zhǔn) ①藥物或其他疾病(如糖尿病、化膿性脊髓炎、腎炎、甲亢等)引起的繼發(fā)性骨質(zhì)疏松癥;②有惡性腫瘤、痛風(fēng)、類風(fēng)濕性關(guān)節(jié)炎等疾病,影響中醫(yī)證候判斷者;③精神障礙、認(rèn)知障礙者。
(3)PMOP診斷標(biāo)準(zhǔn)
根據(jù)《中醫(yī)內(nèi)科常見病診療指南:西醫(yī)疾病部分》〔1〕中的 PMOP定性診斷標(biāo)準(zhǔn),取腰椎 L1-L4、股骨頸、股骨全區(qū)3個(gè)部位的最小T值,T值≥M-1SD為骨量正常,M-1SD~-2.0SD為骨量減少,≤M-2.0SD以上為骨質(zhì)疏松癥。
(4)統(tǒng)計(jì)分析方法和軟件
運(yùn)用前期分析篩選出與PMOP發(fā)病相關(guān)的重要危險(xiǎn)因素和中醫(yī)癥狀為協(xié)變量,以BMD定性診斷為結(jié)局變量(骨量正常和骨質(zhì)疏松),建立基于 GPLM的PMOP判別模型。數(shù)據(jù)建模通過SAS 9.2實(shí)現(xiàn)。
Marlene Muller〔2〕對(duì) GPLM 進(jìn)行了較為詳細(xì)的介紹,模型公式為:
其中,G(·)為連接函數(shù);U表示一個(gè)含有有限的p個(gè)協(xié)變量的向量,可以包含分類數(shù)值協(xié)變量和連續(xù)數(shù)值協(xié)變量,主要構(gòu)成模型中的參數(shù)部分;T是一個(gè)含有q個(gè)由連續(xù)數(shù)值變量構(gòu)成的協(xié)變量向量,m(T)為模型中的非線性部分。
當(dāng)結(jié)局變量Y為取值0或1的二分類變量時(shí),參數(shù)部分的協(xié)變量矩陣為U,非參數(shù)部分只有一個(gè)協(xié)變量T時(shí),GPLM模型可以寫作:
其中,P表示在給定U和T下結(jié)局變量Y取值為1的概率。
1.GPLM模型非參數(shù)部分的選擇
多項(xiàng)logit模型篩選出來(lái)的西醫(yī)危險(xiǎn)因素和支持向量機(jī)方法篩選出來(lái)的中醫(yī)癥狀變量中,肉類膳食、魚類膳食、飲用咖啡、是否變矮、是否絕經(jīng)、畏寒、目睛干澀、齒搖、納呆、腹脹、胸脅苦滿、夜尿次數(shù)、下肢抽筋、下肢骨痛等是二分類變量,每天鍛煉時(shí)間、懷孕次數(shù)、生產(chǎn)次數(shù)、骨折次數(shù)、駝背是多分類等級(jí)變量,考慮其與BMD定性診斷呈線性關(guān)系,放入?yún)?shù)部分。年齡、體重指數(shù)和絕經(jīng)年限是連續(xù)性數(shù)值變量,可能與BMD定性診斷之間存在非線性關(guān)系。為探索其非線性效應(yīng),運(yùn)用SAS 9.2軟件PROC GAM過程步對(duì)三個(gè)變量的非參數(shù)形式分別進(jìn)行檢驗(yàn),設(shè)置method=gcv,plots=components(commonaxes),epsscore=1e-6,結(jié)果見表1。
表1 GPLM模型非參數(shù)變量的檢驗(yàn)
年齡和體重指數(shù)檢驗(yàn)的值均接近0,且P值缺失,說明這兩個(gè)變量與BMD定性診斷沒有明顯的非線性關(guān)系,而絕經(jīng)年限與BMD定性診斷間存在明顯的非線性效應(yīng),因此將絕經(jīng)年限設(shè)為GPLM模型的非參數(shù)部分,年齡和體重指數(shù)則放入?yún)?shù)部分。
2.GPLM模型參數(shù)部分估計(jì)
按α=0.05的標(biāo)準(zhǔn),對(duì)于參數(shù)部分變量運(yùn)用“逐步后退法”剔除,直到所有的參數(shù)估計(jì)都通過假設(shè)檢驗(yàn),GPLM模型參數(shù)部分的估計(jì)結(jié)果見表2。
從表2中可知,體重指數(shù)的系數(shù)為-0.15805,與PMOP的發(fā)生風(fēng)險(xiǎn)呈負(fù)相關(guān),體重指數(shù)每增加1,發(fā)生PMOP的風(fēng)險(xiǎn)概率是增加之前的Exp(-0.15805)=0.85381倍。是否絕經(jīng)、下肢抽筋和下肢骨痛的系數(shù)分別為:1.14182,0.36149和0.32267,與 PMOP的發(fā)生風(fēng)險(xiǎn)呈正相關(guān);已絕經(jīng)婦女發(fā)生PMOP的風(fēng)險(xiǎn)概率是未絕經(jīng)婦女的Exp(1.14182)=3.1325倍;有“下肢抽筋”癥狀的婦女發(fā)生骨質(zhì)疏松的概率比沒有該癥狀的婦女要高,比值比(odds ratio,OR)=Exp(0.36149)=1.4355;有“下肢骨痛”癥狀的婦女發(fā)生PMOP的風(fēng)險(xiǎn)概率比沒有該癥狀的婦女要高,OR=Exp(0.32267)=1.3808。
表2 GPLM模型線性部分參數(shù)估計(jì)
3.GPLM模型非參數(shù)部分估計(jì)
經(jīng)檢驗(yàn)絕經(jīng)年限對(duì)在模型中的非線性效應(yīng)具有統(tǒng)計(jì)意義(χ2=13.5948,P=0.0012)。
為直觀展現(xiàn)“絕經(jīng)年限”對(duì)PMOP發(fā)生風(fēng)險(xiǎn)概率的非線性效應(yīng),繪制smoothing component plots圖,如圖1所示。
圖1 絕經(jīng)年限的非線性效應(yīng)圖
4.GPLM模型的判別效果
接收者工作特征曲線(receiver operating characteristic curve,ROC)因其不受患病率和診斷截?cái)嘀档挠绊?、且綜合了靈敏度和特異度兩個(gè)指標(biāo),成為評(píng)價(jià)診斷試驗(yàn)準(zhǔn)確度的最佳指標(biāo)〔3〕。通過ROC曲線下面積(area under the ROC curve,AUC)可以直接反映診斷試驗(yàn)價(jià)值的大小〔4〕。這里運(yùn)用ROC曲線來(lái)評(píng)價(jià)模型的判別準(zhǔn)確性。用“是否絕經(jīng)”、“下肢抽筋”、“下肢骨痛”“體重指數(shù)”4個(gè)危險(xiǎn)因素和中醫(yī)癥狀作為協(xié)變量,與結(jié)局變量(BMD定性診斷)擬合線性logistic回歸模型,其AUC值為0.7536。擬合GPLM模型時(shí)加入了“絕經(jīng)年限”的非線性效應(yīng),其AUC值為0.7971,提高了PMOP高危人群發(fā)病風(fēng)險(xiǎn)的判別準(zhǔn)確率,見表3。
表3 兩種模型的ROC曲線比較分析
經(jīng)檢驗(yàn),帶有非線性效應(yīng)的GPLM模型要優(yōu)于線性 logistic回歸模型(χ2=21.9162,P <0.001),見圖2。
圖2 logistic模型和GPLM模型的ROC曲線比較圖
1.GPLM 模型的優(yōu)點(diǎn)
在醫(yī)學(xué)研究中,GLM 模型〔5-7〕根據(jù)相關(guān)影響因素建立結(jié)局事件的判別模型,其應(yīng)用前提是事先假定協(xié)變量與結(jié)局變量為直線關(guān)系,會(huì)忽略協(xié)變量與結(jié)局變量之間可能存在的非線性效應(yīng),得到不可靠的參數(shù)估計(jì)結(jié)果。GPLM是一種半?yún)?shù)模型,能夠準(zhǔn)確描述協(xié)變量與結(jié)局變量之間的關(guān)系,通過納入與結(jié)局變量之間存在非線性關(guān)系的連續(xù)數(shù)值協(xié)變量,增加模型的判別準(zhǔn)確性,又不會(huì)帶來(lái)因非參數(shù)形式過多而造成的估計(jì)困難,可以清楚地展示出特定變量的特殊效應(yīng),若以線性形式假定,則不能發(fā)現(xiàn)這種效應(yīng)。將西醫(yī)危險(xiǎn)因素(是否絕經(jīng)和體重指數(shù))和中醫(yī)癥狀(下肢抽筋和下肢骨痛)作為線性變量,以非參數(shù)的形式靈活地處理絕經(jīng)年限這個(gè)非線性變量,建立基于GPLM的可以反映中醫(yī)病證結(jié)合特點(diǎn)的PMOP判別模型,從AUC值來(lái)看,在絕年限存在非線性效應(yīng)的情況下,運(yùn)用GPLM可以更準(zhǔn)確地判別PMOP高危人群的發(fā)病風(fēng)險(xiǎn)。
2.GPLM 模型的不足
GPLM屬于半?yún)?shù)模型中的一種特殊形式,更適合處理非參數(shù)部分只有一個(gè)變量的情況,當(dāng)實(shí)際問題中所需要估計(jì)的非參數(shù)部分多于1個(gè)變量時(shí),可以考慮運(yùn)用廣義可加模型〔8〕。本研究中只有“絕經(jīng)年限”存在非線性效應(yīng),所以運(yùn)用GPLM模型是合適的。但是,由于現(xiàn)有的GPLM模型擬合和檢驗(yàn)只限于兩分類結(jié)局變量,尚無(wú)法實(shí)現(xiàn)對(duì)三分類結(jié)局變量判別模型的擬合,因此本研究只能對(duì)骨量正常和骨質(zhì)疏松兩部分人群進(jìn)行PMOP判別模型建構(gòu),尚未能納入骨量減少人群的數(shù)據(jù),因此在PMOP高危人群不同骨量狀態(tài)的判別上存在一定的局限性。同時(shí),現(xiàn)有的ROC曲線擬合方法也是針對(duì)兩分類結(jié)局變量數(shù)據(jù),目前尚無(wú)成熟的針對(duì)三分類結(jié)局變量判別模型的ROC曲線擬合方法,這些問題有待今后進(jìn)一步探索研究。
1.中華中醫(yī)藥學(xué)會(huì).中醫(yī)內(nèi)科常見病診療指南:西醫(yī)疾病部分.北京:中國(guó)中醫(yī)藥出版社,2008:242-245.
2.Müller M.Estimation and testing in generalized partial linear models—a comparative study.Statistics and Computing,2001,11(4):299-309.
3.宋花玲.ROC曲線的評(píng)價(jià)研究及應(yīng)用.上海:第二軍醫(yī)大學(xué),2006.
4.方積乾.醫(yī)學(xué)統(tǒng)計(jì)學(xué)與電腦試驗(yàn).上海:上??茖W(xué)技術(shù)出版社,2001:449.
5.Nevill A M,Copas J B.Using generalized linear models(GLMs)to model errors in motor performance.J Mot Behav,1991,23(4):241-250.
6.Zheng B,Agresti A.Summarizing the predictive power of a generalized linear model.Stat Med,2000,19(13):1771-1781.
7.Pan W.Application of conditional moment tests to model checking for generalized linear models.Biostatistics,2002,3(2):267-276.
8.賈彬.廣義可加模型及其在醫(yī)學(xué)中的應(yīng)用.山西醫(yī)科大學(xué),2005.