陸 姣 王 媛 袁 媛
【提 要】 目的 應用不同方法識別慢性病疾病組合模式并比較其應用效果。方法 利用中國健康與養(yǎng)老追蹤調(diào)查數(shù)據(jù),分別用潛類別分析(latent class analysis,LCA)、合并多元對應分析和模糊C-means聚類的組合聚類法(combinatorial clustering,CC)、雙向聚類法(two-way clustering framework,TCF)識別多病共存患者的慢性病疾病組合模式。同時,根據(jù)各方法中所納入疾病數(shù)量多少、是否排除隨機組合及其所識別出疾病組合模式的描述指標進行方法比較。結(jié)果 LCA能夠明確疾病組合模式中各類疾病的概率分布,但納入疾病數(shù)量過多容易導致疾病模式劃分不清晰。CC基于患病率識別疾病組合模式,不要求納入的疾病數(shù)量且能夠描述不同疾病模式中各個疾病的患病情況。TCF能夠不受所納入疾病數(shù)量的影響而最大化保留疾病模式間的相互獨立性。此外,僅TCF可以評判疾病組合模式中疾病間的關聯(lián)強度并有效排除隨機的疾病組合模式。結(jié)論 LCA適用于納入疾病數(shù)量較少的臨床研究,CC適用于社區(qū)多病共存的流行病學調(diào)查,而TCF更適用于不需進行個體特異性評估的大規(guī)模調(diào)查。
慢性病患者中多病共存情況日益嚴重。多病共存意味著患者病情的遷延不愈,不僅給臨床決策、治療與干預帶來了諸多困難,而且成為了醫(yī)療資源的消耗“黑洞”。通常情況下,多病共存需要多藥治療,容易產(chǎn)生同一適應癥重復用藥、忽視潛在藥物配伍禁忌等不合理用藥問題,進而增加藥物不良反應的發(fā)生風險。如果缺乏及時有效的干預,這種潛在風險將極大地增加慢性病給患者造成的身心損害和經(jīng)濟負擔[1]。事實上,多病共存患者所患有的多種慢性病之間可能存在一定的相關關系,并呈現(xiàn)出特定的疾病組合模式,對其進行識別,有助于臨床醫(yī)生預測患者所患疾病的發(fā)展方向,并為患者制定合理的干預和治療方案。近年來,學者嘗試將潛類別分析(LCA)、合并多元對應分析(multiple correspondence analysis,MCA)和模糊C-means聚類(fuzzy C-means algorithm,F(xiàn)CM),以及雙向聚類法(TCF)應用于慢性病疾病組合模式的識別研究中,本文擬通過系統(tǒng)比較上述方法,為有效識別慢性病疾病組合模式提供依據(jù)。
潛類別分析(latent class analysis,LCA)通過潛在類別(class)變量解釋外顯指標間的關聯(lián)[2],即外顯變量各種反應的概率分布可以由少數(shù)互斥的潛在類別變量解釋[3],根據(jù)個體在觀測項目上的反應模式將其分類[4]。分析時限制各潛在類別的概率總和及每個外顯變量的條件概率總和均為1,確定最優(yōu)擬合模型后,依據(jù)貝葉斯后驗概率識別每個個體的潛類別屬性。
貝葉斯后驗概率的公式為:
組合聚類法(CC)是在多元對應分析(multiple correspondence analysis,MCA)的基礎上運用模糊C-means聚類(fuzzy C-means algorithm,F(xiàn)CM)識別疾病組合特征并劃分個體類別的組合方法[5]。首先,采取多元對應分析描述分類變量的交互匯總并揭示不同變量或同一變量中各類別之間的對應關系[6],識別可能存在關聯(lián)的疾病組合,并得到模糊C-means聚類中進行個體分類的輸入數(shù)據(jù)。其次,從已有的幾何空間出發(fā),事先給定聚類中心個數(shù),以極小化所有數(shù)據(jù)點到各個聚類中心的距離及隸屬度值的加權和為優(yōu)化目標,按照模糊集合中的最大隸屬原則將個體歸類。最后,使用每一類個體的患病數(shù)據(jù)描述不同類別的疾病組合模式特征。
雙向聚類法(two-way clustering framework,TCF)是由Ng于2014年確定的一種允許重復聚類的兩步疾病組合識別法,即先確定不重復的非隨機疾病組合群,再根據(jù)各非隨機疾病組合在人群中的分布特征,通過廣義伯努利分布的混合模型將個體分為不同類別[7]。
具體聚類過程如下:
(1)用n×p的(0,1)矩陣描述個體的患病情況,n和p分別表示個體人數(shù)和疾病數(shù)量,每行表示一個個體,每列表示一種疾??;
(2)用p×p的對稱矩陣,通過非對稱的Somers’D統(tǒng)計量量化非隨機疾病組合中所有成對疾病的關聯(lián)程度;
(3)用p×p的(0,1)對稱矩陣,采用Benjamini-Hochberg法評估非隨機疾病組合中所有成對疾病關聯(lián)的顯著性;
(4)通過聚類和轉(zhuǎn)換程序?qū)⒚糠N疾病(列)劃分到N個不重疊的疾病組合中;
(5)生成n×N的(1,2,3)矩陣表示每個個體在N個疾病組合中的患病程度,1代表個體未患第i個疾病組合中的任何疾病,2代表個體患有第i個疾病組合中的一種疾病,3則代表個體患有第i個疾病組合中的≥2種疾病(i=1,2,…,N);
(6)利用廣義伯努利分布的混合模型將n個個體劃分為不重疊的類。
本研究中的數(shù)據(jù)來源于中國健康與養(yǎng)老追蹤調(diào)查(China Health and Retirement Longitudinal Study,CHARLS)。以2018年實際受訪人群為研究對象,篩選14種慢性病(高血壓、血脂異常、糖尿病/血糖升高、癌癥等惡性腫瘤、慢性肺部疾患、肝臟疾病、心臟病、中風、腎臟疾病、胃部疾病/消化系統(tǒng)疾病、情感及精神方面問題、與記憶相關的疾病、關節(jié)炎/風濕病、哮喘)患病情況均有填答的樣本進行分析,共納入19745名個體。其中,4137名未患任何慢性病(20.95%),4667名患有1種慢性病(23.64%),患2種及以上慢性病的個體共10941名(55.41%)。19745名個體的慢性病患病情況如圖1所示。
圖1 19745名個體的慢性病患病情況
針對10941名患2種及以上慢性病患者的患病情況建立(0,1)矩陣,利用國際主流潛變量建模軟件Mplus 7.4,采用莫代爾分配法,根據(jù)個體后驗概率的最大值識別個體歸屬的疾病組合。綜合1~7個類別模型中的AIC、BIC、aBIC值(表1)與陡坡圖(圖2)確定最優(yōu)類別數(shù)為5[2],同時5類別模型的Entropy值為0.671,表明此模型分類的精確性最高。結(jié)果顯示,5個類別中個體(行)歸屬于各自潛在類別的平均概率(列)為64.60%~82.40%,且根據(jù)應答概率圖可知(圖3),第1類群體患高血壓、心臟病、關節(jié)炎/風濕病的概率約為80%,同時約有70%的可能性患血脂異常、胃部疾病/消化系統(tǒng)疾病,并伴隨慢性肺部疾患和腎臟疾病,可將此疾病組合命名為“高血壓、心臟病、關節(jié)炎/風濕病為主的疾病組合”(6.28%);第2類群體中約有80%的概率患高血壓,且患血脂異常的概率接近60%,可將其命名為“高血壓為主,并伴隨血脂異常的疾病組合”(40.35%);第3類群體患慢性肺部疾病的概率接近90%,同時約有50%的可能性患有關節(jié)炎/風濕病和哮喘,可稱其為“慢性肺部疾患為主,伴隨關節(jié)炎/風濕病和哮喘的疾病組合”(12.48%);第4類群體中胃部疾病/消化系統(tǒng)疾病、關節(jié)炎/風濕病的患病概率分別在70%、80%左右,可將其命名為“胃部疾病/消化系統(tǒng)疾病和關節(jié)炎/風濕病為主的疾病組合”(33.88%);第5類群體中高血壓、關節(jié)炎/風濕病的患病率均接近100%,可將其命名為“高血壓和關節(jié)炎/風濕病為主的疾病組合”(7.01%)。
表1 LCA模型擬合信息匯總表
圖2 LCA信息指數(shù)陡坡圖
圖3 LCA各類別的應答概率圖
針對10941名患2種及以上慢性病患者的患病情況建立(1,2)矩陣,采用SPSS 21.0進行MCA。結(jié)果顯示,兩個維度分別能解釋數(shù)據(jù)變異的12.09%和10.90%,且總信度為0.81,處于較好水平(表2)。在此基礎上,利用Matlab 9.6軟件進行FCM對個體進行聚類,并進行100次迭代以去除聚類結(jié)果的隨機成群效應。當結(jié)果中觀察/預期比i≥2或疾病特異度ii≥25%時,一種疾病即被視為與特定疾病組合相關(i指一類群體中某種疾病的患病率與整個樣本中該疾病的患病率之比;ii指一類群體中某種疾病的患者數(shù)與整個樣本中該疾病的患者數(shù)之比)。最終確定4類疾病組合,第1類疾病組合(C1)由癌癥等惡性腫瘤、慢性肺部疾患、肝臟疾病、腎臟疾病、胃部疾病/消化系統(tǒng)疾病、關節(jié)炎/風濕病組成;第2類疾病組合(C2)包括高血壓、血脂異常、癌癥等惡性腫瘤、胃部疾病/消化系統(tǒng)疾病、關節(jié)炎/風濕?。坏?類疾病組合(C3)則由慢性肺部疾患、肝臟疾病、心臟病、腎臟疾病、情感及精神方面問題、與記憶相關的疾病、哮喘構(gòu)成;第4類疾病組合(C4)包括高血壓、血脂異常、糖尿病/血糖升高、心臟病、中風、與記憶相關的疾病。每種疾病組合中的慢性病特征見圖4。
表2 MCA模型匯總表
圖4 CC識別出的疾病組合模式特征
建立針對所有人群的(0,1)矩陣,通過R軟件確定9個重疊的疾病組合簇(表3),通過比較不同疾病組合中重復出現(xiàn)的疾病與每個疾病組合的關聯(lián)強度,將重復疾病劃分到與其相關性最高的疾病組合中,9個重疊的簇進而轉(zhuǎn)化為3個不重疊的疾病組合(G1-G3)(表4)。其中,G1包含了“高血壓、血脂異常、糖尿病/血糖升高、心臟病、中風、與記憶相關的疾病”,G2包含了“慢性肺部疾患、肝臟疾病、腎臟疾病、哮喘”,G3包含了“胃部疾病或消化系統(tǒng)疾病、情感及精神方面問題、關節(jié)炎/風濕病”。在此基礎上對個體進行聚類,利用貝葉斯信息準則選擇5類別模型為最優(yōu)模型(圖5),并基于如下設定描述群體類別:(1)個體未患特定疾病組合中的疾病,則其與該疾病組合為低度關聯(lián);(2)個體患有特定疾病組合中的一種疾病,則其與該疾病組合為中度關聯(lián);(3)個體患有特定疾病組合中2種以上疾病,則其與該疾病組合為高度關聯(lián)。最終所分類的人群中,第1類人群高度關聯(lián)G3,第2類人群高度關聯(lián)G1并中度關聯(lián)G2,第3類人群中度關聯(lián)G3,第4類人群低度關聯(lián)G1、G2和G3,第5類人群則高度關聯(lián)G1和G3。
表3 TCF識別出的9個重疊的疾病組合
表4 TCF識別出的3個不重疊的疾病組合
識別慢性病疾病組合模式對個體多病共存的干預與治療具有重要意義。疾病組合模式的識別既要盡可能保證同一疾病能夠出現(xiàn)在不同疾病組合模式中,也要確保不同疾病組合模式間的相互獨立性。更為重要的是,所識別的疾病組合模式應具有非隨機性。本文通過比較LCA、CC和TCF三種方法發(fā)現(xiàn),這些方法各具優(yōu)劣,分別適用于不同的研究環(huán)境中。LCA能夠定量描述疾病組合模式,了解各類疾病組合在人群中分布情況的同時明確組合中各類疾病的概率分布。但是,潛類別分類個數(shù)的確定是實際應用中的一個難點[2]。此外疾病數(shù)量越多,疾病組合模式可能越復雜,解釋難度也會相應地增加,同時LCA需要足夠大的樣本量支撐模型分類的精確性,因此該方法更適合于納入疾病數(shù)量較少的臨床研究中。結(jié)合MCA和FCM的CC彌補了單一MCA的分類結(jié)果不具有統(tǒng)計學意義的缺陷,而且其突破了變量個數(shù)的限制,能夠根據(jù)最大隸屬原則將樣本分類。但是,該方法基于每種疾病的患病率描述疾病組合,難以排除疾病組合模式的隨機性,更適用于社區(qū)多病共存的流行病學調(diào)查。TCF一方面能夠通過利用非對稱的Somers’D統(tǒng)計量與Benjamini-Hochberg程序有效避免疾病變量間的共線性問題[8],并有效排除隨機的疾病組合模式;另一方面能夠評判疾病組合模式中疾病間的關聯(lián)強度,且不受所納入疾病數(shù)量的影響而最大化保留疾病模式間的相互獨立性。但是,該方法無法將個體劃分到一個具體的疾病組合模式中,且要求納入的疾病數(shù)量≥10種,更適用于不需對個體進行特異性評估的大規(guī)模調(diào)查。
圖5 TCF識別出的5類人群的疾病組合特征
綜上所述,三種方法均實現(xiàn)了疾病組合模式與人群歸屬類別的識別,但在實際應用中,應根據(jù)研究目的的不同選擇適宜的方法。如果需要明確每個個體所歸屬的特定疾病組合,且所研究的疾病數(shù)量較少,LCA是較為適用的方法;如果研究目的對疾病組合的非隨機性要求較低、對所研究的疾病數(shù)量沒有限制,則CC更為適用;TCF則適用于根據(jù)非隨機的疾病組合模式對大規(guī)模人群分類的研究。