陳婕卿,陳卉
首都醫(yī)科大學(xué) 生物醫(yī)學(xué)工程學(xué)院,北京 100069
綜述
數(shù)據(jù)挖掘在艾滋病臨床診療中的應(yīng)用
陳婕卿,陳卉
首都醫(yī)科大學(xué) 生物醫(yī)學(xué)工程學(xué)院,北京 100069
本文首先介紹數(shù)據(jù)挖掘的基本概念和常用技術(shù),然后對艾滋病臨床診療和藥物配伍等研究中數(shù)據(jù)挖掘技術(shù)的應(yīng)用進(jìn)展進(jìn)行了綜述,說明了數(shù)據(jù)挖掘技術(shù)對艾滋病患者個性化治療方案研究的重要性。
數(shù)據(jù)挖掘;艾滋?。粋€性化治療;藥物配伍
艾滋?。ˋIDS)的病原為人類免疫缺陷病毒(HIV),人體感染HIV后,機(jī)體免疫功能會受到抑制,患者最終會因各種機(jī)會性感染和惡性腫瘤而死亡。據(jù)世界衛(wèi)生組織統(tǒng)計(jì),2010年全世界新增約270萬HIV感染者[1]。我國國家衛(wèi)生和計(jì)劃生育委員會公布的數(shù)據(jù)顯示,截止到2015年10月底,我國存活的HIV感染者和AIDS患者高達(dá)57.5萬人,已死亡患者17.7萬人[2]。可見,AIDS已成為當(dāng)今社會危害最大的傳染病之一。
1996年,美籍華裔科學(xué)家何大一提出“雞尾酒療法”[3],即高效抗逆轉(zhuǎn)錄病毒治療(Highly Active Antiretroviral Therapy,HAART),通過聯(lián)合使用3種或3種以上抗病毒藥物來治療AIDS。盡管HAART不能徹底清除患者體內(nèi)的HIV,但可有效控制病毒復(fù)制擴(kuò)散,延緩疾病進(jìn)展并延長患者壽命,提高患者的生活質(zhì)量。但是,由于患者間存在個體差異,因而需要個性化地確定啟動和終止抗病毒治療的時機(jī)、選擇用藥組合等。
目前,AIDS診斷、干預(yù)、治療的研究進(jìn)入了新的階段,在藥物配伍方案、給藥時機(jī)等方面,國內(nèi)外的研究人員考慮通過數(shù)據(jù)挖掘技術(shù),利用已有的AIDS診療數(shù)據(jù),找出患者各項(xiàng)因素與治療效果之間的關(guān)系[4]。日前,美國總統(tǒng)奧巴馬提出了“精準(zhǔn)醫(yī)療”戰(zhàn)略計(jì)劃,進(jìn)一步凸顯了利用數(shù)據(jù)挖掘技術(shù)對海量臨床數(shù)據(jù)進(jìn)行挖掘整理的重要意義。因此,從大量AIDS臨床診療數(shù)據(jù)中挖掘出有用的信息和知識來指導(dǎo)臨床實(shí)踐,對HIV感染者進(jìn)行積極、有效的個性化治療將成為新的研究熱點(diǎn)。
1989年3月,在美國底特律召開的“第11屆國際人工智能聯(lián)合會議的專題討論會”上,數(shù)據(jù)挖掘(Data Mining)的概念被首次提出[5]。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。根據(jù)數(shù)據(jù)特點(diǎn)或最終目的的不同,在AIDS診療研究中可能涉及的數(shù)據(jù)挖掘技術(shù)主要有3種:分類、關(guān)聯(lián)分析和聚類分析[6-8]。
1.1 分類
分類(Classification)任務(wù)就是通過學(xué)習(xí)得到一個目標(biāo)函數(shù)f(x),把每一個屬性集x映射到一個預(yù)先定義的類標(biāo)號y中。目標(biāo)函數(shù)也稱為分類模型[6]。常用的分類方法包括Logistic回歸、決策樹、人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等。
1.2 關(guān)聯(lián)分析
關(guān)聯(lián)分析(Association Analysis)最初由Agrawal[6,9]提出,它研究隱藏于大量數(shù)據(jù)項(xiàng)之間的關(guān)系,目標(biāo)是以有效的方式提取隱含于海量數(shù)據(jù)中最有用信息的模式。分析過程就是首先找出所有的頻繁項(xiàng)集(事件A中滿足最小支持度的事件稱為頻繁項(xiàng)集),然后由頻繁項(xiàng)集產(chǎn)生強(qiáng)規(guī)則。1994年,Agrawal[9]提出的Apriori算法是挖掘完全頻繁項(xiàng)集中最具有影響力的算法,此外還有寬度優(yōu)先算法和深度優(yōu)先算法等。
1.3 聚類分析
聚類分析(Cluster Analysis)僅根據(jù)在數(shù)據(jù)中發(fā)現(xiàn)的描述對象及其關(guān)系的信息,將數(shù)據(jù)對象分組。其目標(biāo)是使組內(nèi)對象相互之間是相似的,而不同組中的對象是不同的。組內(nèi)的相似度越大,組間差別越大,聚類就越好[6-7]?;趧澐值木垲惙椒ㄒ言谀J阶R別、數(shù)據(jù)挖掘等領(lǐng)域得到廣泛應(yīng)用,這類算法的典型代表包括K均值算法(K-means)和模糊C均值聚類算法(Fuzzy C-means Cluster)。近年來的研究成果主要有密度加權(quán)模糊聚類算法和基于混合距離學(xué)習(xí)的雙指數(shù)模糊C均值算法等。
2.1 數(shù)據(jù)挖掘技術(shù)用于AIDS臨床診療
2.1.1 HIV易感因素分析
Law等[10]收集了4676名AIDS患者的基線數(shù)據(jù),經(jīng)Logistic回歸分析得出結(jié)論:AIDS易感性與是否有男同性接觸、較高的高密度脂蛋白水平、較低的CD4細(xì)胞計(jì)數(shù)和較高的CD4與CD8比值呈正相關(guān)。Reda等[11]對埃塞俄比亞的1540名AIDS患者基本信息數(shù)據(jù)進(jìn)行多因素Logistic回歸分析,得到未婚(OR=1.54)和文盲(OR=1.81)人群更易感染HIV的規(guī)律。韓建超等[12]在AIDS患者CD4+T淋巴細(xì)胞與機(jī)會性感染關(guān)系的應(yīng)用研究中,使用數(shù)據(jù)挖掘中的C4.5決策樹算法對207例AIDS患者進(jìn)行分析,發(fā)現(xiàn)AIDS患者的CD4+T淋巴細(xì)胞的絕對值在5個箱體中的A(0~50)區(qū)間時,合并感染卡氏肺孢子蟲肺炎的機(jī)會將大大增加。
2.1.2 患者治療依從性評價
張冰等[13]調(diào)查了安徽省283名AIDS患者并進(jìn)行問卷調(diào)研,分析患者的藥物治療依從性。通過決策樹和Logistic回歸分析發(fā)現(xiàn):年齡、婚姻狀況、宗教信仰、月收入以及感染途徑這5個因素是治療依從性的影響因素,而性別、民族、文化程度、職業(yè)、抽煙、喝酒、社會關(guān)系網(wǎng)絡(luò)、社會參與對依從性的影響沒有統(tǒng)計(jì)學(xué)意義。Kebede等[14]隨機(jī)抽樣了Gondar大學(xué)附屬醫(yī)院的423名已經(jīng)接受HAART治療的AIDS患者的數(shù)據(jù),通過Logistic回歸將4大類因素(社會人口學(xué)、行為因素、社會心理因素和環(huán)境因素)與患者的服藥依從性之間的關(guān)系進(jìn)行分析,結(jié)果表明患者傾向于通過接收手機(jī)短信提醒的方式來提高依從性,且此法在實(shí)踐中已初見成效。Zhang等[15]調(diào)查我國27504名AIDS患者的隨訪記錄,進(jìn)行多因素Logistic回歸分析發(fā)現(xiàn),錯過早期隨訪的患者人數(shù)占比非常高,且這類人群7年內(nèi)死亡率同樣很高,兩者關(guān)系成正比。
2.1.3 HIV感染者的識別
這類研究中,常選用支持向量機(jī)(Support Vector Machine,SVM)等機(jī)器學(xué)習(xí)方法。吳海磊等[16]在描述性分析的基礎(chǔ)上,應(yīng)用支持向量機(jī)建立HIV感染者的識別模型,以2004~2009年某省口岸在出入境人員中檢出的133例HIV感染者及133例非HIV感染者作為研究對象,利用年齡、性別、國籍、文化程度、職業(yè)、勞務(wù)史、吸毒史、輸血史等建立SVM識別模型,模型識別的總體準(zhǔn)確率為90.0%,靈敏度為90.3%,特異度為90.9%。
吳海磊等[17]對330例感染性病艾滋病的出入境人員和330例非感染出入境人員進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)性病患者與非性病者的年齡、性別、國籍、職業(yè)、文化程度、國內(nèi)外勞務(wù)史、性伴侶數(shù)、病史、不潔性生活史、性伴侶情況的差異有統(tǒng)計(jì)學(xué)意義。通過研究建立隱含層包含7個神經(jīng)元的BP人工神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測,準(zhǔn)確率可達(dá)89.6%。
2.2 數(shù)據(jù)挖掘技術(shù)用于AIDS藥物配伍研究
在我國,艾滋病的治療藥物包括國家規(guī)定的若干種西藥和一些輔助治療的中藥。數(shù)據(jù)挖掘技術(shù)中的分類和聚類方法常用于西藥的藥物配伍研究,而關(guān)聯(lián)規(guī)則挖掘則常用于中藥的配伍研究。仝建波等[18]用三維全息原子場作用矢量(3D-HoVAIF)研究89個四氫咪唑苯二氮卓酮(TIBO)類抗艾滋病藥物的定量構(gòu)效關(guān)系。偏最小二乘回歸和人工神經(jīng)網(wǎng)絡(luò)這兩種方法的建模的復(fù)相關(guān)系數(shù)分別為0.802和0.871,留一法交叉驗(yàn)證的復(fù)相關(guān)系數(shù)分別為0.710和0.864,外部樣本校驗(yàn)的復(fù)相關(guān)系數(shù)分別為0.552和0.760,這表明用3D-HoVAIF表征TIBO類抗艾滋病藥物分子結(jié)構(gòu)信息較好,建立定量構(gòu)效關(guān)系(Quantitative Structure Activity Relationship,QSAR)模型的穩(wěn)定性和預(yù)測能力良好,而且人工神經(jīng)網(wǎng)絡(luò)建模優(yōu)于偏最小二乘回歸及前人報道的多元線性回歸。鄭鳳霞等[19]考慮患者初始狀態(tài)、初始CD4CIM和HIV濃度對患者治療方案的影響,采用聚類分析將實(shí)驗(yàn)數(shù)據(jù)進(jìn)行聚類,然后對每類數(shù)據(jù)采用平滑法進(jìn)行趨勢分析,最后確定出各類患者的最佳治療終止時間和最佳治療方案,為AIDS治療方案的選擇提供了有力依據(jù)。
王丹妮等[20]利用復(fù)雜網(wǎng)絡(luò)(關(guān)聯(lián)規(guī)則)分析方法,研究河南尉氏縣2007年10月~2011年7月間接受李發(fā)枝教授治療過的AIDS皮膚瘙癢患者,分析AIDS患者皮膚瘙癢的病因、名老中醫(yī)辨證論治及用藥規(guī)律,發(fā)現(xiàn)治療AIDS皮膚瘙癢的核心藥物為防風(fēng)、蟬蛻、柴胡等祛風(fēng)解表藥物,甘草等有解毒功效藥物,黃芩、地膚子等清熱利濕藥物,核心處方為荊防敗毒散加減。彭紅等[21]經(jīng)研究認(rèn)為在對艾滋病患者進(jìn)行免疫調(diào)節(jié)的過程中,中醫(yī)藥能夠起到較好的作用,如:顆粒劑中研2號(配伍方式主要是:黃芪、枸杞、人參、升麻、當(dāng)歸、甘草以及柴胡等)。李艷萍等[22]研究發(fā)現(xiàn)治療艾滋病制劑康愛保生丸中既有調(diào)節(jié)免疫的黃芪等中藥,也有抑制病毒的紫花地丁等中藥,經(jīng)配伍后產(chǎn)生的療效明顯高于單味藥或拆方后應(yīng)用效果,可以利用其中黃芪、紫花地丁等中藥成分明確、藥理作用清楚的生物活性物質(zhì),結(jié)合中醫(yī)藥理論進(jìn)行有效成分組方配伍。在組分層次上進(jìn)行現(xiàn)代模式研究,一方面可以深入明確其治療艾滋病的物質(zhì)基礎(chǔ)和作用靶點(diǎn);另一方面可對復(fù)方進(jìn)行濃縮,取其精華,棄其糟粕,降低服用量,提高患者服藥依從性。
HAART作為目前治療AIDS的主要方法,其最終目的在于最大程度地清除患者體內(nèi)HIV病毒,重建機(jī)體免疫功能,從而延長患者壽命,提高患者生活質(zhì)量。但是,由于已知的HAART藥物均存在較為嚴(yán)重的毒副作用,長期服藥導(dǎo)致的病毒耐藥情況也不斷出現(xiàn),極大地降低了HAART治療的有效性。為此,緊密圍繞HAART治療的最佳時機(jī)、最佳用藥方案等方面進(jìn)行深入研究將是AIDS治療領(lǐng)域的重點(diǎn)研究方向。將數(shù)據(jù)挖掘技術(shù)與臨床實(shí)踐相結(jié)合,從大量臨床數(shù)據(jù)中挖掘有用知識,符合當(dāng)今循證醫(yī)學(xué)和精準(zhǔn)醫(yī)療的大方向,因而具有廣闊的應(yīng)用前景。在AIDS治療決策中,可以利用數(shù)據(jù)挖掘方法,對HIV感染者或AIDS患者的基線水平、初始治療方案、耐藥情況、更換治療方案、治療依從性等進(jìn)行全面分析,為個性化治療方案的臨床決策提供科學(xué)支持。
[1] World Health Organization.Key facts on global HIV epidemic and progress in 2010 [EB/OL].http://www.who.int/hiv/pub/ progress_report2011/global_facts/zh/, 2015-10-26.
[2] 中華人民共和國國家衛(wèi)生和計(jì)劃生育委員會.世界艾滋病日主題宣傳[EB/OL].http://www.nhfpc.gov.cn/zhuzhan/wsjswtpx w/201511/5d0c165752ad4200a555646c44400d18.shtml, 2015-12-1.
[3] Kumar NS,Shashibhushan J,Malappal,et al.Lipodystrophy in Human Immunodeficiency Virus (HIV) Patients on Highly Active Antiretroviral Therapy (HAART)[J].J Clin Diagn Res,2015,9(7):OC05-OC08.
[4] 王立婷,陳卉.數(shù)據(jù)挖掘技術(shù)在艾滋病診療研究中的應(yīng)用[J].數(shù)理醫(yī)藥學(xué)雜志,2013,26(1):97-99.
[5] 黃秋燕,金京皓,沈岳龍,等.數(shù)據(jù)挖掘在醫(yī)學(xué)信息中的應(yīng)用[J].醫(yī)學(xué)信息,2010,23(8):2503-2506.
[6] Pang-Ning Tan,Michael Steinbach,Vipin Kumar.Introduction to Data Mining[M].北京:人民郵電出版社,2011:201-400.
[7] 張良均,陳俊德,劉名君,等.數(shù)據(jù)挖掘?qū)嵱冒咐治鯷M].北京:機(jī)械工業(yè)出版社,2013:8-29.
[8] Jared P.R for Everyone: Advanced Analytics and Graphics[M].北京:機(jī)械工業(yè)出版社,2015:271-294.
[9] Agrawal,Imielinski,Swami.Mining Association Rules between Sets of Items in Large Databases[R].Washington D C:Proceedings of the 1993 ACM SIGMOD Conference,1993:207-216.
[10] Law MG,Achhra A,Deeks SG,et al.Clinical and demographic factors associated with low viral load in early untreated HIV infection in the INSIGHT Strategic Timing of Antiretroviral Treatment (START) trial[J].HIV Med,2015,16(1):37-45.
[11] Reda AA,Biadgilign S,Deribe K,et al.HIV-positive status disclosure among men and women receiving antiretroviral treatment in eastern Ethiopia[J].AIDS Care,2013,25(8): 956-960.
[12] 韓建超,徐艷,賀一,等.數(shù)據(jù)挖掘在艾滋病病人CD+4T淋巴細(xì)胞與機(jī)會性感染關(guān)系的應(yīng)用研究[J].中國艾滋病性病,2012, 18(9),584-586.
[13] 張冰,馬穎,李念念,等.艾滋病病人藥物治療依從性現(xiàn)狀及影響因素分析[J].中國衛(wèi)生事業(yè)管理,2013,4(3):295-298.
[14] Kebede M,Zeleke A,Asemahagn M,et al.Willingness to receive text message medication reminders among patients on antiretroviral treatment in North West Ethiopia: A cross-sectional study[C].BMC Medical Informatics and Decision Making,2015,15:65.
[15] Zhang Y,Dou Z,Sun K,et al.Association Between Missed Early Visits and Mortality Among Patients of China National Free Antiretroviral Treatment Cohort[J].J Acquir Immune Defic Syndr,2012,60(1):59-67.
[16] 吳海磊,錢吉生,張純,等.支持向量機(jī)對艾滋病病毒感染者初篩識別的研究[J].實(shí)用預(yù)防醫(yī)學(xué),2010,11(3):2152-2155.
[17] 吳海磊,錢吉生,張純,等.人工神經(jīng)網(wǎng)絡(luò)的性病艾滋病預(yù)測模型研究[J].中國艾滋病性病,2007,6(3):525-528.
[18] 仝建波,劉淑玲,楊麗燕,等.四氫咪唑苯二氮卓酮類抗艾滋病藥物定量構(gòu)效關(guān)系的研究[J].計(jì)算機(jī)與應(yīng)用化學(xué),2008, 4(1):419-423.
[19] 鄭鳳霞,古傳運(yùn).基于聚類分析和平滑法的艾滋病治療方案研究[J].四川文理學(xué)院學(xué)報,2013,23(5):11-14.
[20] 王丹妮,李真,徐立然,等.李發(fā)枝治療艾滋病皮膚瘙癢的配伍精要[J].中國中藥雜志,2013,38(15):2493-2496.
[21] 彭紅,劉榮,馬燕.中醫(yī)藥免疫調(diào)節(jié)在艾滋病治療中的價值和地位[J].醫(yī)藥前沿,2015,5(5):165-166.
[22] 李艷萍,和麗生,趙遠(yuǎn),等.治療艾滋病中藥復(fù)方制劑研究現(xiàn)狀與新思路[J].中草藥,2014,45(3):303-307.
Application of Data Mining in Clinical Diagnosis and Treatment of AIDS
CHEN Jie-qing, CHEN Hui
School of Biomedical Engineering, Capital Medical University, Beijing 100069, China
The paper firstly introduced basic concept and common technology of data mining, and then summarized the progress of application of data mining methods in the diagnosis, treatment and pharmaceutical compatibility of AIDS. It showed that data mining technology play an important role in the personalized treatment for AIDS patients.
data mining; acquired immune deficiency syndrome; personalized treatment; pharmaceutical compatibility
R512.91
A
10.3969/j.issn.1674-1633.2016.08.019
1674-1633(2016)08-0068-03
2015-12-03
陳卉,首都醫(yī)科大學(xué)生物醫(yī)學(xué)工程學(xué)院計(jì)算機(jī)教研室主任,副教授。
通訊作者郵箱:chenhui@ccmu.edu.com