郭洪濤,馮福海,李松偉,鄭 光,王濟(jì)華
(1.河南中醫(yī)學(xué)院第一附屬醫(yī)院,河南 鄭州 450000; 2.蘭州大學(xué)信息學(xué)院,甘肅 蘭州 730000)
·醫(yī)史文獻(xiàn)·
基于文本挖掘探討系統(tǒng)性紅斑狼瘡證治規(guī)律
郭洪濤1,馮福海1,李松偉1,鄭 光2,王濟(jì)華1
(1.河南中醫(yī)學(xué)院第一附屬醫(yī)院,河南 鄭州 450000; 2.蘭州大學(xué)信息學(xué)院,甘肅 蘭州 730000)
目的:探討系統(tǒng)性紅斑狼瘡的證治規(guī)律。方法:在中國(guó)生物醫(yī)學(xué)文獻(xiàn)服務(wù)系統(tǒng)中收集系統(tǒng)性紅斑狼瘡的文獻(xiàn)數(shù)據(jù),采用基于敏感關(guān)鍵詞頻數(shù)統(tǒng)計(jì)的數(shù)據(jù)分層算法,挖掘整理系統(tǒng)性紅斑狼瘡的中醫(yī)證候、癥狀、中藥規(guī)律。這些結(jié)果通過一維頻次及構(gòu)建網(wǎng)絡(luò)圖進(jìn)行展示。結(jié)果:系統(tǒng)性紅斑狼瘡常見證候有熱毒熾盛、肝腎陰虛等;核心癥狀是發(fā)熱、關(guān)節(jié)疼痛、乏力等;中藥治療以黃芪、白芍、甘草、生地黃、白術(shù)、青蒿、茯苓、當(dāng)歸等為核心用藥。結(jié)論:系統(tǒng)性紅斑狼瘡多熱、虛證,少寒證,癥狀中發(fā)熱最常見,清熱解毒為基本治法。
文本挖掘;數(shù)據(jù)分層算法;系統(tǒng)性紅斑狼瘡/分析;證候
系統(tǒng)性紅斑狼瘡 (systemic lupus erythematosus,SLE)是一種多因素參與、多系統(tǒng)和多臟器受損的慢性自身免疫性結(jié)締組織病。我國(guó)SLE的患病率約為40/10萬,患病人群總數(shù)超過百萬[1]。由于該病至今病因未明,因此仍無根治的方法,SLE患者一旦發(fā)病需終身維持治療。近年來,隨著疾病診斷和治療方法的不斷改進(jìn)以及病因?qū)ふ业倪M(jìn)展,SLE患者的生存率顯著提高。我國(guó)中、西臨床醫(yī)生及科研工作者報(bào)道關(guān)于系統(tǒng)性紅斑狼瘡的文獻(xiàn)量亦急劇增加,大量存在于現(xiàn)有數(shù)據(jù)庫中。本研究運(yùn)用文本挖掘技術(shù)[2,3],結(jié)合文獻(xiàn)回溯,對(duì)現(xiàn)有中文文獻(xiàn)進(jìn)行挖掘整理,探討系統(tǒng)性紅斑狼瘡的證治規(guī)律。
1.1 文本數(shù)據(jù)收集
在中國(guó)生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(Chinese BioMedical Literature Database,CBM,http://sinomed.cintcm.ac.cn/index.jsp)中以“缺省”狀態(tài)下檢索“系統(tǒng)性紅斑狼瘡”,共得到文獻(xiàn)16818篇(檢索日期:2014年6月10日),依次下載所有文獻(xiàn)并保存。
1.2 文本數(shù)據(jù)處理
將收集來的數(shù)據(jù),按照下載的先后順序,整合到一個(gè)平面文件(后綴txt)里面,以ANSI編碼格式保存。然后,利用專有的文本提取工具(軟件著作權(quán),軟著登字第0261882號(hào),登記號(hào):2010SR073409),對(duì)下載的非結(jié)構(gòu)化的txt文本數(shù)據(jù)進(jìn)行信息提取,保存成格式化的、便于大型關(guān)系型數(shù)據(jù)庫(Microsoft SQL Server,以下簡(jiǎn)稱SQL)處理的格式,然后導(dǎo)入SQL中進(jìn)行下一步挖掘分析。假設(shè)每1篇文獻(xiàn)的貢獻(xiàn)度是相同的,1篇文獻(xiàn)中重復(fù)出現(xiàn)的關(guān)鍵詞,只需要計(jì)算一次,據(jù)此構(gòu)建基于敏感關(guān)鍵詞頻數(shù)統(tǒng)計(jì)的數(shù)據(jù)分層算法[2,3],進(jìn)行數(shù)據(jù)清洗工作。
清洗完畢后的數(shù)據(jù),既可以提取到挖掘?qū)ο蟮囊痪S頻次,也可以得到挖掘?qū)ο蟮亩S關(guān)系,進(jìn)行可視化呈現(xiàn),即抽出不同頻次的關(guān)鍵詞對(duì),用Cytoscape 2.8軟件進(jìn)行可視化處理,構(gòu)建可視化的網(wǎng)絡(luò)圖。然后結(jié)合專業(yè)知識(shí)進(jìn)行評(píng)析,一旦發(fā)現(xiàn)不合理的結(jié)果,即回溯原文獻(xiàn)數(shù)據(jù)集,如果是噪音,仍按算法進(jìn)行噪音清洗,直至噪音降到滿意為止。最后的結(jié)果可視化成圖,結(jié)合專業(yè)知識(shí)進(jìn)行解析。
2.1 證候文本挖掘結(jié)果
共提取到中醫(yī)證候43項(xiàng),選取大于等于6的證候文獻(xiàn)頻次,按證候在文獻(xiàn)出現(xiàn)的頻次高低列出(括號(hào)內(nèi)為文獻(xiàn)篇數(shù),下同):腎陰虛(43)、肝腎陰虛(32)、陰虛內(nèi)熱(30)、熱毒熾盛(30)、腎陽虛(26)、脾腎陽虛(26)、氣陰兩虛(15)、風(fēng)濕熱痹(9)、血瘀證(7)、陰虛證(6)、陽虛證(6)、腎陽虛證(6)。
由上可見,腎陰虛、肝腎陰虛、陰虛內(nèi)熱、熱毒熾盛頻次最高,均與系統(tǒng)性紅斑狼瘡相關(guān),為其常見證型。而這些證型多為虛證、熱證,少見寒證,與其疾病發(fā)展特點(diǎn)相符。進(jìn)而構(gòu)建證候兩兩之間網(wǎng)絡(luò)圖(圖1):圖中圓圈內(nèi)為證型名稱,連線代表證候兩兩之間的聯(lián)系。證候連線愈多,代表該證型與疾病的關(guān)聯(lián)程度越高,越處于核心的位置;圓圈越大,代表該證型在文獻(xiàn)中出現(xiàn)的頻次越高,其權(quán)重越大。
圖1 系統(tǒng)性紅斑狼瘡中醫(yī)證候網(wǎng)絡(luò)圖(PS≥2)
文本挖掘共提取到155組證候,圖1為系統(tǒng)性紅斑狼瘡文獻(xiàn)中相關(guān)證候大于等于2的網(wǎng)絡(luò)分布圖。圖中熱毒熾盛、肝腎陰虛、陰虛內(nèi)熱與疾病關(guān)聯(lián)程度最高,權(quán)重也大,處于核心位置。歸納這些證候,系統(tǒng)性紅斑狼瘡以熱、虛證為其證候特點(diǎn)。
2.2 癥狀文本挖掘結(jié)果
癥狀共提取到140項(xiàng),選取前10項(xiàng)按文獻(xiàn)頻次高低列出:發(fā)熱(479)、(口腔)潰瘍(192)、關(guān)節(jié)痛(189)、強(qiáng)直(117)、頭痛(102)、皰疹(100)、腹痛(97)、咳嗽(95)、關(guān)節(jié)疼(94)、乏力(94)。
以上癥狀是從數(shù)據(jù)集中抽提的,既包含西醫(yī)臨床,也包含中醫(yī)臨床報(bào)告的癥狀,因此頻次較高。由上可見,系統(tǒng)性紅斑狼瘡以發(fā)熱、(口腔)潰瘍、潰瘍關(guān)節(jié)疼痛為核心癥狀,其中發(fā)熱最高。頭痛、乏力、咳嗽、皰疹、腹痛等為常見癥狀。
進(jìn)一步構(gòu)建癥狀兩兩之間網(wǎng)絡(luò)圖(圖2):
圖2 系統(tǒng)性紅斑狼瘡癥狀網(wǎng)絡(luò)圖(PS≥12)
文本挖掘共提取到1323組癥狀,圖2為系統(tǒng)性紅斑狼瘡文獻(xiàn)中相關(guān)癥狀大于等于12的網(wǎng)絡(luò)分布圖。圖中發(fā)熱、關(guān)節(jié)疼痛、乏力為最核心癥狀,發(fā)熱-關(guān)節(jié)痛兩者的文獻(xiàn)頻次為102。由上可見,系統(tǒng)性紅斑狼瘡是一種以發(fā)熱、關(guān)節(jié)疼痛、乏力、(口腔)潰瘍?yōu)楹诵陌Y狀,涉及消化、循環(huán)、呼吸、皮膚等多系統(tǒng)癥狀的疾病。
2.3 中藥文本挖掘結(jié)果
中藥共提取到158項(xiàng),按文獻(xiàn)頻次高低(選擇前15項(xiàng)):雷公藤(63)、黃芪(31)、白芍(29)、甘草(27)、生地黃(26)、白術(shù)(24)、青蒿(23)、茯苓(21)、當(dāng)歸(20)、天冬(20)、柴胡(19)、人參(18)、黃芩(17)、大黃(15)、玄參(14)?;厮菰墨I(xiàn)數(shù)據(jù)集,發(fā)現(xiàn)雷公藤均為雷公藤多苷、雷公藤多甙,因此,此處的雷公藤主要為中成藥制劑,應(yīng)視為噪音;天冬回溯文獻(xiàn)均為為天冬氨酸氨基轉(zhuǎn)移酶,因此天冬為噪音,應(yīng)予剔除。通過以上方法降噪后,發(fā)現(xiàn)黃芪、白芍、甘草、生地黃、白術(shù)、青蒿、茯苓等為治療系統(tǒng)性紅斑狼瘡的高頻中藥。
進(jìn)而構(gòu)建中藥兩兩之間網(wǎng)絡(luò)圖(圖3):
文本挖掘共提取到2 179組中藥,圖3為系統(tǒng)性紅斑狼瘡文獻(xiàn)中相關(guān)中藥頻次大于等于8的高頻網(wǎng)絡(luò)分布圖。圖中甘草、白術(shù)、茯苓、當(dāng)歸、生地黃、玄參、知母、桔梗、犀角、黃芩、芍藥等為核心藥物。
圖3 系統(tǒng)性紅斑狼瘡中藥網(wǎng)絡(luò)圖(PS≥8)
文本挖掘(Text Mining)技術(shù)是以計(jì)算語言學(xué)、統(tǒng)計(jì)數(shù)理分析為理論基礎(chǔ),服務(wù)于生物、醫(yī)藥、文獻(xiàn)研究等學(xué)科的新興的交叉學(xué)科[4]。應(yīng)用于中醫(yī)藥領(lǐng)域,根據(jù)中醫(yī)理論或?qū)I(yè)知識(shí),計(jì)算機(jī)能夠文本挖掘中醫(yī)藥文獻(xiàn)庫與生物醫(yī)學(xué)信息庫的非關(guān)聯(lián)知識(shí),為中西醫(yī)結(jié)合研究提供新的思路和途徑,并且結(jié)果更加客觀,可重復(fù)性強(qiáng)[5]。
通過對(duì)16 818篇“系統(tǒng)性紅斑狼瘡”文獻(xiàn)進(jìn)行文本挖掘,得到系統(tǒng)性紅斑狼瘡證候、癥狀、中藥等挖掘結(jié)果,是對(duì)中醫(yī)治療系統(tǒng)性紅斑狼瘡比較全面的總結(jié)。中醫(yī)證候方面,挖掘到腎陰虛、肝腎陰虛、陰虛內(nèi)熱、熱毒熾盛等證候頻次較高,歸納系統(tǒng)性紅斑狼瘡多熱證、虛證,寒證較少。癥狀方面,挖掘出系統(tǒng)性紅斑狼瘡核心癥狀是發(fā)熱、(口腔)潰瘍、關(guān)節(jié)疼痛,進(jìn)而歸納得出系統(tǒng)性紅斑狼瘡是一種以發(fā)熱、(口腔)潰瘍?yōu)橹饕Y狀,涉及消化、呼吸、神經(jīng)等多系統(tǒng)癥狀的疾病。然而皮疹、皮損等SLE的重要表現(xiàn)的癥狀沒有挖掘到,與挖掘詞表中沒有該癥狀有關(guān),也說明挖掘仍需進(jìn)一步完善。中藥治療,以甘草、白術(shù)、茯苓、當(dāng)歸、生地黃、玄參、知母、桔梗、犀角、黃芩、芍藥等為核心藥物,這些藥物以清熱解毒為主。其中甘草出現(xiàn)的頻次較高,與文獻(xiàn)量大及用藥習(xí)慣有關(guān)。通過挖掘發(fā)現(xiàn),系統(tǒng)性紅斑狼瘡證候與癥狀,證候與中藥,兩兩之間能夠相互呼應(yīng)和印證。
文本挖掘的結(jié)果,一維頻次和二維網(wǎng)絡(luò)圖,從不同角度顯示挖掘?qū)ο笤谖墨I(xiàn)數(shù)據(jù)集中的分布,均有不同的意義。同時(shí),結(jié)合回溯原文獻(xiàn)數(shù)據(jù)集,人工閱讀評(píng)價(jià),使得結(jié)果更加客觀。因此,通過這種優(yōu)化的文本挖掘組合,能夠比較客觀地總結(jié)疾病的證治規(guī)律,也可以為中醫(yī)客觀化,以及中醫(yī)臨床提供有益的參考。
[1]葉冬青.紅斑狼瘡[M].北京:人民衛(wèi)生出版社,2006:15-16.
[2]Zheng G,Jiang M,He XJ,et al.Discrete derivative: a data slicing algorithm for exploration of sharing biological networks between rheumatoid arthritis and coronary heart disease[J].Bio Data Min,2011,23(4):18.
[3]郭洪濤,鄭光,趙靜,等.基于文本挖掘分析甲型H1N1流感的中醫(yī)藥治療特色[J].世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2011,13(5):772-776.
[4]薛為民,陸玉昌.文本挖掘技術(shù)研究[J].北京聯(lián)合大學(xué)學(xué)報(bào),2005,19(4):59-63.
[5]Li S,Zhang ZQ,Wu LJ,et al.Understanding ZHENG in traditional Chinese medicine in the context of neuro-endocrine-immune network[J].IET Syst Biol,2007,1(1):51-60.
(編輯 田晨輝)
1001-6910(2015)03-0047-03
R593.24+1
B
10.3969/j.issn.1001-6910.2015.03.25
2014-09-24