陳巧俊 葉輝
摘 要:本文主要研究數(shù)據(jù)挖掘在糖尿病中醫(yī)證候及方藥規(guī)律等方面的應(yīng)用。利用醫(yī)案數(shù)據(jù),對數(shù)據(jù)預處理之后,用頻數(shù)統(tǒng)計、關(guān)聯(lián)分析、貝葉斯分類等算法分析糖尿病在中醫(yī)中的臨床表現(xiàn)、常用藥物及組合、證候與治法等。并用貝葉斯分類器訓練模型,以預測相關(guān)臨床表現(xiàn)的糖尿病類型。
關(guān)鍵詞:糖尿病 數(shù)據(jù)挖掘 方藥 臨床決策
中圖分類號:R259 文獻標識碼:A 文章編號:1003-9082(2017)06-0214-01
一、引言
糖尿病是21世紀最具挑戰(zhàn)性的嚴重影響我國人民健康的慢性疾病之一。中醫(yī)學以其順應(yīng)自然和具有整體觀的理念,卓越的治療效果而享譽全世界。
本論文以中醫(yī)治療糖尿病為背景,針對醫(yī)案中的方藥、臨床表現(xiàn)等用關(guān)聯(lián)規(guī)則、描述統(tǒng)計等相關(guān)挖掘算法對糖尿病進行分析,使得結(jié)論能夠展示糖尿病的中醫(yī)醫(yī)案的治療方法的大體情況,是全面整理總結(jié)糖尿病治療經(jīng)驗的有益探索。
二、研究過程與結(jié)論
1.醫(yī)案數(shù)據(jù)預處理
首先對糖尿病臨床數(shù)據(jù)進行數(shù)據(jù)清洗,處理其中不一致的數(shù)據(jù),填補空缺值。針對病歷中“癥狀”、“治法”、“方藥”信息描述存在的多詞一意、表述模糊、意義重疊等現(xiàn)象,通過癥狀藥材規(guī)范化去除同義詞,對數(shù)據(jù)進行規(guī)范化和數(shù)值化處理。
其次對數(shù)據(jù)進行深入處理,保留需要的字段,進行數(shù)據(jù)分組、人工合并同義詞、分詞統(tǒng)計等,完成數(shù)據(jù)清洗。
2.挖掘分析
2.1我們對患糖尿病的病人進行年齡分組后,對病人的年齡和性別分布情況進行分析,得出糖尿病高發(fā)人群在40-70歲之間,男女差異不大。
2.2常見臨床表現(xiàn)
乏力、口干、浮腫等是糖尿病患者常見的臨床表現(xiàn),根據(jù)其常見臨床表現(xiàn)的綜合可以初步判斷是否患糖尿病。
可以利用樸素貝葉斯算法對不同臨床表現(xiàn)進行文本分類,找出各種類型糖尿病中具有代表性的一些癥狀。
根據(jù)臨床表現(xiàn),預測糖尿病發(fā)生與類型:
①對臨床表現(xiàn),采用jieba中文分詞工具,對癥狀分詞。
②使用TF-IDF對分詞的結(jié)果進行權(quán)重計算,人工打類型標簽
TFIDF的主要思想是:如果某個詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。它傾向于過濾常見詞語,保留重要詞語。
詞頻TF指某一個給定的詞語在該文件中出現(xiàn)的頻率。對于在某一特定文件里的詞語來說,它的重要性可表示為
逆向文件頻率IDF是一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對數(shù)得到
③使用貝葉斯模型訓練樣本,得到不同類型糖尿病的特征臨床表現(xiàn)
在很多情況下,臨床表現(xiàn)之間的特征之間沒辦法完全獨立,彼此不獨立的特征之間的關(guān)系沒法通過樸素貝葉斯分類器訓練。而貝葉斯網(wǎng)絡(luò)引入了一個有向無環(huán)圖和一個條件概率表集合,DAG的結(jié)點V包括隨機變量,有向連接E(A->B)表示結(jié)點A是結(jié)點B的parent,且B與A是有依賴關(guān)系的。同時引入了一個條件性獨立概念:即圖中任意結(jié)點v在給定v的parent結(jié)點的情況下,與圖中其它結(jié)點都是獨立的,也就是說P(v|par(v),x1,x2...,xn) = P(v|par(v))。這里par(v)表示v的parent結(jié)點集,x1,x2,...,xn表示圖中其它結(jié)點。
④用訓練好的模型進行預測,可以較好的根據(jù)臨床表現(xiàn)判斷是否患有糖尿病以及進行簡單的糖尿病類型判斷。
2.3方藥的分析挖掘
采用關(guān)聯(lián)規(guī)則算法,確定處方中各藥物和藥物間關(guān)聯(lián)規(guī)則、核心藥物組合等。結(jié)果顯示,高頻次藥物為茯苓:30%,黃芪:24%,山藥22%,丹參21.8%,可見這四種藥物是治療糖尿病的核心用藥。支持度和置信度總是伴隨關(guān)聯(lián)規(guī)則存在,是對關(guān)聯(lián)規(guī)則的必要補充。對某條關(guān)聯(lián)規(guī)則而言,支持度是指在所有的事務(wù)中同時出現(xiàn)A和B的概率。而置信度是說所有事務(wù)中在出現(xiàn)A的情況下出現(xiàn)B的概率,即條件概率。
2.4糖尿病證候和治法概述
根據(jù)分析,氣陰兩虛為早期糖尿病的主要證型,因此益氣養(yǎng)陰對于預防和治療早期糖尿病具有重要意義。
治法就是對中醫(yī)證候用相應(yīng)措施來“對癥下藥”,益氣、活血、滋陰、清熱、健脾是最常用的方法。方劑六味地黃丸、消渴丸有良好的治療效果。除了藥物治療外,中醫(yī)還支持很多其他治療,尤其以針灸最為盛行。
三、結(jié)語
本文基于大量的糖尿病臨床診斷數(shù)據(jù)探討糖尿病的治療規(guī)律。能夠清晰的展示糖尿病的中醫(yī)治療方法的大體情況,了解糖尿病的現(xiàn)狀。
利用各種智能算法來對醫(yī)案或者醫(yī)療記錄進行挖掘已經(jīng)成為一種趨勢,相信未來在深度學習和人工智能技術(shù)的不斷發(fā)展下,中醫(yī)藥將會迎來新的研究方向與機遇。
參考文獻
[1] 陳克龍, 樊永平. 數(shù)據(jù)挖掘中的分類算法及其在中醫(yī)證候?qū)W中的應(yīng)用[J]. 中華中醫(yī)藥雜志, 2011(3):469-473.
[2] 吳嘉瑞, 王凱歡, 紀凱,等. 基于數(shù)據(jù)挖掘的中醫(yī)治療糖尿病處方用藥規(guī)律分析[J]. 中國實驗方劑學雜志, 2015(22):214-217.
作者簡介:陳巧俊,女,浙江金華人,本科在讀,研究方向:數(shù)據(jù)分析、機器學習
通訊作者:葉輝,,男,講師研究方向:醫(yī)學信息學、醫(yī)學自然語言處理