張佛曉
摘要:藏醫(yī)藥學(xué)是我國極具民族特色的醫(yī)藥學(xué)科之一,在藏族人民漫長的生產(chǎn)、生活實(shí)踐中,其系統(tǒng)的理論和獨(dú)特的臨床療效及用藥特色,為藏族人民繁衍生息、保障生命健康做出了重要貢獻(xiàn),越來越多的人開始注意到藏醫(yī)藥學(xué)科的發(fā)展。
但是由于藏醫(yī)藥事業(yè)發(fā)展起步晚、起點(diǎn)低、底子薄,和其他醫(yī)藥學(xué)科相比還存在很大的差距,所以對(duì)藏醫(yī)藥事業(yè)的科學(xué)化研究迫在眉睫。
雖然數(shù)據(jù)挖掘技術(shù)已經(jīng)在傳統(tǒng)醫(yī)學(xué)如:中醫(yī)藥學(xué)科上得到了廣泛地應(yīng)用,如聚類算法、關(guān)聯(lián)規(guī)則算法、分類算法。但由于藏醫(yī)和中醫(yī)有著諸多臨床診療上的差距,使得對(duì)于藏醫(yī)藥的研究中不可完全套用中醫(yī)數(shù)據(jù)挖掘的方法。文章主要總結(jié)常用的數(shù)據(jù)挖掘技術(shù)及近年來數(shù)據(jù)挖掘技術(shù)在藏醫(yī)藥上的發(fā)展及前景展望。
關(guān)鍵詞:藏醫(yī)診療 數(shù)據(jù)挖掘 分類聚類 關(guān)聯(lián)規(guī)則
1常用的數(shù)據(jù)挖掘技術(shù)
1.1數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理占到數(shù)據(jù)挖掘60%的時(shí)間,良好的數(shù)據(jù)預(yù)處理是得到有效挖掘結(jié)果的重要前提?,F(xiàn)有的數(shù)據(jù)預(yù)處理技術(shù)主要包括數(shù)據(jù)清洗、數(shù)據(jù)采樣、特征處理、特征選擇和降維。
由于醫(yī)療數(shù)據(jù)的特點(diǎn),一方面數(shù)據(jù)獲取比較困難,往往獲得的數(shù)據(jù)往往會(huì)存在缺失、冗余等問題。另一方面,醫(yī)療數(shù)據(jù)中包含很多患者信息,需要做各種脫敏處理,否則會(huì)侵犯患者的個(gè)人隱私。
如對(duì)藏醫(yī)中慢性萎縮性胃炎診療數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,包括對(duì)數(shù)據(jù)中的缺失值進(jìn)行填充、對(duì)不符合常理的數(shù)據(jù)進(jìn)行刪除,對(duì)樣本數(shù)據(jù)進(jìn)行采樣,減少因數(shù)據(jù)類別不平衡對(duì)結(jié)果的影響。對(duì)特征進(jìn)行處理,數(shù)據(jù)主要是數(shù)值型和類別型的數(shù)據(jù),常用的方法有歸一化和標(biāo)準(zhǔn)化、log數(shù)值域的變化、數(shù)據(jù)離散化、orie-hot編碼等。對(duì)數(shù)據(jù)進(jìn)行降維和特征提取等,從而達(dá)到壓縮數(shù)據(jù)維度、減少規(guī)則冗余度的目的,從而提高癥型分類和預(yù)測的準(zhǔn)確率。
1.2關(guān)聯(lián)分析算法
R.Agrawal等首先提出了經(jīng)典的頻繁項(xiàng)集挖掘方法AIS,Apriorl[6]算法;J.S.Park等對(duì)關(guān)聯(lián)規(guī)則算法進(jìn)行改進(jìn)提出DHP算法有效的減小了頻繁候選集的規(guī)模;同年,Savasere提出基于劃分的關(guān)聯(lián)規(guī)則算法減少算法對(duì)數(shù)據(jù)集的掃描次數(shù),大大的提高了算法的效率;之后R .Wille提出了基于概念格的挖掘算法等,隨著時(shí)代的變化關(guān)聯(lián)規(guī)則算法也在不斷地演變改進(jìn)。
關(guān)聯(lián)規(guī)則分析在醫(yī)療數(shù)據(jù)研究中發(fā)揮著重要的作用,用于挖掘癥狀和癥型之間的潛在關(guān)系,發(fā)現(xiàn)“癥狀癥狀、癥狀 癥型”等數(shù)據(jù)中的內(nèi)在聯(lián)系,尋找臨床數(shù)據(jù)隱藏的價(jià)值,讓醫(yī)生能更好的對(duì)患者進(jìn)行診斷,可以為分類和預(yù)測做輔助作用是癥型的預(yù)測和分類研究中的重要環(huán)節(jié)。
1.3分類算法
目前數(shù)據(jù)挖掘中常用的分類算法有SVM算法(SupportVector Machine),決策樹算法(Decision Tree),K近鄰算法,樸素貝葉斯算法,神經(jīng)網(wǎng)絡(luò)算法,以及邏輯回歸(LogisticRegression)等。但是鑒于目前需要解決的問題的難度和醫(yī)療數(shù)據(jù)維度的復(fù)雜性的不斷增加,傳統(tǒng)的數(shù)據(jù)挖掘算法已經(jīng)不能滿足需求,由此出現(xiàn)了多種集成學(xué)習(xí)算法,集成學(xué)習(xí)主要分為bagging和boosting兩種方式,是將某些弱學(xué)習(xí)器通過投票的方式或者取平均值的方式得出最終的結(jié)果,從而使預(yù)測準(zhǔn)確率得到很大的提升。
2數(shù)據(jù)挖掘在藏醫(yī)中應(yīng)用
2.1數(shù)據(jù)挖掘在藏醫(yī)輔助決策診療中的應(yīng)用
目前對(duì)常見的高原常見病(萎縮性胃炎),藏醫(yī)主要依據(jù)個(gè)人經(jīng)驗(yàn)來對(duì)患者進(jìn)行診斷,包括對(duì)患者的脈象診斷,患者的舌苔情況,患者的尿液顏色和氣味及患者的癥狀等。脈象下包括洪、滑、緊等十七個(gè)方面,舌苔的顏色和厚度等七個(gè)方面,而尿液的情況也比較復(fù)雜,包括尿液的顏色,尿液的氣味等十七個(gè)方面的判斷,對(duì)于同一種疾病癥狀也很復(fù)雜。拿萎縮性胃炎來說,在藏醫(yī)中萎縮性胃炎一般分為四個(gè)癥型,不同的癥型及相同的癥型患者的癥狀和體征表現(xiàn)往往有很大差距。所以僅通過個(gè)人經(jīng)驗(yàn)判斷比較容易出錯(cuò),需要通過科學(xué)的手段對(duì)癥型和癥狀進(jìn)行判斷。
可以利用數(shù)據(jù)挖掘中無監(jiān)督學(xué)習(xí)的聚類算法結(jié)合臨床診療數(shù)據(jù)對(duì)高原常見?。ㄎs性胃炎)進(jìn)行合理的分型,運(yùn)用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則算法,發(fā)現(xiàn)藏因臨床診療“癥狀癥型,癥狀 癥狀”之間隱含的規(guī)則,尋找臨床數(shù)據(jù)隱藏的價(jià)值,讓醫(yī)生能更好的對(duì)患者進(jìn)行診斷,可以為分類和預(yù)測做輔助作用是癥型的預(yù)測和分類研究中的重要環(huán)節(jié)。
據(jù)統(tǒng)計(jì)藏醫(yī)中存在著針灸和放血治療的疾?。ㄗC候)多達(dá)489種可以利用聚類分析和關(guān)聯(lián)規(guī)則分析藏醫(yī)中針灸的穴位定位、穴位主治病種等。在治療方法上,藏族醫(yī)學(xué)運(yùn)用不同穴位治療的相同的疾病最多的是癲狂、昏厥、氣短的疾病,對(duì)于急性發(fā)作的神志疾病、呼吸系統(tǒng)疾病、心腦血管疾病能起到非常獨(dú)特的療效。
2.2數(shù)據(jù)挖掘在藏醫(yī)用藥規(guī)律的研究
目前藏藥組方規(guī)律的研究主要是在臨床藥物觀察、大量文獻(xiàn)整理研究、通過各種藥理實(shí)驗(yàn)等方面。很少有通過數(shù)據(jù)挖掘的算法進(jìn)行藏醫(yī)組方規(guī)律的研究,目前聚類算法和關(guān)聯(lián)規(guī)則算法在藏醫(yī)用藥規(guī)律研究中有很好的效果,在萎縮性胃炎用藥方面主要采用apriori算法對(duì)每味藥進(jìn)行頻繁項(xiàng)集,置信度和支持的的挖掘,得出可信的用藥的組合規(guī)律。同時(shí)可以利用無監(jiān)督的聚類算法對(duì)藥物進(jìn)行聚類可以新處方規(guī)律的挖掘。
張藝等人在藏醫(yī)脾胃病研究中利用關(guān)聯(lián)規(guī)則算法對(duì)脾胃病用藥得出了置信度大于0.85的治療藏醫(yī)中脾胃病的新處方,利用層次聚類算法演化得出了新的核心用藥組合。
藥物可能會(huì)因?yàn)樵谑欠耧柛够蛘呤撬幍臅r(shí)間對(duì)治療效果有一定的影響,王明強(qiáng)等人在藏醫(yī)隆滯布病的用藥組方規(guī)律研究中加入了時(shí)序關(guān)系挖掘,利用關(guān)聯(lián)規(guī)則算法得出效果明顯的加入了時(shí)序關(guān)系的藥物組方規(guī)律。
3總結(jié)
近幾年來逐漸開始有研究者將數(shù)據(jù)挖掘算法應(yīng)用于藏醫(yī)的癥狀癥型分析和藥物組方規(guī)律的挖掘中,這對(duì)藏醫(yī)藥科學(xué)的發(fā)展起到了很大的推動(dòng)作用,目前藏醫(yī)在科學(xué)性和規(guī)范性上還處于初級(jí)階段,在這方面的研究提高了藏醫(yī)癥型診斷的科學(xué)性,以及用藥的規(guī)范性。慢慢的推動(dòng)藏醫(yī)由經(jīng)驗(yàn)主義到科學(xué)主義的演變。
參考文獻(xiàn)
[l]王培培,健康體檢數(shù)據(jù)預(yù)處理方法研究與應(yīng)用[D].鄭州大學(xué),2016.
[2] Han J,Kamber M. Data Mining: Concepts and 'rechniques,Morgan Kaufmann[Jl. Machine Press, 2001 (in Chinese, 2006,1(4):394-395.
[3] Dunham M H. Data Mining: Introductory and AdvancedTopicsEMl// Data mining introductory and advanced topics/.Prentice Hall/Pearson Education, 2003.
[4] Zhi-Gang J, Xu J. Research on Data Preprocess inData Mining and Its Application[J]. Application Research ofComputers, 2004, 21(7):117-118.
[5]Agrawal R, Srikant R.Mining association rules between setsof items in large databases[Al.ProcACM SIG MOD Int'I ConfManagement of dataECl.Washington DC, May 1993.207-216
[6]Agrawal R, Srikant R.Fast algorithms for mining associationrules[A].Proc 20th In't I Conf Very Large Database[Cl.Santiago,Chile, Sept 1994.487-499
[7] Park J S,Chen M S,Yu P S.An effective hash-basedalgorithm for mining association rules[J]. Acm Sigmod Record,1995, 24(2):175-186.
[8] Savasere A, Orniecinski E,Navathe S B. An EfficientAlgorithm for Mining Association Rules in Large Databases[C]//International Conference on Very Large Data Bases. MorganKaufmann Publishers Inc. 1995:432-444.
[9] Ganter B,Godin R. Formal Concept AnalysisLMl. SpringerBerlin Heidelberg, 1999.
[10] Joachims T. Transductive Inference for Text Classificationusing Support Vector MachinesECl// Sixteenth InternationalConference on Machine Learning. Morgan Kaufmann PublishersInc. 1999:200-209.
[11] Quinlan J R. C4.5: programs for machine learning[M].Morgan Kaufmann Publishers Inc. 1993.
[12] Cover T M, Hart P E. Nearest neighbor patternclassification. IEEE Trans Inf Theory IT-13(1):21-27[J]. IEEETransactions on Information Theory, 1967, 13(1):21-27.
[13] Mccallum A, Nigam K.A Comparison of Event Models forNaive Bayes Text Classification[J]. IN AAAI-98 WORKSHOP ONLEARNING FOR TEXT CATEGORIZATION, 1998, 62(2):4148.
[14] Hagan M.T., Demuth H.B., Beale M.H.: Neural NetworkDesign. PWS Publishing, Boston (1996)
[15] Hosmer D W, Lemeshow S.Applied logistic regression[M].Wiley, 2000.
[16]王世潁.基于醫(yī)療數(shù)據(jù)挖掘的高原常見病藏醫(yī)診療決策支持技術(shù)研究[D]青海大學(xué).
[17]歐陽波.基于數(shù)據(jù)挖掘的藏蒙放血和灸療法比較研究[D]北京中醫(yī)藥大學(xué).
[18]張藝.基于數(shù)據(jù)挖掘和整合藥理學(xué)平臺(tái)的藏醫(yī)治療脾胃病用藥規(guī)律及作用機(jī)制[J]中國中藥雜志2018,16.
[19]王明陽,基于數(shù)據(jù)挖掘的藏醫(yī)隆滯布病癥狀、用藥規(guī)律的探索與分析[D]北京中醫(yī)藥大學(xué).