国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

最大熵在中醫(yī)智能辨證的研究及其應(yīng)用

2015-04-29 01:36:49葉培
計(jì)算機(jī)時(shí)代 2015年3期
關(guān)鍵詞:中醫(yī)辨證

葉培

摘 要: 分析了中醫(yī)臨床記錄中癥狀與癥候類別之間的關(guān)系,將機(jī)器學(xué)習(xí)中的最大熵原理應(yīng)用于中醫(yī)辨癥中,建立相應(yīng)的分類模型,從而觀察類別預(yù)測(cè)的正確性,為中醫(yī)智能診斷提供初篩和決策支持。同時(shí),將基于最大熵的分類器和基于樸素貝葉斯的分類器進(jìn)行比較,結(jié)果顯示,基于最大熵的分類效果勝過(guò)樸素貝葉斯分類。這表明將最大熵原理以及算法應(yīng)用在中醫(yī)診斷是可行的。

關(guān)鍵詞: 中醫(yī)臨床記錄; 最大熵; TCM; 中醫(yī)辨證

中圖分類號(hào):TP311.1 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2015)03-50-04

Abstract: The relationship between clinical medicine symptoms and symptoms categories of records are analyzed. The principle of maximum entropy in machine learning is applied to the TCM syndrome. The corresponding classification model is established to observe the category and forecast category correctness. Intelligent diagnosis for TCM is provided to support the screening and decision support. Compared with the simple Bayesian classifier, the experimental results show that the maximum entropy classification is more effective than Naive Bayes. This suggests that the maximum entropy principle and the algorithm are feasible in the classification of traditional Chinese medicine.

Key words: the doctor of traditional Chinese medicine clinical record; maximum entropy; TCM; syndrome differentiation

0 引言

隨著信息化和科技化的發(fā)展,實(shí)現(xiàn)中醫(yī)現(xiàn)代化這一進(jìn)程刻不容緩,中醫(yī)診斷智能化是實(shí)現(xiàn)中醫(yī)現(xiàn)代化的重要部分,而在中醫(yī)診斷智能化中,必須解決的核心問題和關(guān)鍵技術(shù)就在于中醫(yī)智能辨證[1-2]。中醫(yī)辨證是需要經(jīng)歷由癥狀等信息,診斷出病,再考慮用藥這一過(guò)程,該過(guò)程有非線性、模糊性和復(fù)雜性等特點(diǎn),由此產(chǎn)生的數(shù)據(jù)有不規(guī)范化性和模糊性等特征,如果單純的由人工對(duì)這龐大數(shù)據(jù)進(jìn)行分類分析,就難以保證對(duì)全部中醫(yī)相關(guān)信息的綜合考量。

數(shù)據(jù)挖掘本身就是通過(guò)分析數(shù)據(jù),從海量數(shù)據(jù)中挖掘出潛在的客觀規(guī)律或隱藏的有用信息,這一特點(diǎn)使其能夠成為能從中醫(yī)海量數(shù)據(jù)中挖掘相關(guān)信息的主要技術(shù)之一,基于此,我們將研究如何使用數(shù)據(jù)挖掘技術(shù)來(lái)實(shí)現(xiàn)中醫(yī)的智能辨證。

中醫(yī)辨證的診斷過(guò)程,實(shí)質(zhì)上是由中醫(yī)臨床記錄收集到的各種癥狀,通過(guò)分析,預(yù)估證型的過(guò)程,其過(guò)程相當(dāng)于分類,因此我們可以采用數(shù)據(jù)挖掘中的分類方法來(lái)解決。關(guān)于分類方法有兩類模型,一類是生成模型(假設(shè)給定證型,由哪些相關(guān)癥狀得出證型),另一類是判別模型(通過(guò)給定相關(guān)癥狀來(lái)得出證型),它們是分別從不同視角來(lái)解決分類問題的。最大熵是屬于判別模型中的一種,現(xiàn)已被廣泛用于文本分類中,但實(shí)際應(yīng)用于中醫(yī)智能辨證的研究還很少。因此我們選用最大熵對(duì)其進(jìn)行中醫(yī)癥候的分類,對(duì)其進(jìn)行相關(guān)實(shí)驗(yàn)研究及其分析,從而為中醫(yī)智能診斷決策提供一次初篩。

1 最大熵原理應(yīng)用

最大熵原理是由E.T. Jaynes在1957年提出來(lái)的。其主要思想是,在只掌握關(guān)于未知分布的部分知識(shí),應(yīng)該選取符合這些知識(shí)但熵值最大的概率分布[3],因?yàn)樵谶@種情況下,符合已知知識(shí)的概率分布可能不止一個(gè),而熵定義的實(shí)際最大熵原理指出,我們需要對(duì)一個(gè)隨機(jī)事件的概率分布進(jìn)行預(yù)測(cè)時(shí),預(yù)測(cè)應(yīng)當(dāng)滿足已知的條件,而對(duì)未知的情況不要作任何主觀假設(shè),在這種情況下,條件概率分布最均勻,預(yù)測(cè)的風(fēng)險(xiǎn)最小,此時(shí)預(yù)測(cè)模型在滿足約束條件下的信息熵最大[4]。

1.1 最大熵算法應(yīng)用于中醫(yī)辨證的可行性

最大熵在不同的領(lǐng)域有不同的表現(xiàn)形式,其靈活性很強(qiáng)。在中醫(yī)智能辨證中,我們希望通過(guò)給定的癥狀、特征,來(lái)得出它屬于哪類證型,但這一結(jié)果并沒有一個(gè)明確的標(biāo)準(zhǔn),所以通過(guò)引入最大熵原理,使用最大熵算法優(yōu)化,可以使其結(jié)果最符合實(shí)際情況。

其次,癥狀與癥狀之間的相關(guān)性,以及約束性,對(duì)判別癥候有一定的作用,這與最大熵在約束條件下求解有一些相似。

1.2 最大熵簡(jiǎn)介

針對(duì)中醫(yī)辨證,如果想知道在給出癥狀x的前提下,判別屬于某證型y的概率,最基本的方法就是通過(guò)語(yǔ)料集對(duì)其進(jìn)行概率統(tǒng)計(jì)。給定一個(gè)訓(xùn)練集,X為癥狀集,Y為證型集,count(xi,yj)為訓(xùn)練集中出現(xiàn)的次數(shù),其概率估計(jì)為:

但是這個(gè)概率統(tǒng)計(jì)存在一個(gè)問題,即便存在很大的病例集,但很多(xi,yj)像某癥狀對(duì)應(yīng)某證型這種情況卻沒有出現(xiàn),武斷地認(rèn)為它不存在,這是不可取的。針對(duì)這個(gè)問題,最大熵采取的辦法是使其滿足已知的約束條件,對(duì)其未知情況不作任何主觀假設(shè),使其分布平均。例如,寒邪客胃證,飲食傷胃證,脾胃虛寒證這三類證型,如果已知,出現(xiàn)“胃痛”這個(gè)癥狀時(shí),60%的概率屬于飲食傷胃證,對(duì)于“胃痛”這個(gè)癥狀在其他兩類證型中的概率未知。由最大熵原理推測(cè),如果我們給出一訓(xùn)練集,其中包含“胃痛”這個(gè)癥狀,認(rèn)為這個(gè)訓(xùn)練集屬于飲食傷胃證的概率為0.6,屬于其他兩類證型的概率分別是0.2;在給出的訓(xùn)練集中如果不包含“胃痛”這個(gè)癥狀,那么認(rèn)為訓(xùn)練集分別以相同的概率屬于每個(gè)證型,這就是最大熵在滿足已知條件的情況下,使未知事件盡可能平均分布。

1.3 數(shù)據(jù)預(yù)處理

實(shí)驗(yàn)數(shù)據(jù)由成都中醫(yī)藥大學(xué)提供,有效病例2597例,其預(yù)處理過(guò)程如下。

⑴ 規(guī)范癥狀表

由于臨床醫(yī)生的不同,收集到的病情資料,其表述也會(huì)極不相同,對(duì)于用不同的命名規(guī)則及術(shù)語(yǔ)表達(dá)的數(shù)據(jù),是不容易進(jìn)行量化分析的,因此需要在實(shí)驗(yàn)開始階段就對(duì)疾病癥狀等命名進(jìn)行規(guī)范[5] 。本文進(jìn)行實(shí)驗(yàn)的病例數(shù)據(jù)中,一共有2000多種癥狀。

⑵ 規(guī)范病例表

在臨床醫(yī)生錄入病例過(guò)程中,由于個(gè)人經(jīng)驗(yàn)不同造成病情癥狀描述不一,因此對(duì)其病例也需要進(jìn)行規(guī)范化處理[5]。其中證型大約有269種。

⑶ 建立符合實(shí)驗(yàn)的規(guī)范證型癥狀表

由于訓(xùn)練模型時(shí),采用的是“證型/癥狀集”的文本格式,所以需要根據(jù)規(guī)范化的癥狀表與病例表,建立新的證型癥狀表。

⑷ 特征選取

經(jīng)過(guò)規(guī)范化后的處理,其中一些特征對(duì)癥候分類是很有用的,而另一些可能是噪聲數(shù)據(jù),會(huì)對(duì)癥候分類產(chǎn)生干擾,因此,我們需要對(duì)其癥狀進(jìn)行特征選取操作,將其含有信息量少的癥狀和噪聲數(shù)據(jù)過(guò)濾掉,從而提高癥候分類的正確性或有用性。

數(shù)據(jù)經(jīng)過(guò)預(yù)處理后,再進(jìn)行癥候分類初篩。

2 實(shí)驗(yàn)結(jié)果與分析

數(shù)據(jù)挖掘中的樸素貝葉斯被廣泛應(yīng)用在中醫(yī)辨證的研究中,并取得了比較好的成果,基于此原因,我們使用樸素貝葉斯和最大熵進(jìn)行實(shí)驗(yàn)對(duì)比。

樸素貝葉斯分類從中醫(yī)臨床記錄中的特征與中醫(yī)癥候類別之間的生產(chǎn)關(guān)系的角度出發(fā),通過(guò)發(fā)現(xiàn)包含于中醫(yī)臨床記錄中的診斷原則,達(dá)到輔助診斷的目的,也就是說(shuō),發(fā)現(xiàn)中醫(yī)癥候類別與臨床記錄診斷特征向量之間的定量關(guān)系。

2.1 實(shí)驗(yàn)數(shù)據(jù)集

為避免特征訓(xùn)練和預(yù)測(cè)的隨機(jī)性,采用交叉驗(yàn)證方法預(yù)測(cè)平均值,將數(shù)據(jù)集分成十份,隨機(jī)采用九份樣本用于訓(xùn)練,剩余的一份樣本用于預(yù)測(cè)并計(jì)算正確率和召回率。交叉驗(yàn)證過(guò)程中經(jīng)歷10次訓(xùn)練,準(zhǔn)確率和召回率分別取其平均值。

2.3 實(shí)驗(yàn)結(jié)果

樸素貝葉斯在進(jìn)行癥候分類時(shí),從癥候類別與癥狀的定量關(guān)系出發(fā),假設(shè)以癥狀之間是相互獨(dú)立的為前提,這在實(shí)際中醫(yī)辨證中是不切實(shí)際的,同時(shí)它通過(guò)計(jì)算先驗(yàn)概率和類條件概率來(lái)進(jìn)行,但是當(dāng)訓(xùn)練集中“胃痛”這個(gè)癥狀出現(xiàn)的次數(shù)很低時(shí),則容易出現(xiàn)稀疏性問題,計(jì)算出的概率非常小,在實(shí)際癥候分類預(yù)測(cè)過(guò)程中,會(huì)很大程度影響預(yù)測(cè)結(jié)果。而最大熵會(huì)避免出現(xiàn)這種問題,根據(jù)最大熵模型訓(xùn)練,求出每個(gè)癥狀對(duì)應(yīng)證型的最優(yōu)參數(shù)值,然后再根據(jù)給出的“胃痛”,“畏寒”,“苔薄白”等癥狀,計(jì)算出概率及預(yù)測(cè)癥候類別。最大熵預(yù)測(cè)有60%的可能性屬于寒邪客胃證,20%的可能性屬于飲食傷胃證,20%的可能性屬于脾胃虛寒證。雖然這樣的預(yù)測(cè)會(huì)有一些偏差,但毫無(wú)疑問,可以為中醫(yī)臨床診斷提供重要的決策支持。此外,由于給出的訓(xùn)練集,可能同時(shí)屬于不同類的證型,相對(duì)于樸素貝葉斯,最大熵模型更適于多類別識(shí)別,所以在中醫(yī)癥候分類上采用最大熵模型。

3 結(jié)束語(yǔ)

通過(guò)上述實(shí)驗(yàn)的樸素貝葉斯和最大熵進(jìn)行中醫(yī)證型類別的初篩,取得了比較好的實(shí)驗(yàn)效果。但是由于上述實(shí)驗(yàn)中進(jìn)行中醫(yī)癥候分類采用的是人工的結(jié)構(gòu)化的臨床記錄數(shù)據(jù),而采用人工來(lái)記錄這些數(shù)據(jù)耗時(shí)又費(fèi)力,同時(shí)也會(huì)使得大量的中醫(yī)臨床記錄數(shù)據(jù)不能被有效地利用。所以下一步工作是,通過(guò)對(duì)原始自由文本的臨床記錄進(jìn)行處理而得到的癥狀來(lái)進(jìn)行分類,使其適合于中醫(yī)臨床記錄的數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn),提高證型初篩的正確性。

參考文獻(xiàn):

[1] 劉意.21世紀(jì)中醫(yī)中藥面臨的機(jī)遇與挑戰(zhàn)再思考[D].華中師范大學(xué),

2013.

[2] 施明輝.面向中醫(yī)辨證計(jì)算的粗糙集知識(shí)獲取方法及其應(yīng)用研究[D].

廈門大學(xué),2008.

[3] 趙偉,趙法心等.一種基于改進(jìn)的最大熵模型的漢語(yǔ)詞性自動(dòng)標(biāo)注的

新方法[C].中國(guó)計(jì)算機(jī)學(xué)會(huì).2006.

[4] 張奇.基于信息熵的Web信息抽取技術(shù)研究[D].廣東工業(yè)大學(xué),

2013.

[5] 宋燕等.基于文本挖掘詞頻反文檔頻率方法的疾病癥狀權(quán)重挖掘研

究[J].成都信息工程學(xué)院學(xué)報(bào),2014.

[6] 酈永平,溫淑云.中醫(yī)證候量化研究的理論探討[J].中醫(yī)雜志,2008.8:

677-679

[7] 朱海峰,陳雪功.中醫(yī)診斷客觀化研究的現(xiàn)狀和展望[J].甘肅中醫(yī),

2007.6:10-13

[8] 王慶華,唐甜,王清青,劉雅瓊,林輝,黃國(guó)榮,熊鴻燕.小兒常見發(fā)熱出

疹性疾病智能診斷模型研究[J].第三軍醫(yī)大學(xué)學(xué)報(bào),2011.23:2471-2475

[9] Zhang NL, Yuan S,Wang Y.Latent. Tree models and diagnosis in

traditional Chinese medicine.Artif Intell Med,2008.42:229-245

[10] 王毅杰,王海笑,楊濤.基于貝葉斯算法的手機(jī)在線中醫(yī)疾病診斷研

究[J].軟件導(dǎo)刊,2010,12:97-99

[11] 余江維,馬利莊,楊華元.中醫(yī)智能化診斷的研究現(xiàn)狀與展望[J].遼寧

中醫(yī)雜志,2010.1:50-53

[12] 許朝霞,王憶勤,顏建軍等.基于支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)的心血

管疾病中醫(yī)證候分類識(shí)別研究[J].北京中醫(yī)藥大學(xué)學(xué)報(bào),2011.34(8):539-543

[13] 李江平,潘保昌,韋玉科.兩層級(jí)神經(jīng)網(wǎng)絡(luò)及在中醫(yī)智能診斷中的應(yīng)

用[J].計(jì)算機(jī)應(yīng)用研究,2008.10:3169-3170,3173

[14] 鐘昌樂,鐘勇,李寧.基于BP神經(jīng)網(wǎng)絡(luò)的畜禽疾病診斷專家系統(tǒng)的

設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2010.4:23-26

[15] 王毅杰,王海笑,楊濤.基于貝葉斯算法的手機(jī)在線中醫(yī)疾病診斷研

究[J].軟件導(dǎo)刊,2010.12:97-99

[16] Yaqiang Wang, Zhonghua Yu, Li Chen, Yunhui Chen, Yiguang

Liu, Xiaoguang Hu,Yongguang Jiang. Supervised methods for symptom name recognition in free-text clinical records of traditional Chinese medicine: An empirical study. Journal of biomedical informatics,2013.

猜你喜歡
中醫(yī)辨證
中醫(yī)辨證治療小兒肺炎的治療療效
中醫(yī)辨證治療心脾兩虛型失眠的臨床研究
中醫(yī)辨證治療月經(jīng)后期伴量少臨床效果研究
基于過(guò)敏性鼻炎的中醫(yī)辨證規(guī)律及小青龍湯加味治療的臨床研究
中西醫(yī)結(jié)合治療神經(jīng)外科術(shù)后發(fā)熱56例療效觀察
中醫(yī)治療老年慢性阻塞性肺病現(xiàn)況淺析
今日健康(2016年12期)2016-11-17 14:48:20
老年原發(fā)性高血壓應(yīng)用中醫(yī)辨證方案治療臨床體會(huì)
今日健康(2016年12期)2016-11-17 11:52:36
中醫(yī)辨證治療腦血管所致癡呆療效觀察及評(píng)估
慢性腎炎采用中醫(yī)辨證治療的臨床效果觀察
慢性支氣管炎肺氣腫中醫(yī)辨證治療效果觀察
宁远县| 溧阳市| 沂南县| 昭苏县| 禄劝| 秦皇岛市| 武义县| 彭泽县| 长乐市| 安国市| 河北省| 濮阳市| 定兴县| 远安县| 晋城| 鸡西市| 马鞍山市| 西昌市| 彰化市| 龙江县| 抚宁县| 婺源县| 阳新县| 安陆市| 全南县| 岱山县| 万全县| 剑阁县| 台前县| 乌兰浩特市| 长春市| 天全县| 彰武县| 罗江县| 太原市| 柘城县| 得荣县| 景泰县| 青岛市| 云安县| 新建县|