李四海,呂曉云
LISihai1,LVXiaoyun2
1.甘肅中醫(yī)學(xué)院 信息工程學(xué)院,蘭州 730000
2.蘭州大學(xué) 中西醫(yī)結(jié)合研究所,蘭州 730000
1.SchoolofInformationEngineering,GansuUniversityofTraditionalChineseMedicine,Lanzhou730000,China
2.InstituteofIntegratedTraditionalandWesternMedicine,LanzhouUniversity,Lanzhou730000,China
中醫(yī)強(qiáng)調(diào)辨證論治,即從各方面綜合診察患者機(jī)體當(dāng)前階段的整體反應(yīng)狀態(tài)。證素辨證學(xué)認(rèn)為[1],患者的癥狀、體征為證候,通過(guò)對(duì)證候的辨識(shí)而確定的病理本質(zhì)為證素。辨證就是根據(jù)中醫(yī)學(xué)理論,通過(guò)對(duì)癥狀(證候)進(jìn)行分析,明確病位與病性(證素),最終做出證名診斷的思維認(rèn)識(shí)過(guò)程。中醫(yī)辨證過(guò)程中存在大量的模糊、不確定信息,其辨證過(guò)程可以歸納入不確定多屬性決策問(wèn)題。在不確定信息的表示及融合方面,傳統(tǒng)的方法主要有:基于概率的優(yōu)化方法及主觀Bayes理論、不確定性推理及人工神經(jīng)網(wǎng)絡(luò)方法、多屬性決策及效用理論、D-S證據(jù)理論等。由于D-S證據(jù)理論具有處理不確定性的能力以及在工程應(yīng)用上表現(xiàn)出來(lái)的實(shí)用性能,近年來(lái)在醫(yī)學(xué)診斷、目標(biāo)識(shí)別、故障診斷、投資決策及傳感器信息融合等方面得到廣泛應(yīng)用[2]。
在眾多的不確定推理方法中,貝葉斯網(wǎng)絡(luò)被廣泛用于中醫(yī)證素識(shí)別及藥物功效預(yù)測(cè)[3-4]。Bayes方法是根據(jù)先驗(yàn)概率來(lái)更新后驗(yàn)概率。優(yōu)點(diǎn)是具有堅(jiān)實(shí)的理論基礎(chǔ),計(jì)算量適中。缺點(diǎn)是需要大量的概率數(shù)據(jù)來(lái)構(gòu)造知識(shí)庫(kù),無(wú)法區(qū)分模糊及不確定信息,在實(shí)際應(yīng)用中,主觀概率及其一致性很難得到保證。
證據(jù)理論是由Dempster于1967年首先提出,由Shafer于1976年進(jìn)一步發(fā)展起來(lái)的一種不精確推理理論,也稱為D-S理論[5],屬于人工智能范疇,最早應(yīng)用于專家系統(tǒng)中,具有直接表達(dá)“不確定”和“不知道”的能力,能夠根據(jù)證據(jù)的積累不斷縮小假設(shè)的集合。與主觀貝葉斯方法不同,D-S理論是用一個(gè)概率范圍而不是單個(gè)的概率值來(lái)描述不確定性:用信任函數(shù)來(lái)度量不確定性,用似然函數(shù)來(lái)度量由于“不知道”帶來(lái)的不確定性。這樣就弱化了相應(yīng)的公理系統(tǒng),滿足比概率更弱的要求,即不必滿足概率可加性。與主觀Bayes方法相比,證據(jù)理論具有更好的靈活性及實(shí)用性。
設(shè)Θ為辨識(shí)框架,由一系列互斥且可窮舉的基本命題組成。問(wèn)題域上的任意命題A都屬于2Θ,在冪集2Θ上定義基本概率分配BPA(BasicProbabilityAssignment)m:
BPA實(shí)現(xiàn)了將2Θ上的任意子集映射為[0,1]上的一個(gè)數(shù)m(A),當(dāng)m(A)>0時(shí),稱 A為BPA的焦元。對(duì)焦元A,分別定義信任函數(shù)Bel和似然函數(shù)Pl:
Bel(A)和Pl(A)分別表示對(duì)事件A信任度的下界和上界,Pl(A)-Bel(A)反映了對(duì)A不知道的程度。
對(duì)不同概率分配函數(shù)的組合是通過(guò)求正交和實(shí)現(xiàn)的。
(2)多個(gè)信任函數(shù)的組合
其中K反映了證據(jù)之間的沖突程度,K越小,沖突程度越高,當(dāng)K=0時(shí),無(wú)法使用Dempster規(guī)則,當(dāng)K→0時(shí),會(huì)得到與常識(shí)相悖的結(jié)論。
基于D-S理論的中醫(yī)辨證模型以患者所表現(xiàn)出的各種癥狀、體征(證候)為依據(jù),根據(jù)對(duì)證候的辨識(shí)來(lái)確定病理的本質(zhì)(證素),由病位、病性證素構(gòu)成最終的證型名稱(證名),其中,由證候辨識(shí)證素是關(guān)鍵。設(shè)辨識(shí)框架 Θ={syn1,syn2,…,synm}為所有證素的集合,共 m個(gè)證素,證候的集合 s={s1,s2,…,sk}共 k 個(gè)證候,共有n個(gè)專家。面對(duì)相同的證候,不同的專家會(huì)根據(jù)各自的知識(shí)和經(jīng)驗(yàn)給出不盡相同的診斷結(jié)果,所以模型采用多級(jí)融合的群決策模式,以降低系統(tǒng)的不確定性同時(shí)提高診斷結(jié)果的可信度。
第一級(jí)融合:以各種證候?yàn)樽C據(jù),經(jīng)過(guò)證據(jù)融合,得到證素的初步辨識(shí)結(jié)果。具體過(guò)程為:首先由每個(gè)中醫(yī)專家根據(jù)證候集及自己所具有的中醫(yī)知識(shí)給出每個(gè)證候下的基本概率分配,然后對(duì)所有證候的mass函數(shù)求正交和。這樣,對(duì)相同的證候集,通過(guò)證據(jù)融合得到每個(gè)專家各自的mass函數(shù)。
第二級(jí)融合:在相同的辨識(shí)框架Θ下,對(duì)所有專家給出的mass函數(shù)再次進(jìn)行證據(jù)融合,進(jìn)一步降低系統(tǒng)的不確定性,提高各證型之間的可區(qū)分程度。二級(jí)融合結(jié)果作為最終的辨證依據(jù)。
基于D-S理論的多級(jí)中醫(yī)辨證模型如圖1所示。
圖1 基于D-S多級(jí)證據(jù)融合的中醫(yī)辨證模型
大量的研究表明,D-S理論在實(shí)際應(yīng)用中需要注意兩個(gè)問(wèn)題:對(duì)沖突證據(jù)的處理及提高計(jì)算效率[6-8]。
首先是證據(jù)沖突問(wèn)題,當(dāng)各個(gè)專家的意見(jiàn)發(fā)生嚴(yán)重不一致時(shí),會(huì)產(chǎn)生證據(jù)沖突,對(duì)沖突證據(jù)的處理可從兩個(gè)方面進(jìn)行:(1)根據(jù)對(duì)專家的信任程度,為專家賦予不同的可信度,降低可信度低的專家對(duì)融合結(jié)果的影響,降低決策風(fēng)險(xiǎn)。(2)對(duì)沖突證據(jù)進(jìn)行預(yù)處理,然后再使用Dempster規(guī)則合成證據(jù),如通過(guò)對(duì)證據(jù)加權(quán)求平均來(lái)消解或緩解證據(jù)沖突[9]。
其次是計(jì)算量問(wèn)題,這是保證基于D-S理論中醫(yī)辨證模型實(shí)用性的關(guān)鍵問(wèn)題,由于中醫(yī)證候、證素很多,規(guī)范后的證候有700余項(xiàng),證素有50余項(xiàng),如果直接使用該模型時(shí)會(huì)產(chǎn)生“焦元爆炸”。假設(shè)有k個(gè)證候,m個(gè)證素,則要得到一個(gè)第二級(jí)融合的證據(jù)需要的計(jì)算量為2km,如此指數(shù)級(jí)的計(jì)算量是難以接受的。
Voorbraak發(fā)現(xiàn)[10],如果mass函數(shù)的合成將產(chǎn)生一個(gè)Bayes信任函數(shù)(即一個(gè)識(shí)別框架上的概率測(cè)度),則mass函數(shù)用它們的Bayes近似來(lái)代替,將不會(huì)影響Dempster合成規(guī)則的結(jié)果。Voorbraak給出了mass函數(shù)的Bayes近似計(jì)算公式,即
根據(jù)以上公式,在第一級(jí)融合前,首先計(jì)算mass函數(shù)的Bayes近似,減少焦元的數(shù)量,即識(shí)別框架中凡是含有兩個(gè)及以上證素者其mass函數(shù)值均為0。假設(shè)經(jīng)近似計(jì)算后識(shí)別框架中含有單個(gè)證素的焦元有t個(gè),證候數(shù)量仍為k個(gè),則近似計(jì)算后的貝葉斯mass函數(shù)矩陣如下:
每個(gè)專家的BPA可按如下的公式計(jì)算:
可以看出,以上公式將正交和變?yōu)榱诉B乘的形式,大大簡(jiǎn)化了計(jì)算量,從而使得基于D-S證據(jù)理論的中醫(yī)辨證模型具有更好的實(shí)用價(jià)值。第一級(jí)融合結(jié)束后,對(duì)所有專家的BPA進(jìn)行第二級(jí)融合仍按公式(2)進(jìn)行。
為了有效合理地利用D-S證據(jù)融合2得到的基本概率賦值進(jìn)行證型決策分析,給出如下的決策判據(jù):
(1)目標(biāo)證型應(yīng)具有最大的基本概率賦值。
(2)目標(biāo)證型的基本概率賦值應(yīng)該大于合成的不確信度。
(3)目標(biāo)證型的基本概率賦值與其他證型的基本概率賦值的差值應(yīng)該大于給定的閾值θ。
(4)不確信度賦值m(Θ)必須小于某個(gè)閾值。
(5)證據(jù)沖突程度K要小于給定門(mén)限值,以保證診斷結(jié)果的合理性和實(shí)用性。
使用該模型對(duì)冠心病進(jìn)行中醫(yī)辨證。首先收集冠心病的一系列證候(包括主訴癥狀及四診信息),構(gòu)成證候集,然后對(duì)證型名稱進(jìn)行規(guī)范,按照本虛(氣虛、血虛、陰虛、陽(yáng)虛)、標(biāo)實(shí)(氣滯、血瘀、痰濁、寒凝)將證型分為氣虛血瘀、氣滯血瘀、血瘀痰濁等證型[11],分別用S1、S2、S3來(lái)表示,構(gòu)造辨識(shí)框架 Θ={S1,S2,S3,{S1,S2},Θ}。證候集由本虛和標(biāo)實(shí)的各主要癥狀和次要癥狀組成。
在證候集中,與各證素關(guān)聯(lián)的癥狀主要有脈診、舌診及體征信息,癥狀有主、次之分。如血虛的主癥為紫默舌、口唇青紫;次癥為胸痛、脈弦。痰濁的主癥為膩苔;次癥為脈滑[12]。中醫(yī)專家根據(jù)各證型的主、次癥狀給出各癥狀對(duì)證素的貢獻(xiàn)度,即基本概率分配,對(duì)各主、次癥狀的BPA進(jìn)行融合可得到每個(gè)專家的BPA。表1給出了兩個(gè)專家面對(duì)相同證候集給出的各自的BPA,分別用m1和m2表示。
表1 D-S證據(jù)融合后的mass函數(shù)(K=0.705)
對(duì)兩位專家給出的mass函數(shù)進(jìn)行證據(jù)合成,首先計(jì)算歸一化常數(shù)K:
限于篇幅,其他計(jì)算過(guò)程省略,最后合成的結(jié)果如表1所示。從表1結(jié)果可知,m(Θ)明顯減小,說(shuō)明D-S證據(jù)融合降低了疾病診斷的不確定性。融合前,每個(gè)專家對(duì)各證型給出的基本可信度函數(shù)值都偏低,無(wú)法得出令人信服的診斷結(jié)果;融合后,基本可信度函數(shù)值較單個(gè)專家給出的基本可信度函數(shù)值具有更好的可區(qū)分性,主要證型的基本可信度函數(shù)值有較大程度的提高:S2的基本可信度函數(shù)值由融合前的0.4或0.3提高至0.51,為各證型中最大,根據(jù)本文提出的證型決策規(guī)則,S2(氣滯血瘀證)為最終診斷的證名。隨著專家證據(jù)的積累,假設(shè)集會(huì)逐步縮小,主要證型的可信度會(huì)不斷提高,診斷結(jié)果也會(huì)更令人信服。
需要指出的是,當(dāng)專家較少時(shí),最終診斷結(jié)果與證型決策規(guī)則(3)中閾值θ的關(guān)系較大。閾值θ越小,診斷結(jié)果越穩(wěn)健,但診斷結(jié)果中可能會(huì)包含多個(gè)證型;反之,如果要求最終診斷結(jié)果中只包含單一證型,則閾值θ可以取大一些,表明診斷決策為追求精準(zhǔn)度而愿意承擔(dān)診斷結(jié)果缺失的風(fēng)險(xiǎn)。如果專家較多且采用了合理的沖突證據(jù)消解方法,閾值θ對(duì)最終診斷結(jié)果影響不大,當(dāng)θ取值較大時(shí)模型仍然具有較高的辨證精度。
以下進(jìn)行近似計(jì)算,以和表1加以對(duì)比,首先計(jì)算出Bayes的mass函數(shù),然后計(jì)算新的歸一化常數(shù)K′:
根據(jù)表2的融合結(jié)果,依據(jù)證型決策規(guī)則,可以得出診斷結(jié)果仍然為氣滯血瘀證,說(shuō)明近似計(jì)算方法是有效的。由此可知,如果診斷結(jié)果只關(guān)注單一證型,則近似計(jì)算過(guò)程簡(jiǎn)單明了,特別是當(dāng)證據(jù)很多時(shí),計(jì)算量大為減少,使得基于D-S證據(jù)理論的中醫(yī)辨證模型具有更好的實(shí)用價(jià)值。對(duì)比兩種方法的計(jì)算結(jié)果發(fā)現(xiàn),表2中合成的mass函數(shù)值較表1都有不同程度的增加,原因在于通過(guò)mass函數(shù)的Bayes近似,對(duì){S1,S2}及Θ的不確定性進(jìn)行了消解,增加了S1、S2、S3的確定性。
表2 近似計(jì)算后的mass函數(shù)
基于D-S多級(jí)證據(jù)融合理論建立了中醫(yī)辨證模型,分析了模型的證據(jù)沖突及近似計(jì)算問(wèn)題,提出了證型決策規(guī)則,并以冠心病的中醫(yī)診斷為例驗(yàn)證了模型的有效性。理論分析和實(shí)際應(yīng)用表明,模型的有效性很大程度上依賴于證候和證素之間的基本可信度分配,在下一步的工作中,BPA可以考慮采用專家診斷和人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)輸出相結(jié)合的方法,以得到更為客觀和準(zhǔn)確的可信度分配,進(jìn)一步提高基于D-S理論中醫(yī)專家系統(tǒng)的實(shí)用性和有效性。
[1]朱文鋒.證素辨證學(xué)[M].北京:人民衛(wèi)生出版社,2008.
[2]何兵,郝愛(ài)民,趙沁平.一種基于不確定信息的決策方法[J].計(jì)算機(jī)學(xué)報(bào),2004,27(2):281-285.
[3]朱文鋒,朱詠華,黃碧群.采用貝葉斯網(wǎng)絡(luò)運(yùn)算進(jìn)行中醫(yī)辨證的探討[J].廣州中醫(yī)藥大學(xué)學(xué)報(bào),2006,23(6):449-452.
[4]劉穎,李江,王耘,等.貝葉斯網(wǎng)絡(luò)在中藥活血化瘀功效預(yù)測(cè)中的應(yīng)用[J].北京中醫(yī)藥大學(xué)學(xué)報(bào),2008,31(4):229-231.
[5]姚麗莎,趙海峰,羅斌,等.基于證據(jù)理論的小波域多特征醫(yī)學(xué)圖像融合[J].計(jì)算機(jī)應(yīng)用,2012,32(6):1544-1547.
[6]徐從富,耿衛(wèi)東,潘云鶴.面向數(shù)據(jù)融合的DS方法綜述[J].電子學(xué)報(bào),2001,29(3):393-396.
[7]張航,王一軍,羅大庸.改進(jìn)的D-S證據(jù)理論及在水質(zhì)評(píng)價(jià)中的應(yīng)用[J].小型微型計(jì)算機(jī)系統(tǒng),2010,31(6):1236-1239.
[8]尹慧琳,王磊.D-S證據(jù)推理改進(jìn)方法綜述[J].計(jì)算機(jī)工程與應(yīng)用,2005,41(27):22-24.
[9]呂悅晶,宋向勃,張蕾,等.一種加權(quán)改進(jìn)的D-S證據(jù)推理算法[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(10):30-33.
[10]VoorbraakFA.Computationallyefficientapproximation ofDempster-Shafertheory[J].IntJMan-MachineStudies,1989,30:525-536.
[11]孫亞男,寧士勇,魯明羽,等.貝葉斯分類(lèi)算法在冠心病中醫(yī)臨床證型診斷中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2006,11:164-166.
[12]吳榮,聶曉燕,王階,等.基于貝葉斯網(wǎng)絡(luò)的名老中醫(yī)治療冠心病辨證規(guī)律研究[J].中國(guó)中醫(yī)藥信息雜志,2010,17(5):98-99.