任晉宇,白琳,周志陽,馮睿智,鐘華
中醫(yī)藥信息學(xué)
基于gSpan改進算法的中醫(yī)辨證論治模式挖掘研究
任晉宇1,白琳1,周志陽1,馮睿智2,鐘華1
1.中國科學(xué)院軟件研究所,北京 100190;2.四川大學(xué)華西醫(yī)院,四川 成都 610041
擴展經(jīng)典的頻繁子圖挖掘算法以獲得在中醫(yī)學(xué)科中表現(xiàn)更好的數(shù)據(jù)挖掘效果,從而得出隱含在中醫(yī)病案中的辨證論治模式。結(jié)合中醫(yī)病案數(shù)據(jù)特征,擴展經(jīng)典的圖挖掘算法,對多個癥狀屬性分別設(shè)置最小支持度閾值參數(shù),再用擴展后的基于多重最小支持度的數(shù)據(jù)挖掘算法對數(shù)據(jù)集中蘊含的辨證論治模式進行挖掘。對3 319條慢性阻塞性肺疾?。毙约又仄冢┱鎸嵅“笖?shù)據(jù)應(yīng)用擴展的頻繁子圖挖掘算法,得到一系列該病相關(guān)的八綱辨證模式。與經(jīng)典算法相比,擴展算法挖掘得到的辨證模式在模式維度和數(shù)量方面均明顯提升。擴展后的頻繁子圖挖掘算法能夠運用于中醫(yī)辨證論治模式的挖掘,發(fā)現(xiàn)病案中隱含的辨證規(guī)律,且在模式完備性上具有比原始算法更好的效果。
模式挖掘;頻繁子圖;多重最小支持度;辨證論治模式
數(shù)據(jù)挖掘是從數(shù)據(jù)集中發(fā)現(xiàn)潛在的、隱藏的歸納性知識的一種方法,能在紛繁的數(shù)據(jù)中獲得具有代表性、可信度高的信息。傳統(tǒng)的分類、聚類等數(shù)據(jù)挖掘算法主要針對簡單類型數(shù)據(jù)進行挖掘。對于圖這種計算機科學(xué)中通用的數(shù)據(jù)結(jié)構(gòu),普通數(shù)據(jù)挖掘算法難以應(yīng)對其內(nèi)部錯綜復(fù)雜的頂點之間的關(guān)系[1]。為解決這一問題,圖數(shù)據(jù)挖掘應(yīng)運而生,并且已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域的基礎(chǔ)性研究問題,特別是頻繁子圖挖掘方向引起了廣泛關(guān)注。頻繁子圖挖掘的目的是找到在圖集中頻繁出現(xiàn)的子圖模式,所得結(jié)果集可應(yīng)用于相似性搜索[2-3]、圖聚類和分類[4-6]、圖索引[7-8]等諸多場景[9],其需求推動著該領(lǐng)域高速發(fā)展[10-11]。
中醫(yī)名家的診療經(jīng)驗難以客觀化,限制了中醫(yī)的傳承和發(fā)展,因此構(gòu)建標(biāo)準(zhǔn)化的信息系統(tǒng)以輔助診斷尤為重要。中醫(yī)理論體系中,多種辨證論治模式紛繁復(fù)雜,一般的數(shù)據(jù)結(jié)構(gòu)難以表達(dá)模型中的復(fù)雜關(guān)系。本研究結(jié)合圖挖掘理論,改進經(jīng)典的圖挖掘算法,將中醫(yī)診療數(shù)據(jù)隱含的診斷模式視作一個圖以簡化問題,以中醫(yī)思維理念模型為基礎(chǔ),融合八綱辨證知識,將每一個病案信息建模為一個圖結(jié)構(gòu),在這些圖構(gòu)成的數(shù)據(jù)集中挖掘頻繁子圖,分析所得結(jié)果中目標(biāo)病癥的診治規(guī)律,從而得出中醫(yī)辨證論治模式,以期為大數(shù)據(jù)驅(qū)動的中醫(yī)智能輔助診斷系統(tǒng)提供核心服務(wù)。
根據(jù)數(shù)據(jù)挖掘理論,頻繁出現(xiàn)的圖結(jié)構(gòu)包含可利用的、高價值的信息,頻繁子圖挖掘即在多個圖構(gòu)成的圖集中尋找頻繁出現(xiàn)的圖結(jié)構(gòu)。本研究基于性能較優(yōu)的gSpan算法進行擴展,從而提升算法對中醫(yī)病案數(shù)據(jù)集的挖掘效果。
1.1.1 標(biāo)記圖
標(biāo)記圖是邊和頂點均帶有標(biāo)簽的圖,可以表示為五元組=(,,,,)。式中,是圖的非空頂點集合,是圖的非空邊集合,和分別是圖的頂點標(biāo)簽集合和邊標(biāo)簽集合,為→、→的映射關(guān)系。
1.1.2 子圖
標(biāo)記圖1=(1,1,1,1,1)是標(biāo)記圖2=(2,2,2,2,2)的子圖,當(dāng)且僅當(dāng)①1?2,1?2;②?∈1,1()=2();③?(,)∈1,1(,)=2(,),記作1?2。
1.1.3 子圖同構(gòu)
設(shè)有標(biāo)記圖1=(1,1,1,1,1)與標(biāo)記圖2=(2,2,2,2,2),如果存在一個1到2的雙射函數(shù):1→2,且滿足1=<1i,1j>是圖1的一條邊,則稱1與2同構(gòu),記作1≌2;如果存在1≌2且2?,則稱1子圖同構(gòu)于。
1.1.4 支持度
1.1.5 頻繁子圖
給定一個圖集合={1,2,…,G}和最小支持度閾值∈(0,1],如果圖G是頻繁的,當(dāng)且僅當(dāng)(,)≥。
gSpan算法基于深度優(yōu)先搜索思想和最右路徑擴展方法,并通過逐步擴展頻繁邊而生成頻繁子圖。gSpan算法對訪問過的頂點集合反復(fù)擴展,從而建立一個深度優(yōu)先搜索樹。由于gSpan算法擴展時只對最小的DFS(深度優(yōu)先搜索)編碼進行最右擴展,因而有效減少了復(fù)制圖的產(chǎn)生[12],借此提高了挖掘效率。算法及子程序如下:
原始的gSpan算法設(shè)置統(tǒng)一的最小支持度參數(shù),挖掘結(jié)果為在圖集中出現(xiàn)頻率大于該支持度的所有頻繁子圖。將gSpan算法應(yīng)用于中醫(yī)學(xué)具體問題時,由于各癥狀值域分布范圍不同,造成某些癥狀特征因值域范圍廣而出現(xiàn)概率低的情況。以中醫(yī)癥狀屬性“脈象”為例,其取值包括沉、滑、弱、澀、細(xì)、遲、緩、軟、弦、數(shù)、疾、緊、濡、穩(wěn)、代、弦、促、浮、洪、結(jié)、平等數(shù)十種。我們將癥狀屬性連同其某個取值合稱為一個癥狀特征,如“脈象沉”“脈象滑”。如果對全部癥狀特征都設(shè)置相同的最小支持度參數(shù),會使因值域范圍廣而出現(xiàn)概率低的癥狀特征被視為低頻特征,在模式挖掘過程中被過濾掉,而這些特征有可能是辨證論治的關(guān)鍵特征,將其過濾掉可能造成辨證論治模式完備性的缺失。因此,采用擴展的gSpan算法,結(jié)合癥狀屬性值域范圍和數(shù)值分布特征,為每個癥狀屬性分別設(shè)置單獨的最小支持度參數(shù),實現(xiàn)基于多重最小支持度的辨證論治模式挖掘。算法如下:
以慢性阻塞性肺疾?。毙约又仄冢┲嗅t(yī)病案為實驗數(shù)據(jù),來源于四川大學(xué)華西醫(yī)院醫(yī)院信息系統(tǒng),為該院中西醫(yī)結(jié)合科2011年1月1日-2019年1月31日出院患者病案。由于該病臨床證名繁多,難以統(tǒng)一歸類,而八綱辨證(陰陽、表里、寒熱、虛實)全部為二分類,條目清晰,因此,根據(jù)原始中醫(yī)辨證結(jié)果,結(jié)合病歷記載的四診資料,標(biāo)記出八綱辨證。
納入標(biāo)準(zhǔn):病案首頁主診斷為慢性阻塞性肺疾?。毙约又仄冢┣矣涗浲暾逦?,包括完整的四診信息和診斷信息。排除標(biāo)準(zhǔn):①缺失“中醫(yī)證候”項;②缺失患者四診描述信息;③“中醫(yī)證候”項的值錯填為西醫(yī)疾病名。根據(jù)納入和排除標(biāo)準(zhǔn)篩選后得到3 319條病案數(shù)據(jù),按照八綱辨證進行統(tǒng)計,結(jié)果見表1。其中,表證病案僅10條,且相關(guān)研究顯示慢性阻塞性肺疾?。毙约又仄冢┗颊咛貏e是住院患者表證很少[13-15],故本文不討論表證辨證模式。
表1 3 319條慢性阻塞性肺疾?。毙约又仄冢┎“笖?shù)據(jù)八綱辨證分布
八綱辨證病案數(shù)百分比/% 八綱辨證病案數(shù)百分比/% 陰證1 92958.1 寒證1 62248.9 陽證1 39041.9 熱證1 69751.1 虛證1 09132.9 表證 10 0.3 實證2 22867.1 里證3 30999.7
3.2.1 四診信息規(guī)范化處理與分詞
為每個癥狀描述信息(即癥狀特征)定義一個標(biāo)準(zhǔn)名稱,對四診信息進行規(guī)范化處理,如“脘腹按痛”“脘腹按壓痛”“脘腹按壓疼痛”統(tǒng)一為“脘腹按痛”。分詞是將復(fù)雜文本描述的癥狀信息進行拆分,分解為細(xì)粒度的最小癥狀描述單位,如“脈象沉弦細(xì)數(shù)”分詞為“脈象沉”“脈象弦”“脈象細(xì)”“脈象數(shù)”。
3.2.2 數(shù)據(jù)建模
根據(jù)“1.1”項下定義,每條病案數(shù)據(jù)對應(yīng)一個圖結(jié)構(gòu)。病案中表現(xiàn)異常的癥狀屬性與該病案診斷的八綱證型構(gòu)成圖的頂點集合,癥狀屬性與八綱證型的聯(lián)系構(gòu)成圖中邊的集合,邊的標(biāo)記為這條邊關(guān)聯(lián)的癥狀屬性在病案中表現(xiàn)的癥狀特征。
以病案集中第0005號病案為例,癥狀為“惡寒發(fā)熱,盜汗,納呆,??诳?,夜間失眠,呼吸氣粗,痰白色黏稠,脈沉”,證候為“痰熱犯肺”,屬陽證。根據(jù)建模規(guī)則,病案中表現(xiàn)異常的癥狀屬性“寒熱”“汗”“飲食”“口”“睡眠”“呼吸”“痰”“脈象”,以及所屬的八綱證型“陽證”共同構(gòu)成圖的頂點集合。每個癥狀屬性頂點與證型頂點之間以邊相連。邊的起點為癥狀屬性頂點,終點為證型頂點,表明該癥狀屬性屬于該證型的臨床關(guān)聯(lián)屬性?!皭汉l(fā)熱”“盜汗”“納呆”等癥狀特征作為邊的標(biāo)記標(biāo)注在相應(yīng)癥狀屬性對應(yīng)的邊上。該病案對應(yīng)的圖結(jié)構(gòu)見圖1。
依據(jù)各癥狀屬性對應(yīng)的癥狀特征分布情況,對不同癥狀屬性設(shè)置不同的最小支持度。統(tǒng)計結(jié)果顯示,病案數(shù)據(jù)的四診信息可通過19個癥狀屬性進行描述,包括“舌苔色”“舌苔質(zhì)”“飲食”“睡眠”“痰”“脈象”等,同一病案的癥狀屬性最多有17個,最少僅1個,約86%病案的癥狀屬性為5~10個,見圖2。
圖1 病案記錄轉(zhuǎn)化為圖模型示例
圖2 3 319條慢性阻塞性肺疾?。毙约又仄冢┎“笖?shù)據(jù)癥狀屬性分布
不同癥狀屬性的癥狀特征數(shù)量及其出現(xiàn)頻率存在較大差異?!懊}象”這一癥狀屬性的癥狀特征數(shù)量最多,在八綱證型(陰、陽、虛、實、寒、熱、里7種證型)上表現(xiàn)的特征數(shù)量分別為34、27、25、29、36、29、35個;癥狀特征數(shù)量最少的是“睡眠”“飲食”“汗”癥狀屬性,均包含2個癥狀特征,分別為“失眠”“嗜睡”、“納呆”“多食易饑”、“盜汗”“自汗”。出現(xiàn)頻率最高的是“舌苔質(zhì)”屬性對應(yīng)的“舌苔質(zhì)薄”,為81.2%。癥狀特征分布較為分散,只有約9%的癥狀特征出現(xiàn)頻率在20%以上,見圖3。
圖3 3 319條慢性阻塞性肺疾?。毙约又仄冢┎“笖?shù)據(jù)癥狀特征出現(xiàn)頻率分布
對每一個癥狀屬性,根據(jù)其癥狀特征的出現(xiàn)頻率分布情況,設(shè)置最小支持度參數(shù)。具體方法:①設(shè)δ為挖掘算法的默認(rèn)最小支持度,為當(dāng)前癥狀屬性對應(yīng)的全部癥狀特征頻率的集合;②若min()<δ(即全部為低頻特征),則以δ為當(dāng)前癥狀屬性的最小支持度參數(shù),過濾全部低頻特征;③若max()>δ(即全部為高頻特征),則以δ為當(dāng)前癥狀屬性的最小支持度參數(shù),篩選全部高頻特征;④否則,計算中各頻率值的離散程度,若標(biāo)準(zhǔn)差σ()<α,表明各癥狀特征的頻率分布相對集中,取的上四分位數(shù)QU()作為當(dāng)前癥狀屬性的最小支持度參數(shù),篩選優(yōu)勢特征;否則,中各頻率值分布較為分散,取對排序位置不敏感的平均數(shù)AVE()作為當(dāng)前癥狀屬性的最小支持度參數(shù)。其中,α為可設(shè)定的閾值。
以“熱證”為例:1 697條病案中,癥狀屬性“舌苔色”的癥狀特征包括“舌苔色黃”“舌苔色白”,頻率分別為52%、48%,設(shè)定δ=20%、α=20,則最小支持度參數(shù)minSup.舌苔色=20%。類似的,癥狀屬性“脈象”的癥狀特征“脈象滑”“脈象數(shù)”“脈象弦”“脈象細(xì)”“脈象沉”“脈象弱”“脈象浮”“脈象濡”“脈象虛”“脈象洪”“脈象緩”“脈象代”“脈象澀”“脈象結(jié)”頻率分別為48%、48%、22%、19%、10%、5%、4%、2%、1%、1%、1%、1%、1%、1%,標(biāo)準(zhǔn)差σ()=16.22,則minSup.脈象=QU()=17%。
表2 原始算法挖掘得到的辨證論治模式數(shù)量(不包含子模式)
證型最小支 持度/%模式維度合計 證型最小支 持度/%模式維度合計 二維三維四維五維 二維三維四維五維 寒證10495119 陰證10958022 1511608 15415010 2013408 2011406 2502305 2536009 3033006 3021003 熱證10153011056 陽證1093010150 1517200037 1513182033 201540019 209110020 251010011 25830011 3080008 3090008 虛證1013128033 里證1013185036 1540105 151043017 2015107 20570012 25933015 2551006 3003003 3031004 實證1011248043 151363022 201121014 2563009 3041005
可以看出,采用單一最小支持度進行挖掘,從模式的數(shù)量和維度兩方面綜合考慮,參數(shù)設(shè)置為20%時,挖掘結(jié)果最理想。因此,選取20%作為原始挖掘算法的最小支持度參數(shù)與擴展算法進行比較,同時將擴展算法中多重最小支持度的默認(rèn)值δ設(shè)置為20%。挖掘結(jié)果見表3~表9(辨證論治模式以所包含的癥狀特征表示)。其中,模式的支持度即該模式在當(dāng)前病案集中的出現(xiàn)頻率。
表3 寒證單一和多重最小支持度設(shè)置挖掘結(jié)果比較(模式維度≥3)
最小支持度設(shè)置辨證論治模式支持度/% 單一{舌苔質(zhì)薄,舌苔色白,舌色淡紅,痰白色}26 minSup=20%{舌苔質(zhì)薄,舌苔色白,舌色淡紅,脈象滑}26 {舌苔質(zhì)薄,舌苔色白,舌色淡紅,脈象細(xì)}25 {舌苔質(zhì)薄,舌苔色白,舌色淡紅,脈象數(shù)}23 {舌苔色白,舌色淡紅,飲食納呆}21 {舌苔質(zhì)薄,舌色淡紅,飲食納呆}20 {舌苔質(zhì)薄,舌苔色白,飲食納呆}20 多重{舌苔質(zhì)薄,舌苔色白,舌色淡紅,痰白色}26 minSup.睡眠=18%{舌苔質(zhì)薄,舌苔色白,舌色淡紅,脈象滑}26 minSup.痰=34%{舌苔質(zhì)薄,舌苔色白,舌色淡紅,脈象細(xì)}25 minSup.舌色=50%{舌苔質(zhì)薄,舌苔色白,舌色淡紅,脈象數(shù)}23 minSup.舌苔色=50%{舌苔質(zhì)薄,舌苔色白,舌色淡紅,飲食納呆}19 minSup.舌苔質(zhì)=17%{舌苔色白,舌色淡紅,脈象弦}17 minSup.脈象=17%{舌苔質(zhì)薄,舌色淡紅,脈象弦}17 minSup.其他=20%
表4 熱證單一和多重最小支持度設(shè)置挖掘結(jié)果比較(模式維度≥3)
最小支持度設(shè)置辨證論治模式支持度/% 單一{舌苔質(zhì)薄,舌苔色黃,舌色紅}26 minSup=20%{舌苔質(zhì)薄,舌苔色白,舌色淡紅}23 {舌苔質(zhì)薄,舌苔色黃,脈象滑}22 {舌苔質(zhì)薄,舌苔色黃,痰白色}21 多重{舌苔質(zhì)薄,舌苔色黃,舌色紅}26 minSup.睡眠=24%{舌苔質(zhì)薄,舌苔色白,舌色淡紅}23 minSup.痰=26%{舌苔質(zhì)薄,舌苔色黃,脈象滑}22 minSup.舌苔質(zhì)=15%{舌苔質(zhì)薄,舌苔色黃,痰白色}21 minSup.脈象=17%{舌苔質(zhì)薄,舌色紅,痰白色}19 minSup.其他=20%{舌苔質(zhì)薄,舌色淡紅,脈象滑}19 {舌苔質(zhì)薄,舌色紅,脈象滑}18 {舌苔質(zhì)薄,脈象滑,脈象數(shù)}18 {舌苔質(zhì)薄,舌苔色黃,脈象數(shù)}18 {舌苔質(zhì)薄,脈象滑,痰白色}17 {舌苔色黃,舌色紅,脈象滑}17 {舌苔質(zhì)薄,舌色紅,脈象數(shù)}17 {舌苔質(zhì)薄,舌苔色白,脈象數(shù)}17 {舌苔質(zhì)薄,舌色淡紅,脈象數(shù)}17 {舌苔質(zhì)薄,舌苔色白,脈象滑}16 {舌苔質(zhì)薄,舌色紅,飲食納呆}15 {舌苔質(zhì)薄,舌苔色黃,飲食納呆}15
表5 虛證單一和多重最小支持度設(shè)置挖掘結(jié)果比較(模式維度≥3)
最小支持度設(shè)置辨證論治模式支持度/% 單一{舌苔質(zhì)薄,舌苔色白,舌色淡紅,脈象細(xì)}26 minSup=20%{舌苔質(zhì)薄,舌苔色白,脈象數(shù)}24 {舌苔質(zhì)薄,舌苔色白,痰白色}21 {舌苔色白,舌色淡紅,脈象數(shù)}21 {舌苔質(zhì)薄,舌色淡紅,脈象數(shù)}20 {舌苔質(zhì)薄,舌苔色白,飲食納呆}20 多重{舌苔質(zhì)薄,舌苔色白,舌色淡紅,脈象細(xì)}26 minSup.痰=32%{舌苔質(zhì)薄,舌苔色白,舌色淡紅,脈象數(shù)}19 minSup.舌苔色=50%{舌苔質(zhì)薄,舌苔色白,舌色淡紅,痰白色}16 minSup.舌苔質(zhì)=14%{舌苔質(zhì)薄,舌苔色白,舌色淡紅,飲食納呆}14 minSup.其他=20%{舌苔質(zhì)薄,舌苔色白,脈象滑}14
表6 實證單一和多重最小支持度設(shè)置挖掘結(jié)果比較(模式維度≥3)
最小支持度設(shè)置辨證論治模式支持度/% 單一{舌苔質(zhì)薄,舌苔色白,舌色淡紅,脈象滑}22 minSup=20%{舌苔質(zhì)薄,舌色淡紅,痰白色}21 {舌苔質(zhì)薄,舌色淡紅,脈象數(shù)}21 多重{舌苔質(zhì)薄,舌苔色白,舌色淡紅,脈象滑}22 minSup.睡眠=22%{舌苔質(zhì)薄,舌色淡紅,痰白色}21 minSup.痰=36%{舌苔質(zhì)薄,舌苔淡紅,脈象數(shù)}21 minSup.舌苔質(zhì)=17%{舌苔質(zhì)薄,舌苔色白,脈象數(shù)}19 minSup.脈象=17%{舌苔質(zhì)薄,舌苔色白,痰白色}18 minSup.其他=20%{舌苔質(zhì)薄,痰白色,脈象滑}18 {舌苔色白,舌色淡紅,脈象數(shù)}18 {舌苔質(zhì)薄,舌苔色黃,舌色紅}17 {舌苔質(zhì)薄,舌苔色黃,脈象滑}17 {舌苔質(zhì)薄,脈象滑,脈象數(shù)}17
表7 陰證單一和多重最小支持度設(shè)置挖掘結(jié)果比較(模式維度≥3)
最小支持度設(shè)置辨證論治模式支持度/% 單一{舌苔質(zhì)薄,舌苔色白,舌色淡紅,脈象滑}23 minSup=20%{舌苔質(zhì)薄,舌苔色白,舌色淡紅,痰白色}22 {舌苔質(zhì)薄,舌苔色白,舌色淡紅,脈象細(xì)}21 {舌苔質(zhì)薄,舌苔色白,舌色淡紅,脈象數(shù)}20 {舌苔質(zhì)薄,舌苔色白,飲食納呆}20 多重{舌苔質(zhì)薄,舌苔色白,舌色淡紅,脈象滑}23 minSup.痰=34%{舌苔質(zhì)薄,舌苔色白,舌色淡紅,痰白色}22 minSup.舌苔色=50%{舌苔質(zhì)薄,舌苔色白,舌色淡紅,脈象細(xì)}21 minSup.舌苔質(zhì)=14%{舌苔質(zhì)薄,舌苔色白,舌色淡紅,脈象數(shù)}20 minSup.脈象=16%{舌苔質(zhì)薄,舌苔色白,舌色淡紅,飲食納呆}16 minSup.其他=20%{舌苔質(zhì)薄,舌色淡紅,脈象弦}20 {舌苔質(zhì)薄,舌苔色白,脈象弦}20
表8 陽證單一和多重最小支持度設(shè)置挖掘結(jié)果比較(模式維度≥3)
最小支持度設(shè)置辨證論治模式支持度/% 單一{舌苔質(zhì)薄,舌苔色黃,舌色紅}28 minSup=20%{舌苔質(zhì)薄,舌苔色白,舌色淡紅}27 {舌苔質(zhì)薄,舌苔色黃,脈象滑}26 {舌苔質(zhì)薄,舌苔色黃,痰白色}24 {舌苔質(zhì)薄,舌色淡紅,脈象滑}22 {舌苔質(zhì)薄,舌苔色黃,脈象數(shù)}21 {舌苔質(zhì)薄,脈象滑,脈象數(shù)}21 {舌苔質(zhì)薄,脈象滑,痰白色}20 {舌苔色黃,舌色紅,脈象滑}20 {舌苔質(zhì)薄,舌色紅,脈象滑}20 {舌苔質(zhì)薄,舌色淡紅,脈象數(shù)}20 多重{舌苔質(zhì)薄,舌苔色白,舌色淡紅}27 minSup.睡眠=23%{舌苔質(zhì)薄,舌苔色黃,痰白色}24 minSup.痰=28%{舌苔質(zhì)薄,舌色淡紅,脈象滑}22 minSup.舌苔質(zhì)=17%{舌苔質(zhì)薄,脈象滑,脈象數(shù)}21 minSup.脈象=15%{舌苔質(zhì)薄,脈象滑,痰白色}20 minSup.其他=20%{舌苔質(zhì)薄,舌色淡紅,脈象數(shù)}20 {舌苔質(zhì)薄,舌色紅,痰白色}19 {舌苔質(zhì)薄,舌苔色黃,舌色紅,脈象滑}17 {舌苔色黃,痰白色,脈象滑}17 {舌苔質(zhì)薄,舌苔色黃,飲食納呆}17 {舌苔質(zhì)薄,舌苔色白,脈象滑}17 {舌苔色黃,舌色紅,脈象數(shù)}17 {舌苔質(zhì)薄,舌苔色白,脈象數(shù)}17 {舌苔質(zhì)薄,舌色紅,脈象數(shù)}16 {舌苔質(zhì)薄,痰白色,脈象數(shù)}15 {舌苔質(zhì)薄,飲食納呆,脈象滑}15 {舌苔色黃,脈象滑,脈象數(shù)}15
表9 里證單一和多重最小支持度設(shè)置挖掘結(jié)果比較(模式維度≥3)
最小支持度設(shè)置辨證論治模式支持度/% 單一{舌苔質(zhì)薄,舌苔色白,舌色淡紅}49 minSup=20%{舌苔質(zhì)薄,舌色淡紅,脈象滑}23 {舌苔質(zhì)薄,舌苔色白,脈象滑}22 {舌苔色白,舌色淡紅,脈象滑}21 {舌苔質(zhì)薄,舌色淡紅,脈象數(shù)}21 {舌苔質(zhì)薄,舌色淡紅,痰白色}20 {舌苔質(zhì)薄,舌苔色白,脈象數(shù)}20 多重{舌苔質(zhì)薄,舌苔色白,舌色淡紅,脈象滑}19 minSup.睡眠=21%{舌苔質(zhì)薄,舌苔色白,舌色淡紅,脈象數(shù)}17 minSup.舌苔質(zhì)=14%{舌苔質(zhì)薄,舌苔色白,脈象細(xì)}17 minSup.脈象=22%{舌苔質(zhì)薄,舌苔色白,飲食納呆}16 minSup.其他=20%{舌苔質(zhì)薄,舌苔色白,舌色淡紅,痰白色}15 {舌苔質(zhì)薄,舌色淡紅,飲食納呆}20 {舌苔質(zhì)薄,痰白色,脈象滑}14 {舌苔質(zhì)薄,舌色淡紅,脈象細(xì)}14
可以看出,與采用單一最小支持度的原始算法相比,擴展挖掘算法根據(jù)病案中不同癥狀屬性的特征分布設(shè)置多重最小支持度參數(shù),挖掘結(jié)果在模式的維度、數(shù)量方面均有所提升。具體表現(xiàn)在三方面:第一,發(fā)現(xiàn)更高維度的新模式,如模式r:陽證←{舌苔質(zhì)薄,舌苔色黃,舌色紅,脈象滑}、r:陰證←{舌苔質(zhì)薄,舌苔色白,舌色淡紅,飲食納呆}等都是在原有三維模式的基礎(chǔ)上經(jīng)設(shè)置多重最小支持度參數(shù)而發(fā)現(xiàn)的更高維度的新模式;第二,發(fā)現(xiàn)癥狀特征間新的關(guān)聯(lián)組合方式,如模式r:實證←{舌苔質(zhì)薄,痰白色,脈象滑}、r:熱證←{舌苔色黃,舌色紅,脈象滑}等;第三,發(fā)現(xiàn)新的癥狀特征及其模式,如模式r:寒證←{舌苔色白,舌色淡紅,脈象弦}中的“脈象弦”、r:里證←{舌苔質(zhì)薄,舌苔色白,飲食納呆}中的“飲食納呆”都是設(shè)置多重最小支持度參數(shù)后發(fā)現(xiàn)的新的癥狀特征??梢?,采用擴展算法設(shè)置多重最小支持度后,挖掘的辨證論治模式在完備性方面較原始算法有明顯提升。
將挖掘的辨證論治模式與《中醫(yī)診斷學(xué)》[16]所述八綱辨證進行比較可以看出,模式中包含的癥狀特征基本符合《中醫(yī)診斷學(xué)》相應(yīng)證型的臨床癥狀描述。以陽證為例,《中醫(yī)診斷學(xué)》有“陽證臨床表現(xiàn)面赤……喘促痰鳴……舌紅絳……苔黃黑生芒刺……脈浮數(shù)、洪大、滑實”,結(jié)合陽證辨證論治模式挖掘結(jié)果(見表8):一方面,證實“舌色紅”“舌苔色黃”“飲食納呆”“脈象滑”“脈象數(shù)”等癥狀特征確是“陽證”的關(guān)鍵特征,所挖掘的“陽證”辨證論治模式中包含上述癥狀特征是準(zhǔn)確的,并且采用擴展算法更有效地發(fā)現(xiàn)了“飲食納呆”這一陽證辨證的關(guān)鍵癥狀特征;另一方面,說明“舌色”“舌苔色”“脈象”等是慢性阻塞性肺疾病(急性加重期)的典型辨證屬性,其中,在“陽證”諸多“脈象”表現(xiàn)中,“脈象滑”和“脈象數(shù)”是該病“陽證”的典型癥狀表現(xiàn)。
本研究將擴展的頻繁子圖挖掘算法應(yīng)用于中醫(yī)病案挖掘,旨在解決原始算法中單一最小支持度在挖掘過程中可能產(chǎn)生的關(guān)鍵癥狀缺失問題,通過改善最小支持度參數(shù)設(shè)置方式,基于各癥狀屬性的值域范圍和數(shù)據(jù)分布特征設(shè)置多重最小支持度參數(shù),發(fā)現(xiàn)和挖掘低頻關(guān)鍵癥狀特征,進而提高辨證論治模式的完備性。挖掘得到的辨證論治模式的支持度即該模式在整個病案集中出現(xiàn)的頻率,能夠有效反映模式中包含的各癥狀特征在相應(yīng)證型病案中共現(xiàn)的概率,是衡量模式有效性的重要指標(biāo)。另外,考慮到算法應(yīng)用的醫(yī)療背景,模式的“特異性”也是衡量模式價值的一個關(guān)鍵因素。臨床中存在許多常見但對疾病或證型辨識度并不高的非特異性癥狀,如發(fā)熱、乏力等,通過計算癥狀對某個疾病或證型的“特異性指數(shù)”可以得出整個辨證論治模式的“特異性指數(shù)”,從而有效識別支持度雖高但對疾病或證型辨識度并不高的辨證模式。此外,如果將挖掘得到的辨證論治模式應(yīng)用于癥狀間的關(guān)聯(lián)分析和影響力分析,置信度、不平衡比等指標(biāo)也是評價模式有效性的重要指標(biāo)。對辨證論治模式的評價是一個綜合、復(fù)雜的過程,且與實際應(yīng)用場景密切相關(guān)。本研究重點解決辨證論治模式挖掘的完備性問題,旨在發(fā)現(xiàn)更多具有辨證能力的關(guān)鍵癥狀特征,今后將繼續(xù)研究和探討模式的綜合評價。
探究中醫(yī)辨證論治模式是大數(shù)據(jù)、數(shù)據(jù)挖掘在中醫(yī)學(xué)科研究中的重要內(nèi)容。本研究通過擴展經(jīng)典的圖挖掘算法,改善了原始算法對現(xiàn)有數(shù)據(jù)集的挖掘效果,挖掘得到的辨證論治模式能夠包含更多的關(guān)鍵癥狀特征,提高了挖掘結(jié)果的完備性。除算法外,挖掘結(jié)果在很大程度上依賴數(shù)據(jù)集的質(zhì)量。更大量級的數(shù)據(jù)集能夠使癥狀特征的分布更趨近其在相關(guān)疾病或證型上的自然分布,從而更有利于挖掘出更為真實、準(zhǔn)確的辨證模式。另外,數(shù)據(jù)的標(biāo)準(zhǔn)化程度也在很大程度上影響模式挖掘的效果,未經(jīng)標(biāo)準(zhǔn)化或標(biāo)準(zhǔn)化不足的癥狀特征描述會導(dǎo)致更加分散的特征分布,使關(guān)鍵癥狀的提取更加困難,進而影響挖掘效果。因此,在改進算法的基礎(chǔ)上,逐步豐富病案數(shù)據(jù)集、提高數(shù)據(jù)標(biāo)準(zhǔn)化程度是進一步改善辨證論治模式挖掘效果的重要工作內(nèi)容。
[1] 崔景洋.圖數(shù)據(jù)挖掘研究[J].太原師范學(xué)院學(xué)報(自然科學(xué)版),2018, 17(1):38-40,46.
[2] WANG K, LIU H Q. Discovering typical structures of documents:a road map approach[C]//Proceedings of the 21st Annual International ACM Conference on Research and Development in Information Retrieval.New York:ACM,1998:146-154.
[3] KRIEGEL H, SCHONAUER S. Similarity search in structured data[C]//Proceedings of the 5th International Conference on Data Warehousing and Knowledge Discovery.Berlin:Springer-Verlag, 2003:309-319.
[4] FISCHER A, RIESEN K, BUNKE H. An experimental study of graph classification using prototype selection[C]//Proceedings of the 19th International Conference on Pattern Recognition.Washington, DC:IEEE Computer Society,2008:1-4.
[5] HUANG J B, SUN H L, HAN J W, et al. SHRINK:a structuralclustering algorithm for detecting hierarchical communities in networks[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Management.New York:ACM,2010:219-228.
[6] HUANG J B, SUN H L, SONG Q B, et al. Revealing density-based clustering from the core-connected tree of a network[J]. IEEE Transactions on Knowledge and Data Engineering,2013,25(8):1876- 1889.
[7] YAN X F, YU P, HAN J W. Graph indexing:a frequent structure-based approach[C]//Proceedings of the 2004 ACMSIGMOD International Conference on Management of Data. New York:ACM,2004:335-346.
[8] WILLIAMS D W, HUAN J, WANG W. Graph database indexing using structured graph decomposition[C]//Proceedings of the 23rd IEEE International Conference on Data Engineering. Washington,DC:IEEE Computer Society,2007:231-235.
[9] 孫鶴立,陳強,劉瑋,等.利用MapReduce平臺實現(xiàn)高效并行的頻繁子圖挖掘[J].計算機科學(xué)與探索,2014,8(7):790-801.
[10] 嚴(yán)玉良,董一鴻,何賢芒,等.FSMBUS:一種基于Spark的大規(guī)模頻繁子圖挖掘算法[J].計算機研究與發(fā)展,2015,52(8):1768-1783.
[11] 王海榮.基于加權(quán)頻繁子圖挖掘的圖模型在文本分類中的應(yīng)用[J].科學(xué)技術(shù)與工程,2014,14(22):80-85.
[12] YAN X F, HAN J W. gSpan:graph-based substructure patterns mining[C]//Proceedings of the 2002 IEEE International Conference on Data Mining.Washington,DC:IEEE Computer Society,2002:721- 724.
[13] 徐衛(wèi)方,哈木拉提?吾甫爾,李風(fēng)森,等.烏魯木齊地區(qū)375例慢性阻塞型肺疾病急性加重期中醫(yī)證候及證素特點臨床研究[J].中華中醫(yī)藥雜志,2011,26(6):1401-1404.
[14] 葉玲.慢性阻塞性肺疾病急性加重期103例中醫(yī)證型聚類分析[J].廣西中醫(yī)學(xué)院學(xué)報,2011,14(4):9-11.
[15] 林琳,胡旭貞.慢性阻塞性肺疾病急性加重期中醫(yī)證候規(guī)律的初步探討[J].廣州中醫(yī)藥大學(xué)學(xué)報,2008,25(1):1-4.
[16] 李燦東,陳家旭.中醫(yī)診斷學(xué)[M].北京:中國中醫(yī)藥出版社,2019:174.
Study on Pattern Mining of TCM Syndrome Differentiation and Treatment Based on Improved gSpan Algorithm
REN Jinyu1, BAI Lin1, ZHOU Zhiyang1, FENG Ruizhi2, ZHONG Hua1
To extend the classic frequent subgraph mining algorithm to obtain a data mining method that performs better in TCM; To obtain the patterns of TCM syndrome differentiation and treatment implicit in the TCM medical records.Combining with the characteristics of TCM medical records data and extending the classic frequent subgraph mining algorithm, data mining algorithm which set different minimum support threshold parameters for different symptom attributes was used to discover the patterns of TCM syndrome differentiation and treatment contained in the data set.The extended frequent subgraph mining algorithm was applied to the 3319 real medical records of chronic obstructive pulmonary disease (acute exacerbation period), and a series of patterns of syndrome differentiation of eight principles related to the disease were obtained. Compared with the classic algorithm, the patterns of TCM syndrome differentiation obtained by the extended algorithm had a significant improvement in the dimension and quantity of patterns.The expanded frequent subgraph mining algorithm can be used in the TCM syndrome differentiation and treatment pattern mining as well as find the implicit syndrome differentiation rules in medical records, and it has a better effect than the original algorithm in the completeness of the patterns.
pattern mining; frequent subgraph; multiple minimum supports; patterns of syndrome differentiation and treatment
R229;R2-05
A
1005-5304(2021)10-0022-07
10.19879/j.cnki.1005-5304.202003457
國家重點研發(fā)計劃(2017YFB1002303)
白琳,E-mail:bailin@otcaix.iscas.ac.cn
(收稿日期:2020-03-17)
(修回日期:2020-08-18;編輯:陳靜)