国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于異質(zhì)關(guān)聯(lián)網(wǎng)絡的辨證規(guī)律挖掘方法設計及應用*

2020-03-13 03:09:18高佳奕陶妍心史話躍胡孔法
關(guān)鍵詞:病性病位醫(yī)案

于 婧,張 寧,楊 濤**,高佳奕,陶妍心,史話躍,胡孔法

(1. 南京中醫(yī)藥大學人工智能與信息技術(shù)學院 南京 210023;2. 南京中醫(yī)藥大學中醫(yī)學院·中西醫(yī)結(jié)合學院南京 210023;3. 南京中醫(yī)藥大學第一臨床醫(yī)學院 南京 210023)

1 引言

辨證論治是中醫(yī)診治疾病的基本理論和思維方法[1],其中辨證是臨床立法、處方和用藥的基礎和前提,辨證準確與否直接關(guān)乎臨床藥效的好壞。名老中醫(yī)臨床經(jīng)驗豐富,臨床思維活躍,辨證靈活準確,臨床療效顯著。如何分析挖掘名老中醫(yī)的辨證思維成為中醫(yī)傳承與發(fā)展的重要內(nèi)容[2]。隨著中醫(yī)藥信息化的發(fā)展,中醫(yī)電子病歷已經(jīng)在醫(yī)院普及,名老中醫(yī)的臨床醫(yī)案由傳統(tǒng)的紙質(zhì)形式轉(zhuǎn)變?yōu)殡娮有问?,這為名老中醫(yī)的經(jīng)驗挖掘提供了數(shù)據(jù)基礎。越來越多的數(shù)據(jù)挖掘方法被應用到名老中醫(yī)經(jīng)驗傳承中,常見的挖掘辨證規(guī)則方法有頻數(shù)分析[3-4]、關(guān)聯(lián)規(guī)則[5-6]、因子分析[7-8]、聚類分析[9-10]、復雜網(wǎng)絡[11-12]等,其中關(guān)聯(lián)規(guī)則應用最為廣泛[13]。

關(guān)聯(lián)規(guī)則在中醫(yī)藥領域的應用研究可以分成兩大類,一類就關(guān)聯(lián)規(guī)則算法進行具體應用,如王慶[14]等人利用關(guān)聯(lián)規(guī)則分析干燥綜合征的證素組合規(guī)律,通過證候組合進一步分析了中醫(yī)證候分布特征和規(guī)則;潘樹芳[15]等人利用Apriori算法歸納總結(jié)范忠澤教授治療腸癌的辨證思路,根據(jù)舌苔、脈象及癥狀進行辨證分型后對證候要素進行關(guān)聯(lián)分析,挖掘出了證候與癥狀的對應關(guān)系;史話躍[16]等人借助關(guān)聯(lián)規(guī)則探明了肝癌不同證候與病位病性的相關(guān)性。上述研究多為對傳統(tǒng)關(guān)聯(lián)分析算法(如Apriori、Fp-growth)的初步應用,尚未深入中醫(yī)問題進行方法設計和優(yōu)化。另一類研究便是對傳統(tǒng)方法的優(yōu)化與改進,部分學者認識到傳統(tǒng)關(guān)聯(lián)分析算法的效率問題,提出了一些改進算法,例如,董國華[17]基于計算機對位串邏輯運算的快速反應,提出改進算法Apriori-BSO,挖掘了哮喘病的診斷規(guī)律;王世潁[18]通過約束Apriori 的頻繁項集挖掘高原常見病慢性萎縮性胃炎的癥狀特征,使挖掘結(jié)果更有實際意義;梁慶[19]等人改進了一種基于關(guān)系數(shù)據(jù)庫多維數(shù)值關(guān)聯(lián)規(guī)則算法,使算法的執(zhí)行效率得到大幅提高,并在中醫(yī)溫癥病案信息挖掘中進行應用。這些研究對中醫(yī)辨證規(guī)律進行了有益探索,但在中醫(yī)辨證規(guī)律研究中,癥狀、證素(病位和病性)、證型具有異質(zhì)性,而關(guān)聯(lián)規(guī)則中的不同項集地位平等,導致冗余規(guī)則較多,采用傳統(tǒng)方法無法高效解決異質(zhì)項集的分析問題。因此,如何設計新方法高效解決“癥狀-證素-證型”之間的組合規(guī)律發(fā)現(xiàn)問題值得深入研究。

鑒于此,本文提出一種以矩陣運算為基礎,以聯(lián)合度為評價指標的異質(zhì)關(guān)聯(lián)網(wǎng)絡(Heterogeneous Associated Network,HAN)算法,用以解決“癥狀-證素-證型”兩兩元素之間的組合規(guī)律發(fā)現(xiàn)問題。為了驗證算法的有效性,將HAN算法與經(jīng)典的關(guān)聯(lián)分析算法Apriori 進行比較,分別對1164 條肝癌醫(yī)案進行挖掘,分析二者的挖掘結(jié)果差異。

2 異質(zhì)關(guān)聯(lián)網(wǎng)絡算法

令Z 表示癥狀輸入集合(即在醫(yī)案樣本中所有出現(xiàn)的癥狀數(shù)據(jù)),W 表示病位輸入集合(即在醫(yī)案樣本中所有出現(xiàn)的病位數(shù)據(jù)),Z ={z1,z2,z3,…,zm}表示有m 種不同的癥狀,W ={w1,w2,w3,…,wn}表示有n種不同的病位。假設一條中醫(yī)醫(yī)案數(shù)據(jù)集為T ={(Zi,Wj,Xp,Jq)|i ∈[1,m],j ∈[1,n],p ∈[1,P],q ∈[1,Q]},其中Zi?Z是由若干癥狀組成的Z子集,Wj?W是由若干病位組成的W 子集,Xp?X 是由若干病性組成的X 子集,Jq?J是由若干基礎證組成的J子集。記總醫(yī)案樣本為S ={Tk|k ∈[1,N]},其中Tk?T 是一條醫(yī)案數(shù)據(jù),N為樣本中醫(yī)案總數(shù)。關(guān)聯(lián)網(wǎng)絡算法是為了從醫(yī)案樣本S 中提取若干異構(gòu)元素間組合規(guī)則(Zi→Wj),(Zi→Xp),(Zi→Jq),(Wj,Xp→Jq),如“乏力→肝,脾”,作為輸出結(jié)果,其中Zi?Z,Wj?W,Xp?X,Jq?J,以此探析肝癌辨證規(guī)律(計算過程如圖1所示)。

2.1 聯(lián)合度

圖1 HAN計算過程

圖2 0-1矩陣構(gòu)造示例

定義聯(lián)合度(Unite Degree,Ud)作為關(guān)聯(lián)網(wǎng)絡算法中有向組合規(guī)則xi→Yj的提取依據(jù),聯(lián)合度表示有向組合前后元素共同出現(xiàn)的概率,計算方法是前項元素概率和多組二項組合條件概率之積。該值越大,則相關(guān)性越大,其定義如下:

其中,f(x)表示x 在樣本S 中出現(xiàn)的頻數(shù),f(x,yk)表示x,yk在樣本S中同時出現(xiàn)的頻數(shù),N表示樣本S總數(shù)。

2.2 算法計算過程

(1)構(gòu)建證0-1矩陣

掃描醫(yī)案數(shù)據(jù)庫,提取原始醫(yī)案關(guān)鍵信息,得到所有的“癥狀”“病位”“病性”“基礎證”元素集合。假設癥狀集Z ={z1,z2,z3,…,zm}為m 種不同的癥狀,病位集W ={w1,w2,w3,…,wn}為n 種不同的病位,以癥狀-病位為例,可以構(gòu)建相應的0-1矩陣,其中每一行代表一條醫(yī)案,每一列代表不同的癥狀和病位(見圖2)。

(2)篩選二元規(guī)則

遍歷0-1矩陣A、B的每個元素zi,wj,zi∈Z,wj∈W,將矩陣中兩列元素對應相乘后求和計算出兩元素的共現(xiàn)頻率f(zi,wj),設定頻數(shù)閾值min f,認定f(zi,wj)≥min f的規(guī)律“zi→wj”為有效二元規(guī)則(見圖3)。

(3)聚合二元規(guī)則得到有向組合規(guī)則

得 到 若 干 二 元 規(guī) 則(如xi→yj1、xi→yj2、xi→yj3),合并相同前項元素規(guī)則的后項元素,聚合得到組合規(guī)則xi→yj1yj2yj3。計算所有組合規(guī)則的聯(lián)合度,并以聯(lián)合度作為評價指標對組合規(guī)則進行排序。聯(lián)合度定義如下:

根據(jù)這一定義對圖2 示例規(guī)則進行篩選,最終得到“Z1→W1,W4”“Z2→W2”“Z3→W1,W2”“Z4→W1,W3”“Z5→W4”“Z6→W1”。

(4)繪制關(guān)聯(lián)網(wǎng)絡圖

將獲得的組合規(guī)則前項元素構(gòu)成集合S,后項元素構(gòu)成集合T,S 和T 共同構(gòu)成關(guān)聯(lián)網(wǎng)絡圖的節(jié)點集合V ={v1,v2,…,vi},二元規(guī)則構(gòu)成網(wǎng)絡圖的邊集合如E ={(v1,v2),(v1,v3),…,(vm,vn)}。由此構(gòu)成關(guān)聯(lián)網(wǎng)絡圖G =(V,E),上述示例的可視化結(jié)果見圖4,其中V 為結(jié)點集合,E為邊集合。

3 實驗及結(jié)果分析

3.1 數(shù)據(jù)來源及預處理

3.1.1 數(shù)據(jù)來源

本文所有醫(yī)案數(shù)據(jù)來源于南京中醫(yī)藥大學附屬醫(yī)院江蘇省中醫(yī)院病案庫,共收集肝癌醫(yī)案1164例。

3.1.2 納入標準及剔除標準

納入標準:原發(fā)性肝癌確診患者。

剔除標準:非原發(fā)性肝癌確診患者;具有心、腎、肺等嚴重疾病的患者。

3.1.3 數(shù)據(jù)預處理

由于原始肝癌醫(yī)案數(shù)據(jù)存在表述口語化、術(shù)語不統(tǒng)一等問題,因此需要對醫(yī)案進行規(guī)范化預處理。將所有符合條件的醫(yī)案數(shù)據(jù)錄入到Microsoft Excel中,每一行為一條醫(yī)案數(shù)據(jù),每一列為癥狀、證素或證型數(shù)據(jù)項,同時對數(shù)據(jù)項進行規(guī)范化和標準化。如將“倦怠乏力”標準化為“倦怠”和“乏力”,將“濕熱”拆分為“濕”和“熱”,將復合證型“肝腎陰虛證”統(tǒng)一為“肝陰虛證”和“腎陰虛證”,從而得到最終的標準化醫(yī)案樣本數(shù)據(jù)。

圖3 二元規(guī)則篩選(min f = 2)

圖4 繪制關(guān)聯(lián)網(wǎng)絡

3.2 實驗過程

為了評價HAN 算法的有效性,將HAN 與傳統(tǒng)的數(shù)據(jù)挖掘Apriori 算法進行對比。第一步,采用Apriori算法對肝癌醫(yī)案數(shù)據(jù)進行分析,設定不同參數(shù),觀察規(guī)則數(shù)量變化,選擇合適的參數(shù)提取出潛在的關(guān)聯(lián)規(guī)則;第二步,利用HAN算法對肝癌醫(yī)案數(shù)據(jù)進行分析,觀察不同參數(shù)下結(jié)果的數(shù)量變化,選擇合適的參數(shù)分析“癥狀-證素(病位和病性)-證型”兩兩之間的關(guān)系,繪制相應的有向網(wǎng)絡圖;第三步,將兩種算法進行對比,結(jié)合中醫(yī)基礎理論判斷兩種算法結(jié)果的準確性。

3.3 實驗結(jié)果

3.3.1 Apriori實驗結(jié)果

(1)將每條包含癥狀、病位、病性、證型的醫(yī)案作為一條數(shù)據(jù)集,設定最小支持度為0.06,共提取出1293 個頻繁項集。置信度從0.0 至1.0 共取十一個值,將置信度作為橫坐標,提取規(guī)則數(shù)作為縱坐標。置信度為0 時,提取出18493 條規(guī)則,隨著置信度閾值的提高,提取的規(guī)則隨之減少,閾值最高為1.0 時,提取規(guī)則數(shù)為828條,具體提取結(jié)果分布見圖5。

(2)置信度閾值為1.0時,共提取828條關(guān)聯(lián)規(guī)則,提升度位于前20 的規(guī)則見表1。其中,提升度位于前20 的規(guī)則中大部分都與癥狀“目黃”“身黃”“小便黃”相關(guān),且與之相關(guān)的證素以病位“肝”“膽”“脾”和病性“濕”“熱”為主?!胺?力”“倦 怠”“腹脹”等癥狀,“氣虛”“濕”“熱”等病性也為常見。

圖5 Apriori算法潛在規(guī)則提取結(jié)果折線圖

表1 Apriori算法關(guān)聯(lián)規(guī)則提取結(jié)果(Top20)(min Sup = 0.06,min Conf = 1.0)

3.3.2 HAN算法結(jié)果

(1)共現(xiàn)頻率取0.0至1.0,步長0.1,將共現(xiàn)頻率作為橫坐標,提取組合規(guī)則數(shù)作為縱坐標。共現(xiàn)頻率閾值為0 時,提取出2321 條組合規(guī)則,閾值設為0.1 時,提取出39條規(guī)則,當閾值大于0.4時,規(guī)則數(shù)為0,提取結(jié)果分布見圖6。

(2)篩選二元規(guī)則時設定共現(xiàn)頻率閾值為0.1,將二元規(guī)則進一步聚合后得到“癥狀→病位”“病位→病性”“癥狀→基礎證”“病位,病性→基礎證”的組合規(guī)則(表2)。計算出組合規(guī)則之后,以可視化的形式繪制關(guān)聯(lián)網(wǎng)絡圖,得到圖7的結(jié)果,從而直觀地體現(xiàn)關(guān)聯(lián)網(wǎng)絡算法對異構(gòu)元素關(guān)系的提取結(jié)果。

圖6 HAN算法潛在組合規(guī)則提取結(jié)果折線圖

表2 HAN算法提取結(jié)果(Top20)

由實驗結(jié)果可以看出,肝癌在癥狀方面以“乏力”“納差”“倦怠”“腹脹”“目黃”“小便黃”等較為常見;病位以“肝”“脾”“膽”較為常見;病性以“濕”“熱”“瘀”“氣虛”“血瘀”較為多見;證型以“腎陰虛證”“脾氣虛證”“肝血瘀阻證”為主。在癥狀與病位的相關(guān)性方面,“乏力”“納差”“倦怠”等癥狀多同時與病位“肝”“脾”關(guān)聯(lián)密切,“身黃”“目黃”“小便黃”等癥狀多同時與“肝”“膽”相關(guān)性大;在癥狀與病性的相關(guān)性方面,多數(shù)癥狀與“濕”“熱”“瘀”相關(guān);在癥狀與證型的相關(guān)性方面,“倦怠”“乏力”等癥狀與“肝血瘀阻證”“脾氣虛證”密切相關(guān);在證候與證型相關(guān)性方面,以“腎,瘀,痰,血瘀,氣虛→肝血瘀阻證”“脾,氣滯,氣虛→脾氣虛證”“腎,陰虛→腎陰虛證”為主。

圖7 HAN關(guān)聯(lián)網(wǎng)絡圖

3.4 結(jié)果討論及分析

(1)從兩種算法的分析效率看:傳統(tǒng)Apriori 算法通過頻繁項集生成關(guān)聯(lián)規(guī)則,此過程多次循環(huán)遍歷數(shù)據(jù)庫,具有很高的時空復雜度,耗費大量的時間和空間內(nèi)存,過程十分繁雜。而HAN 算法基于矩陣運算,將醫(yī)案中共同出現(xiàn)的多種證拆分成單個證的0-1 矩陣,通過一次遍歷即可獲取異構(gòu)元素間有效二元規(guī)則,再利用聯(lián)合度作為聚合規(guī)則指標提高結(jié)果純度,避免了重復掃描數(shù)據(jù)庫的過程,極大地提高了提取效率。

(2)從兩種算法的分析精度看:Apriori 算法提取結(jié)果冗余度高。以置信度為規(guī)則篩選標準時,提取的規(guī)則最多達18493 條,隨著置信度閾值的逐漸增大規(guī)則逐漸減少,而當置信度閾值為1.0 時,仍有828 條關(guān)聯(lián)規(guī)則(圖4)。其中存在大量無效規(guī)則和冗余規(guī)則,如“身黃,小便黃,脾→濕,膽”,其左項既有癥狀“身黃,小便黃”,又有病位“脾”,兩類元素混雜,不利于中醫(yī)辨證規(guī)律的提取,屬于無效規(guī)則;又如“小便黃,身黃→膽,肝”、“小便黃,身黃→膽”兩條規(guī)則,前一條規(guī)則更好地反映了中醫(yī)辨證的規(guī)律,其內(nèi)涵要大于后一條規(guī)則,因而“小便黃,身黃→膽”則為冗余規(guī)則。而HAN 算法以聯(lián)合度為標準對二元規(guī)則聚合后進行排序,更精準地體現(xiàn)組合規(guī)則的相關(guān)程度。因此,提取結(jié)果都為有效二元規(guī)則的聚合結(jié)果,故不存在重復規(guī)律,具有較高的提取精度,每條結(jié)果都為異質(zhì)元素之間的關(guān)系,即前后項分別屬于不同類型的元素,更好地展示了“癥狀、證素、證型”兩兩之間的相關(guān)性。

(3)從兩種算法的分析結(jié)果看:Apriori 算法提取的關(guān)聯(lián)規(guī)則前后項存在多種元素混雜的情況,需人工進一步篩選。如規(guī)則“氣虛,倦怠,腹脹→脾,乏力”雖是符合閾值條件的篩選結(jié)果,但前后項同時包含癥狀和證素,無法判斷此結(jié)果代表的是“癥狀→證素”還是“證素→癥狀”的相關(guān)性。且由于實驗數(shù)據(jù)集中基礎證數(shù)據(jù)較其他證數(shù)據(jù)偏少,經(jīng)過多次實驗,僅當最小支持度設為低于0.04 時,提取結(jié)果中才出現(xiàn)基礎證的相關(guān)規(guī)則,因此根據(jù)支持度閾值篩選頻繁項集時很可能將基礎證過濾,而支持度閾值低于0.04 時關(guān)聯(lián)結(jié)果中存在大量冗余規(guī)則,故關(guān)聯(lián)規(guī)則中參數(shù)閾值的設定是決定結(jié)果準確性的重要標準,尋求最合適的閾值也成為難點之一。而HAN 提取結(jié)果冗余度低、準確度高,結(jié)果既與中醫(yī)基礎理論一致,也為臨床所常見。同時關(guān)聯(lián)網(wǎng)絡圖直觀展現(xiàn)了各證之間的規(guī)律,具有較強的辨識度。肝的疏泄作用與脾胃的運化功能和膽汁的分泌排泄有著密切關(guān)系。肝失疏泄,會影響脾胃的升降及膽汁的排泄機能,常出現(xiàn)肝氣乘犯脾胃及膽汁預計不暢的病變。故肝癌患者多見腹脹、納呆惡食等消化道癥狀,此類癥狀多與病位“肝”“脾”同時相關(guān),如“納呆→脾”“腹脹→脾”等規(guī)律(圖6)。同時肝膽失疏,膽汁外溢肌膚,可見目黃、身黃,此類癥狀多與病位“肝”“膽”相關(guān),如“身黃→膽,肝”“小便黃→脾,膽,肝”“目黃→脾,膽,肝”等規(guī)律(圖6)。肝癌病機總屬本虛標實,本虛是肝癌發(fā)生發(fā)展的主要因素,以脾氣虛為主;標實包括氣滯、血瘀、痰、濕、熱等,其中瘀、痰是肝癌的主要病理產(chǎn)物。因此,肝癌癥狀多與標實的病性相關(guān),如圖7 所示“倦怠→瘀,氣虛,濕,血瘀”“目黃→熱,濕,熱”等規(guī)律。亦與“脾氣虛”等本虛證型相關(guān),如圖8中“倦怠→肝血瘀阻證,脾氣虛證”“便溏→脾氣虛證”等規(guī)律。肝主疏泄,氣能行津運血,若氣機郁結(jié),則血運不暢,血液瘀滯停聚為淤血、癥積,形成水濕痰飲等病理產(chǎn)物,痰瘀膠結(jié)于肝不僅影響肝臟本身的生理功能,還影響其他臟腑的生理功能。如圖9“脾,氣滯,氣虛→脾氣虛證”“腎,瘀,痰,血瘀,氣虛→肝血瘀阻證”等組合規(guī)律。

綜上所述,HAN 算法將復雜的異質(zhì)規(guī)則挖掘問題轉(zhuǎn)化為簡易的矩陣和概率運算,相較于傳統(tǒng)的Apriori算法,具有運算高效、分析準確、挖掘結(jié)果直觀等優(yōu)點。HAN 算法以分析醫(yī)案中異質(zhì)元素的相關(guān)性為目標,以矩陣運算為基礎,以聯(lián)合度為評價指標,構(gòu)建“癥狀-證素-證型”異質(zhì)關(guān)聯(lián)網(wǎng)絡,并生成相應的規(guī)則和可視化網(wǎng)絡圖,能夠直觀地挖掘出醫(yī)案中癥狀、證素、證型之間的潛在關(guān)系,可以為名老中醫(yī)臨床經(jīng)驗挖掘提供方法參考。

4 結(jié)語

從海量的中醫(yī)臨床數(shù)據(jù)中挖掘名老中醫(yī)臨床診療經(jīng)驗是中醫(yī)現(xiàn)代化傳承的重要內(nèi)容,建立符合中醫(yī)數(shù)據(jù)特點的挖掘方法是該項工作的關(guān)鍵。本文通過分析中醫(yī)辨證的特點,提出了異質(zhì)關(guān)聯(lián)網(wǎng)絡HAN這一辨證規(guī)律挖掘算法,將異質(zhì)元素之間的潛在關(guān)系轉(zhuǎn)化為兩兩元素之間的有向組合規(guī)則,以矩陣運算為基礎,利用共現(xiàn)頻數(shù)和聯(lián)合度篩選出有效組合規(guī)則。為了驗證算法的有效性,將HAN與經(jīng)典的關(guān)聯(lián)分析算法Apriori 進行比較,對肝癌醫(yī)案的辨證規(guī)律進行分析,結(jié)果顯示HAN 具有具有運算高效、分析精準、挖掘結(jié)果直觀等優(yōu)點。HAN 算法的提出可以為中醫(yī)辨證規(guī)律研究提供方法支撐,實現(xiàn)信息時代名老中醫(yī)臨床診療經(jīng)驗的數(shù)字化傳承。

猜你喜歡
病性病位醫(yī)案
基于文獻研究的原發(fā)性骨質(zhì)疏松癥中醫(yī)證型及證素分布規(guī)律研究
脾系藏象病位與病性特征研究
蓄血證病機病位探析
基于“風痰瘀虛”的高血壓腦小血管病病性證素的臨床表現(xiàn)與影像學特征研究
八珍湯加味序貫中藥包熱熨治療氣血兩虛型子宮腺肌病性痛經(jīng)的臨床觀察
醫(yī)案聊齋續(xù)篇 吐瀉案
中醫(yī)對痛風的認識
醫(yī)案聊齋續(xù)篇 晨泄案
新加香薷飲醫(yī)案6則
古醫(yī)籍中刺絡放血醫(yī)案淺析
宣化县| 东乌珠穆沁旗| 安远县| 广河县| 安岳县| 顺昌县| 团风县| 西宁市| 郎溪县| 峨边| 岑溪市| 阿拉善右旗| 罗甸县| 万山特区| 西乌| 崇义县| 沈丘县| 望江县| 新郑市| 福贡县| 长白| 突泉县| 华安县| 克山县| 杭锦后旗| 凤庆县| 得荣县| 阿尔山市| 富平县| 乐清市| 清镇市| 来安县| 遵义县| 伊吾县| 武穴市| 仲巴县| 安新县| 高密市| 平潭县| 天长市| 通河县|