国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

粗糙集理論在肝病輔助診斷中應用

2014-11-04 02:18韓玲
電腦知識與技術 2014年28期
關鍵詞:粗糙集

韓玲

摘要:粗糙集理論主要研究由論域和屬性集構(gòu)成的知識表達系統(tǒng)。醫(yī)療診斷中,大量病例、疾病癥狀和疾病診斷結(jié)果構(gòu)成了一個醫(yī)學信息決策系統(tǒng)。通過決策屬性對條件屬性依賴度和重要性分析,發(fā)現(xiàn)診斷結(jié)果與臨床癥狀之間的關系,提取醫(yī)學決策規(guī)則。實驗表明,粗糙集用于肝病輔助診斷方法是正確可行的。

關鍵詞:粗糙集; 肝病診斷;屬性重要性;屬性依賴度

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)28-6591-02

“大數(shù)據(jù)”時代,海量的數(shù)據(jù)中蘊藏著具有決策意義的信息,數(shù)據(jù)挖掘技術能夠從大量的、不完全的、有噪聲的、模糊的數(shù)據(jù)中發(fā)現(xiàn)隱含的、未知的、具有潛在價值的信息和知識[1]。在眾多數(shù)據(jù)挖掘技術中,粗糙集理論和方法在處理不精確、不確定、不完整數(shù)據(jù)時,無須提供問題所需要處理的數(shù)據(jù)之外的任何先驗信息,從中挖發(fā)現(xiàn)隱含知識,揭示潛在的規(guī)律。目前,它已被廣泛應用于人工智能、模式識別、智能信息處理的領域,并取得了豐碩成果。

病毒性肝炎、脂肪肝、酒精肝、肝硬化、肝癌等肝病是威脅人類健康的主要疾病之一。當前,我國有慢性無癥狀乙肝病毒攜帶者約1.2億,慢性乙肝病人約3000萬,丙肝感染者約1000萬。研究表明,全球80%的原發(fā)性肝癌都是由病毒性肝炎引起的。如何有效控制肝臟疾病,預防肝硬化、肝癌的發(fā)生,是當前肝病防治領域所面臨的重大挑戰(zhàn)。

臨床醫(yī)學診斷中,癥狀數(shù)據(jù)是疾病診斷的主要依據(jù)。根據(jù)醫(yī)學信息數(shù)據(jù)庫中大量診斷病例,以疾病診斷結(jié)果作為決策屬性,以疾病癥狀數(shù)據(jù)為條件屬性,發(fā)現(xiàn)醫(yī)學診斷規(guī)則和模式,可以輔助臨床醫(yī)學診斷,提高臨床診斷的準確性。

1 粗糙集理論

定義1 信息系統(tǒng) S=(U,A,V,f),U為非空有限集合,稱為論域;A為非空有限的屬性集合;V為屬性值域,V=∪{Va|a∈A};f為U×A→V上的一個信息函數(shù),表示?a∈A,x∈U,f(x,a)∈Va。如果A=C∪D,且C∩D=φ,C為條件屬性集,D為決策屬性集,信息系統(tǒng)也稱為決策系統(tǒng)[2]。

定義2 正域 S=(U,A,V,f),X?U,R?A,屬性集R的等價類Ri=[X]R,則X的R下近似R*(X)和正域POSR(X)定義為:

R*(X)=∪{Ri| Ri∈U/R且Ri?X)}

POSR(X)= R*(X)

決策系統(tǒng)S=(U, C∪DA,V,f),決策屬性D在條件屬性C下的正域定義為:

POSC(D)=∪{C*(Xi)| Xi∈U/D}

POSC(D)表明根據(jù)C進行的劃分U/C,能夠確切劃入U/D中元素的集合。

定義3 屬性依賴度 決策屬性D對條件屬性子集P?C的依賴度定義為:

k=?P(D)=|POSP(D)|/|U|

|·|表示集合中元素的個數(shù)。k=1,表示根據(jù)條件屬性P集,可以對U中所有數(shù)據(jù)準確分類;0

定義4信息熵 決策系統(tǒng)S=(U, C∪D,V,f),U/C={X1, X2,...,Xm},U/D={Y1, Y2,...,Yn},則條件屬性集C的信息熵H(C)和決策屬性集D的信息熵H(D)以及D相對于C的條件信息熵H(D|C)分別定義為:

[H(C)=-i=1mp(Xi)log(p(Xi))]

[H(D)=-j=1np(Yj)log(p(Yj))]

[H(D|C)=-i=1mp(Xi)j=1np(Yj|Xi)log(p(Yj|Xi))]

其中p(Xi)=| Xi|/|U|,p(Yj)=| Yj|/|U|,p(Yj|Xi)=| Yj∩Xi|/| Xi|。

文[3]給出 H(D|C)=H(D∪C) - H(C)

定義5 屬性重要性

依據(jù)依賴度的變化定義:S=(U, C∪D,V,f),?c∈C的重要性定義為:

SFG(c,C-{c},D)= ?C(D)-?C-{c}(D)

依據(jù)信息熵定義:SFG(c,C-{c},D)=H(D|C-{c}) - H(D|C)

決策系統(tǒng)即決策表中每一行都對應一條決策規(guī)則,如何得到約簡的決策規(guī)則集是研究的目的。決策規(guī)則的約簡是通過屬性和屬性值約簡實現(xiàn)的,消去C中不重要的屬性和冗余的屬性值,簡化決策規(guī)則。

2 粗糙集在醫(yī)學決策表中應用

(c9) 正常、乏力;是否乙肝(d) 是、否。

隨機從表1中抽取200條記錄構(gòu)成論域U,|U|=200,條件屬性集C={c1,c2,c3, c4,c5,c6,c7,c8,c9},決策屬性集D=syggg00。另外20條記錄構(gòu)成測試樣本集V。

用結(jié)構(gòu)化查詢語言SQL的select語句計算屬性的重要性和依賴度。

計算條件屬性c1的重要性:SFG(c1,C-{c1},D)=H(D|C-{c1}) - H(D|C)

先計算H(D|C-{c1}),H(D|C-{c1})= H(D∪C-{c1}) - H(C-{c1}) ,

計算H(D∪C-{c1})的select語句:

select count(*)/200 as ct_D_C_c1 into b_D_C_c1 from table1 group by c2,c3,c4,c5,c6,c7,c8,c9,d

sele -sum( ct_D_C_c1*log(ct_D_C_c1)/log(2)) as h_D_C_c1 from b_D_C_c1

計算H(C-{c1})的select語句:

select count(*)/200 as ct_C_c1 into b_C_c1 from table1 group by c2,c3,c4,c5,c6,c7,c8,c9

sele -sum( ct_C_c1*log(ct_C_c1)/log(2)) as h_C_c1 from b_C_c1

H(D|C-{c1})= H(D∪C-{c1}) - H(C-{c1})= h_D_C_c1- h_C_c1=3.78432571-3.78432571=0

可以計算得H(D|C)=4.80692786-4.80692786=0,所以c1的重要性 SFG(c1,C-{c1},D)=0

同理計算其他條件屬性重要性是SFG(c2,C-{c2},D)= 4.12986130- 4.12986130=0,

SFG(c3,C-{c3},D)= 4.25023138- 4.25023138=0,SFG(c4,C-{c4},D)= 4.80692786- 4.80692786=0,

SFG(c5,C-{c5},D)= 4.72417625- 4.72417625=0,SFG(c6,C-{c6},D)= 4.53986564- 4.53986564=0,

SFG(c7,C-{c7},D)= 4.80692786- 4.80692786=0, SFG(c8,C-{c8},D)= 4.80692786- 4.80692786=0,

SFG(c9,C-{c9},D)= 4.27875936- 4.27875936=0

計算結(jié)果表明所有條件屬性的重要性都是0,無法依據(jù)條件屬性的重要性確定決策屬性值。下面根據(jù)屬性依賴度分析各因素影響乙肝發(fā)病的程度。

首先計算D對c1的依賴度 k c1=?{c1}(D)=|POS{c1}(D)|/|U|。計算|POS{c1}(D)|、k c1的select語句分別為:

select count(*) as ct_c1 into b_c1 from table1 group by c1 having count(distinct d)=1

select sum(ct_c1)/200 as kc1 from b_c1

計算出k c1=0,同樣可以計算得k c2=0.4682,k c3=0.0045,k c4=1,k c5=0.1727,k c6=0,k c7=1,k c8=1,k c9=0。

k c4=k c7=k c8=1,說明根據(jù)是否帶抗體、大三陽、轉(zhuǎn)氨酶三者中任何一項的值可以確定是否患乙肝;飲食是否油膩對是否患乙肝有較大影響;經(jīng)常喝酒對是否患乙肝有一定影響;抽煙的影響力較??;而勞累度、小三陽、體力近況因素對是否患乙肝沒有影響。從V中隨機抽取樣本,根據(jù)是否帶抗體、大三陽、轉(zhuǎn)氨酶三者中任何一項的值都可以確定是否患有乙肝。

3 結(jié)論

本文在“乙肝影響因素調(diào)查數(shù)據(jù)表”研究中,通過決策屬性對條件屬性的依賴度和重要性的分析,找出確診疾病的關鍵癥狀。根據(jù)是否帶抗體、大三陽、轉(zhuǎn)氨酶任何一項可以確診是否患乙肝疾病,另外飲食、飲酒和抽煙也對肝臟的健康狀況產(chǎn)生影響。

屬性的重要性是屬性約簡重要依據(jù),由于文本實驗數(shù)據(jù)的特性,c4、c7、c8的重要性都是0,但決策屬性對它們的依賴度都是1,根據(jù)三者中任何一個屬性的值都可以得到?jīng)Q策結(jié)果。要得到科學、正確、合理的實驗結(jié)果,應對大量的數(shù)據(jù)采用多種不同的實驗方法,然后對各結(jié)果綜合分析,取得最終可信結(jié)果。

參考文獻:

[1] 胡壽松,何亞群.粗糙決策理論與應用[M].北京:北京航空航天大學出版社,2006.

[2] 王國胤,安久江,吳渝.Rough集理論代數(shù)觀與信息觀的差異量化分析[J].小型微型計算機系統(tǒng),2005:26(7):1187-1189.

[3] 王國胤,于洪.基于條件信息熵的決策表約簡[J].計算機學報,2002,25(7):759-765.

[4] 周怡.醫(yī)學信息決策與支持系統(tǒng)[M].北京:人民衛(wèi)生出版社,2009.

select count(*)/200 as ct_C_c1 into b_C_c1 from table1 group by c2,c3,c4,c5,c6,c7,c8,c9

sele -sum( ct_C_c1*log(ct_C_c1)/log(2)) as h_C_c1 from b_C_c1

H(D|C-{c1})= H(D∪C-{c1}) - H(C-{c1})= h_D_C_c1- h_C_c1=3.78432571-3.78432571=0

可以計算得H(D|C)=4.80692786-4.80692786=0,所以c1的重要性 SFG(c1,C-{c1},D)=0

同理計算其他條件屬性重要性是SFG(c2,C-{c2},D)= 4.12986130- 4.12986130=0,

SFG(c3,C-{c3},D)= 4.25023138- 4.25023138=0,SFG(c4,C-{c4},D)= 4.80692786- 4.80692786=0,

SFG(c5,C-{c5},D)= 4.72417625- 4.72417625=0,SFG(c6,C-{c6},D)= 4.53986564- 4.53986564=0,

SFG(c7,C-{c7},D)= 4.80692786- 4.80692786=0, SFG(c8,C-{c8},D)= 4.80692786- 4.80692786=0,

SFG(c9,C-{c9},D)= 4.27875936- 4.27875936=0

計算結(jié)果表明所有條件屬性的重要性都是0,無法依據(jù)條件屬性的重要性確定決策屬性值。下面根據(jù)屬性依賴度分析各因素影響乙肝發(fā)病的程度。

首先計算D對c1的依賴度 k c1=?{c1}(D)=|POS{c1}(D)|/|U|。計算|POS{c1}(D)|、k c1的select語句分別為:

select count(*) as ct_c1 into b_c1 from table1 group by c1 having count(distinct d)=1

select sum(ct_c1)/200 as kc1 from b_c1

計算出k c1=0,同樣可以計算得k c2=0.4682,k c3=0.0045,k c4=1,k c5=0.1727,k c6=0,k c7=1,k c8=1,k c9=0。

k c4=k c7=k c8=1,說明根據(jù)是否帶抗體、大三陽、轉(zhuǎn)氨酶三者中任何一項的值可以確定是否患乙肝;飲食是否油膩對是否患乙肝有較大影響;經(jīng)常喝酒對是否患乙肝有一定影響;抽煙的影響力較小;而勞累度、小三陽、體力近況因素對是否患乙肝沒有影響。從V中隨機抽取樣本,根據(jù)是否帶抗體、大三陽、轉(zhuǎn)氨酶三者中任何一項的值都可以確定是否患有乙肝。

3 結(jié)論

本文在“乙肝影響因素調(diào)查數(shù)據(jù)表”研究中,通過決策屬性對條件屬性的依賴度和重要性的分析,找出確診疾病的關鍵癥狀。根據(jù)是否帶抗體、大三陽、轉(zhuǎn)氨酶任何一項可以確診是否患乙肝疾病,另外飲食、飲酒和抽煙也對肝臟的健康狀況產(chǎn)生影響。

屬性的重要性是屬性約簡重要依據(jù),由于文本實驗數(shù)據(jù)的特性,c4、c7、c8的重要性都是0,但決策屬性對它們的依賴度都是1,根據(jù)三者中任何一個屬性的值都可以得到?jīng)Q策結(jié)果。要得到科學、正確、合理的實驗結(jié)果,應對大量的數(shù)據(jù)采用多種不同的實驗方法,然后對各結(jié)果綜合分析,取得最終可信結(jié)果。

參考文獻:

[1] 胡壽松,何亞群.粗糙決策理論與應用[M].北京:北京航空航天大學出版社,2006.

[2] 王國胤,安久江,吳渝.Rough集理論代數(shù)觀與信息觀的差異量化分析[J].小型微型計算機系統(tǒng),2005:26(7):1187-1189.

[3] 王國胤,于洪.基于條件信息熵的決策表約簡[J].計算機學報,2002,25(7):759-765.

[4] 周怡.醫(yī)學信息決策與支持系統(tǒng)[M].北京:人民衛(wèi)生出版社,2009.

select count(*)/200 as ct_C_c1 into b_C_c1 from table1 group by c2,c3,c4,c5,c6,c7,c8,c9

sele -sum( ct_C_c1*log(ct_C_c1)/log(2)) as h_C_c1 from b_C_c1

H(D|C-{c1})= H(D∪C-{c1}) - H(C-{c1})= h_D_C_c1- h_C_c1=3.78432571-3.78432571=0

可以計算得H(D|C)=4.80692786-4.80692786=0,所以c1的重要性 SFG(c1,C-{c1},D)=0

同理計算其他條件屬性重要性是SFG(c2,C-{c2},D)= 4.12986130- 4.12986130=0,

SFG(c3,C-{c3},D)= 4.25023138- 4.25023138=0,SFG(c4,C-{c4},D)= 4.80692786- 4.80692786=0,

SFG(c5,C-{c5},D)= 4.72417625- 4.72417625=0,SFG(c6,C-{c6},D)= 4.53986564- 4.53986564=0,

SFG(c7,C-{c7},D)= 4.80692786- 4.80692786=0, SFG(c8,C-{c8},D)= 4.80692786- 4.80692786=0,

SFG(c9,C-{c9},D)= 4.27875936- 4.27875936=0

計算結(jié)果表明所有條件屬性的重要性都是0,無法依據(jù)條件屬性的重要性確定決策屬性值。下面根據(jù)屬性依賴度分析各因素影響乙肝發(fā)病的程度。

首先計算D對c1的依賴度 k c1=?{c1}(D)=|POS{c1}(D)|/|U|。計算|POS{c1}(D)|、k c1的select語句分別為:

select count(*) as ct_c1 into b_c1 from table1 group by c1 having count(distinct d)=1

select sum(ct_c1)/200 as kc1 from b_c1

計算出k c1=0,同樣可以計算得k c2=0.4682,k c3=0.0045,k c4=1,k c5=0.1727,k c6=0,k c7=1,k c8=1,k c9=0。

k c4=k c7=k c8=1,說明根據(jù)是否帶抗體、大三陽、轉(zhuǎn)氨酶三者中任何一項的值可以確定是否患乙肝;飲食是否油膩對是否患乙肝有較大影響;經(jīng)常喝酒對是否患乙肝有一定影響;抽煙的影響力較?。欢鴦诶鄱?、小三陽、體力近況因素對是否患乙肝沒有影響。從V中隨機抽取樣本,根據(jù)是否帶抗體、大三陽、轉(zhuǎn)氨酶三者中任何一項的值都可以確定是否患有乙肝。

3 結(jié)論

本文在“乙肝影響因素調(diào)查數(shù)據(jù)表”研究中,通過決策屬性對條件屬性的依賴度和重要性的分析,找出確診疾病的關鍵癥狀。根據(jù)是否帶抗體、大三陽、轉(zhuǎn)氨酶任何一項可以確診是否患乙肝疾病,另外飲食、飲酒和抽煙也對肝臟的健康狀況產(chǎn)生影響。

屬性的重要性是屬性約簡重要依據(jù),由于文本實驗數(shù)據(jù)的特性,c4、c7、c8的重要性都是0,但決策屬性對它們的依賴度都是1,根據(jù)三者中任何一個屬性的值都可以得到?jīng)Q策結(jié)果。要得到科學、正確、合理的實驗結(jié)果,應對大量的數(shù)據(jù)采用多種不同的實驗方法,然后對各結(jié)果綜合分析,取得最終可信結(jié)果。

參考文獻:

[1] 胡壽松,何亞群.粗糙決策理論與應用[M].北京:北京航空航天大學出版社,2006.

[2] 王國胤,安久江,吳渝.Rough集理論代數(shù)觀與信息觀的差異量化分析[J].小型微型計算機系統(tǒng),2005:26(7):1187-1189.

[3] 王國胤,于洪.基于條件信息熵的決策表約簡[J].計算機學報,2002,25(7):759-765.

[4] 周怡.醫(yī)學信息決策與支持系統(tǒng)[M].北京:人民衛(wèi)生出版社,2009.

猜你喜歡
粗糙集
粗糙集與包絡分析下艦船運行數(shù)據(jù)聚類算法
局部多粒度覆蓋粗糙集
基于Pawlak粗糙集模型的集合運算關系
基于二進制鏈表的粗糙集屬性約簡
基于粗糙集的不完備信息系統(tǒng)增量式屬性約簡
優(yōu)勢直覺模糊粗糙集決策方法及其應用
基于鍵樹的粗糙集屬性約簡算法
悲觀的多覆蓋模糊粗糙集
多?;植诩再|(zhì)的幾個充分條件
雙論域粗糙集在故障診斷中的應用
丰镇市| 沈丘县| 万宁市| 且末县| 杂多县| 望谟县| 家居| 泰安市| 汉沽区| 文山县| 赤城县| 邹城市| 新乡市| 西峡县| 双峰县| 荔浦县| 桃源县| 浦县| 盈江县| 中江县| 梧州市| 平湖市| 千阳县| 津市市| 闽清县| 竹溪县| 侯马市| 东安县| 伊金霍洛旗| 延边| 临高县| 苏尼特左旗| 靖江市| 贞丰县| 忻州市| 枣阳市| 库车县| 天津市| 昭通市| 甘洛县| 乐山市|