鄭淑賢,解濱,米據(jù)生
(1. 河北師范大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,河北 石家莊 050024; 2. 河北師范大學(xué) 信息技術(shù)學(xué)院,河北 石家莊 050024)
概率推理是根據(jù)不確定信息作出推理,同時(shí)需要對(duì)得出結(jié)論的概率作出估計(jì)的推理模型。貝葉斯推理問題是條件概率推理問題[1-2],最早在18世紀(jì)由英國(guó)學(xué)者貝葉斯提出,這一領(lǐng)域的研究可以深化人們對(duì)概率信息加工過程的理解,能夠有效地指導(dǎo)人們進(jìn)行判斷決策以及數(shù)據(jù)推理。形式概念分析[3]是1982年由Wille首先提出的,它描述了對(duì)象和屬性之間的聯(lián)系,在數(shù)據(jù)分析和知識(shí)獲取等方面有著非常重要的意義。形式背景是一類具有特殊關(guān)系的數(shù)據(jù)庫(kù),其特殊性反映在對(duì)象與屬性之間的關(guān)系僅有是與非2種,決策形式背景是由對(duì)象集合、條件屬性集合和決策屬性集合形成的數(shù)據(jù)表。
目前許多學(xué)者正在進(jìn)行將貝葉斯概率推理應(yīng)用到數(shù)據(jù)庫(kù)的研究[4-7]。Pawlak[8]建立了貝葉斯理論和數(shù)據(jù)表之間的聯(lián)系,Slezak等[9]依據(jù)貝葉斯推理提出了貝葉斯數(shù)據(jù)模型,Y.Y.Yao[10]基于貝葉斯決策過程提出了新的決策理論粗糙集模型,為數(shù)據(jù)推理提供了新的思想。本文提出的主觀貝葉斯概率推理應(yīng)用了貝葉斯公式的變形公式和主觀給出的某些估計(jì)量,討論決策形式背景中條件屬性和決策屬性的依賴關(guān)系。對(duì)于決策形式背景,條件屬性的重要性存在差異,雖然一些對(duì)象含有某種條件屬性的數(shù)目比較多,但是這些條件屬性對(duì)決策的影響程度可能比較?。欢硗庖恍?duì)象含有的某種條件屬性的數(shù)目比較少,但是這些條件屬性對(duì)決策的影響程度可能比較大。因此,不僅要考慮條件屬性的個(gè)數(shù),還要考慮條件屬性和決策屬性的關(guān)聯(lián)程度。
決策形式背景中知識(shí)的發(fā)現(xiàn)首先要根據(jù)不同的屬性將對(duì)象進(jìn)行分類,同一類中的對(duì)象均具有共同的屬性,所以對(duì)屬性的研究可以歸結(jié)到對(duì)某類對(duì)象的研究。下面給出決策形式背景中對(duì)象的分類方法。
定義1[11]稱(U,A,I)為形式背景,其中U={x1,x2,...,xn}為對(duì)象集,xi(i≤n)稱為對(duì)象;A={a1,a2,...,am}為屬性集,aj(j≤m)稱為屬性;I為U?A上的二元關(guān)系,I?U?A。若(x,a)∈I,則稱x具有屬性a;若(x,a)?I,則稱x不具有屬性a。
定義2[12]如果(U,A,I)與(U,D,J)是2個(gè)形式背景,稱(U,A,I,D,J)為決策形式背景。
定義3 設(shè)(U,A,I,D,J)是一個(gè)決策形式背景,當(dāng)(x,a)∈I時(shí),記為Ia(x)=1,即x具有屬性a;當(dāng)(x,a)?I時(shí),記為Ia(x)=0,即x不具有屬性a。
RA={(xi,xj)∈U×U|Ia(xi)=
Ia(xj),?a∈A}
稱RA為形式背景(U,A,I,D,J)中U上的確定關(guān)系。由于關(guān)系RA滿足自反性、對(duì)稱性和傳遞性,因此RA是U上的等價(jià)關(guān)系。在決策形式背景(U,A,I,D,J)中,由RA可以產(chǎn)生U上的一個(gè)劃分[13]:
U/RA={[xi]A|xi∈U}
式中:[xi]A={xj∈U|(xi,xj)∈RA}={xj∈
U|Ia(xi)=Ia(xj),?a∈A}
同樣對(duì)于決策屬性d,有:
概率理論是研究具有不確定性問題的理論,可以將其理解為信任的程度,也就是主觀概率。它反映了人們的經(jīng)驗(yàn),可能會(huì)因人而異。不過它本身的不確定性并不影響其在不確定推理中的應(yīng)用,依據(jù)主觀概率進(jìn)行推理可以更加明顯地反映客觀事實(shí)。下面給出決策形式背景中的主觀貝葉斯概率推理。
若P是(U,A,I,D,J)上的概率測(cè)度,記
?a∈Ai
則P(Dd/Ai)是條件概率,是集合Ai相對(duì)于集合Dd的包含度。
下面根據(jù)文獻(xiàn)[14],給出決策形式背景中的充分似然率與必然似然率的定義。
定義5 設(shè)(U,A,I,D,J)是決策形式背景,其中Ai是條件屬性隨機(jī)變量,Dd是決策屬性隨機(jī)變量,稱LS為充分似然率,LN為必然似然率。
(1)
(2)
定理1 設(shè)(U,A,I,D,J)是決策形式背景,其中Ai是條件屬性隨機(jī)變量,Dd是決策屬性隨機(jī)變量,則有:
O(Dd/Ai)=LS·O(Dd)
(3)
(4)
式中:
(5)
(6)
(7)
證明由貝葉斯公式可得
(8)
(9)
式(8)、(9)相除即得式(3)。將式(5)和式(6)分別代入式(3),即得
于是
P(Dd/Ai)(1-P(Dd))=LS·P(Dd)(1-
P(Dd/Ai))P(Dd/Ai)[(LS-1)P(Dd)+1]=
LS·P(Dd)
即得式(4),證畢。
定理2 充分似然率LS對(duì)P(Dd/Ai)的影響為
1)LS=1時(shí),P(Dd/Ai)=P(Dd),即i-條件屬性對(duì)決策屬性d的可信度無(wú)影響;
2)LS>1時(shí),P(Dd/Ai)>P(Dd),即i-條件屬性增加決策屬性d的可信度;
3)LS<1時(shí),P(Dd/Ai)
證明設(shè)y=P(Dd/Ai),a=P(Dd),x=LS,則式(4)成為
y=ax/a(x-1)+1
對(duì)x求導(dǎo)即得
若00,即y是x的增函數(shù),當(dāng)x=1時(shí),y=a。于是LS=1時(shí),P(Dd/Ai)=P(Dd),同理可證(2)和(3),證畢。
例1 一個(gè)關(guān)于人體健康狀況的信息系統(tǒng)如表1,其中U={x1,x2,x3,x4,x5,x6},A={a1,a2,a3},D=syggg00,d成立表示人體健康,d不成立表示人體不健康。
表1 關(guān)于人體健康的決策表
定理3 設(shè)(U,A,I,D,J)是決策形式背景,其中Ai是條件屬性隨機(jī)變量,Dd是決策屬性隨機(jī)變量,則有
(10)
(11)
式中:
證明仿定理1可證。
證明仿定理3.2可證。
主觀貝葉斯概率推理為決策形式背景中的條件屬性和決策屬性間的關(guān)系討論提供了一種簡(jiǎn)便的方法,計(jì)算在一定條件屬性下決策成立的可信度,主要根據(jù)專家的經(jīng)驗(yàn)知識(shí)給出充分似然率與必然似然率,由式(1)、(2)得
故可得到以下結(jié)論:
1)LS=1,當(dāng)且僅當(dāng)LN=1;
2)LS≠1(LN≠1),時(shí)必有(LS-1)(LN-1)<0;
3)當(dāng)P(Dd/Ai)=0時(shí),必有P(Ai/Dd)=0,于是LS=0,即對(duì)象具有i-條件屬性時(shí)決策屬性d必然不成立;
5)當(dāng)1 6)當(dāng)1 由于在主觀貝葉斯概率推理中,LS和LN是專家根據(jù)經(jīng)驗(yàn)主觀給出的,在給出LS和LN時(shí)必須充分理解它們的實(shí)際意義,也就是要滿足以上6條性質(zhì)。 2)對(duì)于? 3)對(duì)于 稱D為F(X)上的包含度。 容易驗(yàn)證: 是2種不同的包含度。 定理5 設(shè)(U,A,I,D,J)是決策形式背景,其中Ai是條件屬性隨機(jī)變量,Dd是決策屬性隨機(jī)變量,則有 證明由定理1和定理2可知: 根據(jù)全概率公式: 及 就有 于是得到 同理可得 證畢。 證明由函數(shù)的單調(diào)性可證。 定理7 設(shè)(U,A,I,D,J)是決策形式背景,其中Ai是條件屬性隨機(jī)變量,Dd是決策屬性隨機(jī)變量,以下關(guān)系成立: 證明由于 同理可證 證畢。 例2 根據(jù)表1,可以得出P(Dd)=2/3, 本文將主觀貝葉斯概率推理的方法應(yīng)用到?jīng)Q策形式背景中,從推理的角度分析了屬性值之間的關(guān)聯(lián)性。推理過程接近人們?cè)谌粘I钪蝎@得概率信息作出判斷的情況,清晰地反映出實(shí)際應(yīng)用的信息特點(diǎn)和概率判斷的過程,為決策形式背景的數(shù)據(jù)挖掘和決策判斷提供了新的理論依據(jù)。在后續(xù)的研究中,將進(jìn)一步探討基于貝葉斯推理的形式背景中條件屬性約簡(jiǎn)方法。 參考文獻(xiàn): [1]張文修,梁怡,徐萍. 基于包含度的不確定推理[M]. 北京:清華大學(xué)出版社, 2007: 107-113. [2]張惠玲,孫劍,邵海鵬. 基于貝葉斯推理的HCM延誤模型修正[J]. 計(jì)算機(jī)工程, 2011, 37(7): 18-20. ZHANG Huiling, SUN Jian, SHAO Haipeng. HCM delay model modification based on Bayesian reasoning[J]. Computer Engineering, 2011, 37(7): 18-20. [3] WILLE R. Restructuring lattice theory: an approach based on hierarchies of concept[M]//Ordered Sets, Reidel, Dordrecht. Boston, USA, 1982: 445-470. [4]ZHANG H Y, ZHOU J, MIAO D Q, et al. Bayesian rough set model: a further investigation[J]. International Journal of Approximate Reasoning, 2012, 53(4): 541-557. [5]YAO J T , YAO Y Y. Probabilistic rough sets: approximations, decision-makings and applications[J]. International Journal of Approximate Reasoning, 2008, 49(3): 253-254. [6]PAWLAK Z. A rough set view on Bayes’ theorem[J]. International Journal of Intelligent Systems, 2003, 18(5): 487-498. [7]SLEZAK D, ZIARKO W. Variable precision Bayesian rough set model[J]. [S.l.]: Springer-Verlag, 2003: 312-315. [8]PAWLAK Z. New look on Bayes’ theorem-the rough set outlook[J]. Rough Set Society, 2001, 5: 20-22. [9]SLEZAK D, ZIARKO W. Bayesian rough set model[C]//International Workshop on Foundation of Data Mining. [S.l.], 2002, 9: 131-135. [10]YAO Y Y. Probabilistic rough set approximations[J]. International Journal of Approximate Reasoning, 2008, 49(2): 255-271. [11]王虹, 張文修.形式概念分析與粗糙集的比較研究[J].計(jì)算機(jī)工程, 2006, 32(8): 42-44. WANG Hong, ZHANG Wenxiu. Comparative study between formal concept analysis and rough set[J]. Computer Engineering, 2006, 32(8): 42-44. [12]張文修,姚一豫,梁怡.粗糙集與概念格[M]. 西安:西安交通大學(xué)出版社,2006: 25-28. [13]米據(jù)生,吳偉志,張文修. 基于變精度粗糙集理論的知識(shí)約簡(jiǎn)[J]. 系統(tǒng)工程理論與實(shí)踐, 2004, 1: 76-82. [14]Nilsson. Artificial intelligence a new synthesis[M].北京: 機(jī)械工業(yè)出版社, 1999. [15]姚燕青,米據(jù)生.直覺模糊集上的混合單調(diào)包含度[J]. 計(jì)算機(jī)科學(xué), 2010, 37(1):255-257. YAO Yanqing, MI Jusheng. Mixed monotone inclusion degree on intuitionistic fuzzy sets[J]. Computer Science, 2010, 37(1): 255-257.3 基于包含度的概率推理
4 結(jié)束語(yǔ)