黑龍江 洪學(xué)銀
系統(tǒng)應(yīng)用中,S=(U,C,D,V,f)每一元素表示決策規(guī)則。在決策規(guī)則中條件的屬性取值不是必要的。規(guī)則的約簡(jiǎn)算法就是要約去規(guī)則中的不必要的屬性參數(shù),計(jì)算規(guī)則的核和簡(jiǎn)化。屬性約簡(jiǎn)之后,對(duì)規(guī)則的冗余參數(shù)進(jìn)行剔除。粗糙集理論的應(yīng)用重點(diǎn)在約簡(jiǎn)屬性和提取規(guī)則,但粗糙集知識(shí)中上下近似元素約簡(jiǎn)出的規(guī)則不一定是最優(yōu)化規(guī)則。因此,組建粗糙集知識(shí)與信息熵的關(guān)系圖,得出粗糙性理論的度量性表示,把信息熵理論和粗糙集理論相結(jié)合,提出規(guī)則集,得出信息熵約簡(jiǎn)算法應(yīng)用方法。
2.條件熵:知識(shí)屬性集合Y(U|IND(Y)={Y1,Y2,…,Ym})相對(duì)于知識(shí)(屬性集合)
U/ind(X)={X1,X2,…,Xn}的條件熵:H(Y|X)為:
3.互信息:T=是一個(gè)決策系統(tǒng)表,R=CD,條件屬性集合是C,決策屬性集合是D=syggg00,且AC,對(duì)于任意屬性a∈A,a相對(duì)于決策D的重要性為:SGF(a,A,D)=H(D|A)-H(D|A∪{a}),是屬性重要性公式。若A=Φ,則SGF(a,A,D)=H(D)-H(D|{a}),是屬性a和決策D的互信息,記為I(a,D)。條件熵H(Q|R)量化在事件R出現(xiàn)的前提下,事件Q的不確定性?;バ畔(R;Q)表示包含在事件R中有關(guān)事件Q的信息。
應(yīng)用粗糙集知識(shí)約簡(jiǎn)出的規(guī)則不一定是最簡(jiǎn)規(guī)則,規(guī)則中會(huì)存在屬性值是不必要的。在決策表中添加屬性引起互信息的改變大小為該屬性重要性的度量,SGF(a,A,D)值越大,表示在已知A的條件下,屬性a對(duì)于決策D就越重要。論域上的不可分辨關(guān)系和信息熵知識(shí)可以對(duì)確定性規(guī)則進(jìn)行約簡(jiǎn)。
假設(shè)論域 U={1,2,3,4,5,6,7,8},屬性的集合 C={Solar energy,Volcanic activity,Residual CO2},決策屬性D為Temperature,原始數(shù)據(jù)表見(jiàn)表1-1:
表1-1 一個(gè)天氣決策表
計(jì)算C對(duì)于D約簡(jiǎn)過(guò)程,得出C0={solar,volcanic}是C對(duì)于D的約簡(jiǎn)。
提取規(guī)則:
計(jì)算決策屬性同類相對(duì)于U/C0的下近似值,得出確定性的規(guī)則
計(jì)算表1-1中決策屬性的信息熵,約簡(jiǎn)的屬性solar,volcanic的互信息是:
H(D)=-1*(130/270*log2(130/270)+140/270*log2(140/270))=0.999
屬性Solar Energy的條件熵是:
H (D|C1)=-1*(110/270)*(110/110)*log2(110/110)-1*(20/270)*20/20*log2(20/20)-1*(140/270)*(140/140)*log2(140/140)=0
屬性Volcanic Activity的條件熵是:
H(D|C2)=-1*140/270*(120/140*log2(120/140)+20/140*log2(20/140))-1*130/270*(120/130log2(120/130)+10/130*log2(10/130))=0.345
兩種屬性的互信息是:
Gain(Solar Energy)=0.999
Gain(Volcanic Activity)=0.654
因?yàn)閷傩詓olar互信息較大,決策重要性高,Volcanic較小,得出要先在量化規(guī)則中去掉Volcanic屬性值,當(dāng)去掉Volcanic,當(dāng)Solar Energy為高時(shí),規(guī)則中沒(méi)有沖突的規(guī)則,所以對(duì)應(yīng)的規(guī)則2、規(guī)則3中屬性Solar Energy的值標(biāo)是1;若Solar Energy為低,沒(méi)有產(chǎn)生沖突性規(guī)則,所以對(duì)應(yīng)的規(guī)則4、規(guī)則5中屬性Solar Energy的值也是1;池Solar Energy為中,規(guī)則1,規(guī)則6與規(guī)則7產(chǎn)生沖突性規(guī)則,所以確定性規(guī)則1屬性Solar Energy值標(biāo)記3。然后按照約簡(jiǎn)方法進(jìn)行計(jì)算,簡(jiǎn)化得出確定性規(guī)則集是:
通過(guò)研究基于應(yīng)用的粗糙集知識(shí)和信息論結(jié)合的約簡(jiǎn)算法,將信息論實(shí)例應(yīng)用在決策信息規(guī)則約簡(jiǎn)算法中,規(guī)劃出信息熵與知識(shí)的關(guān)系結(jié)構(gòu),得到基于應(yīng)用的信息熵約簡(jiǎn)算法,通過(guò)實(shí)例應(yīng)用,約簡(jiǎn)算法得出合理的最優(yōu)化的約簡(jiǎn)規(guī)則,更有效地應(yīng)用到數(shù)據(jù)統(tǒng)計(jì)中。
[1]童舟,羅可.基于Rough Set帶結(jié)論域的關(guān)聯(lián)規(guī)則挖掘[J].計(jì)算機(jī)工程與應(yīng)用,2006,42.
[2]Pawlak Z.Rough sets[J].International Journal of Computer and Information Science,1982,11(5):341~356.