廖升俊, 張賢勇*, 莫智文, 唐玲玉
(1.四川師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院,四川成都610066; 2.四川師范大學(xué)智能信息與量子信息研究所,四川成都610066)
由波蘭學(xué)者Pawlak教授提出的粗糙集理論[1]是分析不完整、不精確信息系統(tǒng)的有力工具.目前,粗糙集理論已經(jīng)廣泛應(yīng)用于信息系統(tǒng)分析、人工智能、數(shù)據(jù)挖掘、模式識(shí)別等領(lǐng)域.
在粗糙集理論中,已經(jīng)引入熵測(cè)度[2].文獻(xiàn)[3]在粗糙集理論中定義了粗糙熵;文獻(xiàn)[4]對(duì)粗糙熵進(jìn)行了進(jìn)一步研究,重新定義了粗糙熵的表達(dá)式;文獻(xiàn)[5]對(duì)粒的不確定性度量及其關(guān)系進(jìn)行了研究;文獻(xiàn)[6-7]利用條件熵度量開(kāi)發(fā)了啟發(fā)約簡(jiǎn)算法;文獻(xiàn)[8]研究了知識(shí)積分與知識(shí)熵之間的關(guān)系;文獻(xiàn)[9]在粗糙集中對(duì)互信息進(jìn)行了研究,為不確定性度量提供了更新的粒計(jì)算解釋?zhuān)晃墨I(xiàn)[10]在粗糙集理論中定義了一種新的信息熵——互補(bǔ)熵,考慮了信息函數(shù)補(bǔ)的性質(zhì);文獻(xiàn)[11-12]在粗糙集中定義組合熵并研究了其性質(zhì);文獻(xiàn)[13]介紹了幾種熵在不完備信息系統(tǒng)中的應(yīng)用;文獻(xiàn)[14]基于三層粒結(jié)構(gòu)定義了三支信息度量;文獻(xiàn)[15]基于三層粒結(jié)構(gòu)定義了三支單調(diào)鄰域熵.
綜上多種信息度量,可見(jiàn)粗糙熵是較早引進(jìn)的度量,其直接模擬表達(dá)具有意義,但相關(guān)研究還欠缺.本文將通過(guò)粗糙熵[4]的表達(dá)公式,結(jié)合三支概率,先定義三支變形熵,因其中有一支無(wú)粒化單調(diào)性,進(jìn)而定義三支加權(quán)變形熵,并證明它的單調(diào)性與系統(tǒng)性.三支加權(quán)變形熵推進(jìn)了粗糙熵的發(fā)展,有益于粗糙集不確定性的表示及應(yīng)用.
本章通過(guò)文獻(xiàn)[14]和[4]簡(jiǎn)要介紹決策表與粗糙熵.
粗糙集的基本數(shù)據(jù)是以下信息表:
其中,U是一個(gè)非空的有限論域,AT是非空的有限屬性集,Va是值域,對(duì)?a∈AT,Ia:U→Va是一個(gè)信息函數(shù).每個(gè)對(duì)象x在屬性a下有屬性值Ia(x).特別地,決策表是一種特殊類(lèi)型的信息表,其中AT=C∪D,C∩D=?,C和D分別代表?xiàng)l件屬性集和決策屬性集.
為了方便,決策表被記作(U,C∪D).在屬性約簡(jiǎn)中,條件屬性涉及子集參數(shù)A?C,而決策表屬性涉及常數(shù)D.屬性集A的等價(jià)關(guān)系被定義為:
其誘導(dǎo)等價(jià)類(lèi)[x]A,這是一種基本粒.分類(lèi)結(jié)構(gòu)
稱(chēng)為知識(shí)分類(lèi)或條件分類(lèi),其中|U/ind(A)|=n.類(lèi)似地,D可以導(dǎo)出等價(jià)關(guān)系ind(D)和進(jìn)一步的決策分類(lèi)
后者由m個(gè)決策類(lèi)組成,即|U/ind(D)|=m.
對(duì)于決策表(U,C∪D),文獻(xiàn)[14]提供了三層粒結(jié)構(gòu):
1)宏觀高層包括條件分類(lèi)U/ind(A)和決策分類(lèi)U/ind(D),以展現(xiàn)宏觀規(guī)模和高層級(jí)水平;
2)中觀中層包括條件分類(lèi)U/ind(A)和決策類(lèi)Xj,以體現(xiàn)中觀規(guī)模和中層級(jí)水平;
粗糙集理論(特別是其屬性約簡(jiǎn))涉及的不確定性主要關(guān)聯(lián)于知識(shí)?;礂l件分類(lèi)?;?設(shè)B?A?C,則 U/ind(A)與 U/ind(B)分別對(duì)應(yīng)著較細(xì)與較粗的粒度結(jié)構(gòu),它們確定著一種偏序轉(zhuǎn)化,相關(guān)的粒度粗化表示為
對(duì)應(yīng)有
即知識(shí)粗化蘊(yùn)含著一些粒合并的組.在粗糙集理論及其屬性約簡(jiǎn)中,知識(shí)?;峁┝吮硐蟛淮_定性的粒計(jì)算機(jī)制,而?;瘑握{(diào)性則成為評(píng)估不確定性度量的基本準(zhǔn)則.可見(jiàn),對(duì)?;瘑握{(diào)性的研究很有必要.特別地,文獻(xiàn)[16]指出?;瘑握{(diào)性只需證其中的一組粒合并.
定義1[14]先驗(yàn)概率、后驗(yàn)概率、似然概率分別定義如下:
它們統(tǒng)稱(chēng)為三支概率.
定理1[14]三支概率服從如下貝葉斯定理:
因?yàn)槿Ц怕史謩e對(duì)應(yīng)相對(duì)和絕對(duì)度量,所以具有不同的概率語(yǔ)義和決策行為.特別地和分別直接地“從因到果”和“從果到因”地直接反映因果關(guān)系.因此,它們的相關(guān)融合可以很好地描述決策概念與條件結(jié)構(gòu)之間的相互關(guān)系.而貝葉斯定理表達(dá)了三支概率的系統(tǒng)性,為深入的不確定度量構(gòu)建奠定了基礎(chǔ).
定義 2粗糙熵 E(A)定義為[4]:
其具有相等的概率表示:
本節(jié)模仿粗糙熵,考慮三支概率定義三支變形熵,并聚焦其中的?;瘑握{(diào)性.
定義3三支變形熵定義為:
基于三支概率構(gòu)建的三支變形熵,具有三支概率的特征.EXj(A)偏向絕對(duì)評(píng)估,而 E(A/Xj)和E(Xj/A)從兩個(gè)不同的因果方向做交互描述.因此,三支變形熵(尤其是 E(A/Xj)和 E(Xj/A))能夠度量條件分類(lèi)U/ind(A)和決策類(lèi)Xj之間的因果關(guān)系.接下來(lái),討論三支變形熵的粒化單調(diào)性.
命題 3EXj(A)和 E(A/Xj)具有?;瘑握{(diào)性:
證明1)于粒合并代表組有
2)利用同樣于1)的方法可以推出,當(dāng)
時(shí),E(A/Xj)≤E(B/Xj)成立.
此外,E(Xj/A)只有?;菃握{(diào)性,該結(jié)果可由下面的一個(gè)例子來(lái)驗(yàn)證.總之,三支變形熵只有其中兩支有粒化單調(diào)性,有一支非粒化單調(diào),故三支變形熵具有改進(jìn)空間.
例 1給定決策表(U,C∪D),其中 U={x1,x2,…,x80}具有 80 個(gè)元素,C={a,b,c}具有 3 個(gè)條件屬性,D={d}具有1個(gè)決策屬性.相關(guān)數(shù)據(jù)見(jiàn)表1,下面提供一個(gè)統(tǒng)計(jì)說(shuō)明.
1)對(duì)于前 40 個(gè)元素x1,x2,…,x40,它們?cè)趯傩詀下的值全為 1;在 b、c下的值全為 -1;除了Id(x1)=1,后面的39個(gè)元在 d下的值全為0.
2)對(duì)于后40 個(gè)元素x41,x42,…,x80,它們?cè)趯傩?a下的值全為0;除了Ib(x1)=1,后面的39個(gè)元在 b下的值均為0;除了Ic(x80)=1,前面的39個(gè)元在c下的值全為0;前29個(gè)元在d下的值為1,而后11個(gè)元在d下的值取0.
下面,設(shè)Xj為d值取1的所有30個(gè)元素之集,即 Xj={x:Id(x)=1}={x1,x41,…,x69},|Xj|=30,并設(shè) B={a},則
表1 實(shí)例的決策表Tab.1 Decision table of the example
可知
1)若設(shè) A={a,b},則
因
則
2)若設(shè) A={a,c},則
因
則
綜上,E(Xj/A)不具有粒化單調(diào)性的性質(zhì).
由上,三支變形熵有一支具有非?;瘑握{(diào)性;另外,系統(tǒng)性也缺損.為此,本節(jié)構(gòu)建三支加權(quán)變形熵,以進(jìn)行相關(guān)改進(jìn).根據(jù)貝葉斯公式,三支概率具有良好的系統(tǒng)性.本節(jié)將以貝葉斯公式為起點(diǎn),對(duì)貝葉斯公式進(jìn)行變換,進(jìn)而構(gòu)建三支加權(quán)變形熵.
由貝葉斯公式有:
由(8)和(9)式兩邊對(duì)應(yīng)相加得
再基于i的累加有
基于(10)式,由三支概率的不確定性語(yǔ)義,將三支變形熵與相應(yīng)具體概率的權(quán)重系數(shù)融合,進(jìn)而得到三支加權(quán)變形熵.
定義4三支加權(quán)變形熵定義為:
推論1
定理3三支加權(quán)變形熵具有系統(tǒng)性
根據(jù)(11)式,三支加權(quán)變形熵將概率權(quán)重引入三支變形熵中,用來(lái)反映信息的重要性或關(guān)注度.三支加權(quán)變形熵的權(quán)函數(shù)分別為
不確定.這里,加權(quán)主要基于系數(shù)來(lái)稱(chēng)謂,其意義比“權(quán)和為1”的一般加權(quán)更廣泛.三支加權(quán)變形熵不僅起著重要的作用,并可以建立起系統(tǒng)方程.實(shí)質(zhì)上,當(dāng)采用三支加權(quán)變形熵時(shí),用到了雙量化融合思想,以便獲得更好的信息特征.接下來(lái),將闡述三支加權(quán)變形熵的粒化單調(diào)性.
定理4三支加權(quán)變形熵具有?;瘑握{(diào)性:
證明因三支變形熵E(A/Xj)具有?;瘑握{(diào)性,而 P(Xj)為常數(shù),故 EW(A/Xj)≤EW(B/Xj)顯然成立.對(duì)此,下面只證明不等式
和
有
本節(jié)基于微觀底層的三支概率和貝葉斯公式,構(gòu)造了三支加權(quán)變形熵,并討論和證明了它的系統(tǒng)性和?;瘑握{(diào)性,可以更好地描述關(guān)于條件分類(lèi)U/ind(A)和決策類(lèi)Xj的系統(tǒng),并改進(jìn)了前面的三支變形熵.
粗糙熵[3]由來(lái)已久,其相關(guān)研究具有意義.本文借鑒粗糙熵,結(jié)合三支概率定義了三支變形熵和三支加權(quán)變形熵,深入地詮釋了粗糙集中的不確定性度量,豐富了粒計(jì)算和三支決策,為不確定度量提供了更為完整和更新的粒計(jì)算解釋.從決策表的三層粒度[14]結(jié)構(gòu)來(lái)看,本文主要立足于中觀中層,后續(xù)宏觀高層的構(gòu)建還需要討論.此外,后續(xù)相關(guān)的不確定性應(yīng)用,如屬性約簡(jiǎn)還值得深入討論.