(廣東技術(shù)師范大學(xué)天河學(xué)院 計(jì)算機(jī)科學(xué)與工程學(xué)院,廣東 廣州 510540)
粗糙集理論是學(xué)者Pawlak[1]提出的一種有效處理不確定性數(shù)據(jù)的數(shù)學(xué)工具,它通過不可區(qū)分關(guān)系來對(duì)數(shù)據(jù)對(duì)象進(jìn)行分類,并引入上近似和下近似來刻畫數(shù)據(jù)的不確定性程度,由于該理論不需要數(shù)據(jù)集之外的任何先驗(yàn)信息,目前已廣泛運(yùn)用于機(jī)器學(xué)習(xí)[2]、決策分析[3]和數(shù)據(jù)挖掘[4]等領(lǐng)域。
粗糙集理論是度量信息系統(tǒng)不確定性程度的一個(gè)有力工具,而不確定性程度是信息系統(tǒng)分類能力的一個(gè)重要體現(xiàn)。Pawlak[1]采用近似精度和粗糙度來作為信息系統(tǒng)的不確性度量,Liang等人通過信息熵[5]和近似質(zhì)量[6]來度量不確定性度,此外,還有其他很多的度量方法被提出[7-8]。
然而在目前的信息系統(tǒng)不確定性度量中,大多數(shù)度量方法都是比較單一的,不同的度量方法都有著一定程度的缺陷,而將多種度量方法進(jìn)行各取所長(zhǎng)地融合,將會(huì)得到更好的度量效果,Chen[9]等人通過將粗糙度與鄰域熵結(jié)合提出鄰域信息系統(tǒng)的不確性度量方式,Jiang[10]等人提出一種相對(duì)決策熵的度量方法,何松華[11]等人通過鄰域近似精度和鄰域粒度結(jié)合提出一種新的度量方法,并用于屬性約簡(jiǎn)中。
本文在此基礎(chǔ)上,針對(duì)各種不確定性度量的優(yōu)劣,將代數(shù)角度的粗糙度度量[1]和信息論角度的模糊指數(shù)熵[12-13]結(jié)合起來,并加入依賴度[1],提出一種新的信息系統(tǒng)不確性度量方法——模糊指數(shù)熵組合度量,并分析了相關(guān)的性質(zhì)。實(shí)驗(yàn)結(jié)果表明,所提出的模糊指數(shù)熵組合度量方法在各個(gè)UCI數(shù)據(jù)集上均表現(xiàn)出了更好的不確定性度量效果。因此所提出的度量方法更具優(yōu)越性。
定義1[1]在智能信息處理領(lǐng)域中,信息系統(tǒng)被描述成一個(gè)四元組的形式,即IS=(U,A,V),其中的U是一個(gè)非空的有限集合{x1,x2,…,xn},被稱為論域,A稱為全體屬性集{a1,a2,…,an},V為全體屬性集的值域,滿足V=∪Va,其中Va為屬性a∈A的值域,對(duì)象x∈U在屬性a下的取值可表示為a(x)。此外,當(dāng)屬性集A滿足A=C∪D,其中C、D分別被稱為信息系統(tǒng)的條件屬性和決策屬性,此信息系統(tǒng)又被稱為決策信息系統(tǒng)(DIS)。
定義3[9]對(duì)于信息系統(tǒng)IS=(U,A,V),?B?A,則X?U基于B的粗糙度ρB(X)定義為
根據(jù)定義3顯然有0≤ρB(X)≤1,粗糙度ρB(X)反映了近似對(duì)象集X在B下的粗糙程度。
定義4[9]設(shè)決策信息系統(tǒng)DIS=(U,C∪D,V,f),對(duì)于?B?C,則決策屬性集D基于B的依賴度γB(D)定義為
在文獻(xiàn)[14]中,Zadeh提出模糊集的概念,把考察的對(duì)象x及反映它的模糊概念X作為一定的模糊集合,建立隸屬函數(shù)μX(x),這樣更加適合反映事物之間的模糊關(guān)系。模糊集X表示為
式中,μX(x)稱為X的隸屬度函數(shù)。
另外,為確保調(diào)查研究的真實(shí)、有效、客觀、全面,本課題組成員奔赴體校,并對(duì)部分運(yùn)動(dòng)員、教育管理人員等就文化教育的現(xiàn)狀、管理等問題進(jìn)行了實(shí)地調(diào)研和訪談。
Pal[12]在傳統(tǒng)信息熵的基礎(chǔ)上提出指數(shù)熵,并將指數(shù)熵引入模糊集中,其定義如下所述。
定義5[12]設(shè)模糊集X,x關(guān)于X的隸屬度函數(shù)為μX(x),那么基于X的模糊指數(shù)熵定義為
(1-μX(xi))·exp(μX(xi))-1]
在文獻(xiàn)[13]中,Wei指出運(yùn)用模糊指數(shù)熵可以作為信息系統(tǒng)的不確定性度量。
在粗糙集理論中,粗糙度通過邊界域的大小展示了近似對(duì)象在信息系統(tǒng)中的不確定性度[1,7-10],因此,一直被廣泛運(yùn)用于信息系統(tǒng)的不確定性度量。但是粗糙度只是通過邊界域的視角來分析問題,然而在粗糙集理論中,正區(qū)域包含著許多重要的信息,也間接體現(xiàn)了信息系統(tǒng)的不確定性[8,10],因此通過粗糙度結(jié)合依賴度來作為信息系統(tǒng)的不確定度量是很有必要的。
文獻(xiàn)[13]指出,模糊指數(shù)熵作為信息熵的一種推廣,在信息系統(tǒng)的不確定性度量中具有很好的效果,因此本文通過將模糊指數(shù)熵與粗糙度和依賴度結(jié)合,提出一種新的度量方法——組合模糊指數(shù)熵,通過這種新的方法來作為信息系統(tǒng)的不確定性度量。
ComFEP(D)=ComFEQ(D)
證明:由性質(zhì)3可以直接得到。
為了驗(yàn)證所提出的信息系統(tǒng)不確定度量方法更具優(yōu)越性,本實(shí)驗(yàn)從UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫中獲取了5個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析,數(shù)據(jù)集的詳細(xì)信息如表1所示。其中數(shù)據(jù)集1~數(shù)據(jù)集4均為符號(hào)型屬性,數(shù)據(jù)集5為數(shù)值型屬性。由于所提出的組合模糊指數(shù)熵的度量方法只適用于符號(hào)型屬性,這里將數(shù)據(jù)集5中的數(shù)據(jù)通過等距離散化方法進(jìn)行離散化。
表1 UCI數(shù)據(jù)集
為了做對(duì)比,又分別使用了目前已有的兩種度量方法進(jìn)行實(shí)驗(yàn),分別是粗糙度度量[1]和模糊指數(shù)熵度量[13],3種不確定性度量方法在5個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如圖1~圖5所示。
通過圖1~圖5可以看出,隨著選擇的屬性增多,3種度量方法對(duì)于數(shù)據(jù)集的不確定性度量值均逐漸減小,這意味著隨著屬性的增加,信息系統(tǒng)的不確定性度在減小,因此這3種方法對(duì)于信息系統(tǒng)的不確定性度量都是有效的。但是仔細(xì)觀察可以發(fā)現(xiàn),在圖1中,數(shù)據(jù)集balance的屬性從1增加到2的時(shí)候,其粗糙度度量值保持不變,這種情形體現(xiàn)了粗糙度度量未能有效區(qū)分系統(tǒng)在屬性數(shù)目不同時(shí)系統(tǒng)分類能力的不同,類似地,其他數(shù)據(jù)集也出現(xiàn)相同情形。同時(shí)對(duì)于指數(shù)熵度量,在各個(gè)數(shù)據(jù)集中也出現(xiàn)了類似的問題。而在組合模糊指數(shù)熵度量方法中,則較少出現(xiàn)這樣的情形,因而組合模糊指數(shù)熵能更精準(zhǔn)地評(píng)估不確定性,從而更精確地刻畫系統(tǒng)屬性數(shù)目不同時(shí)系統(tǒng)分類能力的不同。因此實(shí)驗(yàn)結(jié)果表明,組合模糊指數(shù)熵對(duì)于信息系統(tǒng)的不確定性度量具有更好的評(píng)估效果,相比于其他方法更具優(yōu)越性。
圖1 3種方法在數(shù)據(jù)集balance實(shí)驗(yàn)結(jié)果
圖2 3種方法在數(shù)據(jù)集car實(shí)驗(yàn)結(jié)果
圖4 3種方法在數(shù)據(jù)集tic實(shí)驗(yàn)結(jié)果
圖5 3種方法在數(shù)據(jù)集wine實(shí)驗(yàn)結(jié)果
為了展現(xiàn)多種不確定性度量方法的優(yōu)越性,通過融合粗糙度和模糊指數(shù)熵這兩種方法,并加入依賴度提出了一種新的信息系統(tǒng)不確性度量方法,這種方法通過多個(gè)視角對(duì)信息系統(tǒng)的不確定性進(jìn)行評(píng)估,發(fā)揮了各自在度量方面的優(yōu)點(diǎn),因而具有更好的評(píng)估效果。另外,所提出的不確性度量方法可以作為信息系統(tǒng)屬性重要度的評(píng)估方式,因此接下來可以構(gòu)建相應(yīng)的特征選擇方法。