姚 晟, 陳 菊, 徐 風(fēng), 汪 杰, 吳照玉
(1.安徽大學(xué) 計(jì)算智能與信號(hào)處理教育部重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230601; 2.安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 230601)
粗糙集理論[1]是波蘭學(xué)者Pawlak教授于1982年提出的一種處理不確定、不完整數(shù)據(jù)的數(shù)學(xué)模型。目前已廣泛地運(yùn)用于機(jī)器學(xué)習(xí)[2]、數(shù)據(jù)挖掘[3]、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)及模式識(shí)別[4]等領(lǐng)域[5-10]。對(duì)于早期的粗糙集研究而言,其主要是集中在完備信息系統(tǒng)中,而實(shí)際生活中,由于一些原因,信息系統(tǒng)中會(huì)存在一些缺失數(shù)據(jù),含有缺失數(shù)據(jù)的信息系統(tǒng)被稱為不完備信息系統(tǒng)。針對(duì)經(jīng)典粗糙集對(duì)不完備信息系統(tǒng)的數(shù)據(jù)分析存在的局限性,近年來(lái),容差關(guān)系和量化容差關(guān)系由Kryszkiewicz[11]和Stefanowski[12]等所提出,有效地解決了不完備信息系統(tǒng)中數(shù)據(jù)缺失的問(wèn)題,使得粗糙理論有著更為廣泛的運(yùn)用。為了從多個(gè)層次和多個(gè)角度進(jìn)行分析和處理問(wèn)題,多粒度粗糙集模型由Qian[13-14]等所提出來(lái)。通過(guò)多粒度的視角,粗糙集理論成為強(qiáng)大的數(shù)據(jù)分析工具之一。
Pawlak粗糙集是基于等價(jià)關(guān)系的,要求分類是準(zhǔn)確無(wú)誤的。程度粗糙集重視等價(jià)類與幾何重疊部分的定量信息,考慮一點(diǎn)程度誤差的分類。通過(guò)將多粒度應(yīng)用到程度粗糙集中,吳志遠(yuǎn)[15]等提出了程度多粒度粗糙集。針對(duì)不完備信息系統(tǒng),沈家蘭[16]等提出了基于限制容差關(guān)系的程度樂(lè)觀多粒度粗糙集和程度悲觀多粒度粗糙集。林夢(mèng)雅[17]等提出了基于量化容差關(guān)系的多粒度粗糙集。
本文針對(duì)不完備信息系統(tǒng),融合了量化容差關(guān)系和程度多粒度粗糙集模型的優(yōu)點(diǎn),以量化容差關(guān)系為分類基礎(chǔ),提出了基于量化容差關(guān)系的程度多粒度粗糙集模型,其中定義了基于量化容差關(guān)系的樂(lè)觀程度多粒度粗糙集和悲觀多粒度粗糙集,并分析了相關(guān)的性質(zhì)。實(shí)驗(yàn)結(jié)果表明,基于量化容差關(guān)系的程度多粒度粗糙集模型具有更好的近似精度。
為了融合多粒度粗糙集和程度粗糙集的優(yōu)點(diǎn),程度多粒度粗糙集由吳志遠(yuǎn)[15]等提出,并構(gòu)建了樂(lè)觀和悲觀兩種不同的程度多粒度粗糙集。
定義1[15]設(shè)信息系統(tǒng)IS={U,AT},A1,A2,…,Am?AT,k為非負(fù)常數(shù),?X?U,定義X的程度樂(lè)觀多粒度下近似、上近似分別為
|[x]A2|-|[x]A2∩X|≤k∨…∨
|[x]Am|-|[x]Am∩X|≤k}
(1)
(2)
定義2[15]設(shè)信息系統(tǒng)IS={U,AT},A1,A2,…,Am?AT,k為非負(fù)常數(shù),?X?U,定義X的程度樂(lè)觀多粒度下近似、上近似分別為
|[x]A2|-|[x]A2∩X|≤k∧…∧
|[x]Am|-|[x]Am∩X|≤k}
(3)
(4)
在不完備系統(tǒng)中,考慮到等價(jià)類與重疊部分的定量信息也是相當(dāng)重要,因此考慮將程度多粒度粗糙集引入其中。Wang[18]所提出的改進(jìn)量化容差關(guān)系要比限制容差關(guān)系要求更加嚴(yán)格,相比之下,比相似關(guān)系要求寬松些,從而對(duì)論域的分類更加合理,并又結(jié)合了量化容差關(guān)系,因此提出了基于量化容差關(guān)系的程度多粒度粗糙集。
定義3 對(duì)于不完備信息系統(tǒng)DIIS={U,AT},設(shè)w為屬性子集序列的分類閾值。對(duì)于?x∈U,A∈AT,k為非負(fù)整數(shù),在w量化容差關(guān)系VTw(A)下,X的程度粗糙集下、上近似分別定義為
(5)
(6)
定義4 對(duì)于不完備信息系統(tǒng)DIIS={U,AT},設(shè)A1,A2,…,Am∈AT為m個(gè)屬性子集序列,w1,w2,…,wm分別對(duì)應(yīng)m個(gè)屬性子集序列下的分類閾值,其中k為非負(fù)整數(shù)。?x∈U,則X基于A1,A2,…,Am下w1,w2,…,wm量化容差關(guān)系族VTw1(A1),VTw2(A2),…,VTwm(Am)下的程度樂(lè)觀多粒度粗糙集下近似、上近似分別定義為
(7)
(8)
另外,其w1,w2,…,wm量化容差關(guān)系的程度樂(lè)觀多粒度粗糙集模型近似精度定義為
(9)
定義5 對(duì)于不完備信息系統(tǒng)DIIS={U,AT},設(shè)A1,A2,…,Am∈AT為m個(gè)屬性子集序列,w1,w2,…,wm分別對(duì)應(yīng)m個(gè)屬性子集序列下的分類閾值,其中k為非負(fù)整數(shù)。?x∈U,則X基于A1,A2,…,Am下w1,w2,…,wm量化容差關(guān)系族VTw1(A1),VTw2(A2),…,VTwm(Am)下的程度悲觀多粒度粗糙集下近似、上近似分別定義為
(10)
(11)
另外,其w1,w2,…,wm量化容差關(guān)系的程度悲觀多粒度粗糙集模型近似精度定義為
(12)
定理1 設(shè)不完備信息系統(tǒng)DIIS={U,AT},A1,A2,…,Am∈AT為m個(gè)屬性子集序列,w1,w2,…,wm分別對(duì)應(yīng)m個(gè)屬性子集序列下的分類閾值,其中k為非負(fù)整數(shù)。?x∈U,則量化容差關(guān)系下的程度樂(lè)觀多粒度粗糙集有如下性質(zhì)。
④k1,k2為非負(fù)常數(shù),若k1≤k2,
證明:
定理2 設(shè)不完備信息系統(tǒng)DIIS={U,AT},A1,A2,…,Am∈AT為m個(gè)屬性子集序列,w1,w2,…,wm分別對(duì)應(yīng)m個(gè)屬性子集序列下的分類閾值,其中k為非負(fù)整數(shù)。?x∈U,則量化容差關(guān)系下的程度悲觀多粒度粗糙集有如下性質(zhì)。
④k1,k2為非負(fù)常數(shù),若k1≤k2,
證明:定理2的證明類似于定理1的證明。
為了驗(yàn)證所提出的基于量化容差關(guān)系的程度多粒度粗糙集模型具有一點(diǎn)的優(yōu)越性,從UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中獲取4個(gè)數(shù)據(jù)集進(jìn)行試驗(yàn)。表1給出了各個(gè)數(shù)據(jù)集的類分布情況。
表1 UCI數(shù)據(jù)集
表1所示的4個(gè)數(shù)據(jù)集全部為完備數(shù)據(jù)集,為了滿足本文所研究的基于量化容差關(guān)系的程度多粒度粗糙集模型,在實(shí)驗(yàn)前將會(huì)隨機(jī)地剔除掉一部分?jǐn)?shù)據(jù),通過(guò)人為方式構(gòu)造出不完備數(shù)據(jù)集進(jìn)行試驗(yàn)。
為了驗(yàn)證所提模型具有一定的優(yōu)越性,其中k=1,首先將4個(gè)數(shù)據(jù)集分別放在5%,10%,15%,20%,25%,30%數(shù)據(jù)缺失程度條件下進(jìn)行試驗(yàn);然后將程度多粒度粗糙集決策過(guò)程中限制容差類與集合重疊部分的定量信息考慮進(jìn)去,對(duì)于每個(gè)數(shù)據(jù)缺失程度下,求取每個(gè)決策類在量化容差關(guān)系下的程度樂(lè)觀多粒度粗糙集模型的近似精度,并計(jì)算出屬于同一個(gè)數(shù)據(jù)集的所有決策類近似精度的平均值,即稱平均值為數(shù)據(jù)集的平均近似精度;并且采用多個(gè)分類閾值的情形,即每個(gè)粒度的分類閾值w選取不同的值。最后對(duì)于4個(gè)數(shù)據(jù)集處于不同數(shù)據(jù)缺失程度下,隨著閾值的變化,4個(gè)數(shù)據(jù)集的平均近似精度發(fā)生不同程度的變化,結(jié)果如圖1~圖6所示。
圖1 4個(gè)數(shù)據(jù)集在5%的數(shù)據(jù)缺失條件下的結(jié)果分析
圖2 4個(gè)數(shù)據(jù)集在10%的數(shù)據(jù)缺失條件下的結(jié)果分析
圖3 4個(gè)數(shù)據(jù)集在15%的數(shù)據(jù)缺失條件下的結(jié)果分析
圖4 4個(gè)數(shù)據(jù)集在20%的數(shù)據(jù)缺失條件下的結(jié)果分析
圖5 4個(gè)數(shù)據(jù)集在25%的數(shù)據(jù)缺失條件下的結(jié)果分析
圖6 4個(gè)數(shù)據(jù)集在30%的數(shù)據(jù)缺失條件下的結(jié)果分析
由于本文所提出的模型為多粒度粗糙集模型,每個(gè)數(shù)據(jù)集的條件屬性需要構(gòu)造一組屬性子集,將數(shù)據(jù)集1和數(shù)據(jù)集2構(gòu)造了4個(gè)屬性子集,數(shù)據(jù)集3構(gòu)造了3個(gè)屬性子集,數(shù)據(jù)集4構(gòu)造了9個(gè)屬性子集。
從圖1~圖6可知,4個(gè)數(shù)據(jù)集在相同的數(shù)據(jù)缺失比下,不同的閾值對(duì)類精度具有很大影響。當(dāng)分類閾值較小時(shí),分類精度比較小,這主要是由于較小的分類閾值對(duì)分類較為寬松,使得對(duì)象劃分較為粗糙,從而對(duì)應(yīng)的近似精度較低;反之,則使得對(duì)象劃分較為精細(xì),從而對(duì)應(yīng)的近似精度較高。從圖1~圖6還可以看出,在同一個(gè)分類閾值下,隨著4個(gè)數(shù)據(jù)集缺失的百分比逐漸增大,4個(gè)數(shù)據(jù)集的平均近似精度總體來(lái)說(shuō)在逐漸增大,這是由于數(shù)據(jù)缺失的較多,使得對(duì)象之間的相似程度降低,每個(gè)對(duì)象的量化容差類也減小,因此近似精度也會(huì)增加。實(shí)驗(yàn)結(jié)果表明基于量化容差關(guān)系的程度多粒度粗糙集模型具有較好的分類效果。
本文從程度多粒度的角度出發(fā),基于量化容差的關(guān)系提出程度樂(lè)觀、程度悲觀多粒度粗糙集模型,并通過(guò)在不同粒度下定義的分類閾值w的不同取值來(lái)得到苛刻程度不同的對(duì)象分類,使得本文提出的模型具有一定的穩(wěn)定性和靈活性。實(shí)驗(yàn)分析可以看出,所提出的模型具有一定的優(yōu)越性。接下來(lái),將對(duì)基于量化容差關(guān)系的程度多粒度粗糙集的屬性約簡(jiǎn)和規(guī)則提取問(wèn)題進(jìn)行研究。