王蕾晰 吳偉志 謝禎晃
大數(shù)據(jù)時代下,各行各業(yè)產(chǎn)生的數(shù)據(jù)具有不確定性和復(fù)雜性.高效處理數(shù)據(jù),挖掘數(shù)據(jù)背后的規(guī)律,并運(yùn)用于實(shí)際問題是數(shù)據(jù)挖掘的主要任務(wù).粒計算[1-3]是模擬人腦思維以處理數(shù)據(jù)不確定性和復(fù)雜性的一種方法,源于Zadeh[4]提出的“信息粒度”概念.粒計算的核心思想是通過合適的?;崛⌒畔⒘?對信息粒進(jìn)行處理和計算,進(jìn)而分析數(shù)據(jù)規(guī)律和解決實(shí)際問題[5-7].
在粒計算的研究和發(fā)展過程中,粗糙集數(shù)據(jù)分析發(fā)揮重要的作用.粗糙集最早由Pawlak[8]于1982年提出.粗糙集最初討論的對象-屬性取值多為數(shù)值或符號.隨著數(shù)據(jù)挖掘的不斷深入和實(shí)際應(yīng)用的需要,學(xué)者們研究數(shù)據(jù)類型日趨多樣化,如集值、區(qū)間值、區(qū)間集、模糊數(shù)、混合數(shù)據(jù)類型等.
多重集[9-11]是一種元素可重復(fù)出現(xiàn)的集合,元素在多重集中出現(xiàn)的次數(shù)稱為該元素在多重集中的重數(shù)并且元素的順序可以互換.多重集在組合數(shù)學(xué)[12]、關(guān)系數(shù)據(jù)庫理論[13]、圖論[14]等領(lǐng)域都有重要應(yīng)用.可以使用多重集描述決策分析中很多問題的數(shù)據(jù).例如,在專家評審系統(tǒng)中,有4位專家參與評審,專家評審結(jié)果可能存在重復(fù),如多重集{well,well,well,bad}中的元素分別為4位專家的評審結(jié)果.如果用經(jīng)典集合{well,bad}則無法體現(xiàn)專家對評審對象的具體評價.此外,多重集在模式識別[15-16]、多準(zhǔn)則決策[17]、醫(yī)療診斷[18]等領(lǐng)域也有重要應(yīng)用.
當(dāng)信息系統(tǒng)的對象-屬性取值為多重集時,該系統(tǒng)稱為多重集值信息系統(tǒng),多重集值信息系統(tǒng)是集值信息系統(tǒng)的推廣.多重集值信息系統(tǒng)在決策分析[19-21]、多源信息融合[22-23]等領(lǐng)域具有重要的研究價值.Zhao等[19]在多重集值信息系統(tǒng)中建立決策理論粗糙集模型.王虹等[20]結(jié)合多粒度粗糙集和模糊決策論,研究在多重集值信息系統(tǒng)中樂觀與悲觀粗糙集的上、下近似的性質(zhì),并討論粗糙集精度與粗度等問題.Zhang等[22]探索多重集值信息系統(tǒng)在多源信息融合領(lǐng)域的重要應(yīng)用.Huang等[23]利用多重集值信息系統(tǒng),解決在多源信息融合時產(chǎn)生的信息缺省問題,從粒計算的角度給出多重集值信息系統(tǒng)中的信息結(jié)構(gòu),并研究其在不確定度量中的應(yīng)用.
眾所周知,經(jīng)典粗糙集數(shù)據(jù)分析處理系統(tǒng)為單尺度信息系統(tǒng),即系統(tǒng)中每個對象在每個屬性下只能取唯一的值.但在實(shí)際應(yīng)用中,對象屬性的取值可以具有多種尺度的值,如成績的評定,有百分制、五級記分制或二級記分制.生活中存在許多類似的多尺度屬性的例子,尺度過細(xì)會導(dǎo)致數(shù)據(jù)的存儲代價過大,而尺度過粗又會導(dǎo)致決策的準(zhǔn)確性降低.因此,在不同決策問題中可能會采用不同的屬性尺度.針對類似問題,Wu等[24]首次提出多尺度粗糙集數(shù)據(jù)分析模型,處理的數(shù)據(jù)稱為多尺度信息系統(tǒng),這種系統(tǒng)中每個屬性對于同個對象具有不同尺度的取值,并且在不同的尺度之間存在粒度變換的關(guān)系.
近年來,多尺度粗糙集數(shù)據(jù)分析已成為粒計算領(lǐng)域的一個重要方向[25-29].陳應(yīng)生等[25]建立多尺度覆蓋決策系統(tǒng)模型,并使用布爾矩陣研究系統(tǒng)的粒描述.Zhan等[26]利用多尺度信息系統(tǒng)與多專家群體決策系統(tǒng)的關(guān)系,研究排序決策問題.陳艷等[27]提出多尺度集值信息系統(tǒng)的概念,給出系統(tǒng)在不同尺度下的粗糙近似.但多尺度集值信息系統(tǒng)無法處理屬性的取值為多重集的情形.
信息熵是刻畫信息系統(tǒng)不確定性的重要指標(biāo)之一,熵的概念最早來源于熱力學(xué)理論,由Shannon[30]引入信息論中.信息熵越大,系統(tǒng)的不確定程度越高.在保持信息熵不變的情況下,即在保持系統(tǒng)不確定性不變的情況下找到原系統(tǒng)的最優(yōu)尺度和屬性約簡,是多尺度數(shù)據(jù)分析研究的一個重要問題[31-32].張嘉宇[31]研究條件熵和互補(bǔ)熵在多尺度信息系統(tǒng)中的最優(yōu)尺度選擇問題,并類比兩種方法的效果.鄭嘉文等[32]利用香農(nóng)熵,研究多尺度信息系統(tǒng)中的最優(yōu)尺度選擇問題,并證明最優(yōu)尺度與熵最優(yōu)尺度的等價性,但香農(nóng)熵建立在由等價關(guān)系產(chǎn)生的劃分上.Liang等[33-34]引入在相似關(guān)系下知識粗糙熵的概念,并運(yùn)用于不完備系統(tǒng)的知識表示與知識約簡中.之后,Liang等[35]討論不完備信息系統(tǒng)中的信息熵、粗糙熵和知識?;g的關(guān)系.Sun等[36]基于粗糙熵構(gòu)造低計算復(fù)雜度的啟發(fā)式算法.Ma等[37]研究雙論域上概率粗糙集的知識粒度和粗糙熵的不確定度量.鄧切等[38]討論雙論域覆蓋空間中的粗糙熵與知識粒度等問題.
針對現(xiàn)有的信息系統(tǒng)難以體現(xiàn)和處理數(shù)據(jù)融合時出現(xiàn)的數(shù)據(jù)重復(fù)問題,本文提出多尺度多重集值信息系統(tǒng)的概念,并討論該系統(tǒng)的最優(yōu)尺度選擇和屬性約簡問題.首先,在多尺度多重集值信息系統(tǒng)的每個屬性中,基于屬性值域中多重集之間的海林格距離(Hellinger Distance)定義論域上的相似關(guān)系,并獲得由每個屬性子集導(dǎo)出的論域中所有對象的相似類構(gòu)成的信息粒.然后,引入多尺度多重集值信息系統(tǒng)中知識粗糙熵的概念,并進(jìn)一步給出多尺度多重集值信息系統(tǒng)中的最優(yōu)尺度與熵最優(yōu)尺度的概念,證明基于相似關(guān)系定義的最優(yōu)尺度和基于知識粗糙熵定義的最優(yōu)尺度是等價的.最后,在熵最優(yōu)尺度的基礎(chǔ)上提出系統(tǒng)中基于相似關(guān)系的約簡和基于知識粗糙熵的約簡的概念,并分別給出篩選熵最優(yōu)尺度和熵約簡的算法.
本節(jié)介紹相關(guān)的基礎(chǔ)知識,包括多重集、信息系統(tǒng)、多重集值信息系統(tǒng)、多尺度信息系統(tǒng)和熵的概念與基本性質(zhì).
定義1[9]設(shè)Z={z1,z2,…,zo}為一個非空有限集合,N為自然數(shù)集合,稱M為集合Z上的一個多重集,若Z中的元素zi(zi∈Z)在M中重復(fù)出現(xiàn)ki次,即
則M稱為Z上的一個多重集.
由定義1可見,一個多重集M可由函數(shù)CM∶Z→N表示,即
其中
CM(zi)=ki,zi∈Z.
由多重集的定義可知,多重集中元素的順序無關(guān)緊要.集合Z上所有多重集的集合記為M(Z),若集合Z的冪集記為P(Z),則
P(Z)?M(Z),
故多重集是經(jīng)典集的推廣.
一個多重集M的基數(shù)記為|M|,定義如下:
例1在專家評審系統(tǒng)中,每篇論文的評審結(jié)果由3位專家共同給出.假設(shè)每位專家的意見只可能有2種情況——接受(a)和拒絕(r).那么所有評審結(jié)果M都是多重集,且M∈M(Z),其中Z={a,r}.若3位專家中有2位專家給出接受的意見,1位專家給出拒絕的意見,則評審結(jié)果為
M={a,a,r},
也可以表示為
文獻(xiàn)[23]引入概率論中的海林格距離以定義多重集之間的距離.
定義2[23]對于Z={z1,z2,…,zo}上的兩個多重集M1∈M(Z),M2∈M(Z),M1和M2之間的海林格距離定義為
其中
有時,一個多重集M也可以表示為
其中
例2多重集
M1={a,a,r,r},M2={a,r,r,r}
可以寫成
而M1和M2之間的海林格距離
定義3[8]稱S=(U,A)為一個信息系統(tǒng),其中
U={x1,x2,…,xn}
為非空有限對象集,稱為論域,
A={a1,a2,…,am}
為非空有限屬性集,對于
?aj∈A,aj∶U→Vj,
其中Vj為屬性aj的值域.
若信息系統(tǒng)中存在對象有未知的或缺省的屬性值,則稱該信息系統(tǒng)為不完備信息系統(tǒng),此時,用符號*表示不完備信息系統(tǒng)中的缺省值.
定義4[19]稱S=(U,A)為一個多重集值信息系統(tǒng),其中
U={x1,x2,…,xn}
為非空有限對象集,稱為論域,
A={a1,a2,…,am}
為非空有限屬性集,每個對象的屬性取值都為多重集,即
?aj∈A,aj∶U→M(Vj),
其中Vj為屬性aj的值域.
針對對象的屬性可能存在多種尺度的情況,Wu等[24]首次提出多尺度信息系統(tǒng)的概念.
定義5[24]稱S=(U,A)為一個多尺度信息系統(tǒng),其中
U={x1,x2,…,xn}
為論域,
A={a1,a2,…,am}
為非空有限屬性集,每個屬性都具有多尺度.假設(shè)所有屬性的尺度個數(shù)都是I,則一個多尺度信息系統(tǒng)可以表示為
其中
使得
即
對于k=1,2,…,I,記
則一個多尺度信息系統(tǒng)S=(U,A)可以分解為I個子信息系統(tǒng)
Sk=(U,Ak),k=1,2,…,I.
定義6[39]稱S=(U,A)為一個多尺度集值信息系統(tǒng),其中
U={x1,x2,…,xn}
為論域,
A={a1,a2,…,am}
為非空有限屬性集,每個屬性都具有多尺度,且尺度個數(shù)都是I,每個對象的屬性取值都為集值.
非空有限集合U的冪集記為P(U),設(shè)
C={C1,C2,…,Ce}?P(U),
若??C,且
則稱C為U的一個覆蓋.進(jìn)一步,若
Ci∩Cj=?,i≠j,
i∈{1,2,…,e},j∈{1,2,…,e},
則稱C為U的一個劃分.
定義7[40]設(shè)U是非空有限集合,
X={X1,X2,…,Xt}, Y={Y1,Y2,…,Ys}
為U上的兩個覆蓋,若對于?Xi∈X,都存在Yj∈Y,使得Xi?Yj,則稱X細(xì)于Y,或稱Y粗于X,記作X?Y.另外,若進(jìn)一步存在Xi0∈X,Yj0∈Y,使得Xi0?Yj0,則稱X嚴(yán)格細(xì)于Y,或稱Y嚴(yán)格粗于X,記作XY.
定義8[28]設(shè)U為非空有限集合,若
X={X1,X2,…,Xt}
為U上的一個劃分,則X的信息(香農(nóng))熵H(X)定義為
其中
|·|表示集合的基數(shù).
命題1[41]設(shè)U為非空有限集合,對于U上兩個劃分X和Y,若滿足X?Y,則H(X)≥H(Y).
對于一個不完備信息系統(tǒng)(U,A),由任一屬性子集B產(chǎn)生的相似關(guān)系定義為
RB={(x,y)∈U×U|aj(x)=aj(y)∨
aj(x)=*∨aj(y)=*,?aj∈B}.
相似關(guān)系RB將論域U?;癁槿舾上嗨祁?/p>
U/RB={[x]B|x∈U},
其中
[x]B={y∈U|(x,y)∈RB}.
顯然,相似類全體U/RB構(gòu)成論域U的一個覆蓋.
香農(nóng)熵是定義在等價關(guān)系上的,但在相似關(guān)系上并不適用.為此,Liang等[33-34]在不完備信息系統(tǒng)中提出在相似關(guān)系下的知識粗糙熵的概念.
定義9[33]設(shè)(U,A)為一個不完備信息系統(tǒng),B?A,屬性集B的知識粗糙熵定義為
性質(zhì)1[33]設(shè)(U,A)為一個不完備信息系統(tǒng),B?A,C?A.若
U/RBU/RC,
則
E(B) 性質(zhì)2[33]設(shè)(U,A)為一個不完備信息系統(tǒng),B?A,則 U/RB=U/RA 當(dāng)且僅當(dāng) E(B)=E(A). 定義10稱S=(U,A)為一個多尺度多重集值信息系統(tǒng),其中 U={x1,x2,…,xn} 為非空有限對象集,稱為論域, A={a1,a2,…,am} 為非空有限屬性集,每個屬性都具有多尺度且每個對象的屬性取值都為多重集.假設(shè)所有屬性的尺度個數(shù)都是I,則一個多尺度多重集值信息系統(tǒng)可以表示為 其中 使得 即 對于k=1,2,…,I,記 則一個多尺度多重集值信息系統(tǒng)S=(U,A)可以分解為I個多重集值信息系統(tǒng) Sk=(U,Ak),k=1,2,…,I. 在多源信息融合問題中,數(shù)據(jù)來自于多個信息源,其等級尺度和屬性總量影響數(shù)據(jù)融合過程的效率和數(shù)據(jù)融合后信息系統(tǒng)的數(shù)據(jù)量,因此篩選合適的屬性尺度和屬性在實(shí)際應(yīng)用中具有研究意義.同時,多重集值信息系統(tǒng)能夠有效應(yīng)對信息融合時容易出現(xiàn)的數(shù)據(jù)重復(fù)情況. 例3是一個手機(jī)質(zhì)檢問題,也是多源信息融合問題.不同檢測員表示不同信息源,將對不同品牌手機(jī)的檢測結(jié)果融合到一個信息系統(tǒng)中. 例3設(shè) U={x1,x2,…,x8} 為論域,分別表示8個手機(jī)品牌, A={a1,a2,a3} 為屬性集,多尺度多重集值信息系統(tǒng)如表1所示. 表1 一個多尺度多重集值信息系統(tǒng)Table 1 A multi-scale multiset-valued information system 表1中,屬性a1為4名檢測員對抽檢手機(jī)的處理器性能評分,屬性a2為4名檢測員對抽檢手機(jī)的使用流暢度評分,屬性a3為4名檢測員使用抽檢手機(jī)相同時間后所剩的電池容量,每個屬性的尺度個數(shù)都是2. 表1是一個多尺度多重集值信息系統(tǒng) 其屬性在不同尺度標(biāo)記之間的粒度變換為 根據(jù)定義2中的多重集之間的海林格距離,定義多尺度多重集值信息系統(tǒng)上對象的屬性值之間的相似度. 定義11設(shè) 為一個多尺度多重集值信息系統(tǒng),對于?x∈U,y∈U,在屬性aj的第k個尺度標(biāo)記下的相似度為 命題2定義11的相似性度量SIM滿足如下性質(zhì),對于?M∈M(Z),M1∈M(Z),M2∈M(Z),其中Z={z1,z2,…,zo}, 1)SIM(M,M)=1, 2)SIM(M1,M2)=SIM(M2,M1), 3)SIM(M1,M2)=1?M1=M2. 證明1)和2)顯然成立,只需證明3).充分性的證明是顯然的,下面證明必要性. 若 SIM(M1,M2)=1, 設(shè) 則 于是 由H?lder不等式可知 又 故 由H?lder不等式等號成立條件可得 pi=qi,i=1,2,…,o, 即M1=M2. 證畢 命題3設(shè) 為一個多尺度多重集值信息系統(tǒng),對于?x∈U,y∈U,在屬性aj下的相似度關(guān)于尺度具有單調(diào)性,即對于k∈{1,2,…,I-1},有 其中 設(shè) τ1∈{1,2,…,o+1}, τ2∈{1,2,…,o+1}, ? τl+1∈{1,2,…,o+1}, 其中 1=τ1<τ2<…<τl<τl+1=o+1, 使得 其中 τγ≤λ<τγ+1,γ=1,2,…,l. 由此可得 由H?lder不等式進(jìn)一步可得 可知 故 得證 證畢 例4(續(xù)例3) 對于例3中的多尺度多重集值信息系統(tǒng)中的數(shù)據(jù),通過定義11給出的相似度,可以計算每個屬性在各個尺度標(biāo)記下的相似度矩陣,如表2~表7所示. 表2 屬性a1在第1個尺度標(biāo)記下的相似度矩陣Table 2 Similarity matrix of attribute a1 under the first scale 表3 屬性a1在第2個尺度標(biāo)記下的相似度矩陣Table 3 Similarity matrix of attribute a1 under the second scale 表4 屬性a2在第1個尺度標(biāo)記下的相似度矩陣Table 4 Similarity matrix of attribute a2 under the first scale 表5 屬性a2在第2個尺度標(biāo)記下的相似度矩陣Table 5 Similarity matrix of attribute a2under the second scale 表6 屬性a3在第1個尺度標(biāo)記下的相似度矩陣Table 6 Similarity matrix of attribute a3 under the first scale 表7 屬性a3在第2個尺度標(biāo)記下的相似度矩陣Table 7 Similarity matrix of attribute a3under the second scale 在一個多尺度多重集值信息系統(tǒng)S=(U,A)中,當(dāng)閾值α∈(0,1]時,屬性aj在第k個尺度標(biāo)記下的相似關(guān)系定義為 例5(續(xù)例4) 當(dāng)閾值α=0.95時,屬性a1在第1個尺度標(biāo)記下的相似關(guān)系: 屬性a1在第2個尺度標(biāo)記下的相似關(guān)系: 屬性a2在第1個尺度標(biāo)記下的相似關(guān)系: 屬性a2在第2個尺度標(biāo)記下的相似關(guān)系: 屬性a3在第1個尺度標(biāo)記下的相似關(guān)系: 屬性a3在第2個尺度標(biāo)記下的相似關(guān)系: 命題4設(shè) 為一個多尺度多重集值信息系統(tǒng),當(dāng)閾值α∈(0,1]時,對于?aj∈A,k∈{1,2,…,I-1}, 成立. 成立.由命題3可知,有 因此得 即 從而 證畢 其中 且 在一個多尺度多重集值信息系統(tǒng)S=(U,A)中,當(dāng)閾值α∈(0,1]時,屬性子集B?A在第k個尺度標(biāo)記下的相似關(guān)系定義為 顯然 其中, 且 命題5設(shè) 為一個多尺度多重集值信息系統(tǒng),B?A,當(dāng)閾值α∈(0,1]時, 從而對 有 又因?yàn)?/p> 則 所以 因此 又由于 證畢 類比定義9中定義在不完備信息系統(tǒng)的相似關(guān)系下的知識粗糙熵,本文在多尺度多重集值信息系統(tǒng)的相似關(guān)系下給出知識粗糙熵的定義. 定義12設(shè) 為一個多尺度多重集值信息系統(tǒng),B?A.當(dāng)閾值α∈(0,1]時,對于k∈{1,2,…,I},屬性集B在第k個尺度標(biāo)記下的知識粗糙熵定義為 性質(zhì)3設(shè) 為一個多尺度多重集值信息系統(tǒng),B?A,C?A.當(dāng)閾值α∈(0,1]時,對于k∈{1,2,…,I},若 則 Eα(Ck)≤Eα(Bk). 證明對于閾值α∈(0,1],k∈{1,2,…,I},若 則由定義7可知,對于?x∈U,有 于是 成立.由xlog2x在[1,+∞)有單調(diào)性,有 即 因此 Eα(Ck)≤Eα(Bk). 證畢 性質(zhì)3說明在閾值α∈(0,1]的情況下,對于每個尺度標(biāo)記,若兩個屬性集生成的覆蓋具有粗細(xì)關(guān)系,則兩個屬性集對應(yīng)的知識粗糙熵滿足對應(yīng)的大小關(guān)系.對應(yīng)于覆蓋越粗的屬性集,其知識粗糙熵越大. 推論1設(shè) 為一個多尺度多重集值信息系統(tǒng),B?A.當(dāng)閾值α∈(0,1]時,對于k∈{1,2,…,I},則 Eα(Ak)≤Eα(Bk). 性質(zhì)4設(shè) 為一個多尺度多重集值信息系統(tǒng),B?A.當(dāng)閾值α∈(0,1]時,對于k∈{1,2,…,I},則 當(dāng)且僅當(dāng) Eα(Ak)=Eα(Bk). 證明先證必要性,對于閾值α∈(0,1]和k∈{1,2,…,I},若 則 由知識粗糙熵的定義可知 Eα(Ak)=Eα(Bk). 再證充分性.只需證明對于閾值α∈(0,1]和k∈{1,2,…,I}, 若 Eα(Ak)=Eα(Bk), 則 對于閾值α∈(0,1]和k∈{1,2,…,I},由 Eα(Ak)=Eα(Bk) 和知識粗糙熵的定義可知 可化簡為 因?yàn)?/p> 即對于?x∈U,有 從而相似類的基數(shù)滿足 由函數(shù)xlog2x在[1,+∞)上的單調(diào)性,可得 進(jìn)而有 否則 矛盾.又因?yàn)?/p> 故 得證 證畢 性質(zhì)5設(shè) 為一個多尺度多重集值信息系統(tǒng),B?A.當(dāng)閾值α∈(0,1]時,則對于1≤k≤l≤I,有 Eα(Bk)≤Eα(Bl). 證明由命題5可知,對于閾值α∈(0,1]和1≤k≤l≤I,有 即 則由定義7可知,對于?x∈U,有 于是 成立.由xlog2x在[1,+∞)有單調(diào)性,故 即 因此 Eα(Bk)≤Eα(Bl) 成立. 證畢 性質(zhì)6設(shè) 為一個多尺度多重集值信息系統(tǒng),B?A.當(dāng)閾值α∈(0,1]時,對于1≤k≤l≤I, 當(dāng)且僅當(dāng) Eα(Bk)=Eα(Bl). 證明先證必要性.對于閾值α∈(0,1]和1≤k≤l≤I,若 則 由知識粗糙熵的定義可知 Eα(Bk)=Eα(Bl). 再證充分性.只需證明對于閾值α∈(0,1]和1≤k≤l≤I,若 Eα(Bk)=Eα(Bl), 則 對于閾值α∈(0,1]和1≤k≤l≤I,由 Eα(Bk)=Eα(Bl) 和知識粗糙熵的定義可知 可化簡為 由命題5可知,對于1≤k≤l≤I,有 即對于?x∈U,有 從而 又由函數(shù)xlog2x在[1,+∞)上的單調(diào)性,可得 進(jìn)而有 否則 矛盾.又因?yàn)?/p> 故 得證 證畢 本節(jié)主要討論多尺度多重集值信息系統(tǒng)基于知識粗糙熵的熵最優(yōu)尺度選擇和熵約簡的問題,首先給出多尺度多重集值信息系統(tǒng)中最優(yōu)尺度和熵最優(yōu)尺度的概念,再給出約簡和熵約簡的概念. 定義13設(shè) 為一個多尺度多重集值信息系統(tǒng),對于閾值α∈(0,1]和第k個尺度標(biāo)記(k∈{1,2,…,I}),若 則稱Sk關(guān)于S是α-協(xié)調(diào)的.若進(jìn)一步有 則稱k為S的α-最優(yōu)尺度. 定義14設(shè) 為一個多尺度多重集值信息系統(tǒng),對于閾值α∈(0,1]和第k個尺度標(biāo)記(k∈{1,2,…,I}),若 Eα(Ak)=Eα(A1), 則稱Sk關(guān)于S是α-熵協(xié)調(diào)的.若進(jìn)一步有 Eα(Ak+1)≠Eα(A1), k+1≤I, 則稱k為S的α-熵最優(yōu)尺度. 例6(續(xù)例5) 當(dāng)閾值α=0.95時, 故 從而S2關(guān)于S是α-協(xié)調(diào)的.又由于 Eα(A1)=0, Eα(A2)=0, 即 Eα(A2)=Eα(A1), 因此S2關(guān)于S也是α-熵協(xié)調(diào)的. 當(dāng)閾值α′=0.8時, 故 從而S2關(guān)于S不是α′-協(xié)調(diào)的.又由于 即 Eα′(A2)≠Eα′(A1), 因此S2關(guān)于S也不是α′-熵協(xié)調(diào)的. 綜上所述,當(dāng)閾值α=0.95時,系統(tǒng)S的α-最優(yōu)尺度和α-熵最優(yōu)尺度都為2,但當(dāng)閾值α′=0.8時,系統(tǒng)S的α′-最優(yōu)尺度和α′-熵最優(yōu)尺度都為1. 定理1設(shè) 為一個多尺度多重集值信息系統(tǒng),對于閾值α∈(0,1]和k∈{1,2,…,I},則Sk關(guān)于S是α-協(xié)調(diào)的當(dāng)且僅當(dāng)Sk關(guān)于S是α-熵協(xié)調(diào)的. 證明根據(jù)定義13,若Sk關(guān)于S是α-協(xié)調(diào)的,則 成立,從而 而由定義14和Sk關(guān)于S是α-熵協(xié)調(diào)的,可知 Eα(Ak)=Eα(A1). 因此,只需證明 是等價的.由性質(zhì)6可得兩者的等價性成立,即Sk關(guān)于S是α-協(xié)調(diào)的當(dāng)且僅當(dāng)Sk關(guān)于S是α-熵協(xié)調(diào)的. 證畢 定理1說明多尺度多重集值信息系統(tǒng)的α-協(xié)調(diào)和α-熵協(xié)調(diào)是等價的,由定理1可直接得到定理2. 定理2設(shè) 為一個多尺度多重集值信息系統(tǒng),對于閾值α∈(0,1]和k∈{1,2,…,I},則k是S的α-最優(yōu)尺度當(dāng)且僅當(dāng)k是S的α-熵最優(yōu)尺度. 定義15設(shè) 則稱B是S在α-最優(yōu)尺度k下的一個α-約簡. 定義16設(shè) 為一個多尺度多重集值信息系統(tǒng),對于閾值α∈(0,1]和S的α-熵最優(yōu)尺度k,當(dāng)B?A時,若 Eα(Bk)=Eα(A1), 則稱B是S在α-熵最優(yōu)尺度k下的一個α-熵協(xié)調(diào)集.若進(jìn)一步對于?b∈B,都有 Eα(Bk-{bk})≠Eα(A1), 則稱B是S在α-熵最優(yōu)尺度k下的一個α-熵約簡. 例7(續(xù)例6) 當(dāng)閾值α=0.95時,在α-最優(yōu)尺度2的情況下, 顯然有 同時 成立.因此在α-最優(yōu)尺度2下多尺度多重集值信息系統(tǒng)的α-約簡為{a2,a3}和{a1,a3}.又因?yàn)?/p> 因此,在α-熵最優(yōu)尺度2下多尺度多重集值信息系統(tǒng)的α-熵約簡為{a2,a3}和{a1,a3}. 定理3設(shè) 為一個多尺度多重集值信息系統(tǒng),對于閾值α,當(dāng)B?A時,則B是S在α-最優(yōu)尺度k下的一個α-約簡當(dāng)且僅當(dāng)B是S在α-熵最優(yōu)尺度k下的一個α-熵約簡. 證明先證必要性.由于B是S在α-最優(yōu)尺度k下的一個α-約簡,因此 且?b∈B,都有 對于閾值α和S的α-最優(yōu)尺度k,由α-最優(yōu)尺度的定義可知 從而 又由性質(zhì)4的證明可知,有 Eα(Bk)=Eα(Ak). 同時由定理2得k也是α-熵最優(yōu)尺度,從而 Eα(Ak)=Eα(A1), 因此 Eα(Bk)=Eα(A1). 若對于?b∈B,都有 則 由于k是α-最優(yōu)尺度,因此 即 由性質(zhì)4的逆否命題可知 Eα(Bk-{bk})≠Eα(Ak). 同時由k也是α-熵最優(yōu)尺度可知 Eα(Ak)=Eα(A1), 從而 Eα(Bk-{bk})≠Eα(A1). 故B是S在α-熵最優(yōu)尺度k下的一個α-熵約簡. 再證充分性.由于B是S在α-熵最優(yōu)尺度k下的一個α-熵約簡,因此 Eα(Bk)=Eα(A1), 且?b∈B,都有 Eα(Bk-{bk})≠Eα(A1). 對于閾值α和S的α-熵最優(yōu)尺度k,由α-熵最優(yōu)尺度的定義可知 Eα(Ak)=Eα(A1), 從而 Eα(Bk)=Eα(Ak). 又由性質(zhì)4的證明可知,有 同時由定理2得k也是α-最優(yōu)尺度,從而 因此 若對于?b∈B,都有 Eα(Bk-{bk})≠Eα(A1) 成立,由于k是α-熵最優(yōu)尺度,因此 Eα(Ak)=Eα(A1), 即 Eα(Bk-{bk})≠Eα(Ak). 又由性質(zhì)4的逆否命題可知 同時由k也是α-最優(yōu)尺度可知 從而 即 故B是S在α-最優(yōu)尺度k下的一個α-約簡. 證畢 定理3說明多尺度多重集值信息系統(tǒng)的α-約簡和α-熵約簡是等價的. 接下來,基于知識粗糙熵給出計算α-熵最優(yōu)尺度和α-熵約簡的算法,算法1是基于知識粗糙熵計算α-熵最優(yōu)尺度的算法,算法2是基于知識粗糙熵計算α-熵約簡的算法.兩種算法流程圖如圖1和圖2所示. 圖1 算法1流程圖Fig.1 Flow chart of Algorithm 1 圖2 算法2流程圖Fig.2 Flow chart of Algorithm 2 算法1基于知識粗糙熵的最優(yōu)尺度算法 輸入I個尺度的多尺度多重集值信息系統(tǒng)(U,A),閾值α∈(0,1] 輸出α-熵最優(yōu)尺度k* 1.初始化k*←1,k←1 2.whilek≠Ido 4.計算對象兩兩之間的相似性 5.end for 6. for eachx∈Udo 8.end for 9.求第k個尺度標(biāo)記下的知識粗糙熵Eα(Ak) 10.ifEα(Ak)>Eα(A1) then 11.k*←k-1 12.break 13. end if 14.k←k+1 15.end while 在算法1中,步驟3~5用于計算對象間的相似度,時間復(fù)雜度為O(mn2),其中m表示屬性個數(shù),n表示對象個數(shù).步驟6~8用于計算每個對象的相似類,時間復(fù)雜度為O(n).因?yàn)樗惴?最多需要考慮I個尺度,因此算法1的時間復(fù)雜度為O(Imn2),其中I表示系統(tǒng)的尺度標(biāo)記個數(shù). 算法2基于知識粗糙熵的屬性約簡算法 輸入I個尺度的多尺度多重集值信息系統(tǒng)(U,A),閾值α∈(0,1],α-熵最優(yōu)尺度k 輸出α-熵約簡B 1.求最細(xì)尺度標(biāo)記下知識粗糙熵Eα(A1) 2.初始化B←?,Ck←Ak 4.計算對象兩兩之間的相似性 5.end for 7. for eachx∈Udo 9.end for 11.end for 14.B←Ck 15.else 17.return 6 18.end if 即為O(m2n).所以算法2的時間復(fù)雜度為 O(mn2+m2n). 多尺度信息系統(tǒng)中的最優(yōu)尺度的選擇和基于最優(yōu)尺度的屬性約簡是多尺度數(shù)據(jù)分析研究的關(guān)鍵問題,迄今尚未見到屬性取值為多重集且具有多個尺度的信息系統(tǒng)的數(shù)據(jù)分析研究.本文將多重集引入多尺度信息系統(tǒng),提出多尺度多重集值信息系統(tǒng)的概念,基于海林格距離的相似度在論域上構(gòu)造對應(yīng)于任一屬性子集的相似類,定義基于相似關(guān)系和基于知識粗糙熵的最優(yōu)尺度概念,并證明兩者是等價的,在最優(yōu)尺度的基礎(chǔ)上提出α-約簡和α-熵約簡的概念,并給出計算α-熵最優(yōu)尺度和α-熵約簡算法.由于文中定義的相似度在處理尺度較細(xì)的屬性時,相似度變化不均勻,影響模型的穩(wěn)定性和魯棒性,因此所能應(yīng)用的問題存在一定的局限性,在后續(xù)的研究中需進(jìn)一步改進(jìn).另外,多尺度多重集值決策系統(tǒng)的最優(yōu)尺度選擇和知識獲取是有待繼續(xù)探討的課題,包括廣義多尺度多重集值決策系統(tǒng)和不完備多尺度多重集值決策系統(tǒng)的知識獲取問題.2 多尺度多重集值信息系統(tǒng)
3 最優(yōu)尺度選擇和屬性約簡
4 結(jié) 束 語