国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于熵的多尺度多重集值信息系統(tǒng)的最優(yōu)尺度選擇與屬性約簡

2023-07-21 08:10:34王蕾晰吳偉志謝禎晃
模式識別與人工智能 2023年6期
關(guān)鍵詞:論域約簡尺度

王蕾晰 吳偉志 謝禎晃

大數(shù)據(jù)時代下,各行各業(yè)產(chǎn)生的數(shù)據(jù)具有不確定性和復(fù)雜性.高效處理數(shù)據(jù),挖掘數(shù)據(jù)背后的規(guī)律,并運(yùn)用于實(shí)際問題是數(shù)據(jù)挖掘的主要任務(wù).粒計算[1-3]是模擬人腦思維以處理數(shù)據(jù)不確定性和復(fù)雜性的一種方法,源于Zadeh[4]提出的“信息粒度”概念.粒計算的核心思想是通過合適的?;崛⌒畔⒘?對信息粒進(jìn)行處理和計算,進(jìn)而分析數(shù)據(jù)規(guī)律和解決實(shí)際問題[5-7].

在粒計算的研究和發(fā)展過程中,粗糙集數(shù)據(jù)分析發(fā)揮重要的作用.粗糙集最早由Pawlak[8]于1982年提出.粗糙集最初討論的對象-屬性取值多為數(shù)值或符號.隨著數(shù)據(jù)挖掘的不斷深入和實(shí)際應(yīng)用的需要,學(xué)者們研究數(shù)據(jù)類型日趨多樣化,如集值、區(qū)間值、區(qū)間集、模糊數(shù)、混合數(shù)據(jù)類型等.

多重集[9-11]是一種元素可重復(fù)出現(xiàn)的集合,元素在多重集中出現(xiàn)的次數(shù)稱為該元素在多重集中的重數(shù)并且元素的順序可以互換.多重集在組合數(shù)學(xué)[12]、關(guān)系數(shù)據(jù)庫理論[13]、圖論[14]等領(lǐng)域都有重要應(yīng)用.可以使用多重集描述決策分析中很多問題的數(shù)據(jù).例如,在專家評審系統(tǒng)中,有4位專家參與評審,專家評審結(jié)果可能存在重復(fù),如多重集{well,well,well,bad}中的元素分別為4位專家的評審結(jié)果.如果用經(jīng)典集合{well,bad}則無法體現(xiàn)專家對評審對象的具體評價.此外,多重集在模式識別[15-16]、多準(zhǔn)則決策[17]、醫(yī)療診斷[18]等領(lǐng)域也有重要應(yīng)用.

當(dāng)信息系統(tǒng)的對象-屬性取值為多重集時,該系統(tǒng)稱為多重集值信息系統(tǒng),多重集值信息系統(tǒng)是集值信息系統(tǒng)的推廣.多重集值信息系統(tǒng)在決策分析[19-21]、多源信息融合[22-23]等領(lǐng)域具有重要的研究價值.Zhao等[19]在多重集值信息系統(tǒng)中建立決策理論粗糙集模型.王虹等[20]結(jié)合多粒度粗糙集和模糊決策論,研究在多重集值信息系統(tǒng)中樂觀與悲觀粗糙集的上、下近似的性質(zhì),并討論粗糙集精度與粗度等問題.Zhang等[22]探索多重集值信息系統(tǒng)在多源信息融合領(lǐng)域的重要應(yīng)用.Huang等[23]利用多重集值信息系統(tǒng),解決在多源信息融合時產(chǎn)生的信息缺省問題,從粒計算的角度給出多重集值信息系統(tǒng)中的信息結(jié)構(gòu),并研究其在不確定度量中的應(yīng)用.

眾所周知,經(jīng)典粗糙集數(shù)據(jù)分析處理系統(tǒng)為單尺度信息系統(tǒng),即系統(tǒng)中每個對象在每個屬性下只能取唯一的值.但在實(shí)際應(yīng)用中,對象屬性的取值可以具有多種尺度的值,如成績的評定,有百分制、五級記分制或二級記分制.生活中存在許多類似的多尺度屬性的例子,尺度過細(xì)會導(dǎo)致數(shù)據(jù)的存儲代價過大,而尺度過粗又會導(dǎo)致決策的準(zhǔn)確性降低.因此,在不同決策問題中可能會采用不同的屬性尺度.針對類似問題,Wu等[24]首次提出多尺度粗糙集數(shù)據(jù)分析模型,處理的數(shù)據(jù)稱為多尺度信息系統(tǒng),這種系統(tǒng)中每個屬性對于同個對象具有不同尺度的取值,并且在不同的尺度之間存在粒度變換的關(guān)系.

近年來,多尺度粗糙集數(shù)據(jù)分析已成為粒計算領(lǐng)域的一個重要方向[25-29].陳應(yīng)生等[25]建立多尺度覆蓋決策系統(tǒng)模型,并使用布爾矩陣研究系統(tǒng)的粒描述.Zhan等[26]利用多尺度信息系統(tǒng)與多專家群體決策系統(tǒng)的關(guān)系,研究排序決策問題.陳艷等[27]提出多尺度集值信息系統(tǒng)的概念,給出系統(tǒng)在不同尺度下的粗糙近似.但多尺度集值信息系統(tǒng)無法處理屬性的取值為多重集的情形.

信息熵是刻畫信息系統(tǒng)不確定性的重要指標(biāo)之一,熵的概念最早來源于熱力學(xué)理論,由Shannon[30]引入信息論中.信息熵越大,系統(tǒng)的不確定程度越高.在保持信息熵不變的情況下,即在保持系統(tǒng)不確定性不變的情況下找到原系統(tǒng)的最優(yōu)尺度和屬性約簡,是多尺度數(shù)據(jù)分析研究的一個重要問題[31-32].張嘉宇[31]研究條件熵和互補(bǔ)熵在多尺度信息系統(tǒng)中的最優(yōu)尺度選擇問題,并類比兩種方法的效果.鄭嘉文等[32]利用香農(nóng)熵,研究多尺度信息系統(tǒng)中的最優(yōu)尺度選擇問題,并證明最優(yōu)尺度與熵最優(yōu)尺度的等價性,但香農(nóng)熵建立在由等價關(guān)系產(chǎn)生的劃分上.Liang等[33-34]引入在相似關(guān)系下知識粗糙熵的概念,并運(yùn)用于不完備系統(tǒng)的知識表示與知識約簡中.之后,Liang等[35]討論不完備信息系統(tǒng)中的信息熵、粗糙熵和知識?;g的關(guān)系.Sun等[36]基于粗糙熵構(gòu)造低計算復(fù)雜度的啟發(fā)式算法.Ma等[37]研究雙論域上概率粗糙集的知識粒度和粗糙熵的不確定度量.鄧切等[38]討論雙論域覆蓋空間中的粗糙熵與知識粒度等問題.

針對現(xiàn)有的信息系統(tǒng)難以體現(xiàn)和處理數(shù)據(jù)融合時出現(xiàn)的數(shù)據(jù)重復(fù)問題,本文提出多尺度多重集值信息系統(tǒng)的概念,并討論該系統(tǒng)的最優(yōu)尺度選擇和屬性約簡問題.首先,在多尺度多重集值信息系統(tǒng)的每個屬性中,基于屬性值域中多重集之間的海林格距離(Hellinger Distance)定義論域上的相似關(guān)系,并獲得由每個屬性子集導(dǎo)出的論域中所有對象的相似類構(gòu)成的信息粒.然后,引入多尺度多重集值信息系統(tǒng)中知識粗糙熵的概念,并進(jìn)一步給出多尺度多重集值信息系統(tǒng)中的最優(yōu)尺度與熵最優(yōu)尺度的概念,證明基于相似關(guān)系定義的最優(yōu)尺度和基于知識粗糙熵定義的最優(yōu)尺度是等價的.最后,在熵最優(yōu)尺度的基礎(chǔ)上提出系統(tǒng)中基于相似關(guān)系的約簡和基于知識粗糙熵的約簡的概念,并分別給出篩選熵最優(yōu)尺度和熵約簡的算法.

1 基礎(chǔ)知識

本節(jié)介紹相關(guān)的基礎(chǔ)知識,包括多重集、信息系統(tǒng)、多重集值信息系統(tǒng)、多尺度信息系統(tǒng)和熵的概念與基本性質(zhì).

定義1[9]設(shè)Z={z1,z2,…,zo}為一個非空有限集合,N為自然數(shù)集合,稱M為集合Z上的一個多重集,若Z中的元素zi(zi∈Z)在M中重復(fù)出現(xiàn)ki次,即

則M稱為Z上的一個多重集.

由定義1可見,一個多重集M可由函數(shù)CM∶Z→N表示,即

其中

CM(zi)=ki,zi∈Z.

由多重集的定義可知,多重集中元素的順序無關(guān)緊要.集合Z上所有多重集的集合記為M(Z),若集合Z的冪集記為P(Z),則

P(Z)?M(Z),

故多重集是經(jīng)典集的推廣.

一個多重集M的基數(shù)記為|M|,定義如下:

例1在專家評審系統(tǒng)中,每篇論文的評審結(jié)果由3位專家共同給出.假設(shè)每位專家的意見只可能有2種情況——接受(a)和拒絕(r).那么所有評審結(jié)果M都是多重集,且M∈M(Z),其中Z={a,r}.若3位專家中有2位專家給出接受的意見,1位專家給出拒絕的意見,則評審結(jié)果為

M={a,a,r},

也可以表示為

文獻(xiàn)[23]引入概率論中的海林格距離以定義多重集之間的距離.

定義2[23]對于Z={z1,z2,…,zo}上的兩個多重集M1∈M(Z),M2∈M(Z),M1和M2之間的海林格距離定義為

其中

有時,一個多重集M也可以表示為

其中

例2多重集

M1={a,a,r,r},M2={a,r,r,r}

可以寫成

而M1和M2之間的海林格距離

定義3[8]稱S=(U,A)為一個信息系統(tǒng),其中

U={x1,x2,…,xn}

為非空有限對象集,稱為論域,

A={a1,a2,…,am}

為非空有限屬性集,對于

?aj∈A,aj∶U→Vj,

其中Vj為屬性aj的值域.

若信息系統(tǒng)中存在對象有未知的或缺省的屬性值,則稱該信息系統(tǒng)為不完備信息系統(tǒng),此時,用符號*表示不完備信息系統(tǒng)中的缺省值.

定義4[19]稱S=(U,A)為一個多重集值信息系統(tǒng),其中

U={x1,x2,…,xn}

為非空有限對象集,稱為論域,

A={a1,a2,…,am}

為非空有限屬性集,每個對象的屬性取值都為多重集,即

?aj∈A,aj∶U→M(Vj),

其中Vj為屬性aj的值域.

針對對象的屬性可能存在多種尺度的情況,Wu等[24]首次提出多尺度信息系統(tǒng)的概念.

定義5[24]稱S=(U,A)為一個多尺度信息系統(tǒng),其中

U={x1,x2,…,xn}

為論域,

A={a1,a2,…,am}

為非空有限屬性集,每個屬性都具有多尺度.假設(shè)所有屬性的尺度個數(shù)都是I,則一個多尺度信息系統(tǒng)可以表示為

其中

使得

對于k=1,2,…,I,記

則一個多尺度信息系統(tǒng)S=(U,A)可以分解為I個子信息系統(tǒng)

Sk=(U,Ak),k=1,2,…,I.

定義6[39]稱S=(U,A)為一個多尺度集值信息系統(tǒng),其中

U={x1,x2,…,xn}

為論域,

A={a1,a2,…,am}

為非空有限屬性集,每個屬性都具有多尺度,且尺度個數(shù)都是I,每個對象的屬性取值都為集值.

非空有限集合U的冪集記為P(U),設(shè)

C={C1,C2,…,Ce}?P(U),

若??C,且

則稱C為U的一個覆蓋.進(jìn)一步,若

Ci∩Cj=?,i≠j,

i∈{1,2,…,e},j∈{1,2,…,e},

則稱C為U的一個劃分.

定義7[40]設(shè)U是非空有限集合,

X={X1,X2,…,Xt}, Y={Y1,Y2,…,Ys}

為U上的兩個覆蓋,若對于?Xi∈X,都存在Yj∈Y,使得Xi?Yj,則稱X細(xì)于Y,或稱Y粗于X,記作X?Y.另外,若進(jìn)一步存在Xi0∈X,Yj0∈Y,使得Xi0?Yj0,則稱X嚴(yán)格細(xì)于Y,或稱Y嚴(yán)格粗于X,記作XY.

定義8[28]設(shè)U為非空有限集合,若

X={X1,X2,…,Xt}

為U上的一個劃分,則X的信息(香農(nóng))熵H(X)定義為

其中

|·|表示集合的基數(shù).

命題1[41]設(shè)U為非空有限集合,對于U上兩個劃分X和Y,若滿足X?Y,則H(X)≥H(Y).

對于一個不完備信息系統(tǒng)(U,A),由任一屬性子集B產(chǎn)生的相似關(guān)系定義為

RB={(x,y)∈U×U|aj(x)=aj(y)∨

aj(x)=*∨aj(y)=*,?aj∈B}.

相似關(guān)系RB將論域U?;癁槿舾上嗨祁?/p>

U/RB={[x]B|x∈U},

其中

[x]B={y∈U|(x,y)∈RB}.

顯然,相似類全體U/RB構(gòu)成論域U的一個覆蓋.

香農(nóng)熵是定義在等價關(guān)系上的,但在相似關(guān)系上并不適用.為此,Liang等[33-34]在不完備信息系統(tǒng)中提出在相似關(guān)系下的知識粗糙熵的概念.

定義9[33]設(shè)(U,A)為一個不完備信息系統(tǒng),B?A,屬性集B的知識粗糙熵定義為

性質(zhì)1[33]設(shè)(U,A)為一個不完備信息系統(tǒng),B?A,C?A.若

U/RBU/RC,

E(B)

性質(zhì)2[33]設(shè)(U,A)為一個不完備信息系統(tǒng),B?A,則

U/RB=U/RA

當(dāng)且僅當(dāng)

E(B)=E(A).

2 多尺度多重集值信息系統(tǒng)

定義10稱S=(U,A)為一個多尺度多重集值信息系統(tǒng),其中

U={x1,x2,…,xn}

為非空有限對象集,稱為論域,

A={a1,a2,…,am}

為非空有限屬性集,每個屬性都具有多尺度且每個對象的屬性取值都為多重集.假設(shè)所有屬性的尺度個數(shù)都是I,則一個多尺度多重集值信息系統(tǒng)可以表示為

其中

使得

對于k=1,2,…,I,記

則一個多尺度多重集值信息系統(tǒng)S=(U,A)可以分解為I個多重集值信息系統(tǒng)

Sk=(U,Ak),k=1,2,…,I.

在多源信息融合問題中,數(shù)據(jù)來自于多個信息源,其等級尺度和屬性總量影響數(shù)據(jù)融合過程的效率和數(shù)據(jù)融合后信息系統(tǒng)的數(shù)據(jù)量,因此篩選合適的屬性尺度和屬性在實(shí)際應(yīng)用中具有研究意義.同時,多重集值信息系統(tǒng)能夠有效應(yīng)對信息融合時容易出現(xiàn)的數(shù)據(jù)重復(fù)情況.

例3是一個手機(jī)質(zhì)檢問題,也是多源信息融合問題.不同檢測員表示不同信息源,將對不同品牌手機(jī)的檢測結(jié)果融合到一個信息系統(tǒng)中.

例3設(shè)

U={x1,x2,…,x8}

為論域,分別表示8個手機(jī)品牌,

A={a1,a2,a3}

為屬性集,多尺度多重集值信息系統(tǒng)如表1所示.

表1 一個多尺度多重集值信息系統(tǒng)Table 1 A multi-scale multiset-valued information system

表1中,屬性a1為4名檢測員對抽檢手機(jī)的處理器性能評分,屬性a2為4名檢測員對抽檢手機(jī)的使用流暢度評分,屬性a3為4名檢測員使用抽檢手機(jī)相同時間后所剩的電池容量,每個屬性的尺度個數(shù)都是2.

表1是一個多尺度多重集值信息系統(tǒng)

其屬性在不同尺度標(biāo)記之間的粒度變換為

根據(jù)定義2中的多重集之間的海林格距離,定義多尺度多重集值信息系統(tǒng)上對象的屬性值之間的相似度.

定義11設(shè)

為一個多尺度多重集值信息系統(tǒng),對于?x∈U,y∈U,在屬性aj的第k個尺度標(biāo)記下的相似度為

命題2定義11的相似性度量SIM滿足如下性質(zhì),對于?M∈M(Z),M1∈M(Z),M2∈M(Z),其中Z={z1,z2,…,zo},

1)SIM(M,M)=1,

2)SIM(M1,M2)=SIM(M2,M1),

3)SIM(M1,M2)=1?M1=M2.

證明1)和2)顯然成立,只需證明3).充分性的證明是顯然的,下面證明必要性.

SIM(M1,M2)=1,

設(shè)

于是

由H?lder不等式可知

由H?lder不等式等號成立條件可得

pi=qi,i=1,2,…,o,

即M1=M2.

證畢

命題3設(shè)

為一個多尺度多重集值信息系統(tǒng),對于?x∈U,y∈U,在屬性aj下的相似度關(guān)于尺度具有單調(diào)性,即對于k∈{1,2,…,I-1},有

其中

設(shè)

τ1∈{1,2,…,o+1},

τ2∈{1,2,…,o+1},

?

τl+1∈{1,2,…,o+1},

其中

1=τ1<τ2<…<τl<τl+1=o+1,

使得

其中

τγ≤λ<τγ+1,γ=1,2,…,l.

由此可得

由H?lder不等式進(jìn)一步可得

可知

得證

證畢

例4(續(xù)例3) 對于例3中的多尺度多重集值信息系統(tǒng)中的數(shù)據(jù),通過定義11給出的相似度,可以計算每個屬性在各個尺度標(biāo)記下的相似度矩陣,如表2~表7所示.

表2 屬性a1在第1個尺度標(biāo)記下的相似度矩陣Table 2 Similarity matrix of attribute a1 under the first scale

表3 屬性a1在第2個尺度標(biāo)記下的相似度矩陣Table 3 Similarity matrix of attribute a1 under the second scale

表4 屬性a2在第1個尺度標(biāo)記下的相似度矩陣Table 4 Similarity matrix of attribute a2 under the first scale

表5 屬性a2在第2個尺度標(biāo)記下的相似度矩陣Table 5 Similarity matrix of attribute a2under the second scale

表6 屬性a3在第1個尺度標(biāo)記下的相似度矩陣Table 6 Similarity matrix of attribute a3 under the first scale

表7 屬性a3在第2個尺度標(biāo)記下的相似度矩陣Table 7 Similarity matrix of attribute a3under the second scale

在一個多尺度多重集值信息系統(tǒng)S=(U,A)中,當(dāng)閾值α∈(0,1]時,屬性aj在第k個尺度標(biāo)記下的相似關(guān)系定義為

例5(續(xù)例4) 當(dāng)閾值α=0.95時,屬性a1在第1個尺度標(biāo)記下的相似關(guān)系:

屬性a1在第2個尺度標(biāo)記下的相似關(guān)系:

屬性a2在第1個尺度標(biāo)記下的相似關(guān)系:

屬性a2在第2個尺度標(biāo)記下的相似關(guān)系:

屬性a3在第1個尺度標(biāo)記下的相似關(guān)系:

屬性a3在第2個尺度標(biāo)記下的相似關(guān)系:

命題4設(shè)

為一個多尺度多重集值信息系統(tǒng),當(dāng)閾值α∈(0,1]時,對于?aj∈A,k∈{1,2,…,I-1},

成立.

成立.由命題3可知,有

因此得

從而

證畢

其中

在一個多尺度多重集值信息系統(tǒng)S=(U,A)中,當(dāng)閾值α∈(0,1]時,屬性子集B?A在第k個尺度標(biāo)記下的相似關(guān)系定義為

顯然

其中,

命題5設(shè)

為一個多尺度多重集值信息系統(tǒng),B?A,當(dāng)閾值α∈(0,1]時,

從而對

又因?yàn)?/p>

所以

因此

又由于

證畢

類比定義9中定義在不完備信息系統(tǒng)的相似關(guān)系下的知識粗糙熵,本文在多尺度多重集值信息系統(tǒng)的相似關(guān)系下給出知識粗糙熵的定義.

定義12設(shè)

為一個多尺度多重集值信息系統(tǒng),B?A.當(dāng)閾值α∈(0,1]時,對于k∈{1,2,…,I},屬性集B在第k個尺度標(biāo)記下的知識粗糙熵定義為

性質(zhì)3設(shè)

為一個多尺度多重集值信息系統(tǒng),B?A,C?A.當(dāng)閾值α∈(0,1]時,對于k∈{1,2,…,I},若

Eα(Ck)≤Eα(Bk).

證明對于閾值α∈(0,1],k∈{1,2,…,I},若

則由定義7可知,對于?x∈U,有

于是

成立.由xlog2x在[1,+∞)有單調(diào)性,有

因此

Eα(Ck)≤Eα(Bk).

證畢

性質(zhì)3說明在閾值α∈(0,1]的情況下,對于每個尺度標(biāo)記,若兩個屬性集生成的覆蓋具有粗細(xì)關(guān)系,則兩個屬性集對應(yīng)的知識粗糙熵滿足對應(yīng)的大小關(guān)系.對應(yīng)于覆蓋越粗的屬性集,其知識粗糙熵越大.

推論1設(shè)

為一個多尺度多重集值信息系統(tǒng),B?A.當(dāng)閾值α∈(0,1]時,對于k∈{1,2,…,I},則

Eα(Ak)≤Eα(Bk).

性質(zhì)4設(shè)

為一個多尺度多重集值信息系統(tǒng),B?A.當(dāng)閾值α∈(0,1]時,對于k∈{1,2,…,I},則

當(dāng)且僅當(dāng)

Eα(Ak)=Eα(Bk).

證明先證必要性,對于閾值α∈(0,1]和k∈{1,2,…,I},若

由知識粗糙熵的定義可知

Eα(Ak)=Eα(Bk).

再證充分性.只需證明對于閾值α∈(0,1]和k∈{1,2,…,I},

Eα(Ak)=Eα(Bk),

對于閾值α∈(0,1]和k∈{1,2,…,I},由

Eα(Ak)=Eα(Bk)

和知識粗糙熵的定義可知

可化簡為

因?yàn)?/p>

即對于?x∈U,有

從而相似類的基數(shù)滿足

由函數(shù)xlog2x在[1,+∞)上的單調(diào)性,可得

進(jìn)而有

否則

矛盾.又因?yàn)?/p>

得證

證畢

性質(zhì)5設(shè)

為一個多尺度多重集值信息系統(tǒng),B?A.當(dāng)閾值α∈(0,1]時,則對于1≤k≤l≤I,有

Eα(Bk)≤Eα(Bl).

證明由命題5可知,對于閾值α∈(0,1]和1≤k≤l≤I,有

則由定義7可知,對于?x∈U,有

于是

成立.由xlog2x在[1,+∞)有單調(diào)性,故

因此

Eα(Bk)≤Eα(Bl)

成立.

證畢

性質(zhì)6設(shè)

為一個多尺度多重集值信息系統(tǒng),B?A.當(dāng)閾值α∈(0,1]時,對于1≤k≤l≤I,

當(dāng)且僅當(dāng)

Eα(Bk)=Eα(Bl).

證明先證必要性.對于閾值α∈(0,1]和1≤k≤l≤I,若

由知識粗糙熵的定義可知

Eα(Bk)=Eα(Bl).

再證充分性.只需證明對于閾值α∈(0,1]和1≤k≤l≤I,若

Eα(Bk)=Eα(Bl),

對于閾值α∈(0,1]和1≤k≤l≤I,由

Eα(Bk)=Eα(Bl)

和知識粗糙熵的定義可知

可化簡為

由命題5可知,對于1≤k≤l≤I,有

即對于?x∈U,有

從而

又由函數(shù)xlog2x在[1,+∞)上的單調(diào)性,可得

進(jìn)而有

否則

矛盾.又因?yàn)?/p>

得證

證畢

3 最優(yōu)尺度選擇和屬性約簡

本節(jié)主要討論多尺度多重集值信息系統(tǒng)基于知識粗糙熵的熵最優(yōu)尺度選擇和熵約簡的問題,首先給出多尺度多重集值信息系統(tǒng)中最優(yōu)尺度和熵最優(yōu)尺度的概念,再給出約簡和熵約簡的概念.

定義13設(shè)

為一個多尺度多重集值信息系統(tǒng),對于閾值α∈(0,1]和第k個尺度標(biāo)記(k∈{1,2,…,I}),若

則稱Sk關(guān)于S是α-協(xié)調(diào)的.若進(jìn)一步有

則稱k為S的α-最優(yōu)尺度.

定義14設(shè)

為一個多尺度多重集值信息系統(tǒng),對于閾值α∈(0,1]和第k個尺度標(biāo)記(k∈{1,2,…,I}),若

Eα(Ak)=Eα(A1),

則稱Sk關(guān)于S是α-熵協(xié)調(diào)的.若進(jìn)一步有

Eα(Ak+1)≠Eα(A1), k+1≤I,

則稱k為S的α-熵最優(yōu)尺度.

例6(續(xù)例5) 當(dāng)閾值α=0.95時,

從而S2關(guān)于S是α-協(xié)調(diào)的.又由于

Eα(A1)=0, Eα(A2)=0,

Eα(A2)=Eα(A1),

因此S2關(guān)于S也是α-熵協(xié)調(diào)的.

當(dāng)閾值α′=0.8時,

從而S2關(guān)于S不是α′-協(xié)調(diào)的.又由于

Eα′(A2)≠Eα′(A1),

因此S2關(guān)于S也不是α′-熵協(xié)調(diào)的.

綜上所述,當(dāng)閾值α=0.95時,系統(tǒng)S的α-最優(yōu)尺度和α-熵最優(yōu)尺度都為2,但當(dāng)閾值α′=0.8時,系統(tǒng)S的α′-最優(yōu)尺度和α′-熵最優(yōu)尺度都為1.

定理1設(shè)

為一個多尺度多重集值信息系統(tǒng),對于閾值α∈(0,1]和k∈{1,2,…,I},則Sk關(guān)于S是α-協(xié)調(diào)的當(dāng)且僅當(dāng)Sk關(guān)于S是α-熵協(xié)調(diào)的.

證明根據(jù)定義13,若Sk關(guān)于S是α-協(xié)調(diào)的,則

成立,從而

而由定義14和Sk關(guān)于S是α-熵協(xié)調(diào)的,可知

Eα(Ak)=Eα(A1).

因此,只需證明

是等價的.由性質(zhì)6可得兩者的等價性成立,即Sk關(guān)于S是α-協(xié)調(diào)的當(dāng)且僅當(dāng)Sk關(guān)于S是α-熵協(xié)調(diào)的.

證畢

定理1說明多尺度多重集值信息系統(tǒng)的α-協(xié)調(diào)和α-熵協(xié)調(diào)是等價的,由定理1可直接得到定理2.

定理2設(shè)

為一個多尺度多重集值信息系統(tǒng),對于閾值α∈(0,1]和k∈{1,2,…,I},則k是S的α-最優(yōu)尺度當(dāng)且僅當(dāng)k是S的α-熵最優(yōu)尺度.

定義15設(shè)

則稱B是S在α-最優(yōu)尺度k下的一個α-約簡.

定義16設(shè)

為一個多尺度多重集值信息系統(tǒng),對于閾值α∈(0,1]和S的α-熵最優(yōu)尺度k,當(dāng)B?A時,若

Eα(Bk)=Eα(A1),

則稱B是S在α-熵最優(yōu)尺度k下的一個α-熵協(xié)調(diào)集.若進(jìn)一步對于?b∈B,都有

Eα(Bk-{bk})≠Eα(A1),

則稱B是S在α-熵最優(yōu)尺度k下的一個α-熵約簡.

例7(續(xù)例6) 當(dāng)閾值α=0.95時,在α-最優(yōu)尺度2的情況下,

顯然有

同時

成立.因此在α-最優(yōu)尺度2下多尺度多重集值信息系統(tǒng)的α-約簡為{a2,a3}和{a1,a3}.又因?yàn)?/p>

因此,在α-熵最優(yōu)尺度2下多尺度多重集值信息系統(tǒng)的α-熵約簡為{a2,a3}和{a1,a3}.

定理3設(shè)

為一個多尺度多重集值信息系統(tǒng),對于閾值α,當(dāng)B?A時,則B是S在α-最優(yōu)尺度k下的一個α-約簡當(dāng)且僅當(dāng)B是S在α-熵最優(yōu)尺度k下的一個α-熵約簡.

證明先證必要性.由于B是S在α-最優(yōu)尺度k下的一個α-約簡,因此

且?b∈B,都有

對于閾值α和S的α-最優(yōu)尺度k,由α-最優(yōu)尺度的定義可知

從而

又由性質(zhì)4的證明可知,有

Eα(Bk)=Eα(Ak).

同時由定理2得k也是α-熵最優(yōu)尺度,從而

Eα(Ak)=Eα(A1),

因此

Eα(Bk)=Eα(A1).

若對于?b∈B,都有

由于k是α-最優(yōu)尺度,因此

由性質(zhì)4的逆否命題可知

Eα(Bk-{bk})≠Eα(Ak).

同時由k也是α-熵最優(yōu)尺度可知

Eα(Ak)=Eα(A1),

從而

Eα(Bk-{bk})≠Eα(A1).

故B是S在α-熵最優(yōu)尺度k下的一個α-熵約簡.

再證充分性.由于B是S在α-熵最優(yōu)尺度k下的一個α-熵約簡,因此

Eα(Bk)=Eα(A1),

且?b∈B,都有

Eα(Bk-{bk})≠Eα(A1).

對于閾值α和S的α-熵最優(yōu)尺度k,由α-熵最優(yōu)尺度的定義可知

Eα(Ak)=Eα(A1),

從而

Eα(Bk)=Eα(Ak).

又由性質(zhì)4的證明可知,有

同時由定理2得k也是α-最優(yōu)尺度,從而

因此

若對于?b∈B,都有

Eα(Bk-{bk})≠Eα(A1)

成立,由于k是α-熵最優(yōu)尺度,因此

Eα(Ak)=Eα(A1),

Eα(Bk-{bk})≠Eα(Ak).

又由性質(zhì)4的逆否命題可知

同時由k也是α-最優(yōu)尺度可知

從而

故B是S在α-最優(yōu)尺度k下的一個α-約簡.

證畢

定理3說明多尺度多重集值信息系統(tǒng)的α-約簡和α-熵約簡是等價的.

接下來,基于知識粗糙熵給出計算α-熵最優(yōu)尺度和α-熵約簡的算法,算法1是基于知識粗糙熵計算α-熵最優(yōu)尺度的算法,算法2是基于知識粗糙熵計算α-熵約簡的算法.兩種算法流程圖如圖1和圖2所示.

圖1 算法1流程圖Fig.1 Flow chart of Algorithm 1

圖2 算法2流程圖Fig.2 Flow chart of Algorithm 2

算法1基于知識粗糙熵的最優(yōu)尺度算法

輸入I個尺度的多尺度多重集值信息系統(tǒng)(U,A),閾值α∈(0,1]

輸出α-熵最優(yōu)尺度k*

1.初始化k*←1,k←1

2.whilek≠Ido

4.計算對象兩兩之間的相似性

5.end for

6. for eachx∈Udo

8.end for

9.求第k個尺度標(biāo)記下的知識粗糙熵Eα(Ak)

10.ifEα(Ak)>Eα(A1) then

11.k*←k-1

12.break

13. end if

14.k←k+1

15.end while

在算法1中,步驟3~5用于計算對象間的相似度,時間復(fù)雜度為O(mn2),其中m表示屬性個數(shù),n表示對象個數(shù).步驟6~8用于計算每個對象的相似類,時間復(fù)雜度為O(n).因?yàn)樗惴?最多需要考慮I個尺度,因此算法1的時間復(fù)雜度為O(Imn2),其中I表示系統(tǒng)的尺度標(biāo)記個數(shù).

算法2基于知識粗糙熵的屬性約簡算法

輸入I個尺度的多尺度多重集值信息系統(tǒng)(U,A),閾值α∈(0,1],α-熵最優(yōu)尺度k

輸出α-熵約簡B

1.求最細(xì)尺度標(biāo)記下知識粗糙熵Eα(A1)

2.初始化B←?,Ck←Ak

4.計算對象兩兩之間的相似性

5.end for

7. for eachx∈Udo

9.end for

11.end for

14.B←Ck

15.else

17.return 6

18.end if

即為O(m2n).所以算法2的時間復(fù)雜度為

O(mn2+m2n).

4 結(jié) 束 語

多尺度信息系統(tǒng)中的最優(yōu)尺度的選擇和基于最優(yōu)尺度的屬性約簡是多尺度數(shù)據(jù)分析研究的關(guān)鍵問題,迄今尚未見到屬性取值為多重集且具有多個尺度的信息系統(tǒng)的數(shù)據(jù)分析研究.本文將多重集引入多尺度信息系統(tǒng),提出多尺度多重集值信息系統(tǒng)的概念,基于海林格距離的相似度在論域上構(gòu)造對應(yīng)于任一屬性子集的相似類,定義基于相似關(guān)系和基于知識粗糙熵的最優(yōu)尺度概念,并證明兩者是等價的,在最優(yōu)尺度的基礎(chǔ)上提出α-約簡和α-熵約簡的概念,并給出計算α-熵最優(yōu)尺度和α-熵約簡算法.由于文中定義的相似度在處理尺度較細(xì)的屬性時,相似度變化不均勻,影響模型的穩(wěn)定性和魯棒性,因此所能應(yīng)用的問題存在一定的局限性,在后續(xù)的研究中需進(jìn)一步改進(jìn).另外,多尺度多重集值決策系統(tǒng)的最優(yōu)尺度選擇和知識獲取是有待繼續(xù)探討的課題,包括廣義多尺度多重集值決策系統(tǒng)和不完備多尺度多重集值決策系統(tǒng)的知識獲取問題.

猜你喜歡
論域約簡尺度
基于變論域模糊控制的Taylor逼近型內(nèi)模PID算法
財產(chǎn)的五大尺度和五重應(yīng)對
基于二進(jìn)制鏈表的粗糙集屬性約簡
變論域自適應(yīng)模糊PID控制系統(tǒng)仿真與應(yīng)用
實(shí)值多變量維數(shù)約簡:綜述
基于模糊貼近度的屬性約簡
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
雙論域粗糙集在故障診斷中的應(yīng)用
微生物燃料電池的變論域自適應(yīng)模糊控制研究
9
三亚市| 华蓥市| 海晏县| 淮南市| 响水县| 卢湾区| 米泉市| 五华县| 珲春市| 昭觉县| 徐州市| 石首市| 达日县| 宜黄县| 壤塘县| 桑日县| 平泉县| 东乌| 渭源县| 乌海市| 广平县| 东辽县| 阿城市| 通渭县| 茂名市| 开封市| 浦东新区| 鄂托克前旗| 绥中县| 金堂县| 大宁县| 竹溪县| 澜沧| 龙游县| 南部县| 砀山县| 曲靖市| 海安县| 嘉鱼县| 邵阳市| 衡南县|