(西南交通大學(xué)數(shù)學(xué)學(xué)院,四川 成都 611756)
1982 年,Wille 提出了形式概念分析(FCA)理論[1]實(shí)現(xiàn)了哲學(xué)意義上概念的形式化描述。FCA的研究對象為形式背景,通過概念生成算子產(chǎn)生形式背景中的形式概念。形式背景中的所有形式概念按照特定的序關(guān)系構(gòu)成完備格(概念格),這種序關(guān)系描述了概念之間的層次結(jié)構(gòu)。作為數(shù)據(jù)分析與知識獲取的一種有效工具,F(xiàn)CA 已廣泛應(yīng)用于知識工程、決策分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等領(lǐng)域。目前,形式概念分析的主要研究方向包括概念格擴(kuò)展模型[2-6]、屬性約簡與規(guī)則獲取理論[7-15]、三支概念分析[16-19]等。在概念格擴(kuò)展模型研究方面,Düntsch 等[2]基于模態(tài)算子提出了面向?qū)傩缘男问礁拍畈⒔⒘嗣嫦驅(qū)傩愿拍罡?。Yao[3-4]進(jìn)一步對基于粗糙集理論及基于形式概念分析理論的決策規(guī)則進(jìn)行了對比分析,并提出了面向?qū)ο蟮男问礁拍?。Burusco 等[5]與Belohlavek 等[6]等將模糊集理論與FCA 相結(jié)合,提出了模糊形式概念分析理論。
多源數(shù)據(jù)是針對特定的研究對象從若干信息源獲取的數(shù)據(jù)。隨著科學(xué)技術(shù)的發(fā)展及計算機(jī)技術(shù)的進(jìn)步,科學(xué)研究與社會實(shí)際中的數(shù)據(jù)不斷增長且呈現(xiàn)出多源化趨勢?;诙嘣磾?shù)據(jù)的知識發(fā)現(xiàn)理論與方法研究成為近年來相關(guān)領(lǐng)域的研究熱點(diǎn)。Xu 等[20]借助信息熵刻畫信息源重要度,給出了一種多源信息系統(tǒng)融合方法,進(jìn)而將多源信息系統(tǒng)轉(zhuǎn)化為單源信息系統(tǒng),討論了相應(yīng)的程度粗糙集模型及多粒度粗糙集模型。Wu 等[21]提出了多粒度標(biāo)記信息系統(tǒng)的概念。多粒度標(biāo)記信息系統(tǒng)由多個具有相同對象集和屬性集的信息系統(tǒng)構(gòu)成,這些信息系統(tǒng)中屬性具有特定的細(xì)化關(guān)系。人們對多粒度標(biāo)記決策信息系統(tǒng)的最優(yōu)粒度選擇方法、基于多粒度粗糙近似算子的知識獲取等進(jìn)行了大量研究[22-24]。最近,Wei 等[25]對基于粗糙集理論的多源信息系統(tǒng)信息融合方法進(jìn)行了系統(tǒng)分析。
在多源形式概念分析方面,Huang 等[26]從信息融合角度提出了三支概念認(rèn)知算子,給出了一種三支概念認(rèn)知學(xué)習(xí)方法。李金海等[27]提出了多粒度標(biāo)記形式背景的概念,通過正向尺度化和反向尺度化方法刻畫了多粒度標(biāo)記信息系統(tǒng)與多粒度標(biāo)記形式背景之間的相互轉(zhuǎn)化關(guān)系,并討論了多粒度標(biāo)記下的蘊(yùn)涵規(guī)則。曾望林等[28]通過屬性樹將面向?qū)ο蟾拍顝膯瘟6韧卣怪炼嗔6?,刻畫了不同粗?xì)粒度下面向?qū)ο蟮男问礁拍钪g的內(nèi)在聯(lián)系。楊涵等[29]對不同粒度標(biāo)記下形成的面向?qū)傩缘母拍罡裰g的關(guān)系進(jìn)行了研究,提出了相應(yīng)的概念格生成的方法。魏玲等[30]研究了多源決策形式背景基于粒概念的屬性約簡問題,刻畫了多源與單源決策形式背景屬性約簡的關(guān)系,提出了多源決策形式背景的規(guī)則獲取方法。
總體上講,由于形式背景數(shù)據(jù)的特殊性及概念格構(gòu)造的復(fù)雜性,從形式概念分析角度探索多源數(shù)據(jù)情形下的知識發(fā)現(xiàn)研究還比較少見。另外,現(xiàn)有研究大多采用“融合知識”的手段,即首先研究多源形式背景中各單源形式背景的概念格結(jié)構(gòu)及屬性約簡,然后通過適當(dāng)?shù)木酆纤阕尤诤线@些概念格結(jié)構(gòu)及屬性約簡得到多源形式背景的結(jié)構(gòu)。本文針對多源形式背景提出一種“融合數(shù)據(jù)”的研究方法,首先借助完備剩余格將多源形式背景融合為模糊形式背景,進(jìn)而研究該模糊形式背景的模糊概念格與相應(yīng)的單源形式背景的概念格之間的關(guān)系,并給出相關(guān)概念格之間的相互誘導(dǎo)方法。本文的工作將為多源形式概念分析提供一種新思路。
本節(jié)給出形式概念分析中的一些基本概念及基本性質(zhì)。
定義1[1]稱三元組(G,M,I)是一個形式背景,其中G是非空有限對象集,M是非空有限屬性集,I是G和M上的二元關(guān)系,即I?G×M。對于任意g∈G和m∈M,若(g,m)∈I,則稱對象g具有屬性m;若(g,m)?I,則稱對象g不具有屬性m。
在形式背景(G,M,I)上,Wille[1]提出了一對概念生成算子↑:2G→2M和↓:2M→2G,對于任意X?G,A?M:
概念生成算子具有如下基本性質(zhì)。
性質(zhì)1[1]設(shè)(G,M,I)是一個形式背景,對于任意X,X1,X2?G,B,B1,B2?M,有:
1)X1?X2?X2↑?X1↑,B1?B2?B2↓?B1↓;
2)X?X↑↓,B?B↓↑;
3)X↑=X↑↓↑,B↓=B↓↑↓;
4)X?B↓?B?X↑;
5)(X1∪X2)↑=X1↑∩X2↑,(B1∪B2)↓=B1↓∩B2↓。
定義2[1]設(shè)(G,M,I)是一個形式背景,對任意X?G,B?M,若X↑=B且X=B↓,則稱二元序?qū)?X,B)為該形式背景的一個形式概念,其中X稱為(X,B)的外延,B稱為(X,B)的內(nèi)涵。
設(shè)(G,M,I)的所有形式概念構(gòu)成的集合為L(G,M,I),定義形式概念之間的大小關(guān)系為:對任意的(X1,B1),(X2,B2)∈L(G,M,I),
則(L(G,M,I)≤)構(gòu)成完備格,稱為(G,M,I)的概念格。對應(yīng)的上、下確界分別為:
由形式概念的定義及概念生成算子的性質(zhì)可知,對于任意x∈G,(x↑↓,x↑)為一個形式概念,稱為由對象x導(dǎo)出的概念,簡稱為對象概念,其中x↑為{x}↑的簡寫。結(jié)合粒計算的基本思想,將對象概念稱為粒概念。
定義3[31]設(shè)L=(L,∧,∨,?,→,0,1),若L滿足:
1)(L,∧,∨,0,1)是一個有最大元1 和最小元0 的格;
2)(L,?,1)是一個交換幺半群,即運(yùn)算 ?滿足:
3)?和→構(gòu)成一個伴隨對,即對任意x,y,z∈L,x≤y→z?x?y≤z成立。
則稱L=(L,∧,∨,?,→,0,1)為一個剩余格。
若(L,∧,∨,0,1)是一個完備格,則稱剩余格L=(L,∧,∨,?,→,0,1)為一個完備剩余格。
性質(zhì)2[31]設(shè)L=(L,∧,∨,?,→,0,1)為一個完備剩余格,則下列性質(zhì)成立:
1)運(yùn)算 ?關(guān)于每個變元都是單調(diào)的,即對任意x1,x2,y1,y2∈L,若x1≤x2,y1≤y2,則x1?y1≤x2?y2;
2)蘊(yùn)涵→關(guān)于第1 個變元是反單調(diào)的,關(guān)于第2 個變元是單調(diào)的,即對于任意x1,x2,y∈L,若x1≤x2,則x2→y≤x1→y,y→x1≤y→x2;
3)x→y=1當(dāng)且僅當(dāng)x≤y;
4)x?y≤x,x?y≤y;
5)對于任意x∈L,{yi;i∈τ}?L,有;
6)對于任意x∈L,{yi;i∈τ}?L,有。
基于剩余格理論,可以將FCA 理論模糊化。
定義4[6]稱三元組是一個L模糊形式背景,其中G是非空有限對象集,M是非空有限屬性集,是G和M之間的L模糊關(guān)系,即:G×M→L,L是一個完全剩余格。
在L模糊形式背景中,對于任意x∈G,a∈M,表示對象x具有屬性a的程度。以下用LG和LM分別表示G和M上的所有L模糊集構(gòu)成的集合,即。
定義5[6]設(shè)三元組是一個L模糊形式背景。定義算子↑:LG→LM和↓:LM→LG如下:對于任意,
性質(zhì)3[6]設(shè)是一個L模糊形式背景。對于任意,下列性質(zhì)成立:
式(5)和(6)是式(1)和(2)中概念生成算子的推廣。若滿足,則稱二元組是一個L模糊形式概念。其中稱為該L模糊形式概念的外延,稱為該L模糊形式概念的內(nèi)涵。L模糊形式背景中所有L模糊形式概念構(gòu)成的集合記為。
為了將形式概念分析方法應(yīng)用于多源數(shù)據(jù)處理,魏玲等[30]提出了多源形式背景的概念。
定義6[30]多源形式背景可表示為MK={Ki|Ki=(U,M,Ii),i∈τ},其中:
1)U是非空有限對象集,M是非空有限屬性集;
2)τ={1,2,···,n}為指標(biāo)集,對于任意的i∈τ,Ii是U與M之間的二元關(guān)系;
3)對于任意i∈τ,稱Ki為多源形式背景的第i源單源形式背景,在不引起混淆的情況下,簡稱為單源形式背景。
由此定義,多源形式背景是由若干單源形式背景構(gòu)成,這些單源形式背景具有相同的對象集與屬性集。
例1考慮研究生學(xué)位論文評價問題。假設(shè)G={x1,x2,x3,x4}為4 份研究生學(xué)位論文的集合,M={a1,a2,a3,a4}為論文評價指標(biāo)的集合,a1、a2、a3、a4分別表示論文選題、寫作、內(nèi)容、研究成果。一般情況下,學(xué)位論文評價結(jié)果是多位評審專家評審意見的綜合。令τ={1,2,3}為3 位評審專家的集合,對于任意i∈τ,第i個評審專家對學(xué)位論文的評價可以表示為一個形式背景(G,M,Ii),如表1所示。其中1表示合格,0 表示不合格。3 位評審專家的評審意見構(gòu)成一個多源形式背景MK={Ki|Ki=(G,M,Ii),i∈τ}。
表1 多源形式背景MK={Ki|Ki=(U,A,Ii),i ∈τ}
針對多源形式背景,魏玲等[30]從單源形式背景的角度研究了它的屬性約簡及規(guī)則獲取問題。下面將從數(shù)據(jù)融合的角度討論多源形式背景的結(jié)構(gòu)。
命題1[32]L={0,1}n={(x1,x2,···,xn)|xi∈{0,1},i∈{1,2,···,n}},則(L,∧,∨,?,→)構(gòu)成一個完備剩余格,其中對于任意(x1,x2,···,xn),(y1,y2,···,yn)∈L,有:
在完備剩余格L={0,1}n中,(x1,x2,···,xn)≤(y1,y2,···,yn)當(dāng)且僅當(dāng):對任意i∈{1,2,···,n}有xi≤yi。
定義7[32]設(shè)MK={Ki|Ki=(G,M,Ii),i∈τ}是一個多源形式背景。稱KMK=(G,M,)為MK 的融合形式背景,其中對于任意x∈G,m∈M,
Ii(x,m)為Ii的特征函數(shù)。
由此定義,多源形式背景的融合形式背景是L模糊形式背景,其中真值域L為完備剩余格L={0,1}n。
例2表2 給出了例1 中的多源形式背景的融合形式背景。
表2 融合形式背景(U,A,)
表2 融合形式背景(U,A,)
設(shè)KMK=是多源形式背景MK=Ki|Ki={(G,M,Ii),i∈τ}的融合形式背景。第i源單源形式背景Ki中的概念生成算子記為↑i和↓i,KMK中的概念生成算子記為↑和↓。對于任意g∈G,g在KMK中生成的模糊粒概念為(g↑↓,g↑),在Ki中生成的粒概念為。以下用表示外延的特征函數(shù),x∈G。下面的定理刻畫了KMK中的模糊粒概念與Ki中的粒概念之間的關(guān)系。
定理1設(shè)KMK=是多源形式背景MK={Ki|Ki=(G,M,Ii),i∈τ}的融合形式背景,τ={1,2,···,n}。對于任意x,g∈G,有
證明對于任意x,g∈G,m∈M,
從而有
為敘述方便,設(shè)fi為上式的第i個分量,即。由定義可知fi=0或fi=1,又
故有fi=,即g↑↓(x)=成立。
例3考慮例1 中的多源形式背景及其融合形式背景。對x1,x2∈G,有,從而。另一方面,有
定理2設(shè)MK={Ki|Ki=(G,M,Ii),i∈τ}是一個多源形式背景,τ={1,2,···,n},KMK=為其融合形式背景。對于任意∈LG,x∈G,令,,則
證明由L模糊形式概念的定義知
從而有
形式概念的外延與內(nèi)涵可以互相確定。L(G,M,)中所有模糊形式概念的外延構(gòu)成的集合記為,顯然有。注意到在定理2 中有∈ExtL(G,M,Ii),故有推論1。
推論1設(shè)MK={Ki|Ki=(G,M,Ii),i∈τ}是一個多源形式背景,τ={1,2,···,n},KMK=為其融合形式背景。則
定理3設(shè)MK={Ki|Ki=(G,M,Ii),i∈τ}是一個多源形式背景,τ={1,2,···,n},KMK=(G,M,)為其融合形式背景。則
證明對于任意(X1,X2,···,Xn)∈ExtL(G,M,I1)×ExtL(G,M,I2)×···×ExtL(G,M,In),令為:對于任意x∈G,有
其中Xi(x)表示Xi的特征函數(shù)。由定理2 可得:對于任意x∈G,有
對于任意i∈τ,由Xi∈ExtL(G,M,Ii)可得=Xi,從而有
由推論1 和定理3 可得推論2。
推論2設(shè)MK={Ki|Ki=(G,M,Ii),i∈τ}是一個多源形式背景,τ={1,2,···,n},KMK=為其融合形式背景。則
此推論表明融合形式背景的模糊概念格與其單源形式背景的Wille 概念格可以互相確定。
形式背景的融合方法可推廣至多源模糊形式背景。
定義8多源模糊形式背景可表示為,MFK={Ki|Ki=(G,M,Li,),i∈τ},其中:
1)G是非空有限對象集,M是非空有限屬性集;
2)τ={1,2,···,n}為指標(biāo)集且對于任意i∈τ,Li為完備剩余格,:G×M→Li是G與M之間的模糊關(guān)系;
3)對于任意i∈τ,稱Ki為第i源單源模糊形式背景。
若L1,L2,···,Ln為完備剩余格,L=L1×L2×···×Ln為L1,L2,···,Ln的笛卡兒積,則L也構(gòu)成完備剩余格,其中運(yùn)算按照逐點(diǎn)定義。利用完備剩余格的笛卡兒積,可以考慮多源模糊形式背景的融合問題。
定義9設(shè)MFK={Ki|Ki=,i∈τ}為多源模糊形式背景,τ={1,2,···,n}為指標(biāo)集。稱KMFK=為MFK 的融合模糊形式背景,其中L=L1×L2×···×Ln且對于任意x∈G,m∈M,有
由此定義,多源模糊形式背景的融合形式背景仍為模糊形式背景。以下將單源模糊形式背景Ki中的概念生成算子記為↑i和↓i,KMFK中的概念生成算子記為↑和↓。
定理4設(shè)MFK={Ki|Ki=,i∈τ}是一個多源模糊形式背景,τ={1,2,···,n},KMFK=為其融合模糊形式背景。對于任意∈LG,x∈G,令
則有
證明對于任意m∈M,由L模糊形式概念的定義知
于是,有
定理5設(shè)MFK={Ki|Ki=,i∈τ}是一個多源模糊形式背景,τ={1,2,···,n},KMFK=(G,M,L,)為其融合模糊形式背景。則
證明由定理4 可得
對于任意(X1,X2,···,Xn)∈ExtL(G,M,L1,I1)×ExtL(G,M,L2,I2)×···×ExtL(G,M,Ln,In),存在∈LG滿足:對于任意x∈G,有=(X1(x),X2(x),···,Xn(x))。由定理4 可得
對于任意i∈τ,由Xi∈ExtL(G,M,Li,Ii)可得=Xi,從而有
本文研究形式概念分析中的多源形式背景融合方法。針對多源同域形式背景,現(xiàn)有的研究工作大多是對相應(yīng)的單源形式背景分別進(jìn)行處理,然后融合處理結(jié)果。一般情況下,其具有較高的時間復(fù)雜度。本文借助剩余格理論提出了一種將多源形式背景融合為一個L模糊形式背景的方法,然后討論融合后的形式背景,其中真值域L具有形式L={0,1}n,刻畫了融合形式背景中的L模糊概念與單源形式背景中的經(jīng)典形式概念之間的相互誘導(dǎo)方法。另外,相關(guān)研究結(jié)果被推廣至多源模糊形式背景?;诒疚牡难芯拷Y(jié)果,可以進(jìn)一步討論多源形式背景的屬性約簡與單源形式背景屬性約簡的關(guān)系,提出多源形式背景的屬性約簡、規(guī)則獲取方法。