吳偉志
(1.浙江海洋大學(xué) 數(shù)理與信息學(xué)院,浙江 舟山 316022;2.浙江省海洋大數(shù)據(jù)挖掘與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,浙 江 舟山 316022)
從不同的粒度(granularity)上觀察、 分析與解決同一問(wèn)題, 是人類智能的特點(diǎn)之一。 粒計(jì)算(Granular computing, GrC)是Lin在分析Zadeh的信息粒度(information granularity)[1]基礎(chǔ)上于1997年首次提出的[2], 它模擬人類思考問(wèn)題的自然模式, 以粒(granule)為基本計(jì)算單位, 以處理大規(guī)模復(fù)雜數(shù)據(jù)集和信息等建立有效的計(jì)算模型為目標(biāo)。 后來(lái), Lin[3]和Yao[4]分別對(duì)粒計(jì)算研究的一些基本問(wèn)題進(jìn)行了闡述。 我國(guó)張鈸院士和張鈴教授提出的商空間理論[5]被公認(rèn)為粒計(jì)算的另一個(gè)重要模型, 該理論明確指出“在問(wèn)題求解研究中, 人類智能的一個(gè)公認(rèn)特點(diǎn), 就是人們能從極不相同的粒度上觀察和分析同一問(wèn)題?!?粒計(jì)算主要研究粒的構(gòu)造、 解釋、 表示、 在有不同尺度或粒度空間研究粒計(jì)算問(wèn)題時(shí), 還要考慮最優(yōu)尺度或粒度的選擇, 以及存在于粒之間的粒IF-THEN規(guī)則的提取和相關(guān)的理論與算法等。 目前, 粒計(jì)算已成為人工智能領(lǐng)域和大數(shù)據(jù)處理的重要方法[6-7]。
迄今為止,已經(jīng)提出了很多涉及具體應(yīng)用背景的粒計(jì)算模型和方法,而在眾多粒計(jì)算研究方法中,粗糙集(rough set)[8]和形式概念分析(Formal concept analysis, FCA)[9]對(duì)粒計(jì)算研究的推動(dòng)和發(fā)展起著重要的作用并取得了很多重要成果[10-17]。
粗糙集數(shù)據(jù)分析和形式概念分析的數(shù)據(jù)表示形式是屬性-對(duì)象值表, 分別稱為信息系統(tǒng)和形式背景。傳統(tǒng)的粗糙集數(shù)據(jù)分析和形式概念分析所呈現(xiàn)出的對(duì)象-屬性值表中大都是取單一屬性值的, 即對(duì)于系統(tǒng)中的每一個(gè)對(duì)象和所對(duì)應(yīng)的每一個(gè)屬性,只取唯一的一個(gè)值,這樣的信息系統(tǒng)或形式背景反映的是固定尺度下的對(duì)象信息,我們稱為單尺度信息系統(tǒng)(也稱單粒度標(biāo)記信息系統(tǒng))和單尺度形式背景。 事實(shí)上,單一粒度框架下的知識(shí)表示與數(shù)據(jù)處理方法已遠(yuǎn)遠(yuǎn)不能滿足實(shí)際應(yīng)用的需求。例如,在對(duì)地理信息系統(tǒng)中的空間遙感數(shù)據(jù)(數(shù)據(jù)以某些光譜波段反射的灰度值進(jìn)行標(biāo)記)分析中,對(duì)于同一個(gè)地表物(觀察對(duì)象),隨著觀測(cè)的距離或分辨率不同,地表物會(huì)呈現(xiàn)出具有不同層次物理意義的對(duì)象,如某一地表物根據(jù)觀測(cè)距離或分辨率的不同,可能分別呈現(xiàn)出陸地、植被、莊稼地、玉米地等。 又比如,對(duì)于地圖上我國(guó)的某一地方,根據(jù)行政區(qū)域的不同粒度層次(如村、鄉(xiāng)、縣、地級(jí)市、省自治區(qū)等級(jí)別),其所屬地分別給予不同的區(qū)域標(biāo)記。 總之,在多粒度標(biāo)記數(shù)據(jù)模型下,同一批數(shù)據(jù)可以被標(biāo)記為不同的尺度或粒度層次,人們可以根據(jù)需要在不同的尺度或粒度層面上處理和分析數(shù)據(jù)。 因而“多尺度”或者“多粒度”近幾年來(lái)成為粒計(jì)算研究的重要方向。
在基于粗糙集的多粒度數(shù)據(jù)表示與分析建模研究中,我們認(rèn)為應(yīng)該從引起多粒度的原因著手。本文主要介紹近幾年在粗糙集數(shù)據(jù)分析中的幾種多粒度知識(shí)表示和數(shù)據(jù)處理模型,并對(duì)相關(guān)問(wèn)題的研究進(jìn)行分析和展望。
設(shè)U是非空論域,對(duì)于X?U,X在U中的補(bǔ)集記為~X,即~X={x∈U|x?X}。 本節(jié)簡(jiǎn)要介紹后面要用到的一些基本概念與知識(shí)。
定義1[8]一個(gè)信息系統(tǒng)是一個(gè)二元組(U,AT),其中U是一個(gè)非空有限對(duì)象集,稱為論域;AT是一個(gè)非空有限屬性集,對(duì)于任意的a∈AT,滿足a:U→Va,即a(x)∈Va,x∈U,其中Va={a(x)|x∈U}稱為a的值域。
對(duì)于一個(gè)給定的信息系統(tǒng)(U,AT),A?AT,記:
RA={(x,y)∈U×U|?a∈A,a(x)=a(y)}
顯然,RA是論域U上的等價(jià)關(guān)系,稱為不可分辨關(guān)系,它能導(dǎo)出U上的一個(gè)劃分
U/RA={[x]A|x∈U}。
其中[x]A={y∈U|(x,y)∈RA}稱為對(duì)象x關(guān)于RA-等價(jià)類。
設(shè)(U,AT)是一個(gè)信息系統(tǒng),A?AT,X?U,X關(guān)于RA的下近似和上近似定義如下:
其中|X|表示集合X的基數(shù)。X關(guān)于RA的粗糙度定義如下:
ρRA(X)=1-αRA(X)。
定義2[8]一個(gè)決策表(也稱為決策系統(tǒng))是一個(gè)二元組S=(U,C∪syggg00),其中(U,C)是信息系統(tǒng),C是條件屬性集,d?C為決策屬性,d:U→Vd,Vd是屬性d的值域。 定義
Rd={(x,y)∈U×U|d(x)=d(y)}
U/Rd是由Rd生成的劃分,它將U粒化成決策類。若RC?Rd,則稱決策表(U,C∪syggg00)是協(xié)調(diào)的,否則稱它是不協(xié)調(diào)的。
對(duì)于B?C,記
?B(x)={d(y)|y∈[x]B},x∈U
?B(x)稱為x關(guān)于B在(U,C∪syggg00)中的廣義決策值,?B稱為B在(U,C∪syggg00)中的廣義決策函數(shù)。顯然,(U,C∪syggg00)是協(xié)調(diào)的當(dāng)且僅當(dāng)對(duì)于任意x∈U有|?C(x)|=1。
若信息系統(tǒng)(U,AT)中某些對(duì)象在某個(gè)屬性的值是缺省的(其中的缺省值常用*表示),則稱此信息系統(tǒng)是不完備信息系統(tǒng),對(duì)于A?AT,記:
RA={(x,y)∈U×U|?a∈A,a(x)=a(y),或a(x)=*,或a(y)=*}。
此時(shí),RA是U上相似關(guān)系,它能導(dǎo)出U上的一個(gè)覆蓋U/RA={SA(x)|x∈U},其中
SA(x)={y∈U|(x,y)∈RA}
稱為對(duì)象x關(guān)于RA的相似類。 稱決策表S=(U,C∪syggg00)是不完備的,若(U,C)是不完備信息系統(tǒng)。類似地也可以通過(guò)相似關(guān)系定義集合的下近似和上近似。
通過(guò)粗糙集屬性約簡(jiǎn)方法,根據(jù)決策類關(guān)于由條件屬性集導(dǎo)出關(guān)系的下近似和上近似,可以分別獲得蘊(yùn)含在決策系統(tǒng)中的確定性決策規(guī)則和可能性決策規(guī)則[8]。
盡管目前粒計(jì)算研究中沒(méi)有統(tǒng)一的數(shù)學(xué)形式化的理論描述,但是有一些基本概念在粒計(jì)算研究領(lǐng)域中已經(jīng)被普遍接受,它們是“粒”和“?;?granulation)”。
定義3在論域中具有相同或相似性質(zhì)的對(duì)象構(gòu)成的集合稱為一個(gè)粒,粒有時(shí)也稱為信息粒。
粒是粒計(jì)算模型中的最小計(jì)算單位。在某些特定的數(shù)據(jù)分析中,粒不能再進(jìn)行分解。 但是,這是一個(gè)相對(duì)的概念,在一個(gè)粒度層面上不能分解,但在更細(xì)或者更小粒度層面上還可以進(jìn)行再分解。
定義4構(gòu)造信息粒的過(guò)程稱為粒化。
粒是粒計(jì)算知識(shí)表示和問(wèn)題求解的基本計(jì)算單元,通過(guò)?;捎闪=M成的對(duì)于論域的劃分或覆蓋。
信息系統(tǒng)中由某個(gè)屬性子集導(dǎo)出一個(gè)對(duì)象的等價(jià)類或相似類就是粗糙集數(shù)據(jù)分析中的一個(gè)粒,每一個(gè)屬性子集將論域?;梢粋€(gè)劃分或覆蓋。
要研究多粒度知識(shí)表示與知識(shí)獲取問(wèn)題,首先要弄清楚造成多粒度的原因是什么。迄今為止,文獻(xiàn)報(bào)道的有3種原因引起多粒度,相應(yīng)地有3種粗糙集數(shù)據(jù)分析模型:
多?;植诩?multi-granulation rough set)模型[18-20]:該模型是由Qian等[18]首先提出的,主要思想認(rèn)為多粒度是由屬性選擇引起的,該模型根據(jù)信息系統(tǒng)中多個(gè)屬性子集(論域中的多個(gè)二元關(guān)系或者多個(gè)劃分或者多個(gè)覆蓋)構(gòu)成知識(shí)多粒度空間,由屬性的并或交的選擇對(duì)概念進(jìn)行近似和對(duì)論域進(jìn)行?;?對(duì)應(yīng)地有樂(lè)觀粗糙集模型和悲觀粗糙集模型。
多粒度鄰域粗糙集(multi-granularity neighborhood rough set)模型[21-23]:該模型以Hu等[24]提出的鄰域粗糙集模型為基礎(chǔ),該模型認(rèn)為對(duì)象的鄰域半徑的大小能夠引起多粒度,這個(gè)模型主要針對(duì)連續(xù)屬性值的數(shù)據(jù)或者信息系統(tǒng),其主要思想是根據(jù)對(duì)象鄰域半徑的大小來(lái)對(duì)論域進(jìn)行?;?然后選擇合適的粒度進(jìn)行聚類或者分類。
多尺度信息系統(tǒng)的粗糙集數(shù)據(jù)分析模型[25]:該模型是由Wu和Leung[25]首次提出,認(rèn)為對(duì)象的屬性取值可以引起多粒度,數(shù)據(jù)表示形式稱為多尺度信息系統(tǒng)(multi-scale information system),又稱為多粒度標(biāo)記信息系統(tǒng)(multi-granular labeled information system),并將傳統(tǒng)信息系統(tǒng)視作單粒度標(biāo)記信息系統(tǒng)。 其數(shù)據(jù)處理的主要思想是根據(jù)決策目標(biāo)對(duì)每一個(gè)屬性選擇合適的尺度構(gòu)成一個(gè)新的單尺度信息系統(tǒng),然后在保持相同目標(biāo)約束的前提下進(jìn)行屬性約簡(jiǎn)和決策規(guī)則提取。
下面我們分別介紹這幾種多粒度粗糙集數(shù)據(jù)分析模型,并對(duì)它們進(jìn)行研究展望。
多?;植诩瘮?shù)據(jù)分析主要思想來(lái)源于投票決策機(jī)制中,若有m個(gè)專家進(jìn)行投票決策,樂(lè)觀的決策是只要其中一個(gè)專家表示贊同決策就獲得通過(guò),悲觀的決策是只有全部m個(gè)專家都表示贊同決策才能獲得通過(guò)。 將這個(gè)思想延伸到粗糙集數(shù)據(jù)分析中分別得到樂(lè)觀粗糙集和悲觀粗糙集模型。
稱為X關(guān)于R的樂(lè)觀多?;植诩倪吔纭關(guān)于R的樂(lè)觀多?;植诩凭榷x如下:
定義X關(guān)于R的樂(lè)觀多粒化粗糙集的粗糙度為
稱為X關(guān)于R的悲觀多?;植诩倪吔纭關(guān)于R的悲觀多?;植诩凭榷x如下:
常愛(ài)蘭知道這樣的事后又將周小羽綁起來(lái)打了一頓,從那時(shí)開(kāi)始,周小羽每天放學(xué)回家就上樓,然后直到他們叫他來(lái)幫忙時(shí)才下來(lái)??墒翘焯爝@樣按時(shí)上樓的情況并沒(méi)有讓老師罷手,老師還是過(guò)個(gè)三五天就帶消息來(lái),說(shuō)周小羽的作業(yè)這次又是沒(méi)有完成。
定義X關(guān)于R的悲觀多粒化粗糙集的粗糙度為
注1由于U上的等價(jià)關(guān)系與U上的劃分是一一對(duì)應(yīng)的,因此,定義5和定義6中等價(jià)關(guān)系簇R={R1,R2,…,Rm}可以被U上的m個(gè)劃分來(lái)替代。相應(yīng)地,x的Ri等價(jià)類[x]Ri要換成第i個(gè)劃分中包含x的集合(等價(jià)類)。在具體應(yīng)用上,設(shè)(U,AT)是信息系統(tǒng),P1,P2,…,Pm是AT的m個(gè)屬性子集簇,對(duì)于每一個(gè)屬性子集可以按照1.1節(jié)的方法定義U上的一個(gè)等價(jià)關(guān)系,因此,定義5和定義6中等價(jià)關(guān)系R={R1,R2,…,Rm}也可以用屬性子集簇{P1,P2,…,Pm}替代,具體見(jiàn)文獻(xiàn)[18-20]。
在理論層面上,多?;植诩泻芏嗤卣鼓P?比如可以將等價(jià)關(guān)系推廣成非等價(jià)關(guān)系得到雙論域多粒化粗糙集模型等[26-28]。 將由等價(jià)關(guān)系所對(duì)應(yīng)的劃分拓展成覆蓋,則可以得到多?;采w粗糙集模型[29-31]。 更一般地,將經(jīng)典二元關(guān)系拓展到模糊關(guān)系,則可以得到多?;:植诩P?甚至將軟集或區(qū)間集與多粒化進(jìn)行組合得到多?;洿植诩P秃投嗔;瘏^(qū)間粗糙集模型等[32-39]。另外,多?;植诩P拖碌亩嘀颠壿嫹椒ㄒ踩〉昧酥匾M(jìn)展[40]。將多?;植诩透拍钫J(rèn)知結(jié)合是一個(gè)很有意義的工作,并取得了一些重要進(jìn)展[41-43]。
在具體應(yīng)用上,各種信息系統(tǒng)和決策表在多?;植诩P拖碌拇植诮?、約簡(jiǎn)(包括系統(tǒng)約簡(jiǎn)和局部約簡(jiǎn))、規(guī)則提取、代價(jià)敏感分析方面等取得了一些重要研究成果。 將完備信息系統(tǒng)拓展成不完備信息系統(tǒng)、序信息系統(tǒng)、模糊信息系統(tǒng)、區(qū)間值信息系統(tǒng)、形式背景等,用多粒化粗糙集方法研究這些拓展數(shù)據(jù)表中的信息粒表示、知識(shí)約簡(jiǎn)、規(guī)則提取、知識(shí)動(dòng)態(tài)更新等仍是值得進(jìn)一步研究的問(wèn)題[44-49]。
在多粒化粗糙集模型及其應(yīng)用研究中,不確定性分析及度量研究是一個(gè)重要的問(wèn)題。 這方面的研究主要是針對(duì)不同的不確定性問(wèn)題引入不同的度量或測(cè)度,如概率不確定性、模糊性、信息熵、證據(jù)理論中的信任度與似然度,以及包含度等[50-57]。
從本質(zhì)上說(shuō),這類“多粒度”是通過(guò)多個(gè)屬性選擇不同的合成方式而獲得的。 當(dāng)然,也有人認(rèn)為這種樂(lè)觀和悲觀的定義粗糙近似的方式過(guò)于極端,可以采取更加折中的方式定義。
多粒度鄰域粗糙集模型的主要思想將鄰域粗糙集中的“鄰域”或者“距離”動(dòng)態(tài)地用多個(gè)鄰域或者多個(gè)距離作為“多粒度”對(duì)論域進(jìn)行?;?根據(jù)決策或者分類任務(wù)選擇合適的距離進(jìn)行決策。
定義7[21-24]設(shè)(U,AT)是一個(gè)完備信息系統(tǒng),對(duì)于任意x∈U和屬性子集A?AT,x在屬性子集A上鄰域δA(x)定義如下:
δA(x)={y∈U|ΔA(x,y)≤δ}。
1)ΔA(x,y)≥0;
2)ΔA(x,y)=0當(dāng)且僅當(dāng)x=y;
3)ΔA(x,y)=ΔA(y,x);
4)ΔA(x,z)≤ΔA(x,y)+ΔA(y,z)。
需要指出的是,這里的ΔA一般是通過(guò)對(duì)象在屬性子集A上取值計(jì)算得到的,比如若A={a1,a2,…,aN}?AT,則可以定義Minkowsky距離:
其中p≥1。當(dāng)然,不同的屬性上也可以選擇不同類型的距離函數(shù),在不同屬性上合成U上的距離函數(shù)時(shí)也可以取加權(quán)和等。
定義9[21-22]設(shè)(U,AT)是一個(gè)完備信息系統(tǒng),Γ={δ1,δ2,…,δt},δk>0,k=1,2,…,t,記
定義9將不同的鄰域半徑δ1,δ2,…,δt作為“粒度”定義多粒度粗糙近似集。在具體應(yīng)用中,若粒度半徑δ1,δ2,…,δt是事先確定的,則在決策表中如何選擇合適的粒度對(duì)決策或分類的泛化最強(qiáng)是一個(gè)值得研究的問(wèn)題。當(dāng)然,若δ1,δ2,…,δt不是事先給定的,則在數(shù)據(jù)集中訓(xùn)練泛化能力好的粒度是一個(gè)比較重要的問(wèn)題,比如,文獻(xiàn)[21-22]將不同鄰域或距離度量作為多粒度對(duì)論域進(jìn)行?;?在泛化性能優(yōu)化的框架下提出了最大鄰域粒間隔的粒度選擇和組合方法。
多粒度鄰域粗糙集數(shù)據(jù)分析可以拓展到各種復(fù)雜的信息系統(tǒng)與決策表中的特征選擇、約簡(jiǎn)、規(guī)則提取,包括動(dòng)態(tài)數(shù)據(jù)挖掘等[58-62]。 另外,在不同的屬性值域中如何訓(xùn)練或者選擇合適的距離函數(shù)也是一個(gè)值得研究的問(wèn)題。在多粒度鄰域粗糙集模型的應(yīng)用研究中,不確定性分析及度量研究也是一個(gè)重要的問(wèn)題[63],比如針對(duì)不同的不確定性問(wèn)題可以引入不同的度量或測(cè)度。
多粒度鄰域粗糙集模型應(yīng)用限制是數(shù)據(jù)類型必須是實(shí)數(shù)值的或者可以轉(zhuǎn)化為實(shí)數(shù)值的屬性數(shù)據(jù)。
在傳統(tǒng)粗糙集數(shù)據(jù)分析的信息系統(tǒng)(U,AT)中,每一個(gè)對(duì)象xi在屬性aj上只取一個(gè)確定的值,這是單尺度標(biāo)記信息系統(tǒng)。 若信息系統(tǒng)(U,AT)中每一個(gè)對(duì)象在同一個(gè)屬性上根據(jù)不同的尺度標(biāo)記層面可以取不同的值,則(U,AT)是一個(gè)多尺度(標(biāo)記)信息系統(tǒng)。 Wu和Leung在文獻(xiàn)[25]中首次提出了多尺度信息系統(tǒng)的概念。
定義10[25]稱(U,AT)是一個(gè)多尺度信息系統(tǒng),其中U={x1,x2,…,xn}是一個(gè)非空有限對(duì)象集,稱為論域,AT={a1,a2,…,am}是一個(gè)非空有限屬性集,且每一個(gè)屬性都是多尺度屬性。
假設(shè)所有的屬性都有I個(gè)相同的等級(jí)粒度,則一個(gè)多尺度信息系統(tǒng)可以表示為
對(duì)于k∈{1,2,…,I},記
其中k=1,2,…,I。
這樣的多尺度信息系統(tǒng)和多尺度決策系統(tǒng)的粗糙集數(shù)據(jù)分析模型稱為Wu-Leung模型[64]。
例1[25]表1給出了一個(gè)多尺度決策系統(tǒng)
其中
U={x1,x2,…,x12},
C={a1,a2,a3,a4},
每個(gè)屬性有3個(gè)粒度層面的標(biāo)記,其中“E”,“G”,“F”,“B”,“S”,“M”,“L”,“Y”,“N”分別表示“優(yōu)”、“良”、“中”、“差”、“小”、“中等”、“大”、“是”、“否”。 這樣的一個(gè)系統(tǒng)可以分解成3個(gè)決策表,見(jiàn)表2~4。
表1 一個(gè)具有3個(gè)粒度層面標(biāo)記的多尺度決策系統(tǒng)Tab.1 A multi-scale decision system with three levels of granulation
表2 表1的第一個(gè)粒度層面標(biāo)記下的決策表Tab.2 The decision table with the first level of granulation of Table 1
表3 表1的第二個(gè)粒度層面標(biāo)記下的決策表Tab.3 The decision table with the second level of granulation of Table 1
表4 表1的第三個(gè)粒度層面標(biāo)記下的決策表Tab.4 The decision table with the third level of granulation of Table 1
表5 一個(gè)廣義多尺度決策系統(tǒng)Tab.5 A generalized multi-scale decision system
在Wu-Leung模型中,相當(dāng)于將決策系統(tǒng)的條件部分看成I個(gè)尺度,在保持某種性質(zhì)(可以是定性的也可以是定量的)一致的意義下選擇最粗的尺度標(biāo)記(也稱為最優(yōu)尺度選擇)成為在多尺度決策系統(tǒng)中提取決策規(guī)則前的一個(gè)關(guān)鍵問(wèn)題[25, 65-69]。 當(dāng)然,這樣得到的最優(yōu)尺度我們稱為系統(tǒng)的最優(yōu)尺度(它們對(duì)應(yīng)一個(gè)決策表),但是在實(shí)際問(wèn)題中,有時(shí)為了獲得某一個(gè)對(duì)象所對(duì)應(yīng)的泛化能力強(qiáng)的決策規(guī)則時(shí),則只須計(jì)算關(guān)于決策在保持某種性質(zhì)(可以是定性的也可以是定量的)一致意義下的選擇最粗尺度標(biāo)記即可,此時(shí)獲得的最優(yōu)尺度稱為該對(duì)象的局部最優(yōu)尺度[70-71]。Wu等人研究了在多粒度標(biāo)記框架下的其他數(shù)據(jù)類型的信息粒度表示和最優(yōu)粒度的選擇問(wèn)題,包括不完備多尺度信息系統(tǒng)、不完備序信息系統(tǒng)等[72-74]。 Gu和Wu[75-77]還給出了協(xié)調(diào)的和不協(xié)調(diào)的多尺度標(biāo)記決策系統(tǒng)中知識(shí)獲取的算法。
由于以上多粒度標(biāo)記信息系統(tǒng)都有一個(gè)共同的假設(shè),即系統(tǒng)中所有的屬性都具有相同的粒度標(biāo)記個(gè)數(shù),而實(shí)際生活中人們可能面對(duì)不同的屬性具有不同的粒度標(biāo)記個(gè)數(shù)的數(shù)據(jù)處理問(wèn)題。針對(duì)這種情形,Li和Hu在文獻(xiàn)[64]和文獻(xiàn)[78]中提出了一種推廣的多粒度標(biāo)記數(shù)據(jù)分析模型(有時(shí)稱為廣義多尺度信息系統(tǒng))。
定義12[64]稱(U,AT)是一個(gè)廣義多尺度信息系統(tǒng),其中U={x1,x2,…,xn}是一個(gè)非空有限對(duì)象集,稱為論域,AT={a1,a2,…,am}是一個(gè)非空有限屬性集,且每一個(gè)屬性都是多尺度屬性。假設(shè)屬性aj有Ij個(gè)等級(jí)粒度,則一個(gè)多尺度信息系統(tǒng)可以表示為:
例2表5(是表1將第4列刪除得到的)給出了一個(gè)多尺度決策系統(tǒng)
其中
U={x1,x2,…,x12},
C={a1,a2,a3,a4},
其中a1有2個(gè)粒度層面的標(biāo)記,其余屬性有3個(gè)粒度層面的標(biāo)記。
對(duì)于這樣的一個(gè)多尺度決策系統(tǒng),顯然不能用例1的方法簡(jiǎn)單地將它分解成3個(gè)粒度層面的子表(a1只有2個(gè)粒度層面的標(biāo)記),針對(duì)這樣的系統(tǒng),Li和Hu在文獻(xiàn)[64]中引入尺度組合的概念用于解決多尺度決策系統(tǒng)的尺度選擇問(wèn)題。
定義14[64]對(duì)于廣義多尺度信息系統(tǒng)(U,AT),若屬性aj∈AT,取第lj個(gè)尺度標(biāo)記(1≤lj≤Ij),j=1,2,…,m,并記K=(l1,l2,…,lm),則稱K=(l1,l2,…,lm)為系統(tǒng)S=(U,AT)的一個(gè)尺度組合,記(U,AT)的尺度組合全體為L(zhǎng)。
對(duì)于A?AT和K=(l1,l2,…,lm)∈L,記K在屬性子集A上的限制為KA,定義
RAK={(x,y)∈U×U|?al∈AKA,al(x)=al(y)},
則RAK是多尺度信息系統(tǒng)S在尺度組合K=(l1,l2,…,lm)下由屬性集A導(dǎo)出的一個(gè)等價(jià)關(guān)系,特別地,對(duì)于a∈AT,記RaK=R{a}K。記
[x]AK={y∈U|(x,y)∈RAK},x∈U。
[x]AK稱為對(duì)象x關(guān)于AK的等價(jià)類。記
U/RAK={[x]AK|x∈U},
則U/RAK={[x]AK|x∈U}構(gòu)成了U的一個(gè)劃分。
類似于單尺度決策系統(tǒng)有各種各樣意義下的屬性約簡(jiǎn)問(wèn)題,探索多尺度決策系統(tǒng)在不同物理意義下的最優(yōu)尺度組合選擇(包括系統(tǒng)最優(yōu)尺度組合選擇和局部最優(yōu)尺度組合選擇)是多尺度決策系統(tǒng)中知識(shí)表示和知識(shí)獲取的重要問(wèn)題。當(dāng)然,各種復(fù)雜數(shù)據(jù)類型在不同粒度或尺度下的決策規(guī)則提取、不確定性分析及其算法等仍是值得進(jìn)一步研究的問(wèn)題。
粒計(jì)算是大數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)的一個(gè)重要工具,近幾年來(lái),多粒度成為粒計(jì)算研究的一個(gè)重要方向。本文從形成多粒度的原因出發(fā),對(duì)多粒化粗糙集模型、多粒度鄰域粗糙集模型、多尺度信息系統(tǒng)的粗糙集數(shù)據(jù)分析模型等目前相對(duì)而言比較流行的3種多粒度粗糙集數(shù)據(jù)分析模型研究進(jìn)行了回顧,并對(duì)這些模型進(jìn)一步進(jìn)行理論與應(yīng)用研究作了初步探討。 需要指出的是,本文只是對(duì)一些重要出版機(jī)構(gòu)中的文獻(xiàn)進(jìn)行了有選擇地討論,未對(duì)所提煉的方向與問(wèn)題展開(kāi)詳細(xì)論述,希望能對(duì)相關(guān)研究領(lǐng)域給出一些基本輪廓,
當(dāng)然,引起多粒度的原因并非只有這3種形式,比如,在全國(guó)、省自治區(qū)、地區(qū)(地級(jí)市)、縣、鄉(xiāng)鎮(zhèn)等不同級(jí)別的道路交通地圖中,從粗粒度到細(xì)粒度的道路圖變換顯示中會(huì)有不斷地“增加”一些級(jí)別比較低的道路,而從細(xì)粒度到粗粒度的道路圖變換顯示中又會(huì)不斷地“刪除”一些級(jí)別比較低的道路。 因此,與“并”和“交”模式不同,“增加”與“刪除”是另外一種引起多粒度的原因。 針對(duì)類似數(shù)據(jù)形式如何建立多粒度計(jì)算模型是值得考慮的問(wèn)題。