鄧大勇苗奪謙黃厚寬
1(浙江師范大學(xué)數(shù)理與信息工程學(xué)院 浙江金華 321004)2(同濟(jì)大學(xué)電子與信息工程學(xué)院 上海 201804)3(北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 北京 100044)4(浙江師范大學(xué)行知學(xué)院 浙江金華 321004)(dayongd@163.com)
?
信息表中概念漂移與不確定性分析
鄧大勇1,2,4苗奪謙2黃厚寬3
1(浙江師范大學(xué)數(shù)理與信息工程學(xué)院 浙江金華 321004)2(同濟(jì)大學(xué)電子與信息工程學(xué)院 上海 201804)3(北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 北京 100044)4(浙江師范大學(xué)行知學(xué)院 浙江金華 321004)(dayongd@163.com)
概念漂移探測(cè)是數(shù)據(jù)流挖掘的一個(gè)研究重點(diǎn),不確定性分析是粗糙集理論的研究核心之一. 結(jié)合數(shù)據(jù)流、概念漂移和粗糙集、F-粗糙集的基本觀點(diǎn),以上下近似為工具,定義了上下近似概念漂移、上下近似概念耦合等概念,據(jù)此分析了信息表內(nèi)概念隨著屬性而變化的特點(diǎn). 以正區(qū)域?yàn)楣ぞ撸x了決策表內(nèi)概念漂移、概念耦合等概念,分析了決策表內(nèi)整體概念隨屬性變化而變化. 在認(rèn)識(shí)論方面,從理想和現(xiàn)實(shí)2方面定義了認(rèn)識(shí)收斂, 從粒計(jì)算、粗糙集的角度對(duì)人類認(rèn)識(shí)世界的方式進(jìn)行了探討.
粗糙集;概念漂移;屬性約簡(jiǎn);概念耦合;上下近似
現(xiàn)實(shí)中的數(shù)據(jù)往往隨著時(shí)間的變化而變化,例如證劵交易數(shù)據(jù)、微博、視頻、傳感器數(shù)據(jù)等,這種類型的數(shù)據(jù)稱為數(shù)據(jù)流[1].數(shù)據(jù)流具有按照時(shí)間順序排列、快速變化、海量甚至無(wú)限并且可能出現(xiàn)概念漂移現(xiàn)象等特征[2-3].數(shù)據(jù)流挖掘是當(dāng)前數(shù)據(jù)挖掘研究的一個(gè)熱點(diǎn),數(shù)據(jù)流分類和概念漂移探測(cè)是數(shù)據(jù)流挖掘的主要研究方向.
粒計(jì)算[4-5]是人類智能處理問(wèn)題的思維方式,也是處理不確定性問(wèn)題的方法.粒計(jì)算的主要方法有模糊集[6]、粗糙集[7-9]、商空間[10]和云模型[11]等. 粗糙集理論[7-9]是一種處理不精確、不完全、含糊數(shù)據(jù)的有效數(shù)學(xué)工具,是數(shù)據(jù)挖掘和分類的重要方法.傳統(tǒng)的粗糙集理論不太適合研究海量的、動(dòng)態(tài)變化的數(shù)據(jù),也不太適合研究數(shù)據(jù)流;F-粗糙集[12-13]將粗糙集理論從單個(gè)信息表或決策表推廣到多個(gè),比較適合研究動(dòng)態(tài)變化的數(shù)據(jù),能夠研究數(shù)據(jù)流和概念漂移.
利用粗糙集理論研究數(shù)據(jù)流和概念漂移比較少見.文獻(xiàn)[14-15]利用粗糙集的上下近似的變化去度量概念漂移;文獻(xiàn)[16]把每個(gè)滑動(dòng)窗口看成是一個(gè)決策子表,利用并行約簡(jiǎn)的方法整體刪除冗余屬性,通過(guò)比較不同子表之間的屬性重要性變化探測(cè)概念漂移.
粗糙集一個(gè)非常大的優(yōu)勢(shì)在于不確定性分析.研究者們提出了上下近似[7-9]、隸屬度[17]、信息熵[18]、條件熵[19-20]、粗糙熵、模糊熵[21-22]等不確定性度量指標(biāo)來(lái)刻畫和描述數(shù)據(jù)的不確定性.其中最原始、最本質(zhì)、最核心的不確定性分析和度量指標(biāo)是上下近似.
本文結(jié)合數(shù)據(jù)流、概念漂移和粗糙集、F-粗糙集的基本觀點(diǎn)、基本方法,分析了信息表內(nèi)信息粒度的概念變化和整個(gè)信息表內(nèi)概念的整體變化.首先利用上下近似分析了信息表內(nèi)單個(gè)概念的變化,定義了上下近似概念漂移與概念耦合等指標(biāo),在信息粒度變化的基礎(chǔ)上度量概念隨著屬性而變化的特點(diǎn);其次,在整個(gè)信息表內(nèi),用正區(qū)域的變化度量整個(gè)信息表或決策表內(nèi)整體概念隨屬性而變化的特性;最后,分別定義了決策表內(nèi)和信息表內(nèi)認(rèn)識(shí)收斂的概念,分析了概念漂移、概念耦合等指標(biāo)的認(rèn)識(shí)論意義.
本節(jié)簡(jiǎn)單介紹粗糙集[7-9]的相關(guān)基本知識(shí).
IS=(U,A)是一個(gè)信息系統(tǒng),其中U是論域,A是論域U上的條件屬性集.對(duì)于每個(gè)屬性a∈A都對(duì)應(yīng)著一個(gè)函數(shù)a:U→Va,Va稱為屬性a的值域,U中每個(gè)元素稱為個(gè)體、對(duì)象或行.
對(duì)于每一個(gè)屬性子集B?A和任何個(gè)體x∈U都對(duì)應(yīng)著一個(gè)信息函數(shù):
InfB(x)={(a,a(x)):a∈B}.
B-不分明關(guān)系(或稱為不可區(qū)分關(guān)系)定義為
IND(B)={(x,y):InfB(x)=InfB(y)}.
任何滿足關(guān)系IND(B)的2個(gè)元素x,y都不能由屬性子集B區(qū)分,[x]B表示由x引導(dǎo)的IND(B)等價(jià)類.
對(duì)于信息系統(tǒng)IS=(U,A)、屬性子集B?A和論域子集X?U,上下近似與邊界線的個(gè)體表示為
上下近似及邊界線的信息粒度表示為
在決策系統(tǒng)DS=(U,A,d)中,syggg00∩A=?,決策屬性d將論域U劃分為塊,U/syggg00={Y1,Y2,…,Yp},其中Yi(i=1,2,…,p)是等價(jià)類.決策系統(tǒng)DS=(U,A,d)的正區(qū)域定義為
有時(shí)決策系統(tǒng)DS=(U,A,d)的正區(qū)域POSA(d)也記為POSA(DS,d)或POS(DS,A,d).
定義1[7-9]. 在決策系統(tǒng)DS=(U,A,d)中,B?A是DS的約簡(jiǎn)iffB?A滿足2個(gè)條件:
1)POSB(d)=POSA(d);
2) 對(duì)于任意S?B,有POSS(d)≠POSB(d).
定義2[23]. 在決策系統(tǒng)DS=(U,A,d)中,U/syggg00={Y1,Y2,…,Yp},對(duì)于任意a∈A,有U/{a}={[x1]{a},[x2]{a},…,[xn]{a}},則B?A是Y∈U/syggg00的值約簡(jiǎn)iffB?A滿足2個(gè)條件:
一個(gè)概念,它既可能用外延表示,也可能用內(nèi)涵表示.但概念不一定是精確的,所以粗糙集常用上下近似來(lái)表示和逼近一個(gè)概念.本節(jié)我們將研究概念的上下近似在同一個(gè)信息表中的變化,即概念漂移與概念耦合.
推論1. 在一個(gè)信息表IS=(U,A)中,對(duì)于??B1?B2?A和X?U,有BNB2(X)?BNB1(X).
我們將文獻(xiàn)[15]中的度量概念漂移、概念耦合等指標(biāo)進(jìn)行改進(jìn),使之能更好地度量信息系統(tǒng)中概念的變化.
定義3. 設(shè)信息表IS=(U,A)中, ??B1?B2?A和X?U,則概念X相對(duì)于B1,B2的上下近似漂移定義為
定義4. 設(shè)信息表IS=(U,A)中, ??B1?B2?A和X?U,則概念X相對(duì)于B1,B2的上下近似耦合度定義為
其中,|·|表示“·”的勢(shì).
概念X相對(duì)于B1,B2的上下近似漂移度定義為
定理2. 設(shè)DS=(U,A,d)是一個(gè)決策系統(tǒng),B1?A是一個(gè)約簡(jiǎn),則對(duì)于任意的B1?B2?A和任意概念X={x|d(x)=d1∧x∈U}(其中d1為常數(shù)),有:
證明. 我們只證明第1個(gè)公式,后面2個(gè)公式由第1個(gè)公式立即推得.
證畢.
定理3. 設(shè)DS=(U,A,d)是一個(gè)決策系統(tǒng),B1?A是一個(gè)約簡(jiǎn),則對(duì)于任意的B0?B1?A,則存在概念X={x|d(x)=d1∧x∈U}使得:
證明. 與定理2的證明方式類似,我們只證明第1個(gè)公式,后面2個(gè)公式由第1個(gè)公式立即推得.
證畢.
定理4. 設(shè)DS=(U,A,d)是一個(gè)決策系統(tǒng),X={x|d(x)=d1∧x∈U}是一個(gè)概念,B1?A是X的一個(gè)值約簡(jiǎn),則:
證明. 根據(jù)值約簡(jiǎn)的定義以及相應(yīng)的概念漂移、概念耦合等定義,立得上述結(jié)論.
證畢.
例1. 設(shè)DS1=(U,A,d)是決策表,如表1所示.其中,a,b,c是條件屬性,d是決策屬性.
Table 1 A Decision System DS1
令X={x|d(x)=0,x∈U},B0={a},B1={a,b},則:
{y1,y4}-{y1,y4}=?;
{y1,y2,y3,y4,y5,y6}-{y1,y4,y5,y6}={y2,y3};
容易看出,B0是決策表DS1的約簡(jiǎn),定理1,2,3,4都成立.
第2節(jié)討論是針對(duì)信息表或決策表內(nèi)單個(gè)概念的概念漂移與耦合,對(duì)于整個(gè)決策表或信息表這些指標(biāo)顯得非常局限,因?yàn)橐粋€(gè)決策表或信息表中有多個(gè)概念,將多個(gè)概念放在一起討論概念漂移、耦合及其度量是本節(jié)討論的內(nèi)容.
定理5[24]. 設(shè)DS=(U,A,d)是一個(gè)決策系統(tǒng),??B1?B2?A,則有POSB1(d)?POSB2(d)?POSA(d).
根據(jù)定理5將文獻(xiàn)[15]中的指標(biāo)進(jìn)行改造,我們得到下面概念漂移、概念耦合的度量指標(biāo).
定義5. 設(shè)DS=(U,A,d)是一個(gè)決策系統(tǒng),??B1?B2?A,則決策表中相對(duì)于B1,B2的概念漂移定義為
Δ1,2=POSB2(d)-POSB1(d).
定義6. 設(shè)DS=(U,A,d)是一個(gè)決策系統(tǒng),??B1?B2?A,則決策表中相對(duì)于B1,B2的概念耦合度定義為
定義7. 設(shè)DS=(U,A,d)是一個(gè)決策系統(tǒng),??B1?B2?A,則決策表中相對(duì)于B1,B2的概念漂移度定義為
定理6. 設(shè)DS=(U,A,d)是一個(gè)決策系統(tǒng),B1?A是一個(gè)約簡(jiǎn),則對(duì)于任意的B1?B2?A,有:
Δ1,2=POSB2(d)-POSB1(d)=?,
證明. 根據(jù)定理5、定義5~7及屬性約簡(jiǎn)的定義,立得上述結(jié)論.
證畢.
定理7. 設(shè)DS=(U,A,d)是一個(gè)決策系統(tǒng),B1?A是一個(gè)約簡(jiǎn),則對(duì)于任意的B0?B1?A,
Δ0,1=POSB1(d)-POSB0(d)≠?,
證明. 根據(jù)定理5、定義5~7及屬性約簡(jiǎn)的定義,立得上述結(jié)論.
證畢.
例2. 設(shè)DS2=(U,A,d)是決策表,如表2所示.其中,a,b,c是條件屬性,d是決策屬性.
Table 2 A Decision System DS2
令B1={a},B2={a,b},則:
POSB1(d)={x2,x4};
POSB2(d)={x1,x2,x3,x4};
Δ1,2=POSB2(d)-POSB1(d)={x1,x3};
在決策表DS2中,B2是它的一個(gè)約簡(jiǎn),容易看出,定理5~7都成立.
粗糙集理論認(rèn)為“知識(shí)就是分類”,區(qū)分不同的物體是人類知識(shí)的體現(xiàn),在此過(guò)程中也需要知識(shí),也就是說(shuō)知識(shí)需要知識(shí)來(lái)表達(dá). 但不同的知識(shí)表達(dá)不一樣,人類的認(rèn)識(shí)是一個(gè)過(guò)程,在這個(gè)認(rèn)識(shí)過(guò)程中選取什么特征來(lái)表達(dá)知識(shí)?選取多少特征?到什么時(shí)候?yàn)橹?這些問(wèn)題對(duì)于人類來(lái)說(shuō)目前都是一個(gè)自發(fā)的直覺過(guò)程,缺乏理性思考. 繼承文獻(xiàn)[25]的思想,下面我們利用粗糙集和概念耦合的思想來(lái)努力回答這些問(wèn)題.
在決策系統(tǒng)DS=(U,A,d)中,假定條件屬性集A1?A2?…?An?…=A是一個(gè)不斷變化的過(guò)程,也是一個(gè)認(rèn)識(shí)不斷深入的過(guò)程,我們通過(guò)A來(lái)表達(dá)和認(rèn)識(shí)d.
認(rèn)識(shí)收斂有2條標(biāo)準(zhǔn):
1)POSA(d)=U;
這2條標(biāo)準(zhǔn)也是認(rèn)識(shí)收斂的定義. 標(biāo)準(zhǔn)1表明決策系統(tǒng)DS=(U,A,d)是一致的,所有概念的邊界區(qū)域?yàn)榭?,它們的上近似等于下近似;?biāo)準(zhǔn)2表明增加的屬性An-An-1對(duì)于區(qū)分表中的個(gè)體不起作用. 標(biāo)準(zhǔn)1是理想的標(biāo)準(zhǔn),標(biāo)準(zhǔn)2是現(xiàn)實(shí)的標(biāo)準(zhǔn),這是因?yàn)楝F(xiàn)實(shí)世界中并不是每個(gè)概念都是精確的,很多概念都是含糊不清、邊界線不為空的.
在信息系統(tǒng)IS=(U,A)中,因?yàn)闆]有決策屬性d的約束,認(rèn)識(shí)收斂的標(biāo)準(zhǔn)定義如下:
3) 對(duì)于任意的概念X?U,有:
且
標(biāo)準(zhǔn)3表明從An-1到An對(duì)于信息系統(tǒng)IS=(U,A)中的每一個(gè)概念都不會(huì)發(fā)生變化.
標(biāo)準(zhǔn)1是一個(gè)理想的標(biāo)準(zhǔn),在這個(gè)標(biāo)準(zhǔn)中所有的對(duì)象都被清晰地區(qū)分,沒有不確定、沒有模糊、也沒有粗糙;標(biāo)準(zhǔn)2和標(biāo)準(zhǔn)3只是一個(gè)局部收斂的標(biāo)準(zhǔn),隨著認(rèn)識(shí)的進(jìn)一步深入,比如從An到An+1這些指標(biāo)值也許不等于1,這時(shí)認(rèn)識(shí)達(dá)到了一個(gè)新的高度. 例如:長(zhǎng)期以來(lái)人們識(shí)別某個(gè)人,一般是根據(jù)相貌、體態(tài)、步態(tài)、聲音等,這種識(shí)別方式雖然有一定的誤差,但基本穩(wěn)定. 只有到了近年來(lái),使用DNA技術(shù)才能徹底區(qū)分不同的人.
當(dāng)然,我們可以等價(jià)地用概念漂移度來(lái)定義和度量認(rèn)識(shí)收斂,這里不再贅述.
從粒計(jì)算、粗糙集和數(shù)據(jù)流、概念漂移的角度觀察信息表,以上下近似為工具,本文定義了概念的上下近似漂移、上下近似耦合等概念,分析了信息表內(nèi)概念隨屬性的變化而變化的特性.從單個(gè)概念和整個(gè)信息表或決策表2種不同的粒度層次上分析和度量了概念漂移和概念耦合.從信息表和決策表的角度定義了認(rèn)識(shí)收斂的概念,指出其認(rèn)識(shí)論意義.
進(jìn)一步的研究有:運(yùn)用更多的粒計(jì)算、粗糙集不確定性分析方法和指標(biāo),分析和度量數(shù)據(jù)流或信息表中隱藏的不確定性,并將結(jié)果應(yīng)用于集成分類器和數(shù)據(jù)流分類.
[1]Babcock B, Babu S, Dater M, et al. Models and issues in data stream systems[C] //Proc of the 21st ACM SIGACT-SIGMOD-SIGART Symp on Principles Database Systems. New York: ACM, 2002: 1-30
[2]Wang Tao, Li Zhoujun, Yan Yuejin, et al. A survey of classification of data streams[J]. Journal of Computer Research and Development, 2007, 44(11): 1809-1815 (in Chinese)
(王濤, 李舟軍, 顏躍進(jìn), 等. 數(shù)據(jù)流挖掘分類技術(shù)綜述[J]. 計(jì)算機(jī)研究與發(fā)展, 2007, 44(11): 1809-1815)
[3]Xu Wenhua, Qin Zheng, Chang Yang. Semi-supervised learning based ensemble classifier for stream data[J]. Pattern Recognition and Artificial Intelligence, 2012, 25(2): 292-299 (in Chinese)
(徐文華, 覃征, 常揚(yáng). 基于半監(jiān)督學(xué)習(xí)的數(shù)據(jù)流集成分類算法[J]. 模式識(shí)別與人工智能, 2012, 25(2): 292-299)
[4]Hobbs J R. Granularity[C] //Proc of the 9th Int Joint Conf on Artificial Intelligence. San Francisco, CA: Morgan Kaufmann, 1985: 432-435
[5]Lin T Y. Granular Computing[M]. Announcement of the BASIC Special Interest Group on Granular Computing, 1997[6]Zadel L A. Fuzzy sets[J]. Information and Control, 1965, 8(3): 338-353
[7]Pawlak Z. Rough sets[J]. International Journal of Computer and Information Sciences, 1982, 11(5): 341-356
[8]Pawlak Z. Rough Sets—Theoretical Aspect of Reasoning about Data[M]. Dordrecht, the Netherland: Kluwer Academic Publishers, 1991
[9]Wang Guoyin. Rough Set Theory and Knowledge Acquisition[M]. Xi’an: Xi’an Jiaotong University Press, 2001 (in Chinese)
(王國(guó)胤. Rough集理論與知識(shí)獲取[M]. 西安: 西安交通大學(xué)出版社, 2001)
[10]Zhang Bo, Zhang Ling. Theories and Applications for Problem Solving[M]. Beijing: Tsinghua University Press, 1990 (in Chinese)
(張鈸, 張鈴. 問(wèn)題求解理論及應(yīng)用[M].北京: 清華大學(xué)出版社,1990)
[11]Li Deyi, Meng Haijun, Shi Xuemei. Membership clouds and membership cloud generators[J]. Journal of Computer Research and Development, 1995, 32(6): 16-18 (in Chinese)
(李德毅, 孟海軍, 史雪梅. 隸屬云和隸屬云發(fā)生器[J]. 計(jì)算機(jī)研究與發(fā)展, 1995, 32(6): 16-18)
[12]Deng Dayong, Chen Lin. Parallel Reducts and F-rough Sets[M] //Cloud Model and Granular Computing. Beijing: Science Press, 2012: 210-228 (in Chinese)
(鄧大勇, 陳林. 并行約簡(jiǎn)與F-粗糙集[M] //云模型與粒計(jì)算. 北京:科學(xué)出版社, 2012: 210-228)
[13]Chen Lin. Parallel reducts and decision in various levels of granularity[D]. Jinhua, Zhejiang: Zhejiang Normal University, 2013 (in Chinese)
(陳林. 粗糙集中不同粒度層次下的并行約簡(jiǎn)及決策[D]. 浙江金華: 浙江師范大學(xué), 2013)
[14]Cao Fuyuan, Huang Joshua Zhexue. A concept-drfting detection algorithm for categorical evolving data[G] //LNAI 7819: Proc of the 17th Pacific-Asia Conf on Knowledge Discovery and Data Mining. Berlin: Springer, 2013: 485-496
[15]Deng Dayong, Pei Minghua, Huang Houkuan. The F-rough sets approaches to the measures of concept drift[J]. Journal of Zhejiang Normal University: Natural Sciences, 2013, 36(3): 303-308 (in Chinese)
(鄧大勇, 裴明華, 黃厚寬. F-粗糙集方法對(duì)概念漂移的度量[J]. 浙江師范大學(xué)學(xué)報(bào): 自然科學(xué)版, 2013, 36(3): 303-308)
[16]Deng Dayong, Xu Xiaoyu, Huang Houkuan. Concept drifting detection for categorical evolving data based on parallel reducts[J]. Journal of Computer Research and Development, 2015, 52(5): 1071-1079 (in Chinese)
(鄧大勇, 徐小玉, 黃厚寬. 基于并行約簡(jiǎn)的概念漂移探測(cè)[J]. 計(jì)算機(jī)研究與發(fā)展, 2015, 52(5): 1071-1079)
[17]Pawlak Z, Skowron A. Rough membership functions[C] //Adances in the Dempster Shafer Theory of Evidence. New York: John Wiley, 1994: 251-271
[18]Miao Duoqian, Hu Guirong. A heuristic algorithm for reduction of knowledge[J]. Journal of Computer Research and Development, 1999, 36(6): 681-684 (in Chinese)
(苗奪謙, 胡桂榮. 知識(shí)約簡(jiǎn)的一種啟發(fā)式算法[J]. 計(jì)算機(jī)研究與發(fā)展, 1999, 36(6): 681-684)
[19]Wang Guoyin, Yu Hong, Yang Dachun. Decision table reduction on conditional information entropy[J]. Chinese Journal of Computers, 2002, 25(7): 759-766 (in Chinese)
(王國(guó)胤, 于洪, 楊大春. 基于條件信息熵的決策表約簡(jiǎn)[J]. 計(jì)算機(jī)學(xué)報(bào), 2002, 25(7): 759-766)
[20]Yang Ming. Approximate reduction based on conditional information entropy in decision tables[J]. Acta Eletronica Sinica, 2007, 35(11): 2156-2160 (in Chinese)
(楊明. 決策表中基于條件信息熵的近似約簡(jiǎn)[J]. 電子學(xué)報(bào), 2007, 35(11): 2156-2160)
[21]Liang J Y, Chin K S, Dang C Y. A new method for measuring uncertainty and fuzziness in rough set theory[J]. International Journal of General Systems, 2002, 31(4): 331-342
[22]Liang Jiye, Li Deyu. Uncertainty and Knowledge Acquisition in Information Systems[M]. Beijing: Science Press, 2005 (in Chinese)
(梁吉業(yè), 李德玉. 信息系統(tǒng)中的不確定性與知識(shí)獲取[M]. 北京: 科學(xué)出版社, 2005)
[23]Lin Jiayi, Peng Hong, Zheng Qilun. A new algorithm for value reduction based on rough set[J]. Computer Engineering, 2003, 29(4): 70-71 (in Chinese)
(林嘉宜, 彭宏, 鄭啟倫. 一種新的基于粗糙集的值約簡(jiǎn)算法[J]. 計(jì)算機(jī)工程, 2003, 29(4): 70-71)
[24]Qian Y H, Liang J Y, Pedrycz W, et al. Positive approximation: An accelerator for attribute reduction in rough set theory[J]. Artificial Intelligence, 2010, 174: 597-618
[25]Deng Dayong, Jiang Feng, Liu Qing. Data reduction & machine learning based on rough set approach[J]. Computer and Modernization, 2002 (1): 21-23 (in Chinese)
(鄧大勇, 江峰, 劉清. 基于Rough 集方法的數(shù)據(jù)約簡(jiǎn)與機(jī)器學(xué)習(xí)[J]. 計(jì)算機(jī)與現(xiàn)代化, 2002 (1): 21-23)
Deng Dayong, born in 1968. PhD and associate professor. His main research interests include rough sets, granular computing and data mining.
Miao Duoqian, born in 1964. PhD. Professor and PhD supervisor. His main research interests include rough sets, granular computing, data mining, comput-ational intelligence and image processing.
Huang Houkuan, born in 1940. Professor and PhD supervisor. His main research interests include computational intelligence, data mining and multi-agent system.
Analysis of Concept Drifting and Uncertainty in an Information Table
Deng Dayong1,2,4, Miao Duoqian2, and Huang Houkuan3
1(CollegeofMathematics,PhysicsandInformationEngineering,ZhejiangNormalUniversity,Jinhua,Zhejiang321004)2(SchoolofElectronicsandInformation,TongjiUniversity,Shanghai201804)3(SchoolofComputerandInformationTechnology,BeijingJiaotongUniversity,Beijing100044)4(XingzhiCollege,ZhejiangNormalUniversity,Jinhua,Zhejiang321004)
Concept drifting detection is one of hot topics in data stream mining, and analysis of uncertainty is dominant in rough set theory. Combined with the ideas of data stream, concept drifting, rough sets and F-rough sets, a lot of concepts such as concept drifting of upper approximation, concept drifting of lower approximation, concept coupling of upper approximation and concept coupling of lower approximation etc are defined. The change of concepts in an information system is analyzed with these definitions. With the positive region, integral concept drifting, integral concept coupling are defined. The analysis and measurement for the change of concept uncertainty are conducted. From the view of epistemology, the concept of cognition convergence is defined from the ways of idealism and realism. It provides heuristic information for realizing the world of human beings from the viewpoints of granular computing and rough sets.
rough sets; concept drift; attribute reduction; concept coupling; upper and lower approximation
2015-09-06;
2016-02-05
國(guó)家自然科學(xué)基金項(xiàng)目(61473030,61572442,61203247,61273304,61573259,61472166);浙江省自然科學(xué)基金項(xiàng)目(LY15F020012,LY13F020016)
TP18
This work was supported by the National Natural Science Foundation of China (61473030,61572442,61203247,61273304,61573259,61472166) and the Natural Science Foundation of Zhejiang Province of China (LY15F020012,LY13F020016).