摘要:針對(duì)目前各領(lǐng)域數(shù)據(jù)的復(fù)雜性、概念邊界的模糊性、需求的不確定性,該文提出了一種基于云模型的模糊數(shù)據(jù)挖掘分析方法,采用了云模型在定性語(yǔ)言值和定量數(shù)值之間的不確定轉(zhuǎn)換模型,為定性與定量相結(jié)合的數(shù)據(jù)處理分析提供了有力的手段。其中包括:對(duì)數(shù)據(jù)進(jìn)行概念和特征的模糊識(shí)別;建立隸屬云模型,刻畫(huà)數(shù)字特征;通過(guò)統(tǒng)計(jì)、計(jì)算、分析得到實(shí)際需求的分類信息。實(shí)驗(yàn)結(jié)果表明了該分析方法能在大量的復(fù)雜數(shù)據(jù)空間中挖掘出有價(jià)值的信息,符合實(shí)際應(yīng)用。
關(guān)鍵詞:數(shù)據(jù)挖掘;云模型;隸屬度;模糊概念;特征因子;定性與定量轉(zhuǎn)換
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2013)04-0870-03
The Research and Application of Fuzzy Data Mining Based on Cloud Model
DANG Hui, WANG Zhi-he, PAN Li-na
(College of Computer Science and Engineering, Northwest Normal University, Lanzhou 730070, China)
Abstract: Currently, in many fields, data is complicated; the boundary of concept is fuzzy; the demand is uncertain. Then a method of fuzzy data mining based on cloud model is proposed in this paper. This method adopt a uncertain transforming model between qualitative concepts and quantitative expressions, and provide an effective tool for data processing analysis combining quality with quantity. The content include: fuzzy identification of concepts and characteristic on the data; the establishment of membership cloud model and the depiction of digital characteristics; getting classified information based on actual demand by statistics, calculating and analysis. The results of experiment show that the valuable information can be mined in the large and complex data space by this analysis method with practical significance.
Key words: data mining; cloud model; membership degree; fuzzy concept; characteristic factor; transformation between quality and quantity
1 概述
隨著科學(xué)技術(shù)的進(jìn)步,數(shù)據(jù)的采集涉及的領(lǐng)域越來(lái)越廣(如經(jīng)濟(jì)、軍事、物流、金融、電信等),現(xiàn)實(shí)中的數(shù)據(jù)通常是復(fù)雜或混合、結(jié)構(gòu)化或非結(jié)構(gòu)化、不完整、特征描述非精確的,而這些模糊復(fù)雜的數(shù)據(jù)集,單純的距離測(cè)度已不能衡量樣本間的相似性,不能提取其重要特征,無(wú)法完成數(shù)據(jù)的挖掘分析。
現(xiàn)在的研究狀況顯示,許多研究者在確定性的數(shù)據(jù)挖掘技術(shù)方面已經(jīng)取得的豐碩的成果,提出了許多有效地算法,并滿足了各種不同的實(shí)際應(yīng)用,但是對(duì)模糊復(fù)雜的數(shù)據(jù)挖掘技術(shù)研究還處在不成熟的階段,仍存在大量的問(wèn)題有待解決。目前,越來(lái)越多的領(lǐng)域涉及到模糊概念的處理和表達(dá),傳統(tǒng)的模糊數(shù)學(xué)已經(jīng)不能滿足模糊研究的需要,而云模型[1]作為知識(shí)表示的基礎(chǔ),能把數(shù)據(jù)的模糊性和隨機(jī)性完全集成到一起,構(gòu)成定性和定量相互間的映射,可以解決一些模糊概念下數(shù)據(jù)挖掘的實(shí)際問(wèn)題。因此,利用云模型及相關(guān)理論從模糊、不確定性數(shù)據(jù)集中挖掘出有價(jià)值的知識(shí)有一定的研究意義。
2 模糊概念
“模糊”是人類感知萬(wàn)物、獲取知識(shí)、思維推理、決策實(shí)施的重要特征?!澳:北取扒逦彼男畔⑷萘扛?,內(nèi)涵更豐富,更符合客觀世界。在人類的思維中,有許多模糊的概念,如大小,冷熱等,這些概念沒(méi)有明確的內(nèi)涵和外延,也就無(wú)法用傳統(tǒng)的精確數(shù)學(xué)加以描述。
模糊集理論[2]最早由zadeh(1965)提出,用來(lái)描述人的認(rèn)識(shí)中關(guān)于事物自身在縱橫兩方面差異的中間過(guò)渡所呈現(xiàn)的類屬和形態(tài)界限的不確定性,是“亦此即彼”界限的不確定性,其概念具有內(nèi)涵分明、外延不明確的特性。由于模糊理論的核心概念一隸屬函數(shù)固有的不徹底性,基于模糊理論建立的定性定量的轉(zhuǎn)換模型就存在先天固有的局限性。在傳統(tǒng)的模糊集合理論和統(tǒng)計(jì)理論的基礎(chǔ)上的云模型汲取了自然語(yǔ)言的優(yōu)點(diǎn)為實(shí)現(xiàn)定性概念與定量數(shù)據(jù)間的相互轉(zhuǎn)換提供了新的有力工具。
3 云模型及相關(guān)理論
3.1基本概念[1]
云模型是李德毅院士于1996年在傳統(tǒng)模糊數(shù)學(xué)和概率統(tǒng)計(jì)的基礎(chǔ)上提出的定性定量互換模型,它把概念的模糊性(邊界的亦此亦彼性)和隨機(jī)性(發(fā)生的概率)有機(jī)的綜合在一起。設(shè)[U]是一個(gè)論域,[U={x}],[T]為[U]上的一個(gè)概念,[U]中的元素[x]對(duì)于[T]所表達(dá)的定性概念的隸屬度[CT(x)](或稱[x]與[T]的相容度)是一個(gè)具有穩(wěn)定傾向的隨機(jī)數(shù),隸屬度在論域上的分布稱為隸屬云,簡(jiǎn)稱云。[CT(x)]在[[0,1]]取值,云是從論域[U]到區(qū)間[[0,1]]的映射,即[x∈U,x→CT(x).]
3.2云的數(shù)字特征、正態(tài)云模型及云發(fā)生器
云的數(shù)字特征用期望值[Ex](Expected Value)、熵[En](Entropy)、超熵[He](Hyper Entropy)三個(gè)變量表征。其中[Ex]可以認(rèn)為是所有云滴在數(shù)域中的重心位置, 反映了最能夠代表這個(gè)定性概念在數(shù)域的坐標(biāo),即[Ex]隸屬于這個(gè)定性概念的程度是100%;[En]是定性概念亦此亦彼性的度量, 反映了在數(shù)域中可被語(yǔ)言值接受的數(shù)域范圍, 即模糊度,[En]越大,概念接受的數(shù)值范圍越大,概念越模糊;[He]是熵[En]的離散程度, 即熵的熵, 反映了每個(gè)數(shù)值代表這個(gè)語(yǔ)言值確定度的凝聚性, 也反映云滴的凝聚程度,[He]越大,云滴離散度越大,隸屬度的隨機(jī)性越大,云的厚度也越大。
在實(shí)際應(yīng)用中,社會(huì)和自然科學(xué)的各個(gè)分支都證明了正態(tài)分布的普適性,正態(tài)云[3]成為了最常見(jiàn)和常用的云模型。云模型除了完整的形態(tài)外,還有半升云和半降云兩種半云形態(tài)。半云用來(lái)表達(dá)具有單側(cè)特征的定性概念。例如用半升云表示“遠(yuǎn)”或“重”;半降云表示“近”或“輕”。由一個(gè)半升云、一個(gè)半降云和一個(gè)均勻分布,可以生成梯形云,表達(dá)裕度大的概念。例如“大約二、三十米”。
云發(fā)生器[4]有正向云發(fā)生器和逆向云發(fā)生器。正向云發(fā)生器輸入為表示定型概念[A]的三個(gè)數(shù)字特征值[Ex]、[En]、[He]和云滴數(shù)[N],輸出為[N]個(gè)云滴的定量值以及每個(gè)云滴代表概念[A]的確定度。逆向云發(fā)生器輸入為[N]個(gè)云滴的定量值及每個(gè)云滴代表概念的確定度[(x,y)]。輸出為這[N]個(gè)云滴表示的定性概念[A]的期望值[Ex],熵[En]和超熵[He]。以上是一維云模型發(fā)生器,多維云模型發(fā)生器可參見(jiàn)有關(guān)文獻(xiàn)[5]。
4 基于云模型的模糊數(shù)據(jù)挖掘分析
用云模型進(jìn)行知識(shí)的挖掘[6],一般來(lái)說(shuō)首先找出挖掘?qū)ο蟮膸讉€(gè)定性概念,對(duì)每個(gè)定性概念進(jìn)行模糊地程度劃分例如學(xué)習(xí)成績(jī)可以分優(yōu)、良、中、差,這四種程度,然后對(duì)概念構(gòu)建云模型,確定隸屬云的數(shù)字特征,最后綜合每個(gè)概念,根據(jù)綜合的模糊集及相關(guān)指標(biāo)即可挖掘出有價(jià)值的信息。
4.1概念類型及特征的識(shí)別
1) 根據(jù)特定領(lǐng)域的理論和實(shí)際情況可把概念或知識(shí)分為[m]種類型[(a1,a2,…,am)],每種類型代表一種有價(jià)值的分類。
2) 抽取[n]個(gè)特征因子[(x1,x2,…,xn)],每一個(gè)特征因子有對(duì)應(yīng)的實(shí)際含義(可以包含多種模糊劃分),每一種含義對(duì)應(yīng)一個(gè)數(shù)值(可以是一個(gè)數(shù)值區(qū)間)。
4.2正態(tài)云模型的構(gòu)建
1) 根據(jù)之前提取的特征因子,視實(shí)際問(wèn)題的需要定義與特征因子相對(duì)應(yīng)的歸屬類型模糊集[{A1,A2,…,An}]。
2) 建立隸屬云模型
確定[n]個(gè)模糊集[{A1,A2,…,An}]的隸屬云,即確定[n]個(gè)模糊集的隸屬云的三個(gè)數(shù)字特征值[(Ex,En,He)],根據(jù)統(tǒng)計(jì)分析和計(jì)算可以確知[n]個(gè)模糊集的隸屬云的三個(gè)數(shù)字特征分別為:[A1(Ex1,En1,He1),A2(Ex2,En2,He2),…,An(Exn,Enn,Hen)]。根據(jù)三個(gè)數(shù)字特征利用正向云發(fā)生器算法計(jì)算各特征因子相對(duì)于模糊集合的隸屬度[μAi(x) (i=1,2,…n)]。
4.3知識(shí)表示
令[f(x)=(x1,x2,…,xn)],即[f(x)]表示知識(shí)具有的特定的定位模式,再令綜合模糊集
[H=A1⊕A2⊕…⊕An]表示一個(gè)綜合的水平指標(biāo),并定義為:
[μH(x)=1 μAi(x)=1 , i=1,2,…,ni=1n?iμAi(x) μAi(x)≠1 , i=1,2,…,n ]
其中,[?i(i=1,2,…,n)]為權(quán)重,可以根據(jù)模擬數(shù)據(jù)和具體情況而定,且[i=1n?i=1,(i=1,2,…,n)]。
4.4知識(shí)的挖掘歸類
根據(jù)4.1中定義的概念或知識(shí)的類別將挖掘到的信息進(jìn)行分類:[a1]類([μH(x)≥λ1]),[a2]類([λ2 ≤μH(x)<λ]),…,[am]類([ μH(x)<λm-1])。其中,[λ1,λ2,…λm-1]為經(jīng)分析選取的參數(shù)指標(biāo)。由于概念的分類是模糊的,因此類別信息和[λ]的選取有時(shí)是按需求、實(shí)際情況而定。
通過(guò)云模型在某個(gè)定性概念與其定量表示之間的不確定性轉(zhuǎn)換模型將復(fù)雜的數(shù)據(jù)、模糊的概念轉(zhuǎn)換成對(duì)應(yīng)其概念的隸屬云模型和數(shù)字特征,并經(jīng)過(guò)分析、計(jì)算最后得到的有價(jià)值的分類信息,這些信息將指導(dǎo)各領(lǐng)域進(jìn)行決策、分析、預(yù)測(cè)等。
5實(shí)驗(yàn)分析
文章以某大學(xué)依據(jù)學(xué)生對(duì)課程設(shè)置的滿意程度進(jìn)行課程分類為實(shí)例進(jìn)行驗(yàn)證,為了保證方法的正確性和有效性,實(shí)驗(yàn)數(shù)據(jù)是通過(guò)對(duì)某大學(xué)大二學(xué)生進(jìn)行抽樣調(diào)查,以調(diào)查問(wèn)卷進(jìn)行統(tǒng)計(jì)得到的。
首先,根據(jù)經(jīng)驗(yàn)可以把學(xué)生對(duì)某一門(mén)課程的滿意程度分為滿意,較滿意,一般,較不滿意,不滿意五種類型,即(m=5):[a1]=“滿意”; [a2]=“較滿意”; [a3]=“一般”; [a4]=“較不滿意”; [a5]=“不滿意”。
其次,抽取了五個(gè)特征因子[(x1,x2,x3,x4,x5)]分別代表:課程人數(shù)比例(全年級(jí)選修這門(mén)課程的人數(shù)占全年級(jí)總?cè)藬?shù)的比例);課程對(duì)我的幫助;任課教師及其授課方式;課程安排(包括考核方式);課程內(nèi)容 ( 注:比例取值(0.1~1.0),對(duì)剩余四項(xiàng)實(shí)行評(píng)分制,分為五個(gè)檔次:很好(9.0~10);較好(8.0~8.9);一般(7.0~7.9);較差(6.0~6.9);差(0~5.9) )。經(jīng)統(tǒng)計(jì)以五門(mén)有特色的課程為例進(jìn)行說(shuō)明,統(tǒng)計(jì)該大學(xué)課程根據(jù)學(xué)生滿意度分類的特征因子的情況。然后,運(yùn)用云模型及相關(guān)理論可以確定課程的五個(gè)特征因子對(duì)應(yīng)的五個(gè)模糊集的三個(gè)數(shù)字特征,并通過(guò)計(jì)算可以得到這些課程特征因子的隸屬度云團(tuán),且每一個(gè)特征因子對(duì)應(yīng)多個(gè)隸屬度,體現(xiàn)了隸屬度的模糊性。以每個(gè)特征因子數(shù)值所對(duì)應(yīng)的多個(gè)隸屬度的平均值作為該特征因子的隸屬度,分別表示為[μA1],[μA2],[μA3],[μA4],[μA5]。然后根據(jù)經(jīng)驗(yàn)分析設(shè)定權(quán)重系數(shù)[?i]([?1]=0.3,[?2]=0.15,[?3]=0.15,[?4]=0.2,[?5]=0.2)和比對(duì)參數(shù)[λi]([λ1]=0.8;[λ2]=0.7;[λ3]=0.5;[λ4]=0.4)。
最后,通過(guò)4.3的計(jì)算可以得到[μH(x)],再根據(jù)分類原則可以得到最終結(jié)果如表1所示(具體計(jì)算及比較過(guò)程略)。
由于“滿意”屬于一個(gè)模糊的概念,根據(jù)“滿意”或“不滿意”很難進(jìn)行分類,本實(shí)驗(yàn)通過(guò)云模型中的隸屬云的計(jì)算和建模[7]完成了根據(jù)學(xué)生對(duì)課程滿意度(即學(xué)生對(duì)課程的滿意度量隸屬于“滿意”這個(gè)概念的程度)來(lái)對(duì)課程進(jìn)行分類以指導(dǎo)今后對(duì)課程進(jìn)行改革或幫助學(xué)生完成選課等。
6 結(jié)束語(yǔ)
由于概念、屬性中存在著大量的模糊性和不確定性,該文利用云模型自身處理模糊和隨機(jī)性的優(yōu)勢(shì)將定性分析和定量計(jì)算結(jié)合起來(lái),得到了模糊概念多屬性的隸屬云團(tuán),并建立了一種基于云的分類方法。通過(guò)一個(gè)某大學(xué)依據(jù)學(xué)生對(duì)課程設(shè)置的滿意程度進(jìn)行課程分類的實(shí)例進(jìn)行實(shí)驗(yàn)驗(yàn)證,證明了其分類方法的有效性和基于云模型的模糊數(shù)據(jù)挖掘研究的應(yīng)用價(jià)值。
參考文獻(xiàn):
[1] 邸凱昌,李德毅,李德仁.云理論及其在空間數(shù)據(jù)發(fā)掘和知識(shí)發(fā)現(xiàn)中的應(yīng)用[J].中國(guó)圖像圖形學(xué)報(bào),1999,4( 11) : 930- 935.
[2] 張振良.模糊集理論和方法[M].武漢:武漢大學(xué)出版社,2010.
[3] 李德毅,劉常昱.論正態(tài)云模型的普適性 [J].中國(guó)工程科學(xué).2004,6(8):30-32.
[4] 李德毅,孟海軍,史雪梅.隸屬云和隸屬云發(fā)生器[ J].計(jì)算機(jī)研究與發(fā)展,1995, 2( 6): 16- 21.
[5] 楊朝輝,李德毅.二維云模型及其在預(yù)測(cè)中的應(yīng)用[ J].計(jì)算機(jī)學(xué)報(bào),1998, 21( 11) : 962- 968.
[6] 楊杰,姚莉秀.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用 [M].上海:上海交通大學(xué)出版社,2011.
[7] 廖芹,郝志峰,陳志宏.數(shù)據(jù)挖掘與數(shù)學(xué)建模 [M].北京:國(guó)防工業(yè)出版社,2010.