李萍
(運(yùn)城學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系,運(yùn)城044000)
基于增量式的屬性約簡(jiǎn)在汽車性能中的應(yīng)用
李萍
(運(yùn)城學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系,運(yùn)城044000)
研究粗糙集理論的重要內(nèi)容屬性約簡(jiǎn),在此基礎(chǔ)上描述基于增量式的屬性約簡(jiǎn)算法。針對(duì)影響消費(fèi)人群對(duì)汽車接受因素的多個(gè)屬性進(jìn)行約簡(jiǎn),根據(jù)條件屬性對(duì)決策屬性影響的重要性,對(duì)條件屬性進(jìn)行約簡(jiǎn),最終保留核心屬性。
粗糙集;增量式;屬性約簡(jiǎn);約策樹
數(shù)據(jù)挖掘是從海量的數(shù)據(jù)中提取潛在的信息和知識(shí),由于操作的對(duì)象是巨量的數(shù)據(jù)庫,在空間和時(shí)間的復(fù)雜問題是一個(gè)非常重要的環(huán)節(jié),最后將直接影響挖掘結(jié)果和質(zhì)量。因此波蘭數(shù)學(xué)家Z.Pawlak在1982年提出了粗糙集理論,旨在處理不確定和不精確數(shù)據(jù),其主要思想是在保持知識(shí)庫分類能力不變的前提下,通過約簡(jiǎn)不相關(guān)的屬性,從而導(dǎo)出問題的決策或分類規(guī)則。
一個(gè)挖掘系統(tǒng)可以由四元組S=(U,A,V,f)表示,其中U表示對(duì)象的非空有限集合,稱為論域;A表示屬性的非空有限集合;V是屬性的值域集;f是一個(gè)信息函數(shù),f:U*A→V它為每個(gè)對(duì)象的每個(gè)屬性賦予一個(gè)信息值。
屬性A由條件屬性C和決策屬性D組成,屬性子集C'?C關(guān)于D的重要性定義為σCD(C')=γC(D)-γC-C'(D),如果當(dāng)C'={a}時(shí),屬性a∈C關(guān)于D的重要性為σCD(a)=σC(D)-γC-{a}'(D)。在決策表中,不同的屬性可能具有不同的重要性。如果去掉某屬性會(huì)相應(yīng)的改變分類,則說明屬性重要,改變的程度越大,重要性越高。
為了找出某些屬性(或?qū)傩约┑闹匾?,增量式屬性約簡(jiǎn)是從表中去掉一些屬性,再根據(jù)約簡(jiǎn)后的屬性對(duì)分類是否有影響。若去掉該屬性相應(yīng)分類變化較大,則說明該屬性重要性高,否則,說明該屬性的重要性低。這時(shí),我們得到的就是信息系統(tǒng)的一個(gè)約簡(jiǎn)。
算法描述:
輸入:信息系統(tǒng)S=(U,A,V,f),其中U為論域,A為屬性集,A=C∪D,C∩D=?,C=(c1,c2,…,cn-1)為條件屬性集合,D=(d1,d2,…,dk)為決策屬性集合。
輸出:約簡(jiǎn)red
(1)初始化:red=C;
(2)令temp=red;
(3)如果temp≠?,進(jìn)行循環(huán):
取a∈C,判斷:如果POSred-{a}(D)=POSc(D)則:red=red-{a}并temp=red;否則temp=temp-{a};
(4)輸出red。
S=(U,A,V,f)汽車性能分析系統(tǒng)中論域U={x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11,x12,x13,x14,x15,x16,x17},將屬性集A可進(jìn)一步劃分為兩個(gè)集合:條件屬性集C={買入價(jià)格,維修價(jià)格,車門數(shù)量,荷載人數(shù),車廂容量,安全性能,接受程序}和決策屬性集D={不接受和不接受},并滿足A=C胰D,C∩D=?,在應(yīng)用中,我們根據(jù)汽車的買入價(jià)格,維修價(jià)格,車門數(shù)量,荷載人數(shù),車廂容量,安全性能,接受程序來判斷汽車是否被接受。V1是屬性買入價(jià)格a1的值域={v-high,high,med,low},V2是屬性車門數(shù)量a3的值域={2,3,4},V3是屬性買入價(jià)格a5的值域={small,med,big},V1是接受屬性a7的值域={acc,unacc}。汽車性能指標(biāo)表如下所示。
令Q={e}決策屬性集,P={a1,a2,a3,a4,a5,a6}為條件屬性全集,則U/ind(P)={{1},{2},{3},{4},{5},{6},{7},{8},{9},{10},{11},{12},{13},{14},{15},{16},{17},}
U/Q={{4,12,13,14,6},{1,10,11,15,16,17,2,3,5,7,8,9}}
因此,論域U是P上相對(duì)于Q一致的,這說明該決策表是完全確定的決策表,決策表不含有不一致信息。
表1 汽車性能指標(biāo)表
所以屬性a1,a5,a6屬性是不省略,屬性a2與a3不能同時(shí)刪除,所以最后的核集為{a1,a2,a5,a6}或{a1,a3,a5,a6}。
基于粗糙集的增量式屬性約簡(jiǎn)針對(duì)決策表的每個(gè)決策規(guī)則,去掉冗余屬性,提高信息系統(tǒng)的信息質(zhì)量,并且對(duì)汽車接受影響因素的數(shù)據(jù)進(jìn)行了驗(yàn)證,減少了不必要的規(guī)則,提高了數(shù)據(jù)的質(zhì)量。
[1]張文東,李明壯,石小艷.基于粗糙集理論的屬性約簡(jiǎn)算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2008(29)11:5795-5797.
[2]龍浩,徐超.基于改進(jìn)差別矩陣的屬性約簡(jiǎn)增量式更新算法[J].計(jì)算機(jī)科學(xué),2015(42)6:251-254.
[3]陳昊,楊俊安,莊鎮(zhèn)泉.變精度粗糙集的屬性核和最小屬性約簡(jiǎn)算法[J].計(jì)算機(jī)學(xué)報(bào),2012,35(5):1011-1014.
[4]王國(guó)胤.Rough集理論與知識(shí)獲?。跠].西安:西安交通大學(xué)出版社,2001.
[5]葛浩,李龍澍,楊傳健.基于沖突域的高效屬性約簡(jiǎn)算法[J].計(jì)算機(jī)學(xué)報(bào),2012,35(2):342-344.
[6]張利,盧秀穎,吳華玉,郝勝智.基于粗糙集的啟發(fā)式值約簡(jiǎn)的改進(jìn)算法[J].器儀表學(xué)報(bào),2009,30(1):82-84.
Application of Incremental-Based Attribute Reduction in Automobile Performance
LI Ping
(Department of Computer Science and Technology,Yuncheng University,Yuncheng 044000)
Studies the important content of rough set theory,such as of attribute reduction,which describes the algorithm of incremental-based attribute reduction in details.Reduces the accepted factor of multiple properties on the car,according to the affected importance of condition attributes,reduces some attributes in order to retain the core attributes.
Rough Set;Relative Dependence;Property Reduced
1007-1423(2016)23-0024-03DOI:10.3969/j.issn.1007-1423.2016.23.006
李萍(1975-),女,講師,研究生,研究方向?yàn)閿?shù)據(jù)挖掘
2016-05-10
2016-08-05