国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

C4.5數(shù)據(jù)挖掘算法的改進(jìn)

2013-10-23 07:48:08謝秋華
三明學(xué)院學(xué)報(bào) 2013年2期
關(guān)鍵詞:子集個(gè)數(shù)增益

謝秋華

(三明學(xué)院 信息工程學(xué)院 物聯(lián)網(wǎng)應(yīng)用福建省高校工程研究中心,福建 三明 365004)

隨著科技的進(jìn)步,社會(huì)各方面都獲得了極大的發(fā)展,在各個(gè)領(lǐng)域,都出現(xiàn)了一個(gè)同樣的問題:數(shù)據(jù)呈海量般增加,里面包含著許多對(duì)人們有用的信息而人們卻無(wú)從知曉。為了解決這個(gè)問題,人們提出了數(shù)據(jù)挖掘這一新方法。數(shù)據(jù)挖掘的功能有很多種,目前主要有:分類、關(guān)聯(lián)分析、聚類分析、異常檢測(cè)等,這些功能是相互聯(lián)系的,并不是各自孤立的。解決分類問題的一般方法有決策樹分類法、基于規(guī)則的分類法、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和樸素貝葉斯分類法[1]。決策樹分類法目前較為常用的有 ID3、C4.5 等。

1 算法 C4.5

C4.5是在ID3的基礎(chǔ)上改進(jìn)后得到的,除了具有ID3的優(yōu)點(diǎn),還具有以下優(yōu)點(diǎn):

(1)不是根據(jù)信息增益而是根據(jù)信息增益率來(lái)選擇屬性,避免了ID3趨向于選擇取值多的屬性的缺點(diǎn)。

(2)增加了剪枝這一步驟,克服了過(guò)度擬合的缺點(diǎn)。

(3)能夠?qū)B續(xù)值的屬性進(jìn)行處理。

(4)能處理不完整數(shù)據(jù)。

C4.5算法選擇信息增益率最大的屬性作為分支屬性[2-4],給出公式。

假定集合為B,當(dāng)前計(jì)算的屬性為X,則屬性X的信息增益率計(jì)算公式為:

假定屬性X有a個(gè)相異值{X1,X2,...,Xa},則屬性X把集合B劃分為a個(gè)子集{B1,B2,…,Ba},每個(gè)子集 Bi(i=1,2,…a)的記錄的屬性 X 的取值均為 Xi(i=1,2,…,a),則

其中,|Bi|表示集合Bi的記錄個(gè)數(shù),|B|表示集合B的記錄個(gè)數(shù)。

假設(shè)集合B有m個(gè)類別屬性值,表示有m個(gè)相異的類Ci(i=1,2,…,m),若B中類別為Ci的記錄的個(gè)數(shù)為BCi(i=1,2,…,m),則對(duì)集合B進(jìn)行分類后的期望值為

其中|B|表示集合B的記錄個(gè)數(shù)。

(1)式中的分子

計(jì)算INF(X),沿用上述所定,集合B當(dāng)前計(jì)算的屬性為X,則產(chǎn)生a個(gè)分支,即屬性X把集合B劃分為B1,B2,…,Ba這a個(gè)子集,若子集Bi中類別為Cj的記錄個(gè)數(shù)為Bji,則

其中|B|為集合B所含的記錄個(gè)數(shù),|Bi|、|Bj|分別為子集Bi和Bj所含的記錄個(gè)數(shù)[5]。

2 優(yōu)化C4.5

根據(jù)泰勒公式,

令(7)式右邊為-y+d(y),其中 d(y)表示余項(xiàng),則(7)式為

按照前面的假定,假定集合B有m個(gè)相異類,每類的記錄個(gè)數(shù)分別為y1,y2,…,ym,則集合B的記錄個(gè)數(shù)為y1+y2+…+ym,假定當(dāng)前計(jì)算的屬性X有a個(gè)相異值,即X把集合B劃分為a個(gè)子集(分別為B1,B2,…,Ba),每個(gè)子集的記錄個(gè)數(shù)為 c1,c2,…,ca,則集合 B的記錄個(gè)數(shù)也可用c1+c2+…+ca表示,假定每個(gè)子集 Bi(i=1,2,…,a)的屬于 m 個(gè)相異類的記錄個(gè)數(shù)分別為 ci1,ci2,…,cim,則ci也可用ci1+ci2+…+cim表示。則根據(jù)公式(3)和(8)有

根據(jù)公式(5)、(6)和(8),有

根據(jù)(2)式和(8)式有

由式子(1)、(4)、(10)、(12)、(14)有

3 分析

從式子(1)~(6)可以看出,優(yōu)化前計(jì)算屬性信息增益率時(shí)要頻繁用到對(duì)數(shù)運(yùn)算,從式子(16)看出優(yōu)化后計(jì)算屬性信息增益率時(shí)只用到加減乘除運(yùn)算,從理論上可以看出,優(yōu)化前計(jì)算屬性信息增益率時(shí)要不斷調(diào)用對(duì)數(shù)函數(shù),這樣會(huì)大大增加時(shí)間上的開銷,而優(yōu)化后的計(jì)算只用到加減乘除運(yùn)算,不需調(diào)用函數(shù),時(shí)間開銷會(huì)減少,優(yōu)化前后的計(jì)算所用的數(shù)據(jù)結(jié)構(gòu)一致,因而優(yōu)化后空間復(fù)雜度不會(huì)增加。而且由前面的證明可知,優(yōu)化后計(jì)算所得的選擇屬性不會(huì)發(fā)生改變。由此可以得出結(jié)論:優(yōu)化后的C4.5算法能減少時(shí)間復(fù)雜度但不改變準(zhǔn)確率而且不會(huì)增加空間復(fù)雜度。通過(guò)以下實(shí)驗(yàn)數(shù)據(jù)可以看出所得的結(jié)論是正確的。

由于UCI數(shù)據(jù)集是數(shù)據(jù)挖掘中公共數(shù)據(jù)測(cè)試集,里面羅列了數(shù)據(jù)的屬性和類別,使用者可以用自己的數(shù)據(jù)挖掘方法去將UCI數(shù)據(jù)集分類,進(jìn)行必要的分析。因此在同樣的軟硬件環(huán)境中用UCI數(shù)據(jù)集對(duì)優(yōu)化前和優(yōu)化后的C4.5進(jìn)行測(cè)試,優(yōu)化前和優(yōu)化后所得的決策樹一樣,得到的結(jié)果如表1??梢?,優(yōu)化后的C4.5能提高效率。

表1 C4.5和優(yōu)化后C4.5的比較

4 總結(jié)

通過(guò)簡(jiǎn)化C4.5算法屬性信息增益率的計(jì)算,將含有大量對(duì)數(shù)運(yùn)算的運(yùn)算簡(jiǎn)化為只含有加減乘除的運(yùn)算,使得實(shí)現(xiàn)時(shí)不用頻繁調(diào)用對(duì)數(shù)函數(shù),減少了運(yùn)算時(shí)間,由于改進(jìn)后并不改變屬性信息增益率的排序,因而不會(huì)改變生成的決策樹,能夠在不提高空間復(fù)雜度和不改變準(zhǔn)確率的情況下提高分類效率。但研究只考慮改進(jìn)了分類效率,但是分類準(zhǔn)確度還需進(jìn)一步提高[6]。

[1]TAN PANG NING,MICHAEL STEINBACH,VIPIN KUMAR.數(shù)據(jù)挖掘?qū)д摚跰].2版.北京:人民郵電出版社,2011.

[2]QUINLAN J R.C4.5:programs for machine learning[M].San Mateo,:Morgan Kaufmann,1993.

[3]LIM T S,LOH W Y, SHIH Y S.A comparison of prediction accuracy,complexity,and training time of thirty-three old and new classification algorithms[J].Machine Learning.2000(40):203-229.

[4]RUGGIERI S.Efficient C4.5[J].IEEE Transactions on Knowledge and data engineering,2002,14(2):438-444.

[5]陳文偉,黃金才,趙新昱.數(shù)據(jù)挖掘技術(shù)[M].北京:北京工業(yè)大學(xué)出版社,2002.

[6]陳秀瓊.一種融合粗集理論和神經(jīng)網(wǎng)絡(luò)的分類數(shù)據(jù)挖掘算法[J].三明學(xué)院學(xué)報(bào),2005,22(2):185-190.

猜你喜歡
子集個(gè)數(shù)增益
由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
拓?fù)淇臻g中緊致子集的性質(zhì)研究
怎樣數(shù)出小正方體的個(gè)數(shù)
基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機(jī)最優(yōu)控制
關(guān)于奇數(shù)階二元子集的分離序列
等腰三角形個(gè)數(shù)探索
基于單片機(jī)的程控增益放大器設(shè)計(jì)
電子制作(2019年19期)2019-11-23 08:41:36
怎樣數(shù)出小木塊的個(gè)數(shù)
基于Multisim10和AD603的程控增益放大器仿真研究
電子制作(2018年19期)2018-11-14 02:37:02
怎樣數(shù)出小正方體的個(gè)數(shù)
呼和浩特市| 宿松县| 天等县| 韶山市| 瓦房店市| 呼和浩特市| 城固县| 石城县| 张掖市| 长沙市| 视频| 吉安县| 松桃| 稷山县| 云和县| 元阳县| 秦安县| 伊宁市| 吴桥县| 天镇县| 大荔县| 遂宁市| 五莲县| 樟树市| 称多县| 襄城县| 武安市| 苍梧县| 虹口区| 延长县| 南汇区| 商水县| 阳西县| 盐池县| 舒兰市| 聂荣县| 博客| 双辽市| 奇台县| 永胜县| 雷波县|