国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

決策樹ID3算法的一種改進

2012-10-15 12:38:46
科技傳播 2012年22期
關鍵詞:正例反例子集

趙 靜

沈陽市服裝藝術學校,遼寧沈陽 110032

1 ID3算法簡介

ID3算法由Quinlan于1979年提出。其基本思想是:在對訓練集進行分類時,以信息熵為度量,用于決策樹節(jié)點的屬性選擇,每次優(yōu)先選取信息量最多的屬性對數(shù)據(jù)進行劃分,以構造一顆熵值下降最快的決策樹,每個葉子節(jié)點對應的實例集中的實例屬于同一類。

2 ID3算法的優(yōu)點和不足

優(yōu)點:運用信息論知識選擇屬性,理論清晰;容易生成IF-THEN語句;對于離散型樣本數(shù)據(jù)處理功能強;ID3自頂向下搜索,節(jié)省系統(tǒng)資源,計算時間與樣本大小。

不足:ID3算法在選擇分類屬性時往往選擇了取值較多的屬性;ID3算法只能處理離散型數(shù)據(jù),若分析必須先進行離散化;用ID3算法創(chuàng)建決策樹時必須知道所有內部節(jié)點。

3 ID3算法的改進

定理1:若函數(shù)f(x)在[a,b]上連續(xù),在(a,b)內有一階、二階導數(shù),并且在(a,b)上,若f'(x)<0,則f(x)在[a,b]上是凸函數(shù);

3.1 算法改進的實現(xiàn)

pi表示數(shù)據(jù)屬于類Ci的概率,在(0,1)上任取p1,p2有p1+p2=1,p1-p2=△p→0,因為log2p函數(shù)在(0,1]上連續(xù),由定理1可知log2p函數(shù)在其連續(xù)區(qū)間上是凸函數(shù)。

由凸函數(shù)性質計算得:

3.2 改進算法的應用

表一為某公司調查的顧客數(shù)據(jù)統(tǒng)計表.通過數(shù)據(jù)挖掘旨在回答“誰在買電腦”這一問題。

表1 顧客調查表

第2步:計算條件屬性的熵

1)年齡分三組:老、中、青。 青年384人,正例128人,反例256人;中年256人,正例256人,反例0人;老年252人,正例125,反例127人。

老年 : I(125,127)=0.9157 所以 ,E(年齡)=0.6877 ; G(年齡)=0.9537-0.6877 =0.2660 ;

2)E(收入)=0.9361 G(收入信息增益)=0.9537-0.9361=0.0176;

3)E(學生)=0.7811 G(年齡信息增益)=0.9537-0.7811=0.1726;

4)E(信譽)=0.9048 G(信譽信息增益)=0.9537-0.9048=0.0453。

第3步:計算選擇節(jié)點。由上可知“年齡”具有最高的信息增益,選擇“年齡”為測試屬性 。

第4步:遞歸建樹算法,分別對各個子集分析,計算選擇分支的測試屬性。

1)年齡=“青年”的子集有:選擇學生為測試屬性對子集進行再劃分;

2)對于年齡=“中年”,數(shù)據(jù)都屬于同一類,自然形成樹葉;

3)對于年齡=“老年”的子集有:選擇信譽為測試屬性。由此生成決策樹如下圖所示:

猜你喜歡
正例反例子集
小學生舉例表現(xiàn)與概念理解的相關性研究
由一道有關集合的子集個數(shù)題引發(fā)的思考
幾個存在反例的數(shù)學猜想
拓撲空間中緊致子集的性質研究
關于奇數(shù)階二元子集的分離序列
基于概念形成的教學研究
活用反例擴大教學成果
利用學具構造一道幾何反例圖形
高中數(shù)學概率教學中的誤區(qū)與應對策略分析
每一次愛情都只是愛情的子集
都市麗人(2015年4期)2015-03-20 13:33:22
麻江县| 搜索| 蓬莱市| 佛冈县| 九台市| 同江市| 丘北县| 北安市| 保康县| 灵山县| 怀柔区| 余姚市| 柘荣县| 宜阳县| 马公市| 积石山| 漾濞| 都匀市| 鹤峰县| 中牟县| 阜城县| 崇左市| 邳州市| 亳州市| 大同县| 大渡口区| 焦作市| 贺兰县| 来安县| 合作市| 静乐县| 铜陵市| 莱芜市| 正安县| 河北省| 利辛县| 祁阳县| 天等县| 澄迈县| 莱芜市| 双城市|