国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

決策樹(shù)在汽車(chē)評(píng)測(cè)中的應(yīng)用研究

2012-01-04 05:12:22周凌云
關(guān)鍵詞:樣例評(píng)測(cè)訓(xùn)練樣本

周凌云

( 中南民族大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,武漢430074)

決策樹(shù)是1986年由Quinlan提出的,它是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,它從一個(gè)無(wú)次序、無(wú)規(guī)則的實(shí)例集合中歸納出一組采用屬性結(jié)構(gòu)表示的分類(lèi)規(guī)則.決策樹(shù)學(xué)習(xí)算法是最流行的歸納推理算法之一,已經(jīng)被成功地應(yīng)用到從學(xué)習(xí)醫(yī)療診斷到學(xué)習(xí)評(píng)估貸款申請(qǐng)的信用風(fēng)險(xiǎn)等廣闊領(lǐng)域[1,2].隨著中國(guó)經(jīng)濟(jì)的發(fā)展,購(gòu)車(chē)人群增加,對(duì)汽車(chē)進(jìn)行評(píng)測(cè),給消費(fèi)者在購(gòu)車(chē)決策過(guò)程中提供參考顯得十分必要[3].汽車(chē)評(píng)測(cè)是指根據(jù)汽車(chē)的性能、購(gòu)買(mǎi)價(jià)格、保養(yǎng)費(fèi)、安全性能、操控性、行李箱大小等指標(biāo)來(lái)評(píng)價(jià)和預(yù)測(cè)它的購(gòu)買(mǎi)指數(shù),從而給消費(fèi)者提供購(gòu)車(chē)參考.

通過(guò)分析研究,本文提出應(yīng)用決策樹(shù)的經(jīng)典算法——ID3算法進(jìn)行汽車(chē)評(píng)測(cè).ID3算法是以信息論為基礎(chǔ),以信息熵和信息增益度為衡量標(biāo)準(zhǔn),從而實(shí)現(xiàn)對(duì)數(shù)據(jù)的歸納分類(lèi),以此達(dá)到預(yù)測(cè)的目的[4].本文根據(jù)汽車(chē)各項(xiàng)性能指標(biāo),將ID3算法應(yīng)用于汽車(chē)評(píng)測(cè)中,為深入開(kāi)發(fā)汽車(chē)購(gòu)買(mǎi)決策支持系統(tǒng)提供研究基礎(chǔ).

1 ID3決策樹(shù)算法原理

ID3算法是一種由訓(xùn)練樣例構(gòu)造決策樹(shù)的遞歸算法.該算法首先選擇一個(gè)屬性作為決策樹(shù)的根結(jié)點(diǎn),并對(duì)該屬性的每一個(gè)值產(chǎn)生一個(gè)分支.然后,劃分該結(jié)點(diǎn)上的數(shù)據(jù)集,并移到子女結(jié)點(diǎn),產(chǎn)生一個(gè)局部樹(shù).對(duì)其他屬性重復(fù)該過(guò)程[5-9].ID3算法的關(guān)鍵在于:1)生成決策樹(shù)時(shí),對(duì)于決策樹(shù)的每一個(gè)結(jié)點(diǎn)選擇屬性的方法;2)確定停止樹(shù)的生長(zhǎng)的條件.

對(duì)于第一個(gè)關(guān)鍵問(wèn)題,ID3 算法使用信息增益作為訓(xùn)練樣本集合的劃分度量標(biāo)準(zhǔn).計(jì)算信息增益的具體方法可以分為以下3步.

(1) 計(jì)算目標(biāo)屬性的熵.目標(biāo)屬性也就是樣例的分類(lèi),它不必被選作決策樹(shù)路徑上的結(jié)點(diǎn),但它的值要作為決策樹(shù)葉子結(jié)點(diǎn)的值.目標(biāo)屬性的熵根據(jù)以下公式計(jì)算:

(1)

其中,S是訓(xùn)練樣例的集合,pi是S中屬于類(lèi)別i的比例,Σ 是對(duì)c求和.Entropy(S)反映了訓(xùn)練樣例的純度,當(dāng)它的值為0時(shí)訓(xùn)練樣例集合最純,也就是此時(shí)訓(xùn)練樣例集合中的所有樣例屬于同一分類(lèi).

(2) 計(jì)算候選屬性的熵.計(jì)算候選屬性的熵是為了選擇當(dāng)前決策屬性,也就是選作為當(dāng)前決策樹(shù)的一個(gè)結(jié)點(diǎn)的屬性.對(duì)于每一個(gè)候選屬性A的熵可以根據(jù)以下公式計(jì)算:

(2)

其中,Values(A)是屬性A所有可能值得集合,Sv是訓(xùn)練樣例集合中候選屬性A的值為v的子集,|Sv| 是Sv中樣例個(gè)數(shù),|S|是S中樣例的個(gè)數(shù) .Entropy(Sv)是訓(xùn)練樣例集合中候選屬性A的值為v時(shí)訓(xùn)練樣例集合的熵,它可以根據(jù)公式(1)求得.

(3) 計(jì)算候選屬性的信息增益.信息增益反映了候選屬性分類(lèi)訓(xùn)練數(shù)據(jù)的能力.一個(gè)候選屬性的信息增益越大,那么它對(duì)訓(xùn)練樣例的分類(lèi)能力越強(qiáng).信息增益的計(jì)算公式為:

Gain(S,A)= Entropy(S)-Entropy(S,A),

(3)

算法的具體方法為:首先計(jì)算訓(xùn)練樣本集合中所有屬性的信息增益,選擇取值最大的屬性作為判斷屬性劃分當(dāng)前樣本集,創(chuàng)建與判斷屬性值一一對(duì)應(yīng)的各個(gè)分枝,得到代表各分支的訓(xùn)練樣本子集,然后遞歸調(diào)用同樣的方法繼續(xù)劃分.

ID3算法的第二個(gè)關(guān)鍵問(wèn)題是確定停止樹(shù)生長(zhǎng)的條件.當(dāng)決策樹(shù)的某個(gè)分支下的樣例都屬于一分類(lèi)時(shí),這一個(gè)分支上樣例的劃分就結(jié)束了.另外,當(dāng)所有的候選屬性已經(jīng)被這條路徑包括時(shí)決策樹(shù)的生長(zhǎng)也結(jié)束了,因?yàn)槿魏魏蜻x屬性在決策樹(shù)的任意路徑上最多只能出現(xiàn)一次.

2 建立汽車(chē)評(píng)測(cè)模型

本文根據(jù)汽車(chē)的特定屬性來(lái)進(jìn)行評(píng)測(cè),預(yù)測(cè)它的購(gòu)買(mǎi)指數(shù).該應(yīng)用的數(shù)據(jù)來(lái)源于UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中的標(biāo)準(zhǔn)數(shù)據(jù)集Car Evaluation Database,該數(shù)據(jù)集無(wú)缺失數(shù)據(jù),并且各屬性取值均為離散值,各屬性取值個(gè)數(shù)分布均勻,都是3或4個(gè),樣本分類(lèi)個(gè)數(shù)為4類(lèi).具備這樣特征的數(shù)據(jù)集特別適合采用ID3決策樹(shù)算法建立預(yù)測(cè)模型.

2.1 訓(xùn)練樣本描述

評(píng)測(cè)汽車(chē)的屬性也就是對(duì)分類(lèi)結(jié)果有影響作用的屬性有6 個(gè),分別是購(gòu)買(mǎi)價(jià)格(buying)、保養(yǎng)費(fèi)(maint )、門(mén)的個(gè)數(shù)(doors)、座位數(shù)(persons)、行李箱容量(lug_boot)和安全性能(safety),它們的取值描述如下.

buying = { v-high,high,med,low }

maint = { v-high,high,med,low }

doors = { 2,3,4,5-more }

persons = { 2,4,more }

lug_boot = { small,med,big }

safety = { low,med,high }

這6個(gè)屬性對(duì)分類(lèi)結(jié)果有影響作用,也就是生成汽車(chē)評(píng)測(cè)決策樹(shù)的候選屬性.汽車(chē)的購(gòu)買(mǎi)指數(shù)通過(guò)汽車(chē)的目標(biāo)屬性也就是決策屬性來(lái)描述.目標(biāo)屬性class描述如下.

class = { unacc,acc,good,vgood }

評(píng)測(cè)汽車(chē)的結(jié)果分為4類(lèi):不可接受(unacc),可接受(acc),比較好(good),很好(vgood),也就是訓(xùn)練樣本集被分為4 個(gè)類(lèi)別.表1給出了一個(gè)關(guān)于汽車(chē)評(píng)測(cè)的部分訓(xùn)練樣本.

2.2 詳細(xì)算法

建立汽車(chē)評(píng)測(cè)模型的決策樹(shù)算法流程[10]描述如下.

算法:Generate_CarEvaluationTree(samples,attribute_list)

輸入:samples為訓(xùn)練樣本;attribute_list為候選屬性的集合.

輸出:一棵汽車(chē)評(píng)測(cè)決策樹(shù).

偽代碼:

Generate_CarEvaluationTree(samples,attribute_list)

{

N = Create_Node(); //創(chuàng)建汽車(chē)評(píng)測(cè)決策樹(shù)的一個(gè)結(jié)點(diǎn)

if( samples 都在同一個(gè)類(lèi)C )

{ return N 作為葉結(jié)點(diǎn),以類(lèi)C 標(biāo)記; }

if( attribut_list 為空 )

{ return N 作為葉結(jié)點(diǎn),標(biāo)記為 samples 中最普通的類(lèi); }

N = Choose_best_attribute( attribute_list );

//選擇當(dāng)前最高信息增益屬性作為當(dāng)前汽車(chē)評(píng)測(cè)決策樹(shù)的結(jié)點(diǎn)

表1 汽車(chē)評(píng)測(cè)的部分訓(xùn)練樣本

for best_attribute 的每一個(gè)取值ai

{

Create_branch(); //每一個(gè)取值ai都建立一個(gè)新的分支;

Divide(); //在每一個(gè)分支上劃分當(dāng)前汽車(chē)訓(xùn)練樣本集

if( 如果新分支下的汽車(chē)訓(xùn)練樣本集為空 )

Create_LeafNode();

//建立葉子結(jié)點(diǎn),以當(dāng)前樣本中類(lèi)別個(gè)數(shù)最多的類(lèi)別標(biāo)記;該分支生長(zhǎng)結(jié)束

else

Generate_CarEvaluationTree(si,attribute_list-best_attribute) //遞歸

}

}

2.3 汽車(chē)評(píng)測(cè)模型測(cè)試

建立好汽車(chē)評(píng)測(cè)決策樹(shù)后就可以用該模型對(duì)未分類(lèi)的汽車(chē)樣例進(jìn)行分類(lèi)預(yù)測(cè)了.為了測(cè)試該模型分類(lèi)預(yù)測(cè)的準(zhǔn)確率,本文將已知樣例分為兩個(gè)部分,一部分作為訓(xùn)練樣例,用來(lái)生成汽車(chē)評(píng)測(cè)決策樹(shù)模型.另一部分作為測(cè)試樣例,用來(lái)測(cè)試生成的模型對(duì)樣例分類(lèi)預(yù)測(cè)的準(zhǔn)確率.在測(cè)試的過(guò)程中,記錄分類(lèi)正確的樣例的個(gè)數(shù),與預(yù)測(cè)樣例的個(gè)數(shù)相除計(jì)算出分類(lèi)預(yù)測(cè)的準(zhǔn)備率.考慮到保證實(shí)驗(yàn)結(jié)果的準(zhǔn)確性,該實(shí)驗(yàn)在相同的軟硬件平臺(tái)下測(cè)試多次,取其平均值作為最后結(jié)果.

3 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)采用的數(shù)據(jù)集為UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中的標(biāo)準(zhǔn)數(shù)據(jù)集Car Evaluation Database.該數(shù)據(jù)集中一共有1728個(gè)實(shí)例.本實(shí)驗(yàn)方案從中選取10%、20%、40%、50%、60%,以及70%的樣例分別作為訓(xùn)練數(shù)據(jù)集,而對(duì)應(yīng)的剩余部分樣例作為測(cè)試數(shù)據(jù)集,在相同的軟、硬件平臺(tái)下進(jìn)行多次實(shí)驗(yàn),得出的實(shí)驗(yàn)數(shù)據(jù)如表2所示.

表2 實(shí)驗(yàn)結(jié)果數(shù)據(jù)

從表2的實(shí)驗(yàn)結(jié)果可以看出,當(dāng)訓(xùn)練樣例在20%以上時(shí),預(yù)測(cè)的準(zhǔn)備率較好,均能達(dá)到80%以上,當(dāng)訓(xùn)練樣例所占比例更大時(shí),分類(lèi)預(yù)測(cè)的準(zhǔn)備率相對(duì)更高.

4 結(jié)束語(yǔ)

利用機(jī)器學(xué)習(xí)方法處理分類(lèi)預(yù)測(cè)問(wèn)題是近年來(lái)分類(lèi)領(lǐng)域一個(gè)新興的研究熱點(diǎn).決策樹(shù)是一種機(jī)器學(xué)習(xí)常用的分類(lèi)方法.本文通過(guò)系統(tǒng)闡述決策樹(shù)方法的原理和適合范圍,并分析了汽車(chē)評(píng)測(cè)數(shù)據(jù)適合決策樹(shù)ID3算法,所以利用ID3決策樹(shù)方法來(lái)建立汽車(chē)評(píng)測(cè)模型,并給出詳細(xì)的步驟.最后在Car Evaluation Database數(shù)據(jù)集上對(duì)該模型進(jìn)行實(shí)驗(yàn)測(cè)試,可以看出此方法是比較有效的,并能證實(shí)該模型獲得較好的分類(lèi)預(yù)測(cè)準(zhǔn)確率.

[1]Quinlan J R.Induction of decision trees[J].Machine Learning,1986(1): 81-106.

[2]米切爾.機(jī)器學(xué)習(xí)[M].曾華軍,張銀奎,譯.北京:機(jī)械工業(yè)出版社,2003:38-43.

[3]朱鋐瑛,郭乃幸.能源約束下中國(guó)新能源汽車(chē)的發(fā)展及政策建議[J].陜西科技大學(xué)學(xué)報(bào),2012,30(1):131-134.

[4]黃愛(ài)輝,陳湘濤.決策樹(shù)ID3算法的改進(jìn)[J].計(jì)算機(jī)工程與科學(xué),2009,31(6):109-111.

[5]徐 鵬,林 森.基于C4.5決策樹(shù)的流量分類(lèi)方法[J].軟件學(xué)報(bào),2009,20(10):2692-2704.

[6]張 琳,陳 燕,李桃迎,等.決策樹(shù)分類(lèi)算法研究[J].計(jì)算機(jī)工程,2011,37(13):66-70.

[7]丁智斌,袁 方,董賀偉.數(shù)據(jù)挖掘在高校學(xué)生學(xué)習(xí)成績(jī)分析中的應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2006,27(4):590-592.

[8]Long Xiaojian,Wu Yuchun.Application of decision tree in student achievement evaluation[C]//ICCSEE.2012 International Conference on Computer Science and Electronics Engineering.Hangzhou:Missouri Western State University,2012:243- 247.

[9]安立奎,錢(qián)偉懿,韓麗艷.集群系統(tǒng)中基于MPI的關(guān)聯(lián)規(guī)則快速挖掘算法[J].三峽大學(xué)學(xué)報(bào):自然科學(xué)版,2010(1):95-97.

[10]王 苗,柴 瑞.一種改進(jìn)的決策樹(shù)分類(lèi)屬性選擇方法[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(8):127-129.

猜你喜歡
樣例評(píng)測(cè)訓(xùn)練樣本
樣例復(fù)雜度與學(xué)習(xí)形式對(duì)不同數(shù)量樣例學(xué)習(xí)的影響
樣例呈現(xiàn)方式對(duì)概念訓(xùn)練類(lèi)別表征的影響
次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(下)
次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(上)
“樣例教學(xué)”在小學(xué)高年級(jí)數(shù)學(xué)中的應(yīng)用
人工智能
攻坡新利器,TOKEN VENTOUS評(píng)測(cè)
Canyon Ultimate CF SLX 8.0 DI2評(píng)測(cè)
寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
融合原始樣本和虛擬樣本的人臉識(shí)別算法
会同县| 肥东县| 寻乌县| 容城县| 景泰县| 徐闻县| 淮北市| 永寿县| 厦门市| 中方县| 常德市| 遵义市| 黄山市| 高安市| 凌云县| 康马县| 兴隆县| 永春县| 焦作市| 德格县| 喀什市| 前郭尔| 延寿县| 淳安县| 宝鸡市| 大埔县| 铁岭市| 棋牌| 台山市| 磐石市| 富平县| 蓬莱市| 泾阳县| 左云县| 若尔盖县| 北票市| 绵阳市| 吴川市| 眉山市| 亚东县| 古蔺县|