国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

決策樹分類模型預(yù)測(cè)網(wǎng)站熱度

2018-04-15 16:14河南省實(shí)驗(yàn)中學(xué)李鈺通
電子世界 2018年14期
關(guān)鍵詞:決策樹預(yù)測(cè)評(píng)估

河南省實(shí)驗(yàn)中學(xué) 李鈺通

1 引言

隨著互聯(lián)網(wǎng)的發(fā)展,瀏覽網(wǎng)站已經(jīng)成為人們生活中不可或缺的一部分。網(wǎng)站分為熱門網(wǎng)站和非熱門網(wǎng)站,熱門網(wǎng)站可以產(chǎn)生巨大的經(jīng)濟(jì)效益,因此預(yù)測(cè)網(wǎng)站的熱度具有重大意義。預(yù)測(cè)網(wǎng)站熱度,對(duì)投資人來說,他們可以評(píng)判一個(gè)網(wǎng)站是否值得投資,避免在投資過程中產(chǎn)生資源的浪費(fèi);對(duì)管理者來說,網(wǎng)站熱度的預(yù)測(cè)則可以更好且較為準(zhǔn)確地預(yù)估網(wǎng)站發(fā)展的趨勢(shì),可以指導(dǎo)網(wǎng)站管理者做出相應(yīng)的調(diào)整。這對(duì)網(wǎng)站的運(yùn)營工作起到了一定的指導(dǎo)作用。

決策樹算法經(jīng)常被應(yīng)用于大數(shù)據(jù)的處理中[1]。網(wǎng)站熱度的預(yù)測(cè)中,需要處理大量的信息,決策樹算法可以很好地處理這個(gè)方面的問題。我們運(yùn)用Spark平臺(tái)的并行計(jì)算能力實(shí)現(xiàn)實(shí)驗(yàn)數(shù)據(jù)的高效準(zhǔn)確處理,對(duì)網(wǎng)站的熱度進(jìn)行預(yù)測(cè)。

2 決策樹分類算法

2.1 算法原理

決策樹分類算法是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,屬于數(shù)據(jù)分類方法。決策樹學(xué)習(xí)著眼于從一組無秩序、無規(guī)則的事實(shí)中推理出決策樹表示形式的分類規(guī)則,通常用來形成分類器和預(yù)測(cè)模型。

2.2 決策樹算法的優(yōu)點(diǎn)

決策樹算法相比于其他算法,擁有以下幾個(gè)優(yōu)點(diǎn):

(1)決策樹易于理解和掌握,人們?cè)谕ㄟ^解釋后都有能力去理解決策樹所表達(dá)的意思并進(jìn)行應(yīng)用。

(2)決策樹模型是一個(gè)白盒模型。如果給定一個(gè)觀察的模型,那么根據(jù)所產(chǎn)生的決策樹很容易就能推出相應(yīng)的邏輯表達(dá)式。

(3)易于通過靜態(tài)測(cè)試來對(duì)模型進(jìn)行評(píng)測(cè)。

(4)在相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。

2.3 決策樹算法的并行化

算法是求解問題的方法和步驟,并行算法可以實(shí)現(xiàn)在并行系統(tǒng)上用多個(gè)處理器聯(lián)合求解問題。當(dāng)需要處理海量信息時(shí),利用并行算法可以極大提高運(yùn)行效率和結(jié)果的質(zhì)量[2]。傳統(tǒng)的串行化算法在面對(duì)數(shù)據(jù)量較小的情況時(shí)具有較快的運(yùn)行速度和準(zhǔn)確率。但當(dāng)用串行算法計(jì)算海量數(shù)據(jù)時(shí),就會(huì)導(dǎo)致計(jì)算時(shí)間長,工作效率低,預(yù)測(cè)精確度有偏差的情況。這時(shí)并行計(jì)算便體現(xiàn)出它的優(yōu)越性來,多個(gè)處理器同時(shí)計(jì)算,既提高了效率,又提升了準(zhǔn)確度,在大數(shù)據(jù)應(yīng)用方面起到了相當(dāng)廣泛且重要的作用[3]。

Spark是由加州大學(xué)伯克利分校開發(fā)的大數(shù)據(jù)處理平臺(tái),其性能優(yōu)于Hadoop,擁有更快的速度,提供了80多個(gè)高級(jí)計(jì)算符,易用性強(qiáng),支持多種資源管理器[4]。本次實(shí)驗(yàn)探究選用Spark平臺(tái)作為大數(shù)據(jù)處理工具,得到的實(shí)驗(yàn)結(jié)果快速準(zhǔn)確,有效地保證了實(shí)驗(yàn)的正常進(jìn)行[5]。

3 網(wǎng)站熱度預(yù)測(cè)模型建模過程

3.1 數(shù)據(jù)源和數(shù)據(jù)說明

本次研究中所用數(shù)據(jù)來源為www.kaggle.com/c/stumbleupon/data。數(shù)據(jù)集中,每條記錄包括27個(gè)字段。其中,字段1-3是網(wǎng)站的描述字段,不作為分析時(shí)的特征屬性。字段4-26為算法分析中的特征字段,包括網(wǎng)站分類、網(wǎng)站分類的評(píng)分等。最后一個(gè)字段為label字段,代表了網(wǎng)站的分類信息。其中,0代表網(wǎng)頁為非熱門網(wǎng)站,1代表網(wǎng)站為熱門網(wǎng)站。

3.2 數(shù)據(jù)預(yù)處理

運(yùn)行Spark平臺(tái),經(jīng)過數(shù)據(jù)轉(zhuǎn)換產(chǎn)生RDD,然后將實(shí)驗(yàn)數(shù)據(jù)以8:1:1的比例隨機(jī)分成三個(gè)數(shù)據(jù)集:訓(xùn)練集,校驗(yàn)集和測(cè)試集,以用于實(shí)驗(yàn)的下一部分[6]。其中,訓(xùn)練模型使用訓(xùn)練集,評(píng)估模型使用校驗(yàn)集。為了提高程序的運(yùn)行效率,將數(shù)據(jù)暫時(shí)存放在內(nèi)存中[7]。

3.3 超參數(shù)

算法的超參數(shù)分別為:maxBins參數(shù)、maxDepth參數(shù)和Impurity參數(shù)[8]。其中,maxBins參數(shù)代表決策樹每個(gè)節(jié)點(diǎn)的最大分支數(shù)目,maxDepth參數(shù)表示決策樹的最大深度,Impurity參數(shù)表示評(píng)判決策樹分裂優(yōu)劣的方式,其值包含兩種,分別為基尼指數(shù)(gini)和熵(entropy)。

3.4 模型的評(píng)估指標(biāo)

決策樹分類模型的評(píng)估指標(biāo)是AUC(精確度)[8]。AUC越高,模型的精確度越高,預(yù)測(cè)越準(zhǔn)確;反之,AUC越低,則模型的精確度越低,與真實(shí)情況越不符合。

3.5 訓(xùn)練評(píng)估模型

(1)使用2個(gè)不同的Impurity參數(shù),其他參數(shù)保持不變,分別訓(xùn)練評(píng)估模型。經(jīng)過Spark平臺(tái)的處理,得到了不同參數(shù)組合下訓(xùn)練出的模型的AUC和訓(xùn)練時(shí)間圖像。根據(jù)圖像可以看出,對(duì)于Impurity參數(shù)而言,值為gini(基尼指數(shù))時(shí)與值為entropy(熵)時(shí)相比,訓(xùn)練得到的模型的AUC相差不大,而gini所需要的時(shí)間卻是entropy的2.5倍左右。Impurity參數(shù)值為entropy時(shí)所用的時(shí)間短,而且訓(xùn)練得出的模型的AUC高,因此在這種情況之下應(yīng)該將Impurity參數(shù)的值設(shè)置為entropy。

(2)使用6個(gè)不同的maxDepth參數(shù),其他參數(shù)的值保持不變,分別訓(xùn)練評(píng)估模型,得到了不同參數(shù)組合下訓(xùn)練出的模型的AUC和訓(xùn)練時(shí)間圖像。從訓(xùn)練評(píng)估的結(jié)果來看,隨著maxDepth參數(shù)的增大,訓(xùn)練模型所需要的時(shí)間也逐漸增大。當(dāng)maxDepth的值為25時(shí),訓(xùn)練模型所需要的時(shí)間較少,且AUC最高。因此,這種情況下選擇5作為maxDepth參數(shù)的值訓(xùn)練模型更加有效。

(3)使用6個(gè)不同的maxBins參數(shù),其他參數(shù)保持不變,分別訓(xùn)練評(píng)估模型,得到了不同參數(shù)組合下訓(xùn)練出的模型的AUC和訓(xùn)練時(shí)間圖像。由實(shí)驗(yàn)結(jié)果圖像得出,當(dāng)maxBins為10的時(shí)候,訓(xùn)練模型所需要的時(shí)間較少,且AUC最高。因此,在這種情況下將max-Bins參數(shù)的值設(shè)置為10,可以花費(fèi)更少的時(shí)間訓(xùn)練出最優(yōu)模型。

(4)將所有的參數(shù)值排列組合,得到72個(gè)不同的參數(shù)組合,使用它們分別訓(xùn)練評(píng)估模型,并從得出的72個(gè)模型之中選擇出一個(gè)AUC(精確度)最高的模型,即最優(yōu)模型。最優(yōu)模型對(duì)應(yīng)的參數(shù)組合即最優(yōu)參數(shù)組合。實(shí)驗(yàn)得出,最優(yōu)參數(shù)組合為(Impurity:entropy,maxDepth:5,maxBins:10),最優(yōu)模型的AUC值為0.797。

3.6 測(cè)試模型

使用測(cè)試集測(cè)試模型,將得到的AUC和訓(xùn)練評(píng)估階段得到的最優(yōu)模型的AUC比較,如果兩者相差不大,就代表此模型不存在過擬合問題。實(shí)驗(yàn)得出,測(cè)試階段中模型的AUC為0.756,與訓(xùn)練評(píng)估階段得出的AUC相近,所以此模型不存在過擬合問題,可以用于實(shí)際的預(yù)測(cè)中。

3.7 預(yù)測(cè)數(shù)據(jù)

最后,我們?cè)趯?shí)驗(yàn)中使用無過擬合問題的最優(yōu)模型對(duì)網(wǎng)站的熱門程度進(jìn)行預(yù)測(cè),得到一系列預(yù)測(cè)結(jié)果。例如,www.lynnskichenadventures.com被預(yù)測(cè)為熱門網(wǎng)站,www.xcelerationfitness.com被預(yù)測(cè)為非熱門網(wǎng)站。

4 結(jié)束語

我們正處于大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)中的數(shù)據(jù)呈“爆炸式”增長,傳統(tǒng)的處理方法越來越無法適應(yīng)當(dāng)今海量數(shù)據(jù)處理的需求,而大數(shù)據(jù)技術(shù)很好地解決了這一問題。本次研究中,利用Spark大數(shù)據(jù)處理平臺(tái)的計(jì)算能力,使用并行化的決策樹算法訓(xùn)練模型,最終得出最優(yōu)的預(yù)測(cè)模型。該模型可以較為精確地預(yù)測(cè)網(wǎng)站的熱度,具有較高的實(shí)用價(jià)值。

猜你喜歡
決策樹預(yù)測(cè)評(píng)估
無可預(yù)測(cè)
選修2-2期中考試預(yù)測(cè)卷(A卷)
選修2-2期中考試預(yù)測(cè)卷(B卷)
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
不必預(yù)測(cè)未來,只需把握現(xiàn)在
基于決策樹的出租車乘客出行目的識(shí)別
評(píng)估依據(jù)
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
立法后評(píng)估:且行且盡善
正阳县| 武宣县| 平乐县| 东明县| 乌海市| 仁寿县| 奉贤区| 临潭县| 沾化县| 安多县| 彰武县| 五莲县| 西充县| 保德县| 青州市| 凤翔县| 石河子市| 瓦房店市| 杭州市| 南丰县| 万盛区| 宜良县| 沾益县| 晋江市| 奈曼旗| 台北市| 蓬安县| 新巴尔虎右旗| 南阳市| 富蕴县| 安乡县| 红桥区| 濮阳市| 中阳县| 长岛县| 金沙县| 外汇| 廊坊市| 富裕县| 建宁县| 繁昌县|