国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于C5.0決策樹算法的電力營銷數(shù)據(jù)挖掘

2022-02-21 10:42卜曉陽蔡巖王宗偉趙郭燚
微型電腦應(yīng)用 2022年1期
關(guān)鍵詞:訓(xùn)練樣本決策樹增益

卜曉陽, 蔡巖, 王宗偉*, 趙郭燚

(1.國家電網(wǎng)公司,客戶服務(wù)中心,天津 300309;2.河北師范大學(xué),軟件學(xué)院,河北,石家莊 050024)

0 引言

隨著我國信息產(chǎn)業(yè)的爆發(fā)式發(fā)展,各行業(yè)的企業(yè)都開始使用信息集成系統(tǒng)進(jìn)行管理。如何對所產(chǎn)生的海量數(shù)據(jù)進(jìn)行有效利用成為新時代人們最關(guān)注的問題之一[1]。電力企業(yè)作為直接影響社會民生的重要部門,在使用管理信息系統(tǒng)的過程中產(chǎn)生了大量的運(yùn)行狀況和銷售數(shù)據(jù)[2],電力企業(yè)管理人員迫切需要合理的方式去處理這些海量數(shù)據(jù),以便獲得有價值的信息[3]。

數(shù)據(jù)挖掘技術(shù)作為計算機(jī)領(lǐng)域的熱門方向,一直和社會實際應(yīng)用緊密結(jié)合。使用合理的數(shù)據(jù)挖掘技術(shù)可以解決電力企業(yè)的數(shù)據(jù)分析問題,為管理人員提供有價值的決策支撐信息,從而提高電網(wǎng)運(yùn)行的可靠性[4]。例如,劉建飛等[5]提出了一種基于電力側(cè)大數(shù)據(jù)挖掘的營銷效果評價方法,其中使用了C4.5決策樹算法。Victor D等[6]利用BP神經(jīng)網(wǎng)絡(luò)對電力企業(yè)營銷數(shù)據(jù)進(jìn)行快速挖掘。黃文思等提出了一種基于決策樹算法的電力客戶欠費風(fēng)險預(yù)測。但是,上述方法采用的決策樹算法仍舊是ID3算法以及在其基礎(chǔ)上發(fā)展起來的 C4.5方法。而C5.0決策樹算法作為其后續(xù)的最新版本,綜合性能有了明顯提升。

因此,為了對電力企業(yè)提供更加準(zhǔn)確、有效的營銷數(shù)據(jù)決策支撐,本文提出利用C5.0決策樹算法對電力營銷管理系統(tǒng)的營銷數(shù)據(jù)進(jìn)行深層次分析。通過引入信息熵對原有的C5.0決策樹算法進(jìn)行了改進(jìn),提高了其分類速度和精度。在UCI機(jī)器學(xué)習(xí)數(shù)據(jù)集和電力營銷數(shù)據(jù)集上的實驗結(jié)果表明,提出的改進(jìn)C5.0決策樹算法具有良好的分類性能,能夠滿足電力營銷工作中的分類預(yù)測需求。

1 C5.0 決策樹算法原理

作為從ID3 決策樹算法發(fā)展出來的后續(xù)算法,Ross Quinlan提出了C4.5算法能夠?qū)傩砸暈檫B續(xù)型的[7],并提出了2個新的屬性:分離信息(Split Information)和信息增益率(Information gain ratio),可用于生成多分支決策樹。C5.0算法與C4.5算法的核心是一樣的,但是在內(nèi)存管理等方面做出不少改進(jìn),更加適合商業(yè)應(yīng)用。

1.1 分裂屬性的確定

本文假設(shè)S表示一個訓(xùn)練樣本集,其樣本數(shù)量為s個,包括m個不同的種類xi(i=1,2,…,m)。D表示訓(xùn)練樣本集S的一個屬性且取值范圍為[1,k]。vi表示屬于不同種類xi的樣本總數(shù)。

根據(jù)屬性D的不同,能夠?qū)⒂?xùn)練樣本集S區(qū)分成k個小的子集。si為上述子集中的第i個子集,i=1,2,…,k,[Si]表示子集si中的樣本個數(shù)。

首先,信息增益Gain(S,D)的計算式[8]如式(1)。

Gain(S,D)=I(s1,s2,…,sk)-E(S,D)

(1)

其中,E(S,D)表示根據(jù)屬性D劃分出的k個子集的熵加權(quán)和,I(s1,s2,…,sk)則表示訓(xùn)練樣本集S的熵。

I(s1,s2,…,sk)的計算式如式(2)。

(2)

其中,p(xi)表示種類xi出現(xiàn)的概率,滿足約束條件如式(3),

(3)

其次,分裂信息項Split_Info(S,D)的計算式[9-11]如下:

(4)

通過式(4)可以看出,分裂信息項Split_Info(S,D)其實就是訓(xùn)練樣本集S關(guān)于屬性D的熵,該值越小則樣本分布在屬性D上的結(jié)果越不均勻。

因此,信息的增益比率GainRatio(S,D)的計算式是

(5)

1.2 分裂屬性的確定

在分裂屬性的選取過程中,C5.0決策樹算法會挑選出具有最高增益比率的屬性,并將其定義成分裂屬性[12]。

在確定分裂屬性后,C5.0決策樹算法會執(zhí)行最佳分割點的確定步驟,組成了決策樹的k個分枝。當(dāng)最佳分裂屬性是連續(xù)型變量時,會利用分箱策略設(shè)置劃分值,從而對大于該劃分值的樣本進(jìn)行再劃分[13]。在循環(huán)執(zhí)行分裂屬性的確定和最佳分割點的確定后,生成了一棵完整的決策樹。

2 改進(jìn)的C5.0 決策樹算法

通過上節(jié)C5.0 決策樹算法原理分析,可以看出該決策樹算法需要根據(jù)每一個屬性在所有結(jié)點上,對信息的增益比率GainRatio(S,D)進(jìn)行計算,以便為后續(xù)分裂屬性的確定做支持。但是式(4)中信息增益比率GainRatio(S,D)計算需要對數(shù)運(yùn)算,因此計算時間較長且精度不夠理想[14]。因此,本文通過引入信息熵對原有的屬性選擇方式進(jìn)行改進(jìn)。

假設(shè)正例屬性的個數(shù)為p,且反例屬性的個數(shù)為n,則信息量的計算方式如式(6),

(6)

信息熵可以推導(dǎo)為式(7),

(7)

其中,

(8)

將式(8)代入式(7)得出式(9),

(9)

由于(n+p)ln2為常量,因此在重復(fù)循環(huán)過程中,可以使用式(10)進(jìn)行結(jié)點屬性選取,

(10)

又因為pi/(ni+pi)和ni/(ni+pi)均小于1,因此

(11)

(12)

所以,最終的Split_Info′(S,D)可以使用式(13)計算得到,

(13)

從式(13)可以看出,計算過程僅包含簡單的加減和乘除運(yùn)算,大大縮減了計算時間。

3 改進(jìn)C5.0決策樹在電力營銷中的應(yīng)用

3.1 數(shù)據(jù)模型設(shè)計

在將改進(jìn)的C5.0決策樹應(yīng)用于電廠管理信息系統(tǒng)中時,需要以售電量為中心,構(gòu)建各部門數(shù)據(jù)庫表格之間的映射關(guān)系,本文構(gòu)建的數(shù)據(jù)模型如圖1所示。

圖1 售電量關(guān)系模型

3.2 數(shù)據(jù)挖掘流程

改進(jìn)C5.0決策樹在電力營銷中的數(shù)據(jù)挖掘流程如圖2所示。

圖2 改進(jìn)C5.0決策樹算法的挖掘流程

4 實驗結(jié)果與分析

4.1 實驗環(huán)境

為了對本文提出的視頻分類方法進(jìn)行分析和驗證,進(jìn)行具體實驗。實驗硬件環(huán)境:處理器為Intel Core i7 2.2 GHz,圖形圖像處理設(shè)備為GTX970@2G顯存,內(nèi)存為8 G。實驗軟件環(huán)境:Windows 7操作系統(tǒng)、MATLAB 7.0仿真軟件。

4.2 改進(jìn)算法性能驗證

為了驗證所提改進(jìn)的C5.0決策樹算法的性能,用UCI機(jī)器學(xué)習(xí)數(shù)據(jù)集[15]進(jìn)行了分類測試驗證。選擇20組小數(shù)據(jù)集,共2 400個樣本進(jìn)行了測試。訓(xùn)練樣本為隨機(jī)選取的1 000個樣本,其余為測試樣本。每組實驗重復(fù)10次并去平均值作為最終結(jié)果。標(biāo)準(zhǔn)C5.0決策樹算法和改進(jìn)后C5.0決策樹算法的分類準(zhǔn)確率對比和時間對比分別如圖3、圖4所示。

圖3 2種算法的分類準(zhǔn)確率對比

圖4 2種算法的分類時間對比

從圖3可以看出,隨著測試樣本數(shù)量的不斷增多,2種算法分類的準(zhǔn)確率幾乎一致。從圖4可以看出,隨著測試樣本數(shù)量的不斷增多,2種算法分類的時間均有所增加,但是改進(jìn)后C5.0決策樹算法所需的時間明顯更少,分類效率更高。

4.3 電力營銷應(yīng)用結(jié)果

以某電力企業(yè)的2019年期間營銷數(shù)據(jù)為測試數(shù)據(jù)集,對改進(jìn)后C5.0決策樹算法進(jìn)行實際案例分析。該電力營銷測試數(shù)據(jù)集共包括100名不同地區(qū)、不同年齡和不同崗位的用戶用電樣本數(shù)據(jù)。隨機(jī)選取其中50個樣本作為訓(xùn)練樣本,如表1所示。

表1 訓(xùn)練樣本集

利用改進(jìn)的C5.0決策樹算法,選擇具有最大信息增益屬性值作為葉節(jié)點,循環(huán)上述決策樹執(zhí)行步驟,最終產(chǎn)生客戶分類決策樹及其分類規(guī)則,然后在電力營銷數(shù)據(jù)集的測試樣本中對得到的分類決策樹模型進(jìn)行驗證。此外,為了對比分析,還使用了BP神經(jīng)網(wǎng)絡(luò)和ID3.0決策樹分別建立分類模型。各種分類模型結(jié)果比較如表2所示。

從表2可以看出,相比于BP神經(jīng)網(wǎng)絡(luò)、ID3.0決策樹,C5.0決策樹和改進(jìn)的C5.0決策樹算法在分類準(zhǔn)確率方面提升較為明顯,C5.0決策樹最優(yōu)(87.6%),改進(jìn)C5.0決策樹算法次之(86.5%)。而在分類效率方面,改進(jìn)C5.0決策樹算法表現(xiàn)較為突出,僅需1.86 s。綜合來看,改進(jìn)C5.0決策樹算法在客戶及時準(zhǔn)確分類應(yīng)用中具有最佳的綜合分類性能,可以有效滿足實際的電力營銷工作需要。

表2 各種分類模型結(jié)果比較

5 總結(jié)

本文提出了一種基于改進(jìn)C5.0決策樹算法的電力營銷數(shù)據(jù)挖掘技術(shù)。通過引入信息熵對原有的屬性選擇方式進(jìn)行改進(jìn),提高了信息增益比率計算的速度。此外,根據(jù)設(shè)計的售電量關(guān)系模型進(jìn)行對電廠管理信息系統(tǒng)中的數(shù)據(jù)進(jìn)行挖掘。數(shù)據(jù)集和實際案例應(yīng)用結(jié)果均驗證了提出改進(jìn)算法的有效性和可行性。但是電力營銷訓(xùn)練和測試樣本集中用戶屬性的數(shù)量(維度)較少,后續(xù)將考慮增加更多的屬性,來進(jìn)一步驗證C5.0決策樹算法的性能。

猜你喜歡
訓(xùn)練樣本決策樹增益
基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機(jī)最優(yōu)控制
基于AD8332 的可控增益放大器設(shè)計與實現(xiàn)
人工智能
基于單片機(jī)的程控增益放大器設(shè)計
簡述一種基于C4.5的隨機(jī)決策樹集成分類算法設(shè)計
基于Multisim10和AD603的程控增益放大器仿真研究
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
決策樹學(xué)習(xí)的剪枝方法
基于小波神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量預(yù)測研究
寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
郑州市| 哈密市| 星子县| 婺源县| 贵德县| 九台市| 汉中市| 乐至县| 台南县| 安国市| 衢州市| 商水县| 台山市| 丹棱县| 手游| 皋兰县| 富源县| 资兴市| 成武县| 新乡市| 桦甸市| 乌兰县| 红河县| 漳州市| 新河县| 蓬溪县| 芜湖县| 于田县| 泾阳县| 梨树县| 平武县| 五家渠市| 鸡东县| 黄冈市| 扎囊县| 灵台县| 富裕县| 云霄县| 大同市| 同心县| 汨罗市|