国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于ID3算法的商務網(wǎng)站客戶分類研究

2020-03-20 03:42鄭焱
軟件工程 2020年3期

鄭焱

摘? 要:ID3算法作為最經典的決策樹分類方法,因其直觀、簡單、容易實現(xiàn)等優(yōu)點,在電子商務領域得到了廣泛應用。文章首先分析了ID3算法的基本原理與流程,然后以某商務網(wǎng)站為例,以其客戶交易數(shù)據(jù)為研究對象,深入探討了該算法在客戶分類中的具體應用。通過該算法的使用,可對商務網(wǎng)站的客戶進行準確分類,從而為其開展個性化服務及精準營銷提供重要的理論依據(jù)。

關鍵詞:決策樹分類方法;ID3算法;客戶分類

中圖分類號:TP305? ? ?文獻標識碼:A

Abstract:ID3 algorithm is the most classical decision tree classification method.Because it is simple and easy to implement,it has been widely applied in EC.This paper first analyzes the basic principle and process of ID3 algorithm. Then this paper uses a business website as an example and takes its customer transaction data as the research object to discuss the specific application of ID3 algorithm in customer classification.With this algorithm,we can accurately classify the customers of business websites to provide an important theoretical basis for personalized service and precision marketing.

Keywords:the classification method of the decision tree;ID3 algorithm;customer classification

1? ?引言(Introduction)

ID3算法是最典型的決策樹分類算法之一,通過該算法可實現(xiàn)對樣本的精確分類,方便進一步進行精細化處理。因ID3算法的實用性,近年來許多專家學者對該算法的優(yōu)化及應用進行了探討與研究,如趙克新等[1]針對無人機空戰(zhàn)態(tài)勢估計中存在的多參數(shù)、非線性、實時性等問題,提出了一種改進決策樹思想的態(tài)勢估計推理方法,并驗證了該方法的效率及準確性;徐兵等[2]提出了一種基于梯度提升決策樹的車輛換道融合決策模型,并以NGSIM車輛軌跡數(shù)據(jù)集為基礎,對支持向量機(SVM)、隨機森林(RF)、GBDT及基于GBDT的融合決策模型進行了訓練及性能測試,驗證了本文所提出方法的準確率;柴宏濤[3]針對作戰(zhàn)體系中信息資源分類過程中存在的問題,提出了一種基于ID3算法的分類映射模型,并應用算例進行了模擬;陳茜等[4]通過調查問卷收集了湖北省相關高校及其他單位的人才需求信息,使用ID3算法構建決策樹模型,分析了影響相關人才留在某二線城市和留在武漢主客觀因素,并據(jù)此提出了武漢市引進、留住人才的對策建議;羅計根等[5]針對ID3算法的局限性提出了一種融合GINI指數(shù)的ID3改進算法,較好地解決了信增益偏好屬性值多的問題,并應用六組UCI數(shù)據(jù)集進行效果驗證等。可見,目前該領域的研究仍然比較活躍,方法的改進及應用領域的拓展依然是研究的重點。

2? ID3算法的基本理論(The basic theory of ID3 algorithm)

2.1? ?相關定義

信息量(熵):用來反映決策樹一個結點的信息容量。設為樣本集合,,類別屬性。假設為類別中的樣本個數(shù),則該集合S所包含的信息量(熵)為[6]:

可見,是對給定對象進行分類的信息量與利用屬性劃分當前樣本集合信息量的差值。在構建決策樹的過程中,可利用的值來對各屬性的重要性進行評估。

2.2? ?ID3算法流程

ID3算法的核心是基于“信息熵”理論,其構建決策樹的過程是:首先根據(jù)式(3)計算出每個屬性的值,然后將各屬性的值按由大到小排序,取出值最大的屬性作為劃分標準,不斷重復該過程,直至生成一個決策樹。具體算法流程如圖1所示。

圖1 ID3算法流程

Fig.1 ID3 algorithm flow chart

3 ID3算法在商務網(wǎng)站客戶分類中的應用(Application of ID3 algorithm in customer classification of business website)

隨著電子商務的高速發(fā)展,其經營管理的復雜程度也越來越大,尤其是客戶關系管理變得越來越復雜。因此,本文將ID3算法應用到商務網(wǎng)站的客戶管理中,以決策樹方法來構造模型,進行客戶價值分析,找到最有價值的客戶,從而開展有針對性的促銷活動,更好地提供個性化的服務及精準營銷。

下面以某商務網(wǎng)站為例,詳細分析ID3算法在客戶分類中的具體應用。

3.1? ?構造訓練集

根據(jù)某商務網(wǎng)站的數(shù)據(jù)倉庫的用戶信息和日志,從中提取部分客戶交易信息構建數(shù)據(jù)集,如表1所示。

3.2? ?計算信息增益

應用ID3算法生成決策樹算法的過程如下:

(1)在表1的訓練集S中,類別屬性集C有兩個不同取值,即{是,否},因此類別個數(shù)m=2。假設類C1對應于“是”,而C2對應于“否”,類C1有7個樣本,類C2的有三個樣本。根據(jù)公式(1)可計算出相應樣本分類所需的信息熵:

其后,ID3算法利用的值對各屬性的重要程度進行排序,取出值最大的屬性構造決策樹的第一個結點,并對該結點所代表的全部屬性值進行測試,從而得到該結點的各個分支,依據(jù)這些分支將原有數(shù)據(jù)集分為若干個子數(shù)據(jù)集。若某結點所包含的所有數(shù)據(jù)類別相同,那么該結點就是就不用再細分,標記為決策樹的葉結點。

3.3? ?構建決策方案

根據(jù)計算結果可知,屬性“消費金額”所獲得的信息增益最大,因此該屬性將作為測試屬性產生當前分支結點。因該屬性有三個不同取值,故產生三個不同分支,則將當前樣本集合劃分成三個不同子集。劃分結果如圖2所示。

從圖2可知,“消費金額”<50的樣本類別的取值均為“是”,因此在該分支結果標記為“是”,并產生一個葉結點。根據(jù)訓練樣本集合,依據(jù)以上處理過程,最終所產生的決策樹如圖3所示。

通過ID3算法的分析,可知“消費金額”是決策樹分支的最重要因素,其次為“購買方式”“商品種類”“是否女性”等。根據(jù)圖3所示的決策樹,得出如下結論:

(1)易流失客戶為以下三類:

①消費金額在50—100,購買方式采用普通方式的客戶;

②消費金額大于等于100,參加團購,不是女性的客戶;

③消費金額大于等于100,采用普通方式購買的客戶。

(2)忠實客戶為以下三類:

①消費金額小于50的客戶;

②消費金額在50—100,參加促銷的客戶;

③消費金額大于等于100,參加團購,是女性的客戶。

根據(jù)分析結果,可對易流失的客戶有針對性地推出優(yōu)惠、促銷等活動,從而達到吸引客戶、留住客戶的目的。同時,進一步分析客戶流失的原因,找出商務網(wǎng)站經營管理過程中存在的問題,并針對問題制定出切實可行的解決對策,從而提高客戶的忠誠度;對于忠實客戶,可進一步分析其特征,挖掘其深層次的需求,做到比客戶更了解客戶,從而提供更好的個性化服務。

4? ?結論(Conclusion)

ID3算法是一種歸納分類算法,采用自頂向下的遞歸方式構造決策樹,具有簡單、便于實現(xiàn)等優(yōu)點。將該算法應用于商務網(wǎng)站的客戶管理中,可以挖掘出大量的潛在的、隱含的、有價值的客戶信息,并在此基礎上構建預測模型,對客戶進行準確分類,方便進一步為客戶提供針對性更強的個性化服務,或者精準營銷策略的深入開展。

參考文獻(References)

[1] 趙克新,黃長強,魏政磊,等.改進決策樹的無人機空戰(zhàn)態(tài)勢估計[J].哈爾濱工業(yè)大學學報,2019(4):66-73.

[2] 徐兵,劉瀟.采用梯度提升決策樹的車輛換道融合決策模型[J].浙江大學學報(工學版),2019(4):1-10.

[3] 柴宏濤,李建華,沈迪.基于ID3算法的信息資源分類管理映射模型研究[J].計算機工程與設計,2013(3):1082-1086.

[4] 陳茜,馬向平.基于決策樹ID3算法的人才留漢吸引政策研究[J].武漢理工大學學報(信息與管理工程版),2019(4):148-153.

[5] 羅計根,杜建強.融合GINI指數(shù)的ID3改進算法[J].南昌大學學報(工科版),2019(3):80-84.

[6] 朱明.數(shù)據(jù)挖掘[M].合肥:中國科學技術大學出版社,2002.

作者簡介:

鄭? 焱(1998-),男,本科生.研究領域:計算機科學與技術.

永安市| 小金县| 澄江县| 青田县| 通州市| 双城市| 蒲城县| 金堂县| 遂昌县| 浏阳市| 始兴县| 大悟县| 石泉县| 浠水县| 琼结县| 克东县| 自治县| 米脂县| 喀喇沁旗| 留坝县| 宁城县| 海门市| 瓦房店市| 绍兴县| 株洲县| 沧源| 克什克腾旗| 雷波县| 朝阳区| 罗平县| 忻城县| 项城市| 西吉县| 定安县| 海晏县| 福建省| 宁陕县| 子洲县| 拉孜县| 正镶白旗| 华安县|