国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)下基于決策樹(shù)算法的企業(yè)客戶關(guān)系管理研究

2022-04-19 14:13賴錦柏
經(jīng)濟(jì)研究導(dǎo)刊 2022年9期
關(guān)鍵詞:客戶關(guān)系管理數(shù)據(jù)挖掘大數(shù)據(jù)

賴錦柏

摘 要:1980年,在阿爾文·托夫勒的著作《第三次浪潮》中作出了如下的預(yù)測(cè):未來(lái)的世界是被數(shù)據(jù)信息包圍的世界。他將大數(shù)據(jù)形容成“第三次浪潮的華彩樂(lè)章”,全新的、將永久改變?nèi)祟愃悸贰⑸娣绞降母镄聦@數(shù)據(jù)資源展開(kāi)。正如其所言,時(shí)至今日大數(shù)據(jù)的時(shí)代已經(jīng)到來(lái),伴隨著大數(shù)據(jù)一起到來(lái)的是機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和商業(yè)智能在各個(gè)領(lǐng)域的運(yùn)用。同時(shí),大數(shù)據(jù)時(shí)代的社會(huì)輿情又與傳統(tǒng)的社會(huì)輿論有所區(qū)別。在這一背景下,當(dāng)企業(yè)面臨各類客戶時(shí),如何進(jìn)行客戶關(guān)系管理成了當(dāng)下的重點(diǎn)研究課題。在數(shù)據(jù)挖掘的各類算法中,決策樹(shù)算法是比較優(yōu)秀的一種,通過(guò)決策樹(shù)算法,能夠幫助企業(yè)更快地定位相關(guān)客戶群體,從而進(jìn)行更優(yōu)決策。

關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;決策樹(shù)算法;客戶關(guān)系管理

中圖分類號(hào):F272? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? 文章編號(hào):1673-291X(2022)09-0008-03

一、研究綜述

(一)大數(shù)據(jù)的定義

1980年,阿爾文·托夫勒在《第三次浪潮》一書(shū)里預(yù)測(cè)未來(lái)的生活是被數(shù)據(jù)信息包圍著的全球,將大數(shù)據(jù)形容成“第三次浪潮的華彩協(xié)奏曲”,人們將緊緊圍繞公共數(shù)據(jù)進(jìn)行新一輪的技術(shù)革命。而隨著大數(shù)據(jù)應(yīng)用的發(fā)展趨勢(shì),大數(shù)據(jù)的內(nèi)涵又有新的論述。Wiki百科對(duì)大數(shù)據(jù)的表述就是指所涉及的數(shù)據(jù)規(guī)模極大到?jīng)]法根據(jù)現(xiàn)階段流行工具軟件,在有效時(shí)間內(nèi)采擷、管理方法、解決和梳理有關(guān)商業(yè)資訊,進(jìn)而合理地協(xié)助公司完成運(yùn)營(yíng)管理決策提升的總體目標(biāo)。海外學(xué)者Tien James認(rèn)為大數(shù)據(jù)便是一個(gè)專業(yè)名詞,適用于數(shù)據(jù)集,其規(guī)模在現(xiàn)階段除能用專用工具計(jì)量檢定的能力以外,對(duì)數(shù)據(jù)信息開(kāi)展搜集、瀏覽、剖析或程序流程運(yùn)用都可以調(diào)控在有效的時(shí)間段內(nèi)。

(二)大數(shù)據(jù)時(shí)代輿論的特征

隨著大數(shù)據(jù)時(shí)代的到來(lái)而產(chǎn)生的網(wǎng)絡(luò)輿情與傳統(tǒng)的輿情有所不同,但又有著一些相似之處,網(wǎng)絡(luò)輿情的形成大致有“沉默的螺旋”“蝴蝶效應(yīng)”“滾雪球”“群體極化”等幾種傳播學(xué)經(jīng)典理論。根據(jù)“沉默螺旋”理論,大多數(shù)人都是受大眾心理的驅(qū)使,盡量避免孤立自己獨(dú)特的觀點(diǎn)來(lái)面對(duì)網(wǎng)絡(luò)主流的、即使是未必正確的輿論?!昂?yīng)”的理論則是傳統(tǒng)蝴蝶效應(yīng)的延伸,認(rèn)為網(wǎng)絡(luò)上一些微不足道的輿情都有可能發(fā)展成公眾關(guān)注的熱點(diǎn)與焦點(diǎn)。“滾雪球”理論指出,根據(jù)網(wǎng)民的“好奇心”和“關(guān)注”,一些問(wèn)題會(huì)從地區(qū)問(wèn)題轉(zhuǎn)變?yōu)楫a(chǎn)業(yè)問(wèn)題,甚至向國(guó)際問(wèn)題轉(zhuǎn)變。群體極化理論的觀點(diǎn)是網(wǎng)民在遇到話題時(shí)會(huì)代入自身的主觀感情從而對(duì)問(wèn)題的看法有所偏頗,而在其他群體成員的認(rèn)同下,導(dǎo)致了其輿論向極端發(fā)展,進(jìn)而構(gòu)成了輿論的非理性,最終影響了整個(gè)群體的輿論。

(三)數(shù)據(jù)挖掘的內(nèi)涵

數(shù)據(jù)挖掘也叫作資料勘探,其內(nèi)涵是從極其龐雜的數(shù)據(jù)中將埋藏在內(nèi)的具有某些特定關(guān)系的相關(guān)內(nèi)容進(jìn)行自動(dòng)化檢索的進(jìn)程。數(shù)據(jù)挖掘是以一個(gè)全新的角度為立足點(diǎn),將各種信息技術(shù)性開(kāi)展合理結(jié)合,同時(shí)結(jié)合發(fā)展趨勢(shì)而成的能夠?qū)Υ罅康臉I(yè)務(wù)流程數(shù)據(jù)信息開(kāi)展較為系統(tǒng)的剖析和篩選的合理專用工具,主要是協(xié)助企業(yè)從不斷更替并累積起來(lái)的數(shù)據(jù)信息中挑選對(duì)企業(yè)本身有效的信息,數(shù)據(jù)挖掘?qū)⑵髽I(yè)制定的業(yè)務(wù)流程總體目標(biāo)為根據(jù),對(duì)全部商業(yè)服務(wù)大環(huán)境中的海量信息開(kāi)展數(shù)據(jù)分析,從而篩選出對(duì)本身有使用價(jià)值的數(shù)據(jù)信息,為企業(yè)能夠更好地開(kāi)展商業(yè)服務(wù)、管理決策提出合理的根據(jù)。

運(yùn)用數(shù)據(jù)挖掘?qū)A繑?shù)據(jù)信息開(kāi)展挖掘的分析方法有很多,主要是歸類、多元回歸分析、聚類算法、關(guān)聯(lián)規(guī)則、特征分析、轉(zhuǎn)變和誤差值剖析、Web網(wǎng)頁(yè)挖掘等,不同的分析方法可以從多角度對(duì)數(shù)據(jù)信息開(kāi)展挖掘,使結(jié)果更加精準(zhǔn)。

(四)決策樹(shù)算法

決策樹(shù)算法是一種依據(jù)已知的概率,即樣品數(shù)據(jù)具有不同的特性,形成可以用于分析對(duì)象的一種算法。數(shù)據(jù)分類算法家族中,決策樹(shù)算法都是用于確定決策的經(jīng)典算法。首先,所有數(shù)據(jù)特性都被視為包含所有特性的樹(shù)木節(jié)點(diǎn)。統(tǒng)計(jì)的如果是一個(gè)橫向特性,關(guān)于分點(diǎn)數(shù)據(jù)的信息被記錄為純度的基礎(chǔ),以便將節(jié)點(diǎn)劃分。第二,比較已登記數(shù)據(jù)的特點(diǎn),確定最佳特點(diǎn),并找出將數(shù)據(jù)集從樣本中隔開(kāi)的分界點(diǎn)。最后,決策樹(shù)按照這些規(guī)則建立。

決策樹(shù)算法的基本思想是利用屬性選擇度量(ASM)來(lái)確保屬性是決策節(jié)點(diǎn),并將數(shù)據(jù)集分割成更小的子集,使數(shù)據(jù)集被分割成更小的子集,思想是選擇最好的屬性來(lái)劃分。通過(guò)遞歸,對(duì)每一個(gè)子集重復(fù)這個(gè)過(guò)程,就滿足了其中一個(gè)條件,可以開(kāi)始構(gòu)建樹(shù)形結(jié)構(gòu),直到用來(lái)劃分?jǐn)?shù)據(jù)的屬性選擇度量的最佳分割標(biāo)準(zhǔn)集合,它是一種啟發(fā)式算法,也稱為分割規(guī)則。這是因?yàn)樗兄诖_定給定節(jié)點(diǎn)上元組的斷點(diǎn),其過(guò)程如圖1所示。

用決策樹(shù)學(xué)習(xí)的核心問(wèn)題之一是特征的區(qū)分。經(jīng)典的三種情況可以得出三種有代表性的決策樹(shù)算法。

同時(shí),決策樹(shù)算法可以較好地應(yīng)對(duì)過(guò)擬合的風(fēng)險(xiǎn),可通過(guò)“剪枝”來(lái)一定程度避免因決策分支過(guò)多,以至于把訓(xùn)練集自身的一些特點(diǎn)當(dāng)作所有數(shù)據(jù)都具有的一般性質(zhì)而導(dǎo)致的過(guò)擬合,進(jìn)而提高決策樹(shù)的泛化能力,而“剪枝”又可以分為先剪枝和后剪枝兩種方案。

二、模型構(gòu)建

(一)指標(biāo)選擇

以消費(fèi)者為對(duì)象,對(duì)其采用問(wèn)卷調(diào)查的形式,針對(duì)影響消費(fèi)者對(duì)品牌好感度的因素分析,選定的評(píng)價(jià)指標(biāo)應(yīng)力求全面反映消費(fèi)者對(duì)品牌的好感。對(duì)品牌評(píng)價(jià)進(jìn)行決策樹(shù)分析,最終將指標(biāo)分為:K1,即商品價(jià)格;K2,即商品使用壽命;K3,即商品售后;K4,即網(wǎng)絡(luò)上該商品的普遍評(píng)價(jià);K5,即對(duì)該商品的感受。并對(duì)10種商品進(jìn)行商品體驗(yàn)。其中將K1分為5級(jí):A為0~100元;B為100~300元;C為300~500元;D為500~1 000元;E為1 000元以上;將其他四個(gè)評(píng)價(jià)等級(jí)也分為5級(jí),分別為:A為優(yōu)秀(90—100);B為良好(80—90);C為中等(70—80);D為合格(60—70);E為不合格(<60);獲得10種商品評(píng)價(jià)如表4所示。

(二)模型構(gòu)建

通過(guò)表4所示的評(píng)價(jià)結(jié)果,利用ID3算法構(gòu)成決策樹(shù),部分程序代碼如下:

Print(Start training)

Tree=train(train_features,train_labels,list(range(feature_len)))

Time_3=time.time()

Print(training cost %f second'%(time_3—time_2))

Print(Start predicting)

Tests_predict=predicting(test_features,tree)time_4= time.time()

Print(predicting cost %f second'%(time_4—time_ 3))

根據(jù)表4中獲得的質(zhì)量評(píng)價(jià)結(jié)果和建立的決策樹(shù),確定樣本期望信息熵為:

I(S)=-log2()-log2()-log2()=1.25775996

對(duì)于商品價(jià)格K1,存在有Values(K1)=(A,B,C),SA={6,8},|SA|=2,SB={1,2,3,5,9,10},|SB|=6,SC={4,7},|SC|=2,計(jì)算獲得商品價(jià)格K1條件期望信息,可得到E(K1)=0.758。

比較樣本的信息熵有:Gain(K1)=I(S)-E(K1)=0.503,同理可得到其他屬性的信息熵分別為Gain(K2)=0.607,Gain(K3)=0.476,Gain(K4)=0.432。

比較樣本的信息熵有:Gain(K2)>Gain(K1)>Gain(K3)>Gain(K4)??梢钥闯?,樣本中商品使用壽命屬性信息增益具有做大值,因此選擇教學(xué)內(nèi)容K2作為根節(jié)點(diǎn)測(cè)試屬性,在每個(gè)值根節(jié)點(diǎn)創(chuàng)建分支,并基于ID3從根節(jié)點(diǎn)進(jìn)行進(jìn)一步細(xì)分。若根節(jié)點(diǎn)到當(dāng)前節(jié)點(diǎn)路徑包含了所有樣本的全部屬性,或?qū)儆谕挥?xùn)練樣本層,則算法完成,根據(jù)教學(xué)內(nèi)容K2測(cè)試屬性建立的決策樹(shù)形圖如圖1所示。

(三)決策結(jié)果

根據(jù)已建立的決策樹(shù)可以確定知識(shí)的表述形式為:

if(K2=A),then K5=優(yōu)秀;

If(K2=B),then K5=良好;

根據(jù)分析可知,商品使用壽命,即耐用程度K2在商品評(píng)價(jià)中占主導(dǎo)地位,若商品使用壽命為優(yōu)秀時(shí),獲得的商品評(píng)價(jià)為優(yōu)秀;若商品使用壽命為良好,則商品評(píng)價(jià)為良好。因此對(duì)商品評(píng)價(jià)中,商品的質(zhì)量應(yīng)作為主要的考慮因素,同時(shí)兼顧售后等其他樣本。

結(jié)語(yǔ)

大數(shù)據(jù)時(shí)代對(duì)企業(yè)的生存帶來(lái)了新機(jī)遇,也帶來(lái)了很多的挑戰(zhàn),如何迎合客戶喜好、如何進(jìn)行更好的售后服務(wù)等等,都是企業(yè)要考慮的問(wèn)題,但企業(yè)應(yīng)將顧客對(duì)商品耐用程度的需求放在首位,應(yīng)從如何提高商品壽命,降低次品率考慮。

數(shù)據(jù)挖掘?qū)τ诂F(xiàn)代企業(yè)而言是一種可以用于分類客戶、進(jìn)行產(chǎn)品定位等功能的重要輔助工具,其應(yīng)用領(lǐng)域仍然有很大的開(kāi)發(fā)空間。因此,研究人員應(yīng)不斷深入挖掘數(shù)據(jù)挖掘這一實(shí)用工具的應(yīng)用潛力。

參考文獻(xiàn):

[1]? 毛國(guó)軍,段立娟,王實(shí).數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2005.

[2]? 王玨,周志華,周傲英.機(jī)器學(xué)習(xí)及其應(yīng)用[M].北京:清華大學(xué)出版社,2006.

[3]? 閆友彪,陳元琰.機(jī)器學(xué)習(xí)的主要策略綜述[J].計(jì)算機(jī)應(yīng)用研究,2004,(7):4-10.

[4]? 王愛(ài)平,張功營(yíng),劉方.EM算法研究與應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2009,(9):108-110.

[5]? 孫志軍,薛磊,許陽(yáng)明,等.深度學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2012,(8):2806-2810.

[6]? 李旭然,丁曉紅.機(jī)器學(xué)習(xí)的五大類別及其主要算法綜述[J].軟件導(dǎo)刊,2019,(7):4-9.

[7]? 吳玉軒.機(jī)器學(xué)習(xí)算法在金融市場(chǎng)風(fēng)險(xiǎn)預(yù)測(cè)中的應(yīng)用[J].信息系統(tǒng)工程,2019,(2).

[8]? 李赟妮.神經(jīng)網(wǎng)絡(luò)模型在銀行互聯(lián)網(wǎng)金融反欺詐中的應(yīng)用探索[J].金融科技時(shí)代,2018,(8):24-28.

[9]? 王雅靜.銀行個(gè)人客戶信用評(píng)分模型研究——基于決策樹(shù)算法[J].現(xiàn)代商貿(mào)工業(yè),2015,(19):6465.

[10]? 嚴(yán)蔚敏,李冬梅,吳偉民.數(shù)據(jù)結(jié)構(gòu):C語(yǔ)言版[M].北京:人民郵電出版社,2011.

[11]? West D.Neural network credit scoring models[J].Computers & Operations Research,2000,(11-12): 1131-1152.

[12]? Domingosp.The master algorithm:how the quest for the ultimate? learning machine will remake our world[M].England:Reed Business Information Ltd.,2015.

[13]? Sun H.N.,HU X.G.Attribute Selection for Decision Tree Learning with Class Constraint[J].Chemometrics and Intelligent Laboratory Systems,2017,(163):16-23.

[14]? KE G.L.,Meng Q.,F(xiàn)inley T.,et al.Light GBM: A Highly Efficient Gradient Boosting Decision Tree//Guyon I,Luxburg U V,Bengio S,et al.,eds.Advances in Neural Information Processing Systems 30.Cambridge,USA:The MIT Press,2017:3149-3157.

猜你喜歡
客戶關(guān)系管理數(shù)據(jù)挖掘大數(shù)據(jù)
基于數(shù)據(jù)挖掘探討慢性腎衰竭處方規(guī)律
數(shù)據(jù)挖掘綜述
軟件工程領(lǐng)域中的異常數(shù)據(jù)挖掘算法
中小企業(yè)客戶關(guān)系管理實(shí)施策略探討
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
基于R的醫(yī)學(xué)大數(shù)據(jù)挖掘系統(tǒng)研究
萬(wàn)科集團(tuán)住宅產(chǎn)品客戶關(guān)系管理探析