秦曉安
(安徽商貿(mào)職業(yè)技術(shù)學(xué)院,安徽蕪湖 241003)
隨著移動(dòng)通信行業(yè)的飛速發(fā)展,通信企業(yè)之間的競(jìng)爭(zhēng)日趨激烈,隨著高校招生規(guī)模的不斷擴(kuò)大,高校逐漸成為各大移動(dòng)通訊公司搶占的高地。在不斷壓縮成本,降低價(jià)格之后,推出何種深受歡迎的校園套餐,成為各運(yùn)營(yíng)商思考的問(wèn)題。
資費(fèi)套餐是運(yùn)營(yíng)商根據(jù)客戶(hù)的市場(chǎng)需要,將各種業(yè)務(wù)進(jìn)行整合,以獲得最大經(jīng)濟(jì)利益的營(yíng)銷(xiāo)方式。通過(guò)滿足各種消費(fèi)群體的需要,與此同時(shí)以?xún)?yōu)厚的價(jià)格使消費(fèi)者得到了實(shí)際的利益,這樣不僅提升了自身業(yè)務(wù)的吸引力,也在一定程度上提升了消費(fèi)者的滿意度和忠誠(chéng)度,有效避免了消費(fèi)者的離網(wǎng),增強(qiáng)了企業(yè)客戶(hù)的健壯性;同時(shí)也使企業(yè)的各項(xiàng)業(yè)務(wù)得到應(yīng)用,提高了企業(yè)的盈利能力[1]。隨著科技的不斷發(fā)展和日新月異的3G技術(shù),高校大學(xué)生的消費(fèi)群體呈現(xiàn)出了多元化的特征,從普通的話音通話和發(fā)送短信轉(zhuǎn)變?yōu)閷?duì)上網(wǎng)、購(gòu)物、交友等更深層次的需求。當(dāng)前一些地區(qū)推出的校園資費(fèi)套餐基本上可以滿足大學(xué)生消費(fèi)者的需求。但是,套餐設(shè)計(jì)還是存在著一些不合理的因素,一方面沒(méi)有做好學(xué)生市場(chǎng)的調(diào)研,套餐設(shè)計(jì)簡(jiǎn)單,沒(méi)有和大學(xué)生的實(shí)際需要結(jié)合起來(lái);另一方面資費(fèi)套餐細(xì)節(jié)內(nèi)容固定,各套餐價(jià)格檔位相差過(guò)大,有些超出了學(xué)生承受的能力,導(dǎo)致大學(xué)生沒(méi)有自由組合套餐內(nèi)容的權(quán)利。
本文將以安徽校園套餐為例,通過(guò)數(shù)據(jù)挖掘中決策樹(shù)ID3算法技術(shù),分析提出合理化建議來(lái)改進(jìn)套餐內(nèi)容以便于更貼近學(xué)生需要。
業(yè)內(nèi)有很多關(guān)于決策樹(shù)數(shù)據(jù)的分類(lèi)方法,通常可分為4種:貝葉斯分類(lèi)方法、基于距離的分類(lèi)方法、決策樹(shù)分類(lèi)方法和規(guī)則歸納方法。其中決策樹(shù)分類(lèi)方法是大部分人經(jīng)常使用的一種方法[2]。當(dāng)前決策樹(shù)的構(gòu)造方法有很多種,其中最具代表性的是著名學(xué)者J.R.Quinlan提出的ID3算法,該算法的優(yōu)點(diǎn)是在進(jìn)行非葉子結(jié)點(diǎn)求值時(shí),能夠得出被測(cè)試屬性中誰(shuí)是具有最大信息增益的那一個(gè)。ID3算法操作起來(lái)較簡(jiǎn)單,容易掌握。
ID3算法的選擇標(biāo)準(zhǔn)主要是關(guān)于信息增益,而信息增益理論主要基于熵的概念,ID3算法在實(shí)施的過(guò)程中通常選那些具有最高信息增益的屬性作為測(cè)試屬性的節(jié)點(diǎn)。下面介紹屬性信息增益的計(jì)算,通過(guò)得出的結(jié)果找出規(guī)律并相互比較大小,目的是為了得到一個(gè)屬性具有最大信息增益。
假定集合S中包含有s個(gè)數(shù)據(jù)樣本,其中類(lèi)標(biāo)號(hào)屬性包含m個(gè)不一樣的值,這樣就能夠定義m個(gè)不同類(lèi)Ci。由此可以設(shè)Si是其類(lèi)Ci中的樣本數(shù),通過(guò)式(1)得出給定樣本分類(lèi)所需要的信息熵或期望信息:
式中pi是任一個(gè)樣本屬于Ci的概率,通常可以用Si/S來(lái)進(jìn)行估計(jì)。由于計(jì)算機(jī)中信息數(shù)據(jù)的存儲(chǔ)是二進(jìn)制編碼,所以用以2為底的對(duì)數(shù)函數(shù)。
假定信息屬性A包含有n個(gè)不一樣的值{a1,a2,…,an},該屬性就可以把S劃分成為n個(gè)不同的子集{S0,S1,… ,Sn},其Sj樣本在信息屬性A上有了一樣的值 aj(j=1,2,…,n)。假定Sij是Sj中類(lèi)Ci的樣本個(gè)數(shù),那么通過(guò)A所進(jìn)一步細(xì)分的子集中的期望信息熵可由式(2)得到:
式中:pij=Sij/Sj,是Sj樣本屬于Ci的概率。
同樣,相應(yīng)信息增益值可由熵值和期望信息得出,由式(4)可以計(jì)算出屬性A上分支部分得到的信息增益:
由此可見(jiàn),ID3算法的首要步驟就是得出各個(gè)屬性的信息增益,并找出其中信息增益值最高的作為未來(lái)決策樹(shù)的根結(jié)點(diǎn),根據(jù)該屬性的其他值創(chuàng)建出其分支節(jié)點(diǎn),最終完成完整的決策樹(shù)[3]。
目前安徽校園套餐主要以19、39元套餐為主(表1),其他檔次套餐不適合學(xué)生消費(fèi),故不做分析。
表1 19、39元套餐的詳情
學(xué)生群體選擇套餐都希望套餐內(nèi)的服務(wù)夠用,以顯實(shí)惠,故套餐外不做考慮分析。在套餐內(nèi)隨機(jī)挑選若干學(xué)生樣本,主要考慮本地長(zhǎng)市主叫、短信、國(guó)內(nèi)Wifi、手機(jī)上網(wǎng)這4項(xiàng)數(shù)據(jù)作為分析的屬性依據(jù)。
將4項(xiàng)的屬性值分為3大類(lèi),其中國(guó)內(nèi)Wifi和手機(jī)上網(wǎng)歸為一類(lèi),分別稱(chēng)之為主叫、短信、上網(wǎng)。接著每類(lèi)按區(qū)間劃分成幾個(gè)部分,比如主叫按0~100、100~200、200以上劃分成少、一般、多 3種類(lèi)型,以此類(lèi)推劃分其他幾項(xiàng)屬性數(shù)據(jù),目的是為了便于分析套餐的使用情況。
從數(shù)據(jù)倉(cāng)庫(kù)中選取7個(gè)班共326名學(xué)生,即326個(gè)樣本,其中選擇19元套餐有152個(gè)樣本,39元套餐有174個(gè)樣本,即 S1=152,S2=174,總計(jì) S=326。
根據(jù)樣本計(jì)算每個(gè)屬性的信息增益,得出“是否超出套餐”字段所需要的信息熵:
下面計(jì)算每一個(gè)屬性的信息熵,首先從主叫屬性開(kāi)始,觀察主叫每個(gè)樣本值之間的分布,求出它們的信息熵。
對(duì)于主叫為“多”,其中結(jié)果“是否超出套餐”為“是”的有104個(gè)樣本,為“否”的有36個(gè)樣本,即S11=104,S21=36,總計(jì) S=140,由式(3)計(jì)算出:
對(duì)于主叫為“一般”,其中結(jié)果“是否超出套餐”為“是”的有33個(gè)樣本,為“否”的有127個(gè)樣本,即S12=33,S22=127,總計(jì) S=160,由式(3)計(jì)算出:
對(duì)于主叫為“少”,其中結(jié)果“是否超出套餐”為“是”的有2個(gè)樣本,為“否”的有24個(gè)樣本,即S13=2,S23=24,總計(jì) S=26,由式(3)計(jì)算出:
如果樣本按主叫得出期望信息,可由式(2)計(jì)算出:
最后得出這種劃分的信息增益是:
類(lèi)似可以計(jì)算出其他屬性數(shù)據(jù)的信息增益。剪枝后決策樹(shù)見(jiàn)圖1。
圖1 剪枝后決策樹(shù)
分析可知,由于主叫屬性具備最高的增益信息,接下來(lái)將由它作為測(cè)試屬性。以主叫屬性作為決策樹(shù)的根結(jié)點(diǎn),進(jìn)一步劃出其他分支結(jié)點(diǎn),每個(gè)分支結(jié)點(diǎn)以此類(lèi)推最終得到一棵完整的決策樹(shù)。
通過(guò)對(duì)決策樹(shù)的分析,可以看出主叫少,短信用量較少的基本上都沒(méi)有超過(guò)套餐用量;主叫少,短信多,上網(wǎng)較少的也沒(méi)有超過(guò)套餐用量;主叫一般,短信、上網(wǎng)較少的同樣沒(méi)有超過(guò)套餐用量;其余使用均超過(guò)了套餐用量。
對(duì)于超過(guò)套餐用量的,其中有一部分是可以通過(guò)改進(jìn)套餐加以解決,具體解決方案有2種:(1)將19元套餐分為2個(gè)版本,分別為語(yǔ)音聊天和短信上網(wǎng),適當(dāng)增加各自的權(quán)重。主要解決主叫多、上網(wǎng)短信少或上網(wǎng)短信多、主叫少而超出套餐的問(wèn)題。(2)增加29元套餐,適當(dāng)分配套餐內(nèi)容,主要解決主叫較多、上網(wǎng)短信較多而超出套餐的問(wèn)題。
高校手機(jī)套餐的制定具體還應(yīng)根據(jù)公司營(yíng)銷(xiāo)策略和受眾群體不同而有所不同。
[1]呂志國(guó).基于數(shù)據(jù)挖掘的移動(dòng)資費(fèi)套餐設(shè)計(jì)模型的建立與實(shí)現(xiàn)[J].中國(guó)管理信息化,2007,10(12):23-27.
[2]胡運(yùn)發(fā).數(shù)據(jù)與知識(shí)工程導(dǎo)論[M].北京:清華大學(xué)出版社,2003:128-129.
[3]姜紅艷.決策樹(shù)ID3算法在學(xué)生成績(jī)中的應(yīng)用[J].鞍山師范學(xué)院學(xué)報(bào),2008,10(4):55-58.
[4]羅海蛟,劉顯.數(shù)據(jù)挖掘中分類(lèi)算法的研究及其應(yīng)用[J].微機(jī)發(fā)展,2003(s2):49-50.
[5]桂現(xiàn)才,彭宏,王小華.C4.5算法在保險(xiǎn)客戶(hù)流失分析中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2005(17):197-199.