国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)挖掘的高校手機(jī)資費(fèi)套餐研究

2014-12-28 02:09:46秦曉安
關(guān)鍵詞:信息熵套餐決策樹(shù)

秦曉安

(安徽商貿(mào)職業(yè)技術(shù)學(xué)院,安徽蕪湖 241003)

1 高校手機(jī)資費(fèi)套餐現(xiàn)狀

隨著移動(dòng)通信行業(yè)的飛速發(fā)展,通信企業(yè)之間的競(jìng)爭(zhēng)日趨激烈,隨著高校招生規(guī)模的不斷擴(kuò)大,高校逐漸成為各大移動(dòng)通訊公司搶占的高地。在不斷壓縮成本,降低價(jià)格之后,推出何種深受歡迎的校園套餐,成為各運(yùn)營(yíng)商思考的問(wèn)題。

資費(fèi)套餐是運(yùn)營(yíng)商根據(jù)客戶(hù)的市場(chǎng)需要,將各種業(yè)務(wù)進(jìn)行整合,以獲得最大經(jīng)濟(jì)利益的營(yíng)銷(xiāo)方式。通過(guò)滿足各種消費(fèi)群體的需要,與此同時(shí)以?xún)?yōu)厚的價(jià)格使消費(fèi)者得到了實(shí)際的利益,這樣不僅提升了自身業(yè)務(wù)的吸引力,也在一定程度上提升了消費(fèi)者的滿意度和忠誠(chéng)度,有效避免了消費(fèi)者的離網(wǎng),增強(qiáng)了企業(yè)客戶(hù)的健壯性;同時(shí)也使企業(yè)的各項(xiàng)業(yè)務(wù)得到應(yīng)用,提高了企業(yè)的盈利能力[1]。隨著科技的不斷發(fā)展和日新月異的3G技術(shù),高校大學(xué)生的消費(fèi)群體呈現(xiàn)出了多元化的特征,從普通的話音通話和發(fā)送短信轉(zhuǎn)變?yōu)閷?duì)上網(wǎng)、購(gòu)物、交友等更深層次的需求。當(dāng)前一些地區(qū)推出的校園資費(fèi)套餐基本上可以滿足大學(xué)生消費(fèi)者的需求。但是,套餐設(shè)計(jì)還是存在著一些不合理的因素,一方面沒(méi)有做好學(xué)生市場(chǎng)的調(diào)研,套餐設(shè)計(jì)簡(jiǎn)單,沒(méi)有和大學(xué)生的實(shí)際需要結(jié)合起來(lái);另一方面資費(fèi)套餐細(xì)節(jié)內(nèi)容固定,各套餐價(jià)格檔位相差過(guò)大,有些超出了學(xué)生承受的能力,導(dǎo)致大學(xué)生沒(méi)有自由組合套餐內(nèi)容的權(quán)利。

本文將以安徽校園套餐為例,通過(guò)數(shù)據(jù)挖掘中決策樹(shù)ID3算法技術(shù),分析提出合理化建議來(lái)改進(jìn)套餐內(nèi)容以便于更貼近學(xué)生需要。

2 決策樹(shù)分類(lèi)ID3算法

業(yè)內(nèi)有很多關(guān)于決策樹(shù)數(shù)據(jù)的分類(lèi)方法,通常可分為4種:貝葉斯分類(lèi)方法、基于距離的分類(lèi)方法、決策樹(shù)分類(lèi)方法和規(guī)則歸納方法。其中決策樹(shù)分類(lèi)方法是大部分人經(jīng)常使用的一種方法[2]。當(dāng)前決策樹(shù)的構(gòu)造方法有很多種,其中最具代表性的是著名學(xué)者J.R.Quinlan提出的ID3算法,該算法的優(yōu)點(diǎn)是在進(jìn)行非葉子結(jié)點(diǎn)求值時(shí),能夠得出被測(cè)試屬性中誰(shuí)是具有最大信息增益的那一個(gè)。ID3算法操作起來(lái)較簡(jiǎn)單,容易掌握。

ID3算法的選擇標(biāo)準(zhǔn)主要是關(guān)于信息增益,而信息增益理論主要基于熵的概念,ID3算法在實(shí)施的過(guò)程中通常選那些具有最高信息增益的屬性作為測(cè)試屬性的節(jié)點(diǎn)。下面介紹屬性信息增益的計(jì)算,通過(guò)得出的結(jié)果找出規(guī)律并相互比較大小,目的是為了得到一個(gè)屬性具有最大信息增益。

假定集合S中包含有s個(gè)數(shù)據(jù)樣本,其中類(lèi)標(biāo)號(hào)屬性包含m個(gè)不一樣的值,這樣就能夠定義m個(gè)不同類(lèi)Ci。由此可以設(shè)Si是其類(lèi)Ci中的樣本數(shù),通過(guò)式(1)得出給定樣本分類(lèi)所需要的信息熵或期望信息:

式中pi是任一個(gè)樣本屬于Ci的概率,通常可以用Si/S來(lái)進(jìn)行估計(jì)。由于計(jì)算機(jī)中信息數(shù)據(jù)的存儲(chǔ)是二進(jìn)制編碼,所以用以2為底的對(duì)數(shù)函數(shù)。

假定信息屬性A包含有n個(gè)不一樣的值{a1,a2,…,an},該屬性就可以把S劃分成為n個(gè)不同的子集{S0,S1,… ,Sn},其Sj樣本在信息屬性A上有了一樣的值 aj(j=1,2,…,n)。假定Sij是Sj中類(lèi)Ci的樣本個(gè)數(shù),那么通過(guò)A所進(jìn)一步細(xì)分的子集中的期望信息熵可由式(2)得到:

式中:pij=Sij/Sj,是Sj樣本屬于Ci的概率。

同樣,相應(yīng)信息增益值可由熵值和期望信息得出,由式(4)可以計(jì)算出屬性A上分支部分得到的信息增益:

由此可見(jiàn),ID3算法的首要步驟就是得出各個(gè)屬性的信息增益,并找出其中信息增益值最高的作為未來(lái)決策樹(shù)的根結(jié)點(diǎn),根據(jù)該屬性的其他值創(chuàng)建出其分支節(jié)點(diǎn),最終完成完整的決策樹(shù)[3]。

3 ID3算法在校園套餐中的應(yīng)用

3.1 樣本分析

目前安徽校園套餐主要以19、39元套餐為主(表1),其他檔次套餐不適合學(xué)生消費(fèi),故不做分析。

表1 19、39元套餐的詳情

學(xué)生群體選擇套餐都希望套餐內(nèi)的服務(wù)夠用,以顯實(shí)惠,故套餐外不做考慮分析。在套餐內(nèi)隨機(jī)挑選若干學(xué)生樣本,主要考慮本地長(zhǎng)市主叫、短信、國(guó)內(nèi)Wifi、手機(jī)上網(wǎng)這4項(xiàng)數(shù)據(jù)作為分析的屬性依據(jù)。

將4項(xiàng)的屬性值分為3大類(lèi),其中國(guó)內(nèi)Wifi和手機(jī)上網(wǎng)歸為一類(lèi),分別稱(chēng)之為主叫、短信、上網(wǎng)。接著每類(lèi)按區(qū)間劃分成幾個(gè)部分,比如主叫按0~100、100~200、200以上劃分成少、一般、多 3種類(lèi)型,以此類(lèi)推劃分其他幾項(xiàng)屬性數(shù)據(jù),目的是為了便于分析套餐的使用情況。

從數(shù)據(jù)倉(cāng)庫(kù)中選取7個(gè)班共326名學(xué)生,即326個(gè)樣本,其中選擇19元套餐有152個(gè)樣本,39元套餐有174個(gè)樣本,即 S1=152,S2=174,總計(jì) S=326。

3.2 生成決策樹(shù)

根據(jù)樣本計(jì)算每個(gè)屬性的信息增益,得出“是否超出套餐”字段所需要的信息熵:

下面計(jì)算每一個(gè)屬性的信息熵,首先從主叫屬性開(kāi)始,觀察主叫每個(gè)樣本值之間的分布,求出它們的信息熵。

對(duì)于主叫為“多”,其中結(jié)果“是否超出套餐”為“是”的有104個(gè)樣本,為“否”的有36個(gè)樣本,即S11=104,S21=36,總計(jì) S=140,由式(3)計(jì)算出:

對(duì)于主叫為“一般”,其中結(jié)果“是否超出套餐”為“是”的有33個(gè)樣本,為“否”的有127個(gè)樣本,即S12=33,S22=127,總計(jì) S=160,由式(3)計(jì)算出:

對(duì)于主叫為“少”,其中結(jié)果“是否超出套餐”為“是”的有2個(gè)樣本,為“否”的有24個(gè)樣本,即S13=2,S23=24,總計(jì) S=26,由式(3)計(jì)算出:

如果樣本按主叫得出期望信息,可由式(2)計(jì)算出:

最后得出這種劃分的信息增益是:

類(lèi)似可以計(jì)算出其他屬性數(shù)據(jù)的信息增益。剪枝后決策樹(shù)見(jiàn)圖1。

圖1 剪枝后決策樹(shù)

分析可知,由于主叫屬性具備最高的增益信息,接下來(lái)將由它作為測(cè)試屬性。以主叫屬性作為決策樹(shù)的根結(jié)點(diǎn),進(jìn)一步劃出其他分支結(jié)點(diǎn),每個(gè)分支結(jié)點(diǎn)以此類(lèi)推最終得到一棵完整的決策樹(shù)。

4 結(jié)語(yǔ)

通過(guò)對(duì)決策樹(shù)的分析,可以看出主叫少,短信用量較少的基本上都沒(méi)有超過(guò)套餐用量;主叫少,短信多,上網(wǎng)較少的也沒(méi)有超過(guò)套餐用量;主叫一般,短信、上網(wǎng)較少的同樣沒(méi)有超過(guò)套餐用量;其余使用均超過(guò)了套餐用量。

對(duì)于超過(guò)套餐用量的,其中有一部分是可以通過(guò)改進(jìn)套餐加以解決,具體解決方案有2種:(1)將19元套餐分為2個(gè)版本,分別為語(yǔ)音聊天和短信上網(wǎng),適當(dāng)增加各自的權(quán)重。主要解決主叫多、上網(wǎng)短信少或上網(wǎng)短信多、主叫少而超出套餐的問(wèn)題。(2)增加29元套餐,適當(dāng)分配套餐內(nèi)容,主要解決主叫較多、上網(wǎng)短信較多而超出套餐的問(wèn)題。

高校手機(jī)套餐的制定具體還應(yīng)根據(jù)公司營(yíng)銷(xiāo)策略和受眾群體不同而有所不同。

[1]呂志國(guó).基于數(shù)據(jù)挖掘的移動(dòng)資費(fèi)套餐設(shè)計(jì)模型的建立與實(shí)現(xiàn)[J].中國(guó)管理信息化,2007,10(12):23-27.

[2]胡運(yùn)發(fā).數(shù)據(jù)與知識(shí)工程導(dǎo)論[M].北京:清華大學(xué)出版社,2003:128-129.

[3]姜紅艷.決策樹(shù)ID3算法在學(xué)生成績(jī)中的應(yīng)用[J].鞍山師范學(xué)院學(xué)報(bào),2008,10(4):55-58.

[4]羅海蛟,劉顯.數(shù)據(jù)挖掘中分類(lèi)算法的研究及其應(yīng)用[J].微機(jī)發(fā)展,2003(s2):49-50.

[5]桂現(xiàn)才,彭宏,王小華.C4.5算法在保險(xiǎn)客戶(hù)流失分析中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2005(17):197-199.

猜你喜歡
信息熵套餐決策樹(shù)
基于信息熵可信度的測(cè)試點(diǎn)選擇方法研究
《加什么不要錢(qián)》
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
兒童套餐
幽默大師(2019年6期)2019-06-06 08:41:42
決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
基于信息熵的實(shí)驗(yàn)教學(xué)量化研究
一種基于信息熵的雷達(dá)動(dòng)態(tài)自適應(yīng)選擇跟蹤方法
基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
婚姻是一份套餐
海峽姐妹(2016年4期)2016-02-27 15:18:28
老了也要有尊嚴(yán)地吃飯 你家老人需要這套餐具嗎
太和县| 庆阳市| 盘锦市| 环江| 新乐市| 大埔区| 克拉玛依市| 通渭县| 滁州市| 逊克县| 商洛市| 太原市| 玛纳斯县| 图片| 宁国市| 新绛县| 广南县| 涟源市| 海口市| 安化县| 正镶白旗| 宜黄县| 罗定市| 佳木斯市| 绥阳县| 会宁县| 石家庄市| 武邑县| 登封市| 松溪县| 喀喇沁旗| 隆德县| 望城县| 长治市| 东方市| 开原市| 日土县| 讷河市| 耒阳市| 定安县| 云安县|