国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于K-means 算法的電信用戶行為特征聚類分析*

2015-11-22 01:57:12蔣朝惠
關(guān)鍵詞:通話細分數(shù)據(jù)挖掘

趙 凱,蔣朝惠

(1.貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴州 貴陽 550025;2.貴州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,貴州 貴陽 550025)

隨著移動通信技術(shù)的發(fā)展,移動手機用戶大量普及,通信行業(yè)中的競爭力日益激烈。各大通信企業(yè)用戶資源是企業(yè)主要的資產(chǎn),所以工作重心應(yīng)放在如何保留現(xiàn)有用戶和擴展新用戶。營銷策略發(fā)生了變化,逐步從大眾化轉(zhuǎn)變?yōu)橥ㄟ^差異化,精確的營銷方式來滿足各類用戶的需求。針對差異化營銷的方式,關(guān)鍵點在于對有效的用戶群體細分。用戶對產(chǎn)品或服務(wù)的需求存在不同差別,用戶細分能夠客觀反映用戶分類中對產(chǎn)品需求存在的特性,綜合反映用戶多方面的特征,有利于深入細致地了解用戶需求特征。

K-Means 算法為工程應(yīng)用中最常用的數(shù)據(jù)挖掘算法之一,對大數(shù)據(jù)量處理方面有相對的優(yōu)勢,有較好的效果。K-Means[1]聚類在用戶劃分中,通過常用數(shù)據(jù)挖掘方法,有效性地將K-Means 算法使用在用戶數(shù)據(jù)建模分析,所以K-Means 算法對分析和實證用戶聚類方面的問題進行理論的研究,具有一定的現(xiàn)實意義。

1 K-means 算法

1.1 聚類概念

聚類(Clustering)是最經(jīng)常用的數(shù)據(jù)挖掘[2]算法之一,有著廣泛的應(yīng)用范圍,其主要對根據(jù)用戶特征進行分群分類。使有相似、相同特征的用戶劃分到一起,于此同時在不同組類的用戶差異顯現(xiàn)最大化。聚類分析[3]是一種在用戶細分中有著廣泛的應(yīng)用的統(tǒng)計學(xué)方法,它屬于統(tǒng)計學(xué)科的一個分支。目前在開發(fā)統(tǒng)計軟件、分析工具、系統(tǒng)都已經(jīng)集成了常用的聚類算法,有K-means 算法、K-medios 算法等。

聚類概念定義如下,在數(shù)據(jù)空間A 中存在數(shù)據(jù)集X,其含N 個對象,χi=(χi1,…,χid)∈A 表示數(shù)據(jù)X 中的相應(yīng)數(shù)據(jù)點,χij表示χi(i=1,…,N)的數(shù)據(jù)特征、數(shù)據(jù)維度等相關(guān)屬性。其數(shù)據(jù)既能是數(shù)據(jù)類型也能是枚舉類型,存在多樣性。聚類的工作就是需要將數(shù)據(jù)集X 細化成k 個簇Cm(其中m=1,…,k),某種情況下使用聚類算法進行聚類劃分以后,會出現(xiàn)某些聚類數(shù)據(jù)有可能找不到任何一個簇的現(xiàn)象,這些數(shù)據(jù)對象會被一起劃分在同一個簇中,通常稱之為噪聲Cn。聚類后結(jié)果應(yīng)滿足X=C1∪…∪Ck∪Cn,與此同時所有劃分CiCj之間不會存在交集,Cm就是根據(jù)要求所得到的聚類結(jié)果。

1.2 K-means 算法概念

K-means 算法[4]是實踐應(yīng)用中最為常用的聚類算法之一,它是一種以最小化某個目標(biāo)函數(shù)為優(yōu)化準則,不斷進行迭代的優(yōu)化聚類算法(Optimization Clustering)。其迭代后結(jié)果除非選擇的K 個初始凝聚點恰到滿足,否則通常情況下不是全局最優(yōu)(Global Minima),而是局部最優(yōu)(Local Minima)。根據(jù)不同的初始凝聚點的選定組合可能結(jié)果將會大相徑庭,因此在實踐應(yīng)用中,使用K-means 算法聚類用戶時候,需要多次選擇不同初始凝聚點組合依次進行聚類運算,盡力優(yōu)化局部最優(yōu)的狀況選取最優(yōu)的作為最后聚類方法。使用K-means 算法聚類前,數(shù)據(jù)需要進行預(yù)處理,如:處理異常值、標(biāo)準化變量、降維數(shù)據(jù)等等,對處理大數(shù)據(jù)量方面有絕對優(yōu)勢,能夠取得較好的效果。

1.3 基本步驟

K-means 聚類算法的基本步驟:

第一步:首先要確定K 值和初始化聚類的中心點,選取K 個初始凝聚點,作為將要形成類的中心;第二步:算出每個所觀測到的K 個初始凝聚點[5]相距的距離,把所觀測的點與最近的凝聚點劃分到一起,得到K 個初始分類;第三步:算出初始分類的質(zhì)點,以此作為新凝聚點,再次算出各個觀測點與初始分類質(zhì)心相距距離,把每個觀測點與最短距離凝聚點分在一起;第四步:迭代以上第二步和第三步,直到初始分類重心或者均值不會出現(xiàn)明顯變化為止。

為了簡化說明,可將上述K-means 聚類算法的核心步驟,用數(shù)學(xué)表達方式直觀表述如下:

第二步:計算出新的聚合類,其內(nèi)部中心點,即

根據(jù)聚類數(shù)據(jù)對象不停循環(huán)迭代計算,直到聚類結(jié)果不再繼續(xù)發(fā)生變化為止。

在第二步和第三步的迭代中,有兩種方法可以更改初始凝聚點:第一種是批量更改,第二種是逐個更改。批量更改法是讓所有觀測點歸集為類后才修改凝聚點,逐個更改法是逐一將每個觀測點更改后再進行分類,同時計算相關(guān)聯(lián)兩個類的平均值,并將其設(shè)為新的凝聚點。由于批量更改的方法相對計算速度快,計算量也比較小,可是聚類后相應(yīng)結(jié)果同樣依附于初始凝聚點。逐個更改法聚類結(jié)果通常和觀測的次序相關(guān),所以應(yīng)該選擇最具有代表性的觀測點為初始凝聚點。逐個更改法中類的個數(shù)K、各類之間的距離最小值、類內(nèi)距離最大值都會影響最終分類結(jié)果,根據(jù)不同情況通??梢孕薷倪@三個值,多次計算后抉擇最優(yōu)的結(jié)果。

2 電信用戶行為特征聚類

2.1 電信用戶群體

電信用戶具有明顯特征,有一定價值的用戶,例如:高端商務(wù)人群,具有相應(yīng)的特征:通話較為頻繁,月平均話費高,出差頻率高,機場出現(xiàn)率高。異地情侶:有固定聯(lián)系人,且該聯(lián)系人通訊次數(shù)頻繁,通話平均時間長,通話時間段在晚上的頻數(shù)多。廣告用戶(電話推銷、垃圾短信等),呼出次數(shù)遠遠大于呼入次數(shù),平均通話時間短、平均呼叫間隔短,固定聯(lián)系人很少。還有其他用戶群體:快遞員用戶,乘機用戶,網(wǎng)購用戶,文藝用戶等等。

文中簡要介紹了數(shù)據(jù)挖掘的相關(guān)基本概念與常用聚類算法,在其用戶聚類算法基礎(chǔ)上進行相關(guān)分析。首先使用數(shù)據(jù)挖掘中常用聚類算法對電信用戶進行用戶細分,其次根據(jù)統(tǒng)計分析方法[6]思想方法分析電信用戶通話行為等的特性,最后根據(jù)通話,行為特征分析了用戶相應(yīng)行為模式,同時對類內(nèi)與類外的用戶相似性進行分析。

2.2 分析方法

電信數(shù)據(jù)源包括三種:CDR-1x,CDR-do,CDRdo stream。CDR-1x 包含語言通話記錄、短信記錄和少部分上網(wǎng)數(shù)據(jù),是通信用戶最常有的數(shù)據(jù)。CDR-do 主要是上網(wǎng)時產(chǎn)生的數(shù)據(jù)。CDR-do stream 是一種流數(shù)據(jù),主要檢測網(wǎng)絡(luò)狀況是否正常,平時用得較少。主要字段的基本描述見表1。

表1 用戶通話表主要字段表

針對用戶數(shù)據(jù)劃分,首先對用戶數(shù)據(jù)應(yīng)用清洗、過濾、離散化等方法預(yù)處理,然后再進行以下處理。

(1)使用K-means 聚類算法,根據(jù)用戶撥打的通信時間、通信對象、通信頻次、通話時長、上網(wǎng)流量、通信業(yè)務(wù)(手機號碼、通話時長、通話時間、通話次數(shù))等為主要聚類特征,以此實現(xiàn)電信用戶劃分。用戶劃分給企業(yè)實施用戶差異化需求的銷售手段提供了便利,為企業(yè)帶來更大的經(jīng)濟效率,并運用關(guān)聯(lián)規(guī)則算法發(fā)現(xiàn)用戶通話行為與上網(wǎng)行為之間關(guān)聯(lián)性。

(2)從用戶數(shù)據(jù)中發(fā)現(xiàn)以基站為基礎(chǔ)電信用戶在通話上時間,空間上的分布情況,然后利用統(tǒng)計分析方法的思想來挖掘用戶的通話時空特性。

K-means 聚類算法特征:有利于發(fā)現(xiàn)球形或圓形簇,其復(fù)雜度低,為O(NKt),N 是對象點的個數(shù),t 是迭代次數(shù),K 值不易確定。K-means 聚類算法具有劃分快速、準確的優(yōu)點,非常適合用于電信用戶的細分。本文利用K-means 算法對用戶進行細分的過程如圖1 所示。

圖1 電信客服細分過程

本文基于K-means 細分方法,首先選擇K 個對象做為初始聚類中心,余下的對象分別計算與這K個初始中心之間的距離,以實現(xiàn)聚類;然后再重新選取聚類中心,重復(fù)上述過程,直到中心不再變化。在K-means 算法的基礎(chǔ)上,抽取主要特征作為指標(biāo):號碼、通話時間、通話次數(shù)、平均通話時長、忙時通話次數(shù)、閑時通話次數(shù)等。K-means 算法實現(xiàn)的流程如圖2 所示。

3 實驗結(jié)果及分析

3.1 用戶數(shù)據(jù)

以某市電信通話及網(wǎng)絡(luò)數(shù)據(jù)為基礎(chǔ),由于數(shù)據(jù)量過于龐大,應(yīng)用時首先要依據(jù)研究需求,預(yù)先對數(shù)據(jù)進行分析整合以達到預(yù)期目的,可有效縮減分析時間,加快效率。本實驗從真實快遞人群中隨機選取50 個快遞員,并在其2014 年一月份通訊數(shù)據(jù)中提取六個字段IMIS、主(被)叫號碼(DIALED_DIGITS)、呼叫標(biāo)志主叫或被叫(CALL_FLAG)、業(yè)務(wù)類型(FINAL_OPTION)、接入時間(ACCESS_TIME)、呼叫持續(xù)時間(DURING_TIME),真實快遞員部分通訊數(shù)據(jù)見表2。A、B為真實快遞員,對其數(shù)據(jù)進行相關(guān)的預(yù)處理統(tǒng)計分析,結(jié)果見表3。

圖2 電信客服細分流程圖

表2 真實快遞員數(shù)據(jù)表

表3 快遞員特征表

表中:Call_in為呼入次數(shù);Call_out為呼出次數(shù);In_out為呼入次數(shù)與呼出次數(shù)之比;voice為語音次數(shù);ms為短信次數(shù);durtime為呼叫持續(xù)時間,單位為ms;call_sum為呼叫的總次數(shù);in_sum為呼入占總次數(shù)的比值;voice_sum為語音占總次數(shù)的比值;time=durtime/(80×1000)。

將50 個快遞用戶數(shù)據(jù)(呼入呼出次數(shù)、語音短信次數(shù)、平均呼叫持續(xù)時長、呼入/呼出)進行多維度篩選后,得出呼出次數(shù)>400 次,語音次數(shù)>500 次,平均持續(xù)時間(10 s,80 s),呼入/呼出<0.8。

3.2 統(tǒng)計分析結(jié)果

從400 多萬大眾用戶中,根據(jù)上述真實快遞人群的數(shù)據(jù)特點篩選后得到2.45 萬用戶,可能是快遞人群也可能不是快遞人群,所以需要進行更進一步的分析。

該類人群的平均呼叫時長集中在40 s 與80 s中間,分布在(0.5,1)的區(qū)間內(nèi)。相關(guān)分析結(jié)果如圖3、4、5 所示。

圖3 呼出比重分布圖

圖4 平均呼叫時長圖

根據(jù)分布圖得出,該類人群的呼出比重(呼出次數(shù)/總的呼叫次數(shù))均大于0.55,且平均呼叫時長隨著比例的增大,對應(yīng)人群數(shù)量近似線性遞減。語音比重(語音次數(shù)/總的呼叫次數(shù))集中在0.8到1,相差不大。

3.3 聚類分析結(jié)果

圖5 語音比重分布圖

將統(tǒng)計的50 位真實快遞人員設(shè)為b。根據(jù)用戶的呼叫持續(xù)時間、呼出所占比重對b 用戶在2.45 萬用戶中的分布情況做K-means 聚類分析,其聚類結(jié)果如圖6、7、8 所示。

圖6 當(dāng)K=3 時K-means 聚類圖

圖7 當(dāng)K=4 時K-means 聚類圖

圖8 當(dāng)K=6 時K-means 聚類圖

3.4 實驗結(jié)果分析

初步篩選后,2.45 萬用戶人群,從語音比總分析沒有良好效果,最后根據(jù)用戶呼叫持續(xù)時間、呼出所占比重進行聚類后,得到如下結(jié)果:當(dāng)K=3時(圖6),擬合效果不好;當(dāng)K=4 時(圖7),b 基本屬于同一個區(qū)域,該區(qū)域內(nèi)的用戶更接近真實快遞員用戶,僅存在幾個離群點;當(dāng)K=6 時(圖8),b在圖中的分布區(qū)域也不是很明顯。相對而言,K=4 時的效果最好,上方區(qū)域呼叫時間較短,次數(shù)多,很可能是廣告和推銷人員。右下角呼出比重是中等的,呼叫時間比較長,很可能是采購和業(yè)務(wù)人員。

4 結(jié)語

本文將技術(shù)實現(xiàn)思路和業(yè)務(wù)數(shù)據(jù)分析相結(jié)合,使用K-Means 算法統(tǒng)計分析實際數(shù)據(jù)特征來進行用戶細分的數(shù)據(jù)挖掘相關(guān)研究。數(shù)據(jù)分析以通話次數(shù)、平均通話時長、忙時通話次數(shù)和閑時通話次數(shù)等特征作為主要指標(biāo),完成聚類分析。由于本文側(cè)重于研究理論分析,以應(yīng)用為導(dǎo)向,主要工作以K-Means 算法進行用戶細分、實驗操作和結(jié)果分析,更多關(guān)注了技術(shù)層面上的問題,而關(guān)于數(shù)據(jù)挖掘方法,對其業(yè)務(wù)營銷的分析內(nèi)容較少,以及實驗結(jié)果原因等沒有更深入的討論,今后將繼續(xù)研究,并且由于通信用戶數(shù)據(jù)信息量較大,改進的Kmeans 算法,面向大數(shù)據(jù)的處理時,可考慮加入用戶反饋機制,優(yōu)化用戶群體聚類效果。

[1]薛明.聚類算法在入侵檢測系統(tǒng)中的應(yīng)用研究[D].江蘇:南京郵電大學(xué),2009.

[2]方媛,車啟鳳.數(shù)據(jù)挖掘之聚類算法綜述[J].河西學(xué)院學(xué)報,2012,28(5):72-76.

[3]趙愛琴.數(shù)據(jù)挖掘在電信行業(yè)精確營銷中的研究與應(yīng)用[D].成都:西南財經(jīng)大學(xué),2008.

[4]任家東,孟麗麗,張冬梅.一種基于網(wǎng)格的改進的K-Means 聚類算法[J].計算機研究與發(fā)展,2009,46(Suppl.):453-458.

[5]楊康.基于DNS 訪問記錄挖掘的用戶群劃分[D]江蘇:南京郵電大學(xué),2013.

[6]肖彥花.統(tǒng)計學(xué)理論與方法[M].北京:國防科技大學(xué)出版社,2005.

猜你喜歡
通話細分數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
深耕環(huán)保細分領(lǐng)域,維爾利為環(huán)保注入新動力
華人時刊(2020年23期)2020-04-13 06:04:12
《戊戌元日與友人通話》
中華詩詞(2018年5期)2018-11-22 06:46:08
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
低成本視頻通話APP
1~7月,我國貨車各細分市場均有增長
專用汽車(2016年9期)2016-03-01 04:17:02
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
整體低迷難掩細分市場亮點
專用汽車(2015年2期)2015-03-01 04:05:42
2013年11月通信業(yè)主要指標(biāo)完成情況(一)
紙媒新希望 看新型報紙如何細分市場逆勢上揚
中國記者(2014年1期)2014-03-01 01:36:30
衡水市| 政和县| 东乡县| 边坝县| 衡东县| 长汀县| 平山县| 石棉县| 和林格尔县| 高雄市| 越西县| 敦煌市| 瑞金市| 略阳县| 嘉荫县| 丰城市| 漳州市| 武义县| 弋阳县| 和龙市| 双峰县| 莱州市| 漳州市| 镇赉县| 宁武县| 林周县| 井研县| 东辽县| 金塔县| 南平市| 玉门市| 齐齐哈尔市| 霍州市| 汝阳县| 称多县| 泸水县| 稷山县| 奉新县| 漳浦县| 崇礼县| 喀什市|