国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于模糊C-mean 聚類的手機(jī)流量使用模式分析

2020-05-21 00:18:20
關(guān)鍵詞:聚類群體流量

內(nèi)江職業(yè)技術(shù)學(xué)院 信息中心,四川 內(nèi)江 641000

移動(dòng)互聯(lián)網(wǎng)時(shí)代的到來,智能終端特別是手機(jī)成為人們?nèi)粘9ぷ?、生活的必備工具,引領(lǐng)和刺激用戶參與到多樣化、便捷性的網(wǎng)絡(luò)服務(wù)應(yīng)用中,如網(wǎng)絡(luò)教育辦公、在線娛樂購物、網(wǎng)絡(luò)醫(yī)療、網(wǎng)約車等[1]。用戶使用互聯(lián)網(wǎng)服務(wù)如數(shù)據(jù)獲取、視頻觀看、信息交互等均需要手機(jī)流量的支撐,流量已經(jīng)成為移動(dòng)互聯(lián)網(wǎng)的血液,產(chǎn)生海量的流量數(shù)據(jù)。據(jù)工信部的統(tǒng)計(jì),2016 年我國用近9 億手機(jī)網(wǎng)民,日均使用時(shí)間3 h,人均月手機(jī)流量約350 M,每天產(chǎn)生流量數(shù)據(jù)近千億條約5 TB。用戶手機(jī)流量使用受到多種因素的影響,包括外部因素如刺激懲罰政策、節(jié)假日、服務(wù)屬性等,內(nèi)部因素包括習(xí)慣、愛好、價(jià)值觀念等,社會因素包括文化、社會對比、區(qū)域等,不同年齡、個(gè)性的手機(jī)用戶流量使用模式存在較大差異[2]。對于移動(dòng)運(yùn)營商和服務(wù)商而言,發(fā)現(xiàn)和理解不同類型用戶的流量使用模式對其經(jīng)營決策具有重要意義,如針對不同的用戶提供定制型的流量套餐和增值服務(wù),構(gòu)建基于情境的個(gè)性化營銷方案,進(jìn)行流量資源的優(yōu)化分配,提升市場占有率。同時(shí),對消費(fèi)者而言,則可以了解自身流量的消費(fèi)情況,制定合理的流量使用策略,增強(qiáng)流量使用效率和滿意度。因此,如何從復(fù)雜的流量大數(shù)據(jù)中挖掘有價(jià)值的信息,進(jìn)行合理的用戶流量使用模式分類成為重要的科學(xué)問題。

用戶手機(jī)流量使用模式分類就是運(yùn)用不同的聚類方法,將具有相似月使用特征的用戶劃分為一類,從而抽象出共同的流量使用特點(diǎn),運(yùn)用一個(gè)模式原型即聚類中心來表示這一類用戶的使用特征。當(dāng)前,眾多學(xué)者關(guān)注了手機(jī)流量的監(jiān)測技術(shù)、流量業(yè)務(wù)營銷策略等[3,4],還沒有對用戶手機(jī)流量的使用模式進(jìn)行分析。但作為一類無監(jiān)督學(xué)習(xí)方法的模糊C 均值聚類算法能夠根據(jù)數(shù)據(jù)集中對象間的距離,發(fā)現(xiàn)相似的模式并進(jìn)行高效分類,使類內(nèi)的對象距離最小,而不同類間聚類最大化[5]。其提出了隸屬度描述樣本對類歸屬的模糊性,分析了樣本到簇類的隸屬程度。與傳統(tǒng)硬聚類方法相比,其具有更好的準(zhǔn)確性,更真實(shí)的反應(yīng)現(xiàn)實(shí)世界。作為流行的FCM 不斷應(yīng)用到電力、制造、醫(yī)療、市場影響等多個(gè)領(lǐng)域[6,7,8,9],取得的大量成果為手機(jī)流量使用模式聚類分析提供了技術(shù)支撐。但是,F(xiàn)CM具有其自身的缺陷,如模糊參數(shù)的選擇難以確定、聚類數(shù)目不知道、搜索能力受本地局限,這些將會影響大數(shù)據(jù)環(huán)境下流量使用模式聚類的效率和結(jié)果。消費(fèi)者頻繁的利用手機(jī)獲取移動(dòng)互聯(lián)服務(wù),涌現(xiàn)了海量的流量使用數(shù)據(jù)。為更高效識別大數(shù)據(jù)環(huán)境下用戶手機(jī)流量使用模式,制定針對性的策略,本文提出改進(jìn)繁榮聚類模型。首先構(gòu)建了用戶月手機(jī)流量使用模式分類的過程模式,包括數(shù)據(jù)準(zhǔn)備、模糊聚類和結(jié)果應(yīng)用三個(gè)階段;其次從模糊參數(shù)、聚類有效性指標(biāo)和搜索能力三個(gè)方面改進(jìn)了FCM 算法;最后運(yùn)用從一拓集團(tuán)得到的數(shù)據(jù)實(shí)例驗(yàn)證了本文方法的適應(yīng)性?;诟倪M(jìn)FCM 的用戶手機(jī)流量使用模式分類框架可以有效地進(jìn)行流量預(yù)測、資源調(diào)度和需求側(cè)管理等,大大提升移動(dòng)服務(wù)商流量業(yè)務(wù)的市場績效。

1 用戶手機(jī)流量使用模式分類過程模型

智能互聯(lián)環(huán)境下,手機(jī)流量使用數(shù)據(jù)呈現(xiàn)大數(shù)據(jù)的4V 特征即規(guī)模性(Volume)、高速性(Velocity)、多樣性(Variety)和真實(shí)性(Veracity)。從管理角度,流量大數(shù)據(jù)是一類能夠反映用戶使用流量狀態(tài)和狀態(tài)變化的信息資源,它具有海量性、異構(gòu)性、增長性、復(fù)雜性和可重復(fù)開采性,具有多種潛在價(jià)值,需要移動(dòng)服務(wù)商進(jìn)行挖掘以發(fā)現(xiàn)促進(jìn)業(yè)務(wù)增長的信息和知識。這些高維、時(shí)變的流量大數(shù)據(jù)新特點(diǎn)對用戶流量使用模式分類提出了更好地要求,需要新的實(shí)時(shí)處理方法來進(jìn)行模式識別。因此,本文提出基于模糊聚類的手機(jī)流量使用模式分類過程模型,如圖1 所示,主要包括數(shù)據(jù)準(zhǔn)備、模糊聚類和結(jié)果應(yīng)用三個(gè)階段。

圖1 基于模糊聚類的用戶手機(jī)流量使用模式分類Fig.1 Classification of usage patterns of consumers’mobile phone traffic on the fuzzy clustering

1.1 數(shù)據(jù)準(zhǔn)備

通過智能監(jiān)測技術(shù)實(shí)時(shí)收集不同用戶的每天手機(jī)流量使用數(shù)據(jù),構(gòu)建移動(dòng)服務(wù)商的流量數(shù)據(jù)庫。對分析樣本的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,降低不同量綱對分析的影響。同時(shí)由于數(shù)據(jù)具有異常值、噪音和缺失值,需要對數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗修正,保障數(shù)據(jù)的可用性??紤]到數(shù)據(jù)挖掘算法的運(yùn)行效率,需要對數(shù)據(jù)進(jìn)行離散化、屬性約簡,實(shí)現(xiàn)數(shù)據(jù)的平滑化,為聚類分析做好準(zhǔn)備。

1.2 模糊聚類

從預(yù)處理后數(shù)據(jù)中抽取流量使用模式分類的特征指標(biāo),直接使用月流量使用曲線的時(shí)空數(shù)據(jù),或者以最低、最高、平均日使用流量作為聚類的依據(jù)。選擇適用于流量使用特征的聚類方法,本文選擇FCM 算法作為聚類工作,從模糊參數(shù)設(shè)置、有效性指標(biāo)和算法改進(jìn)方面,提升算法的效率和聚類效果。執(zhí)行改進(jìn)的FCM 算法,通過迭代更新得到最終的聚類結(jié)果。

1.3 結(jié)果應(yīng)用

根據(jù)流量使用模式聚類結(jié)果得到每一類特征月流量使用曲線,抽取出每一類流量使用模式的特征作為聚類中心表示,用于分析用戶的流量使用特點(diǎn)。通過計(jì)算機(jī)生成流量使用模式的曲線圖、直方圖和特征分布,對聚類結(jié)果進(jìn)行可視化,使服務(wù)商和用戶能夠直觀的理解和判別不同的使用模式。流量使用模式分類的主要目的就是支持服務(wù)商的經(jīng)營決策,根據(jù)用戶流量使用模式的特點(diǎn)制定差異化的流量資費(fèi)策略,提供個(gè)性化的流量套餐,創(chuàng)新業(yè)務(wù)營銷方案,提升客戶需求管理。

2 改進(jìn)的FCM 聚類方法

從第2 節(jié)流量使用模式分類過程可以看出,模糊聚類是用戶月手機(jī)流量使用模式分類的核心模塊。為了更好地適應(yīng)流量數(shù)據(jù)特征,提升聚類效果,本文提出改進(jìn)的FCM 算法以增強(qiáng)聚類方法的有效性和搜索能力。

2.1 FCM 算法描述

作為模糊聚類的典型代表,F(xiàn)CM 算法已被應(yīng)用到多個(gè)領(lǐng)域。其通過引入模糊隸屬度概念,運(yùn)用距離計(jì)算和局部搜索能力迭代更新隸屬度和類簇中心,其目標(biāo)函數(shù)是實(shí)現(xiàn)數(shù)據(jù)樣本到類簇中心的類內(nèi)距離加權(quán)平方和最小化。給定樣本集合X=(X1,X2,…,Xn)包含n個(gè)用戶的流量使用數(shù)據(jù),每個(gè)對象包含了m個(gè)模式特征A=(A1,A2,…,An),取值范圍為dom(Ai),得到k個(gè)類簇。標(biāo)準(zhǔn)化處理后隸屬度矩陣U的元素0≤μij≤1,滿足條件n,k為聚類數(shù),n為用戶數(shù),μij為第j個(gè)用戶屬于第i類的隸屬度。FCM 算法的目標(biāo)函數(shù)即:

可知U表示隸屬度矩陣,V代表簇中心矩陣,m為模糊參數(shù),d2 ij為第i簇中用戶xj到第i簇簇中心的歐氏距離。通過拉格朗日乘數(shù)法,進(jìn)一步得到用戶xj劃分到第i簇Ci的隸屬度μij和第i簇的簇中心vi,即為:

2.2 改進(jìn)的FCM 算法

雖然FCM 算法的應(yīng)用取得了諸多成果,本身存在的不足如模糊參數(shù)設(shè)置、聚類數(shù)目不確定及局部搜索能力等,均制約了其進(jìn)一步的拓展。為了適應(yīng)流量大數(shù)據(jù)的分布特征,本文提出改進(jìn)的FCM算法增強(qiáng)聚類效果。

2.2.1 模糊參數(shù)的選擇 模糊度是FCM 算法的重要參數(shù),控制類與類之間重疊度。不同的應(yīng)用領(lǐng)域均有模糊度參數(shù)選擇方法,沒有一個(gè)廣泛接受的準(zhǔn)則進(jìn)行模糊度的評估。大部分主觀的選擇m=2,但并不總是最優(yōu)的合適的選擇。特別是在電力數(shù)據(jù)聚類中,Zhou 提出RWB 指標(biāo)進(jìn)行模糊參數(shù)優(yōu)化,得到m=2.8 時(shí)聚類效果最好[10]。由于流量數(shù)據(jù)與電力數(shù)據(jù)分布的相似性,本文借鑒其結(jié)果,選擇模糊參數(shù)m=2.8。

2.2.2 聚類有效性指標(biāo) 由于缺乏先驗(yàn)知識,聚類數(shù)目不知的情況下,需要聚類有效性指標(biāo)(Cluster validity index,CVI)來確定最終最終聚類數(shù)目。大部分CVI 考慮類內(nèi)和類間距離,沒有一個(gè)CVI適合所有的數(shù)據(jù)集。良好的CVI 需要考慮數(shù)據(jù)的規(guī)模和密度,本文從致性C、重疊度O 和分離性S三個(gè)維度提出新的CVI,即COS。

2.2.3 搜索能力優(yōu)化 將啟發(fā)式智能算法應(yīng)用到模糊聚類成為一種趨勢,能夠提升FCM 算法的全局搜索能力。綜合模擬退火算法(Simulated Annealing,SA)和遺傳算法(Simulated Annealing,SA)的優(yōu)點(diǎn)[11],本文提出了SAGA-FCM 算法能更快速高效地收斂到全局最優(yōu),實(shí)現(xiàn)流量使用模式的最優(yōu)聚類結(jié)果,詳細(xì)步驟如圖2 所示。

圖2 基于模糊聚類的用戶手機(jī)流量使用模式分類過程Fig.2 Classification steps of usage patterns of consumers’mobile phone traffic on fuzzy clustering

圖3 1145 名手機(jī)用戶月流量使用分布Fig.3 Distribution of 1145 consumers’mobile phone traffic in a month

3 實(shí)證分析

3.1 數(shù)據(jù)描述

合肥一拓集團(tuán)是一家移動(dòng)互聯(lián)應(yīng)用服務(wù)商,涵蓋流量經(jīng)營、移動(dòng)應(yīng)用分發(fā)和融合通信等業(yè)務(wù)。通過與一拓集團(tuán)的合作,我們收集了1500 名手機(jī)用戶的流量使用情況。為了保護(hù)用戶隱私,我們只獲取用戶編號和每天的流量使用總量。運(yùn)用智能設(shè)備,獲取2016 年9 月1 日到10 月1 日一個(gè)月的數(shù)據(jù)。由于存在不完整、異常值、零值數(shù)據(jù),需要對數(shù)據(jù)集進(jìn)行清洗和預(yù)處理。最終355 名用戶數(shù)據(jù)被剔除,共獲得1145 名用戶一個(gè)月的流量使用記錄數(shù)據(jù),如圖3 所示。

在一臺處理器Intel(R)Core?、4 G RAM 戴爾臺式電腦,運(yùn)用Matlab R2013a 進(jìn)行改進(jìn)FCM 聚類算法的編程實(shí)現(xiàn)。根據(jù)前面的討論分析,模糊度參數(shù)設(shè)置為2.8。在聚類有效性驗(yàn)證的過程中,運(yùn)用COS 指標(biāo)得到最終的優(yōu)化聚類數(shù)目k=4。

3.2 結(jié)果討論

當(dāng)聚類數(shù)據(jù)確定為4 時(shí),我們運(yùn)用提出的算法將1145 名手機(jī)用戶的月流量使用模式聚類成為4個(gè)群體,如圖4 所示。這個(gè)4 個(gè)群體的月流量使用模式在總量和波動(dòng)性上存在顯著差,圖4 右側(cè)給出了每一類流量使用模式的類中心,可很清楚的分辨出不同模式見得區(qū)別。另外每個(gè)群體的用戶分布也存在較大差異,如圖5a 所示。同時(shí),4 個(gè)群體的月流量使用的相關(guān)統(tǒng)計(jì)指標(biāo)如圖5b 所示。

圖4 用戶月流量使用模式聚類結(jié)果(k=4)Fig.4 The clustering results of usage patterns in a month

從圖5a 和5b 中,可發(fā)現(xiàn)有47%用戶被劃分到群體3,說明大部分用戶具有相似的月流量使用模式,該群體具有較低的日均流量消費(fèi)(10 M<x<30)和較低的波動(dòng)性。他們可能是普通上班族,具有穩(wěn)定的網(wǎng)絡(luò)使用習(xí)慣。15%的用戶被劃分到群體1 中,他們的日均流量消費(fèi)低于10 M,且總體的波動(dòng)性較小,維持在一個(gè)穩(wěn)定的狀態(tài)。這一類群體可能是年齡較大的人群,手機(jī)上網(wǎng)使用頻率較低。對于群體1 和3,服務(wù)商應(yīng)該培養(yǎng)其移動(dòng)互聯(lián)網(wǎng)的使用習(xí)慣,提供詳細(xì)的咨詢,推出其迫切需要的產(chǎn)品。此外,18%用戶劃分到群體2,該群體具有較高的日均流量消費(fèi)(30 M<x)和較低的波動(dòng)性。他們可能是主要利用手機(jī)進(jìn)行工作的微商、自由職業(yè)者、網(wǎng)絡(luò)寫手、網(wǎng)絡(luò)策劃等,并受到時(shí)間、空間環(huán)境的影響。群體4 包含最少的手機(jī)用戶,占總體的20%,這類用戶具有最高的日均流量消費(fèi)為40 M 和最高的波動(dòng)性。此類群體可能是在校學(xué)生,形成了利用手機(jī)學(xué)習(xí)、生活的習(xí)慣,且流量使用受到節(jié)假日、促銷活動(dòng)、聚會等影響較大。群體2 和4 具有較高的標(biāo)準(zhǔn)差即波動(dòng)性,容易受到外部刺環(huán)境的刺激,因此,可以采取基于價(jià)格和激勵(lì)的需求響應(yīng)機(jī)制,為這些用戶提供按天計(jì)算的流量計(jì)費(fèi)或包月方式,制定有針對性的營銷策略,增加用戶的使用體驗(yàn)和滿意度,提升用戶粘度和忠誠度。

圖5 用戶月流量使用模式統(tǒng)計(jì)分析Fig.5 Statistic analysis of consumers’traffic in a month

3.3 結(jié)果驗(yàn)證

首先運(yùn)用本文提出的聚類有效性指標(biāo)進(jìn)行驗(yàn)證COS,如下6 所示。其他聚類數(shù)目下COS 值較小,k=4 時(shí)COS 取得最大值為18.42,得出最優(yōu)的聚類數(shù)目4 用于上節(jié)的聚類分析。其中k=6 時(shí)COS取值也較大,也可以作為聚類數(shù)目,但本文中直接舍棄可能會影響聚類的結(jié)果。

圖6 COS 值變動(dòng)情況Fig.6 Variations of COS values

為了進(jìn)一步對比不同聚類數(shù)目的結(jié)果,本文運(yùn)用熟知的聚類有效性指標(biāo)XB、VK、VI 來評估k=4 和k=6 差異,驗(yàn)證本文選擇的正確性,指標(biāo)表達(dá)為:

上述有效性指標(biāo)均是最小化類型,值越小,聚類結(jié)果越好。通過實(shí)驗(yàn)分析得到流量使用模式聚類分析的XB、VK、VI 值[12]。如表1 所示,k=4 時(shí)的所有聚類有效性指標(biāo)值均小于k=6 時(shí)值。因此,得出k=4 為最優(yōu)的聚類數(shù)目,驗(yàn)證本文算法的效果,也排除了k=6 作為聚類數(shù)目的可能性。

表1 流量使用數(shù)據(jù)聚類有效性指標(biāo)值Table 1 Valid indexes of traffic clustering

4 結(jié)論

在“聯(lián)網(wǎng)+”時(shí)代的日常生活中,用戶頻繁使用手機(jī)從移動(dòng)互聯(lián)網(wǎng)上獲取各種網(wǎng)絡(luò)服務(wù)的同時(shí),產(chǎn)生了復(fù)雜時(shí)變的流量大數(shù)據(jù),蘊(yùn)含著豐富的知識。大數(shù)據(jù)環(huán)境下,為有效地挖掘用戶手機(jī)流量使用模式,本文構(gòu)建基于模糊聚類的流量使用模式分類過程模型,重點(diǎn)介紹了數(shù)據(jù)準(zhǔn)備、聚類分析和結(jié)果應(yīng)用。同時(shí),從模糊參數(shù)設(shè)置、聚類數(shù)目確定和搜索能力三個(gè)維度改進(jìn)FCM 算法,提升了聚類的效率效果。通過對1145 名手機(jī)用戶一個(gè)月內(nèi)日流量使用數(shù)據(jù)的聚類分析,得出四個(gè)群體,每一群體的流量使用模式存在差異,大部分用戶(約47%)具有相似的流量使用特征。用戶手機(jī)流量使用模式挖掘和識別對于移動(dòng)服務(wù)商、消費(fèi)者和商業(yè)運(yùn)營者具有重要的價(jià)值。對移動(dòng)服務(wù)商而言,其可以根據(jù)不同群體的流量使用模式,制定有針對性的個(gè)性化的產(chǎn)品和營銷方案,提升市場策略的效果。對消費(fèi)者來說,可以實(shí)時(shí)的掌握自己的流量使用情況,更好地進(jìn)行流量的分配,降低因突發(fā)事件導(dǎo)致的流量超額和資費(fèi)上漲。對于商業(yè)運(yùn)營者而言,則可以通過免費(fèi)流量的策略引導(dǎo)用戶的使用習(xí)慣,開發(fā)新的商業(yè)服務(wù)應(yīng)用產(chǎn)品,吸引客戶流入,增加商業(yè)價(jià)值。本文只是分析了用戶9 月分的流量使用情況,難以全面表達(dá)用戶流量的使用模式。未來可以搜集全面的日流量使用數(shù)據(jù),發(fā)掘年度流量使用模式。由于影響流量使用的影響因素較多,可以通過多因素分析找出關(guān)鍵因素,建立回歸模型進(jìn)來預(yù)測未來流量使用情況,更好進(jìn)行價(jià)格策略和激勵(lì)機(jī)制的設(shè)置。

猜你喜歡
聚類群體流量
冰墩墩背后的流量密碼
玩具世界(2022年2期)2022-06-15 07:35:36
張曉明:流量決定勝負(fù)!三大流量高地裂變無限可能!
尋找書業(yè)新流量
出版人(2020年4期)2020-11-14 08:34:26
通過自然感染獲得群體免疫有多可怕
“群體失語”需要警惕——“為官不言”也是腐敗
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
基于改進(jìn)的遺傳算法的模糊聚類算法
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
五位一體流量平穩(wěn)控制系統(tǒng)
自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
东莞市| 兴海县| 郑州市| 襄城县| 许昌县| 手游| 旺苍县| 岳阳市| 锦州市| 麟游县| 新安县| 禄丰县| 永丰县| 台北市| 临江市| 武鸣县| 曲麻莱县| 长岭县| 五常市| 隆回县| 通海县| 勐海县| 武穴市| 金沙县| 嘉禾县| 吉安县| 九台市| 周口市| 霍邱县| 清徐县| 利川市| 密云县| 黄石市| 定兴县| 江油市| 昌吉市| 马尔康县| 辛集市| 阿克苏市| 敖汉旗| 公主岭市|