◆趙雨露
基于大數(shù)據(jù)分析的電信用戶離網(wǎng)預(yù)測(cè)
◆趙雨露
(江蘇省南通市海安市住房和城鄉(xiāng)建設(shè)局檔案館 江蘇 226600)
本文通過(guò)對(duì)用戶數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行挖掘分析,分析南通電信用戶的離網(wǎng)現(xiàn)狀、原因,挖掘出電信用戶流失的影響因子,通過(guò)計(jì)算、分析,得出影響因子的閾值。最后基于xgboost算法,以客戶離網(wǎng)行為分析為前提,根據(jù)已有數(shù)據(jù)進(jìn)行分類歸納,將離網(wǎng)數(shù)據(jù)進(jìn)行量化后,利用多種算法進(jìn)行投票表決,從而計(jì)算出用戶的離網(wǎng)規(guī)則,根據(jù)設(shè)置的風(fēng)險(xiǎn)值來(lái)判斷用戶是否具有離網(wǎng)傾向。本文最大的創(chuàng)新點(diǎn)在于,加入了營(yíng)銷話術(shù)的匹配程度,判斷在得出離網(wǎng)用戶的同時(shí)是否能夠挽回用戶,實(shí)現(xiàn)精準(zhǔn)營(yíng)銷。
離網(wǎng);數(shù)據(jù)分析;xgboost;營(yíng)銷話術(shù)
隨著信息技術(shù)的高速發(fā)展和移動(dòng)終端的飛速進(jìn)步,家用寬帶和電信用戶的規(guī)模也在不斷擴(kuò)大,同時(shí),因?yàn)檫\(yùn)營(yíng)商之間的價(jià)格競(jìng)爭(zhēng)激烈,并且面臨互聯(lián)網(wǎng)技術(shù)的巨大挑戰(zhàn),離網(wǎng)用戶的規(guī)模也日漸增多,寬帶等移動(dòng)產(chǎn)品作為電信行業(yè)的主要收入來(lái)源,在國(guó)家提速降費(fèi)政策面前停滯不前,面臨巨大的挑戰(zhàn)。
數(shù)據(jù)挖掘能夠分析用戶痛點(diǎn)、癢點(diǎn)、興奮點(diǎn),以大數(shù)據(jù)為驅(qū)動(dòng)力,以統(tǒng)計(jì)學(xué)習(xí)為工具,深入客戶潛在的需求。通過(guò)機(jī)器學(xué)習(xí)算法可以有效地挖掘出離網(wǎng)用戶,但是如何精確營(yíng)銷,使用哪種營(yíng)銷話術(shù)挽回離網(wǎng)用戶是一大難題。
精準(zhǔn)營(yíng)銷就是企業(yè)需要更精準(zhǔn)地把握市場(chǎng)動(dòng)向、客戶需求、企業(yè)效益目標(biāo),結(jié)合客戶日常行為數(shù)據(jù),給客戶進(jìn)行更個(gè)性化的服務(wù)。
在電信行業(yè),國(guó)外運(yùn)營(yíng)商也早已涉足大數(shù)據(jù)技術(shù)應(yīng)用:美國(guó) T-mobiles 采用 Informatica-The Data Integration Company 平臺(tái)開展大數(shù)據(jù)工作,通過(guò)對(duì)客戶流失原因的分析,可以對(duì)潛在流失客戶進(jìn)行預(yù)警,根據(jù)不同客戶的需求,提供個(gè)性化的服務(wù),以最大程序減少客戶的流失。
客戶離網(wǎng)是全球各大電信運(yùn)營(yíng)商非常重視的話題,根據(jù)統(tǒng)計(jì),美國(guó)電信行業(yè)的客戶離網(wǎng)率達(dá)到了30%,歐洲則為25%??蛻綦x網(wǎng)導(dǎo)致的直接后果就是公司利益的損失,因此對(duì)客戶離網(wǎng)進(jìn)行預(yù)警,能夠?qū)Ω邼撛陔x網(wǎng)的用戶進(jìn)行挽留操作。
如果存在高潛在離網(wǎng)用戶,通過(guò)對(duì)該用戶的歷史行為進(jìn)行分析,懂得用戶真正的需求,給用戶進(jìn)行個(gè)性化的服務(wù)推薦,滿足用戶需求,可以減小用戶離網(wǎng)的可能性。
本文研究?jī)?nèi)容主要可以分為下面三個(gè)部分:一是基于用戶行為、用戶屬性的離網(wǎng)預(yù)測(cè),前期對(duì)電信大量數(shù)據(jù)進(jìn)行預(yù)處理(樣本采樣、過(guò)濾,數(shù)據(jù)分類、歸一化、離散化、特征降維等等),通過(guò)公式計(jì)算得出一些列規(guī)律,建立較為準(zhǔn)確的模型和損失函數(shù),使用正規(guī)化選擇較好的算法模型,利用梯度下降算法對(duì)參數(shù)進(jìn)行快速的確定,最后使用xgboost,將多個(gè)算法結(jié)合投票的得出結(jié)果。二是基于得出的離網(wǎng)用戶,配合各個(gè)不同營(yíng)業(yè)員的特征參數(shù),話術(shù)參數(shù)進(jìn)行第二次回歸分析將第一步得到的結(jié)果,作為第二部的參數(shù),再次進(jìn)行分類,利用Softmax回歸進(jìn)行分類,得出結(jié)果。第三針對(duì)第一步和第二部的結(jié)果精準(zhǔn)判斷哪些是潛在用戶,哪些是保有用戶,哪些是離網(wǎng)用戶,正確畫出用戶畫像后,對(duì)比用戶的購(gòu)買行為,在第一層使用邏輯回歸算法,第二層使用人工神經(jīng)網(wǎng)絡(luò),從而實(shí)現(xiàn)精準(zhǔn)營(yíng)銷。
數(shù)據(jù)獲取:在南通市電信局,我們采用HDFS和Spark負(fù)責(zé)原始數(shù)據(jù)的存儲(chǔ)和管理包括詳細(xì)的通話記錄單及寬帶用戶表。其中兩張表均含有用戶自身數(shù)據(jù),包括年齡、性別、主套餐、融合套餐、資費(fèi)、基站、套餐使用情況、教育程度、通話時(shí)間、最大流量APP、流量使用前10名APP等。
數(shù)據(jù)預(yù)處理:(1)進(jìn)行數(shù)據(jù)清理,對(duì)數(shù)據(jù)的唯一屬性值進(jìn)行刪除(如身份證、姓名等)。(2)對(duì)數(shù)據(jù)進(jìn)行缺失值填充,先對(duì)異常數(shù)據(jù)進(jìn)行過(guò)濾,將其值變?yōu)榭刂?,然后使用拉格朗日插值方法?duì)數(shù)據(jù)進(jìn)行填充,使用回歸方法進(jìn)行噪聲平滑處理。(3)對(duì)特征值進(jìn)行One-HotEncoding,使得我們能夠處理非數(shù)值屬性;在一定程度上擴(kuò)充了特征;編碼后的屬性是稀疏的,存在大量的零元分量。(4)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化操作于每個(gè)屬性,設(shè)minA和maxA分別為屬性A的最小值和最大值,將A的一個(gè)原始值x通過(guò)min-max標(biāo)準(zhǔn)化映射成在區(qū)間[0,1]中的值x',其公式為:新數(shù)據(jù)=(原數(shù)據(jù) - 最小值)/(最大值 - 最小值)。(5)因?yàn)榍捌谶M(jìn)行了One-HotEncoding,為了減輕維度災(zāi)難問(wèn)題,對(duì)特征向量使用filter進(jìn)行降維處理。
Feature Engineering:特征工程模塊將原始數(shù)據(jù)處理成和離網(wǎng)相關(guān)的結(jié)構(gòu)化特征,用作分類器的輸入,在這里,我們使用GMM和EM聚類方法。我們將用戶的特征集進(jìn)行劃分,得到了三種行為分類:通信行為判別模型、交友圈與社交行為模型、業(yè)務(wù)質(zhì)量感知評(píng)估模型。
Classifiers:利用分類器訓(xùn)練出來(lái)的模型預(yù)測(cè)未來(lái)有離網(wǎng)傾向的用戶,按照離網(wǎng)傾向高低排名,根據(jù)這個(gè)名單進(jìn)行個(gè)性化維挽。在分類過(guò)程中,我們整體的算法使用了投票的機(jī)制,運(yùn)用多種機(jī)器學(xué)習(xí)算法,得出閾值,再對(duì)閾值進(jìn)行xgboost分類,從而德奧最終的結(jié)果,在第一層,我們分別使用了SVM算法、隨機(jī)森林算法、邏輯回歸算法,最后使用決策樹將三種算法的閾值進(jìn)行分類,得到最后的分類結(jié)果。最后將用戶維挽的結(jié)果反饋到模型中形成閉環(huán),不斷提高模型預(yù)測(cè)容易維挽的離網(wǎng)用戶精度。通過(guò)設(shè)置一個(gè)預(yù)警值來(lái)進(jìn)行離網(wǎng)預(yù)警,使用隨機(jī)森林畫出用戶特征值的影響程度,并找到最相關(guān)的特征變量。通過(guò)交叉驗(yàn)證,進(jìn)行模型的優(yōu)化,防止過(guò)擬合和欠擬合,模型融合可以比較好地緩解訓(xùn)練過(guò)程中產(chǎn)生的過(guò)擬合問(wèn)題,從而對(duì)于結(jié)果的準(zhǔn)確度提升有一定的幫助。用python中scikit-learn里面的Bagging來(lái)完成。
結(jié)合營(yíng)銷話術(shù)進(jìn)行二次分類:本文最大的亮點(diǎn)就是在找到離網(wǎng)用戶和即將離網(wǎng)的情況下,如何通過(guò)營(yíng)銷話術(shù)和用戶行為偏好挽留用戶,在這里,我們結(jié)合已經(jīng)畫好的用戶畫像,對(duì)我們的營(yíng)業(yè)員數(shù)據(jù)和營(yíng)銷數(shù)據(jù)進(jìn)行結(jié)合,再次進(jìn)行新的一輪數(shù)據(jù)清理,使用人工審計(jì)網(wǎng)絡(luò)的方法對(duì)每一項(xiàng)特征值計(jì)算得出相對(duì)應(yīng)的權(quán)值,使用后向傳播算法對(duì)其進(jìn)行二次分類。
收集用戶屬性和偏好。要從客戶的行為和偏好中發(fā)現(xiàn)規(guī)律,并基于此給予推薦,如何收集用戶的偏好信息成為系統(tǒng)推薦效果最基礎(chǔ)的決定因素。
找到相似的用戶。當(dāng)已經(jīng)對(duì)用戶行為進(jìn)行分析得到用戶喜好后,我們可以根據(jù)用戶喜好計(jì)算相似用戶,然后基于相似用戶進(jìn)行推薦,這就是最典型的基于用戶的協(xié)同過(guò)濾。最后采用皮爾遜相關(guān)系數(shù)或者余弦相似度計(jì)算用戶的相似度。
計(jì)算推薦?;谟脩魧?duì)物品的偏好找到相鄰鄰居用戶,然后將鄰居用戶喜歡的推薦給當(dāng)前用戶。計(jì)算上,就是將一個(gè)用戶對(duì)所有物品的偏好作為一個(gè)向量來(lái)計(jì)算用戶之間的相似度,找到 K 鄰居后,根據(jù)鄰居的相似度權(quán)重以及他們對(duì)物品的偏好,預(yù)測(cè)當(dāng)前用戶沒有偏好的未涉及物品,計(jì)算得到一個(gè)排序的物品列表作為推薦。
初始化推薦列表,對(duì)列表進(jìn)行過(guò)濾、排名等處理,從而生成最終的推薦結(jié)果。
[1]王文學(xué),陳天池,徐海燕.大數(shù)據(jù)在電信行業(yè)的應(yīng)用研究[J].信息通信,2019(03):241-243.
[2]姚黎強(qiáng).大數(shù)據(jù)在運(yùn)營(yíng)商中的應(yīng)用[J].電信工程技術(shù)與標(biāo)準(zhǔn)化,2018,31(09):56-59.
[3]王遠(yuǎn)征,吳峰,夏明鏡,等.電信寬帶用戶離網(wǎng)大數(shù)據(jù)預(yù)測(cè)實(shí)例[J].電信技術(shù),2016(10):83-87.