張靖 侯曉晶
摘? 要:隨著全市家庭寬帶市場(chǎng)的飽和,寬帶用戶(hù)新增速度放緩,保有存量用戶(hù)、控制用戶(hù)離網(wǎng)業(yè)已成為促進(jìn)寬帶市場(chǎng)發(fā)展的重要舉措。文章對(duì)家庭寬帶離網(wǎng)用戶(hù)特征進(jìn)行研究,基于lightGBM、XGBoost、RandomForest三類(lèi)集成學(xué)習(xí)的決策樹(shù)算法,使用PyCharm軟件構(gòu)建家庭寬帶離網(wǎng)用戶(hù)預(yù)警模型,輸出預(yù)離網(wǎng)用戶(hù)供業(yè)務(wù)人員進(jìn)行挽留,模型應(yīng)用后,寬帶月離網(wǎng)用戶(hù)百分比從0.76%下降至0.35%,預(yù)計(jì)全年可挽回預(yù)離網(wǎng)用戶(hù)7 776戶(hù),保有客戶(hù)價(jià)值101.1萬(wàn)元。
關(guān)鍵詞:離網(wǎng);大數(shù)據(jù);預(yù)測(cè);量化;寬帶用戶(hù)
中圖分類(lèi)號(hào):TP311? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2096-4706(2021)15-0085-04
Abstract: With the saturation of the home broadband market in the whole Shuozhou city, the growth rate of broadband users has slowed down. Retaining existing users and controlling user off-network have become important measures to promote the development of the broadband market. This paper studies the characteristics of home broadband off-network users, based on the decision tree algorithm of integrated learning of lightGBM, XGBoost and RandomForest, PyCharm software is used to construct home broadband off-network users early warning model, which outputs pre off-network users for business personnel to retain. After the application of the model, the percentage of monthly broadband off-network user drops from 0.76% to 0.35%. It is expected that 7 776 pre off-network users can be retained throughout the year, keeping a customer value of 1.101 million yuan.
Keywords: off-network; big data; prediction; quantification; broadband user
0? 引? 言
家庭寬帶作為CHBN(Customer, Home, Business, New, CHBN)四大市場(chǎng)中的重要組成部分,在多產(chǎn)品融合營(yíng)銷(xiāo)、智慧家庭體系建立、實(shí)現(xiàn)用戶(hù)價(jià)值提升等方面扮演著愈來(lái)愈重要的角色。截至2020年底,全市我網(wǎng)家庭寬帶用戶(hù)數(shù)達(dá)到20.3萬(wàn),市場(chǎng)份額46.8%,通信運(yùn)營(yíng)商在家庭寬帶市場(chǎng)上的競(jìng)爭(zhēng)會(huì)長(zhǎng)期存在,面對(duì)全市家庭寬帶用戶(hù)幾近飽和、市場(chǎng)增速放緩的形勢(shì)[1],存量寬帶用戶(hù)保有形勢(shì)愈發(fā)嚴(yán)峻。但我網(wǎng)2020年全年家庭寬帶離網(wǎng)用戶(hù)1.61萬(wàn),離網(wǎng)率7.94%。
面對(duì)市場(chǎng)發(fā)展壓力,我公司迫切需要深挖家庭寬帶市場(chǎng)的保有潛力,通過(guò)多專(zhuān)業(yè)(市場(chǎng)側(cè)+網(wǎng)絡(luò)側(cè))歷史數(shù)據(jù),篩查并掌握寬帶離網(wǎng)客群特征,隨之而來(lái)的信息過(guò)載問(wèn)題和用戶(hù)無(wú)目的搜索[2],使得數(shù)理統(tǒng)計(jì)、數(shù)據(jù)庫(kù)分析等方法解決此類(lèi)問(wèn)題時(shí),存在高質(zhì)量有價(jià)值信息難覓、獲取信息成本高、時(shí)間周期長(zhǎng)等諸多弊端。
如何建立有效預(yù)測(cè)家庭寬帶用戶(hù)離網(wǎng)的數(shù)據(jù)模型?掌握哪些用戶(hù)會(huì)離網(wǎng),離網(wǎng)傾向有多高?需要用大數(shù)據(jù)技術(shù)協(xié)助解決。
1? 模型概述
我們利用已有的多類(lèi)用戶(hù)特征,對(duì)寬帶用戶(hù)是否離網(wǎng)進(jìn)行預(yù)判,根據(jù)輸出預(yù)離網(wǎng)明細(xì)進(jìn)行針對(duì)挽回。首先,將預(yù)測(cè)寬帶離網(wǎng)用戶(hù)的應(yīng)用場(chǎng)景轉(zhuǎn)化為有監(jiān)督的二分類(lèi)問(wèn)題,再經(jīng)過(guò)數(shù)據(jù)準(zhǔn)備、特征選擇、模型建立、效果評(píng)估、迭代優(yōu)化、成果應(yīng)用等六個(gè)階段,構(gòu)建基于lightGBM、XGBoost、RandomForest三類(lèi)算法的混合模型——家庭寬帶離網(wǎng)用戶(hù)預(yù)警模型。
模型開(kāi)發(fā)環(huán)境為Python 3.7,通過(guò)PyCharm開(kāi)發(fā)工具實(shí)現(xiàn)。以單月全量家庭寬帶用戶(hù)數(shù)據(jù)為輸入,包含用戶(hù)屬性、投訴情況、寬帶網(wǎng)絡(luò)性能等屬性,并將原始數(shù)據(jù)按區(qū)域類(lèi)型、帶寬速率、投訴情況劃分為8個(gè)客戶(hù)群,分別適配lightGBM、XGBoost、RandomForest中的不同算法達(dá)到最優(yōu),最終完成家庭寬帶離網(wǎng)用戶(hù)預(yù)警模型的構(gòu)建,并輸出對(duì)存量寬帶用戶(hù)次月的離網(wǎng)預(yù)測(cè)。
2? 模型構(gòu)建
通過(guò)需求分析,將應(yīng)用場(chǎng)景轉(zhuǎn)化為預(yù)測(cè)寬帶用戶(hù)離網(wǎng)與在網(wǎng)的分類(lèi)問(wèn)題[3],調(diào)取單月全量家庭寬帶用戶(hù)數(shù)據(jù),包含用戶(hù)屬性(如年齡、性別)、業(yè)務(wù)屬性(如寬帶入網(wǎng)時(shí)間、用戶(hù)套餐、用戶(hù)月消費(fèi)等)、使用習(xí)慣(如寬帶上網(wǎng)時(shí)長(zhǎng)、上網(wǎng)流量等)、投訴情況(如月投訴頻次、投訴類(lèi)型等)及寬帶網(wǎng)絡(luò)性能(如帶寬、上網(wǎng)平均速率)等數(shù)據(jù);完成多表關(guān)聯(lián)、匯總后,形成包含347個(gè)特征的原始數(shù)據(jù),其中數(shù)值型特征307個(gè)、類(lèi)別型特征40個(gè),以“isnt_kd_lost_label”(是否次月寬帶離網(wǎng)用戶(hù))作為類(lèi)別標(biāo)簽。
2.1? 數(shù)據(jù)預(yù)處理及特征選擇
2.1.1? 特征初篩
為保證特征的有效性,首先去掉值全為空、對(duì)分類(lèi)無(wú)貢獻(xiàn)的5個(gè)特征,再去掉數(shù)據(jù)波動(dòng)小、方差等于0的41個(gè)特征,最后去掉存儲(chǔ)內(nèi)容為文本(例如:民?;▓@小區(qū))的32個(gè)特征,共涉及78個(gè)特征。
2.1.2? 空值填充
對(duì)于數(shù)值型特征選用“中位數(shù)”填充,對(duì)于類(lèi)別型特征選用“向前、向后”填充。
2.1.3? 相似度分析
對(duì)于|相關(guān)系數(shù)|≥0.8的特征,認(rèn)為其屬于強(qiáng)相關(guān),為保證模型的簡(jiǎn)化,選擇僅保留其中一個(gè)特征,共丟棄124個(gè)特征。如圖1所示。
2.1.4? 數(shù)據(jù)集劃分
預(yù)留10%的數(shù)據(jù)作為最終測(cè)試集(test set),剩余數(shù)據(jù)再按照8:2的比例劃分為訓(xùn)練集(train set)和驗(yàn)證集(validation set)用于模型構(gòu)建。
2.1.5? 正負(fù)樣本不均衡處理
以“離網(wǎng)”作為正類(lèi),“在網(wǎng)”作為負(fù)類(lèi),訓(xùn)練集原始數(shù)據(jù)正負(fù)樣本比為1:142,存在明顯數(shù)據(jù)不均衡,分別采用過(guò)采樣、欠采樣兩種方式,按正負(fù)比1:2和1:4兩種比例生成用于模型訓(xùn)練的數(shù)據(jù)集。如表1所示。
2.2? 場(chǎng)景細(xì)分
2.2.1? 劃分維度
結(jié)合日常寬帶用戶(hù)的投訴處理、故障維護(hù)經(jīng)驗(yàn),將訓(xùn)練數(shù)據(jù)按照區(qū)域類(lèi)型、帶寬速率、投訴情況[4]三個(gè)維度劃分為8個(gè)客戶(hù)群。如圖2所示。
2.2.2? 細(xì)分標(biāo)準(zhǔn)
區(qū)域類(lèi)型包括城市、農(nóng)村;帶寬速率包括高帶寬、低帶寬,其中100 MB及以下為低帶寬、200 MB及以上為高帶寬;投訴情況包括有投訴、無(wú)投訴。
2.3? 模型建立
2.3.1? 基線模型
對(duì)于劃分好的8個(gè)客戶(hù)群的訓(xùn)練數(shù)據(jù)集,依次使用lightGBM、XGBoost、RandomForest算法訓(xùn)練,最終訓(xùn)練出24個(gè)模型,作為基線模型,并從準(zhǔn)確率、召回率、F1值對(duì)所有基線模型的預(yù)測(cè)結(jié)果進(jìn)行評(píng)估。
2.3.2? 終版模型
根據(jù)評(píng)估指標(biāo),選擇召回率為首要評(píng)估指標(biāo),確定每類(lèi)客戶(hù)群預(yù)測(cè)效果最優(yōu)的模型算法,其中,3個(gè)客戶(hù)群選擇lightGBM算法、3個(gè)客戶(hù)群選擇XGBoost算法、2個(gè)客戶(hù)群選擇RandomForest算法,并最終混合組成家庭寬帶離網(wǎng)用戶(hù)預(yù)警模型。
2.4? 效果分析
2.4.1? 評(píng)估指標(biāo)
將模型應(yīng)用在8個(gè)客戶(hù)群的測(cè)試數(shù)據(jù)集上,并輸出準(zhǔn)確率、召回率、F1值三項(xiàng)評(píng)估指標(biāo),對(duì)終版模型的各客群預(yù)測(cè)結(jié)果進(jìn)行評(píng)估,以正類(lèi)召回率作為首要評(píng)估指標(biāo)[5]。
2.4.2? 預(yù)測(cè)效果
在8個(gè)客戶(hù)群的正類(lèi)召回率中,6個(gè)客戶(hù)群在90%以上、1個(gè)89.34%、1個(gè)75%;模型在測(cè)試集上的正類(lèi)召回率為89.64%。如表2所示。
2.5? 調(diào)優(yōu)
在模型構(gòu)建過(guò)程中,需要根據(jù)模型的評(píng)估指標(biāo),多次進(jìn)行迭代優(yōu)化,主要解決以下兩個(gè)問(wèn)題。
2.5.1? 訓(xùn)練樣本均衡問(wèn)題
原始訓(xùn)練數(shù)據(jù),正負(fù)樣本比例懸殊,同時(shí)引入上采樣、下采樣方式,按1:4和1:2比例生產(chǎn)訓(xùn)練數(shù)據(jù)集,進(jìn)行探索。通過(guò)評(píng)估各訓(xùn)練集生成模型的預(yù)測(cè)召回率,最終選定上采樣(1:2)作為最終訓(xùn)練數(shù)據(jù)。
2.5.2? 過(guò)擬合問(wèn)題
通過(guò)訓(xùn)練數(shù)據(jù)集生成的基線模型,準(zhǔn)確率、召回率、F1均在98%以上,但在測(cè)試集上召回率僅65%,出現(xiàn)了明顯的過(guò)擬合、泛化能力不足的情況。通過(guò)調(diào)整reg_alpha、reg_lambda、max_depth等參數(shù),加入L1、L2正則化,限制樹(shù)的最大深度,降低模型的擬合精度,增強(qiáng)泛化能力。
2.6? 預(yù)測(cè)結(jié)果輸出
模型最終的預(yù)測(cè)結(jié)果以csv文件格式輸出,包含用戶(hù)ID、離網(wǎng)概率、是否離網(wǎng)等字段信息。如圖3所示。
3? 應(yīng)用效果
3.1? 降低家寬離網(wǎng)率
通過(guò)模型從全市20余萬(wàn)寬帶用戶(hù)中,篩選出0.22萬(wàn)/月存在離網(wǎng)可能的用戶(hù),供業(yè)務(wù)部門(mén)針對(duì)用戶(hù)進(jìn)行挽留。
模型應(yīng)用后,寬帶月離網(wǎng)率持續(xù)改善,從0.76%下降至0.35%,5~6月全省月離網(wǎng)率全省最低;預(yù)計(jì)2021年全年家庭寬帶離網(wǎng)率5.66%,較2020年改善2.28 PP。如圖4所示。
3.2? 挽回用戶(hù)創(chuàng)造收益
模型應(yīng)用前,寬帶離網(wǎng)中位數(shù)1 544戶(hù)/月,應(yīng)用后,寬帶離網(wǎng)中位數(shù)896戶(hù)/月;挽回寬帶用戶(hù)648戶(hù)/月,全年預(yù)計(jì)挽回7 776戶(hù)。
離網(wǎng)意味著用戶(hù)資費(fèi)降檔或手機(jī)銷(xiāo)戶(hù),按每戶(hù)20元/月資費(fèi)變動(dòng)估算;首月挽回用戶(hù)創(chuàng)造收益1.3萬(wàn)元,全年預(yù)計(jì)創(chuàng)造收益101.1萬(wàn)元。
4? 結(jié)? 論
實(shí)踐證明,此寬帶用戶(hù)離網(wǎng)預(yù)測(cè)模型解決了信息過(guò)載和用戶(hù)無(wú)目的搜索的問(wèn)題,達(dá)到降低用戶(hù)離網(wǎng)率、為企業(yè)創(chuàng)造收益及降低成本的目的,同時(shí)豐富了寬帶用戶(hù)運(yùn)營(yíng)手段,是通過(guò)大數(shù)據(jù)輔助市場(chǎng)經(jīng)營(yíng)的有效嘗試。
參考文獻(xiàn):
[1] 王遠(yuǎn)征,吳峰,夏明鏡,等.電信寬帶用戶(hù)離網(wǎng)大數(shù)據(jù)預(yù)測(cè)實(shí)例 [J].電信技術(shù),2016(10):83-87.
[2] 云晴.大數(shù)據(jù)實(shí)踐重要影響因素 [J].中國(guó)電信業(yè),2017(8):57-59.
[2] 盧光躍,張宏建,閆真光,等.基于特征選擇和SVM的電信客戶(hù)離網(wǎng)預(yù)測(cè) [J].西安郵電大學(xué)學(xué)報(bào),2019,24(2):21-25.
[3] 陳小鳳.寬帶用戶(hù)維系新思路 [J].電子技術(shù)與軟件工程,2018(14):14.
[4] 谷娜.基于AI和大數(shù)據(jù)的寬帶服務(wù)支撐體系研究 [J].通信與信息技術(shù),2021(4):81-82.
[5] 云晴.大數(shù)據(jù)實(shí)踐重要影響因素 [J].中國(guó)電信業(yè),2017(8):57-59.
作者簡(jiǎn)介:張靖(1986—),男,漢族,山西朔州人,中級(jí)工程師,碩士研究生,研究方向:神經(jīng)網(wǎng)絡(luò);侯曉晶(1987—),女,漢族,山西省運(yùn)城人,中級(jí)工程師,碩士研究生,研究方向:數(shù)據(jù)挖掘。
3478500338218