国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

家庭寬帶離網(wǎng)用戶(hù)預(yù)警模型構(gòu)建研究

2021-03-13 14:38張靖侯曉晶
現(xiàn)代信息科技 2021年15期
關(guān)鍵詞:寬帶用戶(hù)量化預(yù)測(cè)

張靖 侯曉晶

摘? 要:隨著全市家庭寬帶市場(chǎng)的飽和,寬帶用戶(hù)新增速度放緩,保有存量用戶(hù)、控制用戶(hù)離網(wǎng)業(yè)已成為促進(jìn)寬帶市場(chǎng)發(fā)展的重要舉措。文章對(duì)家庭寬帶離網(wǎng)用戶(hù)特征進(jìn)行研究,基于lightGBM、XGBoost、RandomForest三類(lèi)集成學(xué)習(xí)的決策樹(shù)算法,使用PyCharm軟件構(gòu)建家庭寬帶離網(wǎng)用戶(hù)預(yù)警模型,輸出預(yù)離網(wǎng)用戶(hù)供業(yè)務(wù)人員進(jìn)行挽留,模型應(yīng)用后,寬帶月離網(wǎng)用戶(hù)百分比從0.76%下降至0.35%,預(yù)計(jì)全年可挽回預(yù)離網(wǎng)用戶(hù)7 776戶(hù),保有客戶(hù)價(jià)值101.1萬(wàn)元。

關(guān)鍵詞:離網(wǎng);大數(shù)據(jù);預(yù)測(cè);量化;寬帶用戶(hù)

中圖分類(lèi)號(hào):TP311? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2096-4706(2021)15-0085-04

Abstract: With the saturation of the home broadband market in the whole Shuozhou city, the growth rate of broadband users has slowed down. Retaining existing users and controlling user off-network have become important measures to promote the development of the broadband market. This paper studies the characteristics of home broadband off-network users, based on the decision tree algorithm of integrated learning of lightGBM, XGBoost and RandomForest, PyCharm software is used to construct home broadband off-network users early warning model, which outputs pre off-network users for business personnel to retain. After the application of the model, the percentage of monthly broadband off-network user drops from 0.76% to 0.35%. It is expected that 7 776 pre off-network users can be retained throughout the year, keeping a customer value of 1.101 million yuan.

Keywords: off-network; big data; prediction; quantification; broadband user

0? 引? 言

家庭寬帶作為CHBN(Customer, Home, Business, New, CHBN)四大市場(chǎng)中的重要組成部分,在多產(chǎn)品融合營(yíng)銷(xiāo)、智慧家庭體系建立、實(shí)現(xiàn)用戶(hù)價(jià)值提升等方面扮演著愈來(lái)愈重要的角色。截至2020年底,全市我網(wǎng)家庭寬帶用戶(hù)數(shù)達(dá)到20.3萬(wàn),市場(chǎng)份額46.8%,通信運(yùn)營(yíng)商在家庭寬帶市場(chǎng)上的競(jìng)爭(zhēng)會(huì)長(zhǎng)期存在,面對(duì)全市家庭寬帶用戶(hù)幾近飽和、市場(chǎng)增速放緩的形勢(shì)[1],存量寬帶用戶(hù)保有形勢(shì)愈發(fā)嚴(yán)峻。但我網(wǎng)2020年全年家庭寬帶離網(wǎng)用戶(hù)1.61萬(wàn),離網(wǎng)率7.94%。

面對(duì)市場(chǎng)發(fā)展壓力,我公司迫切需要深挖家庭寬帶市場(chǎng)的保有潛力,通過(guò)多專(zhuān)業(yè)(市場(chǎng)側(cè)+網(wǎng)絡(luò)側(cè))歷史數(shù)據(jù),篩查并掌握寬帶離網(wǎng)客群特征,隨之而來(lái)的信息過(guò)載問(wèn)題和用戶(hù)無(wú)目的搜索[2],使得數(shù)理統(tǒng)計(jì)、數(shù)據(jù)庫(kù)分析等方法解決此類(lèi)問(wèn)題時(shí),存在高質(zhì)量有價(jià)值信息難覓、獲取信息成本高、時(shí)間周期長(zhǎng)等諸多弊端。

如何建立有效預(yù)測(cè)家庭寬帶用戶(hù)離網(wǎng)的數(shù)據(jù)模型?掌握哪些用戶(hù)會(huì)離網(wǎng),離網(wǎng)傾向有多高?需要用大數(shù)據(jù)技術(shù)協(xié)助解決。

1? 模型概述

我們利用已有的多類(lèi)用戶(hù)特征,對(duì)寬帶用戶(hù)是否離網(wǎng)進(jìn)行預(yù)判,根據(jù)輸出預(yù)離網(wǎng)明細(xì)進(jìn)行針對(duì)挽回。首先,將預(yù)測(cè)寬帶離網(wǎng)用戶(hù)的應(yīng)用場(chǎng)景轉(zhuǎn)化為有監(jiān)督的二分類(lèi)問(wèn)題,再經(jīng)過(guò)數(shù)據(jù)準(zhǔn)備、特征選擇、模型建立、效果評(píng)估、迭代優(yōu)化、成果應(yīng)用等六個(gè)階段,構(gòu)建基于lightGBM、XGBoost、RandomForest三類(lèi)算法的混合模型——家庭寬帶離網(wǎng)用戶(hù)預(yù)警模型。

模型開(kāi)發(fā)環(huán)境為Python 3.7,通過(guò)PyCharm開(kāi)發(fā)工具實(shí)現(xiàn)。以單月全量家庭寬帶用戶(hù)數(shù)據(jù)為輸入,包含用戶(hù)屬性、投訴情況、寬帶網(wǎng)絡(luò)性能等屬性,并將原始數(shù)據(jù)按區(qū)域類(lèi)型、帶寬速率、投訴情況劃分為8個(gè)客戶(hù)群,分別適配lightGBM、XGBoost、RandomForest中的不同算法達(dá)到最優(yōu),最終完成家庭寬帶離網(wǎng)用戶(hù)預(yù)警模型的構(gòu)建,并輸出對(duì)存量寬帶用戶(hù)次月的離網(wǎng)預(yù)測(cè)。

2? 模型構(gòu)建

通過(guò)需求分析,將應(yīng)用場(chǎng)景轉(zhuǎn)化為預(yù)測(cè)寬帶用戶(hù)離網(wǎng)與在網(wǎng)的分類(lèi)問(wèn)題[3],調(diào)取單月全量家庭寬帶用戶(hù)數(shù)據(jù),包含用戶(hù)屬性(如年齡、性別)、業(yè)務(wù)屬性(如寬帶入網(wǎng)時(shí)間、用戶(hù)套餐、用戶(hù)月消費(fèi)等)、使用習(xí)慣(如寬帶上網(wǎng)時(shí)長(zhǎng)、上網(wǎng)流量等)、投訴情況(如月投訴頻次、投訴類(lèi)型等)及寬帶網(wǎng)絡(luò)性能(如帶寬、上網(wǎng)平均速率)等數(shù)據(jù);完成多表關(guān)聯(lián)、匯總后,形成包含347個(gè)特征的原始數(shù)據(jù),其中數(shù)值型特征307個(gè)、類(lèi)別型特征40個(gè),以“isnt_kd_lost_label”(是否次月寬帶離網(wǎng)用戶(hù))作為類(lèi)別標(biāo)簽。

2.1? 數(shù)據(jù)預(yù)處理及特征選擇

2.1.1? 特征初篩

為保證特征的有效性,首先去掉值全為空、對(duì)分類(lèi)無(wú)貢獻(xiàn)的5個(gè)特征,再去掉數(shù)據(jù)波動(dòng)小、方差等于0的41個(gè)特征,最后去掉存儲(chǔ)內(nèi)容為文本(例如:民?;▓@小區(qū))的32個(gè)特征,共涉及78個(gè)特征。

2.1.2? 空值填充

對(duì)于數(shù)值型特征選用“中位數(shù)”填充,對(duì)于類(lèi)別型特征選用“向前、向后”填充。

2.1.3? 相似度分析

對(duì)于|相關(guān)系數(shù)|≥0.8的特征,認(rèn)為其屬于強(qiáng)相關(guān),為保證模型的簡(jiǎn)化,選擇僅保留其中一個(gè)特征,共丟棄124個(gè)特征。如圖1所示。

2.1.4? 數(shù)據(jù)集劃分

預(yù)留10%的數(shù)據(jù)作為最終測(cè)試集(test set),剩余數(shù)據(jù)再按照8:2的比例劃分為訓(xùn)練集(train set)和驗(yàn)證集(validation set)用于模型構(gòu)建。

2.1.5? 正負(fù)樣本不均衡處理

以“離網(wǎng)”作為正類(lèi),“在網(wǎng)”作為負(fù)類(lèi),訓(xùn)練集原始數(shù)據(jù)正負(fù)樣本比為1:142,存在明顯數(shù)據(jù)不均衡,分別采用過(guò)采樣、欠采樣兩種方式,按正負(fù)比1:2和1:4兩種比例生成用于模型訓(xùn)練的數(shù)據(jù)集。如表1所示。

2.2? 場(chǎng)景細(xì)分

2.2.1? 劃分維度

結(jié)合日常寬帶用戶(hù)的投訴處理、故障維護(hù)經(jīng)驗(yàn),將訓(xùn)練數(shù)據(jù)按照區(qū)域類(lèi)型、帶寬速率、投訴情況[4]三個(gè)維度劃分為8個(gè)客戶(hù)群。如圖2所示。

2.2.2? 細(xì)分標(biāo)準(zhǔn)

區(qū)域類(lèi)型包括城市、農(nóng)村;帶寬速率包括高帶寬、低帶寬,其中100 MB及以下為低帶寬、200 MB及以上為高帶寬;投訴情況包括有投訴、無(wú)投訴。

2.3? 模型建立

2.3.1? 基線模型

對(duì)于劃分好的8個(gè)客戶(hù)群的訓(xùn)練數(shù)據(jù)集,依次使用lightGBM、XGBoost、RandomForest算法訓(xùn)練,最終訓(xùn)練出24個(gè)模型,作為基線模型,并從準(zhǔn)確率、召回率、F1值對(duì)所有基線模型的預(yù)測(cè)結(jié)果進(jìn)行評(píng)估。

2.3.2? 終版模型

根據(jù)評(píng)估指標(biāo),選擇召回率為首要評(píng)估指標(biāo),確定每類(lèi)客戶(hù)群預(yù)測(cè)效果最優(yōu)的模型算法,其中,3個(gè)客戶(hù)群選擇lightGBM算法、3個(gè)客戶(hù)群選擇XGBoost算法、2個(gè)客戶(hù)群選擇RandomForest算法,并最終混合組成家庭寬帶離網(wǎng)用戶(hù)預(yù)警模型。

2.4? 效果分析

2.4.1? 評(píng)估指標(biāo)

將模型應(yīng)用在8個(gè)客戶(hù)群的測(cè)試數(shù)據(jù)集上,并輸出準(zhǔn)確率、召回率、F1值三項(xiàng)評(píng)估指標(biāo),對(duì)終版模型的各客群預(yù)測(cè)結(jié)果進(jìn)行評(píng)估,以正類(lèi)召回率作為首要評(píng)估指標(biāo)[5]。

2.4.2? 預(yù)測(cè)效果

在8個(gè)客戶(hù)群的正類(lèi)召回率中,6個(gè)客戶(hù)群在90%以上、1個(gè)89.34%、1個(gè)75%;模型在測(cè)試集上的正類(lèi)召回率為89.64%。如表2所示。

2.5? 調(diào)優(yōu)

在模型構(gòu)建過(guò)程中,需要根據(jù)模型的評(píng)估指標(biāo),多次進(jìn)行迭代優(yōu)化,主要解決以下兩個(gè)問(wèn)題。

2.5.1? 訓(xùn)練樣本均衡問(wèn)題

原始訓(xùn)練數(shù)據(jù),正負(fù)樣本比例懸殊,同時(shí)引入上采樣、下采樣方式,按1:4和1:2比例生產(chǎn)訓(xùn)練數(shù)據(jù)集,進(jìn)行探索。通過(guò)評(píng)估各訓(xùn)練集生成模型的預(yù)測(cè)召回率,最終選定上采樣(1:2)作為最終訓(xùn)練數(shù)據(jù)。

2.5.2? 過(guò)擬合問(wèn)題

通過(guò)訓(xùn)練數(shù)據(jù)集生成的基線模型,準(zhǔn)確率、召回率、F1均在98%以上,但在測(cè)試集上召回率僅65%,出現(xiàn)了明顯的過(guò)擬合、泛化能力不足的情況。通過(guò)調(diào)整reg_alpha、reg_lambda、max_depth等參數(shù),加入L1、L2正則化,限制樹(shù)的最大深度,降低模型的擬合精度,增強(qiáng)泛化能力。

2.6? 預(yù)測(cè)結(jié)果輸出

模型最終的預(yù)測(cè)結(jié)果以csv文件格式輸出,包含用戶(hù)ID、離網(wǎng)概率、是否離網(wǎng)等字段信息。如圖3所示。

3? 應(yīng)用效果

3.1? 降低家寬離網(wǎng)率

通過(guò)模型從全市20余萬(wàn)寬帶用戶(hù)中,篩選出0.22萬(wàn)/月存在離網(wǎng)可能的用戶(hù),供業(yè)務(wù)部門(mén)針對(duì)用戶(hù)進(jìn)行挽留。

模型應(yīng)用后,寬帶月離網(wǎng)率持續(xù)改善,從0.76%下降至0.35%,5~6月全省月離網(wǎng)率全省最低;預(yù)計(jì)2021年全年家庭寬帶離網(wǎng)率5.66%,較2020年改善2.28 PP。如圖4所示。

3.2? 挽回用戶(hù)創(chuàng)造收益

模型應(yīng)用前,寬帶離網(wǎng)中位數(shù)1 544戶(hù)/月,應(yīng)用后,寬帶離網(wǎng)中位數(shù)896戶(hù)/月;挽回寬帶用戶(hù)648戶(hù)/月,全年預(yù)計(jì)挽回7 776戶(hù)。

離網(wǎng)意味著用戶(hù)資費(fèi)降檔或手機(jī)銷(xiāo)戶(hù),按每戶(hù)20元/月資費(fèi)變動(dòng)估算;首月挽回用戶(hù)創(chuàng)造收益1.3萬(wàn)元,全年預(yù)計(jì)創(chuàng)造收益101.1萬(wàn)元。

4? 結(jié)? 論

實(shí)踐證明,此寬帶用戶(hù)離網(wǎng)預(yù)測(cè)模型解決了信息過(guò)載和用戶(hù)無(wú)目的搜索的問(wèn)題,達(dá)到降低用戶(hù)離網(wǎng)率、為企業(yè)創(chuàng)造收益及降低成本的目的,同時(shí)豐富了寬帶用戶(hù)運(yùn)營(yíng)手段,是通過(guò)大數(shù)據(jù)輔助市場(chǎng)經(jīng)營(yíng)的有效嘗試。

參考文獻(xiàn):

[1] 王遠(yuǎn)征,吳峰,夏明鏡,等.電信寬帶用戶(hù)離網(wǎng)大數(shù)據(jù)預(yù)測(cè)實(shí)例 [J].電信技術(shù),2016(10):83-87.

[2] 云晴.大數(shù)據(jù)實(shí)踐重要影響因素 [J].中國(guó)電信業(yè),2017(8):57-59.

[2] 盧光躍,張宏建,閆真光,等.基于特征選擇和SVM的電信客戶(hù)離網(wǎng)預(yù)測(cè) [J].西安郵電大學(xué)學(xué)報(bào),2019,24(2):21-25.

[3] 陳小鳳.寬帶用戶(hù)維系新思路 [J].電子技術(shù)與軟件工程,2018(14):14.

[4] 谷娜.基于AI和大數(shù)據(jù)的寬帶服務(wù)支撐體系研究 [J].通信與信息技術(shù),2021(4):81-82.

[5] 云晴.大數(shù)據(jù)實(shí)踐重要影響因素 [J].中國(guó)電信業(yè),2017(8):57-59.

作者簡(jiǎn)介:張靖(1986—),男,漢族,山西朔州人,中級(jí)工程師,碩士研究生,研究方向:神經(jīng)網(wǎng)絡(luò);侯曉晶(1987—),女,漢族,山西省運(yùn)城人,中級(jí)工程師,碩士研究生,研究方向:數(shù)據(jù)挖掘。

3478500338218

猜你喜歡
寬帶用戶(hù)量化預(yù)測(cè)
選修2—2期中考試預(yù)測(cè)卷(B卷)
選修2—2期中考試預(yù)測(cè)卷(A卷)
2019年第一季度移動(dòng)用戶(hù)總數(shù)同比增長(zhǎng)2%
我國(guó)手機(jī)上網(wǎng)用戶(hù)達(dá)11億
三大運(yùn)營(yíng)商10月數(shù)據(jù)出爐 移動(dòng)4G用戶(hù)凈增超聯(lián)通電信之和
?;髽I(yè)提高現(xiàn)場(chǎng)應(yīng)急處置能力的對(duì)策措施研究
讓“量化”更加的“亮化”
《福彩3D中獎(jiǎng)公式》:提前一月預(yù)測(cè)號(hào)碼的驚人技巧!
預(yù)測(cè)高考