国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于邏輯回歸算法的A地市家庭寬帶發(fā)展研究

2017-03-12 08:30鄭曉
移動(dòng)通信 2017年2期

【摘 要】家庭寬帶是電信運(yùn)營(yíng)商重點(diǎn)發(fā)展的業(yè)務(wù)。根據(jù)A地市中國(guó)移動(dòng)家庭寬帶業(yè)務(wù)的相關(guān)數(shù)據(jù),分析用戶的通信和上網(wǎng)等行為特點(diǎn),基于邏輯回歸算法預(yù)測(cè)A地市的潛在安裝寬帶用戶概率值,為一線城市制定家庭寬帶發(fā)展業(yè)務(wù)提供方案。

【關(guān)鍵詞】邏輯回歸 家庭寬帶 中國(guó)移動(dòng)

doi:10.3969/j.issn.1006-1010.2017.02.016 中圖分類號(hào):F623 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-1010(2017)02-0079-03

引用格式:鄭曉. 基于邏輯回歸算法的A地市家庭寬帶發(fā)展研究[J]. 移動(dòng)通信, 2017,41(2): 79-81.

1 引言

家庭寬帶營(yíng)銷(xiāo)一直是運(yùn)營(yíng)商市場(chǎng)的重點(diǎn)業(yè)務(wù)。在上海舉辦的MWCS2016(世界移動(dòng)通信大會(huì)上海)上,中國(guó)移動(dòng)執(zhí)行副總裁李慧鏑表示,將大力推動(dòng)家庭業(yè)務(wù)發(fā)展,中國(guó)移動(dòng)計(jì)劃2016年新增家庭寬帶用戶1800萬(wàn)。不難看出,家庭寬帶客戶發(fā)展已成為中國(guó)移動(dòng)省公司重點(diǎn)關(guān)注的方向。

為使模型真正指導(dǎo)營(yíng)銷(xiāo),選擇某省A地市中國(guó)移動(dòng)客戶作為研究對(duì)象,針對(duì)該地市的移動(dòng)客戶的家庭寬帶業(yè)務(wù)的相關(guān)數(shù)據(jù)進(jìn)行分析和挖掘,分析家寬用戶與非家寬用戶的特征,幫助一線營(yíng)銷(xiāo)人員制定家庭寬帶營(yíng)銷(xiāo)策略。

2 A地市潛在家庭寬帶用戶挖掘?qū)嵺`

2.1 背景

據(jù)了解,A地市移網(wǎng)總用戶數(shù)為80萬(wàn)左右,家庭總戶數(shù)約為60萬(wàn)(基于該地市移網(wǎng)總用戶數(shù)及家庭成員識(shí)別、居住地識(shí)別2個(gè)基礎(chǔ)模型估算得出),其中移動(dòng)寬帶覆蓋戶數(shù)為32萬(wàn)。在移動(dòng)寬帶覆蓋區(qū)域內(nèi),已安裝移動(dòng)寬帶戶數(shù)為7萬(wàn),異網(wǎng)寬帶戶數(shù)約為10萬(wàn),故未被挖掘的潛在寬帶戶數(shù)=移動(dòng)寬帶覆蓋戶數(shù)-已安裝移動(dòng)寬帶戶數(shù)-異網(wǎng)寬帶戶數(shù)=15萬(wàn),尚有較大的發(fā)展空間。而現(xiàn)階段A地市以普遍撒網(wǎng)的方式營(yíng)銷(xiāo),缺少針對(duì)性的營(yíng)銷(xiāo),營(yíng)銷(xiāo)進(jìn)展較為緩慢。因此,通過(guò)大數(shù)據(jù)分析建模,以期精準(zhǔn)識(shí)別營(yíng)銷(xiāo)目標(biāo)客戶,實(shí)現(xiàn)營(yíng)銷(xiāo)資源利用率最大化。

2.2 具體過(guò)程

(1)數(shù)據(jù)挖掘目標(biāo)。通過(guò)對(duì)比近期新安裝移動(dòng)寬帶用戶及未安裝移動(dòng)寬帶用戶流量使用行為、家庭行為等特征,識(shí)別潛在寬帶用戶,預(yù)測(cè)潛在寬帶用戶安裝寬帶概率值。

(2)訓(xùn)練樣本選擇。抽樣的用戶需要滿足以下條件:入網(wǎng)至少三個(gè)月、非移動(dòng)內(nèi)部用戶、用戶居住地被移動(dòng)寬帶覆蓋。正樣本取2015年12月、2016年1、2月未使用移動(dòng)寬帶,2016年3月新裝移動(dòng)寬帶的全量用戶,共0.18萬(wàn)。負(fù)樣本取截止2016年4月未使用移動(dòng)寬帶用戶。因?yàn)閿?shù)量較多,把負(fù)樣本的濃度降低,以便更好地觀察與分析正樣本的特征,取正負(fù)樣本比例為1:6,抽取1.2萬(wàn)的負(fù)樣本。

(3)變量選擇。涉及的變量主要來(lái)源于電信行業(yè)內(nèi)部以及一些上網(wǎng)類屬性,字段分類主要包括基礎(chǔ)屬性、位置信息、用戶消費(fèi)行為、用戶終端特征、數(shù)據(jù)業(yè)務(wù)辦理情況、交往圈情況、家庭成員情況、APP安裝使用情況,共選取了148個(gè)初始變量。

(4)數(shù)據(jù)探索與數(shù)據(jù)處理。業(yè)務(wù)知識(shí)是數(shù)據(jù)挖掘的核心,這一原則在數(shù)據(jù)探索的過(guò)程尤為重要。對(duì)變量的相關(guān)業(yè)務(wù)知識(shí)進(jìn)行詳細(xì)了解后,借助ATSER工具,對(duì)挖掘變量做由淺入深的數(shù)據(jù)探索。主要通過(guò)數(shù)據(jù)質(zhì)量檢查、值分析、統(tǒng)計(jì)分析、頻度分析、直方圖分析、相關(guān)性分析等方法理解變量。通過(guò)構(gòu)造衍生變量的方式,探索對(duì)目標(biāo)變量影響更大的變量。比如,近三個(gè)月月均視頻APP使用次數(shù)空值較多,將其從數(shù)值型變量轉(zhuǎn)變成分類變量,代表近三個(gè)月是否使用視頻類APP。同時(shí)通過(guò)缺失值、異常值處理、變量標(biāo)準(zhǔn)化等方法對(duì)變量進(jìn)行處理,最終確定模型輸入變量21個(gè)。

(5)算法選擇與模型評(píng)估。目前在電信行業(yè)常用的算法包括:決策樹(shù)、邏輯回歸、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等?;谝韵滤姆矫嬖騼?yōu)先采用邏輯回歸算法:一是模型輸入變量類型多為數(shù)值型;二是輸出變量為典型的二分類型變量;三是需要輸出客戶新裝寬帶概率指導(dǎo)營(yíng)銷(xiāo);四是地市的樣本量較少,而邏輯回歸的優(yōu)勢(shì)在于數(shù)據(jù)沒(méi)必要滿足正態(tài)分布。

邏輯回歸模型屬于廣義線性模型(Generalized Linear Model)的一種,是基于Sigmoid函數(shù)的有監(jiān)督分類模型,主要是研究一個(gè)因變量和多個(gè)自變量之間的多元回歸關(guān)系。在邏輯回歸分析中,因變量Y是一個(gè)二分類變量,取Y=1和Y=0分別表示新裝家寬的用戶和未裝家寬用戶。影響Y取值的n個(gè)自變量x1, x2, …, xn,在這n個(gè)自變量的作用下,新裝家寬的條件概率為P=P(Y=1∣x1, x2, …, xn),邏輯回歸方程可表示為:

zi=a0+a1xi1+a2xi2+…+anxin (1)

Pi=1/(1+exp(-zi)) (2)

其中:zi為中間變量參數(shù);

a0為回歸常數(shù);

aj為第j個(gè)變量的回歸系數(shù)(i、j=1,2, …, n);

xij為第i個(gè)單元中第j個(gè)變量的取值,存在新裝家寬取1,否則取0;

Pi為第i單元中發(fā)生新裝寬帶的概率的回歸預(yù)測(cè)值(i=1,2, …, n)。

表1為訓(xùn)練集的模型效果,表2為測(cè)試集的模型效果。不難發(fā)現(xiàn),響應(yīng)率情況基本保持一致,說(shuō)明模型沒(méi)有過(guò)度擬合。同時(shí)在選取營(yíng)銷(xiāo)對(duì)象時(shí),建議選取KS值最大對(duì)應(yīng)的用戶進(jìn)行營(yíng)銷(xiāo),因?yàn)镵S值能最大程度地區(qū)分正負(fù)樣本。基于測(cè)試集的模型結(jié)果,比未建模時(shí)提升2.29倍,效果較好。

3 營(yíng)銷(xiāo)策略制定

在醫(yī)學(xué)實(shí)驗(yàn)研究中有對(duì)照原則,設(shè)立對(duì)照組的作用在于提高鑒別能力和結(jié)論的說(shuō)服力。由于營(yíng)銷(xiāo)資源有限,為提高資源利用率,跨界引用對(duì)照原則,設(shè)置高度可比性的對(duì)照組AB的方式進(jìn)行試外呼,對(duì)比、檢驗(yàn)?zāi)P偷膽?yīng)用效果,保證模型的真實(shí)有效性。模型組選?。焊怕史謩e在40%~60%、60%~80%、80%~100%的用戶,每個(gè)區(qū)間取30%的用戶外呼,概率在20%~40%的用戶,取5%的用戶外呼。同時(shí)對(duì)照組選?。涸?G、3G用戶中隨機(jī)抽取5000個(gè)與模型組無(wú)重復(fù)的用戶外呼。

試外呼的效果如表3所示,模型組的平均意向率是對(duì)照組的2.9倍,證明模型應(yīng)用效果較好。據(jù)此,開(kāi)展全量營(yíng)銷(xiāo),按概率由大到小外呼以保證最優(yōu)營(yíng)銷(xiāo)。

4 結(jié)論

以A地市中國(guó)移動(dòng)家庭寬帶業(yè)務(wù)數(shù)據(jù)為研究對(duì)象,選擇八大類型共148個(gè)相關(guān)指標(biāo),采用邏輯回歸模型預(yù)測(cè)潛在用戶安裝寬帶概率值,并通過(guò)KS值確認(rèn)模型沒(méi)有過(guò)度擬合,并運(yùn)用查全率、查準(zhǔn)率、提升度及AB對(duì)照組等方法保證模型的真實(shí)有效性。為運(yùn)營(yíng)商進(jìn)一步做好營(yíng)銷(xiāo)活動(dòng)提供了可依據(jù)的數(shù)據(jù)支撐。

參考文獻(xiàn):

[1] Jiawei Han, Micheline Kamber, Jian Pei. 數(shù)據(jù)挖掘概念與技術(shù)[M]. 范明,孟小峰,譯. 3版. 北京: 機(jī)械工業(yè)出版社, 2012.

[2] Mehmed Kantardzic. 數(shù)據(jù)挖掘:概念、模型、方法和算法[M]. 王曉海,吳志剛,譯. 2版. 北京: 清華大學(xué)出版社, 2014.

[3] 王濟(jì)川. Logistic回歸模型:方法與應(yīng)用[M]. 北京: 高等教育出版社, 2001.

[4] 王燕莉,安世全. 數(shù)據(jù)挖掘技術(shù)在移動(dòng)通信中的應(yīng)用[J]. 中國(guó)數(shù)據(jù)通信, 2004,6(1): 74-77.

[5] 郭明,鄭惠莉. 基于數(shù)據(jù)挖掘的電信客戶流失分析[D]. 南京: 南京郵電大學(xué), 2005.

[6] 鄧玉珊. 電信業(yè)潛在寬帶客戶獲取預(yù)測(cè)研究[D]. 成都: 電子科技大學(xué), 2009.

[7] 鄒超,姜澄宇. 我國(guó)寬帶業(yè)務(wù)市場(chǎng)的擴(kuò)散分析[J]. 蘭州大學(xué)學(xué)報(bào), 2007,35(6): 144-146.

[8] Ningtang P, Steinbach M, Kumar V. Introduction to Data Mining[M]. Beijing: Posts&Telecom Press, 2006: 372-374.

[9] 方芳,劉大有,王新華,等. 電信CRM技術(shù)發(fā)展研究[J]. 計(jì)算機(jī)工程, 2010,36(5): 277-279.

[10] 徐曉菊. 數(shù)據(jù)挖掘在電信業(yè)中的應(yīng)用[J]. 統(tǒng)計(jì)與咨詢, 2008(3): 33-34.★

米泉市| 民勤县| 眉山市| 黑水县| 枣阳市| 大同县| 盐池县| 玛沁县| 佳木斯市| 页游| 株洲市| 大同县| 鹤壁市| 定边县| 依安县| 巩义市| 隆安县| 阆中市| 玉溪市| 余庆县| 河池市| 武夷山市| 抚州市| 泗阳县| 航空| 青冈县| 天气| 长宁县| 桦川县| 丹凤县| 岱山县| 合阳县| 三明市| 桃园县| 会泽县| 高碑店市| 东乡族自治县| 沐川县| 始兴县| 延长县| 保山市|