周露露,鐘玲,思永坤
(中移在線服務(wù)有限公司云南分公司,云南 昆明 650221)
隨著物質(zhì)生活的不斷豐富,消費者的需求越來越精細化,以市場為導向的傳統(tǒng)營銷模式難以滿足客戶的個性化需求,這就要求企業(yè)在制定營銷策略時,更精準地識別各細分市場的目標客戶[1-2]。
隨著公司對直接溝通銷售的重視,需要更精準、可衡量和高投資回報的營銷溝通,更注重結(jié)果和回報的營銷傳播方法及對直接溝通銷售的投資[3]。美國學者Jeff Zabin 認為如果要影響目標客戶的購買決策,就必須依靠精準營銷[4]。運營商擁有多元、海量的用戶特征和行為信息,通過建立精準營銷模型,識別目標客戶并制定不同的營銷計劃,可以在降低營銷成本的同時提升用戶粘性,從而提高營銷產(chǎn)品的轉(zhuǎn)化率[5]。
面對復雜多變的市場環(huán)境和客戶需求,移動通信運營商現(xiàn)行的營銷策略難以滿足客戶的實際需求。一方面,任何企業(yè)都是生存在市場環(huán)境中的,在制定營銷策略時必須以市場環(huán)境為依據(jù),宏觀環(huán)境因素包括政策環(huán)境、經(jīng)濟發(fā)展狀況、地理環(huán)境等,同時,企業(yè)內(nèi)部環(huán)境、營銷渠道等微觀環(huán)境也影響著營銷策略的實施。另一方面,在電信市場增速放緩、存量用戶爭奪愈發(fā)激烈的形勢下,如果策略實施不當,不僅會降低客戶滿意度和品牌信任度,還可能造成客戶流失。本文從維系現(xiàn)有存量客戶角度出發(fā),通過精準定位目標客戶,定制適配產(chǎn)品及營銷服務(wù)策略,在滿足客戶實際需求和消費偏好的同時,發(fā)掘產(chǎn)品的潛在高價值用戶群體[6-7]。
本文根據(jù)呼叫中心客戶的基本信息數(shù)據(jù)(號碼、歸屬地、年齡、在網(wǎng)時長及星級等)和消費行為數(shù)據(jù)(月均消費、流量/語音使用情況及活動辦理等),構(gòu)建精準營銷模型的核心指標體系。在此指標體系基礎(chǔ)上,提出基于機器學習的5G 精準營銷模型。模型構(gòu)建的主要步驟如下:
(1)建立基于客戶的核心指標體系,根據(jù)類別識別規(guī)則,將指標向量作為非類別屬性,對應的標簽向量作為類別屬性[8];
(2)確定模型的關(guān)鍵參數(shù)集,使用決策樹、邏輯回歸、支持向量機機器學習算法構(gòu)建目標客戶識別模型,在測試數(shù)據(jù)集上驗證模型效果;
(3)選擇最優(yōu)的模型應用于生產(chǎn)運營。
基于機器學習算法的精準營銷模型步驟如圖1 所示。
為構(gòu)建精準模型,梳理了可能對標簽向量有影響的特征指標?;诳刹杉臄?shù)據(jù)源,主要包含運營數(shù)據(jù)和過程數(shù)據(jù)。其中,運營數(shù)據(jù)包括BOSS 計費系統(tǒng)、CRM客戶關(guān)系管理系統(tǒng)、賬務(wù)系統(tǒng)的數(shù)據(jù),可細分為用戶基本信息數(shù)據(jù)、訂購關(guān)系數(shù)據(jù)、營銷數(shù)據(jù)、消費數(shù)據(jù)等;過程數(shù)據(jù)指用戶在業(yè)務(wù)使用過程中產(chǎn)生的數(shù)據(jù),包括用戶上網(wǎng)日志數(shù)據(jù)、語音通話與短信發(fā)送/接收的行為數(shù)據(jù)及終端與網(wǎng)絡(luò)交互的信令數(shù)據(jù)等。
定義次月生效套餐為5G 智享系列套餐的客戶為正類樣本,反之則為負類樣本,作為模型預測的類別屬性。除標簽列外,選取21 個重點變量作為樣本的特征指標體系。每個變量的具體描述如下所示:
(1)USER_ID:用戶編碼;
(2)MSISDN:手機號碼;
(3)CITY_NAME:所屬地州,包含昆明、曲靖、昭通等16 個地州;
(4)VILLAGE_FLAG:農(nóng)村城市屬性,1 個農(nóng)村、0 個城市、9 個不祥;
(5)CREDIT:客戶星級,包含未評級、準星、一至五星;
(6)AGE:年齡;
(7)USER_ONLINE_MONTH:在網(wǎng)時長(月);
(8)USE_DURA:終端使用時長(月);
(9)AVG_MON3_APRU:近三月月均用戶收入;
(10)AVG_MON3_MOU:近三月月均使用通話分鐘數(shù);
(11)AVG_MON3_DOU:近三月月均使用流量;
(12)USED_OUT_VOICE:已使用套餐外通話時長(分鐘);
(13)USED_OUT_FLOW:已使用套餐外流量;
(14)AVG_MON3_2G_FLOW:近三個月月均2G 流量;
(15)APP_YX_FLOW_RATE:近三個月游戲類軟件使用流量占比;
(16)APP_SP_FLOW_RATE:近三個月視頻類軟件使用流量占比;
(17)BANDWIDTH_DESC:寬帶帶寬;
(18)TARGET_CUST_MARKER_ID:營銷活動標簽;
圖1 基于機器學習算法的精準營銷模型
(19)APP_MOST:當月使用流量最高的三個視頻類APP;
(20)PURCHASE_DESC:辦理的營銷活動;
(21)CALLS_NUM:月均來電次數(shù)。
在進行模型訓練前,需要對數(shù)據(jù)進行預處理,預處理的方法與步驟如下:
(1)去除唯一屬性,刪除用戶編碼、手機號碼字段;
(2)缺失值處理:將空值用數(shù)值0 替代,減少數(shù)據(jù)缺失,提升模型預測結(jié)果的準確性;
(3)數(shù)據(jù)映射:將文本屬性標簽(如所屬地州)映射為數(shù)字;
(4)數(shù)據(jù)派生:依據(jù)業(yè)務(wù)場景需求,若客戶滿足活動規(guī)則,則將享受套餐折扣優(yōu)惠。根據(jù)用戶的網(wǎng)時長、寬帶帶寬和客戶標簽等字段,判斷用戶可享受的折扣。5G 套餐設(shè)計包含了綜合視頻類、移動音樂類和音頻娛樂等權(quán)益,為判斷用戶對權(quán)益的偏好,根據(jù)用戶視頻類APP 的流量消耗以及視頻會員權(quán)益活動辦理情況,構(gòu)造視頻類APP 偏好、會員權(quán)益偏好字段。
派生變量及描述如下所示:
1)DISCOUNT:折扣,“1”表示不打折,“0.8”表示八折,“0.7”表示7 折;
2)VIDEO_PRE:視頻類APP 偏好,如會員權(quán)益包含該APP,該字段為“1”,否則為“0”;
3)MEMBER_PRE:會員權(quán)益偏好,如辦理隨心系權(quán)益,該字段為“1”,否則為“0”。
在設(shè)計決策樹精準營銷模型時,主要步驟如下:1)首先輸入經(jīng)過預處理的用戶數(shù)據(jù)集,將樣本數(shù)據(jù)分成訓練集和驗證集;2)計算集中訓練用戶的年齡、網(wǎng)齡、星級、月均收入及使用流量等24 個指標的信息熵、信息增益和增益率等指標,選定最優(yōu)劃分屬性[9];3)重復步驟2),層層劃分,直至將樣本劃分為5G 智享套餐目標客戶或非5G 智享套餐目標客戶[10];4)對決策樹進行剪枝,使得模型能盡可能正確地劃分訓練數(shù)據(jù)集外的用戶;5)在驗證集上計算模型評價指標,評估模型性能。
訓練數(shù)據(jù)通常會受到錯誤分類樣本的噪聲、訓練樣例數(shù)量太少、節(jié)點純度的錯誤度量等因素影響,導致訓練模型的過度擬合[11]。決策樹的剪枝主要是為了解決決策樹的過擬合問題,在節(jié)點劃分前后,判斷當前節(jié)點的劃分是否能帶來模型泛化性能的提升[12]。
Berkson 最早將邏輯回歸(LR,Logistic Regression)方法應用于藥物自催化反應過程的研究[13],現(xiàn)已被廣泛應用于用戶預測和尋找影響因變量的因素[14]。
基于邏輯回歸訓練精準營銷模型時,主要步驟如下:1)輸入用戶數(shù)據(jù)集,將地市、星級等定性變量轉(zhuǎn)化成定量變量;2)劃分模型訓練數(shù)據(jù)集與驗證集;3)確定回歸的因變量和自變量,訓練模型并得到各自變量的回歸系數(shù)以及目標客戶的概率輸出;4)使用Sigmoid 函數(shù)將樣本的概率輸出映射到[0,1]范圍內(nèi),選定閾值為0.5,當概率大于0.5 時,將其判定為目標客戶,反之為非目標客戶;5)在驗證集上計算模型評價指標,評估邏輯回歸模型性能。
支持向量機(SVM,Support-Vector Network)是一種用于二分類問題的新型學習器,其基本思想是將輸入向量非線性地映射到高維特征空間。在該特征空間中構(gòu)造線性超平面,分離訓練數(shù)據(jù),并確保學習器具有較高的泛化能力[15]。簡而言之,就是找到一個最優(yōu)劃分超平面,使得它能夠盡可能多地將兩類樣本正確分開,同時使分開的兩類數(shù)據(jù)點距離分離面最遠(最大間隔),如圖2 所示:
圖2 最優(yōu)劃分超平面與最大間隔
基于支持向量機的精準營銷模型主要步驟如下:1)首先輸入用戶數(shù)據(jù)集,并劃分訓練集和驗證集;2)確定分類變量為二分類,分別是5G 智享套餐目標客戶和非5G 智享套餐目標客戶,其余變量作為自變量;3)根據(jù)訓練集樣本年齡、月均使用流量、視頻偏好等屬性取值與所屬類別之間的關(guān)系,尋找兩類樣本的最優(yōu)劃分超平面,確定法向量w和位移項b[16],形成一個凸二次規(guī)劃問題[17]并求解;4)最終將樣本聚為兩類,分別是5G 智享套餐目標客戶和非5G 智享套餐目標客戶;5)對驗證集樣本進行分類,并計算準確率等模型評價指標。
本文采用了中國移動云南公司的用戶基本屬性和用戶通信行為數(shù)據(jù)進行模型研究。數(shù)據(jù)來源于公司Gbase數(shù)據(jù)庫,系統(tǒng)運行環(huán)境主要為CPU:i5 2.80 G;內(nèi)存:8 192 MB;操作系統(tǒng):Window 7 64 位;數(shù)據(jù)庫:Gbase集群管理器(版本:8.5.1.2_build40_2_24)。
由于正類和負類樣本存在著嚴重的數(shù)據(jù)不平衡,可能會導致模型訓練結(jié)果偏向多數(shù)類樣本,少數(shù)類樣本的正確率較低[18]。為降低數(shù)據(jù)不平衡,提高分類器的性能,保證模型運算效率,本文篩選5 000 條正類樣本和15 000條負類樣本,共20 000 條樣本作為模型訓練的數(shù)據(jù)集。并基于R 語言的集成開發(fā)環(huán)境R Studio,運用rpart、caret、pRoc、e1071 等安裝包進行模型訓練。
對于機器學習模型,往往存在著泛化能力不足的問題。模型的泛化能力即指模型對于未知數(shù)據(jù)的預測能力,因此,本文采用交叉驗證的方法來提高模型的泛化能力,基本思想是將數(shù)據(jù)集反復劃分為多組訓練數(shù)據(jù)集和測試數(shù)據(jù)集,在訓練數(shù)據(jù)集上交叉驗證得到最佳模型參數(shù),使用測試數(shù)據(jù)集衡量最終模型性能。這種基于多組模型訓練進行調(diào)參的方式,可有效地避免模型對某些樣本的過擬合,提高其泛化性能。
為了避免過度擬合,本文采用k折交叉驗證來構(gòu)建集成分類器。該方法的基本思想是將原始數(shù)據(jù)集劃分成k份相同樣本量的數(shù)據(jù)子集,每次使用其中k-1 份數(shù)據(jù)子集的集合訓練模型,余下的1 份數(shù)據(jù)子集用作模型測試集,并計算模型的評價指標。重復k次,得到k組評價指標,取平均值作為最終評價指標[19]。本文進行的實驗中,取k=10,10 折交叉驗證的示意圖如圖3 所示:
圖3 10折交叉驗證的示意圖
本文主要采用的性能度量指標包括準確率、一類錯誤率、二類錯誤率和AUC 值,對模型效果進行評估。在介紹各度量指標之前,以二分類為例,構(gòu)造混淆矩陣如下所示:
(1)預測值:正類;真實值:正類,則為真正類(TP);
(2)預測值:正類;真實值:負類,則為假正類(FP);
(3)預測值:負類;真實值:正類,則為假負類(FN);
(4)預測值:負類;真實值:負類,則為真負類(TN)。
在機器學習領(lǐng)域,最常用的度量模型預測能力的指標是準確率。對于二分類問題,將準確率定義為模型分類結(jié)果中真正類和真負類占總樣本的比例,簡而言之,就是模型分類正確的比例。準確率的計算公式為:
對于二分類問題,正類和負類樣本錯誤分類的代價差異較大。本文的正類樣本是5G 智享套餐的目標客戶,對其錯誤分類會直接導致?lián)p失其更改套餐的可能性。若對非目標客戶錯誤分類為目標客戶,僅可能損失部分營銷成本。因此本文還將分別采用兩類樣本的分類錯誤率對模型性能進行評價,兩類錯誤率的計算公式如下:
在數(shù)據(jù)存在嚴重的不平衡時,準確率或錯誤率等指標對分類器性能的評估會過于樂觀[20],此外,通過分類精度進行的評估還假設(shè)兩類樣本錯誤分類的成本是相同的[21]。但在目標客戶識別場景,將非目標客戶識別為目標客戶,與將目標客戶識別為非目標客戶的代價是不同的。為此,本文引入了受試者工作特征(ROC,Receiver Operating Characteristic)曲線,這是醫(yī)學診斷中信號檢測理論的經(jīng)典方法,現(xiàn)已廣泛應用于機器學習分類器的模型效果評價[22]。在進行分類器性能比較時,僅僅通過觀察ROC 曲線還不夠直觀,可通過比較ROC 曲線下的面積(AUC,Area Under the Curve)的值,判斷分類器性能高低[23]。
本文基于R 語言編程工具,采用10 折交叉驗證法,設(shè)計并實現(xiàn)了三組模型。首先是決策樹模型,模型的輸入為用戶的24 個屬性,輸出為是否為5G 智享套餐目標客戶。按照10 折交叉驗證的方法劃分訓練集和驗證集,18 000 位用戶為訓練集,2 000 位用戶為驗證集,鑒于實驗設(shè)計過程,取10 次實驗結(jié)果的算術(shù)平均值為最終結(jié)果,經(jīng)節(jié)點劃分和屬性歸類,生成的決策樹如圖4 所示。
圖4 決策樹結(jié)果圖
其次是邏輯回歸模型,模型的目的是尋找目標變量(是否為5G 智享套餐目標客戶)與多個自變量(所屬地州、星級、月均使用通話分鐘數(shù)等)之間的線性關(guān)系。根據(jù)實驗設(shè)計方法,按9:1 比例劃分訓練集和驗證集,進行10 次實驗。通過尋找回歸參數(shù),預測自變量在不同的取值下,是5G 智享套餐目標客戶的概率。確定閾值為0.5,將模型概率輸出轉(zhuǎn)換為二分類輸出,計算模型評價指標并計算算術(shù)平均值。
對于支持向量機分類模型,將樣本的24 個屬性作為特征空間,是否為5G 智享套餐目標套餐作為待分類屬性。每次取18 000 條樣本作為尋找劃分超平面的訓練集,根據(jù)樣本自變量取值的空間分布,尋找最優(yōu)劃分超平面對樣本進行區(qū)分。進行10 次實驗,獲得10 組指標值,計算其算術(shù)平均值為最終結(jié)果。以其中兩個屬性為例,訓練的支持向量機如圖5 所示:
圖5 支持向量機結(jié)果圖
為評估模型性能,計算每組模型準確率、錯誤率、AUC值作為模型評價指標,并對三組實驗結(jié)果進行對比分析,選擇最優(yōu)的模型進行應用。模型評價指標的對比如表1 所示:
表1 模型評價指標對比
從總體的分類準確率來看,決策樹同其他模型相比是最高的。對于目標客戶預測模型來說,更關(guān)注的是將目標客戶錯誤預測為非目標客戶的樣本,也就是第一類錯誤率。結(jié)果表中顯示決策樹的第一類分類錯誤率最低。與此同時,AUC 作為評價不平衡數(shù)據(jù)集模型/性能的重要指標,可輔助模型效果對比。本實驗中支持向量機模型的AUC 取得最大值,但決策樹與其結(jié)果相差不大。因此,決策樹的綜合性能表現(xiàn)最佳,并且在目標客戶精準營銷場景具有很好的適用性。
在模型的落地應用方面,將底層的算法邏輯與業(yè)務(wù)運營需求緊密結(jié)合,訓練決策樹模型識別重點業(yè)務(wù)目標客戶,將客戶偏好的產(chǎn)品通過合適的渠道,在最佳的時機推送給目標客戶群體。應用的渠道包括瞬時運營、短信群發(fā)、IOP 彈窗等。其中,瞬時運營是指用戶在達到觸發(fā)條件(如流量超套、新?lián)Q5G 手機)的瞬間,啟動互動式語音應答(IVR,Interactive Voice Response)外呼,詢問是否需更改套餐,客戶可選擇是否轉(zhuǎn)入人工。短信群發(fā)是指向目標客戶發(fā)送模板短信,宣傳5G 智享套餐相關(guān)信息。IOP 彈窗是在客戶接入10086 人工后,系統(tǒng)自動彈窗5G 智享套餐目標客戶,提示客服代表進行套餐營銷。經(jīng)統(tǒng)計,瞬時運營外呼的5G 業(yè)務(wù)轉(zhuǎn)化率達到36.96%;短信群發(fā)測試的營銷轉(zhuǎn)化率最高達到17.62%;IOP 彈窗的營銷轉(zhuǎn)化率較模型上線前有明顯的提升。
本文從精準營銷模型的角度出發(fā),將機器學習模型應用于呼叫中心的生產(chǎn)運營?;谥袊苿釉颇瞎居脩舻臉颖緮?shù)據(jù),構(gòu)造用戶基本信息、訂購關(guān)系、消費、交互行為4 個維度的24 個指標,搭建自適應快速迭代的機器學習模型,預測5G 套餐目標客戶,旨在描繪通信運營商呼叫中心客戶的全息畫像,明確目標客戶群體的特征和產(chǎn)品定位方向。在建模過程中,經(jīng)歷了定位、分析、驗證、跟蹤、迭代優(yōu)化等環(huán)節(jié),是大數(shù)據(jù)分析和人工智能在傳統(tǒng)通信行業(yè)領(lǐng)域的大膽嘗試,也是精細化運營的重要體現(xiàn)。模型預測結(jié)果的準確率超過90%,在精準營銷場景具有很好的適用性,也能輔助優(yōu)化制定策略。最后本文提出了針對性的建議方案,為5G 套餐目標客戶的精準營銷提供了有益借鑒。
在本文的研究過程中還存在一些待改進的地方。首先,通信運營商擁有著海量用戶數(shù)據(jù),本文采用的是用戶部分基本信息和消費行為數(shù)據(jù),未來可挖掘其他數(shù)據(jù)的內(nèi)在價值,還可結(jié)合外部數(shù)據(jù),構(gòu)建更為完善的模型;其次,本文研究產(chǎn)品單一,為提升營銷轉(zhuǎn)化率、提高客戶感知價值,在設(shè)計營銷方案時,可加入與主套餐搭配的語音包、流量包等,通過交叉銷售滿足不同客戶需求。