崔偉,夏汛,孫瑜魯
(1.瀘州職業(yè)技術學院,瀘州 646000;2.四川大學電子信息學院,成都 610064)
基于隨機KNN特征選擇的高質量移動通信用戶預測
崔偉1,夏汛1,孫瑜魯2
(1.瀘州職業(yè)技術學院,瀘州 646000;2.四川大學電子信息學院,成都 610064)
高價值移動通信用戶預測是電信企業(yè)客戶管理的一項重要內(nèi)容,針對用戶數(shù)據(jù)維度較高,規(guī)模較大,類不平衡較嚴重等問題,提出一種基于隨機KNN的特征選擇的預測方法,首先對初始數(shù)據(jù)進行隨機采樣構建多個KNN分類器,隨后計算特征的權重以評估其重要性,利用廣義順序后退法對特征進行選擇獲得最優(yōu)的特征子集,最后在結合集成學習方法中加入加權投票機制,建立預測模型。實驗結果表明,該預測模型能夠有效降低樣本特征維度并提升對高價值移動通信用戶預測性能。
不平衡數(shù)據(jù)集;特征選擇;k近鄰;預測模型
隨著智能手機的普及以及4G網(wǎng)絡通信的快速推廣,移動客戶消費增長迅速,市場競爭全面展開,如何挖掘并發(fā)展高價值用戶是電信企業(yè)增加收入并提高市場競爭力的關鍵。目前對于高價值用戶并無統(tǒng)一的定義,以往的學術研究多關注用戶分類[1-2]及客戶流失預測[3-4]等,對于高價值用戶預測的研究較少,因此根據(jù)用戶的消費記錄等數(shù)據(jù)建立高價值移動用戶預測模型具有重要的應用價值。然而由于這類數(shù)據(jù)規(guī)模較大,維數(shù)較高,其中可能包含的不相關或者冗余特征導致模型的學習時間增加,同時發(fā)生過擬合現(xiàn)象。進行特征選擇的目的是為了盡可能減少數(shù)據(jù)集中的冗余特征,因此設計有效的特征選擇方法是建立模型核心所在。
根據(jù)特征選擇方法與后續(xù)學習算法間的關系,可將特征選擇算法分為過濾式、嵌入式兩類。在過濾式的特征選擇算法中,依據(jù)特定的度量選擇特征,特征選擇的過程與具體的分類器無關,常用的方法有Relief[5]、CFS[6]等,這類方法較簡單,速度快,然而其評估結果與后續(xù)學習算法的性能偏差較大,對于不同數(shù)據(jù)集的魯棒性和適應性有待提高。封裝式的特征選擇方法在特征度量中考慮了分類的錯誤率,將特征選擇方法作為學習算法的一個組成部分,直接使用分類性能評價所選擇的特征子集。由于其評價限制于具體的分類器,所以封裝式方法的分類精度得到了大幅度的提高,然而其泛化能力較差,時間復雜度較高。
文獻[7]將隨機森林用作特征選擇,通過在每一顆決策樹中隨機排列特征,通過分類準確度進行特征選擇,在迭代中,逐步剔除不能提高分類性能的特征,最終得到的結果是構成分類誤差最小的特征集合。然而,由于隨機森林方法其為層次的樹形結構,其特征選擇的結果并不穩(wěn)定,若數(shù)據(jù)發(fā)生微小的改變,隨機森林可能生成不同數(shù)量的特征,同時,在決策樹中存在高方差的情況[8]。
因此,從集成學習的方法出發(fā),結合高價值移動用戶數(shù)據(jù)集維度較高,類不平衡較嚴重的特點,本文提出一種基于隨機KNN的特征選擇方法,將其用于高價值移動通信用戶預測。
電信企業(yè)將用戶平均收益(Average Revenue Per User,ARPU)作為衡量用戶價值的重要指標,它注重一個時間段內(nèi)電信運營商從每個用戶得到的收入。一般來說,移動用戶連續(xù)N月的月均消費水平會隨N值的提高而增長,同時,月均消費水平較高的用戶流失率較低,因此,本文將高價值用戶定義為:入網(wǎng)一年以上且近一年月均消費金額在200元以上的用戶。
對于一個移動通信用戶,其消費水平增長是一個較慢的過程,大幅度的增長較為少見。因此,本文的研究目標為連續(xù)一年月均ARPU值在100~200元之間的用戶,正類樣本為未來一年內(nèi)會成長為高價值用戶的群體,其余用戶標為負類。本文從消費特征,終端特征,消費行為變化,App下載記錄等4個方面抽取目標用戶的基本特征構成特征集合和相關樣本數(shù)據(jù),最終的數(shù)據(jù)集包括12萬條數(shù)據(jù)記錄,98個用戶特征,正類樣本越占總樣本的四分之一。其中10萬條數(shù)據(jù)記錄作為訓練集及測試集,剩余2萬條記錄構成驗證集以檢驗模型的預測效果。
隨機KNN(Random KNN,RKNN)的思想與隨機森林相似,通過將多個基礎分類器聯(lián)合為一個強分類器進行學習。與隨機森林不同的是,隨機KNN中的基礎分類器為KNN,而不是決策樹,因此其沒有層次結構。在每一個基礎KNN分類器中,通過與測試樣本最近的k個樣本決定樣本的分類。而最終得到的RKNN通過多個KNN投票進行決策。
令F={f1,f2,...,fp}為輸入的p個特征,X為包含n個數(shù)據(jù)的輸入數(shù)據(jù)集合,則X為一個大小為n×p的矩陣,對于隨機數(shù)m(m
KNN算法的基本思想為:給定一個測試樣本x,首先找出與該測試樣本最接近的K個訓練樣本,通過統(tǒng)計測試樣本與K個近鄰中各類樣本的相似度之和,作為測試樣本與各類的相似度,最后將該樣本判定為相似度最大的類,步驟如下:
(1)計算測試樣本與所有訓練樣本的距離,而測試樣本x與訓練樣本y的距離計算如下式:
(2)找出與測試樣本x距離最小的K個最鄰近訓練樣本。
(3)分別計算K個最近鄰樣本與測試樣本x的相似度。距離越大,相似度越小,反之亦然,即:
(4)統(tǒng)計測試樣本與各類別的總相似度S(x,Ci):
為了選擇有效的特征,其關鍵是計算特征的權重,為其重要性進行排序。本文將KNN的分類準確率作為特征的特征權重的計算依據(jù)。
首先,每一個KNN對測試集進行分類,通過與測試樣本的實際類別進行比較,計算每一個KNN的分類準確率acc(KNN)。令C(f)表示特征f參與的所有的KNN分類器的集合,每一個KNN的分類結果對參與其中的特征計算權重,如圖1所示。特征權重越高,則該特征越重要。特征f權重可計算為:
(5)將測試樣本判別為相似度最大的類:
圖1 特征權值計算流程圖
在得到特征權重以后,可以直接選擇權重較高的特征作為特征選擇的輸出結果,但由于在基礎KNN進行分類時,其樣本集合的特征是隨機選取的,這樣的做法并不可靠。因此,考慮到算法速度和分類性能的平衡,本文將特征選擇的過程分為兩步,不斷采用序列后向搜索方法進行迭代構造新的樣本集選擇特征。在第一步的迭代中,算法每次迭代,特征的數(shù)量減小為原來的q(0 對于預測模型,常用的評價指標包括:精確率(Pre?cision),召回率(Recall),F(xiàn) 測度(F-measure)評價跟蹤算法的性能。其定義分別為: 精確率(Precision),表示“正確被檢索到的條目(TP)”在“實際被檢索的條目(TP+FP)”中所占的比例: 召回率(Recall),表示所有“正確被檢索的條目(TP)”在“應該被檢索到的條目(TP+FN)”中所占的比例: F測度(F-measure),表示召回率(R)和精確率(P)的加權調(diào)和平均數(shù),其一般化的公式為: 當β=1,就是F1-measure: 為了驗證本文方法在高價值移動通信用戶預測研究中的有效性,本文選用特征子集的維度和F測度兩個指標對模型性能進行評估,并與隨機森林的特征選擇方法進行對比試驗,采用其提供的原始算法建立預測模型。本文選用了UCI數(shù)據(jù)庫中3個不同數(shù)據(jù)集及本文研究在數(shù)據(jù)搜集階段得到的某電信公司提取的初始數(shù)據(jù)集作為實驗數(shù)據(jù),如表1所示。 表1 不同數(shù)據(jù)集比較 不同方法對4個數(shù)據(jù)集的預測結果如表2所示。本文方法KNNFS的降維效果最好,相對于RFFS,在特征維數(shù)上減小了29.85%,其平均F測度提高了2.25%,這表明KNN相對于隨機森林的樹狀結構更適合解決此類包含較多冗余特征的大規(guī)模不平衡而分類問題。從表2中可以看出,本文方法對于低維數(shù)據(jù),本文方法除能降低特征集合的維度外,在提升模型預測性能方面并無特別優(yōu)勢。但從D3可以看出,對于高維、正負樣本不平衡度較大的數(shù)據(jù)集,RKNNFS的降維效果及對模型性能的提升作用得以體現(xiàn),驗證了本文方法的有效性。 表2 不同算法的性能比較 經(jīng)過一系列特征選擇及算法參數(shù)調(diào)優(yōu),得出RKNNFS和High-value mobile user數(shù)據(jù)集的最優(yōu)特征子集為:套餐金額,在網(wǎng)天數(shù),近半年月均活動基站數(shù),近3月月均通話時長,漫游通話次數(shù),增值業(yè)務費用,近三月月均流量,月均長途通話時長,終端銷售價格,近3月月均通話時長,用戶ARPU增長速度。 表3 預測模型在不同數(shù)據(jù)集上的結果比較 預測模型在高質量移動用戶驗證集和D2測試集上的預測結果如表3所示,可以看出,算法相對于在D1上的結果,預測模型在驗證集中準確率僅略微下降了1.1%,然而F測度提高了5.2%,體現(xiàn)本文預測模型的泛化能力較強。 因此,基于RKNN的特征選擇方法建立的高價值移動用戶預測模型具有一定的實用性,能夠處理大規(guī)模高維不平衡數(shù)據(jù)集上的二分類問題,能夠較好地為企業(yè)決策提供參考。 針對移動高價值移動通信用戶,本文提出隨機KNN方法進行特征選擇并建立預測模型,通過在隨機森林的框架下利用KNN作為基礎分類器,避免了隨機森林的缺陷,可以有效處理高維度不平衡數(shù)據(jù)集上的特征選擇問題,通過與傳統(tǒng)方法的實驗結果進行對比,驗證了該方法的有效性和實用性,未來計劃將該方法用于其他應用,并提高模型的預測精度。 [1]梁霄波.電信客戶細分中基于聚類算法的數(shù)據(jù)挖掘技術研究[J].現(xiàn)代電子技術,2016(15):95-98. [2]張煥國,呂莎,李瑋.C均值算法的電信客戶細分研究[J].計算機仿真,2011(06):185-188. [3]張慧,徐勇.數(shù)據(jù)挖掘中SVM模型與貝葉斯模型的比較分析——基于電信客戶的流失分析[J].平頂山學院學報,2016,(02):68-73. [4]梁路,王彪,王劍輝,劉冬寧.基于細精度關聯(lián)規(guī)則挖掘的電信客戶流失分析[J].智能系統(tǒng)學報,2015(03):407-413. [5]Dash M,Ong Y.RELIEF-C:Efficient Feature Selection for Clustering over Noisy Data[C].International Conference on Tools with Artificial Intelligence,2011:869-872. [6]Liu L,Zhang J,Li P,et al.A Label Correlation Based Weighting Feature Selection Approach for Multi-label Data[C].Web Age Information Management,2016:369-379. [7]姚登舉,楊靜,詹曉娟.基于隨機森林的特征選擇算法[J].吉林大學學報(工學版),2014(01):137-141. [8]Mcinerney D O,Nieuwenhuis M.A Comparative Analysis of kNN and Decision Tree Methods for the Irish National Forest Inventory[J].International Journal of Remote Sensing,2009,30(19):4937-4955. Abstract:The prediction for high value mobile communication user plays an important role in the telecom enterprise customer management.Aiming at the problems such as high user data dimension,large scale and serious unbalanced class,proposes a method of feature selection based on random KNN.Firstly,the initial data is randomly sampled to construct multiple KNN classifiers,and then the weights of the features are computed to measure its importance,and the generalized sequential backward selection method is used to select the optimal features sub?set.Finally,the weighted voting mechanism is added in the ensemble learning method to establish a predictive model.The experimental re?sults show that the model can effectively reduce the dimensions of the sample features and improve the prediction performance of the high value mobile communication users. Keywords:Imbalanced Dataset;Feature Selection;K-NN;Prediction Model Prediction for High-Value Mobile Users Based on Random KNN Feature Selection CUI Wei1,XIA Xun1,SUN Yu-lu2 (1.Luzhou Vocational and Technical College,Luzhou 646000;2.College of Electronic&Information Engineering,Sichuan University,Chengdu 610064) 川大-瀘州戰(zhàn)略合作科技項目(No.2015CDLZ-S12) 1007-1423(2017)26-0009-04 10.3969/j.issn.1007-1423.2017.26.002 崔偉(1983-),男,四川自貢人,碩士,講師,網(wǎng)絡工程師,研究方向為企業(yè)信息化和新一代互聯(lián)網(wǎng)應用 夏汛(1984-),男,四川瀘州人,碩士,講師,研究方向為大數(shù)據(jù)應用、企業(yè)信息化 孫瑜魯(1991-),女,山東泰安人,在讀碩士研究生,研究方向為圖像處理,模式識別,Email:sunylcn@163.com 2017-06-27 2017-09-103 實驗結果與分析
4 結語