陳秀敏,許向東,黃毅華,于文
(1.中國電信股份有限公司廣州研究院,廣東 廣州 510630;2.北京師范大學(xué)珠海分校,廣東 珠海 519085)
基于數(shù)據(jù)挖掘的4G用戶投訴預(yù)測
陳秀敏1,許向東1,黃毅華1,于文2
(1.中國電信股份有限公司廣州研究院,廣東 廣州 510630;2.北京師范大學(xué)珠海分校,廣東 珠海 519085)
4G網(wǎng)絡(luò)運(yùn)營中,存在性能指標(biāo)雖好,但仍有用戶感知差而投訴的問題,性能指標(biāo)不能正確反映用戶的真實(shí)感知。因此,提出了一種基于數(shù)據(jù)挖掘的4G用戶投訴預(yù)警的方法,首先根據(jù)投訴工單對(duì)投訴類型進(jìn)行分類,并提出各個(gè)類型的用戶特征的提取方法,然后利用數(shù)據(jù)挖掘預(yù)測投訴用戶。該方法可快速分析出用戶投訴的原因,或在用戶投訴之前便發(fā)現(xiàn)并解決問題,提升4G用戶體驗(yàn)。
數(shù)據(jù)挖掘 4G用戶感知 投訴類型 預(yù)測模型
隨著移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)的迅猛發(fā)展,4 G相比2G/3G,網(wǎng)絡(luò)速度更快、效率更高、兼容性更強(qiáng)、自動(dòng)調(diào)節(jié)能力和適應(yīng)性更強(qiáng)、數(shù)據(jù)處理靈活性更高,因此各大運(yùn)營商都投入了大量的資源用于4G業(yè)務(wù)的發(fā)展。然而,隨著產(chǎn)品類型趨同,運(yùn)營商急需將網(wǎng)絡(luò)運(yùn)維管理的焦點(diǎn)從網(wǎng)絡(luò)質(zhì)量轉(zhuǎn)移到以客戶為中心的客戶體驗(yàn),改善用戶感知已成為運(yùn)營商亟待解決的問題。用戶感知是終端用戶對(duì)一些服務(wù)質(zhì)量或整體網(wǎng)絡(luò)的感受,萬用戶投訴比是評(píng)價(jià)用戶感知的一個(gè)重要方面,如果能及時(shí)預(yù)測用戶的投訴情況,在投訴事件發(fā)生前就能采取有效措施,必然能提升客戶的體驗(yàn)滿意度,增加用戶黏度。
在實(shí)際網(wǎng)絡(luò)運(yùn)營中,許多潛在有用的信息被海量的、有噪聲的、隨機(jī)的、模糊的實(shí)際應(yīng)用數(shù)據(jù)所掩蓋,傳統(tǒng)的分析方法往往不易察覺,數(shù)據(jù)挖掘技術(shù)可以很好地解決以上難題。本文主要研究并開發(fā)了一個(gè)預(yù)測4G用戶投訴的框架,可根據(jù)以往用戶的數(shù)據(jù),采用不同分類算法,預(yù)測一個(gè)4G用戶是否會(huì)進(jìn)行投訴,同時(shí),總結(jié)了4G用戶投訴預(yù)測所需的有效特征值。
4G用戶投訴預(yù)測模型的選擇,需要考慮以下問題:一是當(dāng)前網(wǎng)絡(luò)運(yùn)營數(shù)據(jù)有MR(測量報(bào)告)、無線CDR(呼叫詳細(xì)話單)、無線性能指標(biāo)、計(jì)費(fèi)話單、核心網(wǎng)CHR(歷史呼叫記錄)、業(yè)務(wù)DPI(深度包解析)等大量數(shù)據(jù)記錄,但不可以直接用于建模,需要進(jìn)行關(guān)聯(lián)串接提取建模所需特征;二是模型特征確定后,存在數(shù)據(jù)不平衡、用戶數(shù)據(jù)空缺等問題,需要對(duì)建模數(shù)據(jù)進(jìn)行預(yù)處理;三是模型的算法非常多,如何選擇合適模型算法對(duì)預(yù)測效果至關(guān)重要,為解決以上問題,本文采用CRISP-DM流程來規(guī)范模型的搭建,共分為6個(gè)階段。
CRISP-DM全稱為Cross-Industry Standard Process for Data Mining,也就是“跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程”[2],該模型于1999年由歐盟機(jī)構(gòu)聯(lián)合起草,經(jīng)過十幾年的發(fā)展,如今已經(jīng)成為事實(shí)上的行業(yè)標(biāo)準(zhǔn),在各種數(shù)據(jù)挖掘過程模型中占據(jù)領(lǐng)先位置,調(diào)查顯示,CRISP-DM的數(shù)據(jù)挖掘流程為多數(shù)數(shù)據(jù)挖掘工具所采用,比例在50%以上。
本文在這個(gè)模型的基礎(chǔ)上(如圖1所示),結(jié)合本項(xiàng)目特點(diǎn),總結(jié)出適合4G用戶投訴預(yù)測的數(shù)據(jù)挖掘過程如下:
(1)業(yè)務(wù)理解/商業(yè)理解(Business Understanding):理解項(xiàng)目目標(biāo),首先從業(yè)務(wù)的角度理解項(xiàng)目需求,再將項(xiàng)目需求轉(zhuǎn)化為數(shù)據(jù)挖掘問題,即預(yù)測4G用戶是否投訴。
(2)數(shù)據(jù)理解(Data Understanding):收集包含31個(gè)特征值的4G用戶的原始數(shù)據(jù),并且通過對(duì)數(shù)據(jù)的相關(guān)性進(jìn)行分析等初步處理來熟悉數(shù)據(jù)。
(3)數(shù)據(jù)準(zhǔn)備(Data Preparation):通過對(duì)上一階段收集的數(shù)據(jù)進(jìn)行分析,共整理出如表1所示的31個(gè)特征值,詳見第3節(jié)。
(4)建模(Modeling):選擇和應(yīng)用不同的學(xué)習(xí)算法和模型技術(shù),將模型參數(shù)調(diào)整到最佳的數(shù)值,詳見第4節(jié)。
(5)評(píng)估(Evaluation):采用正規(guī)技術(shù)評(píng)審和正規(guī)審查等方法,檢查構(gòu)造模型的開展順序,并充分地考慮所有重要業(yè)務(wù)問題以確保模型能夠完成挖掘目標(biāo)。
(6)部署(Deployment):將模型應(yīng)到大規(guī)模的實(shí)際數(shù)據(jù)中。
在上述6個(gè)階段中,前3個(gè)階段主要依靠網(wǎng)絡(luò)優(yōu)化和行業(yè)運(yùn)營經(jīng)驗(yàn)來完成,數(shù)據(jù)準(zhǔn)備階段是前3個(gè)階段的初步成果,同時(shí)也是整個(gè)數(shù)據(jù)挖掘的基礎(chǔ),如果這個(gè)階段出現(xiàn)問題,后面所有的工作都會(huì)受到影響。而建模階段是關(guān)鍵,選擇不同的算法或不同的參數(shù)往往對(duì)預(yù)測結(jié)果影響較大,模型的評(píng)估方法也會(huì)在模型的求解過程中應(yīng)用。因此,數(shù)據(jù)準(zhǔn)備和建模中的關(guān)鍵問題將分別在下面兩節(jié)中詳細(xì)闡述。一般情況下,前5個(gè)階段通常需要不斷地循環(huán)以找到最優(yōu)方案,如圖1所示,評(píng)估階段結(jié)束標(biāo)志著一個(gè)成熟的數(shù)據(jù)挖掘流程已經(jīng)形成。
圖1 跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程[3]
數(shù)據(jù)準(zhǔn)備階段主要對(duì)原始的用戶數(shù)據(jù)進(jìn)行處理,通過采集無線MR、無線CDR、無線性能指標(biāo)、計(jì)費(fèi)話單、核心網(wǎng)CHR、業(yè)務(wù)DPI等數(shù)據(jù)、分析數(shù)據(jù)特點(diǎn)、用戶端到端數(shù)據(jù)(無線、核心網(wǎng)及互聯(lián)網(wǎng))的關(guān)聯(lián)及串接,如圖2所示,進(jìn)而轉(zhuǎn)化成和4G用戶投訴預(yù)測(無信號(hào)或信號(hào)弱)相關(guān)的特征值,如表1所示。
在用戶的投訴中,無信號(hào)或信號(hào)弱所占的比例比較大,也是本文研究的重點(diǎn),對(duì)其他如速率慢、掉線、應(yīng)用打不開和有信號(hào)無法使用等方面投訴的預(yù)測,也可以使用類似的方法和過程。
圖2 端到端數(shù)據(jù)關(guān)聯(lián)串接
表1 4G用戶投訴預(yù)測(無信號(hào)或信號(hào)弱)所需特征值
在特征值提取的過程中,主要考慮投訴現(xiàn)象的平均次數(shù)、持續(xù)時(shí)長、發(fā)生頻度、位置集中度以及異常時(shí)長占比等因素,通過均值、方差、分位值、百分比、百分比區(qū)間、TOP N、變異系數(shù)等7個(gè)維度,完成了用戶每日數(shù)據(jù)的匯聚,根據(jù)全省周申告用戶數(shù)與活躍用戶的比例設(shè)置建模數(shù)據(jù)中投訴用戶數(shù)據(jù)的占比。
值得注意的是,此階段總結(jié)的31個(gè)特征值,只是根據(jù)領(lǐng)域?qū)<业慕?jīng)驗(yàn),從業(yè)務(wù)的角度對(duì)數(shù)據(jù)進(jìn)行分析而得出的。在后期的建模過程中,有些技術(shù)在數(shù)據(jù)形成上有特殊要求,因此需要在此基礎(chǔ)上對(duì)特征值進(jìn)行進(jìn)一步選擇或提取。
通過前面的業(yè)務(wù)理解、數(shù)據(jù)理解和數(shù)據(jù)準(zhǔn)備階段,用戶的特征值已經(jīng)確定(如表1所示),本階段的主要任務(wù)是根據(jù)這些特征值,選擇適當(dāng)?shù)姆诸愃惴皡?shù),使預(yù)測結(jié)果達(dá)到最優(yōu)。
訓(xùn)練過程往往不是僅使用一種算法,而是采用多種算法,比較其訓(xùn)練結(jié)果來選擇合適的算法。根據(jù)訓(xùn)練任務(wù)不同,訓(xùn)練算法可分為分類算法、回歸算法以及聚類算法等。預(yù)測4G用戶是否會(huì)產(chǎn)生某種類型的投訴,屬于離散型的分類問題,訓(xùn)練樣本包含對(duì)應(yīng)的“標(biāo)簽”,即“投訴”與“不投訴”兩類,所以在選擇分類算法上,文章選擇邏輯回歸、決策樹等4種算法。在使用算法進(jìn)行數(shù)據(jù)訓(xùn)練之前,需要對(duì)源數(shù)據(jù)進(jìn)行特征選擇和數(shù)據(jù)預(yù)處理,本文采用遞歸特征消除(RFE)算法進(jìn)行特征選擇,采用SMOTE算法和處理缺失值數(shù)據(jù)集對(duì)不規(guī)則數(shù)據(jù)進(jìn)行預(yù)處理。整個(gè)框架如圖3所示,左側(cè)是模型創(chuàng)建的流程,根據(jù)不同的算法,可創(chuàng)建不同的模型;右側(cè)是模型使用的流程,即對(duì)用戶是否投訴進(jìn)行預(yù)測。接下來的幾節(jié)詳細(xì)描述了建模過程的每個(gè)步驟。
數(shù)據(jù)挖掘的數(shù)據(jù)集一般分成兩部分,訓(xùn)練集用于訓(xùn)練模型,測試集用于驗(yàn)證模型。本文采用廣泛使用的十折交叉驗(yàn)證(詳見第4.4節(jié)),即將數(shù)據(jù)集分成10份,訓(xùn)練集占9/10,測試集占1/10。為了說明特征選擇和數(shù)據(jù)預(yù)處理對(duì)分類結(jié)果的影響,后面幾小節(jié)統(tǒng)一采用了邏輯回歸算法進(jìn)行分類,主要評(píng)價(jià)指標(biāo)為F1值,有些使用了輔助指標(biāo)精確率(Precision)和召回率(Recall)。分類算法和評(píng)價(jià)指標(biāo)的詳細(xì)介紹參見第4.3節(jié)和第4.4節(jié)。
圖3 4G用戶投訴預(yù)測框架
使用不同算法進(jìn)行預(yù)測,用戶的特征值對(duì)預(yù)測結(jié)果影響有可能不同,因此在建模時(shí)需要首先對(duì)特征值做進(jìn)一步的選擇或提取。
特征選擇也叫特征子集選擇(FSS, Feature Subset Selection),是指從已有的M個(gè)特征(Feature)中選擇N個(gè)特征,使得系統(tǒng)的特定指標(biāo)最優(yōu)化。如果樣本的特征值過多,會(huì)影響學(xué)習(xí)算法的性能,也會(huì)使分類器產(chǎn)生過擬合的現(xiàn)象。特征選擇是數(shù)據(jù)挖掘中關(guān)鍵的數(shù)據(jù)預(yù)處理步驟,因此通常將其與其他數(shù)據(jù)預(yù)處理分開,單獨(dú)進(jìn)行研究。
最常用的產(chǎn)生特征子集的算法為搜索法,本文研究了其中的遞歸特征消除(RFE)算法,其主要思想是反復(fù)地構(gòu)建模型,然后選出最好的特征(貪心算法),然后在剩余的特征上重復(fù)這個(gè)過程,直到所有特征都遍歷了。這個(gè)過程中,特征被消除的次序就是特征的排序。將這種算法應(yīng)用到4G用戶數(shù)據(jù),采用邏輯回歸算法構(gòu)建模型(邏輯回歸算法的介紹見第4.3節(jié)),得到的最佳特征值個(gè)數(shù)為9個(gè),如圖4所示。當(dāng)采用不同算法進(jìn)行預(yù)測時(shí),得到的最佳特征值可能會(huì)不同。
圖4 使用遞歸特征消除算法進(jìn)行特征選擇的結(jié)果
4G用戶數(shù)據(jù)中,正類(投訴數(shù)據(jù),少數(shù)類)和反類(不投訴數(shù)據(jù),多數(shù)類)數(shù)量的差別很大,存在類不平衡的問題,同時(shí)存在大量的缺失值,因此數(shù)據(jù)的預(yù)處理主要圍繞著這兩方面進(jìn)行。
非平衡數(shù)據(jù)處理:一般采用欠采樣(刪除多數(shù)類的樣本)、過采樣(復(fù)制少數(shù)類的樣本)或SMOTE(合成少數(shù)類樣本)等方法。SMOTE可以看作是一種特殊的過采樣技術(shù),即把每個(gè)樣本看成高維空間的一個(gè)點(diǎn),然后用線段連接這個(gè)點(diǎn)到某個(gè)鄰近的點(diǎn),取線段上的某點(diǎn)作為合成的一個(gè)新的點(diǎn)(樣本)。采用邏輯回歸算法時(shí),采用SMOTE算法對(duì)11月份及之前的數(shù)據(jù)進(jìn)行非平衡數(shù)據(jù)處理和不進(jìn)行處理對(duì)結(jié)果的影響如圖5所示。從圖中可以看出,先將數(shù)據(jù)進(jìn)行平衡以后,對(duì)分類器的精確率影響不大,但召回率和F1值有明顯提高。
圖5 數(shù)據(jù)平衡處理結(jié)果對(duì)比
處理含有缺失值數(shù)據(jù)集的方法主要有以下幾類:刪除元組(刪除有缺失值的樣本);用平均值補(bǔ)齊;用中位數(shù)補(bǔ)齊;用眾數(shù)補(bǔ)齊。
本文分別用上述幾種方法處理缺失值,得出如圖6所示的結(jié)果。從圖中可以看出,刪除有缺失值的樣本后再進(jìn)行預(yù)測效果最好,其他三種方法差別不大。但由于數(shù)據(jù)中有缺失值的樣本較多,刪除這些樣本會(huì)丟失一些重要信息,并不能反映出數(shù)據(jù)的真實(shí)規(guī)律,因此本項(xiàng)目不適合采用這種方法。另外,根據(jù)刪除有缺失值的樣本后的數(shù)據(jù)訓(xùn)練的模型,不能對(duì)有缺失數(shù)據(jù)的新用戶進(jìn)行預(yù)測。
另外,不同特征值取值范圍可能并不相同,如果不加處理,在分類的過程中,量綱較大的特征值往往主導(dǎo)了分類結(jié)果。為了改進(jìn)分類的效果,解決數(shù)據(jù)指標(biāo)之間的可比性的問題,需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理,本文將數(shù)據(jù)規(guī)約到了[0, 1]區(qū)間內(nèi)。如圖7所示,歸一化處理后的分類結(jié)果有明顯改善。
圖6 缺失值處理結(jié)果對(duì)比
圖7 數(shù)據(jù)歸一化處理結(jié)果對(duì)比
模型的訓(xùn)練師指采用適當(dāng)?shù)乃惴?gòu)造分類器的過程。本文分別采用了邏輯回歸、決策樹、隨機(jī)森林和K鄰近這4種具有分類功能的算法訓(xùn)練模型,下面簡單介紹其主要原理。
雖然名字里帶“回歸”,但是邏輯回歸常常用來分類,主要用于兩分類問題(即輸出只有兩種,分別代表兩個(gè)類別)。邏輯回歸算法使用邏輯回歸函數(shù)對(duì)數(shù)據(jù)進(jìn)行擬合,其預(yù)測的值為,而xj為特征值,θj為未知的系數(shù),n為特征值的個(gè)數(shù)。邏輯回歸函數(shù)的值介于[0, 1]之間,如圖8所示,使得其適合于擬合0~1分類問題。
圖8 邏輯回歸算法示意圖
決策樹是一種歸納學(xué)習(xí)算法,以實(shí)例為算法基礎(chǔ),其結(jié)果是以樹表示的分類規(guī)則(if-then-else)。決策樹算法采用由上向下的遞歸的方式在內(nèi)部節(jié)點(diǎn)進(jìn)行屬性值的比較,并從該節(jié)點(diǎn)根據(jù)不同的屬性值向下分支,而葉節(jié)點(diǎn)就是我們要學(xué)習(xí)劃分的類。從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的一條路徑就對(duì)應(yīng)著一條合取規(guī)則,整個(gè)決策樹就對(duì)應(yīng)著一組析取表達(dá)式規(guī)則。決策樹算法是一類算法的總稱,不同決策樹算法的主要區(qū)別是怎樣選擇結(jié)點(diǎn)的屬性使其分類能力達(dá)到最優(yōu),通常使用信息增益來衡量給定的屬性區(qū)分訓(xùn)練樣例的能力(例如ID3算法),而信息增益使用熵(Entropy)來刻畫任意樣例集的純度。給定樣例集S,如果目標(biāo)屬性具有c個(gè)不同的值,那么S相對(duì)于c個(gè)狀態(tài)的分類的熵為其中pi是S中屬于類別i的比例。信息增益,其中Value(A)是屬性A所有可能值的集合,Sv是S中屬性A的值為v的子集。
隨機(jī)森林算法是用很多的決策樹以隨機(jī)的方式建立一個(gè)森林。隨機(jī)森林中的每一棵決策樹之間沒有關(guān)聯(lián)。算法在運(yùn)行過程中分為兩步:第一步是當(dāng)有一個(gè)新的輸入樣本進(jìn)入隨機(jī)森林的時(shí)候,便讓每一棵決策樹分別進(jìn)行一次投票判決,得出這個(gè)樣本應(yīng)該屬于哪一類,第二步是統(tǒng)計(jì)哪一類被選擇最多,就將被預(yù)測樣本歸為那一類。
KNN是最基本的基于實(shí)例的算法。該算法將所有的實(shí)例分別對(duì)應(yīng)轉(zhuǎn)換為n維空間中的點(diǎn),用標(biāo)準(zhǔn)歐式距離定義一個(gè)實(shí)例的最近距離。KNN算法的思路是在特征空間中,如果一個(gè)樣本的k個(gè)特征空間中最鄰近的樣本中的大多數(shù)屬于某一個(gè)類別,則將該樣本也歸入這個(gè)類別。
模型的驗(yàn)證需要利用未參與建模的數(shù)據(jù)進(jìn)行,這樣才能得到比較準(zhǔn)確的結(jié)果,交叉驗(yàn)證就是其中最常用的一種方法。常用的K折交叉驗(yàn)證,將樣本集隨機(jī)地分割成K個(gè)集,一個(gè)子集用來驗(yàn)證,另外K-1個(gè)子集的合集用來訓(xùn)練。交叉驗(yàn)證重復(fù)K次,每個(gè)子集驗(yàn)證一次,最終的結(jié)果為K次運(yùn)行的結(jié)果的平均值。
模型的評(píng)價(jià)指標(biāo)是數(shù)據(jù)挖掘過程中非常重要的一環(huán)。不同的數(shù)據(jù)挖掘問題有著不同的評(píng)價(jià)指標(biāo),而與算法的關(guān)系不是很明顯。4G用戶投訴預(yù)測屬于數(shù)據(jù)挖掘中的分類問題,這類問題常用的評(píng)價(jià)指標(biāo)有準(zhǔn)確率(Acc, Accuracy)、精確率(P, Precision)、召回率(R, Recall)等,根據(jù)表2所示的混淆矩陣,這些指標(biāo)定義如下:
表2 混淆矩陣
在本文中,準(zhǔn)確率表示被正確預(yù)測的用戶數(shù)占用戶總數(shù)的比例;精確率表示預(yù)測的投訴用戶有多少是真正的投訴用戶;召回率表示所有的投訴用戶中有多少能被模型正確地預(yù)測出來的比例。在4G用戶投訴預(yù)測的過程中,由于錯(cuò)誤地將投訴用戶預(yù)測為非投訴用戶的代價(jià)遠(yuǎn)遠(yuǎn)大于錯(cuò)誤地將非投訴用戶預(yù)測為投訴用戶,一般的分類正確率、精確率和召回率難以判定一個(gè)模型的好壞,因此本文采用綜合指標(biāo)對(duì)模型進(jìn)行評(píng)價(jià)。
使用上述4種算法對(duì)4G用戶投訴進(jìn)行預(yù)測,結(jié)果如表3所示。為了和后面的結(jié)果進(jìn)行比較,這里使用了2折交叉驗(yàn)證。從表中可以看出,4種算法都取得了較好的預(yù)測效果。但是,取得這種結(jié)果的一個(gè)很重要的前提是,根據(jù)文獻(xiàn)[5]中提出的建議,在數(shù)據(jù)預(yù)處理階段,就利用SMOTE算法對(duì)整個(gè)數(shù)據(jù)集進(jìn)行了平衡處理,然后將處理后的數(shù)據(jù)作為正常的數(shù)據(jù)集使用。
表3 不同算法對(duì)4G用戶投訴的預(yù)測結(jié)果(對(duì)測試數(shù)據(jù)進(jìn)行平衡處理)
然而,我們認(rèn)為平衡處理后的數(shù)據(jù)與處理前有較大的差異,用處理后的數(shù)據(jù)集對(duì)模型進(jìn)行驗(yàn)證并不能反映出模型真正的分類效果,因此修改了數(shù)據(jù)平衡的策略,只對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行平衡處理。由于數(shù)據(jù)類別的極度不平衡,如果采用廣泛使用的十折交叉驗(yàn)證,測試數(shù)據(jù)中有可能不包含少數(shù)類(投訴數(shù)據(jù)),因此將訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的比例修改為1:1。修改后的運(yùn)行結(jié)果如表4所示:
表4 不同算法對(duì)4G用戶投訴的預(yù)測結(jié)果(未對(duì)測試數(shù)據(jù)進(jìn)行平衡處理)
從表中可以看出,邏輯回歸算法的分類結(jié)果的召回率最高,如果將投訴用戶錯(cuò)誤地分類成非投訴用戶的代價(jià)較高,應(yīng)考慮采用這種算法。而隨機(jī)森林的綜合評(píng)價(jià)指標(biāo)F1值最高,召回率和精確率也較其他算法有較好的表現(xiàn),因此推薦使用這種算法。
數(shù)據(jù)挖掘可以用來解決預(yù)測4G用戶是否投訴的問題,即通過機(jī)器學(xué)習(xí)算法搜索隱藏于大量運(yùn)營數(shù)據(jù)中的特定屬性的值。本文采用CRISP-DM流程,著重介紹數(shù)據(jù)準(zhǔn)備和建模兩個(gè)階段的關(guān)鍵問題,并用實(shí)際運(yùn)營數(shù)據(jù)檢驗(yàn)?zāi)P?,得出?shù)據(jù)處理方法和不同模型算法對(duì)預(yù)測效果的影響。機(jī)器學(xué)習(xí)以大量用戶的運(yùn)營數(shù)據(jù)為經(jīng)驗(yàn),模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,從而提高預(yù)測的正確率和準(zhǔn)確率。
本文提出的模型在實(shí)際應(yīng)用中,由于QoE會(huì)隨網(wǎng)絡(luò)及用戶要求變化而波動(dòng),訓(xùn)練樣本可以采集最新周期的數(shù)據(jù),保證模型可以實(shí)時(shí)有效反應(yīng)網(wǎng)絡(luò)質(zhì)量,發(fā)現(xiàn)網(wǎng)絡(luò)問題。
[1] 王銳,嚴(yán)炎. 用戶體驗(yàn)質(zhì)量評(píng)估方法淺析[J]. 移動(dòng)通信,2012,36(13): 57-60.
[2] Shearer C. The CRISP-DM model: the new blueprint for data mining[J]. Data Warehousing, 2000(5): 13-22.
[3] Harper G, Pickett S D. Methods for mining HTS data[J].Drug Discovery Today, 2006,11(15-16): 694.
[4] 鐘鼎. 基于神經(jīng)網(wǎng)絡(luò)的4G用戶感知預(yù)警模型構(gòu)建和應(yīng)用[J]. 電信技術(shù), 2016(11): 76-78.
[5] Chawla N V, Bowyer K W, Hall L O, et al. SMOTE:synthetic minority over-sampling technique[J]. Journal of Artif i cial Intelligence Research, 2002,16(1): 321-357.
[6] SOLDANI D. Means and Methods for Collecting and Analyzing QoE Measurements in Wireless Networks[J].WoWMoM, 2006(5): 535.
[7] 楊宗長,徐繼生,孫洪. 基于免疫算法的移動(dòng)通信用戶信用度評(píng)估研究[J]. 電子測量與儀器學(xué)報(bào), 2009,23(8):105-110.
[8] LASALLE D, TERRY A BRITTON. Priceless: Turning Ordinary Products into Extraordinary Experiences[M].Boston: Harvard Business School Press, 2003.
[9] 王文婧,曲佰達(dá),段然. 移動(dòng)云計(jì)算用戶QoE的模糊綜合評(píng)價(jià)研究[J]. 互聯(lián)網(wǎng)天地, 2015(1): 18-25.
[10] 林闖,胡杰,孔祥震. 用戶體驗(yàn)質(zhì)量(QoE)的模型與評(píng)價(jià)方法綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2012,35(1): 1-15. ★
Prediction of 4G User Complaints Based on Data Mining
CHEN Xiumin1, XU Xiangdong1, HUANG Yihua1, YU Wen2
(1. Guangzhou Research Institute of China Telecom Co., Ltd., Guangzhou 510630, China;2. Beijing Normal University Zhuhai Campus, Zhuhai 519085, China)
There is still the problem in the operation of 4G networks that users complain against the bad user perception, even though the performance metrics are satisfactory. In other words, the performance metrics can not re fl ect accurately represent the real perception of users. Therefore, a complaint warning method for 4G users based on data mining was put forward. Firstly, the types of complaints were classified according to complaint orders and the feature extraction methods for different types of users were presented. Then, the complaint user was predicted using data mining. The proposed method can fast find out the cause of user complaints or discover and solve the problem before the user complaint to enhance 4G user perception.
data mining 4G user perception type of complaint prediction model
10.3969/j.issn.1006-1010.2017.21.007
TN929.5
A
1006-1010(2017)21-0030-07
陳秀敏,許向東,黃毅華,等. 基于數(shù)據(jù)挖掘的4G用戶投訴預(yù)測[J]. 移動(dòng)通信, 2017,41(21): 30-36.
2017-09-27
黃耿東 huanggengdong@mbcom.cn
陳秀敏:碩士畢業(yè)于華南理工大學(xué),現(xiàn)任職于中國電信股份有限公司廣州研究院移動(dòng)通信研究所,主要研究方向?yàn)闊o線網(wǎng)絡(luò)優(yōu)化及儀表應(yīng)用與數(shù)據(jù)挖掘。
許向東:畢業(yè)于北京郵電大學(xué),現(xiàn)任職于中國電信股份有限公司廣州研究院,主要負(fù)責(zé)移動(dòng)網(wǎng)絡(luò)優(yōu)化技術(shù)管理工作。
黃毅華:碩士畢業(yè)于中山大學(xué),現(xiàn)任職于中國電信股份有限公司廣州研究院,主要從事網(wǎng)絡(luò)優(yōu)化研究工作。