過巖巍,吳悅昕,趙 鑫,閆宏飛,黃建興
(1. 北京大學 計算機科學與技術系,北京 100871; 2. 上海人人游戲科技發(fā)展有限公司,北京 100015)
網絡游戲案例研究:用戶行為分析和流失預測
過巖巍1,吳悅昕1,趙 鑫1,閆宏飛1,黃建興2
(1. 北京大學 計算機科學與技術系,北京 100871; 2. 上海人人游戲科技發(fā)展有限公司,北京 100015)
用戶流失預測在很多領域得到關注,目前主流的用戶流失預測方法是使用分類法。網絡游戲領域發(fā)展迅猛,但用戶特征選取、特征處理和流失預測的相關研究較少。本文以一款網頁網絡游戲的用戶記錄為數(shù)據(jù),對用戶游戲行為進行分析對比,發(fā)現(xiàn)流失用戶在游戲投入、博彩熱情、玩家互動方面與正常用戶存在顯著差異;同時發(fā)現(xiàn)網絡游戲數(shù)據(jù)存在樣本分布不平衡、候選特征庫龐大和干擾差異多等難點。在此分析基礎上,本文探討了網游用戶的關鍵特征提取的關注方向,以及歸一化和對齊化在特征處理中的關鍵作用。實驗表明,本文提取的特征具有很好的區(qū)分度。
行為分析;特征提??;流失預測;網絡游戲
用戶流失預測是一個被廣泛關注的重要而困難的問題,在電信[1]、銀行[2]、電子商務[3]等領域,有大量的相關研究。文獻[1]表明,在電信業(yè)內贏得一個新客戶所花費的成本約為300到600美元,大約是保留一個老客戶所需成本的5~6倍。而在網絡游戲領域的情況與電信領域是相似的。目前網絡游戲的收費形式是以道具收費為主。這種收費方式的特點是游戲的基本內容免費,而對可選的游戲要素收費。此類游戲通過收費項目為用戶提供便利,而部分用戶也愿意為附加游戲要素付費以迅速提高游戲實力。這類游戲的主要收入來自于付費用戶,尤其是頻繁、大量地在游戲中消費的高付費用戶。高付費用戶數(shù)量占總數(shù)很小的比例,卻是游戲運營商的主要來源。所以,在網絡游戲領域,高付費用戶流失預測是具有價值的研究問題。
通過考察用戶流失預測的相關研究,發(fā)現(xiàn)目前對此類問題主流的處理思路是將其看作二分類的問題,使用有監(jiān)督的機器學習方法來為用戶標記類別。例如,文獻[1-2,4]采用支持向量機,學習出支持向量用以分類;文獻[5-6]采用邏輯回歸,學習特征權重;文獻[4,7-8]使用神經網絡模型,模擬人類神經元相互作用;文獻[4,9]使用決策樹,在層層分支后給樣本標記;文獻[10-11]采用隱馬爾可夫回歸,將單狀態(tài)回歸拓展到多狀態(tài)。
在用戶流失預測問題中,特征提取是第一步。分析用戶特征可從多方面入手: 文獻[1,12]考察手機用戶的消費情況,文獻[3,12]關注用戶的個人信息,文獻[13]考察用戶在角色扮演游戲中的動機。但這些文獻幾乎沒有說明選擇這些特征的原因。據(jù)我們所知,目前少有研究探討如何提取網游用戶的關鍵行為特征。因此,研究網游用戶流失預測問題的首要挑戰(zhàn)是梳理和分析龐大的原始用戶游戲記錄數(shù)據(jù),從中找到可以有助于流失預測的信息并提煉出訓練特征。然而,在網游數(shù)據(jù)中提取關鍵的特征是一項非常有挑戰(zhàn)性的工作,以本文研究的游戲數(shù)據(jù)為例,原始記錄共有32個數(shù)據(jù)表,每個表包含的具體游戲操作從兩個到61個不等,共283個,即使只考慮直接操作,就有283個特征可供選擇,若再考慮各種組合操作,則候選特征庫將以指數(shù)級速度增長。
在對特定游戲分析用戶游戲行為過程中,第二個挑戰(zhàn)是: 網游用戶流失分類具有以下難點: 1)類別標記難。流失用戶沒有標準的定義,隨時間發(fā)展,用戶可能在流失與非流失兩個狀態(tài)之間發(fā)生多次變動;2)數(shù)據(jù)不平衡。實際流失用戶數(shù)量大大小于非流失用戶數(shù)量,這種正?,F(xiàn)象會影響機器學習方法的學習效果;3)樣本容量小。單個服務器*支持一組用戶在同一個環(huán)境里進行游戲的設備。相同服務器內的用戶可以進行游戲交互,不同服務器的用戶一般不能進行交互。平均70個用戶*數(shù)據(jù)針對本文的特定游戲而言,這樣的樣本集容量過小不具說服力;4)干擾差異多。存在用戶流失日期差異、開服*服務器開始投入使用時間差異和版本更新差異干擾。
通過對游戲數(shù)據(jù)的分析,本文探討了網游用戶特征提取的關注方向以及應對上述難點的特征處理方法。在本文后續(xù)敘述中,用戶特指網游高付費用戶。本文組織如下: 第二節(jié)描述用戶流失預測問題并對用戶數(shù)據(jù)進行挖掘分析;第三節(jié)介紹特征的提取和處理方法;第四節(jié)介紹實驗設置和實驗結果;最后對全文進行了總結,并介紹未來工作。
2.1 問題描述
用戶進行游戲會產生許多游戲行為,最直接的結果就是在游戲服務器上產生大量的記錄數(shù)據(jù)。游戲行為與用戶游戲時的狀態(tài)有關: 被游戲深深吸引時,用戶投入大量時間,操作頻繁且行為豐富;對游戲失去興趣將離開時,用戶往往減少游戲時間,不再喜好操作游戲。反過來,記錄數(shù)據(jù)在很大程度上能反映用戶游戲的狀態(tài)。在上述背景知識下,用戶流失預測問題形式化描述如下。
(1)
2.2用戶類別劃分
在分析不同類別的用戶之間的差異之前,需先確定用戶的類別歸屬。我們假設用戶在離開游戲之前會表現(xiàn)出一定異常,該階段稱為流失傾向階段。由于性格、年齡、職業(yè)以及其他不確定因素的影響,不同用戶在流失傾向階段的特點不同: 有的用戶流失傾向明顯且持續(xù)時間較長;而有的用戶沒有這一階段或表現(xiàn)不明顯,呈現(xiàn)突然離開游戲的現(xiàn)象。因此流失傾向階段很難把握。我們從流失日期入手,將流失用戶定義為永久性離開游戲或是偶爾(數(shù)天不足一次)登入游戲的用戶。從這種定義出發(fā),我們用以下啟發(fā)式方法判定流失用戶。
將用戶u按時間順序最近的k次登入日期記為t1、t2、…、tk,連續(xù)兩次登入日期ti和ti+1之差記為di。記當前日期為tnow,用戶最后一次正常登入日期為tu,last,則
(2)
式(2)中β是一個整數(shù)閾值,即如果存在一個最小的i使得di大于β,則tu,last置為ti,否則將tu,last置為tnow??蓪u,last之后的時間視為用戶u已流失。這樣做的好處是排除偶爾登入游戲的用戶干擾。
用戶類別標簽按如下定義:
(3)
式(3)中,μupper和μlower分別是為tnow與tu,last之差設定的上下界閾值。介于μupper和μlower之間的用戶的類別不好判斷,舍棄這部分數(shù)據(jù)以減小標記誤差。
對于流失用戶而言,假設在其tlast之前T天表現(xiàn)出差異于非流失玩家的游戲行為。這個長度為T的階段作為流失用戶特征采樣區(qū)間。為了達到提前預測的效果,可以將tu,last提前tahead天,tahead為自由參數(shù)。非流失用戶采樣區(qū)間在3.2節(jié)介紹。
2.3 用戶行為分析
在人人游戲公司*http://www.renren.com/siteinfo/about支持下,我們得到該公司運營的一款網頁網絡游戲《亂世天下》*http://lstx.renren.com/從2011年9月至2012年8月的游戲記錄數(shù)據(jù)。該游戲基于三國題材,以培養(yǎng)武將參與戰(zhàn)斗為主要游戲內容。我們以公司提供的高付費用戶名單上的用戶的游戲記錄作為數(shù)據(jù)集。按照上述用戶類別劃分法進行用戶劃分(取k=10,β=5,μupper=10,μlower=3),之后對用戶整體情況以及兩類用戶的游戲行為差異進行了統(tǒng)計分析。
2.3.1 數(shù)據(jù)整體情況
表1 單個服務器用戶數(shù)量概況
用戶數(shù)量分布不均: 數(shù)據(jù)集中共56個服務器,3 898個用戶。其中496個流失用戶,占用戶總數(shù)12.7%,即流失率。流失用戶與非流失用戶分布不均衡在日常生活中是正?,F(xiàn)象,但就分類而言,不均衡訓練集會造成模型誤差而影響分類效果。另外一個分布不平衡表現(xiàn)在服務器之間。單服用戶數(shù)量統(tǒng)計如表1所示。從表1可以發(fā)現(xiàn): 1)單個服務器的用戶數(shù)量很少,這符合當前網頁游戲市場情況: 網頁游戲同等替代產品非常多,一款游戲所占市場比例很小;2)服務器之間差異較大,無論是用戶數(shù)量還是流失率差異可達近兩個數(shù)量級。以上兩點決定了單個服務器的數(shù)據(jù)不適合單獨作為數(shù)據(jù)集。
游戲操作行為豐富: 原始數(shù)據(jù)記錄共有32個數(shù)據(jù)表,每個表包含的具體游戲操作從兩個到61個不等,共283個。若僅僅考慮直接操作,就有283個特征可供選擇。若再考慮組合操作,例如,1)用戶相鄰的登入游戲和登出游戲記錄之間的時間差是在線時間長度;2)兩個用戶加入隊伍的記錄中隊伍號碼*游戲記錄中用以標識隊伍的變量相同表明二者發(fā)生了組隊交互;3)用戶在某天有關虛擬貨幣記錄中的消耗量之和為該用戶該天的虛擬貨幣支出總量,等等。通過計算多條記錄而獲取用戶某方面信息的組合方式,則候選特征庫大小將以指數(shù)級速度增長。其中有助于甄別流失用戶的特征才是有價值的。
追求實力水平提升: 我們發(fā)現(xiàn),用戶每日進行最多的操作是戰(zhàn)斗,平均每人每天進行44.2次,占游戲記錄數(shù)10.1%,這是游戲的主要內容。除去與戰(zhàn)斗相關的記錄,記錄數(shù)量最多的是關于武將的培養(yǎng),占比5.5%,這是用戶在游戲中提升實力水平的主要途徑??梢钥偨Y,用戶愿意為游戲內容的進展而提高游戲水平,推進游戲進度和提升游戲水平是用戶游戲的目標。從投入和產出的角度來看,用戶的游戲水平可視為其投入時間與金錢的產出。在我們的數(shù)據(jù)中,用戶每月投入游戲的金錢人均值為4 258元,人均每天游戲在線時間8.75小時。通過我們親身在該游戲中的體驗,確認這部分投入量巨大的用戶的游戲實力水平是最高的。
博彩要素深受歡迎: 在游戲中不乏熱衷于依靠運氣的博彩的用戶。游戲開發(fā)者就是基于用戶的這種愛好設計了與抽獎類似的概率事件: 用戶付出一定費用則有概率獲得高級物品。在我們研究的游戲中,有兩點關于博彩的發(fā)現(xiàn): 1)數(shù)量排行第三的記錄是道具淘寶*一種與抽獎類似的行為,平均每人每天進行15.3次,占3.5%。數(shù)量排行緊接著的行為是出售道具,占3.4%。說明用戶對淘寶獲得的極大部分道具都不滿意;2)用戶在游戲中虛擬貨幣支出最多的操作是刷新任務*有概率刷出價值不等的游戲道具,人均支出量占虛擬貨幣總支出量44.5%。
流失日期線性分布: 第一個與最后一個流失用戶的tlast之差為180。以第一個流失用戶的tlast作為原點,截至日期t的用戶流失總量與t的關系如圖1所示。圖1中橫縱坐標變量呈現(xiàn)近似線性關系。在這181天中流失用戶較均勻地離開游戲,因此在較短的時間窗口內流失用戶的個數(shù)很少,平均每月為82人。這決定了不能在短期階段截取數(shù)據(jù)作為樣本。
圖1 流失用戶累積數(shù)量
2.3.2 用戶類別差異
我們最大的發(fā)現(xiàn)是流失用戶在流失傾向階段游戲操作遞減。我們將用戶在tlast之前120天的游戲操作總數(shù)進行統(tǒng)計,按類別平均,結果如圖2所示。
圖2 最后120天用戶人均記錄數(shù)
從圖中可以發(fā)現(xiàn): 1)非流失用戶每日的游戲操作數(shù)基本穩(wěn)定;2)流失用戶游戲操作逐日遞減,到后期與非流失玩家存在顯著差異。這說明了大部分要離開游戲的用戶在游戲中操作減少。這也驗證了我們關于流失傾向階段假設的合理性。從投入和產出的角度考慮,我們考察了流失用戶時間和金錢投入情況,得到以下數(shù)據(jù): 流失用戶最后一個月投入游戲的金錢人均值為1 154元,人均每天游戲時間5.43小時。與上一節(jié)中整體情況對比,即將流失的用戶對游戲的投入大量減少。
為探究細節(jié),我們將用戶在tlast之前30天的各種操作記錄進行統(tǒng)計和比較,圖3給出了這一個月內用戶主要15項操作情況。
圖3 最后30天部分游戲操作人均數(shù)量
可以發(fā)現(xiàn): 1)流失用戶主要游戲行為不變,依然是使用軍令戰(zhàn)斗。說明游戲的設定決定了游戲的基本內容,很難有較大的變動;2)流失用戶操作數(shù)在絕對數(shù)上減少, 但大部分操作在相對數(shù)上沒有明顯變化,即各種操作基本上成比例減少;3)與其他操作不同,道具淘寶、刷出新屬性、軍團操作、加入隊伍四個操作減少的幅度相對較大。前兩個操作是依靠運氣的博彩行為,后兩個是與其他用戶的交互行為。這說明。當用戶有離開游戲的打算時對博彩和交互的熱情明顯下降。
從以上的分析中,我們不僅發(fā)現(xiàn)整體用戶在數(shù)據(jù)集構成和游戲行為上的特點, 還挖掘出流失用戶在游戲投入、博彩熱情、玩家互動方面與正常指標存在顯著差異。因此,我們提出在用戶流失預測任務中,特征選取應重點考察游戲投入、博彩熱情、玩家互動方向。
3.1 特征選取
在數(shù)據(jù)分析基礎上,我們發(fā)現(xiàn)平均而言流失用戶在流失傾向階段與非流失用戶存在能夠量化的差異,且應該關注用戶的游戲投入、博彩、交互等方面。按照此思路,我們初步提取出17個特征用于區(qū)分流失用戶與非流失用戶。
初選的特征集可能存在冗余,如何用較少的特征降低訓練成本而不明顯影響訓練效果是值得研究的問題。為精簡特征,我們采用信息增益[12](InformationGain,IG)指標對特征在區(qū)分兩類玩家的能力上進行評價,淘汰掉排名靠后的那些特征。通過信息增益的淘汰和實驗,我們認為六個特征對于判別流失用戶具有重要意義。具體實驗在第四節(jié)介紹。表2描述了選出的特征。
表2 特征向量簡介
① 多個用戶組成的團體
3.2 特征處理
簡單提取出特征向量,并不能有效發(fā)揮分類器的分類功能,也不能從大量用戶中正確篩選出有流失傾向個體。這是因為: 1)直接將記錄數(shù)值作為特征,導致不同的行為記錄單位和數(shù)量級不同。例如,在線時間的單位為秒,數(shù)量級一般在10 000左右,而武將操作數(shù)量級一般是10。特征空間分布不平衡會導致部分特征失效,甚至學習障礙;2)流失用戶流失日期不盡相同,即時間差異;3)服務器開服時間不同導致不同服的用戶游戲進展不同,即服務器差異;4)版本更新游戲內容變化可能導致游戲行為發(fā)生極大變動,即版本差異。
上述2)~4)都會導致在不同階段主流用戶正常的游戲行為發(fā)生改變,多種差異的存在會干擾用戶類別差異的學習。完美的數(shù)據(jù)集應該是同一個服務器在一段較小的時間窗口(例如,一個月)內的用戶記錄。但如前所述,許多網頁游戲不能提供這樣的數(shù)據(jù)集。因此對輸入的特征向量進行處理是必不可少的。為排除干擾差異的影響,我們提出了單服歸一和區(qū)間對齊兩種處理方式。
3.2.1 單服歸一
網絡游戲的一大特點是其游戲內容會隨時間展開發(fā)生變化,服務器差異、游戲進度差異、版本差異體現(xiàn)了這種變化。因而不同的服務器用戶在相同時間段內正常游戲行為存在差異,相同的服務器用戶在不同的時間階段的正常游戲行為也存在差異,這給判別異常帶來困難。
(4)
3.2.2 區(qū)間對齊
流失用戶的采樣區(qū)間是第二節(jié)中所述的流失傾向階段,但非流失用戶沒有這一階段。如果按照與流失用戶同樣的方法來選定采樣區(qū)間,則所有非流失用戶的采樣區(qū)間都是數(shù)據(jù)集上的最后T天。那么就形成了這樣一種現(xiàn)象: 非流失用戶的特征從同一個時間階段抽取,流失用戶的特征來自分散的時間階段。如前所述,時間差異會干擾分類,無形中增加了流失用戶和非流失用戶的差異。
為了排除干擾差異,我們提出區(qū)間對齊處理: 對于非流失用戶ua,我們隨機為其在同一個服務器內挑選一個流失用戶ub,ub的采樣區(qū)間為第二節(jié)所述的流失傾向階段,ua的采樣區(qū)間與ub對齊,選取同樣一段時間窗口。我們進行了五次隨機對齊進行實驗,最終結果是五次實驗的平均值。
4.1 實驗工具、數(shù)據(jù)和評價指標
支持向量機(SVM)是目前實踐效果最好的分類器之一。因此在實驗中我們選擇以RBF[13]為核函數(shù)的SVM分類器*http://www.csie.ntu.edu.tw/~cjlin/libsvm/。將第二節(jié)中所述的《亂世天下》數(shù)據(jù)集同時作為分類器的訓練集和測試集,采用十倍交叉驗證法(10-foldCrossValidation)。注意該數(shù)據(jù)集類別分布不平衡,不平衡數(shù)據(jù)集會損害分類能力。解決數(shù)據(jù)不平衡可在訓練之前進行,如文獻[14-15]中的采樣法,也可在訓練時對少數(shù)類別進行補償,如文獻[16]中的代價敏感參數(shù)法。對不平衡數(shù)據(jù)的處理方法將作為我們的未來工作,本文中不再討論。本文采用簡單的代價敏感參數(shù)法,在訓練時將流失用戶與非流失用戶的權重比值設為3.5。
由于更關注流失用戶的預測情況,因此我們采用與評價搜索引擎結果類似的指標: 正確率、召回率、F值[17]。對照如表3所示。
表3 聯(lián)表
正確率P定義是預測為流失的用戶中實際流失的比例,即TP/(TP+FP);召回率R定義是所有流失用戶中被準確預測的比例,即TP/(TP+FN);F值是正確率與召回率的調和平均值,即PR/(αR+(1-α)P),0≤α≤1,本文中α取0.5,意味著正確率和召回率同等重要。
4.2 特征選取和處理的有效性
我們令T=6,tahead=4,進行了四組互為參照的實驗來驗證特征選取及處理的效果?;鶞式M為進行單服歸一和區(qū)間對齊的六個特征值,記為Criterion。另外三組作為對照,與Criterion僅存在一處差別,分別為: 1)Feature17,采用IG過濾之前的17個特征;2)NotNormalized,未進行單服歸一;3)Not-Aligned,未進行區(qū)間對齊。實驗結果如表4所示。
表4 對比實驗結果
首先,Criterion與Featurel7的預測效果不相上下。Criterion比Featurel7的正確率略高,但召回率略低,綜合的F值相差極小??梢哉J為IG排名低的特征傾向于將用戶歸為流失。這組對比實驗也說明特征精簡化對分類效果影響很小。其次,NotNormalized實驗組極不正確地將所有用戶都歸為非流失。正如前所述,數(shù)量級差異巨大的特征空間分布不平衡,會導致學習障礙。實驗證明歸一化是必要的。最后,NotAligned的評價指標是最好的,F(xiàn)值比Criterion提高約0.08。但這并不意味著其具有較好的預測效果。相反,這是干擾差異使得結果呈現(xiàn)出分類效果更好的假象。這組實驗證實了用戶游戲行為在不同時間階段存在著差異,也證明了我們提出的區(qū)間對齊方法能有效排除這種差異的干擾。
4.3 參數(shù)采樣區(qū)間長度的影響
除了特征個數(shù),另外一個影響特征規(guī)模的因素是采樣區(qū)間的長度T。為考察該參數(shù)的影響,將T從2變動到14,評價結果的變動如圖4所示。
圖4 評價結果隨T變動趨勢
圖4很清晰地展示了預測效果隨T的增加先上升后下降。這是因為1)采樣區(qū)間小時輸入特征較少因而區(qū)分用戶的能力有限;2)隨著T增加輸入特征量趨于合適,分類效果上升;3)T繼續(xù)增加意味著考慮更長的采樣區(qū)間,該區(qū)間的開始用戶很可能未表現(xiàn)出明顯的流失傾向,與非流失用戶基本無異。此結果表明過多考慮時間靠前的特征會對預測帶來負面影響。
在用戶流失預測任務中,我們探索了一個較新的發(fā)展迅速的領域——網絡游戲?;谝豢顚嶋H運行的游戲數(shù)據(jù),通過分析研究,我們提出網游用戶特征的提取應重點考察游戲投入、博彩熱情以及玩家互動等。基于此思路,我們提取了關鍵特征并進行單服歸一、區(qū)間對齊等處理用于分類器訓練,取得相對較好的用戶流失預測效果。未來我們將對用戶行為和特征處理進行更深入的分析和研究,并嘗試更多不平衡數(shù)據(jù)處理方法,以取得更好的預測效果。
[1] 夏國恩, 金煒東. 基于支持向量機的客戶流失預測模型[J]. 系統(tǒng)工程理論與實踐, 2008, 28(1): 71-77.
[2] 應維云, 覃正, 趙宇, 等. SVM 方法及其在客戶流失預測中的應用研究[J]. 系統(tǒng)工程理論與實踐, 2007, 27(7): 105-110.
[3] 朱幫助, 張秋菊. 電子商務客戶流失三階段預測模型[J]. 中國軟科學, 2010 (006): 186-192.
[4] Xie Y, Li X, Ngai E W T, et al. Customer churn prediction using improved balanced random forests[J]. Expert Systems with Applications, 2009, 36(3): 5445-5449.
[5] Morik K, K?pcke H. Analysing customer churn in insurance data-a case study[M].Knowledge Discovery in Databases: PKDD 2004. Springer Berlin Heidelberg, 2004: 325-336.
[6] Nie G, Wang G, Zhang P, et al. Finding the hidden pattern of credit card holder’s churn: A case of China[M].Computational Science-ICCS 2009. Springer Berlin Heidelberg, 2009: 561-569.
[7] 顏昌沁, 胡建華, 周海河. 基于 Clementine 神經網絡的電信客戶流失模型應用[J]. 電腦應用技術, 2009 (1): 7-12.
[8] Tsai C F, Lu Y H. Customer churn prediction by hybrid neural networks[J]. Expert Systems with Applications, 2009, 36(10): 12547-12553.
[9] Hung S Y, Yen D C, Wang H Y. Applying data mining to telecom churn management[J]. Expert Systems with Applications, 2006, 31(3): 515-524.
[10] Liu Y, Kalagnanam J R, Johnsen O. Learning dynamic temporal graphs for oil-production equipment monitoring system[C]//Proceedings of the 15th ACM SIGKDD international conference on knowledge discovery and data mining. ACM, 2009: 1225-1234.
[11] Cheng H, Tan P N. Semi-supervised learning with data calibration for long-term time series forecasting[C]//Proceedings of the 14th ACM SIGKDD international conference on knowledge discovery and data mining. ACM, 2008: 133-141.
[12] 李航. 統(tǒng)計學習方法[M]. 第1版, 北京:清華大學出版社, 2012: 60-63.
[13] Chen S, Cowan C F N, Grant P M. Orthogonal least squares learning algorithm for radial basis function networks[J]. Neural Networks, IEEE Transactions on, 1991, 2(2): 302-309.
[14] Laurikkala J. Improving identification of difficult small classes by balancing class distribution[M]. Springer Berlin Heidelberg, 2001: 63-66.
[15] Estabrooks A, Jo T, Japkowicz N. A multiple resampling method for learning from imbalanced data sets[J]. Computational Intelligence, 2004, 20(1): 18-36.
[16] Elkan C. The foundations of cost-sensitive learning[C]//Proceedings of the International joint conference on artificial intelligence. LAWRENCE ERLBAUM ASSOCIATES LTD, 2001, 17(1): 973-978.
[17] Croft W B, Metzler D, Strohman T. Search engines: Information retrieval in practice[M].第1版, 北京: 北京機械工業(yè)出版社, 2009. 308-313.
[18] 朱世武, 崔嵬, 謝邦昌. 移動電話客戶流失數(shù)據(jù)挖掘[J]. 數(shù)理統(tǒng)計與管理, 2005, 24(1): 62-69.
[19] Borbora Z, Srivastava J, Hsu K W, et al. Churn Prediction in MMORPGs using Player Motivation Theories and an Ensemble Approach[C]//Proceedings of the 2011 ieee third international conference on social computing (socialcom). IEEE, 2011: 157-164.
User Behavior Analysis and Churn Prediction: A Case Study on Online Games
GUO Yanwei1, WU Yuexin1, ZHAO Xin1, YAN Hongfei1, HUANG Jianxing2
(1. Department of Computer Science and Technology, Peking University, Beijing 100871, China; 2. Shanghai Renren Games Technology Development Co., Ltd., Beijing 100015, China)
The task of user churn prediction is a research issue in many fields. Currently the available solution usually built uopna classification models. For the online games which is developing rapidly, the churn prediction is not well addressed yet. This paper chooses certain online game user logs and analyzed user behaviors, finding significant differences in game investment, interests in lottery and player interaction between churn users and normal users. This paper also suggests that there are such challenges in online game data processing as the unbalanced data, the huge candidate features, the interference differences and so on. This paper also discusses the direction when selecting features, as well as the key role of normalization and alignment in feature processing. Experiments prove that the features selected by this paper are informative.
behavior analysis; feature selection; churn prediction; online games
過巖巍(1989—),碩士研究生,主要研究領域為搜索引擎與數(shù)據(jù)挖掘。E?mail:pkuguoyw@gmail.com吳悅昕(1989—),碩士,主要研究領域為數(shù)據(jù)挖掘、機器學習。E?mail:wuyuexin@gmail.com趙鑫(1985—),博士,講師,主要研究領域為網絡數(shù)據(jù)挖掘、自然語言處理。E?mail:batmanfly@gmail.com
1003-0077(2016)01-0183-07
2013-06-08 定稿日期: 2013-12-09
國家自然科學基金(U1536201,61272340);江蘇未來網絡創(chuàng)新研究院項目(BY2013095-4-02)
TP391
A