閔 潔,殷 明
(信陽農(nóng)林學(xué)院 信息工程學(xué)院,河南 信陽 464000)
?
數(shù)據(jù)挖掘技術(shù)在高校校園APP用戶黏度分析中的應(yīng)用研究
閔 潔,殷 明
(信陽農(nóng)林學(xué)院 信息工程學(xué)院,河南 信陽 464000)
隨著移動(dòng)終端的逐漸普及,校園APP在高校日常管理中起著舉足輕重的作用。通過數(shù)據(jù)挖掘技術(shù)對(duì)用戶使用APP的相關(guān)數(shù)據(jù)進(jìn)行研究,采用關(guān)聯(lián)、聚類、決策樹等數(shù)據(jù)挖掘方法找到用戶黏度降低、用戶丟失的原因,改進(jìn)APP信息呈現(xiàn)形式,提升用戶體驗(yàn)。
數(shù)據(jù)挖掘;校園APP;用戶黏度;數(shù)據(jù)模型;算法
數(shù)據(jù)挖掘技術(shù)近年來在電子商務(wù)、廣告營(yíng)銷等商業(yè)領(lǐng)域的應(yīng)用呈逐年上升趨勢(shì),電商平臺(tái)可以通過分析用戶的購買和瀏覽數(shù)據(jù),得到精準(zhǔn)的用戶畫像,進(jìn)而進(jìn)行準(zhǔn)確的商品推送。這些基于數(shù)據(jù)挖掘的研究,能夠最大限度地為決策的科學(xué)化和服務(wù)的最優(yōu)化提供支撐。如果將數(shù)據(jù)挖掘技術(shù)應(yīng)用到高校校園APP用戶黏度的分析中,對(duì)于遏制校園APP訪問量的下滑趨勢(shì),提升校園APP在日常管理工作中的地位,節(jié)省高校管理成本具有重要意義。
數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中,按照不同的需求和緯度,通過算法循環(huán)提取有價(jià)值的信息或知識(shí)。數(shù)據(jù)挖掘的起點(diǎn)是大量的、有噪聲的數(shù)據(jù),數(shù)據(jù)挖掘的終點(diǎn)是有用的信息、知識(shí)。數(shù)據(jù)挖掘的方法是數(shù)據(jù)挖掘的核心,不同的知識(shí)獲取需要的分析方法也不同。常用的分析方法有分類(Classification)、估計(jì)(Estimation)、預(yù)測(cè)(Prediction)、相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)、聚類(Clustering)和復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)。
1.1 分類和預(yù)測(cè)
分類和預(yù)測(cè)是對(duì)離散和連續(xù)數(shù)值進(jìn)行預(yù)測(cè)的方法,是根據(jù)已有數(shù)據(jù)屬性來構(gòu)造相應(yīng)分類器的方法。常見的分類算法有貝葉斯、決策樹、支持向量機(jī)、遺傳算法、神經(jīng)網(wǎng)絡(luò)、粗糙集等。1975年提出的ID3算法是最為經(jīng)典的分類預(yù)測(cè)算法。后經(jīng)過改進(jìn)成為C4.5算法。速度快、便于翻譯和解釋[2]是這類決策樹算法得以采用和迅速流行的重要原因。
1.2 聚類分析
聚類分析方法主要用于市場(chǎng)銷售、統(tǒng)計(jì)學(xué)、生物學(xué)和機(jī)器學(xué)習(xí)等領(lǐng)域。聚類分析就是通過將數(shù)據(jù)中相似對(duì)象組成多個(gè)分類,找出每個(gè)分類中的一個(gè)對(duì)象作為簇中心,用其他對(duì)象與其比較,相似度高的被加入一個(gè)簇,如此重復(fù),簇內(nèi)元素的相似度會(huì)越來越小[3],簇間相似度會(huì)越來越大。聚類分析方法在局部搜索規(guī)則數(shù)據(jù)方面有很好的效果。
1.3 關(guān)聯(lián)分析
關(guān)聯(lián)分析是充分利用事物之間聯(lián)系的分析方法,一個(gè)事物的變化可能影響到其他事物的狀態(tài)。核心思想就是通過分析不同對(duì)象在同一集合內(nèi)發(fā)生的頻率來找到他們之間的聯(lián)系并加以利用。最核心的方法就是遞推和基本頻集理論。關(guān)聯(lián)分析主要用于交易型數(shù)據(jù)庫的分析。
1.4 復(fù)雜數(shù)據(jù)類型挖掘
隨著硬件和網(wǎng)絡(luò)的不斷發(fā)展,多媒體信息逐漸成為信息傳播的主體。數(shù)據(jù)挖掘往往要面對(duì)復(fù)雜的數(shù)據(jù)組成形式,包含多種數(shù)據(jù)類型的數(shù)據(jù)也需要進(jìn)行數(shù)據(jù)挖掘。針對(duì)復(fù)雜數(shù)據(jù)類型的挖掘,除了采用前面講過的方法以外,數(shù)據(jù)倉庫的云存儲(chǔ),數(shù)據(jù)挖掘的分布式進(jìn)行也逐漸被采用[4]。
高校校園APP以管理功能的易用性和傳遞消息的及時(shí)性等特點(diǎn),受到越來越多高校的重視。但是,由于大家對(duì)于APP使用過程中,影響用戶黏度的因素分析不足,造成用戶黏度的下降,以致大量用戶的流失。運(yùn)用數(shù)據(jù)挖掘技術(shù)分析用戶使用數(shù)據(jù),多維度評(píng)估用戶黏度,有針對(duì)性的對(duì)APP功能和內(nèi)容進(jìn)行改進(jìn)是改善這一狀況的重要途徑。
2.1 校園APP用戶黏度的定義
高校校園APP用戶黏度并沒有一個(gè)確切的定義,其內(nèi)涵引申于網(wǎng)站用戶黏度這一概念。網(wǎng)站用戶黏度(Website Stickiness)產(chǎn)生的基礎(chǔ)是互聯(lián)網(wǎng)的不斷發(fā)展,互聯(lián)網(wǎng)領(lǐng)域?qū)ζ涠x為:用戶對(duì)某一網(wǎng)站的重復(fù)使用度、忠誠度、依賴度,回訪度,即一個(gè)網(wǎng)站能夠吸引新用戶和留住老用戶的能力強(qiáng)弱,一般和用戶遷移成本成正比[5]。如果把其中網(wǎng)站換成高校校園APP,那么校園APP用戶黏度就可以理解為校園APP吸引新老用戶,并使之長(zhǎng)期重復(fù)使用的能力。
2.2 校園APP用戶黏度影響因素
高校校園APP用戶黏度主要受以下五個(gè)方面因素的影響,它們分別是:活躍用戶量、用戶的留存率、用戶內(nèi)容貢獻(xiàn)度、用戶之間互動(dòng)頻率、用戶對(duì)APP的認(rèn)可度。這五個(gè)因素最直接的體現(xiàn)就是用戶訪問時(shí)長(zhǎng)和回訪頻率。
2.3 校園APP用戶黏度分析現(xiàn)狀
校園APP用戶黏度分析一直沒有得到高校和APP運(yùn)維人員的重視。首先,對(duì)影響用戶黏度的因素認(rèn)識(shí)不足,沒有深入研究影響APP用戶黏度的具體原因。其次,部分對(duì)APP用戶黏度的分析停留在基于網(wǎng)站的評(píng)價(jià)體系“PULSE”層面,而沒有深入基于用戶的評(píng)價(jià)體系“HEART”層面。只關(guān)注APP裝機(jī)量、卸載量、目前活躍用戶量這幾個(gè)維度的統(tǒng)計(jì)數(shù)據(jù),沒有對(duì)數(shù)據(jù)進(jìn)行科學(xué)的數(shù)據(jù)挖掘和分析。
3.1 用戶數(shù)據(jù)的搜集
數(shù)據(jù)的搜集是建立數(shù)據(jù)倉庫和數(shù)據(jù)建模的基礎(chǔ)。在校園APP中按影響用戶黏度的五個(gè)因素植入多個(gè)觀測(cè)點(diǎn),搜集用戶注冊(cè)、登錄、發(fā)言、搜索關(guān)鍵詞、討論、訪問頁面、每日登錄時(shí)長(zhǎng)、好友數(shù)量、留言討論數(shù)量等數(shù)據(jù)存入MySQL數(shù)據(jù)庫。所有數(shù)據(jù)的搜集圍繞提升用戶黏度這一主題進(jìn)行。在搜集數(shù)據(jù)的過程中,有意識(shí)的通過正則運(yùn)算、判斷等條件進(jìn)行數(shù)據(jù)的前期篩選,這樣可以節(jié)省后期數(shù)據(jù)清洗的工作量。
3.2 數(shù)據(jù)挖掘過程模型的建立
圖1 SEMMA數(shù)據(jù)挖掘過程模型
數(shù)據(jù)挖掘過程模型獨(dú)立于具體的數(shù)據(jù)挖掘模型和系統(tǒng),從方法論的角度明確實(shí)施數(shù)據(jù)挖掘項(xiàng)目的流程和步驟。常用的有CRISP-DM,SEMMA和5A三種過程模型。我們采用的是SEMMA模型,模型具體流程如圖1所示。
依據(jù)SEMMA模型,第一步,對(duì)用戶使用校園APP的相關(guān)數(shù)據(jù)進(jìn)行數(shù)據(jù)抽樣,檢驗(yàn)數(shù)據(jù)質(zhì)量,找出用戶黏度分析需要的樣本數(shù)據(jù)。第二步,探索各個(gè)觀測(cè)點(diǎn)搜集數(shù)據(jù)相關(guān)性以及可區(qū)分類別,進(jìn)而發(fā)現(xiàn)規(guī)律和趨勢(shì)。第三步,明確和量化如何提升用戶粘度這一目標(biāo)問題,調(diào)整數(shù)據(jù)適應(yīng)問題的需要。第四步,依據(jù)數(shù)據(jù)特征和分析目標(biāo)選擇數(shù)據(jù)分析算法。第五步,通過全面評(píng)價(jià),找到效果最優(yōu)模型,并結(jié)合提升用戶粘度這一目的對(duì)模型進(jìn)行針對(duì)性的解釋和應(yīng)用。
3.3 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘常用到的一些工具有RapidMiner、WEKA、R-Programming、Orange、KNIME、NLTK等。這些工具各有優(yōu)缺點(diǎn),本文選用RapidMiner進(jìn)行數(shù)據(jù)挖掘。采用分類、聚類、關(guān)聯(lián)和決策樹等多個(gè)算法對(duì)采集到的用戶數(shù)據(jù)進(jìn)行處理,形成多個(gè)記錄點(diǎn),再根據(jù)他們與用戶黏度的相關(guān)性大小進(jìn)行篩選,最終確定影響用戶黏度的關(guān)鍵因素,并為下一步改進(jìn)指明方向。
3.4 數(shù)據(jù)挖掘在提升用戶黏度中的應(yīng)用
對(duì)用戶數(shù)據(jù)挖掘的目的是為了提升校園APP用戶黏度,通過改進(jìn)APP更好地為用戶服務(wù)。在欄目設(shè)置方面:以欄目類別作為維度,采用關(guān)聯(lián)分析對(duì)各欄目進(jìn)行分析,發(fā)現(xiàn)校內(nèi)通知欄目更能吸引用戶使用,與學(xué)習(xí)相關(guān)的課表、自習(xí)室情況查詢欄目能夠帶來更多的訪問量。另外,大家對(duì)一些提供諸如衣食住行信息的欄目都很有期待。在消息呈現(xiàn)形式方面,采用聚類分析方法,將彈出消息、主動(dòng)推送消息和被動(dòng)閱讀消息分為不同的類。通過分析發(fā)現(xiàn),彈出消息更能引起用戶的關(guān)注,但是,彈出的數(shù)量與用戶卸載量之間存在著關(guān)聯(lián),過多過少的彈出都會(huì)造成用戶的卸載。還有,界面的美化與否也跟用戶的訪問時(shí)長(zhǎng)存在著正相關(guān)的關(guān)系。在用戶交互方面,將用戶留言和用戶之間的私信數(shù)據(jù)進(jìn)行分類和關(guān)聯(lián)分析發(fā)現(xiàn),經(jīng)常留言的用戶更愿意進(jìn)行用戶間的互動(dòng)。在回訪率方面,通過用戶注冊(cè)人數(shù)、留言數(shù)目等維度關(guān)聯(lián)分析發(fā)現(xiàn),每學(xué)期新生報(bào)到的半年時(shí)間內(nèi),校園APP的回訪率最高,這與新生活躍度較高、留言討論激增有著很大關(guān)系。在APP未來功能增刪方面,通過對(duì)關(guān)鍵詞搜索頻次、話題討論主題進(jìn)行決策樹分析發(fā)現(xiàn),用戶希望在APP中引入更多學(xué)習(xí)、生活相關(guān)的功能,刪去一些重復(fù)的部門信息呈現(xiàn)欄目。
本文使用SEMMA數(shù)據(jù)挖掘過程模型,采用聚類、關(guān)聯(lián)規(guī)則、統(tǒng)計(jì)分析和決策樹等算法進(jìn)行計(jì)算、分析、研究,構(gòu)建了欄目訪問量、用戶發(fā)言量、用戶參與討論次數(shù)等關(guān)系模型,結(jié)合MySQL數(shù)據(jù)庫表,使用RapidMiner數(shù)據(jù)挖掘工具進(jìn)行分析,找到了各個(gè)因素對(duì)用戶黏度的影響。將數(shù)據(jù)挖掘技術(shù)應(yīng)用到校園APP用戶黏度的分析當(dāng)中,是一種有益的嘗試,希望這種嘗試能夠?yàn)锳PP管理和運(yùn)維部門提供一定的借鑒。
[1] 史尤昭.數(shù)據(jù)挖掘技術(shù)研究與應(yīng)用[J].軟件,2015,36(11):38-42.
[2] 黃有福.數(shù)據(jù)挖掘技術(shù)在招生數(shù)據(jù)平臺(tái)的應(yīng)用研究[J].電腦知識(shí)與技術(shù):學(xué)術(shù)交流,2015,11(31)3-4.
[3] 張 瑤, 劉 輝.基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)探討[J].電子技術(shù)與軟件工程, 2015(5):218-218.
[4] 閆曉峰,任 斌,韓玉娟.校園APP用戶黏度調(diào)研分析報(bào)告[J].中小企業(yè)管理與科技,2015(25):233-237.
(編輯:嚴(yán)佩峰)
Research on the Application of Data Mining Technology in the Analysis of APP User's Viscosity in Campus
MIN Jie,YIN Ming
(School of Information Engineering, Xinyang Agriculture and Forestry University,Xinyang 464000, China)
With the gradual popularization of mobile terminals, it plays a pivotal role in the daily management of colleges and universities. The data mining method is used to study the data of users using APP, and the data mining methods such as association, clustering and decision tree can be used to find the reasons for the decrease of user viscosity, the reason of user loss, the improvement of APP information presentation and the improvement of user experience.
data mining;campus APP;user viscosity;data model;algorithm
2016-11-26
河南省科技攻關(guān)項(xiàng)目(172102210450),信陽農(nóng)林學(xué)院青年教師科研基金項(xiàng)目(201401007).
閔 潔(1981—),湖北廣水人,碩士,講師,研究方向:數(shù)據(jù)挖掘.
TP311.56
A
2095-8978(2017)02-0110-03