顏磊+祁冰
摘 要: 基于Android平臺對移動學習系統(tǒng)大數(shù)據挖掘技術進行研究。通過期望最大化EM算法進行用戶聚類,利用移動學習系統(tǒng)的個性化資源推薦模型進行近鄰用戶的選取和評分預測,采用CRISP?DM模型,根據學習者下載資源的時間序列數(shù)據建立ARTXP算法挖掘模型,通過對英語類課件、法律類課件、計算機類課件在7天后的下載預測,表明英語類的移動學習資源需求有所下降,法律類與計算機類課件需求有所增加,同樣,可對移動學習系統(tǒng)的其他類學習資源需求進行預測,根據需求的變化情況制作并上傳相應移動學習資源。
關鍵詞: 挖掘技術; 大數(shù)據; 移動學習; Android平臺
中圖分類號: TN911?34; G420 文獻標識碼: A 文章編號: 1004?373X(2017)19?0142?03
Research on big data mining technology of mobile learning
system based on Android platform
YAN Lei1, QI Bing2
(1. Network and Educational Technology Center, Hainan University, Haikou 570228, China;
2. Department of Information Engineering, Hainan Technology and Business College, Haikou 570220, China)
Abstract: The big data mining technology of mobile learning system based on Android platform is studied. User clustering was performed by means of the expectation maximization (EM) algorithm. The personalized resource recommendation model of mobile learning system is used to select neighbour users and predict the score. The CRISP?DM model is used to establish the mining model of ARTXP algorithm according to the time series data of learner′s downloading resource. The downloading of English courseware, law courseware and computer courseware in seven days is forecasted, which shows that the demand of English mobile learning resources is declined, and the demands of law courseware and computer courseware are increased. The model can predict other courses′ learning resource demand of mobile learning system, and create and upload the corresponding mobile learning resources according to the changes in demand.
Keywords: mining technology; big data; mobile learning; Android platform
0 引 言
在數(shù)據分析方面,數(shù)據挖掘可滿足現(xiàn)實需求,應用廣泛。數(shù)據挖掘為移動學習創(chuàng)建系統(tǒng)條件、開發(fā)學習資源、設計培養(yǎng)方案提供了支持,是移動學習系統(tǒng)服務的關鍵技術[1?3]。利用數(shù)據挖掘技術構建移動學習系統(tǒng),提高學生學習積極性、自主性、學習效率,是研究數(shù)據挖掘技術的重點[4]。借助通信設備及網絡,通過移動學習,學生學習不再受教師、地域、時間的限制[5]。
目前,隨著大數(shù)據及移動互聯(lián)網的快速發(fā)展,網絡已融入到人們的日常生活中[6]。隨著各種移動終端設備的廣泛使用,在移動過程中提高移動終端服務質量是移動互聯(lián)網研究的熱點[7?9]。用戶使用移動終端設備產生大量數(shù)據,促使進一步研究大數(shù)據挖掘技術[10]。本文基于Android平臺,對移動學習系統(tǒng)大數(shù)據挖掘技術進行研究。
1 移動學習系統(tǒng)用戶特征聚類
聚類是指將數(shù)據庫中的記錄分為一系列有意義的子集。聚類是數(shù)據挖掘最主要的功能之一,聚類是概念進行偏差分析、描述的先決條件,本文研究根據移動學習系統(tǒng)中用戶可用信息稀疏的問題,將用戶按特征信息進行聚類,從而發(fā)現(xiàn)目標用戶的近鄰用戶,并將目標用戶作為計算用戶集進行協(xié)同過濾,使用期望最大化EM算法進行用戶聚類,EM算法的收斂穩(wěn)定性、高效性效果較好。
1.1 移動學習系統(tǒng)用戶聚類特征維度選取
在進行用戶聚類時,本文采用的特征維度為年齡、性別、文化程度、職業(yè),表1為移動學習系統(tǒng)用戶聚類維度數(shù)據量化表。在各用戶特征維度上,數(shù)據預處理可將用戶屬性表示能力有效提高,同時可將算法收斂速度提高。將用戶維度信息從數(shù)據庫不同位置抽取出來,對其進行數(shù)據清理及量化操作,在數(shù)據庫特定位置裝入規(guī)整化數(shù)據。
1.2 移動學習系統(tǒng)用戶聚類EM算法實現(xiàn)
對于移動學習系統(tǒng)全部用戶數(shù)據[X,]不清楚各自屬于哪個聚類簇,若將用戶完整的數(shù)據用[X,Y]表示,[X]所屬聚類簇用[Y]表示,[Y∈1,2,…,g],整體數(shù)據概率密度如下:
[fX,Y;θ=i=1grifiX,Y;θi] (1)
式中:[g]表示密度分支的個數(shù);[r1,r2,…,rg]表示各分支點的分布比例;[fi]表示第[i]個分支密度;[θi]表示相應分支未知參數(shù);[X1,X2,…,Xn]表示學習系統(tǒng)用戶數(shù)據集。通過極大似然估計法得到[θMLE]:
[θMLE=argmaxi=1nfXi,Yi;θ] (2)
EM算法屬于迭代算法,從初始解[θ0]開始,通過迭代得到[θ1,θ2,…,θt,]完整數(shù)據對數(shù)似然函數(shù)期望值為:
[Qθθt=i=1nEYlog fX,Y;θXi,θt] (3)
式中[EY]表示隨機變量[Y]的期望值。
對數(shù)似然函數(shù)期望值最大化[θt+1]如下:
[θt+1=argmaxQθθt] (4)
2 移動學習系統(tǒng)個性化資源推薦
移動學習系統(tǒng)的個性化資源推薦模型由模型分析模塊、推薦算法模塊、行為記錄模塊三部分組成。行為記錄模塊是推薦模型的輸入部分,記錄模塊主要記錄系統(tǒng)使用信息、用戶注冊信息,同時在數(shù)據庫中的特定位置存儲記錄信息;用戶信息的抽取、轉換、重載由操作模型分析模塊完成,同時對用戶信息進行分析,通過評價產品、評價新用戶,使得稀疏用戶資源推薦得到實現(xiàn);推薦算法模塊是整個推薦模型的核心模塊,模型大數(shù)據計算工作由該模塊完成,用戶推薦服務的目標通過產品資源協(xié)同過濾得到實現(xiàn),圖1為移動學習系統(tǒng)的個性化資源推薦模型架構。
2.1 個性化資源協(xié)同過濾
對用戶間興趣相似性進行合理利用,能有效提高推薦精確度,本文以協(xié)同過濾技術為基礎,提出混合推薦技術。對用戶興趣進行協(xié)同過濾并分析,尋找同興趣相似的目標用戶,根據近鄰用戶對產品的具體評價,對目標用戶預測評分進行計算,進而推薦產品。
2.1.1 個性化資源近鄰用戶的選取
目標用戶與其他用戶通過計算評價向量[Ei=][X1,X2,…,Xj],得到其存在的相似性,將達到閾值[δ]的用戶選為目標用戶的近鄰用戶,并根據評分對用戶集進行計算預測。本文采用Pearson系統(tǒng)進行用戶相似性計算:
[SimX,Y=j∈IXYrXj-rXrYj-rYj∈IXYrXj-rX2j∈IXYrYj-rY2] (5)
式中:[rX]表示用戶[X]對產品的評分均值;[rXj]表示用戶[X]對產品[j]的評分;[IXY]表示用戶[X,][Y]均評價的產品集;[SimX,Y]表示[X,][Y]的相似度系數(shù)。
2.1.2 個性化資源的評分預測
使用全局數(shù)值算法,利用式(6)對個性化資源的評分進行預測:
[PXj=rX+Y=1nSimX,Y×rYj-rY-1] (6)
式中:[n]表示用戶集的用戶數(shù)量;[PXj]表示用戶[X]對產品[j]的預測評分。
2.2 移動學習系統(tǒng)模型工作流程
用戶通過登錄移動學習系統(tǒng)知識庫,按照產品數(shù)據粘稠度的評價,判斷聚類操作選取的近鄰用戶是否通過并繼續(xù)下一步操作,并根據協(xié)同過濾算法對用戶集進行計算,將資源推薦給目標用戶,圖2為移動學習系統(tǒng)推薦模型的具體工作流程。
3 移動學習系統(tǒng)學習資源需求量預測
學習者通過移動學習系統(tǒng)可上傳課件資源,同時也可下載課件資源,所有資源的劃分按大類和小類進行。根據資源類型的受歡迎程度,進行資源上傳,進而使上傳資源的下載量得到提高,并滿足下載者需求。以課件資源歷史下載記錄預測課件下載量,實質屬于典型的數(shù)據挖掘問題。
3.1 移動學習系統(tǒng)時序預測算法
數(shù)據挖掘過程模型CRISP?DM主要是描述數(shù)據、定義數(shù)據、開發(fā)數(shù)據、實現(xiàn)數(shù)據的挖掘步驟,設計開發(fā)部署具有快速、易于管理、系統(tǒng)可靠、成本低廉等特點。ARTXP算法是以自回歸決策樹模型為基礎的時序預測算法,該算法在SQL Server 2005中引入SSAS,對預測序列可能值進行優(yōu)化,適合短期預測。ARTXP算法通過對時間序列數(shù)據集的轉化,方便于事例集的回歸分析。通過對轉換數(shù)據集的學習,產生目標變量決策樹,在葉節(jié)點產生線性回歸,使用貝葉斯技術學習決策樹參數(shù)、結構。ARTXP算法的優(yōu)點是效率高、預測準確,該算法采用線性分段預測,這樣容易理解,也容易解釋。
3.2 移動學習系統(tǒng)預測模塊設計
根據CRISP?DM模型,并依據學習者下載資源的時間序列數(shù)據,建立ARTXP算法挖掘模型,同時建立需求預測模塊,指出一定時間內用戶對資源的需求量,從而安排課件制作。移動學習系統(tǒng)預測模塊的核心是Analysis Server,裝有數(shù)據挖掘接口及時序分析算法,預測表、網站數(shù)據存放在數(shù)據庫,預測輔助程序對重定型挖掘模型、預測表進行定時更新,時序預測Web服務內容包括數(shù)據挖掘結果的封裝、預測,查詢數(shù)據庫信息,并通過SOAP消息將預測結果輸出到客戶端。
3.2.1 移動學習系統(tǒng)輔助程序的建立
圖3為移動學習系統(tǒng)預測模型解決方案框架,系統(tǒng)輔助程序為Windows計劃任務,每7天執(zhí)行一次,該程序的主要功能包括首次填充預測表、更新數(shù)據,對表中的數(shù)據進行提取、歸納及匯總,填入預測表,借助AMO對時序模型進行重新定型,這樣可及時得到預測結果。
3.2.2 移動學習系統(tǒng)分析服務項目的建立
在移動學習系統(tǒng)中,根據預測表建立移動學習系統(tǒng)分析服務項目,包括數(shù)據源、預測挖掘模型,數(shù)據視圖、安全級別的設置,允許.net程序訪問的模型等。
3.2.3 移動學習系統(tǒng)預測結果瀏覽頁面的建立
本研究移動學習系統(tǒng)服務端采用Web服務器,MVC開發(fā)模式,客戶端采用Android平臺網絡設備。系統(tǒng)采用HTTP協(xié)議,XML為數(shù)據傳輸格式,客戶端利用HttpClient與服務器進行連接。使用AdomdClient類庫建立瀏覽頁面,并預測模型的查詢讓管理者進行瀏覽,同時創(chuàng)建一個公共類,分析并封裝服務器,進行事務處理的操作,例如服務器的連接、查詢數(shù)據的獲取等,這樣可給代碼復用提供方便,通過DMX查詢語言對檢索結果進行預測,表2為三類客戶端的預測結果。
表2 三類客戶端預測結果
[下載的課件類型\&預測7天后的下載量\&所占百分比 /%\&變化情況\&英語類\&51\&20.5\&下降\&法律類\&13\&5.0\&上升\&計算機類\&8\&3.0\&上升\&]
從表2可以看出,在英語類課件、法律類課件、計算機類課件中,7天后英語類的移動學習資源需求有所下降,法律類與計算機類的課件需求有所增加,同樣,可對移動學習系統(tǒng)的其他類學習資源需求進行預測,根據需求的變化情況制作并上傳相應的移動學習資源。
4 結 語
本文基于Android平臺,對移動學習系統(tǒng)大數(shù)據挖掘技術進行研究。通過期望最大化EM算法進行用戶聚類,利用移動學習系統(tǒng)的個性化資源推薦模型進行近鄰用戶的選取和評分預測,采用CRISP?DM模型,根據學習者下載資源的時間序列數(shù)據建立ARTXP算法挖掘模型,可以對學習資源需求進行預測。
參考文獻
[1] 趙德偉,高江錦,徐正巧.基于K?means算法的Web日志挖掘在移動學習中的實現(xiàn)[J].電腦編程技巧與維護,2016(16):92?94.
[2] 陳超.基于數(shù)據挖掘的個性化學習模式研究[J].電子設計工程,2013,21(12):18?21.
[3] 王妍,李波,趙立英,等.基于數(shù)據挖掘技術的自適應學習系統(tǒng)的研究[J].計算機光盤軟件與應用,2012(19):131?133.
[4] 歐陽柏成.大數(shù)據時代的數(shù)據挖掘技術探究[J].電腦知識與技術,2015,11(15):3?5.
[5] 趙倩倩,程國建,冀乾宇,等.大數(shù)據崛起與數(shù)據挖掘芻議[J].電腦知識與技術,2014,10(33):7831?7833.
[6] 金濤,鄭紫微,陳平順.基于Android終端與數(shù)據挖掘的FMIPv6 切換算法[J].計算機應用研究,2016(4):1224?1227.
[7] 宋志秋.大數(shù)據時代營銷中的數(shù)據挖掘技術[J].數(shù)字技術與應用,2015(3):209?211.
[8] 王蘭成,劉曉亮.網上數(shù)字檔案大數(shù)據分析中的知識挖掘技術研究[J].浙江檔案,2013(10):14?19.
[9] 王全旺,趙兵川.數(shù)據挖掘技術在Moodle課程管理系統(tǒng)中的應用研究[J].電化教育研究,2011(11):69?73.
[10] 周艷,李萍,吳雷.基于云平臺的圖書館數(shù)據挖掘技術研究[J].現(xiàn)代情報,2012,32(7):46?50.