張雙祥
摘 ?要: 針對云計算環(huán)境下信息化教學(xué)資源的云存儲和個性化推薦問題,提出一種基于分布式文件系統(tǒng)(HDFS)和用戶興趣的教學(xué)信息化資源管理方法。該方法采用Hadoop平臺的HDFS技術(shù)來解決網(wǎng)絡(luò)教學(xué)資源的云端存儲問題,并對相應(yīng)的HDFS云存儲架構(gòu)進(jìn)行分析。其中,教學(xué)資源推薦功能模塊采用LDA用戶興趣主題挖掘模型,并引入學(xué)生評分矩陣產(chǎn)生學(xué)生?課程屬性偏好相似度,提升推薦的質(zhì)量和準(zhǔn)確度。在Hadoop 2.2.0平臺上的實例仿真結(jié)果驗證了提出方法的可行性。此外,相比于基于標(biāo)準(zhǔn)關(guān)聯(lián)規(guī)則的推薦方法,提出的挖掘推薦方法表現(xiàn)出更高的準(zhǔn)確性。
關(guān)鍵詞: 教育信息化; Hadoop; HDFS; LDA; 用戶興趣模型; 推薦服務(wù); 云存儲
中圖分類號: TN99?34; TP393 ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼: A ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2019)11?0087?03
Abstract: In allusion to the problems of cloud storage and personalized recommendation of information teaching resources in cloud computing environment, a teaching information resource management method based on Hadoop distributed file system (HDFS) and user interest is proposed. The method uses the HDFS technology of the Hadoop platform to solve the cloud storage problem of the network teaching resources, and analyzes the corresponding HDFS cloud storage architecture. The LDA user interest topic mining model is adopted in teaching resource recommendation function module, and a student scoring matrix is introduced to generate the "student?course attribute" preference similarity, so as to improve the quality and accuracy of the recommendation. The feasibility of the proposed method was verified by simulation results obtained in Hadoop 2.2.0 platform. In addition, the proposed mining recommendation method has higher accuracy than recommendation method based on standard association rules.
Keywords: educational informationization; Hadoop; HDFS; LDA; user interest model; recommendation service; cloud storage
0 ?引 ?言
互聯(lián)網(wǎng)和4G技術(shù)的快速發(fā)展和廣泛普及,使得人們隨時隨地的上網(wǎng)成為可能。上網(wǎng)的便捷改變了人們生活和工作的方式,也為教育教學(xué)活動帶來了新的途徑和手段。計算機(jī)網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)相結(jié)合,產(chǎn)生了一種新的信息化教學(xué)形式,即遠(yuǎn)程教育(遠(yuǎn)程教學(xué))。遠(yuǎn)程教育在世界范圍內(nèi)得到了許多教育機(jī)構(gòu)的關(guān)注,并花費(fèi)大量的人力資源來建設(shè)自己的遠(yuǎn)程教育資源[1?3],例如,大型開放式網(wǎng)絡(luò)課程MOOC(Massive Open Online Courses)、網(wǎng)易云課堂等。
隨著在線課程的數(shù)量越來越多,教師教學(xué)工具也十分多樣,例如Word,PPT教案、音視頻素材、FLASH、Web網(wǎng)頁等,遠(yuǎn)程教育資源變得越來越豐富。但是,隨著教學(xué)信息化資源的急劇增加,如何對其進(jìn)行有效共享以便減少存儲空間浪費(fèi),如何根據(jù)學(xué)生的興趣推薦最適合的教學(xué)內(nèi)容,成為目前急需解決的問題[4]。
因此,本文提出采用HDFS來實現(xiàn)教學(xué)信息化資源管理,以便根據(jù)學(xué)生的不同需求提供更準(zhǔn)確的教育資源推薦。首先在分布式Hadoop平臺上設(shè)計適用于教學(xué)資源的HDFS云存儲架構(gòu)。然后根據(jù)學(xué)生評分矩陣,利用LDA用戶興趣模型實現(xiàn)個性化教學(xué)信息資源推薦,并給出相應(yīng)的參數(shù)估計方法。實例仿真結(jié)果表明,相比標(biāo)準(zhǔn)關(guān)聯(lián)規(guī)則Apriori方法,LDA用戶興趣模型具有更高的教學(xué)資源推薦準(zhǔn)確度,有效提升了學(xué)生學(xué)習(xí)的效率。
1 ?HDFS模式下的網(wǎng)絡(luò)教學(xué)資源存儲問題
1.1 ?HDFS技術(shù)原理分析
由于在數(shù)據(jù)存儲和分析方面具有較大優(yōu)勢,Hadoop分布式計算系統(tǒng)成為現(xiàn)代信息教學(xué)資源管理方面的主流平臺。目前,分布式Hadoop平臺主要采用大規(guī)模并行編程框架,包括HDFS和Map Reduce[5]。HDFS主要負(fù)責(zé)數(shù)據(jù)存儲。Map Reduce主要負(fù)責(zé)并行處理任務(wù)。在Hadoop平臺中,常用的HDFS原理如圖1所示。為了實現(xiàn)海量教學(xué)資源的整合,以便實現(xiàn)數(shù)據(jù)共享,提高數(shù)據(jù)存儲效率,本文采用Hadoop分布式HDFS實現(xiàn)教學(xué)信息化資源存儲和處理。
1.2 ?適用于教學(xué)資源的HDFS云存儲架構(gòu)
本文的目標(biāo)是將復(fù)雜的信息化教學(xué)資源通過云存儲技術(shù)進(jìn)行整合,形成一個共享的教育云存儲服務(wù)。因此,需要設(shè)計一個適用于教學(xué)信息化資源管理的HDFS云存儲架構(gòu),其中存儲層通過HDFS完成數(shù)據(jù)的分布式存儲,包括各種形式的教學(xué)資源(數(shù)據(jù)源自各個教育機(jī)構(gòu)),例如,動畫、PPT、文本文檔等。
在本文設(shè)計的云存儲架構(gòu)中,教學(xué)資源推薦功能模塊運(yùn)用LDA主題挖掘模型對海量的網(wǎng)絡(luò)教學(xué)資源進(jìn)行處理,然后將符合學(xué)生興趣的教學(xué)資源進(jìn)行推薦展示,如圖2所示。
2 ?基于LDA用戶興趣模型的教學(xué)資源推薦方法
2.1 ?LDA主題挖掘模型
LDA主題挖掘模型作為一種非監(jiān)督的機(jī)器學(xué)習(xí)方法[4],主要由三層的貝葉斯模型構(gòu)成。LDA主題模型生成過程如圖3所示。
在圖3中,方框[M]表示項目集合,方框[N]表示項目中主題[z]和關(guān)鍵詞[w]的集合,[α]為Dirichlet分布的先驗參數(shù),[β]為被估計的矩陣參數(shù),[θ]為某項目中所有主題的概率分布。
2.2 ?用戶興趣的偏好相似度矩陣
為了收集學(xué)生的興趣愛好信息,需要構(gòu)建學(xué)生?課程評分矩陣[R],如表1所示。
本文根據(jù)學(xué)生對課程屬性的喜好,在傳統(tǒng)的LDA用戶興趣模型推薦算法中加入了“學(xué)生?課程屬性”偏好相似度。通過有效結(jié)合以上隱藏的信息,可以有效提升推薦的質(zhì)量和準(zhǔn)確度。
3 ?仿真結(jié)果
為了對本文提出的方法進(jìn)行分析和驗證,在相同的測試數(shù)據(jù)中,分別對本文方法、基于標(biāo)準(zhǔn)關(guān)聯(lián)規(guī)則Apriori的推薦方法進(jìn)行對比實驗。實驗數(shù)據(jù)源來自32所公立教育單位,主要是各大專本科院校。仿真實驗測試的教學(xué)信息化資源包括近1.3 TB的數(shù)字化資源,其中,Word資源格式占30%,PPT教案資源格式占35%,音視頻素材資源格式占10%,F(xiàn)LASH資源格式占20%,Web網(wǎng)頁資源格式占5%。課程共計237門。本文采用的評估指標(biāo)為平均絕對誤差(Mean Absolute Error,MAE)[6]。
實驗采用分布式Hadoop 2.2.0平臺,包括10臺計算節(jié)點(diǎn),具有Intel i7 處理器,CPU主頻為 3.2 GHz,8 GB 內(nèi)存。JDK版本為[7]1.8.0。
兩種不同方法的MAE結(jié)果如圖4所示。從圖4中可以看出,隨著課程數(shù)量的增加,兩種方法的推薦平均絕對誤差均不斷降低。其中,標(biāo)準(zhǔn)關(guān)聯(lián)規(guī)則Apriori算法的下降速度較快,本文提出方法的下降速度次之,但是兩者的下降速度相差很小。此外,在相同課程數(shù)量條件下,相比標(biāo)準(zhǔn)關(guān)聯(lián)規(guī)則Apriori算法,本文提出算法的MAE更小。也就是說,本文提出算法具有更高的精準(zhǔn)度,有效提高了在線課程資源的管理效率。
4 ?結(jié) ?語
本文提出一種基于分布式HDFS和LDA用戶興趣模型的教學(xué)信息化資源管理方法。通過Hadoop 2.2.0平臺上的實例測試得出如下結(jié)論:基于HDFS架構(gòu)的網(wǎng)絡(luò)教學(xué)資源云存儲管理是切實可行的;相比于標(biāo)準(zhǔn)關(guān)聯(lián)規(guī)則Apriori方法,基于LDA用戶興趣模型的推薦方法在HDFS模型下表現(xiàn)出更高的精準(zhǔn)度,課程資源推薦效果更好,具有一定的參考價值。
參考文獻(xiàn)
[1] BOZKURT A, AKGUNOZBEK E, YILMAZEL S, et al. Trends in distance education research: a content analysis of journals 2009—2013 [J]. International review of research in open & distributed learning, 2015, 16(1): 330?363.
[2] EILEEN Scanlon, PATRICK McAndrew, TIM O′Shea. Desig?ning for educational technology to enhance the experience of learners in distance education: how open educational resources, learning design and MOOCs are influencing learning [J]. Journal of interactive media in education, 2015, 2015(1): 9.
[3] DE HART K, CHETTY Y, ARCHER E. Uptake of OER by staff in distance education in South Africa [J]. International review of research in open & distance learning, 2015, 16(2): 18?45.
[4] CLEGG J. Internationalisation in online distance learning postgraduate education: a case study on student views on learning alongside students from other countries [J]. Innovations in education & teaching international, 2015, 52(2): 137?147.
[5] ADDAIR T G, DODGE D A, WALTER W R, et al. Large?scale seismic signal analysis with Hadoop [J]. Computers & geosciences, 2014, 66(2): 145?154.
[6] 史慶偉,從世源.基于mRMR和LDA主題模型的文本分類研究[J].計算機(jī)工程與應(yīng)用,2016,52(5):127?133.
SHI Qingwei, CONG Shiyuan. Text classification based on mRMR and LDA topic model [J]. Computer engineering and applications, 2016, 52(5): 127?133.
[7] KHAN M, JIN Y, LI M, et al. Hadoop performance modeling for job estimation and resource provisioning [J]. IEEE transactions on parallel & distributed systems, 2016, 27(2): 441?454.
[8] PAPANIKOLAOU Y, FOULDS J R, RUBIN T N, et al. Dense distributions from sparse samples: improved Gibbs sampling parameter estimators for LDA [J]. Statistics, 2017, 18(62): 1?58.