王宏
[摘要]開(kāi)放教育選課過(guò)程是人才培養(yǎng)方案的重要組成部分,本文提出一種基于大數(shù)據(jù)分析的學(xué)習(xí)者選課推薦模型,是以協(xié)同過(guò)濾推薦算法作為基礎(chǔ)算法。算法通過(guò)對(duì)學(xué)習(xí)者群課程偏好行為數(shù)據(jù)的挖掘,發(fā)現(xiàn)學(xué)習(xí)者的課程偏好,以不同偏好對(duì)學(xué)習(xí)者進(jìn)行群組劃分并推薦品味相似的課程。
[關(guān)鍵詞]大數(shù)據(jù);選課;推薦;模型
[中圖分類號(hào)] G728 [文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1008-4649(2019)02-0018-05
Abstract:The course of open education selection is an important part of the talent training program. This paper proposes a learner selection recommendation model based on big data analysis. It is a collaborative filtering recommendation algorithm as the basic algorithm. The algorithm discovers the learner's curriculum preferences by mining the learner group's curriculum preference behavior data, and classifies the learners by different preferences and recommends similar courses.
Key word:Big data; Course selection;Recommendation; Model
開(kāi)放教育選課是其人才培養(yǎng)模式的重要內(nèi)容,是依據(jù)專業(yè)特點(diǎn)和培養(yǎng)目標(biāo),結(jié)合學(xué)習(xí)者的時(shí)間、空間、興趣和知識(shí)面開(kāi)展的,用以保證學(xué)習(xí)者自主學(xué)習(xí)和個(gè)性化發(fā)展,而實(shí)施的內(nèi)容。這一實(shí)施過(guò)程,在激發(fā)學(xué)習(xí)者學(xué)習(xí)興趣、開(kāi)闊專業(yè)視野、提高文化素質(zhì)、培養(yǎng)創(chuàng)新能力等方面具有不可替代的作用, 是實(shí)現(xiàn)“寬口徑、重能力、強(qiáng)素質(zhì)” 人才培養(yǎng)模式的有效途徑。
一、選課推薦
1.大數(shù)據(jù)的概念
大數(shù)據(jù)是近年來(lái)在信息化應(yīng)用中的核心焦點(diǎn),由于其發(fā)展迅速,在定義、特征等方面尚未形成公認(rèn)的、統(tǒng)一的標(biāo)準(zhǔn)。大數(shù)據(jù)一般是指數(shù)據(jù)量巨大,不易用常規(guī)方法和傳統(tǒng)軟件處理分析的數(shù)據(jù)。 對(duì)于其特征的認(rèn)識(shí)從最初的“3 V”發(fā)展到“4 V”,再到最新的“5 V”, 即數(shù)據(jù)量( volume)巨大、數(shù)據(jù)類型( variety)眾多、處理速度( velocity)快、價(jià)值( value)密度低、真實(shí)性( veracity)強(qiáng)。教育領(lǐng)域的大數(shù)據(jù)廣義上指的是在教育教學(xué)活動(dòng)中所有參與者的行為數(shù)據(jù),最主要是學(xué)習(xí)者。為了保證采樣數(shù)據(jù)對(duì)母體的完備性,一般要求學(xué)習(xí)者的采樣數(shù)量大于2000人,這些數(shù)據(jù)除了具有大數(shù)據(jù)的共性以外,還具有情境性、層次性和時(shí)效性,數(shù)據(jù)采樣主要來(lái)源于各類遠(yuǎn)程學(xué)習(xí)平臺(tái)、考試平臺(tái)、教學(xué)管理系統(tǒng)、圖書(shū)館管理系統(tǒng)、一卡通平臺(tái)、財(cái)務(wù)管理系統(tǒng)。
大數(shù)據(jù)不僅意味著數(shù)據(jù)量的巨大,同時(shí)更主要的是其利用數(shù)據(jù)的視角發(fā)生變化,其數(shù)據(jù)分析對(duì)象,趨向于數(shù)據(jù)母體而非抽樣數(shù)據(jù),重視個(gè)體數(shù)據(jù)間的相關(guān)性而非因果性,特別是當(dāng)效率與精確性產(chǎn)生沖突時(shí),可以犧牲一定的精確性,強(qiáng)調(diào)以數(shù)據(jù)分析為本,以數(shù)據(jù)分析結(jié)果驅(qū)動(dòng)決策。
2.選課推薦
大數(shù)據(jù)的應(yīng)用使推薦過(guò)程更加科學(xué),其核心在于各要素相關(guān)性數(shù)據(jù)挖掘模型的建立。數(shù)據(jù)挖掘建模過(guò)程是著眼于解決推薦應(yīng)用的過(guò)程,源于應(yīng)用需求,終于應(yīng)用實(shí)踐。盡管用數(shù)據(jù)挖掘技術(shù)建立仿真模解決的問(wèn)題各有不同,但從整個(gè)的應(yīng)用流程上來(lái)看,其操作內(nèi)容具有計(jì)劃性、規(guī)范性、可用性。 其中,CRISPDM方法是目前世界上公認(rèn)的數(shù)據(jù)挖掘建模的核心方法。
(1)教學(xué)理解階段。在這一階段通常從學(xué)習(xí)者的視角設(shè)計(jì)建模的要求和目標(biāo),并將這些目標(biāo)與大數(shù)據(jù)挖掘建模的定義相結(jié)合。
(2)數(shù)據(jù)解讀階段。數(shù)據(jù)解讀階段的主要內(nèi)容有:數(shù)據(jù)的樣本采集;數(shù)據(jù)的初始化;研判數(shù)據(jù)屬性;分析數(shù)據(jù)特征;數(shù)據(jù)特征統(tǒng)計(jì);數(shù)據(jù)質(zhì)量審核;數(shù)據(jù)補(bǔ)遺。
(3)數(shù)據(jù)準(zhǔn)備階段。數(shù)據(jù)準(zhǔn)備階段涵蓋了從原始數(shù)據(jù)集構(gòu)建最終數(shù)據(jù)集(將作為建模工具的分析對(duì)象)的全部工作。數(shù)據(jù)準(zhǔn)備工作將被重復(fù)多次,而且其實(shí)施順序是無(wú)序的。
(4)數(shù)據(jù)整理。以挖掘目標(biāo)為基準(zhǔn)初步分析數(shù)據(jù)樣本與其的相關(guān)性和可用性,遴選作為模型輸入數(shù)據(jù)的數(shù)據(jù)子集,并進(jìn)一步對(duì)這些數(shù)據(jù)樣本進(jìn)行清理轉(zhuǎn)換,構(gòu)造衍生變量,并根據(jù)模型的需求,格式化數(shù)據(jù)。
(5)建模。在這一階段,研判相關(guān)的建模方法,通過(guò)構(gòu)建、評(píng)估模型,對(duì)模型參數(shù)進(jìn)行校準(zhǔn)。
(6)評(píng)估。以數(shù)據(jù)分析的視角對(duì)數(shù)據(jù)進(jìn)行審讀,在這一階段中,我們已經(jīng)構(gòu)建了一個(gè)或多個(gè)高質(zhì)量的應(yīng)用仿真模型。
(7)部署。即將模型輸出的結(jié)果轉(zhuǎn)換為可閱讀的文本形式。
二、基于學(xué)習(xí)者的協(xié)同過(guò)濾推薦
基于學(xué)習(xí)者的協(xié)同過(guò)濾推薦模型的原理為,以所有學(xué)習(xí)者對(duì)課程興趣的偏好為基礎(chǔ),挖掘與服務(wù)對(duì)象偏好相似的“鄰居”學(xué)習(xí)者群,一般使用計(jì)算“ K-鄰居”的算法完成;然后,基于這個(gè)“鄰居”學(xué)習(xí)者群的歷史偏好數(shù)據(jù),為服務(wù)對(duì)象進(jìn)行推薦。下圖給出了原理圖。
設(shè)學(xué)習(xí)者 A喜歡 A課程, C課程,學(xué)習(xí)者 B喜歡 B課程,學(xué)習(xí)者 C喜歡 A課程, C課程和 D課程;從這些學(xué)習(xí)者的喜好信息中,我們發(fā)現(xiàn)學(xué)習(xí)者 A和學(xué)習(xí)者 C的喜好是比較類似的,同時(shí)學(xué)習(xí)者 C還喜歡 D課程,那么我們可以推斷學(xué)習(xí)者 A可能也喜歡 D課程,因此可以將 D課程推薦給學(xué)習(xí)者 A。
基于學(xué)習(xí)者的協(xié)同過(guò)濾推薦機(jī)制和基于人口統(tǒng)計(jì)學(xué)的推薦機(jī)制都是計(jì)算學(xué)習(xí)者的相似度,都是以學(xué)習(xí)者的“鄰近”群體樣本計(jì)算推薦的,但它們的核心區(qū)別是如何計(jì)算學(xué)習(xí)者的相似度,基于人口統(tǒng)計(jì)學(xué)處理機(jī)制只注重學(xué)習(xí)者本身的特征,而基于學(xué)習(xí)者的協(xié)同過(guò)濾處理機(jī)制是在學(xué)習(xí)者歷史偏好數(shù)據(jù)的基礎(chǔ)上進(jìn)行學(xué)習(xí)者相似度計(jì)算的,它的關(guān)鍵假設(shè)是,喜歡類似課程的學(xué)習(xí)者可能有相同或者相似的喜好。
(一) 基于學(xué)習(xí)者(Learner-based)的協(xié)同過(guò)濾推薦算法
基于學(xué)習(xí)者的協(xié)同過(guò)濾推薦算法在同類算法中出現(xiàn)的最早,其原理較為簡(jiǎn)單。這一算法于1992年首次提出并用于電子郵件過(guò)濾系統(tǒng),在1994年被GroupLens引入到新聞過(guò)濾中。一直到近年,這一算法還是推薦系統(tǒng)領(lǐng)域中的核心的算法。
三、小結(jié)
基于協(xié)同過(guò)濾模型的算法根據(jù)學(xué)習(xí)者不同的屬性特征,按其性別、專業(yè)、興趣愛(ài)好歸類分群。推薦應(yīng)用模型可以更加科學(xué)與精確的對(duì)這些屬性信息建立我們關(guān)心的關(guān)聯(lián)并計(jì)算它們的相似度,從而完成推薦。 大數(shù)據(jù)下的選課模型,為完全學(xué)分制下的學(xué)習(xí)者選課提供了智能化的支持服務(wù),構(gòu)建了獨(dú)立、自主、公平,自由的選課操作,滿足了學(xué)習(xí)者對(duì)課程的特性化需求,激發(fā)了學(xué)習(xí)者的學(xué)習(xí)主動(dòng)性。
[參考文獻(xiàn)]
[1]郭清菊,等.基于學(xué)習(xí)興趣的個(gè)性化推薦算法研究[J].軟件,2013,34(9):51-53.
[2]胡健,等.數(shù)據(jù)挖掘在選課推薦中的研究[J].軟件,2016,37(4):119-121.
[3]王超,等.適合專業(yè)選修課的現(xiàn)代教學(xué)理論和方法探究[J].學(xué)理論,2015(11):202 - 204.
[4]程學(xué)旗,等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),2014,25 (9) :1889 - 1908.
[責(zé)任編輯張宇龍]
陜西廣播電視大學(xué)學(xué)報(bào)2019年2期