邵文莎
摘要:該文將大數(shù)據(jù)分析技術(shù)的常用算法SVD分解的特例UV分解用在了學(xué)分銀行系統(tǒng)的個(gè)性化推薦中,該方法可利用統(tǒng)計(jì)上的數(shù)據(jù)關(guān)聯(lián)查找數(shù)據(jù)關(guān)系,獲取有用的信息從而進(jìn)行精準(zhǔn)推薦。
關(guān)鍵詞:大數(shù)據(jù)分析技術(shù);UV分解;個(gè)性化推薦
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)26-0245-02
1 概述
在終身學(xué)習(xí)理念的推動(dòng)下,許多國(guó)家和國(guó)際組織都在積極探索在不同類(lèi)型教育間建立以學(xué)習(xí)成果認(rèn)證為主要內(nèi)容的新型學(xué)習(xí)管理制度,且已經(jīng)形成了比較完善的體系,只是各國(guó)(地區(qū))對(duì)于制度模式的選擇不盡相同,在實(shí)踐上也表現(xiàn)出不同的側(cè)重點(diǎn)。例如,澳大利亞、英國(guó)等國(guó)家通過(guò)建立國(guó)家資歷框架制度,使正規(guī)教育證書(shū)與非正規(guī)教育證書(shū)、學(xué)歷證書(shū)與職業(yè)資格證書(shū)能夠相互承認(rèn)和溝通;加拿大、美國(guó)等國(guó)家通過(guò)簽訂校際學(xué)分互認(rèn)協(xié)議的方式,建立學(xué)分認(rèn)證制度;韓國(guó)則建立了學(xué)習(xí)成果累積與認(rèn)證的“學(xué)分銀行”制度,以鼓勵(lì)更多非正規(guī)高等教育體制的學(xué)習(xí)者取得大學(xué)文憑[1]。近年來(lái),國(guó)內(nèi)關(guān)于學(xué)習(xí)成果認(rèn)證體系的理論研究在概念梳理、制度設(shè)計(jì)及模式選擇上,取得了一定的成果,各省市也紛紛開(kāi)始依托開(kāi)放大學(xué)或廣播電視大學(xué)以區(qū)域性學(xué)分銀行試點(diǎn)模式進(jìn)行學(xué)習(xí)成果認(rèn)證體系的研究與探索,此外,包括開(kāi)放大學(xué)在內(nèi)的很多高校也在其校內(nèi)進(jìn)行學(xué)習(xí)成果認(rèn)證體系的探索,學(xué)分銀行實(shí)踐也進(jìn)入重點(diǎn)探索期。
在信息化社會(huì),學(xué)分銀行信息系統(tǒng)是學(xué)習(xí)成果信息化管理的重要載體,是進(jìn)行學(xué)習(xí)成果認(rèn)證制度探索的必備要件,而在學(xué)分銀行平臺(tái)建立個(gè)性化推薦系統(tǒng),可以有效的向?qū)W習(xí)者提供學(xué)習(xí)信息,幫助學(xué)習(xí)者更好的選擇合適的課程,最終推動(dòng)學(xué)習(xí)成果認(rèn)證制度的建立和發(fā)展。
2 大數(shù)據(jù)分析技術(shù)與學(xué)分銀行信息系統(tǒng)
學(xué)分銀行獲取的關(guān)于學(xué)習(xí)者的數(shù)據(jù)是海量的,因此,我們需要一種有效的方法對(duì)于學(xué)習(xí)者相關(guān)的數(shù)據(jù)進(jìn)行處理與分析,以正確預(yù)測(cè)出學(xué)習(xí)者的需求,并向?qū)W習(xí)者進(jìn)行相關(guān)課程推薦。而大數(shù)據(jù)分析技術(shù)正是這樣一種滿(mǎn)足我們需求的技術(shù),它可以對(duì)海量數(shù)據(jù)進(jìn)行處理,例如分類(lèi)關(guān)聯(lián)等。分類(lèi)關(guān)聯(lián)技術(shù)不管因果關(guān)系,而是直接利用統(tǒng)計(jì)上的數(shù)據(jù)關(guān)聯(lián)查找數(shù)據(jù)關(guān)系,從而提取出有用的信息。
通常情況下,我們很難知道一個(gè)學(xué)習(xí)者希望學(xué)習(xí)什么課程。這時(shí)我們就需要對(duì)該學(xué)習(xí)者的學(xué)習(xí)信息以及其他學(xué)習(xí)者的學(xué)習(xí)信息進(jìn)行分析,以向該學(xué)習(xí)者進(jìn)行合理的課程推薦。該過(guò)程與淘寶等網(wǎng)站的商品推薦過(guò)程十分相似。
大數(shù)據(jù)分析技術(shù)可以使用數(shù)據(jù)挖掘技術(shù)或是數(shù)理統(tǒng)計(jì)分析。數(shù)據(jù)挖掘是一個(gè)特定的數(shù)據(jù)分析技術(shù),專(zhuān)注于建模和知識(shí)發(fā)現(xiàn),它以預(yù)測(cè)為目的而不是純粹的描述。數(shù)理統(tǒng)計(jì)分析是運(yùn)用數(shù)理統(tǒng)計(jì)學(xué)的知識(shí)來(lái)分析數(shù)據(jù),專(zhuān)注于描述數(shù)據(jù)的特性。
數(shù)據(jù)挖掘常用算法主要有:ID3算法,k-means,邏輯回歸,決策樹(shù),SVD分解,隨機(jī)森林,大規(guī)模矩陣運(yùn)算,以及最近的深度學(xué)習(xí)技術(shù)等。本文正是使用SVD分解中的UV分解算法,對(duì)數(shù)據(jù)進(jìn)行處理與分析,以提取出所需要的數(shù)據(jù)。該技術(shù)執(zhí)行簡(jiǎn)單,對(duì)數(shù)據(jù)需求量不是很高,而且可以進(jìn)行有效的推薦。因此我們采用該技術(shù)應(yīng)用于我們的學(xué)分銀行的個(gè)性化推薦平臺(tái)中。
3 SVD分解
SVD分解[2]即奇異值分解,它在很多領(lǐng)域得到了應(yīng)用,在數(shù)據(jù)挖掘中主要用來(lái)對(duì)數(shù)據(jù)庫(kù)文件進(jìn)行歸類(lèi),該方法主要用于降低數(shù)據(jù)的維度。
SVD分解的原理如下:
若[小四] 矩陣對(duì)角線(xiàn)上的元素均為1,則為SVD分解的一個(gè)特例,即為UV分解。本文使用的即是UV分解。
4 UV分解應(yīng)用于學(xué)分銀行信息系統(tǒng)的個(gè)性化推薦
對(duì)于一個(gè)學(xué)習(xí)者來(lái)說(shuō),感興趣的課程往往是有關(guān)聯(lián)的。因此我們可以對(duì)于學(xué)習(xí)者以往學(xué)過(guò)的課程進(jìn)行分析,以判斷學(xué)習(xí)者可能需要選擇的課程,并進(jìn)行進(jìn)一步的推薦。
比如,我們可以按照語(yǔ)文、英語(yǔ)、數(shù)學(xué)、計(jì)算機(jī)等課程類(lèi)別對(duì)于學(xué)分銀行平臺(tái)中的課程進(jìn)行分類(lèi),然后根據(jù)學(xué)習(xí)者的選修情況與調(diào)查反饋和滿(mǎn)意度評(píng)價(jià)某類(lèi)課程的價(jià)值。在我們的推薦系統(tǒng)中,我們將課程的價(jià)值分為1-5檔(數(shù)值越大,代表該課程的價(jià)值越大,也越可能被學(xué)習(xí)者選修)。如表1所示, 其中A、B、C、D代表不同的學(xué)習(xí)者,空白則為未被選修或者已被選修未進(jìn)行滿(mǎn)意度評(píng)價(jià)的課程。
我們可用一個(gè)存在空白項(xiàng)的 n×m的矩陣M對(duì)n個(gè)學(xué)習(xí)者的m種不同的選修課程的價(jià)值進(jìn)行描述。例如表1,我們可用一個(gè)[4×6] 的矩陣進(jìn)行描述,我們只需求出空白項(xiàng)的值,即可判定出未被選修課程對(duì)于學(xué)習(xí)者的價(jià)值。根據(jù)未被選修課程的價(jià)值,就能決定優(yōu)先向選修者推薦哪一類(lèi)課程。
我們采取UV分解的方式估計(jì)矩陣M的空白項(xiàng)的值。
該算法如下所示:
對(duì)于一個(gè)[n×m] 的矩陣M,我們可假設(shè)U為[n×d]的矩陣,V為[d×m]的矩陣(d可取任意的正整數(shù)),并對(duì)U、V矩陣中的各個(gè)元素賦初值(一般情況下,初值均賦為1),令P=UV。然后通過(guò)多次調(diào)整U、V中各元素的方式,以盡可能使P接近M,我們可用M與P的非空元素的差的平方和作為度量標(biāo)準(zhǔn),并把該平方和記為均方根誤差,即均方根誤差越小,則P越接近M。當(dāng)U、V中所有元素均被且只被調(diào)整一次時(shí),可記為一次迭代過(guò)程。通過(guò)迭代的方式不斷更改U、V中的所有元素值,當(dāng)某一次迭代過(guò)程的均方根誤差與前一次迭代過(guò)程的均方根誤差的絕對(duì)值小于某一閾值時(shí),則終止迭代過(guò)程,確定UV。在這種情況下,該均方根誤差可達(dá)到一個(gè)局部最小值,但局部最小值未必是全局最小值,我們可通過(guò)對(duì)UV賦以不同的初始值的方式,獲得不同的局部最小值,用所有局部最小值中的最小值估計(jì)全局最小值,并將此情況下UV的值保存,通過(guò)P=UV求出P值,M空白的值就由此時(shí)的P值的對(duì)應(yīng)元素估計(jì)。這樣,就可決定優(yōu)先選取哪一類(lèi)數(shù)據(jù)。
通過(guò)反復(fù)迭代,我們可以得出UV的數(shù)值,進(jìn)而可以計(jì)算出M的數(shù)值,包括M空白處的位置的數(shù)值。也就是說(shuō),我們可以估計(jì)出學(xué)習(xí)者未選擇課程的價(jià)值,進(jìn)而決定向?qū)W習(xí)者推薦的課程。
5 結(jié)束語(yǔ)
本文將UV分解用在學(xué)分銀行信息系統(tǒng)的個(gè)性化推薦中,可以為學(xué)習(xí)者個(gè)性化學(xué)習(xí)需求提供智能化、精準(zhǔn)化推薦,可以對(duì)學(xué)習(xí)者的學(xué)習(xí)方向進(jìn)行引導(dǎo),可以提升學(xué)習(xí)者滿(mǎn)意度。
參考文獻(xiàn):
[1] 郝克明.學(xué)分認(rèn)證、轉(zhuǎn)換制度與終身學(xué)習(xí)——在2016構(gòu)建終身學(xué)習(xí)立交橋和學(xué)分銀行系統(tǒng)學(xué)術(shù)論壇(南京)上的發(fā)言[J].終身教育研究,2017(2):6-10.
[2] Rajaraman A, Ullman J D. Mining of massive datasets[M]. Cambridge University Press, 2012.
[3] 何亮亮.SVD在文本分類(lèi)中的應(yīng)用[D].廣州:華南理工大學(xué),2012.
[4] 余燕芳,韓世梅.學(xué)分銀行平臺(tái)的知識(shí)匯聚與個(gè)性化推薦系統(tǒng)應(yīng)用研究[J].中國(guó)遠(yuǎn)程教育,2017(3):45-51.
[5] 湯書(shū)波,陳梅艷,李志平.開(kāi)放教育學(xué)分銀行系統(tǒng)設(shè)計(jì)方案探討[J].電化教育研究,2011(8):78-87. [通聯(lián)編輯:代影]