吳興燕 曹立勇 王立平
摘 要“學習分析技術”是大數(shù)據(jù)在教育領域的主要應用。本研究通過運用文獻分析法,剖析學習分析過程中最核心的數(shù)據(jù)分析環(huán)節(jié),歸納出學習數(shù)據(jù)的分類及來源,并著重梳理了各種學習數(shù)據(jù)處理方法的特點與應用。最后,討論了未來學習分析中數(shù)據(jù)處理面臨的問題及挑戰(zhàn)。
關鍵詞學習分析;教育技術;數(shù)據(jù)分析
0 前言
學習分析概念于2010年正式形成,G.Siemens將其定義表述為:“學習分析是利用數(shù)據(jù)挖掘成果,學習者產(chǎn)生的數(shù)據(jù)和分析模型探究信息和社會聯(lián)系,并且對學習作出預測和建議”[1]。學習分析技術可以使學習者科學地認識自己的學習狀態(tài)、有效地避免潛在的學習風險、提高自主學習能力。學習分析的過程運用了多種技術,全方位、深層次地解讀學習過程中產(chǎn)生的數(shù)據(jù),主要包括三個階段:數(shù)據(jù)的采集、數(shù)據(jù)分析、評價與反饋。
1 數(shù)據(jù)采集階段
數(shù)據(jù)是學習分析的基礎,學習數(shù)據(jù)的來源主要包含三個方面:學習者基本信息、學習者素質(zhì)信息(生理因素、心理因素)、學習者學習行為數(shù)據(jù)。
(1)基本信息:通過管理平臺采集、訪談、問卷調(diào)查等形式,獲得學習分析對象的基本情況、自我認知等信息。
(2)生理素質(zhì)數(shù)據(jù):通過傳感技術[2]等手段采集學習者的皮膚電導、心率、眨眼、體溫、腦電波、血壓等特定學習過程中的生理指標,分析其真實的生理變化過程,解讀其認知能力與學習規(guī)律。
(3)心理素質(zhì)數(shù)據(jù):利用基于Web 的日志挖掘等技術抓取萬維網(wǎng)數(shù)據(jù),獲取學習者發(fā)布的微博、朋友圈、評論等信息,分析其心理健康情況以及道德觀、人生觀、價值觀。
(4)學習行為數(shù)據(jù):依據(jù)校園一卡通信息,整理出學習者日常生活規(guī)律數(shù)據(jù),如日常消費信息、圖書館使用頻度、日常作息規(guī)律等;依據(jù)多媒體網(wǎng)絡教室軟件數(shù)據(jù),分析學習者學習進度、課堂氛圍、學習環(huán)境、學習效果;通過統(tǒng)計在線學習管理系統(tǒng)、網(wǎng)絡教育平臺、MOOC等各種在線學習平臺的行為數(shù)據(jù),了解學習者學習活動的參與程度、學習堅持程度等行為信息。
2 數(shù)據(jù)分析階段
數(shù)據(jù)分析是學習分析的關鍵階段,采集后的數(shù)據(jù)經(jīng)清理、集成、變換、規(guī)約后得出樣本集,并通過構建學習數(shù)據(jù)分析模型完成預測和評估。學習分析采用的數(shù)據(jù)處理技術主要有:分類與回歸、聚類分析、關聯(lián)規(guī)則挖掘等。
2.1 分類與回歸
在學習分析過程中,分類與回歸常應用于課程選修情況、教師教學效果、學生學習成績等方面的預測,以及對學生類型、課程內(nèi)容等方面的分類識別。分類與回歸是統(tǒng)計學中實現(xiàn)預測的建模技術,通過訓練樣本找到實值函數(shù),兩者的不同之處僅在于輸出的變量是有限個離散變量(分類)還是連續(xù)變量(回歸)。根據(jù)訓練集判斷所屬類別是分類問題,而根據(jù)訓練集推斷輸出值是回歸問題。常見分類與回歸有決策樹、支持向量機、人工神經(jīng)網(wǎng)絡、線性回歸等。
(1)決策樹(Decision Tree)。決策樹的結(jié)構中一個葉節(jié)點代表著某一類,一個內(nèi)部節(jié)點代表著一個劃分。算法步驟為:首先構造決策樹,比較內(nèi)部節(jié)點屬性值,并判斷其向下分支,直到結(jié)果節(jié)點(葉節(jié)點);再根據(jù)新樣本點各屬性值,從上到下遍歷決策樹,對應分類規(guī)律得出結(jié)果。決策樹的生成模式簡單,分類精度高。
(2)支持向量機(Support Vector Machine, SVM)。V.Vapnik等學者于1964年從廣義肖像算法中延伸出支持向量機理論,該方法的基本思想為:將樣本點依靠核函數(shù)經(jīng)過非線性映射至高維空間,應用凸優(yōu)化方法尋找最優(yōu)超平面,并運用線性學習機方法實現(xiàn)回歸與分類(高維空間中SVM的線性解即是原來樣本空間中問題的非線性解。)。支持向量機是一種最優(yōu)化方法的機器學習算法,擅長于分類、回歸、模式識別等領域,尤其在小樣本、高維以及非線性場合下表現(xiàn)突出。
(3)人工神經(jīng)網(wǎng)絡(Artificial Neural Network,ANN)。人工神經(jīng)網(wǎng)絡是基于神經(jīng)科學基礎上提出的,通過建立運算模型(該模型由大量的神經(jīng)元及其相應的聯(lián)結(jié)構成),模擬人的大腦信息處理的方式,達到使計算機智能地處理實際問題的目的。1943年,世界首個描述大腦工作原理的數(shù)學模型——神經(jīng)網(wǎng)絡和數(shù)學模型(簡稱MP模型)由心理學家McCulloch和數(shù)理邏輯學家Pitts提出[3],模型基本原理是加權求和神經(jīng)元所收到的信號,并將結(jié)果與閾值進行比較,以確定該神經(jīng)元的輸出。
(5)線性回歸(Linear Regression)。線性回歸模型研究的是自變量、因變量的定量關系。線性回歸的發(fā)展經(jīng)歷了從只有一個自變量影響因變量的一元線性回歸,到兩個及以上的自變量共同估計、預測一種現(xiàn)象的多元線性回歸,再到具有各種形態(tài)各異的曲線回歸規(guī)律(即因變量為自變量一次以上函數(shù))的非線性回歸,以及響應變量的期望與線性自變量之間通過各種聯(lián)系函數(shù)關聯(lián)的各種廣義線性回歸模型。線性回歸經(jīng)過了嚴格研究,已在現(xiàn)實中得到了廣泛的應用。
2.2 聚類分析
在學習分析案例中,聚類分析主要集中應用在整合教學資源、劃分學生群體、優(yōu)化課程設置等方面。聚類分析是一種非監(jiān)督學習,是將對象依據(jù)相似度進行劃分,形成有價值的簇集。常見的聚類分析算法如下:
(1)K-Means算法。K-Means算法是最著名的劃分聚類算法,其機制為:以隨機的K個對象為初始中心,將每個對象分配給與之距離最近的子聚類中心,并更新聚類中心,循環(huán)執(zhí)行至終止條件。該算法能夠準確、高效地處理大規(guī)模數(shù)據(jù),但由于聚類中心是隨機產(chǎn)生,有可能導致局部最優(yōu)化,從而影響聚類結(jié)果的有效性。針對此問題,可以通過優(yōu)化初始劃分,提高聚類效果。如Likas[4]的全局K-means聚類等。
(2)BIRCH算法。BIRCH算法是分層聚類算法的代表,算法通過掃描數(shù)據(jù)庫,動態(tài)建立聚類特征樹(CF Tree),再進一步聚類 CF Tree的葉節(jié)點。該算法可以在線實時運行,通過一遍掃描就能有效聚類,時間空間效率高。但該算法效率受數(shù)據(jù)對象加入順序的影響較大,也不能很好的處理高維數(shù)據(jù),對象數(shù)量受到簇直徑的限制。為此,學者們提出了各種BIRCH改進算法,如邵峰晶[5]的動態(tài)及多閾值方法等。
(3)DBSCAN算法。DBSCAN原理描述為:對任一未被訪問樣本數(shù)據(jù)點,根據(jù)掃描半徑 (eps)和最小包含點數(shù)(minPts),對其Eps領域搜索成簇。若被訪問點Eps(掃描半徑)領域點數(shù)量大于或等于MinPts(最小包含點數(shù))時,則被訪問點與其Eps領域附近點形成簇,否則暫時為噪聲,如此遞歸直至遍歷所有樣本數(shù)據(jù)。DBSCAN算法可以識別高密度、噪聲空間數(shù)據(jù)庫中任何形狀簇類,對數(shù)據(jù)對象順序無要求。
2.3 關聯(lián)規(guī)則挖掘
在學習分析研究中,關聯(lián)挖掘?qū)τ趯W習時長、成績、知識點等對象之間的相關性分析表現(xiàn)出很好的優(yōu)越性。關聯(lián)規(guī)則的挖掘主要是探索事物之間的關聯(lián)信息,挖掘出有價值的規(guī)律。該方法源起于購物籃分析,如發(fā)生在美國沃爾瑪超市的“尿布與啤酒”現(xiàn)象:從各門店的消費數(shù)據(jù)中挖掘,得出消費者的購買習慣(尿布與啤酒大都組合購買),從而揭示了一種生活模式(即年輕父親下班回家途中給孩子買尿布,會順便買走自己喜愛的啤酒)。
(1)Apriori算法。1994年,由Agrawal等人提出的Apriori[6]算法是比較著名的挖掘布爾關聯(lián)規(guī)則頻集算法。該算法使用迭代的方法,掃描數(shù)據(jù)庫,尋找所有頻繁項集,并從中生成規(guī)則。算法過程簡單,便于運用,目前已廣泛應用于商業(yè)、網(wǎng)絡安全、高校管理等領域。然而該算法過程需多次掃描數(shù)據(jù)庫,且針對高維度數(shù)據(jù)也不適用。
(2)散列(hash)。散列是一種實用的查找技術,計算記錄搜索碼值上的一個函數(shù),直接獲得包含該記錄的物理地址。散列技術需要一個分布均勻且隨機的散列函數(shù),來盡量避免不同關鍵碼其散列函數(shù)值卻相同的沖突情況。1995年,Park提出運用散列技術產(chǎn)生頻繁項集的算法,該算法將待掃描項目集存放至不同的特定hash桶中,進而測試各個桶中項目集,很大程度上減少了候選項目集產(chǎn)生數(shù)量。
(3)FP-Growth算法。2000年,韓嘉煒等人[7]提出了頻繁模式增長算法(FP-Growth),采用分治策略,壓縮頻繁項集數(shù)據(jù)庫成一顆頻繁模式樹且保留項集關聯(lián)信息。算法過程主要為:構造FP-Tree,進而在FP-Tree上遞歸的挖掘頻繁模式。該算法逐步增長短頻繁模式到長頻繁模式,只需兩遍掃描數(shù)據(jù)庫,具有很高的效率。相比較Apriori算法,它在尋找頻繁項集過程中,無須產(chǎn)生候選項集,改進了Apriori算法所需的巨大計算開銷。
2.4 其他數(shù)據(jù)分析方法
近年來,研究者們依據(jù)不同的情景、不同的目標,選用不同的學習數(shù)據(jù)處理技術,例如:擅長分析、預警學生情感的文本挖掘技術;用于理解學習行為、分析學習者知識體系的社會網(wǎng)絡分析法;識別高危學生的隨機森林算法;檢測學習者知識體系、情感狀態(tài)、行為特征的學習者建模;評估在線課程設計、優(yōu)化教學資源的可視化技術;用于發(fā)現(xiàn)學生活動規(guī)律的時間序列分析;發(fā)現(xiàn)影響力節(jié)點(如校園社交網(wǎng)絡影響力人物)的圖構建與挖掘;分析學生團體特點、學生社交的鏈接分析;發(fā)現(xiàn)教學、學習過程中異常情況的異常檢測;分析學習者知識建構過程、理解學習行為的話語分析;等等。
3 評價與反饋
評價與反饋的目標是驗證學習分析模型的效果,如利用ARI(Adjusted Rand Index)、DVI(Dunn Validity Index)等指標分析聚類算法優(yōu)劣,運用AUC(area under curve)等指標判斷分類器或預測模型優(yōu)劣等;并對模型進行解釋,讓學習利益相關者依據(jù)數(shù)據(jù)挖掘結(jié)果,避開學習風險,做出正確的教、學對策。
4 總結(jié)與展望
自2010年以來,學習分析技術得到不斷的研發(fā)與應用。如今,學習分析的過程離不開統(tǒng)計學、計算機科學、數(shù)學、生物科學等學科為其提供技術支撐,也離不開倫理學、教育學、心理學、法學等學科為其提供道德規(guī)范與行為規(guī)則。多學科的交叉與融合是學習分析技術未來發(fā)展與研究的方向。多因素數(shù)據(jù)的參與,也將讓學習數(shù)據(jù)分析迎來更多的挑戰(zhàn),如倫理學、心理學等概念如何數(shù)字化引入?如何處理學習數(shù)據(jù)的多維度、多情景、多語義特征?然而,學習分析技術也將在這些困難中不斷成熟。
參考文獻
[1]G.Siemens, What is learning analytics[EB/OL]. http://www.elearnspace.org/blog/2010/08/25/what-are-learning-analytics/,2011-11-20.
[2]李卿,任 緣,黃田田等.基于傳感數(shù)據(jù)的學習分析應用研究[J]. 電化教育研究,2019,5:64-71.
[3]李文鈺.用于神經(jīng)網(wǎng)絡的帶L1/2正則項的共軛梯度學習方法[D].大連:大連理工大學,2018.
[4]Likas A, Vlassis N, Verbeek J J. The global k-means clustering algorithm[J]. Pattern Recognition,2003,36(2)451-461.
[5]邵峰晶,張斌,于忠清.多閾值BIRCH聚類算法及其應用[J].計算機工程與應用,2004,41(12):174-176.
[6]Agrawal R, Srikant R. Fast algorithms for mining association rules[C].proc of International Conference on Very Large Databases.1994:487-499.
[7]HAN J, PEI J, YIN Y. Mining frequent patterns without candidate generation[C]//Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data.New York:ACM,2000:1-12.