文孟飛 劉偉榮等
摘要:大數(shù)據(jù)云計算平臺觸發(fā)了教育行業(yè)的巨大變革,催生了各種形式和各種內(nèi)容的網(wǎng)絡(luò)教學開放課程,這些課程所采用的自由在線學習方式能夠針對學習者的個性化需求展開導(dǎo)向?qū)W習,可以激發(fā)學習者的學習積極性。而如何根據(jù)學習者的特點進行較為準確的評價是網(wǎng)絡(luò)教學開放課堂所面臨的一個關(guān)鍵問題。該文利用在線學習過程中學習者學習活動所產(chǎn)生的大量數(shù)據(jù)對學習者產(chǎn)生形成性評價,首先基于認知思維的要求作為在線學習的目標分類,通過自動分類算法進行聚類分析區(qū)分學習者的應(yīng)用能力層次。在此基礎(chǔ)上,為提高數(shù)據(jù)的處理效率,加快對學習者的評價,再采用三層自動編碼器的神經(jīng)網(wǎng)絡(luò)降維提取關(guān)鍵特征,然后利用訓(xùn)練集中的數(shù)據(jù)訓(xùn)練學習器,并利用集成學習機制綜合單個學習器的結(jié)果,得到更為準確的評價結(jié)果。該文采集初中學生針對特定知識點的在線學習活動數(shù)據(jù)構(gòu)成訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)集,通過對比專家人工和機器學習機制對所構(gòu)造的測試集數(shù)據(jù)的評價結(jié)果,驗證了該文方法的有效性。
關(guān)鍵詞:在線學習;大數(shù)據(jù),云計算;機器學習
中圖分類號:G434 文獻標識碼:A
隨著信息化技術(shù)的發(fā)展,共享大數(shù)據(jù)的云計算平臺與教育行業(yè)不斷融合,為教育行業(yè)的發(fā)展提供了有力的技術(shù)支持。教育體系包括教學環(huán)節(jié)、學習體驗、互動機制、評估方法等各個方面都將發(fā)生一定程度的改變。這些改變中比較吸引人的特色是可以對任何受教育對象在任何時間、任何地點和任何形式(Anyone,Anytime,Anywhere,Anystyle)的自由在線學習方式。在這種自由在線學習方式的支持下,任何學習者,只要擁有一個可以訪問互聯(lián)網(wǎng)的移動客戶端,就可以訪問諸多云計算平臺上各種共享教育資源,不像課堂教學那樣必須在規(guī)定的時間和地點,由事先分派的教師來傳授。而受教育對象所學習的內(nèi)容,完全可以根據(jù)自己當前的知識水平、應(yīng)用能力、接收程度和個人偏好等,選擇相應(yīng)等級的教學內(nèi)容進行學習。不僅可以選擇教學內(nèi)容,而且在學習中還可以選擇適合于學習者自身和教學內(nèi)容的各種教學形式,比如施教者講解、演示視頻、模擬仿真實驗、習題訓(xùn)練等。
這種在線學習方式能夠結(jié)合學習者的個性化特點,啟發(fā)學習者的學習自主性,并提高學習者的效率。學習者可利用生活中的碎片化時間完成視頻觀看、提問、練習、討論、測試等各個教學環(huán)節(jié)。不再局限于課堂教學中學習時間地點的限制。而且在線學習提供了更多交互的方式,而這種互動的方式不再受課時的約束。學習者可以根據(jù)自己的興趣重復(fù)選擇相同的內(nèi)容,可以隨時中止,并在適合于學習者的時間段重新恢復(fù)。學習者還可以任意調(diào)取已經(jīng)學習過的內(nèi)容進行對比復(fù)習,或?qū)Ρ葘⒁獙W習的內(nèi)容為下一步的學習打下更好的基礎(chǔ),這些互動更加強調(diào)知識點之間的聯(lián)系,有利于學習者打通各個孤立的知識點,形成完整的知識網(wǎng)絡(luò)。
學習者在線學習的個性化需求可分為顯式需求和隱式需求,顯示需求包括學習者學習的時段、學習的內(nèi)容、實踐的環(huán)節(jié)、訓(xùn)練的題型和交互的方式,這些可由學習者完全清晰定義的需求,也包括了難以由學習者自身清晰定義的需求,比如學習者如何根據(jù)自己當前所掌握的知識范圍,所達到的應(yīng)用能力水平和與其他同階段學習者的相對差異,來選擇最合適的學習內(nèi)容和學習方式。在傳統(tǒng)教學模式下,學習者對自己所處的能力水平并沒有很清晰的認識,也會缺乏足夠的對比參照。而結(jié)合云計算平臺的在線學習方式使學習主體的個性化特征數(shù)據(jù)收集成為可能。而且隨著在線學習的推廣和用戶數(shù)的劇增,其個性化特征數(shù)據(jù)收集將會以龐大的樣本空間為基礎(chǔ),從而使特征數(shù)據(jù)覆蓋盡可能多的受教育人群,可以對受教育對象產(chǎn)生準確詳細的描述。
通過個性化學習,使整個學習過程能夠不斷針對學習者的個性化特征和個性化需求給出最適合學習者的學習內(nèi)容和學習方式。而個性化學習最重要的基石是個性化評價。不能對學習者的個性化特征,如學習者的知識范圍、應(yīng)用能力水平、欠缺和盲點、學習能力以及學習偏好等做出完整而準確的評價,就無法因材施教,實現(xiàn)真正的個性化學習。傳統(tǒng)的課堂教學中,施教者往往無法跟蹤每個學習者的學習過程,只能通過階段性考試的方式來做出評價。這樣的評價方式往往失之于寬泛,無法對每個個體產(chǎn)生精確的個性化評價,而且難以在學習過程中實時動態(tài)調(diào)整,保證學習的效率。而基于信息技術(shù)的網(wǎng)絡(luò)在線學習,可以充分收集學習者學習的過程數(shù)據(jù),從而為產(chǎn)生足夠細粒度的個性化評價提供了可能性。
在線學習可以記錄學習者的每個學習活動,包括學習者登錄的時間和每次學習持續(xù)的時間,所學習的視頻,所做的習題,與其他學習者的討論。因此可以將個性化評價方法和體系融入到學習者的每個學習活動中??梢韵胍?,每個學習者都會產(chǎn)生龐大的用戶學習活動數(shù)據(jù)。如果憑借人工經(jīng)驗,即使對單個學習者的學習活動分析都是一件非常繁雜的工作。而一個實際可用的在線學習平臺,可能會登記有成千上萬的用戶,這些用戶整體上每天都可能在學習平臺產(chǎn)生上G乃至上T的數(shù)據(jù),對這些數(shù)據(jù)利用人來進行手工分析已成為不可能的工作。因此,如何根據(jù)用戶學習活動的所產(chǎn)生的大數(shù)據(jù),提取用戶的個性化特征,并根據(jù)用戶的個性化特征產(chǎn)生完整而準確的個性化評價。已經(jīng)成為云計算平臺支撐下的在線學習系統(tǒng)亟需解決的核心問題。
針對這一核心問題,馮翔等從大數(shù)據(jù)視角出發(fā),提出一種基于Hadop技術(shù)的智能數(shù)字化教育服務(wù)架構(gòu),解決海量教育信息的匯聚、存儲與獲取,和按需分析報告的可視化呈現(xiàn)等。方海光等通過對學習者的在線學習活動和學習行為的全面跟蹤和記錄,形成以學習者為中心的學習活動、學習風格、興趣、偏好等多維立體化數(shù)據(jù)模型,并提出一種基于數(shù)據(jù)挖掘的量化自我學習算法分析學習者的學習行為模式,以此為基礎(chǔ)產(chǎn)生教育的個性化的服務(wù)。白雪梅等提出一種基于梯度下降的機器學習分析方法進行主觀和客觀數(shù)據(jù)綜合,并考慮其他影響因素的存在,通過循環(huán)計算累加結(jié)果得到了基于數(shù)據(jù)的分析模型來進行自動評價和預(yù)估,并對一些出現(xiàn)教學質(zhì)量問題的概率比較大的課程進行自動的監(jiān)控。還有其他研究者在這一方面做出了積極探討。
但上述方法在數(shù)據(jù)特征提取效率上仍然不能適應(yīng)日益龐大的數(shù)據(jù)集,數(shù)據(jù)規(guī)模的不斷增大給目前的在線學習課堂產(chǎn)生了巨大的壓力。所造成的問題集中體現(xiàn)在如下兩個方面,一個是如何對學習者的多維的立體特征進行自動的分類識別,還有一個是如何提高多維立體特征的處理效率以達到實時在線評價的目的。本文將致力于解決個性化特征提取的有效性和實時性的問題,以適應(yīng)網(wǎng)絡(luò)在線課堂學習者規(guī)模的不斷擴大和知識內(nèi)容的擴充。
為此,本文提出一種基于自動聚類和集成學習策略的在線評估方法對在線學習系統(tǒng)的用戶進行形成性在線實時評估,獲得學習者個性化特征并給出綜合評價,從而建立大數(shù)據(jù)在線學習的個性化評價體系。提出的思路如下:首先基于認知理論對學習者的層次結(jié)構(gòu)分析,確定初始的類別數(shù)目。然后使用K-means算法對開放課堂所記錄的初始學習活動特征向量進行自動聚類。再利用自動編碼器對關(guān)鍵特征進行提取,以提高評價的效率和實時性。最后應(yīng)用集成學習策略整合多個分類器來提高評價的準確性。
其余的內(nèi)容組織如下:第二部分對數(shù)據(jù)的分類和特征提取方法進行描述,第三部分給出多個學習器的集成學習策略,第四部分給出實驗數(shù)據(jù)分析,第五部分給出結(jié)論和下一步的研究方向。
在線學習平臺可以對每一個參與學習的受教育者進行學習活動的全程跟蹤,包括查看學生的登錄時間,學生選擇的知識點和教學模塊,所訪問的與知識點和教學模塊相關(guān)的資源,每個資源訪問的次數(shù),每次訪問持續(xù)的時間和學生反饋意見等。在線學習平臺對學習者學習過程的跟蹤分析以得到學習者過程的形成性評價的依據(jù)。除了對單個知識點和教學模塊的分析,還需要對學生多個知識點的綜合應(yīng)用能力產(chǎn)生評價。為此首先可以收集若干學習者的原始學習活動記錄,然后根據(jù)原始記錄使用機器學習方法進行自動聚類,并針對類別進行特征提取,通過考察少數(shù)已知樣本生成標簽,得到初步評價。
(一)在線學習的原始數(shù)據(jù)
在本文中依據(jù)布魯姆的基于認知思維層次的要求作為在線學習的目標分類。針對受教育者選擇的知識節(jié)點,對學習者的學習活動進行分析,判斷學習者對該知識點的學習是否已經(jīng)達到要求的能力應(yīng)用層次。布魯姆目標理論將認知思維過程分為記憶、理解、應(yīng)用、分析、評價和創(chuàng)造這六個能力應(yīng)用層次。這些層次首先是對知識的理解和識記,然后是應(yīng)用和分析,再側(cè)重綜合能力,強調(diào)學習者能夠?qū)Χ鄠€知識點能夠整體把握并進行重構(gòu)。
為此,借鑒方海光等提出的特征向量并增加登記時間和互動方式等學習狀態(tài)變量用于記錄學習偏好,學習者的在線學習行為可用以下跟蹤數(shù)據(jù)描述:登錄時間、選擇知識點、教學模塊、教學內(nèi)容、互動方式、學習時長、學習次數(shù)、通過節(jié)點數(shù)、討論提問數(shù)、回答與回復(fù)數(shù)、參加測試數(shù)、測試難易度、測試完成率、測試得分、綜合任務(wù)完成度、內(nèi)容準確率、問題提出響應(yīng)率、解決方案范圍等從底層到高層包括學習原始的活動記錄和一些可直觀得到的評測,這些狀態(tài)變量將會形成學習者原始數(shù)據(jù)集U={x1,x2,…,xN},每個樣本xi,i=1,2,…,N將會反映學習者i的學習狀態(tài),N為總用戶數(shù)。每個樣本xi=(xi1,xi2…,xiM),其中每個分量xij描述學習活動的一個特性,如學習時長、學習次數(shù)等。
通過記錄這些原始活動記錄和直觀評測,可以全面跟蹤學習者的學習行為和初步的學習效果,形成包括學習風格、學習興趣和學習偏好等能全面反映學習者學習狀態(tài)的多維立體化數(shù)據(jù)模型。為進一步挖掘用戶的隱示特征和評價指標提供了充分的原始基本信息。為能提取該原始信息的深度特征,本文首先利用數(shù)據(jù)挖掘的自動聚類技術(shù)為6個不同的能力應(yīng)用層次產(chǎn)生6個聚類,并依據(jù)少數(shù)的樣本得到每個類別的標簽,在使用多層自動編碼器產(chǎn)生降維特征數(shù)據(jù)。
(二)原始數(shù)據(jù)的自動聚類
由于在線學習平臺的用戶數(shù)量龐大,會產(chǎn)生大量的學習活動數(shù)據(jù)。這些數(shù)據(jù)的規(guī)模超出了人工直接處理能力,對在線學習平臺數(shù)據(jù)進行人工分類是難以完成的,為了能夠更方便地表示和理解這些數(shù)據(jù),提取其中隱藏的有用信息,需要用到聚類分析技術(shù)。為此本文首先采用無監(jiān)督的聚類分析技術(shù)對學習者原始數(shù)據(jù)集進行自動分類。
聚類分析是數(shù)據(jù)挖掘的一項常用技術(shù),被廣泛應(yīng)用于包括模式識別、數(shù)據(jù)分析、圖像處理和信息檢索等多個領(lǐng)域,通過分析數(shù)據(jù)并從中發(fā)現(xiàn)有用的信息。聚類將數(shù)據(jù)對象分組成為若干個類或簇,使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別很大,通過聚類,可以識別密集和稀疏的區(qū)域,發(fā)現(xiàn)全局的分布模式以及數(shù)據(jù)屬性之間的相互關(guān)系。聚類方法不需要事先訓(xùn)練,它直接處理未知樣本,把這些樣本聚合成不同的簇,往往會成為大數(shù)據(jù)處理的前期步驟。
本文采取經(jīng)典的K-means算法,也被稱為K-均值算法作為學習者數(shù)據(jù)自動劃分的方法。這是一種基于劃分的聚類算法。算法的輸入包括N個學習者的數(shù)據(jù)集u和聚類簇數(shù)K=6,該聚類簇數(shù)即對應(yīng)依據(jù)布魯姆目標理論所劃分的6個能力應(yīng)用層次,輸出則是劃分好的K個簇。首先隨機選取K個學習者樣本作為初始聚類中心,然后計算各個初始學習者樣本到聚類中心的距離,把樣本歸到離它最近的那個聚類中心所在的類;對調(diào)整后的新類計算新的聚類中心,如果相鄰兩次的聚類中心沒有任何變化,說明樣本調(diào)整結(jié)束,聚類準則函數(shù)已經(jīng)收斂。該算法的具體步驟如算法Ⅰ所示:
(三)聚類數(shù)據(jù)的特征提取
由于原始的樣本數(shù)據(jù)是高維向量,直接利用該高維向量進行判斷將會占據(jù)在線學習平臺的大量計算資源,降低學習平臺的服務(wù)響應(yīng)速度,并且難以實現(xiàn)在線評價。為了提高數(shù)據(jù)的處理效率,加快對學習者的評價,本文采取三層自動編碼器非線性特征提取技術(shù)對分簇后的數(shù)據(jù)進行訓(xùn)練和特征提取,得到降維的特征向量,再根據(jù)降維向量來做出評價。
三層自動編碼器(Auto-Encoder,AE)是由輸入層、隱藏層和輸出層三層神經(jīng)網(wǎng)絡(luò)構(gòu)成的神經(jīng)網(wǎng)絡(luò),由編碼器和解碼器兩部分組成。學習者的原始樣本向量xi被輸入到編碼器之后得到一種編碼形式,再通過解碼器解碼得到重構(gòu)數(shù)據(jù)。如果編碼后的數(shù)據(jù)能夠較為容易地通過解碼恢復(fù)成原始數(shù)據(jù),我們則認為隱藏層的編碼形式較好地保留了數(shù)據(jù)信息。通過輸出表示層和原始輸入層的比較反向訓(xùn)練自動編碼器的權(quán)值,以得到原始數(shù)據(jù)的壓縮表示。三層自動編碼器的結(jié)構(gòu)如圖1所示。
圖1中左邊的一層為數(shù)據(jù)輸入層,也就是原始的高維數(shù)據(jù)xi,記錄了學習者的選擇知識點、交互方式、學習時長、學習次數(shù)等有關(guān)學習活動的信息。中間一層即為隱藏層,該層提供數(shù)據(jù)的中間轉(zhuǎn)換,其輸出是低維空間向量zi,也就是所提取的特征,該特征向量包含了原始數(shù)據(jù)的關(guān)鍵特征。根據(jù)自動編碼器的結(jié)構(gòu),可知:
在通過聚類方法和自動編碼器得到降維的聚類數(shù)據(jù)并根據(jù)聚類中的部分已知樣本得到標簽數(shù)據(jù)后,可以使用聚類的數(shù)據(jù)和該聚類所對應(yīng)的標簽對監(jiān)督學習器進行訓(xùn)練,得到能夠?qū)稻S數(shù)據(jù)進行分類的學習器,但由于使用單個學習器容易產(chǎn)生過數(shù)據(jù)擬合的情況,本文采用集成學習的機制克服單獨的學習器所造成過擬合現(xiàn)象。
(一)集成學習
集成學習(Ensemble Learning)方法不是一個單獨的機器學習算法,而是通過構(gòu)建并結(jié)合多個機器學習器來完成學習任務(wù)。集成學習可以用于多種傳統(tǒng)的機器學習領(lǐng)域,如分類問題集成、回歸問題集成、特征選取集成、異常點檢測集成等,本文利用分類集成來對學習者做出個性化評價。
集成學習方法的結(jié)構(gòu)如圖2所示。從圖2中可以看出,對于訓(xùn)練集數(shù)據(jù),我們通過訓(xùn)練若干個個體學習器,通過一定的結(jié)合策略,就可以最終形成一個強學習器,以達到綜合各個個體學習器學習結(jié)果的目的。
從圖2中看出,集成學習有兩個主要的問題需要解決,第一是如何得到若干個個體學習器,第二是如何選擇一種結(jié)合策略,將這些個體學習器的輸出集合成一個強學習器。關(guān)于如何選擇個體學習器,有兩種方法。第一種是同質(zhì)集成學習,所有的個體學習器采用同一個種類的學習器。比如都采用決策樹個體學習器,或神經(jīng)網(wǎng)絡(luò)個體學習器。第二種則是所謂的異構(gòu)集成學習,使用的個體學習器不全是一個種類,比如可以采用支持向量機個體學習器,邏輯回歸個體學習器和樸素貝葉斯個體學習器來學習,再通過結(jié)合策略來確定最終的分類強學習器。
目前同質(zhì)集成學習由于便于實現(xiàn)和設(shè)計結(jié)合策略,應(yīng)用更為廣泛,一般常說的集成學習的方法都采用的是同質(zhì)個體學習器。而同質(zhì)個體學習器使用最多的模型是CART決策樹和神經(jīng)網(wǎng)絡(luò)。同質(zhì)個體學習器按照個體學習器之間是否存在依賴關(guān)系可以分為兩類,第一個是個體學習器之間存在強依賴關(guān)系,一系列個體學習器基本都需要串行生成,代表算法是Boosting系列算法,第二個是個體學習器之間不存在強依賴關(guān)系,一系列個體學習器可以并行生成,代表算法是裝袋法(Bagging)和隨機森林(Random Forest)系列算法。本文所用到的方法為裝袋法。
(二)裝袋法
裝袋法集成學習的弱學習器之間沒有依賴關(guān)系,可以并行生成,裝袋(Bagging)是Bootstrap Aggregating的縮寫,是第一批用于多分類集成算法的學習方法。其原理如圖3所示。
從圖3可以看出,裝袋法的個體弱學習器的訓(xùn)練集是通過隨機采樣得到的。通過T次的隨機采樣,我們就可以得到S個采樣集DS,對于這S個采樣集,我們可以分別獨立的訓(xùn)練出S個弱學習器,再對這S個弱學習器通過集合策略來得到最終的強學習器。
隨機采樣采用的是自助采樣法(Bootstap Sampling),即對于Ni個樣本的原始訓(xùn)練集,先隨機采集—個樣本放入采樣集,接著把該樣本放回,也就是說下次采樣時該樣本仍有可能被采集到,這樣采集m次,最終可以得到m個樣本的采樣集,由于是隨機采樣,這樣每次的采樣集是和原始訓(xùn)練集不同的,和其他采樣集也是不同的,這樣得到多個不同的弱學習器。Bagging的具體步驟如算法Ⅱ描述:
其中,Dbs為自助采樣產(chǎn)生的樣本分布。經(jīng)過T輪訓(xùn)練,我們可采樣出T個有m個訓(xùn)練樣本的采樣集,然后基于每個采樣集訓(xùn)練出一個基學習器,再將這些基學習器進行結(jié)合。在對預(yù)測輸出進行結(jié)合時,Bagging使用簡單投票法。若分類預(yù)測時出現(xiàn)兩個類收到同樣票數(shù)的情形,則最簡單的做法是隨機選擇一個。
裝袋法通過降低基分類器的方差,改善了泛化誤差。其性能依賴于基分類器的穩(wěn)定性;如果基分類器不穩(wěn)定,裝袋法有助于降低訓(xùn)練數(shù)據(jù)的隨機波動導(dǎo)致的誤差;如果穩(wěn)定,則集成分類器的誤差主要由基分類器的偏倚引起。由于每個樣本被選中的概率相同,因此裝袋法并不側(cè)重于訓(xùn)練數(shù)據(jù)集中的任何特定實例。
Bagging算法的主要參數(shù)為基學習器(通常是決策樹),樣本數(shù)目和特征數(shù)目。一個決策樹帶來的不穩(wěn)定因素可由多個決策樹的組合模型克服。樣本的數(shù)目和特征數(shù)目是用來訓(xùn)練每個基學習器的參數(shù)。公式(4)所表示的偏差描述了機器學習算法在期望預(yù)測和實際結(jié)果之間的擬合能力。公式(5)所表示的方差給出了數(shù)據(jù)擾動對算法的影響。
為驗證本文提出方法,對長沙某中學的初中部學生在某學習網(wǎng)站的學習活動記錄進行分析對照。此次對照實驗共設(shè)置了分別處于初一、初二、初三第二學期期中考試后的三個對照組,每個對照組采集了500個學生針對3個課程的某個知識點在兩周內(nèi)的學習活動記錄。這3個課程分別為語文、數(shù)學和政治。語文所對應(yīng)的知識點為課文《口技》的理解,數(shù)學所對應(yīng)的知識點為不等式組的學習,政治所對應(yīng)的知識點為未成年人保護法的學習。所提取的特征為第二節(jié)所描述各種學習活動記錄下來的特征向量。原始投特征向量的維度為23。這些數(shù)據(jù)能夠從各方面反映學習者的學習態(tài)度,學習時效和學習過程的變化,是網(wǎng)站所能收集的對學習者比較全面的信息覆蓋。
每個對照組根據(jù)平時課堂表現(xiàn)和測試結(jié)果選取36個學生作為已知樣本,用于標簽聚類后的數(shù)據(jù)。這36個學生在6個應(yīng)用能力層次中的分布如表1所示。
由本文第1節(jié)和第2節(jié)的方法,先對每個對照組的原始記錄使用K-means方法進行聚類,其中K=6。每類對應(yīng)一個應(yīng)用能力層次。可根據(jù)聚類中的已知樣本為該類打上標簽。從每個聚類數(shù)據(jù)中抽取20個樣本(非已知樣本)組成總共20×6=120個樣本的測試集。剩下的380樣本(包含已知樣本)將會用于訓(xùn)練用于降維的自動編碼器和集成學習機制中的單個學習器。訓(xùn)練完成后測試集中的120個樣本將會由訓(xùn)練好的自動編碼器和集成學習器處理得到評價結(jié)果。這120個樣本將再由專家組人工給出評價結(jié)果,并以此為依據(jù)來判斷學習機制的評價誤差。
每個對照組經(jīng)過聚類的結(jié)果如圖4(a)、(b)和(c)所示。由圖4可以看出,對于不同課程的知識點的應(yīng)用能力層次在各個對照組中都基本呈類似正態(tài)分布的模式,即大部分人處于第三、第四和第五層次,少數(shù)人位于第一、第二和第六層次。但不同的課程其區(qū)分度會有不同,具有數(shù)值量化依據(jù)的數(shù)學課程比不太容易量化的政治課程和語文課程其曲線形式會略顯陡峭。這也說明該網(wǎng)站在對主觀題評分時會略為寬松。
為了能夠?qū)Σ煌昙墝φ战M進行橫向比較,下頁圖5顯示了對于每個課程,不同對照組的聚類曲線。下頁圖5(a)、(b)和(c)分別顯示了語文、數(shù)學和政治課程知識點學習的聚類結(jié)果??梢钥闯龀跞龑W生的應(yīng)用能力普遍強于初二和初一的學生。這是因為初三學生要面對中考,在第二學期中考試后已經(jīng)經(jīng)過了大量的強化訓(xùn)練,不少學生對初一的知識點能夠做到融會貫通的程度。但初二學生并沒有顯著地高于初一學生,甚至第一和第二層次的學生數(shù)目還略多于初一學生,這說明初二學生仍然處于學習單個知識點的階段,對于初一的部分內(nèi)容其熟練程度有所降低。不過對于初二素質(zhì)較好達到第6層次的學生,由于基礎(chǔ)較好,對初一知識點的掌握仍然比初一同層次的學生要多,這在語文和政治這類知識點弱耦合且需要大量記憶的課程比較明顯。而對知識點耦合程度較高的數(shù)學,則不太明顯。這和學校日常教學所得到結(jié)果也是相適應(yīng)的。
為了進一步衡量本文所設(shè)計的評價方法的正確性,將本文方法和專家評價結(jié)果進行對比。為保證專家評價結(jié)果的正確性,對每個課程的知識點,采用7名該課程的資深任課教師來對每個對照組測試集樣本所對應(yīng)的學生做出評價,每個專家都會獨立地建立自己的包括筆試和面試等環(huán)節(jié)的測試方法和評價依據(jù)。為了能夠提供精確的比較結(jié)果,對每個應(yīng)用能力層次,又再次分為20個等級。則對于一個學生對某個知識點的評價結(jié)果可以為1-120中的一個等級。這個學生在這個知識點的最終成績是7個專家所給成績?nèi)∑骄玫健?名專家的權(quán)重相同。同時為了使本文的評價結(jié)果和專家結(jié)果具有可比性,測試樣本與聚類中心的距離可以作為在該類等級的衡量標準。三個對照組中測試樣本的評價對比誤差曲線如圖6所示。圖6(a)、(b)和(c)分別對應(yīng)初一、初二和初三這3個對照組的測試集。每個對照組測試樣本按照專家評測結(jié)果從低分到高分排序。圖6的橫坐標即是每個對照組測試集中120個樣本根據(jù)專家評測結(jié)果排序后的序號。
從圖6中可以看出,機器學習分析的結(jié)果和專家一對一面對面的評價結(jié)果是基本一致的。尤其是對層次6、層次1和層次2,對這三個層次的樣本機器學習給出的評價分值和專家給出的評價分值幾乎完全一致,少許的誤差應(yīng)該是由于7個專家結(jié)果取了平均值造成的。對于層次3、層次4和層次5,機器學習和專家給出的評測分值會有一定誤差,但最大也不超過12%,而且樣本處于同一層次。這說明對于優(yōu)秀的層次和較低的層次,機器學習和專家都容易取得確定的結(jié)果。而對中間層次的評價在邊界會存在一定的模糊性。
這里需要注意的雖然在本文是以專家評測分值作為標準來衡量機器學習的。但專家的評測分值更注重測試學生當前的狀態(tài),是一種結(jié)果性評測。而機器學習則包含這兩個星期以來的學習活動數(shù)據(jù),是一種面向過程的形成性評價機制。這兩種評測結(jié)果會有所不同。而機器學習的評測結(jié)果可能更能體現(xiàn)出一個學生的學習潛力。
為了能夠體現(xiàn)本文所提方法和專家組對不同課程的評價差別,圖7(a)、(b)和(c)分別對比了本文所提方法和專家組對語文、數(shù)學和政治這三門課程的評價分值。從圖7中看出,對于基本上能夠以數(shù)值量化的結(jié)果來評測的數(shù)學課程,本文所提的機器學習方法和專家組的評價分值最為接近。而對于需要進行大量主觀評價的語文課程,則兩者的差距會增加。在這種情況下,網(wǎng)站的作用相當于給出了另一個專家的主觀評價意見。從結(jié)果上看網(wǎng)站的評價結(jié)果略高,而這個結(jié)果也跟已知樣本的選取有一定關(guān)聯(lián)。
為了說明本文所給出方法中降維和集成學習的作用,將本文方法得到的每個對照組對每門課程的平均誤差(如表2所示)和不使用降維直接進行集成學習(如表3所示)和經(jīng)過降維后使用單一的學習器(如表4所示)進行比較。可以看出不進行降維或是直接使用單一機器學習器進行評價都會增加評價誤差。這是因為降維后更能提取樣本的有效特征從而做出更為準確評價。而使用單一學習器相較于集成學習其泛化能力不夠而降低了評價效果。這個比較結(jié)果進一步說明了本文所提方法的有效性。
在線學習可以針對學習者的特點,充分利用學習者的零散時間,更好地適應(yīng)學習者的個性化需求,激發(fā)學習者的積極性,提高學習效率。基于大數(shù)據(jù)云計算平臺的在線學習系統(tǒng)可以收集大量的用戶學習數(shù)據(jù),但如何有效利用在線學習平臺的大量活動數(shù)據(jù)對用戶產(chǎn)生準確的形成性個性化評價,是各個在線學習系統(tǒng)亟需解決的難題。為此,本文首先使用自動聚類的方法對學習者的數(shù)據(jù)進行分類,在分類中使用若干已知樣本為數(shù)據(jù)打上標簽。再通過自動編碼器組成的神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)進行降維處理提取特征。將訓(xùn)練集的特征數(shù)據(jù)作為學習器輸入訓(xùn)練學習器,然后使用集成學習機制集成多個學習器的判斷給出綜合評價。為驗證本文方法,構(gòu)造測試集,并對比專家組人工評價和機器學習的評價結(jié)果。結(jié)果表明機器學習的結(jié)果能夠反映測試樣本的應(yīng)用能力層次分布和動態(tài)變化,和專家組的評價結(jié)果非常接近。驗證了本文所給出方法的有效性。下一步可以考慮根據(jù)知識點之間的聯(lián)系對學習者的綜合應(yīng)用能力做出更精確的評價。