黃 婕
(1. 湖南省飛機維修工程技術研究中心,湖南 長沙 410124;2. 長沙航空職業(yè)技術學院,湖南 長沙 410124)
當前,隨著云計算、大數(shù)據(jù)和人工智能等信息技術的飛速發(fā)展,在線教育的適應性學習越來越引起教育信息技術領域?qū)<业年P注和研究。2017年,《新媒體聯(lián)盟地平線報告》也指出,個性化學習是一項“容易理解但卻難以尋求解決方案”的挑戰(zhàn);個性化學習、適應性學習等技術是在線學習環(huán)境中的重要研究問題。
現(xiàn)階段,教育發(fā)展過程中面臨著優(yōu)質(zhì)資源供給不足、規(guī)?;逃c人才差異化成長需求存在矛盾的問題。近年來,深度學習方法正成為各類推薦系統(tǒng)的研究熱點,其原因在于深度模型引入了一些有效的訓練方法,與傳統(tǒng)推薦方法相比,深度學習方法有助于在自適應學習環(huán)境中更加精準地實現(xiàn)個性化輔助學習,從而提高信息技術在教育學習領域的適用性[1]。
我們將從挖掘規(guī)律、分析學習特征和習慣、評估學習現(xiàn)狀及預測學習效果四個方面著手,提高學習者在線學習的效率和成效[2]。
利用大數(shù)據(jù)等先進技術對在線學習平臺的數(shù)據(jù)進行分析、研究,找到學習者的認知規(guī)律。重點關注學習者受何種因素干擾影響最多?;跊Q策樹算法的研究者[3]對學習者進行分類研究,發(fā)現(xiàn)學習方向、學習中的表現(xiàn)和平時成績都會影響最終學習成績。該算法發(fā)現(xiàn)了學生成績與學習管理體系的關聯(lián)。利用回歸算法的研究者[4]發(fā)現(xiàn)學習者合作學習解決實際問題的能力和學習者性別的組合也對學習產(chǎn)生影響。
不僅學習行為會影響學習成效,學習行為模式也有影響。利用EM算法的研究者[5]對學生進行聚類研究,發(fā)現(xiàn)了共同合作的行為模式對學習的影響。利用關聯(lián)規(guī)則算法的研究者[6]發(fā)現(xiàn)了學習者有知識誤區(qū)后的系列影響。
分析學習者的學習特征與習慣有利于提高學習成效,使得學習成績有所提高。
有研究人員善于研究學習者的學習風格和方法,有利用貝葉斯算法的研究者[7]通過游戲表現(xiàn)研究學習風格。而在決策樹算法基礎上建立計算模型的研究者發(fā)現(xiàn)了學生與在線學習系統(tǒng)之間互動數(shù)據(jù)的關系?;贙-means算法的研究者[8]則將學生分層,發(fā)現(xiàn)學生認知水平與成績優(yōu)劣的關系。
有研究者發(fā)現(xiàn)學習者瀏覽、查閱文獻的習慣,與瀏覽文件的順序和頻率有關,利用關聯(lián)規(guī)則和序列挖掘模型算法分析出學習者的知識結構及各知識點間的聯(lián)系。
依據(jù)學習者現(xiàn)階段知識掌握情況、學習習慣、特征,觀察學習者在線學習的學習現(xiàn)狀。結合學習者的學習現(xiàn)狀和知識掌握狀況,及時發(fā)現(xiàn)學習中存在的問題,有利于教師做好學情分析,調(diào)整在線學習教學方法,有利于學習者提升學習能力,收獲更好的學習成效。
有研究者利用隱藏的機器自我學習功能,及時發(fā)現(xiàn)學習者在學習中是否態(tài)度認真。有研究者利用序列模型挖掘算法發(fā)現(xiàn)學習者的學習方式是否得當、有效,能及時進行干預。也有研究者利用網(wǎng)絡分析手段研究共同學習的內(nèi)聚性特征,能將孤立團隊和活躍團隊有效區(qū)分。也有基于教育學和心理學的專家[9]發(fā)現(xiàn),以對學習的干擾因素構建的數(shù)學模型能預估出學生精神狀態(tài),有助于教師及時進行心理輔導,能緩解壓力,提高效率。
不少研究者利用大數(shù)據(jù)構建計算模型,通過數(shù)據(jù)關系和教育理論進行學習效果的預測。
有研究者利用線性回歸模型對學生的學習情況進行預測。還有研究者[10]結合學習者的學習習慣再利用Logistics回歸模型建模,預測學生的學習成績,同時,還能對后期行為進行追蹤,發(fā)現(xiàn)利用Logistics回歸模型能預測學習者后期是否能考上大學。也有研究者能進行學習動力不足的預測,能及時補救減少輟學發(fā)生。
基于結構分析最小原理和統(tǒng)計學原理的支持向量機SVM算法,是將測試數(shù)據(jù)在學習者的學習能力和模型復雜度之間權衡、比對選擇最優(yōu)方案。此支持向量機SVM算法能有效模仿真實模型,首先將原始特征利用核函數(shù)變換映射后,在高維空間分解特征矩陣,使得問題可以轉(zhuǎn)化成對凸二次規(guī)劃問題的求解。令樣本數(shù)據(jù)集是(xi,yi),xiRn,yi{-1, 1},i=1,…,n,超平面: ·x+b=0。最優(yōu)超平面能把兩種樣本到超平面的最短距離之和取到最大值,公式是:
上式(1)中松弛變量用 表示,懲罰參數(shù)用C表示,而上式(2)中b表示閾值。訓練集利用非線性映射量 (xi)映射到高維空間,核函數(shù)是公式:K(xi,xj)= (xi)· (xj),用二次規(guī)劃問題求得最佳超平面:
利用Lagrange乘子ai求出決策函數(shù):
對上述核函數(shù)的優(yōu)化、決策函數(shù)的性能改善是后續(xù)重要內(nèi)容,可以使SVM算法獲得更優(yōu)性能。
因支持向量機算法對在線課程平臺的學習行為分析有誤差,而利用加權的支持向量機算法,是基于大數(shù)據(jù)技術Random Forest(隨機森林)模型的Gini(基尼)指標計算特征加權值,再對隨機森林分類識別的影響力做計算,依據(jù)各屬性的重要性設置對應權重,使得影響力大的特征屬性比影響力小的獲得的權重更大,再把此權重值利用支持向量機進行計算,以得到SVM算法的在線課程學習平臺學習者的行為分析。本文亟待解決的問題是利用優(yōu)化的核函數(shù)選擇內(nèi)積參數(shù),有助于SVM算法進行更優(yōu)分類識別。
利用核函數(shù)添加的特征加權值向量機叫作特征加權支持向量機。其概念為:核函數(shù)Kp是在X*X(XRn)區(qū)間里,p是輸入集的n階(維度)線性變換矩陣,核函數(shù)Kp計算公式:
算法步驟為:
步驟1:樣本集S的收集和取樣,S={x(i), x(j)}, (i=1,…,n),其中x(i)是特征變量,y(i)是類別量。
步驟2:Random Forest(隨機森林)模型的Gini(基尼)指標的獲取、指標參數(shù)的處理都是標準化操作。在建立加權特征量時應當根據(jù)標準化后的參數(shù)來加權。利用RFG值優(yōu)化原始特征內(nèi)積RFG(x(i))=(gx(1),…,gx(n)),(i=1,…,n)
步驟3:空間線性矩陣p=diag(RFG(x(i)))的建立,用p來構造Kp核函數(shù)。
步驟4:有效性驗證。對于Kp的校驗采用SVM方法。若存在K和Rn×Rn→R的映射(R是實數(shù)域,Rn是n維向量),當樣本集是{x(1), x(2),…,x(m)}時,有效核函數(shù)K是對此半正定的,即所有非零實數(shù)向量zr都滿足zrKz>0。任意x(i),x(j)代入K中得到kij=k(x(i),x(j))(i,j1,…,m),最終得到m*n的矩陣:
因此核函數(shù)K在訓練集{x(1), x(2),…,x(m)}中有效。
步驟5:把SVM的線性核函數(shù)替代掉,利用特征加權的Kp核函數(shù)輸出支持向量構造分類器。
步驟6:設計特征加權向量機的RFG-SVM算法流程圖及性能檢測,如圖1所示。
圖1 特征加權值向量機RFG-SVM算法流程圖
針對獲得校內(nèi)微知庫平臺數(shù)據(jù)集的3869行數(shù)據(jù)及10項特征屬性進行研究,先利用R-Studio對數(shù)據(jù)做預處理,舍掉錯誤數(shù)據(jù)最終獲得3834條數(shù)據(jù)集。采用Random Forest隨機森林模型和varimpPlot函數(shù)得到最終數(shù)據(jù),得到的Gini指標值如圖2所示。
圖2 Random Forest 的Gini指標值
為驗證Random Forest的Gini的穩(wěn)定性,將它與其他兩種支持向量機的算法進行對比,結合微知庫線上平臺數(shù)據(jù)研究分析如下:
對比表1數(shù)據(jù),RFG-SVM算法的準確率(Accuracy)最高,且根均方誤差最優(yōu),所以在識別分類和預測判斷上RFG-SVM性能較強,對在線課程中學生的學習行為的分析、預測識別的準確度有明顯提高。
表1 實驗數(shù)據(jù)對比
接下來采用三種算法對學校微知庫平臺的在線課程學生學習行為的數(shù)據(jù)進行分析,研究各類算法最優(yōu)應用場景,實驗數(shù)據(jù)如圖3所示。
圖3 在線課程對比試驗數(shù)據(jù)分析
對比這三個算法對各種學習行為數(shù)據(jù)的分析,可以看出具有特征加權的支持向量機的RFGSVM算法在分類識別上較另外兩種算法準確性更高,而常見的SVM算法的準確率較低。因為RFG-SVM算法數(shù)據(jù)采集樣本較低,使得“互動次數(shù)”的數(shù)量較低,導致性能不佳。但綜合各項性能指標,RFG-SVM算法較另外兩種算法,在對在線課程的學習行為數(shù)據(jù)的分析、對比和預測上都有較高的準確性,性能最優(yōu)。
對學校微知庫平臺的飛機電子設備維修專業(yè)群的五門課程的數(shù)據(jù)進行分析,C語言程序設計(C)、電工技術(G)、單片機技術與應用(D)、數(shù)字電子技術(S)、飛機儀表技術與應用(F),每門課程基本要求不相同,學習規(guī)律各異,學生的學習方法也不同,最終五門課程的成績動態(tài)分布圖如圖4。
圖4 在線課程成績動態(tài)曲線圖
從表2看出,有良好學習習慣的學生成績較好,而僅完成基本學習內(nèi)容不參加互動、討論的成績不理想,但也不是說參與的越多就一定有好的學習效果,不過能較好地評估學生的學習現(xiàn)狀并給出該課程的學習建議。
表2 不同學習活動和成績對應關系
在線課程的學習平臺要讓教師及時分析學生學習習慣和規(guī)律,了解學生的學習特征和學習狀態(tài),利用RFG-SVM方法對學生在線課程的學習效果進行預測。下面利用RFG-SVM方法對學習者進行實驗性預測。
4.2.1 問題分析和數(shù)據(jù)集
教師需對有不同學習規(guī)律、學習特征和習慣的學生預測學習效果,五門課程學習時長、跨度都不一樣,選擇中間10周的學習狀況,表3對學習者的多個特征值進行統(tǒng)計,n表示學習者個數(shù),p表示特征值個數(shù)。
表3 不同學習活動和成績對應關系
預測值:
當y=0時不及格,y=1時及格。
4.2.2 實驗結果
利用完成作業(yè)次數(shù)、討論互動次數(shù)、學習次數(shù)、實驗次數(shù)、實踐活動次數(shù)五個數(shù)據(jù)參數(shù),得到下表4的結果。
表4 實驗數(shù)據(jù)樣本
上述五門課程利用隨機森林的支持向量機RFG-SVM算法進行預測,學習效果的準確率較高。當參數(shù)為1時,準確率和召回的平均值較高,證明該方法有效。
在發(fā)現(xiàn)傳統(tǒng)支持向量機算法對在線課程平臺的學習行為分析有誤差時,提出的基于大數(shù)據(jù)技術的RFG-SVM支持向量機算法,是在傳統(tǒng)支持向量機算法上做完善、修改,經(jīng)特征加權計算、數(shù)據(jù)挖掘后在分類、識別方面功能更完善,預測更精準。通過對不同學習行為的學生的學習效果的預測,發(fā)現(xiàn)該方法能有效幫助教育者通過在線平臺分析學習者的學習行為,預測學習效果,具有更高的準確率和穩(wěn)定性。