李振華 張昭理 劉海
【摘要】? 針對慕課等在線學(xué)習(xí)課程存在的完成率低、輟課率高等問題,不少研究者通過檢測學(xué)習(xí)者的學(xué)習(xí)投入度來發(fā)現(xiàn)“問題”學(xué)生,對其進(jìn)行干預(yù)以保證學(xué)習(xí)效果。本文以構(gòu)建在線學(xué)習(xí)投入自動化評測模型為目標(biāo),通過構(gòu)建集成評測模型,利用學(xué)習(xí)過程中產(chǎn)生的視頻圖片和鼠標(biāo)流數(shù)據(jù)對學(xué)習(xí)者的投入水平進(jìn)行評測。集成模型由3個子模型組成,其中兩個子模型用于進(jìn)行圖片數(shù)據(jù)的處理,一個子模型用于進(jìn)行鼠標(biāo)流數(shù)據(jù)的處理,圖片部分的評測采用VGG16卷積神經(jīng)網(wǎng)絡(luò)對源圖片和相應(yīng)的LGCP特征進(jìn)行評測,鼠標(biāo)流數(shù)據(jù)采用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行評測。最后,利用模型集成的方法對學(xué)習(xí)者的學(xué)習(xí)投入度進(jìn)行綜合評測,再將其結(jié)果與學(xué)習(xí)者填寫的NSSE-China調(diào)查量表的結(jié)果進(jìn)行相關(guān)性分析,結(jié)果顯示兩者的評測結(jié)果顯著相關(guān),表明該模型用于學(xué)習(xí)投入評測是可行且有效的。
【關(guān)鍵詞】? 在線學(xué)習(xí);學(xué)習(xí)投入;自動化評價;視頻圖片;鼠標(biāo)流數(shù)據(jù);卷積神經(jīng)網(wǎng)絡(luò);BP神經(jīng)網(wǎng)絡(luò);模型集成
【中圖分類號】? G434? ? ? 【文獻(xiàn)標(biāo)識碼】? A? ? ? ?【文章編號】? 1009-458x(2020)10-0009-09
一、引言
自2012年“慕課元年”以來,大量在線學(xué)習(xí)平臺井噴式推出,涌現(xiàn)出許多具有影響力的慕課平臺,如國外的Coursera、EdX、Udacity和國內(nèi)的中國大學(xué)MOOC、學(xué)堂在線等。慕課憑借其“大規(guī)?!薄伴_放”“在線”等特點吸引了大量學(xué)習(xí)者(陳肖庚, 等, 2013),但在實踐過程中研究者發(fā)現(xiàn)大部分在線學(xué)習(xí)平臺存在著輟課率高、完成率低的問題。Ho等(Ho, et al., 2014)研究了MIT推出的17門慕課課程的學(xué)習(xí)統(tǒng)計數(shù)據(jù),發(fā)現(xiàn)最初的8.4萬名學(xué)習(xí)者中只有5.1%的人順利拿到了證書。Jordan(2015)對多個慕課平臺課程的學(xué)習(xí)情況進(jìn)行研究后發(fā)現(xiàn):慕課課程的平均完成率只有15%,最高也只能達(dá)到40%。蔣卓軒等(2015)分析了近8萬人的中文慕課學(xué)習(xí)行為數(shù)據(jù)后也發(fā)現(xiàn)類似的現(xiàn)象:學(xué)習(xí)者參與課程的情況總體呈現(xiàn)下降趨勢,且前期下降較為迅速,后期下降較為平緩。因此,提高在線學(xué)習(xí)的完成率、降低輟課率,提升在線學(xué)習(xí)的學(xué)習(xí)效果,成為研究者普遍關(guān)心的問題。其實,輟課率高、課程完成率低的問題在傳統(tǒng)的學(xué)校教育早已存在,并非在線教育所特有。早期的研究者認(rèn)為這些問題的出現(xiàn)主要跟學(xué)習(xí)者的學(xué)習(xí)投入不高有關(guān),不少研究發(fā)現(xiàn)學(xué)生學(xué)習(xí)結(jié)果與學(xué)習(xí)投入程度存在正向關(guān)系(Kuh, 2001, 2009)。因此,研究者們從學(xué)習(xí)者學(xué)習(xí)投入評測的角度出發(fā),通過評測發(fā)現(xiàn)學(xué)習(xí)投入不高的學(xué)生并及時給予干預(yù),以此保證學(xué)習(xí)效果。同時,對于學(xué)習(xí)者在線學(xué)習(xí)情況的精準(zhǔn)評測有助于推動各類在線教學(xué)平臺的迭代開發(fā)以及為研制學(xué)科工具提供參考數(shù)據(jù)(劉海, 等, 2018),也為打造個性化、智能化的教學(xué)環(huán)境提供技術(shù)支持 (劉海, 等, 2018; 張昭理, 等, 2018)。
二、學(xué)習(xí)投入評測相關(guān)研究
界定學(xué)習(xí)投入概念的結(jié)構(gòu)是開展評測分析的重要前提和基礎(chǔ)。學(xué)習(xí)投入被普遍認(rèn)為是一個多維度的元構(gòu)念,但學(xué)術(shù)界對于學(xué)習(xí)投入的維度構(gòu)成并未達(dá)成一致認(rèn)識,從二維度到四維度均有支持者。但是Fredricks等人(Fredricks, Blumenfeld, & Paris, 2004)提出的“行為、認(rèn)知、情感”三維度說獲得了較多的支持和認(rèn)可。
學(xué)習(xí)投入的評測研究是在明確了概念維度的基礎(chǔ)上針對某一個或幾個維度,運用特定的方法和技術(shù)手段來開展的。常用的評測方法包括:①自我報告法(Shernoff, Csikszentmihalyi, Shneider, & Shernoff, 2003);②經(jīng)驗抽樣法 (Fredricks & McColskey, 2012);③教師打分法 (Wigfield, et al., 2008);④訪談法;⑤觀察法(Greenwood, Horton, & Utley, 2002)。
學(xué)習(xí)投入的評測對于解決在線學(xué)習(xí)情境下學(xué)生輟課率高、完成率低的問題同樣具有借鑒意義。不過,在在線學(xué)習(xí)過程中因受到師生時空分離、學(xué)生規(guī)模龐大、教師對學(xué)生的約束力減弱等因素影響,傳統(tǒng)教育情境下的評測方法并不能很好地勝任。因此,在線學(xué)習(xí)情境下日志數(shù)據(jù)分析通常是評測學(xué)習(xí)者行為投入的常用方法。例如,Hamane等人(2014)、Sundar等人(2016)以及李爽等人(2016)的研究都通過分析在線學(xué)習(xí)系統(tǒng)中產(chǎn)生的日志數(shù)據(jù)來實現(xiàn)對學(xué)習(xí)投入的評測或成績的預(yù)測。他們通常的做法是從日志數(shù)據(jù)中抽取或構(gòu)建出反映學(xué)習(xí)投入不同維度的指標(biāo)變量,利用回歸分析、結(jié)構(gòu)方程等方法構(gòu)建評測模型。但是,日志數(shù)據(jù)主要針對學(xué)習(xí)行為進(jìn)行記錄,在表征情感和認(rèn)知維度的投入情況方面存在局限,而且其記錄的方式是基于事件觸發(fā),這使得所記錄的投入狀態(tài)數(shù)據(jù)是離散且不均勻的,影響了評測的準(zhǔn)確性。而且在學(xué)習(xí)投入的各維度中認(rèn)知、情感方面的投入是學(xué)習(xí)過程中的實質(zhì)性投入,能促進(jìn)學(xué)生高階思維的發(fā)展并影響學(xué)習(xí)結(jié)果和體驗 (Nystrand & Gamoran, 1991)。因此,為了對情感和認(rèn)知投入進(jìn)行測量,不少研究者將腦電傳感器、皮膚感應(yīng)傳感器、血壓儀、心率儀等傳感設(shè)備用于對學(xué)習(xí)者的投入狀態(tài)和興奮水平進(jìn)行測量(Chaouachi, Chalfoun, Jraidi, & Frasson, 2010; Goldberg, Sottilare, Brawner, & Holden, 2011)?;趥鞲衅鞯脑u測方法可對學(xué)習(xí)過程中的生理指標(biāo)進(jìn)行全面的記錄,能對學(xué)習(xí)中的情感和認(rèn)知維度進(jìn)行有效的表征,但是這些設(shè)備主要適用于實驗室環(huán)境,易用性和經(jīng)濟性不高。Booth等人(2017)則利用攝像頭對學(xué)習(xí)者的面部表情進(jìn)行識別以判斷學(xué)習(xí)投入。該方法主要利用計算機視覺方法對學(xué)生的表情狀態(tài)進(jìn)行判斷,因此對情感投入的評測具有較好的效果,加之使用方便、成本較低,易于普及。
從技術(shù)發(fā)展的視角來看,學(xué)習(xí)投入評測的發(fā)展過程大致呈現(xiàn)出從人工收集數(shù)據(jù)進(jìn)行分析到借助信息系統(tǒng)自動收集數(shù)據(jù)進(jìn)行分析,從粗粒度分析到細(xì)粒度分析,從定性分析到定量分析的發(fā)展軌跡。評測效率和精度的提升在很大程度上得益于信息技術(shù)的采用或技術(shù)本身的更新、升級。隨著物聯(lián)網(wǎng)、大數(shù)據(jù)和人工智能技術(shù)的興起,各種新技術(shù)正嘗試尋找與在線學(xué)習(xí)評測領(lǐng)域的最佳結(jié)合點,助推學(xué)習(xí)投入評測向自動化、智能化、精細(xì)化方向發(fā)展。
三、基于模型集成的學(xué)習(xí)投入評測
學(xué)習(xí)投入本身具有多維度的特點,涉及行為、情感和認(rèn)知多個維度(Fredricks, et al., 2004)。現(xiàn)有的研究大多以單一來源的數(shù)據(jù)作為基礎(chǔ)開展評測以證實對于學(xué)習(xí)投入評測的有效性。在這些研究成果的基礎(chǔ)之上,我們希望能更進(jìn)一步探索基于多種來源數(shù)據(jù)的學(xué)習(xí)投入評測,這不僅有助于得到更為精準(zhǔn)的評測結(jié)果,而且是構(gòu)建自動化評測系統(tǒng)的重要技術(shù)基礎(chǔ)。因此,我們期望將多個評測結(jié)果進(jìn)行融合來實現(xiàn)對多個維度投入的評測,提升評測的準(zhǔn)確性。本研究針對在線學(xué)習(xí)過程中的情感和認(rèn)知維度的評測開展研究,采用攝像頭和鼠標(biāo)作為主要的數(shù)據(jù)采集裝置,對學(xué)習(xí)者的在線學(xué)習(xí)投入度進(jìn)行評測。
(一)實驗設(shè)計的研究基礎(chǔ)
由于人類的情感主要通過面部表情進(jìn)行表達(dá),采用計算機視覺技術(shù)對攝像頭采集的人臉表情數(shù)據(jù)進(jìn)行分析可以了解學(xué)習(xí)者在線學(xué)習(xí)過程中的情感投入狀況。除此以外,也有研究發(fā)現(xiàn)學(xué)習(xí)者的頭部和身體姿態(tài)與情感和認(rèn)知投入之間存在確切的聯(lián)系,并通過實驗證實了頭部或身體姿態(tài)用于情感和認(rèn)知投入分析的可行性(Ballenghein & Baccino, 2019; DMello & Graesser, 2009)。
認(rèn)知投入屬于學(xué)習(xí)者的內(nèi)隱狀態(tài),除了通過量表進(jìn)行分析外,心理學(xué)領(lǐng)域通常對閱讀過程中的眼動行為與認(rèn)知加工之間的關(guān)系進(jìn)行分析和研究。在接近一百多年的研究歷史中,研究者提出了多個眼動控制模型,普遍認(rèn)為閱讀過程中的注視時間、凝視時間、眼跳距離、回掃頻率等眼動行為參數(shù)與認(rèn)知加工之間存在著確切的基本對應(yīng)關(guān)系(趙晶, 等, 2007)。Miller(2015)在此基礎(chǔ)上通過分析閱讀者在自主閱讀情境下的眼動行為實現(xiàn)了在微觀層面對學(xué)習(xí)投入進(jìn)行測量。在以自主閱讀為主要學(xué)習(xí)方式的在線學(xué)習(xí)中,眼動分析是測量學(xué)習(xí)投入較為有效的方法之一,但較高的設(shè)備成本限制了眼動分析方法的廣泛使用。
鼠標(biāo)作為學(xué)生與學(xué)習(xí)系統(tǒng)、學(xué)習(xí)資源進(jìn)行交互的主要輸入設(shè)備,具有較強的表征能力。鼠標(biāo)點擊流數(shù)據(jù)記錄了學(xué)習(xí)者進(jìn)出系統(tǒng)各學(xué)習(xí)模塊和頁面的時間、次數(shù)、先后順序等信息,基于這些信息所形成的日志數(shù)據(jù)常用于對學(xué)習(xí)行為投入進(jìn)行評測(李爽, 等, 2016; 李爽, 等, 2017; 李爽, 等, 2018)。此外,多項鼠標(biāo)軌跡和眼動軌跡的相關(guān)性研究表明,在進(jìn)行在線閱讀或相關(guān)搜索任務(wù)的過程中,鼠標(biāo)的移動軌跡和眼動軌跡之間存在著較強的相關(guān)關(guān)系和固定的“眼-鼠”跟隨模式(Chen, Anderson, & Sohn, 2001; Huang, White, & Buscher, 2012; Liebling & Dumais, 2014),而且眼動軌跡通常引導(dǎo)著鼠標(biāo)的移動(Liebling & Dumais, 2014)。Lagun和Agichtein(2011)在更大規(guī)模下開展實驗后發(fā)現(xiàn),在不使用眼動設(shè)備的情況下,鼠標(biāo)移動數(shù)據(jù)的結(jié)果與實驗室環(huán)境下的眼動跟蹤結(jié)果是相關(guān)聯(lián)的。可以看出,鼠標(biāo)數(shù)據(jù)本身不僅僅表征了學(xué)習(xí)者在行為方面的投入,而且在在線閱讀的情況下,通過鼠標(biāo)軌跡數(shù)據(jù)可以對學(xué)習(xí)者的閱讀速度、停留時長和回視瀏覽等情況有較為細(xì)致的了解。因此,鼠標(biāo)移動數(shù)據(jù)也具備和眼動數(shù)據(jù)一樣的表征學(xué)習(xí)者認(rèn)知投入狀態(tài)的能力。
本研究以攝像頭和鼠標(biāo)流數(shù)據(jù)作為來源數(shù)據(jù)分別構(gòu)建評測模型,最后通過模型集成的方式將兩個維度的評測模型進(jìn)行融合,并將評測結(jié)果與學(xué)習(xí)者填寫的量表數(shù)據(jù)進(jìn)行對比來檢測模型的實際評測效果。
(二)實驗流程
實驗分為四個主要部分:數(shù)據(jù)收集、數(shù)據(jù)標(biāo)注、模型訓(xùn)練和模型檢驗。
1. 數(shù)據(jù)收集
由于需要采集學(xué)習(xí)過程中的攝像頭數(shù)據(jù)和鼠標(biāo)數(shù)據(jù),本研究主要針對學(xué)習(xí)者面對桌面電腦進(jìn)行“一對一”自主學(xué)習(xí)的學(xué)習(xí)情景。所謂“一對一”是指一個學(xué)習(xí)者面對一臺學(xué)習(xí)終端(臺式電腦或筆記本電腦)進(jìn)行學(xué)習(xí)的情況。其中,攝像頭固定于顯示屏上沿用來采集學(xué)習(xí)者的正面表情,鼠標(biāo)則記錄學(xué)習(xí)者對學(xué)習(xí)頁面的控制情況,實驗中的學(xué)習(xí)頁面主要由圖片、文字、動態(tài)圖和視頻構(gòu)成,以垂直滾動的方式進(jìn)行瀏覽。整個實驗示意圖見圖1。
待相關(guān)數(shù)據(jù)收集完畢后,學(xué)習(xí)者在學(xué)習(xí)結(jié)束時還需要填寫NSSE-China調(diào)查表以確定實際的投入狀態(tài)水平,所謂NSSE-China是《全美學(xué)習(xí)投入調(diào)查量表》(National Survey of Student Engagement, NSSE)的中文版(羅燕, 等, 2009)。學(xué)習(xí)投入的評測量表除了NSSE-China外,還有《學(xué)生學(xué)習(xí)投入量表》(Utrech Work Engagement Scale-Student, UWES-S),不過UWES-S主要從動機、精力和專注三個維度開展評測,對于學(xué)習(xí)過程中的交互、情感和認(rèn)知維度的評測較為薄弱。相比之下,在對于行為、情感和認(rèn)知維度的覆蓋上NSSE-China問卷要更為全面。
2. 數(shù)據(jù)標(biāo)注
采集到的視頻流數(shù)據(jù)需要處理為離散的圖片數(shù)據(jù)并進(jìn)行投入水平的標(biāo)注以方便進(jìn)行評測模型的訓(xùn)練。標(biāo)注人員對圖片數(shù)據(jù)進(jìn)行標(biāo)注,為所有離散圖片中學(xué)習(xí)者的投入狀態(tài)水平進(jìn)行打分,投入水平值為1、2、3,分別對應(yīng)“不投入”“一般性投入”“非常投入”三種投入狀態(tài)。
3. 模型訓(xùn)練
構(gòu)造多模態(tài)數(shù)據(jù)評測模型,對圖像數(shù)據(jù)和鼠標(biāo)移動數(shù)據(jù)進(jìn)行綜合評測得到最終的學(xué)生學(xué)習(xí)投入水平。因為標(biāo)記圖片數(shù)據(jù)規(guī)模依然偏小,因此通過增加噪聲、反轉(zhuǎn)、旋轉(zhuǎn)、尺度變換等操作擴充數(shù)據(jù)并構(gòu)建訓(xùn)練數(shù)據(jù)集。在模型訓(xùn)練階段,將數(shù)據(jù)集劃分為訓(xùn)練集和測試集并對模型進(jìn)行訓(xùn)練。訓(xùn)練過程中采用10折交叉驗證的方式進(jìn)行模型選擇。
4. 模型檢驗
將評測模型得到的學(xué)生投入結(jié)果與學(xué)生填寫的NSSE-China量表得到的投入結(jié)果進(jìn)行對比以檢驗?zāi)P偷臏?zhǔn)確性,如果兩個結(jié)果存在較強的相關(guān)關(guān)系就說明面部表情數(shù)據(jù)和鼠標(biāo)移動數(shù)據(jù)能夠表征學(xué)習(xí)者在線學(xué)習(xí)投入狀態(tài),可以作為學(xué)習(xí)投入評測的依據(jù)。
(三)實驗組織
本研究以某高校2018年上學(xué)期網(wǎng)絡(luò)公共選修課“知識管理方法和實踐”的一個班學(xué)生作為研究對象,共47名同學(xué),均來自各個學(xué)院研一研二年級。其中,男生19名,女生28名;最大的26歲,最小的23歲,整體平均年齡為24.47±0.87歲;學(xué)生的院系來源組成,生命科學(xué)學(xué)院10.6%,計算機學(xué)院21.3%,經(jīng)管學(xué)院17%,教育學(xué)院51.1%。主要的學(xué)習(xí)方式為學(xué)生使用電腦進(jìn)行“一對一”在線自主學(xué)習(xí),教師通過在線互動的方式開展輔導(dǎo),在整個學(xué)習(xí)過程中學(xué)生可以使用系統(tǒng)中的博客、留言、Wiki等模塊進(jìn)行學(xué)習(xí)、交互等活動,同時也被要求盡量獨立進(jìn)行在線學(xué)習(xí),不要出現(xiàn)多人同時學(xué)習(xí)交流的情況。在線學(xué)習(xí)管理系統(tǒng)記錄學(xué)生的日志行為數(shù)據(jù),攝像頭記錄學(xué)生的學(xué)習(xí)視頻數(shù)據(jù),鼠標(biāo)則記錄學(xué)習(xí)頁面的滾動瀏覽情況和對應(yīng)的時間戳。
(四)圖片數(shù)據(jù)的標(biāo)注方法
由于在在線學(xué)習(xí)過程中學(xué)生表情較少且表情背后所代表的含義與一般情境下的表情含義有所不同,學(xué)習(xí)過程中主要以中立表情為主,其他表情則主要分布在無聊、困惑、滿足等幾種表情之中(DMello, 2013)。因此,通用的表情數(shù)據(jù)集并不適用于學(xué)習(xí)評測模型的構(gòu)建,而應(yīng)該使用專門的數(shù)據(jù)集進(jìn)行模型訓(xùn)練。本研究中采用Whitehill等人(Whitehill, Serpell, Lin, Foster, & Movellan, 2014)提出的從視頻數(shù)據(jù)中提取靜態(tài)圖像,然后進(jìn)行人工標(biāo)注的方法構(gòu)建訓(xùn)練數(shù)據(jù)集。這些視頻圖片均是從視頻數(shù)據(jù)中以固定時間間隔進(jìn)行提取的。在固定時間間隔的設(shè)置上,我們主要從圖像關(guān)鍵幀丟失和數(shù)據(jù)量大小兩方面進(jìn)行考慮:一方面,間隔時間如果設(shè)置過大會丟失含有關(guān)鍵表情的圖像幀;另一方面,如果間隔時間設(shè)置過小則會導(dǎo)致提取的圖片過多,進(jìn)而增加圖像標(biāo)注的工作量。我們參照Whitehill等人(2014)提出的方法,并通過對學(xué)習(xí)者的學(xué)習(xí)視頻進(jìn)行抽樣分析后發(fā)現(xiàn)以2秒為時間間隔將視頻數(shù)據(jù)轉(zhuǎn)換為圖片序列在圖像幀丟失和數(shù)據(jù)量大小方面滿足我們的要求。在獲取了圖像序列后,標(biāo)注人員觀察每張圖片和與該圖片時間戳相對應(yīng)時刻的鼠標(biāo)移動數(shù)據(jù),然后給圖片標(biāo)注1到3的學(xué)習(xí)投入水平值。最終得到每位學(xué)習(xí)者不同學(xué)習(xí)時間學(xué)習(xí)投入水平的序列值,不同學(xué)習(xí)投入水平的圖示見圖2。
該方案的優(yōu)點在于:①單張圖片便于進(jìn)行人工識別,處理上相對簡單;②在統(tǒng)一的評判標(biāo)準(zhǔn)下,圖片中學(xué)生的投入水平容易確定且發(fā)生模棱兩可的情況較少。對此,我們基于Whitehill等人(2014)提出的標(biāo)注方法擬定了一個指導(dǎo)性的學(xué)習(xí)投入度評判標(biāo)準(zhǔn)。標(biāo)注人員根據(jù)標(biāo)準(zhǔn)分別從圖片中學(xué)習(xí)者的頭部姿態(tài)、視線位置、表情狀態(tài)和鼠標(biāo)軌跡對圖片進(jìn)行投入水平的評判。三種投入水平的參考標(biāo)準(zhǔn)為:
“非常投入”主要表現(xiàn)為學(xué)習(xí)者頭部姿態(tài)是正位或者前傾,視線點位置落在屏幕區(qū)域內(nèi),表情以中性表情為主,并且主要呈現(xiàn)出聚精會神的狀態(tài),鼠標(biāo)在整個學(xué)習(xí)頁面中位置變化的幅度較小;
“一般性投入”主要表現(xiàn)為學(xué)習(xí)者頭部基本處于正位或存在輕微偏斜,視線點位置在屏幕區(qū)域內(nèi),表情以自然表情為主,精力集中的程度較“非常投入”的狀態(tài)要輕,鼠標(biāo)位置變化的幅度較大;
“不投入”主要表現(xiàn)為頭部姿態(tài)不正,無法看到正臉,視線不在屏幕上或呈現(xiàn)閉眼的狀態(tài),表情方面主要表現(xiàn)為漫不經(jīng)心、無聊、沮喪等,鼠標(biāo)移動的幅度變化一般處于靜止和劇烈變化兩個極端。
該標(biāo)準(zhǔn)對于標(biāo)注員來說并不是硬性的,在實際標(biāo)注過程中很多情況下依然需要標(biāo)注員借助自身經(jīng)驗進(jìn)行靈活判斷。因此,圖片標(biāo)注的準(zhǔn)確性受標(biāo)注人員自身專業(yè)素質(zhì)、圖片可辨析程度等因素影響,不同標(biāo)注人員針對同一圖像的標(biāo)注結(jié)果可能會有不一致的情況發(fā)生。我們通過Kendall系數(shù)來檢驗不同標(biāo)注人員的標(biāo)注結(jié)果一致性,以保證標(biāo)注圖像具有較高的一致性。所有表情圖片的訓(xùn)練數(shù)據(jù)分為10個批次進(jìn)行標(biāo)注,每個批次圖像均分給8個標(biāo)注員完成,并確保標(biāo)注數(shù)據(jù)滿足一致性要求。最終,我們通過SPSS計算出所有標(biāo)注員標(biāo)注結(jié)果的Kendall系數(shù),如表1所示。
(五)鼠標(biāo)移動數(shù)據(jù)的獲取
學(xué)習(xí)者與在線學(xué)習(xí)管理系統(tǒng)間的互動主要通過鼠標(biāo)來完成,尤其是學(xué)習(xí)者在學(xué)習(xí)頁面中的閱讀情況,譬如注視時間、閱讀速度、頁面滾動或翻頁頻率等情況都可以借助鼠標(biāo)的移動、停留、滾輪滾動等數(shù)據(jù)反映出來。Navalpakkam等人(2013)就發(fā)現(xiàn)用戶在瀏覽網(wǎng)頁時鼠標(biāo)的移動軌跡和視線移動軌跡存在較大的相關(guān)性,而且可以用來預(yù)測用戶在訪問網(wǎng)頁時的注意力。Huang等人(2012)總結(jié)出用戶在瀏覽網(wǎng)頁以及完成搜索任務(wù)時,鼠標(biāo)與視線之間還存在較為固定的跟隨模式。因此,通過檢測鼠標(biāo)在整個學(xué)習(xí)頁面中的位置能夠間接反映學(xué)習(xí)過程中學(xué)習(xí)者的視線和注意力的變化情況。但是和利用鼠標(biāo)軌跡進(jìn)行基于生物學(xué)測定的身份識別任務(wù)不同,身份識別的任務(wù)通常以100毫秒作為時間間隔(Rodden & Fu, 2007; 沈超, 等, 2010)詳細(xì)記錄鼠標(biāo)軌跡以及移動過程中帶有個人特征的動作細(xì)節(jié),而本實驗主要關(guān)注的是鼠標(biāo)的位置變化,采樣太過精細(xì)會增加與分析任務(wù)無關(guān)的冗余信息,因此實驗中我們以200毫秒為間隔時間記錄鼠標(biāo)光標(biāo)在頁面中的絕對位置。該時間間隔下采集的軌跡數(shù)據(jù)在保留主要位置信息的同時也減弱了移動軌跡的起始和結(jié)束端附近區(qū)域鼠標(biāo)點過于密集的情況。此外,在實驗中與鼠標(biāo)位置同時記錄的還有時間戳信息。時間戳主要用于與視頻圖片的時間戳保持同步。在標(biāo)注階段,這些鼠標(biāo)移動數(shù)據(jù)與圖片數(shù)據(jù)都被標(biāo)注相同的投入水平值。
(六)數(shù)據(jù)集的劃分
本研究以8∶2的比例劃分訓(xùn)練集和測試集,訓(xùn)練集的數(shù)據(jù)采用10折交叉驗證(10-fold cross-validation)的方式進(jìn)行模型的訓(xùn)練和參數(shù)的調(diào)優(yōu),測試集的數(shù)據(jù)用于測試模型的泛化能力。在標(biāo)記數(shù)據(jù)的過程中我們發(fā)現(xiàn),學(xué)習(xí)者在每次學(xué)習(xí)過程中的投入行為并非均勻分布,表現(xiàn)出前段學(xué)習(xí)投入較高、中段較低、后段又較高的普遍情況。因此,為了確保訓(xùn)練集和測試集數(shù)據(jù)分布的一致性,我們根據(jù)課程時間段將數(shù)據(jù)分為前、中、后三部分,在三部分混合的基礎(chǔ)上再進(jìn)行訓(xùn)練集、測試集的劃分以確保數(shù)據(jù)分布盡量均勻。數(shù)據(jù)集的劃分方法如圖3所示。
(七)集成模型的構(gòu)建
針對本研究的數(shù)據(jù)特點,我們構(gòu)建了一個融合卷積神經(jīng)網(wǎng)絡(luò)和BP神經(jīng)網(wǎng)絡(luò)的集成評測模型,整個模型集成了三個子模型,其中兩個卷積神經(jīng)網(wǎng)絡(luò)子模型用于對學(xué)習(xí)者的表情圖片進(jìn)行識別,一個BP神經(jīng)網(wǎng)絡(luò)子模型用于對學(xué)習(xí)者的鼠標(biāo)移動數(shù)據(jù)進(jìn)行識別,整個模型如圖4所示。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)多用于圖像識別等視覺任務(wù)(Agrawal & Mittal, 2020),其“端到端”和“數(shù)據(jù)驅(qū)動”的特點相比傳統(tǒng)視覺識別方法具有更好的識別效果。本研究中我們使用經(jīng)典的VGG16模型進(jìn)行圖片的識別。為加強圖片識別效果,其中一個子模型采用基于源圖像的自適應(yīng)加權(quán)局部格雷碼模式(Local Gray Code Patterns, LGCP)的特征提取方法(吉訓(xùn)生, 等, 2017)來進(jìn)行識別,該方法能夠克服LBP對非單調(diào)光線變化敏感的問題。針對鼠標(biāo)移動數(shù)據(jù)的識別采用BP神經(jīng)網(wǎng)絡(luò)模型,其中輸入層選取表情圖片所屬時間戳前20秒內(nèi)的鼠標(biāo)移動數(shù)據(jù)作為輸入(總共100個鼠標(biāo)坐標(biāo)點),隱含層節(jié)點數(shù)為20,輸出節(jié)點數(shù)為3。三個子模型的輸出層節(jié)點數(shù)為3個,分別對應(yīng)1到3的學(xué)習(xí)投入度水平值。每個模型通過softmax函數(shù)計算出每個輸出節(jié)點取值的概率值大小,最后三個子模型通過投票法得到集成后的投入水平值。最終投入水平的計算公式為:
式中K代表分類器總個數(shù),[Rk]代表第k個分類器的識別率。三個子模型的訓(xùn)練準(zhǔn)確性曲線如圖5所示。
(八)集成模型的檢驗
集成模型的檢驗是在三個子模型完成訓(xùn)練之后將三個模型利用投票的方法進(jìn)行集成,并利用測試集數(shù)據(jù)對集成模型進(jìn)行測試。最終,集成模型和子模型的對比結(jié)果如表 2所示。
可以看出,經(jīng)過集成后模型對測試數(shù)據(jù)的準(zhǔn)確率有一定的提升,這也說明通過將多個模型進(jìn)行集成來提高評測準(zhǔn)確率的方法是有效的。
最后,將學(xué)生學(xué)習(xí)數(shù)據(jù)輸入集成模型計算出學(xué)生的投入水平,并計算這些結(jié)果與學(xué)生填寫NSSE-China量表得到的投入水平結(jié)果之間的Spearman相關(guān)系數(shù),進(jìn)行相關(guān)分析。其中,量表的投入水平值的計算方法是:將所有反向計分題的分值進(jìn)行反轉(zhuǎn),求得各個維度的得分均值,將各維度均值求和作為最終的學(xué)習(xí)投入水平值。最終結(jié)果如表 3所示。
可以看出集成評價模型的最終評測結(jié)果與學(xué)生填寫量表結(jié)果在P<0.05的水平上顯著相關(guān),這說明集成模型的評測結(jié)果與量表相近,即集成評測模型通過分析學(xué)習(xí)者的客觀數(shù)據(jù)能夠得到與量表評價相似的結(jié)果,也間接說明了學(xué)生的學(xué)習(xí)投入狀態(tài)是會通過表情和閱讀行為表現(xiàn)出來的,通過相關(guān)傳感器設(shè)備對這些客觀數(shù)據(jù)進(jìn)行捕捉和分析能夠?qū)崿F(xiàn)學(xué)習(xí)投入度的自動化評測。
四、結(jié)果討論
從本研究的結(jié)果可以明顯看出:
1. 從單個評測模型的準(zhǔn)確率來看,基于圖像的評測模型效果優(yōu)于基于鼠標(biāo)移動數(shù)據(jù)的評測模型。我們認(rèn)為主要原因在于表情數(shù)據(jù)本身對情感維度的表征比較準(zhǔn)確,特定的情感狀態(tài)一定對應(yīng)著特定的表情,學(xué)習(xí)者不會在學(xué)習(xí)過程中露出與實際情感不相符的表情。鼠標(biāo)數(shù)據(jù)在表征閱讀行為時有一定的誤差,雖然鼠標(biāo)存在著追隨視線的固定移動模式,但是在時間上存在著滯后性,而且存在一些突發(fā)的不可預(yù)知的鼠標(biāo)動作,例如學(xué)習(xí)者左右晃動鼠標(biāo)來確認(rèn)光標(biāo)位置的行為都會對分析造成影響。此外,鼠標(biāo)停留的狀態(tài)可能表示學(xué)習(xí)者在思考,也有可能表示學(xué)習(xí)者在開小差。針對這個問題,一方面可以參考其他傳感器數(shù)據(jù)來彌補僅依靠單傳感器進(jìn)行評測的不足,另一方面可以通過使用更合適的傳感器來解決,如眼動儀等。
2. 基于多模態(tài)數(shù)據(jù)的集成模型比單模態(tài)數(shù)據(jù)模型有更好的評測準(zhǔn)確度,不過準(zhǔn)確度提升尚不夠顯著。對于集成模型能夠提升評測效果較容易理解:由于現(xiàn)實中很難找到一種模態(tài)數(shù)據(jù)能夠全面地表征學(xué)習(xí)投入,任何單一維度的數(shù)據(jù)只能從某一個或幾個方面對學(xué)習(xí)投入進(jìn)行表征。因此,對多維度數(shù)據(jù)進(jìn)行綜合分析能夠得到更為準(zhǔn)確的結(jié)果,增加其他模態(tài)的數(shù)據(jù)對于提升模型評測的準(zhǔn)確性是有益的。對于準(zhǔn)確度提升不夠明顯的問題,我們認(rèn)為一方面是模型在融合策略的選擇以及子模型訓(xùn)練、參數(shù)優(yōu)化等方面存在不足,導(dǎo)致性能提升有限;另一方面,可能因為表情數(shù)據(jù)和鼠標(biāo)移動數(shù)據(jù)在表征學(xué)習(xí)投入的維度上存在重疊,使圖片數(shù)據(jù)和鼠標(biāo)數(shù)據(jù)對某一學(xué)習(xí)投入維度或者子維度進(jìn)行了重復(fù)評測。例如,本研究中我們認(rèn)為學(xué)習(xí)過程中的情感主要通過表情體現(xiàn)出來,因此主要采用表情數(shù)據(jù)進(jìn)行情感分析,但是一些基于具身認(rèn)知理論的研究發(fā)現(xiàn)鼠標(biāo)軌跡和情感之間同樣存在著相關(guān)性 (Yamauchi & Xiao, 2018)。在這種情況下,融合更多的模態(tài)數(shù)據(jù)以盡可能地全面覆蓋學(xué)習(xí)投入的所有維度似乎是提升評測準(zhǔn)確性的最佳解決辦法。當(dāng)然這也需要在后續(xù)的研究中進(jìn)一步驗證。
此外,本研究的局限在于學(xué)生樣本數(shù)偏小,使得模型的通用性受到一定影響。另外,受實驗組織的限制,學(xué)習(xí)內(nèi)容方面無法估計不同科目和不同難度系數(shù)的學(xué)習(xí)內(nèi)容對學(xué)習(xí)者的學(xué)習(xí)投入所造成的影響大小,這也使得收集到的與學(xué)習(xí)投入相關(guān)的表情和鼠標(biāo)數(shù)據(jù)不一定能覆蓋到所有可能的情況,進(jìn)而會對模型的識別能力造成一定影響。不過,考慮到模型本身是通過數(shù)據(jù)驅(qū)動的,隨著訓(xùn)練數(shù)據(jù)集質(zhì)量的提高和數(shù)量規(guī)模的增大,集成模型的性能表現(xiàn)可能會得到進(jìn)一步提升。因此,如果能在較大范圍內(nèi)開展試驗,通過控制不同難度和不同學(xué)習(xí)內(nèi)容對學(xué)習(xí)者的影響,以獲得更為豐富和更具代表性的數(shù)據(jù),對于提升模型的準(zhǔn)確性和通用性是非常有益的。
五、小結(jié)與展望
本研究針對“一對一”在線學(xué)習(xí)情境下學(xué)習(xí)者的在線學(xué)習(xí)投入自動評測問題開展研究,通過構(gòu)建融合表情識別和鼠標(biāo)移動數(shù)據(jù)分析的集成模型來進(jìn)行評測,其中子模型分別采用了VGG16深度網(wǎng)絡(luò)模型和BP神經(jīng)網(wǎng)絡(luò)模型,并利用自我標(biāo)注的數(shù)據(jù)集進(jìn)行訓(xùn)練。最終,集成模型的評測結(jié)果與學(xué)生填寫的NSSE-China調(diào)查量表的結(jié)果顯著相關(guān)。本研究結(jié)果說明在在線學(xué)習(xí)過程中學(xué)生所產(chǎn)生的各個維度的傳感數(shù)據(jù)可被捕捉、量化,并可用于對學(xué)習(xí)投入的分析,也進(jìn)一步說明了采用多模態(tài)數(shù)據(jù)進(jìn)行學(xué)習(xí)投入評測的可行性。不過,由于實驗數(shù)據(jù)來自較小的學(xué)生群體,影響了模型的通用性,需要在后續(xù)的研究中進(jìn)一步改進(jìn)和檢驗。本研究為未來的研究提供了幾點思路:第一,在現(xiàn)有研究基礎(chǔ)上能否再進(jìn)一步集成多個模態(tài)的數(shù)據(jù),且模型的表現(xiàn)隨著集成模態(tài)數(shù)據(jù)的增多是否呈現(xiàn)簡單的線性關(guān)系值得更進(jìn)一步研究。第二,本研究的數(shù)據(jù)集中學(xué)生出現(xiàn)的表情類型不夠豐富,而通用的表情數(shù)據(jù)集涵蓋了人類較為典型的基本表情,這些表情數(shù)據(jù)能否用于評測模型的訓(xùn)練也需要進(jìn)一步驗證。第三,本研究的應(yīng)用場景主要是針對使用桌面電腦或者筆記本的情況。對于使用手機和平板電腦的移動學(xué)習(xí)場景,如何實施有效的學(xué)習(xí)投入評測值得進(jìn)一步探索。
[參考文獻(xiàn)]
陳肖庚,王頂明. 2013. MOOC的發(fā)展歷程與主要特征分析[J]. 現(xiàn)代教育技術(shù),23(11):5-10.
吉訓(xùn)生,王榮飛. 2017. 自適應(yīng)加權(quán)LGCP與快速稀疏表示的面部表情識別[J]. 計算機工程與應(yīng)用,53(1):158-162.
蔣卓軒,張巖,李曉明. 2015. 基于MOOC數(shù)據(jù)的學(xué)習(xí)行為分析與預(yù)測[J]. 計算機研究與發(fā)展,52(3):614-628.
李爽,王增賢,喻忱,等. 2016. 在線學(xué)習(xí)行為投入分析框架與測量指標(biāo)研究——基于LMS數(shù)據(jù)的學(xué)習(xí)分析[J]. 開放教育研究,22(2):77-88.
李爽,鐘瑤,喻忱,等. 2017. 基于行為序列分析對在線學(xué)習(xí)參與模式的探索[J]. 中國電化教育(3):88-95.
李爽,李榮芹,喻忱. 2018. 基于LMS數(shù)據(jù)的遠(yuǎn)程學(xué)習(xí)者學(xué)習(xí)投入評測模型[J]. 開放教育研究,24(1):91-102.
劉海,陳瑩瑩,張昭理,等. 2018. 多學(xué)科資源工具研制與教學(xué)實踐創(chuàng)新研究[J]. 電化教育研究,39(4):46-51.
劉海,李姣姣,張維,等. 2018. 面向在線教學(xué)平臺的數(shù)據(jù)可視化方法及應(yīng)用[J]. 中國遠(yuǎn)程教育(1):37-44.
羅燕,海蒂·羅斯,岑逾豪. 2009. 國際比較視野中的高等教育測量——NSSE-China工具的開發(fā):文化適應(yīng)與信度、效度報告[J]. 復(fù)旦教育論壇,7(5):12-18.
沈超,蔡忠閩,管曉宏,等. 2010. 基于鼠標(biāo)行為特征的用戶身份認(rèn)證與監(jiān)控[J]. 通信學(xué)報,31(7):68-75.
張昭理,李陽,劉海. 2018. 多屏多點觸控教學(xué)系統(tǒng)支撐下教學(xué)創(chuàng)新與變革[J]. 電化教育研究,39(3):82-89.
趙晶,陳巍,曹亮. 2007. 當(dāng)代眼動研究對閱讀心理學(xué)介入綜述[J]. 浙江教育學(xué)院學(xué)報(1):25-30.
Agrawal, A., & Mittal, N. (2020). Using CNN for facial expression recognition: A study of the effects of kernel size and number of filters on accuracy. The Visual Computer, 36(2), 405-412.
Ballenghein, U., & Baccino, T. (2019). Referential processing during reading: Concurrent recordings of eye movements and head motion. Cognitive Processing, 20(3), 371-384.
Booth, B. M., Ali, A. M., Narayanan, S. S., Bennett, I., & Farag, A. A. (2017). Toward active and unobtrusive engagement assessment of distance learners. In 2017 Seventh International Conference on Affective Computing and Intelligent Interaction (ACII) (pp. 470-476).
Chaouachi, M., Chalfoun, P., Jraidi, I., & Frasson, C. (2010). Affect and Mental Engagement: Towards Adaptability for Intelligent. In FLAIRS Conference.
Chen, M. C., Anderson, J. R., & Sohn, M. H. (2001). What can a mouse cursor tell us more? In J. A. Jacko, A. Sears, & J. Arnowitz (Eds.), CHI 2001: Anyone, anywhere: CHI 2001 extended abstracts, conference on human factors in computing systems (p. 281). New York, NY: Association for Computing Machinery.
DMello, S. (2013). A selective meta-analysis on the relative incidence of discrete affective states during learning with technology. Journal of educational psychology, 105(4), 1082-1099.
DMello, S., & Graesser, A. (2009). Automatic Detection Of Learners Affect From Gross Body Language. Applied Artificial Intelligence, 23(2), 123-150.
Fredricks, J. A., Blumenfeld, P. C., & Paris, A. H. (2004). School Engagement: Potential of the Concept, State of the Evidence. Review of Educational Research, 74(1), 59-109.
Fredricks, J. A., & McColskey, W. (2012). The Measurement of Student Engagement: A Comparative Analysis of Various Methods and Student Self-report Instruments. In S. Christenson, A. L. Reschly, & C. Wylie (Eds.), Handbook of research on student engagement (pp. 763-782). New York: Springer.
Goldberg, B. S., Sottilare, R. A., Brawner, K. W., & Holden, H. K. (2011). Predicting Learner Engagement during Well-Defined and Ill-Defined Computer-Based Intercultural Interactions. In S. DMello, A. Graesser, B. Schuller, & J.-C. Martin (Eds.), Affective Computing and Intelligent Interaction (pp. 538-547). Berlin, Heidelberg: Springer Berlin Heidelberg.
Greenwood, C. R., Horton, B. T., & Utley, C. A. (2002). Academic engagement: Current perspectives in research and practice. School Psychology Review, 31(3), 328-349.
Hamane, A. C. (2014). Student engagement in an online course and its impact on student success (Doctoral dissertation). Retrieved from Pepperdine University. (2014.3615910).
Ho, A. D., Reich, J., Nesterko, S. O., Seaton, D. T., Mullaney, T., Waldo, J., et al. (2014). HarvardX and MITx: The first year of open online courses, fall 2012-summer 2013. Social Science Research Network (2014). http://ssrn. com/abstract, 2381263.
Huang, J., White, R. W., Buscher, G. (2012). User See, User Point: Gaze and Cursor Alignment in Web Search. Proceedings of the 2012 ACM annual conference on human factors in computing systems (pp. 1341-1350).New York, NY: ACM.
Katy Jordan (2015, June 12). MOOC completion rates. Retrieved Oct. 23,2019 from? http://www.katyjordan.com/MOOCproject.html
Kuh, G. D. (2001). The National Survey of Student Engagement: Conceptual framework and overview of psychometric properties. Bloomington, IN: Indiana University Center for Postsecondary Research, 126.
Kuh, G. D. (2009). The national survey of student engagement: Conceptual and empirical foundations. New Directions for Institutional Research, 2009(141), 5-20.
Lagun, D., Agichtein, E. (2011). ViewSer: enabling large-scale remote user studies of web search examination and interaction. In W.-Y. Ma (Ed.): ACM Digital Library, Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval (p. 365). New York, NY: ACM.
Liebling, D. J., Dumais, S. T. (2014). Gaze and mouse coordination in everyday work. In A. J. Brush, A. Friday, J. Kientz, J. Scott, & J. Song (Eds.), UbiComp14 adjunct: Proceedings of the 2014 ACM International Joint Conference on Pervasive and Ubiquitous Computing : September 13-17, 2014, Seattle, WA, USA (pp. 1141-1150). New York: Association for Computing Machinery.
Miller, B. W. (2015). Using Reading Times and Eye-Movements to Measure Cognitive Engagement. Educational Psychologist, 50(1),31-42.
Navalpakkam, V., Jentzsch, L., Sayres, R., Ravi, S., Ahmed, A., & Smola, A. (Eds.) (2013). Measurement and Modeling of Eye-mouse Behavior in the Presence of Nonlinear Page Layouts: Proceedings of the 22nd international conference on World Wide Web.
Nystrand, M., Gamoran, A. (1991). Instructional discourse, student engagement, and literature achievement. Research in the Teaching of English, 261-290.
Rodden, K., & Fu, X. (2007). Exploring how mouse movements relate to eye movements on web search results pages. Proceedings of ACM SIGIR 2007, 29-32.
Shernoff, D. J., Csikszentmihalyi, M., Shneider, B., Shernoff, E. S. (2003). Student engagement in high school classrooms from the perspective of flow theory. School Psychology Quarterly, 18(2), 158-176.
Sundar, P., Kumar, A. S. (2016). Disengagement detection in online learning using log file analysis. International journal of computer technology and applications, 9(27), 195-301.
Whitehill, J., Serpell, Z., Lin, Y.-C., Foster, A., & Movellan, J. R. (2014). The Faces of Engagement: Automatic Recognition of Student Engagement from Facial Expressions. IEEE Transactions on Affective Computing, 5(1), 86-98.
Wigfield, A., Guthrie, J. T., Perencevich, K. C., Taboada, A., Klauda, S. L., McRae, A., et al. (2008). Role of reading engagement in mediating effects of reading comprehension instruction on reading outcomes. Psychology in the Schools, 45(5), 432-445.
Yamauchi, T., & Xiao, K. (2018). Reading Emotion From Mouse Cursor Motions: Affective Computing Approach. Cognitive Science, 42(3), 771-819.
收稿日期:2019-10-28
定稿日期:2020-05-26
作者簡介:李振華,博士研究生,高級實驗師;張昭理,博士,教授,博士生導(dǎo)師;劉海,博士,副教授,碩士生導(dǎo)師,本文通訊作者。華中師范大學(xué)國家數(shù)字化學(xué)習(xí)工程技術(shù)研究中心(430079)。
責(zé)任編輯 單 玲