鄭茜元 鄭虹 侯秀萍
摘? 要:對在線學(xué)習(xí)者注意力狀態(tài)檢測的方法大多基于眼睛閉合頻率、頭部偏轉(zhuǎn)等特征,此類方法能夠應(yīng)對大多數(shù)情況,但針對學(xué)習(xí)者正視屏幕且視線落點處于屏幕上時出現(xiàn)的發(fā)呆、分神狀態(tài)無法作出檢測。針對此問題,提出了一種基于RNN的眼動分析算法RNN-EMA(RNN-Eye Movement Analysis),該算法通過對序列眼動向量分析,預(yù)測學(xué)生學(xué)習(xí)行為,完成當(dāng)前學(xué)習(xí)狀態(tài)檢測。實驗表明,RNN-EMA算法能夠?qū)W(xué)習(xí)狀態(tài)作出有效檢測,且對比同類方法效果有所提升。
關(guān)鍵詞:在線學(xué)習(xí);循環(huán)神經(jīng)網(wǎng)絡(luò);眼動分析;注意力檢測
中圖分類號:TP311.5? ? ?文獻(xiàn)標(biāo)識碼:A
Abstract: Online learners' attention states are mostly detected through eye closure frequency, head rotation and other action features. These methods can cope with most situations, but cannot detect the absent-minded and distracted state when the learner is facing the screen and the sight point is on the screen. To solve this problem, the paper proposes an RNN-EMA (RNN-Eye Movement Analysis) algorithm based on RNN. The algorithm predicts the learning behavior of students through sequential eye movement vector analysis, and conducts the current learning state detection. Experiments show that the RNN-EMA algorithm can effectively detect the learning state, and the accuracy is improved compared with other methods of the same kind.
Keywords: online learning; RNN; eye movement analysis; attention detection
1? ?引言(Introduction)
網(wǎng)絡(luò)在線學(xué)習(xí)不受時間與地域的限制,在現(xiàn)代教育中得到廣泛使用。學(xué)習(xí)者在接受知識的過程中,由于缺乏有效地監(jiān)督,導(dǎo)致其學(xué)習(xí)效果無法得到保證,因此,需要對學(xué)習(xí)者的注意力狀態(tài)進(jìn)行有效監(jiān)督,以保證在線學(xué)習(xí)者的學(xué)習(xí)質(zhì)量。
對于學(xué)習(xí)狀態(tài)的研究包括心境狀態(tài)、注意力狀態(tài)和動機(jī)狀態(tài)等。研究的方法大多基于生物特征計算[1,2]、學(xué)習(xí)行為分析[3]、面部特征分析[4,5]等方面。吳滄海[6]等人對學(xué)習(xí)者表情、眼睛閉合特征、體姿進(jìn)行分析,通過情感計算得出學(xué)習(xí)狀態(tài)。此類方法在處理學(xué)習(xí)者正視屏幕時出現(xiàn)的分神狀態(tài)無法進(jìn)行有效檢測。
針對上述問題,本文對學(xué)習(xí)者眼動行為進(jìn)行分析,實現(xiàn)對學(xué)習(xí)者學(xué)習(xí)狀態(tài)的判斷。相對于傳統(tǒng)學(xué)習(xí)狀態(tài)檢測方法,能更深入地對學(xué)習(xí)過程中的細(xì)節(jié)特征進(jìn)行分析,得到更精準(zhǔn)的判斷。
2? ?眼動分析研究(Eye movement analysis research)
人類對信息的獲取很大程度上依賴于視覺,故人類的視覺與學(xué)習(xí)過程中的注意力狀態(tài)有很大的相關(guān)性。近年來,對眼動行為的分析逐漸成為熱門研究課題。借此靈感,一些學(xué)者通過對眼動行為分析,估計用戶的注意力狀態(tài)。王鳳嬌[7]等人提出了一種CMVA分類視覺注意模型,該方法將自頂向下和自底向上注意相融合,通過眼動數(shù)據(jù)對模型進(jìn)行訓(xùn)練,實現(xiàn)了人在觀察圖片時顯著性區(qū)域預(yù)測,在自己采集的數(shù)據(jù)集上進(jìn)行實驗,實驗結(jié)果表明,與其他算法相比,該方法具有較高的預(yù)測準(zhǔn)確率。但此方法只實現(xiàn)了對人們觀看圖片時的顯著性區(qū)域預(yù)測,并未考慮注意力集中程度的問題。江波[8]等人在網(wǎng)絡(luò)在線測評的環(huán)境下,利用Tobii EyeX眼動儀記錄了答題者在答題過程中的眼動行為,以此探索了答題者在答題過程中眼動行為軌跡與視覺注意模式之間的聯(lián)系,但此類方法對設(shè)備儀器有一定的要求,且入侵式檢測易給學(xué)生帶來壓力。王曉明[9]等人為實現(xiàn)對閱讀者的注視點進(jìn)行預(yù)測,以雙向長短期記憶-條件隨機(jī)場神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),通過用戶在閱讀過程中的眼動數(shù)據(jù)對模型進(jìn)行訓(xùn)練,得到視覺注意模型,實現(xiàn)了對閱讀者視線焦點的預(yù)測,但該方法同樣未實現(xiàn)對注意力狀態(tài)是否集中有一個明確判斷。Yi J[10]等人基于普通攝像頭對在線學(xué)習(xí)者的面部圖像進(jìn)行采集,提取圖像中的眼動特征,以連續(xù)的眼動向量為輸入,對HMM模型進(jìn)行訓(xùn)練,實現(xiàn)了對學(xué)習(xí)者注意力狀態(tài)的檢測。
然而HMM模型具有一定的局限性,HMM的獨立性假設(shè)忽略了幀間的相關(guān)性,齊次馬爾科夫假設(shè)使得任意時刻的隱藏狀態(tài)只依賴于它前一個隱藏狀態(tài),降低了模型對信息的表示能力。為克服此問題,本文提出了一種基于RNN的眼動分析算法RNN-EMA。引入處理序列問題的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),考慮每個隱藏狀態(tài)與之前隱藏狀態(tài)和當(dāng)前時刻輸入的關(guān)聯(lián)關(guān)系,采用神經(jīng)元的規(guī)模和層數(shù)對數(shù)據(jù)進(jìn)行擬合得出潛在結(jié)構(gòu)。通過實驗驗證,該算法在眼動行為分類方面表現(xiàn)出良好的性能,分類準(zhǔn)確度有明顯提升。
3? RNN-EMA眼動分析算法(RNN-EMA eye movement analysis algorithm)
3.1? ?眼動行為描述
據(jù)研究表明,人類在獲取并加工信息時,眼睛并非快速掃過所觀看事物,而是視線焦點滯留在信息的某一具體位置對信息進(jìn)行充分的加工處理,處理完畢后,通過“眼跳”到下一個位置。根據(jù)眼睛的運(yùn)動方式,可用兩個術(shù)語“固著”(Fixation)、“掃動”(Saccade)來描述一系列眼動行為[10]。其定義如下:
①“固著”狀態(tài):指當(dāng)視線處于相對靜止時的狀態(tài)。
②“掃動”狀態(tài):指當(dāng)從一個固著狀態(tài)到另一個固著狀態(tài),即發(fā)生眼跳,稱之為“掃動”。
本文對眼動行為進(jìn)行分類的依據(jù)是眼動向量,利用深度學(xué)習(xí)的方法對眼動向量進(jìn)行特征提取,實現(xiàn)眼動分類,由此得出當(dāng)前學(xué)習(xí)者學(xué)習(xí)狀態(tài)。通過“固著”“掃動”兩個狀態(tài)對眼動行為進(jìn)行劃分,形成眼動向量。通過對眼動行為的觀察,將眼睛在認(rèn)知過程中的動作分為閱讀、搜索、分心三種模式,對序列眼動向量進(jìn)行分析,將其分類到三種眼動模式中,實現(xiàn)對學(xué)習(xí)者注意力狀態(tài)評估。
3.2? ?眼動向量定義
眼動向量的定義以當(dāng)前學(xué)習(xí)者的眼角位置為基準(zhǔn),分析采集到的每一幀圖像中虹膜中心位置相對于眼角點的偏移量,以此判斷當(dāng)前眼動行為。
定義:眼動向量,其中,表示當(dāng)前固著狀態(tài)較前一固著狀態(tài)在水平方向的位移,表示當(dāng)前固著狀態(tài)較前一固著狀態(tài)在垂直方向的位移,表示此次眼動行為的持續(xù)時間。用表示捕捉到的第個眼動向量,,通過以下公式求取的各個分量值:
其中,f表示從采集到的圖像中計算分析得到的視線狀態(tài),每一幀圖像的視線狀態(tài)由三元組表示,其中分別表示虹膜中心相對于眼角點在水平方向和垂直方向上的距離變化,表示采樣每幀圖像所需的時間。每一個固著狀態(tài)表現(xiàn)為若干連續(xù)且視線狀態(tài)相似的幀,用表示一個固著狀態(tài)中所有視線記錄的集合。集合中記錄的條數(shù)用表示,表示這一固著狀態(tài)持續(xù)的時間。
3.3? ?眼動分類模型
眼動分析輸入一個序列的眼動向量,網(wǎng)絡(luò)最終輸出這個眼動序列屬于哪種眼動模式,采用多輸入單輸出的結(jié)構(gòu),在輸入方面,輸入的是通過提取得到的眼動向量,具體模型結(jié)構(gòu),如圖1所示。
由圖1可知,對視頻流中的連續(xù)幀先進(jìn)行特征提取,得到一系列的眼動向量,這樣減少了網(wǎng)絡(luò)對基本特征的尋找,著重于眼動特征分析。將連續(xù)的眼動向量作為循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入,對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。為第步的隱藏狀態(tài),為初始狀態(tài),為循環(huán)神經(jīng)網(wǎng)絡(luò)中的參數(shù),在訓(xùn)練過程中共享,為最終的輸出結(jié)果,結(jié)果可取0、1、2三種值,分別代表“閱讀”“搜索”“分心”三種狀態(tài)。其中閱讀和搜索兩種狀態(tài)為注意力集中狀態(tài),分心狀態(tài)為注意力不集中狀態(tài)。
4? 眼動分析實驗(Eye movement analysis experiment)
4.1? ?數(shù)據(jù)集采集
由于此類研究沒有公開的數(shù)據(jù)集,采用收集的數(shù)據(jù)進(jìn)行實驗。為收集到不同狀態(tài)下的眼動特征,制定一些合理的任務(wù),使志愿者產(chǎn)生不同的眼動行為,在完成任務(wù)過程中收集志愿者的眼動特征,計算眼動向量?!伴喿x”“搜索”“分心”三種狀態(tài)的任務(wù)設(shè)計如下:
閱讀狀態(tài):在屏幕上呈現(xiàn)一段文字或一個物體,要求志愿者去認(rèn)真地閱讀這段文字或者觀察物體,為避免學(xué)習(xí)者提前完成任務(wù),我們會設(shè)置足夠的閱讀量,盡量避免錯誤數(shù)據(jù)的錄入。
搜索狀態(tài):給定文章,要求志愿者去尋找指定的詞。
分心狀態(tài):為了使志愿者的注意力盡力集中到視覺以外的其他感官上,在屏幕上顯示空白圖片,同時給志愿者播放一段音樂,或者要求志愿者去回憶一段往事。
對收集到的數(shù)據(jù)進(jìn)行清洗處理后,最終收集到1065條眼動向量,其中閱讀狀態(tài)340條,搜索狀態(tài)482條,空閑狀態(tài)243條。將這些眼動數(shù)據(jù)按7:3的比例分為訓(xùn)練集和測試集。
4.2? ?噪聲處理
本文以虹膜中心的運(yùn)動為基礎(chǔ)提取眼動向量,雖然極力的在每一個步驟都去做好優(yōu)化以提升虹膜中心定位準(zhǔn)確率,但不可否認(rèn)的是依然會存在一定的誤差。為避免誤差點致使整體眼動行為分析的準(zhǔn)確率降低,采用歐氏距離度量兩幀圖像中虹膜中心相似度。具體公式如下所示:
其中,、表示上一幀圖像中虹膜中心距離眼角點的距離,、表示當(dāng)前幀虹膜中心距離眼角點的距離。當(dāng)兩次變化的歐式距離小于設(shè)定閾值時,則認(rèn)為是一次眼動行為;大于閾值時,判定為二次眼動。
此方法能夠?qū)⒆銐蛳嗨频囊暰€狀態(tài)聚集在同一次眼動行為中,當(dāng)提取到新的視線狀態(tài)時,通過閾值的判斷,決定是否將其歸類為當(dāng)前眼動行為,通過該方法,能夠?qū)υ肼晹?shù)據(jù)進(jìn)行有效處理,增強(qiáng)算法的穩(wěn)定性,提升眼動分類準(zhǔn)確率。
4.3? ?防止過擬合策略
由于數(shù)據(jù)量較少,為預(yù)防出現(xiàn)過擬合問題,本文采取以下策略:(1)設(shè)計的模型較簡單,模型復(fù)雜度較低;(2)輸入之前對圖像進(jìn)行處理,提取出較少且關(guān)鍵的特征,在對實驗效果影響有限的情況下有效防止了過擬合;(3)采用Dropout操作,隨機(jī)丟棄50%的結(jié)點,防止過擬合現(xiàn)象。
4.4? ?結(jié)果及分析
本文實驗均在Intel(R)Core(TM) i5-4590S,CPU主頻3.00GHz,8GB內(nèi)存的Windows操作系統(tǒng),Python集成環(huán)境anaconda3環(huán)境下運(yùn)行。攝像頭采用電腦自帶攝像頭。
RNN-EMA算法實驗基于TensorFlow深度學(xué)習(xí)框架,以6組眼動向量為一個序列輸入到RNN的輸入層中,設(shè)置循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏層單元數(shù)為10,學(xué)習(xí)率為0.0001,目標(biāo)函數(shù)使用softmax交叉熵函數(shù),使用AdamOptimizer方法對循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化。在訓(xùn)練集上進(jìn)行30000次迭代訓(xùn)練,選取其中最好的訓(xùn)練模型保存,當(dāng)訓(xùn)練到第6000次的時候損失值趨于收斂。
為驗證RNN-EMA眼動分析算法的性能,我們采用Python3.6語言還原了文獻(xiàn)[10]中的方法,同樣以6組的數(shù)據(jù)為一個序列輸入模型中,分別訓(xùn)練三個HMM,最終將測試集中的眼動序列分別輸入三個HMM中,計算每個HMM的發(fā)生概率,將這段眼動序列歸類為發(fā)生概率最大的模型所對應(yīng)的眼動狀態(tài)。
使用準(zhǔn)確率(Accuracy)和混淆矩陣(Confusion Matrix)兩種分類器評估方法對模型進(jìn)行評估。最終準(zhǔn)確率,詳見表1。
由表1可以看出,與文獻(xiàn)[10]中提出的算法相比,本文提出的算法有較好的效果,在準(zhǔn)確率上較對比方法提高了5.27%。這是由于,相對于對比文獻(xiàn)中的方法,本文方法考慮了當(dāng)前隱藏狀態(tài)與之前隱藏狀態(tài)和當(dāng)前時刻輸入的相關(guān)性,提升了模型對數(shù)據(jù)的表達(dá)能力,從而分類準(zhǔn)確率得到了提升。
為了更加直觀地看到模型對每個類別的分類準(zhǔn)確率,深入分析兩種方法在分類準(zhǔn)確度,以及性能上的差異,我們展示出每個模型的混淆矩陣,如圖2所示。
如圖2所示,圖2(a)為RNN-EMA眼動分析方法的混淆矩陣,圖2(b)為文獻(xiàn)[10]中方法的混淆矩陣,分析可得兩種算法對“搜索”狀態(tài)都能達(dá)到100%的分類準(zhǔn)確率,效果良好,這可能是由于搜索狀態(tài)的特征相對于其他兩種狀態(tài)有較大的差異性,模型更容易識別。兩種算法性能的差異是對“閱讀”和“分心”兩種狀態(tài)的分類,文獻(xiàn)[10]中的方法對“分心”狀態(tài)的分類準(zhǔn)確率為82%,有18%的錯誤率將“分心”狀態(tài)誤判為“閱讀”狀態(tài),而本文提出的算法對“分心”狀態(tài)的分類準(zhǔn)確率達(dá)到100%,對“閱讀”狀態(tài)的分類準(zhǔn)確率為89%,有11%的誤差將“閱讀”狀態(tài)誤判為“搜索”狀態(tài)。由于本文的著重點是注意力狀態(tài)檢測,所以眼動檢測更側(cè)重于檢測出“分心”狀態(tài),從這一點來考慮,本文所提出的算法應(yīng)用性更強(qiáng)。整體上來講準(zhǔn)確率較所對比方法也有明顯提升。
5? ?結(jié)論(Conclusion)
為解決學(xué)習(xí)者正視屏幕時出現(xiàn)的分心狀態(tài)無法被檢測到的問題,本文以眼動行為分析為突破點,提出了一種基于RNN的眼動分析算法,實現(xiàn)了在線學(xué)習(xí)者視線焦點在屏幕上時,對學(xué)習(xí)者閱讀、搜索、分心三種學(xué)習(xí)狀態(tài)的檢測。與其他同類眼動分析算法相比,本文算法能有效地將當(dāng)前時刻的隱藏狀態(tài)與之前時刻隱藏狀態(tài)和當(dāng)前時刻輸入特征相關(guān)聯(lián),提高模型對特征的表達(dá)能力,分類準(zhǔn)確率有明顯提升。該算法具有設(shè)備要求較低,實施簡單等優(yōu)點。整體效果良好,具有較高的實用價值。對于眼動分析中視線在屏幕下方運(yùn)動時出現(xiàn)了一定誤差的問題,有待進(jìn)一步的作出優(yōu)化。
參考文獻(xiàn)(References)
[1] Lee H,Kim Y,Park C.Classification of human attention to multimedia lecture[C].2018 International Conference on Information Networking(ICOIN).IEEE,2018:914-916.
[2] Gunawan F E,Wanandi K,Soewito B,et al.Detecting the early drop of attention using EEG signal[C].2017 4th International Conference on Electrical Engineering,Computer Science and Informatics(EECSI).IEEE,2017:1-6.
[3] Jie W,Hai-yan L,Biao C,et al.Application of educational data mining on analysis of students' online learning behavior[C].2017 2nd International Conference on Image,Vision and Computing (ICIVC).IEEE,2017:1011-1015.
[4] Xu R,Chen J,Han J,et al.Towards emotion-sensitive learning cognitive state analysis of big data in education:deep learning-based facial expression analysis using ordinal information[J].Computing,2019:1-16.
[5] 王昌海,申紅雪,張王衛(wèi),等.一種基于人臉識別的課堂教學(xué)監(jiān)控系統(tǒng)[J].軟件工程,2020,23(01):48-50.
[6] 吳滄海,熊煥亮,王映龍.遠(yuǎn)程學(xué)習(xí)中學(xué)習(xí)狀態(tài)判斷的情感計算研究[J].軟件導(dǎo)刊(教育技術(shù)),2013,12(07):24-27.
[7] 王鳳嬌,田媚,黃雅平,等.基于眼動數(shù)據(jù)的分類視覺注意模型[J].計算機(jī)科學(xué),2016,43(01):85-88;115.
[8] 江波,王小霞,劉迎春,等.在線測評中的學(xué)習(xí)者眼動行為分析——以浙江工業(yè)大學(xué)的眼動實驗為例[J].現(xiàn)代教育技術(shù),2018,28(05):19-25.
[9] 王曉明,趙歆波.基于深度神經(jīng)網(wǎng)絡(luò)的個體閱讀眼動預(yù)測[J].清華大學(xué)學(xué)報(自然科學(xué)版),2019,59(06):468-475.
[10] Yi J,Sheng B,Shen R,et al.Real time learning evaluation based on gaze tracking[C].2015 14th International Conference on Computer-Aided Design and Computer Graphics(CAD/Graphics).IEEE,2015:157-164.