国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合注意力機(jī)制的學(xué)生退課行為預(yù)測(cè)*

2022-01-15 06:23張博健溫延龍
關(guān)鍵詞:時(shí)序向量卷積

付 宇 張博健 溫延龍

(南開大學(xué)計(jì)算機(jī)學(xué)院 天津 300000)

1 引言

大規(guī)模開放在線課程(Massive Open Online Courses,MOOCs),簡(jiǎn)稱慕課,在過去幾年里受到了廣泛關(guān)注并且迅速發(fā)展了起來。2020年年末,世界慕課聯(lián)盟成立,旨在推動(dòng)慕課進(jìn)一步創(chuàng)新和發(fā)展。根據(jù)Class Central的報(bào)告顯示,新冠疫情使許多人接受了在線教育,各大慕課平臺(tái)也獲利頗豐。截至2020年年底,世界上已有超1.8億名用戶加入了慕課學(xué)習(xí)[1]。清華大學(xué)的“學(xué)堂在線”作為國(guó)內(nèi)第一個(gè)慕課平臺(tái),截至2021年3月,已經(jīng)吸引了國(guó)內(nèi)5880萬用戶共注冊(cè)學(xué)習(xí)了超1.6億門課程[2]。

然而,慕課這一模式也暴露了許多問題,退課率居高不下便是其中之一。早在2013年就有研究指出:慕課的退課率高達(dá)91%~93%[3]。而最近的一項(xiàng)研究則顯示:學(xué)堂在線的課程完成率僅4.5%[4]。如此嚴(yán)重的退課現(xiàn)象不僅意味著絕大多數(shù)用戶半途而廢,浪費(fèi)了時(shí)間和精力,還意味著投入慕課的資源利用率極低,存在著巨大的經(jīng)濟(jì)和教育資源浪費(fèi)。此外,極低的完成率也不利于慕課平臺(tái)的長(zhǎng)遠(yuǎn)發(fā)展。因此,近年來,盡早識(shí)別潛在退課用戶這一研究課題逐漸受到了廣泛關(guān)注[5]。

目前已經(jīng)很多研究者在退課行為預(yù)測(cè)方面進(jìn)行了大量工作。以邏輯回歸(Logistic Regression,LR),支持向量機(jī)(Support Vector Machine,SVM)和決策樹(Decision Tree,DT)為代表的傳統(tǒng)機(jī)器學(xué)習(xí)模型被證明在退課行為預(yù)測(cè)方面有著良好的性能。然而,盡管應(yīng)用深度學(xué)習(xí)的預(yù)測(cè)策略已經(jīng)被證明擁有更強(qiáng)的潛力,但目前的研究仍大量基于上述的傳統(tǒng)方法,缺少對(duì)于更新穎的深度學(xué)習(xí)方法的嘗試。此外,很多研究忽視了慕課用戶靈活性修課的特點(diǎn),采用時(shí)序無關(guān)的方法進(jìn)行預(yù)測(cè)。時(shí)序無關(guān)的方法無法區(qū)分學(xué)習(xí)周期不同的用戶,這不僅意味著模型預(yù)測(cè)效果的準(zhǔn)確率更低,而且缺乏可解釋性。在實(shí)際應(yīng)用場(chǎng)景下,慕課平臺(tái)往往需要在隨機(jī)的時(shí)間點(diǎn)對(duì)學(xué)生的退課情況進(jìn)行預(yù)測(cè)。這就要求模型能夠更好地把握時(shí)序信息。

針對(duì)目前慕課退課行為預(yù)測(cè)研究存在的問題,本文提出了一種融合注意力機(jī)制的時(shí)序預(yù)測(cè)模型。首先,該方法彌補(bǔ)了時(shí)序無關(guān)模型的缺陷,通過利用長(zhǎng)短期記憶網(wǎng)絡(luò),從原始的時(shí)序數(shù)據(jù)中學(xué)習(xí)新的時(shí)序隱態(tài)表示。其次,為了提取學(xué)生學(xué)習(xí)活動(dòng)的上下文信息,本文使用多個(gè)一維卷積神經(jīng)網(wǎng)絡(luò)提取隱態(tài)中各類特征的時(shí)序模式。最后,融合了注意力機(jī)制,使模型能夠通過注意力分布強(qiáng)化有效特征。該模型不同于已有方法之處主要在于其使用注意力機(jī)制將時(shí)序信息與特征信息相融合,從而實(shí)現(xiàn)具有更高準(zhǔn)確性和更強(qiáng)可解釋性的退課行為預(yù)測(cè)。

2 國(guó)內(nèi)外研究現(xiàn)狀

2.1 國(guó)內(nèi)研究現(xiàn)狀

國(guó)內(nèi)早期關(guān)于遠(yuǎn)程教育退課行為問題以及慕課退課問題的研究大部分出自教育學(xué)和社會(huì)學(xué)領(lǐng)域。2015年~2017年期間,關(guān)于慕課退課行為的研究基本集中于原因和對(duì)策分析方面,有王濛濛等[6]、馬迪倩等[7]許多研究者從不同方面對(duì)慕課用戶退課行為的原因進(jìn)行分析研究,個(gè)別研究者也提出了相應(yīng)的對(duì)策。而國(guó)內(nèi)關(guān)于慕課退課行為預(yù)測(cè)技術(shù)的研究出現(xiàn)較晚,大致在2017年。2017年4月,盧曉航等[8]使用Coursera平臺(tái)的課程數(shù)據(jù),利用機(jī)器學(xué)習(xí)算法,通過構(gòu)建滑動(dòng)窗口模型來動(dòng)態(tài)預(yù)測(cè)用戶的退課行為。在2017年年底,郭文鋒等[9]使用相關(guān)性分析遴選出了用戶的五種活動(dòng)特征,之后利用邏輯回歸模型進(jìn)行退課行為預(yù)測(cè),實(shí)驗(yàn)證明其選取的五種活動(dòng)特征對(duì)退課行為影響顯著,預(yù)測(cè)表現(xiàn)較好。2018年,孫霞等[10]選擇將卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶模型進(jìn)行組合,提出了CNN-LSTM退課行為模型,該模型能夠追蹤用戶在不同時(shí)間步長(zhǎng)的學(xué)習(xí)狀態(tài),從而動(dòng)態(tài)預(yù)測(cè)不同階段的退課行為。之后,楊璐等[11]采用主成分分析法提取了用戶的兩種學(xué)習(xí)行為作為主要特征,利用AdaBoost算法進(jìn)行了退課行為預(yù)測(cè)實(shí)驗(yàn)。2019年,F(xiàn)eng等[4]提出了名為Context-aware Feature Interaction Network(CFIN)的模型。CFIN模型首先利用上下文平滑技術(shù)來平滑具有不同上下文信息的特征值,之后采用一種注意力機(jī)制將用戶信息和相關(guān)課程信息融合到模型中。與以往的模型相比,CFIN模型具有更好的性能,并且已經(jīng)部署于學(xué)堂在線系統(tǒng),用于偵測(cè)用戶的退課行為。

2.2 國(guó)外研究現(xiàn)狀

根據(jù)谷歌學(xué)術(shù)檢索顯示,自2013年以來,關(guān)于慕課退課行為預(yù)測(cè)的研究共有6770條記錄,從2019年開始統(tǒng)計(jì),則約有2910條記錄。由此可知,近兩年關(guān)于慕課退課行為預(yù)測(cè)的研究有非常大的增長(zhǎng)。根據(jù)對(duì)文獻(xiàn)的梳理可知,國(guó)外關(guān)于退課行為預(yù)測(cè)技術(shù)的研究遠(yuǎn)早于國(guó)內(nèi),在慕課出現(xiàn)之前是針對(duì)遠(yuǎn)程教育的退課行為預(yù)測(cè)技術(shù)研究,這些研究與慕課退課行為預(yù)測(cè)研究類似,并且這些研究為之后慕課退課行為預(yù)測(cè)的研究提供了思路和方法,可以將其歸為慕課退課行為預(yù)測(cè)技術(shù)的早期研究。

2006年,Al-Radaideh等[12]嘗試用決策樹的方法進(jìn)行預(yù)測(cè),實(shí)驗(yàn)表明ID3在留一法中表現(xiàn)較好,而C4.5則在十折交叉驗(yàn)證中表現(xiàn)更好。2009年,Lykourentzou等[13]使用了神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)以及概率集成簡(jiǎn)化的Fuzzy-ARTMAP(Probabilistic Ensemble Simplified Fuzzy ARTMAP,PESFAM)作為預(yù) 測(cè) 模 型 的 組 件。2010年,Kova?i?等[14]使 用CHAID和CART進(jìn)行退課行為預(yù)測(cè),而Kotsiantis等[15]則組合了1-nearest neighbor、樸素貝葉斯等的方法進(jìn)行實(shí)驗(yàn)。2012年,Gaudioso等[16]的實(shí)驗(yàn)表明樸素貝葉斯分類器在退課行為預(yù)測(cè)方面表現(xiàn)較好。2014年,Kloft等[17]利用支持向量機(jī)分類器進(jìn)行實(shí)驗(yàn),并指出過去幾周的特征信息對(duì)于之后某個(gè)特定的時(shí)間點(diǎn)很有用。2015年,He等[18]基于邏輯回歸模型提出了LR-SEQ和LR-SIM兩個(gè)模型,并在實(shí)驗(yàn)時(shí)使用之前周的信息對(duì)當(dāng)前周的退課情況進(jìn)行預(yù)測(cè)。2017年,深度學(xué)習(xí)的技術(shù)開始逐步應(yīng)用于慕課退課行為預(yù)測(cè)。Wang等[19]利用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的組合進(jìn)行實(shí)驗(yàn),這一模型能夠從原始數(shù)據(jù)中自動(dòng)提取特征并且表現(xiàn)較好。2018年,Gitinabard等[20]采用了邏輯回歸的方法來識(shí)別一個(gè)學(xué)生是否退課。2019年,Gray等[21]基于學(xué)位課程項(xiàng)目,使用隨機(jī)森林的方法來識(shí)別退課用戶。同年,Ding等[22]采用長(zhǎng)短期記憶模型和自動(dòng)編碼的方式從原始數(shù)據(jù)中學(xué)習(xí)有效特征的表示作為模型的輸入,之后使用一般的神經(jīng)網(wǎng)絡(luò)進(jìn)行監(jiān)督訓(xùn)練,新的表示使得退課行為預(yù)測(cè)的精確性提升了17%,并且減輕了過擬合的情況。2020年,Pulikottil等[23]提出了一種基于注意元嵌入的深度時(shí)序網(wǎng)絡(luò)來預(yù)測(cè)退課行為,并且該模型也達(dá)到了非常好的效果。

前述內(nèi)容為本文對(duì)慕課退課行為預(yù)測(cè)研究的簡(jiǎn)單梳理與介紹。綜合國(guó)內(nèi)外的研究情況可知,關(guān)于退課問題的研究,2017年以前國(guó)內(nèi)是集中于定性的分析,國(guó)外絕大多數(shù)研究則利用傳統(tǒng)的機(jī)器學(xué)習(xí)方法嘗試預(yù)測(cè)用戶的退課情況,如邏輯回歸、支持向量機(jī)、樸素貝葉斯和決策樹這四類方法以及他們的組合。2017年以后,國(guó)內(nèi)外的預(yù)測(cè)技術(shù)研究逐步轉(zhuǎn)向于深度學(xué)習(xí)技術(shù),除了上述提及的模型外,還有許多表現(xiàn)較好的模型。

3 退課行為的建模

在介紹預(yù)測(cè)模型之前,本文需要在此明確學(xué)生退課的定義,對(duì)于退課行為進(jìn)行建模。本文將退課行為預(yù)測(cè)問題視為一個(gè)時(shí)間序列二分類問題。任意一名學(xué)生在選擇一門課程后,其學(xué)習(xí)行為日志可構(gòu)成時(shí)間序列數(shù)據(jù)(一般地,其學(xué)習(xí)行為日志可按照小時(shí)、天、周或月進(jìn)行劃分,本文依照慣例,將時(shí)間序列按周進(jìn)行劃分)。本文依據(jù)學(xué)生在學(xué)習(xí)課程時(shí)的學(xué)習(xí)活動(dòng),即上文提到的時(shí)間序列數(shù)據(jù),預(yù)測(cè)學(xué)生是否會(huì)有退課行為。結(jié)果只有“退課”或者“保留”兩種可能。

在介紹學(xué)生退課行為的公式化表達(dá)之前,我們先明確下文將使用的符號(hào)。本文約定S表示所有學(xué)生組成的集合,C表示所有課程組成的集合,A表示所有學(xué)生的學(xué)習(xí)活動(dòng)組成的集合。這樣,某學(xué)生s在選擇某課程c后,其全部學(xué)習(xí)活動(dòng)的集合可表示為A(s,c)。其中,A(s,c)∈A,s∈S,c∈C。根據(jù)上文對(duì)于退課行為的時(shí)序性定義,學(xué)生s在課程c中的學(xué)習(xí)總時(shí)長(zhǎng)以周為單位劃分為N個(gè)階段,設(shè)n∈[1 ,N],t1表示最初的時(shí)間階段,tN表示最后的時(shí)間階段。

在時(shí)序階段tn中,學(xué)生s在課程c中全部學(xué)習(xí)活動(dòng)的集合可表示為Atn(s,c)。由此可得學(xué)生學(xué)習(xí) 活 動(dòng) 的 時(shí) 間 序 列 數(shù) 據(jù):A(s,c)={At1(s,c),…,AtN(s,c)}。設(shè)學(xué)生s在學(xué)習(xí)課程c的結(jié)果為y(s,c)∈{0,1},其中1表示存在退課行為,0則表示沒有。

綜上,退課行為預(yù)測(cè)可被描述為給定一名學(xué)生s,已知該學(xué)生選擇了課程c,在課程學(xué)習(xí)階段[t1,tN]內(nèi),根據(jù)其學(xué)習(xí)活動(dòng)序列A(s,c),對(duì)于最終是否存在退課行為y(s,c)進(jìn)行預(yù)測(cè)。任務(wù)目標(biāo)為求取一個(gè)預(yù)測(cè)函數(shù)f,該函數(shù)可被公式化表達(dá)為f:A(s,c)→y(s,c)。

4 融合注意力機(jī)制的預(yù)測(cè)模型

此節(jié),本文將詳細(xì)介紹融合注意力機(jī)制的時(shí)序預(yù)測(cè)模型。該模型受時(shí)間序列預(yù)測(cè)領(lǐng)域相關(guān)研究的啟發(fā)[24],模型通過捕捉學(xué)生學(xué)習(xí)活動(dòng)中各特征的時(shí)序模式并關(guān)注重要的活動(dòng)特征,實(shí)現(xiàn)了更好的預(yù)測(cè)效果。如圖1所示,該模型可分為長(zhǎng)短期記憶網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制、最終預(yù)測(cè)四個(gè)部分。下文將按照此順序,對(duì)于模型進(jìn)行詳細(xì)介紹。

圖1 融合注意力機(jī)制的時(shí)序預(yù)測(cè)模型

4.1 長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)

長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的一個(gè)變種。盡管某些相關(guān)研究是基于樸素的RNN,但是Fei和Yeung的研究已經(jīng)證明了LSTM在退課行為預(yù)測(cè)方面的表現(xiàn)較于樸素RNN更好[25]。LSTM采用閾值判定的方法,在神經(jīng)元內(nèi)部加入了門控單元,在結(jié)構(gòu)層面上有效地解決了梯度消失的問題。相較于樸素RNN,LSTM的復(fù)雜性體現(xiàn)在神經(jīng)元內(nèi)部的計(jì)算上。然而,學(xué)生在慕課平臺(tái)學(xué)習(xí)過程中的點(diǎn)擊流數(shù)據(jù)在數(shù)值上相對(duì)較小,且大量的退課以及退課行為導(dǎo)致在數(shù)據(jù)處理后,記錄學(xué)生學(xué)習(xí)行為的矩陣較為稀疏。這意味著在訓(xùn)練過程中不會(huì)有極高的計(jì)算代價(jià),梯度爆炸等問題難以出現(xiàn)。因此,LSTM較為適用于提取慕課學(xué)習(xí)數(shù)據(jù)中的時(shí)序模式。

LSTM為模型的第一個(gè)模塊,其輸入為表示學(xué)生學(xué)習(xí)活動(dòng)的時(shí)間序列數(shù)據(jù)。由第3節(jié),已知模型的輸入為序列數(shù)據(jù)A(s,c),數(shù)據(jù)處理后,序列表示為X={X1,X2,…,XN},其中,Xt∈R1×df,t=1,2,3,…,N,N為按周劃分后時(shí)間階段的數(shù)量,維度df為學(xué)生學(xué)習(xí)活動(dòng)特征種類的數(shù)量。需要注意的是,由于不同的學(xué)生在不同的課程中學(xué)習(xí)時(shí)長(zhǎng)不同,因此序列長(zhǎng)度為變長(zhǎng)序列。在輸入LSTM前,需要對(duì)序列進(jìn)行長(zhǎng)度補(bǔ)齊并壓縮,避免補(bǔ)充的零值對(duì)于網(wǎng)絡(luò)計(jì)算的影響。

將某時(shí)序階段的學(xué)習(xí)活動(dòng)Xt,上一個(gè)時(shí)間階段的模型輸出ht-1以及狀態(tài)向量ct-1作為模型的輸入。首先,通過sigmoid函數(shù)將線性變換得到的中間結(jié)果進(jìn)行非線性變換,得到向量ft:

其中,Wf,Uf,bf都為可學(xué)習(xí)的參數(shù)。通過相似的方式,可得到向量it,以及候選狀態(tài)c?t。通過向量對(duì)位相乘和相加運(yùn)算,可得ct:

再通過與式(1)類似方式得到ot,最終得到ht:

重復(fù)上述步驟,直到計(jì)算得到最終時(shí)間階段模型的輸出hN。全部時(shí)間階段的隱態(tài)構(gòu)成矩陣H=[h1,h2,…,hN],H∈Rdm×N,dm為L(zhǎng)STM層的維度。由此,得到蘊(yùn)含全部學(xué)習(xí)活動(dòng)與時(shí)序信息的隱態(tài)表示。

4.2 卷積神經(jīng)網(wǎng)絡(luò)

在得到包含全部學(xué)生活動(dòng)信息的各時(shí)間階段的隱態(tài)表示之后,本文使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),在整個(gè)時(shí)間階段上對(duì)各類特征的時(shí)序模式進(jìn)行進(jìn)一步提取。具體地,在該模型的卷積層中,使用K個(gè)1×N的卷積核Cj∈R1×N,j=1,2,…,K。如圖1所示,4.1節(jié)中提到的隱態(tài)矩陣H被相應(yīng)地劃分為K個(gè)部分,其中Hi∈R1×N,i=1,2,…,dm。每一個(gè)卷積核Cj對(duì)Hi進(jìn)行操作得到H′∈Rdm×k。H'蘊(yùn)含著由卷積層進(jìn)一步提取后得到的各類特征的時(shí)序模式。卷積核計(jì)算如式(4):

其中,卷積核內(nèi)的運(yùn)算為在線性變換后,以tanh函數(shù)為激活函數(shù)進(jìn)行非線性變換。如圖1所示,隱態(tài)向量的列序由卷積核參與計(jì)算的順序決定,行序保留LSTM層中的順序。

在卷積層中實(shí)現(xiàn)這一轉(zhuǎn)換的結(jié)果將在下一個(gè)階段使用,注意力機(jī)制將作用于這些包含各類特征信息的隱態(tài)向量。此外,卷積運(yùn)算中加權(quán)求和的方式可以消除變長(zhǎng)序列填充零值對(duì)模型的影響。

4.3 注意力機(jī)制

注意力機(jī)制(Attention Mechanism)是基于人類大腦處理信息的方式提出的,在深度學(xué)習(xí)中常被用于從大量的數(shù)據(jù)中提取出關(guān)鍵信息以更好地訓(xùn)練模型。一般的注意力機(jī)制通常關(guān)注重要的時(shí)間序列階段,忽略了對(duì)重要特征的關(guān)注。此外,傳統(tǒng)的注意力機(jī)制會(huì)在多個(gè)時(shí)序階段上平均特征信息,使得其無法檢測(cè)到有助于預(yù)測(cè)的時(shí)間模式。

為了使注意力機(jī)制更好地應(yīng)用于退課行為預(yù)測(cè),本文借鑒時(shí)間序列預(yù)測(cè)領(lǐng)域的方法[24],構(gòu)建了基于時(shí)間模式的注意力機(jī)制。

如圖1所示,4.2節(jié)中的H'將作為注意力層的輸入向量,將LSTM層得到的隱態(tài)的所有行向量加和得到的h′∈Rdm×1作為查詢向量,使用雙線性打分模型作為注意力打分函數(shù)。打分函數(shù)輸出的中間結(jié)果通過softmax激活函數(shù)得到注意力分布。計(jì)算公式可表示為

其中,F(xiàn)s表示打分函數(shù),Wα為可學(xué)習(xí)的參數(shù)。最后將注意力分布的權(quán)值同H′的行向量加權(quán)求和得到上下文向量attnN∈R1×K:

該結(jié)果包含了原始輸入的時(shí)間模式,并且通過注意力分布關(guān)注了重要的特征信息。

4.4 預(yù)測(cè)最終結(jié)果

在得到加權(quán)增強(qiáng)后的特征表示后,將其輸入全連接層進(jìn)行進(jìn)行線性變換,并將這一結(jié)果和h'對(duì)位相加,得到h*∈Rdm×1用于最終預(yù)測(cè)。最后再通過全連接層進(jìn)行線性變換,使輸出結(jié)果維度為1×1,使用sigmoid激活函數(shù)將這一中間結(jié)果取值映射為0~1之間,即代表用戶退課的預(yù)測(cè)概率y?:

y?即為預(yù)測(cè)結(jié)果,若y?>0.5,即認(rèn)為該學(xué)生將退課,反之則留存。

5 實(shí)驗(yàn)與分析

5.1 數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

5.1.1 數(shù)據(jù)集簡(jiǎn)介

本文實(shí)驗(yàn)所使用的數(shù)據(jù)集是學(xué)堂在線(XuetangX)的公開數(shù)據(jù)集。此數(shù)據(jù)集可分為四個(gè)部分:學(xué)生學(xué)習(xí)日志、學(xué)生退課結(jié)果、學(xué)生基本信息、課程基本信息。其中,學(xué)生學(xué)習(xí)日志記錄了學(xué)生在慕課平臺(tái)上的每一次操作,每條記錄由活動(dòng)類型與時(shí)間戳組成;學(xué)生退課結(jié)果記錄了學(xué)生選課后最終是否退課。訓(xùn)練集中共有29165540條日志數(shù)據(jù),共157943人次的記錄,其中80%的數(shù)據(jù)用于訓(xùn)練,20%的數(shù)據(jù)用于驗(yàn)證。測(cè)試集文件中共有12944862條日志數(shù)據(jù),共67699人次的記錄;課程信息文件提供了6410門課程的信息;用戶信息文件提供了9627148名學(xué)堂用戶的基本信息。是目前信息最豐富的可用于退課行為預(yù)測(cè)研究的公開數(shù)據(jù)集。

5.1.2 評(píng)價(jià)指標(biāo)

本文選取大多數(shù)研究者[4,8,10~11,17,19,22~23,25]采用的AUC-ROC(Area Under the Curve of ROC)分?jǐn)?shù)和F1分?jǐn)?shù)作為評(píng)價(jià)指標(biāo)。用于慕課退課行為預(yù)測(cè)的數(shù)據(jù)集的正負(fù)樣例往往不平衡,所選取的兩個(gè)指標(biāo)可以在正負(fù)樣例不均衡的應(yīng)用場(chǎng)景下,較好地評(píng)判模型的性能。

5.1.3 數(shù)據(jù)處理過程

因?yàn)楸疚奶岢龅哪P蜑闀r(shí)序模型,所以需要將日志類型的數(shù)據(jù)根據(jù)時(shí)間戳處理為時(shí)間序列數(shù)據(jù)作為模型的輸入。處理過程可以概括為:提取特征、轉(zhuǎn)化為one-hot向量、聚合one-hot向量三個(gè)步驟。其中,轉(zhuǎn)化為one-hot向量指的是將學(xué)生的每次活動(dòng)記錄轉(zhuǎn)化為形如[0,0,0,0,1,0]的向量。此向量的維度為日志中記錄的學(xué)習(xí)活動(dòng)的種類數(shù)量,一個(gè)向量表示著對(duì)于學(xué)生學(xué)習(xí)活動(dòng)的一次統(tǒng)計(jì)。聚合one-hot向量指的是將時(shí)間窗口內(nèi)(本文將時(shí)間窗口大小設(shè)置為七天)的全部one-hot向量進(jìn)行加和,得到的向量即為學(xué)生在此時(shí)間段內(nèi)全部學(xué)習(xí)活動(dòng)的統(tǒng)計(jì)結(jié)果。通過這種方式,對(duì)學(xué)生學(xué)習(xí)過程中的每個(gè)時(shí)間段分別進(jìn)行統(tǒng)計(jì),最終得到完整的時(shí)間序列數(shù)據(jù)。

5.2 對(duì)比實(shí)驗(yàn)

5.2.1 實(shí)驗(yàn)設(shè)置

本文對(duì)LR模型、SVM模型、RF模型、GBDT模型、3層DNN模型、LSTM模型、CFIN模型以及本文所提出的模型進(jìn)行了比較分析。我們按照上節(jié)所述流程將數(shù)據(jù)處理為時(shí)間序列數(shù)據(jù)后進(jìn)行數(shù)據(jù)歸一化,輸入上述模型進(jìn)行訓(xùn)練,最終對(duì)比不同模型在測(cè)試集中的預(yù)測(cè)表現(xiàn)。對(duì)于LR模型、SVM模型、RF模型、GBDT模型,本文采用5折交叉驗(yàn)證法配合網(wǎng)格搜索的方法找尋最優(yōu)參數(shù),最后以最優(yōu)參數(shù)訓(xùn)練模型完成預(yù)測(cè)。對(duì)于CFIN模型,本文直接使用文獻(xiàn)[4]設(shè)定的最優(yōu)參數(shù)和公開代碼進(jìn)行實(shí)驗(yàn)。對(duì)于3層DNN模型、LSTM模型以及本文提出的模型,學(xué)習(xí)率設(shè)置為0.0001,使用Adam優(yōu)化器多次調(diào)整參數(shù)以訓(xùn)練模型。

5.2.2 實(shí)驗(yàn)結(jié)果

最后使用最優(yōu)數(shù)據(jù)結(jié)果。實(shí)驗(yàn)結(jié)果如下。

由表1可知,傳統(tǒng)的機(jī)器學(xué)習(xí)模型在整體上表現(xiàn)不如深度學(xué)習(xí)模型。對(duì)于傳統(tǒng)的機(jī)器學(xué)習(xí)模型來講,由于在慕課退課行為預(yù)測(cè)問題中輸入的序列是變長(zhǎng)的,在實(shí)驗(yàn)時(shí)引入時(shí)序的概念非常困難,對(duì)于深度學(xué)習(xí)模型DNN也是如此。對(duì)比LSTM模型和DNN模型可知,LSTM模型有著更好的預(yù)測(cè)效果,這證明了引入時(shí)序概念的合理性。CFIN模型使用了注意力機(jī)制增強(qiáng)預(yù)測(cè)效果,但是其采用的是直接訓(xùn)練的方法,忽略了時(shí)序的作用,因此同LSTM模型的效果相比提升非常小,訓(xùn)練的時(shí)間成本也較高。本文所提出的模型兼具注意力機(jī)制與時(shí)序模型的優(yōu)點(diǎn),在AUC-ROC分?jǐn)?shù)和F1分?jǐn)?shù)方面的表現(xiàn)都優(yōu)于上述方法,且具有更好的可解釋性。

表1 不同模型的預(yù)測(cè)效果對(duì)比(%)

5.3 消融實(shí)驗(yàn)

為了確定本文所提出的模型中各組件對(duì)慕課用戶退課行為預(yù)測(cè)效果的貢獻(xiàn)程度,在此采用消融實(shí)驗(yàn)的方法,從完整的模型入手,逐步去掉模型的部分組件,之后通過實(shí)驗(yàn)來觀察消融組件后模型的效果。實(shí)驗(yàn)結(jié)果如表2所示,A表示完整模型,B為去掉注意力機(jī)制后的模型,C為去掉CNN組件后的模型。

表2 消融部分組件后模型的預(yù)測(cè)效果(%)

分析表2結(jié)果可知,各部分組件都對(duì)慕課退課行為預(yù)測(cè)的效果有貢獻(xiàn),其中,對(duì)預(yù)測(cè)效果貢獻(xiàn)最大的是CNN部分,而注意力機(jī)制對(duì)預(yù)測(cè)效果的貢獻(xiàn)相對(duì)較小。

6 結(jié)語

本文提出了一種融合注意力機(jī)制的退課行為預(yù)測(cè)方法。該方法不僅作為時(shí)序模型有著更強(qiáng)的應(yīng)用性與可解釋性,而且恰當(dāng)?shù)厥褂米⒁饬C(jī)制和卷積神經(jīng)網(wǎng)絡(luò)提高了預(yù)測(cè)表現(xiàn)。消融實(shí)驗(yàn)的結(jié)果進(jìn)一步證明,該方法的全部組件有效,且有其合理性。在公開數(shù)據(jù)集上的實(shí)驗(yàn)證明,相比于其他模型,本文所提出的方法在慕課退課行為預(yù)測(cè)任務(wù)上實(shí)現(xiàn)了更好的效果。

慕課退課行為預(yù)測(cè)還存在諸多值得挖掘之處。比如在研究過程中,本文嘗試過在不同時(shí)間階段進(jìn)行動(dòng)態(tài)預(yù)測(cè),但發(fā)現(xiàn)DNN、LSTM與本文提出的模型在最初幾個(gè)階段的表現(xiàn)都不太令人滿意,由此,本文認(rèn)為未來的研究可以嘗試在不同時(shí)間階段區(qū)間構(gòu)建不同的模型進(jìn)行預(yù)測(cè),這樣有機(jī)會(huì)達(dá)到整體最優(yōu)。此外,由于現(xiàn)有數(shù)據(jù)集中收錄的課程周期較短,與時(shí)間階段相關(guān)的研究受到限制,期待未來有更多的公開數(shù)據(jù)集可供研究,從而更好地幫助學(xué)生與慕課平臺(tái)。

猜你喜歡
時(shí)序向量卷積
顧及多種弛豫模型的GNSS坐標(biāo)時(shí)序分析軟件GTSA
向量的分解
清明
基于GEE平臺(tái)與Sentinel-NDVI時(shí)序數(shù)據(jù)江漢平原種植模式提取
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
一種并行不對(duì)稱空洞卷積模塊①
聚焦“向量與三角”創(chuàng)新題
你不能把整個(gè)春天都搬到冬天來
從濾波器理解卷積
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
乌恰县| 二连浩特市| 柳江县| 汝南县| 山阴县| 平乐县| 琼结县| 彰武县| 始兴县| 道真| 乌拉特前旗| 叙永县| 波密县| 元阳县| 剑阁县| 孟津县| 乐安县| 亳州市| 台北县| 从江县| 贵溪市| 饶河县| 乌鲁木齐县| 柯坪县| 沅陵县| 义乌市| 墨脱县| 十堰市| 竹北市| 万安县| 楚雄市| 西藏| 五台县| 宁安市| 孟津县| 黑水县| 宜兰县| 渭源县| 阳江市| 哈尔滨市| 四子王旗|