聶 敏,張 楊,鄧 輝,王 偉,夏 虎,周 濤
(電子科技大學(xué)大數(shù)據(jù)研究中心 成都 611731)
近年來,高校領(lǐng)域的大數(shù)據(jù)應(yīng)用研究工作越來越受到各方關(guān)注[1-16]。為了評判學(xué)生在校期間的表現(xiàn),文獻(xiàn)[5]在2012 年率先將數(shù)據(jù)挖掘技術(shù)應(yīng)用于高校數(shù)據(jù)。2014 年,文獻(xiàn)[6]繼續(xù)深入研究了這個(gè)方向,將更多的數(shù)據(jù)用于評判學(xué)生的學(xué)業(yè)。后續(xù),學(xué)者利用大數(shù)據(jù)分析手段,繼續(xù)深入研究了學(xué)生行為對成績或職業(yè)的影響[7-15]。這些研究都將目的定位于學(xué)生學(xué)業(yè)或職業(yè)選擇,未關(guān)注學(xué)生家庭的經(jīng)濟(jì)情況。高校學(xué)生的培養(yǎng),一直是國家和社會(huì)高度關(guān)注的。在培養(yǎng)高校人才的戰(zhàn)略中,每年的教育支出也在逐步上漲。其中,相當(dāng)一部分的支出會(huì)用于家庭貧困的學(xué)生,以幫助其順利完成學(xué)業(yè)。目前高校對于家庭貧困學(xué)生的認(rèn)定工作存在著不少漏洞,過程也非常繁瑣低效,沒有達(dá)到精準(zhǔn)資助的要求。在當(dāng)下的大數(shù)據(jù)時(shí)代,如何利用多維學(xué)生數(shù)據(jù)分析學(xué)生的家庭貧困信息是非常有必要的。
本文以學(xué)生行為數(shù)據(jù)為基礎(chǔ),利用大數(shù)據(jù)挖掘的相關(guān)技術(shù),構(gòu)建了家庭貧困學(xué)生挖掘算法,為高校扶貧工作提供支持。所謂家庭貧困學(xué)生挖掘,即基于學(xué)生在學(xué)校中的消費(fèi)數(shù)據(jù)和其他行為數(shù)據(jù),預(yù)測其家庭經(jīng)濟(jì)條件:是否存在困難。根據(jù)高校學(xué)生數(shù)據(jù)的維度豐富和時(shí)序性特點(diǎn),本文抽取了學(xué)生基本信息的統(tǒng)計(jì)特征和行為數(shù)據(jù)的時(shí)序性特征,提出了深度學(xué)習(xí)算法(clockwork recurrent neural network,CW-RNN)的改進(jìn)方法CW-LSTM,用于評估學(xué)生的各維度特征,綜合判定其經(jīng)濟(jì)條件。最后,本文利用某高校2011~2014 級學(xué)生在2012 年?2015 年產(chǎn)生的數(shù)據(jù)進(jìn)行分析,驗(yàn)證了本文方法的有效性。
神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)已經(jīng)應(yīng)用在AI 領(lǐng)域的各個(gè)方面,在研究之初,為了將以往的信息連接到當(dāng)前的任務(wù)中,研究者在網(wǎng)絡(luò)結(jié)構(gòu)中引入了循環(huán)結(jié)構(gòu),即RNN。其計(jì)算方式為:
式中, x是輸入;Win為輸入層矩陣;W 是隱藏層矩陣;Wout為輸出層矩陣; s是隱藏層輸出; o是輸出層輸出; fs為隱藏層激活函數(shù); fo為輸出層激活函數(shù)。通過 st?1~ st的循環(huán)結(jié)構(gòu)實(shí)現(xiàn)信息的復(fù)用。但是RNN 網(wǎng)絡(luò)僅能記憶短期信息,對于長時(shí)間序列,會(huì)造成信息丟失。為了解決這樣的信息丟失,文獻(xiàn)[17]提出了改進(jìn)的算法—CW-RNN。CWRNN 將隱含層分為多個(gè)模塊,并對每個(gè)模塊設(shè)定時(shí)間頻率,以便每個(gè)模塊的單獨(dú)管理。在每個(gè)模塊內(nèi)部進(jìn)行全連接,在模塊間進(jìn)行高時(shí)鐘頻率模塊向低時(shí)鐘頻率模塊的連接,如圖1 所示。Hidden 表示隱藏層。在隱藏層中,多個(gè)模塊的時(shí)間頻率為T1, T2···, Tg。體現(xiàn)在公式中為:將 W與 Win分為g塊。
圖1 CW-RNNs 網(wǎng)絡(luò)結(jié)構(gòu)
在運(yùn)算的時(shí)候,只會(huì)有部分模塊參與運(yùn)算,不參與運(yùn)算的模塊就置為0,實(shí)現(xiàn)了對長短時(shí)間的處理。
LSTM 也可以部分解決RNN 的長時(shí)間序列信息丟失問題[18]。在LSTM中,每個(gè)神經(jīng)元都是一個(gè)細(xì)胞,在每個(gè)細(xì)胞中,都包含存儲(chǔ)器和3 個(gè)門:輸入門、輸出門和遺忘門。輸入門決定了哪些新的輸入信息加入到存儲(chǔ)器,遺忘門決定了從存儲(chǔ)器中丟失哪些信息,輸出門決定了每個(gè)狀態(tài)的輸出值。其單一神經(jīng)元的結(jié)構(gòu)如圖2所示。其中, xt表示t時(shí)刻的輸入, st?1表示t ?1時(shí)刻的輸出, ht?1表示t ?1時(shí)刻的細(xì)胞狀態(tài), st表示t時(shí)刻的輸出, ht表示t時(shí)刻的細(xì)胞狀態(tài)。
圖2 LSTM 的細(xì)胞結(jié)構(gòu)示意圖
在每個(gè)細(xì)胞中,首先計(jì)算遺忘門:
式中, σ是sigmoid 激活函數(shù),具體表示為:
Wf是遺忘門的權(quán)重矩陣; bf是遺忘門的偏置。然后計(jì)算輸入門:
式中,tanh是tanh激活函數(shù),具體表示為:
Wi、 Wq都是權(quán)重矩陣; bi、 bq都是偏置。通過式(4)~式(6)可以更新細(xì)胞狀態(tài)為:
最后計(jì)算輸出門:
式中,Wo是輸出門權(quán)重矩陣; bo是輸出門偏置。模型最終訓(xùn)練的就是所有的權(quán)重矩陣和偏置。
CW-RNN 網(wǎng)絡(luò)的設(shè)計(jì)簡單,層次清晰,但其表達(dá)能力不強(qiáng),容易出現(xiàn)高偏差的情況。而LSTM算法結(jié)構(gòu)復(fù)雜,表征能力強(qiáng),但是其參數(shù)多,訓(xùn)練復(fù)雜度高,有些超參數(shù)(即不能通過訓(xùn)練得到的參數(shù)值,如網(wǎng)絡(luò)隱藏層數(shù)、迭代輪數(shù)等)需要人工提前配置,如果超參數(shù)設(shè)置不合理,其性能也會(huì)受到較大影響。為了結(jié)合兩種算法各自的優(yōu)點(diǎn),本文提出兩種算法的融合算法—CW-LSTM。CW-LSTM算法保留LSTM 中的輸入門和輸出門,而對于其處理長時(shí)間依賴的遺忘門,使用CW-RNN 網(wǎng)絡(luò)的多模塊管理和高時(shí)鐘頻率模塊向低時(shí)鐘頻率模塊里的連接來實(shí)現(xiàn)。
在CW-LSTM 算法中,每個(gè)存儲(chǔ)塊中包含存儲(chǔ)器、輸入門和輸出門。對每個(gè)存儲(chǔ)塊內(nèi)部按照CW-RNN 網(wǎng)絡(luò)的方式進(jìn)行構(gòu)建,將存儲(chǔ)器設(shè)置為多個(gè),并且配置不同的時(shí)鐘頻率,然后進(jìn)行分組管理,不同存儲(chǔ)器之間由高時(shí)鐘頻率向低時(shí)鐘頻率進(jìn)行連接。圖3 展示了單個(gè)存儲(chǔ)塊的結(jié)構(gòu),其構(gòu)建了一個(gè)4 個(gè)周期的CW-LSTM 存儲(chǔ)塊。利用多個(gè)這樣的存儲(chǔ)塊,就可以構(gòu)建CW-LSTM 網(wǎng)絡(luò)。對于CW-LSTM 的計(jì)算,輸入門和輸出門的計(jì)算方式與LSTM 一樣,對于狀態(tài)的管理,和CW-RNN一樣,將狀態(tài)權(quán)重矩陣分為g 個(gè)模塊,運(yùn)算的時(shí)候只有高時(shí)鐘頻率向低時(shí)鐘頻率的連接模塊才會(huì)進(jìn)行計(jì)算。
圖3 CW-LSTM 存儲(chǔ)塊結(jié)構(gòu)
本文也對3 種網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練參數(shù)個(gè)數(shù)和效率進(jìn)行了計(jì)算。假設(shè)CW-RNN、LSTM 和CW-LSTM 3 種網(wǎng)絡(luò)的隱藏層數(shù)都為M,對于CW-LSTM和CW-RNN,周期為R,每個(gè)分組內(nèi)節(jié)點(diǎn)數(shù)量為N,則有M=RN。用O 表示網(wǎng)絡(luò)中需要訓(xùn)練的參數(shù)個(gè)數(shù),3 種網(wǎng)絡(luò)表示為:
可以看出,3 種網(wǎng)絡(luò)結(jié)構(gòu)的時(shí)間復(fù)雜度都為O(M2),CW-LSTM 網(wǎng)絡(luò)計(jì)算效率介于兩者之間。
針對高校學(xué)生統(tǒng)計(jì)數(shù)據(jù)的豐富維度和行為數(shù)據(jù)的時(shí)序性特點(diǎn),本文針對性地抽取了多個(gè)特征進(jìn)行研究。最后將處理好的特征輸入到CW-LSTM 模型中進(jìn)行貧困預(yù)測。所有的數(shù)據(jù)均是在匿名的條件下采集和試用。
基本統(tǒng)計(jì)特征是利用數(shù)理統(tǒng)計(jì)技術(shù)獲取的一些基本特征。在學(xué)生基本信息上,本文考慮性別、生源地、民族和年級4 個(gè)維度的特征。在消費(fèi)數(shù)據(jù)中,根據(jù)獲得的數(shù)據(jù)分布以及學(xué)生在校期間的消費(fèi)范圍,將消費(fèi)數(shù)據(jù)分為食堂消費(fèi)數(shù)據(jù)和其他消費(fèi)數(shù)據(jù),食堂消費(fèi)數(shù)據(jù)包含早餐、中餐、晚餐和宵夜,其他消費(fèi)數(shù)據(jù)包含超市、洗澡、洗衣等非食堂消費(fèi)。另外,再將消費(fèi)數(shù)據(jù)細(xì)分為消費(fèi)次數(shù)、消費(fèi)平均值和最大值。還提取了其他數(shù)據(jù)特征,如圖書館門禁、寢室門禁、成績和寒暑假留校情況。
抽象特征的構(gòu)建是結(jié)合家庭貧困學(xué)生挖掘的目標(biāo)和相關(guān)業(yè)務(wù)人員的工作經(jīng)驗(yàn)所提出的。主要包括規(guī)律性和朋友圈經(jīng)濟(jì)水平。規(guī)律性可以通過一個(gè)人特定時(shí)段間隔行為發(fā)生的熵來描述。假設(shè)時(shí)間間隔為n,即T ={t1,t2···,tn},任何一個(gè)學(xué)生的行為在ti時(shí)間間隔發(fā)生的概率的計(jì)算公式為:
式中,nv(ti)是行為v在時(shí)間間隔ti內(nèi)發(fā)生的頻率。則行為v的熵為:
一種行為的熵越高,那么該行為在不同時(shí)間段內(nèi)發(fā)生的概率越不均勻,也就是這個(gè)行為的規(guī)律性較低。在本文的研究中,考慮了食堂就餐、非食堂消費(fèi)和去圖書館這3 種行為的熵。
對于現(xiàn)在的高校學(xué)生,朋友圈能夠反應(yīng)相當(dāng)多的信息,而一個(gè)人的經(jīng)濟(jì)水平可能會(huì)與其朋友圈平均經(jīng)濟(jì)水平相關(guān)。首先,引入親密度的概念,其表示兩個(gè)人的關(guān)系密切程度。然后計(jì)算任意兩個(gè)學(xué)生的親密度RA(B),設(shè)置閾值H,認(rèn)為與A 親密度大于H 的同學(xué)B(RA(B)>H)就是A 的朋友。以此構(gòu)建朋友圈。對于親密度,可以通過兩個(gè)人在某一時(shí)間段內(nèi)同時(shí)出現(xiàn)在相同地點(diǎn)的次數(shù)來計(jì)算,并且不同的刷卡場景需要有不同的權(quán)重。學(xué)生A 與學(xué)生B 在時(shí)間周期T 內(nèi)的親密度計(jì)算公式為:
式中, L表示所有的刷卡地點(diǎn);CA(i)表示在時(shí)間周期 T以內(nèi),學(xué)生A 在地點(diǎn)i的總刷卡次數(shù);RA(B)表示在時(shí)間周期T 內(nèi),學(xué)生A 與學(xué)生B 在地點(diǎn)i 的共同出現(xiàn)次數(shù); |S|表示學(xué)生總數(shù);SA(i)表示與學(xué)生A 在地點(diǎn)i 共同出現(xiàn)的總?cè)藬?shù)??梢钥闯觯H密度是有向的,A 對于B 的親密度很高并不意味著B 對于A 的親密度就一定很高,即在式(15)中RA(B)?RB(A)?;谑?15),可以計(jì)算任意兩個(gè)學(xué)生A 和B 的親密度RA(B),并設(shè)定閾值H,認(rèn)為滿足RA(B)>H要求的學(xué)生B 是A 的朋友——這樣就可以得到學(xué)生A 的朋友圈。接下來通過學(xué)生朋友圈中獲得過助學(xué)金的學(xué)生數(shù)量,以及該學(xué)生的朋友數(shù)量來定義朋友圈經(jīng)濟(jì)水平 FA,有:
式中, NA代表學(xué)生A 的朋友總數(shù); PA代表A 的朋友中家庭貧困的朋友數(shù)。
本文進(jìn)行了特征的提取,但是提取出的特征并不都是有用的,這主要是因?yàn)椋行┨卣鞣浅O∈瑁焕诤笮虻挠?jì)算。還有些特征之間具有很強(qiáng)的關(guān)聯(lián)性,導(dǎo)致多種特征只需要其中一種或幾種就能夠達(dá)到想要的結(jié)果。因此有些特征就變得冗余了,需要進(jìn)行特征選擇。本文采用后剪枝的C4.5算法進(jìn)行特征選擇,即首先將數(shù)據(jù)劃分為訓(xùn)練集和驗(yàn)證集,在訓(xùn)練集上用C4.5 算法生成決策樹,然后進(jìn)行剪枝。具體操作為:對每一個(gè)非葉子節(jié)點(diǎn)來說,刪除以此節(jié)點(diǎn)為根節(jié)點(diǎn)的子樹,讓這個(gè)節(jié)點(diǎn)變?yōu)槿~子結(jié)點(diǎn),該葉子節(jié)點(diǎn)對應(yīng)的類別為相應(yīng)訓(xùn)練數(shù)據(jù)中占優(yōu)的類別。如果這樣操作在驗(yàn)證集上的準(zhǔn)確率沒有比原來的差,就將此節(jié)點(diǎn)設(shè)置為葉子節(jié)點(diǎn),刪除此節(jié)點(diǎn)以下的所有特征。
在經(jīng)過特征抽取和特征選擇后,得到了高校學(xué)生數(shù)據(jù)的一系列特征。將得到的特征按照{(diào)月, 學(xué)期}的時(shí)間周期進(jìn)行分組,然后將其輸入到CWLSTM 的不同分組中,完成算法的輸入層構(gòu)建。在隱藏層中,構(gòu)建全連接網(wǎng)絡(luò),并且網(wǎng)絡(luò)的神經(jīng)元數(shù)量與輸入層相同。最后,在輸出層設(shè)置一個(gè)輸出神經(jīng)元,其內(nèi)部不同周期的存儲(chǔ)器表示不同時(shí)間周期的預(yù)測結(jié)果,然后通過不同的權(quán)重連向輸出門,得到最終的預(yù)測結(jié)果。
以某高校2011~2014 級學(xué)生為例,對家庭貧困學(xué)生挖掘模型進(jìn)行驗(yàn)證。獲取到學(xué)生基本信息數(shù)據(jù)32 318 條,消費(fèi)數(shù)據(jù)約1.6 億條,圖書館門禁數(shù)據(jù)1 400 余萬條,寢室門禁數(shù)據(jù)2 800 余萬條,成績數(shù)據(jù)近200 萬條,助學(xué)金信息數(shù)據(jù)8 889 條。在式(15)中,時(shí)間周期T 統(tǒng)一取為一月。在親密度計(jì)算中,將閾值H 設(shè)置為0.35。本文將所有的數(shù)據(jù)隨機(jī)劃分為訓(xùn)練集(80%)和測試集(20%),在特征選擇階段,選用后剪枝的C4.5 算法獲得的有用特征如表1 所示。
表1 剪枝后的特征
得到最終的特征后,將助學(xué)金信息作為訓(xùn)練標(biāo)簽,即認(rèn)為獲得助學(xué)金的學(xué)生為家庭貧困學(xué)生,沒有獲得助學(xué)金的學(xué)生為家庭非貧困學(xué)生,共有家庭貧困學(xué)生20 070 名,家庭非貧困學(xué)生18 731 名。對于測試數(shù)據(jù)的所有特征,將其輸入到2.2 節(jié)所述的CW-LSTM 模型結(jié)構(gòu)中,設(shè)置迭代輪次為1 000。在模型對比中,本文選擇樸素貝葉斯算法和C4.5 決策樹算法。
由于本文采用的是回歸算法,最后模型的輸出結(jié)果是一個(gè)連續(xù)值,表示這個(gè)學(xué)生屬于家庭貧困學(xué)生的概率。本文將這個(gè)概率從大到小排序,取前f 的樣本,作為預(yù)先設(shè)定為家庭貧困學(xué)生的人數(shù)占比。準(zhǔn)確率即為前f 樣本中的確是家庭貧困的學(xué)生比例。當(dāng)f 較小時(shí),表示僅取預(yù)測為家庭貧困學(xué)生概率較大的樣本,因此其準(zhǔn)確率比較高。從圖4 可以看出,當(dāng)f>0.1 時(shí),CW-LSTM 算法的準(zhǔn)確率優(yōu)于樸素貝葉斯算法和決策樹算法。
對于分類問題,AUC 值也是一個(gè)常見的評價(jià)指標(biāo),即ROC(receiver operator curve)曲線下的面積[18-19]。本文也對家庭貧困學(xué)生分類問題的AUC值進(jìn)行了計(jì)算。結(jié)果顯示,樸素貝葉斯算法的AUC 值為0.64,決策樹算法的AUC 值為0.652,而本文提出的CW-LSTM 算法的準(zhǔn)確率為0.659,同樣也說明CW-LSTM 算法的效果是要優(yōu)于決策樹算法和樸素貝葉斯算法的。
圖4 準(zhǔn)確率隨結(jié)果集比例f 的變化
另外,通過決策樹模型,本文對特征的重要性進(jìn)行分析,如圖5 所示。從結(jié)果可以看出,與消費(fèi)有關(guān)的數(shù)據(jù)在預(yù)測中有著至關(guān)重要的作用,靠前的特征都與消費(fèi)有關(guān),這主要是因?yàn)轭A(yù)測目標(biāo)就是學(xué)生經(jīng)濟(jì)水平。在消費(fèi)數(shù)據(jù)中,食堂消費(fèi)數(shù)據(jù)更加重要,其平均值、最大值和次數(shù)的重要性都要高于其他消費(fèi)數(shù)據(jù)。另外,提出的抽象數(shù)據(jù)特征也有著非常重要的作用,消費(fèi)行為的熵和朋友圈經(jīng)濟(jì)水平兩者的重要性之和超過了30%。其他統(tǒng)計(jì)特征重要性要遠(yuǎn)低于消費(fèi)數(shù)據(jù)。
圖5 特征重要性指數(shù)
高校學(xué)生一直是國家和社會(huì)關(guān)注的焦點(diǎn),本文利用大數(shù)據(jù)分析技術(shù),對高校的家庭貧困學(xué)生進(jìn)行挖掘。針對于高校學(xué)生的數(shù)據(jù)特點(diǎn),抽取了學(xué)生的統(tǒng)計(jì)特征和行為時(shí)序性特征。然后根據(jù)學(xué)生數(shù)據(jù)的時(shí)序性特點(diǎn),綜合CW-RNN 和LSTM 的優(yōu)點(diǎn),提出了CW-LSTM 算法來處理高校學(xué)生數(shù)據(jù)。最后利用某高校的真實(shí)學(xué)生數(shù)據(jù),對模型進(jìn)行了驗(yàn)證。模型整體結(jié)果比樸素貝葉斯算法、決策樹回歸算法好。本文的研究方法可用于其他教育大數(shù)據(jù)分析,如畢業(yè)去向預(yù)測。本文的研究結(jié)果為實(shí)現(xiàn)高校更加精準(zhǔn)扶貧工作提供了理論依據(jù)和確實(shí)可行的實(shí)驗(yàn)方法,還可以在保證準(zhǔn)確性的同時(shí)提高評審效率。