国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于IPSO-LSTM的高校貧困生精準資助方法

2023-01-06 06:38杜興麗
西南科技大學學報 2022年4期
關(guān)鍵詞:貧困生次數(shù)粒子

杜興麗 劉 玲 袁 平

(1.西南科技大學計算機科學與技術(shù)學院 四川綿陽 621010;2.西南科技大學教育信息化推進辦公室 四川綿陽 621010)

大數(shù)據(jù)技術(shù)在高校信息化建設(shè)中的運用越來越受重視,在中共中央、國務(wù)院印發(fā)的《中國教育現(xiàn)代化2035》中指出要推進智能化校園建設(shè),推進管理精準化和決策科學化[1]。高校日常運行產(chǎn)生的大量數(shù)據(jù)能為學校管理精準化提供數(shù)據(jù)支撐,建立有效的教育大數(shù)據(jù)分析模型,能對學校招生計劃、學生資助、安全防控等決策提供支持。

教育數(shù)據(jù)挖掘囊括了學生的學習表現(xiàn)、職業(yè)選擇預測、生活情況等多方面。研究者的關(guān)注點包括學生輟學預測[2]、學生成績預測[3-4]以及學校對學生成績的影響[5]等。文獻[6]使用集成模型選擇方法進行教育數(shù)據(jù)挖掘;文獻[7]采用無監(jiān)督學習方法對MOOC課程進行優(yōu)先級建模分析;文獻[8]提出基于XGBOOST模型的聚類中心模型來預測學生的職業(yè)選擇。這些研究關(guān)注學生學業(yè)生活,對學生在校的消費數(shù)據(jù)挖掘不夠充分。國家在教育上投入資金是期望幫助學生高質(zhì)量完成學業(yè),現(xiàn)有問題是如何讓教育資助發(fā)放到最需要幫助的學生手中。

傳統(tǒng)高校經(jīng)濟困難學生資助評審依靠學生的主觀陳述,所述內(nèi)容不能客觀反映學生階段性的經(jīng)濟情況。利用學生在校消費數(shù)據(jù)構(gòu)建經(jīng)濟困難學生分類模型是解決精準資助問題的辦法之一。文獻[9]利用聚類算法快速判定貧困生類別。文獻[10]利用CHAID算法找出最佳分組變量和分組點,設(shè)計判別貧困生的模型。文獻[11]使用學生“一卡通”消費記錄,構(gòu)建高校貧困生精準資助的神經(jīng)網(wǎng)絡(luò)模型。文獻[12]采用正負序列模式挖掘算法對學生的消費數(shù)據(jù)進行分析。文獻[13]提出一種深度學習算法來處理學生數(shù)據(jù),挖掘高校學生行為產(chǎn)生的海量數(shù)據(jù)的價值。文獻[14]研究發(fā)現(xiàn)貧困生與其他學生的消費行為存在明顯差異,貧困生資助對于學生的消費水平會產(chǎn)生短期效應,但無長期效應。文獻[15]將“一卡通”數(shù)據(jù)和學生網(wǎng)貸數(shù)據(jù)相結(jié)合,為高校管理者提供幫助經(jīng)濟困難學生的新思路。文獻[16]利用校園卡的消費數(shù)據(jù)結(jié)合自適應優(yōu)化算法和邏輯回歸算法構(gòu)建貧困生識別模型。文獻[17]通過學生的海量校園數(shù)據(jù)構(gòu)建學生自畫像,描述學生特征。文獻[18]基于校園一卡通大數(shù)據(jù)對學生消費行為進行分析,使用聚類算法為高校精準資助工作提供支持,并構(gòu)建學生共現(xiàn)網(wǎng)絡(luò),發(fā)現(xiàn)孤獨者,為心理資助提供參考。

上述研究中,研究者已開始探索如何將神經(jīng)網(wǎng)絡(luò)算法應用到貧困生的分類中,但是在運用神經(jīng)網(wǎng)絡(luò)解決此類問題時,對于神經(jīng)網(wǎng)絡(luò)存在的參數(shù)確定困難問題,沒有給出解決辦法。本文以學生在校期間的消費數(shù)據(jù)、學生出入校園場所記錄數(shù)據(jù)和學生基本信息數(shù)據(jù),結(jié)合神經(jīng)網(wǎng)絡(luò)算法,構(gòu)建學生經(jīng)濟困難分類模型。結(jié)合學生消費數(shù)據(jù)的時序特點,使用長短期記憶神經(jīng)網(wǎng)絡(luò)(Long short-term memory,LSTM)構(gòu)建分類模型,針對LSTM參數(shù)手動調(diào)整困難的問題,使用改進的粒子群優(yōu)化算法(Improved particle swarm optimization,IPSO)對LSTM的學習率和隱藏層節(jié)點數(shù)進行優(yōu)化,提高模型的分類準確率[19]。

1 算法理論

1.1 長短期記憶神經(jīng)網(wǎng)絡(luò)

LSTM能夠很好處理時序數(shù)據(jù),并在一定程度上解決循環(huán)神經(jīng)網(wǎng)絡(luò)梯度消失或梯度爆炸的問題。LSTM引入了輸入門、輸出門和遺忘門[20]來控制信息的傳遞,該算法核心在于記憶單元的設(shè)計,每個單元的計算公式如(1)式至(7)式所示,ft,it和ot分別表示遺忘門、輸入門和輸出門;ht為隱藏狀態(tài);xt為輸入的樣本;bf,bi,bo和bc為參數(shù);Ct和C~t分別表示記憶細胞和候選記憶細胞。在LSTM模型中,需要手動調(diào)整學習率、隱藏層節(jié)點數(shù),直到達到良好的分類效果。本文針對這一問題,引入粒子群優(yōu)化算法,對學習率和隱藏層節(jié)點數(shù)進行參數(shù)尋優(yōu)。

1.2 粒子群優(yōu)化算法及其改進

粒子群優(yōu)化算法(Particle swarm optimization,PSO)是群智能優(yōu)化算法的重要組成部分,可用于深度神經(jīng)網(wǎng)絡(luò)中的權(quán)值優(yōu)化[21]。該算法通過模擬鳥的不斷飛行達到搜索的效果。算法輸入的每一個個體根據(jù)自身的搜尋能力,在n維空間尋找個體的最優(yōu)解,然后通過全局跟蹤對比,尋找整個群體的全局最優(yōu)解。算法通過k次迭代,不斷調(diào)整粒子的自身位置和飛行速度,最終收斂到全局最優(yōu)解。n維空間中m個粒子,粒子的位置可表示為Xi=[Xi1,Xi2,…Xin],i取值為1到m,在整個尋優(yōu)過程中,每個粒子的更新速度可表示為Vi=[Vi1,Vi2,…Vin],每個粒子搜尋到的最優(yōu)位置可表示為pbesti=[pi1,pi2,…pin],在整個粒子群中,群體的最優(yōu)位置表示為gbest=[g1,g2,…gn],搜索過程中,需要限定位置范圍[Xmin,Xmax],限定速度范圍[Vmin,Vmax]。k次搜索迭代過程中,粒子的更新變化可表示為:

式中:d=1,2,…n;i=1,2,…m;w表示慣性權(quán)重,若沒有慣性權(quán)重會因無法知道初始狀態(tài)而造成尋優(yōu)困難;c1和c2表示學習因子,能夠調(diào)節(jié)學習的步長,c1為0容易陷入局部最優(yōu)解而無法跳出,c2為0會導致收斂緩慢,c1和c2均不為0算法更容易保持收斂速度和搜索效果的均衡性;r1和r2是兩個隨機數(shù),取值范圍為[0,1],用于增加搜索的隨機性。

PSO算法參數(shù)較少且收斂速度較快,標準的粒子群優(yōu)化算法易陷入局部最優(yōu),且需要重視初始粒子位置,w慣性權(quán)重是描述粒子歷史狀態(tài)的參數(shù),會在每次搜索中影響當前的搜索效果,是可優(yōu)化PSO性能的重要參數(shù)[22]。本文通過改進慣性權(quán)重w,解決算法易陷入局部最優(yōu)的問題,w能夠較好平衡搜索速度和搜索進度,提升算法性能。因為速度過大,粒子容易越過最優(yōu)解,速度過小容易陷入局部最優(yōu)解。在實際搜索過程中,空間較大時,前期需要較高的全局搜索能力,后期需要較高的局部搜索能力,因此,w可設(shè)置為動態(tài)更新的函數(shù),本文將w修改為:

式中:wmax是w的最大值;wmin是w的最小值;Tmax是最大迭代次數(shù);t為當前迭代次數(shù)。

為避免粒子搜尋陷入局部最優(yōu)解,加入自適應變異操作,計算公式如式(11)所示。

式中:Tmax是最大迭代次數(shù);t為當前迭代次數(shù);pi為自適應變異幾率。

2 數(shù)據(jù)來源與數(shù)據(jù)處理

2.1 數(shù)據(jù)來源

本文使用某高校提供的2020年10月至2021年7月一學年的本??茖W生校園消費數(shù)據(jù),涉及學生31 645名。高校一卡通數(shù)據(jù)庫有本??粕?、研究生、教職工、外來人員和臨時員工的所有消費記錄,但在經(jīng)濟情況的判斷中,由于研究生、教職工、外來人員和臨時員工的消費記錄分散,無法進行系統(tǒng)的分析,因此將這一類數(shù)據(jù)剔除。學生校園一卡通的消費數(shù)據(jù)具有時間限制,所取數(shù)據(jù)的高校位于四川省,根據(jù)學校提供的供餐時段以及在校學生日常作息情況,以上午10:00和下午15:00為界線區(qū)分早餐、午餐和晚餐,抽取學生消費的時序特點并且計算在校學生的消費次數(shù)。

數(shù)據(jù)集包括學生的基本信息和消費信息,部分數(shù)據(jù)字段如表1和表2所示,本文實驗重點關(guān)注消費數(shù)據(jù)。學生的基本信息包含學號(xh)、姓名(xm)、性別(xb)、身份證件號(sfzjh)、學院名稱(xymc)、班級(bj)等,學生在校內(nèi)的消費情況部分重要字段為消費金額(jyje)、消費時間(jysj)、消費地點(ZHMZ)等,消費地點囊括了學生食堂、超市、水房等場所。

表1 高校學生部分基本信息Table 1 Some Basic information of college students

表2 消費記錄(部分)Table 2 Consumption Record(partial)

本文從學生的基本信息和消費記錄中提取特征,作為IPSO-LSTM模型的輸入。學生的基本信息主要抽取學生的性別、年級、生源地以及專業(yè),重點抽取消費記錄中所隱含的特征。學生在校的消費情況能反映出學生經(jīng)濟狀況,根據(jù)消費記錄,抽取學生的基本消費特征,主要特征有消費總次數(shù)、消費總金額、每次消費平均值、每月消費平均值、周消費次數(shù)以及月消費次數(shù)等,消費的時間段作為數(shù)據(jù)重要的區(qū)分特征。

2.2 數(shù)據(jù)定義

根據(jù)高校學生的消費規(guī)律,可計算在一段時間內(nèi)一所高校學生的消費平均水平,以此可確定該校整體經(jīng)濟情況,并且能夠確定一段時間內(nèi)該生經(jīng)濟情況。為劃分出在校學生的經(jīng)濟情況,本文給出了相關(guān)數(shù)據(jù)定義及其計算方法。

定義1校內(nèi)學生月消費平均水平:學生群體的整體消費情況可用一段時間內(nèi)該群體的平均消費水平展示,記作M_average,計算公式如式(12)所示:

公式含義為k位學生i天t月j次在校內(nèi)消費的總額與在校消費學生總數(shù)K和該時段總月數(shù)T的商;mkj表示第k位學生第j次的消費金額;J表示消費的總次數(shù);I表示每月消費的總天數(shù);K,J,I和T均為正整數(shù)。

定義2經(jīng)濟困難水平線:處理好異常數(shù)據(jù)后所有能夠參與經(jīng)濟資助評定的K位學生中,若消費水平低于經(jīng)濟困難水平線,則該同學在該時段出現(xiàn)經(jīng)濟困難的概率越大,記作LOPC,計算公式如式(13)所示:

式中:η為可調(diào)整系數(shù),取值大于0小于1,可根據(jù)高校的資助名額進行調(diào)整。

定義3經(jīng)濟困難判定應滿足以下條件:(1)學生月消費總額小于LOPC;(2)學生月消費次數(shù)大于n;(3)學生連續(xù)m月在校消費。n為設(shè)定的每月消費次數(shù),m為設(shè)定的在校消費月數(shù)。當3個條件均滿足時,認為該同學經(jīng)濟困難,反之則不困難。

在本文的實驗中,η的系數(shù)取值設(shè)置為0.3;n的取值設(shè)置為30;m的取值設(shè)置為3。

3 基于IPSO-LSTM的分類模型

本文使用改進后的粒子群優(yōu)化算法(IPSO)對LSTM的學習率和隱藏層節(jié)點數(shù)進行尋優(yōu),將參數(shù)尋優(yōu)結(jié)果用于LSTM模型訓練,并結(jié)合學生在校消費數(shù)據(jù)構(gòu)建分類模型。

基于IPSO-LSTM的貧困生分類模型如圖1所示,基于IPSO-LSTM的分類模型偽代碼如表3所示。

表3 IPSO-LSTM分類模型偽代碼Table 3 IPSO-LSTM classification model pseudocode

圖1 IPSO-LSTM算法模型Fig.1 IPSO-LSTM algorithm model

4 實驗分析

4.1 實驗評價指標

本文的研究目的是利用LSTM網(wǎng)絡(luò)構(gòu)建貧困生分類模型,完成貧困生的類別劃分任務(wù),解決傳統(tǒng)貧困生識別方法受人工經(jīng)驗影響較大的問題。因此本文選擇常用于分類問題的評價指標來進行模型的性能評估,實驗評價指標包括準確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1-score。各評價指標的數(shù)學表達式如下所示:

式中:TP表示分類正確的正例;FP表示分類錯誤的正例;TN表示分類正確的反例;FN表示分類錯誤的反例。

4.2 實驗驗證

4.2.1 基于IPSO的網(wǎng)絡(luò)參數(shù)優(yōu)化

本文模型利用IPSO的自適應搜索特點確定LSTM網(wǎng)絡(luò)的相關(guān)結(jié)構(gòu)參數(shù),解決LSTM網(wǎng)絡(luò)參數(shù)確定困難的問題。

設(shè)置粒子個數(shù)為3,迭代次數(shù)為10;wmax為0.8,wmin為0.2。在尋優(yōu)過程中,通過式(8)到式(11)更新粒子速度和位置,IPSO-LSTM尋優(yōu)收斂情況如圖2所示。其中:圖2(a)為算法尋優(yōu)適應度曲線,以錯誤率函數(shù)進行評估,收斂在0.203 57;圖2(b)為LSTM學習率尋優(yōu)結(jié)果為0.000 26;圖2(c)為LSTM第一個隱藏層節(jié)點數(shù),取值結(jié)果為149;圖2(d)為LSTM第二個隱藏層節(jié)點數(shù),取值為175。

圖2 改進粒子群優(yōu)化算法尋優(yōu)結(jié)果Fig.2 Optimization results of improved particle swarm optimization algorithm

4.2.2 基于IPSO-LSTM的貧困生分類

利用IPSO的自適應優(yōu)化獲取LSTM的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)后,利用該參數(shù)二次訓練模型。

設(shè)置迭代次數(shù)為1 000、移動步長為16,數(shù)據(jù)集總樣本數(shù)為10 008條,采用8∶2隨機劃分訓練集與測試集。貧困生分類模型訓練過程中整個模型準確率和損失率的變化如圖3所示,其中:圖3(a)為IPSOLSTM算法損失曲線;圖3(b)為IPSO-LSTM分類準確率曲線。在訓練至800次左右,算法收斂,最終分類預測準確率收斂在98.3%。

圖3 IPSO-LSTM損失率和準確率Fig.3 IPSO-LSTM loss and accuracy

同時,為提高本文所提方法的說服力,本文將所提方法與LSTM和PSO-LSTM算法進行對比。為防止偶然實驗對結(jié)果的影響,本文利用十折交叉驗證理念設(shè)計對比實驗,實驗結(jié)果如表4所示。實驗表明本文所提方法表現(xiàn)良好,略優(yōu)于對照算法。

表4 十折交叉驗證數(shù)據(jù)Table 4 Ten fold cross validation data

通過實驗可以發(fā)現(xiàn),改進后的粒子群優(yōu)化算法進行隱藏層節(jié)點數(shù)和學習率的參數(shù)尋優(yōu)后,隨著迭代次數(shù)的增加,IPSO-LSTM的分類結(jié)果越準確。IPSO參數(shù)調(diào)整后,算法的收斂速度和尋優(yōu)精度表現(xiàn)良好,驗證實驗表明,IPSO-LSTM的穩(wěn)定性和準確率較好。

5 結(jié)論

本文抽取學生的基本信息和消費信息,構(gòu)建基于IPSO-LSTM的經(jīng)濟困難學生分類模型,用于困難學生的識別,對IPSO-LSTM算法進行驗證測試,實驗結(jié)果表明IPSO-LSTM模型在經(jīng)濟困難學生識別問題上的整體表現(xiàn)效果較好,收斂速度較優(yōu),準確率較好。本文的研究工作能夠為高校精準幫扶貧困學生提供理論與實踐參考,研究方法能為教育數(shù)據(jù)挖掘領(lǐng)域同類型研究提供參考。

猜你喜歡
貧困生次數(shù)粒子
碘-125粒子調(diào)控微小RNA-193b-5p抑制胃癌的增殖和侵襲
2020年,我國汽車召回次數(shù)同比減少10.8%,召回數(shù)量同比增長3.9%
俄羅斯是全球閱兵次數(shù)最多的國家嗎?
基于膜計算粒子群優(yōu)化的FastSLAM算法改進
Conduit necrosis following esophagectomy:An up-to-date literature review
基于切削次數(shù)的FANUC刀具壽命管理
基于粒子群優(yōu)化極點配置的空燃比輸出反饋控制
探索性作戰(zhàn)仿真實驗重復次數(shù)控制研究
“貧困生班主任”李金林
十年籌資千萬元 資助八千貧困生