国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)分析下的助學(xué)金發(fā)放判斷輔助模型

2021-02-04 06:53:46仲蓓鑫孔蘇鵬
軟件導(dǎo)刊 2021年1期
關(guān)鍵詞:助學(xué)金貧困學(xué)生貧困生

仲蓓鑫,孔蘇鵬,程 實(shí),張 恒

(1.南通大學(xué) 信息科學(xué)技術(shù)學(xué)院;2.南通大學(xué) 阿里云大數(shù)據(jù)學(xué)院,江蘇南通 226019)

0 引言

保障貧困家庭學(xué)生順利入學(xué)并完成學(xué)業(yè),是促進(jìn)教育公平的重要舉措[1]。隨著高校招生并軌政策實(shí)施,招生規(guī)模呈逐年增加趨勢,并且伴隨收費(fèi)制度的進(jìn)一步改革,高校貧困生問題逐步凸顯[2]。如何更精準(zhǔn)有效地資助貧困大學(xué)生成為亟待解決的重要問題。

人類大數(shù)據(jù)時(shí)代的開啟,在理念和技術(shù)上為創(chuàng)新資助工作模式提供了科學(xué)依據(jù),使得創(chuàng)新資助工作得以快捷、高效、精準(zhǔn)實(shí)施[3]。如依據(jù)大學(xué)生一定時(shí)間內(nèi)的一卡通數(shù)據(jù),根據(jù)大學(xué)生的經(jīng)濟(jì)水平、消費(fèi)能力和日常行為界定該大學(xué)生是否為真實(shí)的貧困學(xué)生,這種界定需要借助大數(shù)據(jù)挖掘與分析技術(shù),通過數(shù)學(xué)建模進(jìn)行分析研究,從而實(shí)現(xiàn)資助工作的精準(zhǔn)厘定,使得助學(xué)資金精準(zhǔn)到達(dá)每一位貧困生手中,確保每一筆助學(xué)金落到實(shí)處,助力貧困家庭的學(xué)生順利完成學(xué)業(yè)[4]。由此可見,利用大數(shù)據(jù)挖掘與分析技術(shù)對大學(xué)生在校期間的消費(fèi)數(shù)據(jù)進(jìn)行精準(zhǔn)挖掘具有較強(qiáng)現(xiàn)實(shí)意義。

1 現(xiàn)狀分析

近年來,國家在教育領(lǐng)域的投入可謂不遺余力,國內(nèi)高校響應(yīng)國家號召,不斷擴(kuò)大招生規(guī)模,提升教學(xué)水平,相繼申請或設(shè)立各種國家級、省級和校內(nèi)助學(xué)金或費(fèi)用減免、免息貸款、勤工儉學(xué)等直接或間接資助項(xiàng)目,以減輕貧困家庭的經(jīng)濟(jì)壓力,助力寒門學(xué)子順利完成學(xué)業(yè)[5]。

為了實(shí)現(xiàn)資助對象精準(zhǔn)、資金分配精準(zhǔn)、資助標(biāo)準(zhǔn)精準(zhǔn)和資金發(fā)放精準(zhǔn)的目標(biāo),高校在貧困生的資助流程上大多采用當(dāng)事人申請舉證、逐級評審和定期公示的方式,即:當(dāng)事人提出書面申請和證明材料,通過班組篩選、輔助導(dǎo)員評議和院委會復(fù)核,并對復(fù)核通過的學(xué)生名單進(jìn)行公示,如無異議,貧困生資格才正式確定,助學(xué)資金將定期發(fā)放至該貧困生手中,資助流程才算完成[6]。

現(xiàn)階段,這種依靠書面申請和材料舉證的貧困生評定方式存在人為干預(yù)和標(biāo)準(zhǔn)模糊的弊端,無法通過定量分析對貧困學(xué)生的真實(shí)情況進(jìn)行量化對比,造成助學(xué)資金分配不精準(zhǔn),甚至分配對象不合理,從而使得真正的貧困學(xué)生無法獲得急需的助學(xué)資金,無法真正實(shí)現(xiàn)助學(xué)金的精準(zhǔn)發(fā)放,也就失去了其存在的意義[7]。國際通用做法:一是調(diào)查大學(xué)生消費(fèi)水平[8],二是調(diào)查大學(xué)生家庭財(cái)務(wù)狀況[9]。這種方法的缺陷是認(rèn)定標(biāo)準(zhǔn)單一,需要建立在大量的調(diào)查基礎(chǔ)上,并且要耗費(fèi)較長一段時(shí)間[10]。

本文基于大數(shù)據(jù)分析學(xué)生日常消費(fèi)習(xí)慣、日常行動(dòng)軌跡等數(shù)據(jù),通過GBDT 分類器和SVM 建立精確預(yù)測模型,客觀預(yù)測大學(xué)生助學(xué)金發(fā)放情況。實(shí)際應(yīng)用效果表明,該模型輔助大學(xué)生助學(xué)金發(fā)放效果明顯,實(shí)現(xiàn)了精準(zhǔn)資助。

2 數(shù)據(jù)說明及分析

DataCastle 大數(shù)據(jù)競賽平臺曾公開一組某高校貧困生資助數(shù)據(jù)[11-12],以2016-2017、2017-2018 兩個(gè)學(xué)年的助學(xué)金發(fā)放實(shí)情為標(biāo)簽[13],以2012-2016、2016-2017 兩個(gè)學(xué)年的學(xué)生在?;顒?dòng)情況作為原始數(shù)據(jù),如門禁、消費(fèi)、圖書借閱等數(shù)據(jù),以助學(xué)金發(fā)放金額為結(jié)果數(shù)據(jù),兩相結(jié)合進(jìn)行模型優(yōu)化與評價(jià),從而依據(jù)學(xué)生2017/09—2018/09 的數(shù)據(jù)對2018 年的助學(xué)金發(fā)放情況進(jìn)行預(yù)測。顯然,訓(xùn)練集與測試集的數(shù)據(jù)在2016 年9 月—2018 年9 月這段時(shí)間出現(xiàn)了混合交叉,但這并不影響學(xué)生的行為數(shù)據(jù)和助學(xué)金數(shù)據(jù)的正確性。

2.1 數(shù)據(jù)說明

訓(xùn)練集和測試集是數(shù)據(jù)的兩種分組模式,每一組均含有約10 000 名學(xué)生的個(gè)人信息。

(1)圖書借閱數(shù)據(jù)borrow_train.txt 和borrow_test.txt(見表1)。

(2)一卡通數(shù)據(jù)card_train.txt 和card_test.txt(見表2)。

(3)寢室門禁數(shù)據(jù)dorm_train.txt 和dorm_test.txt(見表3)。

(4)圖書館門禁數(shù)據(jù)library_train.txt 和library_test.txt(見表4)。

(5)學(xué)生成績數(shù)據(jù)score_train.txt 和score_test.txt(見表5)。

(6)助學(xué)金獲獎(jiǎng)數(shù)據(jù)subsidy_train.txt 和subsidy_test.txt(見表6)。

Table 1 Book-borrowing data表1 圖書借閱數(shù)據(jù)

Table 2 One-card data表2 一卡通數(shù)據(jù)

Table 3 Dormitory access control data表3 寢室門禁數(shù)據(jù)

Table 4 Library access control data表4 圖書館門禁數(shù)據(jù)

Table 5 Student achievement data表5 學(xué)生成績數(shù)據(jù)

Table 6 Data of grants and awards表6 助學(xué)金獲獎(jiǎng)數(shù)據(jù)

2.2 數(shù)據(jù)分析

在Python 環(huán)境下完成數(shù)據(jù)分析和建模。

(1)助學(xué)金分布可視化(見圖1)。可以看出,一等助學(xué)金發(fā)放比例為3%,二等助學(xué)金發(fā)放比例為5%,三等助學(xué)金發(fā)放比例為8%。

Fig.1 Financial Aid distribution圖1 助學(xué)金分布

(2)一卡通表信息簡要統(tǒng)計(jì)(見表7)。由表7 可知,總消費(fèi)額最高達(dá)到30 000 元以上,中值為8 903 元;單筆消費(fèi)額最大為4 407 元,中值為300 元;有的學(xué)生歷史消費(fèi)單筆最低93 元,從數(shù)據(jù)上分析該學(xué)生要么家境優(yōu)越要么經(jīng)常幫人帶飯,而負(fù)數(shù)應(yīng)當(dāng)是屬于退款或其它異??劭?,具體情況還需要專業(yè)知識進(jìn)行判斷。從保有金額看,最大4 399 元,中值316 元,基本貼近大學(xué)生實(shí)際情況。

Table 7 One card table summary statistical information表7 一卡通表簡要統(tǒng)計(jì)信息

(3)深夜出入寢室人員過濾(見圖2)。2 131 多條記錄中,共涉及1 297 人,最多的34 次,最少的1 次,平均2.08次。

(4)學(xué)生出入圖書館數(shù)據(jù)展示。如圖3 所示,最多的是1 485 次,最少的是兩年只去1 次,平均122 次。

Fig.2 Students'late night access to dormitories圖2 學(xué)生深夜出入寢室情況

Fig.3 Students'access to the library圖3 學(xué)生出入圖書館情況

(5)出入圖書館次數(shù)與學(xué)習(xí)成績之間的關(guān)系。如圖4所示,實(shí)線代表去圖書館的次數(shù),虛線代表成績排名。累計(jì)去圖書館1 269 次的同學(xué)比764 次的同學(xué)成績要高出許多。

Fig.4 The relationship between the number of library visits and academic performance圖4 出入圖書館次數(shù)與學(xué)習(xí)成績之間的關(guān)系

3 預(yù)測模型建立

3.1 機(jī)器學(xué)習(xí)原理

解決分類問題是采用機(jī)器學(xué)習(xí)的最終目的,例如電子郵件的區(qū)分,將垃圾郵件和正常郵件進(jìn)行分類處理,評判歸類訪問日志的異常與否,百度蜘蛛對不同網(wǎng)站在訪問頻次和深度上進(jìn)行區(qū)分等。在助學(xué)金發(fā)放方面,則是分出哪些人屬于貧困學(xué)生,哪個(gè)貧困學(xué)生發(fā)放1 000 元,哪個(gè)貧困學(xué)生發(fā)放1 500 元,這些都需要分類解決。

通常情況下,解決這些問題的方法是編輯規(guī)則條件,如果滿足條件是一類,如果不滿足條件或滿足另外的條件則又是另外一類。然而,問題過于復(fù)雜而無法寫出規(guī)則予以判斷分類,又或者所寫出的規(guī)則過于繁雜,這時(shí)可以考慮采用機(jī)器學(xué)習(xí)方法予以解決。

機(jī)器學(xué)習(xí)過程如圖5 所示[14]。

機(jī)器學(xué)習(xí)需要兩種數(shù)據(jù):一種是起到標(biāo)識作用的特征數(shù)據(jù),它是一個(gè)人或物體的基本特征,例如學(xué)生每一次的消費(fèi)數(shù)據(jù)(消費(fèi)次數(shù)、消費(fèi)總也、單筆最大額和最小額等);另一種是標(biāo)記分類的答案數(shù)據(jù),或者說它是一種編輯好的已知規(guī)則,機(jī)器按照這個(gè)規(guī)則對特征數(shù)據(jù)進(jìn)行篩選歸類。當(dāng)兩種數(shù)據(jù)都具備了,就選擇可行的算法,讓機(jī)器進(jìn)行學(xué)習(xí)訓(xùn)練,從而形成模型。特征數(shù)據(jù)和答案數(shù)據(jù)量越大,機(jī)器學(xué)習(xí)量也就越大,智能化越高,模型也就越豐富,預(yù)測愈加準(zhǔn)確[15]。機(jī)器學(xué)習(xí)預(yù)測過程如圖6 所示。

被預(yù)測的數(shù)據(jù)應(yīng)當(dāng)與特征數(shù)據(jù)在格式上保持一致,名稱、順序和結(jié)構(gòu)的少許變動(dòng)都會使得預(yù)測結(jié)果出現(xiàn)偏差,導(dǎo)致模型預(yù)測結(jié)果不準(zhǔn)確。

3.2 算法選擇

本文選取學(xué)生的日常消費(fèi)數(shù)據(jù)構(gòu)建特征數(shù)據(jù)與標(biāo)記數(shù)據(jù),通過日常消費(fèi)數(shù)據(jù)分析,確保助學(xué)金資助精準(zhǔn)落地。

特征數(shù)據(jù)與標(biāo)記數(shù)據(jù)是一一對應(yīng)關(guān)系,它們都是一行描述一個(gè)數(shù)據(jù)對象,可以是人,也可以是物體,且每一行都是唯一存在的數(shù)字類型的數(shù)據(jù),若是字典類型,也應(yīng)以數(shù)字取代,如婚否采用0、1 表示。特征數(shù)據(jù)與標(biāo)記數(shù)據(jù)選取完成后,就要選取合適的機(jī)器學(xué)習(xí)算法,通常有K 近鄰(KNN)[16]、決策樹[17]、支持向量機(jī)(SVM)[18]、隨機(jī)森林[19]和迭代決策樹GBDT[20]這幾種算法。

Fig.5 Machine learning training process圖5 機(jī)器學(xué)習(xí)訓(xùn)練過程

Fig.6 Machine learning predictive processes圖6 機(jī)器學(xué)習(xí)預(yù)測過程

算法選取與原始數(shù)據(jù)有著緊密聯(lián)系,至于如何選擇,則需要具備一定經(jīng)驗(yàn),采用多種分類器將每一類的效果進(jìn)行對比后進(jìn)行選擇是一種比較常見的方法。當(dāng)模型構(gòu)建訓(xùn)練完成,就可以實(shí)施預(yù)測,在計(jì)算方法上,預(yù)測數(shù)據(jù)同特征數(shù)據(jù)基本一致,此處不再贅述。本文使用GBDT 分類器和SVM 進(jìn)行實(shí)驗(yàn),預(yù)測結(jié)果如表8 所示。

Table 8 The two models were compared表8 兩種模型預(yù)測對比

綜合考慮,GBDT 優(yōu)于SVM。

3.3 模型優(yōu)化

對GBDT 模型進(jìn)行優(yōu)化,過程如圖7 所示。

Fig.7 Model optimization process圖7 模型優(yōu)化過程

(1)重采樣。由于樣本數(shù)據(jù)有失均衡,必然造成分類結(jié)果偏差,使得準(zhǔn)確率虛高,例如全部預(yù)測資助為“0”。本次樣本數(shù)據(jù)中,只有約15% 的學(xué)生獲得了資助,倘若不對數(shù)據(jù)實(shí)施過采樣,必然對訓(xùn)練結(jié)果造成一定影響。

要想數(shù)據(jù)均衡,必選用采樣方式將小分類數(shù)據(jù)添加到訓(xùn)練數(shù)據(jù)。在特征數(shù)據(jù)中找到1 000、1 500 和2 000 的資助金數(shù)據(jù)并分揀出來,分別命名為DF 表T1、T15、T20 進(jìn)行保存。將數(shù)據(jù)進(jìn)行過濾,1 000 資助金提高5 倍,1 500 的資助金提高8 倍,2 000 的資助金提高10 倍,繪制餅圖,這樣訓(xùn)練數(shù)據(jù)的分布情況便可直觀展現(xiàn)出來,如圖8 所示。

這里的5、8、10 只是一個(gè)經(jīng)驗(yàn)值,在最后階段可根據(jù)需要進(jìn)行微調(diào)整。

Fig.8 The distribution of training data after oversampling圖8 訓(xùn)練數(shù)據(jù)過采樣后的分布

(2)參數(shù)優(yōu)化。子模型數(shù)量(n_estimators)和隨機(jī)對象(random_state)是GBDT 經(jīng)常用到的兩個(gè)參數(shù),前者越大精度越高,這并非好事,反而會因?yàn)樾纬蛇^擬合而導(dǎo)致預(yù)測效果欠佳,因此,參數(shù)優(yōu)化是個(gè)難題。

(3)維度選擇。一個(gè)模型能否成功,關(guān)鍵在于是否具備扎實(shí)的業(yè)務(wù)能力,是否能夠做出優(yōu)質(zhì)的維度特征數(shù)據(jù)。如果在數(shù)據(jù)分析中只采用消費(fèi)數(shù)據(jù),而忽略成績、圖書館、教室等維度,會造成模型預(yù)測偏差。

維度多寡和質(zhì)量高低是影響模型成功的關(guān)鍵因素,通常而言,維度越多越豐富,越有利于模型精準(zhǔn)構(gòu)建,然而并非所有維度都能夠起到積極作用,一旦引入這些起負(fù)面作用的維度,就會影響模型優(yōu)劣。

模型優(yōu)化前后預(yù)測結(jié)果如表9 所示。

Table 9 Prediction results before and after model optimization表9 模型優(yōu)化前后預(yù)測結(jié)果

4 結(jié)語

現(xiàn)階段高校在貧困生的認(rèn)定標(biāo)準(zhǔn)上缺乏科學(xué)性、合理性,且過于盲目主觀,缺乏客觀的必要手段,無法精準(zhǔn)評定出資助對象,使得高校資助工作事倍功半,助學(xué)資金落地出現(xiàn)偏差。本文采用機(jī)器學(xué)習(xí)結(jié)合大學(xué)生助學(xué)金數(shù)據(jù),研究精準(zhǔn)資助預(yù)測模型,解決了不平衡訓(xùn)練數(shù)據(jù)訓(xùn)練參數(shù)選擇問題,并對GBDT 進(jìn)行優(yōu)化。結(jié)果表明,精度比傳統(tǒng)的GBDT 算法提高2 個(gè)百分點(diǎn)。同時(shí),研究中也存在一些問題,比如標(biāo)注的樣本數(shù)據(jù)偏少,只有2019-2020 年的數(shù)據(jù),造成訓(xùn)練模型過擬合。下一步工作是對數(shù)據(jù)進(jìn)行人工標(biāo)注,提高預(yù)測精度。

猜你喜歡
助學(xué)金貧困學(xué)生貧困生
郁南縣
源流(2016年10期)2016-12-10 05:49:18
懷集縣
源流(2016年10期)2016-12-10 05:43:59
軍旅書法家李洪海捐助蘭考縣貧困學(xué)生
雷鋒(2015年9期)2015-12-14 06:29:13
2600多名貧困學(xué)生得到資助
中國火炬(2015年2期)2015-07-25 10:45:24
“貧困生班主任”李金林
中國火炬(2014年9期)2014-07-25 10:23:07
對中職學(xué)生國家助學(xué)金發(fā)放的思考
河南科技(2014年23期)2014-02-27 14:19:16
The Value of a University Education
籌資百萬救助貧困學(xué)生
中國火炬(2013年11期)2013-07-25 09:50:23
十年籌資千萬元 資助八千貧困生
中國火炬(2012年5期)2012-07-25 10:44:08
結(jié)對"百千萬"情暖貧困生
中國火炬(2012年10期)2012-07-25 10:10:40
衡阳市| 于田县| 饶河县| 景德镇市| 连江县| 石家庄市| 雷山县| 德格县| 铁力市| 巴中市| 连江县| 油尖旺区| 汤阴县| 特克斯县| 聊城市| 甘肃省| 吐鲁番市| 泽州县| 肥乡县| 东丰县| 崇文区| 庄河市| 东海县| 东阳市| 都兰县| 富民县| 儋州市| 凌海市| 阿坝| 鹤峰县| 旅游| 扶沟县| 奈曼旗| 荔浦县| 玉龙| 阳城县| 永善县| 金湖县| 保康县| 冷水江市| 宁远县|