王潔 崔嘉俊
摘要:在高校貧困生評定問題上,常常需要從多方面考慮學(xué)生個人情況,而高校普遍存在無法確定哪些是重要因素,哪些是無關(guān)因素,進(jìn)而選擇考慮盡可能多因素來評定貧困生。本文立足于我國高校貧困生評定問題的現(xiàn)狀,提出了基于Lasso Logistic的高校貧困生評定模型。使用Lasso方法從高校以及各地區(qū)政策普遍考慮的眾多指標(biāo)中選出最有效的評定指標(biāo),用Logistic模型進(jìn)行了分類預(yù)測,最后通過本文得到的結(jié)果對現(xiàn)有政策提出了相應(yīng)的幾點(diǎn)建議。
關(guān)鍵詞:Lasso Logistic模型;貧困生評定;預(yù)測
中圖分類號:TP301 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)14-0253-03
目前我國在高等教育階段,已經(jīng)建立起國家勵志獎學(xué)金、國家助學(xué)金、國家助學(xué)貸款、勤工助學(xué)、學(xué)費(fèi)減免等多種方式并舉的資助體系,直接或間接地為貧困生提供了經(jīng)濟(jì)資助。2015年12月9日,教育部發(fā)布的《規(guī)劃綱要》中期評估學(xué)生資助專題報告顯示,2010-2014年全國學(xué)生資助資金共計5564億元。從受助學(xué)生看,2010-2014年全國累計資助學(xué)生4.1億人次,學(xué)生資助經(jīng)費(fèi)投入和受助學(xué)生人數(shù)均大幅增長,我國教育公平邁出重大步伐。但是現(xiàn)行的資助體系也存在著問題,一方面貧困生數(shù)量大、認(rèn)定難,不排除其中有隨意性,且評定體系不規(guī)范,導(dǎo)致評定工作中具有較大的主觀色彩,結(jié)果不夠公平公正。因此,建立一個明確區(qū)分學(xué)生家庭經(jīng)濟(jì)狀況的模型來評定助學(xué)金人選具有重大的現(xiàn)實(shí)意義。
本文將綜合考慮學(xué)生在校的一卡通消費(fèi)情況以及家庭情況,因?yàn)榧彝ヒ蛩氐脑S多解釋變量是定性變量,對其進(jìn)行數(shù)量化需要引入虛擬變量,基于Lasso的Logistic模型可以很好地解決此類問題,使得評定過程更加具有針對性、客觀性與透明化。
1 Lasso Logistic方法
1.1 Lasso模型
Lasso模型是由Robert Tibshirani在1996年所提出的一種能夠?qū)崿F(xiàn)指標(biāo)集合精簡的有偏估計方法。
1.2 Lasso Logistic模型
Lasso方法主要應(yīng)用于線性模型,在估計參數(shù)時,系數(shù)被壓縮,部分系數(shù)甚至被壓縮到0來實(shí)現(xiàn)模型選擇,但是對于貧困生評定及預(yù)測,其因變量是二元離散取值,應(yīng)該使用回歸模型Lasso Logistic。
2 高校貧困生評定分析
2.1 數(shù)據(jù)來源及虛擬變量的設(shè)置
我們通過問卷調(diào)查及一卡通消費(fèi)情況獲得數(shù)據(jù),數(shù)據(jù)集中共有454條記錄,包括17個字段,其中前16個字段是對學(xué)生一卡通消費(fèi)數(shù)據(jù)以及家庭情況的描述,最后一個字段是學(xué)生是否為貧困生的評判,對其中的定性變量設(shè)置虛擬變量,進(jìn)行處理及編碼后的結(jié)果(解釋變量16組共41個,因變量1個)見表1。
2.2 數(shù)據(jù)預(yù)處理
1)標(biāo)準(zhǔn)中心化
原始數(shù)據(jù)中,平均吃飯消費(fèi)、學(xué)習(xí)消費(fèi)、生活消費(fèi)都是連續(xù)性數(shù)據(jù),且各類數(shù)據(jù)相差級別大,單位各不相同,為克服量綱的影響,使模型參數(shù)估計系數(shù)具有可比性,需要先將其進(jìn)行標(biāo)準(zhǔn)中心化處理,得到均值為0,標(biāo)準(zhǔn)差為1的服從標(biāo)準(zhǔn)正態(tài)分布的數(shù)據(jù)后再進(jìn)行分析。
2)劃分訓(xùn)練集與測試集
在本文所用數(shù)據(jù)集中,“貧困生”記錄數(shù)為189個,“非貧困生”記錄數(shù)為265個,從兩部分?jǐn)?shù)據(jù)中獨(dú)立隨機(jī)的抽取80%構(gòu)成訓(xùn)練集,剩余20%作為測試集。
3)設(shè)置虛擬變量
通過調(diào)用R軟件中nnet package的class.ind函數(shù)進(jìn)行虛擬變量的設(shè)置。
2.3 模型的建立
1)變量選擇與模型估計
本文數(shù)據(jù)分析的Lasso Logistic模型利用R軟件中Glmnet程序包,通過十折交叉驗(yàn)證,得到隨著橫坐標(biāo)調(diào)和參數(shù)值[λ]變化,縱坐標(biāo)模型誤差的變化情況,并在圖的最上方給出模型篩選出來的對應(yīng)變量數(shù),兩條虛線中間的取值為[λ]正負(fù)標(biāo)準(zhǔn)差的值域范圍,左邊虛線表示使模型誤差最小時的調(diào)和參數(shù)[λ]的取值。
圖1顯示隨著調(diào)和參數(shù)[λ]值的變化,模型中41個變量系數(shù)的篩選情況,為了盡量獲得相對比較重要的變量,[λ]的理想取值應(yīng)是使壓縮程度達(dá)到最大,即[λ=e-3.5]。此時,基于Lasso變量選擇的Logistic模型參數(shù)估計結(jié)果如表2所示。
從基于Lasso變量選擇的Logistic模型參數(shù)估計結(jié)果可以看出,對于一卡通的消費(fèi),包括平均吃飯消費(fèi)、學(xué)習(xí)消費(fèi)、生活消費(fèi)對于評定一個學(xué)生是否是貧困生都不是必要的因素,其原因是因?yàn)橐豢ㄍǖ南M(fèi)地點(diǎn)限制在學(xué)校范圍內(nèi),各種消費(fèi)價格差別不是很大,因此在一卡通消費(fèi)方面不會明顯區(qū)分出來一個學(xué)生是否滿足貧困生,此外,經(jīng)濟(jì)來源、學(xué)費(fèi)來源、家庭需要贍養(yǎng)老人數(shù)、家庭人口、家中是否有重病或殘疾人口、家庭是否是建檔立卡貧困戶、家庭成員的普遍受教育程度、平均月收入、學(xué)生的平均月生活費(fèi)、學(xué)生是否進(jìn)行過勤工儉學(xué)以及是否受過其他資助都是對于評定一個學(xué)生是否為貧困生有影響的因素。
2)模型評價
表3說明,基于Lasso篩選變量建立的Logistic模型,在訓(xùn)練集和測試集上的總體預(yù)測準(zhǔn)確率都在80%以上,說明該模型可通過檢驗(yàn)。
3 結(jié)論與政策建議
在進(jìn)行貧困生評定時,由于解釋變量大多為定性變量,所以在建立模型時需要設(shè)置較多的虛擬變量。Logistic模型是分析一個學(xué)生是否為貧困生的有效方法,而在高校進(jìn)行貧困生評定時,由于無法確定哪些是重要因素,哪些是無關(guān)因素,給貧困生評定帶來了一定程度的干擾。本文綜合考慮了各大高校以及國家和地區(qū)相關(guān)政策的評定條件,確定了16個相關(guān)性顯著的因素,基于Lasso方法建立了logistic模型,Lasso方法可以在參數(shù)估計的同時實(shí)現(xiàn)回歸系數(shù)的確定,從所得結(jié)果看,無論是在變量解釋還是預(yù)測準(zhǔn)確率,Lasso方法都有良好的外推性,避免了多重共線性等問題。本文針對建立模型得出的結(jié)果提出以下建議:
(1)將學(xué)生在校一卡通消費(fèi)情況作為評定其是否為貧困生是不合理的。因?yàn)樵谛K邢M(fèi)項目差別均不是很大,因此僅靠一個學(xué)生一學(xué)期或一年的一卡通消費(fèi)作為是否為貧困生的舉措不可取;
(2)要積極且嚴(yán)格的核實(shí)申請學(xué)生的家庭情況。從模型結(jié)果來看,經(jīng)濟(jì)來源、學(xué)費(fèi)來源、家庭需要贍養(yǎng)老人數(shù)、家庭人口、家中是否有重病或殘疾人口、家庭是否是建檔立卡貧困戶、家庭成員的普遍受教育程度、平均月收入都是對于評定一個學(xué)生是否為貧困生有影響的因素,其中,學(xué)費(fèi)來源與家庭平均受教育程度是最為顯著的兩個因素,因此,在學(xué)生申請貧困生時,要特別注意以上條件是否與實(shí)際情況符合;
(3)要建立一個動態(tài)的貧困生檔案。許多高校將之前學(xué)生是否為貧困生作為重要依據(jù),在本文得出的模型結(jié)果來看,當(dāng)學(xué)生進(jìn)行勤工儉學(xué)或者已受到過其他資助時,當(dāng)年并不滿足是貧困生的條件,因此,要實(shí)現(xiàn)公平公正的評定,真正保障“不讓一個學(xué)生因家庭經(jīng)濟(jì)困難而失學(xué)”,就一定要建立一個動態(tài)的貧困生檔案,從學(xué)生個人情況進(jìn)行判定。
參考文獻(xiàn):
[1] 張彥坤.高校國家助學(xué)金量化評定管理模式探索[J].思想政治教育研究,2013,29(3).
[2] 彭德軍,楊靖宇,沈有建.基于變權(quán)AHP法的貧困生評定[J].海南師范大學(xué)(自然科學(xué)版),2016,29(3).
[3] 王雪飛.數(shù)據(jù)挖掘在高校貧困生校園卡流水?dāng)?shù)據(jù)中的應(yīng)用研究[D].吉林:東北師范大學(xué),2014.
[4] 薛丹.高校助學(xué)金等級評定模型研究及系統(tǒng)開發(fā)[D].北京:北京交通大學(xué),2010.
[5] 胡道安.關(guān)于我國高校助學(xué)金評選工作中存在的問題及其思考[J].中國成人教育,2011(16).