基于大數(shù)據(jù)分析的高校貧困生精準(zhǔn)資助策略研究

2020-09-02 01:22歐陽(yáng)鐵磊葉玲肖

計(jì)算機(jī)應(yīng)用與軟件 2020年8期

歐陽(yáng)鐵磊葉玲肖

(浙江工商大學(xué)網(wǎng)絡(luò)信息中心浙江杭州 310018)

0 引言

對(duì)高校來(lái)說(shuō)，判定貧困生沒有統(tǒng)一的標(biāo)準(zhǔn)?，F(xiàn)在一般采取自主申報(bào)的方式，有些同學(xué)由于自尊心等因素，即使經(jīng)濟(jì)困難也不去申報(bào)。有些家庭即使不貧困，也能開出貧困證明?，F(xiàn)行辦法存在一定弊端，主觀依據(jù)多，客觀依據(jù)少。

現(xiàn)在高校普遍采用的校園卡，又叫“一卡通”，記錄了學(xué)生生活學(xué)習(xí)的各方面情況，其中包括在食堂就餐消費(fèi)的數(shù)據(jù)。判斷貧困生的關(guān)鍵是選取特征變量以及確定分組點(diǎn)?，F(xiàn)有研究的觀點(diǎn)包括：通過(guò)已經(jīng)認(rèn)定的貧困生得到相應(yīng)的貧困標(biāo)準(zhǔn)線，比較每名學(xué)生與貧困標(biāo)準(zhǔn)線的偏離程度[1]；采用月消費(fèi)金額，通過(guò)聚類算法分組[2]；對(duì)常規(guī)變量作處理，用消費(fèi)金額比上平均消費(fèi)金額作為貧困指數(shù)[3]。但上述研究仍存在弊端：(1) 認(rèn)定的貧困生名單中可能有誤差，存在少部分虛假貧困生，不能直接采用這份名單中統(tǒng)計(jì)分析出來(lái)的數(shù)值作定量分析，但是可以統(tǒng)計(jì)總體消費(fèi)特征做定性分析；(2) 選取的判斷貧困生的變量，需要算法檢驗(yàn)，找出最能區(qū)分貧困生的特征變量。

基于這些考量，本文判定貧困生的思路是：統(tǒng)計(jì)貧困生認(rèn)定名單和非貧困生兩類學(xué)生的消費(fèi)特征；根據(jù)消費(fèi)特征，研究分析出消費(fèi)特征變量之間的相關(guān)性和內(nèi)藏的消費(fèi)觀點(diǎn)。通過(guò)研究結(jié)果，嘗試導(dǎo)出更能區(qū)分貧困生的派生變量，與其他常規(guī)向量一起，通過(guò)CHAID算法，檢驗(yàn)找到最佳分組變量和最佳分組點(diǎn)。

1 數(shù)據(jù)處理及特征分析

1.1 數(shù)據(jù)處理

采樣某高校在校學(xué)生的校園卡食堂消費(fèi)原始數(shù)據(jù)，還有一份相關(guān)部門給定的貧困生名單，即通過(guò)自主申報(bào)方式評(píng)出的貧困生，以找出貧困生與非貧困生不同的消費(fèi)行為特征以及內(nèi)部隱藏的規(guī)律。

首先對(duì)數(shù)據(jù)進(jìn)行獲取和預(yù)處理，從數(shù)據(jù)庫(kù)查詢計(jì)算每個(gè)學(xué)生在校期間的消費(fèi)情況，諸如月消費(fèi)總次數(shù)、三餐平均消費(fèi)額等。按照相關(guān)部門給的名單，將學(xué)生分為貧困生和非貧困生，統(tǒng)計(jì)其消費(fèi)特征。圖1和圖2分別列出了三餐平均消費(fèi)金額和就餐次數(shù)兩個(gè)消費(fèi)變量。

圖1 貧困生與非貧困生三餐平均消費(fèi)金額對(duì)比

圖2 貧困生與非貧困生月就餐次數(shù)對(duì)比

可以看出，貧困生區(qū)別于非貧困生的兩個(gè)特點(diǎn)：一是在食堂的平均消費(fèi)次數(shù)高于非貧困生，二是在食堂的平均每餐消費(fèi)金額低于非貧困生。

1.2 特征分析

深入分析消費(fèi)次數(shù)和消費(fèi)金額之間的內(nèi)在關(guān)系，發(fā)現(xiàn)派生變量x與y之間存在如下線性關(guān)系：

y≈3x

(1)

x=(m0-m1)/m1

(2)

y=(n1-n0)/n0

(3)

式中：x表示非貧困生平均消費(fèi)金額超出貧困生的百分比；y表示貧困生月消費(fèi)次數(shù)超出非貧困生的百分比；ni表示一個(gè)月中i類學(xué)生消費(fèi)次數(shù)；mi表示i類學(xué)生的平均消費(fèi)金額，i取0或1，0表示非貧困生，1表示貧困生。實(shí)驗(yàn)結(jié)果如圖3所示。

圖3 x與y線性關(guān)系

式(1)表明非貧困的平均消費(fèi)金額每超出貧困生1個(gè)百分點(diǎn)，貧困生就餐次數(shù)就會(huì)超出非貧困生3個(gè)百分點(diǎn)。早餐是三餐中次數(shù)相差最大的，中餐、晚餐次數(shù)相差不大。經(jīng)過(guò)對(duì)食堂飯菜品種價(jià)格等進(jìn)行調(diào)查，發(fā)現(xiàn)早餐品種豐盛、價(jià)格實(shí)惠，中餐和晚餐葷素價(jià)格相對(duì)比較固定，飲食需求基本為一葷一素。對(duì)比學(xué)校外同等程度的飯菜，食堂價(jià)格要低一些，所以貧困生更傾向在食堂吃飯，尤其是早飯。因此價(jià)格對(duì)貧困生來(lái)說(shuō)成為決定是否在食堂吃的重要因素。貧困生偏向用更少的錢，滿足自己的基本飲食需求。

根據(jù)統(tǒng)計(jì)和分析結(jié)果，推測(cè)出貧困生特征的三種情況：

1) 兩種消費(fèi)特征都滿足，就餐次數(shù)高，平均消費(fèi)低；

2) 滿足其中一種消費(fèi)特征，就餐次數(shù)高，但是飲食需求大，在食堂的平均消費(fèi)可能會(huì)偏高；

3) 滿足其中一種消費(fèi)特征，平均消費(fèi)低，但是有可能在食堂就餐次數(shù)少。

2 基于CHAID算法的群體分組

卡方自動(dòng)交互診斷器(CHi-squared Automatic Interaction Detector，CHAID)由Kass等在1980年提出，是一種決策樹算法。其核心思想是：根據(jù)給定的輸入變量和輸出變量對(duì)樣本進(jìn)行最優(yōu)分割，按照卡方檢驗(yàn)的顯著性進(jìn)行多元列聯(lián)表的自動(dòng)判斷分組。利用卡方自動(dòng)交互檢測(cè)法可以快速、有效地挖掘出主要的影響因素，它可以處理非線性和高度相關(guān)的數(shù)據(jù)，能克服傳統(tǒng)的參數(shù)檢驗(yàn)方法在這些方面的限制。在CHAID技術(shù)中，可以直觀地看到在樹的分割變量和相關(guān)因子之間的關(guān)系。決策樹或分類樹的展開，始于確定作為根節(jié)點(diǎn)的目標(biāo)變量或因變量。為了找出最優(yōu)根節(jié)點(diǎn)，引入特征變量W=月消費(fèi)次數(shù)/平均每天消費(fèi)金額，加入常規(guī)變量中，作為CHARID算法的輸入變量。

2.1 輸入變量預(yù)處理

根據(jù)模型特點(diǎn)，輸出變量為分類型，0表示非貧困生，1表示貧困生，輸入變量均為數(shù)值型，包含W、早餐平均消費(fèi)金額、中餐平均消費(fèi)金額、晚餐平均消費(fèi)金額、早餐月消費(fèi)次數(shù)、中餐月消費(fèi)次數(shù)、晚餐月消費(fèi)次數(shù)、日平均消費(fèi)金額，月消費(fèi)總金額等。采用ChiMerge分組法，其特點(diǎn)是：輸入變量所具備的對(duì)輸出變量的解釋能力，不會(huì)因分箱處理而減弱。舉例W變量處理過(guò)程如下：

1) 將變量W按變量值升序排序，定義排序后的輸入變量取值w1，w2，…，wi，wi+1，…,wn,定義相對(duì)應(yīng)的輸出變量取值Y1，Y2，…,Yi，Yi+1，…，Yn。

2) 以相鄰兩個(gè)輸入變量中間值Qi為組限，使每個(gè)數(shù)據(jù)均單獨(dú)落入初始區(qū)間中。

3) 得到分組區(qū)間與Y值的交叉表,如表1所示。

表1 相鄰兩區(qū)間與Y值的交叉表

4) 計(jì)算該交叉表的卡方值。

(4)

式中：r表示行的個(gè)數(shù)，這里是相鄰兩組數(shù)[Qi,Qi+1]與[Qi+1,Qi+2]，所以值為2；C表示列的個(gè)數(shù)，這里是目標(biāo)變量是否貧困，分為Y=0和Y=1兩類，所以值為2。

5) 將卡方值與臨界值進(jìn)行比較。該模型中選擇自由度為1、顯著性水平為0.05的卡方臨界值3.841。如果卡方值小于臨界值，則兩組輸入?yún)^(qū)間可以合并為[Qi,Qi+2]，若卡方值大于臨界值，則不能合并。

ChiMerge方法是一種在輸出變量指導(dǎo)下的分組。它注重從分組結(jié)果與輸出變量的相關(guān)性角度實(shí)施分組。這樣的分組結(jié)果減少了輸入變量的取值個(gè)數(shù)，但并不影響對(duì)輸出變量的分析。

2.2 確定最佳分組變量

對(duì)數(shù)據(jù)完成預(yù)處理之后，進(jìn)行最佳分組變量的選擇，計(jì)算輸入變量與輸出變量相關(guān)性檢驗(yàn)的統(tǒng)計(jì)量的概率P值，即卡方值對(duì)應(yīng)的P值，P值越小，說(shuō)明輸入變量與輸出變量的關(guān)系越緊密，應(yīng)當(dāng)作為當(dāng)前最佳分組變量。當(dāng)P值相同時(shí)，應(yīng)該選擇檢驗(yàn)統(tǒng)計(jì)量觀測(cè)值最大的輸入變量，也就是卡方最大的輸入變量。實(shí)驗(yàn)結(jié)果顯示，變量W的P值為0，χ2=566.171最大，選取該變量為最佳分組變量即根節(jié)點(diǎn)，如表2所示。

表2 與輸出變量關(guān)系最緊密的前5個(gè)輸入變量

CHAID算法將變量W從低到高分組。貧困生在每組的占比隨著W的增加而增加。根據(jù)實(shí)際需要并結(jié)合其他節(jié)點(diǎn)的分組情況，適當(dāng)進(jìn)行剪枝，給出最終的判定貧困生標(biāo)準(zhǔn)：

1)w>2.194，中餐平均消費(fèi)≤8.05。這部分貧困生在食堂消費(fèi)次數(shù)高，消費(fèi)水平微低于非貧困生，說(shuō)明經(jīng)過(guò)資助，消費(fèi)水平已經(jīng)接近正常水平，稱為一般貧困生。

2)w≤2.194，1.9<早餐平均消費(fèi)<3.58，中餐月消費(fèi)額≤107。這部分貧困生早餐多買一點(diǎn)當(dāng)作午餐吃，午餐花費(fèi)相對(duì)少，稱為消費(fèi)困難生。

3)w≤2.194，早餐平均消費(fèi)≤1.9，中餐平均消費(fèi)額≤7.41。這部分貧困生消費(fèi)次數(shù)少且消費(fèi)水平低于貧困生的平均水平，稱為消費(fèi)特困生。

2.3 驗(yàn)證結(jié)果

在統(tǒng)計(jì)結(jié)果中有消費(fèi)記錄的學(xué)生為15 747名，一日三餐都有消費(fèi)記錄的為10 649名，其中在認(rèn)定貧困生名單里的有1 703名，其他非貧困生有8 946名。

(1) 驗(yàn)證貧困生名單情況。在貧困生名單里符合一般貧困生特征的有1 053名，符合消費(fèi)貧困生特征的有320名，符合消費(fèi)特困生特征有99名。貧困名單中按貧困規(guī)則判定的貧窮生占86.4%。調(diào)查發(fā)現(xiàn)在13.6%的疑似非貧困生中仍然存在少部分的貧困生。實(shí)驗(yàn)誤差主要受在外實(shí)習(xí)、點(diǎn)外賣、學(xué)校周邊小吃店多以及自身食欲、體重等多種因素影響。

(2) 驗(yàn)證非貧困生名單情況。一般貧困生經(jīng)過(guò)學(xué)校資助后，消費(fèi)水平接近于非貧困生，用這種消費(fèi)特征作為判斷貧困生的標(biāo)準(zhǔn)會(huì)有誤差，這里使用消費(fèi)困難生和消費(fèi)特困生的特征來(lái)判斷貧困生。符合消費(fèi)困難生特征的有862名，符合消費(fèi)特困生特征的有314名，占非貧困生名單的13.1%。對(duì)判定的疑似貧困生進(jìn)行調(diào)查分析，發(fā)現(xiàn)有部分學(xué)生家里比較富裕，但生活比較節(jié)儉。另外一部分家里確實(shí)比較困難，但因?yàn)楦鞣N因素，沒有申報(bào)成為貧困生。

3 結(jié) 語(yǔ)

本文建模得到的結(jié)果，基本符合預(yù)期的貧困生消費(fèi)特征。兩種消費(fèi)特征都滿足的占了大多數(shù)。少部分貧困生的消費(fèi)特征是在食堂平均消費(fèi)低，且次數(shù)低。食堂消費(fèi)次數(shù)多、消費(fèi)額偏高的情況并不顯著，表明大家的基本飯量和胃口差不多，對(duì)飯菜的要求不一樣。

分析貧困生的消費(fèi)特點(diǎn)，兩類學(xué)生值得關(guān)注：消費(fèi)困難生和消費(fèi)特困生。消費(fèi)困難生經(jīng)濟(jì)上比較拮據(jù)，為了節(jié)省費(fèi)用，中飯就吃早餐買的一些食物，給予資助可以改善他們的伙食。消費(fèi)特困生不僅需要經(jīng)濟(jì)的幫助，還需要心理的輔導(dǎo)。走訪調(diào)查發(fā)現(xiàn)這類消費(fèi)特征的學(xué)生不在學(xué)校食堂就餐的消費(fèi)金額，要比在食堂就餐還低。他們往往克扣自己的伙食費(fèi)，沒有達(dá)到基本的生活飲食需求，對(duì)身體、學(xué)習(xí)都存在不利影響。學(xué)校應(yīng)引導(dǎo)他們改變消費(fèi)觀念或給予更多的經(jīng)濟(jì)補(bǔ)助。

本文研究了用貧困生判斷規(guī)則檢驗(yàn)貧困生名單的情況，以及在非貧困生中找疑似貧困生的方法，并闡釋了誤差產(chǎn)生的原因。這些研究分析數(shù)據(jù)可以輔助學(xué)校進(jìn)行貧困生資助工作，資助那些真正需要經(jīng)濟(jì)幫助的學(xué)生。盡管高校貧困生精準(zhǔn)資助是個(gè)系統(tǒng)和復(fù)雜的問(wèn)題，但隨著高校信息化的發(fā)展，大量采集多維度高質(zhì)量的數(shù)據(jù)，并采用科學(xué)的評(píng)判方法，就一定能夠取得令人滿意的結(jié)果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡