歐陽(yáng)鐵磊 葉玲肖
(浙江工商大學(xué)網(wǎng)絡(luò)信息中心 浙江 杭州 310018)
對(duì)高校來(lái)說(shuō),判定貧困生沒有統(tǒng)一的標(biāo)準(zhǔn)?,F(xiàn)在一般采取自主申報(bào)的方式,有些同學(xué)由于自尊心等因素,即使經(jīng)濟(jì)困難也不去申報(bào)。有些家庭即使不貧困,也能開出貧困證明?,F(xiàn)行辦法存在一定弊端,主觀依據(jù)多,客觀依據(jù)少。
現(xiàn)在高校普遍采用的校園卡,又叫“一卡通”,記錄了學(xué)生生活學(xué)習(xí)的各方面情況,其中包括在食堂就餐消費(fèi)的數(shù)據(jù)。判斷貧困生的關(guān)鍵是選取特征變量以及確定分組點(diǎn)?,F(xiàn)有研究的觀點(diǎn)包括:通過(guò)已經(jīng)認(rèn)定的貧困生得到相應(yīng)的貧困標(biāo)準(zhǔn)線,比較每名學(xué)生與貧困標(biāo)準(zhǔn)線的偏離程度[1];采用月消費(fèi)金額,通過(guò)聚類算法分組[2];對(duì)常規(guī)變量作處理,用消費(fèi)金額比上平均消費(fèi)金額作為貧困指數(shù)[3]。但上述研究仍存在弊端:(1) 認(rèn)定的貧困生名單中可能有誤差,存在少部分虛假貧困生,不能直接采用這份名單中統(tǒng)計(jì)分析出來(lái)的數(shù)值作定量分析,但是可以統(tǒng)計(jì)總體消費(fèi)特征做定性分析;(2) 選取的判斷貧困生的變量,需要算法檢驗(yàn),找出最能區(qū)分貧困生的特征變量。
基于這些考量,本文判定貧困生的思路是:統(tǒng)計(jì)貧困生認(rèn)定名單和非貧困生兩類學(xué)生的消費(fèi)特征;根據(jù)消費(fèi)特征,研究分析出消費(fèi)特征變量之間的相關(guān)性和內(nèi)藏的消費(fèi)觀點(diǎn)。通過(guò)研究結(jié)果,嘗試導(dǎo)出更能區(qū)分貧困生的派生變量,與其他常規(guī)向量一起,通過(guò)CHAID算法,檢驗(yàn)找到最佳分組變量和最佳分組點(diǎn)。
采樣某高校在校學(xué)生的校園卡食堂消費(fèi)原始數(shù)據(jù),還有一份相關(guān)部門給定的貧困生名單,即通過(guò)自主申報(bào)方式評(píng)出的貧困生,以找出貧困生與非貧困生不同的消費(fèi)行為特征以及內(nèi)部隱藏的規(guī)律。
首先對(duì)數(shù)據(jù)進(jìn)行獲取和預(yù)處理,從數(shù)據(jù)庫(kù)查詢計(jì)算每個(gè)學(xué)生在校期間的消費(fèi)情況,諸如月消費(fèi)總次數(shù)、三餐平均消費(fèi)額等。按照相關(guān)部門給的名單,將學(xué)生分為貧困生和非貧困生,統(tǒng)計(jì)其消費(fèi)特征。圖1和圖2分別列出了三餐平均消費(fèi)金額和就餐次數(shù)兩個(gè)消費(fèi)變量。
圖1 貧困生與非貧困生三餐平均消費(fèi)金額對(duì)比
圖2 貧困生與非貧困生月就餐次數(shù)對(duì)比
可以看出,貧困生區(qū)別于非貧困生的兩個(gè)特點(diǎn):一是在食堂的平均消費(fèi)次數(shù)高于非貧困生,二是在食堂的平均每餐消費(fèi)金額低于非貧困生。
深入分析消費(fèi)次數(shù)和消費(fèi)金額之間的內(nèi)在關(guān)系,發(fā)現(xiàn)派生變量x與y之間存在如下線性關(guān)系:
y≈3x
(1)
x=(m0-m1)/m1
(2)
y=(n1-n0)/n0
(3)
式中:x表示非貧困生平均消費(fèi)金額超出貧困生的百分比;y表示貧困生月消費(fèi)次數(shù)超出非貧困生的百分比;ni表示一個(gè)月中i類學(xué)生消費(fèi)次數(shù);mi表示i類學(xué)生的平均消費(fèi)金額,i取0或1,0表示非貧困生,1表示貧困生。實(shí)驗(yàn)結(jié)果如圖3所示。
圖3 x與y線性關(guān)系
式(1)表明非貧困的平均消費(fèi)金額每超出貧困生1個(gè)百分點(diǎn),貧困生就餐次數(shù)就會(huì)超出非貧困生3個(gè)百分點(diǎn)。早餐是三餐中次數(shù)相差最大的,中餐、晚餐次數(shù)相差不大。經(jīng)過(guò)對(duì)食堂飯菜品種價(jià)格等進(jìn)行調(diào)查,發(fā)現(xiàn)早餐品種豐盛、價(jià)格實(shí)惠,中餐和晚餐葷素價(jià)格相對(duì)比較固定,飲食需求基本為一葷一素。對(duì)比學(xué)校外同等程度的飯菜,食堂價(jià)格要低一些,所以貧困生更傾向在食堂吃飯,尤其是早飯。因此價(jià)格對(duì)貧困生來(lái)說(shuō)成為決定是否在食堂吃的重要因素。貧困生偏向用更少的錢,滿足自己的基本飲食需求。
根據(jù)統(tǒng)計(jì)和分析結(jié)果,推測(cè)出貧困生特征的三種情況:
1) 兩種消費(fèi)特征都滿足,就餐次數(shù)高,平均消費(fèi)低;
2) 滿足其中一種消費(fèi)特征,就餐次數(shù)高,但是飲食需求大,在食堂的平均消費(fèi)可能會(huì)偏高;
3) 滿足其中一種消費(fèi)特征,平均消費(fèi)低,但是有可能在食堂就餐次數(shù)少。
卡方自動(dòng)交互診斷器(CHi-squared Automatic Interaction Detector,CHAID)由Kass等在1980年提出,是一種決策樹算法。其核心思想是:根據(jù)給定的輸入變量和輸出變量對(duì)樣本進(jìn)行最優(yōu)分割,按照卡方檢驗(yàn)的顯著性進(jìn)行多元列聯(lián)表的自動(dòng)判斷分組。利用卡方自動(dòng)交互檢測(cè)法可以快速、有效地挖掘出主要的影響因素,它可以處理非線性和高度相關(guān)的數(shù)據(jù),能克服傳統(tǒng)的參數(shù)檢驗(yàn)方法在這些方面的限制。在CHAID技術(shù)中,可以直觀地看到在樹的分割變量和相關(guān)因子之間的關(guān)系。決策樹或分類樹的展開,始于確定作為根節(jié)點(diǎn)的目標(biāo)變量或因變量。為了找出最優(yōu)根節(jié)點(diǎn),引入特征變量W=月消費(fèi)次數(shù)/平均每天消費(fèi)金額,加入常規(guī)變量中,作為CHARID算法的輸入變量。
根據(jù)模型特點(diǎn),輸出變量為分類型,0表示非貧困生,1表示貧困生,輸入變量均為數(shù)值型,包含W、早餐平均消費(fèi)金額、中餐平均消費(fèi)金額、晚餐平均消費(fèi)金額、早餐月消費(fèi)次數(shù)、中餐月消費(fèi)次數(shù)、晚餐月消費(fèi)次數(shù)、日平均消費(fèi)金額,月消費(fèi)總金額等。采用ChiMerge分組法,其特點(diǎn)是:輸入變量所具備的對(duì)輸出變量的解釋能力,不會(huì)因分箱處理而減弱。舉例W變量處理過(guò)程如下:
1) 將變量W按變量值升序排序,定義排序后的輸入變量取值w1,w2,…,wi,wi+1,…,wn,定義相對(duì)應(yīng)的輸出變量取值Y1,Y2,…,Yi,Yi+1,…,Yn。
2) 以相鄰兩個(gè)輸入變量中間值Qi為組限,使每個(gè)數(shù)據(jù)均單獨(dú)落入初始區(qū)間中。
3) 得到分組區(qū)間與Y值的交叉表,如表1所示。
表1 相鄰兩區(qū)間與Y值的交叉表
4) 計(jì)算該交叉表的卡方值。
(4)
式中:r表示行的個(gè)數(shù),這里是相鄰兩組數(shù)[Qi,Qi+1]與[Qi+1,Qi+2],所以值為2;C表示列的個(gè)數(shù),這里是目標(biāo)變量是否貧困,分為Y=0和Y=1兩類,所以值為2。
5) 將卡方值與臨界值進(jìn)行比較。該模型中選擇自由度為1、顯著性水平為0.05的卡方臨界值3.841。如果卡方值小于臨界值,則兩組輸入?yún)^(qū)間可以合并為[Qi,Qi+2],若卡方值大于臨界值,則不能合并。
ChiMerge方法是一種在輸出變量指導(dǎo)下的分組。它注重從分組結(jié)果與輸出變量的相關(guān)性角度實(shí)施分組。這樣的分組結(jié)果減少了輸入變量的取值個(gè)數(shù),但并不影響對(duì)輸出變量的分析。
對(duì)數(shù)據(jù)完成預(yù)處理之后,進(jìn)行最佳分組變量的選擇,計(jì)算輸入變量與輸出變量相關(guān)性檢驗(yàn)的統(tǒng)計(jì)量的概率P值,即卡方值對(duì)應(yīng)的P值,P值越小,說(shuō)明輸入變量與輸出變量的關(guān)系越緊密,應(yīng)當(dāng)作為當(dāng)前最佳分組變量。當(dāng)P值相同時(shí),應(yīng)該選擇檢驗(yàn)統(tǒng)計(jì)量觀測(cè)值最大的輸入變量,也就是卡方最大的輸入變量。實(shí)驗(yàn)結(jié)果顯示,變量W的P值為0,χ2=566.171最大,選取該變量為最佳分組變量即根節(jié)點(diǎn),如表2所示。
表2 與輸出變量關(guān)系最緊密的前5個(gè)輸入變量
CHAID算法將變量W從低到高分組。貧困生在每組的占比隨著W的增加而增加。根據(jù)實(shí)際需要并結(jié)合其他節(jié)點(diǎn)的分組情況,適當(dāng)進(jìn)行剪枝,給出最終的判定貧困生標(biāo)準(zhǔn):
1)w>2.194,中餐平均消費(fèi)≤8.05。這部分貧困生在食堂消費(fèi)次數(shù)高,消費(fèi)水平微低于非貧困生,說(shuō)明經(jīng)過(guò)資助,消費(fèi)水平已經(jīng)接近正常水平,稱為一般貧困生。
2)w≤2.194,1.9<早餐平均消費(fèi)<3.58,中餐月消費(fèi)額≤107。這部分貧困生早餐多買一點(diǎn)當(dāng)作午餐吃,午餐花費(fèi)相對(duì)少,稱為消費(fèi)困難生。
3)w≤2.194,早餐平均消費(fèi)≤1.9,中餐平均消費(fèi)額≤7.41。這部分貧困生消費(fèi)次數(shù)少且消費(fèi)水平低于貧困生的平均水平,稱為消費(fèi)特困生。
在統(tǒng)計(jì)結(jié)果中有消費(fèi)記錄的學(xué)生為15 747名,一日三餐都有消費(fèi)記錄的為10 649名,其中在認(rèn)定貧困生名單里的有1 703名,其他非貧困生有8 946名。
(1) 驗(yàn)證貧困生名單情況。在貧困生名單里符合一般貧困生特征的有1 053名,符合消費(fèi)貧困生特征的有320名,符合消費(fèi)特困生特征有99名。貧困名單中按貧困規(guī)則判定的貧窮生占86.4%。調(diào)查發(fā)現(xiàn)在13.6%的疑似非貧困生中仍然存在少部分的貧困生。實(shí)驗(yàn)誤差主要受在外實(shí)習(xí)、點(diǎn)外賣、學(xué)校周邊小吃店多以及自身食欲、體重等多種因素影響。
(2) 驗(yàn)證非貧困生名單情況。一般貧困生經(jīng)過(guò)學(xué)校資助后,消費(fèi)水平接近于非貧困生,用這種消費(fèi)特征作為判斷貧困生的標(biāo)準(zhǔn)會(huì)有誤差,這里使用消費(fèi)困難生和消費(fèi)特困生的特征來(lái)判斷貧困生。符合消費(fèi)困難生特征的有862名,符合消費(fèi)特困生特征的有314名,占非貧困生名單的13.1%。對(duì)判定的疑似貧困生進(jìn)行調(diào)查分析,發(fā)現(xiàn)有部分學(xué)生家里比較富裕,但生活比較節(jié)儉。另外一部分家里確實(shí)比較困難,但因?yàn)楦鞣N因素,沒有申報(bào)成為貧困生。
本文建模得到的結(jié)果,基本符合預(yù)期的貧困生消費(fèi)特征。兩種消費(fèi)特征都滿足的占了大多數(shù)。少部分貧困生的消費(fèi)特征是在食堂平均消費(fèi)低,且次數(shù)低。食堂消費(fèi)次數(shù)多、消費(fèi)額偏高的情況并不顯著,表明大家的基本飯量和胃口差不多,對(duì)飯菜的要求不一樣。
分析貧困生的消費(fèi)特點(diǎn),兩類學(xué)生值得關(guān)注:消費(fèi)困難生和消費(fèi)特困生。消費(fèi)困難生經(jīng)濟(jì)上比較拮據(jù),為了節(jié)省費(fèi)用,中飯就吃早餐買的一些食物,給予資助可以改善他們的伙食。消費(fèi)特困生不僅需要經(jīng)濟(jì)的幫助,還需要心理的輔導(dǎo)。走訪調(diào)查發(fā)現(xiàn)這類消費(fèi)特征的學(xué)生不在學(xué)校食堂就餐的消費(fèi)金額,要比在食堂就餐還低。他們往往克扣自己的伙食費(fèi),沒有達(dá)到基本的生活飲食需求,對(duì)身體、學(xué)習(xí)都存在不利影響。學(xué)校應(yīng)引導(dǎo)他們改變消費(fèi)觀念或給予更多的經(jīng)濟(jì)補(bǔ)助。
本文研究了用貧困生判斷規(guī)則檢驗(yàn)貧困生名單的情況,以及在非貧困生中找疑似貧困生的方法,并闡釋了誤差產(chǎn)生的原因。這些研究分析數(shù)據(jù)可以輔助學(xué)校進(jìn)行貧困生資助工作,資助那些真正需要經(jīng)濟(jì)幫助的學(xué)生。盡管高校貧困生精準(zhǔn)資助是個(gè)系統(tǒng)和復(fù)雜的問(wèn)題,但隨著高校信息化的發(fā)展,大量采集多維度高質(zhì)量的數(shù)據(jù),并采用科學(xué)的評(píng)判方法,就一定能夠取得令人滿意的結(jié)果。