曹 奇
(常州紡織服裝職業(yè)技術(shù)學(xué)院 創(chuàng)意學(xué)院,江蘇 常州 213164)
目前對高校資助政策進(jìn)行評估的主要是相關(guān)政府部門,學(xué)生很少有機(jī)會(huì)參與政策的評估,其資助政策決策缺少外部的制約,相關(guān)的資助政策評估機(jī)制缺乏相應(yīng)的技術(shù)支持[1]。目前高校受資助學(xué)生貧困程度決策主要以定性為主,輔之以定量分析。定性分析研究更加偏向于主觀的價(jià)值判斷,由于沒有運(yùn)用數(shù)理統(tǒng)計(jì)分析方法,缺乏客觀性與科學(xué)性,容易造成高校資助部門無法從量化的角度了解學(xué)生資助政策實(shí)施的實(shí)際情況,不利于學(xué)生資助政策評估工作的正常開展。
高校資助政策對家庭貧困學(xué)生能夠享受到公平的受教育權(quán)和均等的個(gè)人發(fā)展權(quán)具有重要意義[2-3]。但在實(shí)施過程中,存在對部分真正困難學(xué)生的資助落實(shí)不到位,一些學(xué)生的貧困等級定得過高,部分失信學(xué)生助學(xué)貸款拖欠嚴(yán)重等問題,這些問題直接影響高校助學(xué)政策的有效實(shí)施。
受資助學(xué)生庫涉及的貧困指標(biāo)變量很多,并且變量之間相關(guān)性明顯,所包含的信息有所重疊[4]。主成分分析方法可以對原始變量進(jìn)行降維,抓住事物的主要矛盾,在繁雜冗余的數(shù)據(jù)中盡可能多地提取重要真實(shí)的學(xué)生貧困信息[5-6],選擇若干個(gè)有意義的主成分進(jìn)行序列重建,降低冗余信息干擾,使問題得到簡化。本文利用常州紡織服裝職業(yè)技術(shù)學(xué)院創(chuàng)意學(xué)院400名受資助學(xué)生庫中的貧困信息,采用主成分分析的方法進(jìn)行系統(tǒng)建模,建立該院學(xué)生貧困程度綜合評估模型,為學(xué)院資助系統(tǒng)提供決策支持。
主成分分析又稱主分量分析(Principal Component Analysis,PCA),是一種通過降低維度的技術(shù)使多個(gè)具有一定相關(guān)性的變量重新組合成為幾個(gè)互不相關(guān)的主成分(綜合變量)的多元統(tǒng)計(jì)方法[7]。這些主成分包含了原始變量中大部分的有效信息,通常表示為原始變量的線性組合。
1) 將一個(gè)樣本量為n,指標(biāo)個(gè)數(shù)為p的原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化得到矩陣[8-9]
(1)
2) 將標(biāo)準(zhǔn)化矩陣X進(jìn)行時(shí)間正交函數(shù)展開,得到協(xié)方差陣
(2)
3) 確定與選擇主成分。S是對稱矩陣且主對角線為同一常數(shù)(Toeplitz矩陣)[10],其全體特征值
λ1≥λ2≥…≥λp≥0,
(3)
其中{λ1,λ2,…λm}所對應(yīng)的第1,第2,…,第m(m≤p)個(gè)主成分,計(jì)算其主成分貢獻(xiàn)率
(3)
累計(jì)貢獻(xiàn)率
(4)
一般取累計(jì)貢獻(xiàn)率達(dá)到85%—95%的特征值所對應(yīng)的主成分。
4) 根據(jù)選擇的主成分個(gè)數(shù)對樣本數(shù)據(jù)重新進(jìn)行綜合匯總
Fi=A1X1+A2X2+…+AiXi(i=1,2,…,p),
(5)
其中Ai表示λi所對應(yīng)的特征向量,
Ai=(a1i,a2i,…,aii)T(i=1,2,…,p),
Xi表示為樣本行向量,
Xi=(xi1,xi2,…,xip) (i=1,2,…,p)。
5) 主成分分析用于系統(tǒng)評估,以主成分Fi的貢獻(xiàn)率Ti為權(quán),利用主成分的表達(dá)式F1,F(xiàn)2,…,F(xiàn)p進(jìn)行線性組合,構(gòu)造綜合評價(jià)函數(shù),即
(6)
其中Y成為評價(jià)指數(shù),可以對系統(tǒng)計(jì)算出來的Yi(i≤n)排序,從而進(jìn)行有效的分類劃級。
以筆者所在的創(chuàng)意學(xué)院受資助學(xué)生庫中篩選的包含大一、大二、大三年級的405名學(xué)生數(shù)據(jù)進(jìn)行貧困程度模型分析,用其中400名學(xué)生的資助數(shù)據(jù)進(jìn)行基礎(chǔ)建模,用建立的貧困程度診斷模型對新入庫的5位學(xué)生貧困程度進(jìn)行評價(jià)分析。
學(xué)生受資助庫中存放大量數(shù)據(jù),但大部分?jǐn)?shù)據(jù)是定性描述,而且定量記錄的數(shù)據(jù)很少,這些數(shù)據(jù)很難進(jìn)行統(tǒng)計(jì)分析。要準(zhǔn)確評估受資助學(xué)生貧困程度,其指標(biāo)的建立至關(guān)重要:
1) 選取的貧困程度測評指標(biāo)必須是學(xué)生、教師、家長認(rèn)為重要的,從前期的調(diào)查問卷中可以準(zhǔn)確選擇大家認(rèn)為最關(guān)鍵、最重要的測評指標(biāo)。
2) 部分測評指標(biāo)必須能夠控制,若某些指標(biāo)學(xué)生在某一時(shí)間段還不能夠完成或者能夠繼續(xù)改進(jìn)的,則暫時(shí)不采用,比如大一學(xué)生剛?cè)霂鞎r(shí)的義工時(shí)間完成率指標(biāo)、操行等級、成績指標(biāo)等。
3) 選擇的貧困程度指標(biāo)必須是可以測量的,最后對400名學(xué)生建立的貧困程度測評結(jié)果是量化的值,因此選擇的貧困指標(biāo)必須是可以進(jìn)行四則運(yùn)算、統(tǒng)計(jì)分析的。
4) 選取的貧困指標(biāo)必須具有代表性,防止部分指標(biāo)出現(xiàn)強(qiáng)相關(guān)造成數(shù)據(jù)冗余。
基于上面4條原則,在深度網(wǎng)絡(luò)調(diào)查、學(xué)生問卷調(diào)查、家長抽訪與師生進(jìn)行座談等定性研究中得到以下8類指標(biāo):家庭月收入X1,家庭成員狀況X2,家庭基本屬性X3,家庭貧困原因X4,年資助金額X5,學(xué)生月消費(fèi)X6,證明材料X7,成績排名X8。將選擇的貧困測評指標(biāo)影響程度分為5級,從毫無影響到影響極重分別記為1,2,3,4,5分,即不貧困1分、輕度2分、中度3分、重度4分、極重5分。對這8類指標(biāo)根據(jù)實(shí)際情況給予量化,可以消除量綱對指標(biāo)變量的影響,具體量化指標(biāo)見表1。
表1 受資助學(xué)生貧困程度量化表
(7)
對學(xué)院400名受資助學(xué)生8類測評指標(biāo)進(jìn)行貧困程度量化,并將量化數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,可以計(jì)算出8類貧困指標(biāo)之間的相關(guān)系數(shù)矩陣R。
加權(quán)相關(guān)系數(shù)的絕對值從0到1,相關(guān)性從弱到強(qiáng),從相關(guān)系數(shù)分布來看,除家庭基本屬性X3與證明材料X7相關(guān)系數(shù)為0.746外,其他貧困指標(biāo)之間相關(guān)系數(shù)的絕對值都小于0.5,說明該貧困指標(biāo)體系中選取的指標(biāo)較好、重復(fù)性較少、相關(guān)性較低、獨(dú)立性較高。
對測評指標(biāo)數(shù)據(jù)進(jìn)行主成分分析,可以得到測評數(shù)據(jù)相關(guān)系數(shù)矩陣的各主成分所對應(yīng)的特征值、主成分貢獻(xiàn)率以及累積貢獻(xiàn)率(見表2)。
表2 受資助學(xué)生貧困數(shù)據(jù)主成分分析提取分析表
特征值選取常用的方法有兩種,分別為觀察法則和經(jīng)驗(yàn)法則。觀察法則:觀察特征值序列的變化,選擇排在前面較大的特征值為有效特征值,其余的置零;經(jīng)驗(yàn)法則:主成分的特征值盡量大于1,主成分的累計(jì)貢獻(xiàn)率在85%~95%之間[7-9]。
事實(shí)上,在庫學(xué)生貧困程度受各種貧困指標(biāo)的影響,單純從特征值的變化上很難區(qū)分真實(shí)的貧困信息與冗余信息,但由于真實(shí)的貧困信息與冗余信息的統(tǒng)計(jì)性質(zhì)不同,特征值的變化趨勢不同,即會(huì)出現(xiàn)拐點(diǎn),表現(xiàn)在特征值曲率上會(huì)出現(xiàn)峰值[10]。根據(jù)這一特點(diǎn),基于特征值曲率譜峰值選取重建有效特征值的方法,表示利用特征值曲率譜最大峰值點(diǎn)選擇有效特征值個(gè)數(shù):若特征值曲線在曲率譜最大峰值點(diǎn)k處是凸出來的,則有效特征值個(gè)數(shù)為k;如果特征值曲線在k處是凹進(jìn)去的,則有效特征值的個(gè)數(shù)為k-1(見圖1)。
圖1 受資助學(xué)生貧困測評指標(biāo)曲率譜全景和特征值直方圖
圖1為學(xué)院受資助學(xué)生貧困測評指標(biāo)曲率譜全景和特征值直方圖,直方圖中第5,第6特征值所占比例接近,在無法進(jìn)行有效特征值區(qū)分情況下,根據(jù)曲率譜峰值對特征值曲線拐點(diǎn)的反映狀況發(fā)現(xiàn):
1) 曲率譜在前面6個(gè)奇異值時(shí)存在峰值且譜值較大,呈現(xiàn)出的特征值曲線上下波動(dòng)明顯。
2) 在第5個(gè)特征值上存在曲率譜峰值點(diǎn),特征值曲線是凹進(jìn)去的。故有效主成分為4。
前4個(gè)特征值累積貢獻(xiàn)率達(dá)到74%,說明前4個(gè)主成分基本包括了全部貧困指標(biāo)的有效信息,表3為取前4個(gè)特征值計(jì)算的受資助學(xué)生貧困數(shù)據(jù)的特征向量。
表3 受資助學(xué)生貧困數(shù)據(jù)特征向量分布
前4個(gè)主成分分量模型表達(dá)式
其中i=1,2,3,4。
第一主成分表達(dá)式中X3,X7指標(biāo)起主要作用,可以把第一主成分看成是受資助學(xué)生家庭固有貧困程度的綜合指標(biāo)。
第二主成分表達(dá)式中X1,X2,X5指標(biāo)影響大且均衡,X4,X8指標(biāo)所占比例較大,可以把第二主成分看成是受資助學(xué)生品學(xué)兼優(yōu)評價(jià)的重要指標(biāo)。
第三主成分表達(dá)式中X1,X5指標(biāo)影響較大,可以把第三主成分看成是受資助學(xué)生家庭總體收入的重要指標(biāo)。
第四主成分表達(dá)式中X6指標(biāo)起最大作用,可以把第四主成分看成是受資助學(xué)生消費(fèi)的重要指標(biāo)。
利用主成分模型表達(dá)式F1,F(xiàn)2,F(xiàn)3,F(xiàn)4進(jìn)行組合,以方差貢獻(xiàn)率作為權(quán)重可以建立學(xué)院受資助學(xué)生貧困程度綜合評價(jià)模型:
利用此貧困程度模型可以對學(xué)生的貧困指數(shù)Y進(jìn)行計(jì)算,并且進(jìn)行排名,名次越高,說明學(xué)生貧困程度越嚴(yán)重。
對新入庫的5名學(xué)生進(jìn)行貧困程度分析,確定相應(yīng)的貧困等級與資助等級。表4為學(xué)院新入庫5名學(xué)生貧困測評指標(biāo)量化情況,為保護(hù)學(xué)生隱私,表中不是真實(shí)姓名。利用貧困程度綜合評估模型對5名學(xué)生貧困指數(shù)Y進(jìn)行計(jì)算,藏族女孩卓瑪貧困程度綜合測評分Y最高,在總貧困生庫中排在前10%,最高貧困等級Ⅰ級;柳榮、劉歡貧困程度綜合測評排在2,3名,在總貧困生庫中排在20%~50%之間,貧困等級Ⅱ級;五茂、愛平貧困程度綜合測評排在4,5名,在總貧困生庫中排在50%之后,貧困等級Ⅲ級。
表4 新入庫5名學(xué)生貧困測評指標(biāo)量化情況(名字已化名)
利用學(xué)院400名受資助學(xué)生庫中的貧困信息,采用主成分分析的方法進(jìn)行系統(tǒng)建模,建立學(xué)院學(xué)生貧困程度綜合評估模型,歸納結(jié)論如下:
1) 結(jié)合相關(guān)系數(shù)矩陣構(gòu)建了助學(xué)幫扶決策支持8類貧困測評指標(biāo)的5級量化標(biāo)準(zhǔn)和量化分析模型。
2) 采用主成分分析方法建立學(xué)生貧困程度模型,在定性的指標(biāo)數(shù)據(jù)中加入了定量分析,對量化指標(biāo)進(jìn)行了降維,有效降低了人為評定貧困等級的失誤。
3) 主成分分析中有效特征值的選擇一直是研究的難點(diǎn),本文利用特征值曲率譜最大峰值點(diǎn)選擇有效特征值個(gè)數(shù),有效保留了受資助學(xué)生真實(shí)的貧困信息,減少通過觀察或者經(jīng)驗(yàn)?zāi)P蛶肴哂嘈畔ⅰ?/p>
4) 建立的貧困程度綜合評估模型可以為學(xué)院資助系統(tǒng)提供決策支持,對學(xué)生獎(jiǎng)助學(xué)金發(fā)放、學(xué)費(fèi)減免、生源地貸款、臨時(shí)困難補(bǔ)助以及對新入庫的學(xué)生進(jìn)行貧困程度定級具有積極作用,有利于高校對困難學(xué)生進(jìn)行“精準(zhǔn)幫扶”。