莫媛媛,顧明言,張輝宜
(安徽工業(yè)大學信息化處,安徽馬鞍山243032)
對家庭經(jīng)濟困難生的資助是促進教育公平公正的重要舉措,也是高校實施中央“精準扶貧”工作的具體體現(xiàn)[1-2]。準確地評估在校生經(jīng)濟狀況是實現(xiàn)高校經(jīng)濟困難生資助的決定性基礎,國內部分學者和機構對評估在校生經(jīng)濟狀況的方法進行了一定程度的研究。早期階段,多采用選取特定指標、關聯(lián)分析等方法對在校生的經(jīng)濟情況進行評估,如余鳴嬌等[3]結合層次分析法原理設計一種多指標的層次模型并對指標進行量化,構建了經(jīng)濟困難生認定的指標體系;董麗娟[4]采用基于關聯(lián)規(guī)則的決策樹改進算法對在校生的經(jīng)濟情況進行分析,并將其應用到經(jīng)濟困難生的評選中,取得了較好的效果;任俊等[5]以問卷調查結果為依據(jù),采用多粒度粗糙集分析出影響高校經(jīng)濟困難生評定標準的關鍵因素;李斌等[6]在分析高校智慧校園系統(tǒng)中一些有效數(shù)據(jù)的基礎上,定義特定的預測因子,通過貝葉斯網(wǎng)絡技術對高校學生的貧困等級進行分類預測。
伴隨著大數(shù)據(jù)技術的快速興起,高校在信息化迅速發(fā)展的過程中也積累了大量數(shù)據(jù)。在此背景下,部分學者將大數(shù)據(jù)理論應用到高校經(jīng)濟困難生的評定中,如吳朝文等[7]對大數(shù)據(jù)環(huán)境下經(jīng)濟困難生的資助模式進行了探討,通過分析學生消費行為以實現(xiàn)對經(jīng)濟困難生資助體系的驗證評估及特殊困難生的預警;夏楊等[8]以歷史累積的海量一卡通數(shù)據(jù)為基礎,借助當前流行的Hadoop技術構建了校園大數(shù)據(jù)分析平臺,并將學生行為數(shù)據(jù)的分析結果用于經(jīng)濟困難生資助等級的預測;楊勝志[9]通過分析當前高校經(jīng)濟困難生資助工作存在的問題,綜合考慮高校海量數(shù)據(jù)的社會價值及其獨特優(yōu)勢,提出大數(shù)據(jù)環(huán)境下的經(jīng)濟困難生認定策略。但目前利用校園一卡通數(shù)據(jù)進行高校經(jīng)濟困難生資助的研究仍處于初始階段,對于一卡通消費數(shù)據(jù)中特征較少、部分在校生的消費行為相似存在分類困難的問題。支持向量機(support vector machines,SVM)是建立在統(tǒng)計學習理論上的機器學習算法,其在處理小樣本、不平衡樣本、非線性和高維數(shù)據(jù)等方面上具有較大的優(yōu)勢,能夠有效避免“維數(shù)災難”和“過擬合”等問題[10-11]。基于組合核函數(shù)的SVM可以結合各核函數(shù)的優(yōu)勢,且在圖像識別、文本分類、機械故障診斷等領域得到了廣泛應用[12-14]。鑒于此,文中在校園一卡通消費特征的基礎上,結合SVM 算法優(yōu)勢和高校在校生消費數(shù)據(jù)特點,構建基于組合核函數(shù)SVM 的高校經(jīng)濟困難生分類模型,探討一種基于組合核函數(shù)SVM的高校經(jīng)濟困難生分類方法。
核函數(shù)是SVM理論中的關鍵組成部分,直接決定SVM處理非線性數(shù)據(jù)的能力,進而影響SVM分類器分類效果的優(yōu)劣。SVM中常用的核函數(shù)有:
線性核函數(shù)(linear kernel,KL)
多項式核函數(shù)(polynomial kernel,KPoly)
高斯徑向基核函數(shù)(radial basis function kernel,KRBF)
多層感知器核函數(shù)(sigmoid kernel,KSig)
其中:為x,xi為相同維度的向量;q為多項式核函數(shù)的階數(shù);exp 為指數(shù)函數(shù);σ為RBF 核函數(shù)的核半徑;tanh 為雙正切函數(shù);ν為Sigmoid核函數(shù)系數(shù);g為偏移量。通常SVM在分類時主要使用單一核函數(shù)構造分類器,然而,單一核函數(shù)均具各自的優(yōu)點和不足,難以使分類效果達到最佳。對于n種不同核函數(shù),其線性組合也是核函數(shù)。因此,結合各個核函數(shù)的優(yōu)勢將不同核函數(shù)進行組合,使分類器兼具多個核函數(shù)的優(yōu)點,以提高分類準確率和模型的泛化能力。組合核函數(shù)K(x,x0)表示形式為[15]
其中:λ為組合核函數(shù)系數(shù);n為核函數(shù)個數(shù)。
研究表明[16],線性核函數(shù)精度較低;RBF核函數(shù)局部信息擬合能力強、泛化能力差;多項式核函數(shù)的推廣能力強,但局部學習能力差。故文中綜合考慮各核函數(shù)的特點,將RBF核函數(shù)和多項式核函數(shù)進行組合生成組合核函數(shù),具體形式為
其中α為核函數(shù)的權重系數(shù),且0 ≤α≤1。
訓練時采用分類準確率作為模型及參數(shù)優(yōu)劣的評價標準,假定某類中的測試樣本數(shù)為M,分類正確的樣本數(shù)為N,則該模型在本類中的分類準確率A為
文中構造的組合核函數(shù)式(6)中,主要參數(shù)有RBF 核函數(shù)的核半徑σ、多項式核函數(shù)的階數(shù)q和組合核函數(shù)的權重系數(shù)α。在支持向量機優(yōu)化問題中,懲罰因子C對模型的泛化能力也有重要影響。為確定上述4 個參數(shù),文中采用多重網(wǎng)格搜索法[17]訓練模型獲取最優(yōu)的參數(shù)以使組合核函數(shù)構造的SVM 分類效果最佳。組合核函數(shù)參數(shù)尋優(yōu)過程如圖1,主要步驟如下:
1)初始化組合核函數(shù)SVM參數(shù)C,σ,q,α的范圍,設置最優(yōu)核參數(shù)的初值、分類準確率初值、搜索網(wǎng)格的層數(shù)及搜索步長;
2)使用網(wǎng)格搜索算法生成核參數(shù)矩陣;
3) 判斷是否完成參數(shù)尋優(yōu),如滿足,轉至步驟7);
4) 遍歷核參數(shù)矩陣,構造組合核函數(shù)SVM 分類器,并計算分類準確率;
5) 判斷是否滿足核參數(shù)更新條件,如不滿足,轉至步驟4);
6)更新最優(yōu)核參數(shù)值,轉步驟3);
7)輸出最優(yōu)組合核函數(shù)SVM的最優(yōu)參數(shù)值(C,σ,q,α)。
圖1 基于多重網(wǎng)格搜索算法的組合核函數(shù)參數(shù)尋優(yōu)流程圖Fig.1 Optimization flow chart of combined kernel function parameters based on multigrid search algorithm
不同性別的學生消費差異較大,且歷史受資助情況也會對在校生的日常消費產(chǎn)生影響,所以在校園一卡通數(shù)據(jù)的基礎上,綜合考慮學生性別、歷史資助信息,構建基于組合核函數(shù)的SVM分類模型對在校生的經(jīng)濟情況進行分類。
選取最近一年在校生的一卡通消費數(shù)據(jù)、個人基本信息及歷史資助信息。對于一卡通消費數(shù)據(jù),首先去除冗余數(shù)據(jù),刪除如卡充值、卡延期等非消費記錄;然后,將消費分為飲食、購物、水費、電費、網(wǎng)費、圖書打印、醫(yī)療費等類別;再按日匯總在校生不同類別的消費額,根據(jù)學校教學日歷,結合每年的教學時長,剔除消費時長較短的在校生日常消費數(shù)據(jù)。由于飲食消費、購物消費占在校生消費總額的90%以上,與其他類別消費存在數(shù)量級上的差異,為使分析結果準確,對不同類別的消費數(shù)據(jù)進行歸一化處理,文中采用式(8)對不同類別的消費數(shù)據(jù)進行處理,生成日常消費樣本特征數(shù)據(jù)。對于性別特征,女生初始化值為0,男生為1。由式(9)獲取在校生獲取資助的平均值,經(jīng)式(8)處理后將其作為歷史資助特征的初始值。
其中:Y為消費數(shù)據(jù)的歸一化值;X為消費值;Xmax為最大消費值;Xmin為最小消費值;y為資助平均值;x為資助金額;s為資助人數(shù)。
從歷史經(jīng)濟困難生中選取一卡通消費符合月均消費額在200元以上及月均消費時長超過20 d的一般困難生300人、中等困難學生300人、特別困難學生300 人及隨機挑選非經(jīng)濟困難學生300 人,按日均消費額繪制各類經(jīng)濟困難生的消費情況分布,如圖2。從一卡通數(shù)據(jù)庫及學工系統(tǒng)中獲取相關在校生的一卡通消費記錄、基本信息及歷史獲資助信息,并按上述步驟構造樣本數(shù)據(jù),共1 200個樣本記錄;選用其中的900條數(shù)據(jù)作為訓練數(shù)據(jù),剩余部分作為測試數(shù)據(jù)。
在Python 環(huán)境下基于Sklearn 工具包開發(fā)分類模型并進行訓練和測試,實驗平臺硬件配置為CPU i7-8550U,1.99 GHz,內存8 GB。主要設計2組實驗:選取僅包含一卡通消費特征集合的樣本和融入性別特征、歷史資助特征的樣本,分別構建基于單一核函數(shù)的SVM 分類器和基于組合核函數(shù)的SVM 分類器進行分類測試;相同實驗條件下,分別使用邏輯回歸分類器、KNN算法和基于組合核函數(shù)SVM進行分類,獲取分類準確率。
實驗過程中采用多重網(wǎng)格搜索法即如圖1所示的流程確定最優(yōu)參數(shù),粗選階段各參數(shù)的初始范圍及搜索步長分別為:C∈[1,100],步長為5;σ∈[0,50],步長為2;q取值為1,2,3;α∈[0,1],步長為0.1。最佳參數(shù)C=18,σ=5,q=3,α=0.7。細選階段各參數(shù)的起始范圍及搜索步長分別為C∈[1,50],步長為1;σ∈[0,10],步長為1;q=3;α∈[0,1],步長為0.01。最佳參數(shù)為C=26,σ=8,q=3,α=0.7。對比實驗中多項式核函數(shù)參數(shù)q=3,RBF核函數(shù)參數(shù)σ=8。
2.3.1 不同類型特征的分類結果
表1為針對原始特征、融合特征分別采用多項式核函數(shù)、RBF核函數(shù)、組合核函數(shù)SVM分類的結果。
圖2 不同類別困難生的日均消費額分布Fig.2 Distribution of average daily consumption of different types of difficult students
表1 基于不同特征與核函數(shù)的分類準確率Tab.1 Classification accuracy with different features and kernel functions
由表1可知:多項式核函數(shù)SVM在非困難生與一般困難生的樣本中分類準確率較高,RBF核函數(shù)SVM在中等、特別困難生樣本上的分類表現(xiàn)較好,組合核函數(shù)SVM分類整體效果優(yōu)于多項式核函數(shù)與RBF核函數(shù);基于組合核函數(shù)的SVM分類器在對一般經(jīng)濟困難生和非經(jīng)濟困難生的分類中,準確率提升相對其他兩類經(jīng)濟困難生高,說明對于特征值相似度較高的樣本,組合核函數(shù)兼?zhèn)銻BF核函數(shù)和多項式核函數(shù)的優(yōu)點;相對于僅使用原始特征的樣本數(shù)據(jù),使用包含在校生的性別特征、往年受資助信息的特征集數(shù)據(jù),3組分類模型對經(jīng)濟困難生的分類準確率均有一定程度的提升,且組合核函數(shù)對融合性別、受資助信息的特征數(shù)據(jù)集具有更強的適應性。
2.3.2 核函數(shù)參數(shù)對分類結果的影響
表2為在不同核參數(shù)值時,多項式核函數(shù)、RBF及組合核函數(shù)SVM的分類結果。由表2可看出:核參數(shù)的變化對多項式核函數(shù)SVM和RBF核函數(shù)SVM的分類效果有較大的影響,當參數(shù)q增加時,多項式核函數(shù)SVM在非困難生及一般困難生樣本上的分類急劇下降;參數(shù)σ減小,RBF核函數(shù)SVM在中等困難生與特別困難生樣本上的分類準確率有明顯的降低,而組合核函數(shù)SVM的表現(xiàn)受參數(shù)變化的影響較小,反映出組合核函數(shù)具有較強的魯棒性。
表2 不同核參數(shù)取值時的分類準確率Tab.2 Classification accuracy with different values of kernel parameters
2.3.3 不同分類器的準確率
采用邏輯回歸模型、最近鄰算法(KNN)及文中構建的組合核函數(shù)等3種分類器對高校經(jīng)濟困難生分類,結果如圖3。由圖3 可看出,組合核函數(shù)的分類準確率優(yōu)于其他兩種分類器。由于樣本的非線性,使得邏輯回歸模型的分類效果較差;部分在校生的消費行為相似,造成使用最近鄰算法進行分類時,分類錯誤的概率增大。由此表明,相同實驗條件下,組合核函數(shù)SVM在文中的分類場景中具有較大優(yōu)勢。
圖3 不同分類器的分類結果Fig.3 Classification results of different classifiers
在一卡通消費數(shù)據(jù)特征的基礎上,綜合考慮在校生的性別、歷史受資助信息,結合RBF核函數(shù)局部學習能力強的特點及多項式核函數(shù)泛化能力強的優(yōu)勢,構建基于組合核函數(shù)的高校經(jīng)濟困難生分類模型。實驗結果表明:基于組合核函數(shù)SVM可對在校生的經(jīng)濟情況進行較準確的分類;使用融合特征可以增加不同類別樣本數(shù)據(jù)的差異性,能夠提高分類準確率,構建的模型對高校經(jīng)濟困難生分類的準確率高于其他分類器模型。同時,對于RBF核函數(shù)及多項式核函數(shù)的組合核函數(shù)SVM分類模型,其模型參數(shù)是否全局最優(yōu)需進一步研究;學生消費數(shù)據(jù)不完善,部分第三方支付的數(shù)據(jù)未被采集等問題有待后續(xù)逐步解決。