張延義 趙瑩
(滁州職業(yè)技術(shù)學(xué)院 教務(wù)處, 安徽 滁州 239000)
高職院校的專業(yè)評估,是指在學(xué)校管理自我完善的基礎(chǔ)之上,依據(jù)相關(guān)評估標(biāo)準(zhǔn),針對各專業(yè)的教育質(zhì)量進行評判[1-2]。在實踐中,大多是由主管部門領(lǐng)導(dǎo)下(或第三方評估機構(gòu))組建的多元化專家組對專業(yè)評估指標(biāo)逐項進行評測、賦分,依據(jù)人為設(shè)定的指標(biāo)權(quán)重來計算專業(yè)評估總分,最后確定專業(yè)建設(shè)的等級。這種評估流程通常存在以下問題:一是人為設(shè)定權(quán)重,主觀成分大,導(dǎo)致評估結(jié)果不合理;二是以總分衡量專業(yè)建設(shè)的水平,忽視了專業(yè)建設(shè)的多維度特征,掩蓋了某些方面的突出問題;三是組織多元化專家組測評的流程比較復(fù)雜,不便于日常管理。為了優(yōu)化評估工作、提高評估效率,本次研究將依據(jù)《國家職業(yè)教育改革實施方案》構(gòu)建高職院校專業(yè)評估指標(biāo)體系[3],利用支持向量機(SVM)在小樣本、非線性及高維模式識別問題中的特有優(yōu)勢,以及主成分分析(PCA)中的數(shù)據(jù)降維技術(shù),針對2所高職院校44個專業(yè)的評估指標(biāo)數(shù)據(jù)進行專業(yè)等級模型訓(xùn)練和專業(yè)評估測試。
主成分分析(principal component analysis,PCA)是最常用的降維方法之一,其思想是通過正交變換法將可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量。具體方法是,從原始的空間中按順序找到一組相互正交的坐標(biāo)軸,第一個新坐標(biāo)軸選擇原始數(shù)據(jù)中方差最大的方向,第二個新坐標(biāo)軸選取與第一個坐標(biāo)軸正交的平面中使得方差最大的方向,以此類推即得到n個新坐標(biāo)軸;前面k個新坐標(biāo)軸中包含了大部分方差,后面的坐標(biāo)軸可以忽略,以此實現(xiàn)對數(shù)據(jù)特征的降維處理[4-6]。
將數(shù)據(jù)集X={x1,x2,x3,…,xn}降到k維,一般過程如下:
(1) 樣本矩陣中心化。
(4) 對原始數(shù)據(jù)進行投影。對特征值從大到小進行排序,并選擇其中最大的k個值;然后,將其對應(yīng)的k個特征向量作為行向量,從而組成特征向量矩陣P[7]。
(5) 獲得降維后的新樣本數(shù)據(jù)。將數(shù)據(jù)轉(zhuǎn)換到k個特征向量構(gòu)建的新空間Y中,Y=PX。
支持向量機(support vector machine,SVM)是從線性可分條件下的最優(yōu)分類面(optimal hyperplane)發(fā)展而來,其原理如圖1所示。最優(yōu)分類面,不但能將兩類樣本點準(zhǔn)確無誤地分開,而且還能使其分類間隔最大[8]。對于總數(shù)為n的線性可分觀測樣本 (xi,yi),其中xi∈Rn,yi∈{-1,+1},i=1,2,3,…,n,線性判別函數(shù)的一般形式為g(x)=wx+b;以H為最優(yōu)分類線將兩類數(shù)據(jù)分隔開,H1、H2皆為既過距離分類超平面最近的點又平行于分類線的直線,H1、H2之間的距離為分類間隔(m),H1、H2上的訓(xùn)練樣本為支持向量[9]。
圖1 支持向量機原理示意圖
設(shè)分類面方程為wx+b=0,其中w是一個垂直于超平面的向量,b為超平面偏置。對判別函數(shù)進行歸一化處理,使所有樣本都能滿足|g(x)|≥1,且距離分類面最近的樣本|g(x)|=1。若要此分類面對所有樣本都能進行正確分類,就必須滿足條件:yi(wxi+b)-1≥0,i=1,2,…,n。
對于線性不可分的情況,可以在條件中增加松弛變量ξi和懲罰因子C,將約束條件放寬,從而實現(xiàn)廣義的線性分類[9]。對于非線性分類的情況,通過核函數(shù)將輸入空間映射到高維特征空間,用核函數(shù)K(xi,xj)代替最優(yōu)分類平面中的點積(xi,xj),其優(yōu)化函數(shù)如下:
yi·yj·K(xi,xj)
(1)
相應(yīng)的判別函數(shù)式為:
f(x)=sgn[(w*)T·φ(x)+b*]
(2)
選擇不同的核函數(shù)就可以構(gòu)成不同的算法,常用的核函數(shù)有:
(1) 多項式核,K(x,xi)=[(x·xi)+1]q。
(3)S形核,K(x,xi)=tanh[v(x·xi)+c]。
采用SVM處理多類別問題:一種方法是通過組合多個二類分類機來實現(xiàn)多類別分類;另一種方法是將兩類支持向量機擴展為多類別分類支持向量機。
我國高等職業(yè)教育目前已進入高質(zhì)量發(fā)展新階段。2019年,國務(wù)院印發(fā)了《國家職業(yè)教育改革實施方案》,教育部也啟動了“雙高”建設(shè)行動計劃和“現(xiàn)代學(xué)徒制”試點工作,為高等職業(yè)教育的專業(yè)建設(shè)賦予了新的內(nèi)涵。本次研究將在此基礎(chǔ)上依據(jù)成果導(dǎo)向(OBE)教育理念構(gòu)建新的高職院校專業(yè)評估指標(biāo)體系,幫助專家組有針對性地評判專業(yè)建設(shè)的成效。新指標(biāo)體系中增加了“核心課程滿足度、就業(yè)滿意度、產(chǎn)教融合、校企合作、價值觀提升、內(nèi)部質(zhì)量保證”等內(nèi)容,從專業(yè)內(nèi)涵建設(shè)和人才培養(yǎng)主動適應(yīng)市場需求的發(fā)展機制等角度構(gòu)建專業(yè)評估指標(biāo)體系,其中包含9個一級指標(biāo)和23個二級指標(biāo)(見表1)。
表1 高職院校專業(yè)評估指標(biāo)體系
基于專家組給出的現(xiàn)場專業(yè)評估數(shù)據(jù)與專業(yè)等級分類結(jié)果,通過數(shù)據(jù)降維、模型訓(xùn)練與測試實驗,將測試結(jié)果與專家現(xiàn)場評估的專業(yè)等級進行對比,據(jù)此判斷PCA-SVM專業(yè)評估方法的準(zhǔn)確率與有效性。
專家組在對兩所高職院校的44個專業(yè)進行了現(xiàn)場評估,其中部分評估數(shù)據(jù)如表2所示。
專家組進行現(xiàn)場評估,通常是先成立由學(xué)校管理人員、教師、用人單位代表、畢業(yè)生等組成的多元化專家組,采用問卷、現(xiàn)場查看測評、學(xué)校人才培養(yǎng)狀態(tài)數(shù)據(jù)分析、用人單位調(diào)查等手段進行評估。針對待評估的專業(yè),分別對照專業(yè)評估指標(biāo)體系中的23個關(guān)鍵評估指標(biāo)逐項對其進行評測和賦分(滿分為10分),然后按照各指標(biāo)項的權(quán)重計算總分,并綜合評審數(shù)據(jù)明確劃分出“優(yōu)秀、良好、一般”等專業(yè)分類等級。采用PCA-SVM專業(yè)評估方法則無須使用指標(biāo)項的權(quán)重,也不計算總分。
表2 專業(yè)評估數(shù)據(jù)集部分?jǐn)?shù)據(jù)
應(yīng)用PCA分析實現(xiàn)數(shù)據(jù)降維。在SAS統(tǒng)計分析系統(tǒng)中新建practice邏輯庫,將其導(dǎo)入學(xué)校專業(yè)評估數(shù)據(jù)集zypg.sas7bdat,應(yīng)用princomp函數(shù)進行主成分分析。相關(guān)語句如下:
proc princomp
data = Practice.zypg
out = Practice.zypg_out
prefix = pc
outstat = Practice.zypg_stat;
var v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 v12 v13 v14 v15 v16 v17 v18 v19 v20 v21 v22 v23;
run
相關(guān)系數(shù)矩陣的特征值及其累計貢獻(xiàn)率如表3所示。其中,特征值越大,則其對應(yīng)的主成分變量所包含的信息就越多;累計貢獻(xiàn)率前4項已達(dá)0.940 6,所以選擇這4個主成分(即主成分分析產(chǎn)生的新數(shù)據(jù)集前4項pc1、pc2、pc3、pc4)代替原來專業(yè)評估數(shù)據(jù)中的23項指標(biāo),實現(xiàn)數(shù)據(jù)集降維。降維后的專業(yè)評估數(shù)據(jù)如表4所示。
應(yīng)用Libsvm軟件進行專業(yè)等級特征模型訓(xùn)練與測試。Libsvm軟件是臺灣大學(xué)林智仁等學(xué)者開發(fā)的SVM模式識別與回歸軟件包,其特點是對SVM所涉及的參數(shù)調(diào)節(jié)相對較少,默認(rèn)參數(shù)較多[10]。為了保證模型的訓(xùn)練效果,避免各指標(biāo)項評分值級差過大而導(dǎo)致小特征被大特征所掩蓋的情況,在開始特征模型訓(xùn)練前對專業(yè)測評數(shù)據(jù)在[0,1] 區(qū)間進行歸一化處理。
(1) Libsvm軟件中的核函數(shù)選擇。專業(yè)評估是對專業(yè)建設(shè)質(zhì)量的綜合判斷,專業(yè)評估指標(biāo)體系又是一個多維、非線性的模型,所以選擇了分類(C-SVC)模型、徑向基形式(RBF)核函數(shù),最終生成式(3)所示決策函數(shù):
(3)
式中:xi為支持向量;x為待預(yù)測標(biāo)簽的樣本;‖xi-x‖為二范數(shù)距離;b為一個標(biāo)量數(shù)值;wi為支持向量的系數(shù)。
表3 相關(guān)系數(shù)矩陣的特征值及其累計貢獻(xiàn)率
表4 降維后的4個主成分?jǐn)?shù)據(jù)
(2) Libsvm軟件中的參數(shù)選擇。調(diào)用網(wǎng)格參數(shù)尋優(yōu)函數(shù)SVMcgForClass實現(xiàn)c、g參數(shù)尋優(yōu),本例尋優(yōu)結(jié)果如圖2、圖3所示。其中,降維前的專業(yè)評估數(shù)據(jù)集最佳參數(shù)為c=4,g=0.015 6;降維后對應(yīng)的專業(yè)評估數(shù)據(jù)集最佳參數(shù)為c=4,g=1。
圖2 降維前的專業(yè)評估參數(shù)c、g尋優(yōu)結(jié)果
圖3 降維后的專業(yè)評估參數(shù)c、g尋優(yōu)結(jié)果
接下來進行模型訓(xùn)練與測試:
(1) 對降維前的數(shù)據(jù)進行模型訓(xùn)練與測試。從以上數(shù)據(jù)集中,隨機選擇21項專業(yè)評估數(shù)據(jù)作為專業(yè)訓(xùn)練樣本集,其余23項專業(yè)評估數(shù)據(jù)作為專業(yè)測試樣本集;然后,分別調(diào)用Svmstrain模型訓(xùn)練函數(shù)、Svmpredict測試函數(shù),獲得的分類準(zhǔn)確率為91.304 3%。結(jié)果表明,應(yīng)用Libsvm 軟件得到的專業(yè)分類結(jié)果與專家組評估得出的專業(yè)建設(shè)結(jié)果吻合率為91.304 3%。
(2) 對降維后的數(shù)據(jù)進行模型訓(xùn)練與測試。選擇專業(yè)評估數(shù)據(jù)中降維后對應(yīng)的主成分?jǐn)?shù)據(jù),再分別調(diào)用Svmstrain模型訓(xùn)練函數(shù)與Svmpredict測試函數(shù),獲得的分類準(zhǔn)確率為95.652 2%。此次準(zhǔn)確率比降維前提高了4.347 9%(見表5)。
通過數(shù)據(jù)降維,去除了樣本中信息的重疊部分,提高了分類精度。PCA-SVM評估方法與專家組現(xiàn)場評估結(jié)果的吻合率高達(dá)95.652 2%,即在23個測試專業(yè)中僅有1個專業(yè)分類相異。這一個相異分類的原因是,專家組對該專業(yè)的評估指標(biāo)賦分或綜合評審的尺度不一。其余22個專業(yè)分類均相符,這表明PCA-SVM評估方法的可靠性,可代替專家組的現(xiàn)場評估工作。
表5 降維前后專業(yè)評估最佳參數(shù)及分類準(zhǔn)確率
在本次研究中,構(gòu)建了高職院校專業(yè)評估體系,引入主成分分析(PCA)和支持向量機(SVM)技術(shù)進行分析。該體系有利于專業(yè)建設(shè)成效分析與質(zhì)量評價,其中包括9個一級指標(biāo)和23個二級指標(biāo)。應(yīng)用Libsvm軟件進行專業(yè)等級特征模型訓(xùn)練與測試實驗,驗證了該體系的合理性。采用PCA-SVM專業(yè)評估方法,可以充分發(fā)揮SVM在小樣本、非線性及高維模式識別以及主成分分析數(shù)據(jù)降維方面的優(yōu)勢,訓(xùn)練專業(yè)等級特征模型,以取代專業(yè)組現(xiàn)場評估。該評估方法可避免人為設(shè)定權(quán)重所導(dǎo)致的主觀性偏差,能夠體現(xiàn)專業(yè)建設(shè)的多維特征,提高專業(yè)評估的工作效率。