基于PCA-SVM的高職院校專業(yè)評估體系研究

2022-01-18 12:16張延義趙瑩

重慶科技學(xué)院學(xué)報（自然科學(xué)版） 2021年6期

張延義趙瑩

(滁州職業(yè)技術(shù)學(xué)院教務(wù)處，安徽滁州 239000)

高職院校的專業(yè)評估，是指在學(xué)校管理自我完善的基礎(chǔ)之上，依據(jù)相關(guān)評估標(biāo)準(zhǔn)，針對各專業(yè)的教育質(zhì)量進行評判[1-2]。在實踐中，大多是由主管部門領(lǐng)導(dǎo)下(或第三方評估機構(gòu))組建的多元化專家組對專業(yè)評估指標(biāo)逐項進行評測、賦分，依據(jù)人為設(shè)定的指標(biāo)權(quán)重來計算專業(yè)評估總分，最后確定專業(yè)建設(shè)的等級。這種評估流程通常存在以下問題：一是人為設(shè)定權(quán)重，主觀成分大，導(dǎo)致評估結(jié)果不合理；二是以總分衡量專業(yè)建設(shè)的水平，忽視了專業(yè)建設(shè)的多維度特征，掩蓋了某些方面的突出問題；三是組織多元化專家組測評的流程比較復(fù)雜，不便于日常管理。為了優(yōu)化評估工作、提高評估效率，本次研究將依據(jù)《國家職業(yè)教育改革實施方案》構(gòu)建高職院校專業(yè)評估指標(biāo)體系[3]，利用支持向量機(SVM)在小樣本、非線性及高維模式識別問題中的特有優(yōu)勢，以及主成分分析(PCA)中的數(shù)據(jù)降維技術(shù)，針對2所高職院校44個專業(yè)的評估指標(biāo)數(shù)據(jù)進行專業(yè)等級模型訓(xùn)練和專業(yè)評估測試。

1 主成分分析和支持向量機理論

1.1 主成分分析(PCA)

主成分分析(principal component analysis，PCA)是最常用的降維方法之一，其思想是通過正交變換法將可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量。具體方法是，從原始的空間中按順序找到一組相互正交的坐標(biāo)軸，第一個新坐標(biāo)軸選擇原始數(shù)據(jù)中方差最大的方向，第二個新坐標(biāo)軸選取與第一個坐標(biāo)軸正交的平面中使得方差最大的方向，以此類推即得到n個新坐標(biāo)軸；前面k個新坐標(biāo)軸中包含了大部分方差，后面的坐標(biāo)軸可以忽略，以此實現(xiàn)對數(shù)據(jù)特征的降維處理[4-6]。

將數(shù)據(jù)集X={x1，x2，x3，…，xn}降到k維，一般過程如下：

(1) 樣本矩陣中心化。

(4) 對原始數(shù)據(jù)進行投影。對特征值從大到小進行排序，并選擇其中最大的k個值；然后，將其對應(yīng)的k個特征向量作為行向量，從而組成特征向量矩陣P[7]。

(5) 獲得降維后的新樣本數(shù)據(jù)。將數(shù)據(jù)轉(zhuǎn)換到k個特征向量構(gòu)建的新空間Y中，Y=PX。

1.2 支持向量機

支持向量機(support vector machine，SVM)是從線性可分條件下的最優(yōu)分類面(optimal hyperplane)發(fā)展而來，其原理如圖1所示。最優(yōu)分類面，不但能將兩類樣本點準(zhǔn)確無誤地分開，而且還能使其分類間隔最大[8]。對于總數(shù)為n的線性可分觀測樣本 (xi，yi)，其中xi∈Rn，yi∈{-1，+1}，i=1，2，3，…，n，線性判別函數(shù)的一般形式為g(x)=wx+b；以H為最優(yōu)分類線將兩類數(shù)據(jù)分隔開，H1、H2皆為既過距離分類超平面最近的點又平行于分類線的直線，H1、H2之間的距離為分類間隔(m)，H1、H2上的訓(xùn)練樣本為支持向量[9]。

圖1 支持向量機原理示意圖

設(shè)分類面方程為wx+b=0，其中w是一個垂直于超平面的向量，b為超平面偏置。對判別函數(shù)進行歸一化處理，使所有樣本都能滿足|g(x)|≥1，且距離分類面最近的樣本|g(x)|=1。若要此分類面對所有樣本都能進行正確分類，就必須滿足條件：yi(wxi+b)-1≥0，i=1，2，…，n。

對于線性不可分的情況，可以在條件中增加松弛變量ξi和懲罰因子C，將約束條件放寬，從而實現(xiàn)廣義的線性分類[9]。對于非線性分類的情況，通過核函數(shù)將輸入空間映射到高維特征空間，用核函數(shù)K(xi，xj)代替最優(yōu)分類平面中的點積(xi，xj)，其優(yōu)化函數(shù)如下：

yi·yj·K(xi，xj)

(1)

相應(yīng)的判別函數(shù)式為：

f(x)=sgn[(w*)T·φ(x)+b*]

(2)

選擇不同的核函數(shù)就可以構(gòu)成不同的算法，常用的核函數(shù)有：

(1) 多項式核，K(x，xi)=[(x·xi)+1]q。

(3)S形核，K(x，xi)=tanh[v(x·xi)+c]。

采用SVM處理多類別問題：一種方法是通過組合多個二類分類機來實現(xiàn)多類別分類；另一種方法是將兩類支持向量機擴展為多類別分類支持向量機。

2 高職院校專業(yè)評估指標(biāo)體系

我國高等職業(yè)教育目前已進入高質(zhì)量發(fā)展新階段。2019年，國務(wù)院印發(fā)了《國家職業(yè)教育改革實施方案》，教育部也啟動了“雙高”建設(shè)行動計劃和“現(xiàn)代學(xué)徒制”試點工作，為高等職業(yè)教育的專業(yè)建設(shè)賦予了新的內(nèi)涵。本次研究將在此基礎(chǔ)上依據(jù)成果導(dǎo)向(OBE)教育理念構(gòu)建新的高職院校專業(yè)評估指標(biāo)體系，幫助專家組有針對性地評判專業(yè)建設(shè)的成效。新指標(biāo)體系中增加了“核心課程滿足度、就業(yè)滿意度、產(chǎn)教融合、校企合作、價值觀提升、內(nèi)部質(zhì)量保證”等內(nèi)容，從專業(yè)內(nèi)涵建設(shè)和人才培養(yǎng)主動適應(yīng)市場需求的發(fā)展機制等角度構(gòu)建專業(yè)評估指標(biāo)體系，其中包含9個一級指標(biāo)和23個二級指標(biāo)(見表1)。

表1 高職院校專業(yè)評估指標(biāo)體系

3 基于PCA-SVM的專業(yè)評估

基于專家組給出的現(xiàn)場專業(yè)評估數(shù)據(jù)與專業(yè)等級分類結(jié)果，通過數(shù)據(jù)降維、模型訓(xùn)練與測試實驗，將測試結(jié)果與專家現(xiàn)場評估的專業(yè)等級進行對比，據(jù)此判斷PCA-SVM專業(yè)評估方法的準(zhǔn)確率與有效性。

3.1 專業(yè)評估數(shù)據(jù)集

專家組在對兩所高職院校的44個專業(yè)進行了現(xiàn)場評估，其中部分評估數(shù)據(jù)如表2所示。

專家組進行現(xiàn)場評估，通常是先成立由學(xué)校管理人員、教師、用人單位代表、畢業(yè)生等組成的多元化專家組，采用問卷、現(xiàn)場查看測評、學(xué)校人才培養(yǎng)狀態(tài)數(shù)據(jù)分析、用人單位調(diào)查等手段進行評估。針對待評估的專業(yè)，分別對照專業(yè)評估指標(biāo)體系中的23個關(guān)鍵評估指標(biāo)逐項對其進行評測和賦分(滿分為10分)，然后按照各指標(biāo)項的權(quán)重計算總分，并綜合評審數(shù)據(jù)明確劃分出“優(yōu)秀、良好、一般”等專業(yè)分類等級。采用PCA-SVM專業(yè)評估方法則無須使用指標(biāo)項的權(quán)重，也不計算總分。

表2 專業(yè)評估數(shù)據(jù)集部分?jǐn)?shù)據(jù)

3.2 專業(yè)評估數(shù)據(jù)降維

應(yīng)用PCA分析實現(xiàn)數(shù)據(jù)降維。在SAS統(tǒng)計分析系統(tǒng)中新建practice邏輯庫，將其導(dǎo)入學(xué)校專業(yè)評估數(shù)據(jù)集zypg.sas7bdat，應(yīng)用princomp函數(shù)進行主成分分析。相關(guān)語句如下：

proc princomp

data = Practice.zypg

out = Practice.zypg_out

prefix = pc

outstat = Practice.zypg_stat;

var v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 v12 v13 v14 v15 v16 v17 v18 v19 v20 v21 v22 v23;

run

相關(guān)系數(shù)矩陣的特征值及其累計貢獻(xiàn)率如表3所示。其中，特征值越大，則其對應(yīng)的主成分變量所包含的信息就越多；累計貢獻(xiàn)率前4項已達(dá)0.940 6，所以選擇這4個主成分(即主成分分析產(chǎn)生的新數(shù)據(jù)集前4項pc1、pc2、pc3、pc4)代替原來專業(yè)評估數(shù)據(jù)中的23項指標(biāo)，實現(xiàn)數(shù)據(jù)集降維。降維后的專業(yè)評估數(shù)據(jù)如表4所示。

3.3 專業(yè)等級的特征模型訓(xùn)練與測試

應(yīng)用Libsvm軟件進行專業(yè)等級特征模型訓(xùn)練與測試。Libsvm軟件是臺灣大學(xué)林智仁等學(xué)者開發(fā)的SVM模式識別與回歸軟件包，其特點是對SVM所涉及的參數(shù)調(diào)節(jié)相對較少，默認(rèn)參數(shù)較多[10]。為了保證模型的訓(xùn)練效果，避免各指標(biāo)項評分值級差過大而導(dǎo)致小特征被大特征所掩蓋的情況，在開始特征模型訓(xùn)練前對專業(yè)測評數(shù)據(jù)在[0，1] 區(qū)間進行歸一化處理。

(1) Libsvm軟件中的核函數(shù)選擇。專業(yè)評估是對專業(yè)建設(shè)質(zhì)量的綜合判斷，專業(yè)評估指標(biāo)體系又是一個多維、非線性的模型，所以選擇了分類(C-SVC)模型、徑向基形式(RBF)核函數(shù)，最終生成式(3)所示決策函數(shù)：

(3)

式中：xi為支持向量；x為待預(yù)測標(biāo)簽的樣本;‖xi-x‖為二范數(shù)距離；b為一個標(biāo)量數(shù)值；wi為支持向量的系數(shù)。

表3 相關(guān)系數(shù)矩陣的特征值及其累計貢獻(xiàn)率

表4 降維后的4個主成分?jǐn)?shù)據(jù)

(2) Libsvm軟件中的參數(shù)選擇。調(diào)用網(wǎng)格參數(shù)尋優(yōu)函數(shù)SVMcgForClass實現(xiàn)c、g參數(shù)尋優(yōu)，本例尋優(yōu)結(jié)果如圖2、圖3所示。其中，降維前的專業(yè)評估數(shù)據(jù)集最佳參數(shù)為c=4，g=0.015 6；降維后對應(yīng)的專業(yè)評估數(shù)據(jù)集最佳參數(shù)為c=4，g=1。

圖2 降維前的專業(yè)評估參數(shù)c、g尋優(yōu)結(jié)果

圖3 降維后的專業(yè)評估參數(shù)c、g尋優(yōu)結(jié)果

接下來進行模型訓(xùn)練與測試：

(1) 對降維前的數(shù)據(jù)進行模型訓(xùn)練與測試。從以上數(shù)據(jù)集中，隨機選擇21項專業(yè)評估數(shù)據(jù)作為專業(yè)訓(xùn)練樣本集，其余23項專業(yè)評估數(shù)據(jù)作為專業(yè)測試樣本集；然后，分別調(diào)用Svmstrain模型訓(xùn)練函數(shù)、Svmpredict測試函數(shù)，獲得的分類準(zhǔn)確率為91.304 3%。結(jié)果表明，應(yīng)用Libsvm 軟件得到的專業(yè)分類結(jié)果與專家組評估得出的專業(yè)建設(shè)結(jié)果吻合率為91.304 3%。

(2) 對降維后的數(shù)據(jù)進行模型訓(xùn)練與測試。選擇專業(yè)評估數(shù)據(jù)中降維后對應(yīng)的主成分?jǐn)?shù)據(jù)，再分別調(diào)用Svmstrain模型訓(xùn)練函數(shù)與Svmpredict測試函數(shù)，獲得的分類準(zhǔn)確率為95.652 2%。此次準(zhǔn)確率比降維前提高了4.347 9%(見表5)。

通過數(shù)據(jù)降維，去除了樣本中信息的重疊部分，提高了分類精度。PCA-SVM評估方法與專家組現(xiàn)場評估結(jié)果的吻合率高達(dá)95.652 2%，即在23個測試專業(yè)中僅有1個專業(yè)分類相異。這一個相異分類的原因是，專家組對該專業(yè)的評估指標(biāo)賦分或綜合評審的尺度不一。其余22個專業(yè)分類均相符，這表明PCA-SVM評估方法的可靠性，可代替專家組的現(xiàn)場評估工作。

表5 降維前后專業(yè)評估最佳參數(shù)及分類準(zhǔn)確率

4 結(jié) 語

在本次研究中，構(gòu)建了高職院校專業(yè)評估體系，引入主成分分析(PCA)和支持向量機(SVM)技術(shù)進行分析。該體系有利于專業(yè)建設(shè)成效分析與質(zhì)量評價，其中包括9個一級指標(biāo)和23個二級指標(biāo)。應(yīng)用Libsvm軟件進行專業(yè)等級特征模型訓(xùn)練與測試實驗，驗證了該體系的合理性。采用PCA-SVM專業(yè)評估方法，可以充分發(fā)揮SVM在小樣本、非線性及高維模式識別以及主成分分析數(shù)據(jù)降維方面的優(yōu)勢，訓(xùn)練專業(yè)等級特征模型，以取代專業(yè)組現(xiàn)場評估。該評估方法可避免人為設(shè)定權(quán)重所導(dǎo)致的主觀性偏差，能夠體現(xiàn)專業(yè)建設(shè)的多維特征，提高專業(yè)評估的工作效率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡