畢瑤家,劉國柱,王華東,孫 馳,付兆殊
(青島科技大學 信息科學技術學院,青島 266061)
近年來,國家對高校的關注點已經從數量的增長轉移到學生培養(yǎng)質量的提升上來,因此人才培養(yǎng)質量問題受到越來越多的關注.學者關于人才培養(yǎng)質量已經有了一定的研究成果,如彭建林根據就業(yè)質量的評價要求,構建了大學生就業(yè)質量評價指標體系,包括工作保障、薪資條件等7個一級指標,并且細化為10個二級指標,并通過設計指標權重對大學生的就業(yè)質量進行了評價[1];寧東衛(wèi)、范春梅等(2016)根據影響人才培養(yǎng)的相關因素、從個人與學校兩個方面出發(fā)選取指標體系,豐富了人才培養(yǎng)的指標體系,提供了豐富的參考依據[2];宋俊秀、謝德剛提出了基于模糊綜合評價法的大學生就業(yè)質量分析,以安徽省為例探討高校大學生就業(yè)質量,構建合理的評價體系,運用模糊綜合評判法建構大學生就業(yè)質量評價模型,對高校大學生就業(yè)質量進行總體、分學歷、分學科層次多維評價[3];韓天才提出了基于層次法的大學生就業(yè)質及系統的設計與實現,通過建立評價指標體系,以層次分析方法為基礎構建了評價模型并完成了畢業(yè)生就業(yè)信息管理系統[4].
國外學者將人才培養(yǎng)看作就業(yè)質量,分為高質量就業(yè)和低質量就業(yè).對高質量就業(yè)的定義為:在具有挑戰(zhàn)性和滿意的工作環(huán)境中通過體力勞動或者腦力勞動獲得生存所需的酬勞.同時國外專家認為收入雖然重要,但是收入的高低不足以體現就業(yè)質量.雖然美國、歐盟等國家對于“工作滿意度”、“工作質量”,“生活滿意度”等與就業(yè)質量相關的方向進行研究分析,但是通過文獻資料可以看出其研究對象主要是針對某一群體的勞動者,而對大學生的研究相對較少[5-8].
隨機森林算法[9]是數據挖掘技術中一種自然的非線性建模工具,通過集成多棵決策樹(Decision Tree,DT)使模型有較好的穩(wěn)定性[10].隨機森林算法的本質是一種組合分類器,其分類結果是由各個子分類器的結果共同決定,通常是通過投票將決策票數最多的類別作為樣本的最終所屬類別[11].
算法1.RF算法思想Input:訓練集D,待測樣本;Output:待測樣本的類別或回歸值;Step 1.采用Bootstrap 抽樣從訓練集D 中抽取k個子訓練集,子訓練集的大小和D 一致;Step 2.每個節(jié)點分裂之前隨機選擇特征生成特征子集;Step 3.建立k 棵決策樹;Step 4.對于待測樣本,k 棵決策樹得出k個結果;Step 5.對k個結果進行一票制投票或取平均值得到結果.
采用bootstrap 重采樣方法時,使用bagging方法從原始訓練集D(樣本總數為N)中有放回地抽取樣本,形成一個樣本集,因此,存在一些未被抽取到的樣本.訓練集中每個樣本未能被抽取到的概率為:
當N趨向于無窮大時,p約為0.368,可以得出訓練集D中約有37%的樣本不會被抽到這部分樣本為袋外樣本(Out-Of-Bag,OOB),OOB 既可用于誤差估計,也可用于特征重要性分析.
隨機森林算法流程如圖1.
圖1 隨機森林算法流程
隨機森林算法用于人才培養(yǎng)評價具有很多優(yōu)點,首先它能夠將弱分類器通過覆蓋優(yōu)化的手段進行綜合,使分類系統的整體能力得到了提升.其次在生成決策樹的過程中,每一棵決策樹都相互獨立且同時生成,提高了訓練的效率.另外在選擇樣本和構建決策樹時隨機選擇的特征,使該算法的抗噪能力大大提高.
當然隨機森林算法也存在很多的不足之處.隨機森林算法在進行決策時采用平均投票的機制,沒有考慮到強弱分類器的差異,其中弱分類器過多的參與決策過程會降低決策的準確率[12-15].另外由于采用了隨機選擇的方式選取樣本特征,因此在處理非平衡數據時無法消除樣本數據所帶來的影響[16-18].
人才質量評價的過程是從學生在校表現的各項指標中選擇綜合質量最好的人才,可以看作是非平衡數據集的分類問題.如果不考慮指標的平衡性直接對原始數據進行建模,很難得到比較理想的模型,可以需要通過訓練數據來提升不平衡率,主要實現方式為通過特征重要度度量來衡量數據指標的重要性,以此為指標加權的標準,本文選用Ranking方法對指標點的重要度進行衡量;另一方面由于隨機森林算法對分類器采用的是平均投票的機制,這種投票機制使弱分類器對最終的評價結果產生影響,本文采用F-measure算法對分類器進行加權,降低弱分類器對于結果的影響.
特征樣本的選取和決策樹的投票過程是影響RF算法在人才培養(yǎng)評價中應用的主要方面,本文就這兩個方面提出了以下的改進方案.
1)特征重要度度量算法(WRF)
傳統的學生評價指標的處理方法都是根據文獻資料和專家意見對指標點進行選取和加權,這種方法受到主觀因素的影響較大,沒有考慮不同環(huán)境下指標影響力是不同的情況.這種方法主要存在兩個問題:第一,這種方法不僅效率低下而且也會由于認為因素影響最終的結果;第二,由于在標準隨機森林算法中特征選擇是完全隨機的,因此樣本特征被選中的概率是一樣的,但實際上每一個特征的重要度是不同的,也就是說在人才培養(yǎng)質量評價的過程中,所涉及到的是非平衡數據.
為解決以上問題,本文以每一個樣本特征的重要度為依據,選擇重要度較高的選擇樣本特征,降低弱分類器生成的可能性.度量特征重要性的方法有很多,本文選用隨機森林排序算法 (Random Forest Ranking,RF Ranking)計算特征重要度,以下為該方法的主要步驟:
Step 1.選取某一樣本特征X,隨機引入噪聲數據并再次計算OOB,結果記為errOOB2,初始的OOB計算結果記為errOOB1.假設在隨機森林中存在N棵決策樹,則特征X的重要度計算公式是:
Step 2.跟著Step 2 得到的排好序的特征,選擇75%的特征,在特征集合移除后面20%的特征.
Step 3.重復上述兩個步驟,直到特征數目降為M,提前設定好的一個值.最終得到m個最終特征集合.
2)F-measure加權算法(FRF)
傳統隨機森林方法在進行分類決策時,采用的是平均多數投票法,每一顆決策樹輸出自己的分類標簽,最終的結果為輸出最多的類.但是在分類過程中,決策樹的分類效果是不同的,如果按照平均投票的方法,每一個決策樹都具有相同的投票權重,就會導致效果好的分類器不能更好地發(fā)揮作用,效果差的分類器對結果產生負面影響.
本文基于F-measure方法,設計了一種新型的基決策樹加權方法.F-measure是Precision和Recall加權調和平均,是IR (信息檢索)領域的常用的一個評價標準,常用于評價分類模型的好壞.利用混淆矩陣計算分類器的召回率Recall和準確率ACC:
其中,TP表示實際是高質量畢業(yè)生預測為高質量畢業(yè)生的人數,TN代表的是實際是低質量畢業(yè)生預測為低質量畢業(yè)生的人數.FP代表的是實際為低質量的畢業(yè)生預測為高質量的畢業(yè)生,FN代表的是實際為高質量的畢業(yè)生預測為低質量的畢業(yè)生.
根據F-measure 計算公式,計算出組成隨機森林分類器的每一顆決策樹的F-measure值.
在上式中,recall代表召回率,precision代表準確率.首先,將驗證集的數據輸入到每一個決策樹中,然后每一個決策樹對驗證集中的每一個記錄會有一個類別預測,根據決策樹預測的結果和真實的結果進行比對.
改進后的隨機森林算法降低了平均投票機制所帶來的影響,降低了弱分類器對于結果的影響,提高了算法的整體性能,無論是在人才質量評價中還是在其他的應用中都可以應用.
改進后的隨機森林算法流程圖2所示.
1)數據來源與數據處理
本文的數據來源主要是青島科技大學信息學院在國家工程專業(yè)認證過程中所收集的學生數據,該數據由學院檔案記錄、問卷調查、綜合測評成績等多方面組成,包含了2008年到2017年2000多名畢業(yè)生的詳細數據,每一條數據包含約35個字段,共計8萬條數據.根據人才培養(yǎng)質量評價的需求,只需選擇與評價內容密切相關的數據建立數據庫即可.最終只保留以下字段,見表1.
其中將2008到2015年共8年的樣本數據作為原始訓練集,占總樣本數的80%,2016年和2017年兩年的樣本數據作為測試集.
2)特征選取對于算法性能的影響
本文對RF算法做了兩次改進,為了驗證兩種改進都能對評價結果產生積極的影響,本文對兩種改進分別進行驗證,以證明兩種改進各自的有效性.為了驗證特征選取對于算法性能的加強,本文將不帶有特征重要度加權的RF算法與帶有特征重要度加權算法進行比較,結果如表2所示.
從表2中可以看出,在同一數據集中,帶有特征重要度加權的RF算法比原算法的準確率有了明顯的提升,在特征選取的過程中,改進后的算法能夠自動篩選出對評價結果有利的特征指標,降低弱分類器的生成概率,間接提高了評價模型的準確率.
3)F-measure加權算法對算法性能的影響
為了驗證F-measure加權算法對于算法性能的影響,將普通投票機制的RF算法與帶有F-measure加權投票機制的RF算法(WRF)在進行比較,結果如表3所示.
表1 處理后的數據所包含的字段信息
表2 特征重要度方法對RF算法的性能影響
表3 F-measure 加權算法對算法性能的影響
由表3可以看出,通過加權投票機制改進的隨機森林算法模型的準確率有了進一步的提升.本文提出的基于F-measure加權投票機制的隨機森林算法比傳統的隨機森林算法具有更高的性能.
4)FWRF算法性能測試
為了證明FWRF算法在高校學生畢業(yè)質量評價方面的作用,本文選取了幾種經典的RF 改進算法與FWRF算法進行橫向比較,實驗數據為數據集中的所有類別.經過最終的篩選,本文選取了混合粒子群隨機森林算法、混合遺傳隨機森林算法、混合魚群隨機森林算法以及原始隨機森林算法為對比算法,性能的評價指標主要是準確率.利用Python語言在PyCharm 開發(fā)平臺上使用scikit-learn庫實現了以上4種算法.實驗采用十折交叉驗證的方式對樣本集進行分析,并基于準確率、召回率和F1值來對分類結果進行評估.表4為5種方法的實驗結果.
從表4中可以看出,與幾種經典的改機隨機森林算法相比,本文提出的改進隨機森林算法在用于人才培養(yǎng)評價時,在精確度和召回率上差異不大,但是在準確率上有了一定程度的提高,符合設計的要求.
表4 5種實驗方法對比
本文基于標準隨機森林算法,對其特征選擇機制和決策樹投票機制進行了改進,使得抽樣獲得的決策樹更加具有代表性.結果顯示,改進后的模型在處理人才培養(yǎng)評價的問題時,無論是相比于標準的隨機模型還是經典的改進型隨機森林算法,其準確率有了一定程度的提高;而且改進后的模型決策樹的數量有所減少,縮短了算法的運行時間,在簡化分析模型和提高模型準確度方面有一定的優(yōu)勢.該算法能夠解決高校畢業(yè)生的質量評價問題,可以在高校的學生培養(yǎng)方面起到指導作用.