(浙江工商大學(xué)信息化辦公室 浙江·杭州 310018)
碩士研究生報(bào)名連續(xù)五年持續(xù)上漲且增幅驚人,自2018年考研人數(shù)首次突破200萬之后,2020考研報(bào)考人數(shù)更是達(dá)到了341萬。研究生是教育鏈的最高端,培養(yǎng)的是高科技人才,是技術(shù)的創(chuàng)新者、開拓者,是國家的技術(shù)棟梁,研究生培養(yǎng)質(zhì)量關(guān)系到國家長遠(yuǎn)的發(fā)展。因此,形成一套有效的研究生培養(yǎng)質(zhì)量監(jiān)控體系是保證研究生培養(yǎng)質(zhì)量的重要基礎(chǔ)。
目前,研究生培養(yǎng)質(zhì)量監(jiān)控體系從時(shí)間維度上講政策措施的事后總結(jié)比較多,建模預(yù)測的比較少。研究范圍上,有些是效仿國外,提出改進(jìn)措施政策。有些分析國內(nèi)高校的研究生數(shù)據(jù)。雖然研究范圍不同,但是大家都有個(gè)共同的認(rèn)識,就是要嚴(yán)出。2019年2月26日教育部辦公廳發(fā)布《關(guān)于進(jìn)一步規(guī)范和加強(qiáng)研究生培養(yǎng)管理的通知》,狠抓學(xué)位論文和學(xué)位授予管理。在這樣的大背景下,本文通過融合實(shí)驗(yàn)室門禁次數(shù)、課程修學(xué)及成績、圖書借閱、入學(xué)成績、專業(yè)、學(xué)院、人均導(dǎo)師數(shù)、是否調(diào)劑、總成績、復(fù)試成績、培養(yǎng)方向、學(xué)位類型等多維數(shù)據(jù),預(yù)測研究生學(xué)位論文的質(zhì)量。
監(jiān)控的指標(biāo)選取原則主要指標(biāo)的粒度和范圍。
一指標(biāo)的粒度:因?yàn)楸疚难芯康臉颖局黧w是研究生個(gè)人,監(jiān)控指標(biāo)盡可能的細(xì),比如人均導(dǎo)師數(shù),有的研究是選擇一個(gè)學(xué)校的人均導(dǎo)師數(shù),本篇文章選取的該學(xué)生導(dǎo)師名下的學(xué)生人數(shù)。二監(jiān)控指標(biāo)的范圍盡可能多,包括從入校到畢業(yè)整個(gè)過程比如初試成績、課程修學(xué)及成績、圖書借閱、專業(yè)等,后面可以通過算法篩選。
對比了多種算法,類神經(jīng)網(wǎng)絡(luò)算法比較符合這一特點(diǎn)。神經(jīng)網(wǎng)絡(luò)思想是把大量的個(gè)體作為訓(xùn)練樣本,然后生成一個(gè)可以通過訓(xùn)練樣本學(xué)習(xí)的系統(tǒng)。換句話說,神經(jīng)網(wǎng)絡(luò)使用樣本自動(dòng)地推斷出變量與目標(biāo)之間的規(guī)則。另外,神經(jīng)網(wǎng)絡(luò)算法通過增加訓(xùn)練樣本的數(shù)量,可以學(xué)到更多,并且更加準(zhǔn)確。根據(jù)建模效果,選擇了神經(jīng)網(wǎng)絡(luò)反向傳播算法。
基于以上的準(zhǔn)備工作,為了使預(yù)測結(jié)果更加準(zhǔn)確,選擇樣本數(shù)盡可能多,結(jié)合研究生院實(shí)際的信息化建設(shè)情況,本文選用近三年畢業(yè)的研究生7000多人作為研究樣本,使用spss18.0進(jìn)行建模分析。
對樣本進(jìn)行處理,最關(guān)鍵是監(jiān)測目標(biāo)的處理。對畢業(yè)論文質(zhì)量進(jìn)行分類,畢業(yè)論文主要包含兩部分,論文成績和答辯情況。論文成績由多位老師分別評閱,審查角度等因素影響評定論文成績有所不同。答辯是綜合各老師的意見給定的結(jié)果。所以一開始分類的時(shí)候,分成答辯一次性通過和多次通過兩類。但是發(fā)現(xiàn)預(yù)測率不高,再進(jìn)行優(yōu)化細(xì)分把論文成績這一因素考慮進(jìn)去。最終畢業(yè)論文質(zhì)量分為A、B、C、D四類,以此表示優(yōu)秀、中上、中下、下。A是論文評分優(yōu)秀或良好且答辯一次通過,B是除去A類之外答辯一次通過的論文,C存在二次答辯通過的情況,D存在多次答辯或延期答辯的情況。
該算法里激活函數(shù)對預(yù)測結(jié)果有較大的影響,它能夠?qū)崿F(xiàn)線性模型到非線性的變換,反應(yīng)變量間內(nèi)在復(fù)雜深層次的關(guān)系。隱藏層的激活函數(shù)選擇tanh函數(shù),值輸出在-1~1,是以0為中心的,并且在0附近的梯度大,模型收斂快。輸出層的激活函數(shù)選擇softmax函數(shù),歸一化后和為1,最后的輸出是每個(gè)分類被取到的概率,本文即預(yù)測該學(xué)生某類論文質(zhì)量的概率。
圖1:算法流程圖
最終確定的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為三層,分別為輸入層、隱藏層和輸出層。輸入層包含12個(gè)節(jié)點(diǎn),分別是實(shí)驗(yàn)室門禁次數(shù)、課程修學(xué)及成績、圖書借閱、入學(xué)成績、專業(yè)、學(xué)院、人均導(dǎo)師數(shù)、是否調(diào)劑、總成績、復(fù)試成績、培養(yǎng)方向、學(xué)位類型。隱藏層5個(gè)節(jié)點(diǎn),隱藏層是神經(jīng)網(wǎng)絡(luò)算法為了更好的計(jì)算輸入層和輸出層之間的復(fù)雜關(guān)系而出現(xiàn)的中間層。輸出層4個(gè)節(jié)點(diǎn),就是要預(yù)測的指標(biāo),即論文的質(zhì)量為ABCD四類。
神經(jīng)網(wǎng)絡(luò)反向傳播主要包括正向和反向兩個(gè)過程,通過使誤差函數(shù)最小,不斷調(diào)整連接權(quán)值,直到無法進(jìn)一步降低誤差,神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練完成。具體的算法流程如圖1所示。
首先輸入某個(gè)樣本,初始化網(wǎng)絡(luò)權(quán)值,計(jì)算處理每層的加法器和激活函數(shù)值,推導(dǎo)隱藏層到輸出層之間的算法過程。輸出層與隱層之間的網(wǎng)絡(luò)權(quán)值調(diào)整完成之后,依次逐層進(jìn)行,通過同樣方法調(diào)整隱層與輸入層之間的權(quán)值。隨著神經(jīng)網(wǎng)絡(luò)訓(xùn)練中樣本的輸入,這種正向過程和反向過程將不斷重復(fù),以實(shí)現(xiàn)預(yù)測值越來越接近真實(shí)值。
通過神經(jīng)網(wǎng)絡(luò)反向傳播算法預(yù)測畢業(yè)論文質(zhì)量結(jié)果如表1所示。
表1:畢業(yè)論文質(zhì)量預(yù)測結(jié)果
建模時(shí)為了提高模型的準(zhǔn)確性,劃分為四類。實(shí)際運(yùn)用中可以把預(yù)測結(jié)果簡化為兩類,A和B劃分一類作為論文質(zhì)量較高,C和D劃分一類論文質(zhì)量較差。真實(shí)值A(chǔ),預(yù)測為AB類的概率為96.7%;真實(shí)值 B,預(yù)測為 AB類的概率為92.3%;真實(shí)值C,預(yù)測為CD類的概率為84.9%;真實(shí)值D預(yù)測為CD類的概率為82.8%。預(yù)測率按照論文優(yōu)秀程度遞減。
專業(yè)的影響程度,因?yàn)閷I(yè)本身水平不同,對論文的影響也會不同,為了便于分析,列出下面5個(gè)相同水平的專業(yè)進(jìn)行比較,分別為環(huán)境科學(xué)工程、設(shè)計(jì)學(xué)、信息與通信工程、計(jì)算機(jī)科學(xué)與技術(shù)、馬克思主義理論。如圖2所示:
圖2:同等學(xué)科水平里不同專業(yè)權(quán)值比較
前面三個(gè)專業(yè)權(quán)值相差不大,后面兩個(gè)相差比較大,特別是A類論文。計(jì)算機(jī)科學(xué)與技術(shù)對A類論文權(quán)值是負(fù),對其他類論文權(quán)值是正。馬克思主義理論專業(yè)正好相反。調(diào)查發(fā)現(xiàn)這和專業(yè)風(fēng)氣有關(guān)。計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)很多學(xué)生在讀研期間都去公司實(shí)習(xí)兼職,相對馬克思主義理論專業(yè)的學(xué)生來說在論文上面花費(fèi)的精力和時(shí)間較少。
學(xué)院權(quán)值是各個(gè)專業(yè)權(quán)值的綜合,學(xué)院內(nèi)部各專業(yè)水平不同,報(bào)考時(shí)錄取分?jǐn)?shù)不同。我們對學(xué)院各專業(yè)比較,發(fā)現(xiàn)錄取分?jǐn)?shù)高的專業(yè),論文質(zhì)量顯著偏高。這與前面的入學(xué)成績權(quán)值存在一定的關(guān)聯(lián)。
本文選用神經(jīng)網(wǎng)絡(luò)算法,構(gòu)建了一種預(yù)測論文質(zhì)量的模型??梢酝ㄟ^模型預(yù)測的結(jié)果,加上個(gè)體因素的分析,找出疑似論文質(zhì)量欠佳的學(xué)生和因素。調(diào)查反饋結(jié)合影響因素的歸納,影響論文質(zhì)量主要包含三個(gè)方面:主觀能動(dòng)性,自身基礎(chǔ)以及外界的影響。未來更多的行為特征將被納入數(shù)字化,有關(guān)的因素可以加入到模型中,使預(yù)測結(jié)果更加精準(zhǔn)。從研究生個(gè)體來講,需要提高自身能動(dòng)性與本身水平。從學(xué)校來講要提高學(xué)校聲譽(yù)與學(xué)科水平,及加強(qiáng)學(xué)校軟硬件水平,吸引優(yōu)秀生源報(bào)考。