郝曉平
(上海理工大學(xué) 光電信息與計算機(jī)工程學(xué)院,上海 200093)
?
基于貝葉斯網(wǎng)絡(luò)的研究生入學(xué)獎學(xué)金評定
郝曉平
(上海理工大學(xué) 光電信息與計算機(jī)工程學(xué)院,上海 200093)
研究生入學(xué)獎學(xué)金評價體系的建立是我國高校研究生培養(yǎng)機(jī)制改革中的重要問題。為了公平、公正地對研究生入學(xué)獎學(xué)金進(jìn)行評定,需要把握影響?yīng)剬W(xué)金等級評定的相關(guān)因素,并分析這些因素之間的內(nèi)在關(guān)系。文中以歷史數(shù)據(jù)為依據(jù)采用K2算法構(gòu)建評定獎學(xué)金等級的貝葉斯網(wǎng)絡(luò)模型,并基于概率推理算法對獎學(xué)金的等級進(jìn)行預(yù)測。研究結(jié)果表明,該方法是可行的,其準(zhǔn)確率高達(dá)88%,為研究生入學(xué)獎學(xué)金的評定提供了科學(xué)依據(jù)。
獎學(xué)金等級;評定;K2算法;貝葉斯網(wǎng)絡(luò)
研究生全面收費帶來了研究生教育管理模式的轉(zhuǎn)變,同時對研究生獎學(xué)金的評定提出了更高的要求。目前,國內(nèi)眾多學(xué)者已對獎學(xué)金的評定開展了研究工作。文獻(xiàn)[1]從研究生管理的角度出發(fā),依據(jù)AHP的原理選擇評定指標(biāo)體系,構(gòu)建研究生獎學(xué)金的評定模型。文獻(xiàn)[2]結(jié)合數(shù)學(xué)模型建立了基于多層次綜合定量的獎學(xué)金評價體系。文獻(xiàn)[3]提出了基于Q值法的先席位后金額獎學(xué)金自動分配方案,并取得了良好的應(yīng)用效果。文獻(xiàn)[4]利用決策樹方法,對獎學(xué)金數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,構(gòu)建了一種科學(xué)合理的獎學(xué)金評價體系。這些研究表明如何正確評定獎學(xué)金,是研究生教育的一項重要內(nèi)容。
貝葉斯網(wǎng)絡(luò)(BayesianNetwork,BN)是基于概率論和圖論的不確定知識表示和推理模型[5],采用有向無環(huán)圖來表示變量之間獨立性的關(guān)系,通過計算概率值來預(yù)測和推斷不確定的事件。研究生獎學(xué)金的評定需要有效地表示各影響因素之間的相互關(guān)系,進(jìn)而有效地描述并推演其中蘊含的不確定性,即需要構(gòu)建有效的不確定性知識框架、并進(jìn)行概率的推理計算。因此,可將貝葉斯網(wǎng)絡(luò)方法運用于研究生獎學(xué)金評定的研究。
以上海理工大學(xué)研究生招生的歷史數(shù)據(jù)為根據(jù),構(gòu)建影響?yīng)剬W(xué)金評定的各因素之間相互關(guān)系的貝葉斯網(wǎng)絡(luò),包括有向無環(huán)圖(DirectedAcyclicGraph,DAG)構(gòu)建和條件概率表(ConditionalProbabilityTable,CPT)學(xué)習(xí),然后基于概率推理算法來推斷研究生入學(xué)獎學(xué)金的等級。
1.1貝葉斯公式
(1)
1.2鏈?zhǔn)椒▌t
貝葉斯網(wǎng)絡(luò)一般是指帶有概率信息的有向無環(huán)圖。圖的每個頂點代表隨機(jī)變量,邊代表變量之間的概率關(guān)系。假設(shè)y1,y2,…,yn是一貝葉斯網(wǎng)絡(luò)圖中的節(jié)點,如果節(jié)點yi與yj之間有依賴關(guān)系,則必有一條有向弧連接兩個節(jié)點[6]。在貝葉斯網(wǎng)絡(luò)中,每個節(jié)點在給定其父母節(jié)點后條件獨立于它的前輩節(jié)點,故有
(2)
圖1 貝葉斯網(wǎng)絡(luò)圖
如圖1所示,設(shè)有6個變量y1,y2,y3,y4,y5,y6,全部的概率分布則被分解為各個相關(guān)的部分。根據(jù)鏈?zhǔn)椒▌t,聯(lián)合概率P(y1,y2,y3,y4,y5,y6)可基于各變量的條件概率組成
P(y1,y2,y3,y4,y5,y6)=
P(y1),P(y2),P(y3|y1),P(y4|y1,y2),
P(y5|y4),P(y6|y4)
(3)
1.3貝葉斯網(wǎng)絡(luò)學(xué)習(xí)
貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)包括結(jié)構(gòu)學(xué)習(xí)和參數(shù)學(xué)習(xí),其中結(jié)構(gòu)學(xué)習(xí)是貝葉斯網(wǎng)絡(luò)研究中的熱點和難點,并被證明是NP-Hard問題。因此在實際計算中,并不是對所有的結(jié)構(gòu)分別計算其評分值,再進(jìn)行比較取最優(yōu),而是采用搜索算法,如K2算法[7]、爬山算法、禁忌搜索、模擬退火等。這些算法按照某種評分函數(shù)在可能的拓?fù)浣Y(jié)構(gòu)空間中進(jìn)行搜索,通過最高的評分來獲取一個最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)。最常用的評分函數(shù)有基于貝葉斯統(tǒng)計BDe(BayesianDirichlet-LikelihoodEquivalence)[8]、最小描述長度MDL(MinimumDescriptionLength)和貝葉斯信息標(biāo)準(zhǔn)BIC(BayesianInformationCriterion)。
一個完整的貝葉斯網(wǎng)絡(luò)除了具有網(wǎng)絡(luò)結(jié)構(gòu)外,還包括網(wǎng)絡(luò)參數(shù),即條件概率表[9]。貝葉斯網(wǎng)參數(shù)學(xué)習(xí)[9-10]一般可以分為似然估計方法和貝葉斯估計方法兩大類。似然估計方法是最簡單的方法,通過對樣本數(shù)據(jù)進(jìn)行簡單的統(tǒng)計得出需要的概率值,如果網(wǎng)絡(luò)結(jié)構(gòu)和樣本數(shù)據(jù)已知,那么可以從樣本數(shù)據(jù)中進(jìn)行統(tǒng)計得出相應(yīng)概率[11]。根據(jù)貝葉斯公式可知,以X2和X3為父親結(jié)點集,X1的條件概率參數(shù)可由式(4)計算。
P(X1=x1|X2=x2,X3=x3)=
(4)
2.1影響入學(xué)獎學(xué)金評定的主要因素
①將所有與運維相關(guān)的活動納入一個統(tǒng)一、規(guī)范、透明、前臺化的管理軌道,有效克服傳統(tǒng)管理方式帶來的運維活動后臺性強(qiáng)、信息分散、過于依賴個體等弊端。
根據(jù)2014年上海理工大學(xué)碩士研究生復(fù)試辦法,研究生入學(xué)獎學(xué)金的評定依據(jù)學(xué)生的錄取成績,錄取成績?yōu)槌踉嚦煽兣c復(fù)試成績的加權(quán)計算和,即
錄取成績=(初始成績÷5)×55%+復(fù)試成績×45%
(5)
學(xué)校以優(yōu)先錄取第一志愿考生為原則,分別對第一志愿和調(diào)劑考生的錄取成績進(jìn)行由高分到低分的排序,并以此確定錄取名單,進(jìn)而評定獎學(xué)金等級。學(xué)校按照一定的比例和標(biāo)準(zhǔn),將獎學(xué)金設(shè)置為3個等級,如表1所示。
表1 2014級研究生學(xué)業(yè)獎學(xué)金資助標(biāo)準(zhǔn)
2.2獎學(xué)金等級評定模型的構(gòu)造
全國碩士研究生報考自2005年開始采用全國統(tǒng)一網(wǎng)上報名的方式,教育部網(wǎng)上報名系統(tǒng)為各招生單位提供了考生超過60條的屬性信息,包含姓名、生源地、畢業(yè)院校、學(xué)歷、考生來源等信息。表2為從上海理工大學(xué)2014年的歷史數(shù)據(jù)(450行)中選取的與研究生入學(xué)獎學(xué)金評定相關(guān)的代表屬性。各變量均為離散型變量,例如,“是否畢業(yè)于985/211院?!钡娜≈悼纱_定為1和2,分別表示“985/211院?!焙汀捌渌盒!?;“考生類別”取值為1、2和3,分別表示“應(yīng)屆生”、“往屆生”和“保送生”等。
貝葉斯網(wǎng)絡(luò)建模一般有3種方法:依靠專家建模、從數(shù)據(jù)中學(xué)習(xí)、從知識庫中創(chuàng)建。本文采用K2算法從數(shù)據(jù)中學(xué)習(xí)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)。K2算法定義一種評價網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)劣的評分函數(shù)如BDe評分函數(shù),從一個網(wǎng)絡(luò)開始,根據(jù)事先確定的最大父節(jié)點數(shù)目和節(jié)點次序,選擇分值最高的節(jié)點作為該節(jié)點的父節(jié)點。對于所研究的問題,選取其中2/3作為訓(xùn)練集,1/3作為測試集,限制最大父節(jié)點數(shù)為2,采用K2算法可得到如圖2所示的有向無環(huán)圖。
表2 研究生入學(xué)獎學(xué)金評定的代表屬性
圖2 獎學(xué)金評定相關(guān)因素的貝葉斯網(wǎng)絡(luò)圖
2.3條件概率表的計算
采用似然估計法獲得條件概率表。例如X1無父節(jié)點,則它的邊緣概率為
同時有P(X1=2)=1-P(X1=1)≈0.86。
對于節(jié)點X4,其父節(jié)點為X5和X6,則條件概率為
P(X4=1|X5=1,X6=1)=
同理可求得P(X4=1|X5=1,X6=2)≈0.42;P(X4=1|X5=2,X6=1)≈0.44;P(X4=1|X5=2,X6=
2)≈0.28。類似可求出其它節(jié)點的條件概率,從而得到如圖3的條件概率表。
根據(jù)得到的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)圖和條件概率表,使用測試數(shù)據(jù)集對其進(jìn)行測試,例如以預(yù)測條件X7=1和X8=1時獎學(xué)金各等級的條件概率為例,根據(jù)式(1)和式(2)分析獎學(xué)金等級預(yù)測的過程和結(jié)果,為
P(X9=1|X7=1,X8=1)=
同理可求得P(X9=2|X7=1,X8=1)≈0.14;P(X9=1|X7=1,X8=1)≈0.04。
由計算得出的各條件概率,將獎學(xué)金等級預(yù)測為一等。對測試集所有樣本測試后,得到結(jié)果如表3所示,其準(zhǔn)確率達(dá)88%。
表3 研究生入學(xué)獎學(xué)金評定的預(yù)測結(jié)果
圖3 條件概率表
本文就研究生入學(xué)獎學(xué)金評定的問題構(gòu)建貝葉斯網(wǎng)絡(luò)模型,以圖形表示方法直觀、準(zhǔn)確地描述影響研究生入學(xué)獎學(xué)金評定的各因素之間的相互關(guān)系,確定模型參數(shù)?;谪惾~斯網(wǎng)絡(luò)概率推理算法對獎學(xué)金等級進(jìn)行預(yù)測,結(jié)果表明該網(wǎng)絡(luò)模型及其構(gòu)造方法是準(zhǔn)確、有效的,為教學(xué)管理部門進(jìn)行科學(xué)決策提供了參考。
[1]朱思瑋,朱宏.研究生獎學(xué)金評定的AHP模型構(gòu)建[J].廊坊師范學(xué)院學(xué)報:自然科學(xué)版,2014,14(2):22-24.
[2]常方圓,黃海.基于多層次綜合定量評價體系的研究生獎學(xué)金制度探索[J].蘭州教育學(xué)院學(xué)報,2013,29(2):76-78.
[3]邵正隆,王愨,鄒向榮.基于Q值法的獎學(xué)金自動分配方案的設(shè)計與應(yīng)用[J].計算機(jī)應(yīng)用,2011,31(11):3132-3134.
[4]盧錚松.研究生獎學(xué)金的決策樹分類數(shù)據(jù)挖掘研究[J].計算機(jī)工程與應(yīng)用,2012,48(26):139-143.
[5]Pearl J.Probabilistic reasoning in intelligent systems:networks of plausible inference[M].San Mateo:Morgan Kaufmann Publishers,1988.
[6]Lin Xiaohui,Ma Ping,Li Xiaolan,et al.A learning method of bayesian network structure[C]. Shanghai: IEEE International Conference on Fuzzy Systems & Knowledge Discovery,2012.
[7]Cooper G,Herskovits E.A Bayesian method for theinduction of probabilistic networks from data[J].Machine Learning,1992,9(4):309-347.
[8]Heckerman D,Geiger D,Chickering D.Learningbayesian networks:The combination of knowledge and statistical data[J].Machine Learning,1995,20(9):197-243.
[9]Russel S,Norvig P.Artificial intelligence-A modernapproach[M].Boston: Publishingas Prentice-Hall,2002.
[10]黃建明.貝葉斯網(wǎng)絡(luò)在學(xué)生成績預(yù)測中的應(yīng)用[J].計算機(jī)科學(xué),2012,39(11A):280-282.
[11]徐瑾,岳昆,錢文華,等.一種基于概率圖模型的研究生生源質(zhì)量評價方法[J].云南大學(xué)學(xué)報:自然科學(xué)版,2011,33(S2):299-304.
Research on Scholarship Evaluation for Graduates Admission Based on the Bayesian Network
HAOXiaoping
(SchoolofOptical-ElectricalandComputerEngineering,UniversityofShanghaiforScienceandTechnology,Shanghai200093,China)
Theestablishmentofthesystemofgraduatescholarshipsevaluationisoneofthemostimportantproblemsinthegraduateeducationreform.Inordertoassessgraduatescholarshipsmorefairlyandequitably,itisneededtoanalyzetherelevantfactorsofscholarshiplevelsandtheirintrinsicrelationships.Basedonhistoricaldata,aBayesiannetworkmodelforevaluationofscholarshiplevelsisconstructedbyusingtheK2algorithmandtheprobabilisticinferencealgorithmsforprediction.Theresearchresultsshowthattheproposedmethodisfeasibleanditsaccuracyisashighas88%.Thestudypresentsascientificmethodfortheevaluationofgraduateadmissionscholarship,whichprovidesagoodguidanceforthefuturescholarshipevaluation.
scholarshiplevel;evaluation;K2algorithm;Bayesiannetwork
2016- 12- 08
滬江基金資助項目(C14002)
郝曉平(1991-),女,碩士研究生。研究方向:數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)。
10.16180/j.cnki.issn1007-7820.2016.09.010
TP311.12
A
1007-7820(2016)09-034-04