袁 蕾, 徐平峰, 單 娜
(1.長春工業(yè)大學 數(shù)學與統(tǒng)計學院, 吉林 長春 130012;2.東北師范大學 心理學院, 吉林 長春 130024)
本科教育在人才培養(yǎng)工作中占據(jù)基礎地位,抓好本科教育,提高學生的學習成績是一個重要方面。在每個專業(yè)的學習中,必然涉及到多門課程,分析這些課程之間的關系,既有助于教師教學,也有利于學生學習。
近年來,各個專業(yè)的老師從本專業(yè)知識體系出發(fā),研究了課程之間的關系。例如,翟志強[1]分析了思想政治理論課課程體系中四門核心課程之間的內(nèi)在關系;向少華[2]從課程關系研究基本樂理課程教學內(nèi)容的改革;周華[3]從課程關系研究高職“職業(yè)通用能力”培養(yǎng)的課程體系。此外有學者從學生的考試成績出發(fā),利用數(shù)學模型或統(tǒng)計學模型研究課程關系。例如,趙慧等[4]利用高斯圖模型分析力學、向量、代數(shù)、分析和統(tǒng)計5門百分制課程的關系;郝立麗等[5]分析了大學10門數(shù)學課程的成績,將所有課程的分數(shù)以中位數(shù)為閾值變?yōu)槎敌蛿?shù)據(jù),然后利用遺傳算法和K2算法構建大學數(shù)學課程貝葉斯網(wǎng);張翼等[6]選擇課程數(shù)據(jù)庫部分文本數(shù)據(jù),利用貝葉斯網(wǎng)反映課程之間的關系,以解決職業(yè)教育在課程內(nèi)容安排上的實時性決策問題;王福友[7]利用含潛變量的有向無圈圖模型分析了百分制課程的結(jié)構關系。
文中利用混合圖模型分析某高校統(tǒng)計學專業(yè)學生的考試成績,進而刻畫各門課程的關系,為教師修訂培養(yǎng)方案和教學大綱及課程建設提供參考,為學生的學習及選擇研究方向提供依據(jù)。
學生成績多為百分制和5級制,也就是既有數(shù)值型分數(shù),也有分類型分數(shù)。為此,考慮同時包含分類變量(也稱為屬性變量)和連續(xù)型變量的混合圖模型?;旌蠄D模型被廣泛用于生物信息學、機器學習等領域, 詳見文獻[8-10]。文中的定義和概念主要參考文獻[8]。
設有p個屬性型隨機變量X=(X1,X2,…,Xp),每個變量取有限個屬性值,令|Xi|表示Xi的取值個數(shù)。設有q個連續(xù)型變量,Y=(Y1,Y2,…,Yq)。假設(X,Y)的聯(lián)合分布服從條件高斯分布,即X服從多項分布,給定X=x的條件下,Y服從正態(tài)分布N(μx,Σx)。若Σx不依賴x,則稱為齊次模型,否則稱為非齊次模型。在混合圖模型中,以屬性變量和連續(xù)變量為頂點,構建簡單無向圖G=(V,E),V為頂點集,E為邊集。每個頂點表示一個變量,若兩個變量在給定其他所有變量時是條件獨立的,則在無向圖中兩個頂點間不連邊,否則連邊。這樣構建的無向圖與條件高斯分布滿足馬爾可夫性,同時圖可直觀地表示變量間的條件獨立關系。
三角圖、樹和森林如圖1所示。
圖1 三角圖、樹和森林
文中考慮的無向圖為強可分解的,即圖為三角圖并且不含禁行路,所謂三角圖是指圖中不含大于等于4元的無弦圈,禁行路是指首尾變量為屬性變量,而路中間包含連續(xù)變量。
圖中,灰色的點代表屬性變量,白色的點代表連續(xù)變量。(i)中,路1,2,5和路4,3,2,5為禁行路。(i)和(ii)是三角圖,而(iii)和(iv)不是三角圖,因為它們至少有一個4元圈不含弦,即圈4,3,2,5,4。(i)不是強可分解的,因為有禁行路,而(ii)是強可分解的。強可分解模型的優(yōu)點是其極大似然估計存在顯式解,也是更加方便計算評價模型好壞的得分,例如似然、AIC、BIC等。
可分解模型的特例包括樹或者森林,樹是連通的無圈圖,而森林是無圈圖,一片森林可能包含多棵樹,樹與樹之間是不連通的。圖1中(v)和(vi)是樹,但(v)不是強可分解的,因為它有禁行路4,3,2,5,而(vi)是強可分解的。(vii)是強可分解的森林,而(viii)不是強可分解的森林,因為它有禁行路1,3,4。樹或森林模型比一般可分解模型簡單一些,因而尋找最優(yōu)的樹或森林模型的計算復雜度比尋找可分解模型低很多,更加適用于高維變量情形,詳見文獻[9]。
設(X1,Y1),(X2,Y2),…,(XN,YN)為來自混合圖模型的N個觀測值。對于森林或者樹模型G=(V,E),設L為似然的最大值,則對數(shù)最大似然正比于森林或樹的所有邊對應的頂點間的互信息之和,即
式中:Iv1v2----互信息。
兩個屬性變量Xu,Xv之間的互信息為
兩個連續(xù)變量Ys,Yt之間的互信息為
屬性變量Xu和連續(xù)變量Ys之間的互信息為Ius。
當考慮齊次模型時,
當考慮非齊次模型時,
令
于是,若定義森林或者樹的權重為所有邊的兩個變量的互信息之和,則求最大似然的森林或樹,等價于求權重最大的森林或樹。
除了似然,AIC和BIC也可作為評價模型好壞的準則,它們分別為-2ln(L)+ln(N)r和-2ln(L)+ln(N)r。由似然與互信息的關系,經(jīng)推導可得懲罰的互信息。兩個屬性變量Xu,Xv的懲罰互信息為
其中
kuv=(|Xu|-1)(|Xv|-1)。
兩個連續(xù)變量Ys,Yt之間的懲罰互信息為
其中
kst=1。
屬性變量Xu和連續(xù)變量Ys的懲罰互信息為
當考慮齊次模型時,
kus=|Xu|-1,
當考慮非齊次模型時,
kus=2(|Xu|-1)。
類似的,可以得到AIC懲罰互信息。若定義森林或者樹的權重為所有邊的兩個變量的懲罰互信息之和,則最小化AIC和BIC準則的森林或樹等價于最大化權重的森林或樹。
對于森林或樹模型,定義了邊的權重后,可通過Kruskal或Prim算法求最大支撐森林或樹。對于一般的強可分解模型,由于似然有顯式解,所以不難得到AIC或BIC的值,但由于強可分解的模型較多,通常采用逐步向前貪婪搜索的方式找一個AIC或BIC局部最大的模型,詳見文獻[9]。上述方法可由R軟件包“gRapHD”實現(xiàn)[9]。
文中收集了某大學統(tǒng)計學專業(yè)101名學生的31門課程成績,8門課程成績?yōu)?級制,分別是計算機實習、數(shù)據(jù)庫課設、認識實習、學科概論、多元統(tǒng)計課設、實驗物理B、數(shù)學模型、計算機課設,其余23門課程成績?yōu)榘俜种啤2捎没旌蠄D模型對31門課程的成績進行建模,其中假設百分制成績服從正態(tài)分布,假設5級制成績服從多項分布,這里不考慮成績的優(yōu)、良、中、及格、不及格的順序。
首先考慮齊次混合圖模型?;贐IC準則懲罰的互信息得到了課程關系的森林模型和強可分解模型,分別如圖2和圖3所示。
圖2 基于BIC準則的齊次森林模型
在兩個模型中,5級制課程與百分制課程連接的邊不多,可能由于5級制課程多數(shù)為實踐類課程,而百分制課程為理論課,分別反映學生的實踐能力和理論知識掌握能力。數(shù)學分析1、2、3聯(lián)系比較緊密,數(shù)學分析3通過實用回歸分析影響其他課程,并且概率論與數(shù)理統(tǒng)計、實用回歸分析、抽樣調(diào)查課程連接的邊比較多,說明這些課程處于核心地位。圖3比圖2邊多一些,描述了課程間更豐富的關系。
基于混合圖模型分析某高校統(tǒng)計學專業(yè)本科生28門課程的成績,刻畫了各門課程的依賴關系,發(fā)現(xiàn)了部分核心課程。 希望文中得到的課程關系可為學生培養(yǎng)方案的制定和學習提供一定的參考。