基于混合圖模型的統(tǒng)計學課程關系分析

2020-07-15 07:32徐平峰

長春工業(yè)大學學報 2020年3期

袁蕾, 徐平峰, 單娜

(1.長春工業(yè)大學數(shù)學與統(tǒng)計學院, 吉林長春 130012；2.東北師范大學心理學院, 吉林長春 130024)

0 引言

本科教育在人才培養(yǎng)工作中占據(jù)基礎地位,抓好本科教育，提高學生的學習成績是一個重要方面。在每個專業(yè)的學習中，必然涉及到多門課程，分析這些課程之間的關系，既有助于教師教學，也有利于學生學習。

近年來，各個專業(yè)的老師從本專業(yè)知識體系出發(fā)，研究了課程之間的關系。例如，翟志強[1]分析了思想政治理論課課程體系中四門核心課程之間的內(nèi)在關系;向少華[2]從課程關系研究基本樂理課程教學內(nèi)容的改革;周華[3]從課程關系研究高職“職業(yè)通用能力”培養(yǎng)的課程體系。此外有學者從學生的考試成績出發(fā),利用數(shù)學模型或統(tǒng)計學模型研究課程關系。例如，趙慧等[4]利用高斯圖模型分析力學、向量、代數(shù)、分析和統(tǒng)計5門百分制課程的關系;郝立麗等[5]分析了大學10門數(shù)學課程的成績，將所有課程的分數(shù)以中位數(shù)為閾值變?yōu)槎敌蛿?shù)據(jù)，然后利用遺傳算法和K2算法構建大學數(shù)學課程貝葉斯網(wǎng);張翼等[6]選擇課程數(shù)據(jù)庫部分文本數(shù)據(jù)，利用貝葉斯網(wǎng)反映課程之間的關系，以解決職業(yè)教育在課程內(nèi)容安排上的實時性決策問題;王福友[7]利用含潛變量的有向無圈圖模型分析了百分制課程的結(jié)構關系。

文中利用混合圖模型分析某高校統(tǒng)計學專業(yè)學生的考試成績，進而刻畫各門課程的關系，為教師修訂培養(yǎng)方案和教學大綱及課程建設提供參考，為學生的學習及選擇研究方向提供依據(jù)。

1 混合圖模型

學生成績多為百分制和5級制，也就是既有數(shù)值型分數(shù)，也有分類型分數(shù)。為此，考慮同時包含分類變量(也稱為屬性變量)和連續(xù)型變量的混合圖模型?；旌蠄D模型被廣泛用于生物信息學、機器學習等領域，詳見文獻[8-10]。文中的定義和概念主要參考文獻[8]。

設有p個屬性型隨機變量X=(X1,X2,…,Xp),每個變量取有限個屬性值，令|Xi|表示Xi的取值個數(shù)。設有q個連續(xù)型變量，Y=(Y1,Y2,…,Yq)。假設(X,Y)的聯(lián)合分布服從條件高斯分布，即X服從多項分布，給定X=x的條件下，Y服從正態(tài)分布N(μx,Σx)。若Σx不依賴x,則稱為齊次模型，否則稱為非齊次模型。在混合圖模型中，以屬性變量和連續(xù)變量為頂點，構建簡單無向圖G=(V,E)，V為頂點集，E為邊集。每個頂點表示一個變量，若兩個變量在給定其他所有變量時是條件獨立的，則在無向圖中兩個頂點間不連邊，否則連邊。這樣構建的無向圖與條件高斯分布滿足馬爾可夫性，同時圖可直觀地表示變量間的條件獨立關系。

三角圖、樹和森林如圖1所示。

圖1 三角圖、樹和森林

文中考慮的無向圖為強可分解的，即圖為三角圖并且不含禁行路，所謂三角圖是指圖中不含大于等于4元的無弦圈，禁行路是指首尾變量為屬性變量,而路中間包含連續(xù)變量。

圖中，灰色的點代表屬性變量，白色的點代表連續(xù)變量。(i)中，路1,2,5和路4,3,2,5為禁行路。(i)和(ii)是三角圖，而(iii)和(iv)不是三角圖，因為它們至少有一個4元圈不含弦，即圈4,3,2,5,4。(i)不是強可分解的，因為有禁行路，而(ii)是強可分解的。強可分解模型的優(yōu)點是其極大似然估計存在顯式解，也是更加方便計算評價模型好壞的得分，例如似然、AIC、BIC等。

可分解模型的特例包括樹或者森林，樹是連通的無圈圖，而森林是無圈圖，一片森林可能包含多棵樹，樹與樹之間是不連通的。圖1中(v)和(vi)是樹，但(v)不是強可分解的，因為它有禁行路4,3,2,5，而(vi)是強可分解的。(vii)是強可分解的森林，而(viii)不是強可分解的森林，因為它有禁行路1,3,4。樹或森林模型比一般可分解模型簡單一些，因而尋找最優(yōu)的樹或森林模型的計算復雜度比尋找可分解模型低很多，更加適用于高維變量情形，詳見文獻[9]。

設(X1,Y1),(X2,Y2),…,(XN,YN)為來自混合圖模型的N個觀測值。對于森林或者樹模型G=(V,E)，設L為似然的最大值，則對數(shù)最大似然正比于森林或樹的所有邊對應的頂點間的互信息之和，即

式中:Iv1v2----互信息。

兩個屬性變量Xu,Xv之間的互信息為

兩個連續(xù)變量Ys,Yt之間的互信息為

屬性變量Xu和連續(xù)變量Ys之間的互信息為Ius。

當考慮齊次模型時，

當考慮非齊次模型時，

令

于是，若定義森林或者樹的權重為所有邊的兩個變量的互信息之和，則求最大似然的森林或樹，等價于求權重最大的森林或樹。

除了似然，AIC和BIC也可作為評價模型好壞的準則，它們分別為-2ln(L)+ln(N)r和-2ln(L)+ln(N)r。由似然與互信息的關系，經(jīng)推導可得懲罰的互信息。兩個屬性變量Xu,Xv的懲罰互信息為

其中

kuv=(|Xu|-1)(|Xv|-1)。

兩個連續(xù)變量Ys,Yt之間的懲罰互信息為

其中

kst=1。

屬性變量Xu和連續(xù)變量Ys的懲罰互信息為

當考慮齊次模型時，

kus=|Xu|-1,

當考慮非齊次模型時，

kus=2(|Xu|-1)。

類似的，可以得到AIC懲罰互信息。若定義森林或者樹的權重為所有邊的兩個變量的懲罰互信息之和，則最小化AIC和BIC準則的森林或樹等價于最大化權重的森林或樹。

對于森林或樹模型，定義了邊的權重后，可通過Kruskal或Prim算法求最大支撐森林或樹。對于一般的強可分解模型，由于似然有顯式解，所以不難得到AIC或BIC的值，但由于強可分解的模型較多，通常采用逐步向前貪婪搜索的方式找一個AIC或BIC局部最大的模型，詳見文獻[9]。上述方法可由R軟件包“gRapHD”實現(xiàn)[9]。

2 課程結(jié)構分析

文中收集了某大學統(tǒng)計學專業(yè)101名學生的31門課程成績，8門課程成績?yōu)?級制，分別是計算機實習、數(shù)據(jù)庫課設、認識實習、學科概論、多元統(tǒng)計課設、實驗物理B、數(shù)學模型、計算機課設，其余23門課程成績?yōu)榘俜种啤２捎没旌蠄D模型對31門課程的成績進行建模，其中假設百分制成績服從正態(tài)分布，假設5級制成績服從多項分布，這里不考慮成績的優(yōu)、良、中、及格、不及格的順序。

首先考慮齊次混合圖模型?；贐IC準則懲罰的互信息得到了課程關系的森林模型和強可分解模型,分別如圖2和圖3所示。

圖2 基于BIC準則的齊次森林模型

在兩個模型中，5級制課程與百分制課程連接的邊不多，可能由于5級制課程多數(shù)為實踐類課程，而百分制課程為理論課，分別反映學生的實踐能力和理論知識掌握能力。數(shù)學分析1、2、3聯(lián)系比較緊密，數(shù)學分析3通過實用回歸分析影響其他課程,并且概率論與數(shù)理統(tǒng)計、實用回歸分析、抽樣調(diào)查課程連接的邊比較多，說明這些課程處于核心地位。圖3比圖2邊多一些，描述了課程間更豐富的關系。

3 結(jié) 語

基于混合圖模型分析某高校統(tǒng)計學專業(yè)本科生28門課程的成績，刻畫了各門課程的依賴關系，發(fā)現(xiàn)了部分核心課程。希望文中得到的課程關系可為學生培養(yǎng)方案的制定和學習提供一定的參考。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于混合圖模型的統(tǒng)計學課程關系分析

0 引 言

1 混合圖模型

2 課程結(jié)構分析

3 結(jié) 語

0 引言