国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于混合圖模型的統(tǒng)計學課程關系分析

2020-07-15 07:32徐平峰
長春工業(yè)大學學報 2020年3期
關鍵詞:互信息變量混合

袁 蕾, 徐平峰, 單 娜

(1.長春工業(yè)大學 數(shù)學與統(tǒng)計學院, 吉林 長春 130012;2.東北師范大學 心理學院, 吉林 長春 130024)

0 引 言

本科教育在人才培養(yǎng)工作中占據(jù)基礎地位,抓好本科教育,提高學生的學習成績是一個重要方面。在每個專業(yè)的學習中,必然涉及到多門課程,分析這些課程之間的關系,既有助于教師教學,也有利于學生學習。

近年來,各個專業(yè)的老師從本專業(yè)知識體系出發(fā),研究了課程之間的關系。例如,翟志強[1]分析了思想政治理論課課程體系中四門核心課程之間的內(nèi)在關系;向少華[2]從課程關系研究基本樂理課程教學內(nèi)容的改革;周華[3]從課程關系研究高職“職業(yè)通用能力”培養(yǎng)的課程體系。此外有學者從學生的考試成績出發(fā),利用數(shù)學模型或統(tǒng)計學模型研究課程關系。例如,趙慧等[4]利用高斯圖模型分析力學、向量、代數(shù)、分析和統(tǒng)計5門百分制課程的關系;郝立麗等[5]分析了大學10門數(shù)學課程的成績,將所有課程的分數(shù)以中位數(shù)為閾值變?yōu)槎敌蛿?shù)據(jù),然后利用遺傳算法和K2算法構建大學數(shù)學課程貝葉斯網(wǎng);張翼等[6]選擇課程數(shù)據(jù)庫部分文本數(shù)據(jù),利用貝葉斯網(wǎng)反映課程之間的關系,以解決職業(yè)教育在課程內(nèi)容安排上的實時性決策問題;王福友[7]利用含潛變量的有向無圈圖模型分析了百分制課程的結(jié)構關系。

文中利用混合圖模型分析某高校統(tǒng)計學專業(yè)學生的考試成績,進而刻畫各門課程的關系,為教師修訂培養(yǎng)方案和教學大綱及課程建設提供參考,為學生的學習及選擇研究方向提供依據(jù)。

1 混合圖模型

學生成績多為百分制和5級制,也就是既有數(shù)值型分數(shù),也有分類型分數(shù)。為此,考慮同時包含分類變量(也稱為屬性變量)和連續(xù)型變量的混合圖模型?;旌蠄D模型被廣泛用于生物信息學、機器學習等領域, 詳見文獻[8-10]。文中的定義和概念主要參考文獻[8]。

設有p個屬性型隨機變量X=(X1,X2,…,Xp),每個變量取有限個屬性值,令|Xi|表示Xi的取值個數(shù)。設有q個連續(xù)型變量,Y=(Y1,Y2,…,Yq)。假設(X,Y)的聯(lián)合分布服從條件高斯分布,即X服從多項分布,給定X=x的條件下,Y服從正態(tài)分布N(μx,Σx)。若Σx不依賴x,則稱為齊次模型,否則稱為非齊次模型。在混合圖模型中,以屬性變量和連續(xù)變量為頂點,構建簡單無向圖G=(V,E),V為頂點集,E為邊集。每個頂點表示一個變量,若兩個變量在給定其他所有變量時是條件獨立的,則在無向圖中兩個頂點間不連邊,否則連邊。這樣構建的無向圖與條件高斯分布滿足馬爾可夫性,同時圖可直觀地表示變量間的條件獨立關系。

三角圖、樹和森林如圖1所示。

圖1 三角圖、樹和森林

文中考慮的無向圖為強可分解的,即圖為三角圖并且不含禁行路,所謂三角圖是指圖中不含大于等于4元的無弦圈,禁行路是指首尾變量為屬性變量,而路中間包含連續(xù)變量。

圖中,灰色的點代表屬性變量,白色的點代表連續(xù)變量。(i)中,路1,2,5和路4,3,2,5為禁行路。(i)和(ii)是三角圖,而(iii)和(iv)不是三角圖,因為它們至少有一個4元圈不含弦,即圈4,3,2,5,4。(i)不是強可分解的,因為有禁行路,而(ii)是強可分解的。強可分解模型的優(yōu)點是其極大似然估計存在顯式解,也是更加方便計算評價模型好壞的得分,例如似然、AIC、BIC等。

可分解模型的特例包括樹或者森林,樹是連通的無圈圖,而森林是無圈圖,一片森林可能包含多棵樹,樹與樹之間是不連通的。圖1中(v)和(vi)是樹,但(v)不是強可分解的,因為它有禁行路4,3,2,5,而(vi)是強可分解的。(vii)是強可分解的森林,而(viii)不是強可分解的森林,因為它有禁行路1,3,4。樹或森林模型比一般可分解模型簡單一些,因而尋找最優(yōu)的樹或森林模型的計算復雜度比尋找可分解模型低很多,更加適用于高維變量情形,詳見文獻[9]。

設(X1,Y1),(X2,Y2),…,(XN,YN)為來自混合圖模型的N個觀測值。對于森林或者樹模型G=(V,E),設L為似然的最大值,則對數(shù)最大似然正比于森林或樹的所有邊對應的頂點間的互信息之和,即

式中:Iv1v2----互信息。

兩個屬性變量Xu,Xv之間的互信息為

兩個連續(xù)變量Ys,Yt之間的互信息為

屬性變量Xu和連續(xù)變量Ys之間的互信息為Ius。

當考慮齊次模型時,

當考慮非齊次模型時,

于是,若定義森林或者樹的權重為所有邊的兩個變量的互信息之和,則求最大似然的森林或樹,等價于求權重最大的森林或樹。

除了似然,AIC和BIC也可作為評價模型好壞的準則,它們分別為-2ln(L)+ln(N)r和-2ln(L)+ln(N)r。由似然與互信息的關系,經(jīng)推導可得懲罰的互信息。兩個屬性變量Xu,Xv的懲罰互信息為

其中

kuv=(|Xu|-1)(|Xv|-1)。

兩個連續(xù)變量Ys,Yt之間的懲罰互信息為

其中

kst=1。

屬性變量Xu和連續(xù)變量Ys的懲罰互信息為

當考慮齊次模型時,

kus=|Xu|-1,

當考慮非齊次模型時,

kus=2(|Xu|-1)。

類似的,可以得到AIC懲罰互信息。若定義森林或者樹的權重為所有邊的兩個變量的懲罰互信息之和,則最小化AIC和BIC準則的森林或樹等價于最大化權重的森林或樹。

對于森林或樹模型,定義了邊的權重后,可通過Kruskal或Prim算法求最大支撐森林或樹。對于一般的強可分解模型,由于似然有顯式解,所以不難得到AIC或BIC的值,但由于強可分解的模型較多,通常采用逐步向前貪婪搜索的方式找一個AIC或BIC局部最大的模型,詳見文獻[9]。上述方法可由R軟件包“gRapHD”實現(xiàn)[9]。

2 課程結(jié)構分析

文中收集了某大學統(tǒng)計學專業(yè)101名學生的31門課程成績,8門課程成績?yōu)?級制,分別是計算機實習、數(shù)據(jù)庫課設、認識實習、學科概論、多元統(tǒng)計課設、實驗物理B、數(shù)學模型、計算機課設,其余23門課程成績?yōu)榘俜种啤2捎没旌蠄D模型對31門課程的成績進行建模,其中假設百分制成績服從正態(tài)分布,假設5級制成績服從多項分布,這里不考慮成績的優(yōu)、良、中、及格、不及格的順序。

首先考慮齊次混合圖模型?;贐IC準則懲罰的互信息得到了課程關系的森林模型和強可分解模型,分別如圖2和圖3所示。

圖2 基于BIC準則的齊次森林模型

在兩個模型中,5級制課程與百分制課程連接的邊不多,可能由于5級制課程多數(shù)為實踐類課程,而百分制課程為理論課,分別反映學生的實踐能力和理論知識掌握能力。數(shù)學分析1、2、3聯(lián)系比較緊密,數(shù)學分析3通過實用回歸分析影響其他課程,并且概率論與數(shù)理統(tǒng)計、實用回歸分析、抽樣調(diào)查課程連接的邊比較多,說明這些課程處于核心地位。圖3比圖2邊多一些,描述了課程間更豐富的關系。

3 結(jié) 語

基于混合圖模型分析某高校統(tǒng)計學專業(yè)本科生28門課程的成績,刻畫了各門課程的依賴關系,發(fā)現(xiàn)了部分核心課程。 希望文中得到的課程關系可為學生培養(yǎng)方案的制定和學習提供一定的參考。

猜你喜歡
互信息變量混合
混合宅
抓住不變量解題
混合運算的方法要領
混合運算的技巧
基于改進互信息和鄰接熵的微博新詞發(fā)現(xiàn)方法
基于互信息和小波變換的圖像配準的研究
基于互信息的圖像分割算法研究與設計
基于改進SIFT與互信息的異源圖像匹配
分離變量法:常見的通性通法
不可忽視變量的離散與連續(xù)
长宁县| 江阴市| 武强县| 黄骅市| 武乡县| 鹤庆县| 浦江县| 顺义区| 郸城县| 工布江达县| 临湘市| 五峰| 锡林郭勒盟| 阆中市| 晋宁县| 顺昌县| 潢川县| 涡阳县| 建平县| 阳城县| 二手房| 福海县| 岳普湖县| 太保市| 凤庆县| 望谟县| 阜南县| 苗栗市| 罗定市| 临沭县| 山阴县| 三亚市| 灯塔市| 古丈县| 瓦房店市| 德昌县| 沙田区| 北京市| 剑川县| 怀集县| 郧西县|