韓麗娜
(咸陽(yáng)師范學(xué)院圖形圖像研究所 咸陽(yáng) 712000)
貝葉斯分類方法是一種基于統(tǒng)計(jì)的學(xué)習(xí)方法,它利用概率統(tǒng)計(jì)進(jìn)行學(xué)習(xí)分類,如預(yù)測(cè)一個(gè)數(shù)據(jù)對(duì)象屬于某個(gè)類別的概率,主要算法有樸素貝葉斯分類算法,貝葉斯信念網(wǎng)絡(luò)分類算法等。貝葉斯分類方法能夠充分利用領(lǐng)域知識(shí)和先驗(yàn)信息,顯示計(jì)算假設(shè)概率,而且分類結(jié)果是領(lǐng)域知識(shí)和數(shù)據(jù)樣本信息的綜合體現(xiàn)[1~2]。隨著信息化技術(shù)的不斷發(fā)展,高校積累了大量的學(xué)生信息,因此希望通過(guò)建立貝葉斯分類模型對(duì)已有學(xué)生數(shù)據(jù)進(jìn)行挖掘分析,預(yù)測(cè)學(xué)生成績(jī)分布情況,及時(shí)反饋教學(xué)效果,進(jìn)而對(duì)學(xué)生的行為進(jìn)行個(gè)性化指導(dǎo),不僅有利于教師改進(jìn)教學(xué)方式,而且對(duì)學(xué)生的管理工作也提供了有用的參考信息。因此應(yīng)用貝葉斯分類模型進(jìn)行學(xué)生成績(jī)分析具有重要的現(xiàn)實(shí)意義。
貝葉斯方法采用計(jì)算每一個(gè)樣本屬于每一類的概率,然后將樣本劃分為具有最大概率的那一類中。即已知樣本x的條件下,計(jì)算其屬于某一類的概率[1~3]。
先驗(yàn)概率P(cj):表示訓(xùn)練樣本數(shù)據(jù)前cj(類別)擁有的初始概率。P(cj)常被稱為cj的先驗(yàn)概率(prior probability)[4~5],通常采用用樣例中屬于 cj的樣例數(shù) ||cj與總樣例數(shù) ||D 的比值來(lái)近似表示[2~3]。如式(1)所示:
類條件概率(似然概率)P(X | cj):指當(dāng)已知類別為 cj的條件下,出現(xiàn)所考察樣本 X 的概率[4,6],若設(shè) X=a1,a1,…,am,則如式(2)所示:
后驗(yàn)概率P(|cjX):指當(dāng)給定數(shù)據(jù)樣本 X,屬于cj類的概率。P(|cjX)被稱為cj的后驗(yàn)概率(posterior probability),它反映先看到數(shù)據(jù)樣本 X后 cj成立的置信度[4,7~8]。使用貝葉斯公式計(jì)算后驗(yàn)概率,如式(3)所示。
貝葉斯公式:
由于P(X)對(duì)所有類都是相同的,因此在實(shí)際的應(yīng)用中我們只需計(jì)算貝葉斯公式分子部分,求取最大值[8~9],如式(4)所示,然后把X就分到最大值對(duì)應(yīng)的類ccmp中。
由于計(jì)算式(2)相當(dāng)困難,所以樸素貝葉斯分類器假設(shè):在給定樣本的目標(biāo)值時(shí)屬性之間的相互條件獨(dú)立。即式(2)求取的類條件概率就是每個(gè)單獨(dú)屬性對(duì)應(yīng)的概率的乘積[3~4,10],如式(5)所示。
因此,對(duì)于樸素貝葉斯學(xué)習(xí)方法就是從訓(xùn)練樣本中估計(jì)不同的P(cj)和P(ai|cj),針對(duì)新的待分樣本實(shí)例,采用式(4)、式(5)進(jìn)行計(jì)算給出分類結(jié)果。
2.4.1 數(shù)據(jù)準(zhǔn)備
Characteristics of Ship Domain in Typical Inland Waters
本次數(shù)據(jù)信息以某學(xué)院某專業(yè)38名同學(xué)《程序設(shè)計(jì)基礎(chǔ)》期末上機(jī)考試成績(jī)?yōu)榛A(chǔ),結(jié)合學(xué)生的平時(shí)成績(jī)(考勤,回答問(wèn)題,作業(yè)完成)以及學(xué)生的調(diào)查數(shù)據(jù)信息(課程的興趣,每周上機(jī)時(shí)長(zhǎng),試卷難易程度,學(xué)生自評(píng))等對(duì)學(xué)生信息采用貝葉斯分類模型進(jìn)行數(shù)據(jù)挖掘分析[11~12]。訓(xùn)練樣本有23個(gè)數(shù)據(jù),屬性有3個(gè),包括考勤,上機(jī)時(shí)長(zhǎng),課程興趣[13]。如表1所示。
表1 23個(gè)訓(xùn)練樣本
2.4.2 求解先驗(yàn)概率和類條件概率
表2 類別為cj及在cj條件下Ai取ai的樣本數(shù)統(tǒng)計(jì)
表3 先驗(yàn)概率P(cj)和條件概率P(ai|cj)
2.4.3 貝葉斯模型的應(yīng)用
現(xiàn)在假設(shè)有一學(xué)生樣例,統(tǒng)計(jì)他的3個(gè)屬性:考勤,上機(jī)時(shí)長(zhǎng),課程興趣,具體的取值為X={ }
一般,一般,一般 ,預(yù)測(cè)該學(xué)生成績(jī)的分類情況。
根據(jù)貝葉斯式(4)、(5):
在表3對(duì)樣本計(jì)算條件概率時(shí),一般情況下它是對(duì)其真實(shí)概率的一個(gè)良好估計(jì),但我們發(fā)現(xiàn)有包含第i個(gè)屬性的取值ai時(shí),它的條件概率值為0,如果待估樣例中屬性取值為ai的話(條件概率為0),那么貝葉斯公式整個(gè)的結(jié)果即為0。
例如,我們將樣例改為 X={一般,差,一般},那么計(jì)算的后驗(yàn)概率中有1個(gè)值為0。為了更加準(zhǔn)確地計(jì)算條件概率,可以采用m-估計(jì)來(lái)解決這個(gè)問(wèn)題[13~15]。它的含義是將 nj個(gè)實(shí)際觀察擴(kuò)大,加上m個(gè)按Pi分布的虛擬樣本,其中m是等效樣本大
因此,對(duì)于樣例 X={ }一般,差,一般 ,采用式(6)重新計(jì)算條件概率和后驗(yàn)概率。
因此,P(ccap|X)=max(0.0056,0.0158,0.0239)=0.0239,所以預(yù)測(cè)該學(xué)生的分類為不及格。與前期采用決策樹(shù)算法進(jìn)行成績(jī)分析的結(jié)果一致[13]。
2.4.4 模型評(píng)估
基于23個(gè)訓(xùn)練樣本,采用貝葉斯分類模型進(jìn)行某班學(xué)生學(xué)習(xí)成績(jī)的預(yù)測(cè)分類,是否對(duì)其它樣本集有效呢?將12個(gè)測(cè)試樣本數(shù)據(jù)按照此貝葉斯模型重新計(jì)算分析,10個(gè)學(xué)生數(shù)據(jù)符合模型的結(jié)果,準(zhǔn)確率達(dá)到了83%。采用其它類似專業(yè)同門課程的學(xué)生信息數(shù)據(jù)進(jìn)行測(cè)試,準(zhǔn)確率也達(dá)到了80%以上,因此該模型是有效的。通過(guò)對(duì)學(xué)生成績(jī)的預(yù)測(cè)分析,我們可以看到,考勤差的學(xué)生成績(jī)預(yù)測(cè)基本為不及格,考勤較好的同學(xué)不管對(duì)課程是否感興趣成績(jī)預(yù)測(cè)基本都是良好以上,上機(jī)時(shí)長(zhǎng)對(duì)學(xué)生的影響不大,這與學(xué)生、課程性質(zhì)都有關(guān)系,值得代課教師好好深思,進(jìn)而為以后的教學(xué)工作起到指導(dǎo)作用。貝葉斯分類模型意義比較明確,便于理解,它的時(shí)間復(fù)雜度低,可以應(yīng)用大型數(shù)據(jù)庫(kù),而且易于實(shí)現(xiàn)增量。
文章論述了貝葉斯模型的基本理論,采用貝葉斯分類器對(duì)學(xué)生成績(jī)問(wèn)題進(jìn)行了分析研究。選取影響學(xué)生學(xué)習(xí)成績(jī)的主要因素作為屬性,通過(guò)使用訓(xùn)練樣本計(jì)算出先驗(yàn)概率和類條件概率,然后對(duì)待測(cè)樣本數(shù)據(jù)進(jìn)行計(jì)算。通過(guò)分析,學(xué)生考勤是影響學(xué)生成績(jī)的主要因素,說(shuō)明上課聽(tīng)講對(duì)學(xué)生掌握本門課程是非常重要的。通過(guò)使用樣本數(shù)據(jù)對(duì)模型進(jìn)行測(cè)試評(píng)估,準(zhǔn)確率達(dá)到了83%。不足之處該模型中樣本數(shù)據(jù)較少,考慮影響學(xué)生成績(jī)的因素不夠全面,而且貝葉斯分類模型需要知道先驗(yàn)概率,并假設(shè)屬性之間相互獨(dú)立,因此當(dāng)屬性個(gè)數(shù)較多或?qū)傩灾g相關(guān)性較大時(shí),分類效率比不上決策樹(shù)模型。