陳 偉,劉昌森
(1.淮南聯(lián)合大學(xué) 計(jì)算機(jī)系,安徽 淮南232038;2.亳州市第三中學(xué),安徽 亳州236800)
樸素貝葉斯分類預(yù)測學(xué)生CET4成績
陳 偉1,劉昌森2
(1.淮南聯(lián)合大學(xué) 計(jì)算機(jī)系,安徽 淮南232038;2.亳州市第三中學(xué),安徽 亳州236800)
貝葉斯分類法是統(tǒng)計(jì)學(xué)分類方法,可以預(yù)測類成員關(guān)系的可能性,如給定元?組屬于一個(gè)特定類的概率。大學(xué)英語四級考試一直是高校學(xué)生很重要的一門考試,對學(xué)生日后的就業(yè)也有指導(dǎo)性的作用,運(yùn)用樸素貝葉斯分類方法,對學(xué)生的CET4成績數(shù)據(jù)進(jìn)行分類和預(yù)測,把得到的結(jié)論與實(shí)際情況比較,從而指導(dǎo)教學(xué)。
樸素貝葉斯;分類;CET4;預(yù)測
樸素貝葉斯分類法是假定一個(gè)屬性值對給定類的影響?yīng)毩⒂谄渌麑傩灾怠_@一假定稱作類條件獨(dú)立性。做此假定是為了簡化所需要的計(jì)算,并在此意義下稱為“樸素的”。貝葉斯分類基于貝葉斯定理。
設(shè)X是類標(biāo)號未知的數(shù)據(jù)樣本。設(shè)H為某種假定,如,數(shù)據(jù)樣本X屬于某特定的類C。對于分類問題,希望確定P(H│X)——給定觀測數(shù)據(jù)樣本X,假定H成立的概率。P(H│X)是后驗(yàn)概率,或條件X下,H的后驗(yàn)概率。例如,假定數(shù)據(jù)樣本由水果組成,我們用顏色和形狀來描述它們。假定X表示紅色和圓的,H表示假設(shè)X是蘋果,則P(H│X)反映當(dāng)我們看到X是紅色并且是圓的時(shí),我們判定X是蘋果的概率。P(H,X)是先驗(yàn)概率,或H的先驗(yàn)概率。對于此例,它是任意給定的數(shù)據(jù)樣本為蘋果的概率,而不管數(shù)據(jù)樣本是何顏色和形狀。后驗(yàn)概率P(H│X)比先驗(yàn)概率P(H,X)基于更多的信息(例如顏色和形狀的信息)。P(H,X)是獨(dú)立于X的。
類似的,P(H│X)是條件H下,X的后驗(yàn)概率。即,它是已知X是蘋果,X是紅色并且是圓的的概率。P(H,X)是X的先驗(yàn)概率,是由水果集取出一個(gè)數(shù)據(jù)樣本是紅色和圓的的概率。
貝葉斯定理提供了后驗(yàn)概率的計(jì)算方法:
(1)設(shè)樣本有n個(gè)屬性(A1,A2,……,An),每個(gè)樣本可看作是n維空間的一個(gè)點(diǎn)X=(x1,x2,……,xn)。
(2)假定有m個(gè)不同的類別,C1,C2,……,Cm。X是一個(gè)未知類別的樣本。預(yù)測X的類別為后驗(yàn)概率最大的那個(gè)類別,即算法將未知類別的樣本X歸到類Ci,當(dāng)且僅當(dāng)P(CiP│X)>P(CjP│X),對于所有的j成立(1jm,ji),即最大。
(4)對未知樣本X分類,對每個(gè)類Ci,計(jì)算。樣本X被指派到類Ci,當(dāng)且僅當(dāng)>(1jm,ji),即X被指派到其最大類Ci。
貝葉斯分類具有如下特點(diǎn):
(1)貝葉斯分類并不把一個(gè)對象絕對地指派給某一類,而是通過計(jì)算得出屬于某一類的概率,具有最大概率的類便是該對象所屬的類;
(2)一般情況下在貝葉斯分類中所有的屬性都潛在地起作用,即并不是一個(gè)或幾個(gè)屬性決定分類,而是所有的屬性都參與分類;
(3)貝葉斯分類對象的屬性可以是離散的、連續(xù)的,也可以是混合的[1-2]。
本文所用數(shù)據(jù)為某學(xué)校某年學(xué)生CET4的成績,以Visualfoxpro6.0為工具,針對現(xiàn)有數(shù)據(jù)的情況,在此進(jìn)行的數(shù)據(jù)預(yù)處理(Data preprocessing),包括二個(gè)步驟:數(shù)據(jù)清理(Data Clearing)和數(shù)據(jù)變換(Data Transformation)。
數(shù)據(jù)清理:從原有數(shù)據(jù)中我們發(fā)現(xiàn)其中有很多學(xué)生的數(shù)據(jù)都為0,通過調(diào)查知道這些數(shù)據(jù)缺失的原因是學(xué)生未參加考試,我們把這樣學(xué)生的數(shù)據(jù)都從數(shù)據(jù)庫表中把它刪除。另外為了研究的需要,我們只取 “學(xué)號”、“總分”、“聽力分?jǐn)?shù)”、“閱讀分?jǐn)?shù)”、“寫作分?jǐn)?shù)”、“綜合分?jǐn)?shù)”這6個(gè)字段。
數(shù)據(jù)變換:將數(shù)據(jù)轉(zhuǎn)換成適合于研究的形式。將CET4中除了總分以外的各部分?jǐn)?shù)據(jù)轉(zhuǎn)換成優(yōu)秀、良好、及格、不及格5個(gè)等級。如分?jǐn)?shù)大于85的為“優(yōu)”,介于85-60之間的為“合格”,60分以下為“不及格”;總分轉(zhuǎn)換為通過和不通過,總分大于等于60分為通過,反之為不通過。因?yàn)镃ET4的分值分配為:總分710,聽力249,閱讀249,寫作142,綜合測試70,所以要把分?jǐn)?shù)換算為百分制?!安患案瘛?、“合格”、“優(yōu)”分別設(shè)定為1、2、3;通過和不通過分別設(shè)定為“1”和“0”。表1為預(yù)處理后的成績表中的部分?jǐn)?shù)據(jù)??傆?jì)1814條記錄。
表1預(yù)處理后的CET4成績
以表1為訓(xùn)練數(shù)據(jù)樣本,有4個(gè)屬性(聽力分?jǐn)?shù),閱讀分?jǐn)?shù),寫作分?jǐn)?shù),綜合分?jǐn)?shù)),總分有兩個(gè)不同值:1和0。設(shè)C1對應(yīng)于類總分=1,C2對應(yīng)于類總分=0。要計(jì)算給定的樣本X=(聽力分?jǐn)?shù)=2,閱讀分?jǐn)?shù)=1,寫作分?jǐn)?shù)=1,綜合分?jǐn)?shù)=3),我們需要最大化,i=1,2。每個(gè)類的先驗(yàn)概率可以根據(jù)訓(xùn)練樣本計(jì)算:P(總分=1)=92/1814=0.0507,P(總分=0)=1722/ 1814=0.9493。
為了計(jì)算,i=1,2,計(jì)算下面的條件概率:
P(聽力分?jǐn)?shù)=2|總分=1)=62/92=0.6739,P(聽力分?jǐn)?shù)=2|總分=0)=41/1722=0.0238
P(閱讀分?jǐn)?shù)=1|總分=1)=17/92=0.1848,P(閱讀分?jǐn)?shù)=1|總分=0)=1530/1722=0.8885
P(寫作分?jǐn)?shù)=1|總分=1)=50/92=0.5435,P(寫作分?jǐn)?shù)=1|總分=0)=1578/1722=0.9164
P(綜合分?jǐn)?shù)=3|總分=1)=15/92=0.1630,P(綜合分?jǐn)?shù)=3|總分=0)=13/1722=0.0075
使用上面的概率得到:P(X|總分=1)=P(聽力分?jǐn)?shù)=2|總分=1)*P(閱讀分?jǐn)?shù)=1|
總分=1)*P(寫作分?jǐn)?shù)=1|總分=1)*P(綜合分?jǐn)?shù)=3|總分=1)
=0.6739*0.1848*0.5435*0.1630=0.0110
P(X|總分=0)=0.0238*0.8885*0.9164*0.0075=0.00015
為了發(fā)現(xiàn)最大化的類,計(jì)算
P(X|總分=1)*P(總分=1)=0.0110*0.0507=0.0005577
P(X|總分=0)*P(總分=0)=0.00015*0.9493=0.0001424
由于P(X|總分=1)*P(總分=1)>P(X|總分=0)*P (總分=0),因此對于樣本X=(聽力分?jǐn)?shù)=2,閱讀分?jǐn)?shù)=1,寫作分?jǐn)?shù)=1,綜合分?jǐn)?shù)=3),即X(聽力分?jǐn)?shù)為合格,閱讀分?jǐn)?shù)為不及格,寫作分?jǐn)?shù)為不及格,綜合分?jǐn)?shù)為優(yōu))樸素貝葉斯分類預(yù)測總分=1,即為通過,這一預(yù)測與實(shí)際情況相符[3-5]。
通過實(shí)例說明了樸素貝葉斯能夠利用現(xiàn)有知識對未知事件進(jìn)行預(yù)測,而且具有一定的正確性[6-7]。
[1]韓家煒.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2000:172-173.
[2]陳文偉,黃金才,等.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:人民郵電出版社,2004:121-122.
[3]王峻.樸素貝葉斯分類模型在指導(dǎo)學(xué)生選擇專業(yè)選修課方向中的應(yīng)用[J].電腦知識與技術(shù),2008:1286-1287.
[4]袁紅星.樸素貝葉斯基于學(xué)生信息庫的數(shù)據(jù)挖掘研究[J].軟件導(dǎo)刊,2005(16):8-10.
[5]馬希榮,孫華志.數(shù)據(jù)挖掘技術(shù)在教學(xué)評價(jià)中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2003(19):51-54.
[6]丁智斌,袁方,董賀偉.數(shù)據(jù)挖掘在高校學(xué)生學(xué)習(xí)成績分析中的應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2006(4):590-592.
[7]謝斌.樸素貝葉斯分類在數(shù)據(jù)挖掘中的應(yīng)用[J].甘肅聯(lián)合大學(xué)學(xué)報(bào):自然科學(xué)版,2007(4):79-81.
[責(zé)任編輯:曹懷火]
TP311
A
1674-1102(2010)03-0012-02
2010-03-03
陳偉(1975-),女,安徽六安人,淮南聯(lián)合大學(xué)計(jì)算機(jī)系講師,碩士,主要研究方向?yàn)閿?shù)據(jù)挖掘。