国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

決策樹分類法在自考生學習行為分析中的應用

2016-11-26 17:04
長江叢刊 2016年11期
關鍵詞:決策樹

魏 萌

?

決策樹分類法在自考生學習行為分析中的應用

魏 萌

【摘 要】本文通過對考生數(shù)據(jù)的分析找出影響考生學習行為的因素,為考試管理部門提供決策依據(jù),提高自學考試畢業(yè)率,使管理更加人性化。

【關鍵詞】決策樹 自考 學習行為分析

一、學習行為分析方法的選擇

(一)考生個人因素

如性別、身體狀況、工作和考前學歷等,對應考生信息中的性別、年齡、職業(yè)、學歷層次;

(二)學習過程中的因素

如考生考試成績、學習方式和重修課程的門數(shù)、次數(shù)等,可以從考試信息中的報考科目、成績等統(tǒng)計而來。

分析以上因素與考生畢業(yè)情況之間的關系,可以利用數(shù)據(jù)挖掘技術中的決策樹歸納分類方法來實現(xiàn)。決策樹依賴于手頭的數(shù)據(jù),一般具有很好的準確率,其構造適合于探測式知識發(fā)現(xiàn),可以處理高維數(shù)據(jù),用一種類似于流程圖的樹結構形式表示,易理解,可以根據(jù)樹結構總結潛在的規(guī)則,為決策者提供理論依據(jù)。

二、數(shù)據(jù)準備

將正常畢業(yè)考生與末正常畢業(yè)(即已放棄自學考試)考生進行對比分析,需要選取相應的數(shù)據(jù)記錄做為決策樹的訓練樣本集。正常畢業(yè)考生可以直接從畢業(yè)生檔案庫中提取,而末正常畢業(yè)考生的確定方法卻不明確。由以往的經(jīng)驗分析,末正常畢業(yè)考生即從第一次報名開始,到現(xiàn)在已經(jīng)超過正常畢業(yè)生學習的周期,且最近沒有再報考任何課程,即判定其為放棄考試的考生。

按照需求分析中確定的兩方面影響因素,從數(shù)據(jù)倉庫的成績分析主題中提取考生個人信息的相應屬性:準考證號、性別、年齡層次、職業(yè)類別和考前學歷類別。而考生的學習信息要從報考和成績數(shù)據(jù)中反映,而每個考生的報考和成績信息有很多,為了方便數(shù)據(jù)挖掘,決定由這些信息形成綜合性的數(shù)據(jù)以供分析。

因為考生課程多次不及格對考生繼續(xù)學習的信心影響很大,所以從報考數(shù)據(jù)中將每個考生的公共課和專業(yè)課分別統(tǒng)計出重考的次數(shù),并合計重考課程的總次數(shù)。

三、分類決策樹的實現(xiàn)

在SPSS Clementine的決策樹分析功能中,設置因變量為考生類別,即對正常畢業(yè)考生及末正常畢業(yè)考生進行分類,選擇年齡層次、性別、考前學歷等做為自變量,分析以考生類別為指導的類別劃分。

通過多次實驗,為避免生成的樹結構過于復雜,限定樹深度為6,顯著性水平為0.05。最后實現(xiàn)的分類決策樹模型圖(圖略)。

同時,為驗證分類決策樹的可用性,在樣本集中分割10%的元組做為檢驗集。得到?jīng)Q策樹模型的數(shù)據(jù)預測準確率平均值有86.4%,準確率較高。

四、分類模型解釋

決策樹模型圖中,由樣本集訓練和構建出的決策樹模型中可以看出,CHAID算法按各屬性的信息增益進行分類的情況:

第一:節(jié)點0為考生總體樣本集;

第二:節(jié)點1-3是在樣本集上按信息增益最大的屬性:考前學歷,分別劃分出02(本科)和04(中專)、05(高中)、03(大專)和06(初中以下)三類子集;

第三:節(jié)點4-6是在考前學歷為02(本科)和04(中專)的樣本子集中按其信息增益最大的屬性:重考次數(shù),又劃分出了重考0次和1次、2次、2次以上三類。后面的節(jié)點依此類推。

每個節(jié)點定義信息表中,詳細列出了因變量不同值對應的樣本數(shù)量和在子集中所占百分比,百分比差別越大,則分類越清晰,越便于形成有效規(guī)則。同時,我們可以發(fā)現(xiàn)并不是每個自變量都會進入決策樹,也就是有些考生屬性對于形成分類結果影響較小,或分類樹層次超過規(guī)定的深度被截取。

通過對決策樹各節(jié)點的數(shù)據(jù)及路徑分析,可以發(fā)現(xiàn)影響考生能否正常畢業(yè)的一些有用規(guī)則有:

第一:各節(jié)點中只有一個節(jié)點分類百分比為100%,即節(jié)點21。從根節(jié)點到其的通路規(guī)則為:xl_dm=03 or xl_ dm=06 and ckcs=2 and zylb≠6 ,可以解釋為學歷為大專或初中及以下的在職(非學生)考生,當重考2次后就都放棄了自學考試。

第二:從節(jié)點18可以提取規(guī)則:高中學歷25歲以下的學生、待業(yè)人員和基層生產(chǎn)人員選擇自學考試做為提高學歷的方式后,95.2%會堅持學習直到畢業(yè)。

第三:從節(jié)點6可以提取規(guī)則:學歷為本科或中專的考生,如果在課程不及格時堅持學習并重考2次以上的,92.9%會堅持學習直到畢業(yè)。

根據(jù)以上規(guī)則和決策樹中其它分類情況,以及對有關結果的進一步統(tǒng)計,可以將考生分為3類:

第一:高中學歷25歲以下的學生、待業(yè)人員和基層生產(chǎn)人員是自學考試畢業(yè)生中比較穩(wěn)定的人群。第二:大?;虺踔屑耙韵碌目忌艞壸詫W考試的比例最大。第三:具有本科學歷的考生人數(shù)占自考總人數(shù)的比率非常小,比率最大的是中專學歷的考生,情況最復雜。

以上對于決策樹分類模型的分析,將為自學考試管理者提供影響考生畢業(yè)的一些因素,可以根據(jù)這些分析結果,對不同特點的考生人群提供更有針對性的幫助,或調整相關政策以更適應廣大考生的需求。

參考文獻:

[1]錢峰.國內數(shù)據(jù)挖掘工具研究綜述[J].情報雜志,2008(10):11~13.

[2]王源.改進決策樹算法的應用研究[J].電子科技,2010(09):32~33.

作者簡介:魏萌(1977-),女,碩士,長江職業(yè)學院教師,講師,研究方向:數(shù)據(jù)挖掘。

猜你喜歡
決策樹
基于改進教學式方法的可解釋信用風險評價模型構建
簡述一種基于C4.5的隨機決策樹集成分類算法設計
一種改進的MEP決策樹剪枝算法
決策樹學習的剪枝方法
改進的ID3算法在個人貸款信用風險評估中的應用
ID3分類及其剪枝算法研究
不同年齡段關于養(yǎng)老問題認知的差異
基于遙感技術的植被信息提取方法研究
決策樹在成績分析中的應用
決策樹在成績分析中的應用