国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于核Fisher判別分析的高職學(xué)生考試成績預(yù)測

2016-11-03 10:48:46楊東海胡凌錢瑩
關(guān)鍵詞:高職教育

楊東海+胡凌+錢瑩

摘 要:高職教育中對學(xué)生考試成績的預(yù)測,可以幫助教師提前評估教學(xué)效果,優(yōu)化課程設(shè)計(jì),從而提高學(xué)生考試成績和教學(xué)質(zhì)量。文章基于核Fisher判別分析,搭建了高職學(xué)生期末考試成績預(yù)測模型,以學(xué)生自身特點(diǎn)和平時(shí)表現(xiàn)等構(gòu)成模型輸入變量的維度信息,來預(yù)測學(xué)生是否可以通過期末考試。實(shí)驗(yàn)中以深圳信息職業(yè)技術(shù)學(xué)院學(xué)生作為研究分析對象,考察建立模型的預(yù)測精度,并與經(jīng)典算法進(jìn)行了比較。實(shí)驗(yàn)結(jié)果證明,核Fisher判別分析具有良好的泛化能力,其預(yù)測精度與支持向量機(jī)相近,但優(yōu)于C4.5決策樹方法。

關(guān)鍵詞:核Fisher判別分析;高職教育;考試成績預(yù)測

中圖分類號(hào): TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-8454(2016)16-0076-04

一、引言

隨著國家“十三五”規(guī)劃的順利進(jìn)行,加快發(fā)展職業(yè)教育已經(jīng)越來越成為國家、社會(huì)和教育界的共識(shí),高職院校不可避免的成為了培養(yǎng)實(shí)用技能型人才的主要基地。隨著高職招生人數(shù)的不斷擴(kuò)大,以及社會(huì)還沒有擺脫對職業(yè)教育的傳統(tǒng)觀念,高職院校的生源質(zhì)量每況愈下。一部分學(xué)生的基礎(chǔ)知識(shí)較差,學(xué)習(xí)新知識(shí)的意愿不強(qiáng),無論在課堂上與老師的互動(dòng),還是課下的平時(shí)作業(yè)完成情況,都不盡如人意,使得教師很難在真正考試之前評估教學(xué)效果,從而造成教學(xué)質(zhì)量下降。因此,如何提高高職學(xué)生的學(xué)習(xí)成績,成為社會(huì)和學(xué)校都關(guān)注的問題。在教學(xué)過程中、期末考試之前,有針對性的建立模型預(yù)測考試成績,提前評估教學(xué)效果,可以起到預(yù)警的作用。對那些有可能不及格的學(xué)生及時(shí)糾正其不良學(xué)習(xí)行為,并進(jìn)行單獨(dú)輔導(dǎo),則有助于提高學(xué)生成績,減少不合格現(xiàn)象,進(jìn)而提高學(xué)生培養(yǎng)質(zhì)量,優(yōu)化課程設(shè)計(jì),促進(jìn)教師教學(xué)進(jìn)步。

正是意識(shí)到學(xué)生成績預(yù)測對提高教學(xué)質(zhì)量、促進(jìn)教學(xué)改革的重要性,國內(nèi)一些學(xué)者在幾年前就已經(jīng)開始對該領(lǐng)域展開研究。大部分學(xué)者將成績預(yù)測視為分類問題,于是多采用數(shù)據(jù)挖掘或機(jī)器學(xué)習(xí)領(lǐng)域的算法,如決策樹、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等來建立模型。其中,決策樹方法因?yàn)槔碚摪l(fā)展成熟、易于理解等優(yōu)點(diǎn),被廣泛用于大學(xué)生英語成績預(yù)測[1]、大學(xué)生計(jì)算機(jī)等級(jí)考試成績預(yù)測[2]、一般性課程的成績預(yù)測[3, 4]等;而人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)也因?yàn)樵鷮?shí)的理論基礎(chǔ)和廣泛應(yīng)用,被用于大學(xué)生課程成績預(yù)測[5,6],并取得良好的效果。

核Fisher判別分析作為基于核函數(shù)的機(jī)器學(xué)習(xí)算法的典型代表[7],其分類效果在其他模式識(shí)別和預(yù)測領(lǐng)域得到了很好的驗(yàn)證[8,9]。學(xué)者們前期的研究成果表明,決策樹、神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)方法在學(xué)生考試成績預(yù)測方面均取得了不俗的成績。但是到目前為止,我們尚未發(fā)現(xiàn)有學(xué)者應(yīng)用完整的核Fisher判別分析進(jìn)行大學(xué)生成績預(yù)測的系統(tǒng)報(bào)道(雖然有學(xué)者利用線性Fisher判別分析對SVM模型中的數(shù)據(jù)因素進(jìn)行加權(quán)[6])。因此,本文提出利用核Fisher判別分析作為工具,嘗試尋找學(xué)生學(xué)習(xí)屬性與成績之間隱含的非線性復(fù)雜關(guān)系,從而建立高職在校學(xué)生期末考試成績預(yù)測模型。實(shí)驗(yàn)分析中以深圳信息職業(yè)技術(shù)學(xué)院物流管理專業(yè)2015級(jí)3個(gè)班級(jí)的學(xué)生作為研究對象,采用學(xué)生性別、生源地、考勤表現(xiàn)和平時(shí)作業(yè)成績等作為模型的輸入變量,來預(yù)測學(xué)生的期末考試成績。實(shí)驗(yàn)結(jié)果證明,核Fisher判別分析的泛化能力強(qiáng),其預(yù)測精度與支持向量機(jī)十分接近,并且優(yōu)于C4.5決策樹方法。

二、核Fisher判別分析

核Fisher判別分析[7]是基于核函數(shù)的機(jī)器學(xué)習(xí)算法中的一種,其結(jié)合了線性Fisher判別分析與核函數(shù)的思想,能夠有效地解決現(xiàn)實(shí)中的分類問題[8, 9] 。

1.線性Fisher判別分析原理[10]

線性Fisher判別分析是一種有監(jiān)督學(xué)習(xí)的分類方法。給定一組d維空間的樣本數(shù)據(jù)x∈R(i∈1,2,.....n),n為樣本數(shù)據(jù)集的大小,他們分別屬于不同的兩類,則樣本類別標(biāo)識(shí)記為yi∈{1,2}。屬于類1的n1個(gè)樣本記為X1={x11,x12,......x1},屬于類2的n2個(gè)樣本記為X2={x21,x22,......x2}。算法“學(xué)習(xí)”或者“訓(xùn)練”的過程,就是要找到樣本數(shù)據(jù)與其類別隱含的內(nèi)在關(guān)系模式x→y。線性Fisher判別分析構(gòu)造學(xué)習(xí)模型的核心目標(biāo)是尋找一個(gè)d維向量w∈R,當(dāng)樣本數(shù)據(jù)向該方向投影時(shí),最大化類間散度和類內(nèi)散度的比值,使得樣本數(shù)據(jù)在這個(gè)方向上盡可能的分開,達(dá)到清楚辨識(shí)的目的。定義某一類樣本(i=1,2)數(shù)據(jù)類內(nèi)均值為:

2.核Fisher判別分析原理

線性Fisher判別分析是一種線性分類器,當(dāng)樣本數(shù)據(jù)與類別呈現(xiàn)線性關(guān)系時(shí)其分類效果會(huì)很好。但是實(shí)際問題中,樣本數(shù)據(jù)與其類別的關(guān)系往往呈現(xiàn)出復(fù)雜的非線性,則線性Fisher判別分析的分類效果就會(huì)差強(qiáng)人意,而且也無法解決模式識(shí)別中常見的維數(shù)災(zāi)難問題。在支持向量機(jī)中成功應(yīng)用的核函數(shù)的出現(xiàn)解決了這個(gè)問題[11, 12]。核函數(shù)首先將數(shù)據(jù)從低維的輸入向量空間R映射到高維(甚至是無限維)的特征空間,即φ:R→。通過某些核φ(·),映射可表示為xi→φ(xi)=(a1φ1(xi),……,amφm(xi),……)。在這個(gè)高維的特征空間中應(yīng)用線性Fisher判別分析,在特征空間得到的線性分類器通過核映射回原始的輸入數(shù)據(jù)空間R時(shí),就得到了非線性分類器。

基于線性Fisher判別分析的原理,核Fisher判別分析在特征空間要尋找w∈,使得下式F(w)最大化:

三、實(shí)驗(yàn)及分析

為了評估本文提出的基于核Fisher判別分析的預(yù)測模型的實(shí)際效果,我們將深圳信息職業(yè)技術(shù)學(xué)院物流管理專業(yè)2015級(jí)3個(gè)班級(jí)共151名學(xué)生作為研究對象,收集第一學(xué)年某門專業(yè)基礎(chǔ)課的期末考試成績及相關(guān)因素作為模型的輸出和輸入變量。預(yù)測模型的輸入變量(樣本屬性)應(yīng)該與考試成績密切相關(guān),我們選擇輸入向量時(shí)主要根據(jù)日常教學(xué)經(jīng)驗(yàn)反饋的以下幾點(diǎn)事實(shí):①大學(xué)生個(gè)體的期末成績往往與其曠課、遲到次數(shù)(出勤反映學(xué)習(xí)態(tài)度)負(fù)相關(guān),與平時(shí)作業(yè)成績(平時(shí)作業(yè)代表學(xué)習(xí)態(tài)度和對知識(shí)的理解程度)正相關(guān);②本專業(yè)學(xué)生的自有特點(diǎn)是女同學(xué)平均成績比男同學(xué)略勝一籌;③深圳市外生源較市內(nèi)生源入學(xué)平均成績高。因此,我們選擇學(xué)生的性別、生源地、出勤表現(xiàn)和平時(shí)作業(yè)成績作為樣本的屬性變量,具體總結(jié)如表1所示。

此外,將所有學(xué)生分為兩類,期末考試成績大于等于60分記為“合格”,否則記為“不合格”。數(shù)據(jù)集中的部分樣本示例如表2所示。

我們在MATLAB環(huán)境中編寫核Fisher判別分析的實(shí)現(xiàn)代碼,并裝載收集到的原始數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)研究。為了比較核Fisher判別分析對高職學(xué)生成績的預(yù)測效果,我們還測試了支持向量機(jī)SVM算法和C4.5決策樹方法,這兩種方法同樣在MATLAB環(huán)境中實(shí)現(xiàn)。在核Fisher判別分析和SVM建模時(shí),為了防止樣本中某個(gè)維度的數(shù)值過大而在核函數(shù)計(jì)算中淹沒其他維度數(shù)據(jù)的作用,我們先對原始數(shù)據(jù)進(jìn)行預(yù)處理,即將原始數(shù)據(jù)標(biāo)準(zhǔn)化在[-1,+1]的范圍內(nèi)。在使用C4.5決策樹建模時(shí),因?yàn)槠淠軌蛲瑫r(shí)處理連續(xù)值和離散值的屬性,訓(xùn)練和測試過程不受數(shù)據(jù)大小的影響,所以C4.5方法實(shí)現(xiàn)中仍舊保持原始數(shù)據(jù),不進(jìn)行額外處理。

由于實(shí)驗(yàn)用的原始數(shù)據(jù)集較小,如果簡單地分為訓(xùn)練和測試兩個(gè)數(shù)據(jù)集合,評估效果容易出現(xiàn)偏差。為了能夠全面反映各種算法預(yù)測的精度,我們對整個(gè)樣本數(shù)據(jù)進(jìn)行多次劃分,每次從全體數(shù)據(jù)集中選擇10%的數(shù)據(jù)作為測試數(shù)據(jù),其余數(shù)據(jù)用于訓(xùn)練模型和確定最優(yōu)參數(shù)。此外,核Fisher判別分析和SVM均采用RBF徑向基核K(xi,xj)=exp(-γ||xi-xj||2)作為核函數(shù),其中γ是核參數(shù)。由于訓(xùn)練得到的模型的泛化能力高度依賴于核函數(shù)參數(shù)、正則化參數(shù)或懲罰系數(shù)的選擇,因此選擇最優(yōu)的參數(shù)很有必要。在實(shí)驗(yàn)中,核Fisher判別分析的正則化參數(shù)設(shè)為δ=10-3,核Fisher判別分析和SVM中用到的核參數(shù)γ和懲罰系數(shù)由10-交叉驗(yàn)證網(wǎng)格搜索法來確定[13]。在最優(yōu)參數(shù)設(shè)置下對測試樣本數(shù)據(jù)進(jìn)行預(yù)測,每次測試的準(zhǔn)確率定義如下:

準(zhǔn)確率=×100%(14)

實(shí)驗(yàn)的結(jié)果是進(jìn)行十次測試的平均值,如表3所示。

從實(shí)驗(yàn)結(jié)果可以看出,基于核函數(shù)方法的核Fisher判別分析和SVM預(yù)測精度相近(其中核Fisher判別分析預(yù)測準(zhǔn)確度的平均值略微高于SVM),這一點(diǎn)與兩者在標(biāo)準(zhǔn)數(shù)據(jù)集上的測試結(jié)果一致[7],但是兩者的預(yù)測精度都明顯高于C4.5決策樹算法。C4.5決策樹方法訓(xùn)練模型時(shí),主要采用信息增益率作為選擇根結(jié)點(diǎn)和各內(nèi)部結(jié)點(diǎn)中分支屬性的評價(jià)標(biāo)準(zhǔn),訓(xùn)練速度快,得到的模型直觀性強(qiáng),規(guī)則易于被使用者理解。但是決策樹方法在訓(xùn)練集上的預(yù)測效果往往優(yōu)于測試集,即容易出現(xiàn)過擬合的現(xiàn)象。核Fisher判別分析和SVM利用的核函數(shù)將數(shù)據(jù)從低維的輸入空間映射到高維的特征空間,在特征空間都基于各自的分類原理構(gòu)建線性分類器使得兩類數(shù)據(jù)集盡可能的分開,得到的線性分類器經(jīng)過核函數(shù)映射回輸入空間后,即成為非線性分類器。因此,核Fisher判別分析和SVM得到的預(yù)測模型泛化性能良好,能夠挖掘出輸入樣本屬性與其類別之間隱含的非線性復(fù)雜關(guān)系。另外,本文用到的原始實(shí)驗(yàn)數(shù)據(jù)采集自學(xué)生的實(shí)際情況,其中包含著一部分不完全、有噪聲的數(shù)據(jù),比如有些學(xué)生學(xué)習(xí)能力強(qiáng)、成績突出,但是有個(gè)別作業(yè)沒有提交或是遲到的情況,卻依然會(huì)通過考試。噪聲數(shù)據(jù)會(huì)使得決策樹方法產(chǎn)生的過擬合現(xiàn)象更加嚴(yán)重,減小了泛化能力,從而影響測試效果。與之對應(yīng)的是,核Fisher判別分析和SVM分類的基本原理保證了盡可能將噪聲數(shù)據(jù)的影響降到最低,所以會(huì)取得較好的預(yù)測效果。

四、結(jié)束語

在我國的長期規(guī)劃中,高等職業(yè)教育受到越來越多的重視?;谀壳案呗毥虒W(xué)和生源的自有特點(diǎn),建立準(zhǔn)確的學(xué)生考試成績預(yù)測模型,能夠幫助教師提前評估教學(xué)成果,改進(jìn)教學(xué)方法,對提高教學(xué)質(zhì)量具有非常重要的意義。本文在MATLAB環(huán)境中建立了基于核Fisher判別方法的學(xué)生考試成績預(yù)測模型,可以在期末考試之前,根據(jù)學(xué)生的自身特點(diǎn)和平時(shí)表現(xiàn)來預(yù)測其成績。在以本校高職學(xué)生為研究對象的實(shí)驗(yàn)中,核Fisher判別方法取得了良好的預(yù)測效果,可以成為一線教師提高教學(xué)的有力工具。同時(shí),只要能夠正確地選擇輸入變量的屬性,該模型可以被直接推廣到一般本科院校的學(xué)生考試成績預(yù)測中,同時(shí)也為后續(xù)建立教育信息化決策系統(tǒng)打下基礎(chǔ)。

在后續(xù)的研究中,可以在兩個(gè)方面進(jìn)行進(jìn)一步的拓展。第一,在實(shí)際情況中,經(jīng)常會(huì)出現(xiàn)通過考試的學(xué)生數(shù)量遠(yuǎn)遠(yuǎn)超過未通過考試的學(xué)生數(shù)量,使得不同類別的原始采樣數(shù)據(jù)數(shù)量不平衡,這有可能影響模型的泛化能力。未來可以考慮如何針對不平衡數(shù)據(jù)集進(jìn)行訓(xùn)練和測試。第二,本文建立的分類模型,僅僅可以根據(jù)輸入向量來預(yù)測學(xué)生是否通過考試,而不能預(yù)測學(xué)生具體的考試分?jǐn)?shù)。期望以后能夠應(yīng)用基于核函數(shù)的回歸分析算法[11],進(jìn)行學(xué)生成績的分?jǐn)?shù)預(yù)測。

參考文獻(xiàn):

[1]孫力,程玉霞.大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)教育學(xué)習(xí)成績預(yù)測的研究與實(shí)現(xiàn)——以本科公共課程統(tǒng)考英語為例[J]. 開放教育研究,2015(3): 74-80.

[2]黃振功.決策樹在高校計(jì)算機(jī)等級(jí)考試成績分析的應(yīng)用[J].科技資訊,2013(25):18-19.

[3]武彤,王秀坤.決策樹算法在學(xué)生成績預(yù)測分析中的應(yīng)用[J].微計(jì)算機(jī)信息,2010(3): 209-211.

[4]于立紅,張建偉.基于數(shù)據(jù)挖掘的高職生成績分析與預(yù)測[J].鄭州輕工業(yè)學(xué)院學(xué)報(bào),2006(3): 77-79.

[5]邱文教.基于人工神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)成績預(yù)測[J].計(jì)算機(jī)與信息技術(shù),2010(4): 5-6.

[6]李建萍.基于加權(quán)支持向量機(jī)的學(xué)習(xí)成績預(yù)測模型[J].中國科教創(chuàng)新導(dǎo)刊,2009(14): 137-138.

[7]Mika S, R tsch G, Weston J, et al. Fisher discriminant analysis with kernels[C]. Neural Networks for Signal Processing IX, 1999. Proceedings of the 1999 IEEE Signal Processing Society Workshop.

[8]李建云,邱菀華.核Fisher判別分析方法評估消費(fèi)者信用風(fēng)險(xiǎn)[J].系統(tǒng)工程理論方法應(yīng)用,2004(6): 548-552.

[9]李映,焦李成.基于核Fisher判別分析的目標(biāo)識(shí)別[J].西安電子科技大學(xué)學(xué)報(bào), 2003(2):179-182.

[10]Bishop C.Pattern Recognition and Machine Learning[M]. Springer Science & Business Media, 2006.

[11]Vapnik V.The nature of statistical learning theory[M]. Springer Science & Business Media, 2013.

[12]Mercer J. Functions of positive and negative type, and their connection with the theory of integral equations[J]. Philosophical transactions of the royal society of London. Series A, containing papers of a mathematical or physical character,1909, 209: 415-446.

[13]Chang C, Lin C. LIBSVM: a library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology (TIST),2011, 2(3): 27.

(編輯:魯利瑞)

猜你喜歡
高職教育
職業(yè)高校職業(yè)思想道德重要性探析
工業(yè)分析與檢驗(yàn)專業(yè)專業(yè)基礎(chǔ)課課程教學(xué)改革研究與實(shí)踐
淺談素質(zhì)拓展訓(xùn)練對提高高職學(xué)生綜合素質(zhì)的作用
高職軟件技術(shù)實(shí)訓(xùn)考核評價(jià)標(biāo)準(zhǔn)構(gòu)建
科技視界(2016年18期)2016-11-03 22:06:01
高職院校新開設(shè)無人機(jī)專業(yè)的探討
人間(2016年26期)2016-11-03 17:52:40
現(xiàn)代學(xué)徒制人才培養(yǎng)模式下的高職軟件技術(shù)專業(yè)課程體系改革研究
“營改增”對高職會(huì)計(jì)教育的影響及對策研究
人文主義視野下的高職教育研究
職業(yè)(2016年10期)2016-10-20 21:52:25
以就業(yè)為導(dǎo)向的高職學(xué)生綜合素質(zhì)培養(yǎng)研究
中國市場(2016年35期)2016-10-19 03:04:11
微商思維在高職市場營銷教學(xué)中的應(yīng)用探究
中國市場(2016年35期)2016-10-19 02:57:22
南召县| 延安市| 临泉县| 阿拉善右旗| 榆社县| 乳山市| 邹平县| 二手房| 黄骅市| 澎湖县| 温泉县| 博乐市| 修武县| 峨眉山市| 卢龙县| 滨海县| 娄底市| 长春市| 无锡市| 宿迁市| 临朐县| 潢川县| 偃师市| 新乡县| 苍南县| 沭阳县| 读书| 龙井市| 巴南区| 金乡县| 伊通| 东阿县| 读书| 孝昌县| 右玉县| 八宿县| 青州市| 南充市| 米林县| 应用必备| 呼和浩特市|