劉麗娜
摘要:采用數(shù)據(jù)挖掘技術(shù)對(duì)廣州科技職業(yè)技術(shù)學(xué)院已畢業(yè)的2009級(jí)~2013級(jí)5個(gè)年級(jí)的學(xué)生信息進(jìn)行分析評(píng)估。利用SPSS Modeler挖掘工具中的Apriori關(guān)聯(lián)規(guī)則模型對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行挖掘,發(fā)現(xiàn)潛藏其中有應(yīng)用價(jià)值的規(guī)則。最后將所挖掘出的規(guī)則進(jìn)行分析解釋,將其應(yīng)用到教學(xué)改革當(dāng)中,對(duì)具有潛在作弊風(fēng)險(xiǎn)的學(xué)生進(jìn)行教育引導(dǎo),形成考試作弊的預(yù)警機(jī)制,降柢學(xué)生作弊輟學(xué)風(fēng)險(xiǎn),提高學(xué)校教育教學(xué)質(zhì)量。
關(guān)鍵詞:數(shù)據(jù)挖掘;Apriori;考試作弊;預(yù)警
中圖分類號(hào):TP311.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-1580(2017)09-0120-03
一、數(shù)據(jù)挖掘技術(shù)概述
數(shù)據(jù)挖掘技術(shù)是從不同的角度分析數(shù)據(jù)并將其歸總為有用信息的過程——可以利用其以增加收入,降低成本或二者兼有之。雖然數(shù)據(jù)挖掘是一個(gè)相對(duì)較新的術(shù)語,但其技術(shù)卻不然,早在數(shù)據(jù)挖掘一詞出現(xiàn)的很多年前就有公司利用強(qiáng)大的電腦來篩選大量的超市掃描儀數(shù)據(jù),并以此來分析市場(chǎng)研究報(bào)告。
一談到數(shù)據(jù)挖掘應(yīng)用就不得不提到經(jīng)典的商業(yè)零售之啤酒與尿片關(guān)聯(lián)分析銷售規(guī)則。就是人們?cè)诖罅康馁徫锴鍐蔚姆治鲋邪l(fā)現(xiàn),一般購買啤酒的客戶也會(huì)同時(shí)購買尿片,這可以啟發(fā)零售商有針對(duì)性地將這兩樣?xùn)|西放同一個(gè)地方或附近以增加銷售量,事實(shí)證明這是一種效果顯著的銷售決策。
數(shù)據(jù)挖掘包括多種實(shí)現(xiàn)算法,不同的算法適用于不同的數(shù)據(jù)及分析角度,一般較為復(fù)雜的挖掘系統(tǒng)會(huì)以幾種算法相結(jié)合的方式運(yùn)行。數(shù)據(jù)挖掘算法技術(shù)包括以下幾種常見的算法。
(一)關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是一種規(guī)則,它意味著(如“一起出現(xiàn)”或“一個(gè)事件的出現(xiàn)必然包含另一個(gè)事件”)在數(shù)據(jù)庫中的某些關(guān)聯(lián)關(guān)系。
(二)遺傳算法
遺傳算法依靠其模仿生物的方法,常用于為運(yùn)營商解決最優(yōu)化和搜索問題。
(三)神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)近年來備受關(guān)注,它以模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)的行為特征運(yùn)行在自學(xué)學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)上,為解決大型的負(fù)責(zé)問題提供了一種相對(duì)簡(jiǎn)單有效的方法。
(四)決策樹
它是一種決策支持工具,用類似于樹的圖形或模型表示決策或可能的輸出結(jié)果。
二、關(guān)聯(lián)規(guī)則挖掘算法Apriori
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘算法中發(fā)現(xiàn)屬性之間關(guān)聯(lián)性的基于規(guī)則的機(jī)器學(xué)習(xí)方法,它主要用于發(fā)現(xiàn)“一起出現(xiàn)”或一個(gè)事務(wù)與另一事務(wù)之間出現(xiàn)的必然聯(lián)系。它的目的是利用識(shí)別措施來發(fā)現(xiàn)數(shù)據(jù)庫中有趣的關(guān)系,發(fā)現(xiàn)強(qiáng)規(guī)則。
Agrawal等人對(duì)關(guān)聯(lián)規(guī)則挖掘問題的定義為:設(shè)數(shù)據(jù)庫即所有交易的集合為D:{t1,t2,t3…tn},n為交易記錄數(shù)。所有項(xiàng)目(屬性)的集合為I-{i1,i2…im},m為項(xiàng)目(屬性)數(shù)量。在數(shù)據(jù)庫D中,每條記錄都有唯一的m,記錄里所包含的項(xiàng)目(屬性)都在集合I中。而規(guī)則的定義為:X→Y,且x,Y∈I。
每條規(guī)則都由兩個(gè)或兩個(gè)以上的項(xiàng)目(屬性)組成,X和Y,其中X稱為規(guī)則前項(xiàng),Y稱為規(guī)則后項(xiàng)。
例如,在超市購物時(shí),有一個(gè)交易記錄為I={青菜,豆腐,醬油,鹽,面包},在所有交易中選擇其中5條交易記錄組成一個(gè)小的數(shù)據(jù)庫D(如表1所示),用一個(gè)表格表示該數(shù)據(jù)庫,1表示交易中有購買該項(xiàng)商品,0則表示沒有購買該項(xiàng)商品。
該數(shù)據(jù)庫中的規(guī)則為{青菜,豆腐}→{鹽},則表示如果顧客購買了青菜和豆腐,那么他們同時(shí)也會(huì)購買鹽。
為了從所有可能的規(guī)則中找出強(qiáng)規(guī)則,關(guān)聯(lián)規(guī)則設(shè)置了最低約束指標(biāo)置信度和支持度來篩選有趣的規(guī)則。在以上規(guī)則R=X→Y中,支持度為:
Sup=(COUNT(X∧Y)/COUNT(D))*100% (1)
其中COUNT(X∧Y)為同時(shí)包含X和Y的項(xiàng)目(屬性)交易記錄總數(shù),COUNT(D)為數(shù)據(jù)庫記錄數(shù)。規(guī)則的置信度為:
Conf=(COUNT(X∧Y)/COUNT(X))*100% (2)
其中COUNT(X)為包含X項(xiàng)目(屬性)的交易記錄總數(shù)。
在以上例子中,規(guī)則{青菜,豆腐}→{鹽}的支持度為3/5*100%=60%,置信度為3/4*100%=75%。
Apriori關(guān)聯(lián)規(guī)則通常需要滿足用戶指定的最小支持度和最小置信度約束,關(guān)聯(lián)規(guī)則的運(yùn)行程序分為兩個(gè)獨(dú)立的步驟:
(一)在數(shù)據(jù)庫中找到所有符合最小支持度的頻繁項(xiàng)集;
(二)在所有找到頻繁項(xiàng)集中根據(jù)最小置信度找到強(qiáng)規(guī)則。
三、學(xué)生數(shù)據(jù)關(guān)聯(lián)挖掘模型設(shè)計(jì)
(一)目標(biāo)分析
數(shù)據(jù)挖掘的挖掘結(jié)果雖然通過數(shù)據(jù)分析挖掘才知道具體的規(guī)則方向,然而數(shù)據(jù)挖掘也有明確的挖掘主題和挖掘目標(biāo)。從所收集到的各數(shù)據(jù)源進(jìn)行分析挖掘找出潛在的關(guān)聯(lián)關(guān)系,之后分析關(guān)聯(lián)結(jié)果,并將其應(yīng)用于教學(xué)決策當(dāng)中。
(二)數(shù)據(jù)準(zhǔn)備
在對(duì)數(shù)據(jù)進(jìn)行挖掘之前,所有數(shù)據(jù)源所提供的數(shù)據(jù)都是雜亂無章的,或數(shù)據(jù)缺失,或存在噪聲等,增加了數(shù)據(jù)的運(yùn)行處理時(shí)間,降低了數(shù)據(jù)的處理效率。因此,在數(shù)據(jù)挖掘前需對(duì)數(shù)據(jù)進(jìn)行整合清洗,以使挖掘效率和挖掘結(jié)果更快捷準(zhǔn)確。
1.聯(lián)接各數(shù)據(jù)源形成學(xué)生信息總表
將所收集到的數(shù)據(jù)源整理形成電子數(shù)據(jù)表,根據(jù)各數(shù)據(jù)表的主鍵(“學(xué)號(hào)”或“身份證號(hào)”)與外鍵的關(guān)系聯(lián)接合并為一張有唯一主鍵的多屬性學(xué)生信息總表。聯(lián)接后清除與挖掘主題無關(guān)的屬性,如“姓名”“身份證號(hào)”等。
2.數(shù)據(jù)泛化
數(shù)據(jù)泛化即將數(shù)據(jù)庫中包含的數(shù)據(jù)原始概念層的細(xì)節(jié)信息從較低的概念層抽象到較高層次的過程。例如學(xué)生成績(jī)中同專業(yè)同課程的成績(jī)屬性在0至100之間有大量的不同值,不利于數(shù)據(jù)關(guān)聯(lián)挖掘,故需對(duì)數(shù)據(jù)做泛化處理。成績(jī)?cè)诜夯瘯r(shí)可以根據(jù)范圍[90,100],[80,90),[70,80),[60,70),[0,60)依次分為優(yōu)秀、良好、中等、及格和不及格5個(gè)成績(jī)段,其他屬性以此類推形成各維度的數(shù)據(jù)總表。endprint
3.噪聲及缺省值處理
信息數(shù)據(jù)在泛化后有了較統(tǒng)一的結(jié)構(gòu)模式,然而,無論是歷史數(shù)據(jù)還是現(xiàn)在進(jìn)行的數(shù)據(jù)都因?yàn)槲募e(cuò)誤或保存不當(dāng),大多存在噪聲或缺失值。數(shù)據(jù)的不完整性將影響挖掘規(guī)則的支持度及可信度,而全部剔除不完整的數(shù)據(jù)記錄則可能會(huì)使重要規(guī)則也被一并刪除又或者縮小原本的數(shù)據(jù)庫。不完整數(shù)據(jù)的處理方式一般有人工填寫、屬性均值填充、全局常量填充、同類均值填充和忽略記錄等幾種。本研究所收集的數(shù)據(jù)來自不同的數(shù)據(jù)源具有不同的表現(xiàn)形式,部分屬性缺失嚴(yán)重地選擇了舍棄,而其他缺失值根據(jù)數(shù)據(jù)的性質(zhì)和類型采用同類均值填充法。
四、依托數(shù)據(jù)挖掘工具SPSS Modeler的學(xué)生數(shù)據(jù)挖掘?qū)崿F(xiàn)
本研究以廣州科技職業(yè)技術(shù)學(xué)院已畢業(yè)的2009級(jí)一2013級(jí)5個(gè)年級(jí)的學(xué)生數(shù)據(jù)為研究對(duì)象,將預(yù)處理后的17381條記錄,28個(gè)維度導(dǎo)入SPSSModeler中的Apriori模型當(dāng)中,設(shè)最小支持度:最小置信度=0.05。
數(shù)據(jù)經(jīng)過過濾之后進(jìn)行類型分類,再進(jìn)入Apri-ori莫型,運(yùn)行之后生成各個(gè)支持度與置信度的規(guī)則分析結(jié)果。
五、挖掘結(jié)果及規(guī)則理解
經(jīng)Apriori挖掘模型得出的挖掘結(jié)果需再進(jìn)行進(jìn)一步解釋篩選,本研究所挖掘出的結(jié)果解釋如表2。
在所有缺課超過1/3、缺考、舞弊記錄當(dāng)中(如表2所示),規(guī)則“高考成績(jī):[360-400),貧困生=是→缺考違紀(jì)=是”以及規(guī)則“貧困生=是,圖書借閱次數(shù)=0→缺考違紀(jì)=是”,支持度和置信度分別為0.063,0.538和0.075,0.436,高考成績(jī)?yōu)?60~400在案例學(xué)院(3本B線)所有的錄取成績(jī)當(dāng)中屬于良好層次,在此規(guī)則中的學(xué)生高考成績(jī)較好且家庭比較貧困,在學(xué)費(fèi)相對(duì)較高,來之不易的上學(xué)機(jī)會(huì)卻出現(xiàn)缺課或缺考甚至舞弊的現(xiàn)象。數(shù)據(jù)顯示這批學(xué)生大部分鮮少在圖書館借閱圖書。實(shí)驗(yàn)抽取符合該規(guī)則中的4名入學(xué)成績(jī)良好的貧困學(xué)生進(jìn)行調(diào)研,其中有2名學(xué)生為舍友且同輔導(dǎo)員,經(jīng)調(diào)研發(fā)現(xiàn)他們皆因沉迷上網(wǎng)(網(wǎng)絡(luò)游戲、電子小說)。在上大學(xué)前家庭貧困且無需購置電腦(或手機(jī)),大學(xué)期間購置之后使他們沉迷于新事物(網(wǎng)絡(luò)游戲、電子小說)當(dāng)中,最終因擔(dān)心成績(jī)不合格愧對(duì)家人繼而鋌而走險(xiǎn)。這4名學(xué)生其中有2名互為舍友。在了解了這一規(guī)則后,學(xué)??梢晕从昃I繆,幫助并挽救這些學(xué)生,同時(shí),這些有網(wǎng)癮的學(xué)生有可能會(huì)影響整個(gè)宿舍,或帶動(dòng)舍友一起玩游戲或影響他人作息,學(xué)??梢愿鶕?jù)該規(guī)則,在宿舍分配上做相應(yīng)調(diào)整,比如學(xué)習(xí)好意志力強(qiáng)的學(xué)生中插入一些成績(jī)差的,把誤入歧途的學(xué)生引向正道。
六、結(jié)束語
本研究以廣州科技職業(yè)技術(shù)學(xué)院已畢業(yè)的5個(gè)年級(jí)的學(xué)生數(shù)據(jù)為研究對(duì)象,采用當(dāng)前比較新穎的信息技術(shù)分析手段——數(shù)據(jù)挖掘技術(shù),選取數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則Apriori算法模型,SPSS Model,er分析工具對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行分析。對(duì)挖掘結(jié)果進(jìn)行了分析,提出了一種基于數(shù)據(jù)挖掘的學(xué)生考試作弊風(fēng)險(xiǎn)預(yù)警機(jī)制:基于預(yù)警事件和其他事件之間存在依賴或關(guān)聯(lián)關(guān)系定義了一種預(yù)警規(guī)則知識(shí),根據(jù)預(yù)警規(guī)則可找出存在作弊風(fēng)險(xiǎn)的學(xué)生,在學(xué)生可能實(shí)施作弊之前采取應(yīng)對(duì)措施,防止其作弊。實(shí)驗(yàn)顯示,該預(yù)警機(jī)制在我校實(shí)施取得了一定的效果,嚴(yán)肅考風(fēng)考紀(jì),規(guī)范學(xué)校管理,提高人才培養(yǎng)質(zhì)量。
[責(zé)任編輯:周海秋]endprint