国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘在大學英語四級成績預測中的應用研究

2018-11-26 09:33韓魯峰
電腦知識與技術 2018年24期
關鍵詞:數(shù)據(jù)挖掘預測

韓魯峰

摘要:根據(jù)教育信息化建設的需要,為解決大學英語四級成績管理只停留在數(shù)據(jù)的保存、查閱及簡單統(tǒng)計階段的問題,南京財經大學教務處結合工作實際,采用數(shù)據(jù)挖掘技術分類技術中經典算法之一的決策樹算法對數(shù)據(jù)庫中的海量數(shù)據(jù)進行分析,從眾多影響因素中挖掘出影響大學英語四級成績的主要因素,為學生英語四級成績的提高和教育教學改革提供參考依據(jù)。

關鍵詞:數(shù)據(jù)挖掘;英語四級;預測

中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2018)24-0001-03

Abstract: In order to solve the problem that the management of CET-4 grades only stays at the stage of data preservation, reference and simple statistics, the academic Affairs Office of Nanjing University of Finance and Economics combines the actual work with the needs of the construction of educational informatization. The decision tree algorithm, one of the classical algorithms in data mining technology, is used to analyze the massive data in the database. To provide reference for the improvement of CET-4 grades and the reform of education and teaching.

Key words: data mining; CET-4; prediction

1 引言

隨著我國高等教育從“精英化”到“大眾化”的轉變,畢業(yè)生人數(shù)按照2%-5%的同比增長率逐年增長,2018年全國高校畢業(yè)生預計上升至820萬人,再創(chuàng)近10年畢業(yè)生人數(shù)新高值。與大規(guī)模的畢業(yè)生人數(shù)息息相關的即是就業(yè)情況,而跟就業(yè)相關的,除了學生的個人能力,就是學生的各項成績了。大學英語四級成績目前還是許多高校學位授予的約束條件之一,也是眾多公司招聘的門檻之一。通過大學英語四級成績預測,可以對學生考試成績進行合理化評估,避免不良后果,這是一種新的、有別于以往的、有益的嘗試??梢杂嗅槍π缘叵虺煽兏呶5膶W生進行成績預警,進而提高考試通過率。幫助學生順利地拿到學位,順利的邁過招聘的門檻。

2 數(shù)據(jù)挖掘

2.1數(shù)據(jù)挖掘概念

數(shù)據(jù)挖掘能夠從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取出隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識,滿足大數(shù)據(jù)時代的數(shù)據(jù)整合、分析需求,為決策提供支持與服務[1]。將數(shù)據(jù)挖掘方法應用于教育領域,可以對來自教育系統(tǒng)的大量數(shù)據(jù)進行挖掘分析,得出內含其中的、有價值的信息和知識,這些信息和知識不僅可以服務于教師、學生和教育領域的研究者們,還可以服務于系統(tǒng)管理者和軟件開發(fā)者[2]。

2.2決策樹算法

決策樹算法是數(shù)據(jù)挖掘技術中分類技術的經典算法之一,可以完成對挖掘目標有明確分類的課程成績的預測。決策樹算法作為一種分類算法,目標就是將具有p維特征的n個樣本分到c個類別中去。相當于做一個投影,c=f(n),將樣本經過一種變換賦予一種類別標簽[3]。

本文采用C4.5算法對數(shù)據(jù)進行分析,C4.5算法是用于生成決策樹的一種經典算法,是ID3算法的一種延伸和優(yōu)化。通過C4.5算法構造決策樹時,信息增益率最大的屬性即為當前節(jié)點的分裂屬性,隨著遞歸計算,被計算的屬性的信息增益率會變得越來越小,到后期則選擇相對比較大的信息增益率的屬性作為分裂屬性[4]。

3 C4.5算法在大學生英語四級成績預測中的應用

數(shù)據(jù)挖掘處理的是海量數(shù)據(jù),這些數(shù)據(jù)一般存儲在數(shù)據(jù)庫系統(tǒng)中,是長期積累的結果,但往往不適合直接挖掘,需要做數(shù)據(jù)的預處理工作,此工作準備是否充分,對于挖掘算法的效率以及正確性都有關鍵性的影響[5]。

3.1數(shù)據(jù)預處理

影響學生英語四級成績的因素有很多,在現(xiàn)有研究的基礎上,本文選取四個關鍵因素作為研究對象,并選取我校2018屆3965名學生信息作為研究數(shù)據(jù)集。得到數(shù)據(jù)表(表1)如下:

為了便于分類研究,采用屬性槪化的方法對表1中的數(shù)據(jù)進行預處理。其中,生源類別屬性按行政級別?;癁檗r村往屆A1、農村應屆A2、城市往屆A3、城市應屆A4 4類。類似的,四級成績屬性,?;癁槲赐ㄟ^四級B1,通過四級B2。性別屬性,槪化為男 1、女0。

連續(xù)型屬性?;癁閰^(qū)間值:由于在建立決策樹時,用離散型數(shù)據(jù)進行處理速度最快,因此應對連續(xù)型數(shù)值進行離散化處理。對高考英語成績(GKCJ)屬性,按超過及格分數(shù)線(JGX)分數(shù),?;癁椴患案瘢℅KCJ-JGX<0),中(0≤GKCJ-JGX<10),良(10≤GKCJ-JGX<20),優(yōu)(20≤GKCJ-JGX)。對大學英語成績(YYCJ)屬性,按超過及格分數(shù)線(JGX)分數(shù),?;癁椴患案瘢╕YCJ-JGX<0),中(0≤YYCJ-JGX<10),良(10≤YYCJ-JGX<20),優(yōu)(20≤YYCJ-JGX)。

對數(shù)據(jù)進行預處理后將得到表(表2)如下:

3.3規(guī)則提取

決策樹生成后,遍歷形成的決策樹,從根到葉就發(fā)現(xiàn)若干條路徑,每一條路徑對應一條規(guī)則,整棵樹就形成了一組表達式規(guī)則,然后詳審規(guī)則集去發(fā)現(xiàn)最有用的子集,最后的規(guī)則集可存儲在一個文件中[6]。

從直接生成的決策樹種提取的分類規(guī)則多達326條,部分規(guī)則如下:

規(guī)則1

IF:大學英語成績=優(yōu)

AND:高考英語成績=良

AND:生源地區(qū)=A4

AND:性別=0

THEN:四級成績=B3

規(guī)則2

IF:大學英語成績=良

AND:高考英語成績=中

AND:生源地區(qū)=A4

AND:性別=0

THEN:四級成績=B3

規(guī)則3

IF:大學英語成績=良

AND:高考英語成績=良

AND:生源地區(qū)=A3

AND:性別=1

THEN:四級成績=B2

規(guī)則4

IF:大學英語成績=中

AND:高考英語成績=良

AND:生源地區(qū)=A2

AND:性別=0

THEN:四級成績=B3

規(guī)則5

IF:大學英語成績=不及格

AND:高考英語成績=中

AND:生源地區(qū)=A2

AND:性別=0

THEN:四級成績=B1

規(guī)則6

IF:大學英語成績=中

AND:高考英語成績=中

AND:生源地區(qū)=A3

AND:性別=1

THEN:四級成績=B1

3.4規(guī)則解讀

通過分析規(guī)則可以得出:大學英語成績對四級成績影響最大,起決定性作用。在非成績影響因素中,性別因素對四級成績影響最大,女生的通過率為75.4%,明顯高于男生的通過率40.3%。當然,由于選取數(shù)據(jù)的學校為文科院校,女生比例較高,可能對最終的結論有一定的影響,后期可以選取綜合性高校進行分析,提出更有利的提高教學效率的方法。

4 結語

隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)挖掘正在往各個行業(yè)滲透,數(shù)據(jù)挖掘技術正在改變我們的生活,合理的利用數(shù)據(jù)挖掘技術不僅能提高效率還能有效的規(guī)避風險。本文選用數(shù)據(jù)挖掘技術中的決策樹算法對大學英語四級成績進行分析和預測,將數(shù)據(jù)挖掘技術應用于教育教學管理中,為提高學生的四級成績提供了參考方法,為教育改革提供了參考方向。

參考文獻:

[1]崔仁染.數(shù)據(jù)挖掘在學生專業(yè)成績預測上的應用[J].軟件,2016(1):24-27.

[2]李文峰, 黃席樾.C4.5算法在國防生素質分析中的應用[J].自動化技術及應用,2007(7):36-39.

[3]何迪.面向大數(shù)據(jù)分析的決策樹算法[J].信息系統(tǒng)工程,2017(7):161.

[4]董躍華,劉力.基于相關系數(shù)的決策樹優(yōu)化算法[J].計算機工程與科學,2015(9):1783-1793.

[5] 王士虎,呂紀榮,馮波.基于數(shù)據(jù)挖掘的英語四級成績分析與預測[J].電腦知識與技術,2014(3):452-454.

[6]黃振功.基于決策樹的高校計算機等級考試成績預測分析研究[D].碩士論文,廣西大學,2013.

【通聯(lián)編輯:王力】

猜你喜歡
數(shù)據(jù)挖掘預測
無可預測
選修2-2期中考試預測卷(A卷)
選修2-2期中考試預測卷(B卷)
選修2—2期中考試預測卷(A卷)
不可預測
基于并行計算的大數(shù)據(jù)挖掘在電網中的應用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
數(shù)據(jù)挖掘的分析與探索
基于GPGPU的離散數(shù)據(jù)挖掘研究
淮安市| 五指山市| 达拉特旗| 滕州市| 当阳市| 松原市| 双流县| 南平市| 寿阳县| 大足县| 鲜城| 莱州市| 三江| 新河县| 柘荣县| 长葛市| 壶关县| 泉州市| 鲁山县| 海南省| 邻水| 南丹县| 始兴县| 十堰市| 永定县| 南皮县| 陆川县| 祁门县| 墨玉县| 温州市| 亚东县| 江津市| 宁蒗| 黎川县| 新源县| 连平县| 乡宁县| 马山县| 扶风县| 盐亭县| 水城县|