□關(guān) 博
目前,很多高校都開始將數(shù)據(jù)挖掘技術(shù)運用在英語教學(xué)評價中,將學(xué)生的成績作為數(shù)據(jù)庫構(gòu)建基礎(chǔ),通過數(shù)據(jù)挖掘技術(shù)進行合理的歸納和分析,可以找到學(xué)生成績受到影響的最真實原因。
數(shù)據(jù)挖掘也被稱為是數(shù)據(jù)采礦、資料探勘等,是數(shù)據(jù)庫知識發(fā)現(xiàn)中的一個重要步驟,該技術(shù)主要是指在海量的數(shù)據(jù)中利用一些算法搜索到隱含的信息過程。數(shù)據(jù)挖掘技術(shù)一般都是通過情報檢索、統(tǒng)計、數(shù)據(jù)分析、機器學(xué)習(xí)、模式識別以及專家系統(tǒng)等諸多方式來實現(xiàn)的,和計算機科學(xué)有非常重要的關(guān)系[1]。近幾年以來,數(shù)據(jù)挖掘技術(shù)也得到了越來越多的運用,在各行各業(yè)都儲存和積累了大量的數(shù)據(jù),可以被廣泛地深入運用,如何將其更好地轉(zhuǎn)換為有效的知識和信息也得到了更多的關(guān)注。數(shù)據(jù)挖掘技術(shù)是一個相對比較復(fù)雜的過程,一個反復(fù)循環(huán)的過程,對于其中的每一個步驟都要達到前期設(shè)計的目標,如果沒有實現(xiàn)就會返回前面的步驟繼續(xù)進行調(diào)整再執(zhí)行[2]。
目前,在英語教學(xué)過程中教師對于學(xué)生考試成績數(shù)據(jù)已經(jīng)積累了大量的數(shù)據(jù),但是對于數(shù)據(jù)的處理,很多都是停留在簡單的分析統(tǒng)計成績好壞方面,比如常說的優(yōu)秀率,良好率以及不及格的人數(shù)等方面[3]。本文列舉了某高校1,000名大一新生第一學(xué)期英語考試成績?yōu)榛A(chǔ)的數(shù)據(jù)挖掘技術(shù),希望可以根據(jù)挖掘到的隱含信息了解影響學(xué)生成績的重要因素,從而用來幫助教師分析相關(guān)結(jié)果,改善日后的教學(xué)工作,不斷地提高學(xué)生學(xué)習(xí)成績和英語能力。
(一)數(shù)據(jù)挖掘算法。對學(xué)生英語學(xué)習(xí)成績數(shù)據(jù)庫進行數(shù)據(jù)挖掘,主要是利用ID3算法,這種算法學(xué)習(xí)能力較強,而且理論比較清晰,適用于處理一些大規(guī)模的數(shù)據(jù)信息[4]。
(二)數(shù)據(jù)準備工作。在進行數(shù)據(jù)挖掘的工作前應(yīng)該做好數(shù)據(jù)準備工作,這也是數(shù)據(jù)挖掘過程中非常重要的一個環(huán)節(jié)。學(xué)生英語成績數(shù)據(jù)庫主要包括以下幾個字段:學(xué)生的姓名、學(xué)號、完形填空、詞義連線、改錯、語法結(jié)構(gòu)、翻譯、閱讀理解以及總成績。通過查看相關(guān)試卷可以得到信息,再將部分信息錄入到系統(tǒng)中。數(shù)據(jù)準備工作可以分為以下幾個方面。
1.數(shù)據(jù)清理。教師在對學(xué)生成績進行分析的過程中,發(fā)現(xiàn)部分學(xué)生存在作弊或缺考的行為,導(dǎo)致最終沒有實際考試分數(shù),因此,對上述兩種情況的空白成績進行刪除清理操作,經(jīng)過清理操作后最終剩余符合標準的記錄條數(shù)為992條,占據(jù)總調(diào)查人數(shù)的99.2%。
2.數(shù)據(jù)歸納。根據(jù)英語考試相關(guān)內(nèi)容諸如試卷的題型、語法結(jié)構(gòu)、翻譯、完形填空、總成績等相關(guān)屬性來構(gòu)建決策樹模型,這樣可以構(gòu)建學(xué)生英語考試成績的分析數(shù)據(jù)表[5]。
3.數(shù)據(jù)轉(zhuǎn)換。在構(gòu)建決策樹的時候往往需要一些離散變量,但是學(xué)生的英語成績本質(zhì)是屬于連續(xù)值,因此就需要提前將其轉(zhuǎn)換為所需的離散值。在此,根據(jù)英語成績的實際情況,將學(xué)生英語總成績分為兩個主要部分:60分以下的不合格類以及60~100分的合格類。具體的代碼如下所示:
Update 訓(xùn)練數(shù)據(jù)集
Set 總成績=‘不合格’
Where 總成績<60;
Update 訓(xùn)練數(shù)據(jù)集
Set 總成績=‘合格’
Where 總成績≥60;
在學(xué)生英語考試題型中完形填空占據(jù)的分值大約是40%,因此按照學(xué)生實際的考試分數(shù)將其分為小于24分、大于等于24分小于34分以及大于等于34分三種類型,等級分別是C,B,A三類。
Update 訓(xùn)練數(shù)據(jù)集
Set 完形填空=‘C’
Where 完形填空<24;
Update 訓(xùn)練數(shù)據(jù)集
Set 完形填空=‘B’
Where 完形填空≥24 and 完形填空<34;
Update 訓(xùn)練數(shù)據(jù)集
Set 完形填空=‘A’
Where 完形填空≥34;
語法結(jié)構(gòu)和閱讀理解在學(xué)生英語考試總成績中都占據(jù)了大約15%的比例,因此可以根據(jù)卷面的分數(shù)將其劃分為大于等于9分和小于9分兩類,分為A和B兩類。
Update 訓(xùn)練數(shù)據(jù)集
Set 語法結(jié)構(gòu)(閱讀理解)=‘A’
Where 語法結(jié)構(gòu)(閱讀理解)≥9;
Update 訓(xùn)練數(shù)據(jù)集
Set 語法結(jié)構(gòu)(閱讀理解)=‘B’
Where 語法結(jié)構(gòu)(閱讀理解)<9;
翻譯在學(xué)生英語考試總成績中占據(jù)了大約30%,因此可以根據(jù)實際的考試成績將其分為以下三類,大約等于25的A,大于等于18小于25的B以及小于18的C。
Update 訓(xùn)練數(shù)據(jù)集
Set 翻譯=‘C’
Where 翻譯<18;
Update 訓(xùn)練數(shù)據(jù)集
Set 翻譯=‘B’
Where 翻譯≥18 and 翻譯<25;
Update 訓(xùn)練數(shù)據(jù)集
Set 翻譯=‘A’
Where 翻譯≥25;
然后根據(jù)學(xué)生英語考試的實際成績進行分析,并將數(shù)據(jù)進行相應(yīng)的處理轉(zhuǎn)換為對應(yīng)的概化關(guān)系,如表1所示。
表1 概化關(guān)系表
接下來就需要采用ID3算法來構(gòu)建決策樹模型,以及根據(jù)實際情況構(gòu)建分類規(guī)則。為了能夠更好地掌握影響學(xué)生英語考試成績合格的最關(guān)鍵因素,在此提取的規(guī)則主要是以“合格”為主要的參考,其規(guī)則可以分為以下幾個方面。
If完形填空=“A”and翻譯=“A”and閱讀理解=“A”then總成績=“合格”;
If完形填空=“A”and翻譯=“B”and閱讀理解=“A”then總成績=“合格”;
If完形填空=“A”and翻譯=“C”and閱讀理解=“A”then總成績=“合格”;
If完形填空=“B”and翻譯=“A”and閱讀理解=“B”then總成績=“合格”;
……
綜上所述,經(jīng)過上面的相關(guān)分析,可以得到以下幾個方面的結(jié)論:如果學(xué)生的閱讀理解成績和完形填空的成績相對較好的時候,即使該學(xué)生的翻譯能力出現(xiàn)較差,或者一般的情況也不會影響最終的總成績,仍然處于一個合格的狀態(tài);如果某個學(xué)生的翻譯和完形填空成績都可以得到很高的分數(shù),那么即使語法結(jié)構(gòu)和閱讀理解成績相對較差,對于總成績的影響也不是很大,也會達到一個合格的狀態(tài)。因此,英語教師在后期的教學(xué)工作中,應(yīng)該更加注重學(xué)生對于完形填空的運用能力,不斷提高學(xué)生英語成績考試的合格率,這樣才能達到讓學(xué)生更好地具有英語應(yīng)用能力的目的。