摘要:數(shù)學(xué)教育作為基礎(chǔ)教育最重要的環(huán)節(jié),是提高學(xué)生數(shù)學(xué)成績(jī)的重要方式。從某方面而言,數(shù)學(xué)成績(jī)是反映學(xué)生數(shù)學(xué)學(xué)習(xí)能力的重要工具,但由于數(shù)學(xué)成績(jī)?cè)u(píng)價(jià)與學(xué)生學(xué)習(xí)能力、現(xiàn)場(chǎng)發(fā)揮等方面存在直接關(guān)系,其所反映的方面具有較強(qiáng)局限性,根本無法準(zhǔn)確反映出學(xué)生實(shí)際學(xué)習(xí)情況。尤其是在信息化時(shí)代背景下,隨著信息技術(shù)應(yīng)用到教育行業(yè),給數(shù)學(xué)教育帶來質(zhì)的突破,出現(xiàn)大量機(jī)器學(xué)習(xí)的數(shù)學(xué)成績(jī)預(yù)測(cè)系統(tǒng),來幫助教師更好地掌握學(xué)生實(shí)際情況,有效提高了中學(xué)基礎(chǔ)教育效果。文章通過分析教育數(shù)據(jù)挖掘技術(shù)中的機(jī)器人學(xué)習(xí)預(yù)測(cè)理論,來探究影響學(xué)生數(shù)學(xué)成績(jī)的因素,再根據(jù)因素提出有效的解決策略。
關(guān)鍵詞:教育數(shù)據(jù)挖掘;機(jī)器學(xué)習(xí);數(shù)學(xué)成績(jī)預(yù)測(cè);自我認(rèn)知;母語
中圖分類號(hào):TP311? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)25-0026-03
開放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID) :
1 前言
在信息化時(shí)代背景下,互聯(lián)網(wǎng)模式已逐漸普及到各行業(yè),尤其在教育行業(yè)應(yīng)用范圍最廣。慕課教學(xué)模式作為目前數(shù)學(xué)教育最常見的教學(xué)模式,已成功突破傳統(tǒng)教學(xué)限制,能給數(shù)學(xué)教學(xué)提供豐富的數(shù)據(jù)資源[1]。同時(shí),隨著線上教育產(chǎn)業(yè)數(shù)量不斷增加,給互聯(lián)網(wǎng)教育帶來巨大的空間,我國政府部門愈發(fā)重視教育數(shù)據(jù)挖掘工作,并加強(qiáng)對(duì)現(xiàn)代教育研究的重視程度。給教育數(shù)據(jù)挖掘帶來較強(qiáng)的推動(dòng)作用,將教育數(shù)據(jù)挖掘上升到戰(zhàn)略高度,這給拓展教育數(shù)據(jù)應(yīng)用范圍提供了法律支持。目前,由國互聯(lián)網(wǎng)教育產(chǎn)業(yè)還停留在初級(jí)階段,數(shù)據(jù)分析要加強(qiáng)對(duì)線上推銷和精準(zhǔn)推送的研究力度,確保商品能具有明顯特征,而不是將立足教育發(fā)展作為中心思想,這導(dǎo)致教育數(shù)據(jù)挖掘作用流于表面,無法發(fā)揮其真正作用。并且與國外相比,數(shù)據(jù)資源多樣化是我國最大優(yōu)勢(shì),無論是線下數(shù)據(jù)還是線上數(shù)據(jù)全部有明顯優(yōu)勢(shì),但如何將多樣化教育數(shù)據(jù)轉(zhuǎn)變?yōu)榻逃齽?dòng)力是目前教育研究者急需考慮的問題[2]。
2 機(jī)器學(xué)習(xí)分類算法
2.1 K-近鄰
K-近鄰算法屬于有監(jiān)督機(jī)器學(xué)習(xí)算法,其是根據(jù)各數(shù)據(jù)不同特征值間的距離為載體,合理分析數(shù)據(jù)內(nèi)容,再利用不同類型數(shù)據(jù)值來確定正確的數(shù)據(jù)類型。如果在特征空間內(nèi)有一個(gè)樣本和相鄰K各樣本都屬于同一類型,可確定該樣本同樣屬于該類型,K值會(huì)取整數(shù)。其數(shù)學(xué)原理是將不同數(shù)據(jù)比作多維空間的點(diǎn),再利用歐氏距離公式[d(x,y)=n1(xi-yi)2]或麥哈頓距離公式[d(x,y)=n1xi-yi]來計(jì)算不同測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)之間的距離,再根據(jù)升序方式將數(shù)據(jù)進(jìn)行依次排列,再將最高頻率類型作為測(cè)試數(shù)據(jù)的預(yù)測(cè)分類(如圖1所示) 。
2.2 邏輯回歸
邏輯回歸算法在很多方面與K-近鄰算法存在一定的相似性,都具有監(jiān)督機(jī)器學(xué)習(xí)算法的功能。經(jīng)過專業(yè)人員分析發(fā)現(xiàn),這兩種算法間具有較大差異性,如在輸出變量類型方面存在差異,通常線性回歸模型輸出值是連續(xù)變量,線性回歸預(yù)測(cè)函數(shù)為[y=xθ]。而邏輯回歸輸出值是離散變量,故邏輯回歸并不屬于回歸,是屬于分類。同時(shí),可將邏輯回歸作為線性模型,如圖2所示,[y=g(z)=11+e-z]。
2.3 決策樹
決策樹算法將學(xué)生數(shù)學(xué)成績(jī)利用樹狀圖像的方式提供給教育工作者認(rèn)識(shí),能有效確定概率分布基本情況。目前,國內(nèi)教學(xué)行業(yè)決策樹出現(xiàn)頻率較高(如圖3所示) 。該教學(xué)方式是利用圓形節(jié)點(diǎn)為載體,將不同數(shù)據(jù)用原點(diǎn)、箭頭、矩形節(jié)點(diǎn)、三角節(jié)點(diǎn)等方式呈現(xiàn)出來,有利于教師能準(zhǔn)確收集這些信息[3]。
2.4 支持向量機(jī)
近年來,隨著社會(huì)經(jīng)濟(jì)不斷發(fā)展,給教學(xué)行業(yè)帶來較大的發(fā)展空間,而數(shù)學(xué)作為教育行業(yè)重要的環(huán)節(jié),在學(xué)生未來發(fā)展之中同樣發(fā)揮著極其重要的作用。但從目前數(shù)學(xué)教學(xué)的實(shí)際情況而言,還存在很多方面的問題,給教學(xué)效率帶來嚴(yán)重影響。而由于數(shù)學(xué)本質(zhì)上具有較強(qiáng)的趣味性和豐富性。因此,教師可將支持向量機(jī)合理利用在學(xué)生學(xué)習(xí)過程中來幫助學(xué)生了解數(shù)學(xué)中真正的魅力。支持向量機(jī)算法是能對(duì)數(shù)據(jù)實(shí)現(xiàn)二元分類的線性分類器,其算法原理是正確劃分訓(xùn)練數(shù)據(jù)集的最大邊距超平面(如圖4所示) 。
2.5 貝葉斯
貝葉斯分類器是以貝葉斯理論為基礎(chǔ)的弱分類器,其都假設(shè)樣本每個(gè)特征與其他特征無任何聯(lián)系。所謂樸素是假設(shè)不同特征和判定目標(biāo)類別的概率分布上是相互獨(dú)立存在的。因此,概率公式為[P(cx)=P(cx)PcP(x)],在正常情況下,很容易構(gòu)建樸素貝葉斯分類器,為此貝葉斯經(jīng)常被應(yīng)用在大型數(shù)據(jù)中。
3 CEPS數(shù)據(jù)分析預(yù)測(cè)
3.1 CEPS數(shù)據(jù)分析預(yù)測(cè)流程
數(shù)學(xué)本身是一門非常復(fù)雜的學(xué)科,在學(xué)習(xí)過程當(dāng)中很容易遇到各種問題,如果這時(shí)候教師仍然使用傳統(tǒng)的教學(xué)方式,很有可能會(huì)激發(fā)學(xué)生抵觸情緒,引發(fā) 學(xué)生學(xué)習(xí)困難。針對(duì)這種情況,教師可在教學(xué)中結(jié)合學(xué)生日常生活,以日常生活為切入點(diǎn),為學(xué)生構(gòu)建CEPS數(shù)據(jù)分析預(yù)測(cè)流程,來分析學(xué)生在日常生活中遇到的難題和心理狀態(tài),來幫助學(xué)生找到正確的數(shù)學(xué)規(guī)律,從而提高學(xué)生問題意識(shí)。CEPS數(shù)據(jù)分析預(yù)測(cè)流程是為拉薩數(shù)據(jù)分析做對(duì)比,一方面在程序上來分析各種所需指令;另一方面CEPS數(shù)據(jù)預(yù)測(cè)結(jié)果給拉薩數(shù)據(jù)研究提供依據(jù),從而驗(yàn)證評(píng)價(jià)機(jī)器學(xué)習(xí)中決策樹、線性支持向量機(jī)等模型在成績(jī)預(yù)測(cè)方面的效果,并確保最適合的預(yù)測(cè)分類模型。同時(shí),CEPS數(shù)據(jù)分析根據(jù)作用不同可分為結(jié)果分析、模型訓(xùn)練、預(yù)測(cè)流程預(yù)處理、模型優(yōu)化四個(gè)環(huán)節(jié)。其中數(shù)據(jù)預(yù)處理主要包括異常值處理、類型轉(zhuǎn)換、數(shù)據(jù)獲取等環(huán)節(jié);模型訓(xùn)練又支持向量機(jī)、線性支持向量機(jī)、決策樹等十二種模型的訓(xùn)練,并取得不同模型預(yù)測(cè)結(jié)果;模型優(yōu)化是對(duì)測(cè)試模型結(jié)果較高的XBG分類模型和邏輯回歸模型參數(shù)進(jìn)行調(diào)整[4]。
3.2 數(shù)學(xué)成績(jī)預(yù)測(cè)系統(tǒng)需求分析
學(xué)生用戶畫像系統(tǒng)作為專門服務(wù)不同教學(xué)階段學(xué)生的數(shù)據(jù)產(chǎn)品,主要是以網(wǎng)絡(luò)教育平臺(tái)為基礎(chǔ),從不同方面來分析學(xué)生的行為數(shù)據(jù),給網(wǎng)絡(luò)教育平臺(tái)正常運(yùn)行提供豐富的數(shù)據(jù)資源。而學(xué)生作為整個(gè)系統(tǒng)的核心點(diǎn),系統(tǒng)通過利用大數(shù)據(jù)技術(shù)來分析學(xué)生多樣化行為方式,將學(xué)生行為動(dòng)作變成大量的數(shù)據(jù)記錄。系統(tǒng)在開始階段會(huì)利用預(yù)處理的方式來記錄學(xué)生的日常行為,再將結(jié)構(gòu)化數(shù)據(jù)利用數(shù)據(jù)挖掘措施來統(tǒng)計(jì)處理后的數(shù)據(jù),再將數(shù)據(jù)完全呈現(xiàn)在用戶眼前,讓教師能進(jìn)一步掌握學(xué)生實(shí)際的心理狀態(tài)和學(xué)習(xí)情況,能及時(shí)察覺到學(xué)生異常情況,針對(duì)學(xué)生存在的問題提出有效的解決措施,來提高學(xué)生的學(xué)習(xí)成績(jī)。同時(shí),學(xué)生畫像系統(tǒng)是利用自動(dòng)化系統(tǒng),來分析學(xué)生的行為數(shù)據(jù),給教師提供全方位的功能,將學(xué)生在線答題模塊進(jìn)行對(duì)接,幫助工作人員突破數(shù)據(jù)隔離的限制,在上傳大量學(xué)生數(shù)據(jù)的同時(shí),有效處理各種數(shù)據(jù)內(nèi)容,進(jìn)而滿足教師對(duì)于數(shù)據(jù)的分析要求[5]。本系統(tǒng)最大的優(yōu)點(diǎn)在于能將數(shù)據(jù)采集過程標(biāo)準(zhǔn)化,能將各種結(jié)構(gòu)的數(shù)據(jù)利用自動(dòng)化方式來進(jìn)行處理,避免由于人工操作的方式出現(xiàn)失誤影響,降低教育工作者的工作量,讓其能將所有的注意力全部放在教育學(xué)生方面。同時(shí),大數(shù)據(jù)方式能提高系統(tǒng)效率,能讓教育工作者及時(shí)查看學(xué)生具體情況,避免其在傳統(tǒng)教學(xué)中無法掌握學(xué)生學(xué)習(xí)狀態(tài)的問題,還能避免信息滯后所引發(fā)的問題。
3.3 成績(jī)預(yù)測(cè)系統(tǒng)
成績(jī)預(yù)測(cè)系統(tǒng)在畫像系統(tǒng)中發(fā)揮著至關(guān)重要的作用,主要體現(xiàn)在掛科預(yù)警模塊和成績(jī)預(yù)測(cè)模塊內(nèi),模塊共有兩個(gè)功能,能合理分析學(xué)生期末成績(jī)和學(xué)生知識(shí)點(diǎn),成績(jī)預(yù)測(cè)是以分類算法為基礎(chǔ),來準(zhǔn)確計(jì)算出學(xué)生能答對(duì)多少道題目。知識(shí)點(diǎn)分析是在進(jìn)行分類功能時(shí),來進(jìn)一步研究影響性較大的特征,通過分析這些特征,來了解到學(xué)生對(duì)目前數(shù)學(xué)知識(shí)所掌握的具體情況,來提高各種類型題目的正確率,讓教育工作者能準(zhǔn)確掌握學(xué)生整體學(xué)習(xí)情況。在正常情況下,成績(jī)預(yù)測(cè)模塊主要是利用機(jī)器學(xué)習(xí)流程來進(jìn)行,通過采用Xgboost算法為載體,利用不同數(shù)據(jù)的特征性,來優(yōu)化分類目標(biāo)的各種方法,再提取數(shù)據(jù)庫中的學(xué)生數(shù)據(jù)周期性,進(jìn)而提高訓(xùn)練強(qiáng)度和數(shù)據(jù),讓整個(gè)模型的表現(xiàn)效果達(dá)到預(yù)期的效果,使學(xué)生成績(jī)預(yù)測(cè)系統(tǒng)能提供更好的幫助。
3.4 數(shù)據(jù)異常值處理
數(shù)據(jù)冗余刪除通常是將人工因素和環(huán)境條件相結(jié)合,來構(gòu)建全新的數(shù)據(jù)知識(shí),從而降低數(shù)據(jù)維度。首先,要?jiǎng)h除特征值缺失超過大量的列數(shù),一旦其缺失值超過一半,則其并不具備研究意義。再根據(jù)CEPS調(diào)查手冊(cè)、教育學(xué)心理學(xué)有關(guān)數(shù)據(jù)成績(jī)因素、Stata變量標(biāo)簽的研究,要?jiǎng)h除任何和數(shù)學(xué)成績(jī)沒有必然聯(lián)系的列數(shù)。雖然CEPS數(shù)據(jù)擁有大量特征,但由于其中大量特征和數(shù)據(jù)成績(jī)關(guān)聯(lián)性不強(qiáng),通常是將教育學(xué)心理學(xué)作為成績(jī)影響因素研究成果[6]。
數(shù)學(xué)是一門極具靈性的課程,能讓學(xué)生留下深刻的經(jīng)驗(yàn),給其未來發(fā)展具有至關(guān)重要的作用。因此,教師要嚴(yán)格遵循以學(xué)生為核心,服務(wù)于學(xué)生發(fā)展原則,有效提高學(xué)生的綜合素質(zhì),使得學(xué)生的世界觀、人生觀、價(jià)值觀沿著數(shù)學(xué)學(xué)習(xí)的深入,慢慢地走向正確的方向。隨著數(shù)學(xué)教學(xué)的不斷深入,能進(jìn)一步發(fā)掘?qū)W生們的創(chuàng)造性,給學(xué)生營造豐富多彩的想象力,提高學(xué)生的數(shù)學(xué)素質(zhì),促使學(xué)生綜合發(fā)展。因此,進(jìn)而利用數(shù)據(jù)異常值處理對(duì)系統(tǒng)進(jìn)行分析??砂l(fā)現(xiàn)異常值,再通過合理數(shù)據(jù)可視化特征,來幫助教師分析數(shù)學(xué)成績(jī)標(biāo)準(zhǔn)分?jǐn)?shù)密度曲線,但經(jīng)過大量實(shí)踐證明數(shù)學(xué)成績(jī)標(biāo)準(zhǔn)分?jǐn)?shù)并未全部超過標(biāo)準(zhǔn)值,這與數(shù)據(jù)正常分布情況具有一定的差異性,會(huì)給調(diào)查統(tǒng)計(jì)的數(shù)學(xué)成績(jī)帶來嚴(yán)重影響[7]。經(jīng)過統(tǒng)計(jì)發(fā)現(xiàn),異常值未超過三十個(gè),與總數(shù)據(jù)相比,其占據(jù)較低部分,這對(duì)整體數(shù)據(jù)帶來嚴(yán)重影響。
特征轉(zhuǎn)換是通過合理利用數(shù)據(jù)分布特點(diǎn),來實(shí)現(xiàn)教育和數(shù)據(jù)深度融合,從而預(yù)測(cè)出學(xué)生成績(jī)及格率,并將數(shù)學(xué)成績(jī)標(biāo)準(zhǔn)分?jǐn)?shù)利用科學(xué)方式轉(zhuǎn)換出來,讓其基本成績(jī)能高于平均值判定及格,低于平均值則被判定不及格,并對(duì)所有樣本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)(如圖5所示) 。從層次上而言,數(shù)據(jù)分布相對(duì)比較均勻,未出現(xiàn)數(shù)據(jù)分布極為不平衡的現(xiàn)象。在大規(guī)模數(shù)據(jù)情況下,不及格數(shù)據(jù)占據(jù)絕大部分,能滿足數(shù)據(jù)訓(xùn)練預(yù)測(cè)要求??衫镁幋a技術(shù)將所有對(duì)象型數(shù)據(jù)進(jìn)行獨(dú)熱數(shù)字編碼,給后期模型訓(xùn)練做好準(zhǔn)備[8]。同時(shí),應(yīng)加強(qiáng)學(xué)生學(xué)習(xí)熱情和興趣,如果學(xué)生能在實(shí)際學(xué)習(xí)當(dāng)中具有較高熱情度,那勢(shì)必會(huì)給教師教學(xué)活動(dòng)帶來較強(qiáng)助力,教師在數(shù)學(xué)教學(xué)過程當(dāng)中,要注重培養(yǎng)學(xué)生學(xué)習(xí)興趣和學(xué)習(xí)熱情,并探究學(xué)生學(xué)習(xí)特征,制定多元化教學(xué)模式,豐富教學(xué)內(nèi)容,從而激發(fā)學(xué)生學(xué)習(xí)積極性,確保讓學(xué)生能長期處于愉悅的環(huán)境中學(xué)習(xí)數(shù)學(xué),從而提升課堂效率和質(zhì)量。
4 總結(jié)
綜上所述,從分類預(yù)測(cè)技術(shù)層面來看,證實(shí)分類器、決策樹、邏輯回歸等分類模型相比在二元分類成績(jī)層次預(yù)測(cè)方面具有較好的效果。從影響數(shù)學(xué)成績(jī)因素而言,可將其分為兩個(gè)部分,可將讓學(xué)生對(duì)數(shù)學(xué)學(xué)習(xí)感覺自我認(rèn)知和成績(jī)層次有初步了解,從測(cè)試數(shù)據(jù)來說,學(xué)生對(duì)數(shù)學(xué)學(xué)習(xí)自我認(rèn)知非常重要,且會(huì)成為預(yù)測(cè)學(xué)生學(xué)業(yè)成績(jī)的重要特征。再根據(jù)特征相關(guān)分析、學(xué)生各科成績(jī)分析,都充分說明其對(duì)學(xué)生數(shù)學(xué)層次劃分的重要性,再結(jié)合高中數(shù)學(xué)教學(xué)現(xiàn)狀,應(yīng)加強(qiáng)對(duì)母語文化教學(xué)的重視程度,才能讓學(xué)生全面發(fā)展。
參考文獻(xiàn):
[1] 孫鑫,黎堅(jiān),符植煜.利用游戲log-file預(yù)測(cè)學(xué)生推理能力和數(shù)學(xué)成績(jī)——機(jī)器學(xué)習(xí)的應(yīng)用[J].心理學(xué)報(bào),2018,50(7):761-770.
[2] 金城,崔榮一,趙亞慧.基于機(jī)器學(xué)習(xí)的高考信息與大學(xué)程序設(shè)計(jì)課程成績(jī)相關(guān)性分析研究[J].延邊大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,46(4):366-370.
[3] 劉研,陳勇,邢宇明,等.基于機(jī)考機(jī)評(píng)系統(tǒng)的成績(jī)挖掘和個(gè)性化分析方案研究[J].教育現(xiàn)代化,2021,8(12):106-108.
[4] 杜佳恒,邱飛岳.機(jī)器學(xué)習(xí)在數(shù)學(xué)成績(jī)預(yù)測(cè)中的應(yīng)用研究[J].教育教學(xué)論壇,2020(16):101-102.
[5] 王博.基于Logistic Regression的數(shù)學(xué)成績(jī)預(yù)測(cè)系統(tǒng)的應(yīng)用研究[D].南昌:南昌大學(xué),2018.
[6] 張瑞,賈虎.基于多變量時(shí)間序列及向量自回歸機(jī)器學(xué)習(xí)模型的水驅(qū)油藏產(chǎn)量預(yù)測(cè)方法[J].石油勘探與開發(fā),2021,48(1):175-184.
[7] 張寶一,李曼懿,李偉霞,等.基于機(jī)器學(xué)習(xí)的地球化學(xué)采樣下伏基巖類型判別-以青海省察汗烏蘇河地區(qū)為例[J].中南大學(xué)學(xué)報(bào)(英文版),2021,28(5):1422-1447.
[8] 邢俊利,豆長江.藏族中學(xué)生成就目標(biāo)對(duì)數(shù)學(xué)成績(jī)的影響:自我效能感的調(diào)節(jié)作用[J].民族教育研究,2021,32(4):129-134.
【通聯(lián)編輯:梁書】