摘? 要:該研究通過采集學(xué)生在校的圖書借閱、參加公益活動、上網(wǎng)等行為數(shù)據(jù),采用隨機(jī)森林算法挖掘行為特征與學(xué)業(yè)成績之間的關(guān)聯(lián)程度,提取關(guān)鍵特征進(jìn)行加權(quán)計算合并形成新特征,通過基礎(chǔ)模型K-means算法進(jìn)行聚類分析,最終將學(xué)生劃分成自律學(xué)霸型、夜貓子上網(wǎng)型和缺乏規(guī)劃型三類學(xué)生?;贚ogistics回歸模型建立預(yù)測模型,分別討論三類群學(xué)生的學(xué)習(xí)成績預(yù)測效果,為教育工作者深入診斷學(xué)生的學(xué)習(xí)狀態(tài)并給予精準(zhǔn)的教學(xué)引導(dǎo)和干預(yù)提供參考。
關(guān)鍵詞:教育數(shù)據(jù)挖掘;行為數(shù)據(jù);學(xué)生畫像;關(guān)聯(lián)度;預(yù)測分析
中圖分類號:TP311? 文獻(xiàn)標(biāo)識碼:A? 文章編號:2096-4706(2023)04-0193-06
Research on Student Portrait Construction and Learning Condition Prediction
Based on Educational Data Mining
TANG Qian
(Beijing Institute of Technology, Zhuhai, Zhuhai? 519088, China)
Abstract: By collecting the behavioral data of students' book borrowing, participating in public welfare activities and surfing the Internet, this paper uses the random forest algorithm to mine the correlation degree between behavior characteristics and academic performance, and the key characteristics are extracted to weight and calculate for merger to form new characteristics. Through the clustering analysis of the basic model K-means algorithm, the students are divided into three types of excellent performance in self-discipline, late sleepers with Internet access and lack of planning. This paper establishes a prediction model based on the logistic regression model, and discusses the prediction effect of the three types of students, which provides a reference for educators to deeply diagnose students' learning status and give precise teaching guidance and intervention.
Keywords: educational data mining; behavioral data; student portrait; correlation; prediction analysis
0? 引? 言
教育信息化2.0時代,教育進(jìn)入以大數(shù)據(jù)驅(qū)動的新時代。目前,高校內(nèi)積聚了學(xué)生的各類在校行為數(shù)據(jù)并逐步構(gòu)建成為智慧校園。學(xué)生畫像作為智慧校園中的重要組成部分,通過搜集和整理學(xué)生在各類平臺中留下的碎片化“烙印”,進(jìn)行聚合和抽象形成學(xué)生的專屬“畫像”,以反映學(xué)生的多方面屬性。學(xué)生的學(xué)習(xí)成績作為教育教學(xué)中的核心指標(biāo),是衡量學(xué)校教學(xué)質(zhì)量、檢驗教師教學(xué)成果和評價學(xué)生知識掌握程度的重要依據(jù),分析學(xué)生行為特征與學(xué)習(xí)成績之間存在的內(nèi)在聯(lián)系和潛在規(guī)律,獲得優(yōu)化教學(xué)決策的信息并加以應(yīng)用,已引起高校和研究者的廣泛關(guān)注。本研究基于數(shù)據(jù)挖掘技術(shù),通過采集學(xué)生的基本信息、圖書借閱、上網(wǎng)行為、參與公益活動等各類數(shù)據(jù),挖掘行為特征與學(xué)習(xí)成績之間的關(guān)聯(lián)性,進(jìn)一步提取關(guān)鍵特征并構(gòu)建學(xué)生畫像,針對不同類群的學(xué)生建立預(yù)測模型預(yù)測其學(xué)業(yè)成績,以達(dá)到對學(xué)生異常情況的早期預(yù)警,優(yōu)化教學(xué)實施過程,以促進(jìn)學(xué)校對不同類群學(xué)生的培養(yǎng)、引導(dǎo)和管理工作。
1? 相關(guān)研究
教育數(shù)字化轉(zhuǎn)型已成為高等教育高質(zhì)量發(fā)展的重要引擎和創(chuàng)新路徑,引發(fā)了高等教育教學(xué)模式、治理體系等方面的系統(tǒng)性變革。在2020年出臺的《深化新時代教育評價改革總體方案》中提出,利用人工智能、大數(shù)據(jù)等現(xiàn)代信息技術(shù),探索學(xué)生在學(xué)習(xí)全過程縱向評價和德智體美勞全要素橫向評價。教育數(shù)據(jù)挖掘已成為教育信息化、數(shù)字化的新方法,從應(yīng)用需求上來看,王宏志、熊風(fēng)等將教育數(shù)據(jù)挖掘劃分為三個層次,即描述分析、預(yù)測分析和規(guī)范分析[1]。其中,描述分析是依據(jù)歷史數(shù)據(jù)描述并分析學(xué)生行為特征,預(yù)測分析是指預(yù)判學(xué)情的未來趨勢及概率,規(guī)范分析根據(jù)學(xué)生的歷史數(shù)據(jù)提出學(xué)生下一步的學(xué)習(xí)計劃和引導(dǎo)方案。杜婧敏、方海光等認(rèn)為教育數(shù)據(jù)挖掘的應(yīng)用主要體現(xiàn)在評估、預(yù)測和干預(yù),評估是指基本統(tǒng)計分析及其可視化、提取學(xué)生群體特征,預(yù)測是針對不同類型的學(xué)生構(gòu)建預(yù)測模型研判學(xué)生成績,干預(yù)是指對教師的教學(xué)方法提供改進(jìn)意見[2]。李鳳霞、徐玉曉提出了教育數(shù)據(jù)挖掘的三大主要趨勢為教育數(shù)據(jù)的挖掘分析以優(yōu)化教學(xué)策略,開發(fā)自適應(yīng)學(xué)習(xí)系統(tǒng)以實現(xiàn)個性化學(xué)習(xí),以及開展多元化的學(xué)生綜合評價促進(jìn)教育教學(xué)模式的創(chuàng)新[3]。國外相關(guān)學(xué)者也對此進(jìn)行分析研判,KLA?NJA-MILI?EVI?等構(gòu)建了教育大數(shù)據(jù)的理論框架,包含信息技術(shù)分析、學(xué)習(xí)分析和平臺機(jī)構(gòu)分析[4]。美國智庫布魯金斯研究院提出了教育大數(shù)據(jù)研究的五種范式為趨勢分析、聚類分析、關(guān)系挖掘、自然語言轉(zhuǎn)化以及構(gòu)建現(xiàn)象解釋模型[5]。Kirsty Kitto建立了一種新的教學(xué)數(shù)據(jù)挖掘方法“do(做)—analyse(分析)—change(改變)—reflect(反映)”,以區(qū)別傳統(tǒng)的特定系統(tǒng)范圍內(nèi)的教學(xué)數(shù)據(jù)靜態(tài)分析,形成面向?qū)W生行為跟蹤的動態(tài)數(shù)據(jù)分析[6]。通過研究成果梳理分析,我們發(fā)現(xiàn)教育數(shù)據(jù)挖掘(Educational Data Mining,EDM)方法主要包括預(yù)測(Prediction)、聚類(Clustering)、關(guān)聯(lián)挖掘(Relationship Mining)、決策支持(Distillation for human judgment)和模型發(fā)現(xiàn)(Discovery with models)。當(dāng)前教育數(shù)據(jù)挖掘應(yīng)用主要聚焦于三大熱點(diǎn):以解釋和優(yōu)化學(xué)生學(xué)習(xí)過程的學(xué)習(xí)分析,以學(xué)生個性化需求為導(dǎo)向的教育空間及平臺分析,以學(xué)生動態(tài)性、全過程為研究對象的教育數(shù)據(jù)治理分析。
從數(shù)據(jù)來源來看,教育數(shù)據(jù)可分為學(xué)習(xí)者個人信息、學(xué)習(xí)資源信息(視頻、PPT、文檔等)以及學(xué)習(xí)者行為信息(行為跟蹤、社會交互等)等不同來源的異構(gòu)數(shù)據(jù)。通過采集和整理學(xué)生海量的行為數(shù)據(jù),抽象出學(xué)生的行為特征并形成學(xué)生用戶畫像。學(xué)生畫像是由用戶畫像概念遷移而來[7]。一般來說,學(xué)生畫像由學(xué)生特征、學(xué)生標(biāo)簽和學(xué)生屬性三個基本要素構(gòu)成[8]。學(xué)生畫像側(cè)重于對學(xué)生進(jìn)行不同維度的劃分。目前,已形成了學(xué)生畫像的一定研究,Kiu等人通過研究圖書館的學(xué)生數(shù)據(jù),挖掘分析其閱讀習(xí)慣,進(jìn)而構(gòu)建畫像,為學(xué)生讀者推薦圖書的目的[9]。張治等構(gòu)建學(xué)生的個體畫像和群體畫像,分別服務(wù)于學(xué)生生涯規(guī)劃和個性發(fā)展,為學(xué)校辦學(xué)改進(jìn)和政府教育治理提供決策支持[10]。薛耀峰等設(shè)計了基于德、智、體、美、勞五個維度的學(xué)生畫像用于呈現(xiàn)不同區(qū)域?qū)W生的培養(yǎng)發(fā)展情況[11]。因此,學(xué)生的數(shù)字畫像是以學(xué)生的行為數(shù)據(jù)為客觀事實和依據(jù),通過數(shù)據(jù)挖掘等技術(shù)方法抽離出描述學(xué)生的真實特征及行為的標(biāo)簽集,基于具體的教學(xué)情境的形成有信度和效度的綜合評價。
綜合已有的研究基礎(chǔ),本研究基于預(yù)測、聚類和關(guān)聯(lián)分析三個教育數(shù)據(jù)挖掘的主要方法,通過采集學(xué)生的多維行為數(shù)據(jù),分析學(xué)生們在生活規(guī)律、學(xué)習(xí)習(xí)慣等方面的群體特征,計算學(xué)生行為特征與學(xué)習(xí)成績之間的關(guān)聯(lián)程度,利用聚類算法對學(xué)生進(jìn)行用戶畫像形成立體的評價,并構(gòu)建預(yù)測模型深入分析預(yù)測各類群學(xué)生的學(xué)習(xí)成績變化特征[12,13]。
2? 數(shù)據(jù)采集與預(yù)處理
本研究以廣東省某高校的103名本科生為研究對象,使用學(xué)生脫敏數(shù)據(jù)進(jìn)行分析,該數(shù)據(jù)集包含了學(xué)生基本信息、學(xué)籍信息等靜態(tài)數(shù)據(jù),以及兩個學(xué)年的成績信息、圖書借閱記錄、參與公益活動記錄、上網(wǎng)記錄等動態(tài)數(shù)據(jù)。
數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘中約占整個工作量的80%,數(shù)據(jù)的質(zhì)量將會直接影響模型分析的效果,因此,在建模之前,需要先對數(shù)據(jù)進(jìn)行預(yù)處理。為了提升數(shù)據(jù)質(zhì)量,針對部分信息記錄不完全或存在缺失的樣本進(jìn)行清洗等預(yù)處理操作。并進(jìn)一步計算各特征值與學(xué)習(xí)成績相關(guān)性及影響度,針對關(guān)聯(lián)度大的標(biāo)簽進(jìn)行加權(quán)計算并強(qiáng)化學(xué)生屬性,最后通過合并新特征并聚類形成學(xué)生用戶畫像,分析模型基本流程如圖1所示。
對經(jīng)過數(shù)據(jù)預(yù)處理之后的數(shù)據(jù)類型匯總,分為學(xué)生基本信息、圖書借閱信息、上網(wǎng)行為信息、參與公益活動信息以及教學(xué)活動信息5個部分,預(yù)處理后的2018級學(xué)生特征如表1所示。
3? 學(xué)生群體畫像分析
為了進(jìn)一步探索數(shù)據(jù),我們將預(yù)處理后的數(shù)據(jù)利用匯總統(tǒng)計及可視化進(jìn)行數(shù)據(jù)特征的初步分析,勾勒出學(xué)生群體畫像。
3.1? 學(xué)生基本情況
本次的研究對象為2018級某專業(yè)103名本科生,其中男生46人,女生57人,從性別比例上來看相差不大。學(xué)生們主要來自廣東省內(nèi),占比68.75%,其余則來自湖南、湖北、浙江、陜西、吉林等11個省份。同時,我們采集了學(xué)生的語文、數(shù)學(xué)和英語三科的入學(xué)成績,因不同省份的高考總分不一致,無法對分?jǐn)?shù)進(jìn)行橫向比較,我們通過預(yù)處理將高考總分對標(biāo)學(xué)分制5.0,進(jìn)一步將學(xué)生入學(xué)的三科分?jǐn)?shù)轉(zhuǎn)化為學(xué)分績點(diǎn),并計算出語文、數(shù)學(xué)、英語三科的平均績點(diǎn)分別為3.39、3.06、3.24。從學(xué)生獲得獎學(xué)金情況來看,在統(tǒng)計周期內(nèi)共計有68名同學(xué)獲得優(yōu)秀學(xué)生獎學(xué)金,人均獲獎0.66次,學(xué)生生源地及性別分布情況如圖2所示。
3.2? 圖書借閱數(shù)據(jù)
大學(xué)圖書館是高校教學(xué)科研工作的支撐,也是學(xué)生學(xué)習(xí)的第二課堂。本研究選取的圖書借閱信息,包含學(xué)號、書名、書號、借閱日期、書籍所屬類型等指標(biāo),探索學(xué)生圖書借閱的數(shù)據(jù)特征。通過圖3和圖4圖書借書次數(shù)的分布情況可以看出,約有84%的學(xué)生借書圖書次數(shù)集中在[0,30]之間,最多的一位同學(xué)借閱圖書84本,最少的一位同學(xué)借閱圖書1本。其中,學(xué)生們借閱次數(shù)最多是文學(xué)類和經(jīng)濟(jì)類的書籍,相比較而言,男生更愿意閱讀經(jīng)濟(jì)、數(shù)理科學(xué)及化學(xué)、工業(yè)技術(shù)方面的書籍,而女生則更傾向于閱讀文學(xué)、語言文字以及政治法律方面的書籍。
3.3? 上網(wǎng)行為數(shù)據(jù)
利用網(wǎng)絡(luò)進(jìn)行網(wǎng)上學(xué)習(xí)、社交和娛樂等已成為大學(xué)生在校生活的重要組成部分,基于此,通過對校園網(wǎng)的上網(wǎng)認(rèn)證管理平臺有關(guān)學(xué)生的登錄時間、退出時間、登錄日期、登錄網(wǎng)址等字段的原始數(shù)據(jù)預(yù)處理,抽離出學(xué)生的上網(wǎng)次數(shù)與時長、平均上網(wǎng)時長、上網(wǎng)集中時段等指標(biāo),分析學(xué)生上網(wǎng)行為的典型特征。圖5和圖6展示了學(xué)生平均每周的上網(wǎng)時長,超過一半的學(xué)生平均每周上網(wǎng)時長控制在40小時以內(nèi),大約有30.1%學(xué)生平均每周的上網(wǎng)時長在20~40小時范圍內(nèi)(即平均每天花在網(wǎng)上的時間為6小時以內(nèi)),按照不同時間段的上網(wǎng)人數(shù)來看,學(xué)生們上網(wǎng)的高峰期為晚上19:00—24:00時,占比為81.16%,其次為下午13:00—18:00,占比69.36%,約有30.39%學(xué)生選擇在當(dāng)日早晨或通宵至次日凌晨上網(wǎng)。
3.4? 參與公益活動數(shù)據(jù)
為鼓勵學(xué)生積極參與各類的公益活動陶冶心靈、服務(wù)社會,增強(qiáng)社會實踐經(jīng)驗,各高校專設(shè)公益學(xué)分并通過公益活動管理平臺進(jìn)行監(jiān)管。因此,我們設(shè)置了學(xué)生們參與公益活動次數(shù)及時長、獲得公益活動認(rèn)證學(xué)分等指標(biāo),了解學(xué)生參與公益活動的整體情況。通過圖7展示可知,學(xué)生們參與公益活動的積極性較高,人均參與公益活動約10次,但女生明顯要比男生更積極主動參加,從人均獲得公益學(xué)分?jǐn)?shù)來看,女生參與公益活動獲得的學(xué)分超過男生的一倍。
4? 特征值的關(guān)聯(lián)性分析
在學(xué)生畫像的聚類算法中,特征的選取直接影響聚類效果。因此,本研究將各特征值與學(xué)生成績之間進(jìn)行關(guān)聯(lián)性分析,以關(guān)聯(lián)度作為特征選擇的度量指標(biāo),針對關(guān)聯(lián)性高的標(biāo)簽進(jìn)行加權(quán)計算合并成新特征刻畫學(xué)生畫像。
本研究分別通過線性回歸、決策樹、隨機(jī)森林、K最鄰近節(jié)點(diǎn)(K-Nearest Neighbor, KNN)以及支持向量機(jī)(Support Vector Machine, SVM)算法開展關(guān)聯(lián)度計算,并針對算法性能進(jìn)行比較分析,發(fā)現(xiàn)隨機(jī)森林算法的性能指標(biāo)MSE值最小,且計算結(jié)果的上限、下限差值最小,即算法模型的波動最小,效果最穩(wěn)定,比較如圖8所示。
采用隨機(jī)森林算法計算各特征值與學(xué)生成績之間的關(guān)聯(lián)度,其中,上網(wǎng)時間的特征值與學(xué)習(xí)成績之間的關(guān)聯(lián)度最高達(dá)到0.388,選擇在不同時間段上網(wǎng)的行為習(xí)慣也潛在影響學(xué)生學(xué)習(xí)成績。而語文、數(shù)學(xué)和英語三門科目的入學(xué)成績對學(xué)生大學(xué)階段的學(xué)習(xí)也存在一定的影響,其中語文科目的影響度為三科中的最高,達(dá)到0.296,其次為數(shù)學(xué)科目。學(xué)生參與公益活動、借閱不同類型的書籍與其學(xué)習(xí)成績之間也都存在內(nèi)在聯(lián)系,針對學(xué)生的專業(yè)學(xué)科背景,從數(shù)據(jù)上來看,借閱語言、文化類的圖書對其成績的影響高于其他類型圖書,其次為經(jīng)濟(jì)類圖書。圖9展示了與學(xué)習(xí)成績之間關(guān)聯(lián)度最高的八個特征。
5? 學(xué)生聚類畫像分析
本研究依據(jù)各特征值與學(xué)習(xí)成績之間的關(guān)聯(lián)度,采用層次分析法(AHP)在保證特征多樣性的基礎(chǔ)上分析特征的重要度并確定新權(quán)重,在盡可能保留特征全的基礎(chǔ)上增加特征之間的差異性。通過基礎(chǔ)模型K-means聚類算法進(jìn)行中心點(diǎn)選擇的多次算法實驗,最終發(fā)現(xiàn)當(dāng)聚類算法按照K=3進(jìn)行聚類,得到學(xué)生類群的特征差異最顯著,Cluster_0、1、2共計3個聚簇及中心如表2所示,三維聚類圖如圖10所示。
學(xué)生畫像實驗結(jié)果分析如下:
自律學(xué)霸型學(xué)生:對應(yīng)于聚簇Cluster_1,從性別上來看以女生居多,雖入學(xué)成績并不突出,但在校期間積極主動學(xué)習(xí)并嚴(yán)格要求自己,閱讀課外書籍的數(shù)量、參與公益活動的次數(shù)均遠(yuǎn)高于其他兩類同學(xué),并且具有較強(qiáng)的自律性,嚴(yán)格控制在宿舍里的上網(wǎng)時間,對應(yīng)的平均學(xué)分績點(diǎn)達(dá)到三類學(xué)生中的最高值3.330 4。
夜貓子上網(wǎng)型學(xué)生:對應(yīng)于聚簇Cluster_0,此類學(xué)生以男生居多,相比較而此類學(xué)生入校時三科成績最好,雖然也閱讀一定的課外書籍,但因缺乏自律性和主動性,不愿意參與公益活動,而且花費(fèi)較長的時間上網(wǎng),尤其是夜間上網(wǎng)時長最長,生活作息不規(guī)律,導(dǎo)致其學(xué)習(xí)成績在入學(xué)后產(chǎn)生倒退,反映出網(wǎng)絡(luò)對缺乏自制學(xué)生的負(fù)向影響更大。若后續(xù)加強(qiáng)對學(xué)生的引導(dǎo)和監(jiān)督,幫助學(xué)生建立自律的學(xué)習(xí)、生活習(xí)慣將對該類學(xué)生產(chǎn)生較大的影響。
缺乏規(guī)劃型學(xué)生:對應(yīng)于聚簇Cluster_2,此類學(xué)生中仍然是女生占比相對較高,從入學(xué)成績上來看,該類學(xué)生的學(xué)分績點(diǎn)為最低,同時,入校后不積極閱讀課外書籍,也不主動參與課外活動,學(xué)業(yè)要求不高,思想上中規(guī)中矩,對人生規(guī)劃缺乏思考,沉迷于網(wǎng)絡(luò),學(xué)習(xí)成績也是三類群體中的最低。因此,可以將此類學(xué)生列為重點(diǎn)關(guān)注學(xué)生群體,針對女生出現(xiàn)兩極分化的現(xiàn)象,可設(shè)置一對一幫扶小組,通過教師的關(guān)注、引導(dǎo)和監(jiān)督,幫助該類學(xué)生做好人生規(guī)劃、樹立學(xué)習(xí)目標(biāo),結(jié)合其他同齡人的帶領(lǐng)和幫扶,養(yǎng)成良好的學(xué)習(xí)和生活習(xí)慣,建立一定的學(xué)習(xí)自信心。
6? 基于學(xué)生畫像的學(xué)習(xí)成績預(yù)測分析
本研究以學(xué)習(xí)成績作為預(yù)測目標(biāo),分別選取樸素貝葉斯、廣義線性模型、Logistics回歸、決策樹、隨機(jī)森林、梯度增強(qiáng)樹和支持向量機(jī)等多個算法模型對樣本特征進(jìn)行預(yù)測分析,并對比各模型的性能優(yōu)劣。其中,Logistics回歸算法的綜合表現(xiàn)更佳,且準(zhǔn)確率最高達(dá)到0.593,因此,選取該算法構(gòu)建學(xué)習(xí)成績預(yù)測數(shù)據(jù)模型。并分別針對不同的學(xué)生類群構(gòu)建學(xué)習(xí)成績預(yù)測數(shù)據(jù)模型,有針對性的進(jìn)行學(xué)習(xí)成績預(yù)測分析。
以學(xué)生圖書借閱、上網(wǎng)行為、參與公益活動以及開展教學(xué)活動四類特征指標(biāo)為自變量,以統(tǒng)計周期內(nèi)學(xué)習(xí)成績的平均學(xué)分績點(diǎn)為因變量,對自律學(xué)霸類型、夜貓子上網(wǎng)型和缺乏規(guī)劃型三類學(xué)生的數(shù)據(jù)建立logistic回歸方程,分別對應(yīng)表3中的模型1、模型2、模型3。各模型對應(yīng)的顯著性p值均小于0.05,說明模型構(gòu)建均具有統(tǒng)計學(xué)意義,三個模型對原始學(xué)習(xí)數(shù)據(jù)的擬合通過檢驗。根據(jù)依次列出模型1、2、3的最大偽R2值分別為0.443、0.362、0.472,這說明模型3和模型1對原始屬性變量變異的解釋程度最好,模型2對原始屬性變量變異的解釋程度一般,可能還存在一部分信息無法解釋,導(dǎo)致模型的擬合程度并未達(dá)到優(yōu)秀。
從各類群預(yù)測結(jié)果對比上來看:
模型1在預(yù)測自律學(xué)霸型學(xué)生的學(xué)分績點(diǎn)在4.0以上的正確率為82%,該模型的整體預(yù)測正確率為73.2%,說明自律學(xué)霸型的logistic模型預(yù)測效果較好。
模型2在預(yù)測學(xué)分績點(diǎn)1.0以下正確率達(dá)到了100%,并且在預(yù)測夜貓子上網(wǎng)型學(xué)生的學(xué)分績點(diǎn)分布的正確率高于模型1和模型3的預(yù)測效果。
模型3對缺乏規(guī)劃型學(xué)生成績的預(yù)測正確率高達(dá)69.8%,對學(xué)分績點(diǎn)1.0以下的數(shù)據(jù)也實現(xiàn)了較好的預(yù)測效果,預(yù)測的正確率達(dá)到75%,這將為教學(xué)管理中的學(xué)情預(yù)警提供有效的數(shù)據(jù)支持。
7? 結(jié)? 論
在高校校園中,學(xué)習(xí)和生活是不可分割的兩個部分。借助學(xué)生畫像在描述學(xué)生不同類群特征上的優(yōu)勢、學(xué)習(xí)成績預(yù)測在實施教學(xué)引導(dǎo)和干預(yù)上的價值,提出了基于學(xué)生畫像的學(xué)習(xí)成績預(yù)測流程,涵蓋構(gòu)建標(biāo)簽體系和數(shù)據(jù)建模、數(shù)據(jù)采集與預(yù)處理、行為特征與學(xué)習(xí)成績之間關(guān)聯(lián)度計算、學(xué)生畫像分析與輸出以及實施學(xué)習(xí)成績預(yù)測等步驟。針對學(xué)生畫像輸出的自律學(xué)霸型、夜貓子上網(wǎng)型和缺乏規(guī)劃型三類群學(xué)生,深入分析并討論了各類群的學(xué)習(xí)成績預(yù)測效果,為高校開展相應(yīng)的學(xué)情預(yù)警工作提供有效的參考信息。今后,還將繼續(xù)在更多學(xué)習(xí)場景中整合學(xué)生不同類型的數(shù)據(jù),以挖掘?qū)W生畫像及學(xué)習(xí)成績預(yù)測的應(yīng)用潛力,促進(jìn)個性化教育與現(xiàn)代信息技術(shù)的融合創(chuàng)新發(fā)展。
參考文獻(xiàn):
[1] 王宏志,熊風(fēng),鄒開發(fā),等.教育大數(shù)據(jù)分析:方法與探索 [J].中國大學(xué)教學(xué),2017(5):53-57.
[2] 杜婧敏,方海光,李維楊,等.教育大數(shù)據(jù)研究綜述 [J].中國教育信息化,2016(19):1-4.
[3] 李鳳霞,徐玉曉.國際教育大數(shù)據(jù)研究綜述 [J].軟件導(dǎo)刊:教育技術(shù),2019,18(12):83-85.
[4] KLA?NJA-MILI?EVI? A,IVANOVI? M,BUDIMAC Z. Data science in education:Big data and learning analytics [J].Computer applications in engineering education,2017,25(6):1066-1078.
[5] DARRELL M W. Big Data for education:data mining,data analytics,and web dashboards. Governance studies at brookings [R].Washington:Brookings Institution,2012:1-10.
[6] 卓文秀,楊成,李海琦.大數(shù)據(jù)與教育智能——第17屆教育技術(shù)國際論壇綜述 [J].終身教育研究,2019,30(3):62-67.
[7] 楊長春,徐筱,宦娟,等.基于隨機(jī)森林的學(xué)生畫像特征選擇方法 [J].計算機(jī)工程與設(shè)計,2019,40(10):2827-2834.
[8] 郭順利,張宇.基于VALS2的在線健康社區(qū)大學(xué)生用戶群體畫像構(gòu)建研究 [J].現(xiàn)代情報,2021,41(10):47-58.
[9] KIU C. Data Mining Analysis On Students Academic Performance Through Exploration Of Students Background And Social Activities [C]//2018 Fourth International Conference on Advances in Computing,Communication & Automation (ICACCA).Subang Jaya:IEEE,2018:1-5.
[10] 張治,劉小龍,徐冰冰,等.基于數(shù)字畫像的綜合素質(zhì)評價:框架、指標(biāo)、模型與應(yīng)用 [J].中國電化教育,2021(8):25-33+41.
[11] 薛耀鋒,曾志通,王亞飛,等.面向區(qū)域教育治理的學(xué)校畫像研究 [J].中國教育信息化,2020(7):67-70.
[12] 葉俊民,羅達(dá)雄,陳曙.基于短文本情感增強(qiáng)的在線學(xué)習(xí)者成績預(yù)測方法 [J].自動化學(xué)報,2020,46(9):1927-1940.
[13] 蔣卓軒,張巖,李曉明.基于MOOC數(shù)據(jù)的學(xué)習(xí)行為分析與預(yù)測 [J].計算機(jī)研究與發(fā)展,2015,52(3):614-628.
作者簡介:唐茜(1988—),女,漢族,湖北松滋人,講師,碩士,研究方向:數(shù)據(jù)挖掘與分析、供應(yīng)鏈信息共享。
收稿日期:2022-09-26
基金項目:廣東省教育評估協(xié)會2021年度研究課題(21GJYPG10);北京理工大學(xué)珠海學(xué)院校級教學(xué)改革項目(2020009JXGG)