趙金暉,程學(xué)林,張圣揚(yáng),張 微,尹天鶴
(1.浙江大學(xué) 軟件學(xué)院,浙江 寧波 315100;2.寧波數(shù)聯(lián)軟件有限公司,浙江 寧波 315100;3.寧波工程學(xué)院,浙江 寧波 315100)
近年來,各類在各級(jí)教育中的信息均取得了豐碩的成果,基礎(chǔ)教育,職業(yè)教育,高等教育和繼續(xù)教育與自己的需求相結(jié)合的領(lǐng)域,都出現(xiàn)了擴(kuò)大資源的覆蓋面,促進(jìn)教育公平和提高教育教學(xué)質(zhì)量等的利用信息技術(shù)的典型應(yīng)用,教育信息化帶動(dòng)作用日益凸顯[1]。
目前,云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)等新興技術(shù)正廣泛應(yīng)用于各行業(yè),信息社會(huì)作為一個(gè)整體的程度不斷加深。同樣,互聯(lián)網(wǎng)思維在傳統(tǒng)教育行業(yè)中的實(shí)踐方興未艾,教育行政部門和學(xué)校都積極推進(jìn)教育信息化改革[2]。
教育信息化在各個(gè)階段的表現(xiàn)包括但不限于多媒體教學(xué)、家校互動(dòng)以及教學(xué)教務(wù)線上化、覆蓋教學(xué)測評的題庫組卷和閱卷系統(tǒng)、豐富的線上教學(xué)資源。教育信息化水平日漸提高,但測試仍然是重要的學(xué)業(yè)評價(jià)和控制手段[3-4]。教育信息化不僅包括教學(xué)活動(dòng)信息化,還包括校園生活管理系統(tǒng),豐富的校園生活數(shù)據(jù)是優(yōu)化教務(wù)教學(xué)管理決策重要的參考,如圍繞校一卡通收集的消費(fèi)、考勤等行為數(shù)據(jù)。
在信息化進(jìn)程中,不僅要建設(shè)與安全并重,在注重硬件與軟件協(xié)同發(fā)展的同時(shí),還要重視數(shù)據(jù)采集和維護(hù)管理。數(shù)據(jù)是教育信息化中科學(xué)決策、精細(xì)管理、即時(shí)分析的基礎(chǔ)。然而粗放式數(shù)據(jù)管理普遍存在,標(biāo)準(zhǔn)化的數(shù)據(jù)流程勢在必行,最終實(shí)現(xiàn)數(shù)據(jù)的有序開放與共享[5-6]。
另一方面在新高考政策下,高考從標(biāo)配走向自選,從選課到教學(xué)的多個(gè)環(huán)節(jié)對信息化需求日益旺盛。學(xué)生如何選課、學(xué)校如何開設(shè)課程、教學(xué)如何考核、學(xué)業(yè)水平如何分析等成為學(xué)校和教育信息化企業(yè)關(guān)注的焦點(diǎn)。其本質(zhì)是滿足教學(xué)的個(gè)性化需求[7]。
該文以寧波市某中學(xué)教學(xué)數(shù)據(jù)應(yīng)用為場景,基于該學(xué)校采集和存儲(chǔ)的學(xué)生個(gè)人信息、考試成績、校園一卡通等豐富的校園數(shù)據(jù),結(jié)合數(shù)據(jù)可視分析和數(shù)據(jù)倉庫的理論方法,探索面向?qū)W生、校園的數(shù)據(jù)分析體系,設(shè)計(jì)并形成可視化數(shù)據(jù)分析門戶,為教學(xué)數(shù)據(jù)可視分析提供敏捷方案,從而更好地服務(wù)精細(xì)化教學(xué)管理工作[8]。
教學(xué)數(shù)據(jù)可視分析的實(shí)施以學(xué)校原有系統(tǒng)正常運(yùn)行為基礎(chǔ)。教學(xué)數(shù)據(jù)可視分析系統(tǒng)的數(shù)據(jù)架構(gòu)則關(guān)注數(shù)據(jù)上云和數(shù)據(jù)倉庫的建設(shè)[9-11],最終數(shù)據(jù)可視化分段則通過商業(yè)智能工具,構(gòu)建可視分析門戶[12-13],并結(jié)合具體教學(xué)數(shù)據(jù)分析模型,展示教學(xué)數(shù)據(jù)的可視分析結(jié)果[14]。該方案采用的整體數(shù)據(jù)處理架構(gòu)如圖1所示。
圖1 數(shù)據(jù)架構(gòu)
教學(xué)數(shù)據(jù)源,通常是分布在不同的教務(wù)系統(tǒng)和數(shù)據(jù)庫中,為了便于從多源異構(gòu)的數(shù)據(jù)源中抽取、轉(zhuǎn)換、加載數(shù)據(jù),保證數(shù)據(jù)采集過程規(guī)范化和文檔化,該文提供了專門的ETL過程解決方案,可以實(shí)現(xiàn)數(shù)據(jù)上云過程的文檔化和自動(dòng)化。
數(shù)據(jù)倉庫是系統(tǒng)的數(shù)據(jù)中心,也是數(shù)據(jù)源和商業(yè)智能間的數(shù)據(jù)中轉(zhuǎn)站。借鑒企業(yè)信息化工廠體系,在關(guān)系型數(shù)據(jù)庫上建立數(shù)據(jù)倉庫和數(shù)據(jù)集市,數(shù)據(jù)集市中的數(shù)據(jù)直接供給商業(yè)智能工具。數(shù)據(jù)源到數(shù)據(jù)倉庫,數(shù)據(jù)倉庫到數(shù)據(jù)集市的ETL過程承載了計(jì)算的負(fù)荷,從而加速商業(yè)智能響應(yīng)。商業(yè)智能工具直接從數(shù)據(jù)量較小的數(shù)據(jù)集市調(diào)用數(shù)據(jù),數(shù)據(jù)檢索的負(fù)荷低,響應(yīng)快。
圖2是分析學(xué)生成績數(shù)據(jù)建立的ER模型,其中測驗(yàn)實(shí)體是該ER模型的核心,一個(gè)班級(jí)進(jìn)行的一場考試就是一場測驗(yàn),也可以涵蓋少數(shù)群體的考試。一次考核包括多科目的測驗(yàn)。ER模型還涉及學(xué)生班級(jí)年級(jí)間的隸屬關(guān)系、班主任和班級(jí)間的對應(yīng)關(guān)系、任課教師和班級(jí)間的對應(yīng)關(guān)系。
圖2 數(shù)據(jù)倉庫ER建模
圖3則是在圖2的基礎(chǔ)上,面向成績主題分析建立的星型模型,其中的實(shí)體表和聯(lián)系表派生于ER模型。成績單事實(shí)表為成績單聯(lián)系表(即學(xué)生-測試聯(lián)系表)。事實(shí)表與學(xué)生、教師、日期、考試等維度表進(jìn)行關(guān)聯(lián),并通過ETL進(jìn)行數(shù)據(jù)的聚合。
圖3 數(shù)據(jù)倉庫星型模式建模
教學(xué)數(shù)據(jù)可視分析系統(tǒng)面向全體在校師生,基本的數(shù)據(jù)分析需求可以簡單地劃分為學(xué)生域數(shù)據(jù)分析和群體域數(shù)據(jù)分析,從多個(gè)維度對數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)分析,將積淀的數(shù)據(jù)以直觀的方式呈現(xiàn)出來。校園師生通過登錄教學(xué)數(shù)據(jù)可視分析系統(tǒng)可以獲取自身相關(guān)的歷史或截面數(shù)據(jù)??陀^數(shù)字圖表有助于掌握教學(xué)現(xiàn)狀,輔助教學(xué)計(jì)劃調(diào)整。該文更進(jìn)一步地探索了人工智能在學(xué)習(xí)分析中的應(yīng)用,滿足學(xué)生成績預(yù)警的需求。
圖4和圖5從學(xué)生域和群體域分別展示了在分析學(xué)生成績和消費(fèi)、考勤的過程中采用的數(shù)據(jù)指標(biāo)。
圖4 部分成績可視分析數(shù)據(jù)指標(biāo)
學(xué)生域數(shù)據(jù)分析跟蹤各個(gè)科目歷史考試成績,明確學(xué)生當(dāng)前學(xué)科成績分布特點(diǎn)以及未來成績趨勢,為學(xué)業(yè)干預(yù)提供主要基本輸入。監(jiān)控學(xué)生校園消費(fèi),匯總按月、按周、按日統(tǒng)計(jì)消費(fèi)額度和頻數(shù),為消費(fèi)異常預(yù)警提供輸入。分類匯總學(xué)生考勤信息,作為學(xué)業(yè)干預(yù)的輔助信息輸入。
群體域數(shù)據(jù)分析則從年級(jí)、班級(jí)、科目等維度跟蹤并匯總歷史考試成績、校園消費(fèi)、考勤記錄、選課信息。群體域數(shù)據(jù)分析跟蹤了群體指標(biāo)數(shù)據(jù)的歷史變化趨勢,探索了群體指標(biāo)數(shù)據(jù)的分布。
其中學(xué)生成績包括原始分、Z標(biāo)準(zhǔn)分和T標(biāo)準(zhǔn)分。原始分即考生卷面實(shí)際分值。單個(gè)原始分既無法直接呈現(xiàn)接收相同測評的考生間的差異,也無法體現(xiàn)同一考生在不同測評中的表現(xiàn)差異。Z標(biāo)準(zhǔn)分和T標(biāo)準(zhǔn)分通過式(1)和式(2)計(jì)算得到。
(1)
T=50+10×Z
(2)
學(xué)生在高考時(shí)除語文、數(shù)學(xué)、外語三門為必考科目外,考生要從思想政治、歷史、地理、物理、化學(xué)、生物、技術(shù)七門選考科目中,選擇三門作為選考科目。所以群體域數(shù)據(jù)分析需包括對選課信息的跟蹤和匯總,為教學(xué)資源的合理調(diào)配和開課形式的多樣化提供參考。群體域分析結(jié)合學(xué)生域分析,共同輔助在校師生合理制定和調(diào)整學(xué)習(xí)計(jì)劃。
該文提出的方案在不影響原有系統(tǒng)的基礎(chǔ)上,實(shí)施教學(xué)數(shù)據(jù)可視分析系統(tǒng)的搭建,系統(tǒng)面向全體師生和教務(wù)部門。教務(wù)部門擁有系統(tǒng)訪問的最高權(quán)限,系統(tǒng)服務(wù)教務(wù)部門進(jìn)行學(xué)習(xí)分析和教學(xué)資源調(diào)配,優(yōu)化教學(xué)管理活動(dòng)。教師可分為任課教師和班主任,班主任可訪問所帶班級(jí)數(shù)據(jù)和班級(jí)學(xué)生數(shù)據(jù),任課教師可訪問所帶學(xué)生成績相關(guān)數(shù)據(jù)。學(xué)生可訪問自身歷史數(shù)據(jù),及時(shí)調(diào)整學(xué)習(xí)計(jì)劃和校園生活。
圖6展示了該系統(tǒng)包括的十大模塊。學(xué)生、教師、班級(jí)和學(xué)校畫像實(shí)現(xiàn)了基本數(shù)據(jù)分析需求中學(xué)生域數(shù)據(jù)的可視化展示,各校原系統(tǒng)數(shù)據(jù)面向全校師生,充分可達(dá)。系統(tǒng)以可觀的數(shù)字和直觀的圖表自動(dòng)跟蹤學(xué)生成績、消費(fèi)、考勤數(shù)據(jù)的描述性統(tǒng)計(jì)指標(biāo)。
圖6 教學(xué)數(shù)據(jù)可視分析系統(tǒng)功能設(shè)計(jì)
學(xué)生對比分析和班級(jí)對比分析功能模塊為教務(wù)部門和教師提供了快速定位學(xué)生或班級(jí)的有效手段,實(shí)現(xiàn)優(yōu)勢互補(bǔ),促進(jìn)學(xué)生、班級(jí)共同進(jìn)步。
選課分析功能模塊、消費(fèi)分析功能模塊、考勤分析功能模塊、成績預(yù)測功能模塊在畫像功能模塊的基礎(chǔ)上,更深入地探索數(shù)據(jù)。
選課分析功能模塊包括選課組合占比分析、選課關(guān)聯(lián)分析、選課組合競爭分析。其中選課組合占比分析和選課關(guān)聯(lián)分析共同輔助教師資源調(diào)配、課程開課形式多樣化以及科目教學(xué)合作。選課組合競爭分析功能,發(fā)掘各選課組合競爭激烈程度,呈現(xiàn)各水平學(xué)生在的選課偏好,為學(xué)生制定學(xué)習(xí)計(jì)劃提供參考。
消費(fèi)分析功能模塊和考勤分析功能模塊都提供了預(yù)警功能,及時(shí)發(fā)現(xiàn)異常消費(fèi)或考勤行為,輔助教學(xué)管理活動(dòng)。其中消費(fèi)分析功能模塊直觀呈現(xiàn)消費(fèi)頻數(shù)、額度分布,輔助定位貧困生,結(jié)合學(xué)生畫像、考勤分析和對比分析,實(shí)現(xiàn)更精準(zhǔn)的幫扶。
成績預(yù)測功能模塊則是人工智能技術(shù)在教學(xué)管理領(lǐng)域的探索。
成績預(yù)測功能模塊為了體現(xiàn)學(xué)生成績在一定范圍內(nèi)波動(dòng)的合理性[15-16],將學(xué)生成績劃分為不同的等第,對數(shù)據(jù)進(jìn)行離散化的處理。
可用于預(yù)測學(xué)生考試成績的特征包括成績歷史屬性、學(xué)生自身屬性、消費(fèi)考勤數(shù)據(jù)等等。成績歷史屬性又可以取最近多場次成績指標(biāo)、最近多場次成績指標(biāo)環(huán)比變化等。學(xué)生自身屬性則包括年齡、性別、家庭狀況等。學(xué)生近期消費(fèi)頻次、消費(fèi)額度、考勤狀況等則可以作為可能影響學(xué)生成績的校園生活數(shù)據(jù)特征。
決策樹作為分類算法具有良好的解釋性,選擇信息增益算法自上而下構(gòu)建決策樹,來選擇對成績預(yù)測有顯著影響的特征。D表示訓(xùn)練集,A表示可能用于預(yù)測成績的特征,n表示劃分的成績等第類別數(shù),m表示當(dāng)前節(jié)點(diǎn)子節(jié)點(diǎn)數(shù)量即特征A的可能情形數(shù)。H(D)經(jīng)驗(yàn)熵表示當(dāng)前節(jié)點(diǎn)的混亂程度,H(D,A)條件經(jīng)驗(yàn)熵表示根據(jù)A特征構(gòu)建的子節(jié)點(diǎn)總體混亂程度,g(D,A)信息增益表示A特征的影響是否顯著。每次取信息增益最大的特征構(gòu)建子節(jié)點(diǎn)。經(jīng)驗(yàn)熵或信息增益為零不再構(gòu)建子節(jié)點(diǎn)。經(jīng)驗(yàn)熵、條件經(jīng)驗(yàn)熵和信息增益分別按式(3)~式(5)計(jì)算得到。
獲取顯著特征后,輸入特征到神經(jīng)網(wǎng)絡(luò)進(jìn)行成績預(yù)測。和傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,神經(jīng)網(wǎng)絡(luò)具有擬合任意函數(shù)的能力。神經(jīng)網(wǎng)絡(luò)能夠在模型訓(xùn)練過程中學(xué)習(xí)到特征組合到結(jié)果的映射,不僅僅是各個(gè)特征單獨(dú)或少數(shù)特征組合對預(yù)測結(jié)果作用能被體現(xiàn),特征間潛在的聯(lián)系對預(yù)測結(jié)果的作用也能被神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到。
(3)
(4)
g(D,A)=H(D)-H(D,A)
(5)
可視分析部分采用Quick BI進(jìn)行實(shí)現(xiàn),限制篇幅,下面僅展示以學(xué)生為主題實(shí)現(xiàn)的可視分析結(jié)果頁面。
圖7展示了學(xué)生畫像的部分內(nèi)容。在該界面,左側(cè)展示的是學(xué)生基本信息,右側(cè)以詞云的方式展示了該學(xué)生的標(biāo)簽信息。標(biāo)簽信息根據(jù)學(xué)生歷史成績、消費(fèi)、考勤數(shù)據(jù)進(jìn)行自動(dòng)計(jì)算產(chǎn)生。
圖7 學(xué)生畫像
圖8展示了學(xué)生某次考試的各門學(xué)科成績,包括總分、班級(jí)排名、年級(jí)排名。還展示了近五次考試總分變化趨勢。
圖8 學(xué)生成績分析
圖9展示了學(xué)生月消費(fèi)額和平均消費(fèi)額趨勢,近8個(gè)月總消費(fèi)額,近5天消費(fèi)趨勢。
圖9 學(xué)生消費(fèi)分析
以寧波市某中學(xué)為研究案例,通過挖掘?qū)W校數(shù)據(jù)可視分析需求,制定學(xué)生域和群體域數(shù)據(jù)分析指標(biāo)和相應(yīng)的可視化方案,進(jìn)行了功能模塊和技術(shù)框架設(shè)計(jì),探索了人工智能在教學(xué)管理中的應(yīng)用,最后通過商業(yè)智能分析工具進(jìn)行了可視分析實(shí)現(xiàn)。整個(gè)實(shí)施過程,應(yīng)用了云計(jì)算、ETL過程、數(shù)據(jù)倉庫等多種技術(shù),提高了校園教學(xué)數(shù)據(jù)管理化水平,推動(dòng)了智慧校園的建設(shè)。