余 弦,周誼芬
(1.南通大學(xué)杏林學(xué)院,江蘇南通 226000;2.南通大學(xué),江蘇南通 226000)
當(dāng)今世界,大數(shù)據(jù)正在給各行各業(yè)帶來(lái)深遠(yuǎn)的變革,它改變了人們的生活、工作方式,對(duì)社會(huì)的進(jìn)步和變革起到了巨大的推動(dòng)作用。大數(shù)據(jù)具有數(shù)據(jù)量大、類型繁多、價(jià)值密度低、速度快、時(shí)效高等的特點(diǎn)[1],大數(shù)據(jù)時(shí)代對(duì)人們現(xiàn)有的數(shù)據(jù)駕馭能力提出了新的挑戰(zhàn),也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。如何將大數(shù)據(jù)應(yīng)用落到實(shí)處,充分利用大數(shù)據(jù)來(lái)分析和處理行業(yè)中的問(wèn)題,成為當(dāng)前研究的重點(diǎn)。
高等教育行業(yè)在大數(shù)據(jù)應(yīng)用與研究方面也面臨新的機(jī)遇和挑戰(zhàn)。隨著我國(guó)高等教育在信息化時(shí)代的不斷發(fā)展,高校在教學(xué)、管理中使用信息化系統(tǒng)的程度在逐漸加深[2],特別是此次新冠肺炎疫情下,大部分高校在疫情期間都推廣使用了遠(yuǎn)程教學(xué)、線上考試等平臺(tái),這些信息化的教學(xué)過(guò)程積累了海量的教務(wù)管理和教學(xué)過(guò)程數(shù)據(jù)。但是,這些教務(wù)管理和教學(xué)過(guò)程中的海量數(shù)據(jù)很多都處于無(wú)人問(wèn)津的狀態(tài),沒(méi)有得到有效的利用,而且隨著時(shí)間的推移,很多前期的數(shù)據(jù)會(huì)被直接刪除,造成巨大的信息資源浪費(fèi)[3]。因此,如何充分利用這些沉睡中的大量數(shù)據(jù),挖掘數(shù)據(jù)信息中的潛在價(jià)值,進(jìn)一步加深教學(xué)管理人員和任課教師對(duì)教學(xué)運(yùn)行過(guò)程的認(rèn)識(shí),從而做出更科學(xué)的教學(xué)決策,是大數(shù)據(jù)時(shí)代高等教育工作者必須思考的問(wèn)題。
高校教學(xué)運(yùn)行過(guò)程所產(chǎn)生的大量數(shù)據(jù)的一個(gè)重要組成部分就是學(xué)生成績(jī)數(shù)據(jù),課程成績(jī)不僅反映了學(xué)生的學(xué)習(xí)效果,為學(xué)生選擇研究方向、工作方向提供參考,也是高校教學(xué)質(zhì)量管理的一個(gè)重要指標(biāo),對(duì)高校深化教學(xué)評(píng)價(jià)、改革教學(xué)管理具有重要指導(dǎo)意義[4]。如何有效利用學(xué)生成績(jī)數(shù)據(jù),將其更科學(xué)地應(yīng)用于成績(jī)預(yù)警等方面,進(jìn)而提升教學(xué)管理能力和管理水平,一直是高校教學(xué)管理人員的一個(gè)努力方向。
雖然目前很多高校的成績(jī)預(yù)警在一定程度上利用了學(xué)生的既往成績(jī)數(shù)據(jù),但還是存在很大的改進(jìn)空間,主要表現(xiàn)在以下兩方面。
一是時(shí)效的滯后性。很多高校預(yù)警機(jī)制是在某一學(xué)期學(xué)生的成績(jī)?nèi)砍鰜?lái)之后,通過(guò)教務(wù)系統(tǒng)匯總學(xué)生的不及格課程,統(tǒng)計(jì)學(xué)生未取得的學(xué)分,再通過(guò)這些統(tǒng)計(jì)結(jié)果,把不及課程達(dá)到一定門數(shù)或者所欠學(xué)分達(dá)到某一數(shù)值的學(xué)生納入成績(jī)預(yù)警名單,再根據(jù)這一名單來(lái)通知輔導(dǎo)員或者家長(zhǎng),對(duì)其后續(xù)學(xué)業(yè)進(jìn)行關(guān)注和干預(yù)。由此看出,這種預(yù)警方法是當(dāng)學(xué)生因?qū)W習(xí)困難或其他原因已經(jīng)產(chǎn)生一定程度的不良學(xué)習(xí)后果之后,才對(duì)學(xué)生進(jìn)行預(yù)警,在時(shí)間上具有滯后性[5],不能在學(xué)生學(xué)習(xí)困難的初期及時(shí)介入,預(yù)警效果有限。
二是方法的局限性,傳統(tǒng)的成績(jī)預(yù)警方法都是通過(guò)類似于EXCEL里的分類匯總來(lái)實(shí)現(xiàn),這種方法只是對(duì)大量的學(xué)生成績(jī)數(shù)據(jù)進(jìn)行粗淺的總結(jié),沒(méi)有深入分析這些數(shù)據(jù)之間可能存在的關(guān)系,缺乏前瞻性的指導(dǎo)思想,在大數(shù)據(jù)時(shí)代的背景下,這種預(yù)警方法的缺陷顯得更加突出。
根據(jù)以上分析,本文基于隨機(jī)森林算法對(duì)大數(shù)據(jù)背景下的高校成績(jī)預(yù)警模型進(jìn)行研究和構(gòu)建。該模型首先分析課程之間的關(guān)聯(lián)程度,以教務(wù)系統(tǒng)中歷年的大量成績(jī)數(shù)據(jù)為基礎(chǔ),利用隨機(jī)森林算法,實(shí)現(xiàn)對(duì)學(xué)生關(guān)聯(lián)課程的未來(lái)成績(jī)可能性預(yù)測(cè),根據(jù)預(yù)測(cè)結(jié)果對(duì)可能不及格的學(xué)生進(jìn)行提早干預(yù)和介入,從源頭上減少不良學(xué)業(yè)情況,為教學(xué)管理提供有效的決策支持,提高整體教學(xué)質(zhì)量。
隨機(jī)森林是集成學(xué)習(xí)是的一個(gè)子類,通過(guò)建立幾個(gè)模型組合來(lái)解決單一預(yù)測(cè)問(wèn)題。它的基本單元是決策樹,通過(guò)集成學(xué)習(xí)的思想將多個(gè)決策樹集成的一種算法,依靠于決策樹的投票選擇來(lái)決定最后的分類結(jié)果。它的工作原理是生成多個(gè)分類器,各自獨(dú)立地學(xué)習(xí)和做出預(yù)測(cè)。這些預(yù)測(cè)最后結(jié)合成單預(yù)測(cè),因此優(yōu)于任何一個(gè)單分類的做出預(yù)測(cè)。它作為一種新興的、高度靈活的集成學(xué)習(xí)算法,在很多具體問(wèn)題中展現(xiàn)出強(qiáng)大的性能,已經(jīng)廣泛地應(yīng)用于各行各業(yè),從金融財(cái)務(wù)到醫(yī)療健康,既可以用來(lái)評(píng)估上市公司財(cái)務(wù)風(fēng)險(xiǎn),也可用來(lái)預(yù)測(cè)疾病患病概率。
隨機(jī)森林算法的實(shí)現(xiàn)過(guò)程主要分為以下3步。
(1)用隨機(jī)的方式來(lái)建立包含眾多決策樹的隨機(jī)森林,單個(gè)決策樹都是隨機(jī)生成,不同的兩個(gè)決策樹之間沒(méi)有特定的關(guān)聯(lián)。假設(shè)訓(xùn)練集大小為N,對(duì)于每棵樹而言,采用bootstrap sample方法,隨機(jī)且有放回地從總訓(xùn)練集中的抽取N個(gè)訓(xùn)練樣本,作為該樹的訓(xùn)練集[6],每棵樹的訓(xùn)練集都是不同的,而且里面包含重復(fù)的訓(xùn)練樣本。
(2)在每棵樹的生長(zhǎng)過(guò)程中,隨機(jī)選擇特征對(duì)決策樹的內(nèi)部節(jié)點(diǎn)進(jìn)行分裂,常用的決策樹分裂算法包括C4.5算法、ID3算法和CART算法等[7]。假設(shè)每個(gè)樣本的特征維度為M,根據(jù)指數(shù)最小原則,指定一個(gè)常數(shù)m< (3)將需要處理的樣本輸入隨機(jī)森林,由森林中的每一棵決策樹分別進(jìn)行分類判斷,決定輸入的樣本應(yīng)該屬于哪一類,再匯總?cè)縉棵決策樹的判斷結(jié)果,根據(jù)N種分類結(jié)果對(duì)每個(gè)記錄進(jìn)行投票表決,最終將具有最大記錄數(shù)的分類結(jié)果作為算法最終輸出[9]。 根據(jù)隨機(jī)森林算法的思想及實(shí)現(xiàn)過(guò)程,本文設(shè)計(jì)的成績(jī)預(yù)警模型以教務(wù)系統(tǒng)中往屆學(xué)生的大量成績(jī)數(shù)據(jù)為總訓(xùn)練集,采用bootstrap sample方法,抽取N個(gè)訓(xùn)練樣本作為訓(xùn)練集,形成互不關(guān)聯(lián)的N個(gè)決策樹,再選擇相關(guān)課程分?jǐn)?shù)作為隨機(jī)特征變量,每個(gè)決策樹根據(jù)自己的訓(xùn)練集對(duì)學(xué)生的成績(jī)進(jìn)行一個(gè)預(yù)測(cè),最后綜合每一個(gè)決策樹的預(yù)測(cè)結(jié)果,形成對(duì)學(xué)生未來(lái)成績(jī)最終走向的判斷。該模型如圖1所示。 圖1 基于隨機(jī)森林算法的成績(jī)預(yù)警模型示意 假設(shè)待預(yù)測(cè)的學(xué)生為某高校自動(dòng)化專業(yè)2017級(jí)學(xué)生張三,需要預(yù)測(cè)的課程為下一學(xué)年所開設(shè)的“系統(tǒng)集成技術(shù)”。根據(jù)預(yù)測(cè)課程成績(jī)的不同分為3個(gè)預(yù)警風(fēng)險(xiǎn)等級(jí):預(yù)測(cè)成績(jī)低于60分為高風(fēng)險(xiǎn),預(yù)測(cè)成績(jī)?cè)?0到75之間為中風(fēng)險(xiǎn),預(yù)測(cè)成績(jī)高于75為低風(fēng)險(xiǎn)。本文以該高校2016級(jí)自動(dòng)化專業(yè)65名學(xué)生的4 540條成績(jī)作為總訓(xùn)練集,用本文之前提出的隨機(jī)森林預(yù)警模型對(duì)學(xué)生成績(jī)數(shù)據(jù)建模,最終生成對(duì)張三的“系統(tǒng)集成技術(shù)”這門專業(yè)課的預(yù)警風(fēng)險(xiǎn)等級(jí)。 首先采用bootstrap sample方法從4 540條成績(jī)數(shù)據(jù)中抽取4個(gè)成績(jī)樣本集合作為訓(xùn)練集,形成包含4個(gè)決策樹的隨機(jī)森林,之后根據(jù)實(shí)際情況確定每個(gè)決策樹的隨機(jī)特征數(shù)為1,并為每個(gè)決策樹挑選一門本學(xué)年的專業(yè)課成績(jī)作為隨機(jī)特征變量,決策樹1以“模擬電子線路”成績(jī)作為隨機(jī)特征變量,決策樹2以“微機(jī)原理”成績(jī)作為隨機(jī)特征變量,決策樹3以“自動(dòng)控制原理”成績(jī)作為隨機(jī)特征變量,決策樹4以“電機(jī)及拖動(dòng)”成績(jī)作為隨機(jī)特征變量。經(jīng)過(guò)計(jì)算,每個(gè)決策樹根據(jù)自己的訓(xùn)練集對(duì)“系統(tǒng)集成技術(shù)”這門目標(biāo)課程成績(jī)的風(fēng)險(xiǎn)等級(jí)判斷分布如表1—4所示。 以上4個(gè)決策樹的訓(xùn)練集和訓(xùn)練結(jié)果構(gòu)成了一個(gè)具體的隨機(jī)森林,以這一隨機(jī)森林為成績(jī)預(yù)警模型的核心,將學(xué)生張三當(dāng)前學(xué)年的4門專業(yè)課程成績(jī)作為樣本輸入,由4個(gè)決策樹來(lái)分別判斷目標(biāo)課程的風(fēng)險(xiǎn)等級(jí),綜合以上4個(gè)決策樹的預(yù)測(cè)結(jié)果,最終得到該學(xué)生的目標(biāo)課程風(fēng)險(xiǎn)等級(jí)分布,如表5所示。 根據(jù)最終預(yù)測(cè)結(jié)果,該學(xué)生下一學(xué)年的目標(biāo)課程“系統(tǒng)集成技術(shù)”成績(jī)處于高風(fēng)險(xiǎn)和低風(fēng)險(xiǎn)的概率都較小,分別為4.9%和24.0%;處于中風(fēng)險(xiǎn)的概率較大,為66.2%。 本文針對(duì)現(xiàn)有高校學(xué)生成績(jī)預(yù)警的滯后性、局限性,基于大數(shù)據(jù)背景下隨機(jī)森林算法,提出了一種高校學(xué)生成績(jī)預(yù)警模型。通過(guò)對(duì)高校相同專業(yè)學(xué)生的現(xiàn)有成績(jī)進(jìn)行深入分析,挖掘成績(jī)數(shù)據(jù)的潛在規(guī)律,從大量成績(jī)數(shù)據(jù)中抽樣形成不同的訓(xùn)練集,進(jìn)而形成若干決策樹對(duì)學(xué)生的成績(jī)分別做出預(yù)測(cè),最終綜合所有決策樹的預(yù)測(cè)結(jié)果得出學(xué)生成績(jī)的風(fēng)險(xiǎn)等級(jí)。經(jīng)過(guò)實(shí)驗(yàn)證明,該預(yù)警模型能夠有效改進(jìn)現(xiàn)有的成績(jī)預(yù)警機(jī)制,使預(yù)警能夠提前產(chǎn)生,為盡早介入學(xué)生不良學(xué)業(yè)提供了技術(shù)支撐,提高了學(xué)生的學(xué)習(xí)質(zhì)量和效果。 表1 決策樹1對(duì)目標(biāo)課程的風(fēng)險(xiǎn)等級(jí)判斷 表2 決策樹2對(duì)目標(biāo)課程的風(fēng)險(xiǎn)等級(jí)判斷 表3 決策樹3對(duì)目標(biāo)課程的風(fēng)險(xiǎn)等級(jí)判斷 表4 決策樹4對(duì)目標(biāo)課程的風(fēng)險(xiǎn)等級(jí)判斷 表5 學(xué)生目標(biāo)課程風(fēng)險(xiǎn)等級(jí)分布3 基于隨機(jī)森林算法的成績(jī)預(yù)警模型
3.1 成績(jī)預(yù)警模型的構(gòu)建
3.2 成績(jī)預(yù)警模型的實(shí)現(xiàn)
4 結(jié)語(yǔ)