林月嬌
隨著信息化和網(wǎng)絡(luò)化進程的不斷演進,人類由于生活和生產(chǎn)作業(yè)所形成的數(shù)據(jù)信息量正以幾何級的增長速度不斷產(chǎn)生。目前,我國許多高校都開展了以校園網(wǎng)為平臺的“數(shù)字化”校園建設(shè),大量與學生成長相關(guān)的學科成績和其他評價分析數(shù)據(jù)被儲存記錄下來。本文主要研究利用知識發(fā)現(xiàn)的理論方法對這些數(shù)據(jù)做深度的研究分析,挖掘出數(shù)據(jù)間隱含的關(guān)聯(lián)關(guān)系,以便更好地應(yīng)用管理創(chuàng)新理論,提高學生管理的信息化水平,提升高校教務(wù)管理水平。
一、知識發(fā)現(xiàn)與數(shù)據(jù)挖掘的理論基礎(chǔ)
(一)知識發(fā)現(xiàn)的研究綜述
知識發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD)一詞最早出現(xiàn)在1989年8月美國底特律召開的第11屆國際聯(lián)合人工智能學術(shù)會議上[1]。1996年,知識發(fā)現(xiàn)被Fayyad U,Piatetsky,Shapiro G和Smyth P定義為:知識發(fā)現(xiàn)是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程[2]。對KDD的研究主要包括從數(shù)據(jù)庫的角度進行研究以強調(diào)知識發(fā)現(xiàn)的效率,從機器學習的角度進行研究以強調(diào)知識發(fā)現(xiàn)的有效性,從統(tǒng)計分析的角度進行研究以強調(diào)知識發(fā)現(xiàn)的正確性,從微觀經(jīng)濟學的角度進行研究以強調(diào)知識發(fā)現(xiàn)的最大效用。KDD過程是多個步驟交互螺旋式上升的學習和總結(jié)過程[3],基本流程包括:
(1)限定學習領(lǐng)域,儲備預(yù)先知識、確定學習目標;
(2)聚焦目標數(shù)據(jù)集,選擇一個數(shù)據(jù)集或在多數(shù)據(jù)集的子集上聚焦;
(3)數(shù)據(jù)預(yù)處理,數(shù)據(jù)降噪或數(shù)據(jù)清洗;
(4)數(shù)據(jù)轉(zhuǎn)換;
(5)確定數(shù)據(jù)挖掘功能法則;
(6)獲得知識信息、運用知識成果并重新選定學習目標。
在創(chuàng)新的過程中,單單依靠顯性知識已經(jīng)不足以支撐整個思維求異和技術(shù)創(chuàng)新的全流程。隨著數(shù)據(jù)量的爆炸式增長,傳統(tǒng)數(shù)據(jù)庫的檢索查詢已不能滿足信息社會的深層次需求,再加上傳統(tǒng)分析手段的落后,大量數(shù)據(jù)來不及整理、分析或利用就已“時過境遷”成為無效信息,而且被長期積壓在數(shù)據(jù)庫中浪費存儲資源。為了及時消解數(shù)據(jù)產(chǎn)生和數(shù)據(jù)理解之間的矛盾,還必須定期對數(shù)據(jù)進行深度挖掘,使得大量被隱藏的、有價值的信息得到有效利用。
(二)數(shù)據(jù)挖掘的理論探索
數(shù)據(jù)挖掘(Data Mining)是指使用算法來抽取信息和模式,通常是知識發(fā)現(xiàn)過程的一個重要步驟。數(shù)據(jù)挖掘融合了機器學習、模式識別、數(shù)據(jù)庫技術(shù)、統(tǒng)計學理論、人工智能及信息管理系統(tǒng)等多門學科的最新成果。應(yīng)用數(shù)據(jù)挖掘技術(shù)從大型數(shù)據(jù)庫中發(fā)現(xiàn)隱藏在其中的規(guī)律和有用信息,為管理層決策提供事實型數(shù)據(jù)和研究模式。
根據(jù)KDD的目標任務(wù),數(shù)據(jù)挖掘任務(wù)可分為:分類或預(yù)測模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)與聚類發(fā)現(xiàn)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、相似模式發(fā)現(xiàn)、混沌模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等。而所要挖掘的對象則可以分為:關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫以及web等對象的挖掘。從方法論講,其挖掘方法一般分為:聚類分析、探索性分析、機器、統(tǒng)計、神經(jīng)網(wǎng)絡(luò)(Neural Network)、遺傳算法(Genetic Algorithm)、數(shù)據(jù)庫、近似推理和不確定性推理、基于證據(jù)理論和元模式、現(xiàn)代數(shù)學分析、粗糙集(Rough Set)、集成方法等方法[4]。
(三)小結(jié)
綜上,知識發(fā)現(xiàn)用于從大量數(shù)據(jù)中抽取規(guī)律信息,發(fā)現(xiàn)非預(yù)期或潛在的價值量,而數(shù)據(jù)挖掘作為知識發(fā)現(xiàn)的重要一環(huán)是與實踐應(yīng)用緊密相連的,兩者不僅僅是對數(shù)據(jù)的簡單檢索調(diào)用,而是從數(shù)據(jù)集合中自動提取出隱含在數(shù)據(jù)中的關(guān)系和模式,進而對未來可能發(fā)生的行為進行預(yù)測,為決策者提供有力支持。
二、高校成績管理與學科建設(shè)
成績是學生在校學習期間對所學知識理解掌握情況和教師教學質(zhì)量評價的原始記錄,對學校的教學管理和教學改革措施評價具有重要的參考價值[5]。成績管理是高校教學管理中的最為基礎(chǔ)性的一個環(huán)節(jié),是根據(jù)教學目的和教學任務(wù),
通過學生的實際量化考核分數(shù)來進行統(tǒng)計、查閱和分析的綜合性數(shù)據(jù)處理過程。該過程的科學與否,直接關(guān)系到教務(wù)管理的實際質(zhì)量和教學工作的可持續(xù)發(fā)展,特別是在網(wǎng)絡(luò)化和信息化的新形勢下,該項工作被素質(zhì)教育賦予更加深遠的現(xiàn)實意義。本文所指學科成績不僅限于學生的筆試成績,還包括了學生參加各種校內(nèi)外實習和培訓,以及其他形式素質(zhì)教育的量化數(shù)據(jù)。
(一)高校成績管理所面臨的新形勢
從宏觀上講,隨著國家高等教育普及工作的不斷推進,以及教育戰(zhàn)線“以人為本”理念的逐步深入,高校教務(wù)在成績管理這一環(huán)節(jié)上所面臨的任務(wù)顯得比以往任何時刻都更加繁重。
首先,院校擴建和學生擴招為學科成績管理模塊在數(shù)據(jù)容量上增加了壓力。近幾年,隨著一些高校教學資源的整合和擴充,許多高校設(shè)立了新校區(qū)、設(shè)置了新專業(yè),反映在學生成績管理上則是成績數(shù)據(jù)的時空容量同時增長。每多出一個學生,從學籍材料到各年度學科數(shù)據(jù)再到圖形化成績資料都會相應(yīng)增加,教師教務(wù)管理系統(tǒng)所要處理的信息量也會相應(yīng)增加,這首先在量上增加了數(shù)據(jù)壓力。
同時,素質(zhì)教育為學科成績管理如何更好地服務(wù)教師施教和學生學習提出了新的課題。素質(zhì)教育是我國長期以來所推行的一項基本國策。學科成績是高校學生在校的唯一量化評價指標,如何通過這些數(shù)據(jù)來及時反映出學生的學習效果和心理需求、反映出教師隊伍的教學質(zhì)量和教學改革進度,已經(jīng)成為教務(wù)管理系統(tǒng)化的一個重要課題。
其次,教學管理模式改革為建立規(guī)范化的成績管理系統(tǒng)并進行深度信息挖掘提出迫切需求。當前許多高校都在積極推進教學管理制度改革,逐步以學分制和選課制替代原有的學年制和班級授課制度,這種模式的改革在提高學生的學習積極性的同時,無形之中也為成績管理工作帶來了一定難度,比如增加了課程設(shè)置的不確定性,成績管理不能再以自然班級為單位,而是必須以單個的學生或者學生組合為單位,使得成績管理更加復雜。
最后,網(wǎng)絡(luò)化和信息化的需求為傳統(tǒng)成績管理模式的轉(zhuǎn)型升級提出新的任務(wù)和方向。隨著學分制等改革進程的推進,學生成績管理系統(tǒng)的表單鏈路和字段設(shè)置都與傳統(tǒng)的數(shù)據(jù)庫有較大差異,如何及時處理這些數(shù)據(jù)并實現(xiàn)與其他系統(tǒng)的無縫鏈接,也是新時期高校成績管理的一大難題。
利用學科成績數(shù)據(jù)挖掘提升高校教務(wù)管理水平的路徑探索
(二)應(yīng)用知識發(fā)現(xiàn)提高教務(wù)管理水平的路徑探索
根據(jù)上述知識發(fā)現(xiàn)理論,首先將本系統(tǒng)研究的“學習”目標確定為“提取學生信息、提升教學質(zhì)量、完善學科設(shè)置”三大定位。而研究所涉及的目標數(shù)據(jù)集則包括學生從高考到進入高校期間的與學習考核或?qū)嵙暢煽兿嚓P(guān)的所有數(shù)據(jù)記錄。
在數(shù)據(jù)挖掘功能法則方面,采用“全流程式”和“切片式”挖掘方式,確保對每個學生入校后各個時期的成績數(shù)據(jù)都能監(jiān)控和分析,而且能夠?qū)崿F(xiàn)“點面結(jié)合”的分析模式。擬通過以下三個路徑達到上述目標:
1.繪制學生學習成長路線圖
高等教育階段是學生從接受知識到邁入社會工作的重要轉(zhuǎn)折點,也是學生個人性格形成和轉(zhuǎn)變的重要節(jié)點。這個過程中,學生的大部分時間在校內(nèi)度過,此間學生的學習興趣轉(zhuǎn)移和情感波動情況,都會在學科成績上反映出來,學科成績不可替代地成為完整記錄和反映學生特長和成長情況的重要量化數(shù)據(jù)。從培養(yǎng)學生綜合能力的角度出發(fā),學校要及時掌握學生成績出現(xiàn)明顯波動,或持續(xù)偏科等現(xiàn)象,利用學科成績等數(shù)據(jù)以連續(xù)的時間序列繪制出學生的學習成長路線圖。成長路線圖不單單可以供學校使用,也可以供學生家長全面了解學生在校的學習情況,還可以在學生畢業(yè)時候,形成一張富有多維度信息量的“立體成績單”供企業(yè)參考,以便企業(yè)更加全面地了解畢業(yè)生的特長和綜合素質(zhì)。
2.構(gòu)建教師教學質(zhì)量評估體系
傳統(tǒng)的教師教學質(zhì)量一般通過課堂授課和調(diào)查問卷的評價形式進行,這種方式會因為選取樣本的時間采樣點較少而無法對某個教師在較長時間周期內(nèi)的教學質(zhì)量進行全面評估,也不利于對教師的教學質(zhì)量形成量化的評估數(shù)據(jù)。因此,可以通過借助考察學生成績的方式,從學生的學習成果反推得到教師的授課效果,從側(cè)面得到教學水平的衡量效果。這種方式尤其適用于高校公開課等參與學生較多的課程評價,而且能夠形成實時的直觀結(jié)果。
3.完善學校學科課程設(shè)置方案
高等教育的學科劃分和高等學校主要以學科為基礎(chǔ)的專業(yè)設(shè)置,是現(xiàn)代大學的立學之本,教學之范。它關(guān)系著人才培養(yǎng)的規(guī)劃和目標、教育資源的配置和協(xié)調(diào)、教育的質(zhì)量和效益、學術(shù)的繁榮和發(fā)展以及高等教育與社會發(fā)展的協(xié)調(diào)與和諧等一系列重要方面[6]。在學分制和選修教育改革后,高校的課程設(shè)置變得更加靈活,設(shè)置方案也變得更加復雜。如何與時俱進來調(diào)整課程設(shè)置,也成為高校教務(wù)管理的一大課題。教學管理系統(tǒng)應(yīng)該根據(jù)特定時期內(nèi)學生的課程選修變化態(tài)勢和成績數(shù)據(jù)的變化情況,相應(yīng)調(diào)整部分選修課程的設(shè)置,以滿足學生的興趣培養(yǎng)和社會需求。
三、高校學科成績數(shù)據(jù)挖掘系統(tǒng)的具體實現(xiàn)
知識發(fā)現(xiàn)的過程就是數(shù)據(jù)處理和分析應(yīng)用的過程,本節(jié)將就如何進行學科成績數(shù)據(jù)挖掘的宏觀框架設(shè)計和軟件實現(xiàn)進行探討。
(一)利用知識發(fā)現(xiàn)理論進行學科成績數(shù)據(jù)挖掘的頂層設(shè)計
如圖1所示,首先對整個學校學科成績的不同數(shù)據(jù)源進行整合,包括對字段、內(nèi)容的格式化,合并為單個的目標數(shù)據(jù)庫。再根據(jù)本次知識發(fā)現(xiàn)的主要目的,選擇核心數(shù)據(jù)源提取作為分析重點,根據(jù)不同的挖掘法則建立模型,并對隱含在數(shù)據(jù)中的信息進行分析預(yù)測,為供教務(wù)管理決策提供理論依據(jù)。
C/S的軟件架構(gòu)實現(xiàn)信息查詢系統(tǒng)。基于網(wǎng)頁的B/S架構(gòu)可以方便校外用戶或企業(yè)通過電信網(wǎng)訪問系統(tǒng),基于C/S架構(gòu)的查詢系統(tǒng)可以用于校內(nèi)管理用戶實現(xiàn)對數(shù)據(jù)的快速查詢操作,并實現(xiàn)數(shù)據(jù)的備份等操作。具體的實現(xiàn)路線如圖2所示:
圖2學科信息挖掘系統(tǒng)的軟件實現(xiàn)
四、研究結(jié)論與展望
綜上所述,隨著高校管理和決策者對信息質(zhì)量的要求不斷提升,傳統(tǒng)的靜態(tài)統(tǒng)計分析法已經(jīng)難以適應(yīng)需求,面對海量、多維而寶貴的學科成績?nèi)绾巫龅饺ゴ秩【?、充分利用已?jīng)成為高校教務(wù)管理朝著智能化、信息化發(fā)展的大方向。本文期望從知識發(fā)現(xiàn)和數(shù)據(jù)挖掘的基本理論出發(fā),構(gòu)建起一套能夠充分利用學科成績等數(shù)據(jù)的分析和處理系統(tǒng),解決目前高校普遍存在的“信息數(shù)量與信息質(zhì)量不對等”情況,并從系統(tǒng)的宏觀設(shè)計到軟件的框架搭建給出建議和意見,期望能對高校管理人員,特別是教務(wù)管理人員起到啟示作用。
[基金項目:天津農(nóng)學院2014年度本科教育教學研究與改革項目“我校實施創(chuàng)新學分過程中的問題及對策的研究”(2014-B-18)。]
參考文獻:
[1] GRIGORIS ANTONIOU(希).語義網(wǎng)基礎(chǔ)教程[M].北京:機械工業(yè)出版社, 2008.
[2]Fayyad U.From Data Mining to Knowledge Discovery in Databases[J].Ai Magazine, 1996, 17(3):37-54.
[3]邱曉輝.知識發(fā)現(xiàn)與數(shù)據(jù)挖掘分析[J].情報探索, 2011(1):99-101.
[4]毛國君.數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法研究[D].北京工業(yè)大學, 2003.
[5]李丹, 許鑫, 董亞楠.高校成績管理存在的問題及改革措施[J].河北聯(lián)合大學學報:醫(yī)學版, 2013, 15(1):126-127.
[6]紀寶成.中國大學學科專業(yè)設(shè)置研究[M].北京:中國人民大學出版社, 2006.
責任編輯朱守鋰