李?yuàn)檴?李忠
摘要:在數(shù)據(jù)爆發(fā)的新形勢(shì)下,數(shù)據(jù)挖掘分析需求量劇增,然而傳統(tǒng)數(shù)據(jù)挖掘課程的教學(xué)模式存在一些弊端,無法滿足培養(yǎng)實(shí)際應(yīng)用型人才的需要。為了解決這一問題,教師應(yīng)從學(xué)生的興趣點(diǎn)出發(fā),以工程項(xiàng)目為載體,貫穿整個(gè)教學(xué)周期,以加強(qiáng)學(xué)生對(duì)數(shù)據(jù)挖掘建模分析整個(gè)流程的理解,使學(xué)生能夠掌握對(duì)各種數(shù)據(jù)的挖掘分析。
關(guān)鍵詞:本科;數(shù)據(jù)挖掘;反思;改革
隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,尤其移動(dòng)互聯(lián)網(wǎng)的爆發(fā)性發(fā)展,越來越多的公司憑借其備受歡迎的系統(tǒng)和APP如雨后春筍般發(fā)展起來,如滴滴打車、共享單車等。海量數(shù)據(jù)自此不再是Google等大公司的專利,越來越多的中小型企業(yè)也可以擁有海量數(shù)據(jù)。如何從浩如煙海的數(shù)據(jù)中挖掘出令人感興趣和有用的知識(shí),成為越來越多的公司急需解決的問題。因此,他們對(duì)數(shù)據(jù)挖掘分析師求賢若渴。在這一社會(huì)需求下,培養(yǎng)出優(yōu)秀的數(shù)據(jù)挖掘分析師,是各個(gè)高校目前急需完成的一項(xiàng)任務(wù)。
一、教學(xué)現(xiàn)狀反思
目前,各大高等院校本科階段爭(zhēng)相開設(shè)數(shù)據(jù)挖掘課程。然而,該課程是一門相對(duì)較新的交叉學(xué)科,涵蓋了概率統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)等學(xué)科的知識(shí)內(nèi)容,難度較大。因此,大部分高校一般將此課程開設(shè)在研究生階段,在本科生中開設(shè)此課程的學(xué)校相對(duì)較少。另外,不同的學(xué)校將其歸入不同的專業(yè)中,如計(jì)算機(jī)專業(yè)、信息管理專業(yè)、統(tǒng)計(jì)學(xué)、醫(yī)學(xué)等??梢哉f,這一課程基本上處于探索的過程中。我院災(zāi)害信息系于2013年在信息管理與信息系統(tǒng)本科學(xué)生中首次開設(shè)了該課程。通過開設(shè)此課程,學(xué)生能夠掌握數(shù)據(jù)挖掘的基本原理和各種挖掘算法等,掌握數(shù)據(jù)分析和處理、高級(jí)數(shù)據(jù)庫(kù)編程等技能,達(dá)到數(shù)據(jù)聚類、分類、關(guān)聯(lián)分析的目的。然而,通過前期教學(xué)過程,我們發(fā)現(xiàn)教學(xué)效果不理想,存在很多問題。
1.數(shù)據(jù)內(nèi)驅(qū)力差
以往數(shù)據(jù)挖掘課程重點(diǎn)講授數(shù)據(jù)挖掘算法,對(duì)數(shù)據(jù)源的獲取和處理極少獲取。目前各大教材都在使用一些公共數(shù)據(jù)資源,這些數(shù)據(jù)資源有些已經(jīng)非常陳舊了,比如20世紀(jì)80年代的加州房?jī)r(jià)數(shù)據(jù)。這些數(shù)據(jù)脫離現(xiàn)實(shí),分析這些數(shù)據(jù),學(xué)生沒有任何興趣和學(xué)習(xí)動(dòng)力,也就無法發(fā)現(xiàn)價(jià)值。
2.過于強(qiáng)調(diào)學(xué)習(xí)數(shù)據(jù)挖掘理論及算法的學(xué)習(xí)
大量具有難度的數(shù)據(jù)挖掘算法的學(xué)習(xí),使學(xué)生喪失了學(xué)習(xí)興趣,學(xué)完即忘,不知所用。
3.忽視對(duì)數(shù)據(jù)預(yù)處理過程的學(xué)習(xí)
以往所使用的公共數(shù)據(jù)源或軟件自帶數(shù)據(jù)源,數(shù)據(jù)量小,需要的預(yù)處理工作比較少;這部分內(nèi)容基本只安排一次理論課、一次實(shí)驗(yàn)課。而實(shí)際通過爬蟲獲取的數(shù)據(jù)源數(shù)據(jù)量大;這部分工作量比較大,需要占到整個(gè)數(shù)據(jù)挖掘工作量的一半以上。因此,一次理論課和一次實(shí)驗(yàn)課是無法讓學(xué)生掌握數(shù)據(jù)預(yù)處理技能的。
4.算法編程實(shí)現(xiàn)難度較大
要求學(xué)生學(xué)習(xí)一門新的編程語言,如R語言、Python語言,對(duì)本科非計(jì)算機(jī)專業(yè)的學(xué)生來說難度是非常大的,尤其是課時(shí)安排只有48課時(shí)。
5.數(shù)據(jù)挖掘分析及應(yīng)用技能較差
學(xué)生能夠理解課堂案例,但在實(shí)際應(yīng)用中,無法完成整個(gè)數(shù)據(jù)分析流程。
二、數(shù)據(jù)挖掘課程改革
該課程的教學(xué)對(duì)象是信息管理與信息系統(tǒng)專業(yè)本科大四學(xué)生。因此,培養(yǎng)實(shí)際應(yīng)用人才,使其完成整個(gè)實(shí)際數(shù)據(jù)挖掘分析流程是教師的教學(xué)目的。筆者對(duì)智聯(lián)招聘、中華英才網(wǎng)、51job等幾個(gè)大型招聘網(wǎng)站的幾百個(gè)數(shù)據(jù)挖掘分析師相關(guān)職位進(jìn)行分析,主要分析了相關(guān)職位的工作內(nèi)容、職位要求以及需求企業(yè)。數(shù)據(jù)分析師主要利用數(shù)據(jù)挖掘工具對(duì)運(yùn)營(yíng)數(shù)據(jù)等多種數(shù)據(jù)源進(jìn)行預(yù)處理、建模、挖掘、分析及優(yōu)化。該職位是受業(yè)務(wù)驅(qū)動(dòng)的,特點(diǎn)是將現(xiàn)有數(shù)據(jù)與業(yè)務(wù)相結(jié)合,最大程度地變現(xiàn)數(shù)據(jù)價(jià)值。該職位對(duì)計(jì)算機(jī)編程等相關(guān)技術(shù)不作要求,但是需要有深厚的數(shù)據(jù)挖掘理論基礎(chǔ),熟練使用主流的數(shù)據(jù)挖掘(或統(tǒng)計(jì)分析)工具。基于此,教師可以采取以下策略進(jìn)行教學(xué)改革。
1.加強(qiáng)對(duì)業(yè)務(wù)數(shù)據(jù)的理解
數(shù)據(jù)挖掘分析師是受業(yè)務(wù)驅(qū)動(dòng)的,所以要理解實(shí)際業(yè)務(wù),明確本次數(shù)據(jù)挖掘要解決什么問題。教師可以構(gòu)建案例庫(kù),包括教師案例庫(kù)、學(xué)生討論案例庫(kù)。教師案例庫(kù)由教師構(gòu)建,可用于課堂講授。學(xué)生案例庫(kù)由學(xué)生分組構(gòu)建,并安排討論課,由學(xué)生講述、討論并提交報(bào)告。
2.加強(qiáng)對(duì)數(shù)據(jù)的獲取
對(duì)學(xué)生感興趣的數(shù)據(jù)源進(jìn)行挖掘,這樣才能更好地幫助學(xué)生理解吸收知識(shí)。因此,可以教授學(xué)生爬蟲技術(shù),編寫爬蟲程序,使其自主獲取感興趣的數(shù)據(jù)。
3.加強(qiáng)對(duì)數(shù)據(jù)的預(yù)處理工作
在數(shù)據(jù)挖掘之前使用數(shù)據(jù)預(yù)處理技術(shù),能夠顯著提高數(shù)據(jù)挖掘模式的質(zhì)量,降低實(shí)際挖掘所需要的時(shí)間,應(yīng)將其作為整門課程的重點(diǎn)進(jìn)行學(xué)習(xí)。增加理論課程和實(shí)驗(yàn)課時(shí),使學(xué)生掌握數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸納等數(shù)據(jù)預(yù)處理技術(shù),并能夠應(yīng)對(duì)各種復(fù)雜數(shù)據(jù)源,最終利用爬蟲程序獲取的各種數(shù)據(jù)源進(jìn)行預(yù)處理工作。
4.強(qiáng)化數(shù)據(jù)挖掘分析
教師可以選擇SPSS Modeler這款所見即所得的數(shù)據(jù)挖掘軟件作為配套實(shí)驗(yàn)平臺(tái)。該軟件具有必需的數(shù)據(jù)預(yù)處理工具及預(yù)設(shè)的挖掘算法,學(xué)生可以把注意力放在要挖掘的數(shù)據(jù)及相關(guān)需求上,設(shè)定挖掘的主題,然后通過鼠標(biāo)的點(diǎn)擊拖拉即可完成相關(guān)主題的數(shù)據(jù)挖掘過程。學(xué)生最終可對(duì)自己獲取并已處理過的數(shù)據(jù)進(jìn)行挖掘分析。
5.加強(qiáng)教師外出培訓(xùn)學(xué)習(xí)
數(shù)據(jù)挖掘技術(shù)以及大數(shù)據(jù)技術(shù)是近來比較新穎而且發(fā)展迅速的技術(shù)。教師長(zhǎng)期身處三尺講臺(tái)之上,遠(yuǎn)離了新技術(shù),脫離了實(shí)際。因此,需派遣教師到知名高校學(xué)習(xí)數(shù)據(jù)挖掘教學(xué)技術(shù),到培訓(xùn)機(jī)構(gòu)進(jìn)行系統(tǒng)學(xué)習(xí),到企業(yè)進(jìn)行實(shí)戰(zhàn)學(xué)習(xí)。
基于以上分析,形成了新的數(shù)據(jù)挖掘理論課程內(nèi)容和實(shí)踐課程內(nèi)容,安排如表1和表2所示。共安排48學(xué)時(shí),其中理論課24學(xué)時(shí),實(shí)驗(yàn)課24學(xué)時(shí)。理論課重點(diǎn)講授數(shù)據(jù)的獲取、數(shù)據(jù)的理解、數(shù)據(jù)的預(yù)處理以及常用挖掘算法。實(shí)驗(yàn)課重點(diǎn)學(xué)習(xí)基于SPSS modeler的數(shù)據(jù)挖掘,對(duì)理論課的內(nèi)容進(jìn)行實(shí)踐。整個(gè)學(xué)習(xí)以工程項(xiàng)目為載體,該工程貫穿整個(gè)學(xué)習(xí)過程。學(xué)生通過爬蟲程序獲取自己感興趣的數(shù)據(jù)源,根據(jù)課程進(jìn)度,逐步完成后續(xù)數(shù)據(jù)的理解,再進(jìn)行預(yù)處理,建模分析,評(píng)估整個(gè)過程。在課程結(jié)束時(shí),完成整個(gè)項(xiàng)目,并提交報(bào)告。
三、結(jié)論
在數(shù)字時(shí)代,越來越多的企業(yè)急需數(shù)據(jù)挖掘分析人才。教師應(yīng)以培養(yǎng)實(shí)際應(yīng)用人才為目的,充分培養(yǎng)學(xué)生對(duì)數(shù)據(jù)挖掘的學(xué)習(xí)興趣,以工程項(xiàng)目為載體,貫穿整個(gè)課程周期。在教學(xué)中,打牢數(shù)據(jù)獲取、理解預(yù)處理這一基石,加強(qiáng)建模挖掘分析,弱化對(duì)晦澀算法的編程學(xué)習(xí),使學(xué)生真正掌握數(shù)據(jù)挖掘技術(shù),滿足社會(huì)需求。
參考文獻(xiàn):
[1]李海林.大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘課程教學(xué)探索[J].計(jì)算機(jī)時(shí)代,2014(2):54-55.
[2]宋威,李晉宏.項(xiàng)目驅(qū)動(dòng)的數(shù)據(jù)挖掘教學(xué)模式探討[J].中國(guó)電力教育,2011(27):116-177.
[3]徐琴.應(yīng)用型本科數(shù)據(jù)挖掘技術(shù)課程教學(xué)探討與實(shí)踐[J].電腦知識(shí)與技術(shù),2016,12(8):148-149.
[4]李?yuàn)檴櫍钪?就業(yè)需求驅(qū)動(dòng)下的本科院校數(shù)據(jù)挖掘課程內(nèi)容體系探討[J].計(jì)算機(jī)時(shí)代,2015(2):60-61.