劉波 李承耕
【摘 要】數(shù)據(jù)挖掘已經(jīng)成為很多應(yīng)用領(lǐng)域的重要技術(shù)。本文分析了本科階段數(shù)據(jù)挖掘課程的特點(diǎn),闡述了以理論和案例教學(xué)相結(jié)合的教學(xué)方法,以更好地培養(yǎng)應(yīng)用型人才。
【關(guān)鍵詞】數(shù)據(jù)挖掘 案例教學(xué) 教學(xué)探索
【中圖分類號(hào)】G642 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1674-4810(2015)33-0063-02
我們生活在一個(gè)信息爆炸的時(shí)代,更具體地說我們生活在一個(gè)數(shù)據(jù)爆炸的時(shí)代。每天,來自商業(yè)、社會(huì)、科學(xué)、互聯(lián)網(wǎng)、移動(dòng)設(shè)備等各個(gè)領(lǐng)域的數(shù)據(jù)以爆炸的方式增長(zhǎng)著。巨大的數(shù)據(jù)中蘊(yùn)藏著重要的信息和知識(shí),因此我們需要強(qiáng)大和通用的工具,從海量的數(shù)據(jù)中發(fā)現(xiàn)這些有價(jià)值的信息,把數(shù)據(jù)轉(zhuǎn)化為知識(shí),因此導(dǎo)致了數(shù)據(jù)挖掘的誕生。“數(shù)據(jù)挖掘是從大量數(shù)據(jù)中挖掘有趣模式和知識(shí)的過程。數(shù)據(jù)源包括數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、Web、其他信息存儲(chǔ)庫(kù)或動(dòng)態(tài)地流入系統(tǒng)的數(shù)據(jù)?!?/p>
隨著越來越多的企事業(yè)單位認(rèn)識(shí)到數(shù)據(jù)挖掘的重要性,對(duì)數(shù)據(jù)挖掘人才的需要近兩年也呈現(xiàn)快速增長(zhǎng)的態(tài)勢(shì),大數(shù)據(jù)分析師更是被媒體稱為“未來最具發(fā)展?jié)摿Φ穆殬I(yè)之一”。因此很多高校開設(shè)了數(shù)據(jù)挖掘課程。通過本課程的學(xué)習(xí),使學(xué)生了解數(shù)據(jù)挖掘技術(shù)的整體概貌,了解數(shù)據(jù)挖掘技術(shù)的主要應(yīng)用及當(dāng)前的研究熱點(diǎn)問題,了解數(shù)據(jù)挖掘技術(shù)的發(fā)展方向,掌握最基本的概念、算法原理和技術(shù)方法,培養(yǎng)學(xué)生應(yīng)用數(shù)據(jù)挖掘解決實(shí)際問題的能力。本文分析了在本科階段開設(shè)數(shù)據(jù)挖掘課程的特點(diǎn),闡述了教學(xué)內(nèi)容和教學(xué)方法,對(duì)數(shù)據(jù)挖掘課程教學(xué)進(jìn)行了新的思考和探索
一 數(shù)據(jù)挖掘課程特點(diǎn)
1.大數(shù)據(jù)背景
“大數(shù)據(jù)”成為近年來比較熱門的詞語(yǔ),同時(shí)也反映數(shù)據(jù)的爆炸式增長(zhǎng)給我們帶來的機(jī)遇和挑戰(zhàn)。大數(shù)據(jù)在維基百科上的解釋是:大數(shù)據(jù)是由數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,是基于云計(jì)算的數(shù)據(jù)處理與應(yīng)用模式,通過數(shù)據(jù)的整合共享,交叉復(fù)用形成的智力資源和知識(shí)服務(wù)能力。大數(shù)據(jù)的四個(gè)特征是:數(shù)據(jù)量浩大;模態(tài)繁多、異構(gòu);生成快速;價(jià)值巨大?!按髷?shù)據(jù)”分析的需求導(dǎo)致了數(shù)據(jù)挖掘的產(chǎn)生,也同時(shí)給數(shù)據(jù)挖掘帶來了巨大的發(fā)展前景。
2.學(xué)科發(fā)展快,內(nèi)容豐富
數(shù)據(jù)挖掘出現(xiàn)于20世紀(jì)80年代后期,90年代之后開始突飛猛進(jìn)的發(fā)展,新的和改進(jìn)的算法不斷出現(xiàn),所考察的數(shù)據(jù)類型日趨豐富,應(yīng)用領(lǐng)域逐漸擴(kuò)大。比如數(shù)據(jù)類型,有流、序列、圖、時(shí)間序列、生物序列、空間、音頻、圖像和視頻數(shù)據(jù)等。數(shù)據(jù)挖掘的模型和算法豐富,比如關(guān)聯(lián)規(guī)則的挖掘有Apriori算法,分類規(guī)則的挖掘有決策樹、神經(jīng)元網(wǎng)絡(luò)、樸素貝葉斯、支持向量機(jī)等,聚類規(guī)則挖掘,時(shí)間序列挖掘等。
3.學(xué)科交叉,難度大
數(shù)據(jù)挖掘課程作為一門多學(xué)科交叉的專業(yè)課程,涉及的學(xué)科較多。如統(tǒng)計(jì)學(xué),多元統(tǒng)計(jì)學(xué),時(shí)間序列,統(tǒng)計(jì)推斷等;機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、主動(dòng)學(xué)習(xí)等;數(shù)據(jù)庫(kù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)、計(jì)算機(jī)軟件編程和開發(fā)、Web搜索引擎。眾多的學(xué)科交叉增加了課程的教學(xué)難度,因此需要合理地規(guī)劃課程內(nèi)容和重點(diǎn),循序漸進(jìn)地展開教學(xué)內(nèi)容。
二 教學(xué)探索
1.課程內(nèi)容體系
數(shù)據(jù)挖掘是一門多學(xué)科交叉的前沿學(xué)科,它結(jié)合了數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、知識(shí)系統(tǒng)、信息檢索、高性能計(jì)算和可視化等多問學(xué)科的知識(shí)。然而在目前的大學(xué)課程體系中,很難在有限的時(shí)間內(nèi)開設(shè)這些課程。
————————————————————————
* 韓山師范學(xué)院2014年校級(jí)優(yōu)質(zhì)網(wǎng)絡(luò)課程——數(shù)學(xué)模型資助項(xiàng)目,通訊作者:李承耕
特別是對(duì)于數(shù)學(xué)與統(tǒng)計(jì)學(xué)院的學(xué)生,數(shù)學(xué)基礎(chǔ)理論比較好,但是在數(shù)據(jù)庫(kù)技術(shù)、計(jì)算機(jī)軟件算法和編程方面比較薄弱,大部分的同學(xué)沒有編程經(jīng)驗(yàn)和數(shù)據(jù)處理分析能力。針對(duì)這些問題,我們數(shù)據(jù)挖掘課程的授課對(duì)象為大三或大四應(yīng)用型專業(yè)的學(xué)生,并在前期課程中開設(shè)數(shù)學(xué)分析、高等代數(shù)、概率與統(tǒng)計(jì)、多元統(tǒng)計(jì)學(xué)等數(shù)學(xué)類課程,同時(shí)開設(shè)c語(yǔ)言、java語(yǔ)言、數(shù)值分析、數(shù)據(jù)庫(kù)原理等計(jì)算機(jī)課程,這些課程的開設(shè)為數(shù)據(jù)挖掘授課打下了必要的理論基礎(chǔ)。
數(shù)據(jù)挖掘的內(nèi)容豐富,包含的知識(shí)點(diǎn)很多,我們構(gòu)建了課程的核心知識(shí)結(jié)構(gòu)。核心知識(shí)為三部分:(1)數(shù)據(jù)預(yù)處理,主要任務(wù)包括數(shù)據(jù)清洗,數(shù)據(jù)集成,數(shù)據(jù)變換和數(shù)據(jù)規(guī)約;(2)數(shù)據(jù)倉(cāng)庫(kù),主要包括數(shù)據(jù)倉(cāng)庫(kù)的基本概念,數(shù)據(jù)立方體,數(shù)據(jù)立方體的設(shè)計(jì)與實(shí)現(xiàn);(3)數(shù)據(jù)挖掘,主要包括數(shù)據(jù)挖掘的基本流程,數(shù)據(jù)挖掘的主要算法,數(shù)據(jù)挖掘的常用工具及數(shù)據(jù)挖掘的應(yīng)用實(shí)例??紤]到數(shù)學(xué)與統(tǒng)計(jì)學(xué)院學(xué)生的特點(diǎn)和教學(xué)課時(shí)的限制,教學(xué)重點(diǎn)為數(shù)據(jù)預(yù)處理、數(shù)據(jù)倉(cāng)庫(kù)的基本概念、數(shù)據(jù)挖掘的主要模型三個(gè)方面,特別是數(shù)據(jù)挖掘的模型是重點(diǎn)講授的內(nèi)容。由于數(shù)據(jù)挖掘的模型和算法非常多,我們采用首先講解數(shù)據(jù)挖掘的基本流程,然后重點(diǎn)講解數(shù)據(jù)挖掘中關(guān)聯(lián)分析、分類、聚類三個(gè)方面的模型。
我們采用理論講解、實(shí)驗(yàn)操作、模型應(yīng)用三個(gè)步驟來講解每個(gè)模型。理論講解使學(xué)生掌握數(shù)據(jù)挖掘模型的基本理論和算法流程。在實(shí)驗(yàn)操作階段,學(xué)生要親手實(shí)現(xiàn)模型的基本算法,我們使用的編程語(yǔ)言是python,通過算法的實(shí)現(xiàn),鞏固和加深學(xué)生對(duì)模型的理解。模型應(yīng)用步驟要求學(xué)生綜合應(yīng)用所學(xué)的數(shù)據(jù)挖掘模型知識(shí),選擇一個(gè)應(yīng)用領(lǐng)域,應(yīng)用自己學(xué)習(xí)的算法解決這個(gè)實(shí)際問題,并按照數(shù)據(jù)挖掘的流程完成實(shí)驗(yàn)報(bào)告。實(shí)驗(yàn)報(bào)告要求按照數(shù)據(jù)說明、數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評(píng)估、知識(shí)表示等幾個(gè)部分完成,使學(xué)生掌握數(shù)據(jù)挖掘的全過程,充分認(rèn)識(shí)數(shù)據(jù)挖掘各個(gè)階段要完成的工作。通過這三個(gè)階段的學(xué)習(xí)和實(shí)踐,學(xué)生基本掌握了數(shù)據(jù)挖掘的算法并具備了基本的模型應(yīng)用能力。
2.以應(yīng)用為背景,用案例教學(xué)方式組織教學(xué)
案例教學(xué)法是教師以具有鮮明代表性的案例為學(xué)生創(chuàng)設(shè)問題情境,引導(dǎo)學(xué)生通過對(duì)案例進(jìn)行分析討論,在情境中掌握理論知識(shí)并總結(jié)規(guī)律,創(chuàng)造性地將知識(shí)與實(shí)踐相結(jié)合,找到更多的實(shí)際生活范例或提出解決實(shí)際問題的思路與方法。數(shù)據(jù)挖掘本身就是一門應(yīng)用性很強(qiáng)的學(xué)科,課程內(nèi)容非常適合進(jìn)行案例教學(xué)。
數(shù)據(jù)挖掘課程主要針對(duì)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院應(yīng)用型本科專業(yè)開設(shè),考慮到學(xué)生就業(yè)和當(dāng)前市場(chǎng)需求,以及課程本身實(shí)踐性強(qiáng)的特點(diǎn),在教學(xué)過程中注重理論結(jié)合實(shí)踐,培養(yǎng)學(xué)生解決實(shí)際問題的能力。因此,在向?qū)W生介紹目前常用的數(shù)據(jù)挖掘基本模型的基礎(chǔ)上,結(jié)合市場(chǎng)需求,以實(shí)例為切入點(diǎn),采用案例教學(xué)的方式組織教學(xué)。案例的來源豐富,有醫(yī)療、商業(yè)、航空、環(huán)保等眾多領(lǐng)域,案例全部來自于真實(shí)的數(shù)據(jù)挖掘項(xiàng)目,每個(gè)案例有背景與挖掘目標(biāo)、數(shù)據(jù)預(yù)處理、構(gòu)建模型、模型評(píng)價(jià)、上機(jī)實(shí)驗(yàn)幾個(gè)部分組成。通過講解真實(shí)案例,讓學(xué)生了解數(shù)據(jù)挖掘的算法在實(shí)際中是如何應(yīng)用的,培養(yǎng)學(xué)生應(yīng)用數(shù)據(jù)挖掘的思想,使學(xué)生對(duì)數(shù)據(jù)挖掘有了感性認(rèn)識(shí),激發(fā)其學(xué)習(xí)興趣。具體采用的案例如下表所示。
三 結(jié)束語(yǔ)
數(shù)據(jù)挖掘是一門多學(xué)科交叉的應(yīng)用型學(xué)科,在數(shù)學(xué)與統(tǒng)計(jì)學(xué)院開設(shè)數(shù)據(jù)挖掘課程有現(xiàn)實(shí)意義,同時(shí)對(duì)教師和學(xué)生也是一個(gè)挑戰(zhàn)。因此通過將理論教學(xué)和實(shí)踐相結(jié)合,使用案例教學(xué)的方式組織教學(xué),激發(fā)學(xué)生的學(xué)習(xí)興趣,提高課堂教學(xué)效率,增強(qiáng)學(xué)生實(shí)踐能力,培養(yǎng)學(xué)生應(yīng)用數(shù)據(jù)挖掘的基本方法解決實(shí)際問題的能力。同時(shí),數(shù)據(jù)挖掘也是一個(gè)快速發(fā)展的學(xué)科,因此也要不斷更新教學(xué)案例,不斷學(xué)習(xí)和總結(jié),使教學(xué)更加完善合理。
參考文獻(xiàn)
[1]〔美〕Jiawei Han、Micheline Kamber、Jian Pei等.數(shù)據(jù)挖掘概念與技術(shù)(第3版)(范明、孟小峰譯)[M].北京:機(jī)械工業(yè)出版社,2012
[2]張良均等.MATLAB數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[M].北京:機(jī)械工業(yè)出版,2015
[3]譚磊.New Internet:大數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2013
[4]〔美〕Pang-Ning Tan、Michael Steinbach、Vipin Kumar.數(shù)據(jù)挖掘?qū)д摚ǚ睹鞯茸g)[M].北京:人民郵電出版社,2006
[5]〔美〕Peter Harrington.機(jī)器學(xué)習(xí)實(shí)戰(zhàn)(李銳、李鵬、曲亞東等譯)[M].北京:人民郵電出版社,2013
[6]王青梅、趙革.國(guó)內(nèi)外案例教學(xué)法研究綜述[J].寧波大學(xué)學(xué)報(bào)(教育科學(xué)版),2009(3):7~11
〔責(zé)任編輯:林勁、李婷婷〕