黃 劍
摘要本文根據(jù)數(shù)據(jù)分析課程自身特點,針對本科階段教學,改變教學模式,促進教學效果。以數(shù)據(jù)分析方法綜合應用為重點,輔助介紹理論及背景。采用合作式教學模式,利用討論帶動積極性,使學生在利用軟件解決實際問題的過程中加深對方法的認識。
關鍵詞數(shù)據(jù)挖掘 教學模式 合作式教學
中圖分類號:G642文獻標識碼:A
數(shù)據(jù)是無處不在的。當飛速增長的數(shù)據(jù)給我們帶來方便和便捷的同時,也將我們推入浩瀚的數(shù)據(jù)海洋。廣泛用于商業(yè)和科學領域中的自動數(shù)據(jù)收集設備每小時能夠產(chǎn)生幾TB規(guī)模的數(shù)據(jù),人們面臨的問題已經(jīng)不再是沒有充分的信息可選擇,而是如何有效利用如此龐大的數(shù)據(jù),并且找到蘊含于這些信息之中的有價值的知識。由于數(shù)據(jù)分析師的匱乏,導致了很多領域出現(xiàn)了“數(shù)據(jù)豐富而知識匱乏”的現(xiàn)象,因而在信息計算科學、統(tǒng)計學等本科專業(yè)中開設數(shù)據(jù)分析課程是非常有必要的。
數(shù)據(jù)分析就是分析和處理數(shù)據(jù)的理論和方法,從數(shù)據(jù)中獲得有用的信息,其內(nèi)容豐富,方法眾多,最大的特點就是“讓數(shù)據(jù)說話”。該課程設計的分析方法眾多,如:方差分析、非參數(shù)統(tǒng)計、多元統(tǒng)計分析、判別聚類分析、時間序列分析等。由于計算機編程的復雜及數(shù)據(jù)的難以采集,這些分析方法在課程中大多處于理論教學,使得本科階段的學生很難接受。隨著計算機及統(tǒng)計軟件(如SAS,SPSS)的普及,大大的減少了對程序能力的要求,隨著大量數(shù)據(jù)被數(shù)據(jù)采集者開放(如金融數(shù)據(jù)庫),使學生有可研究的對象,從而使得我們在大學本科階段開設數(shù)據(jù)分析課程成為可能,但需要合適的教學模式以適應本科階段的教學。
由于數(shù)據(jù)分析的方法眾多,對不同學科的數(shù)據(jù)又會有其特殊的分析模型,在一門課中介紹全部是不可能的,透徹的介紹每種方法的原理更是不可能的?;趯W生的數(shù)學和計算機基礎,從實際問題出發(fā),介紹了常用的方差分析,回歸分析,主成份分析、判別和聚類分析等方法,以方法綜合應用為主,理論為輔,運用SAS軟件來實現(xiàn)。在教學過程中采用了以下幾個模式,并達到了較好的教學效果。
1 選用SAS軟件為課程配套工具軟件
在數(shù)據(jù)分析課程的教學中,算法實現(xiàn)對于本科生來說難度太大,該階段的學生只學過C語言,很多分析方法如果用C語言來編程完成,難度將無法想象。我們要培養(yǎng)數(shù)據(jù)分析師,而不是高級程序員。隨著統(tǒng)計軟件在全球的流行,我們選取了SAS軟件作為工具,結(jié)合數(shù)據(jù)分析課程的教學。通過簡單的編程即可實現(xiàn)所有數(shù)據(jù)分析方法,并且應用多樣化,功能強大。但由于SAS入手較難,為了不影響數(shù)據(jù)挖掘可能的教學時間,我們?yōu)樵搶I(yè)學生準備了兩周實踐課程,專門進行SAS的教學,取得了很好的效果。在數(shù)據(jù)分析課程中,每一種方法只需介紹基本思想,簡單原理,計算步驟及SAS系統(tǒng)中對應的模塊和程序說明。例如在介紹方差分析時,同時介紹SAS系統(tǒng)中ANOVA和GLM過程,利用SAS軟件可迅速得到各種統(tǒng)計量,學生只需通過結(jié)果做相關的分析結(jié)論,簡化繁瑣計算,節(jié)省課時,提高了學生的學習興趣。
2 引入合作式教學,加入討論課模式
數(shù)據(jù)分析課程當中,理論知識的傳授和應用能力的培養(yǎng)歸根結(jié)底是為了解決實際問題。各種分析算法,軟件都是幫助解決問題的一個工具。如何讓學生去面臨實際問題,并通過收集數(shù)據(jù),建立模型,求解模型從而解決問題,這才是我們希望學生真正得到的能力。所以,我們引入的合作式教學模式。每次討論課給定特定的專題,學生以組為單位收集相關資料數(shù)據(jù),并進行問題分析,選定數(shù)據(jù)分析方法并建模求解,對得到的結(jié)果進行相關的解釋,最后進行合理性分析。如對某產(chǎn)品在各個超市的銷售量的分析,判斷地區(qū)是否對銷售量有影響。整個過程從灌輸式的教學模式轉(zhuǎn)變?yōu)橐龑降慕虒W模式,學生在討論課當中占據(jù)主導地位。在分析問題得到結(jié)論后,以小組為單位進行總結(jié)匯報,由組外同學進行點評討論,教師只做啟發(fā),指導工作。這種教學模式,不僅大大提高了學生的主動性,調(diào)動的學生思維,提高解決問題的實際能力,表達、溝通及團隊合作能力,而且課堂氣氛活躍,參與面廣,討論中相互發(fā)現(xiàn)問題,糾正錯誤。
3 適當介紹方法產(chǎn)生的背景、原理、重點介紹方法的綜合應用
適當介紹方法產(chǎn)生背景和原理,可加深學生對分析方法的理解,深入了解方法的適用領域,所能解決的問題,與實際相結(jié)合,從而提高學生的學習興趣。但我們更應該把分析方法綜合應用作為首要教授的方面,即如何讓學生把所學的數(shù)據(jù)方法正確的應用到實際問題當中。我們應該從以下幾個方面入手:
(1)介紹分析方法的基本背景和原理,講清應用范圍。教學中,我們可簡單介紹分析方法的基本思想和計算方法,但其具體能解決何種問題必須講清。如:聚類分析和判別分析兩類問題,都是用于事物的分類,但兩者的本質(zhì)是完全不一樣的。判別分析中的類別是已知的,并且類別的屬性或已知,或間接的給出(通過一組已經(jīng)分類的樣本),根據(jù)已知的知識對現(xiàn)有未知的樣本進行分類。而聚類分析則體現(xiàn)的是“物以類聚”的思想,將相似性強的樣本歸為一類,其中類別的特點,數(shù)量在聚類完成前是完全不知道的。如醫(yī)生看病判斷病情屬于分類問題,而對新的疫情進行類別區(qū)別則是屬于聚類問題。利用實例使學生區(qū)分兩種方法所能解決的問題以及兩種方法所處理的數(shù)據(jù)的區(qū)別。
(2)融入數(shù)學建模思想,加強分析方法的應用。每個分析方法從理論到實際應用都需要一個過程。如果將一個實際問題轉(zhuǎn)變?yōu)橐粋€數(shù)學能解決的問題,就需要運用數(shù)學建模的思想,建立數(shù)學模型解決實際的問題。如:一個城市的安全程度往往可以通過這個城市的犯罪率來體現(xiàn),但是犯罪種類之多使得我們無法通過某種犯罪次數(shù)來得出結(jié)論。這就使得我們要建立主成分分析模型,運用主成份分析方法,將現(xiàn)有的多種犯罪數(shù)據(jù)進行線性組合,得到幾個主要的犯罪指標——總體犯罪率,重度犯罪比例等等。利用少量的指標去體現(xiàn)原來多個指標所體現(xiàn)的大部分信息,達到反應總體狀況的效果。通過簡單的、學生感興趣的例子,引入主成份模型的原理,介紹分析方法,使其感受到主成份分析的重要性和必要性。通過各個主成分依次求出,其反應出的總體信息不斷加大,還可引入貢獻率和累計貢獻率得概念,使學生明確如何合理選擇主成分。比如當前m個主成份的累計貢獻率達到85%的時候,就可認為這m個主成份能夠反應總體的絕大部分信息。重點介紹各個統(tǒng)計量在當前模型中的含義,作用及對應關系,使得學生能夠使用分析方法在實際中加以應用。
(3)加強介紹方法的步驟、軟件實現(xiàn)及結(jié)果解釋。建立模型后如何利用軟件解決模型是學生必須掌握的技術。任何數(shù)據(jù)分析算法,都不太可能利用人工計算完成。由于我們選取了SAS作為分析軟件,所以在課堂中,介紹完原理和數(shù)學模型后,都會給出相關實現(xiàn)的步驟。SAS編程相對簡單,分析過程大多是PROC步完成,其針對每種分析方法都會有相關的過程函數(shù),并且會有與算法對應的輸入?yún)?shù)。學生只要模仿調(diào)用相關過程,并對結(jié)果進行相關解釋即可實現(xiàn)相應分析方法的應用。比如利用SAS程序進行回歸分析簡單例子:
proc regdata= study.bclass;
modelweight = height /r clm cli dw;
run;
其中,模型參數(shù)r表示要輸出殘差分析,包括因變量的觀察值、由輸入數(shù)據(jù)和估計模型來計算的預測值、殘差值、標準誤差、學生化殘差、COOKD統(tǒng)計量等。通過計算可得到各個相關統(tǒng)計量的值,學生無需涉及計算過程,只需知道計算得到的各個統(tǒng)計量所代表的含義,并會對結(jié)果進行解釋。只有學會對結(jié)果的解釋分析,才能解決真正的實際問題。
通過教學實踐,我認為將統(tǒng)計軟件作為配套工具和數(shù)據(jù)分析方法結(jié)合教學,可以起到相輔相成的作用,加入合作式教學模式,開展討論課不僅學生綜合能力得到了提高,而且學生團隊合作意識得到了加強。同時,教師必須擔任好自己的角色,要精心設計教學中的每個細節(jié),如分析方法原理的引入,討論專題的選擇等,這樣才能起到良好的教學效果。
注釋
紀希禹. 數(shù)據(jù)挖掘技術應用實例[M]. 機械工業(yè)出版社,2009.
數(shù)據(jù)分析方法和SAS系統(tǒng) [M]. 上海財經(jīng)大學出版社,2006.
羅冬梅.數(shù)據(jù)分析課程教學中的幾個關鍵問題[J].安徽工業(yè)大學學報:社會科學版,2007(7):101~102.