張蕾+魏立斐
摘要:大數(shù)據(jù)時(shí)代下,迫切需要從海量的數(shù)據(jù)中揭示內(nèi)在規(guī)律、發(fā)掘有用信息、幫助人們科學(xué)決策。這正是“數(shù)據(jù)分析”課程研究的基本內(nèi)容。本文分析了信息與計(jì)算科學(xué)等本科專業(yè)開(kāi)設(shè)“數(shù)據(jù)分析”課程中存在的一些問(wèn)題,從教學(xué)目標(biāo)、教學(xué)內(nèi)容、教學(xué)方式與學(xué)時(shí)分配等方面,提出了“數(shù)據(jù)分析”課程的一些建議及初步探索方案。
關(guān)鍵詞:數(shù)據(jù)分析;大數(shù)據(jù);課程探索
中圖分類號(hào):G642.0 ? ? 文獻(xiàn)標(biāo)志碼:A ? ? 文章編號(hào):1674-9324(2015)25-0154-02
一、引言
作為最早提出“大數(shù)據(jù)時(shí)代到來(lái)”的企業(yè),麥肯錫公司曾指出:“大數(shù)據(jù)已滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)[1]?!崩^云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)之后,“大數(shù)據(jù)”作為信息技術(shù)領(lǐng)域又一次顛覆性的技術(shù)革命,已經(jīng)在金融、醫(yī)藥、交通、海洋等各個(gè)行業(yè)以及物理學(xué)、生物學(xué)、環(huán)境學(xué)、藥學(xué)等科學(xué)領(lǐng)域廣泛應(yīng)用[2]。
然而,如何從海量并貌似雜亂無(wú)序的數(shù)據(jù)中揭示內(nèi)在規(guī)律,挖掘有用信息,進(jìn)而通過(guò)輔助決策系統(tǒng)、專家系統(tǒng)等進(jìn)行科學(xué)的決策,是大數(shù)據(jù)時(shí)代面臨的重要科學(xué)問(wèn)題。尤其是對(duì)這些紛繁復(fù)雜的數(shù)據(jù)進(jìn)行科學(xué)的分析,實(shí)現(xiàn)“數(shù)據(jù)—信息—知識(shí)”[3]三個(gè)層次的提煉,正是“數(shù)據(jù)分析”課程主要研究的內(nèi)容。
“數(shù)據(jù)分析”課程是國(guó)內(nèi)絕大多數(shù)高校在信息與計(jì)算科學(xué)等信息類專業(yè)的本科生開(kāi)設(shè)的必修課/選修課[4],是“概率論與數(shù)理統(tǒng)計(jì)”課程的后續(xù)延伸及應(yīng)用,也是“數(shù)據(jù)挖掘”課程的先修課程?!皵?shù)據(jù)分析”課程主要介紹了數(shù)據(jù)分析的基本理論與方法,詳細(xì)敘述數(shù)據(jù)分析中線性回歸分析、方差分析、主成分分析、典型相關(guān)分析、判別分析、聚類分析和Bayes分析等重要的分析方法。雖然“數(shù)據(jù)分析”課程可看作數(shù)理統(tǒng)計(jì)學(xué)理論與方法的綜合應(yīng)用,但其更注重實(shí)際的應(yīng)用問(wèn)題解決的全過(guò)程,從中得到有價(jià)值的信息與知識(shí)。
在大數(shù)據(jù)時(shí)代下,大量數(shù)據(jù)分析處理需求大大助長(zhǎng)了各行業(yè)及企業(yè)對(duì)統(tǒng)計(jì)、計(jì)算機(jī)背景相結(jié)合的人才的需求[5],如數(shù)據(jù)分析師、數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家等等,迫切需要同時(shí)掌握數(shù)據(jù)分析的基本理論與數(shù)據(jù)分析具體技術(shù),并且能夠通過(guò)計(jì)算機(jī)軟件(SAS、SPSS、Eviews等)對(duì)數(shù)據(jù)進(jìn)行分析與處理的復(fù)合型人才[6]。通過(guò)“數(shù)據(jù)分析”課程,學(xué)生將初步掌握數(shù)據(jù)分析的基本理論與方法,培養(yǎng)和鍛煉利用實(shí)際數(shù)據(jù)來(lái)分析、解決實(shí)際問(wèn)題的能力,這些技能將對(duì)學(xué)生升學(xué)深造和就業(yè)工作,具有非常重要的意義。
本文在對(duì)“數(shù)據(jù)分析”課程多年的觀察與教學(xué)的基礎(chǔ)上,對(duì)本科階段“數(shù)據(jù)分析”課程存在問(wèn)題進(jìn)行深入剖析,并給出一些初步的建議。
二、存在問(wèn)題
然而,筆者在最近幾年的授課過(guò)程中,發(fā)現(xiàn)“數(shù)據(jù)分析”課程在學(xué)生的學(xué)習(xí)過(guò)程和能力培養(yǎng)方面容易存在以下問(wèn)題:
1.理論課程難度較大,造成學(xué)生學(xué)習(xí)困難。“數(shù)據(jù)分析”課程作為“概率論與數(shù)理統(tǒng)計(jì)”、“高等代數(shù)”等課程的后續(xù)課程,需要學(xué)生對(duì)數(shù)學(xué)類專業(yè)課有比較扎實(shí)的基礎(chǔ)與深入的理解。如“數(shù)據(jù)分析”課程中的回歸方程的顯著性檢驗(yàn)方法,需要學(xué)生已經(jīng)掌握“概率論與數(shù)理統(tǒng)計(jì)”的多元正態(tài)分布的定義和數(shù)字特征、假設(shè)檢驗(yàn)等內(nèi)容,同時(shí)具有“高等代數(shù)”的矩陣運(yùn)算(包括矩陣的加、乘法,求逆陣,計(jì)算特征值和特征向量等)的基礎(chǔ)。同時(shí),“數(shù)據(jù)分析”與“概率論與數(shù)理統(tǒng)計(jì)”課程在內(nèi)容上也是有所差異的:前者強(qiáng)調(diào)從實(shí)際數(shù)據(jù)中挖掘盡可能多的有用信息,屬于后者的理論與方法的綜合應(yīng)用。因此,“數(shù)據(jù)分析”課程的理論難度較大,對(duì)于學(xué)生學(xué)習(xí)提出了很高的要求。
2.動(dòng)手能力要求高,考驗(yàn)學(xué)生的編程能力?!皵?shù)據(jù)分析”課程的知識(shí)點(diǎn)不僅僅停留在理論推導(dǎo)上,對(duì)于已經(jīng)建立的數(shù)學(xué)模型,需要借助與計(jì)算機(jī)對(duì)大批量的數(shù)據(jù)進(jìn)行處理,尤其是常用的統(tǒng)計(jì)軟件在漢化過(guò)程中,不能很好地解決專業(yè)術(shù)語(yǔ)的翻譯。因此在運(yùn)用計(jì)算機(jī)軟件解決實(shí)際問(wèn)題時(shí),對(duì)學(xué)生計(jì)算機(jī)編程能力和專業(yè)外語(yǔ)知識(shí)要求也很高。如在SAS中,有一整套的編程命令,以命令的方式來(lái)建立數(shù)據(jù)集,并對(duì)數(shù)據(jù)集進(jìn)行操作,甚至在實(shí)現(xiàn)某些分析算法(如Box-Cox變換)的時(shí)候,還會(huì)調(diào)用到選擇語(yǔ)句和循環(huán)語(yǔ)句。學(xué)生往往處于被動(dòng)學(xué)習(xí)的地位,只能按照教師的指導(dǎo),運(yùn)行一些簡(jiǎn)單的程序,如僅僅敲打書上例題程序,缺少實(shí)驗(yàn)過(guò)程中的動(dòng)手分析、設(shè)計(jì)和測(cè)試環(huán)節(jié),無(wú)法發(fā)揮學(xué)生的積極性與創(chuàng)造性。這樣的實(shí)驗(yàn)很難讓學(xué)生體會(huì)到實(shí)際的數(shù)據(jù)處理及編程環(huán)境,學(xué)會(huì)解決編程中碰到的意外問(wèn)題,因此難以激發(fā)學(xué)生的實(shí)驗(yàn)興趣,從而降低了教學(xué)的效果。
3.對(duì)于計(jì)算機(jī)運(yùn)行結(jié)果,需要較高的分析問(wèn)題能力,考察學(xué)生分析能力。很多同學(xué)能夠通過(guò)計(jì)算機(jī)調(diào)用統(tǒng)計(jì)軟件中各程序模塊的運(yùn)行,但僅僅能達(dá)到驗(yàn)證結(jié)果的目的,往往對(duì)計(jì)算結(jié)果中所包含的統(tǒng)計(jì)學(xué)等深層次的含義知之甚少,更不必說(shuō)從中提煉出有用的知識(shí)。如很多同學(xué)知道某統(tǒng)計(jì)量的假設(shè)檢驗(yàn)概率值p<0.0001,僅表示出現(xiàn)的概率極小,但不知道其假設(shè)條件,故無(wú)法做出統(tǒng)計(jì)推斷與檢驗(yàn)。如此將計(jì)算機(jī)工具與數(shù)據(jù)分析強(qiáng)行割裂,使得學(xué)生分析問(wèn)題的能力很難得到提高。因此,對(duì)于計(jì)算機(jī)運(yùn)行結(jié)果,需要較高的分析能力,找出其問(wèn)題的本質(zhì)。
三、課程建議
鑒于上述存在問(wèn)題,筆者對(duì)大數(shù)據(jù)時(shí)代下“數(shù)據(jù)分析”課程進(jìn)行了探索,提出了如下建議:
1.建議“數(shù)據(jù)分析”課程緊密銜接“概率論與數(shù)理統(tǒng)計(jì)”、“高等代數(shù)”等數(shù)學(xué)類基礎(chǔ)課程。在授課過(guò)程中,根據(jù)學(xué)生情況,逐步深入難度。課堂講授理論學(xué)時(shí)建議在48個(gè)學(xué)時(shí)以上,可確保知識(shí)的系統(tǒng)性和正確性,可對(duì)教材中內(nèi)容完整講解。對(duì)于定理的證明,建議通過(guò)黑板等傳統(tǒng)手段仔細(xì)推導(dǎo)與講解,對(duì)于部分超出課程要求的繁難的理論證明可以略去或改為學(xué)生自學(xué)。如在典型相關(guān)分析的過(guò)程中,對(duì)于典型相關(guān)變量和典型相關(guān)系數(shù)的求法,可以先給學(xué)生講解有關(guān)結(jié)果;尤其是計(jì)算矩陣平方根的逆矩陣,著重講解算法過(guò)程。例題和習(xí)題的選取,一般建議選取具有實(shí)際背景的觀測(cè)數(shù)據(jù)。通過(guò)這些例子的分析,使學(xué)生了解數(shù)據(jù)分析方法的具體應(yīng)用,體會(huì)數(shù)據(jù)分析的全過(guò)程。有條件的學(xué)校可以通過(guò)微課視頻等形式,將“數(shù)據(jù)分析”各個(gè)知識(shí)點(diǎn)制作成微課,供學(xué)生反復(fù)觀看使用。endprint
2.建議增加實(shí)驗(yàn)學(xué)時(shí),培養(yǎng)編程動(dòng)手能力。建議“數(shù)據(jù)分析”課程安排上機(jī)實(shí)驗(yàn)學(xué)時(shí)不少于16個(gè)學(xué)時(shí),選擇對(duì)常用統(tǒng)計(jì)軟件(SAS、SPSS或Eviews)的一種進(jìn)行仔細(xì)講解,使用SPSS或Eviews,其圖形界面可以幫助學(xué)生理解復(fù)雜的過(guò)程,使用SAS可以讓學(xué)生了解SAS的編程語(yǔ)言和語(yǔ)法結(jié)構(gòu)。有條件的高校,建議采用英文版的軟件,可使學(xué)生熟悉統(tǒng)計(jì)學(xué)的專有名詞,為今后的進(jìn)一步閱讀外文文獻(xiàn)提供幫助。筆者在實(shí)際教學(xué)過(guò)程中,結(jié)合SAS 9.4展開(kāi)介紹,上機(jī)實(shí)驗(yàn)學(xué)時(shí)為16課時(shí),可以使學(xué)生有足夠的時(shí)間進(jìn)行例題和習(xí)題的操作練習(xí)。在安排上機(jī)的過(guò)程中,根據(jù)學(xué)生的具體情況,開(kāi)展如Box-Cox變換等SAS程序的閱讀與編寫,加深對(duì)該變換算法的理解和該變換本質(zhì)——滿足線性回歸模型的假設(shè)條件的理解。
3.建議增加課程大作業(yè),實(shí)現(xiàn)數(shù)據(jù)綜合分析。課程大作業(yè)可以讓學(xué)生接觸到一個(gè)完整的分析問(wèn)題、解決問(wèn)題的過(guò)程。對(duì)于本科生來(lái)說(shuō),建議指導(dǎo)教師給出一些具體的題目,如大城市霧霾天氣的影響因素、景點(diǎn)游客滿意度等。這些熱點(diǎn)問(wèn)題更容易激發(fā)學(xué)生的學(xué)習(xí)興趣。在大作業(yè)中,鼓勵(lì)學(xué)生通過(guò)調(diào)查問(wèn)卷或查閱相關(guān)統(tǒng)計(jì)年鑒,以獲得相應(yīng)的原始數(shù)據(jù),并從實(shí)際數(shù)據(jù)中不斷挖掘盡可能多的有用信息以及希望從數(shù)據(jù)中得到的知識(shí)。根據(jù)計(jì)算機(jī)運(yùn)行結(jié)果,進(jìn)一步分析數(shù)據(jù)特征,學(xué)會(huì)從原始數(shù)據(jù)到有用信息再到科學(xué)知識(shí)的一個(gè)提煉過(guò)程。最后,通過(guò)同學(xué)討論與發(fā)言以及教師的點(diǎn)評(píng),來(lái)幫助學(xué)生培養(yǎng)分析問(wèn)題和解決問(wèn)題的能力。如針對(duì)大城市的霧霾天氣,請(qǐng)查找相關(guān)數(shù)據(jù),對(duì)可能的形成原因進(jìn)行分析,提出合理的假設(shè),并對(duì)治理霧霾天氣提出合理化建議??勺寣W(xué)生查閱霧霾出現(xiàn)的時(shí)間、溫度、濕度以及相關(guān)的工農(nóng)業(yè)生產(chǎn)指標(biāo)進(jìn)行分析,進(jìn)行主成分分析等,嘗試尋找導(dǎo)致霧霾的主要原因。
四、結(jié)束語(yǔ)
隨著移動(dòng)設(shè)備和各類傳感器的普及,數(shù)據(jù)量已經(jīng)從TB級(jí)躍升到PB、EB級(jí)乃至ZB(1ZB=10~21Byte)級(jí)別,大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨。面對(duì)如此驚人的數(shù)據(jù),對(duì)于數(shù)據(jù)的分析和挖掘需求已變得十分的迫切;同時(shí),充分利用大數(shù)據(jù)所帶來(lái)的信息,如何充分利用這些數(shù)據(jù),使其為國(guó)家、企業(yè)決策乃至個(gè)人服務(wù),是今后很長(zhǎng)一段時(shí)間內(nèi)科學(xué)研究和工程技術(shù)領(lǐng)域的重要內(nèi)容。
在這種時(shí)代背景下,“數(shù)據(jù)分析”課程作為信息與計(jì)算科學(xué)等相關(guān)專業(yè)的一門重要課程,將在很大程度上培養(yǎng)學(xué)生的數(shù)學(xué)思維與計(jì)算思維,提升學(xué)生的分析與解決實(shí)際的問(wèn)題能力,增強(qiáng)學(xué)生在升學(xué)深造和就業(yè)工作時(shí)的核心競(jìng)爭(zhēng)力,更好地融入到大數(shù)據(jù)時(shí)代中去。
參考文獻(xiàn):
[1]頁(yè)川.大數(shù)據(jù)時(shí)代背景下挖掘教育數(shù)據(jù)的價(jià)值[J].中國(guó)遠(yuǎn)程教育,2013,(4):94-95.
[2]董志清,廖正琦.《多元統(tǒng)計(jì)分析》課程的教學(xué)體會(huì)及探討[J].重慶文理學(xué)院學(xué)報(bào)(自然科學(xué)版),2010,(2):82-84.
[3]董梅生.提高應(yīng)用統(tǒng)計(jì)學(xué)課程教學(xué)效果的幾點(diǎn)體會(huì)[J].安徽工業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2011,(3):119-120.
[4]梅長(zhǎng)林,范金城.數(shù)據(jù)分析方法[M].北京:高等教育出版社,2006.
[5]向程冠,熊世桓,王東.淺談高校大數(shù)據(jù)分析人才培養(yǎng)模式[J].中國(guó)科技信息,2014,(9):138-139.
[6]姚志勇.SAS編程與數(shù)據(jù)挖掘商業(yè)案例[M].北京:機(jī)械工業(yè)出版社,2013.endprint