楊菲菲
摘要:從社會需求出發(fā),將大數(shù)據(jù)和信息管理與信息系統(tǒng)專業(yè)有機(jī)結(jié)合,構(gòu)建了基于Hadoop的面向信管專業(yè)的數(shù)據(jù)分析與數(shù)據(jù)挖掘課程群。根據(jù)課程群建設(shè)思路,確定了該課程群的教學(xué)目標(biāo),找到對應(yīng)的知識能力體系,確定了課程,構(gòu)建了該課程群的課程體系,以期為信管專業(yè)的改革發(fā)展提供參考。
關(guān)鍵詞:Hadoop;數(shù)據(jù)分析與數(shù)據(jù)挖掘;課程群;信管專業(yè)
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)28-0095-03
Research on Curriculum Group of Data Analysis and Data Mining Based on Hadoop of Information Management and Information System
YANG Fei-fei
(ShandongYouthUniversityofPoliticalScience, Jinan 250103, China)
Abstract: From the point of social needs,combining the big data and information management and information system specialty, a data analysis and data mining course group based on Hadoop is built. According to the train of thought of the course group construction, the corresponding knowledge ability system is found and the curriculum is determined in this paper. The construction of curriculum system will provide some reference for the reform and development of the information management and information system.
Key words: Hadoop;data Analysis and data Mining;curriculum group;information management and information system
1 引言
在大數(shù)據(jù)時代,數(shù)據(jù)就是最珍貴的資源,數(shù)據(jù)將引領(lǐng)傳統(tǒng)行業(yè),并將與之結(jié)合,催化出不可低估的影響力,大數(shù)據(jù)本身就是一個大的系統(tǒng),在系統(tǒng)內(nèi)部進(jìn)行數(shù)據(jù)分析從而得出數(shù)據(jù)的價值。大數(shù)據(jù)蓬勃發(fā)展的背景下,社會對具有數(shù)據(jù)管理和分析能力的人才需求在迅猛增長,其需求量超過對傳統(tǒng)信息管理人才的需求量,所需人員必須擁有相應(yīng)的技術(shù)水平、管理水平、社會交往能力、信息系統(tǒng)分析和開發(fā)能力,更重要的是對數(shù)據(jù)進(jìn)行有效分析的能力。事實上,數(shù)據(jù)管理與分析已滲透到社會經(jīng)濟(jì)的各個領(lǐng)域,社會需要能夠進(jìn)行數(shù)據(jù)管理與分析的創(chuàng)新型人才。隨著大數(shù)據(jù)技術(shù)的發(fā)展,信息管理與信息系統(tǒng)專業(yè)的側(cè)重點從信息系統(tǒng)開發(fā)將轉(zhuǎn)移到信息資源的利用上。因此,國內(nèi)很多高校對于信息管理與信息系統(tǒng)的課程體系及課程群也進(jìn)行了相關(guān)的研究。汪祖柱[1]在大數(shù)據(jù)背景下的信息管理與信息系統(tǒng)專業(yè)課程建設(shè)中指出在課程體系中添加數(shù)據(jù)挖掘,及數(shù)據(jù)分析相應(yīng)的語言;高巖[2]以數(shù)據(jù)治理能力為導(dǎo)向構(gòu)建的數(shù)據(jù)處理課程群,其主要課程包括數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)庫系統(tǒng)原理、信息資源管理、信息安全等,培養(yǎng)學(xué)生在數(shù)據(jù)組織、元/主數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、數(shù)據(jù)集成等方面的能力。山東理工大學(xué)的劉婷婷等[3]在人才培養(yǎng)目標(biāo)中也強(qiáng)調(diào)學(xué)生不但要掌握現(xiàn)代信息系統(tǒng)的規(guī)劃、分析、設(shè)計、實施和運(yùn)維等方面的方法與技術(shù),更要具有現(xiàn)代管理科學(xué)思想和較強(qiáng)的信息系統(tǒng)開發(fā)利用以及數(shù)據(jù)分析處理能力。信息管理與信息系統(tǒng)專業(yè)是和大數(shù)據(jù)聯(lián)系最為緊密的專業(yè),為了應(yīng)對大數(shù)據(jù)分析與應(yīng)用的挑戰(zhàn),抓住機(jī)遇,找到我校信息管理與信息系統(tǒng)專業(yè)的特色,拓寬就業(yè)生的就業(yè)范圍,在信息管理與信息系統(tǒng)專業(yè)中建設(shè)并實踐數(shù)據(jù)分析與數(shù)據(jù)挖掘課程群是非常迫切的任務(wù)。
2 課程群建設(shè)的基本思路
課程群是圍繞一定專業(yè)的人才培養(yǎng)目標(biāo)要求,為了完成某種能力的培養(yǎng),由若干門具有邏輯關(guān)系的課程重新規(guī)劃、整合構(gòu)建的有機(jī)結(jié)合體。課程間相互連接、相互支撐、相互配合,教學(xué)內(nèi)容要具有系統(tǒng)性、關(guān)聯(lián)性和整體性[4]。它的建設(shè)不是簡單的課程堆積,需要從實際應(yīng)用的角度對教學(xué)內(nèi)容進(jìn)行系統(tǒng)設(shè)計,對相關(guān)課程的整體內(nèi)容、結(jié)構(gòu)、關(guān)聯(lián)性進(jìn)行整體優(yōu)化,各課程形成一個有機(jī)聯(lián)系的整體,才能稱得上是真正的課程群[5]。課程群打破了課程內(nèi)容的歸屬性,弱化了課程的獨立性,強(qiáng)化課程之間的親和性,使它們在一個更高的層面上連貫起來。
圖1 課程群建設(shè)思路
在進(jìn)行課程群的構(gòu)建時,采用如圖1的建設(shè)思路。首先根據(jù)建設(shè)課程群的目的確定課程群教學(xué)目標(biāo),即該課程群在專業(yè)人才培養(yǎng)中的地位及作用,然后分解該目標(biāo)找到對應(yīng)的知識體系、實踐能力和綜合素質(zhì),繼而找到對應(yīng)的課程,有了課程需要根據(jù)所對應(yīng)的知識點撰寫課程大綱,還需要有完成該課程群所需要的保障條件,課程群有效實施后,實現(xiàn)課程群的目標(biāo),形成了閉環(huán)。
在構(gòu)建課程群時除了理論知識的優(yōu)化整合外,還需要考慮實踐環(huán)節(jié)的統(tǒng)籌,建立合理的實踐教學(xué)體系也是課程群建設(shè)的重要部分。
3 數(shù)據(jù)分析與數(shù)據(jù)挖掘課程群的構(gòu)建
3.1課程群教學(xué)目標(biāo)
課程群的構(gòu)建不能脫離專業(yè)人才培養(yǎng),課程體系建設(shè)是專業(yè)培養(yǎng)目標(biāo)相適應(yīng)的整個課程體系為對象,是屬于宏觀層面的課程建設(shè);課程的建設(shè)是一單獨課程為建設(shè)對象,屬于微觀層面的課程建設(shè);課程群的建設(shè)是以相對獨立的課程整體為建設(shè)對象,具有明確的教學(xué)目標(biāo)與培養(yǎng)任務(wù),屬于中觀層面的建設(shè)。
根據(jù)信息管理與信息系統(tǒng)專業(yè)的人才培養(yǎng)目標(biāo),數(shù)據(jù)分析與數(shù)據(jù)挖掘課程群在整個人才培養(yǎng)中的地位非常重要,學(xué)生應(yīng)該掌握數(shù)據(jù)采集、存儲、分析與挖掘以及可視化的相關(guān)方法和技術(shù),具備數(shù)據(jù)分析與數(shù)據(jù)挖掘的能力,在目前大數(shù)據(jù)的背景下,學(xué)生應(yīng)該具備以Hadoop為技術(shù)支持的數(shù)據(jù)分析與數(shù)據(jù)挖掘的能力。
3.2課程群的構(gòu)建
根據(jù)以上課程群的教學(xué)目標(biāo),以數(shù)據(jù)分析與數(shù)據(jù)挖掘的流程來找到對應(yīng)的知識體系,進(jìn)而確定對應(yīng)的課程以及課程的前導(dǎo)后續(xù)關(guān)系。
3.2.1 能力培養(yǎng)的流程
以Hadoop為技術(shù)基礎(chǔ)的數(shù)據(jù)分析與數(shù)據(jù)挖掘的流程如圖2所示。
數(shù)據(jù)分析與數(shù)據(jù)挖掘的第一步必須有大量的數(shù)據(jù),數(shù)據(jù)的來源可以是已存儲的數(shù)據(jù),也可以是從網(wǎng)絡(luò)或系統(tǒng)中提取的數(shù)據(jù),在此,我們著重教給學(xué)生從網(wǎng)絡(luò)自行爬取數(shù)據(jù)的方法。
數(shù)據(jù)采集后,需要對數(shù)據(jù)進(jìn)行清洗,即對數(shù)據(jù)進(jìn)行預(yù)處理,處理好之后進(jìn)行存儲,目前,數(shù)據(jù)庫的存儲可以使用關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫、分布式文件存儲數(shù)據(jù)庫等。因為構(gòu)建的是以Hadoop為技術(shù)基礎(chǔ)的課程群,在此我們著重培養(yǎng)學(xué)生使用分布式文件存儲數(shù)據(jù)庫的能力。
數(shù)據(jù)存儲后,可以對數(shù)據(jù)進(jìn)行分析與挖掘,使用大數(shù)據(jù)技術(shù)中的MapReduce以及數(shù)據(jù)挖掘、數(shù)據(jù)統(tǒng)計的方法對數(shù)據(jù)進(jìn)行分析挖掘。
數(shù)據(jù)挖掘后,以圖表的形式展現(xiàn)清晰明了,需要對數(shù)據(jù)進(jìn)行數(shù)據(jù)可視化。
3.2.2課程群知識體系的構(gòu)建
根據(jù)上述流程,逐個分析各個流程中需要用的知識技能。
1)數(shù)據(jù)采集
數(shù)據(jù)采集中著重培養(yǎng)學(xué)生從網(wǎng)絡(luò)爬取數(shù)據(jù)的能力,在目前眾多的方法中選取比較流行的前沿語言Python語言,在此流程中,需要用到的知識技能如下:
(1)學(xué)生需要掌握數(shù)據(jù)采集的基本原理
(2)掌握Python語言的基本語法
(3)具備使用Python語言進(jìn)行數(shù)據(jù)采集的能力。
2)數(shù)據(jù)存儲
數(shù)據(jù)存儲中,需要對數(shù)據(jù)進(jìn)行預(yù)處理,然后實現(xiàn)分布式存儲,需要用到的知識技能如下:
(1)數(shù)據(jù)預(yù)處理的原理方法,包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。
(2)Hadoop體系結(jié)構(gòu)
(3)HDFS分布式文件系統(tǒng)的基本原理及運(yùn)行機(jī)制
(4)掌握一門分布式文件存儲數(shù)據(jù)庫,這里選用比較前沿的MongoDB。
對于關(guān)系型數(shù)據(jù)庫,在數(shù)據(jù)庫原理專業(yè)基礎(chǔ)課中已經(jīng)講述,在此不再納入該課程體系的范疇。
3)數(shù)據(jù)分析與數(shù)據(jù)挖掘
對數(shù)據(jù)進(jìn)行預(yù)處理和存儲后,可以根據(jù)目標(biāo)對數(shù)據(jù)進(jìn)行分析與挖掘了。在此,需要使用的知識技能如下:
(1)掌握數(shù)據(jù)統(tǒng)計的基本原理
(2)掌握數(shù)據(jù)挖掘的經(jīng)典算法和典型工具
(3)理解MapReduce編程模型的原理
(4)掌握簡單的MapReduce程序的編寫
(5)掌握Python中Pandas庫numpy數(shù)值計算方法
4)數(shù)據(jù)可視化
數(shù)據(jù)可視化在目前的數(shù)據(jù)分析中用的非常多,也有很多的工具。為了使該課程群具有前后連貫性和統(tǒng)一性,在此,使用Python語言中數(shù)據(jù)可視化的工具包,需要使用到的知識技能如下:
(1)掌握matplotlib的使用方法,matplotlib是Python中最基本的可視化工具
(2)掌握seaborn的使用,seaborn是一個非常漂亮的可視化工具。
以上,根據(jù)課程群的建設(shè)目標(biāo),找到了對應(yīng)的知識體系。
3.2.2 課程的構(gòu)建
根據(jù)上述中對課程知識點的分析描述,對課程進(jìn)行合并歸納,找到課程群中的課程,課程群推導(dǎo)過程如圖3所示。
從圖3中,根據(jù)每個流程中對應(yīng)的知識點,找到對應(yīng)的課程,對課程進(jìn)行內(nèi)容合并,課程群的主要課程包括Python語言、數(shù)據(jù)預(yù)處理、統(tǒng)計學(xué)、數(shù)據(jù)挖掘、大數(shù)據(jù)技術(shù)、MongoDB數(shù)據(jù)庫六門課程。其中,Python語言課程的講解中需要包括的內(nèi)容有網(wǎng)絡(luò)爬蟲的應(yīng)用、Python語言數(shù)據(jù)分析與挖掘、Python語言可視化。為了更好地提高學(xué)生的實踐能力,將整個課程的內(nèi)容按照能力培養(yǎng)的流程從頭到尾進(jìn)行貫穿,在課程學(xué)習(xí)結(jié)束后,增加了一個數(shù)據(jù)分析與數(shù)據(jù)挖掘項目綜合實訓(xùn)。
3.2.3課程群的課程體系
為了更好地達(dá)到該課程群的教學(xué)目標(biāo),對課程群中的課程以及支撐課程進(jìn)行分析,得出數(shù)據(jù)分析與數(shù)據(jù)挖掘課程群的課程體系,如圖4所示。
學(xué)生學(xué)習(xí)數(shù)據(jù)分析與數(shù)據(jù)挖掘的課程,需要具有計算機(jī)科學(xué)的基礎(chǔ),掌握面向?qū)ο蟮挠嬎銠C(jī)編程思想和數(shù)據(jù)描述方法,需要開設(shè)數(shù)據(jù)結(jié)構(gòu)、計算機(jī)網(wǎng)絡(luò)、數(shù)據(jù)庫原理、程序設(shè)計語言等課程;為了給學(xué)生將來從事數(shù)據(jù)分析、數(shù)據(jù)挖掘等相關(guān)工作奠定基礎(chǔ),以數(shù)學(xué)和統(tǒng)計為基礎(chǔ),掌握基本的數(shù)學(xué)邏輯思維方法,需要開設(shè)微積分、線性代數(shù)、概率論與數(shù)理統(tǒng)計等課程,這些構(gòu)成了數(shù)據(jù)分析與數(shù)據(jù)挖掘課程群的支撐平臺,為數(shù)據(jù)分析與數(shù)據(jù)挖掘課程群的開設(shè)奠定了基礎(chǔ)。
課程的開設(shè)先后關(guān)系如圖4中所示。Python語言是整個課程群的語言基礎(chǔ),貫穿整個課程群的學(xué)習(xí),所以放在最前面,根據(jù)信管專業(yè)的課程體系整體安排,建議在第四學(xué)期開設(shè)。數(shù)據(jù)預(yù)處理和MongoDB數(shù)據(jù)庫也是比較基礎(chǔ)的課程,Python語言中采集部分需要用到相關(guān)知識,所以與Python語言課程一起開設(shè)。根據(jù)能力培養(yǎng)的流程,將大數(shù)據(jù)技術(shù)、統(tǒng)計學(xué)在第五學(xué)期開設(shè),數(shù)據(jù)挖掘在第六學(xué)期開設(shè),在整個課程學(xué)習(xí)完后,第六學(xué)期的期末進(jìn)行數(shù)據(jù)分析與數(shù)據(jù)挖掘綜合項目實訓(xùn)。
數(shù)據(jù)分析與數(shù)據(jù)挖掘課程群的具體的教學(xué)安排如表1所示,其中學(xué)分是指理論課和實驗課的總學(xué)分,其中理論課的1學(xué)分為16課時,實踐課的1學(xué)分為32課時,如“2+2”表示32課時的理論課和64學(xué)分的實驗課。另外,項目綜合實訓(xùn)屬于集中實踐環(huán)節(jié),2學(xué)分為2周的時間。
4 結(jié)束語
在當(dāng)前大數(shù)據(jù)背景下,基于Hadoop技術(shù)的面向信管專業(yè)的數(shù)據(jù)分析與數(shù)據(jù)挖掘課程群的構(gòu)建研究是信息管理與信息系統(tǒng)專業(yè)與大數(shù)據(jù)結(jié)合的一次創(chuàng)新。以社會的需求為導(dǎo)向,以培養(yǎng)學(xué)生的數(shù)據(jù)分析與數(shù)據(jù)挖掘的能力為目標(biāo),同時培養(yǎng)學(xué)生運(yùn)用數(shù)據(jù)思維分析和解決實際問題的能力。此課程群的有效實施,還需要有完善的實踐平臺以及一支知識結(jié)構(gòu)合理、教學(xué)水平高的教學(xué)團(tuán)隊,這是以后重點建設(shè)的方向。
參考文獻(xiàn):
[1]汪祖柱.大數(shù)據(jù)背景下的信息管理與信息系統(tǒng)專業(yè)課程建設(shè)[J] .宿州學(xué)院學(xué)報,2015(2):121-122.
[2]高巖. 大數(shù)據(jù)背景下信息管理專業(yè)的課程群建設(shè)[J].計算機(jī)教育,2014(12):8-10.
[3]劉婷婷, 李長儀, 張立濤.大數(shù)據(jù)時代下信息管理與信息系統(tǒng)專業(yè)培養(yǎng)模式研究[J].中國電力教育,2014(2):48-50.
[4] 石洪波,冀素琴,呂亞麗,郭珉.財經(jīng)院校信息類專業(yè)數(shù)據(jù)管理與分析課程群體系研究[J].高等財經(jīng)教育研究,2015(9):54-58.
[5] 張景森,杜振川,周俊杰,許云,張靜.高校課程群建設(shè)理論與實踐中的幾個問題[J]. 現(xiàn)代教育科學(xué),2015(9):64-69.
【通聯(lián)編輯:王力】