耿 學(xué)
(山東工業(yè)職業(yè)學(xué)院 山東 淄博 256414)
隨著計(jì)算機(jī)技術(shù)與互聯(lián)網(wǎng)技術(shù)的發(fā)展,數(shù)據(jù)呈現(xiàn)出爆發(fā)式的增長,根據(jù)著名咨詢機(jī)構(gòu)互聯(lián)網(wǎng)數(shù)據(jù)中心的預(yù)測(cè),人類社會(huì)產(chǎn)生的數(shù)據(jù)以每年50%的速度增長,也就是說,大約每兩年就增加一倍,2020 年全球總共擁有35ZB 的數(shù)據(jù)量[2]。面對(duì)如此巨大的數(shù)據(jù)量,需要使用新技術(shù)對(duì)其采集、存儲(chǔ)、處理以及分析,從而得到有價(jià)值的數(shù)據(jù),這一系列的過程產(chǎn)生了大量的人才需求,高職院校為了培養(yǎng)相關(guān)人才紛紛申報(bào)了大數(shù)據(jù)專業(yè),但因大數(shù)據(jù)專業(yè)為新興專業(yè),師資力量儲(chǔ)備不足、教師經(jīng)驗(yàn)不足,而大數(shù)據(jù)涵蓋的知識(shí)技術(shù)廣、難度大,高職院校學(xué)生在校學(xué)習(xí)時(shí)間短等等。如何通過調(diào)整課程體系設(shè)置,增強(qiáng)大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)課程之間的關(guān)聯(lián)性、整合力,促進(jìn)高職學(xué)生就業(yè)等是高職院校研究的重點(diǎn)。
以下通過學(xué)情、崗位、技術(shù)三個(gè)層面分析高職院校大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)課程設(shè)置需綜合考慮的問題。
高職院校學(xué)生學(xué)制3 年,但在校時(shí)間一般2 年,2 年中需要安排基本素質(zhì)課、專業(yè)通識(shí)課、專業(yè)核心課和專業(yè)拓展課,時(shí)間有限,安排的課程即有限。但是大數(shù)據(jù)囊括的技術(shù)非常多,難度也大,課程設(shè)置時(shí)要考慮課程設(shè)置的貫通性、整合性。
通過對(duì)各大招聘網(wǎng)站調(diào)研,發(fā)現(xiàn)面向高職院校招聘的大數(shù)據(jù)相應(yīng)崗位主要包括大數(shù)據(jù)開發(fā)、大數(shù)據(jù)運(yùn)維、大數(shù)據(jù)分析與挖掘[1],分別占比67.5%、24%、5%。相應(yīng)崗位的工作任務(wù)和知識(shí)技能要求如表1 所示。綜合分析就業(yè)崗位、工作任務(wù)及知識(shí)技能要求,學(xué)生應(yīng)掌握的知識(shí)包括:Linux 平臺(tái)應(yīng)用、編程語言Java 及Python 的使用、Hadoop 集群及相關(guān)組件的安裝、部署及應(yīng)用等[3-4]。課程設(shè)置時(shí)應(yīng)注意課程之間的銜接性、整體性,避免重復(fù)性,例如數(shù)據(jù)庫學(xué)習(xí)可以有SQLServer、Oracle、MySQL 等,但是從整體性考慮MySQL 在整個(gè)課程體系中使用更廣泛、銜接性更好。
表1 大數(shù)據(jù)就業(yè)崗位表
從大數(shù)據(jù)分析角度來說,典型的大數(shù)據(jù)分析過程包括:數(shù)據(jù)采集與預(yù)處理、數(shù)據(jù)存儲(chǔ)與管理、數(shù)據(jù)處理與分析、數(shù)據(jù)可視化;這些分析過程中涵蓋的相關(guān)技術(shù)既包含底層的操作系統(tǒng)(Linux、Windows)、網(wǎng)絡(luò)技術(shù),還包含編程語言(Java、Python、R、Scala、C),包含Hadoop生態(tài)體系(HDFS、MapReduce、HBase、Hive、Zookeeper、Pig、Flume、Sqoop、Mahout、Ambari 等)(見圖1 所示)、Spark 生態(tài)系統(tǒng)(Spark Core、SparkSQL、SparkStreaming、MLib等)(見圖2 所示),數(shù)據(jù)采集工具Kettle、可視化技術(shù)ECharts 等。面對(duì)如此多的技術(shù),如何合理安排課程以銜接人才培養(yǎng)方案,也是需要考慮的內(nèi)容。
圖1
圖2
綜上所述,高職大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)所需掌握的技術(shù)多、難度大、時(shí)間短,在課程設(shè)置方面應(yīng)注重課程的銜接性、整體性,避免重復(fù)性:
前面所述,大數(shù)據(jù)專業(yè)涉及技術(shù)廣、選擇性也多,所以課程設(shè)置時(shí)要根據(jù)人才培養(yǎng)定位總體把握,避免出現(xiàn)課程重復(fù)的情況,例如,數(shù)據(jù)庫課程開設(shè)的是SQLServer,而在Hadoop 學(xué)習(xí)時(shí)更多是使用Linux 平臺(tái),在Linux 平臺(tái)上連接數(shù)據(jù)庫優(yōu)選MySQL,這樣就造成了課程之間的脫節(jié)、重復(fù)。
大數(shù)據(jù)專業(yè)的人才定位是大數(shù)據(jù)開發(fā)、運(yùn)維、分析與挖掘,那么面對(duì)Java、C 語言、C++、Scala、Python、R 語言等大數(shù)據(jù)中常用的編程語言,如何進(jìn)行選擇?根據(jù)學(xué)生學(xué)習(xí)時(shí)間及相近課程最少化原則,Java 及Python 是最好的選擇,Hadoop 是Java 語言開發(fā),若要使用其核心組件HDFS 及MapReduce 進(jìn)行大數(shù)據(jù)存儲(chǔ)及處理,掌握J(rèn)ava 語言更方便,開發(fā)的程序也更穩(wěn)定;進(jìn)行大數(shù)據(jù)開發(fā)必須要掌握一門web開發(fā)技術(shù),那目前比較流行的是PHP 和JavaWeb,JavaWeb 和Java 是一個(gè)體系,開設(shè)JavaWeb,學(xué)生學(xué)習(xí)既可以達(dá)到深化的目的又可以形成整體的知識(shí)架構(gòu),而PHP 是新課程,學(xué)生學(xué)習(xí)會(huì)有抵觸的心理,而且構(gòu)建的知識(shí)會(huì)比較零散。此外,選擇性比較多的還有數(shù)據(jù)庫,數(shù)據(jù)庫有SQLServer、MySQL、Oracle,SQLServer 早期產(chǎn)品只適用于Windows,Oracle 是收費(fèi)軟件,MySQL 開源免費(fèi),MySQL 無論是在Java Web 保存數(shù)據(jù)還是在Hive 元數(shù)據(jù)存儲(chǔ)方面都更勝一籌。
第一學(xué)期可開設(shè)計(jì)算機(jī)文化基礎(chǔ)、網(wǎng)絡(luò)技術(shù)、Java 程序設(shè)計(jì)課程,培養(yǎng)學(xué)生大數(shù)據(jù)平臺(tái)搭建以及數(shù)據(jù)處理的專業(yè)基礎(chǔ)知識(shí)技能;第二學(xué)期可開設(shè)大數(shù)據(jù)概論、MySQL 數(shù)據(jù)庫、Linux 操作系統(tǒng)以及HTML 等課程,培養(yǎng)學(xué)生平臺(tái)應(yīng)用以及數(shù)據(jù)存儲(chǔ)專業(yè)知識(shí)技能;第三學(xué)期進(jìn)入專業(yè)核心課程學(xué)習(xí),開設(shè)Python、數(shù)據(jù)清洗、JavaScript、Hadoop大數(shù)據(jù)技術(shù)與應(yīng)用等,培養(yǎng)學(xué)生的大數(shù)據(jù)采集、清洗、分析、展示各階段的專業(yè)技能;第四學(xué)期進(jìn)入專業(yè)知識(shí)拔高以及綜合運(yùn)用階段,可開設(shè)Spark 編程提高大數(shù)據(jù)處理速度,開設(shè)Hbase 進(jìn)行大數(shù)據(jù)查詢等,見表2 所示。
表2 大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)課程設(shè)置
Hadoop 生態(tài)系統(tǒng)和Spark 生態(tài)系統(tǒng)包含諸多組件,數(shù)據(jù)采集有爬蟲、flume 采集等,但教學(xué)中不能就每個(gè)技術(shù)逐個(gè)詳細(xì)講解,所以課程設(shè)置時(shí)要綜合考慮就業(yè)崗位知識(shí)技能需求以及課程之間的貫通性。
大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)作為新興專業(yè),其在專業(yè)課程設(shè)置方面應(yīng)該經(jīng)過充分的調(diào)研論證,以知識(shí)點(diǎn)為抓手,以應(yīng)用為目的,強(qiáng)化課程體系的整合建設(shè),推動(dòng)高職院校的辦學(xué)能力。