向沖
摘 要 “大數(shù)據(jù)”洶涌來襲,在商業(yè)、經(jīng)濟(jì)、科研、衛(wèi)生及政府等領(lǐng)域中,決策基于大數(shù)據(jù)分析而作出,對大數(shù)據(jù)人才的需求與日俱增。筆者從國內(nèi)外“大數(shù)據(jù)”研究現(xiàn)狀出發(fā),就“大數(shù)據(jù)”人才需求進(jìn)行分析,從“大數(shù)據(jù)”人才培養(yǎng)目標(biāo)、職業(yè)崗位能力、教學(xué)內(nèi)容、課程體系結(jié)構(gòu)、教學(xué)模式和方法等方面進(jìn)行論述,提出了高職“大數(shù)據(jù)”人才應(yīng)如何培養(yǎng)。
關(guān)鍵詞 大數(shù)據(jù) 數(shù)據(jù)分析 數(shù)據(jù)挖掘 人才培養(yǎng)
中圖分類號(hào):G712 文獻(xiàn)標(biāo)識(shí)碼:A
1什么是“大數(shù)據(jù)”
大數(shù)據(jù)(Big Data)是指“無法用現(xiàn)有的軟件工具提取、存儲(chǔ)、搜索、共享、分析和處理的海量的、復(fù)雜的數(shù)據(jù)集合。”業(yè)界通常用四個(gè)V(即Volume、Variety、Value、Velocity)來概括大數(shù)據(jù)的特征。
第一,數(shù)據(jù)體量巨大(Volume)。到目前為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB(1PB=1000TB),而歷史上全人類說過的所有的話的數(shù)據(jù)量大約是5EB(1EB=1000PB)。當(dāng)前,典型個(gè)人計(jì)算機(jī)硬盤的容量為TB量級(jí),而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級(jí)。
第二,數(shù)據(jù)類型繁多(Variety)。這種類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。相對于以往便于存儲(chǔ)的以文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等多類型的數(shù)據(jù),這就對數(shù)據(jù)的處理能力提出了更高的要求。
第三,價(jià)值密度低(Value)。價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。以視頻為例,一部一小時(shí)的視頻,在連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。如何通過強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價(jià)值“提純”是目前大數(shù)據(jù)洶涌背景下亟待解決的難題。
第四,處理速度快(Velocity)。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。根據(jù)IDC的“數(shù)字宇宙”的報(bào)告,預(yù)計(jì)到2020年全球數(shù)據(jù)使用量將會(huì)達(dá)到35.2ZB。在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命。
2國內(nèi)外“大數(shù)據(jù)”研究現(xiàn)狀
雖然大數(shù)據(jù)的概念沒有一個(gè)統(tǒng)一的定論,但這對于大數(shù)據(jù)的研究而言并不是最重要的,如何使用大數(shù)據(jù)才是關(guān)鍵。研究大數(shù)據(jù)其實(shí)也就是為了更好地應(yīng)用大數(shù)據(jù),所以國內(nèi)外對大數(shù)據(jù)的研究與應(yīng)用都相當(dāng)重視。事實(shí)上,大數(shù)據(jù)的研究與應(yīng)用已經(jīng)在互聯(lián)網(wǎng)、商業(yè)智能、咨詢與服務(wù)以及醫(yī)療服務(wù)、零售業(yè)、金融業(yè)、通信等行業(yè)顯現(xiàn),并產(chǎn)生了巨大的社會(huì)價(jià)值和產(chǎn)業(yè)空間。
2.1國外“大數(shù)據(jù)”研究狀況
國外的大數(shù)據(jù)研究工作主要集中在如何進(jìn)行大數(shù)據(jù)存儲(chǔ)、處理、分析以及管理的技術(shù)及軟件應(yīng)用上。在學(xué)術(shù)界,《Nature》早在2008年就推出了“big data”專刊,從互聯(lián)網(wǎng)技術(shù)、超級(jí)計(jì)算、生物醫(yī)學(xué)等方面來專門探討對大數(shù)據(jù)的研究。2012年 3月,美國公布了旨在提高和改進(jìn)人們從海量信息數(shù)據(jù)中獲取信息能力的“大數(shù)據(jù)研發(fā)計(jì)劃”。2012年4月歐洲信息學(xué)與數(shù)學(xué)研究協(xié)會(huì)會(huì)刊《ERCIM News》出版??癰ig data”,討論了大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理、數(shù)據(jù)密集型研究的創(chuàng)新技術(shù)等問題。在具體的實(shí)際應(yīng)用方面,大數(shù)據(jù)也顯現(xiàn)出了它的價(jià)值所在。谷歌公司通過對人們在網(wǎng)上檢索的詞條與疾病中心的數(shù)據(jù)進(jìn)行分析處理,有效及時(shí)地判斷出了流感的傳播來源,為公共衛(wèi)生機(jī)構(gòu)提供了有價(jià)值的信息,這是來自2009 年《Science》雜志上發(fā)表的一篇論文。喬布斯通過大數(shù)據(jù)輔助癌癥治療,丹麥癌癥協(xié)會(huì)通過大數(shù)據(jù)研究手機(jī)是否致癌等。
2.2國內(nèi)“大數(shù)據(jù)”研究狀況
與國外相比,國內(nèi)大數(shù)據(jù)的研究和應(yīng)用還處在起步階段。2012年5月,香山科學(xué)會(huì)議組織了以“大數(shù)據(jù)科學(xué)與工程”——“一門新興的交叉學(xué)科”為主題的會(huì)議,深入討論了大數(shù)據(jù)的理論與工程數(shù)據(jù)研究、應(yīng)用方向,指出目前最重視的都是大數(shù)據(jù)分析算法和大數(shù)據(jù)系統(tǒng)效率,通過研究大數(shù)據(jù)的關(guān)系網(wǎng)絡(luò)整體而全面地研究大數(shù)據(jù)。同年6月,中國計(jì)算機(jī)學(xué)會(huì)青年計(jì)算機(jī)科技論壇( CCF YOCSFF) 舉辦了“大數(shù)據(jù)時(shí)代,智謀未來”的學(xué)術(shù)報(bào)告會(huì),就大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘、體系架構(gòu)理論、大數(shù)據(jù)安全、大數(shù)據(jù)平臺(tái)開發(fā)與大數(shù)據(jù)現(xiàn)實(shí)案例進(jìn)行了全面的討論。隨著大數(shù)據(jù)時(shí)代的到來,商務(wù)管理、大城市亟待解決的交通問題進(jìn)行相關(guān)的研究和實(shí)驗(yàn),在營銷策略的制定、智能化的交通管理方面都得益于大數(shù)據(jù)的分析。
如果在國內(nèi)能夠搭建一個(gè)大數(shù)據(jù)共享平臺(tái),經(jīng)過預(yù)處理,抽取和集成的數(shù)據(jù)可通過相關(guān)的平臺(tái)交換和共享,讓大數(shù)據(jù)處理更便捷、更快速、更貼近用戶、更容易去實(shí)現(xiàn)或者去操作,那么也就實(shí)現(xiàn)了數(shù)據(jù)的流通,數(shù)據(jù)才會(huì)更加有生命力,使用價(jià)值也會(huì)增值。對大數(shù)據(jù)的處理和應(yīng)用,其核心還是需要從業(yè)務(wù)層面進(jìn)行科學(xué)規(guī)劃。
3高職院校應(yīng)如何培養(yǎng)“大數(shù)據(jù)”專業(yè)人才
大數(shù)據(jù)時(shí)代,企業(yè)、組織需要大量既精通業(yè)務(wù)又能進(jìn)行大數(shù)據(jù)分析的人才,美國目前面臨14萬至19萬分析和管理人才,以及 150萬具備理解和基于大數(shù)據(jù)研究做出決策的經(jīng)理和分析師人才的缺口,我國目前IT人員本身配備不足的現(xiàn)狀與大數(shù)據(jù)需要IT人員增加的矛盾更加突出,大數(shù)據(jù)對我國人才的培養(yǎng)模式以及現(xiàn)有人才的儲(chǔ)備提出了嚴(yán)峻的挑戰(zhàn)。
目前,國內(nèi)很多高校都開設(shè)了計(jì)算機(jī)專業(yè),培養(yǎng)了大量的計(jì)算機(jī)專業(yè)人才。然而,大數(shù)據(jù)時(shí)代帶給計(jì)算機(jī)行業(yè)很多機(jī)遇,也給計(jì)算機(jī)專業(yè)人才的培養(yǎng)帶來巨大的挑戰(zhàn)。如果高校不能及時(shí)地調(diào)整計(jì)算機(jī)專業(yè)人才的培養(yǎng)方案,那么培養(yǎng)出的專業(yè)人才將無法適應(yīng)企業(yè)和日新月異的大數(shù)據(jù)產(chǎn)業(yè)的需求。因此,大數(shù)據(jù)時(shí)代背景下,培養(yǎng)切合產(chǎn)業(yè)實(shí)踐需要的專業(yè)人才和擅長大數(shù)據(jù)的收集、存儲(chǔ)、表示、管理與分析的專業(yè)人才迫在眉睫。所以計(jì)算機(jī)專業(yè)教育不管是課程體系還是實(shí)踐教育都需要刻不容緩地探索創(chuàng)新模式。
3.1培養(yǎng)目標(biāo)
培養(yǎng)市場急需的大數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)倉庫管理等能力的實(shí)用型人才。具備數(shù)據(jù)管理、數(shù)據(jù)分析、數(shù)據(jù)挖掘等專業(yè)實(shí)踐能力,適應(yīng)現(xiàn)代社會(huì)大數(shù)據(jù)應(yīng)用發(fā)展所需要的高素應(yīng)用型專門人才。
3.2職業(yè)崗位能力
(1)主要就業(yè)崗位:大數(shù)據(jù)工程師、大數(shù)據(jù)分析工程師、軟件工程師(大數(shù)據(jù)方向)
(2)崗位核心能力:熟悉數(shù)據(jù)采集、統(tǒng)計(jì)分析、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、數(shù)據(jù)可視化、推薦系統(tǒng)等相關(guān)領(lǐng)域知識(shí)與算法;熟悉大數(shù)據(jù)分析的相關(guān)技術(shù)思路,熟悉Hadoop平臺(tái),對MapReduce編程模式了解,能編寫分布式并行計(jì)算程序;熟悉NoSQL非結(jié)構(gòu)化和非關(guān)系型數(shù)據(jù)庫;熟練運(yùn)用以下一種或幾種計(jì)算機(jī)語言:Java,C/C++,Scala等;熟悉Sql語言,熟悉多種數(shù)據(jù)庫(Oracle、Sqlserver、DB2、Mysql等),至少精通一種。
3.3教學(xué)內(nèi)容
教學(xué)內(nèi)容主要通過表1的內(nèi)容體現(xiàn):
3.4課程體系結(jié)構(gòu)
課程體系主要通過以下三個(gè)模塊進(jìn)行構(gòu)建:
(1)通識(shí)課程:培養(yǎng)職業(yè)素養(yǎng)和基本技能。
主要包括:入學(xué)教育與軍事理論、計(jì)算機(jī)基礎(chǔ)、大學(xué)英語、應(yīng)用文寫作、大學(xué)生心里健康教育、就業(yè)指導(dǎo)與規(guī)劃等。
(2)專業(yè)課程:培養(yǎng)專業(yè)知識(shí)、專業(yè)技能和實(shí)踐能力。
主要包括:C語言編程、數(shù)據(jù)結(jié)構(gòu)、Java語言編程、SQLServer數(shù)據(jù)庫、Oracle數(shù)據(jù)庫、云計(jì)算、Nosql、Hadoop、數(shù)據(jù)挖掘、Spss數(shù)據(jù)統(tǒng)計(jì)分析、計(jì)算網(wǎng)絡(luò)安全、課程實(shí)訓(xùn)、綜合實(shí)訓(xùn)等;
(3)拓展課程:拓展能力和興趣愛好。
主要包括:專業(yè)素質(zhì)拓展、人文素質(zhì)拓展、創(chuàng)業(yè)素質(zhì)拓展等系列課程。
3.5教學(xué)模式和方法
采用企業(yè)真實(shí)案例教學(xué),通過項(xiàng)目中的模塊貫穿知識(shí)點(diǎn),以“項(xiàng)目”為載體組織教學(xué)內(nèi)容。在教學(xué)上淡化理論教學(xué)與實(shí)踐教學(xué)的界限,“教、學(xué)、做”相結(jié)合,努力做到互相滲透、融為一體,使學(xué)生在“做”中“學(xué)”,教師在“做”中“教”。
4總結(jié)
“大數(shù)據(jù)”的真實(shí)價(jià)值就像漂浮在海洋中的冰山,絕大部分都隱藏在表面之下。而發(fā)掘數(shù)據(jù)價(jià)值、征服數(shù)據(jù)海洋的“動(dòng)力”就是云計(jì)算。互聯(lián)網(wǎng)時(shí)代,尤其是社交網(wǎng)絡(luò)、電子商務(wù)與移動(dòng)通信把人類社會(huì)帶入了一個(gè)以“PB”(1024TB)為單位的結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù)信息的新時(shí)代。在云計(jì)算出現(xiàn)之前,傳統(tǒng)的計(jì)算機(jī)是無法處理如此量大、并且不規(guī)則的“非結(jié)構(gòu)數(shù)據(jù)”的。以云計(jì)算為基礎(chǔ)的信息存儲(chǔ)、分享和挖掘手段,可以便宜、有效地將這些大量、高速、多變化的終端數(shù)據(jù)存儲(chǔ)下來,并隨時(shí)進(jìn)行分析與計(jì)算。大數(shù)據(jù)與云計(jì)算是一個(gè)問題的兩面:一個(gè)是問題,一個(gè)是解決問題的方法。通過云計(jì)算對大數(shù)據(jù)進(jìn)行分析、預(yù)測,會(huì)使得決策更為精準(zhǔn),釋放出更多數(shù)據(jù)的隱藏價(jià)值。綜上,在“大數(shù)據(jù)”人才培養(yǎng)方面,筆者提出了自己的一些觀點(diǎn)和看法,寄希望更多的人士對高職“大數(shù)據(jù)”人才培養(yǎng)做出更深入和細(xì)致的研究,為中國夢的實(shí)現(xiàn),“中國制造”到“優(yōu)質(zhì)制造”的升級(jí)做出更多貢獻(xiàn)。
基金項(xiàng)目:湖北省教育科學(xué)“十二五”規(guī)劃2014年度課題項(xiàng)目(項(xiàng)目編號(hào):2014B538)、校級(jí)重點(diǎn)科研課題項(xiàng)目(項(xiàng)目編號(hào):2014A004)。
參考文獻(xiàn)
[1] 王元卓.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2013(6).
[2] 嚴(yán)霄鳳.大數(shù)據(jù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013(4).
[3] 李雯雯.大數(shù)據(jù)時(shí)代計(jì)算機(jī)專業(yè)教育的探索[J].現(xiàn)代計(jì)算機(jī),2014(04).
[4] 張影.將大數(shù)據(jù)提升為國家戰(zhàn)略[J].中國經(jīng)濟(jì)報(bào)告,2014(1).