黃 晉
(華南師范大學(xué) 計算機(jī)學(xué)院,廣東 廣州 510631)
隨著計算機(jī)軟硬件技術(shù)的快速發(fā)展,計算技術(shù)已從傳統(tǒng)的P C平臺計算模式發(fā)展到嵌入式計算、移動計算、并行計算和服務(wù)計算等多種計算系統(tǒng)并存及融合的計算模式,處理的對象也呈現(xiàn)出網(wǎng)絡(luò)化、多媒體化、大數(shù)據(jù)化和智能化需求的特征,而物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)的快速發(fā)展促進(jìn)了這一趨勢,從而迎來了大數(shù)據(jù)時代的到來。大數(shù)據(jù)是繼云計算、物聯(lián)網(wǎng)之后興起的又一新興發(fā)展方向,被學(xué)術(shù)界、工業(yè)界乃至政府機(jī)構(gòu)密切關(guān)注和廣泛研究。
大數(shù)據(jù)又稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極的目的的資訊。在維克托·邁爾·舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》中大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)的方法。一般說來,大數(shù)據(jù)具有4 V的特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。
從廣義上講,大數(shù)據(jù)人才就是具備大數(shù)據(jù)處理能力的科學(xué)家和工程師。目前,國際上開設(shè)了大量的數(shù)據(jù)科學(xué)方面的課程、數(shù)據(jù)科學(xué)學(xué)位計劃以及數(shù)據(jù)科學(xué)短期培訓(xùn)班。從國際上設(shè)置的培養(yǎng)計劃來看,大數(shù)據(jù)人才應(yīng)該系統(tǒng)地掌握數(shù)據(jù)分析相關(guān)的技能,主要包括數(shù)學(xué)、統(tǒng)計學(xué)、數(shù)據(jù)分析、商業(yè)分析和自然語言處理等,具有較寬的知識面,具有獨立獲取知識的能力,具有較強(qiáng)的實踐能力、創(chuàng)新意識和團(tuán)隊合作意識。具體來說,大數(shù)據(jù)人才首先應(yīng)具備獲取大數(shù)據(jù)的能力,例如能根據(jù)任務(wù)的具體要求,綜合利用各種計算機(jī)手段和知識,收集整理海量數(shù)據(jù)并加以存儲,為支撐相關(guān)的決策和行為做好數(shù)據(jù)準(zhǔn)備。其次,應(yīng)具備分析大數(shù)據(jù)的能力,對于經(jīng)過預(yù)處理的各類數(shù)據(jù),能夠根據(jù)具體的需求,進(jìn)行選擇、轉(zhuǎn)換、加載,采用有效方法和模型對數(shù)據(jù)進(jìn)行分析,并形成分析報告,為實際問題提供決策依據(jù)。最后,應(yīng)具備良好的團(tuán)隊合作精神,大數(shù)據(jù)時代下的數(shù)據(jù)分析任務(wù)通常無法依賴個人能力來完成,需要在團(tuán)隊制度的約束下,與他人一同攜手、互相鼓勵、分工合作來實現(xiàn)既定目標(biāo),因此具備較強(qiáng)的責(zé)任心與團(tuán)隊合作精神也是大數(shù)據(jù)從業(yè)人員必備的基本條件。
大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,對大數(shù)據(jù)人才提出了新的需求,國內(nèi)各高校在積極進(jìn)行大數(shù)據(jù)學(xué)術(shù)研究的同時,也開始考慮將大數(shù)據(jù)相關(guān)課程納入培養(yǎng)體系,以滿足社會對大數(shù)據(jù)人才的需求。以下結(jié)合作者在數(shù)據(jù)庫及分布式技術(shù)系列課程中的教學(xué)經(jīng)驗,以及大數(shù)據(jù)分析與處理方面的實踐經(jīng)驗,探討大數(shù)據(jù)系列課程教學(xué)內(nèi)容和實踐形式的設(shè)置。
在教學(xué)內(nèi)容的設(shè)置上,大數(shù)據(jù)系列課程建議可分為理論教學(xué)和技術(shù)教學(xué)兩個方面,因為理論是大數(shù)據(jù)認(rèn)知的必經(jīng)途徑,也是被廣泛認(rèn)同和傳播的基線;而技術(shù)是大數(shù)據(jù)價值體現(xiàn)的手段和前進(jìn)的基石。在理論方面,講授的理論內(nèi)容可涵蓋如下幾點:
(1)大數(shù)據(jù)概念:大數(shù)據(jù)概念出現(xiàn)的歷史,關(guān)于大數(shù)據(jù)定義的各種流派以及說明,大數(shù)據(jù)的四個特征,大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)的關(guān)系,大數(shù)據(jù)與大規(guī)模數(shù)據(jù)、海量數(shù)據(jù)的差別。這個部分主要突出“大數(shù)據(jù)”概念中應(yīng)包含的“對數(shù)據(jù)對象的處理行為”。
(2)典型的大數(shù)據(jù)應(yīng)用實例:精選有新意的大數(shù)據(jù)分析典型案例,可幫助學(xué)生更清晰的理解大數(shù)據(jù)的概念和含義,這樣的案例如:美國梅西百貨的實時定價機(jī)制(根據(jù)需求和庫存的情況對多達(dá)7300萬種貨品進(jìn)行實時調(diào)價)、百度搜索的實時熱點排行榜(以數(shù)億網(wǎng)民的搜索行為作為數(shù)據(jù)基礎(chǔ),建立權(quán)威的關(guān)鍵詞排行榜與分類熱點)、沃爾瑪?shù)乃阉饕鍼olaris(利用語義數(shù)據(jù)進(jìn)行文本分析、機(jī)器學(xué)習(xí)和同義詞挖掘使得在線購物的完成率提升了10%~15%)、谷歌流感趨勢工具(通過跟蹤搜索詞相關(guān)數(shù)據(jù)來判斷全美地區(qū)的流感情況)等。在教學(xué)過程中,教師應(yīng)注意將授課的重點放在系統(tǒng)化的開發(fā)步驟和關(guān)鍵性問題的求解上,介紹案例的設(shè)計思想、主要方法和應(yīng)用過程等。
(3)大數(shù)據(jù)關(guān)鍵技術(shù)與挑戰(zhàn):介紹大數(shù)據(jù)時代面臨的新挑戰(zhàn),包括大數(shù)據(jù)集成(數(shù)據(jù)異構(gòu)性和數(shù)據(jù)質(zhì)量問題)、大數(shù)據(jù)分析(數(shù)據(jù)形式多樣化、數(shù)據(jù)處理的實時性、索引結(jié)構(gòu)的復(fù)雜性等)、大數(shù)據(jù)隱私問題(隱私保護(hù)和數(shù)據(jù)分析的矛盾)、大數(shù)據(jù)能耗問題(低功耗硬件的設(shè)計)、大數(shù)據(jù)處理與硬件的協(xié)同、大數(shù)據(jù)管理易用性問題以及性能測試基準(zhǔn)。
(4)大數(shù)據(jù)存儲和管理技術(shù):介紹如何把采集到的大數(shù)據(jù)存儲起來,建立相應(yīng)的數(shù)據(jù)庫,并進(jìn)行管理和調(diào)用。主要內(nèi)容包括:分布式文件系統(tǒng)(HDFS)、去冗余及高效低成本的大數(shù)據(jù)存儲技術(shù)、新型數(shù)據(jù)庫技術(shù)(鍵值數(shù)據(jù)庫、列存數(shù)據(jù)庫、圖存數(shù)據(jù)庫以及文檔數(shù)據(jù)庫等)、異構(gòu)數(shù)據(jù)融合技術(shù)、分布式非關(guān)系型大數(shù)據(jù)管理與處理技術(shù)、大數(shù)據(jù)索引技術(shù)和大數(shù)據(jù)移動、備份、復(fù)制等技術(shù)。
(5)大數(shù)據(jù)分析及挖掘技術(shù):介紹從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),通常由數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示3個階段組成。數(shù)據(jù)準(zhǔn)備是從上述大數(shù)據(jù)中心存儲的數(shù)據(jù)中選取所需數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;規(guī)律尋找是用某種方法將數(shù)據(jù)集所含規(guī)律找出來;規(guī)律表示則是盡可能以用戶可理解的方式(如可視化)將找出的規(guī)律表示出來。根據(jù)挖掘任務(wù)可分為分類或預(yù)測模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等。
在技術(shù)方面,可考慮分別從云計算、分布式處理技術(shù)、存儲技術(shù)和感知技術(shù)的發(fā)展來說明大數(shù)據(jù)從采集、處理、存儲到形成結(jié)果的整個過程,具體可包括以下幾點:
(1)NoSQL技術(shù):NoSQL產(chǎn)生的背景、NoSQL現(xiàn)狀、NoSQL數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫的比較、聚合數(shù)據(jù)模型、分布式模型、數(shù)據(jù)一致性、典型的NoSQL數(shù)據(jù)庫分類、NoSQL數(shù)據(jù)庫開源軟件。
(2)MapReduce:MapReduce模型概述、編程模型:Map和Reduce函數(shù)、MapReduce工作流程、并行計算的實現(xiàn)、實例、Yarn等
(3)Hadoop分布式文件系統(tǒng):Hadoop出現(xiàn)的背景、Hadoop的功能與作用、為什么不用關(guān)系型數(shù)據(jù)庫管理系統(tǒng)、Hadoop的優(yōu)點、Hadoop的應(yīng)用現(xiàn)狀和發(fā)展趨勢、Hadoop項目及其結(jié)構(gòu)、Hadoop的體系結(jié)構(gòu)、Hadoop與分布式開發(fā)、Hadoop應(yīng)用案例、Hadoop平臺上的海量數(shù)據(jù)排序。
(4)還可進(jìn)一步包括數(shù)據(jù)流的管理與挖掘、云數(shù)據(jù)庫、圖數(shù)據(jù)庫等。
由于大數(shù)據(jù)系列課程所涉及的技術(shù)具有很強(qiáng)的應(yīng)用背景和實踐意義,因此應(yīng)摒棄傳統(tǒng)教學(xué)模式中“重理論、輕實踐”的思想,在掌握大數(shù)據(jù)相關(guān)的理論知識和技術(shù)知識之后,還需重點培養(yǎng)學(xué)生的綜合實踐能力,以滿足社會就業(yè)的需要。為此,應(yīng)設(shè)立一定的大數(shù)據(jù)技術(shù)實踐課程內(nèi)容,幫助學(xué)生從知識型向能力型轉(zhuǎn)變。結(jié)合上一節(jié)分析的大數(shù)據(jù)時代對人才的具體要求,建議按以下流程設(shè)置實踐環(huán)節(jié)的內(nèi)容:
(1)分組。如前所述,大數(shù)據(jù)時代下的數(shù)據(jù)分析任務(wù)通常需要以團(tuán)隊的形式來完成,因此首先要求學(xué)生根據(jù)自身情況,結(jié)合各自的技術(shù)優(yōu)勢,合理進(jìn)行分組。
(2)選題。在具體選題上,可使用校企合作的具體項目或以Apache Hadoop、MongoDB、Dremel、Gephi 等一系列的開源大數(shù)據(jù)分析軟件作為實踐平臺,以Kaggle為數(shù)據(jù)科學(xué)平臺來進(jìn)行選題。
(3)明確需求并撰寫大數(shù)據(jù)分析任務(wù)書。明確選定的題目范圍內(nèi),數(shù)據(jù)分析要研究的主要問題和預(yù)期的分析目標(biāo)。只有明確了數(shù)據(jù)分析的目標(biāo),才能正確地制定數(shù)據(jù)收集方案,即收集哪些數(shù)據(jù),采用怎樣的方式收集等,進(jìn)而為數(shù)據(jù)分析做好準(zhǔn)備。
(4)數(shù)據(jù)收集及預(yù)處理。由于大數(shù)據(jù)分析最終的結(jié)果與其獲取的數(shù)據(jù)質(zhì)量緊密相關(guān),因此收集的數(shù)據(jù)是否真正符合數(shù)據(jù)分析的目標(biāo)是必須注意的重要問題。該步驟要求學(xué)生從分析目標(biāo)出發(fā),從浩瀚的數(shù)據(jù)中正確的收集高質(zhì)量且服務(wù)于既定分析目標(biāo)的數(shù)據(jù),然后對數(shù)據(jù)進(jìn)行必要的加工整理,包括填寫空缺值、平滑噪聲數(shù)據(jù)、識別和刪除孤立點、解決不一致性、規(guī)范化(消除冗余屬性)和聚集(數(shù)據(jù)匯總)等。
(5)探索性數(shù)據(jù)分析。由于大數(shù)據(jù)分析的數(shù)據(jù)量通常達(dá)到PB甚至YB級以上,因此希望直接選定一個分析模型是不現(xiàn)實的,而且面對高維海量數(shù)據(jù),也很難直接看出數(shù)據(jù)的規(guī)律。在這個步驟中,應(yīng)指導(dǎo)學(xué)生通過基本描述統(tǒng)計量的計算、基本統(tǒng)計圖形的繪制、用各種形式的方程擬合等手段,計算某些特征量等方法探索規(guī)律性的可能形式,幫助學(xué)生快速掌握數(shù)據(jù)的分布特征,這是進(jìn)一步深入分析和建模的基礎(chǔ)。
(6)模型選定分析。在探索性分析的基礎(chǔ)上提出一類或幾類可能的模型,然后通過進(jìn)一步的分析從中挑選一定的模型。有時選擇幾種統(tǒng)計分析方法對數(shù)據(jù)進(jìn)行探索性的反復(fù)分析也是極為重要的。每一種統(tǒng)計分析方法都有自己的特點和局限,因此,一般需要選擇幾種方法反復(fù)印證分析,僅依據(jù)一種分析方法的結(jié)果就斷然下結(jié)論是不科學(xué)的。
(7)模型的驗證及分析報告。指導(dǎo)學(xué)生對選擇的數(shù)據(jù)分析模型及結(jié)果進(jìn)行分析,可使用數(shù)理統(tǒng)計方法對所定模型或估計的可靠程度和精確程度作出推斷。觀察模型提供決策的信息是否充分、可信,所發(fā)揮的作用是否與期望值一致,數(shù)據(jù)分析方法是否合理,是否將風(fēng)險控制在可接受的范圍。
以上這種項目式實踐形式的優(yōu)勢是:在學(xué)生參與完成某一具體的大數(shù)據(jù)分析任務(wù)過程中,通過主動地學(xué)習(xí)來自主地進(jìn)行知識的建構(gòu),讓學(xué)生經(jīng)歷項目開發(fā)的整個過程,從中去發(fā)現(xiàn)和掌握相關(guān)知識,達(dá)到既能熟悉大數(shù)據(jù)分析過程,又完成了經(jīng)驗的積累,還能實現(xiàn)學(xué)習(xí)知識、培養(yǎng)能力的目的。在這里,教師不再是知識的傳授者,而是項目活動的組織者和咨詢者。
一方面,大數(shù)據(jù)的核心業(yè)務(wù)必然是一種扎根于特定行業(yè),綜合運用已有的存儲、分析、挖掘、展現(xiàn)技術(shù),根據(jù)用戶需求并融入行業(yè)特色技術(shù)模型的一站式大數(shù)據(jù)平臺業(yè)務(wù)。另一方面,對于企業(yè)來說,各類業(yè)務(wù)產(chǎn)生的數(shù)據(jù)為數(shù)據(jù)分析創(chuàng)造了非常好的基礎(chǔ)條件。大數(shù)據(jù)解決方案是有價值的,但是苦于找不到既懂?dāng)?shù)據(jù)分析技術(shù),又懂得業(yè)務(wù)的專業(yè)人才。由此可見,既懂得相關(guān)技術(shù),又諳熟企業(yè)業(yè)務(wù)的復(fù)合型人才才是企業(yè)部署大數(shù)據(jù)應(yīng)用最迫切需要的人才。因此,企業(yè)可以與學(xué)校聯(lián)合培養(yǎng)自己所需要的大數(shù)據(jù)人才,這種方式有兩方面的優(yōu)勢:一是大數(shù)據(jù)技能訓(xùn)練的對象,即大量的數(shù)據(jù),只有企業(yè)才具備;二是在企業(yè)的支持下,學(xué)校也能通過針對性的實踐訓(xùn)練來培養(yǎng)學(xué)生的大數(shù)據(jù)處理技能。
大數(shù)據(jù)時代下的校企合作的形式多種多樣,可通過聯(lián)合辦學(xué)、聯(lián)合制定人才培養(yǎng)方案、合作開發(fā)課程和教學(xué)內(nèi)容、設(shè)置實訓(xùn)項目、教學(xué)管理和共建“雙師”結(jié)構(gòu)教學(xué)團(tuán)隊等形式展開。
未來的十年將是一個“大數(shù)據(jù)”引領(lǐng)的智慧科技的時代。隨著社交網(wǎng)絡(luò)的逐漸成熟,移動帶寬迅速提升,云計算、物聯(lián)網(wǎng)應(yīng)用更加豐富。更多的傳感設(shè)備、移動終端接入到網(wǎng)絡(luò),由此產(chǎn)生的數(shù)據(jù)及增長速度將比歷史上的任何時期都要多,都要快?!按髷?shù)據(jù)”時代的腳步悄然而至,未來幾年,中國項目數(shù)據(jù)分析專業(yè)人才需求達(dá)幾十萬人以上。國內(nèi)高校應(yīng)及時關(guān)注大數(shù)據(jù)時代的數(shù)據(jù)分析人才培養(yǎng),融基礎(chǔ)理論、實驗教學(xué)、工程實踐為一體,為大數(shù)據(jù)這樣的新興產(chǎn)業(yè)發(fā)展輸出高層次、實用性、國際化的復(fù)合型專業(yè)人才,確保產(chǎn)業(yè)科學(xué)、持續(xù)、高速的發(fā)展。