李馥娟
(江蘇警官學院 計算機信息與網(wǎng)絡安全系, 江蘇 南京 210031)
隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡等應用的快速發(fā)展,數(shù)據(jù)的產生、存儲、分析、展示等方式都發(fā)生著深刻變化,不同來源、不同結構、不同功能數(shù)據(jù)的應用價值越來越多地引起人們的重視,大數(shù)據(jù)已成為目前整個信息技術行業(yè)中關注度最高、發(fā)展最快、市場需求最旺盛的技術之一,成為學術界和工業(yè)界研究的重點和熱點。目前,對于傳統(tǒng)數(shù)據(jù)挖掘和處理技術的研究和應用成果已經(jīng)非常豐富,但原有的軟件技術和常用的軟件處理工具在面對大數(shù)據(jù)這一具有特定屬性的數(shù)據(jù)集時,在技術和方法上都遇到了困難和挑戰(zhàn)。
在學術界和企業(yè)界加快大數(shù)據(jù)技術研究和應用創(chuàng)新的同時,政府職能部門也在大數(shù)據(jù)專業(yè)人才培養(yǎng)方面提出了一系列具有重要指導意義的政策文件。其中,在2015年8月31日國務院印發(fā)的《促進大數(shù)據(jù)發(fā)展行動綱要》中就提出:“創(chuàng)新人才培養(yǎng)模式,建立健全多層次、多類型的大數(shù)據(jù)人才培養(yǎng)體系”,并鼓勵采取跨校聯(lián)合培養(yǎng)等方式開展跨學科大數(shù)據(jù)綜合型人才培養(yǎng)。在此環(huán)境下,一些高校開始設置大數(shù)據(jù)相關專業(yè),推動大數(shù)據(jù)學科建設,加強大數(shù)據(jù)人才培養(yǎng),為大數(shù)據(jù)產業(yè)發(fā)展提供有效保障。根據(jù)教育部公布的普通高等學校本科專業(yè)備案和審批結果中提供的信息,從2015年首批開設“數(shù)據(jù)科學與大數(shù)據(jù)技術”專業(yè)以來,開設該專業(yè)的高校到2016年已經(jīng)達到35所。然而,由于大數(shù)據(jù)專業(yè)是一個新型專業(yè),即使是目前已經(jīng)開設該專業(yè)的高校,也是在不斷實踐中探索人才培養(yǎng)的具體內容和環(huán)節(jié),沒有現(xiàn)成的模式可供借鑒和套用。為此,本文立足社會人才需求和大數(shù)據(jù)人才培養(yǎng)要求,結合本校大數(shù)據(jù)相關課程建設中取得的成功經(jīng)驗,從大數(shù)據(jù)專業(yè)人才培養(yǎng)的具體要求出發(fā),提出了大數(shù)據(jù)實驗室建設的內容和方法。
大數(shù)據(jù)實驗室的建設,在突出大數(shù)據(jù)技術和應用固有功能的同時,還需要充分借鑒現(xiàn)有實驗室建設、應用和管理中的既有成果,提升大數(shù)據(jù)實驗室的建設和應用水平,最大限度地發(fā)揮實驗室在服務教學和科研中的功能[1-2]。大數(shù)據(jù)實驗實訓平臺具體由6大功能模塊組成。
(1) 大數(shù)據(jù)處理支撐平臺。該平臺一般以開源Apache Hadoop為基礎,其功能是為整個實驗實訓平臺提供對海量數(shù)據(jù)的分布式處理。該支撐平臺除提供了Apache Hadoop 項目中的HDFS(Hadoop Distributed File System,Hadoop分布式文件系統(tǒng))和MapReduce編程框架兩大基本組件外,還提供了Hadoop Streaming、HBase、Hive等主流組件[3]。為便于進行實驗,并可以更快速、更準確、更穩(wěn)定、更可靠地從各類無序的海量數(shù)據(jù)中挖掘有價值的信息,對支撐平臺在安全性、易管理性、高可用性等方面進行了優(yōu)化。
(2) 教學管理支持平臺。該平臺充分借鑒現(xiàn)有在線學習系統(tǒng)的功能,采用B/S架構,以便于對教學課程、實驗教材、教學資源庫等進行集中管理和訪問授權。同時,通過增加在線評估、在線測試等輔助功能,有效提升教學質量。
(3) 云課堂綜合服務平臺。云計算是支撐大數(shù)據(jù)的關鍵技術之一。該平臺基于云計算技術,為實驗者提供虛擬教學桌面和虛擬實驗桌面。虛擬教學桌面的功能與傳統(tǒng)在線互動教學平臺類似,為師生提供桌面共享、在線測試、分組討論等功能,以提高教學質量;虛擬實驗桌面提供Hadoop部署環(huán)境和實驗應用環(huán)境,強化對大數(shù)據(jù)基礎理論的學習和實踐應用的訓練。
(4) 虛擬化實驗平臺。大數(shù)據(jù)技術離不開虛擬化技術的支持,在具體實驗過程中,各類大數(shù)據(jù)組件的安裝部署、數(shù)據(jù)分析等操作都需要在虛擬機上進行。該平臺需要提供虛擬機的創(chuàng)建與配置、虛擬化網(wǎng)絡環(huán)境設置[4]、存儲資源分配等管理功能,為實驗者提供虛擬化實驗環(huán)境。
(5) 應用建模分析平臺。大數(shù)據(jù)分析和可視化建模[5]是大數(shù)據(jù)技術中直接服務于具體應用的兩項功能,也是大數(shù)據(jù)技術最具代表性的功能體現(xiàn)。建模分析平臺整合了大數(shù)據(jù)分析和可視化建模兩大功能,支持典型的數(shù)據(jù)分析算法,實驗者可直接通過圖形化的組件、以拖拽方式進行數(shù)據(jù)分析模型的搭建,以降低大數(shù)據(jù)建模難度。
(6) 師生客戶端。師生客戶端以Web方式,除實現(xiàn)傳統(tǒng)的在線資源管理與師生互動功能,還提供有關大數(shù)據(jù)技術的開發(fā)工具,使實驗者可以根據(jù)學習需要選擇安裝所需的開發(fā)工具,編寫和調試代碼。
近年來,隨著大數(shù)據(jù)應用越來越被重視,各類大數(shù)據(jù)技術得到了雨后春筍般的發(fā)展,分別圍繞大數(shù)據(jù)采集、大數(shù)據(jù)預處理、大數(shù)據(jù)存儲及管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應用等方面進行了大量創(chuàng)新性研究和實踐,取得了大量成果。就Hadoop生態(tài)圈而言,短時間內推出了很多各具功能特征和應用特點的組件,并快速得到了應用。在大數(shù)據(jù)學習中,需要根據(jù)學習者的特點,有選擇地選取學習內容,使其較為系統(tǒng)全面地學習當前主流的大數(shù)據(jù)技術。根據(jù)教學需要,本文認為對于大數(shù)據(jù)技術框架的學習,主要包括以下內容:數(shù)據(jù)抽取工具Sqoop、分布式海量日志分析工具Flume、分布式存儲系統(tǒng)HDFS、鍵值數(shù)據(jù)庫HBase、數(shù)據(jù)倉庫Hive、分布式計算框架MapReduce/Yarn、內存計算Spark、流式計算Storm、數(shù)據(jù)挖掘算法庫Mahout、機器學習工具包MLLib,以及其他主流大數(shù)據(jù)組件[6]。
云計算和大數(shù)據(jù)被稱為一枚硬幣的兩面,掌握云平臺下的編程方法是學習大數(shù)據(jù)技術的基礎。不像單機或傳統(tǒng)的網(wǎng)絡環(huán)境,在云平臺下編程時首先要掌握云平臺框架,并要熟悉某一個具體算法的原理,增加了學習和應用的難度。然而,Mahout的推出,在學習大數(shù)據(jù)技術與教學難度之間取得了一個平衡。Mahout是Apache基金會的一個適用于Hadoop云計算平臺的開源項目,提供了一個可擴展的云平臺機器學習經(jīng)典數(shù)據(jù)挖掘算法庫[7-9],以幫助開發(fā)人員在不需要自己編寫復雜算法、不需要掌握太深的云平臺框架和數(shù)據(jù)流程理論知識的條件下,通過調用Mahout相關算法的程序接口來方便快捷地創(chuàng)建智能應用程序。
(1) 聚類算法。一個聚類即是一類具有相同特征的數(shù)據(jù)的集合,位于該集合中的每個個體是相似的,而不同聚類中的個體是不相似的。聚類是將一個數(shù)據(jù)集合根據(jù)特征的不同分割成多個被稱為簇或類別的子集,使得同一子集中的元素盡可能相似,而不同簇中的元素盡可能相異。聚類分析的目的就是把一組無標簽的數(shù)據(jù)加上標簽,是一個迭代學習的過程。Mahout算法庫中聚類模塊包含的算法主要有:Canopy、K-Means、Fuzzy K-Means、Mean Shift、Spectral、Minhash、Top Down。表1對算法的主要功能進行了描述[10]。
表1 Mahout算法庫中聚類模塊主要功能描述
(2) 分類算法。分類算法是數(shù)據(jù)挖掘、機器學習和模式識別等領域用于解決分類問題的方法,具體通過對已知類別訓練集的分析,從中發(fā)現(xiàn)分類規(guī)則,以此預測新數(shù)據(jù)的類別。分類是一種基于訓練樣本數(shù)據(jù)(這些數(shù)據(jù)都已經(jīng)被貼了標簽)區(qū)分另外的樣本數(shù)據(jù)標簽的過程,即解決另外的樣本數(shù)據(jù)應該如何貼標簽的問題。分類算法和聚類算法的不同之處在于,當具體的學習過程有指導時稱為分類,而無指導時稱為聚類。有指導是指在具體的訓練過程中訓練樣本數(shù)據(jù)已經(jīng)貼上了標簽,而無指導則不同。Mahout算法庫中分類模塊包含的算法主要有Logistic Regression、Bayesian、Support Vector Machine、Random Forests、Hidden Markov Models。表2對算法的主要功能進行了描述[10]。
表2 Mahout算法庫中分類模塊主要功能描述
(3) 協(xié)同過濾算法。在推薦系統(tǒng)中,協(xié)同過濾算法是應用最為廣泛的一種算法。在大數(shù)據(jù)環(huán)境中,協(xié)同過濾算法的核心思想是首先確定一個指定用戶的興趣,然后以該用戶為樣本在海量用戶群中尋找具有相似興趣的用戶并形成一個集合,綜合該集合中每一個用戶對某一信息的評價,該評價即為該指定用戶對此信息的喜好程度預測。Mahout算法庫的協(xié)同過濾算法主要有Distributed Item-Based Collaborative Filtering和Collaborative Filtering using a parallel matrix factorization,前者是基于項目的協(xié)同過濾算法,其簡單思想就是利用項目之間的相似度來為用戶進行項目推薦;后者的核心思想是把所有的用戶以及項目想象成一個二維表格,利用表格中有數(shù)據(jù)的單元格來預測用戶(空單元格)對項目的評分,進而得到推薦結果。
任何一項應用技術的學習都應遵循環(huán)境和方法的一致性,對于大數(shù)據(jù)技術的學習更應如此[11-12]。一般情況下,大數(shù)據(jù)開發(fā)工作的流程為:安裝開發(fā)工具→配置開發(fā)環(huán)境→編寫代碼→代碼編譯→制作jar包→將jar包上傳服務器→程序運行→代碼修改→再次上傳程序調試。如此反復的練習,也是學好大數(shù)據(jù)技術的基礎。通過對當前大數(shù)據(jù)開發(fā)工具的綜合分析,結合高校教學特點和需要,從培養(yǎng)應用型大數(shù)據(jù)人才的角度出發(fā),介紹典型的3種大數(shù)據(jù)開發(fā)工具。
(2) R語言。R語言是一款完整的開源的具有數(shù)據(jù)處理、統(tǒng)計分析和繪圖等功能的軟件系統(tǒng),其功能組件主要包括:大數(shù)據(jù)的存儲和處理,具有強大向量、矩陣運算功能的數(shù)組運算工具,統(tǒng)計分析工具,統(tǒng)計制圖工具,簡捷而強大的編程語言等。強大的統(tǒng)計分析功能是R語言適用于大數(shù)據(jù)處理環(huán)境的一大優(yōu)勢,R語言通過以R軟件包形式發(fā)布的大量數(shù)學計算和統(tǒng)計分析工具,使開發(fā)者能夠在一個開放環(huán)境中靈活地對各類結構化、非結構化和半結構化數(shù)據(jù)進行處理分析,還可以根據(jù)用戶具體需求設計出統(tǒng)計計算模型。例如,在Hadoop中,通過MapReduce將TB和PB量級的數(shù)據(jù)處理后可生成GB量級的數(shù)據(jù),被縮小后的數(shù)據(jù)再在R語言中利用MPI并行處理框架構建的機群計算進行處理,大大提高了數(shù)據(jù)處理的效率。
大數(shù)據(jù)技術是大數(shù)據(jù)價值得以體現(xiàn)的基本手段,云計算、分布式處理技術和具有感知功能的物聯(lián)網(wǎng)等技術的發(fā)展,為大數(shù)據(jù)的采集、處理、存儲、分析處理及過程和結果展示等提供了技術支撐和方法保證。大數(shù)據(jù)專業(yè)及其相關課程的建設需要緊扣大數(shù)據(jù)技術的發(fā)展,創(chuàng)新性地探討其人才培養(yǎng)體系。其中,大數(shù)據(jù)實驗室的建設和應用探討,更是從人才培養(yǎng)的最基礎性的需求出發(fā),提供最基本的知識和方法保障。本文提出了一套適應大數(shù)據(jù)人才培養(yǎng)需要的實驗室建設方案,強調在系統(tǒng)掌握大數(shù)據(jù)基礎知識的基礎上,通過科學地設計實驗實訓方案,使實驗者較為扎實地掌握目前主流的大數(shù)據(jù)技術。本實驗室建設方案的特點是在充分借鑒在線學習平臺已取得的被大家普遍認可的應用功能的基礎上,突出了大數(shù)據(jù)技術的完整性和系統(tǒng)性,尤其是突出了云計算技術在大數(shù)據(jù)中的應用,真實體現(xiàn)了云計算與大數(shù)據(jù)之間的關聯(lián)性。當然,作為一項既復雜又在快速發(fā)展中的技術,如何使實驗室建設在充分體現(xiàn)技術特點的同時,更能夠較好地反應人才培養(yǎng)要求,本文尚有一些考慮不周的地方,這也是作者下一步繼續(xù)研究和實踐的一個方向。
參考文獻(References)
[1] 李輝,張標,高萬林.大數(shù)據(jù)實驗平臺及資源建設的思考與探索[J].實驗技術與管理,2016,33(7):195-199.
[2] 尹學松,蔣融融,張吉先,等.面向大數(shù)據(jù)遠程開放實驗平臺構建研究[J].中國遠程教育,2016(11):28-34.
[3] 董新華,李瑞軒,周灣灣,等.Hadoop系統(tǒng)性能優(yōu)化與功能增強綜述[J].計算機研究與發(fā)展,2013,50(增刊):1-15.
[4] 李馥娟.虛擬機技術在復雜網(wǎng)絡實驗中的應用[J].實驗技術與管理,2009,26(12):79-83.
[5] 崔迪,郭小燕,陳為.大數(shù)據(jù)可視化的挑戰(zhàn)與最新進展[J].計算機應用,2017,37(7):2044-2049,2056.
[6] 程學旗,靳小龍,王元卓,等.大數(shù)據(jù)系統(tǒng)和分析技術綜述[J].軟件學報,2014,25(9):1889-1908.
[7] Barrachina A D,O’Driscoll A. A big data methodology for categorising technical support requests using Hadoop and Mahout[J].Journal of Big Data,2014,1(1):1-11.
[8] Eluri V R,Ramesh M,Al-Jabri A S M,et al.A comparative study of various clustering techniques on big data sets using Apache Mahout[C]//Mec International Conference on Big Data and Smart City.IEEE,2016:1-4.
[9] Bamnote G R,Agrawal S S.Evaluating and Implementing Collaborative Filtering Systems Using Apache Mahout[C]//International Conference on Computing Communication Control and Automation.IEEE Computer Society,2015:858-862.
[10] 樊哲.Mahout算法解析與案例實戰(zhàn)[M].北京:機械工業(yè)出版社,2014.
[11] 劉鳳娟.大數(shù)據(jù)的教育應用研究綜述[J].現(xiàn)代教育技術,2014,24(8):13-19.
[12] 周情濤,何軍,胡昭華.基于GPU的Spark大數(shù)據(jù)技術在實驗室的開發(fā)應用[J].實驗室研究與探索,2017,36(1):112-116,131.