王宏志,劉顯敏,史 寧
(哈爾濱工業(yè)大學 英才學院,黑龍江 哈爾濱 150001)
大數(shù)據(jù)產(chǎn)業(yè)是指以數(shù)據(jù)生產(chǎn)、采集、存儲、加工、分析、服務為主的相關經(jīng)濟活動以及相關信息技術服務。大數(shù)據(jù)產(chǎn)業(yè)是智力密集型產(chǎn)業(yè),需要大量專業(yè)技術和應用人才,目前具有較全面大數(shù)據(jù)知識和技能的人才還非常缺乏,難以滿足發(fā)展需要。為了保障我國大數(shù)據(jù)產(chǎn)業(yè)的健康快速發(fā)展,高等學校承擔著為國家培養(yǎng)大數(shù)據(jù)基礎研究、產(chǎn)品研發(fā)和業(yè)務應用等各類人才的社會重任。為更好地構建拔尖人才培養(yǎng)體系,加強體系建設,結合當下人才培養(yǎng)現(xiàn)狀對目前大數(shù)據(jù)相關職位進行了需求調研工作,本文結合當前需求,提出了可供參考的體系建設,為拔尖人才培養(yǎng)提供了新的角度。
針對網(wǎng)絡公司的職位需求,對目前大數(shù)據(jù)行業(yè)市場進行調研。雖然很多崗位有不同的名字,但職位需求基本相似,根據(jù)職位需求,將崗位分為以下五類。
該類崗位主要進行平臺開發(fā)工作。按照順序進行進階,最基礎的職位是大數(shù)據(jù)研發(fā)工程師,進階則是大數(shù)據(jù)平臺開發(fā)工程師,最終可以到達大數(shù)據(jù)平臺架構師的高度。
1.大數(shù)據(jù)研發(fā)工程師。該職位主要進行大數(shù)據(jù)平臺上的應用開發(fā),屬于應用層開發(fā)。一般要求應聘人員為計算機相關專業(yè),有扎實的計算機理論基礎;熟練掌握Java、Python服務端編程,有良好的編碼習慣;深入理解MapReduce,熟練使用Storm、Hadoop和Spark,并閱讀部分源碼;熟練使用HDFS、Hbase、Kafka、ElasticSearch和Solr;深入理解Lucene、ElasticSearch、Solr等,有優(yōu)化經(jīng)驗者優(yōu)先;具備良好的學習能力、分析解決問題能力;具有高度的責任心和團隊合作精神;有大數(shù)據(jù)平臺產(chǎn)品建設經(jīng)驗者優(yōu)先。
2.大數(shù)據(jù)平臺開發(fā)工程師。該職位要求勝任大數(shù)據(jù)平臺的框架方面的修改工作,需要有非常豐富的開源平臺框架經(jīng)驗。其基本工作要求為:扎實的數(shù)據(jù)結構及算法功底,優(yōu)秀的工程實現(xiàn)能力;熟悉Linux開發(fā)環(huán)境,精通C/C++、Java;有Storm、Hadoop、Spark、Kafka、Hbase等開源框架經(jīng)驗者優(yōu)先;有機器學習知識背景,有實踐經(jīng)驗更佳;優(yōu)秀的分析問題解決問題能力、學習能力、團隊合作意識。
3.大數(shù)據(jù)架構師。該職位需要有非常豐富的工作經(jīng)驗,并對大數(shù)據(jù)平臺有非常深入的了解,能夠進行平臺構建等相關開發(fā)。基本工作要求為:扎實的Java基礎知識,5年以上的Java Spring研發(fā)和大型系統(tǒng)架構經(jīng)驗,熟悉分布式系統(tǒng)的設計和應用,熟悉大數(shù)據(jù)領域的開源產(chǎn)品,清楚原理和機制;熟悉Hadoop、Hbase、MYSQL等數(shù)據(jù)存儲產(chǎn)品使用方法和特性;有基于Kylin或Greenplum等平臺應用研發(fā)經(jīng)驗者優(yōu)先;有云平臺架構研發(fā)經(jīng)驗和5人以上團隊管理經(jīng)驗者優(yōu)先;清晰的邏輯分析和表達能力,熱愛技術,樂于分享,對行業(yè)和技術的發(fā)展有自己的見解,在大數(shù)據(jù)領域內(nèi)有深入的研究和積累者優(yōu)先;有Spring Cloud Data Flow開發(fā)經(jīng)驗者優(yōu)先。
該類崗位主要進行大數(shù)據(jù)平臺的運維工作。其基礎為大數(shù)據(jù)運維工程師,為系統(tǒng)提供運維工作,其進階為大數(shù)據(jù)運維架構工程師,負責更加復雜的運維工作。
1.大數(shù)據(jù)運維工程師。該職位主要對大數(shù)據(jù)平臺進行運維工作,主要負責日常維護工作。基本工作要求為:計算機相關專業(yè)本科以上學歷,2年以上大型系統(tǒng)運營經(jīng)驗。有監(jiān)控和容災的實際經(jīng)驗;具備發(fā)現(xiàn)問題、分析問題、解決問題的能力;能出具系統(tǒng)優(yōu)化的整體解決方案;具備良好的自學能力。責任心強,有良好的對外溝通和團隊協(xié)作能力;運營過Hadoop、Spark、Hive、Hbase、Storm、PostgreSQL等相關系統(tǒng),有從事過海量數(shù)據(jù)分布式處理、各種分布式計算,或者分布式存儲、分布式計算系統(tǒng)相關的工作經(jīng)驗。
2.大數(shù)據(jù)運維架構師。該職位需要有非常豐富的運維工作經(jīng)驗,并需要從系統(tǒng)架構層面進行運維思考。其基本工作要求為:負責分布式集群的運維,包括版本升級、系統(tǒng)優(yōu)化、故障處理、集群監(jiān)控;掌握Hadoop、Hive、Spark、Yarn、Kafka、Hbase、Flume、ES 等組件的安裝、配置、使用和優(yōu)化;熟悉源碼者優(yōu)先;熟悉 HDP 者優(yōu)先;掌握Linux 操作系統(tǒng)的配置、管理及優(yōu)化,能夠獨立排查及解決操作系統(tǒng)層的各類問題;熟悉至少一門腳本語言(Python/Shell),有自動化運維工具開發(fā)經(jīng)驗者優(yōu)先。
該類崗位主要進行數(shù)據(jù)分析方面的工作,分為大數(shù)據(jù)分析師和大數(shù)據(jù)算法工程師,其中大數(shù)據(jù)分析師主要對數(shù)據(jù)進行基礎分析,而大數(shù)據(jù)算法工程師則主要通過機器學習和數(shù)據(jù)挖掘算法進行分析設計,屬于更加有難度的工作。
1.大數(shù)據(jù)分析師。該職位需要運用數(shù)據(jù)分析的基本手段對大數(shù)據(jù)進行分析并生成分析報告。一般要求應聘人員熟悉各種數(shù)據(jù)挖掘算法(如邏輯回歸、決策樹、貝葉斯、神經(jīng)網(wǎng)絡等)及其原理,能根據(jù)業(yè)務分析專題,建立挖掘模型,選擇最合適和高效的算法并實現(xiàn);熟練使用R、Mahout、SPSS、SAS中某一種或多種分析軟件,熟悉SQL語言;具有海量數(shù)據(jù)挖掘及分析相關項目經(jīng)驗,熟悉文本分類、聚類、機器學習,有相關項目經(jīng)驗者(互聯(lián)網(wǎng)分析挖掘經(jīng)驗、文本挖掘經(jīng)驗,微博數(shù)據(jù)可視化和圖片識別經(jīng)驗)優(yōu)先;能跟進業(yè)務線項目的數(shù)據(jù)分析工作,完成上線前后的數(shù)據(jù)調研、效果評估等分析報告;能夠根據(jù)產(chǎn)品運營數(shù)據(jù),出具產(chǎn)品分析報告,并對產(chǎn)品提出優(yōu)化建議
2.大數(shù)據(jù)算法工程師。該職位需要機器學習和數(shù)據(jù)挖掘的相關知識,并涉及一些算法設計相關內(nèi)容?;竟ぷ饕鬄椋壕⊿PSS Clementine、SAS EM等各類型數(shù)據(jù)分析工具,能制作專業(yè)分析報告,精通統(tǒng)計學,數(shù)據(jù)挖掘技術,尤其是回歸模型、決策樹模型;熟悉常用數(shù)據(jù)挖掘算法,包括但不限于決策樹、邏輯回歸、支持向量機、神經(jīng)網(wǎng)絡等;有金融、通信或互聯(lián)網(wǎng)某一行業(yè)實際數(shù)據(jù)挖掘項目經(jīng)驗,并對此行業(yè)業(yè)務有深刻認識;熟悉Hadoop的體系架構和運行原理,熟悉Hadoop 的MapReduce 原理,有使用Python、Shell、Java的MapReduce開發(fā)實戰(zhàn)經(jīng)驗者優(yōu)先;熟悉Java、Scala、R、Python至少一種;了解大數(shù)據(jù)框架Hadoop、Spark等。
這個崗位有其特殊性,既要求對數(shù)據(jù)分析有一定了解,也要求對大數(shù)據(jù)平臺有一定了解。基本要求是其中一項突出,另一項需要了解并會使用。其基本工作要求為:要求具備編程、計算機科學相關專業(yè)背景。掌握處理大數(shù)據(jù)所必需的Hadoop、Mahout等大規(guī)模并行處理技術與機器學習相關的技能;除了數(shù)學、統(tǒng)計方面的素養(yǎng)之外,還需具備使用SPSS、SAS等主流統(tǒng)計分析軟件技能;數(shù)據(jù)可視化,對數(shù)字羅列所組成的數(shù)據(jù)中所包含的意義進行分析,開發(fā)Web原型,使用外部API將圖表、地圖、Dashboard等其他服務統(tǒng)一起來,從而使分析結果可視化。
這個崗位主要是負責產(chǎn)品運營,由于其與大數(shù)據(jù)相關,所以有其專業(yè)特殊性。
1.數(shù)據(jù)產(chǎn)品經(jīng)理。需要利用大數(shù)據(jù)分析相關知識對產(chǎn)品進行設計,需要極強的綜合能力。一般要求3年以上數(shù)據(jù)分析、數(shù)據(jù)挖掘、推薦系統(tǒng)等相關產(chǎn)品策劃經(jīng)驗;熟悉DSP、SSP、ADX平臺,了解廣告RTB原理和算法;熟悉精準投放和DMP用戶畫像的領域知識等;熟悉廣告平臺運營模式,充分理解品牌廣告和效果類廣告的投放特點;對機器學習、概率統(tǒng)計、最優(yōu)化算法原理有深入理解;具備較強的團隊協(xié)作能力和溝通能力,思維活躍,學習能力強。
2.數(shù)據(jù)運營專員。需要利用大數(shù)據(jù)分析,進行運營體系的構建與支持,需要數(shù)據(jù)建模等相關知識。要求應聘人員可以根據(jù)公司業(yè)務發(fā)展規(guī)劃,構建高效的大數(shù)據(jù)運營支撐體系,提升大數(shù)據(jù)對生產(chǎn)經(jīng)營的支撐能力;根據(jù)生產(chǎn)需要,負責個性化分析應用的支撐工作,包括需求分析、口徑管理、腳本開發(fā)、數(shù)據(jù)提取、數(shù)據(jù)分析等工作;基于大數(shù)據(jù)分析結果,主導用戶和產(chǎn)品的大數(shù)據(jù)運營專項策劃并組織實施,確保關鍵運營指標的達成;負責用戶行為數(shù)據(jù)建模,主動挖掘用戶特征并將結果應用于業(yè)務推廣,提升業(yè)務推廣的質量和效率;根據(jù)公司發(fā)展戰(zhàn)略,主動發(fā)現(xiàn)運營中存在的問題,并形成大數(shù)據(jù)分析報告給公司領導或業(yè)務部門決策。
具體的職位體系圖譜如圖1所示。其更能直觀地展示出我們的市場調研結果。
圖1 大數(shù)據(jù)職位體系
大數(shù)據(jù)的興起與眾多領域的大型數(shù)據(jù)集的出現(xiàn)直接相關??茖W、社會科學、商業(yè)、人文和工業(yè)都在產(chǎn)生前所未有的原始數(shù)據(jù)或結構化數(shù)據(jù)。數(shù)據(jù)量的增長導致我們通常無法在沒有自動化軟件的幫助下進行直接有效的人工分析。大數(shù)據(jù)是將計算機科學領域和用于詢問數(shù)據(jù)提取有用信息的統(tǒng)計領域匯集在一起的新興學科。多領域交叉學科對課程體系設置有了新的要求。
我們根據(jù)每個職位的要求,整理出能力點,并根據(jù)其具體需求,整理出知識點,根據(jù)知識點,結合ACM DSTF中推薦的相關課程體系設置課程,通過對知識點的總結和歸納,使課程在符合學生學習能力的合理可接受范圍。我們將課程分為6大部分。
數(shù)據(jù)科學嚴重依賴計算和計算設備:收集和存儲數(shù)據(jù),了解數(shù)據(jù)的數(shù)字表示影響精度的方式,以及不同處理器類型和配置如何影響計算效率的方式,了解在處理過程中存儲和移動數(shù)據(jù)。由于大數(shù)據(jù)專業(yè)學生將與其他系統(tǒng)進行交互,因此他們應該能夠開發(fā)能夠獨立或與現(xiàn)有軟件和/或工具集成的程序。鑒于它們在許多數(shù)據(jù)科學應用中的作用,對矩陣表示和操作給予了特殊的要求。該類課程為基礎必修課,主要為學生建立牢固的計算機知識體系。主要包括程序語言設計:Java基礎開發(fā)、C++、Python基礎開發(fā)(二選一)、計算機系統(tǒng)、數(shù)據(jù)結構與算法、數(shù)據(jù)庫系統(tǒng)、計算機網(wǎng)絡、軟件工程等課程。對應職業(yè)需求中語言類、計算機基礎類需求,如:Java基礎扎實,熟悉io、多線程、集合等基礎框架;熟悉分布式、緩存、消息、搜索等機制;了解Sring MVC等框架;了解計算機網(wǎng)絡;具有防火墻、入侵防御、VPN等網(wǎng)絡安全系統(tǒng)的應用經(jīng)驗等。
該課程為大數(shù)據(jù)方向的基礎課程。在我們?nèi)找嬉蕾嚫鞣N形式的決策數(shù)據(jù)的數(shù)量和質量時,大數(shù)據(jù)專業(yè)學生負有保護數(shù)據(jù)完整性和正確使用數(shù)據(jù)的道德責任。數(shù)據(jù)挖掘的核心是處理、分析和呈現(xiàn)數(shù)據(jù),以獲得有價值的信息。分析的基本類型包括聚類、分類、回歸、模式挖掘、預測、關聯(lián)和異常值檢測,并注意各種形式的數(shù)據(jù),包括時間序列數(shù)據(jù)和Web數(shù)據(jù)。該接口的質量顯著影響所有形式的可用性,并包括廣泛的技術:動畫、可視化、模擬、語音、視頻、識別(人臉、手寫等)和圖形。這部分課程包括統(tǒng)計語言編程:R語言編程、應用統(tǒng)計、數(shù)據(jù)挖掘、實用機器學習、數(shù)據(jù)管理、數(shù)據(jù)分析與管理建模、數(shù)據(jù)可視化等課程。修讀完該部分課程,學生將具備基礎的數(shù)據(jù)分析能力,明晰基礎的數(shù)據(jù)分析流程。滿足職業(yè)需求中“了解數(shù)據(jù)挖掘算法如邏輯回歸、決策樹、貝葉斯、神經(jīng)網(wǎng)絡等及其原理,能根據(jù)業(yè)務分析專題,建立挖掘模型,選擇最合適和高效的算法;熟練使用統(tǒng)計工具;熟練使用數(shù)據(jù)分析工具:熟練使用R、Mahout、SPSS、SAS中某一種或多種分析軟件,熟悉SQL語言;熟悉Java、Scala、R、Python至少一種;精通SPSS Clementine、SAS EM等各類型數(shù)據(jù)分析工具,能制作專業(yè)分析報告”等要求。有助于從事數(shù)據(jù)分析師、數(shù)據(jù)運營專員等一系列基礎數(shù)據(jù)崗位。
管理和處理大量數(shù)據(jù)時,相關的計算問題通常會隨著數(shù)據(jù)量的增加而增加。大數(shù)據(jù)應用程序受益于可擴展的數(shù)據(jù)存儲方法,可能跨越各種計算機,同時便于在適當?shù)臅r間范圍內(nèi)進行處理。大數(shù)據(jù)應用程序還受益于可擴展的數(shù)據(jù)存儲方法,這些方法可容納大量數(shù)據(jù),同時便于在適當?shù)臅r間范圍內(nèi)進行處理。大數(shù)據(jù)專業(yè)學生還應該能夠實現(xiàn)和理解數(shù)據(jù)收集和分析算法,具備基本的算法問題解決技能。他們應該了解算法的時空考慮,以及圍繞數(shù)值計算的部分性拉爾問題。機器學習是指用于識別數(shù)據(jù)模式的廣泛算法,先構建模型,然后生成模型,并可能進行產(chǎn)品化。機器學習方法的一個主要的類別可以描述為“監(jiān)督學習”,包括分類和回歸的技術;另一類為“無監(jiān)督學習”,包括聚類和降維技術。數(shù)據(jù)科學家應了解這些類型的算法,包括此類學習所特有的挑戰(zhàn)和方法。這些方法對數(shù)據(jù)科學至關重要。數(shù)據(jù)科學家應該了解他們應用的算法,并做出關于其使用的原則性決策。
“大數(shù)據(jù)”用來描述真正大型的系統(tǒng),包括無法容納在單個服務器上的視頻、圖像、手寫等文件。此類系統(tǒng)具有規(guī)模問題:如何存儲大量數(shù)據(jù),如何確定數(shù)據(jù)是否高質量,如何以高效的方式處理數(shù)據(jù),以及如何獲得有用的見解。這些問題將在規(guī)模、數(shù)據(jù)存儲、高性能計算和復雜性理論標題下討論。這樣的系統(tǒng)可能很復雜,因此要考慮到對大數(shù)據(jù)應用程序的軟件支持。這類課程為大數(shù)據(jù)方向的進階課程,包括linux系統(tǒng)的配置與維護、NoSQL與大數(shù)據(jù)管理系統(tǒng)、大數(shù)據(jù)工具箱、大數(shù)據(jù)計算平臺的搭建部署及維護、MapReduce編程、大數(shù)據(jù)系統(tǒng)調優(yōu)與運維工具、大數(shù)據(jù)可視化工具、設計模式(選修)、系統(tǒng)架構開發(fā)導論(選修)等課程。修讀完該部分課程,學生預期可掌握大數(shù)據(jù)平臺的搭建與編程工作,并會對系統(tǒng)進行調優(yōu)與運維。設計模式與系統(tǒng)架構開發(fā)導論兩門選修課程,可為學生提供未來的架構師基礎。學完本部分課程,程度較好的同學可從事架構師見習工作,一般的同學可從事平臺開發(fā)工程師、研發(fā)工程師、運維工程師、算法工程師等一系列工作。
在技術活動中,大數(shù)據(jù)專業(yè)學生應該以負責任的方式行事,為專業(yè)帶來榮譽。對于所學知識,應當積極投入訓練,確保實踐效果,從做中學,及時鞏固所學知識,促進理論與實踐相融合。同時,在實踐過程中,除了熟練知識技能之外,還會遇到課堂上沒有遇到的新知識、新問題,通過進一步學習,擴展知識面,進一步提升自己的專業(yè)技能。這部分課程包括大數(shù)據(jù)課程設計I-III、項目實訓等課程,通過3個課程設計和一個項目實訓,提高同學的動手能力。目前對大數(shù)據(jù)從業(yè)者的項目經(jīng)驗要求較高,據(jù)此設計了本次的實訓課程。對應有Spark、Storm、Kafka等主流大數(shù)據(jù)計算組件開發(fā)和使用經(jīng)驗;熟練使用Spark機器學習算法包;熟悉高并發(fā)、高性能的分布式系統(tǒng)的設計及應用、調優(yōu);有基于Kylin或Greenplum等平臺應用研發(fā)經(jīng)驗;熟悉Hadoop ecosystem,包括Hadoop(MapReduce,YARN,HDFS)、Spark、HBase、Hive、Flink、Storm、Drill、Presto、Impala等,具備兩年以上開發(fā)和使用經(jīng)驗等需求,用以豐富同學們的項目經(jīng)驗。
大數(shù)據(jù)專業(yè)學生掌握大數(shù)據(jù)相關領域的應用信息,有益于實現(xiàn)知識落地,同時也能把握行業(yè)發(fā)展方向,啟發(fā)研究內(nèi)容。這部分課程包括工業(yè)大數(shù)據(jù)、金融大數(shù)據(jù)、教育大數(shù)據(jù)、商務大數(shù)據(jù)等。該課程為同學提供了一個了解相關的領域的平臺,大數(shù)據(jù)的應用范圍廣泛,提早對方向進行了解有助于就業(yè)和擇業(yè)。
高校是國之重器,國家最優(yōu)秀的科研人才集中在這里,彌補大數(shù)據(jù)行業(yè)的人才缺口是國家和高校面臨的重要挑戰(zhàn)和機遇。為實現(xiàn)創(chuàng)新驅動和應用引領,必須發(fā)揮高校的創(chuàng)新優(yōu)勢,加強大數(shù)據(jù)基礎研究,建立數(shù)據(jù)科學理論體系,在辦學過程中總結數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)的辦學經(jīng)驗,摸索規(guī)律,積極探索出一條適合中國國情的數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)的科學研究與人才培養(yǎng)之路,為國家培養(yǎng)更多優(yōu)秀的大數(shù)據(jù)技術專業(yè)人才。