周傲英 周烜
摘 要:21世紀以來,對人類影響最大的科技事件是互聯(lián)網的蓬勃發(fā)展?;ヂ?lián)網企業(yè)的成功彰顯了數據的重要性,“大數據”因此成為耳熟能詳的熱詞?!按髷祿笔钦f數據很重要,其本質上指的是數據的采集、匯聚、關聯(lián)和使用。數據是人類文明史上堪比蒸汽能和電能的新能源,是催生數字經濟的新動能?;谶@樣的認識,華東師范大學成立了數據學院(全名:數據科學與工程學院),“面向新經濟的數據科學與工程專業(yè)建設”入選第一批新工科建設項目,數據專業(yè)于2019年入選同類專業(yè)唯一的一個國家級一流本科專業(yè)。發(fā)起成立的數據專業(yè)協(xié)作組圍繞本科核心課程進行了全面深入的討論,確定了第一批八門核心課程及其教學大綱,教材編寫和課程建設正在全面推進。另外兩門核心課程“區(qū)塊鏈導論——原理、技術與應用”和“數據中臺初階教程”也將很快面世。
關鍵詞:大數據;數據專業(yè);人才培養(yǎng);核心課程;知識體系
目前,國內很多高校都在積極申辦“數據專業(yè)”。然而,大家對這個專業(yè)缺乏統(tǒng)一認識,特別是對培養(yǎng)目標的設置和課程的安排。有的學校在原有計算機專業(yè)的基礎上拓展出“數據專業(yè)”,也有的學校在原有統(tǒng)計專業(yè)的基礎上拓展出“數據專業(yè)”。不同的專業(yè)創(chuàng)辦方式造成人才培養(yǎng)方式的極大差異。這讓學生在選擇專業(yè)時深感困惑,也給用人單位的畢業(yè)生招聘帶來了困擾。
2018年,由華東師范大學發(fā)起,全國多所高校聯(lián)合成立了“數據科學與工程專業(yè)協(xié)作組”,旨在商討并制訂出一套統(tǒng)一的“數據專業(yè)”培養(yǎng)目標和課程體系。至今,數據科學與工程專業(yè)協(xié)作組已經舉辦了四屆研討會,就“數據專業(yè)”的培養(yǎng)目標和核心課程設置進行了深入討論,并且咨詢了大量工業(yè)界專家的意見,對專業(yè)建設的若干關鍵問題都得到了比較明確的答案。協(xié)作組的成員高校目前已經開始針對“數據專業(yè)”的8門核心課程開展精品課程建設,并計劃在不遠的將來推出一系列核心課程教材。由數據專業(yè)協(xié)作組編寫的《數據科學與工程專業(yè)人才培養(yǎng)方案與核心課程體系》將由高等教育出版社出版。
目前,工業(yè)界對“大數據”這個名字的解釋并不完全一致。特別是對“大”字的解讀,有人認為“大”單純指數據量大(Big Volume),也有人認為“大”有多重含義,除了數據量大還包括數據產生速度快(Big Velocity)、數據種類多(Big Variety)等,由此引申出3V、4V、5V等叫法。不一致的解釋容易造成學生的困惑。協(xié)作組認為數據本身就是有價值的,無論大小,只要能幫助實際生產提升效率,就是可利用的對象。因此,我們不拘泥于某一種“大數據”的定義,而將“數據科學與工程專業(yè)”“數據科學與大數據技術專業(yè)”和“數據專業(yè)”一視同仁。核心是數據。
一、數據是新的電能
歷史揭示,工業(yè)的跨越式發(fā)展通常需要新的驅動力。這個驅動力可以是新的能源、能量或生產資料。第一次和第二次工業(yè)革命背后的驅動力分別是蒸汽能和電能。它們讓新的生產方式成為可能?,F在距第二次工業(yè)革命已經有一個多世紀,人類工業(yè)進步的下一個驅動力會是什么?我們大膽猜想:下一個驅動力是數據。
近百年來,最讓人矚目的技術變革是信息化。信息化將所有人連接起來,讓每個人可以隨時隨地傳遞消息、表達見解。商鋪、銀行、服務機構利用信息化將它們的渠道延伸至世界的每一個角落,讓所有的商品和服務都變得唾手可得。各種生活用具、設施和生產設備也通過信息技術聯(lián)系在一起,使得它們可以互通有無、相互協(xié)作,進一步提高人們的生產效率和生活便利程度。如今,由計算機和互聯(lián)網構成的龐大信息系統(tǒng)已經成為人類社會正常運轉不可或缺的部分,其重要程度無異于傳統(tǒng)的橋梁、道路、電力系統(tǒng)等基礎設施。而人類社會運轉的過程也被這個系統(tǒng)記錄下來,形成大量數據。數據中隱含了豐富的信息和規(guī)律,因而成為炙手可熱的資源。電子商務集團利用購物數據獲知不同人群對不同商品的喜好,從而大大提升商品推廣的效率。醫(yī)療機構通過分析病人的檢測數據,發(fā)掘出疾病的成因和致病規(guī)律,讓診斷和治療變得更加準確。教育機構通過分析學生的行為數據了解學生的個體差異,從而做到更好因材施教。很多行業(yè)的經營和生產模式都因數據的使用而發(fā)生改變。從這一點上看,數據很像當年的蒸汽能和電能。
數據是如何驅動生產的?在傳統(tǒng)的生產方式中,企業(yè)重點關注產品和用戶兩個要素:去用戶那里了解需求,根據需求生產出產品給用戶。傳統(tǒng)企業(yè)缺少利用數據的意識或手段。因此,產品更新迭代的速度很慢。為了獲得競爭力,企業(yè)須做盡量全面的需求分析,力圖將產品設計得盡可能完美。在數據驅動的生產方式中,企業(yè)除了考慮產品和用戶,還將數據作為重要的生產要素:企業(yè)將產品生產出來給用戶,用戶使用產品的過程和效果被記錄下來,形成數據;數據立即被反饋回去,用于優(yōu)化產品的設計和生產。在這個過程中,由于有數據的支持,產品不斷快速迭代,日臻完善。在數據驅動的生產方式下,數據成為核心競爭力——誰擁有更全面的數據,誰就能制造出更完美的產品。
數據驅動的生產方式首先是在互聯(lián)網上彰顯了它的威力。我們耳熟能詳的互聯(lián)網業(yè)務大都是數據驅動的。最明顯的例子是搜索引擎。無論是谷歌還是百度,都在不停地收集用戶搜索行為數據。這些數據讓它們對用戶的理解不斷深入,從而可以不斷優(yōu)化搜索功能和排序模型。同時,數據也讓廣告投放的精準度得到提升。正是數據的積累,讓谷歌和百度這樣的公司成為壟斷搜索市場的科技巨頭。電子商務是另一個顯著的例子。例如,亞馬遜和淘寶的營銷業(yè)務也都是數據驅動的。通過分析用戶的瀏覽和購買行為數據,這些電商平臺得以洞悉用戶的需求和喜好,從而準確地將商品推送給潛在客戶?;ヂ?lián)網社交平臺同樣是數據驅動的典型業(yè)務。微信、微博、臉書的產品迭代速度都非常快,新功能層出不窮。這得益于用戶數據的積累。它們因此可以不斷挖掘用戶的需求,從而不斷對產品進行改進。此外,這些社交平臺的主要商業(yè)價值在于它們的商業(yè)推廣能力,而數據也是支撐這種推廣能力的基礎。可以說,大部分成功的互聯(lián)網業(yè)務都依賴對數據的合理利用。如今,不僅僅是互聯(lián)網業(yè)務重視數據了,各個行業(yè)都開始引入數據驅動的生產方式,包括零售、餐飲、醫(yī)療、金融、教育、物流和工業(yè)制造。大數據產業(yè)逐漸形成。
如上所述,大數據產業(yè)的根本目的也是用數據去為各個行業(yè)賦能。換一句話說,就是幫助各個行業(yè)進行數據驅動的生產方式的轉型,讓各個行業(yè)的業(yè)務都能利用數據的驅動力提升效率。就像第一和第二次工業(yè)革命時期蒸汽機和電動機的發(fā)明與制造,大數據產業(yè)要為社會創(chuàng)造數據驅動的“引擎”。
二、數據人才應該具備的素質
“數據專業(yè)”的目的是為大數據產業(yè)培養(yǎng)人才,其目標也就是培養(yǎng)學生用數據為各個行業(yè)的業(yè)務進行賦能的能力。我們希望這個專業(yè)的畢業(yè)生能夠理解數據的價值,并且能夠幫助各種行業(yè)、各個企業(yè)建立數據驅動的生產方式,從而實現數據的價值?!皵祿x能”并不是簡單的工作,而是復雜的系統(tǒng)工程,需要不同專長的人傾力合作才能實現,這包括數據科學家、數據工程師、軟件開發(fā)人員、熟悉業(yè)務的領域專家等。在大數據行業(yè)里,職業(yè)分工可能不下數十種,甚至包括一些垂直領域的細分崗位,比如金融數據分析師、醫(yī)療數據分析師等。大學本科階段的學習重在培養(yǎng)學生在專業(yè)領域的基本素質和能力,而不宜只針對某幾類工作崗位做職業(yè)訓練。當學生獲得了“數據賦能”的基本素質和能力之后,再進一步根據自己的特長和興趣并結合市場需求進行擇業(yè)。這與大學的其他專業(yè)都是類似的,即一個專業(yè)通常對應著眾多的職業(yè)發(fā)展路徑。
“數據賦能”的基本素質和能力主要包括哪些呢?數據科學與工程專業(yè)協(xié)作組討論后,得出了如下一些意見。首先,學生需要理解數據的價值,即數據如何提升業(yè)務的效率,或者幫助業(yè)務解決什么問題。為此,學生需要養(yǎng)成用數據去解決問題的思維習慣,即慣常講的“數據思維”?,F實世界的數據種類繁多,業(yè)務也種類繁多。因此,對數據價值的把握并非一件簡單的事,需要不同場景的案例支持以及反復的思維訓練。其次,學生需要學習如何“把玩”數據。這涉及大量數學知識,包括數據的表示方法、處理方式以及從數據中發(fā)現規(guī)律的原理。同時,這也涉及計算機領域的工程能力,包括用計算機去收集數據、管理數據、處理數據的能力,還包括用計算機去訓練模型、部署模型的能力。最后,學生需要學習如何用數據去驅動業(yè)務。這要求學生能夠分析業(yè)務的需求,并且用軟件構建出數據驅動的解決方案。最后這個方面的學習通常需要學生在實踐中完成。只有通過以上三方面的學習和訓練,學生才能系統(tǒng)地理解“數據賦能”的全過程并掌握其中的關鍵技能,才算具備了“數據賦能”的基本素質。
三、“數據專業(yè)”在國內外的發(fā)展狀況
2013年,紐約大學推出了數據科學碩士課程,這被普遍認為是最早的“數據專業(yè)”課程。隨后,美國的各大頂尖高校(包括斯坦福、加州伯克利、卡內基梅隆等)也相繼開設了數據科學碩士課程。我國的清華大學也在2014年推出了“大數據”碩士課程,開始了該專業(yè)的教學探索??梢哉f,“數據專業(yè)”的建設是從碩士課程開始的,其培養(yǎng)對象不僅僅是計算機和統(tǒng)計專業(yè)的本科畢業(yè)生,還包括理科、工科和商科各個專業(yè)的本科畢業(yè)生。大數據的應用領域非常廣,各行各業(yè)都有明確的數據人才需求。通過碩士課程的學習,各行業(yè)的專業(yè)人士可以比較快速地獲得數據技能。這成為各行業(yè)補齊數據人才缺口的一種方式。
數據本科專業(yè)是近幾年才開始出現的,比碩士專業(yè)滯后了好幾年。本科生的培養(yǎng)需要構建一套完整的知識體系,這比“錦上添花”的碩士課程要求更高、難度也更大。據統(tǒng)計,美國現有50余所高校開設了數據科學的本科專業(yè),其中包括紐約大學、耶魯大學、普渡大學、加州大學圣地亞哥分校等知名大學。在國內,比較早開設數據本科專業(yè)的知名高校包括復旦大學和華東師范大學。這兩所高校分別于2016年和2017年開始招收該專業(yè)本科生。華東師范大學的數據科學與工程學院一開始招收的是本科2年級的轉專業(yè)學生,自2019年開始招收高考生。而復旦大學的“大數據學院”一直招收的都是本科3年級的轉專業(yè)學生。自2018年起,中國的數據專業(yè)加速發(fā)展,目前已有上百所高校開啟該專業(yè)的本科培養(yǎng)。
雖然國內外的眾多高校都開始了“數據專業(yè)”人才培養(yǎng)的探索,但大家并沒有對該專業(yè)的知識體系和課程體系達成一個統(tǒng)一的認識。不少學校都是在原有計算機專業(yè)或統(tǒng)計專業(yè)的基礎上通過增刪部分課程構建“數據專業(yè)”的培養(yǎng)方案。這并不能很好地服務于我們的人才培養(yǎng)目標。
為了對“數據專業(yè)”的人才培養(yǎng)體系有一個全面統(tǒng)一的認識,國內外的教育界人士都做了不少工作。值得一提的有ACM的數據科學專案組(ACM Data Science Task Force)和歐盟的EDISON(Education for Data Intensive Science to Open New science frontiers)項目的工作。ACM的數據科學專案組由來自美國、加拿大和中國的10余位專家學者組成,目的是討論數據科學專業(yè)的人才培養(yǎng)目標和課程體系。他們的最新研報對數據科學家基本能力做了梳理,認為數據科學家的能力應包括計算機的基礎能力、數據收集和治理的能力、數據安全管理的能力、數據分析的能力、大規(guī)模數據處理的能力以及數據科學家的基本職業(yè)素養(yǎng)(Professionalism)。這些其實都是“數據賦能”能力的組成部分。EDISON項目的成果報告則把數據人才的能力分為了五個大類,包括數據分析(Data Science Data Analytics)、數據工程(Data Science Engineering)、數據管理(Data Science Data Management)、研究與項目管理(Data Science Research Methods and Project Management),以及商業(yè)過程管理(Business Process Management)。他們建議為這五類能力分別設置課程和培養(yǎng)方案。在協(xié)作組看來,這樣細致的職業(yè)分工雖然合理,但未必適合作為本科的培養(yǎng)方案。協(xié)作組堅持認為“數據專業(yè)”的本科教育應該著重基本能力的培養(yǎng),一套培養(yǎng)方案比多套培養(yǎng)方案更精干也更便于推行。
四、從三個維度看“數據專業(yè)”的知識體系
協(xié)作組對“數據專業(yè)”的課程設置進行了深入探討。當前各院校對“數據科學與大數據技術”的理解不盡相同??偨Y一下,大部分院校通過以下三個維度(或視角)之一去理解該專業(yè)的知識構成。
第一個維度是按照軟件系統(tǒng)的層次架構對知識進行劃分。這樣的劃分方式清晰地區(qū)分了底層的計算機系統(tǒng)、中間層數據管理和處理平臺、運行在平臺上的算法和模型以及頂層各個領域的大數據應用。如圖1所示,華東師范大學數據學院發(fā)表在《大數據》期刊上的系統(tǒng)層次架構正是通過這個維度對“數據專業(yè)”的知識構成進行了解讀。計算機系統(tǒng)領域的學者通常也都會使用這個維度去理解大數據技術。首先,任何大數據應用需要一個數據管理和處理的平臺。數據在這個平臺上被記錄和維護,也在這個平臺上被處理并得到價值實現。學會使用這樣的平臺是數據人才的必備技能,而獲得這項基本技能的前提是學習計算機系統(tǒng)的基本知識。其次,數據的價值提取依靠算法設計和建模,這不僅要求學生具備足夠的數學知識,也要求他們精通程序設計,從而可以將算法和模型實現在數據處理平臺上。最后,數據處理的結果需要對接應用,以實現數據對應用的賦能。這需要學生具備一定的系統(tǒng)工程能力,從而能夠對傳統(tǒng)應用進行改造;同時也要求學生掌握應用的領域知識,從而可以理解應用的真實需求和痛點,讓數據真正解決應用的問題。
第二個維度是按照數據科學的生命周期對知識進行劃分。數據科學的生命周期刻畫了從需求分析到數據收集,再到數據整理,最后到數據分析和結果展示的數據處理的全過程。對數據科學家而言,這一過程的每一個步驟都是至關重要的,并且每一個步驟都涉及各自的理論、工具和技術(其中的一些步驟可能用到重復的理論和工具,比如數據分析和數據整理),都需要“數據專業(yè)”的學生去深入學習。隨著時代的發(fā)展,專業(yè)人士對數據科學生命周期的認識也在變化,出現了不同的版本。比如最后一步未必需要將結果直接展示給用戶,而可以將數據反饋給模型,以提升模型的性能。圖2是從互聯(lián)網上摘錄的兩種生命周期的刻畫方式。它們都有各自適用的應用場景。目前,我們尚不能對數據科學生命周期的所有環(huán)節(jié)形成共識。但總體而言,這種過程式的知識刻畫方式不乏其合理性。
第三個維度是按照從理論到實踐的傳統(tǒng)方式對知識進行劃分。對一個能夠實現“數據賦能”的專業(yè)人才,深厚的理論知識是必備的條件。首先,學生需要接受充分的數學訓練。這不僅僅是為了提升思維能力,而是學習數據處理的前提。數據的本原是數字,數據的處理實際上就是數學計算的過程。與“數據專業(yè)”相關數學知識除了基本的高等數學和代數之外,還包括離散數學、概率論、統(tǒng)計學、運籌學等。其次,學生還需要學習計算機的理論。特別是算法理論和機器學習理論,它們都是用于實現“數據賦能”的基本理論知識。有了理論知識,學生需要大量實踐能力訓練。這里的實踐能力包含兩個層次。第一個層次是工程實踐能力,即要求學生能夠動手將數據處理的軟件系統(tǒng)構建起來。對“數據專業(yè)”而言,程序設計是最基礎、最核心的工程實踐能力,需要學生投入大量精力去練習并積累經驗。除此之外,學生還需要掌握各種系統(tǒng)工具,包括操作系統(tǒng)、數據管理系統(tǒng)、云計算平臺、分布式數據處理平臺等。第二個層次的實踐能力是對接應用的能力。對特定的應用場景,學生需要具備一定的交流能力和探索能力,能夠發(fā)現數據對業(yè)務的價值,能夠分析數據對業(yè)務的驅動方式,從而制訂“數據賦能”的解決方案。這樣一套從理論到實踐的知識體系雖然傳統(tǒng),但能比較全面地概括“數據專業(yè)”所涉及的重要知識。
以上三個維度的知識體系梳理都具備明確的合理性,都應該納入“數據專業(yè)”的課程體系中。但我們只需要讓課程體系涵蓋這三個維度的知識構成,而不需要嚴格依照它們去設計課程體系。課程體系的設計更應該講究教學的可操作性,其目的是讓教學的分工協(xié)作更高效、更靈活。
五、推薦的數據科學與工程專業(yè)課程設置
“數據科學與工程專業(yè)”是一個新專業(yè)。以上的分析討論揭示:數學(包含統(tǒng)計)和計算機科學是這個專業(yè)的支柱學科。同時,“數據專業(yè)”與傳統(tǒng)的數學專業(yè)、統(tǒng)計專業(yè)和計算機專業(yè)的人才培養(yǎng)目標又是不同的。它必須提供與這些傳統(tǒng)專業(yè)不同的人才培養(yǎng)體系,才能達成自身的培養(yǎng)目標。但是,從目前國內各高校的師資條件看,為“數據專業(yè)”重新量身定制一套全新的課程體系并不現實。目前,能夠參與“數據專業(yè)”教學的老師幾乎都是來自數學、統(tǒng)計和計算機專業(yè)的老師。他們中的大多數未必有大數據行業(yè)的從業(yè)經驗,也未必掌握“數據賦能”的能力。在短時間內,我們無法要求他們完全勝任全新的“數據專業(yè)”課程。作為折中之舉,我們可以將數學和計算機專業(yè)的一些基礎課程直接復制過來,作為“數據專業(yè)”的基礎課程,然后再設計一套精干的屬于“數據專業(yè)”的核心課程,用于重點培養(yǎng)“數據賦能”的能力。
協(xié)作組為“數據專業(yè)”設計的課程體系如圖3所示。整個課程體系分成四個部分。第一部分為基礎課,都是從數學和計算機專業(yè)篩選出來的重要課程,目的是幫助“數據專業(yè)”的學生打好在數學和計算機方向上的基礎。第二部分是核心課,是協(xié)作組經過激烈討論后選出的8門針對“數據專業(yè)”培養(yǎng)目標的重要課程。第三部分是方向課,也是選修課,由學生根據自己的興趣或職業(yè)規(guī)劃自主選擇。方向課包括深入科研領域的技術類課程,比如深度學習、自然語言處理等,也包括面向行業(yè)應用的垂直課程,比如教育大數據、物流大數據等。后者通常會將“數據專業(yè)”的知識和行業(yè)領域知識結合起來,讓學生體會數據是如何驅動現實業(yè)務的。第四部分是工程實踐課,主要用于:訓練學生的工程能力,向他們灌輸職業(yè)行為規(guī)范,并提升他們的創(chuàng)新意識(主要體現在“設計思維”課程)。其中“畢業(yè)設計”是最重要的實踐環(huán)節(jié)。該環(huán)節(jié)最好將學生置身于實際的業(yè)務場景,讓他們用數據去解決業(yè)務的問題。對于工科的“數據專業(yè)”,第四部分的課程是很重要的。
表1是上述課程在四年本科期間的一種時間安排,以供參考。其中,方向課建議都放在第5—8學期。
對于方向課,可以根據各個學校的師資條件和教學專長進行開設。作為選修課,方向課的門類和內容都不應受到任何限定。各個學校只需要確保學生能夠通過方向課獲得在大數據細分領域的深入學習機會。下面著重介紹一下協(xié)作組選定的專業(yè)核心課程,也是“數據專業(yè)”最關鍵的課程。