国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺談數(shù)據(jù)科學人才的培養(yǎng)

2016-05-10 04:31許嘉呂品
教育界·下旬 2016年3期
關(guān)鍵詞:基礎(chǔ)理論社會實踐

許嘉 呂品

【摘 要】在大數(shù)據(jù)時代,各行各業(yè)對數(shù)據(jù)科學人才的需求量大幅增長,而我國尚未建立起成熟有效的數(shù)據(jù)科學人才培養(yǎng)體系。本文從領(lǐng)域知識、基礎(chǔ)理論、計算機工具和社會實踐等四個方面對如何培養(yǎng)數(shù)據(jù)科學人才進行了探討,以期為我國高校制定數(shù)據(jù)科學人才培養(yǎng)方案提供參考。

【關(guān)鍵詞】數(shù)據(jù)科學人才 領(lǐng)域知識 基礎(chǔ)理論 計算機工具 社會實踐

一、引言

隨著大數(shù)據(jù)時代的到來,無處不在的“數(shù)據(jù)”引發(fā)了人們空前的關(guān)注,各行各業(yè)對數(shù)據(jù)科學人才的需求量都呈現(xiàn)出大幅增長的趨勢。然而,當前不論是國內(nèi)還是國外,數(shù)據(jù)科學人才的數(shù)量與實際需求相比都存在很大的缺口。培養(yǎng)大量合格的數(shù)據(jù)科學人才成為一項急迫的任務(wù)。本文根據(jù)數(shù)據(jù)科學人才應(yīng)當具有的知識結(jié)構(gòu),從領(lǐng)域知識、基礎(chǔ)理論、計算機工具和社會實踐四個方面對如何培養(yǎng)數(shù)據(jù)科學人才進行探討,為國內(nèi)高校建立數(shù)據(jù)科學人才培養(yǎng)機制提供參考。

二、領(lǐng)域知識

數(shù)據(jù)科學人才的職責是解決特定領(lǐng)域的問題。因此,數(shù)據(jù)科學人才必須具備一定的業(yè)務(wù)領(lǐng)域知識,包括行業(yè)信息和業(yè)務(wù)信息。一方面,這是正確開展數(shù)據(jù)分析工作的前提和保障;另一方面,積累足夠的領(lǐng)域知識有助于評價和區(qū)分有價值的數(shù)據(jù)分析結(jié)果。

三、基礎(chǔ)理論

數(shù)據(jù)科學人才因為是與數(shù)據(jù)打交道,所以需要具有扎實的數(shù)學理論基礎(chǔ)。高等數(shù)學、線性代數(shù)、概率論、離散數(shù)學等課程都是需要學習的理論基礎(chǔ)課。除此之外,統(tǒng)計學、數(shù)據(jù)挖掘等方面的基礎(chǔ)理論對于建立數(shù)據(jù)科學人才的知識體系非常必要,應(yīng)當重點加強。

統(tǒng)計學是應(yīng)用數(shù)學的分支,包括描述統(tǒng)計和推斷統(tǒng)計。描述統(tǒng)計主要研究如何收集、處理和描述數(shù)據(jù),推斷統(tǒng)計則是研究如何利用樣本數(shù)據(jù)來推斷總體特征。統(tǒng)計學是數(shù)據(jù)分析的靈魂,可以實現(xiàn)對數(shù)據(jù)的量化分析、總結(jié)、推斷和預(yù)測,為相關(guān)領(lǐng)域問題的決策提供依據(jù)和參考。

數(shù)據(jù)挖掘是數(shù)據(jù)科學的必備理論工具。數(shù)據(jù)科學把原始數(shù)據(jù)看作是形成知識的源泉,作為交叉學科的數(shù)據(jù)挖掘正是綜合運用數(shù)學、數(shù)據(jù)庫、人工智能、機器學習、可視化和并行計算等方面的知識從數(shù)據(jù)海洋中提煉出有價值的信息,為領(lǐng)域決策提供重要支持。

四、計算機工具

在這個數(shù)據(jù)爆炸的時代,僅依靠人力處理快速增長的數(shù)據(jù)并不現(xiàn)實,人們必須借助計算機來進行處理大量的數(shù)據(jù)。因此,數(shù)據(jù)科學人才需要熟練掌握相應(yīng)的計算機工具。

數(shù)據(jù)科學人才需要掌握的計算機工具之一就是用于存儲數(shù)據(jù)的數(shù)據(jù)庫管理系統(tǒng),包括傳統(tǒng)的關(guān)系數(shù)據(jù)庫和新興的NoSQL數(shù)據(jù)庫。對于結(jié)構(gòu)化數(shù)據(jù),使用關(guān)系數(shù)據(jù)庫和結(jié)構(gòu)化查詢語言(SQL)對其進行存儲和查詢的技術(shù)已非常成熟。隨著數(shù)據(jù)多樣性的程度越來越高,半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)(如文檔、圖像、音頻、視頻數(shù)據(jù))所占的比重越來越大。這類數(shù)據(jù)更適合使用非關(guān)系的NoSQL數(shù)據(jù)庫進行存儲與查詢。目前常用的NoSQL數(shù)據(jù)庫有MongoDB、HBase等。

除了數(shù)據(jù)庫,用于數(shù)據(jù)處理的編程框架和編程語言也是數(shù)據(jù)科學人才需要掌握的。當前廣受關(guān)注的開源數(shù)據(jù)處理編程框架包括Hadoop、Spark、Storm等。Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架,其核心是分布式文件系統(tǒng)HDFS和MapReduce編程模型,能夠充分利用集群的計算能力和存儲能力來處理大規(guī)模數(shù)據(jù)。Spark與Hadoop的工作原理類似,但由于Spark是把中間計算結(jié)果保存在內(nèi)存中而非分布式文件系統(tǒng)中,因此比Hadoop具有更快的運算速度。Storm是一個分布式的實時計算系統(tǒng),主要針對流式數(shù)據(jù)進行處理,適用于對實時性要求較高的系統(tǒng)。上述三個編程框架都主要使用Java作為編程語言。此外,Scala、Python、R等也都是在數(shù)據(jù)處理中常用的編程語言。

為了將數(shù)據(jù)分析結(jié)果用最易于理解的方式呈現(xiàn)出來,數(shù)據(jù)可視化工具必不可少。常用的數(shù)據(jù)可視化工具包括Excel、R和Google Chart API等。另外還有不少值得關(guān)注的國產(chǎn)數(shù)據(jù)可視化工具,例如大數(shù)據(jù)魔鏡。

五、社會實踐

數(shù)據(jù)通常是來源于人們的生產(chǎn)生活,研究數(shù)據(jù)科學的目的也是為了更好地服務(wù)于人們的生產(chǎn)生活。因此,培養(yǎng)數(shù)據(jù)科學人才必須注重理論聯(lián)系實際,通過社會實踐來提高數(shù)據(jù)科學人才分析和解決實際問題的能力。

社會實踐一方面是要讓學生接觸產(chǎn)業(yè)界,了解不同行業(yè)的背景和需求,特別是要利用在實際生產(chǎn)生活中產(chǎn)生的大數(shù)據(jù)進行學習,這樣能夠更好地理解理論知識。除了在不同的行業(yè)進行實習,參加各類大數(shù)據(jù)競賽也是一個接觸產(chǎn)業(yè)界的很好的方式?,F(xiàn)在不少政府部門、學術(shù)組織、企業(yè)、高校都通過組織大數(shù)據(jù)競賽的方式促進人才培養(yǎng),推動產(chǎn)業(yè)發(fā)展。影響力比較大的競賽包括中國計算機學會主辦的中國大數(shù)據(jù)技術(shù)創(chuàng)新大賽、全國青年大數(shù)據(jù)創(chuàng)新大賽,阿里巴巴集團舉辦的天池大數(shù)據(jù)競賽,百度和西安交通大學舉辦的大數(shù)據(jù)競賽等等。通過實習或競賽,學生能夠在實踐中鍛煉能力,從而能夠更快地成長為合格的數(shù)據(jù)科學人才。

社會實踐的另一方面是培養(yǎng)學生的溝通與表達能力。因為數(shù)據(jù)科學是為各行各業(yè)服務(wù)的,所以數(shù)據(jù)科學人才需要同非數(shù)據(jù)科學專業(yè)的人士交流,了解其需求,并向其解釋數(shù)據(jù)分析的結(jié)果。這就需要數(shù)據(jù)科學人才在掌握專業(yè)能力之外,同時需要具備良好的交流能力。因此,人際交往能力是數(shù)據(jù)科學人才培養(yǎng)的重要方面。

六、總結(jié)

數(shù)據(jù)科學是一門綜合性的學科,培養(yǎng)數(shù)據(jù)科學人才也是一項系統(tǒng)工程。只有從領(lǐng)域知識、基礎(chǔ)理論、計算機工具和社會實踐這幾個方面統(tǒng)籌規(guī)劃,制定合理的培養(yǎng)方案,才能培養(yǎng)出既有理論水平又有實踐經(jīng)驗的數(shù)據(jù)科學人才,這樣的人才將更受社會歡迎。

【參考文獻】

[1]許嘉,呂品.哈佛大學數(shù)據(jù)科學課程教學初探[J].教育界,2015(15).

[2]Rachel Schutt, Cathy O'Neil. Doing Data Science[M].O'Reilly,2013.

[3]楊旭,湯海京,丁剛毅.數(shù)據(jù)科學導(dǎo)論[M].北京:北京理工大學出版社,2014.

猜你喜歡
基礎(chǔ)理論社會實踐
李達與黨的基礎(chǔ)理論建設(shè)
山西省2018年專升本選拔考試 中醫(yī)基礎(chǔ)理論
高速公路智慧服務(wù)區(qū)基礎(chǔ)理論探析
新形勢下構(gòu)建大學生社會實踐長效機制問題的探析
高等美術(shù)專業(yè)學生社會實踐能力的研究分析
自我教育活動是學校德育工作的重要途徑
結(jié)合“室內(nèi)檢測與控制技術(shù)”專業(yè)教育淺談高職學生的社會實踐能力
對高校思政課教師暑期社會實踐的探索與思考
醫(yī)學研究生社會實踐模式建立探析
中醫(yī)基礎(chǔ)理論設(shè)計性實驗的探索與實踐
县级市| 蓝山县| 汉中市| 墨竹工卡县| 屏边| 綦江县| 邳州市| 陇川县| 通河县| 横峰县| 师宗县| 塘沽区| 嘉祥县| 若尔盖县| 哈密市| 汾阳市| 满城县| 海城市| 昆山市| 长春市| 木兰县| 汾西县| 鲜城| 延长县| 文登市| 台东县| 洪湖市| 巴彦县| 比如县| 菏泽市| 乌拉特后旗| 江川县| 如东县| 大渡口区| 彰武县| 合水县| 礼泉县| 三江| 东乌| 盐亭县| 封开县|