文/本刊記者 傅宇凡
未來數(shù)據(jù)工廠和數(shù)據(jù)工人的出現(xiàn)將是一個趨勢。大數(shù)據(jù)需要不同層次的人才。
“在雨季,一個象波士頓這樣的城市,一分鐘之內也許要降落下千千萬萬粒雨滴,如果其中的一滴是紅色的,我們的工作就是找到那滴雨?!?/p>
這是諾貝爾物理學獎獲得者丁肇中在會見鄧小平時,對他發(fā)現(xiàn)的J粒子所做的比喻。經(jīng)過長達十年的實驗、測量、校正、數(shù)據(jù)分析,丁肇中發(fā)現(xiàn)了J粒子,并獲得了1976年的諾貝爾物理學獎。
在新技術層出不窮的今天,大數(shù)據(jù)與大科學、大發(fā)現(xiàn)更加緊密關聯(lián),2012年上帝粒子的發(fā)現(xiàn),將大數(shù)據(jù)推向世界舞臺的中心。在過去的2014年,大數(shù)據(jù)無疑已經(jīng)成為科學界的寵兒,國內眾多大數(shù)據(jù)科研機構紛紛成立,并構建自己的學科數(shù)據(jù)中心、大數(shù)據(jù)資源庫。
許榕生教授
郭華東院士
2014年6月,大數(shù)據(jù)與科學發(fā)現(xiàn)國際研討會(CODATA Workshop on Big Data for International Scientific Programmes)在北京舉辦,如何挖掘科學大數(shù)據(jù)的能量與潛力、如何更好利用科學大數(shù)據(jù)為科學發(fā)現(xiàn)服務,如何使大數(shù)據(jù)、大科學、大發(fā)現(xiàn)融會貫通,都是本次會議研討重要話題。
本次大會的主席、中國科學院郭華東院士目前擔任國際科技數(shù)據(jù)委員會主席,曾提出“大數(shù)據(jù)+大科學=大發(fā)現(xiàn)”,總結多年的工作,他認為大數(shù)據(jù)更多的是信息的發(fā)掘與應用,至于大發(fā)現(xiàn),不光要大數(shù)據(jù)還要有新的數(shù)據(jù),新的實驗與觀測方法。相比互聯(lián)網(wǎng)的大數(shù)據(jù)與商業(yè)大數(shù)據(jù),當前,科學大數(shù)據(jù)的理論研究與實踐還相對較少。
IDC的統(tǒng)計數(shù)字顯示,中國目前擁有的數(shù)據(jù)量占全球的14%;而到2020年,這一比例將上升至21%。但是,相關的數(shù)據(jù)表明,我們的數(shù)據(jù)利用率不到0.4%,更多的數(shù)據(jù)仍然沉睡在各個角落、各個單位。
究其原因,一方面是由于共享機制與政策,另一方面,也是因為數(shù)據(jù)處理的方法仍有欠缺。
中國科學院高能物理所的許榕生教授說:“大數(shù)據(jù)不是萬金油,一吃就靈。大數(shù)據(jù)的魅力,是在海量的數(shù)據(jù)中篩選出自己想要的數(shù)據(jù)?!倍@中間,數(shù)據(jù)的分類處理非常重要。
上世紀八九十年代,北京正負電子對撞機在高能所建成,實驗室急需既懂高能物理又懂得電腦軟件和數(shù)據(jù)處理的人才,諾貝爾物理獎獲得者李政道向高能所推薦了加州大學的許榕生博士。
數(shù)據(jù)獲取和處理是利用北京正負電子對撞機進行高能物理實驗研究的關鍵環(huán)節(jié),許榕生回國后,最初就是幫助高能所的科學家,過濾、檢驗、分類處理從對撞機中產生的海量數(shù)據(jù),從而分析出物理實驗的各種結果。由此他獲得了1993 年物理學會的最高獎——胡剛復物理獎,其創(chuàng)建的“北京譜儀數(shù)據(jù)的離線處理技術”在當時的VAX計算機上設計了數(shù)據(jù)過濾、數(shù)據(jù)分類,以及數(shù)據(jù)刻度、數(shù)據(jù)重建的體系,建立了數(shù)據(jù)處理的秩序,從而推動對粒子物理基本理論輕子普適性問題的解決。
時隔二十年,近期的北京對撞機實驗每天約產生2T數(shù)據(jù),最新的歐洲核子研究中心CERN每秒就產生超過2P的數(shù)據(jù),大數(shù)據(jù)改變了科學范式,形成新的科學范式——數(shù)據(jù)密集型科學。
許教授認為,未來數(shù)據(jù)挖掘與分析大有可為。 “數(shù)據(jù)分析需要注意兩個問題,第一是數(shù)據(jù)準確,第二是軟件利索?!睌?shù)據(jù)準確需要進行數(shù)據(jù)過濾與校正,而軟件利索,則需要基礎軟件、半基礎軟件和針對性軟件?;A軟件需要統(tǒng)計學及數(shù)據(jù)可視化人才,半基礎軟件則是需要數(shù)據(jù)專家,也就是國際上正在興起的“數(shù)據(jù)科學家(CDS,Chief Data Scientist)”,針對性軟件則需要各專業(yè)的分析專家。
人才缺乏是各方面專家一致的看法,郭華東院士在不同場合呼吁,大數(shù)據(jù)與大科學研究需要一支特定的隊伍,包括學科帶頭人、技術專家以及后備青年科學家力量。
根據(jù)麥肯錫咨詢的預測,到2018年,僅美國本土大數(shù)據(jù)人才缺口就超過14萬名,同時,通過分析大數(shù)據(jù)并為企業(yè)做出有效決策的人才缺口將高達150萬名。
近年來,世界各國紛紛成立數(shù)據(jù)科學研究機構,各大學也成立相關學院培養(yǎng)人才。如美國紐約大學、英國鄧迪大學均從2013年起設立數(shù)據(jù)科學碩士學位,美國哥倫比亞大學將從2015年起設立博士學位。在國內,香港中文大學自2008年起就設立了“數(shù)據(jù)科學商業(yè)統(tǒng)計”科學碩士學位。2014年4月,清華大學聯(lián)合青島市成立了“清華-青島數(shù)據(jù)科學研究院”,宣布將推出多學科交叉培養(yǎng)的大數(shù)據(jù)碩士項目,并于9月招收第一批大數(shù)據(jù)碩士學位研究生;2014年6月,上海市啟動“數(shù)據(jù)科學和大數(shù)據(jù)人才培養(yǎng)計劃”,計劃在未來3年培養(yǎng)和引進千名高端數(shù)據(jù)人才。首批大數(shù)據(jù)工程碩士招生于6月開始報名,9月入學。西安交大、浙江大學、華東師大等高校也先后設立了數(shù)據(jù)科學研究中心。
許教授認為,“未來數(shù)據(jù)工廠和數(shù)據(jù)工人的出現(xiàn)將是一個趨勢。大數(shù)據(jù)需要不同層次的人才?!薄拔锢碓O施好辦,大數(shù)據(jù)存儲并不能改變什么,重要的是化大為小,各司專題,才能找到那粒紅色的雨滴?!?/p>