張清華,高 渝,申秋萍
(1.重慶郵電大學(xué)旅游多源數(shù)據(jù)感知與決策技術(shù)文化和旅游部重點(diǎn)實(shí)驗(yàn)室,重慶 400065;2.重慶郵電大學(xué)計(jì)算智能重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400065)
隨著互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)等技術(shù)的飛速發(fā)展,數(shù)字信息高速流動(dòng),人、機(jī)、物在任何時(shí)間和地點(diǎn)互聯(lián)互通[1],源源不斷的數(shù)據(jù)在萬(wàn)物互聯(lián)中產(chǎn)生匯聚,并以指數(shù)形式增長(zhǎng)。指數(shù)增長(zhǎng)的數(shù)據(jù)充斥著整個(gè)世界,逐漸成為重要的生產(chǎn)資料,“大數(shù)據(jù)”應(yīng)運(yùn)而生,并成為社會(huì)各界關(guān)注的焦點(diǎn)和討論的熱點(diǎn)。什么是大數(shù)據(jù)?《Science》在2011 年出版的專刊中將大數(shù)據(jù)定義為“無(wú)法使用傳統(tǒng)軟件和工具在有限時(shí)間內(nèi)進(jìn)行采集、管理和分析的數(shù)據(jù)集合”[2]。維基百科中對(duì)大數(shù)據(jù)的定義為“涉及的數(shù)據(jù)數(shù)量巨大到無(wú)法使用現(xiàn)有主流軟件和工具在有限且合理的時(shí)間內(nèi)對(duì)其進(jìn)行采集、管理和分析”。大數(shù)據(jù)研究機(jī)構(gòu)Gartner 對(duì)大數(shù)據(jù)的定義為“一種需要通過(guò)新的處理模式來(lái)處理的高增長(zhǎng)率和種類繁多的巨量信息資產(chǎn),從而優(yōu)化處理結(jié)果使其具有更強(qiáng)的決策能力、更高的洞察力”[3]。實(shí)際上,對(duì)于大數(shù)據(jù)目前并沒(méi)有一個(gè)統(tǒng)一的定義[4],而IBM 提出的關(guān)于大數(shù)據(jù)的“5V”特征(Volume、Variety、Velocity、Value 和Veracity)受到社會(huì)各界的廣泛認(rèn)可[5]。換而言之,滿足數(shù)據(jù)量巨大、數(shù)據(jù)種類繁多、獲取數(shù)據(jù)速度快、價(jià)值大密度較低并且能反映真實(shí)信息這5 個(gè)特征的數(shù)據(jù)均可稱其為大數(shù)據(jù)。隨著社會(huì)對(duì)大數(shù)據(jù)認(rèn)識(shí)的逐漸深入,與其相關(guān)的產(chǎn)業(yè)逐漸涌現(xiàn),各行業(yè)的數(shù)據(jù)規(guī)模逐漸龐大,數(shù)據(jù)甚至被譽(yù)為“未來(lái)的新石油”。發(fā)展至今,大數(shù)據(jù)研究已經(jīng)取得令人矚目的成績(jī),數(shù)據(jù)應(yīng)用到各行各業(yè),逐漸成為其核心資產(chǎn),而且數(shù)據(jù)的獲取、存儲(chǔ)和計(jì)算已不再是難題。然而,現(xiàn)實(shí)世界正逐步映射到數(shù)字世界,在數(shù)字世界中如何治理數(shù)據(jù),如何有效地解釋并利用數(shù)據(jù)以及如何推動(dòng)智能化世界的發(fā)展成了亟待解決的問(wèn)題,由此促生了一種區(qū)別于傳統(tǒng)科學(xué)研究的新研究領(lǐng)域——數(shù)據(jù)科學(xué)。
大數(shù)據(jù)的發(fā)展說(shuō)明了各個(gè)領(lǐng)域已經(jīng)廣泛數(shù)字化,推動(dòng)了數(shù)字世界的形成。在數(shù)字世界中,大數(shù)據(jù)是研究的內(nèi)容和基礎(chǔ),數(shù)據(jù)科學(xué)是研究大數(shù)據(jù)時(shí)新出現(xiàn)的理論和方法以及思維和模式。
大數(shù)據(jù)作為信息技術(shù)領(lǐng)域的重要課題之一,從提出到現(xiàn)在一直受到廣泛關(guān)注。1980 年,著名未來(lái)學(xué)家阿爾文·托夫勒在《第三次浪潮》一書中正式提出“大數(shù)據(jù)”一詞[6]。2008 年,國(guó)外著名雜志《Nature》推出“Big Data”???,開始探討數(shù)據(jù)量的飛速增長(zhǎng)給各領(lǐng)域帶來(lái)的影響[7]。2011 年,麥肯錫發(fā)布研究報(bào)告“Big Data:The Next Frontier for Innovation,Competition and Productivity”指出“大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)”[8]。2012 年,歐洲信息學(xué)與數(shù)學(xué)研究協(xié)會(huì)在出版的會(huì)刊《ERCIM News》“Big Data”專刊中討論了數(shù)據(jù)密集型研究的創(chuàng)新、數(shù)據(jù)管理的技術(shù)等問(wèn)題[9]。另外,各國(guó)政府相繼發(fā)布大數(shù)據(jù)相關(guān)的綱領(lǐng)性文件,例如美國(guó)政府啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃”,英國(guó)發(fā)布“英國(guó)數(shù)據(jù)能力發(fā)展戰(zhàn)略規(guī)劃”,日本發(fā)布“創(chuàng)建最尖端IT 國(guó)家宣言”,以及韓國(guó)提出“大數(shù)據(jù)中心戰(zhàn)略”等。
中國(guó)對(duì)于大數(shù)據(jù)的研究起步較晚,但是發(fā)展速度卻非??臁W?013 年起,中國(guó)的大數(shù)據(jù)研究開始蓬勃發(fā)展,當(dāng)年在國(guó)內(nèi)召開了以“數(shù)據(jù)科學(xué)與大數(shù)據(jù)的科學(xué)原理及發(fā)展前景”為主題的香山科學(xué)會(huì)議[10];國(guó)家統(tǒng)計(jì)局與阿里、百度等11 家企業(yè)聯(lián)手,共同簽署了戰(zhàn)略合作框架協(xié)議。習(xí)近平總書記指出:“浩瀚的數(shù)據(jù)海洋就如同工業(yè)社會(huì)的石油資源,蘊(yùn)含著巨大生產(chǎn)力和商機(jī)。誰(shuí)掌握了大數(shù)據(jù)技術(shù),誰(shuí)就掌握了發(fā)展的資源和主動(dòng)權(quán)”[11]。因此,2013 年也被稱為中國(guó)的大數(shù)據(jù)元年。2014 年,大數(shù)據(jù)首次寫入國(guó)家政府工作報(bào)告;2015 年,國(guó)務(wù)院發(fā)布“關(guān)于促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要”將發(fā)展大數(shù)據(jù)產(chǎn)業(yè)上升為國(guó)家戰(zhàn)略,指引國(guó)內(nèi)大數(shù)據(jù)發(fā)展的頂層設(shè)計(jì)和總體部署[12];2017 年,習(xí)近平總書記提出“實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略加快建設(shè)數(shù)字中國(guó)”[13];2018 年,在習(xí)近平總書記給中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)的賀信中明確提出,要“把握好大數(shù)據(jù)發(fā)展的重要機(jī)遇,促進(jìn)大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展,處理好數(shù)據(jù)安全、網(wǎng)絡(luò)空間治理等方面的挑戰(zhàn)”[14];2020 年,“中共中央關(guān)于制定國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和二〇三五年遠(yuǎn)景目標(biāo)的建議”中明確提出要“加快數(shù)字化發(fā)展”[15];2021 年,習(xí)近平總書記在向“可持續(xù)發(fā)展大數(shù)據(jù)國(guó)際研究中心成立大會(huì)暨2021 年可持續(xù)發(fā)展大數(shù)據(jù)國(guó)際論壇”致賀信中提到“世界正遭受新冠肺炎疫情巨大沖擊,科技創(chuàng)新和大數(shù)據(jù)應(yīng)用將有利于推動(dòng)國(guó)際社會(huì)克服困難”[16]。
由此可見,大數(shù)據(jù)已經(jīng)得到世界范圍內(nèi)的重視,其發(fā)展趨勢(shì)勢(shì)不可擋。隨著大數(shù)據(jù)的飛速發(fā)展,現(xiàn)實(shí)世界的物理空間和人類社會(huì)空間被映射到虛擬的數(shù)字空間,形成了除現(xiàn)實(shí)世界外的數(shù)字世界。傳統(tǒng)的數(shù)據(jù)處理思維和技術(shù)在新生的數(shù)字世界中已步履維艱,為了更好地挖掘和研究數(shù)字世界背后所蘊(yùn)藏的科學(xué)問(wèn)題,急需尋找治理數(shù)字世界的方法論和科學(xué)技術(shù)。因此,國(guó)內(nèi)外學(xué)者提出了一個(gè)新的研究領(lǐng)域——數(shù)據(jù)科學(xué)。
數(shù)據(jù)科學(xué)一詞最早出現(xiàn)在1974 年出版的著作《Concise Survey of Computer Methods》中,書中寫到“數(shù)據(jù)科學(xué)是一門基于數(shù)據(jù)處理的科學(xué)”[17],作者認(rèn)為數(shù)據(jù)處理后可以和其他領(lǐng)域建立起聯(lián)系,這種聯(lián)系將為該領(lǐng)域的科學(xué)提供參考與借鑒。然而,數(shù)據(jù)科學(xué)研究并沒(méi)有因此得到學(xué)術(shù)界的重視,經(jīng)歷了漫長(zhǎng)的沉默期。直到2001 年,國(guó)際雜志《International Statistical Review》上發(fā)表的“Data Science:An Ac?tion Plan for Expanding the Technical Areas of the Field of Statistics”一文中提出“數(shù)據(jù)科學(xué)是統(tǒng)計(jì)學(xué)的一個(gè)重要研究方向”,使得統(tǒng)計(jì)學(xué)領(lǐng)域開始關(guān)注數(shù)據(jù)科學(xué)的研究[18]。2013 年,Mattmann 在《Nature》上發(fā)表“Computing:A Vision for Data Science”,從日常研究存在的數(shù)據(jù)問(wèn)題出發(fā),討論了數(shù)據(jù)科學(xué)存在的必要性以及數(shù)據(jù)科學(xué)的內(nèi)涵,將數(shù)據(jù)科學(xué)引入計(jì)算機(jī)科學(xué)與技術(shù)領(lǐng)域,使得計(jì)算機(jī)科學(xué)與技術(shù)領(lǐng)域開始關(guān)注這一研究方向[19]。不過(guò),數(shù)據(jù)科學(xué)正式進(jìn)入大眾視野,受到社會(huì)各界的廣泛關(guān)注,主要是由于以下2 個(gè)標(biāo)志性事件的發(fā)生[20]:(1)2012 年,Davenport 和Patil 在《Harvard Business Review》上發(fā)表的“Data Scientist:The Sexiest Job of the 21st Century”指出“數(shù)據(jù)科學(xué)家是公司競(jìng)相招聘的對(duì)象”[21];(2)2015年,Patil 被聘請(qǐng)成為白宮首任數(shù)據(jù)科學(xué)家,這是美國(guó)白宮第一次設(shè)立數(shù)據(jù)科學(xué)家崗位。
數(shù)字化、網(wǎng)絡(luò)化、智能化是聯(lián)結(jié)物理世界、人類社會(huì)和數(shù)字世界所構(gòu)成的三元世界的載體[22]。其中,數(shù)字化正從計(jì)算機(jī)化向社會(huì)全面數(shù)據(jù)化發(fā)展,數(shù)據(jù)逐漸成為一類新的科學(xué)范式、一項(xiàng)新的高新技術(shù)以及一種新的決策方式,進(jìn)而衍生出研究數(shù)據(jù)的科學(xué),即數(shù)據(jù)科學(xué)。徐宗本院士基于研究對(duì)象、研究方法以及研究目標(biāo)3 個(gè)維度,在《數(shù)據(jù)科學(xué):它的內(nèi)容、方法、意義與發(fā)展》一書中將數(shù)據(jù)科學(xué)定義為“數(shù)據(jù)科學(xué)是有關(guān)數(shù)據(jù)價(jià)值鏈實(shí)現(xiàn)的基礎(chǔ)理論與方法學(xué),運(yùn)用建模、分析、計(jì)算和學(xué)習(xí)雜糅的方法研究從數(shù)據(jù)到信息、從信息到知識(shí)、從知識(shí)到?jīng)Q策的轉(zhuǎn)換,并實(shí)現(xiàn)對(duì)現(xiàn)實(shí)世界的認(rèn)知與操控”[23]。一門科學(xué)的內(nèi)涵應(yīng)該既包括方法論和本體論的內(nèi)容,還包括其學(xué)科發(fā)展的內(nèi)容。因此,接下來(lái)將從這3 個(gè)角度討論數(shù)據(jù)科學(xué)的內(nèi)涵。
從方法論的角度來(lái)講,數(shù)據(jù)科學(xué)是大數(shù)據(jù)時(shí)代促成的一種新的科學(xué)研究范式。從古至今,人類的科學(xué)研究經(jīng)歷了經(jīng)驗(yàn)科學(xué)、理論科學(xué)和計(jì)算科學(xué)3 種范式[24],圖靈獎(jiǎng)得主Jim Gray 認(rèn)為現(xiàn)在進(jìn)入了第四范式“數(shù)據(jù)科學(xué)”,即數(shù)據(jù)密集型科學(xué)研究[25]。在基于前3 種范式的科學(xué)研究中,人們解決問(wèn)題的方法基本可以總結(jié)為:通過(guò)反復(fù)地觀察自然或者做模擬實(shí)驗(yàn)得到一定量的實(shí)驗(yàn)數(shù)據(jù),再分析這些數(shù)據(jù)得到結(jié)論,稱之為定理或知識(shí);之后遇到問(wèn)題時(shí),便可以通過(guò)被前人驗(yàn)證過(guò)的知識(shí)來(lái)解決問(wèn)題。前3 種范式的不同之處在于所研究的知識(shí)難度的深入以及研究工具的進(jìn)步,而思維模式都是“從數(shù)據(jù)中獲取知識(shí),運(yùn)用知識(shí)解決問(wèn)題”。與前3 種科學(xué)范式所認(rèn)為的“知識(shí)就是力量”不同,第四范式認(rèn)為“數(shù)據(jù)也是一種力量”,其基本思想是數(shù)據(jù)驅(qū)動(dòng)科學(xué)發(fā)現(xiàn),即把數(shù)據(jù)看作現(xiàn)實(shí)世界在數(shù)字世界的映射,通過(guò)利用和分析數(shù)據(jù)可以揭示現(xiàn)實(shí)世界所蘊(yùn)含的科學(xué)規(guī)律。在數(shù)據(jù)范式思維模式下,減少對(duì)精確模型與假設(shè)的依賴,通過(guò)數(shù)據(jù)挖掘出來(lái)的知識(shí)可能是人類無(wú)法理解但是機(jī)器能理解并且客觀存在的知識(shí),使得過(guò)去不能解決的問(wèn)題得到解決[26]。
從本體論的角度來(lái)講,數(shù)據(jù)科學(xué)是“用科學(xué)的方法來(lái)研究數(shù)據(jù)”的一門新科學(xué)[27]。在數(shù)字世界中,除了可以反映現(xiàn)實(shí)世界中的科學(xué)規(guī)律,其本身是否也具有類似現(xiàn)實(shí)世界的一般性規(guī)律?既然現(xiàn)實(shí)世界客觀存在共性規(guī)律,如能量守恒定律、牛頓定律等,那么反映現(xiàn)實(shí)世界的數(shù)字世界也可能具備某些特有的一般性規(guī)律[28]。數(shù)據(jù)是現(xiàn)實(shí)世界在數(shù)字世界中的符號(hào)化表示,是數(shù)字世界的主要構(gòu)成元素。通過(guò)研究數(shù)據(jù)的歷史和進(jìn)化、形成和發(fā)展、類型和屬性,獲取其本身蘊(yùn)含的規(guī)律和價(jià)值,進(jìn)一步揭示數(shù)字世界的內(nèi)在機(jī)理,也是數(shù)據(jù)科學(xué)研究的更基本的問(wèn)題。
從學(xué)科地位的角度來(lái)講,數(shù)學(xué)科學(xué)是一門“理工交叉、文理交融”的學(xué)科[23]。其主體構(gòu)成為數(shù)學(xué)與統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)與人工智能學(xué)科以及各專業(yè)領(lǐng)域科學(xué),其中數(shù)學(xué)與統(tǒng)計(jì)學(xué)為數(shù)據(jù)科學(xué)提供了研究的理論基礎(chǔ),計(jì)算機(jī)科學(xué)與人工智能學(xué)科為數(shù)據(jù)科學(xué)提供了研究的工具和方法,各專業(yè)領(lǐng)域知識(shí)為數(shù)據(jù)科學(xué)提供了研究的經(jīng)驗(yàn)與實(shí)踐應(yīng)用場(chǎng)景[29]。換言之,數(shù)據(jù)科學(xué)是一套基于大數(shù)據(jù)時(shí)代出現(xiàn)的新理論、新技術(shù)、新方法、新模型、新工具和新應(yīng)用來(lái)研究新挑戰(zhàn)、新機(jī)會(huì)、新思維和新模式的知識(shí)體系[30]。數(shù)據(jù)科學(xué)生成的多源性、內(nèi)涵的交叉性以及知識(shí)的多學(xué)科性搭建起溝通不同學(xué)科的橋梁,構(gòu)建起自身學(xué)科體系。
總而言之,數(shù)據(jù)科學(xué)的出現(xiàn)不是一時(shí)興起,也不是曇花一現(xiàn),而是技術(shù)發(fā)展,尤其是計(jì)算技術(shù)、存儲(chǔ)技術(shù)和網(wǎng)絡(luò)技術(shù)發(fā)展的必然產(chǎn)物,也是技術(shù)變革的必然趨勢(shì)。一方面,隨著大數(shù)據(jù)產(chǎn)業(yè)的蓬勃發(fā)展,大量無(wú)法用傳統(tǒng)知識(shí)解釋的結(jié)果涌現(xiàn),需要從理論上對(duì)其進(jìn)行解釋、提煉和歸納。另一方面,在大數(shù)據(jù)時(shí)代出現(xiàn)的新理論、新技術(shù)、新方法、新模型以及新工具已經(jīng)走在了傳統(tǒng)信息科學(xué)的前面,實(shí)踐倒逼理論的發(fā)展完善,需要將其歸納整理成系統(tǒng)的科學(xué)理論。
大數(shù)據(jù)與數(shù)據(jù)科學(xué)休戚相關(guān),大數(shù)據(jù)是數(shù)據(jù)科學(xué)研究的基礎(chǔ)和對(duì)象,數(shù)據(jù)科學(xué)就像大數(shù)據(jù)的“靈魂”,看不見、摸不著,但卻是實(shí)現(xiàn)數(shù)據(jù)價(jià)值的關(guān)鍵?;诖髷?shù)據(jù)的理論、技術(shù)和應(yīng)用都取得了重要的突破,本節(jié)將介紹大數(shù)據(jù)和數(shù)據(jù)科學(xué)的研究現(xiàn)狀,以及數(shù)據(jù)與各行業(yè)的融合情況。
不同的領(lǐng)域具有的數(shù)據(jù)體量、數(shù)據(jù)類型以及產(chǎn)生數(shù)據(jù)的速度都不盡相同,因此對(duì)其數(shù)據(jù)具體的處理方法也有不同的選擇,但是歸根結(jié)底,對(duì)其數(shù)據(jù)的基本處理流程大同小異。孟小峰教授從數(shù)據(jù)抽取和集成到最終結(jié)果展示,歸納出了大數(shù)據(jù)的基本流程[31]。本文在此基礎(chǔ)上將其整理為數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析和數(shù)據(jù)解釋4 個(gè)步驟,如圖1 所示。
圖1 大數(shù)據(jù)一般處理流程Fig.1 General process flow of big data
(1)數(shù)據(jù)采集。數(shù)據(jù)采集又稱數(shù)據(jù)獲取,是大數(shù)據(jù)處理流程中最基礎(chǔ)的一步。一般指通過(guò)各類與互聯(lián)網(wǎng)結(jié)合的軟硬件產(chǎn)品獲得的各種結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的大規(guī)模數(shù)據(jù)。如在使用谷歌、百度等搜索引擎,或者微信、微博、QQ 等社交網(wǎng)絡(luò)時(shí),網(wǎng)絡(luò)人機(jī)交互過(guò)程中產(chǎn)生的半結(jié)構(gòu)化數(shù)據(jù);在互聯(lián)網(wǎng)的基礎(chǔ)上,利用射頻識(shí)別(Radio frequency identification,RFID)標(biāo)簽和讀寫器、各類傳感器、M2M 終端等邊緣硬件獲得的物聯(lián)網(wǎng)數(shù)據(jù)[32];來(lái)自于企業(yè)內(nèi)部ERP 系統(tǒng)的行業(yè)數(shù)據(jù);各種POS 終端、多媒體終端的數(shù)據(jù)等。
(2)數(shù)據(jù)預(yù)處理。數(shù)據(jù)采集的數(shù)據(jù)源大都是多源異構(gòu)的,采集得到的數(shù)據(jù)質(zhì)量通常比較差,大多存在著數(shù)據(jù)缺失、不一致、冗余或者有噪聲等問(wèn)題。如果直接對(duì)其進(jìn)行數(shù)據(jù)分析,會(huì)使得數(shù)據(jù)分析難度大,分析結(jié)果質(zhì)量低,結(jié)果往往不夠理想,達(dá)不到預(yù)期效果。因此,為了方便數(shù)據(jù)分析,提高分析數(shù)據(jù)的質(zhì)量,需要進(jìn)行數(shù)據(jù)預(yù)處理。如圖2 所示,數(shù)據(jù)清洗[33]、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約[34]是目前數(shù)據(jù)預(yù)處理較為常見的4 種方法。
圖2 數(shù)據(jù)預(yù)處理的形式Fig.2 Form of data preprocessing
①數(shù)據(jù)清洗,即清除數(shù)據(jù)集合中的不一致,平滑數(shù)據(jù)集合中的噪聲,改善數(shù)據(jù)集合中的不完整性等。簡(jiǎn)而言之就是去除數(shù)據(jù)中的噪聲和無(wú)關(guān)數(shù)據(jù),處理遺漏數(shù)據(jù)。
②數(shù)據(jù)集成,即將互相關(guān)聯(lián)的分布式異構(gòu)數(shù)據(jù)在邏輯上或者物理上集中在一起,為用戶提供更全面的數(shù)據(jù)。
③數(shù)據(jù)變換,即通過(guò)標(biāo)準(zhǔn)化、離散化等方法讓數(shù)據(jù)變得更一致,更適合分析。
④數(shù)據(jù)歸約,即降低數(shù)據(jù)維度或者減少數(shù)據(jù)量,簡(jiǎn)而言之就是縮小數(shù)據(jù)集規(guī)模。
(3)數(shù)據(jù)分析。大數(shù)據(jù)處理流程中最直接產(chǎn)生價(jià)值的部分就是數(shù)據(jù)分析,這一步也是處理流程中最核心的部分[35]。因?yàn)橥ㄟ^(guò)數(shù)據(jù)分析可以挖掘出數(shù)據(jù)中蘊(yùn)含的價(jià)值,揭示出隱藏的規(guī)律和結(jié)果,進(jìn)一步可以輔助人們進(jìn)行更為科學(xué)和智能化的決策[5]。經(jīng)過(guò)上一步數(shù)據(jù)預(yù)處理后的數(shù)據(jù),即為數(shù)據(jù)分析的原始數(shù)據(jù),再根據(jù)用戶對(duì)數(shù)據(jù)的應(yīng)用需求對(duì)其進(jìn)行進(jìn)一步的處理與分析。大數(shù)據(jù)分析的核心在于如何對(duì)數(shù)據(jù)進(jìn)行有效的表達(dá)、解釋和學(xué)習(xí)。傳統(tǒng)的數(shù)據(jù)分析方法比較依賴于數(shù)據(jù)的表達(dá),由于表達(dá)能力有限,獲得的學(xué)習(xí)效果不盡人意,如基于數(shù)學(xué)領(lǐng)域的統(tǒng)計(jì)分析。隨著人工技術(shù)的發(fā)展,其相關(guān)方法為大數(shù)據(jù)分析提供了更多的可選擇性,包括機(jī)器學(xué)習(xí)[36]、智能計(jì)算[37?38]以及知識(shí)與推理[39]等。這些方法并不都是獨(dú)立存在的,它們之間互相交叉應(yīng)用。
此外,云計(jì)算是目前在大數(shù)據(jù)分析領(lǐng)域應(yīng)用比較廣泛的方法,它也是大數(shù)據(jù)分析處理技術(shù)與應(yīng)用的核心原理和基礎(chǔ)平臺(tái)。實(shí)際上,云計(jì)算可以根據(jù)實(shí)際需求,通過(guò)網(wǎng)絡(luò)隨時(shí)隨地訪問(wèn)存儲(chǔ)、計(jì)算等云端資源,是一種大規(guī)模的分布式計(jì)算模型,基礎(chǔ)設(shè)施即服務(wù)(Infrastructure as a service,IaaS)、平臺(tái)即服務(wù)(Platform as a service,PaaS)和軟件即服務(wù)(Software as a Service,SaaS)三個(gè)層次組成其體系架構(gòu)[40]。早在2006 年,Google 和亞馬遜等公司就提出了云計(jì)算的構(gòu)想。另外,Intel 和IBM 等國(guó)外著名互聯(lián)網(wǎng)公司也都是云計(jì)算的忠實(shí)開發(fā)者和使用者。國(guó)內(nèi)各大互聯(lián)網(wǎng)公司近年也相繼推出各自的云計(jì)算平臺(tái),如阿里云、百度BAE 平臺(tái)、騰訊云、華為云等。目前,使用較為廣泛的云計(jì)算技術(shù)包括以批處理技術(shù)為核心的Hadoop,以高實(shí)時(shí)性的流處理技術(shù)為核心的Storm、Samza,同時(shí)擁有流批一體混合處理的Spark、Flink,以及以圖處理技術(shù)為核心的GraphX 等[41],其適用場(chǎng)景如表1 所示。
表1 云計(jì)算技術(shù)適用場(chǎng)景Table1 Applicable scenarios of cloud computing technology
(4)數(shù)據(jù)解釋。對(duì)于用戶來(lái)說(shuō),數(shù)據(jù)的分析處理過(guò)程往往不是他們最關(guān)心的,數(shù)據(jù)分析結(jié)果的解釋與展示才是他們可以直接獲取并使用的內(nèi)容。因此,數(shù)據(jù)解釋環(huán)節(jié)在數(shù)據(jù)處理流程中也是不可或缺的部分。如果不能充分且恰當(dāng)?shù)貙?duì)數(shù)據(jù)分析結(jié)果進(jìn)行解釋與展示,那么用戶可能會(huì)產(chǎn)生困擾,甚至被解釋得不合理的分析結(jié)果誤導(dǎo)。傳統(tǒng)的數(shù)據(jù)解釋方法大多是以文本的形式進(jìn)行展示,然而在面對(duì)海量數(shù)據(jù)時(shí),文本形式不能準(zhǔn)確直觀地解釋大數(shù)據(jù)分析結(jié)果之間的關(guān)系。因此,可視化技術(shù)被引入了大數(shù)據(jù)領(lǐng)域,數(shù)據(jù)可視化既是一種分析方法,也是一種解釋手段?,F(xiàn)代的數(shù)據(jù)可視化技術(shù)是指借助圖形化方法,將數(shù)據(jù)轉(zhuǎn)換為圖形圖像在屏幕上顯示出來(lái),使得數(shù)據(jù)分析結(jié)果更形象[42]。另外,讓人直接和機(jī)器對(duì)話進(jìn)行解釋的人機(jī)交互也是正在發(fā)展的一種數(shù)據(jù)解釋方法。
總體來(lái)說(shuō),采集來(lái)自不同數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),并將其預(yù)處理為統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)格式,然后再選擇合適的數(shù)據(jù)分析方法進(jìn)一步對(duì)其處理,并將分析結(jié)果利用可視化等技術(shù)解釋并展現(xiàn)給用戶,就是大數(shù)據(jù)處理的一般流程。
“用數(shù)據(jù)的方法研究科學(xué)”和“用科學(xué)的方法研究數(shù)據(jù)”是數(shù)據(jù)科學(xué)研究的兩個(gè)主要角度[43]。其中,用數(shù)據(jù)的方法研究科學(xué)主要在天體信息學(xué)、生物信息學(xué)等領(lǐng)域應(yīng)用,如著名的開普勒第三定律“行星繞太陽(yáng)運(yùn)行的周期的平方和行星離太陽(yáng)的平均距離的立方成正比”便是基于觀測(cè)到的數(shù)據(jù)歸納總結(jié)得到的,開普勒本人也并不理解其內(nèi)涵;用科學(xué)的方法研究數(shù)據(jù)主要在統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)[44]和數(shù)據(jù)挖掘[45]等領(lǐng)域應(yīng)用,主要研究的是處理數(shù)據(jù)的技術(shù)和探索數(shù)據(jù)本身存在的共性。數(shù)據(jù)科學(xué)的出現(xiàn)不僅有利于研究對(duì)于海量數(shù)據(jù)的處理利用,還有利于融合不同學(xué)科領(lǐng)域的數(shù)據(jù)研究,解決各領(lǐng)域中傳統(tǒng)知識(shí)無(wú)法解釋新興數(shù)據(jù)的矛盾。因此,近10 年數(shù)據(jù)科學(xué)吸引了大量學(xué)者對(duì)其進(jìn)行研究。
William 認(rèn)為數(shù)據(jù)科學(xué)擴(kuò)大了統(tǒng)計(jì)分析的技術(shù)領(lǐng)域,提出了數(shù)據(jù)科學(xué)的6 個(gè)技術(shù)工作領(lǐng)域,并主張為每個(gè)領(lǐng)域的研究分配專門的資源[46]。Grady 等提出大數(shù)據(jù)分析的過(guò)程模型,在數(shù)據(jù)分析和機(jī)器學(xué)習(xí)系統(tǒng)開發(fā)的生命周期中實(shí)現(xiàn)敏捷性,以最大限度地減少實(shí)現(xiàn)理想任務(wù)結(jié)果所需的時(shí)間,使從數(shù)據(jù)中產(chǎn)生價(jià)值和花費(fèi)時(shí)間之間達(dá)到最佳點(diǎn)[47]。Parmiggiani 等將數(shù)據(jù)科學(xué)和跨學(xué)科專業(yè)的石油天然氣領(lǐng)域相結(jié)合,不僅考慮如何分析數(shù)據(jù),同時(shí)考慮數(shù)據(jù)的全面性以及數(shù)據(jù)未來(lái)的潛在用途[48]。Lise 從整合算法和統(tǒng)計(jì)原理、社會(huì)科學(xué)理論和基本人文主義的角度,思考了如何理解數(shù)據(jù)科學(xué)中涉及的道德和社會(huì)問(wèn)題[49]。Juan 等對(duì)數(shù)據(jù)科學(xué)和人工智能在自然計(jì)算和人工計(jì)算之間的相互作用進(jìn)行了總結(jié),并分析和討論了其應(yīng)用趨勢(shì)[50]。Deepak 等設(shè)計(jì)和應(yīng)用數(shù)據(jù)科學(xué)相關(guān)技術(shù)進(jìn)行假新聞檢測(cè),以應(yīng)對(duì)假新聞的威脅[51]。
葉鷹和馬費(fèi)成研究了數(shù)據(jù)科學(xué)與信息科學(xué)的關(guān)聯(lián),揭示了兩者之間3 個(gè)“三位一體”的基本原理,即數(shù)據(jù)?信息?知識(shí)、計(jì)算技術(shù)?數(shù)學(xué)方法?專業(yè)知識(shí)、人?技術(shù)?數(shù)據(jù)[52]。王仁武基于Python 進(jìn)行數(shù)據(jù)科學(xué)相關(guān)實(shí)踐,從敏捷式角度對(duì)大數(shù)據(jù)進(jìn)行開發(fā)和應(yīng)用,并進(jìn)行可視化展示[53]。朝樂(lè)門系統(tǒng)地研究了數(shù)據(jù)科學(xué)的理論、技術(shù)、實(shí)踐以及人才培養(yǎng),從數(shù)據(jù)科學(xué)的科學(xué)內(nèi)涵、學(xué)科地位及知識(shí)體系出發(fā),分析了數(shù)據(jù)科學(xué)的研究特點(diǎn),探討了數(shù)據(jù)科學(xué)中的爭(zhēng)議和挑戰(zhàn),并提出數(shù)據(jù)科學(xué)的發(fā)展趨勢(shì)[54?56]。李揚(yáng)等從數(shù)據(jù)科學(xué)的起源、基礎(chǔ)技能、分析方法和應(yīng)用等方面展開討論,建立完整的知識(shí)體系和邏輯[57]。徐宗本等從數(shù)據(jù)科學(xué)的產(chǎn)生背景出發(fā),綜合性論述了其科學(xué)概念與內(nèi)涵、研究意義與方法、發(fā)展趨勢(shì)與規(guī)律、與其他學(xué)科的關(guān)聯(lián)與區(qū)別、核心問(wèn)題與研究方向以及人才培養(yǎng)方案等多方面內(nèi)容[23]。
發(fā)展至今,數(shù)據(jù)科學(xué)存在著亟待解決的重大科學(xué)技術(shù)問(wèn)題。在重大科學(xué)問(wèn)題方面,探索數(shù)據(jù)空間的結(jié)構(gòu)與特性、建立大數(shù)據(jù)統(tǒng)計(jì)學(xué)、革新存儲(chǔ)計(jì)算技術(shù)和夯實(shí)人工智能技術(shù)是值得關(guān)注與挑戰(zhàn)的4 大科學(xué)任務(wù);在核心技術(shù)方面,物聯(lián)網(wǎng)、大數(shù)據(jù)互操作、大數(shù)據(jù)安全、大數(shù)據(jù)存儲(chǔ)、分布式協(xié)同計(jì)算、新型數(shù)據(jù)庫(kù)、大數(shù)據(jù)基礎(chǔ)算法、數(shù)據(jù)智能、區(qū)塊鏈、大數(shù)據(jù)可視化與交互式分析是應(yīng)該重點(diǎn)突破的10 大技術(shù)方向[23]。
(1)探索數(shù)據(jù)空間的結(jié)構(gòu)與特性。數(shù)據(jù)是構(gòu)成數(shù)據(jù)空間的元素,數(shù)據(jù)空間本應(yīng)是數(shù)據(jù)科學(xué)最基本的研究對(duì)象,作為研究者理應(yīng)對(duì)數(shù)據(jù)空間的特征、結(jié)構(gòu)、特性等有所了解。然而,現(xiàn)今數(shù)據(jù)科學(xué)研究大都將其作為知識(shí)發(fā)現(xiàn)的工具,而并非把數(shù)據(jù)空間作為最主要的研究對(duì)象。為了進(jìn)一步探索數(shù)據(jù)空間的結(jié)構(gòu)與特性,從數(shù)據(jù)的角度來(lái)看,可研究數(shù)據(jù)的復(fù)雜性和不確定性,以及有關(guān)數(shù)據(jù)的度量、演化與利用;從數(shù)據(jù)空間的角度來(lái)看,可賦予數(shù)據(jù)空間某種數(shù)學(xué)結(jié)構(gòu),如代數(shù)結(jié)構(gòu)、拓?fù)浣Y(jié)構(gòu)等,使其成為數(shù)學(xué)上的空間,從而在數(shù)學(xué)意義下可以將其按照某些特定規(guī)律去運(yùn)算,或使用某些特定工具去分析[23,58]。
(2)建立大數(shù)據(jù)統(tǒng)計(jì)學(xué)。傳統(tǒng)統(tǒng)計(jì)學(xué)通常是“先問(wèn)題,后數(shù)據(jù)”的模式,即根據(jù)問(wèn)題需要,先通過(guò)抽樣調(diào)查獲取結(jié)構(gòu)化數(shù)據(jù),再對(duì)數(shù)據(jù)進(jìn)行建模與分析獲得結(jié)論,最后檢驗(yàn)結(jié)論。而在大數(shù)據(jù)時(shí)代,遠(yuǎn)遠(yuǎn)超出傳統(tǒng)記錄與存儲(chǔ)能力的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)推動(dòng)統(tǒng)計(jì)學(xué)向數(shù)據(jù)科學(xué)變革,衍生出“先數(shù)據(jù),后問(wèn)題”的新模式。大數(shù)據(jù)的出現(xiàn),給統(tǒng)計(jì)學(xué)帶來(lái)了挑戰(zhàn),建立適用于大數(shù)據(jù)分析與利用的統(tǒng)計(jì)學(xué)新理論和新方法,是數(shù)據(jù)科學(xué)目前迫切需要解決的問(wèn)題[23,58]。
(3)革新存儲(chǔ)計(jì)算技術(shù)。大數(shù)據(jù)時(shí)代下,數(shù)據(jù)不再是有限、固定、不可擴(kuò)充的,也不再存儲(chǔ)在某單獨(dú)的設(shè)備上,而是以“流”的方式實(shí)時(shí)給出,存儲(chǔ)在計(jì)算外設(shè)的磁盤、不同機(jī)器或邊緣端的分布式環(huán)境、甚至多處理器和共享RAM 的環(huán)境中。基于傳統(tǒng)計(jì)算理論的算法在大數(shù)據(jù)環(huán)境下失效,革新大數(shù)據(jù)存儲(chǔ)計(jì)算技術(shù),設(shè)計(jì)出具有低復(fù)雜性的大數(shù)據(jù)計(jì)算基礎(chǔ)算法是數(shù)據(jù)科學(xué)當(dāng)下面臨的核心挑戰(zhàn)[58]。
(4)夯實(shí)人工智能技術(shù)。作為新一代信息技術(shù)的代表,人工智能技術(shù)已經(jīng)成為數(shù)據(jù)科學(xué)研究的核心工具與方法之一。然而,人工智能技術(shù)本身也僅僅是突破了從“不可用”到“可用”的技術(shù)拐點(diǎn),然而從“可用”到“用得好”還存在著諸多技術(shù)瓶頸,需要夯實(shí)理論基礎(chǔ)研究,發(fā)展技術(shù)創(chuàng)新與變革,探索理論禁區(qū)和未知領(lǐng)域[58]。
綜上所述,關(guān)于數(shù)據(jù)科學(xué)的研究目前大都聚焦在其技術(shù)革新方向,而對(duì)于數(shù)據(jù)空間結(jié)構(gòu)與特性間的探索、數(shù)據(jù)本身共性和規(guī)律的研究均較少,是以后值得重點(diǎn)關(guān)注和研究的方向。
在大數(shù)據(jù)時(shí)代,幾乎所有的行業(yè)都能看到大數(shù)據(jù)的身影,整體呈現(xiàn)從熱點(diǎn)行業(yè)領(lǐng)域逐漸向傳統(tǒng)行業(yè)滲透的趨勢(shì)。大數(shù)據(jù)應(yīng)用是將大量的原始數(shù)據(jù)匯集在一起,通過(guò)分析數(shù)據(jù)中潛在的規(guī)律,預(yù)測(cè)事物的發(fā)展趨勢(shì),幫助企業(yè)做出正確的決策,從而提高各個(gè)行業(yè)的運(yùn)行效率,取得更大的收益。哪個(gè)行業(yè)能率先從大數(shù)據(jù)中發(fā)現(xiàn)其暗藏的寶藏,挖掘出“金礦”,哪個(gè)行業(yè)就能夠搶占先機(jī)成為領(lǐng)先者。目前,已經(jīng)與大數(shù)據(jù)開始融合的行業(yè)有很多,本節(jié)將主要列舉以下5 個(gè)大數(shù)據(jù)應(yīng)用較為廣泛的領(lǐng)域,如圖3 所示。
圖3 大數(shù)據(jù)應(yīng)用場(chǎng)景Fig.3 Application scenarios of big data
(1)金融領(lǐng)域。金融業(yè)作為數(shù)據(jù)最密集的行業(yè)之一,在大數(shù)據(jù)時(shí)代中已然占有一席之地。在傳統(tǒng)的銀行、保險(xiǎn)、證券行業(yè)中,可以通過(guò)獲取、分析更多維度、更深層次的數(shù)據(jù),讓原來(lái)不可擔(dān)保的信貸可以擔(dān)保,不可保險(xiǎn)的風(fēng)險(xiǎn)可以保險(xiǎn),不可預(yù)測(cè)的證券行情可以預(yù)測(cè)。另外,在信息時(shí)代特有的互聯(lián)網(wǎng)金融行業(yè)中,大數(shù)據(jù)打破了傳統(tǒng)金融數(shù)據(jù)的孤島形態(tài),使不同維度的數(shù)據(jù)相互融合,從傳統(tǒng)的靜態(tài)數(shù)據(jù)變成了可以相互融合的動(dòng)態(tài)數(shù)據(jù),數(shù)據(jù)之間的整合能力越來(lái)越強(qiáng),產(chǎn)生更深度的聯(lián)系[59]。
(2)商業(yè)領(lǐng)域。商業(yè)領(lǐng)域的數(shù)據(jù)體量巨大、集中度高、種類多,依托商業(yè)大數(shù)據(jù)分析,企業(yè)可以針對(duì)性地進(jìn)行產(chǎn)品設(shè)計(jì)、計(jì)劃生產(chǎn)、資源配置等,有利于精細(xì)化生產(chǎn),從而提高生產(chǎn)效率,優(yōu)化資源配置。另外,商業(yè)數(shù)據(jù)還可以記錄客戶的購(gòu)買習(xí)慣,預(yù)測(cè)客戶消費(fèi)習(xí)慣、消費(fèi)行為的相關(guān)性、消費(fèi)趨勢(shì)、流行趨勢(shì)等,從而將客戶可能會(huì)購(gòu)買的東西精準(zhǔn)推送給客戶,既賣出了產(chǎn)品,又提高了客戶體驗(yàn)。
(3)政務(wù)領(lǐng)域。隨著大數(shù)據(jù)的出現(xiàn),行政思維模式由傳統(tǒng)的經(jīng)驗(yàn)治理轉(zhuǎn)向科學(xué)治理。目前,大數(shù)據(jù)政務(wù)應(yīng)用已經(jīng)逐漸獲得世界各國(guó)政府的重視,中國(guó)政府也不例外。在《國(guó)務(wù)院關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要的通知》[12]中提到,“大數(shù)據(jù)成為提升政府治理能力的新途徑”,要“打造精準(zhǔn)治理、多方協(xié)作的社會(huì)治理新模式”?;谡?wù)大數(shù)據(jù),一方面可以幫助政府了解城市經(jīng)濟(jì)發(fā)展情況、各產(chǎn)業(yè)發(fā)展情況、居民消費(fèi)支出情況等,依據(jù)分析結(jié)果,可以提高政府宏觀調(diào)控的科學(xué)性、預(yù)見性和有效性;另一方面,可以實(shí)現(xiàn)政務(wù)服務(wù)一號(hào)認(rèn)證(身份認(rèn)證號(hào))、一窗申請(qǐng)(政務(wù)服務(wù)大廳)、一網(wǎng)辦事(聯(lián)網(wǎng)辦事),大大地簡(jiǎn)化了辦事手續(xù),提升民眾的幸福感[60]。
(4)醫(yī)療領(lǐng)域。隨著醫(yī)療行業(yè)和計(jì)算機(jī)技術(shù)結(jié)合越來(lái)越緊密以及醫(yī)療信息系統(tǒng)的不斷發(fā)展,大量的病歷報(bào)告、醫(yī)療方案、藥物信息被存儲(chǔ)在數(shù)據(jù)庫(kù)中,如果對(duì)這些數(shù)據(jù)進(jìn)行收集整理和分析,將會(huì)給醫(yī)生和患者帶來(lái)很大的幫助。對(duì)于醫(yī)生來(lái)說(shuō),依托醫(yī)療大數(shù)據(jù),可以積累和分析病例檔案、治療方案,建立疾病診斷模型,從而幫助醫(yī)生進(jìn)行疾病診斷,并向醫(yī)生推薦治療方案;對(duì)于患者來(lái)說(shuō),借助醫(yī)療大數(shù)據(jù),基于移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng),可以進(jìn)行疾病自查、遠(yuǎn)程醫(yī)療等,在家也能看病,讓醫(yī)療無(wú)處不在??傮w來(lái)說(shuō),醫(yī)療大數(shù)據(jù)的運(yùn)用從醫(yī)學(xué)研究、電子病歷管理、臨床決策、疾病診斷以及患者參與等多個(gè)方面推動(dòng)了醫(yī)療模式的轉(zhuǎn)變,充分尊重了患者的個(gè)體化特征與需求,協(xié)調(diào)并整合了不同專業(yè)的醫(yī)療服務(wù),保證了醫(yī)療服務(wù)的連續(xù)性和可及性,提高了醫(yī)療質(zhì)量[61]。此外,大數(shù)據(jù)在支撐流行病病毒溯源、診斷監(jiān)測(cè)和研判排查疫情的過(guò)程中也具有不可替代的作用,如COVID?19 流行病防疫中出現(xiàn)數(shù)字接觸追蹤技術(shù),即利用大數(shù)據(jù)對(duì)患者進(jìn)行追蹤,確定其活動(dòng)場(chǎng)所和密切接觸者等,以幫助防止疾病蔓延[62,63],以及尋求病毒傳播和社會(huì)經(jīng)濟(jì)活動(dòng)之間的平衡[64]。
(5)交通領(lǐng)域。交通數(shù)據(jù)資源豐富、類型繁多,且具有實(shí)時(shí)性的特征,基于交通大數(shù)據(jù),交通運(yùn)行管理完善與優(yōu)化、面向車輛和出行者的智能化服務(wù)、交通應(yīng)急和安全保障等方面都得到發(fā)展。通過(guò)整合分析航班、火車等公共交通工具的信息,從社會(huì)角度來(lái)看可以提高基礎(chǔ)設(shè)施的利用效率,降低其運(yùn)行成本,提高道路運(yùn)輸能力,減少交通事故的發(fā)生;從個(gè)人角度來(lái)看可以提供出行路徑規(guī)劃,實(shí)時(shí)交通情況,航班鐵路動(dòng)態(tài)信息服務(wù),使出行更便捷。
除了上述提到的5 個(gè)行業(yè)外,數(shù)據(jù)在其他行業(yè)的應(yīng)用也非常廣泛,如工業(yè)、農(nóng)業(yè)和物流業(yè)等領(lǐng)域。從宏觀的角度,大數(shù)據(jù)和各行業(yè)融合的思路可以大致歸結(jié)為[59]:(1)加強(qiáng)企業(yè)內(nèi)部的部門聯(lián)系,提高管理效率;(2)以人為本,從客戶的角度出發(fā)進(jìn)行個(gè)性化內(nèi)容和服務(wù)定制;(3)促進(jìn)行業(yè)創(chuàng)新,發(fā)掘新需求,進(jìn)行產(chǎn)品和服務(wù)的創(chuàng)新,從而降低成本,提高回報(bào)率。但是,大數(shù)據(jù)的應(yīng)用還存在著受制條件,如數(shù)據(jù)質(zhì)量、法律法規(guī)、社會(huì)倫理等,其實(shí)際效果也還需要時(shí)間的檢驗(yàn)。
數(shù)據(jù)科學(xué)是支撐大數(shù)據(jù)時(shí)代發(fā)展的基礎(chǔ)學(xué)科,要探索數(shù)據(jù)世界、治理數(shù)據(jù)世界,就必須要發(fā)展數(shù)據(jù)科學(xué)。每一個(gè)科學(xué)都需要探索,在探索過(guò)程中都需要做試驗(yàn)或者實(shí)驗(yàn),試驗(yàn)是探索,實(shí)驗(yàn)是驗(yàn)證。研究數(shù)據(jù)科學(xué),探索其內(nèi)在規(guī)律需要一個(gè)大數(shù)據(jù)基礎(chǔ)設(shè)施,統(tǒng)籌大數(shù)據(jù)處理的整個(gè)流程,讓大數(shù)據(jù)處理更便捷、更易操作、更貼近用戶,使得數(shù)據(jù)更具有生命力和價(jià)值。鄔江興院士提出的“大數(shù)據(jù)試驗(yàn)場(chǎng)”便是一個(gè)類似于基礎(chǔ)設(shè)施的概念。鄔江興院士認(rèn)為,計(jì)算技術(shù)、存儲(chǔ)技術(shù)、網(wǎng)絡(luò)通信技術(shù)的進(jìn)步速度,如何跟上數(shù)據(jù)增長(zhǎng)的速率是亟待解決的問(wèn)題[65]。正是因?yàn)楝F(xiàn)有技術(shù)不能解決問(wèn)題,故要發(fā)展新的技術(shù)、新的理論,這些理論和技術(shù)要通過(guò)試驗(yàn)來(lái)證明其可行性。因此,建立大數(shù)據(jù)試驗(yàn)場(chǎng)來(lái)研究數(shù)據(jù)科學(xué)的基本理論和方法勢(shì)在必行。
鄔江興院士表示,現(xiàn)階段中國(guó)大數(shù)據(jù)技術(shù)大部分是利用國(guó)外開發(fā)的開源軟件,而此次提出建設(shè)大數(shù)據(jù)科學(xué)基礎(chǔ)設(shè)施是中國(guó)原創(chuàng),是全球范圍內(nèi)首次提出[66]。大數(shù)據(jù)基礎(chǔ)設(shè)施[67]區(qū)別于傳統(tǒng)的交通、建筑和水利等硬件基礎(chǔ)設(shè)施,也區(qū)別于數(shù)據(jù)中心、網(wǎng)絡(luò)通訊等傳統(tǒng)信息和通信技術(shù)基礎(chǔ)設(shè)施,主要用于支撐大數(shù)據(jù)、區(qū)塊鏈、云計(jì)算和物聯(lián)網(wǎng)等新一代信息技術(shù)落地應(yīng)用的底層架構(gòu)和人才資源,包括“物本”和“人本”2 個(gè)層面。其中,“物本”整合了云計(jì)算、邊緣計(jì)算、安全多方計(jì)算和知識(shí)圖譜等前沿技術(shù);“人本”則是指具備數(shù)據(jù)思維與技能的人才以及相應(yīng)的教育標(biāo)準(zhǔn)和體系。大數(shù)據(jù)基礎(chǔ)設(shè)施的重要組成部分之一便是大數(shù)據(jù)試驗(yàn)場(chǎng),它以支撐科學(xué)研究、技術(shù)創(chuàng)新、產(chǎn)業(yè)創(chuàng)新和創(chuàng)新創(chuàng)業(yè)為目標(biāo),通過(guò)科學(xué)研究引導(dǎo)技術(shù)創(chuàng)新,從而提升產(chǎn)業(yè)發(fā)展質(zhì)量[65]。
大數(shù)據(jù)試驗(yàn)場(chǎng)是一種為了探索數(shù)據(jù)科學(xué)內(nèi)在規(guī)律,解決大數(shù)據(jù)技術(shù)問(wèn)題,設(shè)計(jì)出的面向數(shù)據(jù)科學(xué)的理論試驗(yàn)和技術(shù)研發(fā)驗(yàn)證環(huán)境。它擁有大規(guī)模數(shù)據(jù)存儲(chǔ)能力和海量數(shù)據(jù)管理分析能力,服務(wù)于大數(shù)據(jù)研究與開發(fā)、科技與產(chǎn)業(yè)創(chuàng)新以及數(shù)據(jù)科學(xué)人才培養(yǎng),并且面向全球開放運(yùn)行。為了更直觀地理解大數(shù)據(jù)試驗(yàn)場(chǎng),以礦場(chǎng)來(lái)類比大數(shù)據(jù)試驗(yàn)場(chǎng),如圖4 所示。海量的大數(shù)據(jù)就如同深不可測(cè)的礦場(chǎng),一開始只挖掘比較表面和淺層的資源,然而淺層礦總有枯竭的一天,繼續(xù)挖掘深層礦時(shí),便會(huì)遇到區(qū)別于淺層礦的科學(xué)問(wèn)題,因此也就需要專業(yè)人才學(xué)習(xí)并研究新的知識(shí),創(chuàng)造新的采礦手段、新的挖掘技術(shù)以及新的工藝工具。由此可知,大數(shù)據(jù)試驗(yàn)場(chǎng)解決的便是挖深層礦的理論問(wèn)題、工程技術(shù)問(wèn)題、裝備技術(shù)問(wèn)題和人才培養(yǎng)問(wèn)題。
圖4 大數(shù)據(jù)試驗(yàn)場(chǎng)的類比Fig.4 Analogy of big data proving ground
2016 年12 月2 日,以解決超大規(guī)模數(shù)據(jù)的科學(xué)與應(yīng)用、大數(shù)據(jù)的科技與產(chǎn)業(yè)創(chuàng)新、政策決策推演等問(wèn)題為出發(fā)點(diǎn),以針對(duì)新型計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)以及液冷技術(shù)進(jìn)行深入研究和市場(chǎng)化引導(dǎo)為目的,復(fù)旦大學(xué)和上海交通大學(xué)聯(lián)合牽頭,與29 家高等院校、研究所和企事業(yè)單位在上海共同成立了大數(shù)據(jù)試驗(yàn)場(chǎng)聯(lián)盟,并在復(fù)旦大學(xué)張江校區(qū)成立國(guó)家大數(shù)據(jù)試驗(yàn)場(chǎng)[68]。2019 年8 月2 日,廣東合一新材料研究院有限公司承擔(dān)的大數(shù)據(jù)試驗(yàn)場(chǎng)中心平臺(tái)之“液冷型大數(shù)據(jù)試驗(yàn)場(chǎng)”通過(guò)驗(yàn)收。液冷型大數(shù)據(jù)試驗(yàn)場(chǎng)針對(duì)大數(shù)據(jù)網(wǎng)絡(luò)與存儲(chǔ)需求,利用芯片級(jí)精準(zhǔn)噴淋液冷技術(shù)以解決散熱要求的難題,開發(fā)出集裝箱式模塊化數(shù)據(jù)中心以實(shí)現(xiàn)快速靈活部署,計(jì)算服務(wù)集群的功率密度和空間密度均得到提高,滿足了各項(xiàng)功能和性能指標(biāo)要求[69]。
2020 年,重慶郵電大學(xué)開始籌建大數(shù)據(jù)智能計(jì)算省部共建重點(diǎn)實(shí)驗(yàn)室,為此正在建設(shè)大數(shù)據(jù)試驗(yàn)場(chǎng)算力平臺(tái),其目的在于探索數(shù)據(jù)科學(xué)本身的內(nèi)涵和規(guī)律,引導(dǎo)產(chǎn)業(yè)的創(chuàng)新和行業(yè)的發(fā)展。在一些知名企業(yè)的指導(dǎo)下,構(gòu)建了千萬(wàn)元級(jí)的算力,長(zhǎng)期目標(biāo)是打造示范性算力基礎(chǔ)設(shè)施,構(gòu)建大數(shù)據(jù)試驗(yàn)場(chǎng)基礎(chǔ)設(shè)施,在高校中打造算力平臺(tái)的典范,為重慶市實(shí)施大數(shù)據(jù)智能化發(fā)展做出貢獻(xiàn)。
從電子計(jì)算機(jī)發(fā)明的那一天起,人類數(shù)字化生存的帷幕就已經(jīng)拉開,人類逐漸從現(xiàn)實(shí)世界走進(jìn)數(shù)字世界,在兩個(gè)世界維度自由穿梭、協(xié)同發(fā)展?;ヂ?lián)網(wǎng)的出現(xiàn)讓機(jī)器的互聯(lián)互通成為可能;移動(dòng)通信與互聯(lián)網(wǎng)的結(jié)合使得數(shù)據(jù)傳輸從固定終端轉(zhuǎn)移到移動(dòng)終端,讓信息共享變得更加及時(shí)高效;物聯(lián)網(wǎng)通過(guò)傳感器,使人與人之間、人與物之間、物與物之間構(gòu)建起萬(wàn)物互聯(lián)的數(shù)據(jù)世界,讓現(xiàn)實(shí)世界精確映射到數(shù)字世界成為可能。自此,除現(xiàn)實(shí)世界的物理空間和人類社會(huì)空間以外,第三空間被構(gòu)造出來(lái),即虛擬的數(shù)字空間。數(shù)字世界是現(xiàn)實(shí)世界的基本映射,其基本要素是數(shù)據(jù)。如圖5 所示,淘寶、京東等購(gòu)物軟件就類似于現(xiàn)實(shí)世界中的貿(mào)易市場(chǎng)和商場(chǎng),谷歌地圖、百度地圖等地圖軟件勾勒出現(xiàn)實(shí)世界的地表地貌及道路交通系統(tǒng),美團(tuán)、飛豬、攜程等生活軟件便映射出現(xiàn)實(shí)世界的吃住行,微信、微博等社交軟件也在一定程度上反映出人類社會(huì)的社交關(guān)系。由此證明,要探索數(shù)字世界、治理數(shù)字世界,就必須發(fā)展數(shù)據(jù)科學(xué)。
圖5 現(xiàn)實(shí)世界和數(shù)字世界Fig.5 Real world and digital world
由于科學(xué)研究的發(fā)展和外部環(huán)境的推動(dòng),科學(xué)研究范式本身也隨之發(fā)生變化[24]。幾千年前的第一范式“實(shí)驗(yàn)科學(xué)”,科學(xué)家主要通過(guò)反復(fù)觀察,描述和記錄自然現(xiàn)象,如鉆木取火等;進(jìn)入19 世紀(jì),科學(xué)家發(fā)現(xiàn)由于實(shí)驗(yàn)條件的限制,對(duì)自然現(xiàn)象無(wú)法精確理解,于是開始簡(jiǎn)化實(shí)驗(yàn)?zāi)P?,以理論研究為主,通過(guò)腦力思考和人力計(jì)算對(duì)現(xiàn)實(shí)中的一般規(guī)律進(jìn)行概括,如經(jīng)典力學(xué)中的牛頓定律、物理學(xué)中的相對(duì)論等,這一研究模式被稱為第二范式“理論科學(xué)”;隨著20 世紀(jì)中期計(jì)算機(jī)的出現(xiàn),科學(xué)家開始利用計(jì)算機(jī)解決復(fù)雜問(wèn)題中的大量計(jì)算問(wèn)題,以及模擬仿真自然界中的復(fù)雜現(xiàn)象,如模擬傷害范圍過(guò)高、傷害程度過(guò)大的核試驗(yàn)等,這一研究模式被稱為第三范式“計(jì)算科學(xué)”;21 世紀(jì),互聯(lián)網(wǎng)的蓬勃發(fā)展使得巨量數(shù)據(jù)源源不斷產(chǎn)生,科學(xué)家認(rèn)為數(shù)據(jù)世界就如同現(xiàn)實(shí)世界,本身應(yīng)該也蘊(yùn)藏著規(guī)律和價(jià)值,因此提出了區(qū)別于傳統(tǒng)科學(xué)研究的第四范式“數(shù)據(jù)科學(xué)”。科學(xué)研究的4 種范式總結(jié)概括如表2 所示。
表2 4 種科學(xué)研究范式Table 2 Four scientific research paradigms
需要注意的是,4 種范式并非是依次替代的關(guān)系,不是所有的問(wèn)題都適合以數(shù)據(jù)科學(xué)或者其他某一種范式的思維模式解決。經(jīng)驗(yàn)科學(xué)的理論來(lái)源是理論科學(xué),即在現(xiàn)有理論的基礎(chǔ)上進(jìn)行實(shí)驗(yàn);理論科學(xué)的實(shí)驗(yàn)過(guò)程是經(jīng)驗(yàn)科學(xué),即通過(guò)反復(fù)實(shí)驗(yàn)得到正確理論,兩者相輔相成、互相推進(jìn)。由于并非所有的問(wèn)題都可以通過(guò)人工實(shí)驗(yàn)的方式解決,計(jì)算科學(xué)便被提出,用來(lái)對(duì)經(jīng)驗(yàn)科學(xué)和理論科學(xué)進(jìn)行補(bǔ)充和優(yōu)化;而數(shù)據(jù)科學(xué)則用于處理經(jīng)驗(yàn)科學(xué)和計(jì)算科學(xué)中出現(xiàn)的大數(shù)據(jù)問(wèn)題,進(jìn)一步完善前3 種科學(xué)范式。
數(shù)據(jù)科學(xué)以數(shù)據(jù)為研究對(duì)象,其特征可概括為以下3 個(gè)方面:(1)不在意數(shù)據(jù)的雜亂,但看重?cái)?shù)據(jù)有足夠的量;(2)不要求數(shù)據(jù)精準(zhǔn),但強(qiáng)調(diào)面面俱到,不一定涵蓋所有的數(shù)據(jù),但各個(gè)方面都要有代表性數(shù)據(jù);(3)不刻意追求因果關(guān)系,但重視規(guī)律總結(jié),這意味著不局限于追求因果關(guān)系,更多在于追求關(guān)聯(lián)關(guān)系。因此,研究數(shù)據(jù)科學(xué),本文認(rèn)為可以從以下3 個(gè)問(wèn)題入手。
(1)數(shù)據(jù)聚合效應(yīng)。數(shù)據(jù)科學(xué)研究中的數(shù)據(jù)往往來(lái)自不同的領(lǐng)域,具有較大的差異性,將這些來(lái)源不同、類型不同的數(shù)據(jù)在一定準(zhǔn)則下自動(dòng)聚集、自動(dòng)融合、自主分析,可以挖掘更多有價(jià)值的信息,為質(zhì)變提供量變基礎(chǔ)。數(shù)據(jù)聚合有兩種效應(yīng):一種是數(shù)據(jù)疊加,即數(shù)據(jù)簡(jiǎn)單地疊加變成更大的數(shù)據(jù),從而挖掘出小數(shù)據(jù)中挖掘不到的知識(shí),類似于現(xiàn)實(shí)世界中的物理變化;另一種是數(shù)據(jù)融合,即數(shù)據(jù)按照一定的規(guī)律重新結(jié)合成新的數(shù)據(jù),數(shù)據(jù)的量不一定增加,但是所蘊(yùn)含的信息已經(jīng)不同于之前,類似于現(xiàn)實(shí)世界中的化學(xué)變化。然而,不管是數(shù)據(jù)疊加還是數(shù)據(jù)融合,都可以實(shí)現(xiàn)“1+1?2”的效果。
(2)數(shù)據(jù)成像原理。大數(shù)據(jù)之所以有用,是因?yàn)閿?shù)據(jù)累積到了一定數(shù)量,到大數(shù)據(jù)臨界點(diǎn)時(shí)可以發(fā)生質(zhì)變,通過(guò)數(shù)據(jù)挖掘其背后的規(guī)律,進(jìn)而還原“真相”,即還原數(shù)字世界中事物本身存在而人類可能無(wú)法事先知曉的客觀規(guī)律。大數(shù)據(jù)用戶畫像便是數(shù)據(jù)成像的一個(gè)例子。先收集各種類型數(shù)據(jù),包括網(wǎng)絡(luò)行為數(shù)據(jù)、用戶內(nèi)容偏好數(shù)據(jù)和交易數(shù)據(jù)等,當(dāng)數(shù)據(jù)足夠大、足夠有代表性、覆蓋夠全面時(shí),便可以對(duì)用戶的行為進(jìn)行建模,抽象出用戶的基本屬性、行為特征和興趣愛好等標(biāo)簽,使得用戶的形象越來(lái)越完整和立體,從而不斷地逼近現(xiàn)實(shí)中人的特征。
(3)數(shù)據(jù)態(tài)勢(shì)感知。大數(shù)據(jù)通過(guò)聚合分析,發(fā)掘其背后的規(guī)律,還原真相后,主要用于預(yù)測(cè)分析,即采用態(tài)勢(shì)感知、關(guān)聯(lián)分析等方法對(duì)數(shù)據(jù)進(jìn)行計(jì)算,挖掘數(shù)據(jù)之間的內(nèi)在關(guān)聯(lián),不僅能還原真相,更要預(yù)測(cè)未來(lái)??梢試L試通過(guò)關(guān)聯(lián)分析進(jìn)行行為分析與預(yù)測(cè),或者通過(guò)多粒度隨機(jī)抽樣進(jìn)行層次化統(tǒng)計(jì)預(yù)測(cè)。如果數(shù)據(jù)態(tài)勢(shì)感知問(wèn)題得到解決,并應(yīng)用到地震預(yù)警、流行病預(yù)估和慢性病預(yù)判上,將在推進(jìn)社會(huì)進(jìn)步方面取得重大突破。
在研究過(guò)程中,數(shù)據(jù)安全與隱私問(wèn)題不容忽視。在當(dāng)前數(shù)據(jù)即資源的形勢(shì)下,數(shù)據(jù)逐漸成為各國(guó)博弈的資本,其安全與隱私問(wèn)題值得高度重視,需要對(duì)數(shù)據(jù)的各方面采取有效的保護(hù)措施與手段,預(yù)防數(shù)據(jù)泄露、數(shù)據(jù)篡改等情況的發(fā)生。
大數(shù)據(jù)發(fā)展前期的主要任務(wù)是收集數(shù)據(jù),現(xiàn)在已逐漸向數(shù)據(jù)治理、數(shù)據(jù)驅(qū)動(dòng)的方向轉(zhuǎn)換,從而推動(dòng)著數(shù)“字”世界向數(shù)“智”世界的轉(zhuǎn)換。數(shù)字世界是現(xiàn)實(shí)世界的基本映射,這個(gè)映射空間目前還不是孿生,但是隨著數(shù)據(jù)科學(xué)的不斷發(fā)展,現(xiàn)實(shí)世界被越來(lái)越精確地映射到數(shù)字世界中,數(shù)字世界成為現(xiàn)實(shí)世界的孿生鏡像將成為必然。從數(shù)字世界,到用數(shù)據(jù)治理世界(數(shù)治世界),從而實(shí)現(xiàn)數(shù)字時(shí)代的智能世界(數(shù)智世界),便是從“字”到“治”,最終實(shí)現(xiàn)“智”的過(guò)程,三者關(guān)系如圖6 所示。本文從思維和觀念兩個(gè)角度來(lái)進(jìn)行轉(zhuǎn)變。
圖6 從數(shù)字世界到數(shù)智世界Fig.6 From digital world to intelligent world
4.2.1 轉(zhuǎn)換研究思維
數(shù)據(jù)科學(xué)的研究主題大致分為核心問(wèn)題和周邊問(wèn)題[21]。其中,核心問(wèn)題指的是數(shù)據(jù)科學(xué)的基礎(chǔ)理論,即數(shù)據(jù)科學(xué)自身具有的理論、方法、模型和技術(shù)等;周邊問(wèn)題指的是與數(shù)據(jù)科學(xué)相關(guān)的其他現(xiàn)有科學(xué)研究,如統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、云計(jì)算、物聯(lián)網(wǎng)和大數(shù)據(jù)應(yīng)用等?,F(xiàn)有文獻(xiàn)表明,目前數(shù)據(jù)科學(xué)的研究主要以周邊問(wèn)題為熱點(diǎn),對(duì)于核心問(wèn)題的研究相對(duì)較少,因此可以更多關(guān)注數(shù)據(jù)科學(xué)的基礎(chǔ)理論研究。與研究數(shù)據(jù)科學(xué)的周邊問(wèn)題相比,研究數(shù)據(jù)科學(xué)的核心問(wèn)題應(yīng)當(dāng)具有以下3 種思維。
(1)跳轉(zhuǎn)思維。未來(lái)構(gòu)建從物理世界到數(shù)字世界的雙射是必然趨勢(shì),現(xiàn)實(shí)世界與數(shù)字世界是雙向互通、自由跳轉(zhuǎn)的,可以通過(guò)映射現(xiàn)實(shí)世界來(lái)構(gòu)建數(shù)字世界,分析數(shù)字世界來(lái)治理現(xiàn)實(shí)世界。因此,具有從宏觀到微觀自由切換的跳轉(zhuǎn)思維有助于研究數(shù)據(jù)科學(xué)的基礎(chǔ)理論。
(2)熵減思維。熵是衡量事物混亂程度的一個(gè)指標(biāo),在具有爆發(fā)式的數(shù)據(jù)增長(zhǎng),以及數(shù)據(jù)異構(gòu)、多源等問(wèn)題的大數(shù)據(jù)時(shí)代下,熵增也越來(lái)越快?;谪?fù)熵理論和熵增理論,在數(shù)據(jù)治理的過(guò)程中找到數(shù)據(jù)背后隱含的規(guī)則,使數(shù)據(jù)達(dá)到從無(wú)序到有序的辯證統(tǒng)一,從而實(shí)現(xiàn)熵減,是一個(gè)值得借鑒的思維模式。
(3)算法思維。在數(shù)字世界中,軟件可定義一切,一切皆可計(jì)算,如何基于更多的數(shù)據(jù)設(shè)計(jì)出簡(jiǎn)單高效的算法將成為重要挑戰(zhàn),數(shù)據(jù)工程師將成為時(shí)代的新寵。因此,抽象現(xiàn)實(shí)問(wèn)題并對(duì)其進(jìn)行編碼或設(shè)計(jì)程序解決的算法思維也是不可或缺的。
4.2.2 轉(zhuǎn)變傳統(tǒng)觀念
在進(jìn)行科學(xué)研究工作時(shí),大多容易陷入改進(jìn)現(xiàn)有理論和方法的局限里,缺乏重新審視現(xiàn)有方法和結(jié)論的勇氣。然而在面對(duì)數(shù)字世界這個(gè)新興的事物時(shí),要跳出傳統(tǒng)的研究觀念,充分發(fā)揮創(chuàng)新思維,敢于懷疑,敢于想象,敢于探索。
(1)敢于懷疑。對(duì)于科學(xué)而言,證偽和證實(shí)同樣重要,正是由于科學(xué)在不斷地懷疑自己,才有今天這樣的發(fā)展,如果盲目相信已有的科學(xué)成果,那么科學(xué)的發(fā)展將會(huì)停滯不前。如年輕的伽利略敢于懷疑著名思想家亞里士多德提出的“物體從高處墜落,重的下落快,輕的下落慢”,并登上比薩斜塔在眾目睽睽之下進(jìn)行實(shí)驗(yàn),用事實(shí)推翻了亞里士多德的觀點(diǎn),揭開了自由落體運(yùn)動(dòng)研究的序幕。對(duì)于現(xiàn)有基于傳統(tǒng)的“數(shù)據(jù)→知識(shí)→問(wèn)題”的思維模式而得到的理論,要敢于懷疑其在大數(shù)據(jù)中的可行性,從數(shù)據(jù)科學(xué)“數(shù)據(jù)→問(wèn)題”的角度對(duì)現(xiàn)有理論進(jìn)行分析和驗(yàn)證,換個(gè)角度可能會(huì)得到意想不到的結(jié)果,如圖7 所示。
圖7 解決問(wèn)題的不同思維方式Fig.7 Different ways of thinking to solve problems
(2)敢于想象?,F(xiàn)有的科學(xué)和知識(shí)是有限的,而想象力是無(wú)限的,只有敢于想象,才能推動(dòng)科學(xué)的進(jìn)步,知識(shí)的發(fā)展。敢想才能實(shí)現(xiàn),正是因?yàn)閾碛邢胂罅?,各個(gè)時(shí)代才會(huì)出現(xiàn)前所未有的新事物,如電氣時(shí)代的發(fā)電機(jī)、電話、飛機(jī),信息時(shí)代的電子計(jì)算機(jī)、原子彈、人造衛(wèi)星等。生活在大數(shù)據(jù)時(shí)代的我們,應(yīng)當(dāng)抓住數(shù)字世界研究的機(jī)遇期,充分發(fā)揮想象力,相信數(shù)字世界存在更多的類似摩爾定律的一般性規(guī)律,并通過(guò)研究論證其真實(shí)性。
(3)敢于探索。人類發(fā)展至今,對(duì)科學(xué)的探索從未停下,如牛頓被蘋果砸中,探索出萬(wàn)有引力;愛迪生探索做燈絲的材料,發(fā)明出電燈;居里夫人反復(fù)探索3 年多,發(fā)現(xiàn)放射性元素鐳等?,F(xiàn)今,對(duì)于數(shù)字世界的研究才剛剛開始,還有很多問(wèn)題值得去探索,如果一味地做補(bǔ)丁式研究,則很難做出開拓性創(chuàng)新。在數(shù)字世界的探索中,不能僅僅“站在巨人的肩膀上”對(duì)現(xiàn)有方法進(jìn)行改進(jìn),更應(yīng)該勇于創(chuàng)新,發(fā)揮主觀能動(dòng)性,實(shí)現(xiàn)更多從0 到1 的原始創(chuàng)新。
總之,對(duì)于正在形成的數(shù)字世界,其研究才剛剛開始,處處都需要去挖掘和探索。面對(duì)浩瀚的數(shù)字世界,要抓住大數(shù)據(jù)帶來(lái)的機(jī)遇,靈活運(yùn)用數(shù)據(jù)“治”理數(shù)“字”世界,發(fā)展數(shù)“智”世界,推進(jìn)世界智能化進(jìn)程。
大數(shù)據(jù)作為一項(xiàng)潛在價(jià)值巨大的資產(chǎn),自從其問(wèn)世以來(lái),其相關(guān)技術(shù)及應(yīng)用研究一直是科學(xué)界的關(guān)注重點(diǎn)和研究熱點(diǎn)。與大數(shù)據(jù)類似,數(shù)據(jù)科學(xué)的周邊問(wèn)題也是科學(xué)界的重點(diǎn)研究方向,而數(shù)據(jù)科學(xué)的核心問(wèn)題作為研究難點(diǎn)則一直沒(méi)有取得較大突破。本文從大數(shù)據(jù)談到數(shù)據(jù)科學(xué),將數(shù)據(jù)科學(xué)目前的相關(guān)問(wèn)題進(jìn)行歸納總結(jié),并提出建立從數(shù)“字”世界(世界數(shù)字化),到數(shù)“治”世界(數(shù)據(jù)治理、數(shù)據(jù)挖掘時(shí)代),再到數(shù)“智”世界(智能化世界)的研究思維模式,以期促進(jìn)大數(shù)據(jù)和數(shù)據(jù)科學(xué)相關(guān)研究的發(fā)展,加快各行業(yè)中信息公開、權(quán)威科學(xué)的公共數(shù)據(jù)庫(kù)的建設(shè)進(jìn)程。