李 琳
(同濟大學 人文學院,上海 200092)
伴隨科學技術的更迭和互聯(lián)網的極速創(chuàng)新,數(shù)字化進入了人們的日常生活中,全方位地重塑了人們的認知方式與經驗表達。其代表成果之一的大數(shù)據(jù)也逐漸進入到科學技術和社會管理的研究范疇中,用大數(shù)據(jù)來表征世界已經成為當下認識社會和研究人類行為的一種重要方式,在政治、經濟、教育、文化、科技等領域接連掀起了研究熱潮。從哲學方法論來看,大數(shù)據(jù)與歸納實證主義聯(lián)系緊密,既有沿襲之式又有超越之處,本文通過詳細解讀大數(shù)據(jù)與歸納實證主義方法論之異同,將對大數(shù)據(jù)能否成為嶄新的知識生產方式運用至科學研究與學術研究中進行考察。
由于大數(shù)據(jù)所具有的超前性與混沌性,直到現(xiàn)在為止,學界仍未對其形成統(tǒng)一的概念與認知。目前來看,主要以本體論的界定方式為主。麥肯錫(McKinsey & Company)指出,大數(shù)據(jù)是指大小超出了傳統(tǒng)數(shù)據(jù)庫軟件工具抓取、存儲、管理和分析能力,超過任何一臺計算機處理能力的數(shù)據(jù)群或數(shù)據(jù)集[1]。在一定的條件下通過計算機技術和統(tǒng)計方法,有目的地進行設計、獲取、管理和分析,揭示隱藏在大數(shù)據(jù)中的模式和知識[2]。高德納(Gartner Group)認為,大數(shù)據(jù)是一種高增長率和多樣化的信息資產,借由新的處理模式而體現(xiàn)出更強的決策力、洞察力和發(fā)現(xiàn)力[3]。有學者認為,大數(shù)據(jù)作為處在科學形態(tài)由簡單性科學向復雜性科學轉型演化的過程中的新興概念,還算不上一個嚴格意義上的科學概念[4]?!洞髷?shù)據(jù)時代》一書作者維克托也認為大數(shù)據(jù)并非一個確切的概念[5]。托尼·海伊(Tony Hey)傾向于將大數(shù)據(jù)作為一個整體來看待,認為大數(shù)據(jù)是一種新的范式[6]。不少學者同意此觀點,并將大數(shù)據(jù)詮釋為采用所有數(shù)據(jù)以分析問題和解決問題的方法[7]。吉姆·格雷(Jim Gray)則更進一步提出,以大數(shù)據(jù)為主的數(shù)據(jù)密集型科學發(fā)現(xiàn)是科學研究第四范式,可作為知識發(fā)現(xiàn)的新通道和新范式[6]。
綜上所述,對大數(shù)據(jù)的界定傾向于一個相對概念。無論是從統(tǒng)計學與計算機學角度將其認定為一種數(shù)據(jù)集,或從經濟角度將其定位為一種信息資產或財富資源,或定義為一種新的方法論,或定義為一種新的知識生產方式,各種定義都有其領域的背景特征和研究面向,這彰顯了大數(shù)據(jù)本身的跨領域性與科學通約性。
普遍而言,大數(shù)據(jù)具有以下三方面特征。其一技術特征,大數(shù)據(jù)技術具有量大性和高速性。在大數(shù)據(jù)中,高達太字節(jié)的海量數(shù)據(jù)可以快速被存儲與處理,并借由互聯(lián)網的傳播,在瞬時實現(xiàn)信息的傳遞與共享,突破小數(shù)據(jù)時代無法企及的技術瓶頸。其二內容特征,大數(shù)據(jù)內容具有多樣性和價值性。豐富多樣、種類繁多的大數(shù)據(jù)信息幾乎涉及人們生活的各個方面,社會生活的數(shù)字化已改變人們日常創(chuàng)造和存儲信息的方式,生產活動與消費活動等極具價值的信息都隱藏在了大數(shù)據(jù)中,一旦經過有效提取,從未展現(xiàn)于人們面前的巨大數(shù)據(jù)價值將凸顯出來。其三方法特征,大數(shù)據(jù)的實踐方法已與傳統(tǒng)數(shù)據(jù)方法大不相同。一方面,大數(shù)據(jù)采用全體性抽樣。相比于樣本抽樣的歸納方法,大數(shù)據(jù)得以立足于宏觀、大量、整體的信息分析,將全面地考察問題的本質、特征、屬性、規(guī)律和聯(lián)系[8]。另一方面,大數(shù)據(jù)注重相關性。整體性抽樣將更有利于顯著地展露出海量數(shù)據(jù)中元素的未知相關性,能提供更為精確的模式定位、數(shù)據(jù)模型與分析預測。此外,大數(shù)據(jù)比之傳統(tǒng)時代小數(shù)據(jù)采集方式,來源更具客觀性。在樣本采集過程中,人們常因各種緣由而有意隱藏或改變自己的行為,而大數(shù)據(jù)從整體渠道采集具有相對客觀性,可全面、完整、客觀地刻畫研究對象。
當下,大數(shù)據(jù)已全面進入人們的日常生活,引入各個業(yè)務職能領域,成為社會重要的生產因素。但對于大數(shù)據(jù)相關的理論研究卻相對滯后,無法跟上現(xiàn)有實踐應用,對大數(shù)據(jù)方法的深入研究迫在眉睫。
歸納實證主義始于17世紀至18世紀的工業(yè)革命時期,主要通過觀察、分析與總結的方式在自然科學領域獲取知識并得出結論。歸納主義的思想源起可追溯到17世紀的弗朗西斯·培根,他認為在經驗的基礎上可以得出具有普遍性的結論或公理。以下通過歸納實證主義方法論和大數(shù)據(jù)的并置研究,來進一步探索大數(shù)據(jù)的研究方法。
在基本方法上,歸納實證主義運用歸納方法論,采用實驗、觀察、歸納的推理方法,從特殊個例到一般定律,認為普遍性結論與公理可以從歸納實證中產生。相比之下,大數(shù)據(jù)同樣采取分析、觀察、歸納的推理方法,運用算法推理從樣本數(shù)據(jù)去推斷總體情況,從已知推出未知,認為未來發(fā)展趨勢可從數(shù)據(jù)算法中推導出來。
在基本原則上,大數(shù)據(jù)作為信息處理的新方式,與歸納實證主義方法論在諸多方面也有所承接。首先,運用大數(shù)據(jù)可推導出觀察命題,并具有被觀察命題所確證或否證的可能性。其次,在積累性原則上,大數(shù)據(jù)采用大量數(shù)據(jù)佐證,將使普遍性結論與預測更為顯著,獨立數(shù)據(jù)越多,結論可以累加式增長。再次,在歸納原則上,大數(shù)據(jù)能夠從特殊數(shù)據(jù)與結論推導出定理。最后,在合理性上,構成歸納基礎的大數(shù)據(jù)具有龐大的數(shù)據(jù)量,可以多次試驗以驗證在不同條件下均可成立,且不與其他推導出的定律相沖突。
在基本步驟上,傳統(tǒng)歸納實證主義中主要包含觀察—分類—歸納—結論四個主要步驟,而在大數(shù)據(jù)的一般步驟中,在包含了傳統(tǒng)方法論的四個步驟外,加入收集與預測的步驟,并將研究步驟進行了整合和簡化。在大數(shù)據(jù)中,一般具有觀察—收集—分類—歸納—結論—預測六個步驟,而收集、分類、歸納、結論四個步驟即可被收歸于大數(shù)據(jù)的具體算法分析過程中,即研究步驟可簡化為,觀察—大數(shù)據(jù)—預測三個階段性步驟,即是對應放入大數(shù)據(jù)之前—放入大數(shù)據(jù)之中—放入大數(shù)據(jù)之后的三個過程節(jié)點,其中大數(shù)據(jù)算法推理即可視為黑盒子不透明式推理,意指大數(shù)據(jù)中的算法推理過程在計算機之中,除去算法工程師之外,他者一般不可見且無法理解。區(qū)別于傳統(tǒng)經驗主義,大數(shù)據(jù)因遠超人類能力且以二進制方式運作,使得其在本質上有別于傳統(tǒng)的數(shù)學證明和科學推導,保羅·漢弗萊斯(Paul William Humphreys)認為這必將導致認識論的不透明性,但他認為應不以人類為中心的認識論作為固有基礎,為大數(shù)據(jù)采用了不透明的認識論立場進行了哲學辯護[9]。以上可知,大數(shù)據(jù)在基本方法、基本原則、基本步驟中包含了傳統(tǒng)歸納實證主義方法論的全部意涵,并在此基礎上有所簡化。
大數(shù)據(jù)是針對整體性和復雜性的研究。傳統(tǒng)的歸納實證方法在面對復雜問題時,多依據(jù)還原論將其分解為諸多簡單問題來逐一完成[10]。但事實上,在放大簡單問題和縮小復雜問題時通??赡艹霈F(xiàn)相應的領域、條件、過程等各項因素的改變,而簡單問題和復雜問題間的鏈式關系本不可控,這都在一定程度上造成了傳統(tǒng)經驗歸納方法的失效。相對之下,大數(shù)據(jù)歸納直面復雜性,將復雜現(xiàn)象作為整體進行研究。通過制定線性或非線性的規(guī)則和對應關系,挖掘數(shù)據(jù)間關系,使其生成并演化出復雜的數(shù)據(jù)圖景,并以此建立模型開啟預測,可見大數(shù)據(jù)在整體性與復雜性的研究中有所建樹。
大數(shù)據(jù)的全體取樣強化了正確概率,著重于對相關性規(guī)律的發(fā)現(xiàn)。傳統(tǒng)歸納實證方法有重因果關系輕相關關系的研究特征,大數(shù)據(jù)則恰恰相反,以相關關系而非因果關系為主進行研究。此外,在傳統(tǒng)歸納實證方法上,當有利的可佐證的數(shù)據(jù)越多,該結論為真的可信度越高。大數(shù)據(jù)采用全體性抽樣歸納,大量數(shù)據(jù)對結論和定律支持程度與概率大大提升,支持大數(shù)據(jù)成為一種有效的歸納推理,在恰當?shù)姆秶鷥缺WC從樣本到總體的推理可靠性。當數(shù)據(jù)量增大到一定規(guī)模后發(fā)生質變,大數(shù)據(jù)可以使得完全不明顯或是隱藏的相關性、趨勢和規(guī)律彰顯出來。
大數(shù)據(jù)簡化了一般研究步驟,能與云計算、深度學習、人工智能等新技術相得益彰。大數(shù)據(jù)能夠廣泛參與到數(shù)據(jù)收集及數(shù)據(jù)挖掘中,大大簡化了一般研究步驟。面對生成和積累的海量數(shù)據(jù),人們不必像以前一樣通過儀器和手工來觀察或計算,而可以通過各種監(jiān)測技術傳遞數(shù)據(jù)到數(shù)據(jù)中心,通過算法計算直接得到數(shù)據(jù)間的特征與關系。故研究者可以在一般研究流程中靠后的步驟,在得到數(shù)據(jù)相關結論與圖景后才開始進行深入研究,且大數(shù)據(jù)與云計算、深度學習、人工智能等技術一脈相承,本身即具有完美的適配性,可以一同被納入到科學研究中。
盡管大數(shù)據(jù)較傳統(tǒng)歸納實證方法已有優(yōu)化,但大數(shù)據(jù)仍然面臨著理論困境,其中既有歸納主義的舊有局限,又有大數(shù)據(jù)自身特征帶來的全新質疑。
1.大數(shù)據(jù)仍無法突破的歸納主義方法論的舊有局限
其一,歸納推理不為真。就方法論而言,大數(shù)據(jù)仍是對大量數(shù)據(jù)進行集合歸類后通過歸納分類的方式建構起來,最后依據(jù)樣本推導出結論,其仍然沿襲傳統(tǒng)歸納主義實證的方法,故大數(shù)據(jù)也自然具有歸納邏輯的舊有問題,即歸納邏輯非演繹邏輯,不具有必然性和保真性,其結果不一定為真。事實上在大數(shù)據(jù)的應用中也經常出現(xiàn)此類錯誤,如谷歌在2008年發(fā)明了Google Flu Trends,本意為通過網絡大數(shù)據(jù)實時對全球當前的流感疫情進行估測,但在2013年2月《自然》雜志的發(fā)文中指出GFT流感預測失敗,其預測結果超過了實際監(jiān)測報告的兩倍。
其二,全體性抽樣“N=所有”并非是現(xiàn)實指向,而是理論假設。盡管大數(shù)據(jù)標榜采用全體性抽樣,但從客觀來看,即使是最先進的技術,也不可能獲得關于事物的所有值,大數(shù)據(jù)并非全數(shù)據(jù)。
2.對于大數(shù)據(jù)自身問題的質疑
其一,大數(shù)據(jù)的“白噪聲”問題。大數(shù)據(jù)分析的重要步驟是將數(shù)據(jù)放入算法進行計算,但在計算之前,通常要經歷“清洗”的步驟,讓數(shù)據(jù)符合算法以供使用。大部分數(shù)據(jù)要經歷一次清洗,而更多數(shù)據(jù)可能要經歷二次三次甚至更多次的清洗,而與傳統(tǒng)歸納實證方法中的人為清洗不同的是,這種數(shù)據(jù)清洗是大數(shù)據(jù)黑盒子算法的一部分,是不可控制的算法模式,故在清洗中,部分數(shù)據(jù)被算法當成白噪聲,即隨機誤差而被刪除,是無可避免的樣本偏差和樣本誤差[11]。顯然的是,大數(shù)據(jù)也未能規(guī)避此問題,這使得如何定位和闡釋異常值成為大數(shù)據(jù)的難點所在。有學者認為,大數(shù)據(jù)中的小數(shù)據(jù)問題并不會隨著數(shù)據(jù)鏈的增大而消失,只會更加突出[12]。
其二,不可控的算法與虛假的相關性。待數(shù)據(jù)清洗完畢進入流程后,大數(shù)據(jù)算法成為最重要的分析模板,大量數(shù)據(jù)經由大數(shù)據(jù)算法來進行分類歸納,除去計算機專業(yè)人士外,大部分人并不懂得其構建原理與執(zhí)行方法,即前文提到的黑盒子般的運作模式,人們只能等待算法將結果呈現(xiàn),這造成了大數(shù)據(jù)算法本身的程序正義,或者是過程正義是否能夠彰顯的問題。如亞馬遜公司基于大數(shù)據(jù)學習而開發(fā)的審核求職者簡歷的算法,并不能基于“性別中立”來為所需崗位的求職者進行平等評級。因為通過大數(shù)據(jù)學習,該系統(tǒng)發(fā)現(xiàn)科技行業(yè)素來以男性為主導,故會給包含“女性”詞語的簡歷以低星評級??梢?,亞馬遜大數(shù)據(jù)系統(tǒng)在符合開發(fā)者和計算機算法的框架下依舊產生了“性別歧視”的問題,且這種“性別歧視”毫無疑問反饋和影響了每一位女性求職者,這為大眾對大數(shù)據(jù)的算法正義信任敲響了警鐘。此外,隨著樣本數(shù)據(jù)越來越多, 統(tǒng)計上顯著的相關關系也越來越多。但事實上,其中許多數(shù)據(jù)是不具有實際意義的,他們可能呈現(xiàn)出偽相關性、虛假相關性和偶然相關性,譬如谷歌流感預測失敗也源于其中的虛假相關性,當在谷歌上搜索“頭疼”時,搜索算法可能會將此結果和流感關聯(lián)起來,即使人們本身與病情毫無關系。這種具有欺騙性的相關關系會隨著數(shù)據(jù)的增多而指數(shù)式地增長,把人們真正想要探知的本質淹沒在龐大的數(shù)據(jù)中。
其三,主體全面的“大數(shù)據(jù)化”。在走向數(shù)字化時代的進程中,對于主體的“大數(shù)據(jù)化”也應始終保持著警醒態(tài)度。數(shù)據(jù)本質上即是符號,在結構主義與符號學派的研究中,符號只具有表征性,其本身并無實質意義與指向。這意味著數(shù)據(jù)的符號化與人類真實的樣貌和生活相差甚遠,網絡上的數(shù)據(jù)也不是真實生活著的主體自身。在許多科幻小說與科幻想象中,全面數(shù)據(jù)化可能帶來的危害足以侵蝕人類生活。若一味崇尚數(shù)據(jù)化,真實世界本身將被遮蔽,符號失去其所指向的實存根基, 人類難免地滑入虛無主義的深淵[13]。
綜上可知,大數(shù)據(jù)在基本方法、基本原則與基本步驟上承襲傳統(tǒng)歸納實證主義方法論,但在觀察實驗與技術發(fā)展上又有所超越。但大數(shù)據(jù)未能彌補歸納主義方法論的先天不足,自身又深陷于數(shù)據(jù)與算法的實踐構架與哲學意義的探討中。
知識生產是對現(xiàn)有信息、科學技術、思想文化、倫理原則等知識的發(fā)明、創(chuàng)造、創(chuàng)新及復制過程,既是對原創(chuàng)性知識的創(chuàng)造,又是對現(xiàn)有知識的再挖掘與再創(chuàng)新[14]。在國外相關研究中,不少學者遵循實證歸納主義的進路,維克托和肯尼思認為以數(shù)據(jù)為源頭、以數(shù)據(jù)為載體的知識發(fā)現(xiàn)模式(數(shù)據(jù)—信息—知識),正在逐步形成[5]。或以沿襲傳統(tǒng)經驗主義路徑,Rob Kitchin認為大數(shù)據(jù)使科學知識生產的經驗主義模型成為可能,“大數(shù)據(jù)經驗主義”的研究范式已經誕生[15]。抑或冠以“科學發(fā)現(xiàn)的第四研究范式”為名,Jim Gray強調大數(shù)據(jù)與傳統(tǒng)知識生產范式相輔相成,以共同構成科學發(fā)現(xiàn)的認知和方法體系,大數(shù)據(jù)研究范式是理論、實驗和計算仿真的整合和統(tǒng)一[6]。在計算機發(fā)展導向中,數(shù)據(jù)挖掘和機器學習能提供一個自動的無須人為干預的知識發(fā)現(xiàn)系統(tǒng),Paul Thagar認為在理想狀態(tài)下,程序可通過提供結果來促進科學發(fā)現(xiàn)[16]。
國內現(xiàn)有研究則認為大數(shù)據(jù)帶來了一種新的認識論范式的誕生,能挖掘過去時代所無法洞察的新信息和新知識。黃欣榮認為大數(shù)據(jù)提出了“科學始于數(shù)據(jù)”的知識生產新模式,增添了科學發(fā)現(xiàn)的邏輯新通道,拓寬了科學規(guī)律的范圍[17]。從經驗層面與方法層面來看,張曉強、蔡端懿認為大數(shù)據(jù)技術促使了科學研究與知識生產在研究對象、研究層次及研究類型上的轉變[18]。一方面,賈向桐認為大數(shù)據(jù)強調了數(shù)據(jù)本身的自足性與獨立價值,區(qū)別于傳統(tǒng)科學研究的“理論—驅動”,將科學研究的新范式界定為“數(shù)據(jù)—驅動”模型[19]。另一方面,焦桐、肖源認為隨著技術的更迭,傳統(tǒng)知識產出機制已難以有效支持新技術環(huán)境下的研究,及時調整和制定新的知識產出機制已迫在眉睫[20]。在此語境下,文軍、吳曉凱認為大數(shù)據(jù)能夠同抽樣調查、觀察與訪談、實驗等方法相互融合、相互補充與相互滲透,這種新復合研究方法對于認知系統(tǒng)的升華具有重要意義[21]。故蘇玉娟認為基于大數(shù)據(jù)的知識表征不僅彰顯大數(shù)據(jù)工具的個性特征,且具有普遍知識的本質特征,在科學、公共、經濟、社會等諸多社會領域彰顯價值,在包括政府等主體參與的大數(shù)據(jù)技術發(fā)展、平臺建設、社會法治進程等實踐中發(fā)揮了重要作用[22]。
就大數(shù)據(jù)知識生產的實踐應用來看,大數(shù)據(jù)逐漸被各學科用于知識生產和模式挖掘。在理工學科領域,主要與物聯(lián)網技術相結合,用于GIS遙感地理信息系統(tǒng),挖掘相關的環(huán)境變化形式及人類行為模式,可廣泛用于能源供給、城市生態(tài)環(huán)境檢測、區(qū)域災害應急等多個學科領域;在生物及基因學領域主要用于構建基因序列數(shù)據(jù)庫,加快基因序列比對進程,以盡快解碼基因并用于醫(yī)療建設;在計算機領域,以大數(shù)據(jù)為基礎的云計算、深度學習、人工智能、機器人建設正是學科發(fā)展的最前沿。值得注意的是,大數(shù)據(jù)在社會科學中的全新應用,經由互聯(lián)網,數(shù)據(jù)記錄了個人或組織的真實行為,為社會研究提供了可靠信息和有力印證,既避免了研究過程中的偏見、誤差和歧義,又填補了長久以來社會科學中定量研究的缺失。就此來看,大數(shù)據(jù)的廣泛應用或許能夠突破長久以來的自然科學和社會科學的研究界限,使不同學科的數(shù)據(jù)資源得以共享[23]。當下,大數(shù)據(jù)已逐步滲透到各個學科的文獻研究領域中,研究者運用大數(shù)據(jù)可以便捷地對學科現(xiàn)有知識網絡進行整理歸類與歸納。
目前為止,對于大數(shù)據(jù)是否能夠成為科學發(fā)現(xiàn)和知識生產的新范式,學界尚議論不休。從大數(shù)據(jù)的基本方法、基本步驟與基本原則來看,目前的大數(shù)據(jù)更類似于一種優(yōu)化版或補充版的歸納實證主義方法,在歸納合理性和有效性方面有所建樹,但仍未能彌補歸納實證主義方法論的本質缺陷。如果以庫恩的范式學說或者是以拉卡托斯的科學研究綱領來看,大數(shù)據(jù)還遠遠不足以成為一個單獨的科學方法論。雖然可以推動部分理工科及社會科學的研究,但要成為取代應用于現(xiàn)有學科與專業(yè)學科的歸納方法是不現(xiàn)實的。第一,大數(shù)據(jù)本身既有傳統(tǒng)歸納主義的缺陷,又存在新的算法問題,故在知識生產的有效性、合理性、確認性上還存在較大的漏洞。第二,大數(shù)據(jù)目前的技術發(fā)展仍然有限,用于純技術數(shù)據(jù)分析尚可,但一旦涉及相關關系及因果問題,難免需要研究者對于最后結論和預測的多層把關??梢姡髷?shù)據(jù)是描述現(xiàn)狀的最好工具,但不是最終解決問題的最佳方式,必須需要專業(yè)科學與大數(shù)據(jù)的緊密結合才能發(fā)揮大數(shù)據(jù)的重要功效[24]。第三,數(shù)據(jù)的來源與隱私的保護目前是不可兼得的問題,對大數(shù)據(jù)來源的倫理學質疑和對全面數(shù)據(jù)化的哲學思考將始終伴隨著大數(shù)據(jù)的發(fā)展。
盡管大數(shù)據(jù)無法取代傳統(tǒng)歸納方法,卻最適宜處理信息時代所面臨的混雜性狀態(tài),在科學研究與知識發(fā)現(xiàn)上是一種有效且可大規(guī)模推廣的嶄新模式,也將成為自然科學和未來社會科學的主流研究范式和不可缺少的技術工具[25]。為了更加深入地探索世界,急需新的推理模式,尤其是特殊到特殊的推理新模式的演化,大數(shù)據(jù)將擔此重任,幫助信息時代的人們來探究未知的新趨勢[26]。
利用大數(shù)據(jù)佐證并挖掘新的學科范式與框架。一方面,在科學理論已經較為成熟的學科中,可以通過大數(shù)據(jù)的挖掘與分析來對已有理論進行全方位佐證,強化樣本概率和可信度,確認已有理論的正確度,堅實學科理論基礎。另一方面,在學科范式和框架尚不成熟的學科內,則可以通過海量數(shù)據(jù)的挖掘,尋找數(shù)據(jù)之間的相關性以探索因果性,為找尋和創(chuàng)造新的理論和方法提供助益。
增強各學科大數(shù)據(jù)平臺和數(shù)據(jù)庫的建設。針對各個不同學科,建立科研活動的大數(shù)據(jù)整合與收集平臺,通過云存儲與云服務等方式實現(xiàn)各學科數(shù)據(jù)資源的集中管理和分布服務,創(chuàng)建各學科理論與范式的數(shù)據(jù)庫[27];聯(lián)合各地各校的科研數(shù)據(jù)系統(tǒng)與文獻數(shù)據(jù)庫系統(tǒng),從時間與空間上打破資源配置限制,通過數(shù)據(jù)平臺來高效地實現(xiàn)學術信息與科研資源的共享與合作[27];建立各學科知識融合與知識生產模型,通暢便捷地為研究者提供多層次、個性化、創(chuàng)新型知識服務需求[28];建立各學科數(shù)據(jù)平臺與數(shù)據(jù)庫來完善學科知識和方法的全數(shù)據(jù)化,并借此以數(shù)據(jù)服務反饋給所有研究者,推進知識學習與知識生產。
推進大數(shù)據(jù)的理論探究及實踐應用的相關研究。當前學界對于大數(shù)據(jù)的理論研究和應用研究都較少,但大數(shù)據(jù)作為未來科技創(chuàng)新的重要發(fā)展對象,其各方面理論與實踐都亟待學界探索。在理論上,相關性和因果性之爭將成為大數(shù)據(jù)后續(xù)發(fā)展的重要問題之一。在實踐上,大數(shù)據(jù)在學科研究中的建設才剛剛起步,對于大數(shù)據(jù)和專業(yè)學科知識的融合發(fā)展及大數(shù)據(jù)在知識生產中的算法建設都是研究的重點與難點,而大數(shù)據(jù)與學科建設的協(xié)同發(fā)展也可能成為未來大數(shù)據(jù)知識生產的重要應用之一。
大數(shù)據(jù)掀起了一場技術革命。一方面,大數(shù)據(jù)帶來了生產、生活、教育、思維方式上的全方位變革,構建起規(guī)模巨大、類型多樣、內涵豐富的數(shù)據(jù)世界。大數(shù)據(jù)時代下,經驗世界、虛擬世界、數(shù)據(jù)世界共同構成了全新的生存空間。另一方面,應認清大數(shù)據(jù)的技術屬性與局限,以合理使用大數(shù)據(jù)作為發(fā)展要義。大數(shù)據(jù)并非是終極,它尚無法取代傳統(tǒng)的科學方法與經驗方式,需要與傳統(tǒng)方式結合才能最大發(fā)揮效用。但毫無疑問的是,作為一個經由技術發(fā)展演化而誕生的存在,隨著技術的進一步演化,大數(shù)據(jù)必將具有更大成長性,其在未來科學研究與知識生產中將扮演越來越重要的角色。