編者按:本刊2013年第7期推出《大數(shù)據(jù)問題》一文,受到讀者廣泛好評。為推進(jìn)計(jì)算機(jī)前沿技術(shù)的傳播,我刊特開辟“前瞻技術(shù)”專欄,邀請陳明教授主持并撰文,后續(xù)將推出《NoSQL數(shù)據(jù)庫》《大數(shù)據(jù)處理的利器Hadoop》《分布計(jì)算中的CAP理論》等文章。期望本欄目能以精練的文字為廣大讀者展現(xiàn)相關(guān)領(lǐng)域的最新技術(shù)和研究成果。
專欄作家:陳明,男,中國石油大學(xué)教授,博士生導(dǎo)師,特聘教授,研究方向?yàn)榉植际讲⑿杏?jì)算、計(jì)算智能、軟件工程、大數(shù)據(jù)計(jì)算等,chenming@cup.edu.cn。
摘要:由于數(shù)據(jù)爆炸式增長,為了解決數(shù)據(jù)密集型知識發(fā)現(xiàn),出現(xiàn)了科學(xué)研究的第四范式。文章介紹第四范式的產(chǎn)生背景、核心內(nèi)容、格雷法則、范式轉(zhuǎn)變和第四范式時(shí)代等內(nèi)容。
關(guān)鍵詞:數(shù)據(jù)密集;知識發(fā)現(xiàn);第四范式
1.背景
萬物之靈的人類對外部世界的認(rèn)識已達(dá)到令人驚嘆的高度,在宏觀上放眼億萬光年的宇宙,在微觀上已深入層子、夸克世界。隨著科學(xué)的發(fā)展,人們發(fā)現(xiàn)蘊(yùn)藏著科學(xué)理論的科學(xué)數(shù)據(jù)經(jīng)常被掩埋在零散的實(shí)驗(yàn)記錄中,很容易丟失,只有少數(shù)大項(xiàng)目的數(shù)據(jù)被存儲在磁介質(zhì)中。如何獲取、管理與分布保存科研群體數(shù)據(jù)成為科學(xué)發(fā)展面臨的巨大挑戰(zhàn)。
1962年美國著名科學(xué)哲學(xué)家托馬斯·庫恩(Thomas Samuel Kuhn)在《科學(xué)革命的結(jié)構(gòu)》一書中闡述了范式的概念與理論,認(rèn)為范式就是一種公認(rèn)的模型和模式,是常規(guī)科學(xué)的理論基礎(chǔ)和實(shí)踐規(guī)范,是研究者在從事科學(xué)研究時(shí)共同遵守的世界觀和行為方式,是共同接受的一組假說、理論、準(zhǔn)則和方法的總和。
圖靈獎(jiǎng)獲得者、美國計(jì)算機(jī)科學(xué)家詹姆斯·格雷(James Gray)于2007年1月11日在加州山景城召開的計(jì)算機(jī)科學(xué)與電信委員會會議上的最后一次演講中描繪了關(guān)于科學(xué)研究第四范式的愿景。這個(gè)新的范式成為由實(shí)驗(yàn)、理論與仿真所主宰的歷史階段的符合邏輯的自然延伸。
科學(xué)研究的前兩個(gè)范式是實(shí)驗(yàn)和理論。實(shí)驗(yàn)法可以追溯到古希臘和古中國。那時(shí),人們嘗試通過自然法則來解釋觀察到的現(xiàn)象?,F(xiàn)代理論科學(xué)則起源于17世紀(jì)的艾薩克·牛頓(1saacNewton)。20世紀(jì)下半葉高性能計(jì)算機(jī)問世之后,諾貝爾獎(jiǎng)得主肯尼思·威爾遜(Kenneth Wilson)又把計(jì)算和模擬確立為科學(xué)研究的第三范式。第四范式同樣要用到性能強(qiáng)大的計(jì)算機(jī),與第三范式的差別在于科學(xué)家們不是根據(jù)已知的規(guī)則編制程序,而是以數(shù)據(jù)為中心編程。
2.科學(xué)研究第四范式的核心內(nèi)容
科學(xué)研究的范式不等同于科學(xué)知識的各種范式,是一種新的科研模式,主要用于數(shù)據(jù)密集型科學(xué)研究。相比庫恩科學(xué)動力學(xué)理論,網(wǎng)絡(luò)可以幫助我們更好地理解海量數(shù)據(jù)策略。
2.1科學(xué)研究范式的演化過程
在漫長的科學(xué)研究范式進(jìn)化過程中,最初只有實(shí)驗(yàn)科學(xué)范式,主要描述自然現(xiàn)象,是以觀察和實(shí)驗(yàn)為依據(jù)的研究,也稱為經(jīng)驗(yàn)范式。后來出現(xiàn)的理論范式是以建模和歸納為基礎(chǔ)的,是對某種經(jīng)驗(yàn)現(xiàn)象或事實(shí)的科學(xué)解說和系統(tǒng)解釋,是由一系列特定的概念、原理(命題)以及對這些概念、原理(命題)的嚴(yán)密論證組成的知識體系。開普勒定律、牛頓運(yùn)動定律、麥克斯韋方程式等正是利用了模型和歸納而誕生的。但是對于許多問題,用這些理論模型分析解決過于復(fù)雜,科學(xué)家們只好走上了計(jì)算模擬的道路,提出了第三范式。第三范式是以模擬復(fù)雜現(xiàn)象為基礎(chǔ)的計(jì)算科學(xué)范式,又可稱為模擬范式。模擬方法已經(jīng)引領(lǐng)我們走過了上個(gè)世紀(jì)后半期的全部時(shí)間。現(xiàn)在,數(shù)據(jù)爆炸又將理論、實(shí)驗(yàn)和計(jì)算仿真統(tǒng)一起來,出現(xiàn)了新的密集型數(shù)據(jù)的生態(tài)環(huán)境。計(jì)算模擬正在生成大量數(shù)據(jù),同時(shí)實(shí)驗(yàn)科學(xué)也出現(xiàn)了巨大數(shù)據(jù)增長。研究者已經(jīng)不用望遠(yuǎn)鏡來觀看,取而代之的是通過把數(shù)據(jù)傳遞到數(shù)據(jù)中心的大規(guī)模復(fù)雜儀器上來觀看,開始研究計(jì)算機(jī)上存儲的信息。
無需質(zhì)疑,科學(xué)世界發(fā)生了變化,新的研究模式是通過儀器收集數(shù)據(jù)或通過模擬方法產(chǎn)生數(shù)據(jù),然后利用計(jì)算機(jī)軟件進(jìn)行處理,再將形成的信息和知識存于計(jì)算機(jī)中。科學(xué)家通過數(shù)據(jù)管理和統(tǒng)計(jì)方法分析數(shù)據(jù)和文檔,只是在這個(gè)工作流中靠后的步驟才開始審視數(shù)據(jù)??梢钥闯?,這種密集型科學(xué)研究范式與前三種范式截然不同,將數(shù)據(jù)密集型科學(xué)研究范式從其他研究范式中區(qū)分出來,作為一個(gè)新的、科學(xué)探索的第四種范式,其意義與價(jià)值是重大的。
2.2數(shù)據(jù)密集型科學(xué)研究的基本活動
數(shù)據(jù)密集型科學(xué)研究由數(shù)據(jù)的采集、管理和分析三個(gè)基本活動組成。數(shù)據(jù)的來源構(gòu)成了密集型科學(xué)數(shù)據(jù)的生態(tài)環(huán)境,主要有大型國際實(shí)驗(yàn),跨實(shí)驗(yàn)室、單一實(shí)驗(yàn)室或個(gè)人觀察實(shí)驗(yàn),個(gè)人生活,等等。各種實(shí)驗(yàn)涉及多學(xué)科的大規(guī)模數(shù)據(jù),如澳大利亞的平方公里陣列射電望遠(yuǎn)鏡、歐洲粒子中心的大型強(qiáng)子對撞機(jī)、天文學(xué)領(lǐng)域的泛STARRS天體望遠(yuǎn)鏡陣列等每天能產(chǎn)生幾個(gè)千萬億字節(jié)(PB)的數(shù)據(jù)。特別是它們的高數(shù)據(jù)通量,對常規(guī)的數(shù)據(jù)采集、管理與分析工具形成巨大的挑戰(zhàn)。為此,需要?jiǎng)?chuàng)建一系列通用工具來支持從數(shù)據(jù)采集、驗(yàn)證到管理、分期和長期保存等整個(gè)流程。
2.3學(xué)科的發(fā)展
格雷認(rèn)為所有學(xué)科x都分有兩個(gè)進(jìn)化分支,一個(gè)分支是模擬的x學(xué),另一個(gè)分支是x信息學(xué)。如生態(tài)學(xué)可以分為計(jì)算生態(tài)學(xué)和生態(tài)信息學(xué),前者與模擬生態(tài)的研究有關(guān),后者與收集和分析生態(tài)信息有關(guān)。在x信息學(xué)中,把由實(shí)驗(yàn)和設(shè)備、檔案、文獻(xiàn)、模擬產(chǎn)生的事實(shí)以編碼和表達(dá)知識的方式存貯在一個(gè)空間中,用戶通過計(jì)算機(jī)向這個(gè)空間提出問題,并由系統(tǒng)給出答案。為了完成這一過程,需要解決的一般問題有:數(shù)據(jù)獲取、管理PB級大容量的數(shù)據(jù)、公共模式、數(shù)據(jù)組織、數(shù)據(jù)重組、數(shù)據(jù)分享、查找和可視化工具、建立與實(shí)施模型、數(shù)據(jù)與文獻(xiàn)集成、記錄實(shí)驗(yàn)、數(shù)據(jù)管理與長期保存等??梢钥闯?,科學(xué)家需要更好的工具來實(shí)現(xiàn)大數(shù)據(jù)的捕獲、分類管理、分析和可視化。
3.以數(shù)據(jù)為中心發(fā)展的格雷法則
數(shù)據(jù)爆炸式的增長對前沿科學(xué)帶來了巨大挑戰(zhàn),但科學(xué)家還沒有掌握管理和分析大數(shù)據(jù)的方法,而小數(shù)據(jù)的管理和分析方法已不能勝任,數(shù)據(jù)密集型計(jì)算面臨著難以克服的挑戰(zhàn)。正是在這種情況下,對于大型科學(xué)數(shù)據(jù)集的大數(shù)據(jù)工程,格雷制定了如下的非正式法則,代表了一系列設(shè)計(jì)數(shù)據(jù)密集系統(tǒng)的優(yōu)秀指導(dǎo)原則。
1)科學(xué)計(jì)算趨于數(shù)據(jù)密集型。
計(jì)算平臺的I/O性能限制了觀測數(shù)據(jù)集的分析與高性能的數(shù)值模擬,當(dāng)數(shù)據(jù)集超出系統(tǒng)隨機(jī)存儲器的能力,多層高速緩存的本地化將不再發(fā)揮作用,僅有很少的高端平臺能提供足夠快的I/O子系統(tǒng)。
高性能、可擴(kuò)展的數(shù)值計(jì)算也對算法提出了挑戰(zhàn),傳統(tǒng)的數(shù)值分析包只能在適合RAM的數(shù)據(jù)集上運(yùn)行。為了進(jìn)行大數(shù)據(jù)的分析,需要對問題進(jìn)行分解,通過解決小問題獲得大問題解決的還原論方法是一種重要方法。
2)解決方案為“橫向擴(kuò)展”的體系結(jié)構(gòu)。
對網(wǎng)絡(luò)存儲系統(tǒng)進(jìn)行擴(kuò)容并將它們連接到計(jì)算節(jié)點(diǎn)群中并不能解決問題,因?yàn)榫W(wǎng)絡(luò)的增長速度不足以應(yīng)對必要存儲逐年倍增的速度。橫向擴(kuò)展的解決方案提倡采用簡單的結(jié)構(gòu)單元。在這些結(jié)構(gòu)單元中,數(shù)據(jù)被本地連接的存儲節(jié)點(diǎn)所分割,這些較小的結(jié)構(gòu)單元使得CPU、磁盤和網(wǎng)絡(luò)之間的平衡性增強(qiáng)。格雷提出了網(wǎng)絡(luò)磚塊的概念,使得每一個(gè)磁盤都有自己的CPU和網(wǎng)絡(luò)。盡管這類系統(tǒng)的節(jié)點(diǎn)數(shù)將遠(yuǎn)大于傳統(tǒng)的縱向擴(kuò)展體系結(jié)構(gòu)中的節(jié)點(diǎn)數(shù),但每一個(gè)節(jié)點(diǎn)的簡易性、低成本和總體性能足以補(bǔ)償額外的復(fù)雜性。
3)將計(jì)算用于數(shù)據(jù),而不是數(shù)據(jù)用于計(jì)算。
大多數(shù)數(shù)據(jù)分析以分級步驟進(jìn)行。首先對數(shù)據(jù)子集進(jìn)行抽取,通過過濾某些屬性或抽取數(shù)據(jù)列的垂直子集完成,然后以某種方式轉(zhuǎn)換成聚合數(shù)據(jù)。
近年來,MapReduce已經(jīng)成為分布式數(shù)據(jù)分析和計(jì)算的普遍范式,具有分布式分組和聚合的功能。根據(jù)這一原理構(gòu)造的Hadoop開源軟件已成為目前大數(shù)據(jù)處理的最好的工具,Hadoop技術(shù)成為推動大數(shù)據(jù)安全計(jì)劃的引擎。企業(yè)使用Hadoop技術(shù)收集、共享和分析來自網(wǎng)絡(luò)的大量結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
Hadoop是一個(gè)開源框架,它實(shí)現(xiàn)了MapReduce算法,用以查詢在互聯(lián)網(wǎng)上的分布數(shù)據(jù)。在MapReduce算法中,Map(映射)功能是將查詢操作和數(shù)據(jù)集分解成組件,Reduce功能是指在查詢中映射的組件可以被同時(shí)處理(即約簡),以快速地返回結(jié)果。
Hadoop具有方便、健壯、可擴(kuò)展、簡單等一系列特性。Hadoop處理數(shù)據(jù)是以數(shù)據(jù)為中心,而不是傳統(tǒng)的以程序?yàn)橹行?。在處理?shù)據(jù)密集型任務(wù)時(shí),由于數(shù)據(jù)規(guī)模太大,數(shù)據(jù)遷移變得十分困難,Hadoop強(qiáng)調(diào)把代碼向數(shù)據(jù)遷移。
4)以“20個(gè)詢問”開始設(shè)計(jì)。
格雷提出了“20個(gè)詢問”的啟發(fā)式規(guī)則,在他參與的每一個(gè)項(xiàng)目中,他都尋求研究人員讓數(shù)據(jù)系統(tǒng)回答最重要的20個(gè)問題。他認(rèn)為5個(gè)問題不足以識別廣泛的模式,100個(gè)問題將導(dǎo)致重點(diǎn)不突出。由于與人類選擇有關(guān)的大多數(shù)決定都遵循長尾理論,詢問中的相關(guān)信息根據(jù)重要性排序顯然是呈對數(shù)分布。長尾理論是網(wǎng)絡(luò)時(shí)代興起的一種新理論。長尾實(shí)際上是統(tǒng)計(jì)學(xué)中冪律和帕累托分布特征的一個(gè)口語化表達(dá)。過去人們只能關(guān)注重要的人或重要的事,如果用正態(tài)分布曲線來描繪這些人或事,人們只能關(guān)注曲線的“頭部”,忽略處于曲線“尾部”、需要更多精力和成本才能關(guān)注到的大多數(shù)人或事。例如,在銷售產(chǎn)品時(shí),廠商關(guān)注的是少數(shù)幾個(gè)所謂“VIP”客戶,“無暇”顧及大多數(shù)普通消費(fèi)者。長尾理論是對傳統(tǒng)的二八定律的徹底叛逆。
20個(gè)詢問規(guī)則是一個(gè)設(shè)計(jì)步驟,使領(lǐng)域科學(xué)家與數(shù)據(jù)庫設(shè)計(jì)者可以對話。這些詢問定義了專門領(lǐng)域科學(xué)家期望對數(shù)據(jù)庫提出的有關(guān)實(shí)體與關(guān)系方面的精確問題集,填補(bǔ)科學(xué)領(lǐng)域使用的動詞與名詞之間、數(shù)據(jù)庫中存儲的實(shí)體與關(guān)系之間的語義鴻溝。這種重復(fù)實(shí)踐的結(jié)果是專門領(lǐng)域科學(xué)家和數(shù)據(jù)庫之間可以使用共同語言。
這種方法非常成功地使設(shè)計(jì)過程集中于系統(tǒng)必須支持的最重要特征,同時(shí)幫助領(lǐng)域科學(xué)家理解數(shù)據(jù)庫系統(tǒng)的折中,從而限制特征的蠕動。
5)工作至工作。
工作至工作是指工作版本的升級,這是另一個(gè)設(shè)計(jì)法則。無論數(shù)據(jù)驅(qū)動的計(jì)算體系結(jié)構(gòu)變化多么迅速,尤其是當(dāng)涉及分布數(shù)據(jù)的時(shí)候,新的分布計(jì)算模式每年都出現(xiàn)新的變化,使其很難停留在多年的自上而下的設(shè)計(jì)和實(shí)施周期中。當(dāng)項(xiàng)目完成之時(shí),最初的假設(shè)已經(jīng)變得過時(shí)。如果要建立只有每個(gè)組件都發(fā)揮作用才開始運(yùn)行的系統(tǒng),那么我們將永遠(yuǎn)無法完成這個(gè)系統(tǒng)。在這樣的背景下,唯一方法就是構(gòu)建模塊化系統(tǒng)。隨著潛在技術(shù)的發(fā)展,這些模塊化系統(tǒng)的組件可以被代替,現(xiàn)在以服務(wù)為導(dǎo)向的體系結(jié)構(gòu)是模塊化系統(tǒng)的優(yōu)秀范例。
4.范式的轉(zhuǎn)變
庫恩認(rèn)為范式的演變是科學(xué)研究的方法及觀念的取代過程,科學(xué)的發(fā)展不是靠知識的積累而是靠范式的轉(zhuǎn)換完成的,新范式形成表明建立起了常規(guī)科學(xué)。庫恩的模型描述了這樣一種關(guān)于科學(xué)的圖景:一組觀念成為特定科學(xué)領(lǐng)域的主流和共識,創(chuàng)造了一種關(guān)于這個(gè)領(lǐng)域的觀念(所謂范式),進(jìn)而擁有了自我發(fā)展的動力和對這個(gè)領(lǐng)域發(fā)展的控制力。這種觀念之所以強(qiáng)有力是因?yàn)樗砹藢τ^察到的現(xiàn)象的合理解釋。這種觀念或范式從漸進(jìn)發(fā)展的機(jī)制中獲得啟發(fā)和力量,同時(shí)被科學(xué)家逐漸完善。當(dāng)現(xiàn)有范式無法解釋觀察到的現(xiàn)象,或者實(shí)驗(yàn)最終證明范式出錯(cuò)時(shí),那么范式失敗、被解體,轉(zhuǎn)變范式的機(jī)會也就到了。數(shù)據(jù)泛濫是第四范式出現(xiàn)的導(dǎo)火索。處理、存儲、分析可視化數(shù)據(jù)的能力是科學(xué)必須具備和適應(yīng)的新事實(shí),數(shù)據(jù)是這個(gè)新范式的核心,它與實(shí)驗(yàn)、理論、模擬共同成為現(xiàn)代科學(xué)方法的統(tǒng)一體。在科學(xué)發(fā)展的長河中,前三種范式作出了巨大的不可磨滅的貢獻(xiàn),在歷史上已成功地將科學(xué)的發(fā)展引領(lǐng)至今天的輝煌,而且模擬仍處于現(xiàn)代科學(xué)的核心。毫無疑問,依據(jù)現(xiàn)有的范式與技術(shù),科學(xué)研究還將獲得增量型進(jìn)展,但是如果需要更重大的突破,就需要新的方法,需要接納和開創(chuàng)新的范式。數(shù)據(jù)密集型科學(xué)研究將會給科學(xué)家?guī)砑夹g(shù)挑戰(zhàn),IT技術(shù)和計(jì)算機(jī)科學(xué)將在推動未來科學(xué)發(fā)現(xiàn)中發(fā)揮作用。
5.第四范式時(shí)代
第四范式時(shí)代的序幕已經(jīng)揭開,其核心是各領(lǐng)域科學(xué)家與計(jì)算機(jī)科學(xué)家協(xié)同研究工作需求,他們之間的關(guān)系不是主從關(guān)系,而是平等的關(guān)系,兩個(gè)領(lǐng)域的專家共同努力,推動和豐富科學(xué)發(fā)現(xiàn)。幾十年前,科學(xué)是以學(xué)科為中心,今天,重大進(jìn)展是多學(xué)科協(xié)作的結(jié)果,未來也將如此。在需要利用科學(xué)認(rèn)識去實(shí)現(xiàn)事關(guān)人類生存的重要目標(biāo)階段中,還需要科學(xué)知識淵博的科學(xué)家和技術(shù)經(jīng)驗(yàn)豐富的工程師密切合作,實(shí)現(xiàn)科學(xué)與技術(shù)的結(jié)合,實(shí)現(xiàn)理論和技術(shù)創(chuàng)新。
將數(shù)據(jù)丟進(jìn)巨大的計(jì)算機(jī)群中,只要有相互關(guān)系的數(shù)據(jù),統(tǒng)計(jì)分析算法就可以發(fā)現(xiàn)過去的科學(xué)方法發(fā)現(xiàn)不了的新模式、新知識以及新規(guī)律。對于PB級的數(shù)據(jù),沒有模型和假設(shè)就可以分析數(shù)據(jù)。如谷歌的廣告優(yōu)化配置、戰(zhàn)勝人類的沃森回答系統(tǒng)都是這樣實(shí)現(xiàn)的。又如沃爾瑪百貨公司分析顧客資料與天氣相互關(guān)系時(shí),發(fā)現(xiàn)暴風(fēng)雨之前,人們會買更多的手電、也會買更多夾心派,盡管市場營銷人員無法確定天氣與糕點(diǎn)之間的關(guān)系。也就是說,第四范式既不能像理論和模擬那樣在一定程度上告訴“為什么”,更不能像實(shí)驗(yàn)?zāi)菢用鞔_地告訴“是什么”,只能告訴“大概是什么”,其精髓就是“客觀”,從海量的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)的共性和客觀性,這展現(xiàn)了第四范式的應(yīng)用潛力和吸引力。
6.結(jié)語
科學(xué)研究第四范式是科學(xué)家從事科學(xué)研究的一種新型范式,也是一種新的觀念和新的思維方式。其主要特點(diǎn)是以數(shù)據(jù)考察為基礎(chǔ),是理論、實(shí)驗(yàn)和模擬一體化的數(shù)據(jù)密集計(jì)算的范式,它在多學(xué)科研究及數(shù)據(jù)密集型科學(xué)研究中發(fā)揮越來越重要的作用。
參考文獻(xiàn):
[1]李國杰,天數(shù)據(jù)研完的科學(xué)價(jià)值叨,中國計(jì)算機(jī)學(xué)會通訊,2012,8(9):8-15.
[2]Hey L Tansley S,Tolle S.The fourth paradigm:data-intensive scientific discovery[EB/OL].[2012-04-02].http://www.amazon.de/The-Fourth-Paradigm-Data-Intensive-ebook/dp/B00318D9Y2#reader_B00318D9Y2.
(編輯:彭遠(yuǎn)紅)