国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

氣象數(shù)據(jù)的“大數(shù)據(jù)應用”淺析

2014-04-29 00:44:03沈文海
中國信息化 2014年11期
關鍵詞:大數(shù)據(jù)應用氣象

沈文海

1. 引言

據(jù)統(tǒng)計,2011年全球的數(shù)據(jù)規(guī)模為1.8ZB,這些信息將填滿575億個32GB的ipad,倘以這些ipad做磚石,足可以壘建起兩座中國的萬里長城。2013 年僅中國當年產(chǎn)生的數(shù)據(jù)總量就已超過0.8ZB,2倍于2012年,相當于2009年全球的數(shù)據(jù)總量。預計到2020年,中國產(chǎn)生的數(shù)據(jù)總量將是2013年的10倍,超過8.5ZB。而屆時全球的數(shù)據(jù)總量預計將達到40ZB,如果將這些數(shù)據(jù)全部刻錄成藍光光盤,則這些光盤的總重量相當于424艘滿載荷的尼米茲級航空母艦。

數(shù)據(jù)量暴增的速度令人瞠目結舌,我們的確已進入“大數(shù)據(jù)時代”。

很快地,“地理大數(shù)據(jù)”、“水利大數(shù)據(jù)”、“環(huán)境大數(shù)據(jù)”、“金融大數(shù)據(jù)”、“互聯(lián)網(wǎng)大數(shù)據(jù)”乃至“氣象大數(shù)據(jù)”等名詞陸續(xù)出現(xiàn)在有關媒體上?!按髷?shù)據(jù)”逐漸成為近來人們談論最多、思考最多的技術話題之一。一些人憧憬于“大數(shù)據(jù)”可能帶來的十分珍稀的高價值信息和珍貴商機,也有許多人困惑于目前所知“大數(shù)據(jù)”的應用范式,以此研判著可能給本行業(yè)帶來的變化和新的業(yè)務契機——氣象部門也是如此。

做為拋磚引玉,筆者擬就如下問題提出自己的看法:

(1)氣象數(shù)據(jù)是否具備“大數(shù)據(jù)”的核心特征?

(2)所宣稱的由大數(shù)據(jù)引發(fā)的思維變革,即:不需要專業(yè)知識背景而僅通過單純的數(shù)據(jù)分析便可獲得新的“知識”,在氣象部門核心業(yè)務領域(天氣預報和氣候預測等)中是否適用以及為什么;它與“數(shù)據(jù)密集型科學發(fā)現(xiàn)”之間存在哪些差異。

(3)在大數(shù)據(jù)背景下,海量氣象觀探測數(shù)據(jù)的應用價值范圍以及目前價值發(fā)揮的可能性。

2. 大數(shù)據(jù)的現(xiàn)實以及氣象數(shù)據(jù)的特征分析

2.1 大數(shù)據(jù)的特征和在我國的行業(yè)分布

早在2012年前后,業(yè)界便已就大數(shù)據(jù)在體積、類型、速度和價值這四個方面的特征達成了共識,即所謂大數(shù)據(jù)的4V特征。限于篇幅,不再復述。

一般而言,大數(shù)據(jù)的起始計量單位至少是PB、EB或ZB級別。

據(jù)統(tǒng)計,就數(shù)據(jù)量而言,中國的大數(shù)據(jù)近期具有如下行業(yè)分布特征:

(1)互聯(lián)網(wǎng)公司

目前國內(nèi)互聯(lián)網(wǎng)公司擁有總計約2EB的數(shù)據(jù),其中互聯(lián)網(wǎng)三巨頭BAT(百度、阿里巴巴、騰訊)占有其中的3/4(約1.5EB)。

(2)電信、金融、保險、電力、石化系統(tǒng)

這些行業(yè)及企業(yè)數(shù)據(jù)量分布較為平均,就每個單位而言,大致都擁有10PB以上的數(shù)據(jù),且年增量都在PB級以上??偤蛣t有數(shù)百個EB的存儲數(shù)據(jù)和數(shù)十EB的年增量。

(3)公共安全、醫(yī)療、交通、電子政務領域

城市:平安城市、智慧城市等工程的建設,監(jiān)控攝像頭遍布大街小巷。一個中等規(guī)模城市每年視頻監(jiān)控產(chǎn)生的數(shù)據(jù)約300PB。最保守估計(含定期循環(huán)清除),全國每年保存下來的數(shù)據(jù)在數(shù)百PB以上。

交通:飛機航班往返一次產(chǎn)生的數(shù)據(jù)達TB級。列車、水陸路運輸每年產(chǎn)生并保存下來的各種視頻、文本類數(shù)據(jù)約達數(shù)十PB。

衛(wèi)生:整個醫(yī)療衛(wèi)生行業(yè),一年保存下來的數(shù)據(jù)可達到數(shù)百PB。

電子政務:一個智慧城市的電子政務所產(chǎn)生的數(shù)據(jù)每季度約達200PB。而調(diào)查顯示,未來1~2年中國政府部門的數(shù)據(jù)規(guī)模超過100TB的將達到53.3%,有將近三成(33.3%)的用戶數(shù)據(jù)規(guī)模是10~50TB。

(4) 其他,商業(yè)銷售、制造業(yè)、農(nóng)業(yè)、物流和流通等領域

隨著產(chǎn)業(yè)互聯(lián)網(wǎng)的普及,(線下)商業(yè)銷售、制造業(yè)、農(nóng)林牧漁業(yè)、(線下)餐飲、食品、科研、物流運輸?shù)冗@些傳統(tǒng)行業(yè)的數(shù)據(jù)量將呈現(xiàn)迅速增長態(tài)勢,但目前這些行業(yè)數(shù)據(jù)量尚處于積累期,體量不大,多的達到PB級別,基本約近百TB甚至數(shù)十TB級別。

(5)氣象數(shù)據(jù)

氣象部門需要永久保存的數(shù)據(jù)目前約4~5PB,年增量約1PB。

由此可見,以數(shù)據(jù)量而言,在整個大數(shù)據(jù)市場中,新興的互聯(lián)網(wǎng)行業(yè)巨頭BAT,以及電信、金融、保險等行業(yè)占據(jù)比重較大。相對而言,氣象數(shù)據(jù)無論總量還是增量,較這些數(shù)據(jù)大戶至少低3個數(shù)量級。

需要注意的是,在大數(shù)據(jù)的“4V”特征中,“Volume”(體量巨大)僅為必要條件,而非充分條件,如同 30mm的日降水,在我國東南沿海地區(qū)十分平常,但在西北地區(qū)卻是極可能成災的罕見大雨,所以體量大小是相對的。事實上,大數(shù)據(jù)概念的提出絕非僅因為數(shù)據(jù)量的暴增,而且是因為數(shù)據(jù)已多到用傳統(tǒng)方法無法處理,導致人們必須采用新方法、新思路乃至新理念予以應對。如果數(shù)據(jù)量雖大,但卻能夠處理和掌控,便不能稱其為“大數(shù)據(jù)”。因此,“4V”對于大數(shù)據(jù)而言,既是特征,也是考量的四個維度。

2.2 氣象數(shù)據(jù)的體量種類分布

氣象資料種類繁多,僅氣候?qū)S觅Y料,包括冰芯、花粉、樹木年輪、歷史文獻、冰蓋、海平面溫度、洋流鹽度、地表植被等在內(nèi)的涵蓋五大圈層的各種自然界及人類活動的觀測資料,已達數(shù)十種。而應用于諸如天氣、農(nóng)業(yè)氣象、人工影響天氣、雷電防護、公共氣象服務等業(yè)務領域的資料,種類亦十分可觀(限于篇幅,不予展開討論)。目前就體積而言,在所有氣象資料中,地面觀測、氣象衛(wèi)星遙感、天氣雷達和數(shù)值預報產(chǎn)品四類數(shù)據(jù)占據(jù)總量的90%以上;其中:

地面觀測資料:進入本世紀以來,地面觀測方法從人工觀測改進為自動觀測,擺脫了人類居住條件限制的制約,地面氣象觀測臺站數(shù)由本世紀初的不到3,000個,迅速擴展到目前的50,000余個,觀測頻度由最初的3小時/次調(diào)整到目前的5分鐘/次,因而導致資料量呈幾何倍數(shù)增漲,月增量由最初的約240MB猛增到現(xiàn)在的約2.4TB(在庫容量),增幅約670倍。根據(jù)防、減災以及氣象服務的需要,未來擴建計劃有可能將臺站數(shù)繼續(xù)擴增至70,000到100,000個,觀測頻度有可能繼續(xù)加密到1分鐘/次;因此未來六年內(nèi)該類資料總量有可能在現(xiàn)有基礎上再行擴增12.5倍,由現(xiàn)在的每天數(shù)百萬條記錄增至超過一億條記錄/天。而此后,由于觀測資料的空間分辨率的提升未來主要依靠遙感手段解決,因此臺站密度不會進一步大規(guī)模增加。具體數(shù)據(jù)見表1。

天氣雷達資料:按照《天氣雷達近期發(fā)展規(guī)劃(2005—2010)》以及《氣象發(fā)展規(guī)劃(2011—2015)》中“新一代天氣雷達建設增補站點布局方案”,目前在全國已布設約200部不同波長的多普勒天氣雷達,并為達到雷達資料全社會共享的目的,已基本實現(xiàn)7×24小時全天候不間斷觀測;日增總量約300GB。近十五年的增幅約40倍。詳見表2。

氣象衛(wèi)星資料:根據(jù)《我國氣象衛(wèi)星及其應用發(fā)展規(guī)劃(2011~2020年)》,至2020年,我國計劃發(fā)射11顆氣象業(yè)務衛(wèi)星,包括3顆風云二號03批衛(wèi)星,3顆風云三號上午星、2顆風云三號下午星、1顆降水測量雷達星以及2顆風云四號光學星。此外還將在2020年前發(fā)射2顆氣象試驗衛(wèi)星。目前的日增總量約2TB,近十五年的增速約40倍。未來(至2020年)由于風云三號D星和風云四號系列靜止衛(wèi)星的陸續(xù)發(fā)射,氣象衛(wèi)星資料量有可能增加到約30TB/日,即:未來六年內(nèi)衛(wèi)星資料的增速約15倍。隨著衛(wèi)星儀器、通道和分辨率的增加,數(shù)據(jù)量的增幅可能會更大。

數(shù)值預報產(chǎn)品:與地面觀測、氣象衛(wèi)星和天氣雷達等氣象觀探測資料不同,氣象數(shù)值預報模式資料屬于氣象觀探測資料的加工產(chǎn)品。以GRAPS、T639為代表的天氣預報模式,以及以BCC_CSM2、DERF2.0為代表的氣候預測模式,每天都在實時運行,不斷產(chǎn)生著數(shù)以萬計的各類要素場,以供國家級、省級乃至區(qū)域級預報員參考使用,日增量接近TB級。近十五年數(shù)值預報模式數(shù)據(jù)量的增速約20倍,未來六年的增速約小于10倍。限于篇幅,氣象衛(wèi)星和數(shù)值預報數(shù)據(jù)漲幅不再列表。

在上述四類數(shù)據(jù)之外,氣象資料中的其它種類如:氣候?qū)S?、高空探測、地面農(nóng)氣觀測、沙塵暴觀測、閃電定位觀測、風廓線雷達探測等等資料,種類雖多,但就體積而言,較上述四類資料至少低一個數(shù)量級,故難以將其稱之為“大數(shù)據(jù)”;在以下不予專門討論。

因此,如果就體積而言,氣象資料可勉強算得上“大數(shù)據(jù)”,也是因為地面觀測、氣象衛(wèi)星、天氣雷達和數(shù)值模式這四大金剛將氣象資料的體積撐大而成的。

2.3 海量氣象數(shù)據(jù)的特征分析

氣象數(shù)據(jù)的體積雖大,卻有其獨特的特征:

(1)體積雖大但總量可控

地面觀測資料數(shù)據(jù)量劇增的原因,是站點數(shù)的增加和觀測頻度的大幅加密。由于觀測資料的空間分辨率的提升未來主要依靠遙感手段解決,因此在地面觀測臺站達到一定密度,觀測頻度達到一定程度后,臺站數(shù)不會無限制持續(xù)增加,觀測頻度也不會無節(jié)制地永遠加密下去,因此總量既是可預測的,更是可控的。

天氣雷達的全國布網(wǎng)工作已基本完成,雷達總量不會再有成倍數(shù)的增加。且目前的天氣雷達已基本實現(xiàn)7×24小時全天候不間斷觀測。因此天氣雷達的資料量(年增量),將穩(wěn)定相當長一段時間,不會出現(xiàn)成倍數(shù)的增量變化。

未來數(shù)年內(nèi),我國還將發(fā)射數(shù)顆氣象衛(wèi)星,每顆衛(wèi)星都會產(chǎn)生數(shù)百TB級的數(shù)據(jù)年增量。為滿足氣象衛(wèi)星資料的應用時效,國家衛(wèi)星氣象中心針對每一顆氣象衛(wèi)星,都建有相應專屬的地面接收處理系統(tǒng),已完全實現(xiàn)所有氣象衛(wèi)星遙測遙感資料的實時接收處理。此外,舊星的退役也會導致部分數(shù)據(jù)來源的關閉。因此氣象衛(wèi)星數(shù)據(jù)目前雖以每年數(shù)百TB的量級增長,且規(guī)模有可能繼續(xù)擴大,但卻始終處于可控可管和完全可用狀態(tài)。

數(shù)值預報模式產(chǎn)品資料是各級預報員最重要的預報參考資料,這些產(chǎn)品甫一生成,便即刻送達天氣預報、氣候預測專家的桌面,供其業(yè)務參考使用;同時以滿足業(yè)務需求的時效,分發(fā)至各省級乃至地市級氣象部門,供其本地化應用。且只要模式(軟件)和基礎資料(觀探測資料)存在,數(shù)值預報產(chǎn)品資料是可再生的,無永久保存的必要。因此數(shù)值預報產(chǎn)品資料體積雖大,卻始終處于可控可管和可用的狀態(tài),未來也將始終如此。

有可能在未來異軍突起的是氣象服務領域的受眾反饋等信息,隨著人們生活水平的提高及氣候變化影響的日益顯現(xiàn),人們對氣象預報的服務質(zhì)量將日益關注,經(jīng)互聯(lián)網(wǎng)將意見、要求、評價等反饋給氣象服務部門的現(xiàn)象有可能越發(fā)普遍,這對改善氣象服務有著十分積極的作用;而如果這部分信息體積迅速膨脹起來,其管理問題對于氣象信息技術部門將是一個挑戰(zhàn)——但目前尚未出現(xiàn)迅速膨脹的跡象。

因此,氣象資料體積雖大,在量級上算得上“大數(shù)據(jù)”,但卻始終處于可控可管可用狀態(tài)。

根據(jù)摩爾定律,從2000年到2014年的十五年之間,相同體積規(guī)模的計算機芯片,其處理能力增加1024倍;從2014年至2020年的6年間,處理能力增加16倍。詳見表3。

由此可見,即便在漲幅最高的2000年至目前的這十五年間,氣象資料的增幅也未超出摩爾定律所標示的計算機處理能力的增幅,今后可預見的未來期間也不會超過。

(2)種類雖多但內(nèi)部信息單純,來源單一

氣象資料分為14大類,有數(shù)百種之多。每種資料所含信息十分單純:土壤持水量只記載某時某地某規(guī)定土壤深度中水份的持有程度,“云能天”只記錄某時某地的云量云狀、能見度以及天氣現(xiàn)象等信息,近百年來不曾變化。即:氣象數(shù)據(jù)體積的增大,是由于時空分辨率的逐步加大所導致的,而不是其它。

氣象觀探測業(yè)務系統(tǒng)只采集那些能夠客觀反映自然界氣象狀態(tài)的要素,所以氣象觀探測數(shù)據(jù)里包含且只包含豐富的氣象信息。因此海量氣象數(shù)據(jù)的直接用途只能是氣象業(yè)務及與之相關聯(lián)的領域,即:天氣預報、氣候預測以及氣象服務。

麥肯錫公司和Gartner公司始終認為:“大數(shù)據(jù)是用傳統(tǒng)的架構、傳統(tǒng)的技術方法無法解決的數(shù)據(jù)問題”。由上分析可知,氣象數(shù)據(jù)始終處于可管、控、用狀態(tài),雖然隨著數(shù)據(jù)體積的不斷膨脹,以及原有管理和處理技術架構的陳舊,逐漸出現(xiàn)性能下降、時效減慢等現(xiàn)象,但并非沒有解決的技術手段。從這個觀點考察,以體積碩大為由稱氣象數(shù)據(jù)為“大數(shù)據(jù)”十分勉強,而且較易產(chǎn)生觀念和認知上的混亂;因為衡量體量大小的標準是不斷變化的。信息技術的發(fā)展突飛猛進,處理及存儲能力依照摩爾定律,每18個月增加一倍;今天的大體量規(guī)模數(shù)據(jù),如果不具備超過摩爾定律的膨脹能力,數(shù)年后便很有可能萎縮成中等甚至中等以下規(guī)模的數(shù)據(jù);這樣的事例在IT界俯拾皆是。

3. 大數(shù)據(jù)理論的適用性分析

3.1 大數(shù)據(jù)倡導者的基本論點

近年來有關大數(shù)據(jù)方面的著作如雨后春筍般不斷出現(xiàn),其中被業(yè)界公推最具權威性的著作當屬由維克托·邁爾-舍恩伯格等撰寫的《大數(shù)據(jù)時代》(以下簡稱《大》);該書作者就大數(shù)據(jù)帶給人們思維方面的變革,提出了如下三個觀點:

(1)當數(shù)據(jù)處理技術已發(fā)生翻天覆地變化時,在大數(shù)據(jù)時代進行抽樣分析已經(jīng)過時。人們進行分析的對象已不是抽樣數(shù)據(jù),而是所有的數(shù)據(jù),即:“樣本 = 總體”。

(2)執(zhí)迷于精確性是信息缺乏時代和模擬時代的產(chǎn)物,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶。

(3)知道“是什么”就夠了,不必知道“為什么”。在大數(shù)據(jù)時代,我們不必非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己“發(fā)聲”。

而對于大數(shù)據(jù)的價值,該書作者認為,“數(shù)據(jù)就像一個神奇的鉆石礦,當它的首要價值被發(fā)掘后仍能不斷給予”,它目前展現(xiàn)在人們面前僅僅是其總價值的“冰山一角”。

根據(jù)筆者的理解,大數(shù)據(jù)倡導者之所以提出上述論點,是基于如下推斷,即:人們目前所獲得的數(shù)據(jù)中蘊含的信息已足夠豐富,以至于所有知識的相關信息都包含在其中,人們可以通過分析這些信息而獲得欲知的任何知識;而目前IT技術的高速發(fā)展使得數(shù)據(jù)處理能力已達到足可對全體數(shù)據(jù)進行處理的地步,使得人們能夠通過處理和分析信息而獲得知識;即,人們既可以而且也能夠通過處理數(shù)據(jù)而獲得任何信息和知識。由于所有答案都可從數(shù)據(jù)分析中獲得,于是理論研究便不再重要了——畢竟人們關心的既不是數(shù)據(jù)也不是方法,而是答案,無論實驗、理論、計算模擬以及數(shù)據(jù),都只是獲得答案的途徑。

這里需要強調(diào)的是,通過對海量數(shù)據(jù)的分析處理而“獲得知識”,是“大數(shù)據(jù)”理論最具特色之處。如果單單是“獲得信息”,則上述的一切便淪為簡單的對海量數(shù)據(jù)的處理,與目前傳統(tǒng)方法幾無二致。令人叫絕的是,大數(shù)據(jù)倡導者們宣稱,這些知識的獲取可以不依賴于任何專業(yè)知識背景,僅憑“數(shù)理統(tǒng)計方法”便可獲得;這是前所未有的,也是“大數(shù)據(jù)”如此迷人之所在——如果須要憑借專業(yè)知識背景方能通過處理數(shù)據(jù)、獲得并分析信息進而得到這些新的“知識”,則“大數(shù)據(jù)”與現(xiàn)在各行業(yè)現(xiàn)行工作方式便并無本質(zhì)不同,籠罩在“大數(shù)據(jù)”全身的炫目光環(huán)便黯然失色、蕩然無存了。

這是一個令業(yè)界乃至社會不少人士驚訝和興奮的未來——大數(shù)據(jù)引爆了一場顛覆性的革命。我們正在并將永遠擁有取之不盡的信息資源,這些資源是如此的神奇,以至于人們不必再去孜孜不倦地追求理論的探索和試驗的真實,只要坐下來分析這些數(shù)據(jù)就足夠了——數(shù)據(jù)可以告訴你一切,并且數(shù)據(jù)還將告訴你所有未知的一切。

3.2 適用性分析

大數(shù)據(jù)的倡導者們描繪了一幅令不少人激動萬分的景象,但是否適用于所有領域,卻值得斟酌,至少就氣象領域而言,其適用性有待商榷:

(1)氣象觀探測數(shù)據(jù)的應用始終是“樣本= 總體”

自現(xiàn)代氣象學科建立以來,氣象觀探測數(shù)據(jù)對于各氣象業(yè)務及學科研究而言,時空密度、時序長度和數(shù)據(jù)精準性的不足始終困擾著氣象業(yè)務和科研工作的深入展開,不存在對花費高昂代價千辛萬苦采集而來的無比珍貴的觀探測數(shù)據(jù),會因其數(shù)據(jù)量過大、無法全部處理而不得不采取“抽樣處理”的情況。即,在氣象界的觀探測數(shù)據(jù)處理方面,幾乎始終是全數(shù)據(jù)模式,即所謂“樣本 = 總體”。問題是,目前在體量上已跨進“大數(shù)據(jù)”門檻的氣象觀探測數(shù)據(jù),其內(nèi)在信息是否已足夠豐富到可以不考慮自然法則和物理規(guī)律,單憑對這些觀探測數(shù)據(jù)進行統(tǒng)計分析既能實現(xiàn)天氣預報和氣候預測。

氣象學科所涉及到的空間尺度,小到水滴碰撞凝結等毫米級微物理過程,大到羅斯貝波等數(shù)千公里尺度行星物理過程,其間跨度達到8~9個數(shù)量級;預報對象從10米量級的龍卷風,到千米量級的沙塵暴,直至數(shù)千千米量級的季風和厄爾尼諾,跨度亦達到6~7個數(shù)量級。這些尺度中的氣象要素實際狀況都需要探知,做為氣象部門十分重要工作內(nèi)容之一的氣象探測業(yè)務,數(shù)十年來工作的主要目的之一,就是探索在代價允許的條件下,實時獲得更小尺度的氣象要素狀況、并保障其準確性的各種手段和方法。為此人們應用了許多新的技術手段,最為典型的就是雷達技術和衛(wèi)星遙感技術的實際應用;目前為止氣象衛(wèi)星及天氣雷達的空間精度較之傳統(tǒng)地面觀測的數(shù)十公里,已縮小到數(shù)百米。

然而既便如此,那些云水微物理過程、邊界層湍流、風向風速隨高度的垂直變化等實況數(shù)據(jù),卻是難以甚至無法全面采集的,海洋中的洋面以及近、深層的溫度、流向及鹽度等要素更是如此。要想全部獲得這些數(shù)據(jù),單就海洋而言,以現(xiàn)有已知的技術手段,除非汪洋大海上布滿了各類用于探測的漂流浮標和錨定浮標。

所以,由于天氣載體(云團、水汽、冰晶等)的空間尺度之間存在極大的差異性,以及大氣運動各尺度天氣載體在時間和空間的變率差異極大,用目前已知技術手段不可能全部探知各個尺度內(nèi)的天氣信息。氣象觀測采樣時間和空間分辨率的有限性,導致氣象觀測和產(chǎn)品數(shù)據(jù)在未來數(shù)十年間只能是“抽樣樣本”,而不可能是包含所有信息的“總體數(shù)據(jù)”。

氣候?qū)W科需要長時段(上千年乃至數(shù)千年)的氣象觀探測數(shù)據(jù),方能通過分析數(shù)據(jù)尋找到內(nèi)在的氣候變化規(guī)律。由于現(xiàn)代氣象科學的創(chuàng)立不過一百多年的歷史,積累的氣象觀探測數(shù)據(jù)時段十分有限,為此氣候?qū)W家們不得不尋找各種氣候代用數(shù)據(jù),如:冰芯、樹木年輪、花粉、巖心乃至皇宮文獻檔案記載等。然而這些氣候代用數(shù)據(jù)的時間精度十分有限(最高僅達十年左右),對于現(xiàn)代氣候預測學科的貢獻相對有限。氣候?qū)W家曾指出,只有建立起時間長度至少達到數(shù)百年的較為精準全面的氣候數(shù)據(jù)序列,方才可能滿足氣候研究和預測業(yè)務的實際需求。

因此,雖然氣象觀探測數(shù)據(jù)的使用一直處于“樣本=全體”狀態(tài),但其獲得途徑卻始終是抽樣采集,且其本身無論空間尺度還是時間尺度,都遠遠無法滿足天氣和氣候業(yè)務/科研工作的實際需求。也正緣于此,當聽到社會上一些非氣象領域的、以數(shù)據(jù)分析見長的公司宣稱將嘗試通過運用統(tǒng)計分析方法處理氣象觀探測數(shù)據(jù)來進行天氣預報時,氣象學家們在愕然之余,更多的是啞然失笑。

(2)氣象服務的特點要求必須追求盡可能高的精確性

“允許不精確”,這是大數(shù)據(jù)倡導者們提出的另一個驚世駭俗的,令不少科學家聞之瞠目的口號。一些大數(shù)據(jù)的擁躉者以氣象業(yè)務中的集合數(shù)值預報為例,證明“允許不精確”論斷在氣象界的適用,即:

因研究表明,多個模式集合平均后的效果優(yōu)于單模式,故在單一模式相對穩(wěn)定,短時間內(nèi)無法大幅提高其預報效果的情況下,科學家們提出了集合平均方法以及超級集合的概念。與單模式相比,多模式超級集合可以明顯減小單模式和集合平均的均方根誤差。目前,多模式集合預報可提高天氣預報水平已得到廣泛認同。

然而,提出此觀點的人也許忽略了一點:多模式集合技術本質(zhì)上是通過減小因模式自身不確定性帶來的誤差來提高預測能力的,多模式集合的效果依賴于各單一模式的預測能力;在各單一模式?jīng)]有預測能力時,多模式集合也不能提供足夠有用的預測信息。

事實上,“允許不精確”口號提出的前提基礎,是確信數(shù)據(jù)中正確信息足夠充分,以至于雖然人們從中隨機抽取的每一個數(shù)據(jù)都可能是不精確的,但人們卻可以通過統(tǒng)計分析方法,最終得到正確(精確)的結論。

然而這一前提是值得推敲的,如同Ti m Harford所說,“當數(shù)據(jù)里的假像遠遠超過真相的時候,還持有‘數(shù)據(jù)足夠大的時候,就可以自己說出結論了這種觀點就顯得過于天真了?!币胧埂按髷?shù)據(jù)自己說話”,首先必須保證數(shù)據(jù)中的“真相”足夠多,對于氣象界的多模式集合預報而言,這意味著各模式必須具有盡可能高的預測能力,亦即:單一模式的運算結果應當越準確、越精確越好。

誠如《大》書作者所言,“執(zhí)迷于精確性是信息缺乏時代和模擬時代的產(chǎn)物”,但如果信息始終處于匱乏狀態(tài),那么精確性就是不可拋棄的。氣象觀探測數(shù)據(jù)就是這樣,由于氣象觀探測數(shù)據(jù)的獲取始終是“抽樣采樣”,因此每一個數(shù)據(jù)都被認為是其所在時空范圍內(nèi)氣象要素真實狀態(tài)的反映;由于該數(shù)據(jù)是其所在時空范圍內(nèi)唯一的數(shù)據(jù),它的與真實狀態(tài)的偏差只有通過更大時空范圍其它數(shù)據(jù)的綜合統(tǒng)計分析方才可能校正,而校正后的數(shù)據(jù)是否真實反映了本時空范圍內(nèi)氣象要素的狀態(tài),卻無法予以驗證,因為自然界的時空狀態(tài)是不可回退的;所以,應當盡可能確保每一個探測數(shù)據(jù)的精準性。

“大數(shù)據(jù)的核心就是預測”,這是《大》書作者舍恩伯格的名言。預報(預測)在時間、空間、形式和強度方面的更加準確,一直是社會對氣象界永恒的需求,也是百余年來召喚氣象工作者孜孜不倦工作的目標和動力。就天氣預報(尤其是災害性天氣預報)而言,目前的主要目標之一,是準確地預報天氣現(xiàn)象(災害性天氣過程)的發(fā)生形式,并將發(fā)生的時間精確到小時、發(fā)生的地點精確到千米量級,同時準確預測過程的強度等。這意味著精確性要求對于氣象部門而言,只會越來越高,而不是相反。

(3)氣象理論科學研究不會終結

《WIRED》雜志主編Chris Anderson于2008年曾斷言,“現(xiàn)在已經(jīng)是一個有海量數(shù)據(jù)的時代,應用數(shù)學已經(jīng)取代了其它的所有學科工具。而且只要數(shù)據(jù)足夠,就能說明問題。如果你有1PB字節(jié)的數(shù)據(jù),只要掌握了這些數(shù)據(jù)之間的相關關系,一切就都迎刃而解了。” Chris Anderson此言的核心思想是,身處大數(shù)據(jù)時代的我們,所有的普遍規(guī)律都不重要了。如今重要的就是數(shù)據(jù)分析,因為它可以揭示一切問題。

Chris Anderson先生的論斷是如此的激進,以至于《大》書作者對此也認為實在荒謬;在他看來,首先,大數(shù)據(jù)自身就是在理論的基礎之上形成的,亦即,在大數(shù)據(jù)形成之初的數(shù)據(jù)選擇過程中,人們就始終被理論所影響著;其次,我們在分析數(shù)據(jù)時,也依賴于理論來指導我們選擇所使用的工具;最后,人們在解讀研究結果時同樣會使用理論。因此該作者對同為大數(shù)據(jù)倡導者的Chris Anderson先生的觀點并不贊同:“大數(shù)據(jù)時代絕不是一個理論消亡的時代;相反,理論貫穿于大數(shù)據(jù)分析的方方面面”

使用理論,但不必或不屑于產(chǎn)生“新的理論”,這是《大》書作者就理論在大數(shù)據(jù)時代中的地位和作用的看法,即:“知道是什么即可,不必知道為什么”,“一切讓數(shù)據(jù)告訴你們”。

自上世紀二十年代動力氣象學建立起,通過對觀探測數(shù)據(jù)進行統(tǒng)計分析而進行天氣預報的方法,便逐步被動力天氣所取代。而對于我國氣候預測業(yè)務而言,以多種數(shù)理統(tǒng)計方法為基礎建立的統(tǒng)計預測模型,正在逐步被物理統(tǒng)計、動力模式、動力-統(tǒng)計相結合的方法所替代。單純對觀探測數(shù)據(jù)進行統(tǒng)計分析,已根本無法滿足預報和預測在準確性和精確性方面的要求。以“蝴蝶效應”為例,如果不了解氣象要素和天氣/氣候狀態(tài)之間的物理機理,即便觀探測數(shù)據(jù)再豐富,也無法通過對觀探測數(shù)據(jù)的統(tǒng)計分析預測出南美叢林中的哪只蝴蝶、在哪種天氣背景下、在哪個時間、哪個位置扇動幾下翅膀以及翅膀扇動的角度和幅度如何,方能在幾周后的哪一天的哪個時刻引發(fā)北美哪個州的哪個位置的暴風雪。

理論的作用在于解釋現(xiàn)象并預測和指導未來,由于目前無法全部獲得各個時空尺度中天氣要素的實況,觀探測數(shù)據(jù)只能告訴我們一定時空尺度范圍內(nèi)的天氣實況,次尺度以下的天氣過程只能通過理論分析、建模和模擬等方法予以解釋,并通過試驗予以驗證。又因為氣象學科所涉及的時空尺度跨度極大,對天氣過程中至為重要的微物理過程無法全面探知,觀探測數(shù)據(jù)在可預見的未來始終是“抽樣采集”;因此在可預見的未來,對于氣象學科而言,試驗、理論和模擬這三種科學發(fā)現(xiàn)范式將始終存在,不可或缺——尤其是理論。

綜上所述,大數(shù)據(jù)理論的三個主要觀點,即:“樣本=總體”、“接受不精確性”和“理論不再重要”,并非是普適性的——至少在氣象領域存在適用性問題。

氣象數(shù)據(jù)的“大數(shù)據(jù)應用”價值辨析

4.1 “大數(shù)據(jù)應用”定義的困惑

與云計算類似,業(yè)界對大數(shù)據(jù)的定義不勝枚舉;維克托·邁爾-舍恩伯格在《大》一書中是如此定義的:“大數(shù)據(jù)(應用)是人們在大規(guī)模數(shù)據(jù)基礎上可以做到的事情,而這些事情在小規(guī)模數(shù)據(jù)的基礎上是無法完成的”。

然而我們知道,人們對數(shù)據(jù)規(guī)模的認知是根據(jù)當時IT技術所能提供的處理能力而決定的;亦即,數(shù)據(jù)規(guī)模的界定是隨IT技術發(fā)展而動態(tài)變化的;表4是不同年代屬于“大規(guī)模數(shù)據(jù)”的數(shù)據(jù)體量量級。

因此,此定義如不設定適用的時間范圍,是頗值得商榷的,因為如按此定義,至少就氣象部門而言,意味著氣象業(yè)務和科研工作始終是“大數(shù)據(jù)應用”;因為在表4所列年代中,氣象觀探測數(shù)據(jù)的體量皆達到當時的“大規(guī)模數(shù)據(jù)”標準,而且全部在被充分使用之中;其它如農(nóng)業(yè)、水利、石油勘探、地震、海洋乃至金融、電信等行業(yè)也莫不如此。

依筆者對該書作者觀點的理解,就數(shù)據(jù)量巨大,內(nèi)含信息空前豐富的當下而言,所謂“大規(guī)模數(shù)據(jù)”和“小規(guī)模數(shù)據(jù)”,具體對應的應當是“全體數(shù)據(jù)”和“抽樣數(shù)據(jù)”,即:“大數(shù)據(jù)應用是目前人們在‘全體數(shù)據(jù)基礎上可以做到的事情,而這些事情在‘抽樣數(shù)據(jù)的基礎上是無法完成的”。

令人沮喪的是,以這一經(jīng)過調(diào)整的定義來觀察氣象行業(yè),依然難以辨識“大數(shù)據(jù)”與日常氣象業(yè)務科研之間的本質(zhì)差異,因為全體氣象觀探測數(shù)據(jù)都在被充分使用著,幾乎不存在因數(shù)據(jù)量過于龐大無法處理而不得不使用“抽樣數(shù)據(jù)”的情況。而近年來氣象觀探測數(shù)據(jù)體量上的巨大膨脹,也并未給氣象業(yè)務的發(fā)展軌跡和發(fā)展形態(tài)帶來顛覆性的變化。如果說由于目前使用了時空密度更為精細的觀探測數(shù)據(jù),使得天氣預報和氣候預測結果更加精準,從而派生出其它新的氣象服務領域,那么倒退10年20年,同樣也是類似的情形。因為每次采用空間密度更密,精確度更高(自然,數(shù)據(jù)體量也較原來更大)的觀探測資料后,都會對預報結果有所改善,這種情況在過去幾十年里一再不斷地重復出現(xiàn)著。而如果這就是氣象界所謂的“大數(shù)據(jù)應用”,那么氣象界數(shù)十年來一直在“大數(shù)據(jù)應用”——只不過名詞不同而已,過去稱其為“業(yè)務發(fā)展”。

氣象觀探測數(shù)據(jù)的“大數(shù)據(jù)應用”,不應是一場文字游戲。

筆者認為,氣象數(shù)據(jù)的“大數(shù)據(jù)應用”,應當是人們通過對海量氣象數(shù)據(jù)的深入分析,挖掘出有別于目前業(yè)務內(nèi)容和科研學科分支的,嶄新的、令人意外且驚喜的業(yè)務領域、方法和學科分支——即:通過對海量氣象觀探測數(shù)據(jù)的分析,人們獲得了嶄新的知識,而不僅僅是信息。

所以,大數(shù)據(jù)應用的標志不止在于對體量龐大的數(shù)據(jù)的使用,而且在于通過且僅僅是因為通過對這些體量龐大數(shù)據(jù)的分析處理,人們從中獲得了嶄新的知識——獲得知識,而不僅僅是獲得信息,是“大數(shù)據(jù)應用”區(qū)別于“大數(shù)據(jù)處理”的核心標志。

4.2 海量氣象數(shù)據(jù)的價值范圍辨析

沃爾瑪能夠通過分析得出嬰兒紙尿布與啤酒之間銷量上的正相關關系,是因為其數(shù)據(jù)庫中包含所有本系統(tǒng)連鎖店中所有商品的銷售記錄,包括啤酒和嬰兒紙尿布。阿里巴巴企業(yè)能夠提前半年預測出2008年北美將爆發(fā)經(jīng)濟危機,是因為其數(shù)據(jù)庫中詳細記錄了數(shù)年來世界各地與阿里集團的每一筆訂單和詢單,可從中統(tǒng)計并發(fā)現(xiàn)出其異常變化以及變化的區(qū)域分布,并進而做出推斷。美國中央情報局能夠通過對電子郵件的篩選探知出幾十起針對本土的恐怖襲擊計劃,并提前采取相應措施,是因為恐怖分子使用電子郵件進行通信聯(lián)絡,留下了相關的痕跡。而氣象數(shù)據(jù)與之不同:如前所述,氣象觀探測數(shù)據(jù)體量雖大,但與互聯(lián)網(wǎng)大數(shù)據(jù)相比較,氣象數(shù)據(jù)的信息種類單純。無論多么優(yōu)秀的金融分析師,都不可能單從分析海量氣象觀探測數(shù)據(jù)來預測紐約道瓊斯股票的漲跌以及滬深股市的未來走向,因為氣象數(shù)據(jù)里根本不含有任何這方面的信息。做個比喻:氣象觀探測數(shù)據(jù)是一個含量極純的“富鐵礦”,人們窮盡各種方法,也只能從中冶煉出鐵和鋼材來。那種企圖通過改進冶煉方法來從中提煉出鋁、銅、銀乃至金的想法是注定會落空的——因為此礦中根本不含有這些物質(zhì)。

做為“自然界感知信息”的氣象觀探測數(shù)據(jù),產(chǎn)生于自然界,它反映的是自然界與氣象有關的各種要素的狀態(tài)以及變化軌跡;而互聯(lián)網(wǎng)大數(shù)據(jù)產(chǎn)生于人類社會,它反映的是人類社會活動的痕跡。自然界與人類社會雖有千絲萬縷的聯(lián)系,但卻無法完全等同,否則管理學、心理學、經(jīng)濟學、國際政治學以及社會學等專注于人類社會的學科便沒有存在的必要了。正如“叢林法則”不會永久適用于人類社會的高級形態(tài)一樣,社會學中的一些結論和方法也未必可以簡單地套用到自然學科中來——對于海量氣象觀探測數(shù)據(jù)也是如此。

大數(shù)據(jù)時代數(shù)據(jù)體量迅速膨脹的背后,是信息量的迅速豐富。而導致信息量豐富的原因至少有兩種,其一是信息種類的不斷豐富,即信息涉及(采集)面的擴大;其二是信息密度的豐富,即信息種類(即采集面)沒有明顯增加,但同種信息的采集密度卻大幅增加?;ヂ?lián)網(wǎng)大數(shù)據(jù)屬于前者,而海量氣象觀探測數(shù)據(jù)則屬于后者。所以,與互聯(lián)網(wǎng)大數(shù)據(jù)不同,海量氣象數(shù)據(jù)的核心和基本價值,始終是氣象業(yè)務的應用,而不是其它。

氣象觀探測數(shù)據(jù)時空密度的增加,使得較原來更小尺度的氣象要素及變化痕跡得以被探知,從而為氣象學家們提供了研究這一尺度內(nèi)氣象規(guī)律的實況依據(jù);這是海量氣象觀探測數(shù)據(jù)在本領域內(nèi)的“大數(shù)據(jù)應用”。此外,如胡小明先生所言:雖然一些數(shù)據(jù)所蘊含的其所屬領域的內(nèi)部規(guī)律(即所謂“首要價值”)已被本領域?qū)<页浞职l(fā)掘,但如果將這些數(shù)據(jù)與其它領域數(shù)據(jù)相鏈接,卻有可能發(fā)現(xiàn)出許多意想不到的相關關系,即所謂“豐富的未知價值在領域的外部”。氣象觀探測數(shù)據(jù)的“新的價值”的發(fā)現(xiàn),或許寄希望于此。但令人擔憂的是,數(shù)據(jù)的社會共享至今仍是一個世界性難題。美國政府多年以來一再發(fā)布政令,要求政府部門在規(guī)定期限內(nèi)將與國家安全無關的數(shù)據(jù)實現(xiàn)社會共享,從一個側(cè)面反映出數(shù)據(jù)社會共享的難度。在我國,早在二十一世紀初便由科技部主導的科學數(shù)據(jù)共享試點工作,十余年來進展并不順利,行業(yè)間的數(shù)據(jù)并未真正實現(xiàn)共享,氣象部門獲得某些相關部門的觀測數(shù)據(jù)異常困難。因此,氣象數(shù)據(jù)通過跨行業(yè)深度結合而挖掘其“新的令人興奮的應用價值”的必要環(huán)境并非已全部具備。

4.3 “第四范式”的方向性啟示

雖然目前看不到通過對氣象觀探測數(shù)據(jù)的數(shù)理統(tǒng)計分析,即可進行準確天氣預報(或氣候預測)的可能及可行性,但氣象觀探測信息在近年來的迅速豐富,卻是不爭的事實。由于觀探測數(shù)據(jù)采集密度的不斷增大,許多小尺度天氣過程開始被探測和捕捉到,動力天氣學中一些過去由于信息和計算資源的短缺而不得不采用參數(shù)化方法以平均態(tài)方式予以解決的物理過程,現(xiàn)在有可能通過較為精確的大規(guī)模計算而得到更為精確的積分結果。歷史上,每一次觀探測密度的增加,都對天氣預報的準確性起到一定的積極作用,并在一定程度上豐富了氣象學的理論和知識。所以,觀探測信息采集尺度的縮小,使得氣象學家們通過分析這些小尺度信息,獲得較大尺度天氣狀況以及變化規(guī)律的期盼成為可能——需要注意的是,這種分析過程所采用的工具不僅僅是應用數(shù)學一門學科,而是數(shù)學、物理學、化學、生物學乃至人類學等諸多學科知識的綜合運用,此外還需要氣象學家們豐富的知識和智慧。

通過綜合運用所有已有知識,對信息量迅速豐富的數(shù)據(jù)進行分析,可以補充完善現(xiàn)有知識,甚至獲得新的知識,這是《第四范式:數(shù)據(jù)密集型科學發(fā)現(xiàn)》作者的主要觀點,也是《大》書作者極力宣揚的。問題在于該模式(即:數(shù)據(jù)密集型模式)是否將取代人類歷史進程中依次產(chǎn)生的“試驗”、“理論”和“計算模擬”這三種模式,而成為未來唯一的科學發(fā)現(xiàn)模式?《大》書作者對此是肯定的,所以產(chǎn)生出“理論不再重要”和“接受不精確性”的派生觀點;而筆者在上面耗費大量篇幅無非是要證明,這一豪情萬丈的結論目前并不適用于氣象領域。雖然面對的都是大數(shù)據(jù),都是討論通過對大數(shù)據(jù)的分析獲得新的知識和方法,但《第四范式》的作者無疑是冷靜和縝密的,結論令人信服。相比較而言,《大》書作者則顯得輕率和極端,得出的結論在不少部門和行業(yè)難以現(xiàn)實落地——至少在氣象部門是這樣。所以,即便是真理,也不能隨意向前多邁一步。

如何應對“數(shù)據(jù)密集型科學發(fā)現(xiàn)”在氣象行業(yè)的具體實現(xiàn),這是《第四范式》給氣象IT部門提出的新的課題。事實上,“海量氣象觀探測數(shù)據(jù)的規(guī)范化存儲管理和高時效應用”這一現(xiàn)實命題,已經(jīng)挾氣象數(shù)據(jù)的滔滔洪水驟然降臨了;隨之而來的還有海量氣象觀探測數(shù)據(jù)的高速傳輸、科學分析、處理和高效應用等課題,限于篇幅,筆者將另文詳述。

綜上所述,可得出如下結論:

(1)目前氣象數(shù)據(jù)體量雖大,但增速緩于摩爾定律。在未來的數(shù)年或十余年后,其體量將漸趨適中。同時,由于氣象觀探測數(shù)據(jù)中所含信息在空間密度和時序長度方面都與實際需求存在差異,且短期內(nèi)無法解決,因此無法達到單憑通過對數(shù)據(jù)的分析處理便可不斷獲得新的氣象知識的程度。以“接受不精確性”和“理論不再重要”為特征的《大數(shù)據(jù)時代》思維變革觀點目前并不適用于氣象部門。

(2)現(xiàn)階段海量氣象數(shù)據(jù)的“大數(shù)據(jù)應用”,除本行業(yè)內(nèi)深度挖掘之外,最大的可能在于與其它相關行業(yè)或領域數(shù)據(jù)的深度融合,以獲得跨領域跨學科的“新知識”。然而這需要科學數(shù)據(jù)社會共享這一大環(huán)境的有效改善。

(3)“數(shù)據(jù)密集型科學發(fā)現(xiàn)”將成為未來氣象科學發(fā)展和進步的新的途徑和模式,氣象IT部門應予以充分重視。

5. 結語

信息的迅速豐富,導致大數(shù)據(jù)時代的來臨。面對幾乎取之不盡用之不竭的信息,一些人束手無策、一些人欣喜若狂、一些人充滿激情地暢想著未來,還有一些人則將其描繪成一面絢麗的大旗,并將其覆蓋在自己原本滯銷的貨物之上,以期連旗帶貨一同高價兜售出去。

對于氣象部門IT從業(yè)人員而言,“大數(shù)據(jù)”不是旗幟,也不是時髦名詞,而是一個需要認真思考的現(xiàn)實問題:如何將這些珍貴的氣象信息的價值發(fā)揮到極致。有一點可以肯定,這絕不是氣象IT部門一家的事情,這需要氣象學家、IT工程師以及有關職能部門的通力合作,方才可能實現(xiàn)。同時它有可能意味著氣象學科傳統(tǒng)研究方法乃至機制的變化。

本文在修改過程中,得到了周秀驥院士以及熊安元、施進民、趙立成、李維京、惠建中、許泳、黃王旬 專家的指點,在此致謝。

作者單位:國家氣象信息中心

猜你喜歡
大數(shù)據(jù)應用氣象
氣象樹
《內(nèi)蒙古氣象》征稿簡則
氣象武器:翻云覆雨等閑間
氣象戰(zhàn)士之歌
心聲歌刊(2019年5期)2020-01-19 01:52:52
大國氣象
美麗的氣象奇觀
淺析電信行業(yè)大數(shù)據(jù)應用的路徑
商情(2017年1期)2017-03-22 21:46:58
大數(shù)據(jù)與圖書館管理創(chuàng)新
科學大數(shù)據(jù)的發(fā)展態(tài)勢及建議
企業(yè)管理會計應用大數(shù)據(jù)分析實例研究
高唐县| 兴和县| 陆川县| 乌海市| 洪洞县| 宁强县| 前郭尔| 吉林省| 峨边| 济阳县| 鸡西市| 灵台县| 仙桃市| 板桥市| 鸡东县| 黄冈市| 辛集市| 忻州市| 南开区| 陇西县| 射洪县| 雷山县| 大方县| 广丰县| 旌德县| 苏尼特右旗| 荆州市| 靖安县| 四子王旗| 乌拉特后旗| 绩溪县| 渭南市| 沅江市| 探索| 湘潭市| 桃园县| 交口县| 襄汾县| 苏尼特右旗| 临桂县| 桑植县|