左建安 陳雅
摘 要 科學(xué)數(shù)據(jù)是科學(xué)研究的重要成果,也是科技發(fā)展的必然成果。論文指出大數(shù)據(jù)時代科學(xué)數(shù)據(jù)共享的四種模式:國家政策驅(qū)動、部門之間交換、企業(yè)發(fā)展帶動以及國際組織參與。此外,對我國科學(xué)數(shù)據(jù)共享提出了相應(yīng)的建議。
關(guān)鍵詞 大數(shù)據(jù) 科學(xué)數(shù)據(jù) 共享模式 公眾需求 數(shù)據(jù)開放
分類號 G250.73
Abstract Scientific data are the important achievements of scientific research and the inevitable results of the development of science and technology. Four sharing modes of scientific data in the era of Big Data are introduced by this paper, that is the national policy-driven, the exchange between sectors, the enterprise development and the participation of international organizations. Finally, some suggestions are given for the development of sharing scientific data in China.
Keywords Big Data. Scientific Data. Sharing mode. Public demand. Open data.
1 概述
1.1 大數(shù)據(jù)時代的信息特征分析
隨著社交網(wǎng)絡(luò)、電子商務(wù)以及移動通信的發(fā)展,一個大規(guī)模生產(chǎn)、分享和應(yīng)用數(shù)據(jù)的時代正在開啟。以“PB”(1024TB)為單位的大數(shù)據(jù)時代已經(jīng)來臨。“大數(shù)據(jù)”一詞由英文“Big Data”翻譯過來。麥肯錫全球研究所報告《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿》對“大數(shù)據(jù)”的定義為:大數(shù)據(jù)指的是大小超出常規(guī)的數(shù)據(jù)庫工具獲取、存儲、管理和分析能力的數(shù)據(jù)集。
大數(shù)據(jù)走近人們視野不久,但業(yè)界公認(rèn)的大數(shù)據(jù)有四個“V”字開頭的特征:Volume(容量),Variety(種類),Velocity(速度)和最重要的Value(價值)。Volume是指大數(shù)據(jù)巨大的數(shù)據(jù)量與數(shù)據(jù)完整性,數(shù)據(jù)量級已從TB發(fā)展至PB乃至ZB,可稱海量、巨量乃至超量。Variety則意味著數(shù)據(jù)類型繁多,越來越多地表現(xiàn)為網(wǎng)頁、圖片、視頻、圖像等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)信息。Velocity是指數(shù)據(jù)傳遞速度快時效高,更快地滿足實時性需求。Value則是大數(shù)據(jù)的終極意義——滿足人類的需求,在盡可能短的時間內(nèi)發(fā)掘其價值[1]。
1.2 科學(xué)數(shù)據(jù)的概念分析
科學(xué)數(shù)據(jù)是人類社會從事科技活動所產(chǎn)生的原始觀測數(shù)據(jù)、探測數(shù)據(jù)、試驗數(shù)據(jù)、實驗數(shù)據(jù)、調(diào)查數(shù)據(jù)、考察數(shù)據(jù)、遙感數(shù)據(jù)、統(tǒng)計數(shù)據(jù)、研究數(shù)據(jù)以及相關(guān)的元數(shù)據(jù)和按照某種需求系統(tǒng)加工的數(shù)據(jù),具有科學(xué)價值和使用價值[2]??茖W(xué)數(shù)據(jù)是信息時代一種特殊的社會資源,具有明顯的潛在價值和可開發(fā)價值,并在應(yīng)用過程中得以增值。很顯然,大數(shù)據(jù)這一寬泛的概念包括科學(xué)數(shù)據(jù),科學(xué)數(shù)據(jù)也是大數(shù)據(jù)的內(nèi)容之一。
2 大數(shù)據(jù)時代科學(xué)數(shù)據(jù)的信息共享需求
2.1 國家戰(zhàn)略需求
大數(shù)據(jù)時代的到來使得數(shù)據(jù)成為一種資產(chǎn),正成為與物質(zhì)資產(chǎn)和人力資本相提并論的重要生產(chǎn)要素??茖W(xué)數(shù)據(jù)這一具有戰(zhàn)略意義的資源,更是成為社會的重要資產(chǎn)。一個國家和企業(yè)的發(fā)展在很大程度上取決于其科技創(chuàng)新水平,而對科學(xué)數(shù)據(jù)進行系統(tǒng)的綜合分析是實現(xiàn)科技進步與創(chuàng)新的重要方式。無論是資源、能源的開發(fā),還是高新技術(shù)產(chǎn)業(yè)化,無不是在科學(xué)數(shù)據(jù)的積累與支持下,實現(xiàn)理論與技術(shù)創(chuàng)新的結(jié)果。特別是在以知識為基礎(chǔ)的經(jīng)濟中,越來越多的以知識、信息和數(shù)據(jù)應(yīng)用為主要目的信息管理、加工與發(fā)布的產(chǎn)業(yè),在現(xiàn)代信息技術(shù)引領(lǐng)下正在拉動“數(shù)字經(jīng)濟”[3],也就是現(xiàn)在正在發(fā)生的“大數(shù)據(jù)經(jīng)濟”。長期以來,我國已經(jīng)積累了較為豐富的科學(xué)數(shù)據(jù)資源,但大多數(shù)仍存在于資料堆或檔案柜中,沒有經(jīng)過有效的整理和建庫,數(shù)字化程度較低,很多數(shù)據(jù)庫往往局限于本部門、本單位使用,甚至個人使用,造成了科技資源的巨大浪費。所以打破科學(xué)數(shù)據(jù)壁壘,實施科學(xué)數(shù)據(jù)共享,是國家發(fā)展戰(zhàn)略的必然要求。
2.2 科學(xué)研究的要求
當(dāng)前的科學(xué)是多學(xué)科交叉的科學(xué),是圍繞數(shù)據(jù)展開的全球研究,并將越來越依賴于數(shù)據(jù)。科學(xué)研究就是科學(xué)數(shù)據(jù)的生產(chǎn)過程,一些科學(xué)數(shù)據(jù)本身就是其重要的研究成果??茖W(xué)數(shù)據(jù)資源既是研究的成果與積累,又是支持更為復(fù)雜的創(chuàng)新研究所不可替代的資源存量。尤其在大數(shù)據(jù)時代,科學(xué)數(shù)據(jù)量激增,科學(xué)研究越來越依賴于系統(tǒng)的、高可信度的基礎(chǔ)科學(xué)數(shù)據(jù)分析。21世紀(jì)以來全球科技活動不斷增強,一系列重大科學(xué)工程的興起、復(fù)雜科學(xué)問題研究的提出、大型科學(xué)研究計劃的產(chǎn)生,導(dǎo)致前所未有的國際合作局面的形成,也導(dǎo)致了全球范圍內(nèi)對科技信息資源交流、互通的客觀需求。因此,實現(xiàn)科學(xué)數(shù)據(jù)的共享,科學(xué)家就可以不再受限于數(shù)據(jù)的來源、格式以及國界,也不必質(zhì)疑科學(xué)技術(shù)對于數(shù)據(jù)處理與存儲的能力,可以在全球海量的科學(xué)數(shù)據(jù)中發(fā)掘創(chuàng)新的潛力。
2.3 科學(xué)數(shù)據(jù)的公眾化需求
大數(shù)據(jù)的時代,科學(xué)數(shù)據(jù)的需求不僅僅局限于政府、科研單位以及企業(yè),社會公眾也越來越需要科學(xué)數(shù)據(jù)??茖W(xué)數(shù)據(jù)對于社會公眾,不僅僅是提高自身的知識水平和科學(xué)素養(yǎng)的源泉,也是日常生活中不可或缺的重要信息資源。如今個人電腦、智能手機及其掌上智能設(shè)備的普及,互聯(lián)網(wǎng)的應(yīng)用和發(fā)展,使得公眾對這些基本科學(xué)數(shù)據(jù)獲取的需求更為強烈。例如人們出行需要全球定位系統(tǒng)的信息,關(guān)注個人健康需要醫(yī)學(xué)信息。以前人們出行導(dǎo)航只是了解路線,而現(xiàn)在可以用交通大數(shù)據(jù)采集到的信息來預(yù)測未來城市幾點到幾點的整個通行情況,給出行者提供一個非常好的決策幫助。同樣,在醫(yī)療健康領(lǐng)域,大規(guī)模復(fù)雜數(shù)據(jù)已經(jīng)變得很普遍,通過對大量病人的各類數(shù)據(jù)進行挖掘分析,可以更有效地找出疾病成因,進而提供針對性的預(yù)防、診斷和治療措施。盡管社會公眾大多數(shù)是非專業(yè)人士,但可見在大數(shù)據(jù)時代,公眾對科學(xué)數(shù)據(jù)的質(zhì)量要求是越來越高,對科學(xué)數(shù)據(jù)的發(fā)布渠道、發(fā)布頻率、表現(xiàn)形式等要求也會越來越高。endprint
3 大數(shù)據(jù)時代的科學(xué)數(shù)據(jù)共享模式研究
科學(xué)數(shù)據(jù)按基本社會屬性分類,可分為戰(zhàn)略性科學(xué)數(shù)據(jù)、公益性科學(xué)數(shù)據(jù)以及商業(yè)性科學(xué)數(shù)據(jù)[4]。目前科學(xué)數(shù)據(jù)共享模式主要表現(xiàn)為國家制約的公益性無償共享模式和市場制約的產(chǎn)業(yè)化運行模式。前者強調(diào)數(shù)據(jù)的公開和公益性共享,后者強調(diào)保護數(shù)據(jù)產(chǎn)權(quán)和商品性質(zhì)。具體來講,有以下四種模式。
3.1 國家政策驅(qū)動模式
借鑒國際科學(xué)數(shù)據(jù)共享經(jīng)驗,美國是典型的國家政策驅(qū)動模式。早在1991年6月美國總統(tǒng)事務(wù)辦公廳就發(fā)布了“全球變化研究數(shù)據(jù)管理政策”,該政策的核心就是實行“完全與開放”的科學(xué)數(shù)據(jù)共享。美國政府在科學(xué)數(shù)據(jù)共享方面根據(jù)投資來源的不同,嚴(yán)格區(qū)分兩種不同的數(shù)據(jù)共享機制。政府擁有、生產(chǎn)和政府資助生產(chǎn)的數(shù)據(jù)納人到“完全與開放”的共享機制中,即除涉及危害國家安全、影響政府政務(wù)和公務(wù)員個人隱私的數(shù)據(jù)外,其他都必須公開。私營公司投資生產(chǎn)的數(shù)據(jù)納入到“平等競爭”市場化共享機制中。在這兩種不同共享機制中,美國聯(lián)邦政府均起到主導(dǎo)作用,所不同的是采取的方式和管理的環(huán)節(jié)不同。兩種機制互相補充,促進全社會對科學(xué)數(shù)據(jù)的獲取、共享和廣泛應(yīng)用。對于國有科學(xué)數(shù)據(jù),由國家統(tǒng)籌規(guī)劃數(shù)據(jù)共享機制與體系,提供數(shù)據(jù)共享工作預(yù)算和保障,以及相關(guān)政策法規(guī)的制定、完善和監(jiān)察?!巴耆c開放”的科學(xué)數(shù)據(jù)共享政策,使得一度曾各自為政,混亂的數(shù)據(jù)管理走向有序運作的軌道,科學(xué)家從得不到數(shù)據(jù)的抱怨走向數(shù)據(jù)共享,科學(xué)數(shù)據(jù)的開發(fā)水平和開發(fā)能力逐步提高,惠及了地球科學(xué)、生命科學(xué)、材料科學(xué)等各個領(lǐng)域,也極大地刺激了美國經(jīng)濟的發(fā)展。人類社會在大數(shù)據(jù)背景下,數(shù)據(jù)開放已成為潮流。2009年,Data.gov網(wǎng)絡(luò)平臺在美國正式上線,按原始、地理數(shù)據(jù)和數(shù)據(jù)工具三個門類開放數(shù)據(jù),截至2012年11月,Data.gov共開放388 529項原始數(shù)據(jù)和地理數(shù)據(jù),匯集了1 264個應(yīng)用程序和軟件工具、103個手機應(yīng)用插件。歐盟開放數(shù)據(jù)戰(zhàn)略(Open Data Strategy)于2010年11月由歐盟委員會首次提出,并于2011年11月底被歐盟數(shù)字議程采納,基本概念是公共經(jīng)費支持的信息應(yīng)該得到最廣泛的使用,其中科學(xué)數(shù)據(jù)的開放是其全面開放數(shù)據(jù)政策的重要組成部分[5]。
3.2 部門之間交換模式
科學(xué)數(shù)據(jù)的共享首先應(yīng)該從生產(chǎn)科學(xué)數(shù)據(jù)的部門共享開始。為避免重復(fù)生產(chǎn),科研單位內(nèi)部之間以及各科研單位之間的科學(xué)數(shù)據(jù),在不侵犯知識產(chǎn)權(quán)的情況下,第一步要努力做到共享。以數(shù)據(jù)和信息為基礎(chǔ)的經(jīng)濟、社會和科學(xué)發(fā)展中,一般情況下沒有哪一個部門能夠總是擁有某項科研活動需要的所有數(shù)據(jù)產(chǎn)品,尤其對于廣大的科學(xué)社區(qū),其研究內(nèi)容廣泛,對開放共享有著強烈的需求,研究過程中往往需要來自多個數(shù)據(jù)生產(chǎn)部門的不同區(qū)域、不同時期、不同尺度、不同學(xué)科的數(shù)據(jù)資源[6],因此部門之間的數(shù)據(jù)交換顯得急需和迫切。例如,地震工作部門各單位收集并存檔的各種地震科學(xué)數(shù)據(jù),其他部門或單位為保障重大工程的建設(shè)安全而專門建立和管理的專用地震監(jiān)測臺網(wǎng)和強震動監(jiān)測設(shè)施所收集并存檔的地震科學(xué)數(shù)據(jù),均屬于共享范圍[7]。浙江省地理空間數(shù)據(jù)交換平臺項目目前是全國首家省級地理空間數(shù)據(jù)交換平臺,由浙江省政府和國家測繪地理信息局合作共建、省測繪與地理信息局承建。該平臺實現(xiàn)了浙江全省地理空間信息資源在各部門的交換與共享,已為近30家省級部門、市縣用戶和企事業(yè)單位提供相關(guān)地理信息服務(wù),支持了40個業(yè)務(wù)應(yīng)用系統(tǒng)[8]。
3.3 企業(yè)發(fā)展帶動模式
現(xiàn)代企業(yè)的發(fā)展離不開信息和數(shù)據(jù)的支持,而企業(yè)的發(fā)展也能促進信息和數(shù)據(jù)的傳播與分享。一個企業(yè)的發(fā)展需要科學(xué)的方案,也需要科學(xué)數(shù)據(jù)來進行產(chǎn)品的進一步研發(fā)以及科技成果的轉(zhuǎn)化。數(shù)據(jù)積累量、數(shù)據(jù)分析能力、數(shù)據(jù)驅(qū)動業(yè)務(wù)而非流程驅(qū)動業(yè)務(wù)的能力將是決定企業(yè)生死存亡的關(guān)鍵。數(shù)據(jù)的重要性使得企業(yè)必將收集和分析海量的各類型數(shù)據(jù),并快速獲取影響未來的信息。在這一過程中,企業(yè)就會做出有益于科學(xué)數(shù)據(jù)共享的決策與措施,例如由企業(yè)出資的科學(xué)合作項目的開發(fā),有企業(yè)參與的科學(xué)資源共享平臺的構(gòu)建,以及企業(yè)自建商業(yè)性的科學(xué)數(shù)據(jù)庫。只有學(xué)術(shù)和產(chǎn)業(yè)價值融合,才能真正發(fā)揮科學(xué)數(shù)據(jù)的應(yīng)用價值。雖然學(xué)術(shù)界和產(chǎn)業(yè)界關(guān)注的價值點并不完全一致,但仍存在一些共性,發(fā)現(xiàn)和利用其中的共性,對解決科學(xué)數(shù)據(jù)共享中出現(xiàn)的問題很重要??缃绾献魇欠e極且有意義的嘗試,學(xué)術(shù)界可以致力于基礎(chǔ)技術(shù)的研究,盈利模式的分析則由企業(yè)去完成。同時,學(xué)術(shù)界和產(chǎn)業(yè)界在某些交叉領(lǐng)域形成競爭也是一種良性的模式。一些大企業(yè)會對前沿技術(shù)和數(shù)據(jù)積累追蹤最新的學(xué)術(shù)成果,甚至自己做學(xué)術(shù)研究,學(xué)術(shù)界也在積極推進產(chǎn)業(yè)化思考。
3.4 國際組織參與模式
隨著人們對科學(xué)數(shù)據(jù)共享意識的提高,越來越多的國際組織參與進來,進行國際間的交流與合作,滿足國際社會對科學(xué)數(shù)據(jù)共享的需求。在國際科學(xué)聯(lián)合會(ICSU)的組織下,1957年成立了世界數(shù)據(jù)中心(World Data Center),開展地球科學(xué)、空間科學(xué)和環(huán)境科學(xué)領(lǐng)域數(shù)據(jù)的收集、整理、系統(tǒng)化、標(biāo)準(zhǔn)化及交流服務(wù)等活動。世界數(shù)據(jù)中心不僅在地球科學(xué)、空間科學(xué)和環(huán)境科學(xué)領(lǐng)域積極推進了數(shù)據(jù)管理和共享,還積極參與許多重大的國際科學(xué)計劃,為人類科學(xué)事業(yè)的發(fā)展作出了貢獻。國際科技數(shù)據(jù)委員會(Committee on Data for Science and Technology)成立于1966年,其宗旨是提高科學(xué)數(shù)據(jù)的質(zhì)量,推動對科學(xué)數(shù)據(jù)的收集、交換、服務(wù)和共享。CODATA 致力于提高對整個科技領(lǐng)域有重要變化的數(shù)據(jù)的質(zhì)量、可靠性、管理與可訪問性,向科學(xué)家和工程師提供對國際數(shù)據(jù)活動的訪問,促進直接合作,并利用互聯(lián)網(wǎng)初步構(gòu)建了全球范圍內(nèi)的科學(xué)數(shù)據(jù)交換體系。CODATA 通過建立標(biāo)準(zhǔn)格式促進數(shù)據(jù)交換、共享,并協(xié)調(diào)各國數(shù)據(jù)項目,定期召開國際數(shù)據(jù)學(xué)術(shù)會議,提高國際對科學(xué)數(shù)據(jù)共享的認(rèn)識和深入探討數(shù)據(jù)共享等學(xué)科方面的問題。
4 結(jié)語
以上這四種科學(xué)數(shù)據(jù)共享模式相互交叉和滲透,在大數(shù)據(jù)時代繼續(xù)存在并向深遠(yuǎn)發(fā)展。應(yīng)該說我國的科學(xué)數(shù)據(jù)資源十分豐富,近年來國家各有關(guān)部門相繼成立了專門的信息中心,如國家基礎(chǔ)地理信息中心、國家海洋信息中心、國土資源部信息中心、國家氣象信息中心等等,這些信息中心成為政府部門向社會提供公益性、基礎(chǔ)性服務(wù)的重要窗口。我國目前需要從政策法規(guī)、技術(shù)規(guī)范、組織管理各個層面保證科學(xué)數(shù)據(jù)共享工作的順利進展。endprint
首先,相較于歐美發(fā)達國家,我國政府對有關(guān)法規(guī)政策的發(fā)布還遠(yuǎn)遠(yuǎn)不夠,應(yīng)對大數(shù)據(jù)的挑戰(zhàn),政府必須出臺更多關(guān)于科學(xué)數(shù)據(jù)共享和數(shù)據(jù)開放方面的法規(guī)政策。
其次,加大數(shù)據(jù)開放平臺的建設(shè)。大數(shù)據(jù)時代開啟“智慧城市”的建設(shè),“智慧城市”是在城市化與信息化融合等背景下,綜合利用物聯(lián)網(wǎng)、云計算等信息技術(shù)手段,結(jié)合城市現(xiàn)有信息化基礎(chǔ),融合先進的城市運營服務(wù)理念,建立廣泛覆蓋和深度互聯(lián)的城市信息網(wǎng)絡(luò),對城市的資源、環(huán)境、基礎(chǔ)設(shè)施、產(chǎn)業(yè)等多方面要素進行全面感知,并整合構(gòu)建協(xié)同共享的城市信息平臺?!爸腔鄢鞘小苯ㄔO(shè)內(nèi)容繁多,在數(shù)據(jù)開放平臺的構(gòu)建中離不開科學(xué)數(shù)據(jù)的支撐,也從中促進科學(xué)數(shù)據(jù)的共享。
最后,在國際科學(xué)數(shù)據(jù)共享的大環(huán)境中,積極參與國際合作與交流,借鑒國際上先進的共享模式與經(jīng)驗,只有這樣才能提高我國科學(xué)數(shù)據(jù)共享水平,讓科學(xué)數(shù)據(jù)真正走出封閉的實驗室,走向社會,走向世界。
參考文獻:
[ 1 ] 趙國棟.大數(shù)據(jù)的定義和特征[EB/OL].[2013-10-11].http://blog.sina.com.cn/s/blog_537e497a01019pi3.html.
[ 2 ] 江洪,鐘永恒.國際科學(xué)數(shù)據(jù)共享研究[J].現(xiàn)代情報,2008(11):56-58.
[ 3 ] 黃鼎城,郭增艷.科學(xué)數(shù)據(jù)共享管理研究[M]北京:中國科學(xué)技術(shù)出版社,2002:36.
[ 4 ] 黃鼎城,郭增艷.科學(xué)數(shù)據(jù)共享管理研究[M]北京:中國科學(xué)技術(shù)出版社,2002:130-140.
[ 5 ] 歐盟委員會副主席Neelie Kroes:希望每個歐洲人都
參與數(shù)字化[EB/OL].[2013-10-11].http://www.open-access.net.cn/5f00653e83b753d652a86001/20125e74/46708/6b2776df59d454584f1a526f4e3b5e2dneelie-kroes-5e0c671b6bcf4e2a6b276d324eba90fd53c24e0e-65705b575316.
[ 6 ] 劉潤達,趙輝,李大玲. 科學(xué)數(shù)據(jù)共享平臺之?dāng)?shù)據(jù)聯(lián)盟模式初探[J].中國基礎(chǔ)科學(xué),2010(6):27-32.
[ 7 ] 地震科學(xué)數(shù)據(jù)共享管理辦法[EB/OL].[2013-10-11].http://data.earthquake.cn/policy/gxbf.htm.
[ 8 ] 浙江建成全國首家省級地理空間數(shù)據(jù)平臺[EB/OL].[2013-10-11].http://kjsb.zjol.com.cn/html/2013-02/22/content_21927.htm.
左建安 南京大學(xué)信息管理系2011級碩士研究生。江蘇南京, 210093。
陳 雅 南京大學(xué)信息管理系教授。江蘇南京, 210093。
(收稿日期:2014-02-08 編校:劉 明)endprint