趙懂等
摘要:大數據技術的發(fā)展和大數據時代的來臨將對極大地推動GIS的發(fā)展。該文主要介紹了GIS當前的發(fā)展現(xiàn)狀及瓶頸,探討了GIS在大數據時代下的數據采集、數據存儲與管理及數據分析和挖掘所面臨的問題和初步的解決辦法,展望GIS在大數據時代下的發(fā)展前景。
關鍵詞:GIS;大數據;空間數據
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2014)32-7585-03
Abstract: As the development of the Big Data technology and the coming of the era of Big Data which will greatly promote the development of GIS. This paper introduces the current situation and the check point of GIS development, discusses the problem and some preliminary solution of data collection,storage and data mining of GIS.
Key words: GIS;big data;spatial data
自20世紀60年代的誕生以來,GIS(地理信息系統(tǒng))行業(yè)飛速發(fā)展,廣泛應用于資源調查、環(huán)境評估、災害預測、國土管理、城市規(guī)劃、郵電通訊、交通運輸、軍事公安、水利電力、公共設施管理、農林牧業(yè)、統(tǒng)計、商業(yè)金融等幾乎所有領域,為人們的生活提供了極大的便利。隨著GIS發(fā)展的實踐,人們發(fā)現(xiàn),GIS擁有海量的非結構化的空間數據,這些數據采集困難,存儲不便,處理起來也十分繁瑣。如何更加高效地讀寫和分析GIS的海量數據,這個問題困擾了一代又一代的GIS從業(yè)者。大數據概念的誕生及大數據時代的到來,提供了從本質上解決這個問題的希望。旨在處理越來越多的數據特別是非結構化數據的大數據技術,恰好契合了GIS發(fā)展了近半個世紀以來所面臨的最大的難題。在大數據時代,GIS龐大的數據量不再顯得臃腫,反而是一份巨大的資產,能夠帶來可觀的價值,這使得GIS與大數據的結合是GIS發(fā)展的必然趨勢。
1 什么是大數據
大數據其實并不是什么新鮮的事物,人們在大數據的概念被提出之前就已經開始在用大數據解決實際的問題了。沃爾瑪通過分析大量的數據從而得出將啤酒和尿布放在一起能提高啤酒的銷量的結論,這個人們耳熟能詳的案例在本質上就是一種典型的大數據的分析思路——雖然那時候人們并不稱之為大數據。
近年來大數據的概念空前火爆,各個研究機構、百科網站、大型公司都對大數據有不同的認識從而引出了不同的定義。而現(xiàn)在普遍認為大數據具有5V的特征屬性,即Volume(數據體量大)、Velocity(數據的更新速度、處理速度快)、Variety(具有多樣性)、Veracity(真實性)、Value(具有價值)。[1]
隨著社交網絡的誕生,LBS(基于位置的服務)的出現(xiàn),世界上的數據達到了前所未有的規(guī)模并且還在高速遞增,這就是大數據的Volume;而現(xiàn)在的數據不再僅僅是傳統(tǒng)的結構化數據,更多的是空間數據、視頻數據、網站點擊流數據等等這樣的不能存儲在傳統(tǒng)數據庫中的非結構化數據,這就是大數據的Variety;隨著物聯(lián)網的發(fā)展,如何優(yōu)秀地處理實時更新地傳感器數據是人們面臨的新的挑戰(zhàn),同時傳統(tǒng)的處理數據的方式必然會隨著數據量的增加從而導致數據的寫入和查詢速度越來越慢,如何提高數據讀寫的速度,也是人們必將面臨的問題,這就是大數據的Velocity;IBM認為,由于數據的噪音、缺失、不一致性、歧義等問題會導致數據的不確定性,因此大數據必然要具有真實性,這就是大數據的Veracity[2];與此同時,人們必須要認識到,現(xiàn)今的數據不再僅僅是獲取信息的媒介,而是一種資源,是能夠獲取經濟利益和挖掘相關知識的一種有價值的資產,這就是大數據的Value[3]。
大數據技術的進步必將對世界產生巨大的推動作用,同時人們的觀念也要發(fā)生改變。維克托·邁爾-舍恩伯格認為,在大數據時代人們將發(fā)生三個巨大的思維變革:①人們對數據的操作不再是針對隨機的樣本,而是面對全體的數據;②人們不再過多地要求數據的精準性,而是需要數據紛繁復雜,種類多樣;③人們不再追求事物的因果關系,轉而關注數據之間的相關關系[4]。這種觀念上的改變會隨著大數據的發(fā)展而逐漸作用于各個行業(yè)中,對整個人類社會的發(fā)展產生巨大的推動作用。
2 大數據時代下GIS的發(fā)展
作為一門從計算機科學衍生出來的綜合性學科,地理信息系統(tǒng)(GIS)從誕生起就跟計算機科學的發(fā)展密切相關。在pc機時代,桌面GIS是主流;在互聯(lián)網時代,WEBGIS大行其道;在云的概念誕生后,國內外的GIS公司也陸續(xù)推出了云GIS。而大數據時代的到來也將極大地促進GIS的發(fā)展:物聯(lián)網的發(fā)展和傳感器的普遍使用為GIS提供了豐富的數據來源;云計算降低了GIS的海量數據存儲和處理的成本;而大數據的相關技術會使GIS數據的存儲更加便捷和高效,同時使人們可以從海量的GIS數據中挖掘出相關的知識,并運用這些知識為國家治理、企業(yè)決策及個人生活服務。
傳統(tǒng)的GIS處理的數據分為屬性數據和空間數據。屬性數據會隨著時間的推移而導致其數據量越來越大從而具備結構化大數據的屬性,而在大數據概念未被提出來之前,龐大的非結構化的空間數據在本質上就是某種意義上的大數據。
雖然大數據時代下GIS數據依舊是屬性數據和空間數據,但是GIS數據的許多問題都需要用新的思路考慮和解決。筆者試著從GIS大數據的采集、GIS大數據的存儲與管理和GIS大數據的分析與挖掘三個方面思考大數據時代下GIS數據需要解決的問題。
2.1 GIS大數據的采集
結合傳統(tǒng)的GIS數據源,大數據時代下GIS的數據來源有地圖數字化數據、攝影測量數據、遙感影像數據、衛(wèi)星航圖數據、傳感器實時數據、RFID(射頻識別技術)數據、計算所得數據和歷史數據等。而通常我們認為,高質量的數據通常具有精確性、一致性、完整性、同一性、實效性和真實性這6大特性。精確性是指數據符合規(guī)定的精度,不超出規(guī)定的誤差范圍;一致性是指數據之間不存在相互矛盾;完整性指數據格式和數據內容的完整;同一性指數據具有統(tǒng)一的標識;時效性是指數據的值在不同的時間擁有不同的效果;真實性是指數據必須是真實可靠的,不能是偽造的[5]。
因此數據的獲取者需要從高質量的數據源中提取數據,建立完善的數據精度評價模型,逐步提高數據的精度,以獲取更精準的數據。而GIS數據源的種類各異,獲取數據的方法也各不相同,從而需要建立多源數據的實體關聯(lián)模型和識別模型、多源多模態(tài)數據的實體自動識別方法、實體識別效果的評估模型等,形成高質量的數據整合方法,將不同來源的GIS數據結合起來用于從多角度、全面地描述事物對象,保證數據的一致性。同時還需要建立完善的正確性條件和約束性規(guī)則以確保數據的完整性和同一性。GIS數據源中雖然有著傳感器數據這樣的實時性數據,也有地圖數字化數據這種低實時性的數據。我們需要運用所有能用到的數據來對事物進行分析,故而需要建立數據時效性分析模型,形成完善的時效性評價機制。與此同時,對于數據真實性的監(jiān)督必不可少,不僅僅要對數據進行溯源管理,還需要成立專門的數據監(jiān)管部門,確保數據的真實性。
2.2 GIS大數據的存儲與管理
存儲是分析的基礎,管理是挖掘的保障,隨著數據量的增加,數據的存儲和管理也需要發(fā)生從量變到質變的改進。海量的數據雖然可以為分析和挖掘提供豐富的數據來源使分析和挖掘更加準確和全能,但是也對數據的存儲和管理提出了新的要求。分布式的存儲和管理是處理大數據的一個基本的思路。大數據時代下GIS數據的存儲與管理有如下幾個問題:
①隨著數據的規(guī)模越來越大,數據庫如何存儲大規(guī)模的結構化數據和非結構化數據:分布式文件系統(tǒng)將數據分散存儲在各個節(jié)點上,存儲資源通過網絡連接:分布式數據庫可以用并行處理的方式解決傳統(tǒng)數據庫中數據增加的問題,像NoSQL這樣的數據庫通過放松對事務 ACID 語義的方法來增加系統(tǒng)的性能以及可擴展性。同時構建在 Hadoop 之上的類數據庫系統(tǒng)可以提供各自存儲模型所對應的查詢語言和訪問接口,既借用了SQL的優(yōu)點,又能夠適應大數據時代下新的挑戰(zhàn)。
②數據存儲的格式:傳統(tǒng)的GIS以矢量數據和柵格數據的格式對非結構化的空間數據進行了很好的存儲,但是矢量數據和柵格數據由于數據結構的差異在表達不同的地理信息方面 各有所長,將矢量數據和柵格數據的優(yōu)勢結合起來,將數據用矢柵一體化的技術存儲起來,將這種矢柵一體化的技術轉化為存儲格式的標準,則可以對矢量數據和柵格數據各取所長,以便數據能夠更方便高效地進行表達。[6]
③在數據庫與應用層之間建立良好的接口:大數據環(huán)境下的存儲與管理軟件棧,需要從上層應用中讀取 PB甚至 EB量級的數據,同時還需使上層應用能夠快速、準確、高效地訪問數據庫的各個節(jié)點以讀取數據,建立良好的訪問接口是必不可少的。而數據在數據層和應用層之間的流動過程中必須保證其正確性和準確性,則需要建立數據評價模型和數據保障模型以確保數據的可用性。
2.3 GIS大數據的分析與挖掘
傳統(tǒng)的空間數據雖然具備大數據的屬性,但是由于缺乏足夠的大數據的理論支撐,空間數據并不像如今的大數據時代所提到的大數據那樣的全能。其主要功能是用于展示和描述性分析,在預測分析和決策支持的相關方面比較弱勢。而在大數據時代,建立在相關關系分析法基礎上的預測是大數據的核心,同時人們需要從傳統(tǒng)的決策模式過渡到數據指導決策的新的模式中,在大數據持續(xù)發(fā)展的過程中,會漸漸地進化為數據即決策的行為模式[5]。同時隨著智慧城市、智慧地球等概念的興起和推廣,遙感數據、衛(wèi)星航圖影像數據隨著技術的更新而日益增加,傳感器數據隨著時間的推移不斷的累積,GIS的數據越來越多,然而與之相對應的是現(xiàn)在GIS行業(yè)面臨著一個問題:“數據龐雜,知識匱乏”。即人們擁有很多的數據,但是缺乏從數據中提取出來用于預測和決策支持的相關知識。在數據庫知識發(fā)現(xiàn)興起之后,隨著數據挖掘技術的不斷發(fā)展,人們將陸續(xù)從GIS龐大的數據庫中挖掘出相關的知識用于指導實踐。
大數據時代GIS的分析與挖掘面臨著如下的轉變和挑戰(zhàn):
①龐雜的數據使分析和挖掘變得更加復雜:大數據時代的到來使GIS本身就龐大的數據量急劇膨脹,同時由于大數據時代下的空間分析的分析對象從“樣本”轉換成了全體數據,這導致參與分析的數據量跟之前的樣本數據不能同日而語,人們需要對更加復雜、更大規(guī)模的數據進行分析和挖掘。大數據時代下空間分析的對象通常是TB級別的大數據,如何對其進行分析是一個巨大的挑戰(zhàn)。[7]
②數據深度分析需求的增長:要從浩如煙海的數據中挖掘出相關的知識用于指導實踐,必須對大數據進行深入的分析而不僅僅是生成報表。復雜的空間分析依賴復雜的模型,很難用SQL來表達,稱之為深度分析。人們不僅僅需要知道發(fā)生了什么,還需要對將要發(fā)生的事情進行預測,為將要發(fā)生的事情做好準備。
③自動化分析出現(xiàn):對大量的數據進行有效的分析,分析過程需要按照標準化的自動分析流程進行,這就要求計算機能夠分辨數據在數據結構上的差異,明白語義并自動地進行分析。
3 結論
大數據技術的發(fā)展和大數據時代的到來會對世界產生深刻的影響,也會極大地促進GIS的發(fā)展,這毫無疑問將是一個巨大的機遇。在大數據時代,GIS數據采集的手段、存儲和管理的形式、分析和挖掘的方法必將發(fā)生巨大的變革。作為一門以空間分析為核心、以指導決策為目的的綜合性學科,數據對GIS的重要性不言自明。要想在大數據時代發(fā)揮GIS的最大功效,必須采集高質量的數據,將數據進行安全、高效和方便的存取和管理,同時與時俱進地轉變分析的觀念和方法,才能在提高分析效率的同時保證分析的準確性。同時我們能看到,只有將GIS與大數據技術相結合,才能從根本上解決GIS龐大的數據量所面臨的各種問題,同時將GIS的海量的數據變成具有價值的資產,進而從這些數據中挖掘出知識。
參考文獻:
[1] 李清泉,李德仁.大數據GIS[J].武漢大學學報(信息科學版),2014,6(39):641-644.
[2] IBM. What is big data?[EB/OL].2012.http://www-01.ibm.com/software/data/bigdata/.
[3] Barwick H. The “four Vs” of Big Data. Implementing Information Infrastructure Symposium[EB/OL].2012.http://www.computerworld.com.au/article/396198/iiis_four_vs_big_data/
[4] 維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代(生活、工作與思維的大變革)[M].杭州:浙江人民出版社,2012.
[5] 李建中,劉顯敏.大數據的一個重要方面:數據可用性[J].計算機研究與發(fā)展,2013.50(6):1147-1162.
[6] 何嘉珈.矢柵數據一體化存儲技術研究[J].科技資訊,2009,(26) :233-233.
[7] 王樹良,丁剛毅,鐘鳴.大數據下的空間數據挖掘思考[J].中國電子科學研究院學報,2013,8(1):8-17.
[8] 嚴霄鳳,張德馨.大數據研究[J].計算機技術與發(fā)展,2013,4(23):168-172.
[9] 城田真琴.大數據的沖擊[M].北京:人民郵電出版社,2013.
[10] 孟小峰,慈祥.大數據管理:概念、技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146-169.
[11] 中國計算機學會大數據專家委員會.中國大數據技術與產業(yè)發(fā)展白皮書[Z].中國計算機學會,46-63.