国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

時空大數(shù)據(jù)挖掘分析及可視化技術(shù)研究與系統(tǒng)設(shè)計

2020-03-17 09:10:36曹全龍石善球
江蘇科技信息 2020年3期

曹全龍,石善球

(江蘇省基礎(chǔ)地理信息中心,江蘇南京 210013)

0 引言

以大數(shù)據(jù)、物聯(lián)網(wǎng)、云計算等為代表的信息技術(shù)迅猛發(fā)展,引領(lǐng)著新一輪科技革命和產(chǎn)業(yè)變革,正在日益改變?nèi)藗兊纳a(chǎn)生活方式、經(jīng)濟運行機制和社會治理模式。大數(shù)據(jù)既是大機遇,也是大紅利。國家已經(jīng)把大數(shù)據(jù)發(fā)展上升為國家戰(zhàn)略,大數(shù)據(jù)對經(jīng)濟建設(shè)、行業(yè)發(fā)展、政府宏觀管理等各方面都起到重要的基礎(chǔ)支撐作用。

隨著智慧城市的發(fā)展,很多城市都在開展時空大數(shù)據(jù)平臺建設(shè),通過建立基礎(chǔ)時空框架,提供豐富多樣的時空數(shù)據(jù)服務(wù),滿足城市運行和管理的自動化、智能化需求。時空大數(shù)據(jù)主要包含基礎(chǔ)地理數(shù)據(jù)、遙感影像數(shù)據(jù)、行業(yè)專題數(shù)據(jù)、互聯(lián)網(wǎng)大數(shù)據(jù)、物聯(lián)網(wǎng)及GPS實時數(shù)據(jù)等,數(shù)據(jù)量龐大,種類繁多,格式各異。為了更好地利用數(shù)據(jù)服務(wù)行業(yè)發(fā)展和政府管理,充分發(fā)揮時空大數(shù)據(jù)的信息支撐作用,迫切需要解決數(shù)據(jù)的挖掘提取、整合分析以及可視化表達(dá)等問題。

1 發(fā)展現(xiàn)狀及存在問題

時空大數(shù)據(jù)挖掘通過數(shù)據(jù)表達(dá)、信息組織與知識發(fā)現(xiàn)等手段發(fā)現(xiàn)數(shù)據(jù)深層次的特征和規(guī)律,主要包含時空模式挖掘、時空聚類、時空分類、時空異常檢測等內(nèi)容[1]。根據(jù)挖掘?qū)ο罂煞譃閮深悾阂活愂敲嫦虻乩憝h(huán)境的時空大數(shù)據(jù)挖掘。例如,基于遙感大數(shù)據(jù)實現(xiàn)夜光遙感影像支持下的全球社會經(jīng)濟動態(tài)監(jiān)測,利用夜光克服統(tǒng)計數(shù)據(jù)的誤差以及空間信息量不足等問題,客觀反映區(qū)域的繁榮程度;基于中低高分辨率遙感數(shù)據(jù)實現(xiàn)農(nóng)業(yè)遙感監(jiān)測,根據(jù)不同作物在影像上呈現(xiàn)不同的光譜、紋理特征,提取農(nóng)作物信息作為農(nóng)作物長勢監(jiān)測或產(chǎn)量估算的模型參數(shù),進行農(nóng)作物產(chǎn)量統(tǒng)計分析。另一類是面向人類社會活動的時空大數(shù)據(jù)挖掘。例如,可基于移動軌跡數(shù)據(jù)(浮動車軌跡數(shù)據(jù)、人類出行軌跡數(shù)據(jù))對交通狀況進行預(yù)測,通過社交媒體數(shù)據(jù)(微博簽到數(shù)據(jù)、點評數(shù)據(jù))對用戶時空行為模式進行分析等。

時空大數(shù)據(jù)可視化通過把數(shù)據(jù)挖掘出來的數(shù)據(jù)和信息以直觀、動態(tài)的方式呈現(xiàn)給用戶。目前,主要借助豐富的圖表對點、線、區(qū)域等數(shù)據(jù)進行可視化表達(dá),如散點圖、氣泡圖、熱力圖等多種形式,幫助用戶從不同角度觀察和分析數(shù)據(jù),聚焦趨勢規(guī)律。常用的時空數(shù)據(jù)可視化包括3種:第一種是時序數(shù)據(jù)可視化。以實現(xiàn)時間序列數(shù)據(jù)的分類、聚類、查詢、模式發(fā)現(xiàn)和預(yù)測為目的。第二種是軌跡數(shù)據(jù)可視化。軌跡數(shù)據(jù)描述物體的空間位置和屬性隨時間的變化,多見于交通、氣象、生態(tài)和移動服務(wù)等領(lǐng)域。軌跡可視化方法可以分為位置動畫、路徑可視化、時空立方體、時間軸可視化以及平行坐標(biāo)。第三種是網(wǎng)絡(luò)可視化。通過把復(fù)雜系統(tǒng)建模成一種網(wǎng)絡(luò)進行分析,比如常見的電力網(wǎng)絡(luò)、航空網(wǎng)絡(luò)、交通網(wǎng)絡(luò)、計算機網(wǎng)絡(luò)以及社交網(wǎng)絡(luò)等。

時空大數(shù)據(jù)不斷被應(yīng)用于各個領(lǐng)域,產(chǎn)生了許多新的研究模式,但是傳統(tǒng)的數(shù)據(jù)存儲、分析和表現(xiàn)方法卻難以支撐新的研究模式形成。一方面,當(dāng)前時空數(shù)據(jù)的分析多基于軟件或平臺提供的單一模型,對于復(fù)雜分析和個性化分析缺少支撐,需要提供以通用分析模型為基礎(chǔ)、以個性化定制手段為依托的模型管理器,幫助構(gòu)建知識鏈模型。另一方面,目前大數(shù)據(jù)可視化存在專題單一、圖表簡單、不能充分表現(xiàn)分析結(jié)果的問題,需要提供豐富的專題表達(dá)及圖表類型,增強大數(shù)據(jù)分析成果可視化表達(dá)。此外,面對TB級別甚至是PB級別的非結(jié)構(gòu)化海量數(shù)據(jù)時,傳統(tǒng)的數(shù)據(jù)存儲管理策略和時空分析算法難以滿足時空大數(shù)據(jù)高效存儲和實時處理分析的需求。

2 關(guān)鍵技術(shù)

2.1 分析挖掘技術(shù)

大數(shù)據(jù)分析挖掘的過程分為采集、預(yù)處理、儲存、實時處理和應(yīng)用等,其關(guān)鍵技術(shù)在于如何利用計算機處理大數(shù)據(jù)[2]。而時空大數(shù)據(jù)分析挖掘主要針對具有時間序列的地理空間矢量數(shù)據(jù)和影像數(shù)據(jù)。

其中,矢量大數(shù)據(jù)分析處理需要支持各種矢量數(shù)據(jù)的分布式計算和分析,為實現(xiàn)基于大數(shù)據(jù)的應(yīng)用和決策提供支撐。不同類型的終端能夠通過API接口調(diào)用計算和分析功能,實現(xiàn)與應(yīng)用程序的集成,提高數(shù)據(jù)的分析挖掘能力。矢量大數(shù)據(jù)分析挖掘主要包括位置查找、統(tǒng)計匯總、分析計算、模型構(gòu)建等功能,可以通過各類功能的定制,快速搭建特定場景的矢量大數(shù)據(jù)分析工具,滿足業(yè)務(wù)應(yīng)用需求。

影像大數(shù)據(jù)分析處理需要支持各類衛(wèi)星影像數(shù)據(jù)、航空影像數(shù)據(jù)和無人機影像數(shù)據(jù)等。不同終端的應(yīng)用程序通過API接口進行影像大數(shù)據(jù)的展示、分析和處理。影像大數(shù)據(jù)分析挖掘主要包括查詢檢索、對比展示、處理分析等功能。同樣,也可以通過功能定制搭建滿足特定業(yè)務(wù)需要的影像大數(shù)據(jù)分析工具。

2.2 可視化技術(shù)

大數(shù)據(jù)可視化分析是指通過數(shù)據(jù)挖掘和建模,同時利用支持信息可視化的用戶界面運用人機交互方式與技術(shù)對數(shù)據(jù)進行可視化映射,有效融合計算機的計算能力和圖形圖像的表達(dá)能力,提高數(shù)據(jù)使用者對于大規(guī)模復(fù)雜數(shù)據(jù)集的認(rèn)知力和洞察力[3]。

時空大數(shù)據(jù)可視化技術(shù)主要采用多視圖整合、多維度展現(xiàn)的方式,以地圖為基礎(chǔ),疊加柱狀圖、餅狀圖、散點圖、氣泡圖、熱力圖等各類統(tǒng)計圖表,具有較好的直觀性和可讀性,而且可提供桌面端、Web端、移動端、大屏端等多種展示載體,滿足不同場合的應(yīng)用需求。

可視化技術(shù)可以針對不同部門或主題的數(shù)據(jù)信息將統(tǒng)計結(jié)果按主題或類別成體系地進行展現(xiàn),既可形成單獨的統(tǒng)計分析結(jié)果,又可形成綜合統(tǒng)計結(jié)果,從而展示數(shù)據(jù)背后的信息,為用戶進行數(shù)據(jù)的洞察分析、規(guī)律發(fā)現(xiàn)提供支撐作用。

針對不同應(yīng)用需求,提供面向?qū)n}和業(yè)務(wù)應(yīng)用場景構(gòu)建相應(yīng)的分析指標(biāo)能力,快速實現(xiàn)各類指標(biāo)的流程化定制。不但可以按照業(yè)務(wù)要求快速完成分析指標(biāo)的搭建工作,還能夠滿足簡單指標(biāo)和復(fù)合指標(biāo)中的各類指標(biāo)定制、指標(biāo)驗證、指標(biāo)發(fā)布和指標(biāo)管理及指標(biāo)執(zhí)行優(yōu)化的要求,并對業(yè)務(wù)指標(biāo)、圖、表、空間等多種控件進行組合展現(xiàn)。同時,提供拖拽式的交互方式、豐富的可視化組件、視覺模板預(yù)置、支持多數(shù)據(jù)源接入等可視化功能。用戶通過簡單的拖拽、選擇等操作就能得到分析結(jié)果,分析生成的圖表支持下載導(dǎo)出,也可以直接應(yīng)用到專題圖制作中。

2.3 數(shù)據(jù)存儲和處理技術(shù)

時空大數(shù)據(jù)按照數(shù)據(jù)大小分為兩類:一類是數(shù)據(jù)存儲量小但數(shù)量大的文件,如各類傳感器數(shù)據(jù)。另一類是存儲量大的文件,如遙感影像數(shù)據(jù),特別是高清影像,單張圖片的大小達(dá)GB級。加上各式種類的其他數(shù)據(jù),時空大數(shù)據(jù)的規(guī)模正在以PB級的數(shù)量增長。為了實現(xiàn)對時空大數(shù)據(jù)的挖掘分析,先要實現(xiàn)各類數(shù)據(jù)的存儲和管理。傳統(tǒng)關(guān)系型數(shù)據(jù)庫雖然存儲和管理表單數(shù)據(jù)比較便捷、實用性強,但是對于海量的時空大數(shù)據(jù)存儲和檢索效率不高,影響數(shù)據(jù)的計算分析性能,尤其是時空大數(shù)據(jù)來源廣、種類雜、格式多,采用傳統(tǒng)的存儲方式數(shù)據(jù)可靠性和可擴展性存在問題,不利于數(shù)據(jù)的高效管理。分布式文件系統(tǒng)HDFS提供了針對數(shù)據(jù)文件的分布式存儲模式,根據(jù)文件大小將文件分為許多的小數(shù)據(jù)塊存儲在不同數(shù)據(jù)節(jié)點的文件存儲系統(tǒng)里,并建立數(shù)據(jù)之間的索引機制,實現(xiàn)對數(shù)據(jù)的分塊存儲和快速檢索,從而提高數(shù)據(jù)的讀寫性能。同時,在處理數(shù)據(jù)時,可將處理任務(wù)分散到多個存儲節(jié)點上,實現(xiàn)分布式并行計算,很大程度上提高海量數(shù)據(jù)的分析處理能力。

3 系統(tǒng)設(shè)計

3.1 系統(tǒng)特點

針對時空大數(shù)據(jù)分析及可視化展示需求,結(jié)合當(dāng)前存在的問題,設(shè)計了一套時空大數(shù)據(jù)分析挖掘及可視化系統(tǒng)。系統(tǒng)的大數(shù)據(jù)分析功能通過調(diào)用ArcGIS GeoAnalytic Server的已有工具以及基于J2EE自主開發(fā)的擴展功能來實現(xiàn),形成REST服務(wù)提供Java服務(wù)端調(diào)用并提供給客戶端,數(shù)據(jù)源為ArcGIS DataStore,HIVE或HDFS,利用快速的分布式計算和存儲,快速處理帶有時間和空間值的矢量或者表格數(shù)據(jù)的新產(chǎn)品,挖掘數(shù)據(jù)在時空上的分布特征,并通過D3,ECharts,Html5等前臺開發(fā)工具進行可視化表現(xiàn)。

3.2 總體架構(gòu)

系統(tǒng)總體架構(gòu)如圖1所示。

3.3 模塊劃分

3.3.1 工作空間管理

圖1 系統(tǒng)總體架構(gòu)

工作空間是系統(tǒng)用戶的工作區(qū)域。在工作空間內(nèi),用戶可以自由選擇添加數(shù)據(jù)集、移除數(shù)據(jù)集、制作模型、保存結(jié)果以及以可視化方式展示結(jié)果。用戶可以實現(xiàn)工作空間的創(chuàng)建、編輯、刪除等功能。

3.3.2 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理主要實現(xiàn)數(shù)據(jù)過濾、數(shù)據(jù)檢查、空間化匹配等功能。支持用戶對基礎(chǔ)數(shù)據(jù)的簡單過濾,以及空間數(shù)據(jù)匹配、地名地址匹配,以實現(xiàn)數(shù)據(jù)的空間關(guān)聯(lián)和地址匹配,便于參與模型分析和統(tǒng)計計算。

3.3.3 數(shù)據(jù)集管理

通過數(shù)據(jù)集管理模塊,用戶可以實現(xiàn)數(shù)據(jù)集的新增、刪除、編輯、查詢等操作,也可以將工作空間內(nèi)處理后的數(shù)據(jù)集上傳至用戶數(shù)據(jù)庫。

3.3.4 知識引擎

知識引擎針對不同的業(yè)務(wù)場景組合不同的知識模型形成知識鏈,采用各種可視化的方式展現(xiàn)知識鏈運行分析的結(jié)果,主要通過建立流程實現(xiàn)。它是進行數(shù)據(jù)分析挖掘的基礎(chǔ)和支撐。

(1)知識模型。知識模型是知識引擎的核心,它主要通過特定的算法實現(xiàn)各類通用的統(tǒng)計分析和空間分析。

(2)流程引擎。流程引擎負(fù)責(zé)知識流程流轉(zhuǎn)的驅(qū)動,讓知識模型在定制的流程結(jié)構(gòu)中以節(jié)點和節(jié)點組合的方式進行運轉(zhuǎn)并輸出結(jié)果。

3.3.5 數(shù)據(jù)制圖與可視化

數(shù)據(jù)制圖與可視化將用戶工作空間內(nèi)模型定制生成的結(jié)果或者用戶自己上傳的數(shù)據(jù)以可視化的形式進行展現(xiàn)。支持對數(shù)據(jù)進行多種樣式的可視化展現(xiàn)(表格、圖表、地圖等),并可將可視化成果保存為本地文件、直接打印、輸出、共享或發(fā)布為服務(wù),分享給其他用戶使用。

4 結(jié)語

時空大數(shù)據(jù)作為智慧城市建設(shè)的時空信息基礎(chǔ)設(shè)施,對推動信息化發(fā)展具有重要作用。通過研究時空大數(shù)據(jù)的挖掘分析及可視化技術(shù),并構(gòu)建相應(yīng)的分析挖掘及可視化系統(tǒng),可以為時空大數(shù)據(jù)分析及地理信息共享應(yīng)用提供支撐。

(責(zé)任編輯 姚鑫)

大理市| 顺平县| 蒲江县| 子洲县| 宁乡县| 长兴县| 山阳县| 克山县| 兴海县| 磐安县| 和政县| 克什克腾旗| 古丈县| 崇信县| 新余市| 阿城市| 舞钢市| 京山县| 枝江市| 梁山县| 岳阳市| 靖宇县| 霍林郭勒市| 承德县| 都安| 商洛市| 湖南省| 永和县| 蓝山县| 阿尔山市| 岐山县| 贵溪市| 香格里拉县| 微山县| 贡嘎县| 天镇县| 崇阳县| 龙州县| 治县。| 新余市| 秦皇岛市|