国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)技術應用于地理國情數(shù)據(jù)分析的探討

2020-11-27 09:28聞紹川
商品與質量 2020年24期
關鍵詞:國情分布式檢索

聞紹川

大連智慧星云科技有限公司 遼寧沈陽 110034

1 綜合分析系統(tǒng)總體架構

分布式搜索引擎ElasticSearch(簡稱ES)是一個開源的、基于Lucene 的分布式搜索引擎,可以提供穩(wěn)定、實時、可靠的檢索服務,具有高可用、易擴展、實時等特點。ES 使用分布式索引文件存儲,可執(zhí)行快速分析搜索,并擴展到上百臺服務器,能處理PB 級結構化或非結構化數(shù)據(jù)。本文在分析基于ES 的數(shù)據(jù)組織、分布式集群、分布式索引、地理形狀與地理位置聚合、實時空間查詢、統(tǒng)計分析等關鍵技術的基礎上,設計開發(fā)了一種面向Web 應用的地理國情綜合分析系統(tǒng),采用1000 多萬條地表覆蓋數(shù)據(jù)進行模擬試驗,驗證了其分析的高效性和可用性[1]。

1.1 地理國情時空大數(shù)據(jù)存儲結構設計

地理國情地表覆蓋成果數(shù)據(jù)包含林地、耕地、草地、建設用地、水域等多種地物類型,是地理國情普查成果中重要的組成部分,其數(shù)據(jù)量大,復雜度高,具有較強的代表性。

1.2 ES 分布式集群

搭建的ES 集群包含5 臺虛擬機服務器,集群內部選出一個主節(jié)點,其他作為數(shù)據(jù)節(jié)點,主節(jié)點同時也作為數(shù)據(jù)節(jié)點使用。使用Head、Kibana 等客戶端管理整個集群,并調用集群服務。集群使用了復制和分片技術,索引文件分片數(shù)為5,復制數(shù)為1,分片和復制特性的同步啟用可起到高性能分布式存儲及容災備份的作用。

1.3 分布式索引構建

采用CSV 文本作為空間數(shù)據(jù)交換格式。CSV 文本中每一行表示一個空間要素,用逗號分隔屬性內容,空間對象使用WKT 方式表達。將ArcGISFileGeodatabase 空間數(shù)據(jù)轉換為WKT 字符串,最后在ArcMap 中將屬性表導出為文本格式。

在執(zhí)行數(shù)據(jù)分析前,首先需要將時空大數(shù)據(jù)寫入ES 集群中。本文基于ESJavaAPI 開發(fā)了專門的數(shù)據(jù)維護客戶端,客戶端逐行讀取CSV 文本,按逗號切割,并指定每個字段的存儲類型,完成預處理后再調用ESJavaAPI,發(fā)送至ES 集群主節(jié)點進行索引構建。由于時空大數(shù)據(jù)中存在需要模糊搜索的文本信息,因此引入了IK分詞器(IKAnalyzer)來解決中文分詞問題[2]。

1.4 地理對象索引模型

時空大數(shù)據(jù)中包含的地理空間對象體積龐大,必須引入空間索引算法才能對其進行快速空間檢索。ES 中提供了2 種索引算法,地理哈希(Geo-hashPrefixTree)和象限四叉樹(QuadPrefixTree),ES 默認使用地理哈希算法。地理哈希是一種將經(jīng)緯度坐標編碼成字符串的方式,把整個地球分為32 個單元的格子,每個單元的格子可以再分解成32 個單元,不斷重復。象限四叉樹算法和地理哈希算法類似,但每個層級都是4 個單元。地理哈希算法適用于沒有空間關聯(lián)關系的點數(shù)據(jù),象限四叉樹算法適用于鄰接邊問題比較普遍的線、面等復雜數(shù)據(jù)。

1.5 地理國情綜合統(tǒng)計分析

地理國情綜合統(tǒng)計分析服務是以地理國情地表覆蓋數(shù)據(jù)為基礎的實時地理分析服務,提供對某一區(qū)域的快速查詢和統(tǒng)計分析服務。系統(tǒng)允許用戶在瀏覽器端提交行政區(qū)劃、空間范圍、時間范圍、統(tǒng)計字段等參數(shù),分析服務可快速返回查詢統(tǒng)計詳情,結果以可視化圖表的形式展示。地理國情綜合統(tǒng)計分析服務的分析功能包括全文檢索、基本統(tǒng)計,空間檢索、綜合統(tǒng)計分析、格網(wǎng)分析等服務接口。

1.5.1 全文檢索

系統(tǒng)可以對特定字段執(zhí)行模糊搜索、精確匹配、多字段檢索、范圍搜索、通配符檢索等常規(guī)全文檢索操作,并支持檢索結果的過濾和排序。具體操作時,使用ESAPI 的match 和query 查詢語句,返回結果為JSON 數(shù)組,數(shù)組中每個JSON 對象包含CC、CCNAME 等所有屬性及空間字段信息,用戶也可以定制請求返回感興趣的字段。返回內容包含WKT 空間字段,系統(tǒng)可將詳細信息展示在Web 前端地圖上。本查詢接口還支持服務端分頁功能。

1.5.2 空間檢索

空間檢索功能可實現(xiàn)規(guī)則(或不規(guī)則)格網(wǎng)單元查詢、路網(wǎng)密度計算、高速公路出入口覆蓋居民地數(shù)量分析等大型統(tǒng)計分析的實時計算和快速響應??臻g檢索功能依賴空間索引來實現(xiàn),因此執(zhí)行檢索前必須完成所有空間幾何對象的索引構建??臻g檢索需要在查詢語句中添加空間范圍過濾參數(shù),空間范圍過濾參數(shù)支持WKT、GeoJSON 等格式,可以是點、線、面任意一種類型。ES 中通常使用組合查詢語句,并將空間對象字符串放入指定的filter 參數(shù)中,返回結果與常規(guī)全文檢索功能相同[3]。

1.5.3 基本統(tǒng)計分析

基本統(tǒng)計分析即計算滿足在一定約束條件下,某類型的最大值、最小值、平均值、總和、個數(shù)。該功能使用StatsAggregation 接口,會一次返回max、min、avg、sum、count5 個指標值。

1.5.4 綜合統(tǒng)計分析

ES 可在全文檢索或空間檢索的結果集上進行統(tǒng)計,即聚合(Aggregations)。聚合功能為ES 注入了統(tǒng)計分析的高級功能,用戶使用簡單的R EST 請求語句就可實現(xiàn)對大數(shù)據(jù)的統(tǒng)計指標提取,同樣的工作,在Hadoop 中需要編寫調試大段的Map R educe 腳本,而在ES 中僅調用一個API 就能實現(xiàn)。除提供類似于SQL 語言中的groupby、avg、sum 等常用函數(shù)外,AggregationsAPI 還支持更復雜的統(tǒng)計分析接口,例如平方和、方差、標準差、百分位數(shù)統(tǒng)計,其特有的桶聚合(bucketAggregations)可按一定規(guī)則進行分組統(tǒng)計,分組方式包括詞項(Terms)方式、過濾器(Filters)方式、數(shù)值范圍方式(R anges)、時間段(Dates)方式。例如,可針對地理國情數(shù)據(jù)CCNAME 類別進行分組統(tǒng)計,計算每個類別所占總面積的百分比。

2 結語

傳統(tǒng)的地理國情數(shù)據(jù)統(tǒng)計分析采用專門的GIS 統(tǒng)計軟件,計算量大、耗時久,不具備實時響應的能力。

猜你喜歡
國情分布式檢索
僑眷焦治稼:“古渡詩人”的家國情
多能互補分布式能源系統(tǒng)在數(shù)據(jù)中心的應用
分布式空戰(zhàn)仿真系統(tǒng)設計
悠悠游子心 深深家國情——一個普通海外留學生的成長
CNKI檢索模式結合關鍵詞選取在檢索中的應用探討
家國情 詩詞魂
淺析分布式發(fā)電對電力系統(tǒng)的影響
漫畫
瑞典專利數(shù)據(jù)庫的檢索技巧
2019年第4-6期便捷檢索目錄
吉木萨尔县| 黔西县| 郑州市| 连江县| 长兴县| 若羌县| 乌兰察布市| 儋州市| 宝丰县| 伊通| 赤峰市| 于都县| 西华县| 孟津县| 蓝山县| 三亚市| 萨迦县| 石渠县| 西华县| 义马市| 阿城市| 衡水市| 红原县| 宜丰县| 芷江| 南雄市| 沁源县| 湖北省| 西吉县| 武穴市| 海晏县| 温州市| 永德县| 普洱| 修水县| 白朗县| 博野县| 呼伦贝尔市| 东安县| 丰都县| 抚州市|