国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于網(wǎng)絡(luò)的地理目標數(shù)據(jù)獲取與處理方法研究

2019-10-30 08:28:02戰(zhàn)略支援部隊信息工程大學葛磊劉海硯楊瑞杰
網(wǎng)信軍民融合 2019年10期
關(guān)鍵詞:屬性數(shù)據(jù)結(jié)構(gòu)化坐標系

◎ 戰(zhàn)略支援部隊信息工程大學 葛磊 劉海硯 楊瑞杰

隨著網(wǎng)絡(luò)信息資源的不斷豐富,基于網(wǎng)絡(luò)實現(xiàn)對地理實體目標信息的快速采集和更新成為可能。本文根據(jù)地理實體相關(guān)信息的分布和結(jié)構(gòu)特點,對現(xiàn)有地理目標位置數(shù)據(jù)的獲取方法進行了分析,提出了通過屬性歸一化、基于規(guī)則匹配抽取半結(jié)構(gòu)化地理目標屬性和基于弱監(jiān)督的條件隨機場模型抽取非結(jié)構(gòu)化文本中地理目標屬性的方法,并針對多源地理目標數(shù)據(jù)的不一致問題提出了數(shù)據(jù)融合處理的一般方法。

隨著“互聯(lián)網(wǎng)+”概念的提出,網(wǎng)絡(luò)已經(jīng)作為社會的基礎(chǔ)設(shè)施成為人類生活中不可分割的一部分。隨著各種傳統(tǒng)行業(yè)、服務(wù)行業(yè)與互聯(lián)網(wǎng)的深度結(jié)合,互聯(lián)網(wǎng)集聚了各行各業(yè)的信息資源,已成為人類各種信息的主要來源。然而,互聯(lián)網(wǎng)上的原始數(shù)據(jù)都是非結(jié)構(gòu)化或者半結(jié)構(gòu)化的,不能直接作為地理信息產(chǎn)品使用,如何快速準確獲取結(jié)構(gòu)化的地理實體目標數(shù)據(jù)仍面臨著許多挑戰(zhàn)。

一、地理空間數(shù)據(jù)網(wǎng)絡(luò)獲取現(xiàn)狀分析

地理空間數(shù)據(jù)獲取的主要手段是Web爬蟲技術(shù),即根據(jù)給定的一個網(wǎng)頁,通過對網(wǎng)頁中的鏈接進行解析發(fā)現(xiàn)其他網(wǎng)頁,然后不斷進行迭代爬取,直到完成對所有相關(guān)網(wǎng)頁的爬取。另一類信息獲取技術(shù)是利用一些專業(yè)網(wǎng)站提供的Web開發(fā)接口或者服務(wù)接口獲取特定類型的數(shù)據(jù),這類數(shù)據(jù)通常質(zhì)量較高,數(shù)據(jù)結(jié)構(gòu)良好,比較適合專業(yè)數(shù)據(jù)的獲取。地理空間數(shù)據(jù)獲取主要包括位置數(shù)據(jù)和屬性數(shù)據(jù)的獲取。

位置數(shù)據(jù)獲取方面,目前基于Web的地理信息獲取研究較多,大多集中在對地理實體位置數(shù)據(jù)的獲取,還存在數(shù)據(jù)獲取不完整、數(shù)據(jù)損失和數(shù)據(jù)冗余等問題,數(shù)據(jù)的準確度和數(shù)據(jù)結(jié)構(gòu)的完整性不能保證,同時對多源數(shù)據(jù)的融合和統(tǒng)一轉(zhuǎn)換問題的研究仍相對較少。

屬性數(shù)據(jù)獲取方面,MUC(消息理解會議,Message Understanding Conference)系列會議通過具體的任務(wù)進行信息抽取并建立了嚴格的評價體系對各個抽取系統(tǒng)進行評測,逐漸完善了基于模板和規(guī)則的信息抽取方案,形成了一套面向領(lǐng)域、基于規(guī)則的信息抽取體系,同時形成了一套完善的信息抽取結(jié)果評價指標體系。中文信息抽取的研究開始較晚,另外由于中文和英語在母單詞、語法和語義基本單元差別,使很多英文信息抽取方法不能直接應(yīng)用于中文信息抽取。當前中文信息抽取在命名實體識別的基礎(chǔ)上向關(guān)系抽取、關(guān)聯(lián)抽取、屬性抽取等更深層次發(fā)展。中文信息抽取系統(tǒng)目前仍集中在簡單任務(wù)方面,國內(nèi)學者采用規(guī)則匹配、機器學習等方法對文本信息的抽取進行了研究,其中,中科院的ICTCLAS和北大的會議新聞抽取系統(tǒng)實現(xiàn)了對簡單文本信息的準確抽取,但完善的中文信息抽取系統(tǒng)尚未成型。

二、地理目標位置數(shù)據(jù)的獲取

POI(Point of Interest,興趣點)是空間信息數(shù)據(jù)最鮮活的“血液”,它通常代表的是一類真實的地理實體。互聯(lián)網(wǎng)信息冗雜,高質(zhì)量的地理信息網(wǎng)站是獲取高質(zhì)量數(shù)據(jù)的最佳來源。百度地圖和高德地圖擁有豐富的國內(nèi)POI資源,并且提供了較為完善的開發(fā)接口,國外開源地圖OSM(Open Street Map)數(shù)據(jù)完全開放,歐洲、北美等地區(qū)的數(shù)據(jù)較為豐富。因此,位置數(shù)據(jù)獲取中國內(nèi)數(shù)據(jù)主要基于百度地圖和高德地圖數(shù)據(jù)進行抽取,境外數(shù)據(jù)的獲取將OSM作為數(shù)據(jù)源。

(一)國內(nèi)POI數(shù)據(jù)獲取

抽取百度地圖POI信息可利用百度地圖JavaScript API的服務(wù)類接口。百度地圖提供的開放接口是有限制的,通過檢索半徑和檢索關(guān)鍵詞限制單次大規(guī)模下載POI數(shù)據(jù)。針對檢索半徑的限制問題,采用多線程思想對任務(wù)區(qū)域進行分割,逐塊對每個任務(wù)區(qū)域進行處理,最后將各任務(wù)區(qū)域獲取的數(shù)據(jù)合并,在避免檢索半徑限制的同時能夠提高任務(wù)處理效率。檢索關(guān)鍵詞限制主要包括單次檢索關(guān)鍵詞數(shù)量的限制和所選關(guān)鍵詞檢索數(shù)據(jù)的完整性限制。單次檢索關(guān)鍵詞數(shù)量限制可通過多次構(gòu)建任務(wù)分批進行檢索。針對所選關(guān)鍵詞檢索的數(shù)據(jù)完整性限制,可采用兩種解決方法。一種是使用其提供的GeocoderResult.surroundingPois接口直接獲取數(shù)據(jù),該接口不需要提供關(guān)鍵詞,但獲取數(shù)據(jù)的屬性信息缺失較多;第二種是利用LocalSearch接口提供關(guān)鍵詞檢索。采用“美食”“酒店”“購物”等17個關(guān)鍵詞對鄭州地區(qū)某一區(qū)域進行了數(shù)據(jù)抽取實驗,得到POI數(shù)量707個,爬全率為96.717%,數(shù)據(jù)的完整性較好。百度地圖POI的獲取流程如圖1所示。

與百度地圖POI數(shù)據(jù)抽取相比,高德地圖提供的POI數(shù)據(jù)接口只有基于關(guān)鍵詞的周邊搜索方法AMap.PlaceSearch。高德地圖數(shù)據(jù)接口對單次檢索所選關(guān)鍵詞的數(shù)量沒有限制,主要在于單次檢索半徑的限制和檢索關(guān)鍵詞所獲取POI數(shù)據(jù)完整性限制。單次檢索半徑的限制同樣可利用百度POI獲取中的多線程方法進行處理。檢索關(guān)鍵詞的選取可參照高德地圖POI分類標準,選擇“汽車服務(wù)”“餐飲服務(wù)”“購物服務(wù)”“生活服務(wù)”等23個關(guān)鍵詞分別進行數(shù)據(jù)檢索。經(jīng)對比自動檢索與人工檢索、實地驗證相結(jié)合,對鄭州某一區(qū)域POI數(shù)據(jù)檢索的結(jié)果如圖2所示,POI總數(shù)744個,綜合爬全率96.373%,抽取數(shù)據(jù)的完整程度較為可靠。

(二)境外POI數(shù)據(jù)獲取

OSM旨在建立一個任何人都可以編輯的全球地理數(shù)據(jù)庫,該數(shù)據(jù)庫由Steve Coast在2004年7月建立。近年來,OSM數(shù)據(jù)量增長迅速,截至2014年3月1日,OSM數(shù)據(jù)量的總體情況為:GPS數(shù)據(jù)點總共3,829,201,844個,節(jié)點數(shù)量2,223,977,668個,路徑數(shù)量219,537,496個,關(guān)系數(shù)量2,406,517條,參與編輯的總用戶數(shù)量1,528,868個。OSM將地理實體分為30個要素類,每個類根據(jù)標簽的key和value分為若干小類。

從OSM中抽取POI要素的常用方法是直接將OSM數(shù)據(jù)轉(zhuǎn)換為常用的SHP格式,然后將SHP格式中的點要素作為POI要素。這種方法主要依賴第三方工具,實現(xiàn)較為簡單,但由于不同數(shù)據(jù)在地理位置和屬性定義等方面的差異,往往會造成POI數(shù)據(jù)缺失,另外該方法存在大量冗余操作,不利于海量數(shù)據(jù)的處理。

圖1 百度地圖POI獲取流程

圖2 高德地圖獲取POI信息

圖3 對OSM中Albania地區(qū)POI數(shù)據(jù)抽取結(jié)果

圖4 基于半結(jié)構(gòu)文本的屬性匹配抽取流程

根據(jù)OSM數(shù)據(jù)的存儲特征,可通過OSM標簽中的key和value值直接提取符合要求的信息。首先,建立一個不同key和value對應(yīng)的POI分類模板,確定需要提取的要素與類別,遍歷數(shù)據(jù)中所有要素標簽中的key和value,并與模板進行匹配,滿足匹配條件則保存該要素的所有值和坐標,從而實現(xiàn)POI信息的提取。采用該方法對Albania 地區(qū)的POI信息進行了提取,數(shù)據(jù)為PBF格式,數(shù)據(jù)大小15.24MB。共抽取POI數(shù)據(jù)5252條,用時3850ms,分別為POI的名稱、OSMID、坐標、類別等屬性信息,如圖3所示。該方法效率較高(相同硬件環(huán)境下,利用ArcGIS_Editor_OSM插件對上述數(shù)據(jù)進行轉(zhuǎn)換耗時30秒以上)。

三、基于文本信息的地理目標屬性數(shù)據(jù)獲取

地理目標的屬性信息主要包含在網(wǎng)絡(luò)文本數(shù)據(jù)中。網(wǎng)絡(luò)上的文本數(shù)據(jù)按照其結(jié)構(gòu)化程度可分為半結(jié)構(gòu)化文本和非結(jié)構(gòu)化文本兩類。半結(jié)構(gòu)化文本是介于結(jié)構(gòu)化文本與非結(jié)構(gòu)化文本之間的一種文本形式,通常比較簡短,結(jié)構(gòu)特征比較明顯,如百度百科的信息框;非結(jié)構(gòu)化文本中的文字完全是按照自然語言規(guī)則,即按人類的理解方式產(chǎn)生的文本,通常有新聞報道、文獻資料等,如百度百科的正文部分。網(wǎng)絡(luò)文本數(shù)據(jù)通常以非結(jié)構(gòu)化數(shù)據(jù)為主,半結(jié)構(gòu)化數(shù)據(jù)為輔。百科網(wǎng)站中關(guān)于地理空間目標的信息通常比其他網(wǎng)站更為詳細可靠,且同時包含半結(jié)構(gòu)化文本和非結(jié)構(gòu)化文本,因此將其作為屬性數(shù)據(jù)獲取研究的基礎(chǔ)。

(一)基于半結(jié)構(gòu)化文本的目標屬性數(shù)據(jù)獲取

半結(jié)構(gòu)化文本的屬性數(shù)據(jù)抽取中,首先根據(jù)地理實體名字獲取所在百科頁面信息框信息,統(tǒng)計信息框的所有屬性,計算其與預(yù)定義屬性的相似度,得到同義屬性,進而抽取對應(yīng)屬性值,建立地理實體、屬性、屬性值之間的對應(yīng)關(guān)系,具體流程如下圖4所示。

由于文本語義表達的多樣化,不同文本在表達地理實體的同一個屬性時可能采用不同關(guān)鍵詞,稱為同義屬性詞。屬性數(shù)據(jù)獲取中需要對關(guān)鍵詞進行識別,將表達地理實體同義屬性詞識別出來并合并為同一屬性,建立每個屬性項對應(yīng)的關(guān)鍵詞集合,這一過程稱為屬性項歸一化。地理實體屬性項歸一化是實現(xiàn)半結(jié)構(gòu)化文本屬性數(shù)據(jù)獲取的關(guān)鍵。

屬性項歸一化的實質(zhì)是判斷屬性項詞之間的同義性,因此需要對屬性項的相似度進行度量,可采用字面相似度、語義相似度等指標度量屬性項相似度。字面相似度的計算簡單方便,不需要依賴大量的訓練庫和字典,適合計算簡單、字面相似詞的相似度;采用基于Word2vec的訓練模型訓練得到的詞向量度量語義相似度,具有維度低、快速、準確等優(yōu)點;基于同義詞的語義距離度量詞語相似度在計算較短詞語的很有效,但處理長詞語時會有偏差??蓪⑷哌M行結(jié)合,采用三個相似度中的最大值作為最終屬性項相似度。

(二)基于非結(jié)構(gòu)化文本的目標屬性數(shù)據(jù)獲取

非結(jié)構(gòu)化文本中目標屬性數(shù)據(jù)的獲取通常采用基于統(tǒng)計的機器學習方法。傳統(tǒng)的有監(jiān)督學習需要大量的人工標注語料進行模型訓練,海量的文本數(shù)據(jù)所需的人工標注工作量巨大?;谌醣O(jiān)督學習可以利用一些已有知識庫的實體關(guān)系生成訓練數(shù)據(jù),減少人工標注量。在半結(jié)構(gòu)化文本屬性抽取的基礎(chǔ)上,采用基于弱監(jiān)督的條件隨機場抽取地理目標屬性,利用實體屬性關(guān)系對非結(jié)構(gòu)化文本進行自動標注產(chǎn)生訓練語料,基于條件隨機場模型對訓練語料進行學習生成地理目標屬性模型,根據(jù)訓練語料訓練的地理實體屬性模型可實現(xiàn)對非結(jié)構(gòu)化文本中的地理實體屬性的抽取?;谌醣O(jiān)督條件隨機場的屬性數(shù)據(jù)提取流程如圖5所示。

語料預(yù)處理是保證文本信息抽取準確性的基礎(chǔ),尤其是中文文本,其基本的語義單元可能是一個或者多個字,直接抽取根本得不到預(yù)期結(jié)果。語料預(yù)處理時,首先剔除百科文檔中包含的圖片標簽和廣告標簽,按照結(jié)構(gòu)化的信息框和非結(jié)構(gòu)化文本分割存儲;采用3.1的方法將結(jié)構(gòu)化信息框中相關(guān)的地理目標屬性提取出來;而后將非結(jié)構(gòu)化文檔中的HTML標簽去除得到純文本內(nèi)容,根據(jù)標點符號將非結(jié)構(gòu)化文本拆分成單個句子,依據(jù)開放分類對提取的信息進行分類,為基于地理實體類別訓練模型抽取屬性數(shù)據(jù)提供基礎(chǔ)。

圖5 基于弱監(jiān)督的條件隨機場地理目標屬性提取流程

基于條件隨機場模型抽取地理目標屬性實質(zhì)是利用統(tǒng)計學模型學習自由文本中某個實體屬性的觸發(fā)詞特征、屬性值特征和分布特征,根據(jù)這些特征去預(yù)測并抽取輸入文本中包含的地理實體屬性信息。特征選擇的好壞直接影響條件隨機場模型的識別準確度,可采用屬性特征標注、字特征、詞特征和詞性特征對文本信息進行訓練,根據(jù)抽取任務(wù)的差異選擇合適的特征以提高信息提取的準確率和效率。

四、多源地理目標數(shù)據(jù)處理

基于網(wǎng)絡(luò)獲取的地理目標數(shù)據(jù)由于來源不同,其坐標系統(tǒng)和數(shù)據(jù)表達方式均有所差別,需對其進行轉(zhuǎn)換和融合處理,使數(shù)據(jù)能夠滿足不同應(yīng)用的需求。

(一)多源地理數(shù)據(jù)空間坐標系統(tǒng)統(tǒng)一

坐標是空間信息的核心數(shù)據(jù),是POI數(shù)據(jù)準確性的重要體現(xiàn),是數(shù)據(jù)融合的重要依據(jù)。由于數(shù)據(jù)的采集來源、應(yīng)用需求的不同和數(shù)據(jù)安全原因,通常不同來源POI數(shù)據(jù)的坐標系統(tǒng)也是有差異的。其中OSM數(shù)據(jù)使用的坐標系是WGS-84地心坐標系;高德地圖采用的是中國國家測繪局制定的GCJ-02坐標系,該坐標系對原始坐標加入隨機偏差,對地理位置信息進行加密;百度地圖采用的是自定義的BD-09坐標系,該坐標系在國家測繪局GCJ-02坐標系的基礎(chǔ)上進行了二次坐標加密。

WGS-84坐標系是國外地圖服務(wù)商和數(shù)據(jù)供應(yīng)商常用的地理坐標系,GCJ-02是所有國內(nèi)公開發(fā)布的地理信息數(shù)據(jù)必須使用的坐標系。WGS-84坐標系和GCJ-02坐標系兩個坐標系的轉(zhuǎn)換是不可逆的,即WGS-84坐標系下的坐標可以精確轉(zhuǎn)換至GCJ-02坐標系而不發(fā)生隨機位置偏移;但是GCJ-02坐標系下的坐標轉(zhuǎn)換至WGS-84坐標系下會產(chǎn)生較大的隨機位置偏移。BD-09和GCJ-02坐標系則可以互相進行精確轉(zhuǎn)換。

根據(jù)三種坐標系的特點,從數(shù)據(jù)獲取和應(yīng)用兩方面綜合考慮,對多源POI數(shù)據(jù)的坐標系統(tǒng)進行統(tǒng)一,境外數(shù)據(jù)采用WGS-84坐標系進行組織管理,后期應(yīng)用中可根據(jù)需求自由轉(zhuǎn)換;國內(nèi)數(shù)據(jù)統(tǒng)一采用GCJ-02坐標系,需將百度地圖數(shù)據(jù)轉(zhuǎn)換為GCJ-02坐標與高德地圖數(shù)據(jù)統(tǒng)一進行管理。坐標轉(zhuǎn)換可以通過百度和高德地圖提供的接口實現(xiàn),轉(zhuǎn)換精度較高。

(二)多源POI數(shù)據(jù)融合方法

多源POI數(shù)據(jù)融合主要有基于空間位置和基于非空間屬性的融合方法。POI數(shù)據(jù)分布密集,空間位置相近,數(shù)據(jù)屬性項較少,可采用空間位置和非空間屬性相結(jié)合的方法進行數(shù)據(jù)融合。POI數(shù)據(jù)融合主要包括同名實體的匹配和屬性字段的融合兩個方面。

1、同名實體匹配

同名地理實體通常具有相同或者相似的名字、地址和相近的地理坐標,在空間位置和非空間屬性上具有較高的相似度,因此同名實體的識別主要基于POI名字和地址屬性的相似性和地理位置信息的相似性實現(xiàn)。

基于非空間屬性的相似度匹配以語義相似度和字符相似度為基礎(chǔ),首先將文本信息劃分為基本語義單元,如“哈爾濱餃子館”劃分為“哈爾濱”和“餃子館”兩個語義單元,再根據(jù)字符相似度匹配算法對基本語義單元進行匹配。該方法既考慮了POI名字和地址中的語義信息,又避免了因過度利用語義信息而可能產(chǎn)生的POI名字誤匹配。

基于空間位置的相似度匹配主要有基于拓撲關(guān)系和基于度量關(guān)系的匹配方法。本文采用的數(shù)據(jù)源POI為點狀地理實體,其空間關(guān)系主要為度量關(guān)系,因此采用基于度量關(guān)系進行相似度匹配。地理實體度量關(guān)系的相似性實際就是兩個POI點之間的空間距離,當該距離小于某一閾值時,可將二者作為匹配對象。

2、屬性字段融合

同名實體匹配后需將POI屬性字段合并以獲取更加完整的數(shù)據(jù)集。POI屬性字段融合主要包括對多源POI唯一屬性項和共有屬性項的處理。唯一屬性項通常直接加入合并的融合數(shù)據(jù)集中,豐富數(shù)據(jù)集的屬性信息。共有屬性項的處理中通常只保留單一來源數(shù)據(jù)或合并所有來源的數(shù)據(jù)。

百度地圖和高德地圖POI的共有屬性項包括名字、地址、電話、類別等。其中,名字是匹配相似度計算的重要參考,通常同名實體的名字和地址相同或者相似,名字相同的可直接合并,名字相似的則要綜合考慮名字的準確度和描述詳細程度,可采用式(1)對目標的準確度和詳細程度進行綜合描述,對于同名實體保留重要性高的名字。POI地址的數(shù)據(jù)特征與名字相似,可采用相同方法進行融合。

五、結(jié)論

本文以豐富的網(wǎng)絡(luò)信息為基礎(chǔ),對地理目標的獲取與處理方法進行了研究,綜合高德地圖、百度地圖和OSM開源數(shù)據(jù)等數(shù)據(jù)源實現(xiàn)了對地理目標位置數(shù)據(jù)的批量式、高爬全率獲取,為全球區(qū)域的地理實體位置數(shù)據(jù)的快速在線獲取提供了支持;采用屬性歸一化、基于規(guī)則匹配等方法實現(xiàn)了半結(jié)構(gòu)化地理目標屬性數(shù)據(jù)的抽取,基于弱監(jiān)督的條件隨機場實現(xiàn)了非結(jié)構(gòu)化地理目標屬性數(shù)據(jù)的抽取,完善了地理目標的屬性數(shù)據(jù);通過同名實體匹配和屬性字段融合相結(jié)合的方法實現(xiàn)了多源數(shù)據(jù)的自動融合處理,提高了獲取的地理目標數(shù)據(jù)的質(zhì)量。

由于網(wǎng)絡(luò)信息資源過于龐大,本文僅針對部分互聯(lián)網(wǎng)資源和部分關(guān)鍵點對地理目標信息的獲取與處理方法進行了研究,后續(xù)研究中,如何從更多包含地理空間信息的網(wǎng)站中獲取地理目標位置數(shù)據(jù)、基于半結(jié)構(gòu)文本獲取更大規(guī)模的語料、提升非結(jié)構(gòu)文本標注的準確率和召回率、對獲取數(shù)據(jù)質(zhì)量進行更為全面準確的評價等方面是研究的重點。

猜你喜歡
屬性數(shù)據(jù)結(jié)構(gòu)化坐標系
促進知識結(jié)構(gòu)化的主題式復(fù)習初探
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
計算機教育(2020年5期)2020-07-24 08:53:00
基于GIS的房產(chǎn)測繪管理信息系統(tǒng)架構(gòu)研究
科技資訊(2019年18期)2019-09-17 11:03:28
無源多傳感器綜合數(shù)據(jù)關(guān)聯(lián)算法研究
屬性數(shù)據(jù)分析教學改革初探
解密坐標系中的平移變換
坐標系背后的故事
基于重心坐標系的平面幾何證明的探討
基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
計算機工程(2015年8期)2015-07-03 12:20:35
極坐標系下移動機器人的點鎮(zhèn)定
根河市| 灵寿县| 阿坝县| 灯塔市| 舟山市| 珲春市| 太原市| 醴陵市| 高清| 许昌县| 隆子县| 房产| 右玉县| 太仓市| 凤城市| 峨边| 新巴尔虎左旗| 剑阁县| 神农架林区| 莱西市| 满洲里市| 米泉市| 祁连县| 泽普县| 罗平县| 上栗县| 延边| 阜南县| 玉溪市| 民和| 三门县| 娄底市| 区。| 衡水市| 蛟河市| 洛宁县| 西华县| 鄱阳县| 秦皇岛市| 乌鲁木齐市| 拜城县|