国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深網(wǎng)POI信息獲取與一致性處理方法研究

2017-03-28 02:21:21
測繪學(xué)報 2017年3期
關(guān)鍵詞:多源格網(wǎng)一致性

王 勇

中國測繪科學(xué)研究院,北京 100039

?

深網(wǎng)POI信息獲取與一致性處理方法研究

王 勇

中國測繪科學(xué)研究院,北京 100039

興趣點(diǎn)(point of interest,POI)是地理信息服務(wù)的重要形式。互聯(lián)網(wǎng)上的POI信息大多位于深網(wǎng)網(wǎng)絡(luò)(deep web)中,其數(shù)據(jù)量極其龐大。隨著互聯(lián)網(wǎng)技術(shù)與應(yīng)用的快速普及和地理信息服務(wù)的深入發(fā)展,POI信息資源規(guī)模不斷增長、更新更為頻繁,充分挖掘深網(wǎng)網(wǎng)絡(luò)中蘊(yùn)含的POI數(shù)據(jù),對于豐富地理信息資源、提升空間信息服務(wù)與內(nèi)容管理能力具有重要意義。

當(dāng)前,通用搜索引擎和普通深網(wǎng)爬行方法難以有效獲取深網(wǎng)POI數(shù)據(jù),來源于不同網(wǎng)站的POI信息也存在位置信息、地址描述及分類屬性等方面的不一致,如何實(shí)現(xiàn)深網(wǎng)POI的有效集成和深度整合,成為空間信息技術(shù)面臨的一大挑戰(zhàn)。為此,論文研究深網(wǎng)POI獲取與一致性處理方法,主要研究工作包括:

(1) 基于檢索詞優(yōu)化與空間自適應(yīng)的深網(wǎng)POI獲取方法研究。對深網(wǎng)POI信息進(jìn)行持續(xù)獲取,并確保在盡量小的代價下盡可能大的爬行覆蓋,是深網(wǎng)POI獲取需要解決的核心問題。為此,對深網(wǎng)POI信息獲取進(jìn)行了形式化建模,將POI爬行問題歸結(jié)為特定地理空間范圍的集合覆蓋求解問題;為實(shí)現(xiàn)查詢結(jié)果的最大可能覆蓋,提出了基于原有分類體系、類型特征詞提取以及多策略同義詞生成相結(jié)合的方法,構(gòu)建候選檢索詞集合;為有效降低查詢代價,通過對局部地區(qū)進(jìn)行貪婪式查詢并構(gòu)建倒排索引,提出了基于重復(fù)覆蓋率迭代計算的檢索詞集合優(yōu)化方法,實(shí)現(xiàn)了對候選檢索詞的簡化和排序;為解決局部空間范圍最大記錄限制以及單節(jié)點(diǎn)服務(wù)訪問受限引發(fā)的爬行失效問題,提出了基于自適應(yīng)空間剖分和動態(tài)遷移的爬行策略。試驗(yàn)表明本文方法能有效爬取深網(wǎng)POI數(shù)據(jù),并達(dá)到較為理想的覆蓋率。

(2) 基于格網(wǎng)化糾正的多源POI位置信息一致性處理方法研究。在空間參考和度量單位未知的環(huán)境中實(shí)現(xiàn)異源POI空間坐標(biāo)的相互轉(zhuǎn)換,并確保誤差可控,是多源POI信息一致性處理的主要任務(wù)。為此,提出了基于地理格網(wǎng)和二階多項(xiàng)變換的位置信息一致性處理方法,通過對各個地理格網(wǎng)單元實(shí)現(xiàn)局部一致化處理,實(shí)現(xiàn)了對非線性偏移的全局近似校正;提出了基于迭代檢測的格網(wǎng)自動構(gòu)建及控制點(diǎn)生成方法,實(shí)現(xiàn)了基于給定誤差閾值的地理格網(wǎng)單元自動生成;試驗(yàn)表明利用該方法能較好實(shí)現(xiàn)多源POI位置套合。

(3) 基于自學(xué)習(xí)參考地址庫的多源POI地址信息的一致化處理方法研究。面向傳統(tǒng)參考地址庫構(gòu)建成本高、多源POI地址信息不一致性強(qiáng)的技術(shù)挑戰(zhàn),提出了基于自學(xué)習(xí)參考地址庫的多源POI地址信息一致化處理方法。首先分析了中文地址的要素構(gòu)成和組合模式,并提出基于分類權(quán)重的地址標(biāo)準(zhǔn)化率計算模型;提出了基于特征詞的候選要素切分及匹配方法,實(shí)現(xiàn)了僅需行政區(qū)劃地理數(shù)據(jù)參與的參考地址庫生成及擴(kuò)展;提出了基于kNN離群分析的異常地址要素檢測方法,以及基于規(guī)則的模糊要素匹配方法。試驗(yàn)表明該方法大大降低了參考地址庫的構(gòu)建成本,并可獲得較高的匹配準(zhǔn)確率。

(4) 基于形式概念分析的多源POI分類信息一致化處理方法研究。針對由于分類體系不一、類別描述各異等原因造成的多源POI分類屬性不一致問題,提出了基于形式概念分析的POI分類信息映射方法,通過對POI分類語義因子進(jìn)行抽取與優(yōu)化,形成多源POI分類的形式背景矩陣,在此基礎(chǔ)上利用改進(jìn)的Chein算法構(gòu)造POI分類概念格,以餐飲類POI構(gòu)建的分類概念格表明,形式概念分析方法可以有效實(shí)現(xiàn)異源POI分類信息的轉(zhuǎn)換與映射。

基于上述研究,本文自主開發(fā)了深網(wǎng)POI信息獲取及一致性處理軟件原型,獲取了總量超過9000萬的POI信息庫;在此基礎(chǔ)上,通過對多源POI數(shù)據(jù)集進(jìn)行類別、地址和一致性處理,初步形成了多源POI融合成果庫。試驗(yàn)表明,本文方法對于有效獲取和整合深網(wǎng)POI數(shù)據(jù)資源、充分挖掘互聯(lián)網(wǎng)POI信息蘊(yùn)含的潛在價值具有重要意義。

Author:WANG YONG(1976—),male,received his doctoral degree from Wuhan University on May 2016,majors in geospatial analysis and data mining on Web.

E-mail:cspring@casm.ac.cn

Research on Crawling and Consistency Processing of POIs from Deep Web

WANG YONG

Chinese Academy of Surveying and Mapping, Beijing 100039, China

王勇.深網(wǎng)POI信息獲取與一致性處理方法研究[J].測繪學(xué)報,2017,46(3):399.

10.11947/j.AGCS.2017.20160610.

WANG YONG.Research on Crawling and Consistency Processing of POIs from Deep Web[J].Acta Geodaetica et Cartographica Sinica,2017,46(3):399.DOI:10.11947/j.AGCS.2017.20160610.

P237

D

1001-1595(2017)03-0399-01

國家863計劃(2012AA12A402;2013AA12A403)

2016-12-05

王勇(1976—),男,2016年6月畢業(yè)于武漢大學(xué),獲工學(xué)博士學(xué)位(指導(dǎo)教師:劉紀(jì)平研究員,郭慶勝教授),研究方向?yàn)榫W(wǎng)絡(luò)地理信息分析與挖掘。

猜你喜歡
多源格網(wǎng)一致性
ETC拓展應(yīng)用場景下的多源異構(gòu)交易系統(tǒng)
關(guān)注減污降碳協(xié)同的一致性和整體性
公民與法治(2022年5期)2022-07-29 00:47:28
注重教、學(xué)、評一致性 提高一輪復(fù)習(xí)效率
IOl-master 700和Pentacam測量Kappa角一致性分析
基于GNSS硬件在環(huán)的多源融合定位高逼真仿真方法
實(shí)時電離層格網(wǎng)數(shù)據(jù)精度評估
基于事件觸發(fā)的多智能體輸入飽和一致性控制
基于空間信息格網(wǎng)與BP神經(jīng)網(wǎng)絡(luò)的災(zāi)損快速評估系統(tǒng)
一種利用點(diǎn)特征和互信息的多源遙感影像配準(zhǔn)方法
遙感信息(2015年3期)2015-12-13 07:26:54
空間位置信息的多源POI數(shù)據(jù)融合
上高县| 河间市| 皋兰县| 商都县| 和静县| 宁陵县| 东山县| 长岭县| 汝阳县| 永和县| 泸水县| 客服| 安泽县| 德庆县| 米脂县| 甘谷县| 曲周县| 大同县| 崇义县| 当阳市| 潢川县| 阜宁县| 乌鲁木齐市| 景东| 阿拉尔市| 略阳县| 湘潭市| 博客| 寿光市| 加查县| 垦利县| 叶城县| 瓦房店市| 宁强县| 玉田县| 威海市| 沅陵县| 炉霍县| 吕梁市| 策勒县| 沙湾县|