周逍杭
摘要:智慧城市的發(fā)展使人們對地名數(shù)據(jù)庫的要求越來越高,但用戶能從網(wǎng)絡(luò)爬取的地名數(shù)據(jù)往往存在數(shù)據(jù)質(zhì)量不高、數(shù)據(jù)格式不一致、空間基準(zhǔn)不一致、數(shù)據(jù)冗余等問題中研究了多源數(shù)據(jù)的獲取與數(shù)據(jù)的預(yù)處理、多源數(shù)據(jù)的匹配等方面,豐富地名數(shù)據(jù)數(shù)量和質(zhì)量,提高了地名數(shù)據(jù)的現(xiàn)勢性,提高了地名數(shù)據(jù)庫的更新效率,促進(jìn)了地名數(shù)據(jù)匹配融合的相關(guān)研究理論。
關(guān)鍵詞:多源地名??縮寫字檢測??相似度匹配??信息融合
中圖分類號:P208
Research?on?the?Fusion?Algorithm?of?Multi-Source?Geographical?Name?Entities
ZHOU?Xiaohang
(School?of?Geomatics?and?Urban?Spatial?Informatics,Beijing?University?of?Civil?Engineering?and?Architecture,Beijing,102612?China)
Abstract:The?development?of?smart?cities?leads?to?people's?higher?and?higher?requirements?for?the?geographical?name?database,?but?the?geographical?name?data?that?users?can?crawl?from?the?Internet?often?has?problems?such?as?low?data?quality,?inconsistent?data?formats,?inconsistent?spatial?benchmarks?and?data?redundancy.?This?paper?studies?the?acquisition,?pre-processing?and?matching?of?multi-source?data,?which?enriches?the?quantity?and?quality?of?geographical?name?data,?improves?its?uptodate?state,?enhances?the?updating?efficiency?of?the?geographical?name?database,?and?promotes?the?research?theory?related?to?the?matching?and?fusion?of?geographical?name?data.
Key?Words:?Multi-source?geographical?name;?Acronym?detection;?Similarity?matching;?Information?fusion
當(dāng)今城市發(fā)展日新月異,城市的規(guī)模也不斷擴大,數(shù)量也在逐年增多,新地名不斷涌現(xiàn),舊地名頻繁變更,如何有效地提升地名數(shù)據(jù)的完整性、時效性以及權(quán)威性已經(jīng)成為地名數(shù)據(jù)庫更新工作中必須解決的問題[1]。隨著網(wǎng)絡(luò)的發(fā)展,地理信息網(wǎng)站的地名數(shù)據(jù)來源也多種多樣,有很多地名來源于志愿者地理信息(Volunteered?Geographic?Information,VGI),VGI的數(shù)據(jù)來源于各種各樣的群體,用戶每天都在創(chuàng)建新的數(shù)據(jù),但是這些數(shù)據(jù)一般是人們對空間地名的定性表達(dá),這些地名往往不規(guī)范,有時還會使地名產(chǎn)生歧義,進(jìn)而導(dǎo)致數(shù)據(jù)的可信度不高,因此需要對地名數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、評價、匹配、融合等處理工作。通過地名融合可以實現(xiàn)地名各級結(jié)點數(shù)據(jù)資源的優(yōu)勢互補,形成整體合力,提高數(shù)據(jù)質(zhì)量,幫助人們獲取更加豐富的地名數(shù)據(jù),同時也加快了地名數(shù)據(jù)庫的更新速度和維護(hù)效率,有利于保證地名數(shù)據(jù)的時效性;通過多源地名數(shù)據(jù)融合處理可以解決多源數(shù)據(jù)之間的語義差異、尺度差異、存儲格式差異等問題,提高地名數(shù)據(jù)可信度?[2]。
多源地名數(shù)據(jù)融合處理技術(shù)為地名數(shù)據(jù)采集提供了新手段,拓展了地名數(shù)據(jù)覆蓋范圍,豐富地名數(shù)據(jù)數(shù)量和質(zhì)量,提高了地名數(shù)據(jù)的現(xiàn)勢性,提高了地名數(shù)據(jù)庫的更新效率,促進(jìn)了地名數(shù)據(jù)匹配融合的相關(guān)研究理論。
1?多源地名數(shù)據(jù)融合處理技術(shù)
本文使用Python?3.7軟件進(jìn)行廣度優(yōu)先爬蟲爬取鄭州市中原區(qū)POI數(shù)據(jù),由于從網(wǎng)絡(luò)上爬取的地理信息數(shù)據(jù)質(zhì)量參差不齊、數(shù)據(jù)格式不統(tǒng)一、空間基準(zhǔn)不統(tǒng)一,所以要對獲取到的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,通過數(shù)據(jù)清洗獲取高質(zhì)量數(shù)據(jù),本文采用基于地址分詞的相似度匹配算法對同名地名實體匹配,當(dāng)兩地名數(shù)據(jù)匹配成功后進(jìn)行幾何信息和屬性信息的融合,最終將融合后的數(shù)據(jù)在SuperMap中可視化顯示,并實現(xiàn)數(shù)據(jù)的查詢功能[3]。
2?多源地名數(shù)據(jù)獲取與預(yù)處理
2.1?多源地名數(shù)據(jù)清洗
從網(wǎng)站上爬取到的POI數(shù)據(jù)信息往往會存在信息缺失、錯誤拼寫、相似重復(fù)記錄等問題。在本文中主要介紹相似重復(fù)記錄問題,清除重復(fù)數(shù)據(jù)主要是通過POI名稱、地址信息等確認(rèn)兩條記錄是否重復(fù)。清除重復(fù)數(shù)據(jù)的算法有根據(jù)編輯距離來計算兩條記錄的相似度、縮寫字段檢測。本文采用縮寫字段檢測算法。其基本思路如圖2所示,數(shù)據(jù)清洗前后結(jié)果對比如圖3所示。
2.2?格式統(tǒng)一及空間基準(zhǔn)統(tǒng)一
多源數(shù)據(jù)的存儲格式多種多樣,常見的數(shù)據(jù)存儲格式有TXT文件、Excel文件、MySQL格式等,在本文中獲取的數(shù)據(jù)存入了Excel文件中便于后續(xù)的數(shù)據(jù)格式轉(zhuǎn)換,本文采用ArcGIS進(jìn)行格式轉(zhuǎn)換,由于后續(xù)選用的SuperMap中的地圖SphereMercator(墨卡托投影),所以為了空間基準(zhǔn)統(tǒng)一,投影選擇SphereMercator(墨卡托投影),格式選擇shapefile格式,以便后續(xù)在SuperMap地圖中可視化顯示。
2.3?基于地址分詞的相似度匹配
在多源地名融合算法研究中地名匹配起著至關(guān)重要的作用,在進(jìn)行地名融合時首先要對多個來源的地名進(jìn)行匹配,當(dāng)匹配到是同一個地理位置時才進(jìn)行多源地名的融合[4]。本文通過將地址信息拆分實現(xiàn)地址規(guī)范化,地址規(guī)范化的基本思路如下,其流程圖如圖4所示。
將地址信息分詞后通過對比兩數(shù)據(jù)源的相似度判斷兩地址字段是否為同一地名。首先比較POI數(shù)據(jù)的name字段,如果兩字段同時具有不同的方位詞或者一個具有方位詞一個不具有方位詞,那么匹配的兩字段不是同一地點進(jìn)行下一條數(shù)據(jù)的匹配,因為如果具有不同的方位詞則代表不同的地點,但是相似度有可能非常高,例如:“汝河南路”“汝河北路”的相似度為0.75,但是兩字段并不是同一地點;如果兩字段同時具有相同的方位詞或者同時沒有方位詞,則比較兩字段的相似度,如果在閾值內(nèi)則進(jìn)一步判斷上一級字段的相似度,如果不在閾值內(nèi)則表示所匹配的兩個字段不是同一地址。兩字段的相似度Sim(X,Y),R為兩字符串的重復(fù)字符串長度,公式為
3?多源地名數(shù)據(jù)融合算法
3.1?多源地名數(shù)據(jù)位置信息融合
在地名匹配成功的基礎(chǔ)上對經(jīng)緯度進(jìn)行融合,如果兩地址的經(jīng)緯度精度不一樣,則選取經(jīng)緯度精度高的坐標(biāo),如果兩地址的經(jīng)緯度精度相同,則對于經(jīng)緯度融合主要采用幾何中心融合方法,取同一地名的兩個坐標(biāo)的中點作為最終融合的經(jīng)緯度坐標(biāo)。
其中,(X,Y)和(x,y)是地名匹配成功的兩個數(shù)據(jù)源的坐標(biāo),(m,n)是兩個數(shù)據(jù)源融合后的地名坐標(biāo)。當(dāng)所需融合的數(shù)據(jù)源多于兩個時,采用多邊形外心融合算法。
其中(A,B)?(a,b)?(α,β)為多個數(shù)據(jù)源的地名坐標(biāo),(c,d)為融合后的地名坐標(biāo)。
百度地圖使用的是BD09,是在GCJ-02(火星坐標(biāo)系)的基礎(chǔ)上進(jìn)行二次加密得到的坐標(biāo);高德地圖使用的是WGS84,谷歌地圖使用的是GCJ-02(火星坐標(biāo)系)[5],本文的實驗數(shù)據(jù)是采用廣度優(yōu)先獲取的谷歌鄭州POI數(shù)據(jù)和高德鄭州POI數(shù)據(jù)。將兩數(shù)據(jù)源地圖的經(jīng)緯度采幾何中心的坐標(biāo)進(jìn)行融合,融合結(jié)果如圖5所示。
3.2?多源地名數(shù)據(jù)專名信息及屬性融合
如果同一地名在不同數(shù)據(jù)源上有不同的表達(dá)方式,那么多源地名數(shù)據(jù)的專名融合可以根據(jù)數(shù)據(jù)來源的權(quán)威性、現(xiàn)勢性選擇融合,根據(jù)最近一次的修改日期判斷數(shù)據(jù)來源的現(xiàn)勢性,將權(quán)威性高、現(xiàn)勢性強的數(shù)據(jù)的專名作為主要選擇,添加到Modify_Name字段,權(quán)威性低、現(xiàn)勢性弱的數(shù)據(jù)的專名作為次要選擇放入Alt_Name字段供用戶參考[6]。在地名匹配一致的基礎(chǔ)上進(jìn)行多源地名屬性數(shù)據(jù)信息的融合,如果權(quán)威性高的數(shù)據(jù)源中缺少地名的某項屬性,如人口、電話、占地面積等,通過匹配可以將另一數(shù)據(jù)源中的屬性添加至數(shù)據(jù)庫中,如果兩數(shù)據(jù)源都有屬性數(shù)據(jù),則保留權(quán)威性高的數(shù)據(jù)源的屬性數(shù)據(jù)。
3.3?多源地名數(shù)據(jù)融合結(jié)果可視化顯示
將融合后的矢量數(shù)據(jù)導(dǎo)入SuperMap中,將數(shù)據(jù)格式轉(zhuǎn)化為SMWU工作格式以及UDD和UDB文件格式,將融合后的數(shù)據(jù)進(jìn)行可視化顯示,并可以實現(xiàn)地名的查詢功能。多源地名數(shù)據(jù)融合結(jié)果可視化顯示如圖6所示。
4?結(jié)語
本文采用廣度優(yōu)先爬蟲技術(shù)獲得地名數(shù)據(jù),用了縮字檢測算法,剔除重復(fù)地名,從而提高數(shù)據(jù)質(zhì)量。對興趣點的數(shù)據(jù)進(jìn)行分詞處理,判斷興趣點地名的相似度,研究了多源地名專名、屬性以及幾何位置的融合,并對匹配融合后的地名數(shù)據(jù)結(jié)果進(jìn)行可視化顯示。但是,在進(jìn)行多源數(shù)據(jù)匹配時只采用了一種匹配方法,在今后的研究中將研究多種匹配算法,分析各種算法的準(zhǔn)確率、召回率、效率等,從中準(zhǔn)確率和效率最高的匹配算法。在數(shù)據(jù)融合時主要研究了多源地名數(shù)據(jù)的幾何融合,在屬性融合方面研究不夠透徹,在今后的研究中將深入研究屬性的匹配。在地名查詢時將采用R樹索引的方式進(jìn)行地名的查詢,從而提高查詢效率。
參考文獻(xiàn)
[1] 趙文強.多源全球地名數(shù)據(jù)融合與更新方法研究[D].南京:南京師范大學(xué),2021.
[2] 黃旭東.多源數(shù)據(jù)的多粒度信息融合方法研究[D].重慶:西南大學(xué),2023.
[3] 秦鵬,賈洪杰,霍興瀛,等.融合大數(shù)據(jù)挖掘的用戶個性化POI推薦方法[J].計算機仿真,2022,39(6):355-358,385.
[4] 楊瑩,巢寧佳,胡盛濱.天地圖公共服務(wù)平臺地名地址數(shù)據(jù)融合探討[J].江西測繪,2022(3):38-41.
[5] 丁江,張國艷,魏子重,等.面向多源異構(gòu)數(shù)據(jù)融合的隱私集合求交研究[J].信息網(wǎng)絡(luò)安全,2023,23(8):86-98.
[6] 葉芬,胡燕,楊琪琳,等.基于知識-規(guī)則的省級基礎(chǔ)地理實體多源數(shù)據(jù)融合轉(zhuǎn)換方法[J].測繪通報,2023(7):160-164.