国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

顧及位置關(guān)系的網(wǎng)絡(luò)POI地址信息標(biāo)準(zhǔn)化處理方法

2016-09-06 09:13:21劉紀(jì)平郭慶勝
測(cè)繪學(xué)報(bào) 2016年5期
關(guān)鍵詞:待處理要素標(biāo)準(zhǔn)化

王 勇,劉紀(jì)平,郭慶勝,羅 安

1. 武漢大學(xué)資源與環(huán)境科學(xué)學(xué)院,湖北 武漢 430079; 2. 中國(guó)測(cè)繪科學(xué)研究院,北京 100830

?

顧及位置關(guān)系的網(wǎng)絡(luò)POI地址信息標(biāo)準(zhǔn)化處理方法

王勇1,2,劉紀(jì)平2,郭慶勝1,羅安2

1. 武漢大學(xué)資源與環(huán)境科學(xué)學(xué)院,湖北 武漢 430079; 2. 中國(guó)測(cè)繪科學(xué)研究院,北京 100830

Foundation support: The National High-tech Research and Development Program of China (863 Program) (Nos.2012AA12A402;2013AA12A403) ; The National Natural Science Foundation of China (No.41471384); Research Projects of Public Welfare for Surveying and Mapping Industry(Nos. 201512021;201512032 )

針對(duì)互聯(lián)網(wǎng)POI(興趣點(diǎn))地址信息中廣泛存在的地址要素不完整、文字表達(dá)不一致等不規(guī)范現(xiàn)象,提出一種顧及位置關(guān)系的網(wǎng)絡(luò)POI地址信息標(biāo)準(zhǔn)化處理方法,首先對(duì)POI信息進(jìn)行切分提取并逐層匹配地址樹(shù)模型;然后基于4種位置關(guān)系從標(biāo)準(zhǔn)POI庫(kù)中選出相應(yīng)集合,作為豐富和修正非標(biāo)準(zhǔn)POI地址要素的候選;最后通過(guò)最小粒度地址要素的回溯,實(shí)現(xiàn)POI地址信息的快速標(biāo)準(zhǔn)化處理。試驗(yàn)表明該方法可以獲得較高的準(zhǔn)確率,尤其適用于在互聯(lián)網(wǎng)數(shù)據(jù)環(huán)境中的POI地址信息標(biāo)準(zhǔn)化。

網(wǎng)絡(luò)POI;地址樹(shù);位置關(guān)系;地址標(biāo)準(zhǔn)化

近年來(lái),隨著互聯(lián)網(wǎng)地理信息服務(wù)的蓬勃發(fā)展,網(wǎng)絡(luò)POI已經(jīng)成為大數(shù)據(jù)時(shí)代一種重要的空間信息資源。在我國(guó),網(wǎng)絡(luò)POI主要來(lái)源于地圖服務(wù)商和用戶(hù)標(biāo)注,不同地圖數(shù)據(jù)提供者對(duì)于同一個(gè)地址的文字表達(dá)不盡相同,而用戶(hù)標(biāo)注中的地址信息也經(jīng)常以口述和簡(jiǎn)化表達(dá)的方式來(lái)描述,使得同一個(gè)地址可能出現(xiàn)多種不同的文字表達(dá),導(dǎo)致來(lái)源不同的POI數(shù)據(jù)融合困難,難以發(fā)揮多源信息的聚合作用。

地址標(biāo)準(zhǔn)化處理是網(wǎng)絡(luò)POI數(shù)據(jù)清洗、融合與分析的重要內(nèi)容,是實(shí)現(xiàn)地址編碼(geocoding)等網(wǎng)絡(luò)服務(wù)的重要基礎(chǔ)[1-8],其核心是將不規(guī)范、不完整的“非標(biāo)準(zhǔn)”地址信息以符合常見(jiàn)地址表達(dá)模型的方式進(jìn)行“規(guī)范化”處理和表達(dá)。現(xiàn)有的商業(yè)化地址標(biāo)準(zhǔn)化處理工具如ArcGIS的Address Geocoding、MapInfo的MapMarker、Oracle的Spatial Geocoder等,均基于內(nèi)嵌判別規(guī)則來(lái)實(shí)現(xiàn)地址標(biāo)準(zhǔn)化[9-10];文獻(xiàn)[11]通過(guò)構(gòu)建專(zhuān)家系統(tǒng)實(shí)現(xiàn)中文地址的標(biāo)準(zhǔn)化;文獻(xiàn)[12—13]通過(guò)構(gòu)建多層地址規(guī)則實(shí)現(xiàn)地名地址向標(biāo)準(zhǔn)化表達(dá)模型的轉(zhuǎn)化;文獻(xiàn)[14]采用決策樹(shù)模型實(shí)現(xiàn)地址模式匹配。以上方法均需要構(gòu)建大量領(lǐng)域規(guī)則或基于規(guī)則形成專(zhuān)家系統(tǒng),這些方法能較好地滿(mǎn)足英文地址信息的標(biāo)準(zhǔn)化與位置匹配要求,但對(duì)于中文地址信息處理效果較差,且規(guī)則構(gòu)建過(guò)程需要大量人工參與。相比而言,機(jī)器學(xué)習(xí)方法可以基于大量標(biāo)準(zhǔn)化地址樣本自動(dòng)構(gòu)建出地址要素間的組合規(guī)則,從而支持非標(biāo)準(zhǔn)化地址信息的標(biāo)準(zhǔn)化處理[15-22],因而可移植性更強(qiáng)。文獻(xiàn)[17]利用機(jī)器訓(xùn)練后獲得的地址語(yǔ)料庫(kù)及相關(guān)規(guī)則,通過(guò)局部模糊匹配實(shí)現(xiàn)地名地址解析與標(biāo)準(zhǔn)化;文獻(xiàn)[20]利用半監(jiān)督機(jī)器學(xué)習(xí)方法,基于HMM訓(xùn)練模型實(shí)現(xiàn)地名地址標(biāo)準(zhǔn)化;文獻(xiàn)[21]通過(guò)總結(jié)中文地址模型的內(nèi)部規(guī)則與空間約束關(guān)系,提出基于可擴(kuò)展地址樹(shù)的標(biāo)準(zhǔn)地址提取方法。然而,由于漢語(yǔ)言文字固有的地址描述信息不帶分隔符等特點(diǎn),使得基于機(jī)器學(xué)習(xí)的方法也存在樣本需求較大、訓(xùn)練周期較長(zhǎng)、標(biāo)準(zhǔn)化準(zhǔn)確率較低等弊端。

以上基于規(guī)則和基于機(jī)器學(xué)習(xí)的地址標(biāo)準(zhǔn)化方法,側(cè)重從純文本(地址文本)分析角度挖掘地址信息的組合規(guī)則,而對(duì)POI的位置屬性卻未充分加以利用。本文試圖提出一種顧及空間位置關(guān)系的網(wǎng)絡(luò)POI地址信息標(biāo)準(zhǔn)化處理方法,以可擴(kuò)展中文地址樹(shù)模型為指導(dǎo),首先基于特征詞對(duì)待處理POI的地址信息進(jìn)行地址要素切分、識(shí)別并與地址樹(shù)模型逐層匹配,其次將待處理POI的地理坐標(biāo)與標(biāo)準(zhǔn)參考庫(kù)進(jìn)行位置關(guān)系計(jì)算并形成參考對(duì)象庫(kù),最后根據(jù)最佳匹配結(jié)果完成待處理POI地址信息的標(biāo)準(zhǔn)化處理。

1 中文地址模型

1.1中文地址的層次模型

中文地址模型是一種基于層次關(guān)系的排列模型,可分為政區(qū)級(jí)地址要素、街區(qū)級(jí)地址要素、門(mén)牌級(jí)地址要素3個(gè)層級(jí),其中:政區(qū)級(jí)要素可細(xì)分為國(guó)家名、省名、市名、區(qū)縣名、鄉(xiāng)鎮(zhèn)名等;街區(qū)級(jí)要素一般表現(xiàn)為道路、街巷、住宅區(qū)等基礎(chǔ)限定物;門(mén)牌級(jí)要素一般表現(xiàn)為樓牌號(hào)、單位名稱(chēng)、標(biāo)志物等局部點(diǎn)位置描述。針對(duì)中文地址的結(jié)構(gòu)特征,以及目前我國(guó)地址模型存在多套標(biāo)準(zhǔn)的現(xiàn)狀,本文設(shè)計(jì)了一種包含行政區(qū)劃、基礎(chǔ)地址限定物、局部點(diǎn)位置描述的3層地址樹(shù)模型,如圖1所示。

圖1 地址樹(shù)模型的構(gòu)成Fig.1 Composition of the address model

1.2地址要素組合的限定關(guān)系

一個(gè)完整的中文地址由政區(qū)級(jí)、街區(qū)街、門(mén)牌級(jí)等3層要素構(gòu)成,各層要素還可細(xì)分為不同的級(jí)別。對(duì)于某個(gè)具體的地址實(shí)例而言,上下級(jí)地址要素實(shí)例需要遵循一定的限定關(guān)系(通常為行政或管理意義上的隸屬關(guān)系),如圖2所示。這種要素實(shí)例的限定/映射關(guān)系普遍存在,是實(shí)現(xiàn)地址標(biāo)準(zhǔn)化尤其是缺失地址要素補(bǔ)全的重要依據(jù)。

2 POI地址信息標(biāo)準(zhǔn)化處理

本文提出的POI地址信息標(biāo)準(zhǔn)化處理流程為:首先基于特征詞典實(shí)現(xiàn)要素識(shí)別與切分,將輸入的地址信息分割為多個(gè)地址要素;其次,通過(guò)匹配地址要素,構(gòu)建各級(jí)要素的層次關(guān)系,形成地址樹(shù);再次,通過(guò)位置關(guān)系計(jì)算篩選出與待標(biāo)準(zhǔn)化POI緊密相關(guān)的參考樣本;最后利用最小粒度回溯法,基于參考POI實(shí)現(xiàn)地址信息中缺失要素自動(dòng)填充與標(biāo)準(zhǔn)化。

圖2 地址要素組合關(guān)系圖Fig.2 Relations of elements in the address tree

2.1地址要素識(shí)別與切分

中文地址要素通常采用“專(zhuān)名+通名”的組合方式進(jìn)行描述,如“北京市”、“海淀區(qū)”、“中關(guān)村創(chuàng)業(yè)大廈”。其中,通名是表征地址要素級(jí)別或類(lèi)型的特征詞,如“市”、“區(qū)”、“大廈”;一個(gè)地址要素中除掉通名部分如“北京”、“海淀”、“中關(guān)村創(chuàng)業(yè)”即為專(zhuān)名,專(zhuān)名通常與通名相配合來(lái)完整表達(dá)一個(gè)地址要素。利用通名特征詞可以很好地實(shí)現(xiàn)地址要素的切分和識(shí)別,本文使用的特征詞庫(kù)如表1所示。

表1 地址要素類(lèi)別與通名(特征詞)列表

2.2地址要素逐層匹配

在對(duì)地址信息進(jìn)行要素切分后,需要根據(jù)地址樹(shù)模型匹配處理,具體匹配方法是:讀取一個(gè)待處理的地址信息后,首先按照2.1節(jié)所述的要素組成規(guī)則及特征詞,將其切分為若干最小粒度的地址要素,然后順次將各個(gè)地址要素與地址樹(shù)模型的各個(gè)層次進(jìn)行匹配。一旦某要素與地址樹(shù)模型中的某一級(jí)別匹配成功,就將待處理的下一個(gè)地址要素與當(dāng)前匹配級(jí)別的下級(jí)節(jié)點(diǎn)進(jìn)行逐層比較直至成功匹配;若匹配失敗,則將其作為成功匹配出的上級(jí)要素的下級(jí)節(jié)點(diǎn)。如此循環(huán),直到所有地址要素都匹配成功或都已經(jīng)加入到地址樹(shù)中。

地址要素匹配主要有3種情況:完全匹配、粗粒度匹配、細(xì)粒度匹配。

完全匹配:當(dāng)能夠從地址樹(shù)中完全匹配到從地址信息中切分出的地址要素時(shí),該地址樹(shù)無(wú)須進(jìn)行擴(kuò)展,具體情況見(jiàn)匹配路徑(圖3(a)),這屬于完全匹配情況。

粗粒度匹配:根據(jù)切分出的地址要素的上下層次關(guān)系,上層較粗粒度的地址要素匹配成功,但下層細(xì)粒度的地址要素?zé)o法匹配成功。此時(shí),可自動(dòng)將細(xì)粒度地址要素添加到地址樹(shù)中,匹配過(guò)程見(jiàn)圖3(b)、(c)、(d)3條路徑,其中虛線為擴(kuò)展。

細(xì)粒度匹配:在匹配過(guò)程中,地址樹(shù)中間某層的地址要素?zé)o法匹配成功,該情況下可將未匹配成功的地址要素,插入到地址樹(shù)中,并建立地址樹(shù)的父子語(yǔ)義關(guān)系,匹配過(guò)程見(jiàn)圖3(e)的匹配路徑。

圖3 地址樹(shù)中地址要素的匹配示意圖Fig.3 Matching of address elements in address tree

2.3顧及位置關(guān)系的參考樣本選取

POI的地理位置與其地址描述具有強(qiáng)烈的關(guān)聯(lián)關(guān)系,因此,待處理POI與標(biāo)準(zhǔn)化POI之間的位置關(guān)系對(duì)提升地址標(biāo)準(zhǔn)化效果具有重要參考價(jià)值。根據(jù)對(duì)地址標(biāo)準(zhǔn)化的影響程度,本文重點(diǎn)考慮歐氏距離、從屬同一區(qū)域、從屬同一線狀要素和從屬同一點(diǎn)狀要素等4類(lèi)位置關(guān)系。假定P1為待處理的POI,P2為地址信息已經(jīng)標(biāo)準(zhǔn)化的POI,Pixq、Piy分別代表Pi點(diǎn)的地理坐標(biāo),則4種位置關(guān)系(圖4)的定義及計(jì)算方法如下:

圖4 4種位置關(guān)系示意圖Fig.4 Four types of positional relations

歐氏距離:以POI之間的直線距離來(lái)表示,其計(jì)算公式為

(1)

歐氏距離一般只用于POI點(diǎn)比較稀少且路網(wǎng)、居民地較為稀少的農(nóng)村或邊遠(yuǎn)地區(qū),主要作為一種弱空間相關(guān)的參考POI樣本選取據(jù)。在地址標(biāo)準(zhǔn)化參考樣本選取時(shí),可以設(shè)定一個(gè)距離閾值N,當(dāng)標(biāo)準(zhǔn)化POI與待處理POI的距離大于閾值N時(shí),將不作為地址標(biāo)準(zhǔn)化處理的樣本。對(duì)我國(guó)縣級(jí)行政區(qū)的面積進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn)最小面積為56 km2,本文以面積相當(dāng)?shù)膱A反算對(duì)應(yīng)半徑,因此將距離閾值設(shè)置為N=4.2 km。

從屬同一區(qū)域:表示兩個(gè)POI點(diǎn)處于同一個(gè)面狀地理對(duì)象范圍內(nèi),即被同一個(gè)面狀地理對(duì)象包含,如同一行政區(qū)劃市包含關(guān)系、同一行政區(qū)劃區(qū)包含關(guān)系、同一社區(qū)包含關(guān)系等。

Area(Ai,Pm,Pn)=PtInArea(Pm,Ai)&

PtInArea(Pn,Ai)

(2)

式中,Area(Ai,Pm,Pn)表示點(diǎn)Pm、Pn同時(shí)被面對(duì)象Ai包含范圍;PtInArea用于判斷某點(diǎn)P是否被面對(duì)象A包含,計(jì)算公式如下

PtInArea(P,Area)={?Area[i],Area[j]|(Px-Area[i]x)*(Area[j]y-Area[i]y)-

(Area[j]x-Area[i]x)*(Py-Area[i]y)<0}

(3)

式(3)通過(guò)計(jì)算P與Area中任意兩點(diǎn)Area[i]、Area[i]的向量叉積是否小于0,判斷點(diǎn)P是否被面對(duì)象Area包含。

從屬同一線狀要素:表示兩個(gè)POI點(diǎn)同處于某一個(gè)線性地理對(duì)象上,如相同道路附屬關(guān)系、相同街道附屬關(guān)系等

Line(Li,Pm,Pn)=PtOnLine(Pm,Li)&

PtOnLine(Pn,Li)

(4)

式中,Line(Li,Pm,Pn)表示點(diǎn)P、P2同屬于線對(duì)象Li。PtOneLine用于判斷是否位于某個(gè)線對(duì)象上,計(jì)算公式如下

PtOnLine(P,Line)={?Line[i]|Dist

(P,Line[i])=0}

(5)

式中,Line[i]為構(gòu)成Line的任一線段;Dist(P,Line[i])表示點(diǎn)與和線段的歐氏距離。

從屬同一點(diǎn)狀要素:表示兩個(gè)POI點(diǎn)處于同一點(diǎn)狀對(duì)象或同一地理位置,如屬于同一座大廈、位于同一個(gè)單元號(hào)、或位于同一個(gè)地理坐標(biāo)

Dist(P1,P2)=0‖Dist(P1,P2)

(6)

式中,Dist(P1,P2)表示點(diǎn)P1、P2的歐氏距離;M為實(shí)際計(jì)算中判斷為共點(diǎn)關(guān)系的閾值。在地址標(biāo)準(zhǔn)化處理中,可作為參考POI的一般為相對(duì)固定的點(diǎn)狀交通管線要素(如公交站、電線桿)和地標(biāo)物(如大廈、廣場(chǎng)等)。因此本文在重點(diǎn)參考城市道路、建筑設(shè)計(jì)等相關(guān)規(guī)范(詳見(jiàn)表2)的基礎(chǔ)上,設(shè)定閾值M=3.5m。

表2 共點(diǎn)距離閾值M設(shè)置的主要參考依據(jù)

2.4地址要素填充與標(biāo)準(zhǔn)化處理

根據(jù)位置關(guān)系對(duì)地址標(biāo)準(zhǔn)化的影響程度,給出如下強(qiáng)弱關(guān)系排序?yàn)椋汗颤c(diǎn)關(guān)系>共線關(guān)系>從屬同一區(qū)域關(guān)系>歐氏距離關(guān)系。在給定一個(gè)具有標(biāo)準(zhǔn)化地址信息的POI數(shù)據(jù)集后,可以為某個(gè)待處理的POI計(jì)算出對(duì)應(yīng)于4種位置關(guān)系的參考POI集合,分別為Mpt(滿(mǎn)足共點(diǎn)關(guān)系的集合)、Mln(滿(mǎn)足共線關(guān)系的集合)、Mar(從屬同一區(qū)域關(guān)系的集合)、Md(符合歐氏距離閾值條件的集合)。依次從4個(gè)數(shù)據(jù)集中選取標(biāo)準(zhǔn)地址作為參考,對(duì)待處理POI地址信息中的“缺位”的地址要素進(jìn)行自動(dòng)填充,并使地址信息標(biāo)準(zhǔn)化盡可能達(dá)到地址要素的最小粒度。具體分為3種情況:

(1) 基于共點(diǎn)匹配的地址標(biāo)準(zhǔn)化:當(dāng)Npt>0時(shí),可以根據(jù)參考POI的地址信息實(shí)現(xiàn)門(mén)牌級(jí)地址要素標(biāo)準(zhǔn)化。首先通過(guò)文本相似度計(jì)算,篩選出與待處理地址具有最大文本相似度的POI作為候選;若候選POI個(gè)數(shù)大于1,則取距離最近的作為標(biāo)準(zhǔn)化依據(jù)。后續(xù)的地址標(biāo)準(zhǔn)化處理流程為:以待處理POI地址的最小粒度要素為起點(diǎn),逐層追溯參考POI的上級(jí)地址要素直至最頂層,然后將各級(jí)要素的名稱(chēng)順序串聯(lián)起來(lái)。

(2) 基于共線/共面關(guān)系的地址標(biāo)準(zhǔn)化:當(dāng)Npt=0&(Nln>0‖Nar>0)時(shí),門(mén)牌級(jí)地址要素匹配失敗,但可以根據(jù)共線或共面位置關(guān)系匹配到關(guān)聯(lián)POI。在這兩種情況下,可以回溯到門(mén)牌級(jí)地址要素的上一級(jí),再根據(jù)上一級(jí)地址要素與地址樹(shù)的匹配情況進(jìn)行處理:①如果該要素的上一級(jí)地址要素匹配成功,則找出所有以該上一級(jí)地址要素為父節(jié)點(diǎn)的地址要素,并依次與當(dāng)前地址要素進(jìn)行相似度計(jì)算,選取相似度最高的地址要素作為地址標(biāo)準(zhǔn)化的參考節(jié)點(diǎn),然后再?gòu)脑搮⒖嫉刂芬貫槠瘘c(diǎn),逐層追溯其所有的上級(jí)地址要素,直至地址樹(shù)的最頂層,從而實(shí)現(xiàn)中文地址的標(biāo)準(zhǔn)化處理;②如果該要素的上一級(jí)地址要素仍然匹配失敗,則依次循環(huán),繼續(xù)回溯到更上一級(jí)的地址要素進(jìn)行匹配,直到匹配成功,最終完成地址標(biāo)準(zhǔn)化處理。

(3) 基于歐氏距離的地址標(biāo)準(zhǔn)化:當(dāng)Npt=0&Nln=0&Nar=0即不存在與該P(yáng)OI共點(diǎn)/共線/共面的參考POI資源時(shí),可以通過(guò)歐氏距離計(jì)算來(lái)選擇參考POI。根據(jù)Md中POI對(duì)象的地址信息,利用文本相似度進(jìn)行匹配。如果匹配成功,則以該參考地址要素為起點(diǎn)進(jìn)行地址標(biāo)準(zhǔn)化處理;如果失敗,則不以該P(yáng)OI地址作為標(biāo)準(zhǔn)化參考。

3 試驗(yàn)與分析

3.1算法試驗(yàn)

本文以北京市為例,選取4家互聯(lián)網(wǎng)地圖商的POI數(shù)據(jù)進(jìn)行試驗(yàn),以其中2家互聯(lián)網(wǎng)地圖商的地址數(shù)據(jù)作為基礎(chǔ)匹配資源庫(kù),另外2家地址數(shù)據(jù)作為待處理的測(cè)試數(shù)據(jù)。測(cè)試中,基礎(chǔ)匹配庫(kù)分別設(shè)置了3萬(wàn)和6萬(wàn)兩個(gè)級(jí)別的數(shù)據(jù)量,待處理測(cè)試數(shù)據(jù)的數(shù)量分別為5000、8000、10 000、15 000、20 000、25 000,測(cè)試結(jié)果如圖5所示。其中,a1、b1表示基礎(chǔ)POI資源庫(kù)有3萬(wàn)條地址數(shù)據(jù)時(shí)的匹配率曲線,a2、b2則表示基礎(chǔ)POI資源庫(kù)數(shù)量增加至6萬(wàn)條時(shí)的匹配率曲線。

從圖5可看出:①不同來(lái)源的地址數(shù)據(jù)標(biāo)準(zhǔn)化的正確率不完全相同,其原因是由于不同來(lái)源的網(wǎng)絡(luò)POI地址表達(dá)方式不盡相同,地址表達(dá)相對(duì)規(guī)范或與某一地址模型更為接近的數(shù)據(jù)源,其地址標(biāo)準(zhǔn)化正確率也相對(duì)高些;②隨著基礎(chǔ)POI資源庫(kù)數(shù)量的增大,尤其是能基本覆蓋整個(gè)試驗(yàn)地區(qū)后,地址標(biāo)準(zhǔn)化將獲得更高的正確率,可達(dá)90%左右。

圖5 中文地址標(biāo)準(zhǔn)化試驗(yàn)結(jié)果對(duì)比Fig.5 Comparison of experimental result for address standardization

3.2算法討論

本文提出的地址標(biāo)準(zhǔn)化方法,其處理效果與參考POI數(shù)據(jù)的豐富程度密切相關(guān),因?yàn)閰⒖紨?shù)據(jù)越多,為待標(biāo)準(zhǔn)化地址的各級(jí)要素匹配到對(duì)應(yīng)參考對(duì)象的幾率就越大,從而使缺失的地址要素得以補(bǔ)全、較粗粒度的地址信息也得以提升到更細(xì)粒度。在網(wǎng)絡(luò)數(shù)據(jù)環(huán)境中,由于地圖服務(wù)提供的POI數(shù)量龐大且地址信息較為規(guī)范,使得本文提出的基于位置關(guān)系POI地址標(biāo)準(zhǔn)化方法具有相當(dāng)?shù)目尚行浴?/p>

以北京市為例,當(dāng)基礎(chǔ)參考信息為行政區(qū)劃數(shù)據(jù)即北京市所轄各區(qū)時(shí),待標(biāo)準(zhǔn)化處理的POI數(shù)據(jù)如表3所示,其標(biāo)準(zhǔn)化匹配遍歷及結(jié)果如圖10。主要存在兩種情況:

(1) 成功標(biāo)準(zhǔn)化:POI4-POI8的地址標(biāo)準(zhǔn)化處理可以以POI1-POI3的地址要素為參考樣本,同時(shí)也能自動(dòng)修正與填充POI1-POI3中地址缺失的地址要素。

(2) 標(biāo)準(zhǔn)化失?。簩?duì)于POI10地址為“北京西絨線胡33號(hào)”,由于地址要素“西城區(qū)”與“西絨線胡”在其他POI中從未出現(xiàn),導(dǎo)致該條POI地址標(biāo)準(zhǔn)化失敗。

3.3與傳統(tǒng)方法比較

基于規(guī)則匹配和純文本機(jī)器學(xué)習(xí)等傳統(tǒng)中文地址信息標(biāo)準(zhǔn)化處理方法[11,20],都聚焦在對(duì)“地址文本”進(jìn)行分析處理,而對(duì)因地理坐標(biāo)派生的“位置關(guān)系”及其參考資源考慮較少。此外,基于規(guī)則匹配的方法由于需要人工構(gòu)建地址信息的規(guī)則庫(kù)和專(zhuān)家?guī)?,較為耗時(shí)耗力,通用性較差,地址標(biāo)準(zhǔn)化效果受規(guī)則庫(kù)質(zhì)量的影響較大;純文本機(jī)器學(xué)習(xí)方法多采用半監(jiān)督學(xué)習(xí)方法,具有較高的通用性,可以獲得較高的準(zhǔn)確率。

表3 POI地址標(biāo)準(zhǔn)化匹配示例數(shù)據(jù)

與之相比,本文提出的顧及位置關(guān)系的地址信息標(biāo)準(zhǔn)化處理方法考慮了待處理POI與參考資源庫(kù)的位置關(guān)系,充分利用網(wǎng)絡(luò)POI數(shù)量龐大、樣本豐富的優(yōu)勢(shì),在有效克服地址要素缺失、標(biāo)準(zhǔn)化粒度較粗等問(wèn)題的同時(shí)達(dá)到較高準(zhǔn)確率(表4);無(wú)監(jiān)督學(xué)習(xí)方式也使得該方法具有較高通用性,可以很好地解決我國(guó)大部分城市的POI地址標(biāo)準(zhǔn)化問(wèn)題。但在偏遠(yuǎn)地區(qū),由于受參考POI樣本數(shù)量限制,標(biāo)準(zhǔn)化效果與純文本機(jī)器學(xué)習(xí)方法相當(dāng)。

表4 本文方法與傳統(tǒng)地址標(biāo)準(zhǔn)化方法的比較

4 結(jié) 論

本文提出一種顧及空間位置關(guān)系的網(wǎng)絡(luò)POI地址信息標(biāo)準(zhǔn)化處理方法,該方法基于可擴(kuò)展中文地址樹(shù)模型,首先在對(duì)POI地址信息進(jìn)行要素切分和匹配,其次通過(guò)基于地理坐標(biāo)衍生的4種位置關(guān)系從標(biāo)準(zhǔn)參考庫(kù)中抽取出參考對(duì)象庫(kù),最后根據(jù)共點(diǎn)、共線、共面等不同情況完成待處理POI地址信息的細(xì)粒度要素匹配和缺失要素填充。與傳統(tǒng)地址標(biāo)準(zhǔn)化方法相比,該方法充分利用了POI的坐標(biāo)信息及其衍生位置關(guān)系,能夠明顯改善機(jī)器學(xué)習(xí)、規(guī)則匹配方法等傳統(tǒng)方法訓(xùn)練和歸納成本較大、耗時(shí)耗力等問(wèn)題,尤其在具有大量參考POI樣本資源的互聯(lián)網(wǎng)數(shù)據(jù)環(huán)境中具有更好的適用性和更高的準(zhǔn)確率。目前本方法使用的位置關(guān)系較為簡(jiǎn)單,相關(guān)閾值設(shè)定也主要為經(jīng)驗(yàn)取值,在后續(xù)工作中將考慮增加更多的位置關(guān)系(如通達(dá)性),并就相關(guān)閾值設(shè)置進(jìn)行更多的討論,以使篩選出的候選目標(biāo)對(duì)POI地址標(biāo)準(zhǔn)化具有更好的參考價(jià)值。

[1]GOLDBERGDW,WILSONJP,KNOBLOCKCA.FromTexttoGeographicCoordinates:TheCurrentStateofGeocoding[J].URISAJournal, 2007,19(1): 33-46.

[2]黃頌. 中文地址編碼技術(shù)的研究[D]. 北京: 北京大學(xué), 2005.

HUANGSong.ResearchonChineseAddressCodingTechnology[D].Beijing:BeijingUniversity, 2005.

[3]陳細(xì)謙, 遲忠先, 金妮. 城市地理編碼系統(tǒng)應(yīng)用與研究[J]. 計(jì)算機(jī)工程, 2004, 30(23): 50-52.

CHENXiqian,CHIZhongxian,JINNi.ApplicationandStudyofCityGeocodingSystem[J].ComputerEngineering, 2004, 30(23): 50-52.

[4]江洲, 李琦, 王凌云. 空間信息融合與地理編碼數(shù)據(jù)庫(kù)的開(kāi)發(fā)[J]. 計(jì)算機(jī)工程, 2004, 30(5): 1-2, 153.

JIANGZhou,LIQi,WANGLingyun.GeospatialInformationFusionandImplementationofGeocodingDatabase[J].ComputerEngineering, 2004, 30(5): 1-2, 153.

[5]李琦, 羅志清, 郝力, 等. 基于不規(guī)則網(wǎng)格的城市管理網(wǎng)格體系與地理編碼[J]. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版), 2005, 30(5): 408-411.

LIQi,LUOZhiqing,HAOLi,etal.ResearchonUrbanGridSystemandGeocodes[J].GeomaticsandInformationScienceofWuhanUniversity, 2005, 30(5): 408-411.

[6]程承旗, 關(guān)麗. 基于地圖分幅拓展的全球剖分模型及其地址編碼研究[J]. 測(cè)繪學(xué)報(bào), 2010, 39(3): 295-302.

CHENGChengqi,GUANLi.TheGlobalSubdivisionGridBasedonExtendedMappingDivisionandItsAddressCoding[J].ActaGeodaeticaetCartographicaSinica, 2010, 39(3): 295-302.

[7]ZANDBERGENPA.AComparisonofAddressPoint,ParcelandStreetGeocodingTechniques[J].Computers,EnvironmentandUrbanSystems, 2008, 32(3): 214-232.

[8]薛明, 肖學(xué)年. 關(guān)于地理編碼幾個(gè)問(wèn)題的思考[J]. 北京測(cè)繪, 2007(2): 54-56.XUEMing,XIAOXuenian.ConsideringonSomeQuestionsofGeocoding[J].BeijingSurveyingandMapping, 2007(2): 54-56.

[9]章意鋒, 吳健平, 程怡, 等.ArcGIS中地理編碼方法的改進(jìn)[J]. 測(cè)繪與空間地理信息, 2007, 30(3): 116-119.

ZHANGYifeng,WUJianping,CHENGYi,etal.TheImprovementofGeocodinginArcGIS[J].Geomatics&SpatialInformationTechnology, 2007, 30(3): 116-119.

[10]朱前飛.MapInfo中的地理編碼及應(yīng)用[J]. 四川測(cè)繪, 2001, 24(3): 117-119.

ZHUQianfei.GeocodeandItsApplicationinMapInfo[J].SurveyingandMappingofSichuan, 2001, 24(3): 117-119.

[11]GUBin,JINYanfeng,ZHANGChang.StudyontheStandardizedMethodofChineseAddressesBasedonExpertSystem[C]∥ProceedingsoftheIEEE2ndInternationalConferenceonCloudComputingandIntelligentSystems(CCIS).Hangzhou:IEEE, 2012: 1254-1258.

[12]KOTHARIG,FARUQUIETA,SUBRAMANIAMLV,etal.TransferofSupervisionforImprovedAddressStandardization[C]∥Proceedingsofthe20thInternationalConferenceonPatternRecognition(ICPR).Istanbul:IEEE, 2010: 2178-2181.

[13]CHENLiyan,FANGYuan.TheDesignandResearchofStandardAddressDatabaseSystemBasedonWebGISinPanyu,Guangzhou[C]∥Proceedingsof2008InternationalSeminaronBusinessandInformationManagement.Wuhan:IEEE, 2008: 233-235.

[14]AUTHORITYTV.AddressDataContentStandardPublicReviewDraft[S]. [S.l.]:SubcommitteeonCulturalandDemographicData,FederalGeographicDataCommittee,2003.

[15]高紅, 黃德根, 楊元生. 漢語(yǔ)自動(dòng)分詞中中文地名識(shí)別[J]. 大連理工大學(xué)學(xué)報(bào), 2006, 46(4): 576-581.

GAOHong,HUANGDegen,YANGYuansheng.ChinesePlaceNamesRecognitionforChineseAutomaticSegmentation[J].JournalofDalianUniversityofTechnology, 2006, 46(4): 576-581.

[16]張春菊, 張雪英, 吉蕾靜, 等. 地名通名與地理要素類(lèi)型的關(guān)系映射[J]. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版), 2011, 36(7): 857-861.ZHANGChunju,ZHANGXueying,JILeijing,etal.RelationMappingbetweenGenericTermsofPlaceNamesandGeographicalFeatureTypes[J].GeomaticsandInformationScienceofWuhanUniversity, 2011, 36(7): 857-861.

[17]唐旭日, 陳小荷, 張雪英. 中文文本的地名解析方法研究[J]. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版), 2010, 35(8): 930-935, 982.

TANGXuri,CHENXiaohe,ZHANGXueying.ResearchonToponymResolutioninChineseText[J].GeomaticsandInformationScienceofWuhanUniversity, 2010, 35(8): 930-935, 982.

[18]BOURLANDFJ,WALDENSC,BAKERCA.RichBrowser-basedInterfaceforAddressStandardizationandGeocoding:US, 20080065605[P]. 2008-03-13.

[19]MASREKMN,RAZAKZA.MalaysianAddressSemantic:TheProcessofStandardization[C]∥Proceedingsofthe2ndInternationalConferenceonComputerResearchandDevelopment.KualaLumpur:IEEE, 2010: 77-80.

[20]KALEEMA,GHORIKM,KHANZADAZ,etal.AddressStandardizationUsingSupervisedMachineLearning[C]Proceedingsof2011InternationalConferenceonComputerCommunicationandManagement.Singapore:IACSITPress, 2011, 5: 441-445.

[21]亢孟軍, 杜清運(yùn), 王明軍. 地址樹(shù)模型的中文地址提取方法[J]. 測(cè)繪學(xué)報(bào), 2015, 44(1): 99-107.DOI: 10.11947/j.AGCS.2015.20130205.

KANGMengjun,DUQingyun,WANGMingjun.ANewMethodofChineseAddressExtractionBasedonAddressTreeModel[J].ActaGeodaeticaetCartographicaSinica, 2015, 44(1): 99-107.DOI: 10.11947/j.AGCS.2015.20130205.

[22]GUOHonglei,ZHUHuijia,GUOZhili,etal.AddressStandardizationwithLatentSemanticAssociation[C]∥Proceedingsofthe15thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.NewYork:ACM, 2009: 1155-1164.

(責(zé)任編輯:宋啟凡)

WANGYong(1976—),male,associateprofessor,majorsinretrievingandminingofWebgeospatialinformation.

The Standardization Method of Address Information for POIs from Internet Based on Positional Relation

WANG Yong1,2, LIU Jiping2, GUO Qingsheng1, LUO An2

1. School of Resource and Environmental Sciences, Wuhan University, Wuhan 430079, China; 2. Chinese Academy of Surveying and Mapping, Beijing 100830, China

As points of interest (POI)on the internet, exists widely incomplete addresses and inconsistent literal expressions, a fast standardization processing method of network POIs address information based on spatial constraints was proposed. Based on the model of the extensible address expression, first of all, address information of POI was segmented and extracted. Address elements are updated by means of matching with the address tree layer by layer. Then, by defining four types of positional relations, corresponding set are selected from standard POI library as candidate for enrichment and amendment of non-standard address. At last, the fast standardized processing of POI address information was achieved with the help of backtracking address elements with minimum granularity. Experiments in this paper proved that the standardization processing of an address can be realized by means of this method with higher accuracy in order to build the address database.

POIs from internet;addresses tree; positional relation;standalization of address

2015-12-08

2016-03-22

王勇(1976—),男,副研究員,研究方向?yàn)榫W(wǎng)絡(luò)地理信息獲取與挖掘。

E-mail:wangyong@casm.ac.cn

10.11947/j.AGCS.2016.20150618.

WANG Yong, LIU JiPing, GUO QingSheng, et al.The Standardization Method of Address Information for POIs from Internet Based on Positional Relation[J]. Acta Geodaetica et Cartographica Sinica,2016,45(5):623-630. DOI:10.11947/j.AGCS.2016.20150618.

P208

A

1001-1595(2016)05-0623-08

國(guó)家863計(jì)劃(2012AA12A402;2013AA12A403);國(guó)家自然科學(xué)基金 (41471384);國(guó)家測(cè)繪地理信息局公益科研專(zhuān)項(xiàng)(201512021;201512032)

引文格式:王勇,劉紀(jì)平,郭慶勝,等.顧及位置關(guān)系的網(wǎng)絡(luò)POI地址信息標(biāo)準(zhǔn)化處理方法[J].測(cè)繪學(xué)報(bào),2016,45(5):623-630.

猜你喜歡
待處理要素標(biāo)準(zhǔn)化
標(biāo)準(zhǔn)化簡(jiǎn)述
財(cái)產(chǎn)清查結(jié)果的賬務(wù)處理
掌握這6點(diǎn)要素,讓肥水更高效
“待處理”事項(xiàng)在科學(xué)事業(yè)單位的核算探討
觀賞植物的色彩要素在家居設(shè)計(jì)中的應(yīng)用
政府會(huì)計(jì)核算中待處理財(cái)產(chǎn)損溢賬戶(hù)應(yīng)用探究
論美術(shù)中“七大要素”的辯證關(guān)系
標(biāo)準(zhǔn)化是綜合交通運(yùn)輸?shù)谋U稀庾x《交通運(yùn)輸標(biāo)準(zhǔn)化體系》
也談做人的要素
山東青年(2016年2期)2016-02-28 14:25:36
論汽車(chē)維修診斷標(biāo)準(zhǔn)化(上)
新郑市| 历史| 永城市| 五华县| 东丰县| 河北省| 天水市| 全州县| 黔西| 旬邑县| 宜都市| 广灵县| 玉环县| 合山市| 油尖旺区| 阿巴嘎旗| 乌审旗| 英山县| 获嘉县| 永吉县| 富川| 读书| 清新县| 长垣县| 开鲁县| 和政县| 潮安县| 丰县| 包头市| 祥云县| 大洼县| 雅江县| 大田县| 古浪县| 阜新市| 云阳县| 尚志市| 龙门县| 陇川县| 张掖市| 碌曲县|