亢孟軍,杜清運(yùn),王明軍
武漢大學(xué)資源與環(huán)境科學(xué)學(xué)院,湖北 武漢430079
地址是一種采用自然語言組織描述個(gè)體地域空間位置的抽象的編碼方法[1-2]。通過解析地址獲取地理坐標(biāo)是當(dāng)前獲取空間信息簡(jiǎn)單有效的手段[3]。這種方法稱為地理編碼(Geocoding),是指按照一定的規(guī)則賦予個(gè)體地域唯一、可識(shí)別的編碼,建立個(gè)體地域與標(biāo)準(zhǔn)地址、空間坐標(biāo)的映射關(guān)系,從而可將地址與空間坐標(biāo)進(jìn)行自動(dòng)轉(zhuǎn)換[3-5]。地理編碼由4部分組成:輸入數(shù)據(jù)、輸出數(shù)據(jù)、處理算法和參考數(shù)據(jù)庫[6]。地理編碼服務(wù)由最初的專業(yè)應(yīng)用已經(jīng)完全融入普通公眾的生活工作中。
地址匹配是地理編碼的核心,主要有3種方法:①為待匹配地址分配一個(gè)地址單元(address parcel),例如網(wǎng)格單元;②基于點(diǎn)狀地址模型(address point)的地址查詢;③基于路網(wǎng)模型(street network),通過線性內(nèi)插為門牌分配坐標(biāo)[5,7]。歐美國家一般先進(jìn)行城市總體規(guī)劃,再建立詳細(xì)的地址模型,地址數(shù)據(jù)規(guī)范,地理編碼的難度和工作量小,地址匹配主要基于上述3種方法。而在我國,由于地址規(guī)劃落后于城市建設(shè),地址標(biāo)準(zhǔn)混亂以及中文地址表達(dá)的隨意性,給地理編碼工作帶來了極大的難度和工作量,必須通過算法上的優(yōu)化來解決[8-12]。
地址模型是地址匹配、地理編碼的核心,決定地址編碼的算法和地址匹配的質(zhì)量。本文將從以下4部分進(jìn)行論述:①討論地址的概念,對(duì)常見的中文地址模型進(jìn)行總結(jié);②提出基于地址樹模型的標(biāo)準(zhǔn)地址提取方法;③提出標(biāo)準(zhǔn)地址可靠性的評(píng)價(jià)方法;④通過地址匹配試驗(yàn)對(duì)本文提出的方法進(jìn)行驗(yàn)證。
地址是一種抽象的編碼方法,通過自然語言組織描述個(gè)體地域的空間位置。地址是地址元素的集合,可表示為
式中,A表示地址;xi表示地址元素;P(xi,xj)表示地址元素之間存在的空間約束關(guān)系,該約束不為空。
地址元素通常為地名,例如門牌號(hào)、街道名稱、街道類型和郵政編碼。狹義的地名指具有指位性和社會(huì)性的個(gè)體地域的指稱[13],廣義地名指地理實(shí)體的指稱。如圖1,地理實(shí)體有3個(gè)重要的性質(zhì):①地理實(shí)體“是什么”,涉及地理實(shí)體的語義、分類體系、空間關(guān)系等[14-15];②地理實(shí)體“叫什么”,涉及地理實(shí)體的規(guī)范命名等[16-19];③地理實(shí)體“在哪里”,涉及地理實(shí)體的空間位置描述和表達(dá)。地理坐標(biāo)是空間位置的重要表達(dá)方式,但在導(dǎo)航應(yīng)用中,空間坐標(biāo)并不能提供給用戶足夠的空間指位功能,用戶面臨“最后20m”的難題,即根據(jù)導(dǎo)航數(shù)據(jù)只能找到目的地附近的位置,最后20m的距離只能靠別的方式確定。地址是通過自然語言的編碼方式表達(dá)地理實(shí)體的空間位置,它符合人的空間認(rèn)知特點(diǎn),便于進(jìn)行位置的表達(dá)和交流。
圖1 地理實(shí)體、地名、地址關(guān)系Fig.1 Relationship of geographical entity,place name and address
國內(nèi)外城市規(guī)劃部門都把地址作為城市規(guī)劃的重要組成部分,產(chǎn)生了多種有特色的地址模型。如美國常用的地址模型包括以下幾種地址元素[20]:門牌號(hào);前綴方向、前綴類型、街道名稱;街道類型,后綴方向;城市、州和郵政編碼等信息,如圖2(a)所示。紐約皇后區(qū)規(guī)劃東西走向的為路(avenue),南北走向的為街(street),同時(shí)記錄道路交叉口信息,如圖2(c)。鹽湖城的地址模型以“后期圣徒”教堂作為參考中心,為道路分配相對(duì)于教堂的距離和位置編碼,如圖2(d)。伊利諾伊州地址模型把網(wǎng)格區(qū)域作為重要的地址元素,輔助確定門牌號(hào)的準(zhǔn)確位置,如圖2(e)。德國一般地址模型同于美國,但地址元素的排列方式略有不同,如圖2(b)。
圖2 國外常用地址模型Fig.2 Common foreign address models
以上地址模型的共同點(diǎn):①重視郵政編碼的指位功能,通過郵政編碼即可定位到一定的空間區(qū)域;②門牌號(hào)作為最基本的地址元素,是地址最詳細(xì)的位置指定元素,門牌號(hào)在西方文化中的重要性已經(jīng)超越了規(guī)劃的意義,例如“唐寧街10號(hào)”比“首相官邸”實(shí)體更有名氣;③重視路網(wǎng)在宏觀上的指位功能,描述更為詳細(xì)的道路信息,例如通過道路后綴表示其走向、級(jí)別等;④地址元素的穩(wěn)定性較高,所謂穩(wěn)定性是指在一定時(shí)間段內(nèi)的變化頻率;⑤重視規(guī)劃、超前規(guī)劃、尊重規(guī)劃,例如鹽湖城的規(guī)劃始于19世紀(jì),皇后區(qū)的規(guī)劃始于20世紀(jì)20年代,并且后期的地址編碼都采用前期的規(guī)劃原則。
在我國,地址模型尚未在城市規(guī)劃中得到足夠的重視,以門牌的管理為例,如圖3所示,“武漢大學(xué)信息學(xué)部”所在的地址為“武漢市洪山區(qū)珞喻路129號(hào)”,該地址模型為“市|區(qū)|道路|門牌號(hào)”,其中,“市|區(qū)”部分由民政部地名辦公室管理,“道路”由武漢市規(guī)劃部門管理,而“門牌號(hào)”由公安部門管理。目前全國到各省市,尚無一個(gè)統(tǒng)一的協(xié)調(diào)機(jī)構(gòu)[21],這種突出的矛盾已經(jīng)無法滿足城市規(guī)劃和信息化發(fā)展的需求。
圖3 我國的地名管理體系示例Fig.3 Sample of Chinese place names management system
中文地址模型研究已經(jīng)得到越來越多學(xué)者關(guān)注[22-24],在《深圳市地名總體規(guī)劃》中,已經(jīng)對(duì)深圳市的地址模型進(jìn)行了全面的規(guī)范。表1通過分析深圳市部分地址,提取了幾種常用的地址模型,可以得到以下4個(gè)結(jié)論:
表1 深圳市地址模型示例Tab.1 Address model samples of Shenzhen
①行政區(qū)劃在地址模型中作用重要,作為主要的空間區(qū)域約束元素;②由于缺乏唯一、標(biāo)準(zhǔn)的地址表述,在描述地址時(shí),人們總是提供盡可能多地描述信息,從而導(dǎo)致地址描述的信息冗余,這種冗余亦可能導(dǎo)致地址歧義;③在有明確門牌號(hào)的情況下,人們?cè)敢膺x擇門牌描述地址,但是由于門牌規(guī)劃、標(biāo)示不充分,導(dǎo)致用戶不得不選擇公共設(shè)施、單位名等穩(wěn)定性低的地名作為地址描述;④新舊城區(qū)無統(tǒng)一標(biāo)準(zhǔn),部分城中村編碼方案混亂,有采用門牌號(hào)的,也有采用樓棟號(hào)的。
地址模型是地址標(biāo)準(zhǔn)化的核心,也是實(shí)施地理編碼的核心。地址模型的確立需要有完善的規(guī)劃方案作為前提,同時(shí)要兼顧用戶的空間認(rèn)知習(xí)慣,以引導(dǎo)為主,逐步推進(jìn)地址規(guī)范化的有效實(shí)施。而針對(duì)目前的非標(biāo)準(zhǔn)地址大量存在的現(xiàn)實(shí),有效的地址提取算法是唯一解決辦法。
非標(biāo)準(zhǔn)地址要與空間坐標(biāo)進(jìn)行轉(zhuǎn)換,要經(jīng)過地址解析和標(biāo)準(zhǔn)化的過程,如圖4所示。首先經(jīng)過地址分詞,形成可識(shí)別的地址元素集合,這里的詞庫是收錄具有詞匯意義的地名詞典(Gazetteer)[25-26]。由于存在地名重名,因此需要消解地名歧義,構(gòu)建符合空間約束關(guān)系的地名元素集合;經(jīng)過定歧義消解,地址元素的空間語義較為明確,形成子地址集合;任一子地址根據(jù)其地址元素的類別,可明確該子地址的詳細(xì)指位含義。此時(shí),可以直接進(jìn)行地址標(biāo)準(zhǔn)化或地址匹配操作,如圖4。
圖4 標(biāo)準(zhǔn)地址提取流程Fig.4 Process of standard address extraction
組成標(biāo)準(zhǔn)地址的地址元素之間需要具有空間約束關(guān)系,如式(1)中的P(xi,xj)≠?,xi≠xj可用拓?fù)潢P(guān)系表示這種約束,具體的拓?fù)潢P(guān)系類型要根據(jù)地址元素的幾何類型確定,一般要保證地址元素間的包含或關(guān)聯(lián)關(guān)系[27-29]。本文分別以“行政區(qū)劃|道路|門牌號(hào)|公共設(shè)施”(street network model)和“行政區(qū)劃|片區(qū)|門牌號(hào)|公共設(shè)施”(address parcel model)兩種常用地址模型說明(表2)。
表2 地址元素空間約束關(guān)系的九交模型表達(dá)Tab.2 The 9-intersection model expression on space constraint relationship of address elements
路網(wǎng)模型(street network model)是約束關(guān)系最復(fù)雜的一種模型,道路是地址信息的主要載體,行政區(qū)劃與道路關(guān)系主要有3種:包含、關(guān)聯(lián)和相交,表2中,例1是最常見的地址模型。中文地址的組織,往往從高級(jí)別行政區(qū)劃開始,以空間上的包含關(guān)系來逐步限定地址表述目標(biāo),這種特點(diǎn)比較符合點(diǎn)狀模型或者分區(qū)模型,但也被應(yīng)用于路網(wǎng)模型。多數(shù)道路也適合這種“包含于”行政區(qū)劃的特征,但是,道路經(jīng)常作為行政區(qū)劃的分界,或者出現(xiàn)跨越行政區(qū)劃的現(xiàn)象,如表2中的示例5,這時(shí),地址元素的層次關(guān)系表達(dá)不代表其“包含”的空間關(guān)系,只代表其空間上的關(guān)聯(lián)關(guān)系,這種組織方式可以明確路段信息,使地址指向更加明確。
門牌號(hào)與道路是拓?fù)潢P(guān)聯(lián)關(guān)系,總體上沿道路按照線性特征分布。通過對(duì)部分城市門牌數(shù)據(jù)的分析發(fā)現(xiàn),絕大多數(shù)門牌分布在道路400m以內(nèi),部分區(qū)域由于路網(wǎng)稀疏、居民點(diǎn)密集、門牌呈聚集狀分布。
分區(qū)模型(address parcel model)是以居住區(qū)為單位的面狀區(qū)域地址元素,例如城中村、社區(qū)分區(qū)或工業(yè)區(qū)等,如表2中的示例6。這類地址元素一般“包含于”行政區(qū)劃,同時(shí)分區(qū)也包含一定的門牌號(hào)或樓棟號(hào),這種空間約束不同于道路門牌的線狀關(guān)系,一般呈面狀聚集特征,因此這類匹配一般把分區(qū)的行政中心或幾何中心作為結(jié)果返回。
表2的示例4、5中,“八一路”作為武昌區(qū)和洪山區(qū)的行政區(qū)劃邊界,地址描述根據(jù)門牌具體所屬的行政區(qū)劃組織,從而出現(xiàn)了同一道路門牌,行政區(qū)劃的限定地址元素不同的現(xiàn)象。這種地址組織方式說明了拓?fù)浒@種空間關(guān)系在人們進(jìn)行空間認(rèn)知和表達(dá)中的重要性,同時(shí),增強(qiáng)了地址的指向性。
標(biāo)準(zhǔn)的地址模型是指地址描述中包含完整的行政區(qū)劃信息、詳細(xì)地址元素,并且指向性明確。但在實(shí)際基礎(chǔ)地理信息普查或地址應(yīng)用中,非標(biāo)準(zhǔn)地址或錯(cuò)誤地址大量出現(xiàn),嚴(yán)重影響了地址匹配的精度。非標(biāo)準(zhǔn)地址或錯(cuò)誤地址主要有以下4種情況:
(1)行政區(qū)劃地址元素不完善,但整條地址指向性明確。這類地址在實(shí)際應(yīng)用中出現(xiàn)較多,屬于非標(biāo)準(zhǔn)地址,需要標(biāo)準(zhǔn)化。
(2)行政區(qū)劃地址元素不完善,整條地址指向性不明確。例如肯德基或銀行類公共設(shè)施,在一定行政區(qū)劃內(nèi)分布數(shù)量較多,需要補(bǔ)充附加描述信息。地址匹配時(shí),可提供該類公共設(shè)施結(jié)果集或上一級(jí)地址元素作為查詢結(jié)果。
(3)地址元素空間約束級(jí)別倒置、混亂。這類地址由于書寫的隨意性,或?qū)ζ淇臻g位置的不確定性,將地址元素錯(cuò)誤排列并增加其他相關(guān)位置描述信息。在地址匹配過程中,需要對(duì)地址元素識(shí)別并重建其空間約束關(guān)系,同時(shí)過濾關(guān)聯(lián)關(guān)系弱的描述信息,是地址匹配需要重點(diǎn)解決的一類錯(cuò)誤情況。
(4)地址元素空間約束關(guān)系錯(cuò)誤。這類錯(cuò)誤較多出現(xiàn)在基礎(chǔ)地理信息普查過程中,地址元素子集的空間指向性和整條地址是分離、不相關(guān)的。地址匹配時(shí),需要識(shí)別地址的真實(shí)指向,并剔除錯(cuò)誤地址元素,是地址匹配的難點(diǎn)。
實(shí)際應(yīng)用的地址多是以上幾種情況的混合,增加了地址匹配的難度和工作量。本文提出一種地址樹模型,通過地址元素的識(shí)別、空間約束關(guān)系的重構(gòu)、地址原始指向的識(shí)別、錯(cuò)誤地址元素剔除以及地址冗余信息的過濾,提取標(biāo)準(zhǔn)地址,提高地址匹配的準(zhǔn)確性。
定義1:地址是地址元素的集合,也是子地址集合。一個(gè)地址描述可能具有多個(gè)指向目標(biāo),可表示為
式中,Ai表示地址A的一個(gè)指向目標(biāo)。
定義2:每個(gè)地址元素對(duì)應(yīng)n個(gè)地址語義,地址語義指地址元素實(shí)際指向的個(gè)體地域目標(biāo),對(duì)應(yīng)于實(shí)際的同名不同址問題。可表示為
式中,xi表示任意地址元素;S表示地址元素xi的語義集合;si表示xi的任意地址語義。
定義3:語義級(jí)別指按照地址元素類型的分級(jí)信息,行政區(qū)劃級(jí)別高,詳細(xì)地址元素級(jí)別低,語義si的語義級(jí)別表示為AddrLevel(si)。
如圖5所示,地址提取的過程是在地址元素的語義集合中,尋找一條符合空間約束關(guān)系的連通路徑,每條子地址可看作地址描述的一個(gè)子樹,這種特點(diǎn)適合用樹模型進(jìn)行地址解析。
圖5 地址、地址元素、地址語義關(guān)系Fig.5 Relationship among address,address elements and address semantic
基于地址樹模型的標(biāo)準(zhǔn)地址提取算法如圖6所示,具體步驟描述如下:
(1)假設(shè)地址字符串已經(jīng)分詞、識(shí)別,生成地址元素集合X以及地址元素語義集合S。
(2)建立根節(jié)點(diǎn)root,提取地址元素x1,遍歷x1的語義集S1,構(gòu)建地址語義節(jié)點(diǎn),并依次連結(jié)到根節(jié)點(diǎn)。
(3)提取后續(xù)地址元素xi,遍歷其語義節(jié)點(diǎn)Si。對(duì)于節(jié)點(diǎn)Si1,依次與當(dāng)前地址樹的葉子節(jié)點(diǎn)li比較。首先比較其語義級(jí)別,若Si1語義級(jí)別低于li,則比較Si1與li的空間約束關(guān)系一致性,若空間約束關(guān)系一致,則Si1連結(jié)到當(dāng)前葉子節(jié)點(diǎn)li。
若不一致,則沿該子樹上溯,直到找到該子樹的結(jié)點(diǎn)l′i,滿足l′i語義大于Si1。此時(shí)比較兩節(jié)點(diǎn)的空間約束一致性,若不一致,則比較Si1與地址樹的下一葉子節(jié)點(diǎn),重復(fù)步驟(3);若一致,比較Si1與l′i后一結(jié)點(diǎn)的空間約束關(guān)系,若一致,則把Si1插入該子樹當(dāng)前位置,若不一致,則比較Si1與地址樹的下一葉子節(jié)點(diǎn),重復(fù)步驟(3)。
若Si1上溯到根節(jié)點(diǎn),仍未連結(jié),則把該節(jié)點(diǎn)連結(jié)到地址樹的最右邊,作為一條新的子樹。
(4)對(duì)于同一地址元素,若AddrLevel(si)≠AddrLevel(sj)(i≠j),并且sj已經(jīng)成為地址樹的葉子節(jié)點(diǎn),則跳過該葉子節(jié)點(diǎn)。
空間約束關(guān)系一致是指地址元素拓?fù)潢P(guān)系符合表2的約束規(guī)則。具體實(shí)施可采用兩種方法:①實(shí)時(shí)計(jì)算地址元素拓?fù)潢P(guān)系,該方法運(yùn)算量大、響應(yīng)時(shí)間長(zhǎng),但反映拓?fù)潢P(guān)系準(zhǔn)確;②對(duì)地址元素預(yù)處理,通過一定地理編碼方案,記錄地址元素的拓?fù)潢P(guān)系。一般的編碼方案只記錄拓?fù)洹鞍?,?duì)于路網(wǎng)并不適用,可擴(kuò)展編碼方法,對(duì)路網(wǎng)的“關(guān)聯(lián)”關(guān)系進(jìn)行適當(dāng)記錄。該方法運(yùn)算量小、響應(yīng)時(shí)間短,但地址元素變化后,需要更新編碼以維護(hù)其空間關(guān)系。對(duì)于實(shí)際應(yīng)用而言,主要地址元素,如行政區(qū)劃等,其穩(wěn)定性較高,采用第2種方法更方便。
圖6 基于地址樹模型的標(biāo)準(zhǔn)地址提取算法流程Fig.6 Process of standard address extraction algorithm based on address tree model
非標(biāo)準(zhǔn)地址標(biāo)準(zhǔn)化后由兩個(gè)大部分構(gòu)成,其組合原則如下:
〈標(biāo)準(zhǔn)地址〉::=〈行政轄區(qū)名稱〉〈局部地址描述〉…〈局部地址描述〉
其中〈行政轄區(qū)名稱〉為政區(qū)類地名,局部地址描述可以是多級(jí)的,如:深圳市福田區(qū)福田街道口岸社區(qū)福田南路34號(hào)皇崗海關(guān)生活區(qū)新2棟,為2級(jí)局部地址型地址。
非標(biāo)準(zhǔn)地址經(jīng)過地址模型提取后,得到子地址集合,需要對(duì)子地址集合按照空間指向相關(guān)系進(jìn)行評(píng)價(jià)、排序,得到最符合原始地址指向目標(biāo)的標(biāo)準(zhǔn)地址。評(píng)價(jià)方法主要從以下3個(gè)指標(biāo)進(jìn)行評(píng)價(jià):有意義比例、完整度和基于地址元素權(quán)重的評(píng)分。
有意義比例,是指可識(shí)別的地址元素占所有地址元素的比例,反映當(dāng)前子地址的可靠性,若有意義比例過低,則該子地址的指向目標(biāo)是不可靠的;完整度,是子地址樹的深度和地址元素集合數(shù)目的比。完整度為1的子地址與原始地址的指向性完全一致;基于地址元素權(quán)重的評(píng)分方法,假設(shè)一個(gè)地址嚴(yán)格按照標(biāo)準(zhǔn)地址模型組織,每個(gè)地址元素對(duì)應(yīng)一個(gè)嚴(yán)格的位置,若子地址中某地址元素偏離其標(biāo)準(zhǔn)位置越遠(yuǎn),則得分越低,反之,則得分越高,再結(jié)合該地址元素的權(quán)重,可計(jì)算子地址打分。
在實(shí)際應(yīng)用中,可先設(shè)置有意義比例的閾值,高于閾值的子地址集合比較其完整度,完整度小于1的子地址集合,再計(jì)算其評(píng)分,按該流程對(duì)子地址排序,獲取最符合原始地址的指向目標(biāo)的子地址。
地址匹配度是指原始地址的匹配地址與其目標(biāo)地址的契合程度,經(jīng)過上述處理,可以得到地址庫中最契合原始地址描述的候選地址。地址匹配度可表達(dá)為
式中,D為地址匹配度;MS表示原始地址的匹配地址;OS表示原始地址的目標(biāo)地址,即地址本身指向的空間位置;M是原始地址分詞結(jié)果集的空間語義集,表示為s(t1+t2+t3+…+tn),也可表示為s1+s2+…+sn,該空間語義集按照拓?fù)潢P(guān)系約束等價(jià)于sn,即由最詳細(xì)、地址語義級(jí)別最低的要素表示該地址的指向。原始地址經(jīng)過分詞可拆分一組可識(shí)別和不可識(shí)別的地址要素集,其中t表示可識(shí)別的要素,x表示不可識(shí)別的要素,t1+x1+t2+t3+x2+…+tn+xi為該拆分結(jié)果的表示,未知元素x可分布在地址描述的任意位置。為簡(jiǎn)化地址匹配度計(jì)算,假設(shè)地址描述不存在亂序現(xiàn)象,即地址描述按照行政區(qū)劃級(jí)別從高到底排列。
量化地址匹配度,一般采用向量空間模型(vector space model,VSM),傳統(tǒng) VSM 的分詞項(xiàng)被假設(shè)為彼此相互獨(dú)立,權(quán)重由詞頻決定,這種方法未考慮地址要素的空間約束關(guān)系。本文采用改進(jìn)的VSM,分詞項(xiàng)權(quán)重設(shè)置為w=ei,其中e為自然對(duì)數(shù)的底數(shù),i為分詞項(xiàng)在原始地址分詞集合中的順序數(shù),對(duì)各分詞項(xiàng)權(quán)重進(jìn)行歸一化處理為分詞集合的數(shù)量,此時(shí)wi的值域?yàn)椋?,1]。此權(quán)重的設(shè)置可以保證兩點(diǎn):①原始地址描述中順序靠后的地址元素有更高的權(quán)重;②即前n-1項(xiàng)的權(quán)重和小于第n項(xiàng)的權(quán)重,確保順序靠后的地址要素具有足夠的權(quán)重。
則地址匹配度表達(dá)為:D=cosθ=(M·O)/其中,M為原始地址的匹配地址要素的權(quán)重矢量;O為原始地址描述的分詞權(quán)重矢量。
本文以深圳市2012年地址編碼庫為參考,選取深圳市建筑物普查377條數(shù)據(jù)作為試驗(yàn)數(shù)據(jù)(多數(shù)為標(biāo)準(zhǔn)地址),原始數(shù)據(jù)包含建筑物的面狀空間信息和地址描述。其中,主要存在兩種非標(biāo)準(zhǔn)地址:①一個(gè)建筑物對(duì)應(yīng)多個(gè)門牌,例如分布在道路交叉口、呈L形的建筑物;②多個(gè)建筑物屬于同一個(gè)門牌,例如面街的大型建筑物。這兩種情況會(huì)影響到地址匹配精度。
提取建筑物的地址,利用自主開發(fā)的TeleGCoder軟件進(jìn)行地址匹配,生成建筑物所屬地址的點(diǎn)狀要素?cái)?shù)據(jù)和地址匹配統(tǒng)計(jì)信息,匹配情況如圖7所示。
表3為建筑物地址匹配率統(tǒng)計(jì)結(jié)果,試驗(yàn)結(jié)果顯示地址匹配度100%的條目占到總條目的94.96%,這類地址的特征為:①描述相對(duì)規(guī)范,無別字錯(cuò)字;②行政區(qū)劃完善,詳細(xì)地址部分描述準(zhǔn)確;③符合基本的地址模型規(guī)則,對(duì)地址匹配的干擾較小。
圖7 建筑物所在地址匹配結(jié)果Fig.7 The match result of building addresses
表3 建筑物地址匹配率統(tǒng)計(jì)結(jié)果Tab.3 Statistics of building address match rate
表4列舉了幾種低匹配度地址情況,主要有以下原因:①地址參考庫的數(shù)據(jù)不完善;②地址含有非標(biāo)準(zhǔn)的公共設(shè)施名稱;③采用相對(duì)位置關(guān)系、方位關(guān)系描述地址;④采用路口描述地址。因此,在地址參考庫不變的情況下,規(guī)范地址描述,可以極大地提高地址匹配率。
表4 低匹配度地址匹配結(jié)果Tab.4 Samples of low match degree address
地址匹配是建立專題數(shù)據(jù)與空間信息關(guān)聯(lián)的有效手段,由于缺乏完善的城市地址規(guī)劃,人們對(duì)規(guī)范地址的認(rèn)知度不高,地址表達(dá)不規(guī)范,導(dǎo)致地址匹配率不高。本文在論述地址概念的基礎(chǔ)上,提出了幾種標(biāo)準(zhǔn)地址模型的組織方式,并用九交模型對(duì)其拓?fù)潢P(guān)系進(jìn)行歸類。鑒于非標(biāo)準(zhǔn)地址大量出現(xiàn)在基礎(chǔ)地理信息普查數(shù)據(jù)中,本文提出了一種基于地址樹模型的標(biāo)準(zhǔn)地址提取方法,以地址元素的空間約束關(guān)系為條件,提取標(biāo)準(zhǔn)子地址集合并剔除非標(biāo)準(zhǔn)子地址或錯(cuò)誤地址元素。試驗(yàn)結(jié)果表明,該方法可以獲得較高的地址匹配率。由于非標(biāo)準(zhǔn)地址類型較多,要進(jìn)一步提高地址匹配率需要在地址規(guī)范普及和算法兩個(gè)方面進(jìn)行更多的研究。
[1] ZHANG Xueying,ZHU Shaonan,ZHANG Chunju.Annotation of Geographical Named Entities in Chinese Text[J].Acta Geodaetica et Cartographic Sinica,2012,41(1):115-120.(張雪英,朱少楠,張春菊.中文文本的地理命名實(shí)體標(biāo)注 [J].測(cè)繪學(xué)報(bào),2012,41(1):115-120.)
[2] PALKOWSKY B,METACARTA I.A New Application Information Discovery:Geography Really Does Matter[C]∥Proceedings of the SPE Annuual Technical Conference and Exhibition.Dallas:[s.n.],2005.
[3] ROONGPIBOONSOPIT D,KARIMI H A.Comparative Evaluation and Analysis of Online Geocoding Services[J].International Geographical Information Science,2010,24(7):1081-1100.
[4] ZHANG Xueying,LüGuonian,LI Boqiu,et al.Rule-based Approach to Semantic Resolution of Chinese Addresses[J].Geoinfomation Science,2010,12(1):9-17.(張雪英,閭國年,李伯秋,等.基于規(guī)則的中文地址要素解析方法[J].地球信息科學(xué)學(xué)報(bào),2010,12(1):9-17.)
[5] ZANDBERGEN P A.A Comparison of Address Point,Parcel and Street Geocoding Techniques [J]. Computers,Environment and Urban Systems,2008,32(3):214-232.
[6] GOLDBERG D W,WILSON J P,KNOBLOCK C A.From Text to Geographic Coordinates:the Current State of Geocoding[J].URISA Journal,2007,19(1):33-46.
[7] RUSHTON G,ARMSTRONG M P,GITTLER J,et al.Geocoding in Cancer Research:A Review [J].American Journal of Preventive Medicine,2006,30(2):S16-S24.
[8] ZHU Jianwei,WANG Zemin.The Principle of Geocodifying and Its Solution on Localization[J].Beijing Surveying and Mapping,2004(2):24-27.(朱建偉,王澤民.地理編碼原理及其本地化解決方案 [J].北京測(cè)繪,2004(2):24-27.)
[9] WANG Xiuming.Address Automatic Matching of Geographic Information System[J].Journal of Minxi Vocational and Technical College,2007,9(2):75-77.(王秀明.地理信息系統(tǒng)地址自動(dòng)匹配 [J].閩西職業(yè)技術(shù)學(xué)院學(xué)報(bào),2007,9(2):75-77.)
[10] HU Qing,XU Jianhua,WANG Zhihai.Study on the Method of Address Automatically Matching in GIS Database[J].Geomatics and Spatial Information Technology,2008,31(6):50-52.(胡青,徐建華,王志海.GIS數(shù)據(jù)庫中地址自動(dòng)匹配方法研究 [J].測(cè)繪與空間地理信息,2008,31(6):50-52.)
[11] SUN Yafu,CHEN Wenbin.Address Matching Technology Based on Word Segmentation[C]∥Proceedings of China Association of Geographic Information Systems Fourth Congress of the 11th Annual Meeting.Beijing:[s.n.],2007:114-125.(孫亞夫,陳文斌.基于分詞的地址匹配技術(shù) [C]∥中國地理信息系統(tǒng)協(xié)會(huì)第四次會(huì)員代表大會(huì)暨第十一屆年會(huì)論文集.北京:[s.n.],2007:114-125.)
[12] HUANG Song.Research on Chinese Address Coding Technology[D].Beijing:Beijing University,2005.(黃頌.中文地址編碼技術(shù)的研究 [D].北京:北京大學(xué),2005.)
[13] CHU Yaping,YIN Junke,SUN Donghu.The Toponymy Basis Tutorial[M].Beijing:Sinomap Press,1994.(褚亞平,尹鈞科,孫冬虎.地名學(xué)基礎(chǔ)教程 [M].北京:中國地圖出版社,1994.)
[14] ZHANG Xueying,ZHANG Chuju,LüGuonian.Design and Analysis of a Classification Scheme of Geographical Named Entities[J].Geoinformation Science,2010,12(2):220-227.(張雪英,張春菊,閭國年.地理命名實(shí)體分類體系的設(shè)計(jì)與應(yīng)用分析 [J].地球信息科學(xué),2010,12(2):220-227.)
[15] CHEN Jianjun,ZHOU Chenhu,WANG Jinggui.Advances in the Study of the Geo-ontology[J].Earth Science Frontiers,2006,13(3):81-90.(陳建軍,周成虎,王敬貴.地理本體的研究進(jìn)展與分析 [J].地學(xué)前緣,2006,13(3):81-90.
[16] CHU Yaping.The City Names Commercialization of Geographic Names Legalization[J].Chinese Toponym,1996(1):4-6.(褚亞平.城市地名商品化與地名管理法制化 [J].中國地名,1996(1):4-6.)
[17] CHU Yaping.Urban Planning and Development Can not Ignore the Toponym Planning[J].Beijing Planning Review,2004(6):112-113.(褚亞平.城市規(guī)劃發(fā)展不能忽略地名規(guī)劃 [J].北京規(guī)劃建設(shè),2004(6):112-113.)
[18] QIN Xuexiu.Three Forms of Placename Data and Their Demand[J].Bulletin of Surveying and Mapping,2011(10):68-69.(秦學(xué)秀.地名數(shù)據(jù)的3種形式及其質(zhì)量要求 [J].測(cè)繪通報(bào),2011(10):68-69.)
[19] ZHANG Li.Analysis of Chinese Signposts Language Usage[J].Lanzhou Academic Journal,2007(3):206-208.(張黎.我國地名標(biāo)志語言文字使用狀況分析 [J].蘭州學(xué)刊,2007(3):206-208.)
[20] ESRI.ArcGIS Resource[EB/OL].[2013-07-12].http:∥help.arcgis.com/zh-cn/arcgisdesk-top.
[21] ZHAO Guozhou.To Talk about the Doorplate Reform[J].Research and Exploration,1998,2(1):34-36.(趙國洲.談?wù)勯T牌改革 [J].決策探索,1998,2(1):34-36.)
[22] GUO Xiaolin.Discussion on the Management of Doorplate in City[J].Shandong Economic Strategy Research,2008(3):61-62.(郭曉琳.略論城市建設(shè)中的樓門牌設(shè)置與管理 [J].山東經(jīng)濟(jì)戰(zhàn)略研究,2008(3):61-62.)
[23] LI Qimin.The Social Function of the City Doorplate[J].Construction Science and Technology,2002(2):46-47.(李啟明.“城市門牌”的社會(huì)功能 [J].建設(shè)科技,2002(2):46-47.)
[24] LI Yongheng.The Integration Process of Macau Geography Information Data:Taking Street Door Number Data as an Example[J].Geomatics World,2013,(1):87-91.(李永恒.澳門地理數(shù)據(jù)的整合進(jìn)程——以街道門牌數(shù)據(jù)為例[J].地理信息世界,2013,(1):87-91.)
[25] HILL L,F(xiàn)REW J,ZHENG Q.Geographic Names:The Implementation of a Gazetteer in a Georeferenced Digital Library[J/OL].[2013-07-13].http:∥dblp.unitrier.de/db/journals/dlib.
[26] HILL L L.Core Elements of Digital Gazetteers:Placenames,Categories,and Footprints[M].Berlin:Springer,2000:280-290.
[27] EGENHOFER M J,HERRING J.A Mathematical Framework for the Definition of Topological Relationships [C]∥Proceedings of the Fourth International Symposium on Spatial Data Handling,Zurich:[s.n.],1990:803-813.
[28] EGENHOFER M J,HERRING J.Categorizing Binary Topological Relations between Regions,Lines,and Points in Geographic Databases[R].Orono:University of Marine,1999.
[29] DENG Min,LIU Wenbao,F(xiàn)ENG Xuezhi.A Generic Model Describing Topological Relations among Area Objects in GIS[J].Acta Geodaetica et Cartographica Sinica,2005,34(1):85-90.(鄧敏,劉文寶,馮學(xué)智.GIS面目標(biāo)間拓?fù)潢P(guān)系的形式化模型 [J].測(cè)繪學(xué)報(bào),2005,34(1):85-90.)