劉云波,熊文平,魯志強(qiáng)
(浙江省測(cè)繪科學(xué)技術(shù)研究院,浙江 杭州 311100)
地名地址由自然地理實(shí)體名稱(chēng)、行政區(qū)劃名稱(chēng)、居民地名稱(chēng)、企事業(yè)單位名稱(chēng)以及具有地名意義的臺(tái)、站、港、場(chǎng)、名勝古跡等名稱(chēng)組成,其數(shù)據(jù)包含屬性和圖形。地名地址數(shù)據(jù)庫(kù)是地理信息公共服務(wù)平臺(tái)的重要組成部分,是“數(shù)字城市”的基礎(chǔ)設(shè)施之一。
隨著“數(shù)字城市”建設(shè)的推進(jìn),各地通過(guò)大范圍普查,建設(shè)了基于“天地圖”的地名地址公共服務(wù)平臺(tái),為民生服務(wù)、政務(wù)管理提供權(quán)威準(zhǔn)確的地名地址數(shù)據(jù)。為開(kāi)發(fā)者提供應(yīng)用程序開(kāi)發(fā)接口和在線服務(wù)資源,滿足各類(lèi)基于“天地圖”API及服務(wù)接口調(diào)用獲得開(kāi)發(fā)授權(quán)的應(yīng)用開(kāi)發(fā)需求。隨著城市持續(xù)發(fā)展,地名地址、樓門(mén)牌等不斷產(chǎn)生,舊的地名地址不斷變更消亡。傳統(tǒng)打印工作底圖、外業(yè)調(diào)查標(biāo)注、內(nèi)業(yè)轉(zhuǎn)繪整理的更新方法,工作流程多,項(xiàng)目周期長(zhǎng)[2]。移動(dòng)采集系統(tǒng)雖效率高,但對(duì)作業(yè)人員的技術(shù)能力要求較高,且成本投入大,適用于大范圍“掃街”采集數(shù)據(jù)[1]。結(jié)合人工智能、大數(shù)據(jù)、移動(dòng)GIS、GNSS、互聯(lián)網(wǎng)+等技術(shù),建立高效的地名地址數(shù)據(jù)庫(kù)動(dòng)態(tài)更新機(jī)制[3],既是公共服務(wù)的迫切需要,也是關(guān)系“數(shù)字城市”長(zhǎng)遠(yuǎn)發(fā)展的基礎(chǔ)工程,對(duì)服務(wù)社會(huì)治理,方便群眾生活,推進(jìn)“智慧城市”具有重要意義。
收集民政局的門(mén)牌及地名數(shù)據(jù)、工商局的企事業(yè)單位登記信息、公安局的地址信息以及其他來(lái)源的地名地址信息。以上一期“天地圖”地名地址數(shù)據(jù)庫(kù)為本底數(shù)據(jù)并繼承其數(shù)據(jù)結(jié)構(gòu)、要素分類(lèi)與編碼。提取基礎(chǔ)地理信息數(shù)據(jù)庫(kù)的注記、居民地、道路等圖層。按照一定的清洗規(guī)則和相關(guān)流程把相似重復(fù)、不一致、屬性缺失的信息進(jìn)行數(shù)據(jù)清洗,得到準(zhǔn)確、完整、統(tǒng)一規(guī)范的本底地名地址數(shù)據(jù)。疊加遙感影像后形成電子工作底圖,供外業(yè)核實(shí)。
將工作底圖導(dǎo)入POIGIS地名地址信息采集系統(tǒng)中進(jìn)行地名地址數(shù)據(jù)、建筑物、道路等要素的采集與更新。實(shí)地采集時(shí)參考工作底圖上標(biāo)注的地名地址信息。對(duì)新增地名地址實(shí)時(shí)采集并填寫(xiě)名稱(chēng)、屬性等,并對(duì)每個(gè)地名地址信息進(jìn)行拍照等多媒體記錄。原有錯(cuò)誤位置信息現(xiàn)場(chǎng)進(jìn)行移動(dòng)、修改等編輯操作。興趣點(diǎn)有新增但基礎(chǔ)地理信息數(shù)據(jù)沒(méi)有更新時(shí),通過(guò)藍(lán)牙獲取GNSS定位信息,精確繪制建筑物的空間分布情況,并進(jìn)行拍照,標(biāo)記各要素的準(zhǔn)確時(shí)空信息、屬性信息。
對(duì)地址點(diǎn)、興趣點(diǎn)的分類(lèi)代碼批量進(jìn)行規(guī)范化、標(biāo)準(zhǔn)化處理。對(duì)外業(yè)調(diào)查完成的數(shù)據(jù)進(jìn)行采集精度、要素完整性等質(zhì)量檢查并提取增減量數(shù)據(jù)包,經(jīng)過(guò)數(shù)據(jù)入庫(kù)檢查后推送至“天地圖”公共服務(wù)平臺(tái),實(shí)現(xiàn)地名地址數(shù)據(jù)庫(kù)在線動(dòng)態(tài)更新。
“天地圖”地名地址數(shù)據(jù)庫(kù)動(dòng)態(tài)更新流程見(jiàn)圖1。
圖1 地名地址數(shù)據(jù)庫(kù)動(dòng)態(tài)更新流程圖
由不同職能部門(mén)、不同行業(yè)、不同來(lái)源的專(zhuān)題地名地址數(shù)據(jù)組成的存量地名地址數(shù)據(jù)倉(cāng),其現(xiàn)勢(shì)性、數(shù)據(jù)結(jié)構(gòu)、屬性信息等存在異構(gòu)性,必須進(jìn)行數(shù)據(jù)清洗。第一步將數(shù)據(jù)導(dǎo)入python等相關(guān)科學(xué)計(jì)算庫(kù)中,查看元數(shù)據(jù),包括字段解釋、數(shù)據(jù)采集、代碼表等描述數(shù)據(jù)的信息。抽取部分?jǐn)?shù)據(jù)進(jìn)行人工查看,獲取數(shù)據(jù)的基本屬性與特征分布情況。對(duì)照標(biāo)準(zhǔn)地名地址數(shù)據(jù)庫(kù),確定缺失值的范圍,對(duì)某些缺省值進(jìn)行填充。標(biāo)記非常重要又缺失率高的數(shù)據(jù),供外業(yè)核實(shí)。第二步進(jìn)行格式內(nèi)容清洗,去除不必要的字段,統(tǒng)一多源數(shù)據(jù)的顯示格式,如日期、時(shí)間、數(shù)值等。采用半自動(dòng)方式詳細(xì)識(shí)別字段描述與數(shù)據(jù)內(nèi)容,如電話號(hào)碼填寫(xiě)成文字等。第三步通過(guò)邏輯推理對(duì)數(shù)據(jù)進(jìn)行去重,去除不合理值,修正矛盾值內(nèi)容。第四步非需求數(shù)據(jù)清洗,即以“天地圖”地名地址數(shù)據(jù)庫(kù)結(jié)構(gòu)為準(zhǔn),刪除多余字段。第五步關(guān)聯(lián)驗(yàn)證多個(gè)來(lái)源的同一地理空間的地名地址信息,進(jìn)行調(diào)整或去除數(shù)據(jù)處理。將經(jīng)過(guò)多步清洗后的存量地名地址數(shù)據(jù)作為現(xiàn)場(chǎng)核實(shí)補(bǔ)充的本底數(shù)據(jù)。
以Windows平板電腦作為硬件平臺(tái),通過(guò)藍(lán)牙與GNSS-RTK結(jié)合組成厘米級(jí)定位精度的硬件系統(tǒng)?;贛icrosoft.com技術(shù)構(gòu)建的Arcobject GIS組件庫(kù),開(kāi)發(fā)組件式GIS采集處理系統(tǒng)。以分層疊加數(shù)據(jù)清洗后的本底地名地址、基礎(chǔ)地理信息、影像等數(shù)據(jù)作為工作底圖,以標(biāo)準(zhǔn)地名地址庫(kù)為數(shù)據(jù)庫(kù)模板。通過(guò)藍(lán)牙獲取GNSS定位信息,精繪制建筑物的空間分布情況,拍照獲取地名地址和POI的影像,標(biāo)記各要素的準(zhǔn)確時(shí)空信息、屬性信息。地址點(diǎn)和興趣點(diǎn)采集界面見(jiàn)圖2、圖3。
圖2 地址點(diǎn)采集界面
圖3 興趣點(diǎn)采集界面
使用人工智能NLPL(自然語(yǔ)言處理)等技術(shù),對(duì)注記文本進(jìn)行特征抽取,訓(xùn)練數(shù)據(jù)自平衡,建立預(yù)測(cè)模型,對(duì)新采集的要素自動(dòng)填寫(xiě)地名地址、興趣點(diǎn)行業(yè)類(lèi)別代碼,批量賦值屬性信息。一鍵式導(dǎo)出地名地址增減量數(shù)據(jù)包,改變了傳統(tǒng)外業(yè)紙質(zhì)調(diào)繪作業(yè)方式,準(zhǔn)確得到采集的時(shí)空信息,數(shù)據(jù)更新快速及時(shí),既保證了數(shù)據(jù)質(zhì)量又避免了大量的后錄入、后處理工作。
分析外業(yè)調(diào)查數(shù)據(jù)庫(kù)中要素?cái)?shù)據(jù)時(shí)空信息、屬性信息并進(jìn)行語(yǔ)義匹配。以基態(tài)“天地圖”地名地址數(shù)據(jù)庫(kù)為基礎(chǔ),遍歷調(diào)查數(shù)據(jù)庫(kù)中每個(gè)要素并區(qū)分不同的變動(dòng)類(lèi)別,即判讀要素是否增加、刪除、修改和未變動(dòng)等,抽取變動(dòng)要素打包成增減量數(shù)據(jù)包。通過(guò)數(shù)據(jù)庫(kù)質(zhì)量檢查軟件進(jìn)行質(zhì)檢后,推送至“天地圖”地名地址公共服務(wù)平臺(tái)進(jìn)行動(dòng)態(tài)更新。增減量數(shù)據(jù)包動(dòng)態(tài)更新的方式,減少了數(shù)據(jù)處理、質(zhì)量檢查、信息入庫(kù)等流程的工作量,避免了采用全量包更新時(shí),數(shù)據(jù)體積大,需暫停服務(wù)的缺點(diǎn),減少了數(shù)據(jù)的冗余,極大地提高了地名地址數(shù)據(jù)庫(kù)的更新效率。
“天地圖·臺(tái)州”地名地址數(shù)據(jù)庫(kù)更新項(xiàng)目,涉及椒江區(qū)、路橋區(qū),覆蓋面積795 km2(見(jiàn)圖4),由更新區(qū)(168 km2)和新增區(qū)(627 km2)兩部分組成,更新區(qū)原有122 357個(gè)地址點(diǎn)、54 192個(gè)興趣點(diǎn)。前期收集了民政、工商、公安等6部門(mén)共40萬(wàn)多條數(shù)據(jù),經(jīng)整理分析、數(shù)據(jù)清洗后地名地址數(shù)據(jù)倉(cāng)存有26萬(wàn)條數(shù)據(jù)。采用自主開(kāi)發(fā)的“POIGIS地名地址采集系統(tǒng)”進(jìn)行地名地址點(diǎn)的外業(yè)更新與采集。由10名作業(yè)人員歷時(shí)2.5個(gè)月完成全部工作,更新地址點(diǎn)113 485個(gè)、興趣點(diǎn)49 756個(gè),新增地址點(diǎn)140 393個(gè)、興趣點(diǎn)33 786個(gè),提取增減量數(shù)據(jù)包236 Mb。在不暫停公眾版“天地圖”服務(wù)的前提下,實(shí)現(xiàn)了在線動(dòng)態(tài)更新。本項(xiàng)目經(jīng)浙江省測(cè)繪質(zhì)量監(jiān)督檢驗(yàn)站檢驗(yàn)后樣本平均分為90.1分,成果質(zhì)量為優(yōu)良。
圖4 作業(yè)范圍
地名、地址數(shù)據(jù)見(jiàn)圖5。
圖5 “天地圖”公共服務(wù)平臺(tái)中的地名地址數(shù)據(jù)
地名地址數(shù)據(jù)庫(kù)動(dòng)態(tài)更新應(yīng)采用多種數(shù)據(jù)處理方法,最大限度利用已有多源數(shù)據(jù),以減少數(shù)據(jù)采集與處理的工作量,提高工作效率為原則,滿足天地圖動(dòng)態(tài)管理為前提,并持續(xù)創(chuàng)新更新方法。在“天地圖·臺(tái)州”地名地址數(shù)據(jù)庫(kù)更新項(xiàng)目的作業(yè)中實(shí)現(xiàn)了資料收集、整理分析、數(shù)據(jù)更新與采集、增減量數(shù)據(jù)包提取、檢查入庫(kù)的全生命周期地名地址數(shù)據(jù)更新流程。隨著“天地圖”應(yīng)用的日益廣泛和深入,考慮到地名地址數(shù)據(jù)建設(shè)的持續(xù)性、權(quán)威性,可聯(lián)合公安、民政、工商等部門(mén),共建共享地名地址數(shù)據(jù)庫(kù),減少地名地址數(shù)據(jù)的冗余、重復(fù)建設(shè),便于地名地址數(shù)據(jù)庫(kù)動(dòng)態(tài)維護(hù)和管理,為后續(xù)地名地址數(shù)據(jù)持續(xù)應(yīng)用提供保障。