李 林,梁 星,劉 駿,梁均軍
(重慶市地理信息中心,重慶 401121)
在國家大力推動信息化建設(shè)的大背景下,近年來重慶市陸續(xù)啟動社會公共信息資源整合與應(yīng)用,智慧重慶建設(shè)等重大信息化工程,先后印發(fā)了《重慶市社會公共信息資源整合與應(yīng)用實施方案》《重慶市深入推進智慧城市建設(shè)總體方案(2015—2020年)》等重要文件,按照全市統(tǒng)一的“3+1+X”的總體架構(gòu),分別開展自然人信息數(shù)據(jù)庫、法人信息數(shù)據(jù)庫以及地理空間信息數(shù)據(jù)庫建設(shè),建立統(tǒng)一的公共信息資源整合平臺,以及X個應(yīng)用平臺。在工作推進過程中,面臨海量、異構(gòu)信息資源的整合工作,如工商、稅務(wù)、人口等部門的企業(yè)注冊信息、稅務(wù)登記信息、人口流動信息等數(shù)據(jù)資源呈幾何級的增長,這些數(shù)據(jù)蘊含了大量的社會經(jīng)濟數(shù)據(jù),是智慧城市建設(shè)中重要的數(shù)據(jù)來源。如何快速、準(zhǔn)確地將這些文本信息實現(xiàn)空間化,開展空間分析與應(yīng)用是體現(xiàn)其應(yīng)用價值的重點所在。地理編碼正是解決這一問題的關(guān)鍵技術(shù)。
地理編碼(Geocoding)也稱地址匹配,是指將地址映射成地理坐標(biāo)的過程,提供了一種把描述成文本地址的地理位置信息轉(zhuǎn)換成地理坐標(biāo)的方式[1]。人類活動中80%以上的信息與地理空間位置有關(guān)系,其紐帶就是地址(地名)信息[2]??梢姷乩砭幋a技術(shù)在地理信息應(yīng)用中的重要性。本文從地址數(shù)據(jù)標(biāo)準(zhǔn)、地址數(shù)據(jù)庫建設(shè)、地理編碼引擎等方面進行研究,建成了數(shù)據(jù)全面、功能實用、應(yīng)用廣泛的智慧重慶地理編碼服務(wù)平臺,包括一套適應(yīng)重慶市山地環(huán)境的地址數(shù)據(jù)標(biāo)準(zhǔn),一套覆蓋重慶市城鄉(xiāng)一體化的標(biāo)準(zhǔn)地址數(shù)據(jù)庫,一套多源地址數(shù)據(jù)發(fā)現(xiàn)與更新工作流程和一套高效準(zhǔn)確的地理編碼引擎,為全市各職能部門和社會公眾提供可靠、高效、準(zhǔn)確的地理位置服務(wù),有效支撐了智慧重慶的建設(shè)。
智慧重慶地理編碼服務(wù)平臺專注于提供地名地址位置服務(wù),建設(shè)內(nèi)容涵蓋了軟硬件基礎(chǔ)設(shè)施、標(biāo)準(zhǔn)地址數(shù)據(jù)庫、地理編碼服務(wù)平臺、地址數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范等,其總體架構(gòu)如圖1所示。
圖1 智慧重慶地理編碼服務(wù)平臺總體框架Fig.1 Framework of geocoding service platform for smart Chongqing
設(shè)施層:利用云計算技術(shù)搭建平臺的設(shè)施層,主要包括支撐平臺數(shù)據(jù)處理、存儲和服務(wù)的硬件基礎(chǔ)設(shè)施及網(wǎng)絡(luò)基礎(chǔ)設(shè)施,通過云基礎(chǔ)設(shè)施中間件形成可用的資源池,實現(xiàn)彈性計算能力,支撐平臺的高效穩(wěn)定運行。
數(shù)據(jù)層:平臺的核心數(shù)據(jù)地名地址數(shù)據(jù)庫,其來源主要有基礎(chǔ)測繪、專項普查、共享交換和眾包等方式?;A(chǔ)測繪成果中的各種比例尺地形圖可提供地名地址數(shù)據(jù);專項普查包括建筑物普查、地名普查、村鎮(zhèn)數(shù)據(jù)調(diào)查等,可作為地名地址數(shù)據(jù)的來源和更新渠道;共享交換是指在各行業(yè)部門信息化建設(shè)中積累的數(shù)據(jù),通過重慶市地理信息公共服務(wù)平臺進行數(shù)據(jù)交換后提供地名地址數(shù)據(jù)。眾包則是通過互聯(lián)網(wǎng)技術(shù),向社會公眾、用戶開放工具,提供數(shù)據(jù)線索,作為地名地址數(shù)據(jù)的采集和更新來源。除地名地址數(shù)據(jù)庫之外,平臺還利用建筑物數(shù)據(jù)、路網(wǎng)數(shù)據(jù)、影像數(shù)據(jù),以及電子地圖數(shù)據(jù)等資源開展地名地址數(shù)據(jù)的采集、檢查以及應(yīng)用展示等工作。
平臺層:包括地址采集與更新系統(tǒng)、地址數(shù)據(jù)管理系統(tǒng)以及地理編碼引擎。地址數(shù)據(jù)采集與更新系統(tǒng)為平臺提供數(shù)據(jù)的數(shù)據(jù)外業(yè)采集、更新、核查能力,具有外業(yè)工作任務(wù)管理、外業(yè)信息采集、內(nèi)外業(yè)數(shù)據(jù)協(xié)同處理、數(shù)據(jù)成果管理等模塊。地址數(shù)據(jù)管理系統(tǒng)實現(xiàn)平臺地名地址數(shù)據(jù)的管理能力,具有地址數(shù)據(jù)語義分類、地址數(shù)據(jù)索引建立、地名知識圖譜生產(chǎn)、地理編碼數(shù)據(jù)發(fā)布等模塊。地理編碼引擎為平臺提供地理編碼服務(wù),包括正向和逆向兩類服務(wù)接口[3],具有地名分詞、空間語義計算、空間排序與精度分析、地址門牌匹配等模塊。
服務(wù)層:提供地理編碼應(yīng)用服務(wù),主要包括工程管理、單條匹配、批量匹配、數(shù)據(jù)下載、接口服務(wù)、權(quán)限管理、用戶管理、地圖瀏覽等功能,向用戶提供可視化的地理編碼功能服務(wù)。
應(yīng)用層:面向智慧重慶建設(shè)提供快速、準(zhǔn)確、可靠的地理編碼服務(wù),支撐包括國情普查、行業(yè)應(yīng)用、政府決策、公眾服務(wù)、商業(yè)選址、物流配送、地理分析等各領(lǐng)域的應(yīng)用。
重慶特殊的山地城市特征使得地址數(shù)據(jù)的分布規(guī)律性差,地址數(shù)據(jù)表達多樣,造成了全市地名地址數(shù)據(jù)的城鄉(xiāng)差異。為此,項目在分析總結(jié)地址數(shù)據(jù)特點的基礎(chǔ)上,制定了地址分類與編碼規(guī)范,可覆蓋城市地區(qū)和農(nóng)村地區(qū)的地址數(shù)據(jù)模型。具體的地址描述可表達為如下形式(見表1):
<地址>::=<行政區(qū)域名稱>[基本區(qū)域限定物名稱][局部點位置描述]
表1 城市地區(qū)和農(nóng)村地區(qū)地址描述形式表Tab.1 Address description form of urban and rural areas
此外,考慮到人口、公安等行業(yè)精細(xì)化管理的需求,對地址數(shù)據(jù)信息詳細(xì)程度非常高,我國長期以來按照行政區(qū)劃自上而下進行管理的方式[4],細(xì)化到門牌號的更下一層級,具有樓棟的位置信息。比如,重慶市北部新區(qū)太湖西路8號附六號7棟,可以定位到小區(qū)內(nèi)的每一棟建筑。
本項目的數(shù)據(jù)庫建設(shè)覆蓋重慶市全域范圍,數(shù)據(jù)量達千萬條,為保障數(shù)據(jù)建庫質(zhì)量,提高工作效率,形成了“數(shù)據(jù)共享交換+規(guī)劃審批及竣工驗收+互聯(lián)網(wǎng)數(shù)據(jù)抓取+用戶反饋”等多源數(shù)據(jù)更新發(fā)現(xiàn)渠道(如圖2所示),利用內(nèi)外業(yè)一體化的地址采集與更新系統(tǒng),通過內(nèi)外業(yè)協(xié)同工作的模式,創(chuàng)新了地址數(shù)據(jù)調(diào)查模式,有效提升了地址數(shù)據(jù)采集與建庫的效率與水平,為地址數(shù)據(jù)庫的時效性、準(zhǔn)確性提供了有力的技術(shù)保障。
圖2 多源數(shù)據(jù)發(fā)現(xiàn)更新工作體系Fig.2 Multi-source data discovery and update working system
區(qū)別于傳統(tǒng)的以文本相似度為核心的匹配算法,本項目創(chuàng)新性地提出了利用海量地址數(shù)據(jù)建立地名知識圖譜,建立“地名場計算+自然語言處理”的核心技術(shù)路線,建立了高效、準(zhǔn)確的匹配引擎。項目具體技術(shù)路線如圖3所示。
地名知識圖譜工廠是地理編碼引擎的基礎(chǔ),對地名基礎(chǔ)空間數(shù)據(jù)進行預(yù)處理及關(guān)聯(lián)分析,有效地挖掘出地名相關(guān)性的空間分布格局,形成以地名語義實體為基本組織單位的模糊地名數(shù)據(jù)庫。模糊地名數(shù)據(jù)庫中的地名記錄對應(yīng)了地名相關(guān)性的空間分布概率場。在地名語義實體基礎(chǔ)上,整理和規(guī)范化地址庫。在空間數(shù)據(jù)集預(yù)處理過程中,空間數(shù)據(jù)將根據(jù)數(shù)據(jù)語義進行分類,包括行政區(qū)劃數(shù)據(jù)、地名數(shù)據(jù)、交通數(shù)據(jù)、文教衛(wèi)生數(shù)據(jù)、娛樂數(shù)據(jù)及興趣點數(shù)據(jù)等??臻g數(shù)據(jù)入庫時,將按照樣本數(shù)據(jù)語義權(quán)重模型對各種類型數(shù)據(jù)加權(quán),該加權(quán)值將直接影響到地名相關(guān)性概率場結(jié)果,地名數(shù)據(jù)的存儲采用全球網(wǎng)格模型[5-7]進行。
圖3 地理編碼服務(wù)引擎技術(shù)路線圖Fig.3 Technology roadmap of geocoding service engine
地理編碼引擎在地名知識圖譜庫基礎(chǔ)上,按照如下步驟進行匹配操作:
1)中文分詞及地名標(biāo)注。利用中文分詞技術(shù)將用戶輸入分隔為有效的最小語素,進行地名標(biāo)注,發(fā)現(xiàn)有效地名以及興趣點名稱。
2)空間語義推理及空間關(guān)系重建。根據(jù)地名分詞結(jié)果,利用圖計算關(guān)聯(lián)地名實體的空間相關(guān)性,構(gòu)建潛在的空間語義樹。
3)空間排序及精度分析。計算出各個空間語義樹的全局相關(guān)性,根據(jù)全局相關(guān)性進行排序,取相關(guān)性最大的關(guān)系作為地名定位結(jié)果。
4)綜合考慮地名分詞、空間關(guān)系重建及門牌地址計算結(jié)果,形成地理編碼定位精度評估,返回地理編碼結(jié)果。
1)地址數(shù)據(jù)管理系統(tǒng)
提供地名地址數(shù)據(jù)的增加、刪除,歷史地址數(shù)據(jù)管理,標(biāo)準(zhǔn)詞管理,同義詞管理等功能,如圖4所示。
圖4 地址數(shù)據(jù)管理系統(tǒng)功能模塊Fig.4 Address data management system function module
地址數(shù)據(jù)管理系統(tǒng)成果如圖5所示,以向?qū)降姆绞揭龑?dǎo)用戶開展數(shù)據(jù)入庫、數(shù)據(jù)索引、數(shù)據(jù)發(fā)布等工作,同時考慮到入庫數(shù)據(jù)處理過程時間較長,系統(tǒng)引入隊列操作模式,力爭做到一鍵操作完成更多任務(wù),同時以多種方式提示用戶系統(tǒng)的處理進度。
圖5 地址數(shù)據(jù)管理系統(tǒng)成果截圖Fig.5 Address data management system
2)地理編碼應(yīng)用系統(tǒng)
直接向用戶提供地理編碼應(yīng)用功能,包括正向和逆向兩類編碼應(yīng)用。支持單條匹配,也支持txt、csv等多種格式的批量匹配,如圖6所示。
圖6 地理編碼應(yīng)用系統(tǒng)功能模塊Fig.6 Geocoding application system function module
地理編碼應(yīng)用系統(tǒng)如圖7所示,用戶登錄系統(tǒng)后可以看到所有已完成和正在進行的匹配項目,可提供匹配結(jié)果下載和地圖疊加等多種應(yīng)用方式,方便用戶使用。
圖7 地理編碼應(yīng)用系統(tǒng)成果截圖Fig.7 Geocoding application system
項目成果廣泛應(yīng)用于應(yīng)急管理、城鄉(xiāng)規(guī)劃、市場信用監(jiān)管、教育、醫(yī)療、市政管理、地理國情普查、水利、交通、航運、生態(tài)環(huán)境保護等領(lǐng)域的經(jīng)濟建設(shè)與科學(xué)研究,為全市各行業(yè)部門54個應(yīng)用系統(tǒng)提供地理編碼服務(wù),實現(xiàn)了與23個行業(yè)部門業(yè)務(wù)的有效融合,累計完成1 030余萬條數(shù)據(jù)的地理編碼與空間定位服務(wù),為全市信息化建設(shè)工作提供了高水平的地理編碼服務(wù),解決傳統(tǒng)空間化過程需要外業(yè)調(diào)查、核實造成的費時費力的問題,極大地提高了工作效率。
本文從服務(wù)于智慧重慶建設(shè)出發(fā),針對重慶市山地城市的特點,研究了地址數(shù)據(jù)模型,編制了地址分類與編碼規(guī)范,在此基礎(chǔ)上開展地理編碼關(guān)鍵技術(shù)研究,攻克了空間語義推理、自然語言精確分詞、準(zhǔn)確地名標(biāo)注、機器自我學(xué)習(xí)等技術(shù)難題,研發(fā)了基于空間語義推理的地理編碼服務(wù)平臺,提供高效、可靠的地理編碼服務(wù)。同時,構(gòu)建了一套多源數(shù)據(jù)發(fā)現(xiàn)、更新、采集的工作機制,有效保證了平臺數(shù)據(jù)的鮮活性和有效性。項目成果已經(jīng)在全市范圍內(nèi)進行推廣應(yīng)用,取得了顯著的經(jīng)濟效益和社會效益。下一步將著重從地址數(shù)據(jù)的豐富性、匹配引擎的智能化等角度繼續(xù)深入研究,為構(gòu)建智慧重慶大數(shù)據(jù)服務(wù)體系提供有效的技術(shù)支撐。