姜志淵
(溫州市龍灣區(qū)統(tǒng)計(jì)局,浙江溫州 325058)
從門牌號(hào)到行政區(qū)劃代碼
——談行政區(qū)劃計(jì)算機(jī)自動(dòng)編碼實(shí)現(xiàn)方式的思考
姜志淵
(溫州市龍灣區(qū)統(tǒng)計(jì)局,浙江溫州 325058)
行政區(qū)劃代碼的編碼工作在統(tǒng)計(jì)系統(tǒng)中大量存在,人工編碼繁瑣且缺點(diǎn)明顯,針對(duì)人工編碼工作中存在的不足,本文依托現(xiàn)有的“三經(jīng)普”、名錄庫(kù)等大數(shù)據(jù)背景,結(jié)合信息化技術(shù),提出了一種可行性較高的計(jì)算機(jī)自動(dòng)編碼的實(shí)現(xiàn)方式。
行政區(qū)劃編碼;自動(dòng)編碼
行政區(qū)劃代碼是一種用數(shù)字編碼來(lái)表示一個(gè)地區(qū)序號(hào)的編碼格式,廣泛應(yīng)用于全國(guó)各地區(qū)、各部門的信息系統(tǒng),涉及到統(tǒng)計(jì)、普查、社會(huì)保障、教育、戶籍等領(lǐng)域,是我國(guó)社會(huì)現(xiàn)代化管理中一項(xiàng)重要的基礎(chǔ)標(biāo)準(zhǔn)。
在統(tǒng)計(jì)系統(tǒng)中,行政區(qū)劃代碼是各項(xiàng)統(tǒng)計(jì)調(diào)查的基礎(chǔ)代碼標(biāo)準(zhǔn),也是建立數(shù)據(jù)平臺(tái)的基礎(chǔ),有利于各專業(yè)、各部門間的基層匯總數(shù)據(jù)的銜接。
本文所說(shuō)的行政區(qū)劃代碼的編碼工作,是指將一個(gè)具體的地理位置信息轉(zhuǎn)換為行政區(qū)劃代碼的過(guò)程。在統(tǒng)計(jì)系統(tǒng)中,存在著大量的此類編碼工作:如將企業(yè)的注冊(cè)地址、經(jīng)營(yíng)地址以及調(diào)查戶的住址等信息編制成行政區(qū)劃代碼。即根據(jù)已知的地理位置信息找到其對(duì)應(yīng)的行政區(qū)域,如縣(市、區(qū))、街道(鎮(zhèn))、村等,再將行政區(qū)域轉(zhuǎn)換成對(duì)應(yīng)的行政區(qū)劃代碼。
人工編碼的一般流程是根據(jù)地址中所含的地理信息,依靠個(gè)人的經(jīng)驗(yàn)或者借助地圖工具等,來(lái)判斷其所在的行政區(qū)域,再找到對(duì)應(yīng)的行政區(qū)劃代碼。
人工編碼目前廣泛應(yīng)用于統(tǒng)計(jì)工作,是一項(xiàng)基礎(chǔ)且繁瑣的環(huán)節(jié),存在以下缺點(diǎn):一是地理位置信息的模糊性易導(dǎo)致編碼失誤。理想的情況下,獲得的地理位置包含精確的行政區(qū)域信息,如“XX省XX市XX區(qū)XX街道XX村XX路XX號(hào)”,這樣工作人員比較容易根據(jù)已知的區(qū)域信息找到對(duì)應(yīng)代碼。但更多的時(shí)候,獲得的地理位置并沒(méi)有精確的行政區(qū)域信息,一般只有類似“XX省XX市XX區(qū)XX路XX號(hào)”這種“斷裂式”信息。此時(shí),工作人員只能根據(jù)經(jīng)驗(yàn)或其他方式進(jìn)行粗略判斷并編制12位(村級(jí))的行政區(qū)劃代碼,因此得到的結(jié)果往往有較大誤差;二是工作量大增加基層工作難度。在名錄庫(kù)的日常維護(hù)工作中,存在較多名錄單位新增或地址變更等情況,基層工作人員需要花費(fèi)大量的精力和時(shí)間在編碼工作中,加大了基層統(tǒng)計(jì)工作的難度和壓力。
針對(duì)人工編碼工作中存在的不足,筆者依托現(xiàn)有的“三經(jīng)普”、名錄庫(kù)等大數(shù)據(jù)背景,結(jié)合信息化技術(shù),提出一種可行性較高的計(jì)算機(jī)自動(dòng)編碼的實(shí)現(xiàn)方式。
(一)主要設(shè)計(jì)思路
行政區(qū)劃代碼的編制工作,中心思想是從地理位置到代碼的轉(zhuǎn)變。計(jì)算機(jī)并不能直接理解地理位置這樣的中文信息,我們需要將其轉(zhuǎn)化為計(jì)算
機(jī)可以解析的方式,然后在已有的數(shù)據(jù)找出對(duì)應(yīng)的結(jié)果。主要工作思路有兩步:
1.運(yùn)用百度地圖API確定地理坐標(biāo)?,F(xiàn)在網(wǎng)絡(luò)上存在很多的地圖應(yīng)用,如百度、Google、高德等,在這些地圖應(yīng)用中,只要查詢一個(gè)地理位置,就可以定位到具體的地圖坐標(biāo)。
本文思路借助的是百度地圖的定位技術(shù)。百度地圖API(Application Programming Interface)是一套為開發(fā)者免費(fèi)提供的基于百度地圖的應(yīng)用程序接口,程序開發(fā)者通過(guò)調(diào)用相應(yīng)的API,可以將一個(gè)地理文字位置轉(zhuǎn)換為地理坐標(biāo)信息。
百度地圖API家族中提供了Geocoding API,這是一類簡(jiǎn)單的HTTP接口,用于提供從地址到經(jīng)緯度坐標(biāo)或者從經(jīng)緯度坐標(biāo)到地址的轉(zhuǎn)換服務(wù),用戶可以使用程序開發(fā)語(yǔ)言發(fā)送HTTP請(qǐng)求且接收J(rèn)SON或XML類型的返回?cái)?shù)據(jù)。Geocoding API中的地理編碼接口,可以由詳細(xì)到街道門牌的結(jié)構(gòu)化地址得到百度經(jīng)緯度信息,且支持名勝古跡、標(biāo)志性建筑名稱直接解析返回百度經(jīng)緯度。例如:“北京市海淀區(qū)中關(guān)村南大街27號(hào)”地址解析的結(jié)果是“l(fā)ng:116.31985,lat:39.959836”,“百度大廈”地址解析的結(jié)果是“l(fā)ng:116.30815,lat:40.056885”。以下是一個(gè)關(guān)于地理編碼的簡(jiǎn)單示例:發(fā)送一個(gè)地址是“溫州市龍灣區(qū)永強(qiáng)大道147號(hào)”的請(qǐng)求,返回該地址對(duì)應(yīng)的地理坐標(biāo)。發(fā)送請(qǐng)求的URL如下:
http://api.map.baidu.com/geocoder/v2/?address=溫州市龍灣區(qū)永強(qiáng)大道147號(hào)&output=xml&ak=64c444 fddca32845819a7edb2a380a26&callback=showLocation
點(diǎn)擊上述請(qǐng)求URL,返回地址“溫州市龍灣區(qū)永強(qiáng)大道147號(hào)”解析的XML格式的數(shù)據(jù):
通過(guò)分析返回的數(shù)據(jù),可以知道查詢地址的經(jīng)緯度坐標(biāo)為“l(fā)ng:120.78518503423,lat:27.8431464198 46”,得到地理位置坐標(biāo)之后,我們就完成了工作的第一步。
2.從地理坐標(biāo)到行政區(qū)劃。“三經(jīng)普”中有這么一項(xiàng)工作:劃區(qū)繪圖。所有普查小區(qū)的邊界信息都在計(jì)算機(jī)中繪制并上傳至國(guó)家服務(wù)器中。換種說(shuō)法,就是國(guó)家的服務(wù)器中存儲(chǔ)著全國(guó)所有行政區(qū)域的邊界信息。
這意味著,如果已知一個(gè)地理位置坐標(biāo),就可以在國(guó)家的經(jīng)普地圖中查詢到對(duì)應(yīng)的行政區(qū)域,那么就等于確定了其行政區(qū)劃代碼。所以只要“三經(jīng)普”地理系統(tǒng)開放相應(yīng)的查詢接口,接受經(jīng)緯度坐標(biāo)為參數(shù),返回包含行政區(qū)劃代碼信息的結(jié)果,自動(dòng)編碼就可以完成了。
(二)總體流程與可行性分析
本文提出的解決方案,是通過(guò)商業(yè)地圖提供的公用接口,將地理文字位置轉(zhuǎn)換為地理坐標(biāo)信息,再通過(guò)在“三經(jīng)普”地理地圖中的定位,得到對(duì)應(yīng)的行政區(qū)域,最后編制成行政區(qū)劃代碼??傮w流程圖如下:
從正確性分析,此方案主要依賴百度地圖API的查詢結(jié)果,根據(jù)日常使用情況上來(lái)看,返回的結(jié)果具有非常高的可信度,基本可以滿足日常工作需要;從計(jì)算機(jī)技術(shù)上講,如果國(guó)家統(tǒng)計(jì)局提供從地理位置坐標(biāo)到行政區(qū)劃代碼的查詢接口,那么結(jié)合百度地圖API,程序只需要兩步查詢就可以輕易實(shí)現(xiàn);從已有的系統(tǒng)支持上講,國(guó)家統(tǒng)計(jì)局現(xiàn)在已經(jīng)開發(fā)了“三經(jīng)普”地理地圖系統(tǒng),只需對(duì)外提供一個(gè)查詢接口,便可推動(dòng)計(jì)算機(jī)自動(dòng)編碼從設(shè)想變?yōu)楝F(xiàn)實(shí)。
(三)自動(dòng)編碼的優(yōu)勢(shì)分析
計(jì)算機(jī)自動(dòng)編碼的優(yōu)勢(shì)是顯而易見的,主要體現(xiàn)在:一是提高工作效率。一旦實(shí)現(xiàn)自動(dòng)化工作,人力成本可以得到極大的節(jié)省;二是提高名錄庫(kù)精確度。此項(xiàng)技術(shù)有利于優(yōu)化名錄庫(kù)中單位中的準(zhǔn)確性,這可以給各專業(yè)工作的開展,甚至是下一
次普查工作帶來(lái)無(wú)窮的好處。三是不需要維護(hù)地理信息。這是一個(gè)巨大的優(yōu)勢(shì),現(xiàn)有的商業(yè)網(wǎng)絡(luò)地圖更新相當(dāng)及時(shí),且數(shù)據(jù)準(zhǔn)確性高,這在充分利用了現(xiàn)有大數(shù)據(jù)的情況下,還可以很大程度上保證結(jié)果的可信度。
1.“三經(jīng)普”地理信息利用率有待提高?!叭?jīng)普”成果中的地理地圖有待開放查詢接口,如果現(xiàn)有的地理信息沒(méi)有得到很好的利用,那么將造成無(wú)形的資源浪費(fèi),而再過(guò)幾年數(shù)據(jù)將陳舊且無(wú)法使用,等下次普查工作可能就是新的一輪重復(fù)。
2.行政區(qū)域分界需要及時(shí)更新維護(hù)。為了保證行政區(qū)劃編碼的正確性與有效性,全國(guó)行政區(qū)域的變更必須及時(shí)反映在全國(guó)地理地圖中。雖然這需要花費(fèi)一定的時(shí)間精力,但是考慮到行政區(qū)域較少變動(dòng),而且此項(xiàng)工作還可以給日后帶來(lái)很多方面的效益,那么整體的投入與產(chǎn)出相比,是非常有價(jià)值的。
(責(zé)任編輯:牛域?qū)帲?/p>