柴寶惠
(復(fù)旦大學(xué)歷史地理研究中心,上海 200433)
近代以來,我國產(chǎn)生了大量利用科學(xué)測繪技術(shù)繪制的彩色地圖,是了解當(dāng)時地表覆蓋情況的寶貴資料,數(shù)字化則是提取相關(guān)信息的重要過程和方法。地圖數(shù)字化的本質(zhì)是圖像數(shù)字化,通過計算機圖形和圖像技術(shù),將照片等模擬圖像轉(zhuǎn)化為數(shù)字圖像,并對圖像中的目標(biāo)加以提取與識別。(1)Maria Petrou, Costas Petrou, Image Processing: the Fundamentals, Hoboken, New Jersey: John Wiley & Sons, 2010.地圖的數(shù)字化通常還包括地圖的定位和配準(zhǔn)。(2)潘威、滿志敏: 《大河三角洲歷史河網(wǎng)密度格網(wǎng)化重建方法——以上海市青浦區(qū)1918—1978年為研究范圍》,《中國歷史地理論叢》2010年第2輯。目前已有很多圖像數(shù)字化的方法,現(xiàn)代地圖數(shù)字化也有了一定研究。(3)郭玲、王曉蘭、周獻中: 《彩色地圖線狀要素識別系統(tǒng)的設(shè)計與實現(xiàn)》,《系統(tǒng)仿真學(xué)報》2004年第5期;陳銘灝: 《彩色柵格地圖前景要素提取方法研究》,重慶大學(xué)碩士學(xué)位論文,2006年。但是近代地圖與現(xiàn)代地圖具有不同特點,例如: 部分近代地圖缺乏測繪信息;圖面質(zhì)量通常較差,存在不同程度的缺失、磨損、泛黃和褪色情況;地圖符號形態(tài)各異,缺乏規(guī)范和標(biāo)準(zhǔn)。針對彩色近代地圖的數(shù)字化方法,國內(nèi)仍少有研究。在歷史地理學(xué)研究實踐中,采用手動數(shù)字化的方式仍是主流,不僅效率較低,而且主觀性較強,其準(zhǔn)確性和可比性都難以保證。
上海地區(qū)原本河網(wǎng)密布,與其他江南水鄉(xiāng)并無二致。地表水體資源利用于交通、農(nóng)業(yè)、生活用水等方面,同水鄉(xiāng)的生產(chǎn)生活方式緊密聯(lián)結(jié)在一起。(4)吳俊范: 《從水鄉(xiāng)到都市: 近代上海城市道路系統(tǒng)演變與環(huán)境(1843—1949)》,復(fù)旦大學(xué)博士學(xué)位論文,2008年;潘威: 《上海地區(qū)地表水系空間結(jié)構(gòu)特征重建及相關(guān)問題研究(1827—1978)》,復(fù)旦大學(xué)博士學(xué)位論文,2009年。近代開埠以來,出于填浜筑路等都市基礎(chǔ)建設(shè)需要,上海市區(qū)地表水體形態(tài)不斷經(jīng)受大規(guī)模改造(5)滿志敏: 《上海地區(qū)城市、聚落和水網(wǎng)空間結(jié)構(gòu)演變》,上海辭書出版社2013年版;王建革: 《水鄉(xiāng)生態(tài)與江南社會: 9—20世紀(jì)》,北京大學(xué)出版社2013年版。;在郊區(qū),由于農(nóng)業(yè)發(fā)展和基本建設(shè)需求,水網(wǎng)形態(tài)也有顯著改變(6)閆芳芳、滿志敏、潘威: 《從小圩到園田: 近百年來上海地區(qū)河網(wǎng)密度變化》,《地球環(huán)境學(xué)報》2014年第6期。。隨之而來的,是區(qū)域生態(tài)環(huán)境的整體嬗變,乃至與地表水體關(guān)系密切的社會經(jīng)濟活動的深刻轉(zhuǎn)型。上海地區(qū)近代地圖資料豐富,地表水體是其展示的重要地物之一,因此,提取上海近代地圖上地表水體并分析其變化有重要意義,也有很強可行性。已有學(xué)者利用近代地圖,通過人工數(shù)字化提取水體變化信息,就城市化對水網(wǎng)變遷的影響及水系變化的驅(qū)動機制等問題進行研究(7)程江、楊凱、趙軍等: 《上海中心城區(qū)河流水系百年變化及影響因素分析》,《地理科學(xué)》2007年第1期;潘威、滿志敏: 《大河三角洲歷史河網(wǎng)密度格網(wǎng)化重建方法——以上海市青浦區(qū)1918—1978年為研究范圍》,《中國歷史地理論叢》2010年第2輯;Wenwei Ren, Yang Zhong, John Meligrana, et al., Urbanization, land use, and water quality in Shanghai: 1947-1996, Environment International, 2003, Vol.29, No.5, pp.649-659.,然而,運用人工數(shù)字化方式提取水體結(jié)果多為矢量類型數(shù)據(jù),河流大多被抽象為線類型要素,其定位和形態(tài)有一定模糊性和主觀性,也不利于數(shù)據(jù)的展示(8)閆芳芳、滿志敏、潘威: 《從小圩到園田: 近百年來上海地區(qū)河網(wǎng)密度變化》,《地球環(huán)境學(xué)報》2014年第6期。;更重要的是,人工數(shù)字化方式工作效率較低,特別是在處理較多地圖時,需要投入大量時間成本。
在彩色近代地圖的自動或半自動數(shù)字化研究方面,已有不少研究實現(xiàn)了對地名信息的提取(9)潘威、張光偉、夏翠娟、孫濤: 《古舊地圖的信息化》,《圖書館論壇》2021年第11期;Beatrice Alex, Claire Grover, Richard Tobin, et al., Geoparsing historical and contemporary literary text set in the city of Edinburgh, Language Resources and Evaluation, 2019, Vol.53, No. 4, pp.651-675.,但對于地理要素的提取往往主要利用地圖中的顏色信息,對地圖符號的空間形態(tài)信息挖掘得不夠充分。(10)Johannes H. Uhl, Stefan Leyk, Zekun Li, et al., Combining remote-sensing-derived data and historical maps for long-term back-casting of urban extents, Remote Sensing, 2021, Vol.13, No. 18, p.3672;Yao-Yi Chiang, Stefan Leyk, and Craig A. Knoblock, Integrating Color Image Segmentation and User Labeling for Efficient and Robust Graphics Recognition from Historical Maps, The Ninth IAPR International Workshop on Graphics Recognition, 2011, pp.1-4.近幾年來,有研究利用深度學(xué)習(xí)算法進行彩色近代地圖地理要素的數(shù)字化并取得了較好的提取效果(11)Sidi Wu, Magnus Heitzler, Lorenz Hurni, Leveraging uncertainty estimation and spatial pyramid pooling for extracting hydrological features from scanned historical topographic maps, GIScience & Remote Sensing, 2022, pp.1-15; Johannes H. Uhl, Stefan Leyk, Yao-Yi Chiang, et al., Automated extraction of human settlement patterns from historical topographic map series using weakly supervised convolutional neural networks, IEEE Access, 2020, Vol.8, pp.6978-6996.,但深度學(xué)習(xí)方法模型復(fù)雜,可解釋性較弱(12)Maya Krishnan, Against interpretability: a critical examination of the interpretability problem in machine learning, Philosophy & Technology, 2020, Vol.33, No.3, pp.487-502.,往往需要大量的訓(xùn)練樣本和運行時間(13)Athanasios Voulodimos, Nikolaos Doulamis, Anastasios Doulamis, et al., Deep learning for computer vision: a brief review. Computational Intelligence and Neuroscience, 2018; Yanming Guo, Yu Liu, Ard Oerlemans, et al., Deep learning for visual understanding: a review, Neurocomputing, 2016, Vol.187, pp.27-48.,對計算機算力也要求較高,需要更高的硬件支持(14)Neil C. Thompson, Kristjan Greenewald, Keeheon Lee, et al., The computational limits of deep learning, ArXiv, 2020, 2007.05558.,在現(xiàn)階段歷史地理研究中的實用性和可推廣性仍然較為有限。
有鑒于此,本文提出一種基于機器學(xué)習(xí)和圖像形態(tài)學(xué)的彩色近代地圖數(shù)字化方法,該方法可充分挖掘地圖中的顏色信息和地圖符號的形態(tài)結(jié)構(gòu)信息,能夠以半自動的方式快速準(zhǔn)確地將彩色近代地圖中的地表水體信息提取出來,以“華東·上?!钡貓D為例說明具體實現(xiàn)方式,并驗證其有效性。該方法可為彩色近代地圖中具有顏色特征的地理要素的數(shù)字化提取提供借鑒,有望為精準(zhǔn)復(fù)原近代以來地表覆蓋變遷、深入理解城市化進程中的人地關(guān)系變化提供數(shù)據(jù)和方法基礎(chǔ)。
《華東·上?!?EasternChina,Shanghai)地圖(下文簡稱“上海圖”),為柵格圖像格式(圖1)。(15)Ordnance Survey, Great Britain, Eastern China, Shanghai, 1927, Library of Congrass[2021-06-24], https://www.loc.gov/item/2012594283/, Geographical Section, General Staff, War Office, Great Britain, Eastern China 1∶50 000, Shanghai, 1926, Trove[2022-02-16], http://nla.gov.au/nla.obj-1647473952.該圖于1927年由英國地形測量局南安普敦辦公室(Ordnance Survey Office Southampton)繪制、制版并印刷。英國人從19世紀(jì)初開始在中國從事測繪活動,從19世紀(jì)前10年末起,英國一些主要的測繪機構(gòu),包括軍事測量局(Directorate of Military Survey)、印度測量局(Survey of India)、殖民測量局(Directorate of Colonial Surveys),對中國的大片地區(qū)進行了測繪,其中,印度測量局最早派出大批勘探和測繪考察隊前往中國西部和西南地區(qū),軍事測量局也在中國其他地區(qū)進行了長達50余年的測繪活動,特別是在與英國空軍部和地形測量局的合作之下,為華東地區(qū)繪制了一系列不同比例尺的地圖,“上海圖”就是其中之一。(16)Jack F. Williams, China in Maps 1890-1960: a Selective and Annotated Cartobibliography, East Asia Series Occasional Paper No. 4, Michigan: Asian Studies Center, Michigan State University, 1974.
“上海圖”比例尺為1∶50 000,原圖裝裱于亞麻布上,為藍色與黑色雙色套印,尺寸為70厘米×60厘米,分成上下兩個部分以便折疊。圖上文字為英文,四個頂角標(biāo)有經(jīng)緯度,西北頂點坐標(biāo)為(31°26′32.99″N, 121°18′55.24″E),東南頂點坐標(biāo)為(31°7′14.76″N, 121°37′19.40″E),采用多圓錐投影(17)Geographical Section, General Staff, War Office, Great Britain, Eastern China 1∶50 000, Shanghai, 1926, Trove[2022-02-16], http://nla.gov.au/nla.obj-1647473952.,圖面繪有寬度為1千米的軍用坐標(biāo)方格網(wǎng)(military grid)。地圖標(biāo)題右下方標(biāo)有“僅供官方使用”,指出其不是商業(yè)用途的地圖。左下角繪有居民點邊界、省界、區(qū)界、鐵路、電車軌道、主路、其他道路、堡壘、電報線路等要素的圖例;右下角繪有礦藏、塔、教堂、歷史遺跡、寺廟、石灰窯或磚窯、墓地、濕地、時令河、林地、沙地和水利工程等要素的圖例,未繪制時令河之外的地表水體的圖例。
圖1 《華東·上?!返貓D(1927年,英國地形測量局繪制)
英國在近代繪制的中國地區(qū)地圖被普遍認為質(zhì)量較高。(18)Jack F. Williams, China in Maps 1890-1960: a Selective and Annotated Cartobibliography, East Asia Series Occasional Paper No. 4, Michigan: Asian Studies Center, Michigan State University, 1974.“上海圖”的數(shù)字圖像清晰,比例尺較大,雙色套印,采用現(xiàn)代測繪技術(shù)方法,地理信息精細完備,因此以該圖為例,驗證本文所提出的基于機器學(xué)習(xí)和圖像形態(tài)學(xué)的彩色近代地圖數(shù)字化方法的有效性。
在《華東·上?!分校乇硭w是用藍色符號標(biāo)示的。該圖中的河流主要根據(jù)寬度差異采用三類不同的符號——藍色輪廓線包圍藍色橫線或斜線、藍色雙線和藍色單線。長江、黃浦江、蘇州河和蕰藻浜等主要河流采用第一類符號標(biāo)示(圖2a),次級寬度的河流采用第二類符號(圖2b),較窄的河浜采用第三類(如圖2c和圖2d中河流)。小型湖泊和池塘等封閉水域則用藍色實心或空心封閉圖形符號標(biāo)示(圖2c,圖2d)。由于地表水體的符號主要由線狀符號組成,絕大多數(shù)并非實心色塊,所以地表水體大多并未被藍色符號完全覆蓋,其中存在大量背景色空隙。
圖2 《華東·上海》地圖(1927)中幾種地表水體標(biāo)示符號示例
同時,圖中藍色部分并不全是地表水體,部分文字注記也用藍色標(biāo)示,包括河流名(如圖3中實線橢圓所示)和方里網(wǎng)序號(如圖3中虛線橢圓所示)。此外,地表水體符號存在不完整的情形,方里網(wǎng)格以及部分黑色文字注記、房屋和橋梁等黑色地圖符號將完整的地表水體符號遮蓋或分隔開來(如圖3中①—③所示位置),特別是由于地圖似用套版印刷術(shù)制作,不同顏色符號之間的微小錯位也會導(dǎo)致部分藍色地表水體符號被壓蓋。因此,這些藍色非水體符號和黑色噪聲對地表水體的自動提取造成了一定程度的干擾。而由于地圖時代久遠,地圖上的藍色色調(diào)深淺不一,甚至因泛黃、褪色而在某些部分呈現(xiàn)出偏綠或偏灰的顏色。
圖3 《華東·上?!返貓D(1927)中藍色文字注記(實線圈)以及黑色 地圖符號(虛線圈)對地表水體符號的分隔和遮擋示例
彩色地圖通過在顏色和形狀等方面不同的地圖符號表示不同地表覆蓋類型或地理要素,使讀圖者能夠加以區(qū)分。然而,近代地圖由于年代長遠,磨損、泛黃、褪色等老化現(xiàn)象使地圖符號的顏色發(fā)生改變。此外,近代地圖中,地圖符號缺乏統(tǒng)一規(guī)范,形態(tài)各異,且有時出于節(jié)省油墨等方面考慮,面狀地理要素往往不像現(xiàn)當(dāng)代地圖能將多邊形內(nèi)部用顏色填滿,而是僅用線狀或點狀符號填充,未將地物完全覆蓋。
彩色近代地圖出現(xiàn)泛黃、褪色,地圖符號覆蓋不完全或符號間互相遮擋的情況對肉眼識別地物類型及其范圍影響不大。如何能夠使計算機充分學(xué)習(xí)、挖掘、利用彩色近代地圖符號的顏色和空間結(jié)構(gòu)這兩類信息,排除各類干擾信息,準(zhǔn)確快速地將地表水體信息提取出來,完全或部分取代人工數(shù)字化工作,大幅度提高數(shù)字化的精度和效率,是本文的研究目標(biāo)。
針對這一目標(biāo),本文提出結(jié)合機器學(xué)習(xí)和圖像形態(tài)學(xué)的彩色近代地圖數(shù)字化方法,并以“上海圖”為例說明具體實現(xiàn)方式。其中,機器學(xué)習(xí)部分利用統(tǒng)計學(xué)習(xí)的方法,深入挖掘地表水體符號的顏色信息,將地表水體初步識別出來;圖像形態(tài)學(xué)方法則根據(jù)地圖符號的空間結(jié)構(gòu)信息,得到更加準(zhǔn)確完整的地表水體范圍。該方法是一種地表水體半自動提取方法,所謂“半自動”是指在應(yīng)用該算法的過程中,需要少量簡單的人工干預(yù)。具體來說,該方法包括四個步驟: (1) 地圖定位與配準(zhǔn); (2) 基于機器學(xué)習(xí)的地表水體初步提??; (3) 基于圖像形態(tài)學(xué)的地表水體提取結(jié)果優(yōu)化; (4) 結(jié)果比較與精度檢驗。
本研究所用“上海圖”系紙質(zhì)版地圖掃描而得,為圖像文件。要將“上海圖”與現(xiàn)實世界以及其他地圖和遙感影像等多源數(shù)據(jù)中的地表覆蓋信息進行對比的前提,是要對其進行定位和配準(zhǔn)。
首先,根據(jù)圖面上四個角點處標(biāo)示的經(jīng)緯度,進行整體初步定位。其次,將“上海圖”與近年云量較少的遙感影像進行對比。本研究使用了Landsat OLI Level-2影像作為參照,因其已經(jīng)過正射校正和幾何校正,并具有投影信息。在圖面范圍內(nèi)選擇一定數(shù)量未發(fā)生變化的標(biāo)志性地物作為控制點,如房屋角點和道路交叉點等,保證這些控制點在圖面范圍內(nèi)大致均勻分布,再將“上海圖”與Landsat遙感影像進行配準(zhǔn)。最后,在偏差較大的區(qū)域增加控制點數(shù)量,如此進行反復(fù)調(diào)整,確保地圖定位精度。本研究采用二次多項式進行配準(zhǔn),共選取17個控制點,配準(zhǔn)的均方根誤差(RMS)在0.78個像元以內(nèi)。配準(zhǔn)后,“上海圖”每個像元對應(yīng)的實際面積約為16平方米。
藍色調(diào)是“上海圖”中地表水體符號最主要的共性特征。簡單找出圖中所有呈現(xiàn)藍色的部分雖然對很多現(xiàn)代地圖完全可行,但對近代地圖來說則可能遺漏掉大量原本是藍色卻因年代久遠發(fā)生顏色改變的部分。針對彩色近代地圖的這一特征,就需要使計算機能夠充分學(xué)習(xí)“上海圖”中的顏色信息,準(zhǔn)確將地圖中所有地表水體符號的覆蓋范圍提取出來。這也是本文提出的方法與現(xiàn)代彩色地圖數(shù)字化方法的一大區(qū)別。
本研究采用機器學(xué)習(xí)的方法,思路是通過向計算機輸入少量地表水體符號顏色特征作為訓(xùn)練樣本,利用高等數(shù)學(xué)的理論方法,使計算機能夠在全圖范圍內(nèi)實現(xiàn)對所有具有類似顏色特征像元的自動識別。在機器學(xué)習(xí)算法中,本文選擇支持向量機(Support Vector Machine, SVM)算法(19)柴寶惠、李培軍、張瑞潔等: 《基于Landsat數(shù)據(jù)和DMSP/OLS夜間燈光數(shù)據(jù)的城市擴展提?。?以天津市為例》,《北京大學(xué)學(xué)報(自然科學(xué)版)》2016年第3期。,該算法利用統(tǒng)計學(xué)習(xí)的方式,不需要大量訓(xùn)練樣本即可有效識別目標(biāo),而且能夠獲得比最大似然法和決策樹等傳統(tǒng)機器學(xué)習(xí)方法更高的精度(20)Chengquan Huang, L. S. Davis, J. R. G. Townshend, An assessment of support vector machines for land cover classification, International Journal of Remote Sensing, 2002, Vol.23, No.4, pp.725-749.。
為了更準(zhǔn)確地識別藍色部分,減小圖像泛黃、褪色的影響,在支持向量機分類器的輸入特征除了RGB顏色空間的紅、綠、藍三個分量,還加入藍版圖,以增加藍色信息的重要性,利用這四個特征一起進行支持向量機分類。藍版圖是指所有藍色調(diào)的像元組成的波段,即每個像元的RGB(紅、綠、藍)三分量中,B分量為最大值的像元。(21)郭玲、王曉蘭、周獻中: 《彩色地圖線狀要素識別系統(tǒng)的設(shè)計與實現(xiàn)》,《系統(tǒng)仿真學(xué)報》2004年第5期。由于“上海圖”原圖包含藍、白、黑三種顏色,故而利用支持向量機生成包含這三類顏色的分類結(jié)果。將藍色類別作為目標(biāo)類別,進行二值化處理,對藍色類別賦值為1,其余賦值為0,進而得到地表水體初步提取結(jié)果,具體流程如圖4所示。
任何利用計算機進行數(shù)字圖像分類和目標(biāo)識別的方法,所得結(jié)果均存在錯分和漏分兩類誤差,更何況近代地圖較為復(fù)雜,存在部分文字注記錯為藍色、地表水體符號覆蓋不完全、黑色符號遮擋地物等各類干擾,因此,僅根據(jù)顏色信息得到的地表水體初步提取結(jié)果存在一定誤差。故利用圖像空間結(jié)構(gòu)特征和圖像形態(tài)學(xué)的方法,輔以人工修正,將地表水體初步提取結(jié)果進行優(yōu)化,減少噪聲干擾,排除非水體信息(降低錯分誤差),增強地表水體的完整性和連通性(降低漏分誤差),進而整體提高地表水體提取精度。具體來說,本節(jié)包括非水體信息去除和水體完整性增強兩個部分,如圖5所示。
圖4 基于機器學(xué)習(xí)的地表水體初步提取流程圖注: 藍版圖、支持向量機分類結(jié)果以及地表水體初步提取結(jié)果中,藍色部分表示地表水體區(qū)域。
圖5 基于圖像形態(tài)學(xué)的地表水體提取優(yōu)化流程圖注: 地表水體初步提取結(jié)果和優(yōu)化后的地表水體提取結(jié)果中,藍色部分表示地表水體區(qū)域,白色部分表示非水體區(qū)域。
1. 非水體信息去除
如前文所述,藍色調(diào)像元中,除地表水體符號外,還包含藍色文字注記(河流名和方里網(wǎng)序號)。因此,需要將地表水體初步提取結(jié)果中的這些非水體信息去除。
二值化后,初步提取結(jié)果中僅有地表水體和非水體兩個類別,故而直接在藍色文字注記處,圈出其大致范圍進行標(biāo)選,標(biāo)選過程中稍加注意,避免包含真正的地表水體,即可得到方里網(wǎng)序號和河流名的二值圖像。由于很多藍色文字注記并未與地表水體部分交疊在一起,這一過程并不十分費時。將二者從初步提取結(jié)果中減去,就可以得到去除非水體信息后的結(jié)果。
2. 水體完整性增強
地表水體表示符號中的藍色斜線、藍色雙線和空心圖形導(dǎo)致地表水體初步提取結(jié)果不完整,或是輪廓加上內(nèi)部斜線,或是僅有輪廓。此外,受黑色地圖符號分隔和遮擋影響,部分河流的連通性和完整性存在問題。
因此,利用圖像形態(tài)學(xué)方法,提取圖像中的形狀特征,改善地表水體的完整性和連通性。圖像形態(tài)學(xué)的基本原理是利用一種特殊的結(jié)構(gòu)元來測量或提取圖像中相應(yīng)的形狀或特征,以便后續(xù)圖像分析和目標(biāo)識別。(22)Georges Matheron, Jean Serra, The Birth of Mathematical Morphology, Proc. 6th Intl. Symp. Mathematical Morphology, Sydney, Australia, 2002, pp.1-16.圖像形態(tài)學(xué)運算以膨脹和腐蝕兩種運算為基礎(chǔ),在數(shù)字圖像處理中可根據(jù)需要由這兩種運算組成各種復(fù)合運算,典型的復(fù)合運算有開運算和閉運算。根據(jù)圖像形態(tài)學(xué)閉運算可填充物體內(nèi)細小空洞、連接鄰近物體、平滑其邊界的同時并不明顯改變其面積的特性,以水體為前景,對上一步去除非水體信息后的結(jié)果進行處理,填充遺漏部分,連接斷裂部分,使水體提取結(jié)果更加完整。經(jīng)試驗,閉運算結(jié)構(gòu)元設(shè)為3×3像元、閉運算處理遞歸兩次時,填補間隙的效果最好。
由于長江的表示符號中,斜線之間存在較大空隙(圖2a),在長江邊界被提取出來的情況下,進行圖像形態(tài)學(xué)閉運算后,邊界內(nèi)仍存在一定數(shù)量的地表水體像元未能被提取出來。但這些像元大多與長江邊界有一定距離,因此,無需再仔細沿著邊界勾勒,只需簡單地圈出一些區(qū)域,即可將這些遺漏區(qū)域基本囊括在內(nèi)(即使稍有遺漏亦可在最后一步中過濾去除),加入地表水體類別中即可。
經(jīng)過上述步驟處理后,提取得到的地表水體中仍然存在少量小型孤立非水體區(qū)域(島)。由于“上海圖”覆蓋區(qū)域內(nèi)實際上幾乎不存在這種情況,所以這些區(qū)域基本都可以被認定為地表水體提取的遺漏區(qū)域。因此,通過直接對非水體區(qū)域面積設(shè)定閾值,過濾面積低于閾值的部分,進一步增強地表水體的完整性。經(jīng)試驗,閾值設(shè)定為在8鄰域內(nèi)300個像元(約4 800平方米,不到一個足球場的面積)的大小時,過濾效果最好。
經(jīng)上述步驟所獲結(jié)果的準(zhǔn)確性可從兩個方面評估,即與原地圖進行直觀的目視對比,以及定量化的精度檢驗。在目視對比中,重點比較未進行人工標(biāo)選的區(qū)域(圖中長江以外地區(qū))。精度檢驗用統(tǒng)計方法評估地表水體提取結(jié)果的準(zhǔn)確程度。為了驗證方法的有效性,分別評估機器學(xué)習(xí)和圖像形態(tài)學(xué)在地表水體準(zhǔn)確提取中的作用,將本文方法所得結(jié)果與另外三種相關(guān)方法,即藍版圖(下稱方法A)、只利用RGB三分量的支持向量機分類(下稱方法B),以及利用RGB三分量和藍版圖共四個特征的支持向量機分類(即地表水體初步提取,下稱方法C)結(jié)果相互對比。其中,對比本文與方法A用于判斷對現(xiàn)代地圖往往可行的數(shù)字化方法處理近代地圖的適用性;對比方法A與方法B可驗證機器學(xué)習(xí)方法在近代地圖數(shù)字化中的作用;對比方法B與方法C可驗證充分利用圖中顏色信息對準(zhǔn)確提取近代地圖中地表覆蓋信息的意義;對比方法C與本文方法可評估基于圖像形態(tài)學(xué)的地表水體提取的優(yōu)化過程所起的作用。如果認為在不考慮時間因素等限制條件的理想情況下,地圖的人工數(shù)字化精度為100%,那么通過精度檢驗便可得知本文所提出的半自動方法對比人工數(shù)字化方式的準(zhǔn)確程度了。
由于檢驗樣本的選取方法和質(zhì)量直接影響結(jié)果精度評價的可靠程度,因此,參考現(xiàn)有研究中廣泛采用的檢驗樣本生成方法(23)Baohui Chai, Peijun Li, Annual urban expansion extraction and spatio-temporal analysis using Landsat Time Series Data: a case study of Tianjin, China, IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2018, 11, 8, pp.2644-2656; Xuecao Li, Peng Gong, Lu Liang, A 30-year (1984-2013) Record of annual urban dynamics of Beijing City derived from Landsat Data, Remote Sensing of Environment, 2015, 166, pp.78-90.,本研究選用等量隨機采樣法,可以有效避免目標(biāo)類別地物(本文中為地表水體)比例過低,進而導(dǎo)致該類檢驗樣本過少的情況。在“上海圖”呈現(xiàn)的地表水體中,長江和黃浦江面積占比很大,如果在全圖范圍內(nèi)隨機生成檢驗樣本,則大部分水體檢驗樣本都將落在長江和黃浦江中,而其他區(qū)域的地表水體提取效果,特別是空間尺度較小的細節(jié)之處,其準(zhǔn)確性將難以得到客觀評價。因此,除計算全圖范圍的精度之外,還單獨評價了長江和黃浦江范圍之外的精度。在此區(qū)域隨機生成400個檢驗樣本,包括地表水體和非水體類別各200個,以更好地驗證空間尺度較小的地表水體的提取精度。在全圖范圍隨機生成的檢驗樣本數(shù)量也是200×2=400個檢驗樣本。將檢驗樣本位置處由各個方法所得的地表水體提取結(jié)果一一與“上海圖”原圖像加以對照,確定其正確與否,進而通過計算混淆矩陣,計算總體精度、地表水體的制圖精度和用戶精度。其中,總體精度評價是提取完全正確的概率;地表水體的制圖精度和用戶精度則分別評估地表水體漏分和錯分誤差——制圖精度越高,漏分誤差越低;用戶精度越高,錯分誤差越低。
上述方法中,地圖的定位與配準(zhǔn)在ArcGIS 10.8平臺上完成,基于機器學(xué)習(xí)的地表水體初步提取、基于圖像形態(tài)學(xué)的地表水體提取優(yōu)化,以及結(jié)果比較與精度檢驗則全部在ENVI 5.3平臺上完成。
上文四種方法結(jié)果對比如圖6和圖7所示??梢钥吹?,因為地圖存在泛黃、褪色的情況,且絕大多數(shù)地表水體地圖符號未將地表水體完全覆蓋,所以,只利用RGB三分量最大值為B分量,也即“呈現(xiàn)藍色調(diào)”這個單一的顏色特征,對現(xiàn)代地圖可能簡單有效,但是對于近代地圖卻并非如此——所得結(jié)果中,大量地表水體部分被遺漏掉,如圖6a和圖7a所示。
在利用RGB三分量的支持向量機分類結(jié)果中(圖6b,圖7b),地表水體符號被提取得更加完整,一定程度上改善了藍版圖中大量地表水體沒能被提取出來的現(xiàn)象,這說明機器學(xué)習(xí)方法可以通過更充分挖掘顏色信息,有效彌補因泛黃、褪色等地圖變色情況而導(dǎo)致的地表水體遺漏區(qū)域。與此同時,對比圖7的a、b兩圖中虛線框區(qū)域可以發(fā)現(xiàn),機器學(xué)習(xí)方法與藍版圖相比,雖然減少了漏分誤差,但也增加了錯分誤差,出現(xiàn)椒鹽噪聲(salt and pepper noise)。
圖6 利用本文方法與其他方法得到的《華東·上?!返貓D全圖地表水體提取結(jié)果對比
圖7 利用本文方法與其他方法得到的《華東·上海》地圖局部地表水體提取結(jié)果對比注: 方法A、B、C間差異明顯的區(qū)域用虛線框突出表示;本文方法較方法C改進明顯之處用實線框突出表示。
對比圖7b、圖7c中虛線框區(qū)域的差異可見,增加顏色特征的數(shù)量,將藍版圖與RGB三分量通過機器學(xué)習(xí)方法都利用起來,不僅保持了機器學(xué)習(xí)方法減少漏分誤差的優(yōu)勢,也比只利用RGB三分量更能避免錯分誤差,全方位提高地表水體提取的準(zhǔn)確性。然而,觀察圖7c中實線所示區(qū)域可以發(fā)現(xiàn),機器學(xué)習(xí)方法即使深入挖掘了顏色信息,也只能修正地圖泛黃、褪色現(xiàn)象對地表水體提取的影響,并不能修正大多非實心地表水體符號未將水體完全覆蓋以及被方里網(wǎng)等被黑色符號遮擋而導(dǎo)致的地表水體提取不完整問題。
而本文方法所得結(jié)果中,不僅長江被完整地提取出來,藍色文字注記也被全部去除,這是人工標(biāo)選的結(jié)果(圖6d)。對比圖7c和圖7d中實線框所示區(qū)域,明顯發(fā)現(xiàn)圖像形態(tài)學(xué)方法(閉運算)以及小型遺漏區(qū)域的自動過濾步驟在并未顯著改變地表水體形態(tài)的情況下,填補了大量地圖符號中的空隙,修正了上述由地表水體符號覆蓋不完全、黑色符號和文字注記遮擋等原因?qū)е碌牡乇硭w提取不完整的錯誤。由此可見,對于近代地圖數(shù)字化來說,不僅要充分挖掘地圖中的顏色信息,空間結(jié)構(gòu)信息的有效利用也是不可或缺的。
利用四種方法所得結(jié)果的總體精度、地表水體制圖精度和用戶精度對比如圖8所示。圖中可見,僅利用“呈現(xiàn)藍色調(diào)”這一信息得到的藍版圖結(jié)果,在長江和黃浦江之外區(qū)域的總體精度僅為84.3%,而對比地表水體的制圖精度和用戶精度,可以發(fā)現(xiàn)初始提取結(jié)果用戶精度很低,不及81%,即存在大量錯分誤差,這主要是藍色文字注記未被去除所致。地表水體制圖精度也只有93.1%,因為地圖泛黃、褪色,地表水體符號的某些部分并非呈現(xiàn)藍色調(diào),且一些地表水體符號中存在間隙,所以一些地表水體區(qū)域沒有被提取出來,這一精度從定量的角度驗證了上一節(jié)中對藍版圖結(jié)果的分析。
利用RGB三分量的支持向量機分類結(jié)果較藍版圖結(jié)果而言,三個精度指標(biāo)都有大幅提升,在長江和黃浦江之外區(qū)域總體精度達到94.0%。用RGB三分量和藍版圖共四個特征的支持向量機分類(地表水體初始提取),則進一步提高了地表水體提取精度,特別是在地表水體的制圖精度方面,由97.8%提高至99.5%,換言之,地表水體的漏分誤差已經(jīng)被降到極低;而用戶精度也提高了一個百分點,這說明增加支持向量機的顏色特征輸入,可以減少錯分誤差,對應(yīng)圖7b和圖7c,就是椒鹽噪聲被有效去除。
本文方法無疑是四種方法中精度最高的。在長江和黃浦江之外區(qū)域總體精度高達98.8%,地表水體制圖精度為100%,用戶精度亦達到97.3%,在所有精度指標(biāo)上都高于未使用圖像形態(tài)學(xué)的方法。特別是用戶精度方面,因為藍色文字注被標(biāo)選去除,用戶精度比未利用圖像形態(tài)學(xué)方法處理的方法C結(jié)果高出6.3%。在制圖精度方面,雖然實際上仍有部分遺漏之處因為其空間尺度超過圖像形態(tài)學(xué)結(jié)構(gòu)元的空間尺度而難以被彌合(圖6,圖7),然而,這些漏分誤差并未在地表水體制圖精度中體現(xiàn)出來,也就是說,在隨機生成的400個檢驗樣本中,沒有檢測到地表水體遺漏的現(xiàn)象,反映出漏分錯誤的像元相對于所有地表水體像元來說,仍是極少數(shù)。
在全圖范圍內(nèi),本文方法所得結(jié)果的總體精度更是達到99.8%,地表水體的制圖精度為100%,用戶精度為99.5%(未在圖8中顯示)。全圖范圍內(nèi),地表水體的遺漏部分被提取出來,不僅與圖像形態(tài)學(xué)有關(guān),也與主要遺漏區(qū)域標(biāo)選步驟有直接聯(lián)系。但是對于長江與黃浦江之外區(qū)域來說,遺漏區(qū)域沒有經(jīng)過手動處理,制圖精度的提高完全是圖像形態(tài)學(xué)所起的作用,可見閉運算可以有效填補藍色斜線、藍色雙線和空心封閉圖形符號等地表水體符號中的間隙,并且改善因地圖泛黃、褪色,黑色地圖符號和文字注記遮擋而導(dǎo)致地表水體不完整的情況,這些都是只利用顏色信息處理完全無法做到的。
圖8 四種方法所得地表水體提取結(jié)果在長江和黃浦江之外區(qū)域三種精度對比
針對彩色近代地圖的特點,將其數(shù)字化的問題抽象為數(shù)字圖像的顏色信息和空間結(jié)構(gòu)信息提取問題,采用機器學(xué)習(xí)方法,針對顏色信息進行了初步提取,然后運用圖像形態(tài)學(xué)方法對空間結(jié)構(gòu)信息進行進一步提取。與人工數(shù)字化技術(shù)相比,本文方法有著諸多特點和優(yōu)勢。
1. 時間成本
本文所提出的方法可以大大提高近代地圖數(shù)字化的效率。對于本文選取的水網(wǎng)密布的“上海圖”來說,用人工數(shù)字化的方式提取地表水體,粗略描畫至少需要一兩天,精細描繪則需要數(shù)日。然而,本文所提出的方法是半自動化的,只需要少量簡單的人為干預(yù)即可,其余步驟全部交由電腦完成。
對本文方法中地表水體提取過程所需時間進行具體量化: 在基于機器學(xué)習(xí)的地表水體初步提取部分中,生成藍版圖僅需要1分鐘,利用RGB三分量和藍版圖共4個特征的支持向量機分類及二值化步驟需要5分鐘左右;在基于圖像形態(tài)學(xué)的地表水體提取優(yōu)化部分中,藍色文字注記標(biāo)選需要半小時左右,初步提取結(jié)果減去文字注記結(jié)果只需半分鐘,圖像形態(tài)學(xué)閉運算的參數(shù)調(diào)節(jié)及運行需要5分鐘左右,主要遺漏區(qū)域標(biāo)選需要10分鐘,小型遺漏區(qū)域自動過濾的參數(shù)調(diào)節(jié)及運行需要5分鐘左右。整個流程僅需要1小時左右。
2. 提取精度
如果認為時間完全充裕,數(shù)字化工作人員完全專業(yè)、認真、客觀的理想情況下,地圖的人工數(shù)字化精度是100%,那么本研究所提出的方法,全圖范圍內(nèi)總體精度達到99.8%,可以媲美人工數(shù)字化準(zhǔn)確程度的水平,更何況人工數(shù)字化的精度本身也不可能達到100%。地表水體被漏分和錯分的錯誤率都低于1%,在節(jié)約大量時間和人力的情況下,這個錯誤率是完全可以接受的。
在長江和黃浦江之外區(qū)域的提取精度,更驗證了本文方法提取細小的目標(biāo)地物(地表水體)、排除干擾因素的能力。其中,機器學(xué)習(xí)方法充分挖掘了地圖中的顏色信息,而圖像形態(tài)學(xué)方法的利用更是地表水體準(zhǔn)確提取的關(guān)鍵所在,它有效減少了因地圖褪色泛黃、地表水體符號不能完全覆蓋地表水體、黑色地圖符號和文字注記遮擋地表水體等多種因素導(dǎo)致的漏分錯誤,在增強地表水體完整性和連通性的同時,又沒有顯著改變地表水體原有的形態(tài),大大提高了地表水體的提取精度。
3. 數(shù)據(jù)格式
對近代地圖進行人工數(shù)字化,所得地表水體信息通常為線和面類型的矢量數(shù)據(jù)。③ 閆芳芳、滿志敏、潘威: 《從小圩到園田: 近百年來上海地區(qū)河網(wǎng)密度變化》,《地球環(huán)境學(xué)報》2014年第5期。與之不同,本文通過對柵格格式的地圖掃描圖像進行半自動數(shù)字化后,得到的還是與原圖投影、尺寸、分辨率等各個方面完全一致的柵格類型數(shù)據(jù)。
矢量與柵格類型的地表水體數(shù)據(jù)各有優(yōu)劣。矢量類型數(shù)據(jù)結(jié)構(gòu)緊湊,具有空間拓撲關(guān)系信息,有利于進行網(wǎng)絡(luò)分析;然而,將河浜抽象為線要素,其定位和形態(tài)有一定的模糊性和主觀性。柵格類型數(shù)據(jù)結(jié)構(gòu)簡單,定位容易,方便評價地表水體提取精度,也易于展示,但在分析河流長度和多個地表水體間的拓撲關(guān)系時,具有一定難度。
值得注意的是,滿志敏曾對格網(wǎng)體系在歷史地理學(xué)中的應(yīng)用做過探討,肯定其在歷史數(shù)據(jù)管理和成果展示方面的優(yōu)勢。(24)滿志敏: 《小區(qū)域研究的信息化: 數(shù)據(jù)架構(gòu)及模型》,《中國歷史地理論叢》2008年第2輯。其研究雖然將舊地圖中的地表水體數(shù)字化為矢量數(shù)據(jù),卻也為了比較兩個時間斷面的地表水體參數(shù)變化又進行了格網(wǎng)化處理,從本質(zhì)上來講,就是將矢量數(shù)據(jù)轉(zhuǎn)化成了柵格數(shù)據(jù)。③由此可見,柵格數(shù)據(jù)在地表水體及其演變的時空分析中具有獨特優(yōu)勢。
矢柵互轉(zhuǎn)技術(shù)已經(jīng)十分成熟,但在轉(zhuǎn)化過程中,必然存在一定的信息丟失,因此,可根據(jù)研究需要,盡量從原始地圖數(shù)據(jù)直接將目標(biāo)地理要素提取為合適的數(shù)據(jù)類型。本研究提出的方法直接得到柵格類型數(shù)據(jù),較為適合時間序列分析,包括多個時相的近代地圖信息對比,以及與遙感影像進行古今對比,這也是該方法的一大特色。
4. 方法的適應(yīng)性
本文的數(shù)字化方法無需編寫程序?qū)崿F(xiàn),利用現(xiàn)有的軟件平臺(如本研究使用的ENVI 5.3)即可運行,具有較強的實用性、適應(yīng)性和可遷移能力,對類似的彩色近代地圖數(shù)字化具有相當(dāng)?shù)膮⒖純r值。即使在某些地圖中,一個顏色被對應(yīng)多個地表覆蓋類型,如在某些民國地圖中,常令湖河以及稻田、鹽田等季節(jié)性水體用不同形狀的藍色符號表示,圖像形態(tài)學(xué)也可以充分發(fā)揮作用,根據(jù)不同符號之間形態(tài)結(jié)構(gòu)特征的差異,進行不同地表覆蓋類型之間的區(qū)分。
相比之下,人工數(shù)字化需要對每張地圖單獨進行,毫無可遷移性。在處理大量地圖的情況時,繁重的數(shù)字化工作僅僅是研究的準(zhǔn)備階段,耗費大量時間后,正式研究卻仍未及開展,大大拖慢了工作進度。即使交由專業(yè)人士處理,不僅成果質(zhì)量難以全面把控,所需的數(shù)字化費用也是不容忽略的。
需要指出,本文方法對泛黃、褪色或磨損范圍較小(空間尺度小于圖像形態(tài)學(xué)結(jié)構(gòu)元)的彩色近代地圖適用性較好,對于存在較大范圍折疊、污損、霉?fàn)€等情況的近代彩色地圖,可根據(jù)數(shù)字地圖的實際狀況把存在問題部分進行適當(dāng)?shù)念A(yù)處理,再應(yīng)用本文方法進行數(shù)字化分析。分析時需注意機器學(xué)習(xí)中訓(xùn)練樣本的選擇,例如,在折疊褶皺處增加訓(xùn)練樣本,以更準(zhǔn)確地識別因褶皺而顏色發(fā)生變化的地理要素;對于污損霉?fàn)€的地圖,可以考慮將污損霉?fàn)€處根據(jù)顏色分類進行單獨識別以避免混淆;還應(yīng)根據(jù)問題區(qū)域的空間尺度,注意圖像形態(tài)學(xué)結(jié)構(gòu)元大小的調(diào)整,必要時可將地圖圖面進行分區(qū),對不同區(qū)域分別采用不同尺度的結(jié)構(gòu)元和不同的圖像形態(tài)學(xué)運算遞歸次數(shù)。
本文提出一種基于機器學(xué)習(xí)和圖像形態(tài)學(xué)的彩色近代地圖數(shù)字化方法,該方法通過充分利用顏色特征和地圖符號的形態(tài)結(jié)構(gòu)特征,能夠以半自動的方式準(zhǔn)確地將彩色近代地圖中的地表水體信息提取出來。
以1927年英國《華東·上?!返貓D為例,驗證了所提出方法的有效性。結(jié)果顯示,利用本文方法得到的結(jié)果總體精度達到99.8%,提取的地表水體漏分和錯分錯誤率均低于1%,可以有效去除地圖中的文字注記干擾,并填補地圖符號中的空隙,提高地表水體的完整性和連通性。在幾乎沒有犧牲精度的情況下,地圖數(shù)字化的效率卻大大提高,數(shù)字化所需時間從數(shù)日縮短為1個小時左右。
我國近代以來留存的彩色近代地圖數(shù)量可觀,本文方法對其他彩色近代地圖數(shù)字化亦具有較高的參考價值,并且該方法可以直接得到柵格類型數(shù)據(jù),適合多源數(shù)據(jù)時間序列分析,包括多個時相的近代地圖信息對比,以及與遙感影像進行古今對比,為突破研究時段和研究技術(shù)手段等制約相關(guān)研究進展的瓶頸奠定了方法基礎(chǔ),有助于對近代以來人地關(guān)系變化進行更深入的定量研究。