吳常輝
(佛山市測繪地理信息研究院 廣東佛山 528000)
當(dāng)前,從以往研究成果積累的數(shù)據(jù)中提取信息越來越受到重視,挖掘隱含的模式,設(shè)計基于大數(shù)據(jù)的算法,去解決以往難以解決的復(fù)雜問題。居民地是城市地圖的核心要素,居民地的主要組成部分是建筑物和街道網(wǎng),而街道網(wǎng)是居民地結(jié)構(gòu)的決定因素[1]。居民地綜合的前提條件是對其模式進(jìn)行識別,這樣才能確保在綜合后保持原來的模式。居民地的結(jié)構(gòu)分類方法較多,本文將居民地分為格網(wǎng)模式和非格網(wǎng)模式兩類進(jìn)行研究。實際上,除了格網(wǎng)模式,其他模式的居民地都可以歸納為非格網(wǎng)模式[2]。格網(wǎng)模式居民地的街道網(wǎng),街道間近似正交,以往的研究中都視為理想的直角去研究,設(shè)計特定的算法,算法較為復(fù)雜,如機(jī)器學(xué)習(xí)、圖論、神經(jīng)網(wǎng)絡(luò)等,這些方法推廣性不強(qiáng)[3]。本文從實際的城市地圖上采集街道網(wǎng)數(shù)據(jù)進(jìn)行統(tǒng)計分析,提取街道相交角的數(shù)值,進(jìn)行統(tǒng)計分析,獲取閾值范圍,作為格網(wǎng)模式識別的條件,用層次聚類的方法進(jìn)行識別實驗。
居民地圖形概括、化簡和合并前,必須識別其原有的模式,該問題一直是居民地研究的難點和熱點問題。維普、萬方和知網(wǎng)數(shù)據(jù)庫中,檢索2012-2021期間有關(guān)居民地分布的文獻(xiàn)共1456 篇,檢索2012-2021 期間居民地識別的文獻(xiàn)共687 篇。重點文獻(xiàn)梳理如下:
焦洋洋研究了居民地幾何匹配質(zhì)量評估[4]。結(jié)合居民地匹配質(zhì)量評估特點,改進(jìn)一般矢量數(shù)據(jù)質(zhì)量評估中的缺陷扣分模型,得到了居民地幾何匹配質(zhì)量評估缺陷扣分模型,從而建立了居民地幾何匹配質(zhì)量評分評級模型;沈映政研究了居民地自動綜合技術(shù)[5]。分析了居民地要素制圖綜合的主要內(nèi)容和特征,針對區(qū)域地理要素差異制定概括方案,采用人工智能中的產(chǎn)生式規(guī)則方法將綜合知識與綜合操作相結(jié)合,進(jìn)行居民地專題地理要素制圖綜合的研究;楊育麗研究了基于屬性的城市居民地綜合方法[6]。提出了用模糊綜合評判模型來評判居民地屬性的鄰近性,判斷一個居民地的合并取舍,以及與周圍哪個對象進(jìn)行合并,在VB 環(huán)境下進(jìn)行程序設(shè)計,實現(xiàn)居民地屬性鄰近程度等級評價和居民地取舍判斷的自動化;楊植、王丹研究了利用農(nóng)村地籍調(diào)查成果更新地理信息公共平臺居民地方法[7]?;谧詣泳C合更新技術(shù)模式,完成同期城鄉(xiāng)數(shù)據(jù)的銜接及整合,實現(xiàn)行政區(qū)劃單元范圍1∶10000DLG 居民地要素快速更新,為以后省級地理信息公共服務(wù)平臺數(shù)據(jù)的快速更新提供新思路;杜鳳艷研究了ArcGIS 環(huán)境下居民地屬性綜合[8]。基于ArcGIS 的Simplify Buildings、Find Building Conflicts 以及Elimination 等綜合功能和SQL 語言完成了建筑物的簡化、沖突建筑物的搜尋和小面積居民地的消除;李安平、翟仁健等研究了顧及空間結(jié)構(gòu)關(guān)系的居民地自動合并方法[9]。將鄰近居民地之間的空間結(jié)構(gòu)關(guān)系區(qū)分為6種,重點針對正橋接型,通過定義鄰近居民地之間的投影重疊線,判別和篩選橋接三角形,并對橋接部分進(jìn)行直角化處理,使構(gòu)建的橋接面與空間結(jié)構(gòu)關(guān)系相適應(yīng);鞏現(xiàn)勇、方圓研究了居民地聚類分析算法適應(yīng)性對比[10]。針對常見的居民地群組模式聚類算法,展開對比研究,以探究算法的適應(yīng)性。模擬實驗和真實數(shù)據(jù)實驗分別考慮特定分布、不同密度、不同形狀、群組鄰近、“頸”問題等多重環(huán)境。
從以上檢索到的居民地分布和居民地模式識別代表性文獻(xiàn)可以看出,人工智能、圖論、神經(jīng)網(wǎng)絡(luò)等新興的技術(shù)方法是目前居民地模式識別最為常用的方法,這些方法,大多是從特定的幾個居民地中提取格網(wǎng)模式。但是,從大量實測數(shù)據(jù)分析入手,定量研究居民地形態(tài)特征的文獻(xiàn)不多見。這為本研究的創(chuàng)新提供了可能性,本文將基于大量實測數(shù)據(jù)定量研究,運(yùn)用層次聚類方法識別居民地的模式,實驗分析結(jié)果可以為居民地模式識別提供有效方法,同時也將為其他地理要素模式識別提供技術(shù)和理論參考。
居民地的街道網(wǎng)最主要的特點是街道交錯縱橫,構(gòu)成街道相交角,如圖1 所示。已有的研究成果中,以幾個典型的居民地的街道網(wǎng)作為研究對象設(shè)計算法,從實測數(shù)據(jù)的角度進(jìn)行研究不常見。本研究中,先從城市地圖上選取90 個居民地,50 個居民地是格網(wǎng)模式的居民地,40 個是非格網(wǎng)模式的居民地。從中任意選取兩個不同模式的居民地作為示例,表1 是典型格網(wǎng)模式居民地的街道相交角統(tǒng)計(共35 個街道相交角,僅列出10 個),表2 是非格網(wǎng)模式居民地的街道相交角數(shù)據(jù)(共26 個街道相交角,僅列出10個)。對50個格網(wǎng)模式的居民地,計算統(tǒng)計其街道相交角的最大值、最小值和標(biāo)準(zhǔn)差。
表1 格網(wǎng)模式居民地街道相交角統(tǒng)計示例(單位:度)
表2 非格網(wǎng)模式居民地街道相交角統(tǒng)計示例(單位:度)
圖1 格網(wǎng)模式居民地示例
統(tǒng)計50 個格網(wǎng)模式居民地的街道相交角,最大值是98.56度,最小值為80.56度,平均值為86.53度,標(biāo)準(zhǔn)差為2.45度。統(tǒng)計所得的街道相交角的平均值和標(biāo)準(zhǔn)差可以作為居民地模式識別的閾值范圍使用。
(1)數(shù)據(jù)準(zhǔn)備
為了驗證方法的可行性,從城市地圖上,另外采集40 個居民地,其中20 個為格網(wǎng)模式居民地,20 個為非格網(wǎng)模式的居民地。是否為格網(wǎng)模式的居民地,用“1”和“0”進(jìn)行標(biāo)注,分別求出40 個居民地街道相交角的平均值和標(biāo)準(zhǔn)差,如表3所示:
表3 40個居民地街道相交角數(shù)據(jù)統(tǒng)計(部分?jǐn)?shù)據(jù))
表4 層次聚類過程
表5 聚類成員表(部分?jǐn)?shù)據(jù))
(2)聚類分析
本文研究中,將居民地分為格網(wǎng)模式和非格網(wǎng)模式進(jìn)行研究。統(tǒng)計出每個居民地所有街道相交角的平均值和標(biāo)準(zhǔn)差進(jìn)行識別,采用層次聚類的方法進(jìn)行實驗。
層次聚類的原理是,以某種相似度作為參數(shù),計算節(jié)點之間的相似性程度數(shù)值,并根據(jù)相似性程度數(shù)值以降序進(jìn)行排列,重復(fù)連接節(jié)點。層次聚類最重要的優(yōu)勢是,劃分隨時可以停止,其主要步驟如下:
1)刪除網(wǎng)絡(luò)中的所有邊,使n個節(jié)點孤立并保持初始狀態(tài)。
2)以歐氏距離計算節(jié)點間的相似度。
3)以相似度從強(qiáng)到弱為標(biāo)準(zhǔn),連接相應(yīng)節(jié)點對,得到樹狀圖。
4)以實際需求為依據(jù),切斷樹狀圖,得到層次聚類譜系圖。
對40 個居民地的街道相交角進(jìn)行層次聚類,其過程如圖4所示,經(jīng)過39個階段的聚類計算,數(shù)據(jù)劃分為2個譜系。
從聚類的成員表可以看出,40 個居民地分為兩類,即格網(wǎng)模式的居民地為一類,非格網(wǎng)模式的居民地為一類。對照表3 中標(biāo)注的各個居民地的模式,二者是一致的。最終,根據(jù)聚類的結(jié)果,在地圖上面標(biāo)注各個居民地相應(yīng)的模式。
從以上聚類過程看,多個未知模式的居民地進(jìn)行識別時,需要先求出各個居民地街道相交角的均值和標(biāo)準(zhǔn)差。計算的方法較為簡單,可以采用角度函數(shù)進(jìn)行計算或者在ArcGIS 用角度計算工具進(jìn)行計算,最后統(tǒng)計出街道相交角的平均值和標(biāo)準(zhǔn)差。然后采用聚類分析或者其他方法,識別是否為格網(wǎng)模式的居民地。
格網(wǎng)模式的居民地是城市地圖上最為常見的居民地模式,其模式識別受到眾多研究者的關(guān)注。已有的很多方法,基于幾個特定的居民地進(jìn)行研究,實驗中方法性能表現(xiàn)良好,用于工程
實踐則結(jié)果不甚理想。主要是數(shù)據(jù)來源少,不具有代表性,適用性不好。本研究中,從城市地圖上采集了130 個居民地進(jìn)行研究,90 個居民地用于統(tǒng)計街道相交角的均值和標(biāo)準(zhǔn)差,40 個居民地用于檢測方法的可行性,運(yùn)用層次聚類分析方法,40個居民地明顯劃分為兩個聚類,對比每個居民地的原有模式,完全一致。實驗表明,本文方法在識別居民地格網(wǎng)模式中具有較高的識別率,且簡單易行。