趙 源,王 越,胡 華
(1同濟(jì)大學(xué) 道路與交通工程教育部重點(diǎn)實(shí)驗(yàn)室,上海 201804;2上海軌道交通運(yùn)營(yíng)管理中心,上海 200070;3上海工程技術(shù)大學(xué) 城市軌道交通學(xué)院,上海 201620)
隨著城市軌道交通的快速發(fā)展,車站的數(shù)量也在迅速增長(zhǎng),截止2020年底,全國(guó)軌道交通累計(jì)投運(yùn)車站共計(jì)4 681座,不同類型的車站客流特征不同,管理方式不同。也有些研究要基于車站的分類,例如在研究客流時(shí)間分布特征時(shí)需要將車站準(zhǔn)確分類才能總結(jié)出不同類型車站的客流系數(shù)。因此研究車站分類以及建立車站分類模型可以為客流特征研究與預(yù)測(cè)、地鐵車站管理以及周邊土地開(kāi)發(fā)提供依據(jù)。
馬壯林等人采用主成分分析(PCA)方法對(duì)軌道交通進(jìn)出站客流進(jìn)行特征提取,采用Hopkins統(tǒng)計(jì)量分析聚類趨勢(shì)并探討聚類數(shù)量確定方法,采用CH系數(shù)、輪廓系數(shù)和DB指標(biāo)對(duì)比分析高斯混合模型(GMM)和K-means聚類的優(yōu)劣,目前大多數(shù)分類方法包括:按車站所處的城市位置,分為都市中心站、交通樞紐站等;按場(chǎng)所導(dǎo)向型標(biāo)準(zhǔn),分為城市外圍區(qū)、成熟居住區(qū)等;按功能導(dǎo)向型標(biāo)準(zhǔn),分為起點(diǎn)站、換乘站、終點(diǎn)站等;按運(yùn)營(yíng)性質(zhì),分為中間站、區(qū)域站;按車站交通重要性,分為二線換乘、三線換乘等。既有分類方法稍顯簡(jiǎn)單,標(biāo)準(zhǔn)較單一,可能導(dǎo)致一個(gè)車站屬于多個(gè)類別的情況。
為了得到車站的精細(xì)化分類,本文總結(jié)了影響車站分類的因素:車站自身屬性,即是否為起/終點(diǎn)站或者是幾線換乘站、客流特征,即早晚高峰時(shí)段5 min粒度客流占全天客流的比重、POI特性,即地鐵車站800 m范圍內(nèi)土地利用情況。構(gòu)建了POI-Kmeans車站聚類模型并將上海14條線、共計(jì)416座車站,分為6類,驗(yàn)證了模型的實(shí)用性。
車站是軌道交通線網(wǎng)的重要節(jié)點(diǎn),由于在線路中的位置不同,功能不同,所以在確定車站屬性類聚類指標(biāo)時(shí),選取了起點(diǎn)站、終點(diǎn)站、非換乘站、二線換乘站、三線換乘站、四線換乘站5個(gè)指標(biāo),輸入數(shù)值為0,1型,是為1,否為0。詳見(jiàn)表1。
表1 車站屬性聚類指標(biāo)Tab.1 Stations attribute clustering index
相比道路流量、公交客流量,城市軌道交通客流量有很大的不同,由于城市軌道交通有著固定的發(fā)車間隔與營(yíng)業(yè)時(shí)間,使得其統(tǒng)計(jì)的客流量在不同時(shí)間粒度(如5 min、15 min、30 min、60 min)都可以顯示出客流本質(zhì)特征,要使車站做到精細(xì)化的分類,所以選擇5 min時(shí)間粒度,而在全天客流中早晚高峰最具代表性,為了使指標(biāo)更能代表客流趨勢(shì),這里將5 min客流與當(dāng)天進(jìn)站或者出站總客流的比值作為聚類客流特征指標(biāo),其中包括早晚高峰各2 h進(jìn)出站客流各48個(gè)、共96個(gè)指標(biāo),見(jiàn)表2。
表2 客流特征指標(biāo)Tab.2 Passenger flow characteristic index
POI(一般作為Point of Interest的縮寫(xiě),也有Point of Information的說(shuō)法),通常稱作興趣點(diǎn),泛指互聯(lián)網(wǎng)電子地圖中的點(diǎn)類數(shù)據(jù),POI數(shù)據(jù)目前可通過(guò)高德地圖或者百度地圖等方式獲取,主要包含名稱、地址、坐標(biāo)、類別四個(gè)屬性;源于基礎(chǔ)測(cè)繪成果、即數(shù)字線劃地圖(Digital Line Graphic,DLG)產(chǎn)品中點(diǎn)類地圖要素矢量數(shù)據(jù)集;在地理信息系統(tǒng)(Geographic Information System,GIS)中指可以抽象成點(diǎn)進(jìn)行管理、分析和計(jì)算的對(duì)象。通常情況下,POI分類一共有3級(jí),但是對(duì)于分類的個(gè)數(shù)大同小異。高德地圖針對(duì)全上海的POI分類中,一級(jí)分類有23個(gè),二級(jí)分類有267個(gè),三級(jí)分類有869個(gè)。研究中給出部分POI分類見(jiàn)表3。具體的餐飲類別POI數(shù)據(jù)見(jiàn)表4。表4中包含了經(jīng)緯度等重要信息。
表3 POI分類Tab.3 POI classification
表4 車站POI指標(biāo)Tab.4 Stations POI indicators
為了更好地統(tǒng)計(jì)地鐵車站附近POI數(shù)量,故劃分一定范圍,對(duì)于站點(diǎn)吸引范圍,學(xué)者認(rèn)為根據(jù)實(shí)際情況取400 m到800 m之間,目前應(yīng)用較為廣泛的是800 m,以800 m為半徑畫(huà)圓為地鐵車站的緩沖區(qū)域,統(tǒng)計(jì)緩沖區(qū)內(nèi)各類POI數(shù)據(jù)的個(gè)數(shù)作為車站分類的POI指標(biāo)。
在確定POI分類指標(biāo)時(shí),選取對(duì)地鐵車站影響較大的興趣點(diǎn)作為車站分類的指標(biāo),并且將個(gè)別POI分類進(jìn)行了整合或拆分,例如將汽車服務(wù)、汽車維修、汽車銷售、摩托車服務(wù)統(tǒng)一為汽車服務(wù),將“事件活動(dòng)”、“地名地址信息”、“室內(nèi)設(shè)施”、“道路附屬設(shè)施”對(duì)車站無(wú)影響的類別不納入指標(biāo)選取中。由表4可知,車站附近POI數(shù)據(jù)指標(biāo)共16個(gè)。
K-means聚類算法是由Steinhaus(1955年)、Lloyd(1957年)、Ball&Hall(1965年)、McQueen(1967年)分別在各自不同的科學(xué)研究領(lǐng)域獨(dú)立地探討提出的。K-means算法、也稱作快速聚類法,是一種非監(jiān)督的聚類算法。對(duì)于給定的樣本集,按照樣本之間的距離大小,將樣本集劃分為個(gè)簇。讓簇內(nèi)的點(diǎn)盡量緊密地連在一起,而讓簇間的距離盡量地大。如果用數(shù)據(jù)表達(dá)式表示,假設(shè)簇劃分為(,,…,C),那么最小化平方誤差可用如下公式計(jì)算求出:
其中,μ是簇C均值向量,有時(shí)也稱為質(zhì)心,表達(dá)式如下所示:
聚類過(guò)程示例如圖1所示。圖1(a)表達(dá)了初始的數(shù)據(jù)集,假設(shè)2。圖1(b)中,隨機(jī)選擇了2個(gè)類所對(duì)應(yīng)的類別質(zhì)心,即圖中的紅色質(zhì)心和藍(lán)色質(zhì)心,并分別求取樣本中所有點(diǎn)到這2個(gè)質(zhì)心的距離,再標(biāo)記每個(gè)樣本的類別為和該樣本距離最小的質(zhì)心的類別,見(jiàn)圖1(c),經(jīng)過(guò)計(jì)算樣本和紅色質(zhì)心與藍(lán)色質(zhì)心的距離,得到了所有樣本點(diǎn)的第一輪迭代后的類別。此時(shí)標(biāo)記為紅色和藍(lán)色的點(diǎn)分別求其新的質(zhì)心,見(jiàn)圖1(d),新的紅色質(zhì)心和藍(lán)色質(zhì)心的位置已經(jīng)發(fā)生了變動(dòng)。圖1(e)和圖1(f)重復(fù)了圖1(c)和圖1(d)的過(guò)程,即將所有點(diǎn)的類別標(biāo)記為距離最近的質(zhì)心的類別并求得新的質(zhì)心。最終得到的2個(gè)類別見(jiàn)圖1(f)。
圖1 聚類過(guò)程示例Fig.1 An example of clustering process
總地來(lái)說(shuō),K-means算法步驟為:
選擇個(gè)聚類的初始中心。
對(duì)任意一個(gè)樣本點(diǎn),求其到個(gè)聚類中心的距離,將樣本點(diǎn)歸類到距離最小的中心的聚類,如此迭代次。
每次迭代過(guò)程中,利用均值等方法更新各個(gè)聚類的中心點(diǎn)(質(zhì)心)。
對(duì)個(gè)聚類中心,利用Step2、Step3迭代更新后,如果位置點(diǎn)變化很?。梢栽O(shè)置閾值),可判定為達(dá)到了穩(wěn)定狀態(tài),迭代結(jié)束。對(duì)不同的聚類塊和聚類中心可選擇不同的顏色標(biāo)注。
在分類過(guò)程中,最主要的是對(duì)分類指標(biāo)的選取,本研究分類指標(biāo)共包含3個(gè)部分,分別是:車站屬性指標(biāo)、車站客流特征指標(biāo)以及車站附近POI數(shù)據(jù)指標(biāo)。
在選取完車站聚類指標(biāo)后,形成的初始矩陣見(jiàn)表5。由于指標(biāo)數(shù)值的類型和單位不同,而且數(shù)值差距過(guò)大,故將矩陣歸一化,歸一化方法對(duì)K-means聚類的有效性也通過(guò)各種數(shù)值實(shí)驗(yàn)證明,基本上是Z-Score、Min-Max和小數(shù)縮放方法。實(shí)驗(yàn)分析表明,Z-Score在3個(gè)歸一化過(guò)程中表現(xiàn)良好,準(zhǔn)確度更高,因此該方法減少了迭代次數(shù)。所以本模型使用Z-Score標(biāo)準(zhǔn)化,將變量統(tǒng)一轉(zhuǎn)化為同一個(gè)量級(jí),可以將數(shù)據(jù)有效地轉(zhuǎn)換為統(tǒng)一的標(biāo)準(zhǔn),Z-Score的數(shù)學(xué)公式可寫(xiě)為:
表5 車站初始矩陣Tab.5 Stations initial matrix
其中,為總體數(shù)據(jù)的均值;為總體數(shù)據(jù)的標(biāo)準(zhǔn)差;為個(gè)體的觀測(cè)值。
Z-Score最突出的優(yōu)點(diǎn)就是簡(jiǎn)單,容易計(jì)算,能夠應(yīng)用于數(shù)值型的數(shù)據(jù),并且不受數(shù)據(jù)量級(jí)的影響,因?yàn)槠渥饔镁褪窍考?jí)給分析帶來(lái)的不便。但是需要指出的是,Z-Score本身沒(méi)有實(shí)際意義,具體的現(xiàn)實(shí)意義需要在比較中得以實(shí)現(xiàn),這也是Z-Score的缺點(diǎn)之一。
手肘法是一種利用和值的關(guān)系圖確認(rèn)最優(yōu)值的方式,還可以替換為樣本點(diǎn)到聚類中心歐式距離平均值,本文選用利用手肘法確定最佳值。在K-means算法中,最主要的步驟就是確定值,每一步都可以計(jì)算出值、又稱為。值的計(jì)算方式就是每個(gè)聚類的點(diǎn)到其質(zhì)心的距離的平方,如式(4)所示:
指定一個(gè)值,即可能的最大類簇?cái)?shù)。然后將類簇?cái)?shù)從1開(kāi)始遞增,一直到,計(jì)算出個(gè)。根據(jù)數(shù)據(jù)的潛在模式,當(dāng)設(shè)定的類簇?cái)?shù)不斷逼近真實(shí)類簇?cái)?shù)時(shí),呈現(xiàn)快速下降態(tài)勢(shì),而當(dāng)設(shè)定類簇?cái)?shù)超過(guò)真實(shí)類簇?cái)?shù)時(shí),也會(huì)繼續(xù)下降,但下降會(huì)迅速趨于緩慢。通過(guò)畫(huà)出曲線,找出下降途中的拐點(diǎn),即可較好地確定值。
利用Python編程實(shí)現(xiàn)確定值與分類的部分,總的分類模型如圖2所示。
圖2 分類流程圖Fig.2 Classification flow chart
上海城市軌道交通線網(wǎng)截止2020年底共有運(yùn)營(yíng)車站430座,本次研究選取運(yùn)營(yíng)時(shí)間較長(zhǎng)的416座,其中包括1號(hào)線、2號(hào)線、3號(hào)線、4號(hào)線、5號(hào)線、6號(hào)線、7號(hào)線、8號(hào)線、9號(hào)線、10號(hào)線、11號(hào)線、12號(hào)線、16號(hào)線、17號(hào)線。
基于AFC數(shù)據(jù)、上海POI數(shù)據(jù),分別確定車站屬性、車站附近POI數(shù)據(jù)、早晚高峰客流特征三類指標(biāo)進(jìn)行聚類,如圖3所示,利用手肘法得到最佳值,在6時(shí)出現(xiàn)明顯的拐點(diǎn),所以將上海地鐵車站分為6類,聚類結(jié)果見(jiàn)表6。
圖3 上海地鐵車站分類k值手肘圖Fig.3 The elbow diagram of the k-value of Shanghai subway stations classification
表6 K-means聚類結(jié)果Tab.6 K-means clustering results
根據(jù)統(tǒng)計(jì)每個(gè)類別POI個(gè)數(shù),分析其土地利用特點(diǎn)以及客流特征,得到以下類型描述。
(1)商務(wù)型:地鐵車站周邊用主要有辦公樓、密集的公司、少量的住宅和商戶,地面大部分建筑為高層辦公樓,土地開(kāi)發(fā)強(qiáng)度高,土地利用率高,高峰時(shí)期的交通較為復(fù)雜,接駁方式眾多,POI類別中商務(wù)寫(xiě)字樓占比最多。
(2)休閑旅游型:地鐵車站周邊多為景區(qū)、音樂(lè)廳、體育場(chǎng)、公園等公共場(chǎng)所及建筑,這種類型涉及土地范圍稍廣,往往換乘線路比較多,配套商業(yè)也較多,土地開(kāi)發(fā)率也相對(duì)較高,在節(jié)假日客流較多,POI中餐飲服務(wù)、購(gòu)物服務(wù)占比較多。
(3)居住型:地鐵車站周邊多為住宅,商業(yè)用地較少且開(kāi)發(fā)程度已經(jīng)完成,功能比較單一,早晚高峰客流特征明顯,接駁方式多以公交、單車為主。
(4)交通樞紐型:地鐵車站以大型客運(yùn)站、火車站、高鐵站、機(jī)場(chǎng)為主,該類型往往對(duì)地上、地下空間利用范圍較廣,有一些配套的商業(yè),客流量也較大,接駁方式最為全面,從POI占比看交通設(shè)施服務(wù)類占比最大。
(5)活動(dòng)型:地鐵車站周圍以大型場(chǎng)館為主,在活動(dòng)期間客流驟增,周邊場(chǎng)地大,可容納大量客流,接駁方式主要為地鐵、出租。
(6)混合型:地鐵車站周邊土地利用復(fù)雜,多為住宅及學(xué)校、辦公,商業(yè)用地較多且開(kāi)發(fā)程度較高,潮汐客流特征明顯,接駁方式眾多,POI類別中生活服務(wù)類占比較多。
本文為了得到車站精細(xì)化分類,總結(jié)了影響車站分類的因素:車站自身屬性,即是否為起終點(diǎn)站或者是幾線換乘站、客流特征,即早晚高峰時(shí)段5 min粒度客流占全天客流的比重、POI特性,即地鐵車站800 m范圍內(nèi)土地利用情況。構(gòu)建了POI-K-means車站聚類模型,并將上海14條線、共計(jì)416座車站,分為6類,驗(yàn)證了模型的實(shí)用性。