蔣陽升,俞高賞,胡路*,李衍
(西南交通大學(xué),a.交通運(yùn)輸與物流學(xué)院,b.綜合交通大數(shù)據(jù)應(yīng)用技術(shù)國家工程實驗室,成都 611756)
城市軌道交通是公共交通的重要組成部分,站點分類本質(zhì)上是對該站點所在區(qū)域的土地利用特征、區(qū)位屬性、人群屬性進(jìn)行分類。因此,通過對站點的精細(xì)分類可以對該地區(qū)的空間特征與軌道交通的利用情況有更深刻的認(rèn)知,為城市規(guī)劃以及站點周邊土地開發(fā)提供參考。
目前,國內(nèi)外關(guān)于軌道交通站點的分類已有很多研究,主要集中在以下幾個方面:①以站點與周圍站點或樞紐的連接情況進(jìn)行分類。邵瀅宇等[1]基于站點與中心區(qū)域距離、接駁公交線路條數(shù)、站點建筑強(qiáng)度等對哈爾濱地鐵進(jìn)行聚類分析,能有效劃分地鐵吸引范圍。②以站點周邊建筑的土地利用特征情況進(jìn)行分類。段德罡等[2]考慮站點周邊能影響到的區(qū)域的土地功能特征以及用地均勻度為依據(jù),對站點進(jìn)行分類,并提出周邊土地利用類型的優(yōu)化方案;傅搏峰等[3]考慮地鐵站點本身的交通功能以及周邊的場所特征,采用定性與定量相結(jié)合的方式提出面對郊區(qū)軌道交通站點的分類方案。③以站點的進(jìn)站客流量(簡稱客流量)波動特征情況進(jìn)行分類。Zhang等[4]將客流量建模為時間序列曲線,僅考慮曲線特征,使用兩階段法對曲線進(jìn)行聚類,考慮了曲線波動本身的特征;Li等[5]考慮客流量波動中波峰波谷數(shù)量以及偏度等特征數(shù)據(jù),將其作為依據(jù),將站點聚類6個大類。
以上幾種方法均能在一定程度上對軌道交通站點進(jìn)行合理分類。第①種方法優(yōu)點在于分類標(biāo)準(zhǔn)清晰,考慮到站點之間的空間布局情況,有利于軌道交通線路的整體規(guī)劃布局;缺點在于未考慮到周邊土地利用情況,無法根據(jù)其布局調(diào)整周邊的土地建設(shè)。第②種方法優(yōu)點在于充分考慮土地利用對軌道交通站點的影響,有利于指導(dǎo)后期土地利用建設(shè);缺點在于需要海量POI(Point of Interest)數(shù)據(jù)對其分類進(jìn)行支撐,并且由于周邊土地利用的變化,站點的分類結(jié)果也會改變,時效性較強(qiáng)。第③種方法優(yōu)點在于無需采集復(fù)雜的土地利用數(shù)據(jù)或者POI 數(shù)據(jù),以客流量變化特征進(jìn)行分類,標(biāo)準(zhǔn)明晰且非常直觀;缺點在于分類效果粗糙,無法體現(xiàn)大類組內(nèi)的差異性。
本文結(jié)合前兩種分類方法的優(yōu)點,對第③種分類方法進(jìn)行改進(jìn),提出一種軌道交通站點精細(xì)分類方法,在僅使用AFC數(shù)據(jù)的前提下,將各站點聚類為幾個大類站點,找出其大類站點的客流量波動與土地利用之間的關(guān)系,獲得大類站點的客流公共特征;進(jìn)一步,充分考慮同屬一個大類的每個站點的客流細(xì)分特性,提出利用客流量公共特征比重組合,對每個站點進(jìn)行精細(xì)分類描述。
本文基于客流量特征對軌道交通站點進(jìn)行分類,對數(shù)據(jù)格式要求較高,規(guī)范化數(shù)據(jù)處理過程如下:首先刪除無關(guān)數(shù)據(jù),冗余數(shù)據(jù)以及不在軌道交通運(yùn)營時段內(nèi)的數(shù)據(jù),按照站點和時間將其歸類。而后,選取合適的時間步,軌道交通站點進(jìn)站客流量時間間隔一般選取5,10,30,60 min。時間間隔選取過短會導(dǎo)致客流量隨機(jī)性波動過大,時間間隔選取過長會影響下文精細(xì)分類結(jié)果,本文考慮以上兩個因素后選取10 min作為一個時間步,并對AFC數(shù)據(jù)按照10 min為間隔進(jìn)行統(tǒng)計,生成站點時間序列數(shù)據(jù)。最后,做歸一化處理,不同站點由于其地理區(qū)位等因素導(dǎo)致客流量總數(shù)差異較大,如不進(jìn)行歸一化,將會放大大站與小站之間的差異。因此為保證聚類效果,本文對每個車站進(jìn)站客流量統(tǒng)一進(jìn)行歸一化處理,為使歸一化對客流量波形的影響降到最小,本文使用Min-Max 標(biāo)準(zhǔn)化(Min-Max Normalization),其計算方法為
式中:xn為當(dāng)日第n個時間段內(nèi)的客流量(n=1,2,…,m),m為一天中運(yùn)營時段包含的總時間間隔數(shù);xmin、xmax分別為當(dāng)天客流量最小值、最大值,保證歸一化效果不被某些極端日期的巨大客流影響。
本文將站點進(jìn)站客流量轉(zhuǎn)化為時間序列數(shù)據(jù),將站點客流聚類問題轉(zhuǎn)換為時間序列聚類問題。一般來說時間序列聚類有3種主流方案:度量時間序列距離函數(shù)[6]、時間序列的特征提取[7]與機(jī)器學(xué)習(xí)聚類方案[8]。K-Means 算法屬于第1 類聚類算法,具有計算簡便,效率高等特點,適用于樣本量大的分類情況。由于本文時間序列數(shù)據(jù)聚類特征過多,使用其他算法計算復(fù)雜,故采用K-Means++方法聚類。該算法在原算法的基礎(chǔ)上改進(jìn)了對初始聚類中心選取方案,使得聚類準(zhǔn)確性較原算法有了進(jìn)一步提高[9]。
此外,本文使用肘部法則(Elbow)對時間序列聚類效果進(jìn)行評估。肘部法則將不同聚類數(shù)量的簇內(nèi)誤差平方和作為成本函數(shù),隨著聚類數(shù)量的增加,其簇內(nèi)誤差平方和會逐步減小,樣本距離簇內(nèi)中心點越近,但是同時每個類所包含的樣本數(shù)量也會逐漸減少,使分類效果變差。肘部法則就是在其中尋找一個平衡點,將聚類數(shù)量增多過程中,簇內(nèi)誤差平方和下降幅度變化不明顯的位置作為肘部,并選取為聚類數(shù)量[10]。
對于聚類后的大類站點,本文希望能通過一定的方法求出每個大類站點客流量的公共特征作為該類站點的客流量波形代表。對此,本文提出的公共特征波形提取步驟如下。
Step 1 去除異常曲線。由于聚類方法的局限性,存在一些數(shù)據(jù)被錯誤的分類到這個大類中,本文通過求每條曲線與該類中其他所有曲線的平均歐式距離的方法篩選出誤差最大的幾條離群曲線并刪除。
Step 2 初始特征曲線的確定。由于每條曲線代表一個站點在一天內(nèi)客流量的變化值,將其視作散點值,使用SPSS 等分析軟件利用曲線擬合找出大類站點的初始特征曲線。
Step 3 度量曲線相似性。Step 2 確定的初始特征曲線只是通過簡單的擬合所得,并未考慮到每條曲線的整體性,故需要一個方法來度量兩條曲線之間的相似性。本文所使用的客流量曲線由離散的數(shù)據(jù)點構(gòu)成,兩條客流量之間的相似性[11]計算方法如下:
設(shè)L1、L2分別為離散有序點串,,其中,M,N分別為L1、L2中包含的有序點數(shù)量。定義DF為L1、L2之間的相似度距離,求解公式為
式中:dE(L1,M,L2,N)為點L1,M與L2,N之間的歐式距離,使用遞歸進(jìn)行計算。當(dāng)離散有序點串逐步縮減為一點時遞歸計算終止,此時有
在遞歸計算中會產(chǎn)生兩個計算矩陣,矩陣維度為M×N,其中一個矩陣為G矩陣,矩陣元素Gi,j的值為點L1,i與L2,j之間的歐式距離。另一個H矩陣的矩陣元素Hi,j為
式中:Hi,j為DF的值。
計算完所有曲線與初始特征曲線的相似度后,在大類中刪除與初始特征曲線相似度最低的一條曲線,再對剩余曲線重新進(jìn)行擬合。
Step 4 更新特征曲線。重復(fù)Step 2 和Step 3,不斷更新特征曲線,直至特征曲線不再出現(xiàn)明顯變化,此時所得的特征曲線即能較好地代表該大類站點的公共特征。
軌道交通站點客流量主要由該站點所處區(qū)位的土地利用特征以及人口密度決定,雖然每個站點所處區(qū)位不同,不會出現(xiàn)處于完全相同土地利用類型區(qū)位的站點,但是每個站點的客流量都會體現(xiàn)出相似的特征(這也是時間序列聚類的核心)。在2.1節(jié)中,根據(jù)聚類結(jié)果求得每個大類站點的客流公共特征。接下來,通過精細(xì)分類找出每個站點所包含公共特征的比例,反映出該站點在每個大類站點中區(qū)別于其他站點的特異性。本文提出的站點精細(xì)分類原理如下:
Step 1 確定每個站點一天內(nèi)客流量波動情況,為避免某一天內(nèi)站點出現(xiàn)極端天氣,大型集會造成的客流量不穩(wěn)定情況,將每個站點按時間間隔對客流量求均值,將其作為每個站點特征客流量,記為Q。其中,Qi,j為第i個站點中第j個時間段的特征客流量。
Step 2 建立大類站點客流公共特征客流量矩陣與類型比例矩陣。
式中:xm,n為第n個大類中第m個時間段內(nèi)歸一化后的客流量值;ai,j為第i個站點中第j類別大類公共特征比例值,其值在0~1 范圍內(nèi),并且∑ai,j=1;初始A矩陣的取值為ai,j=1,n為該站點所處的聚類大類的類別值,其余值取為0。
Step 3 計算精細(xì)分類擬合客流量值P,并將其重新歸一化。
式中:Pm,i為在第i個站點第m個時間段內(nèi)的歸一化后的客流量擬合值。
Step 4 使用式(3)計算與站點特征客流量曲線之間的相似度距離值,以相似度距離值最小為優(yōu)化目標(biāo),即minφ=DF(Pi,Qi),不斷優(yōu)化類型比例矩陣A。當(dāng)相似度距離值最小時,此時精細(xì)分類擬合客流量曲線與原站點特征客流量曲線相似度最高,其類型比例矩陣即為本文所求的精細(xì)分類結(jié)果。
本文選取成都軌道交通站點進(jìn)站數(shù)據(jù),通過上述流程對數(shù)據(jù)進(jìn)行處理。由于休息日客流波動較大,與工作日客流特征明顯不相符,故只選取工作日客流進(jìn)行分析。為保證數(shù)據(jù)對分類的可解釋性,所選取時段內(nèi)不包含重大節(jié)假日、極端天氣以及重大人群聚集活動,時間跨度為2017年7月1~31日,共有21 個工作日。所選取時段內(nèi)共計4 條線路97座車站,共計4500萬條信息,其中軌道交通運(yùn)營時段為6:00-23:00,根據(jù)上文,將1 天分為102 個時間間隔。
對97 座站點的21 個工作日數(shù)據(jù)生成2037 條時間序列數(shù)據(jù)并打上站點標(biāo)簽,使用上文KMeans++算法進(jìn)行聚類。K-Means++算法需要提前輸入聚類數(shù)量,因此根據(jù)聚類數(shù)量肘部法則[10],生成聚類數(shù)量誤差圖如圖1所示。
用空白血清制備低、中、高濃度的質(zhì)控樣品,每個濃度質(zhì)控樣品取6份測定作為日內(nèi)精密度,連續(xù)檢測3天獲得的結(jié)果作為日間精密度。向空白血清中加入低、中、高濃度的標(biāo)準(zhǔn)品,每個濃度各取6份,通過計算檢測值與加入的標(biāo)準(zhǔn)品的比值,取平均值得到回收率。結(jié)果表明,各藥物的日內(nèi)、日間精密度(RSD%)均小于15%;平均回收率在90%~110%。見表4。
由圖1可知,當(dāng)聚類數(shù)量大于5時,簇內(nèi)誤差平方和的減少已經(jīng)不明顯,故選取聚類數(shù)量為5重新聚類。由于每個站點有21 條時間序列數(shù)據(jù),選取21 條數(shù)據(jù)在5 類大類中分布最多的一類作為該站點的聚類大類。所得聚類結(jié)果如表1 所示,其中,第1類站點數(shù)量最多有51個。
圖1 聚類數(shù)量誤差圖Fig.1 Variation of classification error with number of clusters
表1 聚類結(jié)果表Table 1 Clustering results
本文對聚類所得五大類站點的客流量波形特征進(jìn)行分析??紤]到客流量的實際意義,選擇以下幾類特征進(jìn)行分析,并根據(jù)客流特征情況對五大類站點進(jìn)行命名。特征包括:①高峰個數(shù),該特征體現(xiàn)了站點中1天內(nèi)會出現(xiàn)高峰客流的次數(shù),能較好地體現(xiàn)客流量波動的差異;②高峰客流比值,高峰客流比值是指1 天中客流量最多的高峰小時內(nèi)客流量與總客流量的比值,該特征體現(xiàn)了客流在1天中分布的均衡性;③高峰出現(xiàn)時間,該特征是指1天中出現(xiàn)客流量高峰的時間,能有效體現(xiàn)站點的客流屬性?;谏鲜鎏卣魃纱箢愓军c客流量特征表如表2所示。
表2 大類站點客流特征Table 2 Passenger flow characteristics of cluster stations
對于聚類后的大類站點,采用本文提出的公共特征提取方案,并用式(1)進(jìn)行客流量歸一化,生成每個大類站點的公共特征波形曲線如圖2所示。
圖2 大類站點公共特征曲線圖Fig.2 Common feature curve of cluster stations
根據(jù)本文提出的站點精細(xì)分類方法,對成都97座地鐵站點進(jìn)行實證分析。幾個大類站點中代表性站點的分類結(jié)果以及對應(yīng)的結(jié)論分析如表3所示。
3.2.1 精細(xì)分類效果驗證
取春熙路站為代表性站點,根據(jù)表3 可知,該站點由49%工作就業(yè)型特征以及51%的區(qū)域中心型特征疊加而成,將其與真實客流量對比,如圖3所示??梢姺诸悢M合結(jié)果能較好地表現(xiàn)出正常情況下春熙路站的客流波動,以常見的評價指標(biāo)MAPE 作為評價其效果的指標(biāo),計算得出,春熙路站擬合值的誤差在11%內(nèi)。同時其他站點平均誤差值都在14%左右,而客流預(yù)測模型在客流值擬合上的誤差值約為12%[12],兩者效果相差無幾,故認(rèn)為精細(xì)分類效果可以滿足下文分析。
表3 部分站點精細(xì)分類結(jié)果Table 3 Accurate classification results of some stations
圖3 春熙路站客流量擬合圖Fig.3 Fitting diagram of passenger flow at Chunxi Road Station
3.2.2 從土地利用角度分析精細(xì)分類結(jié)果
選取表3 中同屬居住密集型的兩個站點進(jìn)行分析。其真實客流量對比如圖4所示,升仙湖站體現(xiàn)出94%的居住區(qū)特征,僅包含一個早高峰。與此相比,另一個站點倪家橋站雖然有很大一部分早高峰特征體現(xiàn),但是其中晚高峰的特征同樣不可忽視。部分文獻(xiàn)將該類站點歸類為職住交錯區(qū)域[13],但并不能完全體現(xiàn)該類站點的特點。從表3 可以看出,該站點除了居住型特征達(dá)到58%,其工作就業(yè)型特征也達(dá)到31%。在聚類中雖然將兩個站點分為一類,但兩者不管是土地利用類型還是客流量波動仍具有較大差異。本文精細(xì)分類方案能有效體現(xiàn)出該類差異。
圖4 聚類組間站點客流量對比圖Fig.4 Comparison of station passenger flow between cluster groups
從另一個角度看,目前絕大部分文獻(xiàn)對站點分類的研究集中于從POI 數(shù)據(jù)來體現(xiàn)土地利用特征[10],該類方法能精確表示當(dāng)前站點的土地利用類型,但對數(shù)據(jù)質(zhì)量要求很高,需要非常龐大的POI數(shù)據(jù)進(jìn)行分析,并且隨著社會發(fā)展,土地利用性質(zhì)在不斷地發(fā)生變化,因此對數(shù)據(jù)的時效性要求也非常高。本文提出的精細(xì)分類方案優(yōu)勢在于可以從客流量波動特征反推當(dāng)前站點的土地利用性質(zhì)。
以成都天府廣場站為例,該站處于成都市中心,其周邊有大量的工作就業(yè)型土地,并且根據(jù)表3中精細(xì)分類結(jié)果,還能看出天府廣場站額外承載著部分區(qū)域中心區(qū)以及旅游休閑區(qū)的功能,其土地利用特征比例為63%工作就業(yè)類土地,19%區(qū)域中心類土地,15%的旅游休閑類土地以及3%居住類土地。為驗證模型的有效性,本文使用百度地圖開源平臺獲取天府廣場站的POI 數(shù)據(jù)[9],與本文精細(xì)分類模型生成的結(jié)果進(jìn)行對比。
以天府廣場站點為中心,1 km 為半徑,采取到POI 數(shù)據(jù)547 條,分為居住、寫字樓、公司單位、美食、酒店、購物、教育、政府機(jī)構(gòu)、景區(qū)游覽、公共交通等小類。按其特征歸類到本文生成的五大類公共特征中并生成POI結(jié)果如表4所示。
表4 POI結(jié)果Table 4 POI results
從表4 可以看到,其實際POI 數(shù)據(jù)與本文模型所得結(jié)果基本擬合,其平均絕對誤差僅為4.72%。因此可以認(rèn)為,本文模型生成的精細(xì)分類結(jié)果能較好地反映出該站點周邊的土地利用性質(zhì)。
本文使用成都地鐵AFC 數(shù)據(jù),匯總站點客流量信息,將其處理為時間序列數(shù)據(jù)。使用基于KMeans++的時間序列聚類算法,對所選取的時間段內(nèi)成都軌道交通97座車站進(jìn)行分類。根據(jù)聚類結(jié)果的波形特征與實際用地屬性,將站點分居住密集型、工作就業(yè)型、區(qū)域中心型、公共服務(wù)型以及旅游休閑型等五大類。其擬合值與真實客流之間的平均誤差MAPE值僅為14%,與客流預(yù)測模型12%的誤差值有相近的效果[12]。本文城市軌道交通站點精細(xì)分類研究結(jié)論如下:
(1)與現(xiàn)有研究中將站點歸類為單一屬性特征不同,本文研究結(jié)果證明,絕大部分地鐵站點周邊都呈現(xiàn)出兩種及其以上的土地區(qū)位特征。以天府廣場站為例,該方案將其歸類為63%工作就業(yè)型,19%區(qū)域中心型,15%旅游休閑性和3%居住密集型,并且與實際POI數(shù)據(jù)結(jié)果高度吻合。本文使用五類站點公共特征的比例描述地鐵站點的類型以及周邊的土地利用特征,能有助于進(jìn)一步分析城市內(nèi)不同功能分區(qū)與軌道交通之間的聯(lián)系以及整個城市空間的格局。
(2)使用客流量特征對地鐵站點進(jìn)行分類。本文引入站點公共特征這一概念,將每個地鐵站點的客流與公共特征進(jìn)行匹配,從而做出精細(xì)分類,有效體現(xiàn)出地鐵站點間細(xì)微差距。以升仙湖和倪家橋站點為例,大部分研究將其分為同一類居住型站點,但本文的研究表明,升仙湖站有94%的居住型站點特征,而倪家橋站僅有58%的居住型特征,體現(xiàn)出精細(xì)分類的差異。
(3)案例結(jié)果表明,相較于使用POI數(shù)據(jù)方案,本文僅使用客流量數(shù)據(jù)對站點進(jìn)行分類,生成了相似的結(jié)果。本文使用方案擺脫了POI 數(shù)據(jù)強(qiáng)時效性的影響,將客流量波動與土地利用特征連接起來,通過客流量數(shù)據(jù)直觀反映出站點周邊土地利用情況,是城市規(guī)劃者對城市空間進(jìn)行規(guī)劃的全新視角。