段曉旗,張 彤,田有亮,劉沛林,萬 橋,秦永彬
1. 貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽 550025; 2. 武漢大學(xué)測繪遙感信息工程國家重點(diǎn)實(shí)驗(yàn)室,武漢 430079; 3. 長沙學(xué)院鄉(xiāng)村振興研究院,長沙 410022
公共交通在人們的出行過程中扮演著越來越重要的作用,一般而言,像北京、深圳等大城市的通勤活動中,地鐵、公交等公共交通具有便利、高效、價格便宜等優(yōu)勢,成為大多數(shù)人的首選[1]。人類出行行為產(chǎn)生了海量的位置數(shù)據(jù),包括GPS、智能刷卡記錄(smart card data)等,通過數(shù)據(jù)挖掘,可以發(fā)現(xiàn)其背后所蘊(yùn)含的信息。這些信息可以幫助從活動空間的角度重新認(rèn)識城市結(jié)構(gòu),如在深圳郊區(qū)居民的出行特征較為相似,即早上通勤、晚上回家,而發(fā)現(xiàn)居民出行行為影響下的城市活動結(jié)構(gòu),對于城市管理、交通規(guī)劃及公共交通線路選擇具有重要意義[2-3]。
城市結(jié)構(gòu)表示在一定地域空間內(nèi)地理要素的相對區(qū)位關(guān)系和分布形式,是在長期過程中人類空間活動和區(qū)位選擇的積累結(jié)果[4]。而城市活動結(jié)構(gòu)旨在研究人類活動對城市空間的影響,即人類出行活動模式、規(guī)律對城市區(qū)域的影響以及個體與城市區(qū)域之間相互作用的總結(jié)[5-6],如通常居民地的活動結(jié)構(gòu)為個體的通勤-上班-回家,商業(yè)區(qū)域的活動結(jié)構(gòu)為休閑娛樂等。然而,在不同的時間段,由于城市區(qū)域內(nèi)個體出行時空需求多樣,導(dǎo)致城市活動結(jié)構(gòu)的變化更為復(fù)雜。先前的城市活動結(jié)構(gòu)研究更多關(guān)注城市結(jié)構(gòu)對出行行為的影響,自20世紀(jì)70年代開始,出行行為對城市結(jié)構(gòu)的影響引起了地理學(xué)家的關(guān)注[7]。學(xué)者們從不同角度研究了城市結(jié)構(gòu)的影響,如土地利用和居住區(qū)規(guī)?;旌蟍8-9],或試圖通過居民的出行行為來評估城市政策[10]。然而,人類的出行行為也會影響城市結(jié)構(gòu),所以應(yīng)該超越物理環(huán)境和經(jīng)濟(jì)資源的空間分布來解釋城市[11-12]。一個城市的底層結(jié)構(gòu),例如城市區(qū)域具有更多內(nèi)部空間的相互作用以及城市中心如何與其附近區(qū)域相互作用,說明城市作為動態(tài)系統(tǒng)發(fā)揮作用,而非靜態(tài)。考慮到城市離散的物理資源由居民個體出行活動鏈接成一個綜合系統(tǒng)的紐帶,那么,居民個體出行活動就代表了城市空間的相互作用。由于數(shù)據(jù)來源、分析工具及計(jì)算能力的限制,這些研究進(jìn)展有限,大多數(shù)與城市活動結(jié)構(gòu)的研究都集中在城市形態(tài)上。
當(dāng)前,用于發(fā)現(xiàn)網(wǎng)絡(luò)子結(jié)構(gòu)的社區(qū)探測方法,使城市活動結(jié)構(gòu)的探測研究不僅僅局限于研究中心性、功能區(qū)及其交互領(lǐng)域,社區(qū)內(nèi)部的活動機(jī)制成為研究重點(diǎn)。社區(qū)探測為城市活動結(jié)構(gòu)發(fā)現(xiàn)提供了基礎(chǔ)。最具有代表性的研究為文獻(xiàn)[13]提出的社區(qū)發(fā)現(xiàn)優(yōu)化模型Modularity,其核心思想是比較社區(qū)內(nèi)部和外部的差異來衡量分區(qū)質(zhì)量,Modularity模型為后續(xù)譜優(yōu)化算法[14]、Louvain[15]、FastNewman[16]等社區(qū)發(fā)現(xiàn)方法的優(yōu)化提供了基礎(chǔ)。文獻(xiàn)[17]基于最小熵的原理提出了Infomap算法,該算法以雙層編碼方式將社區(qū)發(fā)現(xiàn)同信息編碼聯(lián)系到一起,通過編碼長度確定最優(yōu)的劃分結(jié)果。文獻(xiàn)[18]借鑒LDA的思想提出了MMSB(mixture membership block model)方法,該方法基于概率統(tǒng)計(jì)思想更好地解釋了節(jié)點(diǎn)之間的邊乃至整個網(wǎng)絡(luò)的生成過程。文獻(xiàn)[19]以鄭州市為例,利用軌跡數(shù)據(jù)分析了城市中多中心結(jié)構(gòu)的交互關(guān)系。文獻(xiàn)[20]利用百度遷徙數(shù)據(jù)對中國城市的網(wǎng)絡(luò)特征進(jìn)行探測。文獻(xiàn)[21]在人口流動的視角下利用統(tǒng)計(jì)分析的方法對南京市城市空間結(jié)構(gòu)進(jìn)行了刻畫。然而實(shí)際上城市活動結(jié)構(gòu)的動態(tài)探測,除了有動態(tài)的出行特征外,城市屬性等靜態(tài)特征也同樣重要。上述方法或者只能處理單一的網(wǎng)絡(luò)結(jié)構(gòu),或者只能處理靜態(tài)的屬性信息,并且處理海量的交通數(shù)據(jù)效率較低。
隨著機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展,部分學(xué)者從數(shù)據(jù)驅(qū)動的角度對城市活動結(jié)構(gòu)進(jìn)行了探究。文獻(xiàn)[22]利用出租車軌跡數(shù)據(jù)對城市各區(qū)域之間的聯(lián)系進(jìn)行探測。文獻(xiàn)[23]用道路將城市劃分為不同的單元,再基于數(shù)據(jù)驅(qū)動的方法處理POI和出租車軌跡數(shù)據(jù),發(fā)現(xiàn)城市中各單元所具有的功能。文獻(xiàn)[24]通過POI數(shù)據(jù)和通話數(shù)據(jù)以非監(jiān)督方式對利雅得城市內(nèi)部吸引力模式進(jìn)行研究,發(fā)現(xiàn)了全局、市中心和居住地的3種吸引力模式。相比于傳統(tǒng)的算法,數(shù)據(jù)驅(qū)動的方式能夠提高計(jì)算效率,并且能夠準(zhǔn)確挖掘出海量數(shù)據(jù)下的關(guān)鍵信息,在城市活動結(jié)構(gòu)探測中發(fā)揮了越來越重要的作用。
然而,在數(shù)據(jù)源多樣且海量的背景下,對于如何融合各種來源的靜態(tài)、動態(tài)數(shù)據(jù),如通話數(shù)據(jù)、軌跡數(shù)據(jù)、刷卡數(shù)據(jù)、城市屬性數(shù)據(jù)等,面臨著前所未有的挑戰(zhàn);另外,居民出行特征具有時空異質(zhì)性,如何在訓(xùn)練過程中顧及空間異質(zhì)性,現(xiàn)有研究鮮有嘗試。
針對以上問題,本文提出一種基于表示學(xué)習(xí)的數(shù)據(jù)驅(qū)動方法,引入高斯混合模型(Gaussian mixture models,GMMs)[25]得到每次訓(xùn)練的分類結(jié)果,并結(jié)合文獻(xiàn)[26]的多層地理分異思想,即顧及乘客的出行特征異質(zhì)性,通過輸入屬性矩陣和出行模式圖完成居民的動態(tài)活動信息及靜態(tài)屬性信息的融合,最終實(shí)現(xiàn)城市活動結(jié)構(gòu)的探測。本文的貢獻(xiàn)主要包括:①將不同來源的數(shù)據(jù)進(jìn)行融合,實(shí)現(xiàn)了多圖融合、多信息挖掘;②顧及了時空異質(zhì)性,本文將時空異質(zhì)性的概念實(shí)際應(yīng)用于表示學(xué)習(xí)的框架中;③實(shí)現(xiàn)了在進(jìn)行發(fā)現(xiàn)城市區(qū)域表示的同時,也完成了城市活動結(jié)構(gòu)(社區(qū))的表示。
居民的出行行為在時間和空間上表現(xiàn)出多樣化特征,同一區(qū)域的人群由于目的不同導(dǎo)致出行線路、出行時間產(chǎn)生巨大差異,如早高峰流量最多的區(qū)域?yàn)樯虡I(yè)區(qū),而晚高峰則是住宅區(qū)。針對居民活動的時空異質(zhì)性,文獻(xiàn)[27]對城市中老人22個月的活動進(jìn)行了統(tǒng)計(jì),發(fā)現(xiàn)了老人的活動具有很強(qiáng)的異質(zhì)性;文獻(xiàn)[28]運(yùn)用社會網(wǎng)絡(luò)分析和修正的空間交互模型,探討了南京在旅游活動中的時間異質(zhì)性,發(fā)現(xiàn)每個景點(diǎn)的訪問量會隨著行程時間增加而下降。上述研究通過比較的方法對異質(zhì)性進(jìn)行了初步探測,而文獻(xiàn)[26]從統(tǒng)計(jì)學(xué)的角度提出一種將空間異質(zhì)性定量化表示方法,q-value,具體公式為
(1)
總之,異質(zhì)性是居民活動過程中不可忽視的因素,在以居民出行為的城市活動結(jié)構(gòu)發(fā)現(xiàn)過程中需要顧及不同出行模式的異質(zhì)性,為進(jìn)一步了解居民出行特征、準(zhǔn)確表示居民出行行為,進(jìn)而發(fā)現(xiàn)城市活動結(jié)構(gòu)具有重要意義。
表示學(xué)習(xí)是近年來計(jì)算機(jī)科學(xué)研究的熱點(diǎn),目的是將圖結(jié)構(gòu)Gn×n,映射到低維空間Rn×d,其中d?n,其結(jié)果帶有原始圖結(jié)構(gòu)的特征。表示學(xué)習(xí)的結(jié)果能夠完成聚類、分類、邊預(yù)測、推薦等下游應(yīng)用。
表示學(xué)習(xí)發(fā)展到現(xiàn)在,大體上可以歸納為3大類:基于因子分解的方法、基于隨機(jī)游走的方法,以及基于深度學(xué)習(xí)的方法[29]?;谝蜃臃纸獾姆椒▽D轉(zhuǎn)換成矩陣的形式,例如領(lǐng)域矩陣、拉普拉斯矩陣等,對這些矩陣進(jìn)行因式分解,從而保持節(jié)點(diǎn)之間的相似度,根據(jù)矩陣性質(zhì)的不同其分解方式也多樣,代表的算法有HOPE[30]、LLE[31]等?;陔S機(jī)游走算法的代表包括Deepwalk[32]、node2vec[33]等,其核心思想為在網(wǎng)絡(luò)中不斷重復(fù)地隨機(jī)漫游,最終形成一條完整的通過網(wǎng)絡(luò)的路徑,隱式地保留節(jié)點(diǎn)間的相似度,獲取圖中局部上下文信息。而對于深度學(xué)習(xí)與日俱增的研究導(dǎo)致大量基于深度神經(jīng)網(wǎng)絡(luò)的方法應(yīng)用于圖的表示中,深度自動編碼器能夠?qū)?shù)據(jù)中的非線性結(jié)構(gòu)進(jìn)行建模,如SDNE[34]使用自編碼器(Auto-Encoder)同時優(yōu)化一階與二階相似度,從而保留局部和全局結(jié)構(gòu),具有一定的穩(wěn)健性;DNGR[35]則是結(jié)合了隨機(jī)游走和自編碼器的方法,能夠捕獲更高階相似度;而VGAE和GAE則是采用了圖卷積網(wǎng)絡(luò)(GCN)和內(nèi)積譯碼器,與卷積網(wǎng)絡(luò)類似,圖卷積網(wǎng)絡(luò)通過在圖形上定義卷積算子進(jìn)行計(jì)算,解決了稀疏圖難以高效計(jì)算的問題,同時可以學(xué)習(xí)節(jié)點(diǎn)之間的相似度,具有不錯的泛化能力。
表示學(xué)習(xí)的方法在挖掘城市活動結(jié)構(gòu)方面有著獨(dú)特的效率和準(zhǔn)確性優(yōu)勢,但在顧及靜態(tài)屬性特征以及出行模式異質(zhì)性方面略有不足,這也是本文需要解決的問題。
通過公共交通出行數(shù)據(jù)、POI數(shù)據(jù)和道路信息數(shù)據(jù)(在3.1節(jié)進(jìn)行描述),旨在將城市分為若干社區(qū),社區(qū)內(nèi)部保留有居民的出行特征及POI屬性特征。不同于傳統(tǒng)的社區(qū)發(fā)現(xiàn)研究,本文不僅僅將高度交互的節(jié)點(diǎn)聚合,并且考慮到:①居民的出行應(yīng)該是有向的;②其他的屬性信息(如土地利用類型等),實(shí)現(xiàn)更為精確地表示。
數(shù)據(jù)處理過程首先將整個城市劃分為相等的網(wǎng)格(大小為100 m×100 m),并將水體、山脈等不可達(dá)的區(qū)域刪除;然后根據(jù)鄰近站點(diǎn)將相似網(wǎng)格進(jìn)行合并[34]形成格網(wǎng)組,格網(wǎng)組的個數(shù)為18 108。由此產(chǎn)生的網(wǎng)格具有不同類型的交通可達(dá)性,并可探測出高分辨率的出行結(jié)構(gòu),同時大大減少計(jì)算量。
本文的流程主要是:通過N個節(jié)點(diǎn)(格網(wǎng)組)之間的屬性矩陣及其交互,將N個節(jié)點(diǎn)V={v1,v2,…,vN}∈RN×F通過表示學(xué)習(xí)模型得到U個城市活動結(jié)構(gòu)C={C1,C2,…,CU}∈RU×D,其中,D為表示學(xué)習(xí)后向量維度。
該模型利用自編碼模型對節(jié)點(diǎn)的屬性信息進(jìn)行編碼,并在編碼到解碼過程中顧及節(jié)點(diǎn)之間的交互信息以及異質(zhì)性特征,有如下定義。
定義1:屬性相似度矩陣Wa。作為局部靜態(tài)屬性特征,為自編碼模型的輸入數(shù)據(jù),Wa={wa,ij}i,j∈(0,18 108),即
(2)
定義2:出行模式圖Gp(V,Ep,Wp)。用來描述節(jié)點(diǎn)之間的出行信息相似度,V為節(jié)點(diǎn)(格網(wǎng)組)的集合,Ep為節(jié)點(diǎn)之間的邊的集合,Wp為節(jié)點(diǎn)之間邊的權(quán)重矩陣,將其定義為
(3)
式中,|Ni|表示從節(jié)點(diǎn)i出發(fā)所到達(dá)的節(jié)點(diǎn)數(shù)量;rik(rjt)表示從節(jié)點(diǎn)i(j)到節(jié)點(diǎn)k(t)的流量與節(jié)點(diǎn)i(j)流出流量的比值;atti→k(attj→t)表示節(jié)點(diǎn)i(j)對于節(jié)點(diǎn)k(t)的吸引力,公式為
(4)
本文目的是將上述的屬性相似度矩陣(R18 108×18 108)和出行模式圖(R18 108×18 108)嵌入(映射)到低維空間,得到每個節(jié)點(diǎn)的向量表示,其中向量表示的結(jié)果蘊(yùn)藏了輸入矩陣的關(guān)鍵信息以及顧及了異質(zhì)性特征。然后利用集成的圖嵌入(表示學(xué)習(xí))方法發(fā)現(xiàn)城市活動結(jié)構(gòu),如圖1所示。
圖1 集成的圖嵌入(表示學(xué)習(xí))方法Fig.1 Joint network embedding(representational learning) method
集成的圖嵌入方法的基礎(chǔ)模型為自編碼(Auto-Encoder),該模型能夠完成對圖的非線性編碼,并且顧及節(jié)點(diǎn)之間的一階、二階鄰近[34]。自編碼模型主要由兩個部分組成:將輸入數(shù)據(jù)映射為低維向量表示的編碼器和將低維向量重構(gòu)的解碼器。編碼器包括一個輸入層和若干隱藏層,結(jié)構(gòu)如下
(5)
式中,Yl為編碼器第l層的結(jié)果;Wl和bl分別為編碼器第l層的權(quán)重和偏差;σ為激活函數(shù);假如自編碼為k層,那么Yk為最終的向量表示,且維度遠(yuǎn)小于輸入數(shù)據(jù)的維度。
(6)
(1) 重構(gòu)損失。重構(gòu)損失可以表示為
(7)
通過最小化輸入的屬性數(shù)據(jù)與重構(gòu)后屬性數(shù)據(jù)的差異來保留二者之間的屬性相似度。
(2) 出行模式損失。為了將出行模式信息保留在表示結(jié)果中,主要思路是將出行模式圖嵌入低維空間,即出行模式的節(jié)點(diǎn)越相似,那么在低維空間中距離越近。因此,出行模式損失構(gòu)建為
(8)
(3) 從節(jié)點(diǎn)嵌入到社區(qū)嵌入。在基于屬性信息和出行信息完成節(jié)點(diǎn)嵌入之后,節(jié)點(diǎn)嵌入后的向量表示用來進(jìn)行社區(qū)類型的發(fā)現(xiàn)。通過對節(jié)點(diǎn)向量進(jìn)行聚類,那么具有相似屬性和出行模式的區(qū)域形成一個社區(qū)類型。節(jié)點(diǎn)向量表示的默認(rèn)形式通常為一維向量(d×1),由于每個社區(qū)類型通常包含多個節(jié)點(diǎn),用一維向量表示社區(qū)類型會過于簡化社區(qū)類型的復(fù)雜組合。因此,該模型使用多元高斯混合模型(GMMs)來增強(qiáng)社區(qū)嵌入的表示能力[25]。每種社區(qū)類型的特征是一個平均向量和一個協(xié)方差矩陣,二者共同提供了社區(qū)類型的總體特征。
然而,節(jié)點(diǎn)嵌入和隨后的聚類過程可能不會產(chǎn)生高度緊湊的社區(qū)類型,因?yàn)槌跏脊?jié)點(diǎn)嵌入過程不能充分考慮社區(qū)類型在嵌入空間中的聚集性。平均向量表示社區(qū)類型的中心,而協(xié)方差矩陣則表示與其中心相關(guān)的節(jié)點(diǎn)成員的緊致性。由于社區(qū)類型檢測被視為一個典型的無監(jiān)督學(xué)習(xí)問題,因此節(jié)點(diǎn)嵌入、社區(qū)檢測和社區(qū)嵌入結(jié)合到一個集成的無監(jiān)督優(yōu)化模型中,該模型迭代地推導(dǎo)出節(jié)點(diǎn)和社區(qū)類型的優(yōu)化嵌入,使社區(qū)結(jié)構(gòu)更為準(zhǔn)確[25]。節(jié)點(diǎn)嵌入可以通過減少節(jié)點(diǎn)與社區(qū)類型中心的差異來改進(jìn),前提是屬于相同社區(qū)類型的節(jié)點(diǎn)應(yīng)該緊密嵌入社區(qū)類型中心。當(dāng)執(zhí)行這種聯(lián)合優(yōu)化時,丟失信息被反向傳播到聯(lián)合嵌入方案(即自動編碼器)并導(dǎo)出改進(jìn)的節(jié)點(diǎn)嵌入。通過更新節(jié)點(diǎn)嵌入,致使屬于相同社區(qū)類型的節(jié)點(diǎn)將進(jìn)行更為相似的嵌入;反過來,在每次迭代之后可以訓(xùn)練出更為一致的社區(qū)類型結(jié)構(gòu)。
假設(shè)有M種類型的社區(qū),每個社區(qū)都服從多元高斯分布(φu,τu),其中φu∈Rd和τu∈Rd×d是第u類中節(jié)點(diǎn)向量的平均值和協(xié)方差。每種類型由多個區(qū)域(格網(wǎng)組)組成,具有相同高斯分布的區(qū)域(格網(wǎng)組)屬于同一類型的社區(qū)。最合適的社區(qū)數(shù)量由gap statistic模型確定[30]。為了將社區(qū)類型檢測和嵌入統(tǒng)一到一個集成優(yōu)化框架中,根據(jù)式(8)中對Yi表示結(jié)果,需要繼續(xù)優(yōu)化以下似然函數(shù)
(9)
式中,pr(vi∈Cu)表示節(jié)點(diǎn)i是u類型社區(qū)的概率;Yi為i節(jié)點(diǎn)向量表示。那么,從節(jié)點(diǎn)嵌入到社區(qū)嵌入的損失函數(shù)可以表示為
Yi,φu,τu)
(10)
式中,β為平衡參數(shù);M為社區(qū)類別的數(shù)量。
通過最小化式(10)中的損失函數(shù),可以導(dǎo)出最佳的節(jié)點(diǎn)和社區(qū)類型嵌入。同時,還可以得到最優(yōu)解pr(vi∈Cu)。假設(shè)Yi未知,可根據(jù)式(9)更新節(jié)點(diǎn)嵌入。這種迭代的節(jié)點(diǎn)嵌入過程可以引導(dǎo)相同社區(qū)類型的節(jié)點(diǎn)具有相似的嵌入,如圖2所示。
圖2 社區(qū)發(fā)現(xiàn)和節(jié)點(diǎn)嵌入的迭代過程Fig.2 Iterative process of community discovery and node embedding
(4) 顧及異質(zhì)性的表示。在完成節(jié)點(diǎn)嵌入到社區(qū)嵌入之后,社區(qū)之間的居民出行行為表現(xiàn)出比較強(qiáng)烈的異質(zhì)性。以此為前提,那么需要顧及不同社區(qū)之間的異質(zhì)性特征,因此,根據(jù)地理探測器的原理[26],相同群體(社區(qū))的群內(nèi)差距較小,群體(社區(qū))之間的距離較大,有主函數(shù)
(11)
(12)
訓(xùn)練:利用PyTorch框架進(jìn)行編碼,調(diào)整參數(shù)之后的學(xué)習(xí)率確定為0.000 5,自編碼的層數(shù)為4層,每層神經(jīng)元的個數(shù)為[18 108,5000,2000,128]。通過Pytorch中的Adam優(yōu)化器,根據(jù)反向傳播原理,使得訓(xùn)練朝著損失變小的方向發(fā)展。那么,利用基于自編碼模型的表示學(xué)習(xí)方法將屬性相似度矩陣(R18 108×18 108)和出行模式圖(R18 108×18 108)嵌入(映射)到低維空間,得到每個節(jié)點(diǎn)的向量表示(R18 108×128)。
深圳市是我國改革開放的先驅(qū),人口超過1250萬,占地面積2000多平方千米,毗鄰香港特別行政區(qū)。深圳市擁有國內(nèi)最為完備的公交、地鐵系統(tǒng),包括8條地鐵干線、199個地鐵站點(diǎn)和808條公交線路、6226個公交站點(diǎn),如圖3所示。
圖3 研究區(qū)Fig.3 Study area
本文基于SCD、公交軌跡數(shù)據(jù)、公交網(wǎng)絡(luò)和道路信息,利用文獻(xiàn)[36]的方法對公交出行進(jìn)行重建。時間為2017-04-03至2017-04-09,記錄了出行時間、出行地點(diǎn)、到達(dá)時間、到達(dá)地點(diǎn)及中轉(zhuǎn)站點(diǎn),見表1。在一周時間內(nèi),搜集了超過40 000 000條記錄。具體的數(shù)據(jù)描述見表2。
表1 2017年4月3日乘客出行示例Tab.1 Example of trip for passengers on April 3, 2017
表2 數(shù)據(jù)描述Tab.2 Data description
深圳市總共有9個行政區(qū)和1個功能區(qū)。一般認(rèn)為羅湖、福田、南山區(qū)為深圳的中心區(qū),并且向?qū)毎?、龍崗、龍華區(qū)擴(kuò)張。中心區(qū)分布有密集的商業(yè)區(qū)、居住區(qū)等,由于市中心土地用途多樣,居民可以通過短途出行前往工作和休閑中心。盡管如此,由于工作機(jī)會位于羅湖、福田和南山區(qū)的中心區(qū)域,以及龍華區(qū)南部和龍崗區(qū)西部,大多數(shù)在郊區(qū)居住的居民在工作日通過地鐵系統(tǒng)進(jìn)行長途通勤。在一些郊區(qū)和遠(yuǎn)郊區(qū)(如寶安、光明、龍華、平山和龍崗區(qū)的北部),工業(yè)區(qū)和城中村仍然是主要的土地利用類型。這些地區(qū)的特點(diǎn)是臨時工和城市村民集中在此,他們對于公共交通使用相對少于市中心地區(qū)的居民。
POI分布具有明顯的空間異質(zhì)性。深圳市擁有54 897個商業(yè)點(diǎn)和194個娛樂場所,大部分位于市區(qū)(福田、南山和羅湖區(qū));在寶安、光明、龍華和龍崗區(qū)的住宅區(qū),分布著一些小型商業(yè)點(diǎn)。教育點(diǎn)(3540個)、政府機(jī)構(gòu)(5394個)和醫(yī)療服務(wù)(7520個)也分布不均:福田和南山區(qū)占主導(dǎo)地位,而其他地區(qū)的教育和醫(yī)療機(jī)會很少,在坪山和大鵬,幾乎找不到商業(yè)和教育機(jī)構(gòu)。寶安、光明西部、龍華、坪山中部、龍崗北部、大鵬邊遠(yuǎn)地區(qū)等地有旅游景點(diǎn)群(186個)。
根據(jù)本文方法,對深圳市工作日和周末進(jìn)行了城市活動結(jié)構(gòu)探測,并對探測結(jié)果分別進(jìn)行了分析。
將訓(xùn)練后的嵌入結(jié)果,根據(jù)Gap Statistic算法[37]和輪廓系數(shù)[38]的結(jié)果,將工作日(周一至周五)和周末(周六、周天)的城市分為5類。由于城市中每個區(qū)域的居民出行模式不同,導(dǎo)致即使相鄰區(qū)域也會有較大的異質(zhì)性,深圳市中心區(qū)域表現(xiàn)得尤其明顯。而在公共交通線路相對不發(fā)達(dá)地區(qū),如坪山等,具有相對單一的結(jié)構(gòu)。
由圖4可知,不管是工作日還是周末,第Ⅰ類社區(qū)變化不大,集中分布在龍崗北部、坪山地區(qū)和寶安北部等郊區(qū),距離地鐵站點(diǎn)較遠(yuǎn);第Ⅲ類社區(qū)主要分布在南山、羅湖和福田區(qū)中心區(qū)域,以及龍崗北部距離地鐵較近的區(qū)域,該類社區(qū)公共交通較為發(fā)達(dá);第Ⅳ類社區(qū)主要分布于寶安、龍崗、龍華等地鐵線路發(fā)達(dá)的地區(qū);第Ⅴ類社區(qū)都集中分布在南山、羅湖和福田中心區(qū)域。
圖4 工作日和周末結(jié)果Fig.4 Results of joint network embedding on weekdays and weekends
工作日第Ⅱ類社區(qū)的地鐵線路發(fā)達(dá),而周末第Ⅱ類社區(qū)只分布于中心區(qū),具有明顯的地理空間分布差異。在工作日,第Ⅲ類社區(qū)的節(jié)點(diǎn)數(shù)量要小于周末中第Ⅲ類節(jié)點(diǎn)數(shù)量,主要由于居民在周末更能呈現(xiàn)出一種隨機(jī)性,說明周末居民出行的隨機(jī)性增加。為了進(jìn)一步發(fā)現(xiàn)每個社區(qū)的特征,統(tǒng)計(jì)了每類社區(qū)的平均出行時間、平均逗留時間、平均出行距離,并繪制了圖5。
圖5 城市活動結(jié)構(gòu)統(tǒng)計(jì)Fig.5 Statistics of urban mobility structure
由圖5可知,工作日各社區(qū)的出行時間(圖5(a))、逗留時間(圖5(b))都要大于周末所對應(yīng)的社區(qū),這是由于工作日通勤等因素的影響,出行者數(shù)量大于周末,因此,導(dǎo)致工作日出行所用的時間要長;工作日居民由于上班的原因,需要在工作地逗留較長時間。工作日中第Ⅱ類社區(qū)的出行距離要大于周末,結(jié)合第Ⅱ類社區(qū)的空間分布,可以得知第Ⅱ類社區(qū)的居民主要進(jìn)行長距離的通勤活動,而在周末大部分居民的出行為了滿足休閑、娛樂等要求,需要進(jìn)行遠(yuǎn)距離出行到達(dá)商業(yè)POI分布密集的中心地段,因此其他社區(qū)居民的出行距離比工作日長。如圖5(b)所示,第Ⅱ類與第Ⅴ類社區(qū)逗留時間差異較大,第Ⅱ類社區(qū)逗留時間為5 h左右,而第Ⅴ類社區(qū)逗留7.5 h左右。造成這種差距的原因,主要是周末中第Ⅴ類社區(qū)的居民購物、娛樂、與朋友聚餐等的需求要比第Ⅱ類社區(qū)的居民要強(qiáng);通過對比深圳市房價數(shù)據(jù),周末第Ⅱ類社區(qū)主要分布于最高房價地區(qū)(平均15萬左右),第Ⅴ類社區(qū)分布在次高房價地區(qū)(平均12萬左右),來自次高房價地區(qū)的中產(chǎn)階級人群(第Ⅴ類社區(qū))更愿意享受節(jié)假日的閑暇時光,因此,在周末逗留時間要大于來自高房價地區(qū)的第Ⅱ類社區(qū)人群。
工作日中第Ⅰ類社區(qū)出行距離最遠(yuǎn),用時也最長,而逗留時間卻最少,說明此社區(qū)的出行模式為處于偏遠(yuǎn)地區(qū)的遠(yuǎn)距離出行;第Ⅱ類社區(qū)出行時間、出行距離第二長,逗留時間5 h左右,說明此類社區(qū)的出行模式為近市中心的中遠(yuǎn)距離出行;第Ⅲ類逗留時間較長、出行距離較短、出行時間較短,為市中心附近的中遠(yuǎn)距離出行;第Ⅳ類出行時間與第Ⅲ類相似,而逗留時間較短,與最近地鐵站的距離較遠(yuǎn),說明此類社區(qū)的出行模式為遠(yuǎn)離市中心的中短距離出行;第Ⅴ類社區(qū)出行所用時間最短,逗留時間較長,出行距離最短,與最近地鐵站點(diǎn)距離最近,而此類社區(qū)的居民基本上是在本區(qū)域內(nèi)活動,逗留時間較長,那么此類社區(qū)居民的活動模式為位于中心區(qū)域的近距離出行。
在周末,第Ⅰ、Ⅲ、Ⅳ、Ⅴ類社區(qū)與工作日的出行模式類似,第Ⅱ類社區(qū)的節(jié)點(diǎn)較少,完全位于深圳市中心地區(qū),交通便利,為中心區(qū)近距離、短逗留出行。為了分析社區(qū)之間的流量關(guān)系,繪制了工作日和周末的流量圖(圖6)。
注:圓的大小表示社區(qū)的面積大小、顏色表示不同社區(qū)類型與圖4一致,圓內(nèi)的統(tǒng)計(jì)圖表示各類POI密度分布比例,箭頭的方向表示流量方向,箭頭的粗細(xì)表示流量大小。圖6 社區(qū)之間的流量Fig.6 Flow between communities
由圖6可知,從POI分布的角度看,不管是工作日還是周末,第Ⅰ類社區(qū)的POI分布密度較小,第Ⅴ類POI分布密度較大;在周末,第Ⅱ類社區(qū)各類POI分布密度都很大,主要由于其位于中心城區(qū)。相比于周末,工作日的整體流量要高很多,由于第Ⅴ類社區(qū)主要位于城市中心區(qū)域,工作機(jī)會、娛樂等吸引力較大,而第Ⅰ類社區(qū)位于相對偏遠(yuǎn)地區(qū),公共交通不發(fā)達(dá),與其他社區(qū)的聯(lián)系不那么緊密。
在工作日,聯(lián)系最為緊密的為第Ⅲ類、第Ⅴ類社區(qū),主要由于第Ⅲ類社區(qū)位于中心區(qū)周圍,二者之間的可達(dá)性較好、吸引力較強(qiáng);第Ⅱ類、第Ⅴ類社區(qū)之間的聯(lián)系也較為密切,有地鐵線路穿過第Ⅱ類社區(qū),并且能夠達(dá)到第Ⅴ類社區(qū)。在周末,第Ⅱ類與第Ⅴ類社區(qū)的聯(lián)系較為緊密,主要是因?yàn)槎叨嘉挥诔鞘兄行膮^(qū)域,公共交通線路發(fā)達(dá)、可達(dá)性好、吸引力強(qiáng)。
為了驗(yàn)證本方法的可靠性,本文選取了經(jīng)典的Combo算法[39]和深度學(xué)習(xí)中的GraphEncoder算法[40]進(jìn)行比較。其中,Combo算法提供了一種通用的優(yōu)化框架,以適應(yīng)不同目標(biāo)函數(shù)的社區(qū)發(fā)現(xiàn);GraphEncoder算法基于自編碼模型進(jìn)行節(jié)點(diǎn)的聚類,其效果由于傳統(tǒng)的聚類算法,層數(shù)為4層,根據(jù)Gap statistic確定聚類數(shù)目為10,由于Combo和GraphEncoder只能處理一個網(wǎng)絡(luò),因此輸入相似度矩陣計(jì)算為屬性和公交出行模式矩陣的權(quán)重相等,即W=0.5wa+0.5wp。
本文利用式(11)對結(jié)果進(jìn)行定量化評估,依據(jù)為是否顧及不同分區(qū)之間的空間異質(zhì)性。由于Combo算法不產(chǎn)生節(jié)點(diǎn)嵌入,因此使用W來計(jì)算它的模塊化的值,本文提出的模型在工作日和周末都明顯優(yōu)于Combo算法和GraphEncoder算法,二者由于只考慮當(dāng)?shù)厣鐓^(qū)內(nèi)的公交連接,不利用長途出行信息的提取,因此可能無法檢測到有意義的公交出行社區(qū)。此外,Combo不考慮屬性相似性和出行聯(lián)系的細(xì)節(jié)(例如吸引力、旅行時間和目的地分布),而這些都是幫助識別動態(tài)社區(qū)結(jié)構(gòu)的關(guān)鍵因素。GraphEncoder是一種典型的深度學(xué)習(xí)聚類方法,可用于社區(qū)檢測,然而,它只考慮節(jié)點(diǎn)出度、入度及相似度信息,因此沒有考慮必要的旅行動態(tài)。
Combo和GraphEncoder算法在工作日的社區(qū)檢測結(jié)果如圖7和圖8所示。由圖7可知,Combo算法得到的結(jié)果顯示出很強(qiáng)的局部性模式,因?yàn)樗鼒?zhí)行了模塊化優(yōu)化原則,并提取了具有較強(qiáng)的內(nèi)部連接社區(qū)。Combo算法的缺點(diǎn)是它不考慮連接深圳市區(qū)和郊區(qū)的長途旅行。此外,多源信息(如屬性化信息)沒有辦法利用Combo算法建模,更沒有體現(xiàn)空間異質(zhì)性特征。
圖7 Combo算法得到的工作日分區(qū)結(jié)果Fig.7 Results of weekdays via Combo algorithm
與Combo算法相比,GraphEncoder算法在揭示全局社區(qū)結(jié)構(gòu)方面取得了更好的結(jié)果,因?yàn)樗軌蚪⒏唠A相似并將模式圖轉(zhuǎn)換為節(jié)點(diǎn)之間的嵌入(圖8),在顧及空間異質(zhì)性方面優(yōu)勢不明顯。并且,該方法也不能融合屬性信息,這一缺陷導(dǎo)致了不同社區(qū)類型節(jié)點(diǎn)數(shù)產(chǎn)生不平衡的結(jié)果。
圖8 GraphEncoder算法得到的工作日分區(qū)結(jié)果Fig.8 Results of weekdays via GraphEncoder algorithm
由表3可知,本文的方法q值得分都很高,說明社區(qū)之間居民出行的差異性比較明顯,很好地顧及了異質(zhì)性;而Combo算法在顧及異質(zhì)性方面要比GraphEncoder算法效果好,主要是因?yàn)樵撍惴▋?nèi)部有modularity的優(yōu)化能在一定程度上體現(xiàn)社區(qū)之間的差異。由此可見,本文方法除了能夠融合靜態(tài)、動態(tài)信息外,還能夠顧及到社區(qū)之間的異質(zhì)性特征,使得最終的表示結(jié)果更為準(zhǔn)確。
表3 各方法的比較Tab.3 The q-values comparison of baseline methods
本文提出一種顧及異質(zhì)性的城市活動結(jié)構(gòu)發(fā)現(xiàn)方法,該方法通過融合靜態(tài)屬性信息及動態(tài)的出行信息,實(shí)現(xiàn)城市活動結(jié)構(gòu)的表示。該方法在訓(xùn)練過程中,實(shí)現(xiàn)了從節(jié)點(diǎn)嵌入到社區(qū)嵌入的過程,并在此過程中納入地理探測器的思想,顧及了異質(zhì)性特征。以深圳市的刷卡數(shù)據(jù)為基礎(chǔ),驗(yàn)證了該方法的有效性,結(jié)果表明,深圳市居民出行具有明顯的多樣性,與行政區(qū)劃關(guān)系不大,在空間上表現(xiàn)出強(qiáng)烈的差異性。
通過對特定城市活動結(jié)構(gòu)中常見的出行模式進(jìn)行分析,可以揭示公交服務(wù)不盡如人意的原因。特別地,本文通過城市活動結(jié)構(gòu)探測結(jié)果發(fā)現(xiàn)深圳市工作和居住的不平衡是導(dǎo)致市區(qū)主要工作中心和郊區(qū)單功能居住區(qū)早晚高峰時間定向流動的主要因素之一。在緩解交通問題的其他戰(zhàn)略交通規(guī)劃工作中,交通城市活動結(jié)構(gòu)發(fā)現(xiàn)地圖也可用于優(yōu)先考慮未來的土地開發(fā)計(jì)劃[41],例如在特定區(qū)域開發(fā)高科技園區(qū)和辦公樓,以促進(jìn)整體交通無障礙性。對于公共交通出行較少的城市活動結(jié)構(gòu),應(yīng)鼓勵公共交通導(dǎo)向型發(fā)展,以促進(jìn)公共交通乘客量和減少汽車使用。通過所提出的方法,可以深入理解城市,包括居民的流動性和可達(dá)性、社會不平等、不同城市地區(qū)的功能[42-43],以及隨著時間的推移驗(yàn)證現(xiàn)行公共交通系統(tǒng)的有效性。這些知識可以為城市規(guī)劃者和管理者提供環(huán)境可持續(xù)、公平和高效的公共服務(wù)提供參考。在后續(xù)的研究中,計(jì)劃研發(fā)先進(jìn)的多層、多任務(wù)嵌入技術(shù),例如地鐵和公交服務(wù)之間的傳輸,以更好地進(jìn)行模擬層間之間的交互。