鄧紅星,韓樹鑫
(東北林業(yè)大學 交通學院, 哈爾濱 150040)
城市居民出行分析在城市交通規(guī)劃中起著重要作用,其出行特征隨著季節(jié)變化存在一定的相關(guān)性。在特定的城市,季節(jié)性差異尤為明顯且更加有研究意義。
手機信令數(shù)據(jù)覆蓋面全、動態(tài)性強、精度高且有較強的信息相關(guān)性,其中豐富的用戶行為信息能夠為交通規(guī)劃分析提供數(shù)據(jù)基礎(chǔ)。將獲得的信令數(shù)據(jù)映射到對應(yīng)的交通單元,經(jīng)過數(shù)據(jù)的降噪和擴樣等處理,獲取城市居民出行數(shù)據(jù)。通過手機信令數(shù)據(jù),可獲取區(qū)域人口統(tǒng)計(分時、分天、分網(wǎng)格)、交通小區(qū)OD統(tǒng)計、畫像統(tǒng)計(性別、年齡、話費、來源地)等信息,還可以提取出較完整的居民出行鏈,滿足城市居民出行時空分布研究、區(qū)域需求熱點調(diào)查等需求。以哈爾濱市為例,基于手機信令數(shù)據(jù)分別從夏、冬兩季分析居民出行特征的季節(jié)性差異,對城市交通區(qū)域間的出行特性進行量化,分析居民出行的季節(jié)性規(guī)律。
目前,通過大數(shù)據(jù)進行出行特征分析的研究逐漸增多。Liu等[1]以昆山為例通過提取手機信令的OD信息,分析居民醫(yī)療出行特征,為城市公共醫(yī)療服務(wù)設(shè)施供需評估和布局優(yōu)化決策提供基礎(chǔ)數(shù)據(jù)支撐。Su等[2]通過多種大數(shù)據(jù)融合分析居民出行特征,并與傳統(tǒng)方法進行對比,突顯了多元數(shù)據(jù)融合分析方法的可靠性。Liu[3]基于信令數(shù)據(jù)實證研究,發(fā)掘城際公路交通出行特征與城市各項發(fā)展水平的相關(guān)性。Etminani-Ghasrodashti等[4]對伊朗居民出行進行實證調(diào)查,通過構(gòu)建SEM模型,以家庭為單位分析出行特征與社會各方面的聯(lián)系。Papadimitriou[5]以雅典市為研究區(qū)域,采用機器學習模型,從道路、交通、人為3個方面分析行人的出行行為特征。
汪磊等[6]基于手機信令數(shù)據(jù)分析了多種出行特征,并結(jié)合機器學習模型,對出行方式進行了識別。唐語灝[7]在對手機信令數(shù)據(jù)處理之后,運用交通出行模型分析了城市居民OD特征。丘建棟等[8]以深圳為研究區(qū)域,利用手機信令數(shù)據(jù)研究居民的出行行為特征,發(fā)現(xiàn)無論是否居住在深圳市內(nèi),其職住的通勤吸引力都很強。曹曉蕊[9]通過時空DBSCAN聚類算法從信令數(shù)據(jù)中提取移動軌跡,利用軌跡分析了居民出行特征。王京偉等[10]以吉林市為例,對比夏季冬季調(diào)查數(shù)據(jù),對出行強度密度、出行方式結(jié)構(gòu)、出行特征等都進行了分析,對于寒地城市交通規(guī)劃發(fā)展有著積極作用。楊喜平等[11]將研究對象按年齡、性別、是否是工作日分別分析,利用手機信令數(shù)據(jù)定量分析了出行特征差異。
研究數(shù)據(jù)來源是哈爾濱某運營商手機用戶在2019年6月和11月產(chǎn)生的手機信令數(shù)據(jù)。共包含約400萬用戶,通過擴樣可代表哈爾濱市居民在這2個季節(jié)的行為特征。
原始數(shù)據(jù)的處理流程:將原始數(shù)據(jù)中的用戶識別碼作為用戶數(shù)據(jù)的唯一ID進行處理以方便利用;提取出原始數(shù)據(jù)的有效信息,刪去殘缺編碼,改變起始時間的格式(年月日時分秒),并排序;把位置坐標信息同步到所處基站位置編碼,便可以得到較為完整的數(shù)據(jù)[12]。
數(shù)據(jù)清洗主要針對在手機信令數(shù)據(jù)采集中產(chǎn)生的2種現(xiàn)象:乒乓效應(yīng)和數(shù)據(jù)漂移。
對于乒乓效應(yīng),結(jié)合手機信令特性,采用空間-時間約束平滑方法技術(shù),提取信令數(shù)據(jù)用戶的出行鏈。以當前信令數(shù)據(jù)所在位置為圓心畫圓,當下一條信令數(shù)據(jù)在特定時間內(nèi)跳轉(zhuǎn)到圓外,并返回原位置時,用戶被視為停留。根據(jù)調(diào)查與分析計算,空間位移500 m以內(nèi)視為停留,信令采集時點靜止不超過30 min視為正常。
對于數(shù)據(jù)漂移,采用速度檢測篩選。由于數(shù)據(jù)漂移的發(fā)生往往在一瞬間,這就導致該時段的居民出行速度急劇升高。通過手機信令數(shù)據(jù)獲取的地理位置信息計算漂移的距離(最小距離約500 m):
(1)
cos(Latn+1)cos(Latn)haversin(Lotn+1-Lotn)
(2)
根據(jù)式(1)和式(2)計算出相鄰時間下兩點的距離后,可以得出該時間段內(nèi)的速度。若求得的速度大于哈爾濱市內(nèi)交通最大值,則將該條數(shù)據(jù)認定為漂移數(shù)據(jù)并刪除。
采用時間間隔進行檢測篩選。數(shù)據(jù)漂移現(xiàn)象的產(chǎn)生時間相當短,提取第m號數(shù)據(jù)及其前后兩條數(shù)據(jù),分別計算第m號數(shù)據(jù)與其前后兩條數(shù)據(jù)的地理距離。將計算出來的結(jié)果代入式(3)進行比較,若比值大于3,則將第m條數(shù)據(jù)認定為漂移數(shù)據(jù)并刪除[12]。
(3)
其中:d(m)為該數(shù)據(jù)與下一條數(shù)據(jù)的距離,d(m-1)為該數(shù)據(jù)與上一條數(shù)據(jù)的距離。
以哈爾濱市主城區(qū)為研究區(qū)域,從居民出行時空特征和出行強度特征兩大方面進行量化分析,結(jié)合多種指標來研究哈爾濱市居民出行特征。
2.1.1出行時間分布特征的預測與分析
掌握居民出行時間特征有利于提前部署交通規(guī)劃方案,能夠有效緩解交通擁堵、交通流分配等問題。按一天內(nèi)的出行時點分析,分別提取哈市居民在夏、冬2個季節(jié)的一周工作日數(shù)據(jù),并根據(jù)出行時間分布制作夏季、冬季一周工作日出行時點分布圖,見圖1。
圖1 夏季、冬季一周工作日出行時點分布圖
可以看出,哈爾濱市居民在夏季和冬季的早晚高峰出行量占比的爬升均比較明顯,且在中午都存在高峰時段,但夏季晚高峰持續(xù)時間較長,晚上出行持續(xù)時間長,在凌晨會有出行小高峰。相對于夏季,冬季晚高峰時段略有提前,而且20∶00以后道路流量下降速度明顯快于夏季。
按1個月內(nèi)的出行時點分析,提取夏季和冬季各1個月的居民出行量情況,見圖2??梢钥闯?,夏季出行量波動較大,冬季則較為平緩。居民在夏季更多選擇在周末出行,在冬季則會選擇天氣更適宜出行的日期出行。
圖2 夏季冬季一月內(nèi)出行時間分布圖
居民在1個月內(nèi)的每日出行總量歸根結(jié)底是時間序列。采用差分整合移動平均自回歸(ARIMA)模型,分別對夏季、冬季居民每日出行總量這2個時間序列進行未來預測。建立ARIMA模型步驟為:獲取觀察值序列;平穩(wěn)性檢驗(平穩(wěn)則跳過下一步);差分運算;白噪聲檢驗;ARIMA擬合。
ARIMA(p,d,q)模型可以表示為:
(4)
其中:L為滯后算子;d∈Z,d>0。
首先結(jié)合自相關(guān)圖對原始序列進行平穩(wěn)性檢驗,自相關(guān)圖見圖3、4。
圖3 夏季序列自相關(guān)圖
圖4 冬季序列自相關(guān)圖
通過自相關(guān)圖可知,夏季和冬季原始序列單位根統(tǒng)計量的p值如表1,均顯著小于0.05,可判斷2個序列是平穩(wěn)序列,故可以不進行差分,直接進行白噪聲檢驗。輸出p值如表2,均遠小于0.05,所以兩時間序列均是平穩(wěn)非白噪聲序列,對2個序列進行偏自相關(guān)圖識別,可知p、q均取3,應(yīng)對原序列建立ARIMA(3,0,3)模型,兩序列偏自相關(guān)圖見圖5、6。結(jié)合標準誤差、置信區(qū)間得出的平均預測結(jié)果見表2, 預測結(jié)果見圖7。
表1 兩序列p值
表2 未來30 d預測結(jié)果
圖5 夏季序列偏自相關(guān)圖
圖6 冬季序列偏自相關(guān)圖
圖7 預測結(jié)果
對2組預測值與實際值的均方根誤差值(RMSE)進行計算,可知預測精確度可以滿足需求,見圖8、9。
圖8 夏季預測值擬合情況與RMSE值
圖9 冬季預測值擬合情況與RMSE值
由預測結(jié)果可知,夏季交通出行量持續(xù)波動,而冬季由于受惡劣天氣等情況影響,人們的出行意愿變化不大,交通出行量在較長一段時間里比較穩(wěn)定,而在特定的情況下(如惡劣天氣來臨前、溫度回升等),交通出行量會有顯著波動。
對2個時間序列進行相關(guān)性分析。時間滯后互相關(guān)(TLCC)定義2個序列之間的相關(guān)性與方向性。在一定時期內(nèi),二者中的引導序列會初始化一個響應(yīng),而另一個序列則會重復響應(yīng)。該方法通過將其中一個時間序列逐步錯位移動并不斷計算與另一個時間序列的相關(guān)性(本文采用皮爾遜系數(shù))來測量。如圖10,黑線為兩序列初始狀態(tài),紅線為錯位移動后相關(guān)性最高位置,該位置為冬季序列被推進了13幀。該結(jié)果說明夏季、冬季的出行時間序列存在相關(guān)性,但夏季出行隨時間變化,更具規(guī)律性,受其他因素影響程度更小。
圖10 時間滯后互相關(guān)圖
為了分析粒度更細的變化情況,計算時間窗口的互相關(guān)來觀察兩序列的相互作用。圖11為滑動窗口時間滯后互相關(guān)圖。觀察圖11不難發(fā)現(xiàn),圖像整體呈現(xiàn)倒金字塔型,這是月時間序列的數(shù)據(jù)量級小導致的。在1個月內(nèi),大部分時間,夏季時間序列在相關(guān)性中起主導地位。
圖11 滑動窗口時間滯后互相關(guān)圖
2.1.2出行空間分布特征的統(tǒng)計與分析
居民出行空間分布特征與城市路網(wǎng)規(guī)劃和交通基礎(chǔ)設(shè)施建設(shè)息息相關(guān)。居民在信號基站小區(qū)間的流動就是空間分布特征的體現(xiàn)。如某部分區(qū)域的單位時間內(nèi)用戶數(shù)量增加,則說明該時段居民出行偏向于流入該區(qū)域,反之則偏向于流出該區(qū)域。
為了更加清晰地了解居民出行的流動性情況,基于信號基站的經(jīng)緯度,將主城區(qū)小區(qū)柵格化處理。使用k-mediods聚類算法,根據(jù)經(jīng)緯度坐標將基站小區(qū)進行聚類,并逐個編號。聚類后小區(qū)(簇)數(shù)量K的取值采用輪廓系數(shù)法計算。輪廓系數(shù)是常用的衡量聚類效果的指標,輪廓系數(shù)的范圍是(-1,1),輪廓系數(shù)數(shù)值越大聚類效果越好,代表所有樣本與該簇內(nèi)樣本相似度越高。單個樣本的輪廓系數(shù)計算式為:
(5)
其中:a為單個樣本與簇內(nèi)樣本的相似度;b為單個樣本與其他簇樣本的相似度。
通過經(jīng)驗分析,K值不宜過小也不宜過大,將K的取值規(guī)定在(6,30)區(qū)間內(nèi),通過輪廓系數(shù)的計算,不同K值計算輪廓系數(shù)如圖12。不難看出,當K值為10時輪廓系數(shù)最大,故K值取10。聚類后的小區(qū)分布如圖13。
圖12 不同k值下的輪廓系數(shù)
圖13 聚類后小區(qū)分布圖
在聚類后區(qū)域的基礎(chǔ)上計算莫蘭指數(shù),了解居民出行在市域空間上的相關(guān)性。莫蘭指數(shù)分為全局莫蘭指數(shù)(global Moran’sI)和局部莫蘭指數(shù)(local Moran’sI)。全局指數(shù)能夠體現(xiàn)空間內(nèi)是否出現(xiàn)了聚集或者異常值[13],局部指數(shù)能夠指明哪里出現(xiàn)了聚集和異常值。莫蘭指數(shù)值的范圍在[-1,1],Moran’sI值越大,表明數(shù)據(jù)存在的空間正相關(guān)性越強。
全局莫蘭指數(shù)表示為:
(6)
(7)
統(tǒng)計的zI得分按照以下形式計算:
(8)
E[I]=-1/(n-1)
(9)
V[I]=E[I2]-E[I]2
(10)
局部莫蘭指數(shù)表示為:
(11)
(12)
莫蘭指數(shù)計算中有2個重要指標來評價空間自相關(guān)程度。P值:表示概率,當P很小時(一般指P<0.1),意味著所觀測到的空間模式不太可能產(chǎn)生于隨機過程(小概率事件)[15],因此可以拒絕零假設(shè)。
Z得分:標準差倍數(shù)。標準差能反映一個數(shù)據(jù)集的離散程度。Z值越大,分析越貼合實際。
(13)
其中:r為樣本平均值;N為樣本個數(shù)。
分別取夏季與冬季的各1周工作日進行全局莫蘭指數(shù)的計算,指數(shù)計算結(jié)果如圖14、15??梢园l(fā)現(xiàn),冬季居民出行的空間流動聚集行為在整體上較夏季要少;相對于夏季,冬季發(fā)生過聚集的區(qū)域也有所減少,其中p值為0,Z得分均較大,說明分析結(jié)果貼合實際,觀測到的空間模式不產(chǎn)生于隨機過程。
圖14 夏季全局莫蘭指數(shù)計算結(jié)果
圖15 冬季全局莫蘭指數(shù)計算結(jié)果
結(jié)合基站小區(qū)聚類后的10個區(qū)域,分析計算哈爾濱主城區(qū)的區(qū)域莫蘭指數(shù)情況,如圖16—21。10個聚類分區(qū)的莫蘭指數(shù)情況見表3。其中,High-High(HH)區(qū)域為莫蘭指數(shù)的高值聚集區(qū),High-Low(HL)區(qū)域為高值被低值包含的區(qū)域,Low-High(LH)區(qū)域為低值被高值包含的區(qū)域,Low-Low(LL)區(qū)域為低值聚集區(qū)。
圖16 夏季早高峰局部莫蘭指數(shù)情況
圖17 冬季早高峰局部莫蘭指數(shù)情況
圖19 冬季午高峰局部莫蘭指數(shù)情況
圖20 夏季晚高峰局部莫蘭指數(shù)情況
圖21 冬季晚高峰局部莫蘭指數(shù)情況
表3 聚類分區(qū)莫蘭指數(shù)
經(jīng)過對比分析可以發(fā)現(xiàn),從整體上看,交通發(fā)生聚集地大都在3、7、9號區(qū)域(道里區(qū)、香坊區(qū)和南崗區(qū)及其交界),以哈爾濱火車站為中心、南直路和和興路為邊界的市中心區(qū)域。而1、4號區(qū)域出行發(fā)生最少、最稀疏。多處分散聚集地(LH)以學校、醫(yī)院、景點等居多,高聚集地中的低聚集點(HL)以高檔小區(qū)、交通難以到達的區(qū)域等情況為主。
從季節(jié)層面上看,夏季主城區(qū)中心交通發(fā)生聚集地面積比冬季大11%,且其他分散聚集地更多、更密集;而冬季主城區(qū)邊緣的低聚集地區(qū)面積比夏季大13%,且分布更廣,交通發(fā)生聚集地面積收縮。
從出行高峰時點層面上看,早高峰交通出行聚集地數(shù)量較午晚高峰多10%、13%,且更為分散;午高峰聚集地以主城區(qū)中心區(qū)域為主,夾雜其中的眾多住宅小區(qū)為交通出行低聚集區(qū)域;晚高峰高聚集區(qū)域最為緊湊,且低聚集地數(shù)量相對于早、午高峰都減少了8%左右。
居民出行的強度會影響道路服務(wù)水平和城市擁堵情況,能夠反映居民出行的意愿,故從出行頻率和出行距離2個角度對居民出行強度進行分析。
2.2.1出行頻率
根據(jù)提取的用戶出行軌跡數(shù)據(jù),將一段軌跡記為1次出行,一段軌跡包含2個駐留點和中間的若干個移動點,原則上用戶在同一位置停留超過30 min形成駐留。
通過對每個用戶出行次數(shù)的匯總,可以得出哈爾濱市主城區(qū)居民出行的當日平均出行次數(shù)。經(jīng)過分析計算得出主城區(qū)在夏季和冬季的調(diào)查日的居民平均出行次數(shù)分別為2.1和1.7,根據(jù)這一數(shù)據(jù)可以預估該日的出行人流量。據(jù)此制定針對措施可以有效疏通交通流,提高出行效率。
2.2.2出行距離
出行距離指居民出行的遠近程度,結(jié)合由信令數(shù)據(jù)提取的出行軌跡,可以測算居民出行距離。圖22為城市居民在不同出行距離情況下的出行交通量比例。由圖22可知,2個季節(jié)出行距離在2 km以下的占全部出行的比例分別為61.6%、78.5%;出行距離在2~10 km的占全部出行的比例分別為37.1%、19.3%;出行距離大于10 km的僅占全部出行的1%~2%。從總體上看,哈市居民出行主要選擇距離較短的方案。通過出行距離比例對比可以了解到哈爾濱居民在2 km以下的短途出行中,冬季占比高于夏季,而在2~10 km的中程出行中卻相反。這與氣候、生活習慣等因素密不可分。
圖22 不同出行距離情況下的出行交通量比例
1) 信令數(shù)據(jù)的問題。手機信令數(shù)據(jù)仍具有較多局限性。一方面,在用戶不使用手機的情況下只能通過周期性檢測位置更新,而以目前的采集技術(shù)條件,采集周期(30~60 min)過長,對于短時間停留點較難識別,應(yīng)在合理范圍內(nèi)增加采集頻率;另一方面,網(wǎng)絡(luò)不暢、設(shè)備不佳和運營商運作機制等原因都可能導致每一條信令數(shù)據(jù)不能百分百被采集到,應(yīng)加強運作,避免非全樣本檢測。
2) 寒地城市氣候的特殊性對居民出行特征的影響。本文冬季研究部分并未單獨選取雨雪天進行分析,故應(yīng)結(jié)合實際情況對比分析,充分考慮不同情況下的居民出行需求。
居民出行特征研究是城市交通規(guī)劃布局的重要一環(huán)。居民出行特征研究涉及方面廣泛,故每一項指標都要經(jīng)歷數(shù)據(jù)篩選、結(jié)合,實現(xiàn)較為繁瑣。而相較于傳統(tǒng)交通數(shù)據(jù)采集方法,利用手機信令數(shù)據(jù)進行研究明顯更加省時省力、全面準確。
對出行時間、空間、頻率、距離進行了較為全面的分析,并結(jié)合手機信令數(shù)據(jù),充分發(fā)揮了大數(shù)據(jù)分析的優(yōu)勢,對科學預測交通情況、規(guī)劃交通需求規(guī)模、制定合理的交通管制政策具有參考價值。
在對哈爾濱市夏季與冬季手機信令交通調(diào)查的基礎(chǔ)上,客觀分析了夏季與冬季不同情景下的居民出行特征,從出行時空特征、出行強度特征的角度剖析了寒地城市居民出行特征的不同,揭示了居民出行特征的季節(jié)性差異,為科學預測寒地城市居民交通出行需求提供理論依據(jù)。