国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

利用詞向量模型分析城市道路交通空間相關(guān)性

2018-01-02 07:07:50仇培元劉希亮張恒才王少華
測繪學(xué)報(bào) 2017年12期
關(guān)鍵詞:工作日道路交通路段

劉 康,仇培元,劉希亮,張恒才,王少華,陸 鋒,2,3

1. 中國科學(xué)院地理科學(xué)與資源研究所,北京 100101; 2. 中國科學(xué)院大學(xué),北京 100049; 3. 江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心,江蘇 南京 210023

利用詞向量模型分析城市道路交通空間相關(guān)性

劉 康1,2,仇培元1,劉希亮1,張恒才1,王少華1,陸 鋒1,2,3

1. 中國科學(xué)院地理科學(xué)與資源研究所,北京 100101; 2. 中國科學(xué)院大學(xué),北京 100049; 3. 江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心,江蘇 南京 210023

刻畫城市道路之間的交通相關(guān)性是提高交通插值及預(yù)測水平的基礎(chǔ)?,F(xiàn)有研究及應(yīng)用通常假設(shè)一定空間或拓?fù)渚嚯x內(nèi)的道路相互之間具有相關(guān)性,這種方式忽視了道路之間交通影響的時(shí)空異質(zhì)性。例如,上游道路交通流通常不會(huì)均勻擴(kuò)散到所有下游道路,而是集中在特定方向上。道路之間產(chǎn)生交通影響和交互作用的根本原因是大量機(jī)動(dòng)車輛穿梭其中。為從數(shù)據(jù)驅(qū)動(dòng)的角度度量道路之間的交通相關(guān)性,從而顧及其時(shí)空異質(zhì)性,本文利用詞向量模型Word2Vec從大量機(jī)動(dòng)車出行路徑中挖掘道路之間的交通交互影響關(guān)系。首先把“路段-路徑”類比為“詞-文檔”;其次利用Word2Vec模型從大量路徑(文檔)中為每條路段(詞)訓(xùn)練出一個(gè)實(shí)數(shù)向量(詞向量);然后以向量之間的余弦相似度度量對(duì)應(yīng)路段之間的交通相關(guān)性;最后利用交通狀態(tài)數(shù)據(jù)對(duì)結(jié)果進(jìn)行驗(yàn)證。以北京市200萬條出租車出行路徑為數(shù)據(jù)進(jìn)行試驗(yàn),結(jié)果表明:①平均水平上,向量相似度越高的鄰近路段,其交通狀態(tài)變化趨勢也越相似,證明了本文方法可以正確度量道路之間的交通相關(guān)性,并刻畫出其空間異質(zhì)性;②工作日早、晚高峰及節(jié)假日路段之間的交通相關(guān)性大于工作日平峰和周六日,其合理性體現(xiàn)了本文方法可以正確捕捉道路交通相關(guān)性的時(shí)間異質(zhì)性。本文方法及分析可為交通規(guī)劃、誘導(dǎo)等提供方法論和理論基礎(chǔ)。

交通相關(guān)性;Word2Vec;出行路徑;浮動(dòng)車數(shù)據(jù)

在城市道路系統(tǒng)中,某路段的交通狀態(tài)(如速度、流量)會(huì)受到其周圍路段交通狀態(tài)變化的影響。例如,某一路段發(fā)生擁堵,可能會(huì)導(dǎo)致較多本欲進(jìn)入該路段的機(jī)動(dòng)車會(huì)繞行至周邊的路段,從而造成周邊路段的交通狀態(tài)發(fā)生變化。道路之間的這種交通依賴關(guān)系通常稱為道路交通相關(guān)性。對(duì)城市道路交通相關(guān)性進(jìn)行建模有助于理解城市道路系統(tǒng)內(nèi)部的交互作用模式,并為交通插值和預(yù)測提供基礎(chǔ)[1-9]。

現(xiàn)有研究及應(yīng)用通常假定一定空間或拓?fù)渚嚯x內(nèi)的道路具有交通相關(guān)性[3-14]。例如,文獻(xiàn)[4]認(rèn)為一定歐氏距離內(nèi)的道路具有交通相關(guān)性;文獻(xiàn)[8]將一定時(shí)間可達(dá)的道路視為交通相關(guān)道路;文獻(xiàn)[7]假定一定拓?fù)渚嚯x內(nèi)的道路具有交通相關(guān)性,并將其用于交通預(yù)測;文獻(xiàn)[9]在交通數(shù)據(jù)插值時(shí)使用拓?fù)渚嚯x來定義道路空間鄰近關(guān)系。

然而,這種基于距離的方法忽視了道路交通相關(guān)性的時(shí)空異質(zhì)性。一方面,眾多研究表明路網(wǎng)中的交通流分布具有明顯的空間異質(zhì)性,少部分道路承擔(dān)了大部分交通流[15]。同時(shí),交通流在道路之間的傳播擴(kuò)散也具有各向異性,上游路段的交通流通常不會(huì)均勻地?cái)U(kuò)散到所有下游路段,而是集中在特定方向上[16],使得道路之間的交通相關(guān)性具有空間異質(zhì)性。另一方面,道路系統(tǒng)中的路況隨時(shí)間變化劇烈,不難推測道路之間交通交互強(qiáng)度也具有顯著的時(shí)間異質(zhì)性。因此,在度量道路交通相關(guān)性時(shí)考慮其時(shí)空異質(zhì)性是十分必要的。文獻(xiàn)[16—17]試圖從城市路網(wǎng)拓?fù)浣Y(jié)構(gòu)的角度出發(fā)識(shí)別道路交通相關(guān)集。盡管這些研究考慮了道路交通影響的空間異質(zhì)性,但道路交通相關(guān)集的劃分依據(jù)主要來源于理論分析,缺乏定量化的依據(jù)。

機(jī)動(dòng)車如同城市道路系統(tǒng)中的微觀分子,其成千上萬條出行軌跡使得道路在交通上聯(lián)系緊密。從大量真實(shí)出行軌跡中量化道路之間的交通相關(guān)性是一種自下而上、由里及表的思路。同時(shí),自然語言處理領(lǐng)域(natural language processing,NLP)的詞向量技術(shù)[19-22]可以根據(jù)詞在大量文本中的上下文關(guān)系提取詞與詞之間的語義相似度,因此,本文應(yīng)用詞向量模型Word2Vec[20]根據(jù)路段在大量出行路徑中的上下游關(guān)系提取路段與路段之間的交通相關(guān)性。具體由于出行路徑由路段序列構(gòu)成,而文本文檔由詞序列構(gòu)成,因此把每條出行路徑類比為一篇文本文檔,每條路段類比為一個(gè)詞,然后利用Word2Vec模型從大量出行路徑中為每條路段訓(xùn)練出一個(gè)實(shí)數(shù)向量(類比為從語料庫中為每個(gè)詞訓(xùn)練出一個(gè)詞向量)。根據(jù)模型原理,兩個(gè)詞之間的向量相似度高表明它們在文本中的共現(xiàn)頻率高(即具有語義相關(guān)性,如“道路”和“擁堵”),或者表明它們在文本中的上下文比較相似(即具有語義相似性,如“道路”和“路段”)。類似的,兩條鄰近路段之間的向量相似度高表明它們在路徑中的共現(xiàn)頻率高,或者它們在出行路徑中共享上下游路段的次數(shù)較多。本文將在方法部分進(jìn)行細(xì)致說明,這兩種情況均體現(xiàn)了它們具有較強(qiáng)的交通相關(guān)性。

本文首先從2011年5月北京市浮動(dòng)車數(shù)據(jù)(floating car data,F(xiàn)CD)中提取出200萬條載客路徑,并根據(jù)路徑出發(fā)時(shí)間將其劃分為工作日早高峰、工作日晚高峰、工作日平峰、周六日及節(jié)假日5個(gè)數(shù)據(jù)集;然后利用詞向量模型Word2Vec為每條路段訓(xùn)練出一個(gè)實(shí)數(shù)向量,并通過計(jì)算向量之間的余弦相似度來度量對(duì)應(yīng)路段之間的交通相關(guān)性;最后利用交通狀態(tài)數(shù)據(jù)(道路全天通行時(shí)速的時(shí)間序列)對(duì)結(jié)果的有效性進(jìn)行了驗(yàn)證。

1 研究方法

本節(jié)首先介紹Word2Vec模型的基本原理,然后給出本文交通相關(guān)性定量化的方法流程。

1.1 Word2Vec模型原理

詞向量技術(shù)當(dāng)前是NLP領(lǐng)域的熱門技術(shù)之一。該技術(shù)的發(fā)展始于2000年[19],自2013年起因Word2Vec模型[20]的出現(xiàn)而受到極大關(guān)注。詞向量技術(shù)的主要思想是將詞表示為一個(gè)N維實(shí)數(shù)向量,兩個(gè)向量的相似度可以用來度量其對(duì)應(yīng)詞的語義相似度(如“道路”和“路段”)或語義相關(guān)度(如“道路”和“擁堵”)。除此之外,詞向量還廣泛應(yīng)用于信息抽取、文檔分類、命名實(shí)體識(shí)別等NLP任務(wù)[22]。

Word2Vec分為CBOW(Continuous Bag-of-Words)模型和Skip-gram模型兩種(模型架構(gòu)見圖1)[20]。兩個(gè)模型均為神經(jīng)網(wǎng)絡(luò),其區(qū)別在于CBOW利用上下文信息來預(yù)測目標(biāo)詞,而skip-gram從目標(biāo)詞來預(yù)測上下文信息。

圖1 CBOW和Skip-gram的模型構(gòu)架[20]Fig.1 Model architectures of CBOW and Skip-gram[20]

本文試驗(yàn)部分將使用Skip-gram模型,下面簡單介紹其原理。

給定詞序列w1,w2,…,wT,Skip-gram模型的目標(biāo)是最大化如下平均對(duì)數(shù)概率

(1)

式中,k為訓(xùn)練窗口大小(window size),表示目標(biāo)詞前后各k個(gè)詞被視為目標(biāo)詞的鄰近詞(即上下文);p(wt+j|wt)為給定目標(biāo)詞wt正確預(yù)測鄰近詞wt+j的概率;T為語料庫中所有詞的數(shù)目。

在Skip-gram模型中,每個(gè)詞w都有一個(gè)輸入向量uw和輸出向量vw。給定詞wj,正確預(yù)測詞wi的概率定義為

(2)

式中,V是詞典中所有詞語的數(shù)目。

模型的訓(xùn)練由反向傳播隨機(jī)梯度下降法[22]實(shí)現(xiàn)。

1.2 路段交通相關(guān)性度量

1.2.1 建立類比關(guān)系

如前所述,詞向量模型可以通過訓(xùn)練語料庫中的文本文檔將每個(gè)詞表示為實(shí)數(shù)向量形式,兩個(gè)向量相似度高表示它們對(duì)應(yīng)的詞在文本中的共現(xiàn)次數(shù)多,或者它們的上下文較為相似。每個(gè)文本文檔都由詞序列構(gòu)成,而每條出行路徑都由路段序列構(gòu)成。通過將每條路段類比為詞,每條出行路徑類比為文本文檔,可以利用詞向量模型從大量出行路徑中為每條路段訓(xùn)練出一個(gè)實(shí)數(shù)向量。對(duì)應(yīng)地,兩條鄰近路段的向量相似度高表示這兩條路段在出行路徑中的共現(xiàn)頻率高,或者它們在出行路徑中總是共享上下游路段。通過圖2示意圖來說明兩種情況均表明這兩條路段具有較強(qiáng)的交通相關(guān)性。

圖2 道路交通交互關(guān)系示意圖 Fig.2 Sketch map of traffic interactive relationships among roads

圖2中空心圓之間的實(shí)線段代表路段,箭頭表示路段交通流的方向?;叶认嗤穆范未硭鼈兙哂泄餐纳嫌温范位蛳掠温范?,而路段的寬度表示它們從共同上游路段分擔(dān)的交通量的相對(duì)大小或者流向共同下游路段的交通量的相對(duì)大小。例如,在圖2中,路段0是路段1、2和3的共同下游,但路段0所承擔(dān)的流量主要源于路段1,少部分源于路段2和3;路段0同時(shí)是路段4、5和6的共同上游,但路段0中的流量主要流向路段5和6,少部分流入路段4。

兩條路段在出行路徑中的共現(xiàn)頻率高,則它們具有較強(qiáng)的交通相關(guān)性。在圖2中,路段0的交通流分別主要源自于1,路段0和1在出行路徑中具有較高的共現(xiàn)頻率。這兩條路段之間的影響和交互作用明顯強(qiáng)于其他鄰近路段。路段0的交通流量大小取決于路段1;而如果路段0由于交通事故造成擁堵,路段1會(huì)比路段2和3更容易受到影響。

兩條路段在出行路徑中頻繁共享上/下游路段,則兩條路段具有較強(qiáng)的交通相關(guān)性。圖2中,由于路段5和6具有共同的上游,即路段0。假如路段5由于交通事故發(fā)生了擁堵,更多來自路段0的車輛可能會(huì)選擇路段6作為替代路徑,進(jìn)而使路段6的交通狀態(tài)其受到影響。

1.2.2 訓(xùn)練路段向量

為了度量兩條路段之間的交通相關(guān)性,首先使用Word2Vec模型獲取每條路段的向量表達(dá)。該模型的原理在2.1.2節(jié)介紹過,在試驗(yàn)中,使用Python第三方庫“gensim”中的工具來訓(xùn)練Word2Vec模型,其函數(shù)表達(dá)及主要參數(shù)為

model=gensim.models.Word2Vec(documents,

dimension=200,window=5)

Documents是文本文檔集合,每一個(gè)文本文檔都表達(dá)為詞的序列。Dimension指向量空間的維度,一般取幾十到幾百。Window即窗口是最重要的參數(shù),決定了在模型訓(xùn)練中使用每個(gè)詞的前后多少個(gè)鄰近詞作為上下文。例如,窗口等于5意味著每個(gè)詞在當(dāng)前文檔中前面5個(gè)和后面5個(gè)鄰近詞會(huì)在訓(xùn)練中當(dāng)作中間詞的上下文。

1.2.3 計(jì)算路段之間的向量相似度

一個(gè)詞的向量表示該詞在所構(gòu)建的n維向量空間中的位置,經(jīng)訓(xùn)練,“相似/相關(guān)”的詞在向量空間中距離更近。通過將詞表達(dá)為向量形式,可以通過計(jì)算向量之間的相似性來定量化兩個(gè)詞之間的語義相似度或語義相關(guān)度。

類似地,通過計(jì)算向量之間的相似度來度量任意兩條路段之間的交通相關(guān)性,相似度越高表明相關(guān)性越強(qiáng)。

給定兩個(gè)向量x和y,其余弦相似度cosθ的計(jì)算公式為

(3)

式中,xi和yi分別為向量x和y的第i項(xiàng)。相似度范圍從-1到1。值越大,相似度越大。

2 試驗(yàn)分析

2.1 數(shù)據(jù)

2.1.1 道路網(wǎng)絡(luò)

本文使用北京市五環(huán)及五環(huán)周邊的道路中心線數(shù)據(jù)作為試驗(yàn)數(shù)據(jù)(圖3)。該路網(wǎng)中共有26 621條路段,道路等級(jí)分為高速路、環(huán)路、主干道、次干道和支路,在圖3中分別以深紅色、橘紅色、藍(lán)色、深灰色和淺灰色表示。

由于該路網(wǎng)由道路中心線表示,而實(shí)際道路中的交通流通常具有兩個(gè)相反的方向,其道路交通狀態(tài)可能完全不同,需要區(qū)分對(duì)待。因此,為每一條真實(shí)路段增加一條虛擬路段,并將其方向設(shè)置為相反,使得整個(gè)路網(wǎng)變成有向網(wǎng)絡(luò)。

2.1.2 浮動(dòng)車數(shù)據(jù)

本文使用的浮動(dòng)車數(shù)據(jù)采集自北京市2萬輛配備GPS設(shè)備的出租車,采集時(shí)間為2011年和2012年5月1日至31日,采樣間隔約為60 s。每一條GPS記錄都包含了車輛ID、瞬時(shí)經(jīng)緯度坐標(biāo)、瞬時(shí)速度及載客/空車情況。

將2011年5月的數(shù)據(jù)用于生成出行路徑,以訓(xùn)練Word2Vec模型;2012年5月的數(shù)據(jù)用于計(jì)算道路交通狀態(tài),以對(duì)結(jié)果進(jìn)行驗(yàn)證。

2.1.2.1 出行路徑

使用地圖匹配算法[25]將所有載客GPS軌跡與路網(wǎng)進(jìn)行匹配,以得到由路段ID序列構(gòu)成的出行路徑。路徑i表示為

routei=[road segmentIDi,1,road segmentIDi,2,…,road segmentIDi,N]

式中,N為路徑i所包含的路段數(shù)目。為顧及道路交通相關(guān)性的時(shí)間異質(zhì)性,將路徑按照其出發(fā)時(shí)間劃分為5個(gè)數(shù)據(jù)集:工作日早高峰(7:00—9:00)、工作日晚高峰(17:00—19:00)、工作日平峰(0:00—7:00、9:00—17:00、19:00—24:00)、周六日及節(jié)假日。其中,節(jié)假日為五一國際勞動(dòng)節(jié),放假時(shí)間為2011年5月1—2日。

2.1.2.2 路段交通狀態(tài)

本節(jié)從浮動(dòng)車數(shù)據(jù)中計(jì)算道路交通狀態(tài)數(shù)據(jù),該數(shù)據(jù)將被用于驗(yàn)證本文方法的有效性。

首先,計(jì)算路段i在日期d的第t個(gè)時(shí)段(本文取每15 min為一個(gè)時(shí)段,全天共96個(gè)時(shí)段)的車輛平均行駛速度

(4)

式中,Nc為路段i在日期d的時(shí)段t的車輛數(shù)目;Si,t,d,c為該時(shí)段車輛c的即時(shí)速度(km/h)。

然后將不同日期路段在工作日早高峰、工作日晚高峰、工作日平峰、周六日及節(jié)假日各時(shí)段的車輛平均行駛速度按照時(shí)間順序分別合并為一個(gè)長時(shí)間序列。如此,每條路段都分別在工作日早高峰、工作日晚高峰、工作日平峰、周六日和節(jié)假日對(duì)應(yīng)一條交通狀態(tài)時(shí)間序列。

2.2 結(jié)果展示及分析

Word2Vec模型最重要的參數(shù)是窗口大小。本文中利用工作日早高峰、工作日晚高峰、工作日平峰、周六日和節(jié)假日5個(gè)路徑數(shù)據(jù)集,在窗口分別取1、2、3、4、5、6、7和8情況下,共訓(xùn)練了40個(gè)模型。

為對(duì)結(jié)果進(jìn)行展示,首先選取了名為“志新路”的某路段(圖4中標(biāo)注黑色星形的路段),展示了不同時(shí)段其與其鄰近路段的向量相似性(向量在窗口取值為5的情況下訓(xùn)練得到)。通過這個(gè)案例可以看出:

(1) 志新路與其鄰近路段的交通相關(guān)性隨時(shí)間變化顯著。工作日早高峰、工作日晚高峰及節(jié)假日的交通相關(guān)性明顯強(qiáng)于工作日平峰及周六日,體現(xiàn)了本文的方法可以捕捉到道路交通相關(guān)性的時(shí)間異質(zhì)性。

(2) 志新路與其鄰近路段的交通相關(guān)性具有明顯的空間異質(zhì)性。以工作日早高峰為例,路段9、10和13都是志新路的下游,但是志新路與路段13的交通相關(guān)性強(qiáng)于與路段10。這可能是由于標(biāo)識(shí)黑色星形的志新路與路段13同屬車流量較大的主干道,而路段9和10為等級(jí)較低的次干道。此外,盡管有些路段對(duì)并不是直接上下游關(guān)系,如志新路與路段4、6、8或11,但是由于它們具有共同的上游或下游,它們依然在交通上具有交互作用。

然后,分別統(tǒng)計(jì)了所有1、2、3及4階鄰近路段之間的向量相似度平均值?!皀階”指兩條路段在路網(wǎng)中的最短拓?fù)渚嚯x為n。從圖5可以看到:

(1) 當(dāng)窗口為1時(shí),路段交通相關(guān)性很低且明顯區(qū)別于其他窗口值對(duì)應(yīng)的結(jié)果。這可能由于窗口太小,訓(xùn)練過程中路段的上下文信息不足。窗口值從2到8的結(jié)果先略微上升,然后基本保持平穩(wěn)。

(2) 工作日早高峰、工作日晚高峰和節(jié)假日的結(jié)果十分接近,且均高于周六日,進(jìn)一步高于工作日平峰。該統(tǒng)計(jì)結(jié)果與前面針對(duì)志新路的展示結(jié)果較為一致。工作日早晚高峰及節(jié)假日道路系統(tǒng)中的交通量比較大,此時(shí)道路交通相關(guān)性也較大;反之,工作日平峰及周六日交通量較小,相應(yīng)地,道路交通相關(guān)性也較小。該結(jié)果的合理性體現(xiàn)了該方法可以正確探測道路交通相關(guān)性的時(shí)間異質(zhì)性。

(3) 除了窗口取1時(shí)的模型訓(xùn)練結(jié)果,1階鄰近路段之間的交通相關(guān)性大于2階鄰近路段,2階鄰近路段大于3階鄰近路段,而3階鄰近路段大于4階鄰近路段。這說明在平均水平上,距離越近的路段其交通相關(guān)性越強(qiáng),不但符合地理學(xué)第一定律,也說明該方法捕捉到了距離因素對(duì)道路交通交互強(qiáng)度的影響。

2.3 結(jié)果驗(yàn)證

使用2.1.2節(jié)介紹的交通狀態(tài)數(shù)據(jù)來驗(yàn)證本文結(jié)果。需要強(qiáng)調(diào)的是,筆者并沒有將本文方法直接與基于空間或拓?fù)渚嚯x的方法進(jìn)行對(duì)比,其原因是通過前面的分析可知,本文方法不但可以捕捉到距離因素(即在平均水平上,拓?fù)渚嚯x越近的路段其交通相關(guān)性越強(qiáng)),還捕捉到了道路交通相關(guān)性的時(shí)空異質(zhì)性。而基于空間或拓?fù)渚嚯x的方法將一定距離內(nèi)的路段視為交通相關(guān)路段,完全忽視了其時(shí)空異質(zhì)性。

本文方法所度量的時(shí)間異質(zhì)性的合理性已在前文分析過,本節(jié)主要驗(yàn)證本文方法所度量的空間異質(zhì)性的正確性。驗(yàn)證的基本思想是如果兩條路段的向量相似性更高(即交通相關(guān)性更強(qiáng)),則它們的交通狀態(tài)時(shí)序變化也應(yīng)當(dāng)更相似。

由于窗口取2到8時(shí)模型訓(xùn)練出的結(jié)果基本持平,因此無需驗(yàn)證所有窗口下的模型訓(xùn)練結(jié)果,而是以窗口等于5為例。

道路之間的交通影響通常具有時(shí)間延遲效應(yīng),其交通狀態(tài)的變化并非完全同步。因此,使用動(dòng)態(tài)時(shí)間規(guī)整(dynamic time warping,DTW)算法[26]代替皮爾森相關(guān)系數(shù)來度量兩條路段之間交通狀態(tài)時(shí)間序列的相似性,并使用下面步驟來檢驗(yàn)本文方法所得出的具有較高向量相似度的道路對(duì)(即交通相關(guān)性更強(qiáng)的道路對(duì))是否也具有更一致的交通狀態(tài)變化趨勢。

(1) 對(duì)于每條路段,對(duì)其所有的1階鄰近路段按照與其交通相關(guān)性的大小進(jìn)行排序(降序)。一般來說,每條路段有3條1階上游路段和3條1階下游路段,共6條1階鄰近路段。

(2) 求算所有路段與其第n交通相關(guān)路段之間交通狀態(tài)DTW距離平均值(n=1,2,3,4,5,6)。

結(jié)果如圖6所示,橫軸代表排序n,縱軸代表所有路段與其第n交通相關(guān)路段的交通狀態(tài)DTW距離的平均值??梢钥闯?,在平均水平上,交通相關(guān)性越強(qiáng)的路段對(duì),其道路交通狀態(tài)也越相似(即DTW距離越小)。這說明本文方法能夠正確度量道路交通相關(guān)性,正確刻畫了其空間異質(zhì)性。

圖3 北京城區(qū)道路網(wǎng)絡(luò)Fig.3 Road network of downtown Beijing

圖4 志新路與其鄰近路段的交通相關(guān)性Fig.4 Traffic correlation degree between “Zhixin Rd.” and its neighbors

3 討 論

除了提出顧及時(shí)空異質(zhì)性的城市道路交通相關(guān)性定量化方法,本文貢獻(xiàn)還體現(xiàn)在以下兩個(gè)方面。

圖5 n-階鄰近路段對(duì)的向量平均余弦相似度Fig.5 Average cosine similarities between n-order neighboring road segments’ vectors

圖6 所有路段與其第n交通相關(guān)路段的交通狀態(tài)DTW距離平均值Fig.6 Average DTW distances of all the road segments with their nth most similar 1-order neighbors

第一,機(jī)動(dòng)車如同路網(wǎng)中不停移動(dòng)的微觀分子,其無數(shù)條出行軌跡不但構(gòu)成了整個(gè)路網(wǎng)中的交通分布模式,也是道路之間產(chǎn)生影響和交互作用的根本原因。因此,與對(duì)“表象”數(shù)據(jù)(如交通流量、交通狀態(tài)等)直接進(jìn)行統(tǒng)計(jì)分析不同,將大數(shù)據(jù)與數(shù)據(jù)驅(qū)動(dòng)方法結(jié)合,從大量出行路徑中度量道路之間的交通相關(guān)性,為交通研究提供了一種由里及表、自下而上的思路。

第二,本文首次將自然語言處理領(lǐng)域的詞向量技術(shù)應(yīng)用于交通領(lǐng)域。由于“路段-路徑”與“詞-文本”之間較好的對(duì)應(yīng)關(guān)系,本文提議未來更多文本處理領(lǐng)域的技術(shù)如Topic Model及TF-IDF等均可應(yīng)用于出行路徑選擇行為分析及交通相關(guān)研究。

但本文也存在一些不足。例如,盡管路徑由路段序列構(gòu)成,文本文檔由詞序列構(gòu)成,“路段-路徑”和“詞-文本文檔”之間具有很好地對(duì)應(yīng)關(guān)系,但二者之間依然具有細(xì)微差別。由于路段和路段之間具有固定的連接方式,每條路段通常只有3條直接鄰接上游路段和3條直接鄰接下游路段,而每個(gè)詞在文本中可能出現(xiàn)的上下文詞則更多樣。本文中并未探討這種差別是否會(huì)對(duì)模型訓(xùn)練結(jié)果造成影響。

4 結(jié) 論

對(duì)道路系統(tǒng)中的交通相關(guān)性進(jìn)行量化不僅有助于理解道路系統(tǒng)內(nèi)部的交互作用模式,還可以服務(wù)于出行信息服務(wù)及交通插值、預(yù)測等應(yīng)用。本文使用詞向量模型來為每條路段訓(xùn)練實(shí)數(shù)向量,并通過向量之間的相似度來度量道路之間的交通相關(guān)性。通過試驗(yàn),主要得到以下結(jié)論:

(1) 向量相似性越高的鄰近路段,其交通狀態(tài)變化趨勢也越相似,證明了本文方法可以正確度量道路之間的交通相關(guān)性并刻畫出其空間異質(zhì)性。

(2) 工作日早晚高峰及節(jié)假日路段之間的交通相關(guān)性大于工作日平峰和周末,該結(jié)果的合理性體現(xiàn)了本文方法可以正確捕捉道路交通相關(guān)性的時(shí)間異質(zhì)性。

本文所提出的道路交通相關(guān)性定量化方法及對(duì)結(jié)果的分析可為交通規(guī)劃、誘導(dǎo)及其他相關(guān)應(yīng)用提供方法論和理論基礎(chǔ)。

[1] 陸鋒,鄭年波,段瀅瀅,等.出行信息服務(wù)關(guān)鍵技術(shù)研究進(jìn)展與問題探討[J].中國圖象圖形學(xué)報(bào),2009,14(7):1219-1229.

LU Feng,ZHENG Nianbo,DUAN Yingying,et al.Travel Information Services:State of the Art and Discussion on Crucial Technologies[J].Journal of Image and Graphics,2009,14(7):1219-1229.

[2] 歐陽俊,陸鋒,劉興權(quán),等.基于多核混合支持向量機(jī)的城市短時(shí)交通預(yù)測[J].中國圖象圖形學(xué)報(bào),2010,15(11):1688-1695.

OUYANG Jun,LU Feng,LIU Xingquan,et al.Short-term Urban Traffic Forecasting based on Multi-Kernel SVM Model[J].Journal of Image and Graphics,2010,15(11):1688-1695.

[3] WANG Junjie,WEI Dong,HE Kun,et al.Encapsulating Urban Traffic Rhythms into Road Networks[J].Scientific Reports,2014,4:4141.

[4] KAMARIANAKIS Y,PRASTACOS P.Space-time Modeling of Traffic Flow[J].Computers & Geosciences,2005,31(2):119-133.

[5] VLAHOGIANNI E I,KARLAFTIS M G,GOLIAS J C.Optimized and Meta-optimized Neural Networks for Short-term Traffic Flow Prediction:A Genetic Approach[J].Transportation Research Part C:Emerging Technologies,2005,13(3):211-234.

[6] MIN Xinyu,HU Jianming,ZHANG Zuo.Urban Traffic Network Modeling and Short-term Traffic Flow Forecasting based on GSTARIMA Model[C]∥Proceedings of the 13th International IEEE Conference on Intelligent Transportation Systems (ITSC).Funchal,Portugal:IEEE,2010:1535-1540.

[7] WANG J,CHENG T,HEYDECKER B,et al.STARIMA for Journey Time Prediction in London[C]∥Proceedings of the 5th IMA Conference on Mathematics in Transport.London,UK:IMA,2010.

[8] DING Qingyan,WANG Xifu,ZHANG Xiuyuan,et al.Forecasting Traffic Volume with Space-time ARIMA Model[J].Advanced Materials Research,2011,156-157:979-983.

[9] ZOU Haixiang,YUE Yang,LI Qingquan,et al.An Improved Distance Metric for the Interpolation of Link-based Traffic Data Using Kriging:A Case Study of A Large-scale Urban Road Network[J].International Journal of Geographical Information Science,2012,26(4):667-689.

[10] WHITTAKER J,GARSIDE S,LINDVELD K.Tracking and Predicting A Network Traffic Process[J].International Journal of Forecasting,1997,13(1):51-61.

[11] STATHOPOULOS A,KARLAFTIS M G.A Multivariate State Space Approach for Urban Traffic Flow Modeling and Prediction[J].Transportation Research Part C:Emerging Technologies,2003,11(2):121-135.

[12] MIN Wanli,WYNTER L.Real-time Road Traffic Prediction with Spatio-temporal Correlations[J].Transportation Research Part C:Emerging Technologies,2011,19(4):606-616.

[13] CHENG Tao,HAWORTH J,WANG Jiaqiu.Spatio-temporal Autocorrelation of Road Network Data[J].Journal of Geographical Systems,2012,14(4):389-413.

[14] ZOU Haixiang,YUE Yang,LI Qingquan,2014.Explaining the Urban Traffic State from Road Network Structure and Spatial Variance:Empirical Approach Using Floating Car Data[C]∥Proceedings of the 93rd Transportation Research Record Annual Meeting.Washington D.C.,USA.

[15] JIANG Bin.Street Hierarchies:A Minority of Streets Account for A Majority of Traffic Flow[J].International Journal of Geographical Information Science,2009,23(8):1033-1048.

[16] LIU Xiliang,LU Feng,ZHANG Hengcai,et al.Intersection Delay Estimation from Floating Car Data Via Principal Curves:A Case Study on Beijing’s Road Network[J].Frontiers of Earth Science,2013,7(2):206-216.

[17] 段瀅瀅,陸鋒.基于道路結(jié)構(gòu)特征識(shí)別的城市交通狀態(tài)空間自相關(guān)分析[J].地球信息科學(xué)學(xué)報(bào),2012,14(6):768-774.

DUAN Yingying,LU Feng.Spatial Autocorrelation of Urban Road Traffic Based on Road Network Characterization[J].Journal of Geo-Information Science,2012,14(6):768-774.

[18] 劉康,段瀅瀅,陸鋒.基于拓?fù)渑c形態(tài)特征的城市道路交通狀態(tài)空間自相關(guān)分析[J].地球信息科學(xué)學(xué)報(bào),2014,16(3):390-395.

LIU Kang,DUAN Yingying,LU Feng.Spatial Autocorrelation Analysis of Urban Road Traffic Based on Topological and Geometric Properties[J].Journal of Geo-Information Science,2014,16(3):390-395.

[19] BENGIO Y,DUCHARME R,VINCENT P,et al.A Neural Probabilistic Language Model[J].Journal of Machine Learning Research,2003,3:1137-1155.

[20] MIKOLOV T,CHEN Kai,CORRADO G,et al.Efficient Estimation of Word Representations in Vector Space[C]∥Proceedings of Workshop at International Conference on Learning Representations.2013:1-12.

[21] DEERWESTER S,DUMAIS S T,F(xiàn)URNAS G W,et al.Indexing by Latent Semantic Analysis[J].Journal of the American Society for Information Science,1990,41(6):391-407.

[22] 仇培元,陸鋒,張恒才,等.蘊(yùn)含地理事件微博客消息的自動(dòng)識(shí)別方法[J].地球信息科學(xué)學(xué)報(bào),2016,18(7):886-893.

QIU Peiyuan,LU Feng,ZHANG Hengcai,et al.Automatic Identification Method of Micro-blog Messages Containing Geographical Events[J].Journal of Geo-Information Science,2016,18(7):886-893.

[23] PENNINGTON J,SOCHER R,MANNING C D.Glove:Global Vectors for Word Representation[C]∥Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP).Doha,Qatar:Association for Computational Linguistics,2014,14:1532-1543.

[24] RUMELHART D E,HINTON G E,WILLIAMS R J.Learning Representations by Back-propagating Errors[J].Nature,1986,323(6088):533-536.

[25] LIU Xiliang,LIU Kang,LI Mingxiao,et al.A ST-CRF Map-Matching Method for Low-frequency Floating Car Data[J].IEEE Transactions on Intelligent Transportation Systems,2017,18(5):1241-1254.

[26] SAKOE H,CHIBA S.Dynamic Programming Algorithm Optimization for Spoken Word Recognition[J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1978,26(1):43-49.

Measuring Traffic Correlations in Urban Road System Using Word Embedding Model

LIU Kang1,2,QIU Peiyuan1,LIU Xiliang1,ZHANG Hengcai1,WANG Shaohua1,LU Feng1,2,3

1. Institute of Geographic Sciences and Natural Resources Research,CAS,Beijing 100101,China; 2. University of Chinese Academy of Sciences,Beijing 100049,China; 3. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application,Nanjing 210023,China

Good characterization of road traffic correlations among urban roads can help improve the traffic-related applications,such as traffic interpolation and short-term traffic forecasting. Previous studies model the traffic correlations between two roads by their spatial or topological distances. However,the distance-based methods neglect the spatio-temporal heterogeneity of traffic influence among roads. In this paper,we integrate GPS-enabled vehicle operating travel routes and word embedding techniques in Natural Language Processing (NLP) domain to quantify traffic correlations of road segments in different time intervals. Firstly,the corresponding relationships between transportation elements (i.e.,road segments,travel routes) and NLP terms (i.e.,words,documents) are established. Secondly,the real-valued vectors of road segments are trained from massive travel routes using a word-embedding model called “Word2Vec”. Thirdly,the traffic correlation between two roads is measured by the cosine similarity of their vectors. Finally,the results are evaluated using real traffic condition data. Results of a case study using a large-scale taxi trajectory dataset in Beijing show that:①road segments that have stronger traffic correlations are also more similar in their traffic conditions measured by roads’ average travel speeds,proving that our approach is capable of quantifying road segment traffic correlations and detecting their spatial heterogeneity;②road segments’ traffic correlations are stronger on workday rush hours and holidays than on weekends and workday non-rush hours,proving that our approach is capable of detecting temporal variations. Our approach and analysis provide methodological and theoretical basis for transportation related applications using NLP and machine learning models.

traffic correlation;Word2Vec;travel routes;floating car data

The National Natural Science Foundation of China(No. 41631177);The National Key Research and Development Program (No. 2016YFB0502104);Key Project of the Chinese Academy of Sciences(No. ZDRW-ZS-2016-6-3)

LIU Kang(1991—),female, PhD candidate,majors in spatio-temporal data mining.

LU Feng

E-mail: luf@lreis.ac.cn

劉康,仇培元,劉希亮,等.利用詞向量模型分析城市道路交通空間相關(guān)性[J].測繪學(xué)報(bào),2017,46(12):2032-2040.

10.11947/j.AGCS.2017.20170166.

LIU Kang,QIU Peiyuan,LIU Xiliang,et al.Measuring Traffic Correlations in Urban Road System Using Word Embedding Model[J]. Acta Geodaetica et Cartographica Sinica,2017,46(12):2032-2040. DOI:10.11947/j.AGCS.2017.20170166.

P208

A

1001-1595(2017)12-2032-09

國家自然科學(xué)基金(41631177);國家重點(diǎn)研究發(fā)展項(xiàng)目(2016YFB0502104);中國科學(xué)院重點(diǎn)項(xiàng)目(ZDRW-ZS-2016-6-3)

宋啟凡)

2017-04-05

2017-11-08

劉康(1991—),女,博士生,研究方向?yàn)闀r(shí)空數(shù)據(jù)挖掘。

E-mail: liukang@lreis.ac.cn

陸鋒

猜你喜歡
工作日道路交通路段
冬奧車道都有哪些相關(guān)路段如何正確通行
《道路交通安全法》修改公開征求意見
商用汽車(2021年4期)2021-10-17 02:04:15
部、省、路段監(jiān)測運(yùn)維聯(lián)動(dòng)協(xié)同探討
A Survey of Evolutionary Algorithms for Multi-Objective Optimization Problems With Irregular Pareto Fronts
基于XGBOOST算法的擁堵路段短時(shí)交通流量預(yù)測
現(xiàn)代道路交通文化景觀探究與實(shí)踐
歡迎訂閱2017年《道路交通管理》雜志
汽車與安全(2017年5期)2017-07-20 10:58:34
歡迎訂閱2017 年《道路交通管理》雜志
汽車與安全(2017年3期)2017-04-26 01:25:29
對(duì)《資本論》中工作日問題的哲學(xué)思考
商(2012年14期)2013-01-07 07:46:16
鄭州局辦理業(yè)務(wù)全程提速
大关县| 搜索| 苗栗县| 皮山县| 抚远县| 历史| 荆州市| 桦甸市| 西和县| 团风县| 财经| 石城县| 蒙山县| 苗栗市| 赞皇县| 鞍山市| 郑州市| 青州市| 同仁县| 青龙| 昌黎县| 伊宁市| 柏乡县| 迁安市| 锦屏县| 洪雅县| 自贡市| 台前县| 平遥县| 江口县| 望城县| 安图县| 凯里市| 三门县| 称多县| 周宁县| 攀枝花市| 泽州县| 读书| 四子王旗| 炎陵县|