陳釗正,吳 聰
(1.江西省高速公路聯(lián)網(wǎng)管理中心,南昌330036;2.南京郵電大學(xué) 寬帶無(wú)線通信技術(shù)教育部工程研究中心,南京210003)
在不增加道路設(shè)施的條件下,準(zhǔn)確地把握路網(wǎng)交通狀態(tài),是制定高效的交通管理控制方案及合理出行方案的基礎(chǔ).交通狀態(tài)估計(jì)主要是通過(guò)描述交通流特性的交通流參數(shù)及其變化規(guī)律來(lái)反映交通流的運(yùn)行情況,傳統(tǒng)的單獨(dú)根據(jù)單一的交通流變量來(lái)判斷該路段的交通狀態(tài)不夠全面,不能完全地反映實(shí)際情況[1].例如,同樣交通流量很低,卻可以對(duì)應(yīng)擁擠或者暢通兩種狀態(tài);速度為零,可以對(duì)應(yīng)無(wú)車(chē)輛通過(guò)的暢通狀態(tài),或者堵死的擁擠狀態(tài);而且不同高速公路受道路幾何形狀、限速和駕駛員行為等影響,不同道路設(shè)定的估計(jì)參數(shù)應(yīng)有所不同[2].在交通流狀態(tài)的分類(lèi)過(guò)程中,對(duì)交通狀態(tài)的估計(jì)往往不是很精確的概念,而是擁擠,暢通等模糊概念[3].
隨著人工智能技術(shù)的發(fā)展與完善,為根據(jù)多變量的交通狀態(tài)估計(jì)算法提供了新思路和途徑[4-5].數(shù)據(jù)挖掘是在龐大而復(fù)雜的數(shù)據(jù)集中發(fā)現(xiàn)和提取先前未知、有效的模式及關(guān)系的過(guò)程[6-7],所提取的信息有助于建立一個(gè)分類(lèi)模型或者識(shí)別數(shù)據(jù)集中未知的趨勢(shì)和關(guān)系[8-9].
本文結(jié)合高速公路實(shí)測(cè)交通流數(shù)據(jù),利用模糊聚類(lèi)、K-means等算法對(duì)速度和流量的二維向量進(jìn)行聚類(lèi)分析,給出適合當(dāng)前高速公路特點(diǎn)的交通狀況劃分方法和關(guān)鍵參數(shù),比較準(zhǔn)確和全面地反映交通流的運(yùn)行情況.
聚類(lèi)分析是一種無(wú)監(jiān)督的學(xué)習(xí),依據(jù)樣本間關(guān)聯(lián)的量度標(biāo)準(zhǔn)將其自動(dòng)分為幾個(gè)群組.使得樣本的多維分量在同一群組內(nèi)相似,而在不同群組間相異[10].此相似性需要科學(xué)的度量和聚類(lèi)算法.劃分式聚類(lèi)算法對(duì)于大規(guī)模數(shù)據(jù)集的應(yīng)用占有優(yōu)勢(shì),經(jīng)典算法有K-means和模糊C均值算法(Fuzzy C-means,FCM)[11].
McQueen首次提出了K均值聚類(lèi)算法(K-means算法)[12],迄今為止,很多聚類(lèi)任務(wù)都選擇該經(jīng)典算法.這種聚類(lèi)技術(shù)可以十分有效地,快速、簡(jiǎn)單地處理大量數(shù)據(jù).采用歐幾里德距離計(jì)算,K-means聚類(lèi)方法目標(biāo)函數(shù)的表達(dá)式為
式中:K為數(shù)據(jù)中聚類(lèi)的數(shù)量;ni為簇i中點(diǎn)的數(shù)量;xj為第 j個(gè)觀察點(diǎn)向量;ci為簇i的質(zhì)心.
每次算法迭代,簇i的質(zhì)心計(jì)算方法為
K-means聚類(lèi)算法(對(duì)n個(gè)樣本進(jìn)行聚類(lèi))如下所示:
(1)初始化,隨機(jī)指定K個(gè)聚類(lèi)中心(c1,c2,…,cK);
(2)分配xj,對(duì)每一個(gè)樣本xj,找到離它最近的聚類(lèi)中心cw,并將其分配到cw所標(biāo)明類(lèi);
(3)修正cw,將每一個(gè)cw移動(dòng)到其標(biāo)明的類(lèi)的中心;
(4)計(jì)算偏差,,m為加權(quán)指數(shù),控制模式在模糊類(lèi)間的分享程度,本文取值為2;
(5)D收斂判斷,如果D值收斂,則return(c1,c2,…,cK)并終止本算法,否則,返回步驟(2).
基于目標(biāo)函數(shù),這個(gè)方法減少了到組內(nèi)觀測(cè)點(diǎn)的平均距離.并且,最終獲得事先指定好的聚類(lèi)個(gè)數(shù)及被指定屬于該聚類(lèi)的數(shù)據(jù)點(diǎn).
Dunn首次提出模糊C-means算法,Bezdek對(duì)其進(jìn)行了改進(jìn)[13].該算法受益于模糊邏輯的概念,每一個(gè)點(diǎn)不是完全屬于一個(gè)單一的聚類(lèi),而有一個(gè)介于0和1之間的隸屬聚類(lèi)群.算法的初始化方法和K-means方法類(lèi)似.然后,算法給聚類(lèi)里面的每個(gè)點(diǎn)隨機(jī)分配一個(gè)系數(shù).模糊C-means聚類(lèi)方法的目標(biāo)函數(shù)表達(dá)式為式中:uij為聚類(lèi)i中點(diǎn)的隸屬度vj;m為大于1的實(shí)數(shù);vj為d維分量的第j個(gè)觀察點(diǎn)向量.
下一步中,計(jì)算聚類(lèi)的質(zhì)心,每個(gè)點(diǎn)被重復(fù)分配系數(shù)直到?jīng)]有改進(jìn).模糊算法通過(guò)上面提到的等式迭代計(jì)算而被管理.迭代過(guò)程中不停地更新隸屬度uij和質(zhì)心ci,如式(4)和式(5)所示.
這個(gè)迭代算法移植持續(xù)到
式中:ε是最終標(biāo)準(zhǔn)在0和1之間;p是迭代步數(shù).
多變量聚類(lèi)分析的高速公路交通流狀態(tài)實(shí)時(shí)評(píng)估方法流程如圖1所示,分為離線訓(xùn)練和實(shí)時(shí)估計(jì)兩個(gè)部分.
首先,對(duì)歷史交通流數(shù)據(jù)進(jìn)行離線模型訓(xùn)練.以該道路上采集的交通流數(shù)據(jù)為基礎(chǔ),選取合適的特征數(shù)據(jù)(流量、速度、占有率等參數(shù)),對(duì)這些數(shù)據(jù)進(jìn)行聚類(lèi)分析,運(yùn)用模糊聚類(lèi)、K-means等算法,找出該道路的不同交通狀態(tài)各自的特點(diǎn)和分類(lèi)方法,使得特征數(shù)據(jù)在同一種交通狀態(tài)下具有一定的相似性和不同狀態(tài)之間具有相異性.
其次,對(duì)采集到的實(shí)時(shí)交通流數(shù)據(jù)進(jìn)行估計(jì).將從實(shí)時(shí)交通流數(shù)據(jù)提取的特征數(shù)據(jù)和上述聚類(lèi)分析的交通狀態(tài)聯(lián)系起來(lái),利用模式識(shí)別的方法,將樣本數(shù)據(jù)和聚類(lèi)中心進(jìn)行比較,通過(guò)交通狀態(tài)隸屬度矩陣進(jìn)行運(yùn)算,即可估計(jì)相應(yīng)時(shí)刻該道路所屬的交通狀態(tài).
圖1 交通流狀態(tài)實(shí)時(shí)評(píng)估方法流程Fig.1 Flow status real-time evaluation method flow chart
數(shù)據(jù)來(lái)源于美國(guó)加州公路局的PeMS系統(tǒng),選取地點(diǎn)為美國(guó)加州洛杉磯市周?chē)母咚俟罚鐖D2所示.時(shí)間從2013年3月4~17日,選取其中78個(gè)車(chē)輛檢測(cè)器(Vehicle Detection System,VDS),實(shí)時(shí)采集的30 s時(shí)間間隔的環(huán)形線圈檢測(cè)數(shù)據(jù),經(jīng)過(guò)PeMS系統(tǒng)整合得到的間隔為5 min的連續(xù)數(shù)據(jù),包含流量、車(chē)速、占有率等,每個(gè)采集點(diǎn)共4 032條數(shù)據(jù)記錄,包含車(chē)流高峰與空閑時(shí)刻,以及工作日與周末.
對(duì)數(shù)據(jù)采集點(diǎn)VDS 718421(圖2圓圈標(biāo)注點(diǎn))1周不同時(shí)間和工作日的平均交通流情況作圖,闡述宏觀交通流的3個(gè)重要參數(shù):每5 min的車(chē)流量、平均車(chē)速和占有率的數(shù)據(jù)曲線,如圖3~圖5所示.由圖可知,高速公路上最小和最大的流量分別在3:00、9:00左右,最小和最大的速度分別發(fā)生在18:00、23:00左右,而最小和最大的密度分別在2:00、18:00左右.正如圖3~圖5所示,交通流在每天不同時(shí)段發(fā)生改變(峰值和谷值),有著不同的特征,包括堵塞、正常、通暢,此數(shù)據(jù)比較全面、適合地對(duì)交通流狀態(tài)進(jìn)行分類(lèi).
圖2 選取的數(shù)據(jù)檢測(cè)點(diǎn)Fig.2 Selected data detection points
圖3 VDS 718421的車(chē)流量數(shù)據(jù)Fig.3 Vehicle flow data of VDS 718421
圖4 VDS 718421的平均車(chē)速數(shù)據(jù)Fig.4 Average speed data of VDS 718421
圖5 VDS 718421的占有率數(shù)據(jù)Fig.5 VDS 718421 occupancy data
本文系統(tǒng)中選取每5 min的流量、平均速度作為特征變量,運(yùn)用K-means和FCM算法進(jìn)行聚類(lèi)分析.根據(jù)PeMS分類(lèi)級(jí)別,將高速公路路段的交通狀態(tài)劃分為7個(gè)層次,Ⅰ~Ⅶ分別對(duì)應(yīng)的交通狀態(tài)為:暢通、較通暢、平穩(wěn)、較平穩(wěn)、較擁擠、擁擠、阻塞.此類(lèi)劃分按照車(chē)流量和車(chē)速的變化為基準(zhǔn),前4個(gè)狀態(tài):暢通、較通暢、平穩(wěn)、較平穩(wěn)為車(chē)速平穩(wěn),車(chē)流量逐步增加;后3個(gè)狀態(tài):較擁擠、擁擠、阻塞為車(chē)流量較平穩(wěn),車(chē)速逐步下降.此分類(lèi)模式乃根據(jù)PeMS分類(lèi)級(jí)別和高速公路日常管理應(yīng)急模式給出.選擇數(shù)據(jù)采集點(diǎn)VDS 718421、VDS 773258和VDS 763458,如圖2中圓圈標(biāo)注,數(shù)據(jù)包含了欠飽和與過(guò)飽和的交通流狀態(tài),如圖6所示.
變量標(biāo)準(zhǔn)化后,圖6中(a)、(c)和(e)為用K-means算法將數(shù)據(jù)進(jìn)行聚類(lèi)分析;圖6中(b)、(d)和(f)是FCM聚類(lèi)方法輸出的結(jié)果.從速度—流量圖中可以看出,K-means算法,在自由流區(qū)域(流量較小、車(chē)速較快)中,劃分為4~5個(gè)類(lèi)別,而在擁擠流區(qū)域(流量較大、車(chē)速較低)和同步流區(qū)域(介于自由流與擁擠流之間)時(shí)劃分較粗;FCM算法在自由流區(qū)域、同步流區(qū)域、擁擠流區(qū)域中,各分為2~3個(gè)類(lèi)別,重點(diǎn)關(guān)注同步流與擁擠流狀態(tài)的分類(lèi)及變化,在流量和速度的尺度上類(lèi)別的劃分較均勻,較為合理.每個(gè)數(shù)據(jù)采集點(diǎn)聚類(lèi)分析的各類(lèi)別(Ⅰ~Ⅶ)的流量—速度取值范圍及質(zhì)心如表1~表3所示.
從圖6、表1~表3中的速度—流量關(guān)系中可以看出,若采取單一指標(biāo)流量進(jìn)行分類(lèi),不能區(qū)分同步流和擁擠流,即在流量較大時(shí)不能判別道路是否處于擁堵;若采取單一指標(biāo)速度進(jìn)行分類(lèi),同樣的平均車(chē)速可能處于不同流區(qū)域,無(wú)法判斷車(chē)流量的變化,對(duì)車(chē)道剩余容量及后續(xù)控制都不能提供有效信息.
同時(shí),從速度—流量關(guān)系中,可以發(fā)現(xiàn),圖6、表1~表3中3個(gè)數(shù)據(jù)采集點(diǎn)流量、速度的變量數(shù)值分布和范圍也不同,受道路駕駛條件影響,不同道路設(shè)定的估計(jì)參數(shù)應(yīng)有所不同.而采用聚類(lèi)分析的方法可以不用設(shè)置估計(jì)參數(shù),分析中發(fā)現(xiàn)各采集點(diǎn)變量數(shù)據(jù)的分布及特點(diǎn),進(jìn)行狀態(tài)劃分.
圖6 聚類(lèi)結(jié)果對(duì)比Fig.6 Comparison of clustering results
表1 VDS 718421各類(lèi)別流量—速度取值范圍及質(zhì)心Table 1 VDS 718421 all kinds of flow—speed range and center of mass
表2 VDS 773258各類(lèi)別流量—速度取值范圍及質(zhì)心Table 2 VDS 773258 all kinds of flow—speed range and center of mass
表3 VDS 763458各類(lèi)別流量—速度取值范圍及質(zhì)心Table 3 VDS 763458 all kinds of flow—speed range and center of mass
根據(jù)各數(shù)據(jù)采集點(diǎn)的占有率數(shù)據(jù)及FCM相應(yīng)的級(jí)別(Ⅰ~Ⅶ),統(tǒng)計(jì)聚類(lèi)后的占有率頻率圖,如圖7所示,不同類(lèi)別的占有率分布各有不同,自由流區(qū)域的占有率主要分布在0.00~0.08,擁擠流主要分布在0.10以上.不同類(lèi)別之間有一小部分重疊,重疊的主要原因是聚類(lèi)的計(jì)算是基于流量和速度的.
圖7 FCM結(jié)果中各類(lèi)別的占有率分布Fig.7 FCM results in various other share distribution
上述估計(jì)等級(jí)根據(jù)速度—流量圖分為7個(gè)級(jí)別(Ⅰ~Ⅶ),反映了交通流的變化及特點(diǎn).而在實(shí)際應(yīng)用中,若只對(duì)道路情況進(jìn)行宏觀了解,可減少估計(jì)等級(jí),使得估計(jì)結(jié)果更易理解,簡(jiǎn)明扼要.
根據(jù)三相交通流理論的自由流、同步流和擁擠流區(qū)域劃分,將交通流狀態(tài)等級(jí)簡(jiǎn)化為3個(gè)等級(jí):A暢通,平均車(chē)速高、車(chē)流量和占有率低;B平穩(wěn),平均車(chē)速、車(chē)流量和占有率均高;C擁堵,平均車(chē)速低、車(chē)流量和占有率高.各數(shù)據(jù)采集點(diǎn)的FCM算法聚類(lèi)結(jié)果和占有率分布如圖8所示.
圖8 聚類(lèi)結(jié)果與占有率分布Fig.8 Clustering results and share distribution
從圖6和圖8對(duì)比中可以看出:A等級(jí)主要分布在Ⅰ和Ⅱ類(lèi)別中,B等級(jí)主要分布在Ⅲ~Ⅴ類(lèi)別中,C等級(jí)主要分布在Ⅵ和Ⅶ類(lèi)別中;每個(gè)等級(jí)的占有率分布各有不同,取值范圍存在一些交叉.各等級(jí)的流量—速度取值范圍及質(zhì)心如表4所示,對(duì)比可以看出,分類(lèi)的結(jié)果較為合理,簡(jiǎn)明扼要.
表4 各類(lèi)別流量—速度取值范圍及質(zhì)心Table 4 Different flow rate—speed range and center of mass
本文建立了多變量聚類(lèi)分析的高速公路交通流狀態(tài)實(shí)時(shí)評(píng)估方法,構(gòu)建相應(yīng)的系統(tǒng)評(píng)估系統(tǒng),系統(tǒng)配置為CPU i5 3.1GHz,內(nèi)存8GB.本文重點(diǎn)在于調(diào)整K值,結(jié)合高速公路管理實(shí)際情況,重點(diǎn)關(guān)注車(chē)流量和平均車(chē)速,本文給出的3個(gè)檢測(cè)器,只是選取了3個(gè)代表作為示例,對(duì)于每個(gè)路段的交通容量和狀態(tài)劃分都要根據(jù)各自的道路類(lèi)型(主次干道)、車(chē)道數(shù)及類(lèi)型、位置(是否靠近路口)、施工情況、社會(huì)需求等因素變化,未采取統(tǒng)一的粗糙標(biāo)準(zhǔn)(例如單變量判別法),每個(gè)路段的狀態(tài)劃分都由數(shù)據(jù)規(guī)律驅(qū)動(dòng)產(chǎn)生,結(jié)合高速公路實(shí)際管理需求將7種交通狀態(tài)合理優(yōu)化為3種:暢通、平穩(wěn)和擁堵.結(jié)合采集點(diǎn)VDS718421的采集原始數(shù)據(jù),如圖9所示.其3類(lèi)交通狀態(tài)分類(lèi)百分比和數(shù)量如表5所示.
圖9 VDS718421車(chē)流量與車(chē)速對(duì)比圖Fig.9 Comparison of vehicle flow and speed of VDS718421
表5 交通狀態(tài)分類(lèi)百分比和數(shù)量Table 5 Flow status percentage and amount
根據(jù)VDS718421原始數(shù)據(jù)車(chē)流量與車(chē)速的對(duì)比結(jié)果,對(duì)照高速公路日常管理模式而言,其暢通狀態(tài)所占比率在30%~45%,其平穩(wěn)狀態(tài)在45%~55%,其擁堵?tīng)顟B(tài)在15%~10%.形成測(cè)試表明全面有效.與國(guó)內(nèi)外態(tài)勢(shì)相關(guān)系統(tǒng)相比,雖然單指標(biāo)不能全面客觀地反映該路段的交通狀態(tài),但是在大部分情況下已經(jīng)能夠滿足實(shí)際需求,進(jìn)一步需研究如何在普通交通信息服務(wù)和專(zhuān)業(yè)交通控制管理中,實(shí)現(xiàn)基于單指標(biāo)和多指標(biāo)的交通狀態(tài)估計(jì)方法的有效結(jié)合.
[1]施俊慶,李志強(qiáng),李素蘭,等.考慮雙向交通的城市路網(wǎng)交通流元胞自動(dòng)機(jī)模型[J].交通運(yùn)輸系統(tǒng)工程與信息,2017,17(2):90-96.[SHI J Q,LI Z Q,LI S L,et al.A cellular automaton model of urban road network considering bidirectional traffic[J]. Journal of Transportation Systems Engineering and Information Technology,2017,17(2):90-96.]
[2]李穎宏,潘佳琪.基于Optima的實(shí)時(shí)在線交通流預(yù)測(cè)方法研究[J].交通運(yùn)輸系統(tǒng)工程與信息,2017,17(2):119-125.[LI Y H,PAN J Q.Real-time and online traffic flow prediction based on optima method[J].Journal of Transportation Systems Engineering and Information Technology,2017,17(2):119-125.]
[3]李林超,何賞璐,張健.時(shí)空因素影響下在線短時(shí)交通量預(yù)測(cè)[J].交通運(yùn)輸系統(tǒng)工程與信息,2016,16(5):165-171.[LI L C,HE S L,ZHANG J.Online shortterm traffic flow prediction considering the impact of temporal-spatial features[J].Journal of Transportation Systems Engineering and Information Technology,2016,16(5):165-171.]
[4]XIA J,CHEN M.Defining traffic flow phases using intelligenttransportation systemsgenerated data[J].Journal of Intelligent Transportation Systems,2007,11(1):15-24.
[5]XIA J,CHEN M.A nested clustering technique for freeway operating condition classification[J].Computer-Aided Civil and Infrastructure Engineering,2007,22(6):430-437.
[6]SUN L,ZHOU J.Development of multiregime speeddensity relationships by cluster analysis[J].Transportation Research Record:Journal of the Transportation Research Board,2005,1934(1):64-71.
[7]YANG H,QIAO F.Neural network approach to classification oftraffic flow states[J].Journalof Transportation Engineering,1998,124(6):521-525.
[8]OH C,TOK A,RITCHIE S G.Real-time freeway level of service using inductive-signature-based vehicle reidentification system[J].IntelligentTransportation Systems,IEEE Transactions on,2005,6(2):138-146.
[9]PARK B B.Hybrid neuro-fuzzy application in shortterm freeway traffic volume forecasting[J].Transportation Research Record:Journal of the Transportation Research Board,2002,1802(1):190-196.
[10]孫吉貴,劉杰,趙連宇.聚類(lèi)算法研究[J].軟件學(xué)報(bào),2008,19(1):48-61.[SUN J G,LIU J,ZHAO L Y.Clustering algorithms research[J].Journal of Software,2008,19(1):48-61.]
[11]AZIMIM,ZHANG Y.Categorizingfreewayflow conditions by using clustering methods[J].Transportation Research Record:Journal of the Transportation Research Board,2010,2173(1):105-114.
[12]HASTIE T,TIBSHIRANI R,FRIEDMAN J,et al.The elements of statistical learning:data mining,inference and prediction[J]. The MathematicalIntelligencer,2005,27(2):83-85.
[13]BARALDI A,BLONDA P.A survey of fuzzy clustering algorithms for pattern recognition[J].Systems,Man,and Cybernetics,Part B:Cybernetics,IEEE Transactions on,1999,29(6):778-785.