丁巖 楊萬祥 汪清 楊樂 胡曉
【摘 要】近幾年來,由于智能卡口設(shè)備的廣泛部署,全國(guó)各地都積累了海量的車牌識(shí)別數(shù)據(jù),這些數(shù)據(jù)為智慧城市分析提供了有力保障。車輛特征的分析,可以為城市交通、城市犯罪和城市治理等方面做出決策依據(jù)。因此,本文根據(jù)車牌識(shí)別數(shù)據(jù),采用數(shù)據(jù)挖掘k-means聚類分析方法,分析路網(wǎng)中的車輛行為特征,對(duì)車輛行為進(jìn)行時(shí)空刻畫。分析發(fā)現(xiàn),一般情況下,地域、時(shí)間和車輛屬性共同決定了部分車輛的行駛規(guī)律。除此之外,攝像頭的安裝位置也會(huì)對(duì)卡口記錄的數(shù)據(jù)產(chǎn)生極大影響,攝像頭區(qū)域設(shè)有停車區(qū)域,極其容易造成車輛停滯車輛產(chǎn)生很多重復(fù)數(shù)據(jù)的情況。更多的情況,家庭用通勤車在工作日表現(xiàn)出很明顯的早出晚歸特征,并且只在早晚高峰出現(xiàn)行車記錄,且軌跡固定,車輛活動(dòng)具有區(qū)域性。研究結(jié)果表明,從車輛的角度解析城市交通,從交通的角度剖析城市發(fā)展,對(duì)智慧城市,智慧交通的研究和政策制定具有重大意義。
【關(guān)鍵詞】車牌識(shí)別數(shù)據(jù);數(shù)據(jù)挖掘;行駛規(guī)律;城市交通
中圖分類號(hào): TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 2095-2457(2019)28-0004-004
DOI:10.19694/j.cnki.issn2095-2457.2019.28.002
【Abstract】Recently, large number of license plate recognition data have been accumulated throughout the country due to the extensive deployment of intelligent card port equipment. These data provide a powerful guarantee for the analysis of intelligent cities.The analysis of vehicle characteristics can provide decision-making basis for urban traffic, urban crime and urban governance. Therefore, according to the license plate recognition data, this paper uses the data mining K-means clustering analysis method to analyze the vehicle behavior characteristics in the road network, and describes the time and space of the vehicle behavior. The analysis shows that in general, the driving rules of some vehicles are decided by region, time and vehicle attributes.In addition, the installation position of the camera will have a great impact on the data of the recording of the card. The camera area has a parking area, which is extremely easy to cause a lot of duplication of data in the vehicle stagnant vehicle. More and more, the home use commuter car shows a clear feature of early arrival and evening return in the working day, and only in the morning and evening peak running record, and the track is fixed, the vehicle activity is regional. The research results show that the analysis of urban traffic from the angle of vehicles and the analysis of urban development from the perspective of traffic is of great significance to the research and policy making of intelligent cities, intelligent traffic.
【Key words】License Plate Recognition Data; Data Mining; Driving Rules; Urban Traffic
0 引言
近年來,隨著人民生活水平的穩(wěn)步提升,汽車已經(jīng)成為生活中不可或缺的交通工具,隨之而來,機(jī)動(dòng)車的數(shù)量也逐年遞增。據(jù)統(tǒng)計(jì),截止2017年底,我國(guó)機(jī)動(dòng)車保有量達(dá)3.10億輛。2017年在公安交通管理部門新注冊(cè)登記的機(jī)動(dòng)車3352萬輛,其中新注冊(cè)登記汽車2813萬輛,均創(chuàng)歷史新高[1]。與此同時(shí),經(jīng)過多年信息化建設(shè)的推進(jìn)和大數(shù)據(jù)云計(jì)算人工智能技術(shù)的不斷完善,公安道路監(jiān)控系統(tǒng)建設(shè)得到了長(zhǎng)足進(jìn)步,越來越多的城市路口、高速檢查站和橋梁隧道都部署了監(jiān)控?cái)z像頭,每輛機(jī)動(dòng)車上也都安裝了全球定位系統(tǒng)或者行車記錄儀[2]。在這些設(shè)備的幫助下,車輛的行駛行為被記錄下來,公安信息化部門也都搭建了一體化的大數(shù)據(jù)平臺(tái),以供交通大數(shù)據(jù)存儲(chǔ)和查詢分析?;谶@些數(shù)據(jù),人們可以對(duì)車輛軌跡進(jìn)行研究,監(jiān)控道路交通情況,檢測(cè)異常車輛行為[3-4]。與此同時(shí),生產(chǎn)研究工作也在逐步推進(jìn)。目前投入使用的分析系統(tǒng)基本都是以基于記錄的數(shù)據(jù)比對(duì),查詢碰撞來完成相關(guān)任務(wù)。除此之外,很多學(xué)者也根據(jù)車輛軌跡的時(shí)空信息進(jìn)行了特定車輛的研究,如出租車載客地點(diǎn)分析、城市交通擁堵預(yù)測(cè)等[5]。這些工作對(duì)城市交通安全,打擊犯罪和恐怖主義活動(dòng)有著重要的意義。
卡口數(shù)據(jù)是使用車牌識(shí)別技術(shù)后的二次結(jié)構(gòu)化數(shù)據(jù),可以監(jiān)控所有道路車輛的行駛記錄,獲取數(shù)據(jù)容易,且部署和維護(hù)成本低廉。本文針對(duì)卡口數(shù)據(jù),基于數(shù)據(jù)挖掘技術(shù),建立車輛行駛軌跡流程,對(duì)海量卡口數(shù)據(jù)進(jìn)行了分析和梳理,建立車輛分析特征體系。特別的,我們針對(duì)提取的車輛軌跡特征,結(jié)合無監(jiān)督學(xué)習(xí)算法K-means對(duì)車輛進(jìn)行聚類分析。通過指標(biāo)體系分析發(fā)現(xiàn),一般情況下,地域、時(shí)間和車輛屬性共同決定了部分車輛的行駛規(guī)律。除此之外,攝像頭的安裝位置也會(huì)對(duì)卡口記錄的數(shù)據(jù)產(chǎn)生極大影響,攝像頭區(qū)域設(shè)有停車區(qū)域,極其容易造成車輛停滯車輛產(chǎn)生很多重復(fù)數(shù)據(jù)的情況。更多的情況,家庭用車在工作日表現(xiàn)出很明顯的早出晚歸特征,并且只在早晚高峰出現(xiàn)行車記錄,且軌跡固定,車輛活動(dòng)具有區(qū)域性。
1 相關(guān)工作
目前,車輛行為分析的研究工作層出不窮。得益于深度學(xué)習(xí)技術(shù)的飛速發(fā)展,大量的研究直接利用視頻圖像技術(shù)識(shí)別車輛行為,以此來分析車輛在監(jiān)控區(qū)域內(nèi)的短期行為模式。例如,監(jiān)控區(qū)域的車輛違章行為或者檢測(cè)高速道路上的行人等潛在危險(xiǎn)目標(biāo)[6]。也有針對(duì)公共安全領(lǐng)域,研究車輛在重點(diǎn)區(qū)域的異常行為檢測(cè)[5]。另一方面,得益于全球定位系統(tǒng)(GPS)的發(fā)展,車輛行駛軌跡分析技術(shù)通過對(duì)海量車輛軌跡和時(shí)間序列的分析,進(jìn)行預(yù)測(cè)城市交通、出租車載客優(yōu)先選擇點(diǎn)、車輛超速異常行為監(jiān)測(cè)(超速,逆行等)和城市尾氣污染等工作[7]。面對(duì)道路卡口數(shù)據(jù),研究者們主要通過分析性查詢來識(shí)別伴隨車、套牌車和軌跡預(yù)測(cè)等任務(wù)[8-11]。然而,大量的研究工作只是研究了特定數(shù)據(jù)的分析工作,缺少推廣作用。一方面,基于視頻圖像的分析技術(shù),只能針對(duì)監(jiān)控區(qū)域額進(jìn)行分析判斷,無法分析車輛的長(zhǎng)期行為特征。再者,基于神經(jīng)網(wǎng)絡(luò)的圖像分析算法時(shí)間復(fù)雜度高,很難快速檢測(cè)車輛行為,目前還無法做到海量視頻的大規(guī)??焖贆z測(cè)。另一方面,基于GPS數(shù)據(jù)的研究工作必須采取車載GPS記錄數(shù)據(jù)檢測(cè),設(shè)備成本高昂,同時(shí)還要考慮數(shù)據(jù)的遠(yuǎn)程傳輸成本,不符合現(xiàn)階段公共安全領(lǐng)域車輛監(jiān)控的實(shí)際情況。面對(duì)海量卡口數(shù)據(jù),目前的分析型任務(wù)主要是基于數(shù)據(jù)比對(duì)等方法實(shí)現(xiàn)或者特定任務(wù)制定,很少有對(duì)卡口數(shù)據(jù)的綜合分析和實(shí)證。其他的,針對(duì)車輛卡口數(shù)據(jù),研究者們還針對(duì)性地進(jìn)行了車輛分析,例如識(shí)別和提取危險(xiǎn)化學(xué)品車輛,對(duì)車輛進(jìn)行行車軌跡和行車時(shí)間預(yù)測(cè)[12-17]。
2 模型及方法
交通卡口系統(tǒng)通過車牌識(shí)別(車牌號(hào)碼,車牌顏色)等信息進(jìn)行二次分析,形成結(jié)構(gòu)化數(shù)據(jù),每個(gè)記錄包含車輛車牌號(hào)碼、車牌顏色、抓拍時(shí)間,卡口編號(hào)等主要信息。我們首先根據(jù)車牌編排規(guī)則,過濾了特定車牌的特殊車輛,如軍車,警車或者大使館車輛,例如車牌以“WJ”開頭的特殊車牌車輛等。由于隱私保護(hù),在保證車牌唯一性的前提下。
我們使用hash函數(shù)對(duì)過濾后的車牌號(hào)碼信息進(jìn)行了加密模糊。
根據(jù)卡口數(shù)據(jù)特點(diǎn)[14],車輛的軌跡可用一個(gè)時(shí)序順序的軌跡點(diǎn)集合表示Pathj={p1,p2…pn},其中pi表示該車輛在第i時(shí)刻的抓拍卡口位置,j表示車輛j,j為標(biāo)注車輛的唯一編號(hào)。根據(jù)實(shí)際情況,車輛的行駛一般不會(huì)具有持續(xù)性,往往會(huì)發(fā)生停車等情況。因此,我們將整個(gè)軌跡集合切分為多個(gè)子軌跡的集合PathSetj={S1,S2…Sm},以此來表示車輛的行駛記錄,每個(gè)子軌跡Sh代表車輛的一個(gè)獨(dú)立行程。我們規(guī)定,如果兩個(gè)相鄰記錄的間隔時(shí)間大于一個(gè)閥值T,則將這條軌跡切段,前一個(gè)點(diǎn)為上一條軌跡的終點(diǎn),后一個(gè)點(diǎn)為下一條軌跡的起始點(diǎn)。如圖1是車輛的軌跡切分過程示例。
正常模式概率(normal pattern):定義車輛以天為單位的軌跡相似概率。
軌跡循環(huán)概率(trip cycle):車輛軌跡之間的最長(zhǎng)公共序列的比例。
最高卡口頻次(max frequency):定義車輛最常經(jīng)過的卡口為p,則最高卡口頻次表示為經(jīng)過該卡口的總次數(shù)。
以上特征再與每天起始點(diǎn)是否主城區(qū),每天終點(diǎn)是否主城區(qū)、是否是本地車和平均每天軌跡點(diǎn)數(shù)量等4個(gè)特征組合形成21個(gè)特征體系(軌跡段閾值時(shí)間為30min)。
3 實(shí)驗(yàn)及結(jié)果分析
與某市相關(guān)部門合作,我們提取了該市實(shí)際運(yùn)行的卡口數(shù)據(jù)系統(tǒng)中從2017年11月中完整三周的數(shù)據(jù)。該市的卡口系統(tǒng)一共包括1507個(gè)卡口,我們截取了2017年11月6日至2017年11月26日完整三周的數(shù)據(jù)記錄,其中記錄車輛為10783380輛,本地車4204556輛。本地車根據(jù)車牌顏色統(tǒng)計(jì),藍(lán)色車牌為3664300輛,黃色車牌為326048輛,白色車牌為24845輛,黑色車牌為17854輛。由于車牌號(hào)碼和車牌顏色為車輛的唯一標(biāo)示,經(jīng)過數(shù)據(jù)清理,首先清洗了車牌號(hào)碼不完整的車輛34500輛,清洗車牌顏色記錄不正確的車輛,清洗后剩余車輛總數(shù)為8685600輛。
本文首先使用提取的特征集合構(gòu)造分析集合,使用無監(jiān)督學(xué)習(xí)算法K-means對(duì)整體數(shù)據(jù)進(jìn)行聚類分析。通過分析,我們將全部車輛聚類后分為18類[18-19],如圖2所示。
車輛的行駛行為受到駕駛目的的直接影響,通過分析發(fā)現(xiàn),有一類車輛的活動(dòng)只活躍于高速公路檢查站或者臨近市區(qū)的郊區(qū)道路,且郊區(qū)道路皆屬于高速公路卡口記錄,如圖3所示為該類車輛通過卡口記錄的分布。該類車輛中,包含本地車數(shù)量為1133740輛,其余均為外地車輛。不難發(fā)現(xiàn),該類車輛主要為過境車輛,且外地車輛居多。這類車鮮少進(jìn)入主城區(qū),只在高速通過,可歸類為過境車輛。
城市車輛的用途大多為市民的上班通勤車,通過聚類分析,我們發(fā)現(xiàn)通勤車的駕駛行為表現(xiàn)因人而異。如圖4所示,結(jié)果中第3類通勤車的主要特征表現(xiàn)為出行行為集中分布在早6:00至9:00,晚18:00至21:00。在早晚高峰階段,其中大于50%的通勤車輛主要分布在主城區(qū)核心區(qū)域(城市中心區(qū)域)和新興高新科技區(qū)域(雨花區(qū)軟件谷),江北新區(qū)的通勤車輛較少。但經(jīng)過細(xì)致分析,江北新區(qū)的車輛有其獨(dú)特的晝伏夜行出行特征,即該區(qū)域車輛表現(xiàn)為凌晨夜間活動(dòng)較多,但白天鮮少活動(dòng),如圖5所示。另一方面,由于住家與工作單位的地理位置十分接近,一類車輛軌跡記錄點(diǎn)較少,但特定是在其最高卡口頻次指標(biāo)上,這類通勤車的最高卡口頻次是一般通勤車的2倍??梢姡@類通勤表現(xiàn)為近距離、中心化的早出晚歸通勤車特征。在城際高速公路出入口,通勤車的比例較小,幾乎沒有通勤車通過。
另外,由聚類結(jié)果知,有兩輛車分別單獨(dú)處于一類。經(jīng)過分析,其最高卡口頻次分別為4574和9240次,這兩輛車為停車位置位于卡口拍照區(qū)域,每次有車路過,他們就會(huì)被記錄一次。因此可見,攝像頭的安裝位置也會(huì)對(duì)卡口記錄的數(shù)據(jù)產(chǎn)生極大影響。
通勤交通車的管理對(duì)城市交通治理政策的出臺(tái)非常關(guān)鍵,直接關(guān)系著城市交通資源的配置和平衡,交通擁堵的緩解,對(duì)是否出臺(tái)機(jī)動(dòng)車限行限牌等措施的推行有很強(qiáng)的指導(dǎo)作用。因此,通勤交通車的分析可以對(duì)交通政策精細(xì)化實(shí)施提供有效的指導(dǎo)。
4 結(jié)束語
得益于電子卡口設(shè)備的廣泛部署,海量車牌識(shí)別數(shù)據(jù)的分析能幫助我們更全面地了解車輛的行為特征與身份標(biāo)識(shí),為分析車輛出行行為和城市智慧發(fā)展提供了有力保障。因此,本文在該市車牌卡口數(shù)據(jù)的基礎(chǔ)上,基于數(shù)據(jù)挖掘技術(shù),建立車輛行駛軌跡流程,對(duì)海量卡口數(shù)據(jù)進(jìn)行了分析和梳理,建立車輛分析特征體系。特別的,我們針對(duì)提取的車輛軌跡特征,結(jié)合無監(jiān)督學(xué)習(xí)算法K-means對(duì)車輛進(jìn)行聚類分析。通過指標(biāo)體系分析發(fā)現(xiàn),一般情況下,地域、時(shí)間和車輛屬性共同決定了部分車輛的行駛規(guī)律。除此之外,攝像頭的安裝位置也會(huì)對(duì)卡口記錄的數(shù)據(jù)產(chǎn)生極大影響,攝像頭區(qū)域設(shè)有停車區(qū)域,極其容易造成車輛停滯車輛產(chǎn)生很多重復(fù)數(shù)據(jù)的情況。更多的情況,通勤車在工作日表現(xiàn)出很明顯的早出晚歸特征,并且只在早晚高峰出現(xiàn)行車記錄,且軌跡固定,車輛活動(dòng)具有區(qū)域性。車輛的時(shí)空特性分布是城市智慧化運(yùn)營(yíng)的重要指標(biāo)之一,在未來的研究中,我們還將深化車輛行為分析,建立更完善的車輛畫像體系,探索道路路網(wǎng)的流量結(jié)構(gòu),研究城市機(jī)動(dòng)車行為的預(yù)測(cè)算法,從車輛的角度解析城市交通,從交通的角度剖析城市發(fā)展,對(duì)智慧城市,智慧交通的研究和政策制定具有重大意義。
【參考文獻(xiàn)】
[1]喬永鋒.汽車行業(yè)正邁入新時(shí)代[J].中國(guó)汽配市場(chǎng),2017(06):10.
[2]楊健,顧濤.公安視頻專網(wǎng)安全管理系統(tǒng)的設(shè)計(jì)與研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2017(3):154-155.
[3]黃衛(wèi).道路視頻監(jiān)控中的車牌自動(dòng)識(shí)別算法分析[J].電子技術(shù)與軟件工程,2017(16):79-79.
[4]馬春香.基于海思平臺(tái)的智能視頻車牌識(shí)別算法[D].杭州電子科技大學(xué),2012.
[5]Ma X,Koutsopoulos H N.A New Online Travel Time Estimation Approach using Distorted Automatic Vehicle Identification Data[C].International IEEE Conference on Intelligent Transportation Systems. IEEE, 2008:204-209.
[6]邱凌赟,韓軍,顧明.車道模型的高速公路車輛異常行為檢測(cè)方法[J].計(jì)算機(jī)應(yīng)用,2014,34(5):1378-1382.
[7]吳子珺,于重重,孫利民,等.一種針對(duì)特定車輛潛在群體的行駛軌跡預(yù)測(cè)方法[J].計(jì)算機(jī)應(yīng)用研究,2014,31(7):1951-1955.
[8]暢玉皎,楊東援.基于車牌照數(shù)據(jù)的通勤特征車輛識(shí)別研究[J].交通運(yùn)輸系統(tǒng)工程與信息,2016,16(2):77-82.
[9]郭昕,陳川.基于車牌識(shí)別數(shù)據(jù)的車輛使用特征研究:以上海市快速路非滬車牌識(shí)別數(shù)據(jù)為例[J].綜合運(yùn)輸,2016(1):77-84.
[10]韓國(guó)華,蔣雨薇,丘建棟,等.基于車牌識(shí)別數(shù)據(jù)的出行特征研究[J].黑龍江交通科技,2017,40(9):213-214.
[11]孫劍,馮羽.自動(dòng)識(shí)別環(huán)境下車輛的出行矩陣估計(jì)新方法[J].同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,39(12):1800-1804.
[12]李曉莉,石建軍.行程時(shí)間異常值處理方法研究[J].武漢理工大學(xué)學(xué)報(bào)(交通科學(xué)與工程版),2012,36(1):116-119.
[13]侯立文,譚家美.城市交通中利用Gram—Charlier分布估計(jì)行程時(shí)間可靠性[J].中國(guó)管理科學(xué),2009,17(6):139-146.
[14]孫玉硯,孫利民,朱紅松,等.基于車牌識(shí)別系統(tǒng)車輛軌跡的行為異常檢測(cè)[J].計(jì)算機(jī)研究與發(fā)展,2015,52(8):1921-1929.
[15]Liu S, Liu Y, Ni L, et al. Detecting Crowdedness Spot in City Transportation[J].IEEE Transactions on Vehicular Technology, 2013, 62(4):1527-1539.
[16]Bacon J,Bejan A I,Beresford A R,et al.Using Real-Time Road Traffic Data to Evaluate Congestion[M].Dependable and Historic Computing.Springer Berlin Heidelberg,2011:93-117.
[17]Mohamad I, Ali M A M, Ismail M. Abnormal driving detection using real time Global Positioning System data[C]// IEEE International Conference on Space Science and Communication. IEEE, 2011:1-6.
周世兵.聚類分析中的最佳聚類數(shù)確定方法研究及應(yīng)用[D].江南大學(xué),2011.
T. Caliński, J Harabasz. A dendrite method for cluster analysis[J].Communications in Statistics, 1974,3(1):1-27.
[18]周世兵.聚類分析中的最佳聚類數(shù)確定方法研究及應(yīng)用[D].江南大學(xué),2011.
[19]T.Caliński,J Harabasz.A dendrite method for cluster analysis[J].Communications in Statistics,1974,3(1):1-27.